伴随Hadoop的成长,Hadoop不再是一个简单的数据分布式存储平台和工具,已经成长为一个完整的生态圈。本书采用Hadoop3.2.2版本,系统讲解Hadoop生态系统主流的大数据分析技术。本书配套示例源码、PPT课件、教学大纲与编程环境。本书共分11章。内容包括Hadoop概述与大数据环境准备、Hadoop伪分布式集群搭建、HDFS分布式存储实战、MapReduce实战、ZooKeeper与高可用集群实战、Hive数据仓库实战、HBase数据库实战、Flume数据采集实战、Kafka实战、影
本书系统性阐述数据安全的范畴和目标,体系架构和关键措施,特别是根据对数据安全风险与挑战的全面和深入的分析,给出数据安全架构设计、隐私保护的监管要求、实施原则、技术选择和业界最佳实践。本书还针对IT网络、电信网络、云和物联网的数据安全展开阐述,对AI、区块链、5G等新兴场景和数据安全的结合点进行分析与介绍,希望能够全面地反映出国内外数据安全领域的理论和技术发展前沿水平。本书不仅可作为高等院校网络空间安全、计算机、信息技术类专业的教材和参考书,也可作为信息安全、数据安全、云计算、隐私保护的从业人员,
本书系统地介绍了数据如何始于业务、取于业务、用于业务。既有扎实的理论铺设,又有具体的案例支撑,通俗易懂地回答了数据“怎么来”和“怎么用”的问题。同时,本书总结出了解决业务分析难题的六大步骤,包括对最终数据分析产生关键影响的数据源的选取方法,以及通过对业务模块的判断确定分析方法的适用场景,最终推演、验证、分析出结论,并选择最优的分析结果展现方式,让数据分析全过程形成闭环。本书的内容从底层原理出发,帮助读者打好数据分析基本功。在原理的讲解过程中,通过提问、思考、解答、案例分享的方式,结合三位专家十多
7大数据陷阱的干货总结与避坑锦囊,教会数据工作者如何在数据陷阱中迅速恢复,避免踩雷 数据陷阱无处不在,任何处理过数据的人都会在不知不觉中多次陷入其中。我们大多数人都还没有学会如何使用现代工具和所掌握的数据类型,从而导致了一些本可以轻易避免的常见的错误。 在本书中,作者为我们展示了以下七种在数据处理过程中常见的数据陷阱: 陷阱1:认知误差——我们如何看待数据; 陷阱2:技术陷阱——我们如何对数据进行处理; 陷阱3:数学失误——我们如何对数据进行计算; 陷阱4:统计疏忽——我们如何对数据
Hadoop是使用最广泛的大数据处理框架之一,在大数据领域有着极其重要的地位,掌握Hadoop可以让学习者对大数据的理解更进一步。本书是基于Hadoop3.1.3编写的,从大数据的特点和处理难点入手,逐步讲解Hadoop的起源和发展。从搭建Hadoop的学习环境开始,依次对Hadoop的三大功能模块进行重点讲解,并且结合大量案例,细致地讲解HDFS、MapReduce、YARN的内核原理和调优方法,还会扩展讲解Hadoop的高可用实现、在生产环境中的调优方法及源码解读。本书广泛适用于大数据的学习
本书围绕新工科背景下大数据人才培养需求编写,系统介绍了大数据采集与预处理、大数据存储与管理、大数据处理与分析、大数据可视化处理流程;重点分析了科大讯飞大数据平台在政务、交通、金融和用户画像等实际场景中的应用,还介绍了大数据实验环境的详细搭建步骤;最后介绍了大数据治理中法律政策、行业标准建设的最新进展,分析了大数据可能带来的伦理风险和应对策略。 本书将大数据基础理论与实际案例结合,辅以编程实践和有针对性的课后习题,可作为高等院校相关专业的导论课教材,也可作为大数据相关从业人员技术参考书。
这是一本能帮助读者快速获取数据产品实战能力数据项目实战能力的著作。全书内容以案例方式组织,围绕数据建设、数据营销、数据驱动3大主题,用14个综合案例进行完整再现和深度复盘,为近10个行业的数据产品提供了可直接参考的解决方案,这些方案同时也适用于其他行业。每个案例从项目背景、方案设计、实现过程、总结与思考等维度展开阐述,层次清晰,可参考性强。全书共14章,分为三部分:数据建设、数据营销和数据驱动。第1部分数据建设(第1~2章)数据建设是数据运转的基础,是数据发挥价值的关键。良好的数据建设能够降低数
一个万物互联的数字化世界正在悄然形成,不知不觉中,我们已经进入到了一个前所未有的数字化与智能化时代。 数智化时代对人类社会的改变是颠覆性的。半导体芯片技术的突飞猛进,使得万物皆可“数”;宽带泛在网络的普及应用,使得万物皆可“连”;云计算(算力)与人工智能(算法)的并行发展,使得万事皆可“算”。数据已成为新的生产要素,算法和算力已成为新的生产动力,机器智能将成为新的生产工具,数字经济、数字社会、数字生活和数字治理都将成为智能革命广阔的主战场。我们该如
本书基于流行稳定版Flink1.13进行讲解,从Flink数据处理思想开始讲起,带领读者深入理解Flink的基本架构,进而由浅入深结合具体案例进行讲解,详细剖析了Flink中DataStreamAPI的使用,并对Flink中的时间语义、状态、容错机制等重要概念进行了详尽的阐释。同时,本书还对实际开发过程中常用的FlinkSQL、CEP等高层级API进行了细致讲解,以电商网站中的实际应用为场景,提供了大量的代码实现。本书分为12章:第1~5章,带领读者初步认识Flink并编写基本的Flink程序;
本书从大数据实时计算框架Spark的编程语言Scala入手,第1~4章重点介绍函数式编程语言Scala的基础语法、面向对象编程以及函数式编程等,再通过编程训练案例介绍Scala这门语言的实际开发应用,为读者后面学习Spark框架打下牢固的编程基础。第5~10章重点介绍Spark的安装部署、SparkCore编程、SparkSQL结构化数据处理以及SparkStreaming实时数据处理等,对它们进行详细的剖析和解读。最后,在第11章中通过网站运营指标统计和IP经纬度热力图分析两个实战开发项目,让