本书共8章,内容主要包括Spark概述及入门实战,Spark的作业调度和资源分配算法,SparkSQL、DataFrame、Dataset的原理和实战,深入理解Spark数据源,流式计算的原理和实战,亿级数据处理平台Spark性能调优,Spark机器学习库,Spark3.0的新特性和数据湖等。 本书适合Spark开发人
本书围绕大数据采集、汇聚、存储、计算、分析、挖掘、可视化等处理全过程,基于Flume、Kafka、HDFS、HBase、MapReduce、Spark、Hive、ECharts等主流软件全面介绍大数据的基础原理和核心技术,以及人工智能、云计算和物联网等大数据相关内容,并在此基础上进一步阐述政务、商业等行业大数据,以及文
本书基于Flink的稳定版本1.13,从Flink数据处理思想开始讲解,带领读者深入理解Flink的基本架构,进而由浅入深,结合具体案例,详细剖析了Flink中DataStreamAPI的使用,并对Flink中的时间语义、状态、容错机制等重要概念进行了详尽的阐述。另外,本书还对实际开发中常用的FlinkSQL、CEP等
本书以数据思维为主题,以数据分析全流程为主线,融合了与数据思维相关的编程语言、统计学基础及案例分析等内容,全书分为4篇,囊括了数据思维的概念和培养方法、数据来源及体系建设、数据分析三大思维方式及用户流失、用户转化实战等共11章的内容。本书囊括了数据分析中常用的分析方法,包括经典的海盗(AARRR)模型、麦肯锡的MECE
本书详细阐述了大数据领域数据采集与预处理的相关理论和技术。全书共8章,内容包括概述、大数据实验环境搭建、网络数据采集、分布式消息系统Kafka、日志采集系统Flume、数据仓库中的数据集成、ETL工具Kettle、使用pandas进行数据清洗。本书在第3章至第8章中安排了丰富的实践操作,以便读者更好地学习和掌握数据采集
随着科学技术的迅猛发展,具有复杂分层结构的数据在现实生活中很普遍。能完全剖析这类数据,发觉该类数据表象下的潜在规律性对于统计学等科研领域很有意义。本书致力于介绍复杂分层数据分析前沿知识,侧重于分层分位回归理论、方法及其应用研究。内容主要包括三大块:分层数据建模、分位回归与分层-分位回归。主要涉及到线性分层分位回归模拟、
本书通过理论与实践相结合的方式,深入浅出地介绍了文件系统的概念、原理和具体实现。本书涵盖本地文件系统、网络文件系统、分布式文件系统和对象存储等内容,可以说涵盖了数据持久化文件系统的主要领域。为了使读者更加深入地理解文件系统的原理,本书不仅介绍了文件系统的原理和关键技术,还结合开源项目介绍了文件系统的实现细节。最后,本书
数据分析是指用适当的数学方法对收集来的大量数据进行分析,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究及概括总结的过程。数据分析的目的在于把隐藏在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来。 数据科学是高等学校非计算机专业本科学生必修的一门公共基础课程,
在处理现实的工程或管理问题时,数据的微小波动不可忽略且影响深远,这为鲁棒优化方法的产生提供了契机并推动其迅速发展.本书主要介绍了不确定决策系统中鲁棒优化及分布鲁棒优化方法的一些研究进展.在鲁棒优化方面,给出了不确定集交下的一些新结果并将其应用到可持续发展与应急救援问题中.在分布鲁棒优化方面,介绍了随机分布鲁棒优化及模糊
本书从计算机控制系统的信号转换开始,详细阐述了计算机控制系统的建模、性能分析、控制器设计及控制系统仿真与实现的理论、方法和实用技术。