大数据已深深渗透于人们工作和生活的方方面面。然而,大数据从来都不是以“技术”为其**底色,基于数据科学的创新应用,同样需要其他领域深度融合。本书阐述了培养具有大数据素养的综合型人才所需要的相关知识储备。本书不仅介绍大数据处理流程中的技术图谱,而且更侧重地讨论了与数据科学相关的历史、哲学及伦理学,以便于读者拓展跨领域的数
本书的编写目的是向读者介绍数据清洗技术的基本概念与应用。全书共10章,分别为数据清洗概述、文件格式、Web数据抽取、网络爬虫、Kettle数据清洗、数据迁移、文本数据处理、Python数据清洗、DataCleaner数据分析与清洗以及数据清洗综合实训。本书将理论与实践操作相结合,通过大量的案例帮助读者快速了解和应用数据
Kettle是一款国外开源的ETL工具,纯Java编写,无须安装,功能完备,数据抽取高效稳定。本书介绍并演示如何用Kettle完成Hadoop数据仓库上的ETL过程,所有的描绘场景与实验环境都是基于Linux操作系统的虚拟机。全书共分10章,主要内容包括ETL与Kettle的基本概念、Kettle安装与配置、Kettl
ApacheFlink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态的计算,广泛应用于大数据相关的实际业务场景中。本书是一本从零开始讲解Flink的入门教材,学习本书需要有Java编程基础。本书共分10章,内容包括Flink开发环境搭建、Flink架构和原理、时间和窗口、状态管理和容错机制、数据类型与序列
本书以流体为研究对象,将流动过程原理与流动系统管路和设备有机结合,系统阐述了流程性工业的特点、流体的主要性质、流体静力学和动力学基本方程等基本理论,流体流动现象及流动参量的主要测量方法,流动系统的管路组成、管路流动阻力的计算及管路特性分析与计算。重点介绍了以离心泵为代表的流体输送用泵及其选型方法。同时,结合工程教育专业
本书为数据科学领域的技术人员提供了一套详尽的模式,可用于任何基于机器学习的数据分析任务。通过学习这些方法,你至少能找到一种更为有效的模式,并且获得优于传统分析方法的整体系统行为。“元”分析可谓关于“分析”的“分析”,为了理解这种混合方法或元方法,书中必不可少地详述了常规分析方法的技术细节,在此基础上帮助读者理解并应用元
本书是为所有热爱大数据、打算从事大数据相关工作的读者编写的,适合有Java编程基础的学习者参考使用。本书全面介绍了大数据技术生态圈,更在此基础上全景展现了Hadoop大数据分布式系统集群平台的搭建、大数据分布式文件系统HDFS、大数据分布式并行计算框架MapReduce、Hadoop大数据仓库工具Hive和海量日志采集
大数据存储与管理
本书通过两个基本项目介绍了Scala语言的基本语法、函数式编程、高阶函数、模式匹配等相关知识和技术;通过12个实训项目,介绍了Spark的技术栈,内容涵盖SparkCore、SparkSQL、Spark结构化流和Spark机器学习库等相关模块和技术。每个项目相对独立、完整,分为若干个任务,围绕具体的任务来介绍相关的理论
本书系统地介绍了数据科学基础理论、大数据理论、大数据技术及应用的相关内容,具体内容包括数据科学概述、大数据概述、大数据与云计算、大数据的采集与预处理、大数据的存储与处理、大数据分析方法、大数据分析工具、大数据可视化、大数据安全、大数据的应用等。本书针对高等院校数据科学与大数据技术等专业开设的相关课程编写,既可作为高等院