数据清洗是大数据预处理的关键环节。面对错综复杂的数据,传统的清洗“脏”数据工作单调且异常辛苦,如果能利用正确的工具和方法,可以让数据清洗工作变得事半功倍。《数据清洗》讲解数据清洗的理论知识和实际应用,《数据清洗》共8章:第1章主要带领大家简单认识数据清洗;第2章主要讲解ETL技术相关的知识;第3章讲解Kettle工具的
本书以实战开发为原则,以Hadoop3.X生态系统内的主要大数据工具整合应用及项目开发为主线,通过Hadoop大数据开发中常见的11个典型模块和3个完整项目案例,详细介绍HDFS、MapReduce、HBase、Hive、Sqoop、Spark等主流大数据工具的整合使用。本书附带资源包括本书核心内容的教学视频,本书所涉
主要内容·大数据技术和Spark概述。·通过实例学习DataFrame、SQL、Dataset等Spark的核心API。·了解Spark的低级API实现,包括RDD以及SQL和DataFrame的执行过程。·了解Spark如何在集群上运行。·Spar
本书以Python作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。全书共8章,内容包括大数据技术概述、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、SparkSQL、SparkStreaming、StructuredStreaming、SparkMLlib等。
现在已经有越来越多的行业和技术领域需要大数据分析系统,例如金融行业需要使用大数据系统进行信贷风控,零售、餐饮行业需要通过大数据系统进行辅助销售决策,各种物联网场景需要大数据系统持续聚合和分析时序数据,各大科技公司需要建立大数据分析中台等等。《大数据综合应用项目实战/高等职业院校基于工作过程项目式系列教材》为培养和开发大
借鉴现实世界的真实案例,本书将教你会你保护关键基础设施系统所必需的方法和安全措施,同时将有助你加速识别这种特有的挑战。本书首先介绍工业控制系统(ICS)技术,包括ICS架构、通信介质及协议等,接着介绍ICS(不)安全问题,然后剖析了个ICS相关的攻击场景,ICS安全话题亦有涉猎,包括网络分割、深度防御策略及保护方案等。
本书以数据挖掘项目的典型开发过程为线索,对数据挖掘的生命周期中的各个环节,以及其中所涉及的概念、方法、技术和过程模型进行了全面细致的介绍。对于数据挖掘核心部分的典型基础算法,通过细致的阐述、详尽的示例和充分的讨论,深入地展示了数据挖掘算法的内涵,以便读者认知、学习和掌握。本书系统地介绍了数据挖掘原理、算法和应用的相关知
内容介绍这是一本从原理与实践角度全面讲解InfluxDB的著作,由架构师、InfluxDB技术专家撰写,融入了作者构建千亿级监控大数据平台的工程实践经验。从生态、应用场景、功能使用、源码分析等角度对InfluxDB进行了深入的讲解,包含9个企业级实战案例,100余示例,300余条命令和语法详解,能帮助读者从零开始,彻底
本书介绍基于西门子机电一体化概念设计(NXMCD)模块的生产线数字孪生制作与调试技术,主要内容分为两部分:第壹部分(第1~6 章)为机电一体化概念设计建模技术,包括简单几何体的三维建模、机电对象运动设置,以及过程控制与协同设计等技术,涵盖了基本机电对象、运动副、耦合副、传感器、运行时参数、运行时表达式、运行时行为、信
本书的主题是数据压缩,也就是用最紧凑的方式来表示数据。本书先讲解了5类数据压缩算法,即变长编码、统计压缩、字典编码、上下文模型和多上下文模型,然后介绍了香农的信息论,以及怎样通过各种方法来突破熵,如统计编码、自适应统计编码、字典转换、上下文数据转换、数据建模等。本书还讨论了数据压缩中的一些要点,如多媒体数据压缩和通用压