本书以数据智能技术为核心,深入剖析了其在全球数据爆炸性增长背景下的应用与发展。内容涵盖自然语言文字、图像识别、视频、音频、时间序列、时空、社交网络、生物信息学及多模态等9大关键领域数据的分析与处理。全书系统回顾了每个领域中的基础理论、关键技术进展及其实际应用案例,理论与实践紧密结合,条理清晰,并提供丰富的习题和参考文献
本书是大数据新兴领域“十四五”高等教育教材。本书主要介绍数据全与隐私保护的相关知识、技术和方法,主要内容包括:导论、密码学、数据存储与处理安全、数据传输安全、身份认证与访问控制、数据隐私保护、大数据算法安全与隐私保护、隐私保护案例分析,涉及数据存储、数据处理、数据传输、数据共享和数据使用等生命周期的安全保护,以及隐私保
本书是大数据新兴领域“十四五”高等教育教材。本书系统、全面地阐述了大数据管理的基本概念、技术和方法。全书分为三篇,共9章。第一篇为数据管理系统概述,包含第1章,综述了数据管理系统发展所经历的四个阶段,以及大数据管理系统的数据特征和系统特征,阐述了大数据管理系统的组成,指出大数据管理系统完成了从NoSQL到NewSQL的
本书着重介绍大数据建模与分析中常用的概率极限理论,主要内容包括相依随机变量和过程的极限理论、Stein方法及其应用、自正则化极限理论、高维样本协方差矩阵的谱统计量渐近分布理论、随机梯度方法及其应用、随机复杂网络的整体和局部结构、分布式统计推断方法和渐近理论、Gauss逼近原理及其应用等。
本书共分为8章,每一章都围绕完整的项目展开,涵盖Spark的各个重要组件。包括认识Spark、Scala语法应用、SparkCore数据分析、SparkSQL结构化数据处理、Spark、流式数据处理,Spark结构化流式处理、Spark机器学习应用、社交软件运营数据分析,逐步提升读者的技术水平和应用能力。每个项目由多个
本书精心编排为15章,内容包括Spark简介、Spark集群环境部署、Spark编程体验、RDD深度解读、RDD的Shuffle详解、Spark共享变量、Spark序列化和线程安全、Spark内存管理机制、SparkSQL简介、SparkSQL抽象编程详解、SparkSQL自定义函数、SparkSQL源码解读、Spar
本书提供了完整的数据资产对内运营与对外运营的实施路径,从数据治理、数据资产入表到数据资产场景化应用,再到完整的数据资产运营,每个环节都有明确的实施路径及重点、难点。通过系统化的讲解,确保读者在理解每个概念的同时,能够掌握如何落地实施,避免出现知识断层的情况。 数据资产入表、管理和运营的核心是数据资产本身,法律、财务、评
知识图谱以三元组形式组织现实世界的各种事实,并通过图的形式揭示事实间语义关联,由于其完善的知识组织和存储方式,且建模更加灵活、表达能力更强,逐渐拓展到语言理解、智能问答、推荐系统等领域应用。工程应用场景中时序信息相关的动态性是知识图谱关键及主要特征,融合时序相关信息的动态知识推理对于提高知识图谱推荐、问答等应用的精准性
本书分为四篇,覆盖了数据治理项目的各个方面。建设篇:阐述了数据治理的价值与意义,并详细介绍了数据治理项目的准备工作以及建设流程,为组织提供了数据治理项目实施的框架和方法论。场景篇:深入探讨了主数据管理、数据质量管理、数据标准管理、数据共享与交换、数据资产管理、数据应用等典型应用场景,并分析了这些场景中需解决的问题和实践
本书围绕数据采集、清洗和标注三个环节展开,旨在为读者提供全面而深入的数据处理知识。首先介绍了数据采集的基础,从原始数据采集与互联网数据采集两个角度,阐述了数据采集的常用技术和方法。其次介绍了数据清洗的知识要点,针对结构化和非结构化两种数据组织形式,展现了如何通过有效的清洗技巧提升数据质量。接着通过文本、图像、视频、语音