主页 详情

《数据科学与大数据技术导论》_陈明编著_14599206_9787303234523

【书名】:《数据科学与大数据技术导论》
【作者】:陈明编著
【出版社】:北京:北京师范大学出版社
【时间】:2018
【页数】:351
【ISBN】:9787303234523
【SS码】:14599206

最新查询

内容简介

第1章 概述

1.1 数据科学

1.1.1 数据科学的产生与发展

1.1.2 数据科学的相关术语

1.1.3 数据科学的主要内容

1.1.4 数据科学的研究过程与体系框架

1.1.5 数据科学、数据技术与数据工程

1.1.6 大数据问题

1.2 大数据的生态环境

1.2.1 互联网世界

1.2.2 物理世界

1.3 大数据的概念

1.3.1 数据容量

1.3.2 数据类型

1.3.3 价值密度

1.3.4 速度

1.3.5 真实性

1.4 大数据的性质

1.4.1 非结构性

1.4.2 不完备性

1.4.3 时效性

1.4.4 安全性

1.4.5 可靠性

1.5 大数据处理周期

1.5.1 大数据处理的全过程

1.5.2 大数据技术的特征

1.5.3 大数据的几个热点问题

1.6 科学研究范式

1.6.1 科学研究范式的产生与发展

1.6.2 数据密集型科学研究第四范式

本章小结

第2章 大数据获取与存储管理技术

2.1 大数据获取

2.1.1 大数据获取的挑战

2.1.2 传统数据获取与大数据获取区别

2.2 领域数据的获取

2.2.1 文本数据获取

2.2.2 语音视频数据获取

2.2.3 图片数据获取

2.2.4 摄像头视频数据获取

2.2.5 图像数字化数据获取

2.2.6 图形数字化数据获取

2.2.7 020 LBS数据获取

2.2.8 空间数据获取

2.3 网站数据

2.3.1 网站内部数据获取

2.3.2 网站外部数据获取

2.3.3 移动网站数据获取

2.4 大数据存储

2.4.1 大数据存储模型

2.4.2 大数据存储问题

2.4.3 大数据存储方式

2.5 大数据的存储管理技术

2.5.1 数据容量问题

2.5.2 大图数据

2.5.3 数据存储管理

2.6 NewSQL和NoSQL

2.6.1 NoSQL

2.6.2 NewSQL

2.6.3 混合应用模式

2.7 分布式文件系统

2.7.1 评价指标

2.7.2 HDFS文件系统

2.7.3 NFS文件系统

2.7.4 FastDFS

2.8 虚拟存储技术

2.8.1 虚拟存储特点

2.8.2 虚拟存储的应用

2.9 存储技术

2.9.1 云存储原理

2.9.2 网络结构

2.9.3 云的分类

本章小结

第3章 大数据抽取技术

3.1 数据抽取技术概述

3.1.1 数据抽取的定义

3.1.2 数据映射与数据迁移

3.1.3 数据抽取程序

3.1.4 Kettle数据处理工具

3.1.5 数据抽取方式

3.2 增量数据抽取技术

3.2.1 增量抽取特点与策略

3.2.2 基于触发器的增量抽取方式

3.2.3 基于时间戳的增量抽取方式

3.2.4 全表删除插入方式

3.2.5 全表比对抽取方式

3.2.6 日志表方式

3.2.7 系统日志分析方式

3.2.8 各种数据抽取机制的比较与分析

3.3 非结构化数据抽取

3.3.1 非结构化数据类型

3.3.2 非结构化数据模型

3.3.3 非结构化数据组织

3.3.4 纯文本抽取通用程序库

本章小结

第4章 数据清洗技术

4.1 数据质量与数据清洗

4.1.1 数据质量

4.1.2 数据质量提高技术

4.1.3 数据清洗算法的标准

4.1.4 数据清洗的过程与模型

4.2 不完整数据清洗

4.2.1 基本方法

4.2.2 基于k-NN近邻缺失数据的填充算法

4.3 异常数据清洗

4.3.1 异常值产生的原因

4.3.2 统计方法

4.3.3 基于邻近度的离群点检测

4.4 重复数据清洗

4.4.1 使用字段相似度识别重复值算法

4.4.2 搜索引擎快速去重算法

4.5 文本清洗

4.5.1 字符串匹配算法

4.5.2 文本相似度度量

4.6 数据清洗技术的实现

4.6.1 数据清洗的步骤

4.6.2 数据清洗的工具

本章小结

第5章 大数据去噪与标准化

5.1 基本的数据转换方法

5.1.1 对数转换

5.1.2 平方根转换

5.1.3 平方转换

5.1.4 倒数变换

5.2 数据平滑技术

5.2.1 移动平均法

5.2.2 指数平滑法

5.2.3 分箱平滑法

5.3 数据规范化

5.3.1 最小—最大规范化方法

5.3.2 z分数规范化方法

5.3.3 小数定标规范化方法

5.4 数据泛化处理

5.4.1 空间数据支配泛化算法

5.4.2 非空间数据支配泛化方法

5.4.3 统计信息网格方法

本章小结

第6章 大数据约简技术

6.1 数据约简概述

6.1.1 数据约简定义

6.1.2 数据约简策略

6.2 特征约简

6.2.1 特征提取

6.2.2 特征选择

6.2.3 基于主成分分析的特征约简方法

6.3 样本约简

6.3.1 随机抽样

6.3.2 系统抽样

6.3.3 分层抽样

6.4 数据立方体聚集

6.4.1 多维性

6.4.2 数据聚集

6.5 维约简

6.5.1 维约简的定义

6.5.2 维约简的分类

6.6 属性子集选择算法

6.6.1 逐步向前选择属性

6.6.2 逐步向后删除属性

6.6.3 混合式选择

6.6.4 判定树归纳

6.7 数据压缩

6.7.1 离散小波变换方法

6.7.2 主要成分分析压缩方法

6.8 数值约简

6.8.1 有参数值约简

6.8.2 无参数值约简

6.9 数值离散化与概念分层

6.9.1 基于数值属性的概念分层

6.9.2 数值数据的离散化

本章小结

第7章 大数据集成技术

7.1 数据集成技术概述

7.1.1 数据集成的概念与相关问题

7.1.2 数据集成的核心问题

7.1.3 数据集成的分类

7.2 数据迁移

7.2.1 在组织内部移动数据

7.2.2 非结构化数据集成

7.2.3 将处理移动到数据端

7.3 数据集成模式

7.3.1 联邦数据库集成模式

7.3.2 中间件集成模式

7.3.3 数据仓库集成模式

7.4 数据集成系统

7.4.1 全局模式

7.4.2 语义映射

7.4.3 查询重写

7.5 数据集成系统的构建

7.5.1 模式之间映射关系的生成

7.5.2 适应性查询

7.5.3 XML

7.5.4 P2P数据管理

7.6 数据聚类集成

7.6.1 数据聚类集成概述

7.6.2 高维数据聚类集成

7.7 实时数据集成

7.7.1 基于中间件层的实时数据集成模式

7.7.2 基于数据源层和中间件层的实时数据集成模式

7.7.3 基于数据仓库和中间件层的集成模式

7.7.4 基于数据网格的实时数据集成模式

本章小结

第8章 大数据挖掘技术

8.1 数据挖掘理论基础

8.1.1 数据挖掘是面向实际应用的技术

8.1.2 数据挖掘的理论基础

8.1.3 基于数据存储方式的数据挖掘

8.2 关联规则挖掘

8.2.1 经典的频繁项目集生成算法

8.2.2 关联规则挖掘质量

8.3 分类

8.3.1 分类定义与分类步骤

8.3.2 基于距离的分类算法

8.3.3 决策树分类方法

8.4 聚类方法

8.4.1 距离与相似性的度量

8.4.2 划分聚类方法

8.4.3 层次聚类方法

8.5 序列模式挖掘

8.5.1 时间序列预测的常用方法

8.5.2 序列模式挖掘

8.6 Web挖掘技术

8.6.1 Web内容挖掘方法

8.6.2 Web访问信息挖掘方法

8.6.3 Web结构挖掘方法

8.7 非结构化文本数据挖掘

8.7.1 用户反馈文本

8.7.2 用户反馈文本挖掘的一般过程

8.7.3 文本的自然语言处理

本章小结

第9章 大数据分析

9.1 大数据分析定义与方法

9.1.1 大数据分析的类型

9.1.2 数字特征

9.1.3 统计方法论

9.1.4 模型与构建

9.1.5 R语言

9.2 统计分析的基本方法

9.2.1 指标对比分析

9.2.2 分组分析

9.2.3 综合评价分析

9.2.4 指数分析

9.2.5 平衡分析

9.2.6 趋势分析

9.2.7 显著性检验

9.2.8 结构分析

9.2.9 因素分析

9.2.1 0交叉分析

9.3 高级数据分析方法

9.3.1 动态分析法

9.3.2 相关分析

9.3.3 回归分析

9.3.4 判别分析

9.3.5 对应分析

9.3.6 主成分分析

9.3.7 多维尺度分析

9.3.8 方差分析

本章小结

第10章 分析结果的解释

10.1 分析结果的可视化解释

10.1.1 解释的目的与主要内容

10.1.2 检查和验证假设

10.1.3 追踪分析过程

10.2 基本展现方式

10.2.1 基于时间变化的可视化展现

10.2.2 由大及小的可视化展现

10.2.3 由小及大的可视化展现

10.2.4 突出对比的可视化展现

10.2.5 地域空间可视化展现

10.2.6 概念可视化展现

10.2.7 气泡图可视化展现

10.2.8 注重交叉点的数据可视化展现

10.2.9 剖析原因的数据可视化展现

10.2.10 异常值数据可视化展现

10.3 大数据中的常用可视化展现

10.3.1 文本可视化

10.3.2 网络(图)可视化

10.3.3 时空数据可视化

10.3.4 多维数据可视化

10.3.5 基于ECharts.js可视化工具

10.4 大数据可视分析

10.4.1 可视分析的理论基础

10.4.2 大数据可视分析技术

本章小结

第11章 大数据机器学习

11.1 机器学习概述

11.1.1 机器学习的产生与发展

11.1.2 机器学习类型

11.1.3 知识表示形式

11.1.4 机器学习的典型算法

11.2 大数据机器学习的特点与算法

11.2.1 大数据机器学习的特点

11.2.2 大数据机器学习的评测指标

11.2.3 大数据机器学习算法

11.3 大数据机器学习的应用

11.3.1 大数据的空气质量推断

11.3.2 人与建筑的关系分析

11.3.3 针对全球问题的预测模型

11.3.4 地表可视化与数据分析

本章小结

第12章 大数据离线计算技术

12.1 数据离线计算概述

12.1.1 大数据离线处理特点

12.1.2 批量计算

12.2 MapReduce的体系结构

12.2.1 MapReduce计算描述

12.2.2 MapReduce适用的场景

12.3 Hadoop分布式计算平台

12.3.1 Hadoop结构与特点

12.3.2 分布式系统与Hadoop

12.3.3 SQL数据库系统与H adoop

12.3.4 基于Hadoop框架的分布计算

12.4 MapReduce程序设计实例分析

12.4.1 单词计数

12.4.2 MapReduce的应用

本章小结

第13章 大数据流式计算技术

13.1 流式数据的概述

13.1.1 流式数据的概念

13.1.2 流式数据源

13.1.3 流式数据的特征

13.2 大数据的计算模式

13.2.1 大数据流式计算模型

13.2.2 流式计算与批量计算的比较

13.2.3 流式计算与实时计算的比较

13.3 流式计算技术的应用

13.3.1 中间计算

13.3.2 流式查询

13.3.3 流式抽样

13.3.4 统计独立元素数

13.3.5 去重计数

13.4 流式计算的系统架构

13.4.1 对称式系统架构

13.4.2 主从式系统架构

13.4.3 数据传输方式

13.4.4 编程接口

13.5 高可用技术

13.5.1 被动等待策略

13.5.2 主动等待策略

13.5.3 上游备份策略

13.6 Storm流处理过程

13.6.1 Storm特点与架构

13.6.2 topology

13.6.3 单词计数topology

13.7 大数据流式计算的应用

本章小结

参考文献


书查询(www.shuchaxun.com)本网页唯一编码:
2ef9c6ea399fdd27de27f40e14325191#b7089399daca2ed1f059f1cbf875d941#80310329#数据科学与大数据技术导论_14599206.zip