内容简介
第1章 大数据概述
1.1 大数据发展历程
1.2 大数据的定义及特征
1.2.1 大数据定义
1.2.2 大数据的关键特征
1.3 大数据与传统数据的区别
1.3.1 数据思维
1.3.2 数据处理
1.3.3 数据分析
1.4 大数据的核心价值
1.5 大数据安全与隐私保护
1.5.1 基础设施安全
1.5.2 数据隐私
1.5.3 数据治理
1.5.4 被动安全机制
第2章 大数据关键技术
2.1 大数据采集与预处理技术
2.1.1 Flume
2.1.2 Scribe
2.1.3 Kafka
2.1.4 Time Tunnel
2.1.5 Chukwa
2.2 大数据存储与管理技术
2.2.1 分布式文件系统
2.2.2 分布式数据库
2.3 大数据分析与挖掘技术
2.3.1 传统数据分析与挖掘方法
2.3.2 大数据分析与挖掘方法
2.3.3 大数据分析与挖掘框架
2.4 大数据应用与展现技术
2.4.1 大数据应用
2.4.2 大数据可视化
第3章 基于Hadoop的大数据生态系统
3.1 Hadoop概述
3.1.1 Hadoop发展历程
3.1.2 Hadoop特点
3.1.3 Hadoop核心思想
3.2 Hadoop家族成员
3.3 Hadoop生态系统
3.3.1 Hadoop 1.0生态系统
3.3.2 Hadoop 2.0生态系统
3.4 Hadoop集群架构
3.4.1 Hadoop 1.0生态系统的集群架构
3.4.2 Hadoop 2.0生态系统的集群架构
3.5 Hadoop运行环境
3.5.1 硬件环境
3.5.2 软件环境
3.5.3 网络环境
3.6 Hadoop集群的安装与配置
3.6.1 准备工作
3.6.2 Hadoop部署
第4章 分布式文件系统HDFS
4.1 HDFS概述
4.2 HDFS基本组成
4.2.1 数据块
4.2.2 元数据节点
4.2.3 辅助元数据节点
4.2.4 数据节点
4.3 HDFS体系架构
4.3.1 Hadoop 1.0生态系统中HDFS体系架构
4.3.2 Hadoop 2.0生态系统中HDFS体系架构
4.4 HDFS核心功能
4.5 HDFS通信机制
4.5.1 RPC Interface
4.5.2 RPC Client
4.5.3 RPC Server
4.5.4 RPC通信实现
4.6 HDFS安全机制
4.6.1 授权机制
4.6.2 认证机制
4.7 HDFS容错机制
4.7.1 副本策略
4.7.2 心跳检测
4.7.3 HDFS HA
4.7.4 HDFS Federation
4.8 HDFS快照机制
4.8.1 快照原理
4.8.2 适用场景
4.8.3 基本操作
4.9 HDFS读写机制
4.9.1 HDFS读机制
4.9.2 HDFS写机制
4.10 HDFS常用操作
4.10.1 dfs命令
4.10.2 dfsadmin命令
4.10.3 Web接口
4.10.4 HDFS API
第5章 分布式计算框架MapReduce
5.1 MapReduce概述
5.2 MapReduce原理
5.3 MapReduce框架
5.3.1 Hadoop 1.0生态系统中MapReduce框架
5.3.2 Hadoop 2.0生态系统中MapReduce框架
5.4 MapReduce开发环境
5.4.1 搭建MapReduce开发环境
5.4.2 开发MapReduce应用程序
5.5 MapReduce编程过程
5.5.1 InputFormat
5.5.2 Map
5.5.3 Combine/Partition
5.5.4 Reduce
5.5.5 OutputFormat
5.6 MapReduce开发实例
5.6.1 MapReduce编程
5.6.2 实例解析
第6章 资源管理框架YARN
6.1 YARN概述
6.2 YARN体系架构
6.2.1 ResourceManager
6.2.2 NodeManager
6.2.3 ApplicationMaster
6.2.4 Container
6.3 YARN工作流程
6.4 YARN通信机制
6.5 YARN安全机制
6.5.1 认证机制
6.5.2 授权机制
6.6 YARN容错机制
6.7 YARN资源调度机制
6.7.1 FIFO Scheduler
6.7.2 Fair Scheduler
6.7.3 Capacity Scheduler
6.8 可在YARN上运行的框架
6.9 YARN编程实例
6.9.1 编程过程
6.9.2 DistributedShell实例
第7章 分布式列存储数据库HBase
7.1 HBase概述
7.2 HBase特点
7.3 HBase体系架构
7.4 HBase安装配置
7.4.1 准备工作
7.4.2 安装HBase
7.4.3 配置HBase
7.4.4 启停HBase
7.5 HBase数据模型
7.5.1 逻辑视图
7.5.2 物理视图
7.6 HBase关键技术
7.6.1 HRegion定位
7.6.2 HRegion分裂
7.6.3 HBase读写机制
7.7 HBase交互接口
7.7.1 Native Java API
7.7.2 HBase Shell
7.8 HBase快照机制
第8章 数据仓库Hive
8.1 Hive概述
8.2 Hive特点
8.3 Hive体系架构
8.4 Hive安装配置
8.4.1 准备工作
8.4.2 安装模式
8.4.3 安装Hive
8.4.4 配置Hive
8.4.5 启动Hive
8.5 Hive数据模型
8.6 Hive数据类型
8.6.1 基本数据类型
8.6.2 复杂数据类型
8.6.3 数据类型转换
8.7 Hive基本操作
8.7.1 DDL操作
8.7.2 DML操作
8.8 Hive内置运算符
8.8.1 关系运算符
8.8.2 算术运算符
8.8.3 逻辑运算符
8.8.4 复杂运算符
8.9 Hive内置函数
8.9.1 数值计算函数
8.9.2 日期函数
8.9.3 条件函数
8.9.4 字符串函数
8.9.5 集合统计函数
8.10 Hive实例
第9章 数据分析与挖掘Mahout
9.1 Mahout概述
9.2 Mahout安装配置
9.2.1 Mahout安装
9.2.2 Mahout配置
9.2.3 Mahout测试
9.3 Mahout算法集
9.4 分类算法
9.4.1 逻辑回归
9.4.2 贝叶斯
9.4.3 随机森林
9.5 聚类算法
9.5.1 Canopy聚类
9.5.2 K-means聚类
9.6 模式挖掘算法
9.7 协同过滤算法
9.7.1 收集用户偏好
9.7.2 相似度计算
9.7.3 推荐计算
第10章 大数据应用
10.1 大数据应用现状及发展趋势
10.1.1 产业现状
10.1.2 应用现状
10.1.3 发展趋势
10.2 互联网大数据应用
10.3 金融行业大数据应用
10.4 电信行业大数据应用
10.5 医疗行业大数据应用
10.6 智慧交通大数据应用
10.7 大数据应用案例
10.7.1 互联网大数据应用案例
10.7.2 智慧交通大数据应用案例
附表
参考文献