主页 详情

《大数据技术与应用专业规划教材 大数据基础及应用》_吕云翔,钟巧灵,衣志昊编著_14182091_7302466918

【书名】:《大数据技术与应用专业规划教材 大数据基础及应用》
【作者】:吕云翔,钟巧灵,衣志昊编著
【出版社】:北京:清华大学出版社
【时间】:2017
【页数】:232
【ISBN】:7302466918
【SS码】:14182091

最新查询

内容简介

第一部分 大数据概述及基础

第1章 大数据概念和发展背景

1.1 什么是大数据

1.2 大数据的特点

1.3 大数据的发展

1.4 大数据的应用

1.5 习题

第2章 大数据系统架构概述

2.1 总体架构概述

2.1.1 总体架构设计原则

2.1.2 总体架构参考模型

2.2 运行架构概述

2.2.1 物理架构

2.2.2 集成架构

2.2.3 安全架构

2.3 阿里云飞天系统体系架构

2.3.1 阿里云飞天整体架构

2.3.2 阿里云飞天平台内核

2.3.3 阿里云飞天开放服务

2.3.4 阿里云飞天的特色

2.4 主流大数据系统厂商

2.4.1 阿里云数加平台

2.4.2 Cloudera

2.4.3 Hortonworks

2.4.4 Amazon

2.4.5 Google

2.4.6 微软

2.5 习题

第3章 分布式通信与协同

3.1 数据编码传输

3.1.1 数据编码概述

3.1.2 LZSS算法

3.1.3 Snappy压缩库

3.2 分布式通信系统

3.2.1 远程过程调用

3.2.2 消息队列

3.2.3 应用层多播通信

3.2.4 阿里云夸父RPC系统

3.2.5 Hadoop IPC的应用

3.3 分布式协同系统

3.3.1 Chubby锁服务

3.3.2 ZooKeeper

3.3.3 阿里云女娲协同系统

3.3.4 ZooKeeper在HDFS高可用方案中的使用

3.4 习题

第4章 大数据存储

4.1 大数据存储技术的发展

4.2 海量数据存储的关键技术

4.2.1 数据分片与路由

4.2.2 数据复制与一致性

4.3 重要数据结构和算法

4.3.1 Bloom Filter

4.3.2 LSM Tree

4.3.3 Merkle Tree

4.3.4 Cuckoo Hash

4.4 分布式文件系统

4.4.1 文件存储格式

4.4.2 GFS

4.4.3 HDFS

4.4.4 阿里云盘古

4.5 分布式数据库NoSQL

4.5.1 NoSQL数据库概述

4.5.2 KV数据库

4.5.3 列式数据库

4.5.4 图数据库

4.5.5 文档数据库

4.6 阿里云数据库

4.6.1 云数据库Redis

4.6.2 云数据库RDS

4.6.3 云数据库Memcache

4.7 大数据存储技术的趋势

4.8 习题

第二部分 大数据处理

第5章 分布式处理

5.1 CPU多核和POSIX Thread

5.2 MFI并行计算框架

5.3 Hadoop MapReduce

5.4 Spark

5.5 数据处理技术的发展

5.6 习题

第6章 Hadoop MapReduce解析

6.1 Hadoop MapReduce架构

6.2 Hadoop MapReduce与高效能计算、网格计算的区别

6.3 MapReduce工作机制

6.3.1 Map

6.3.2 Reduce

6.3.3 Combine

6.3.4 Shuffle

6.3.5 Speculative Task

6.3.6 任务容错

6.4 应用案例

6.4.1 WordCount

6.4.2 WordMean

6.4.3 Grep

6.5 MapReduce的缺陷与不足

6.6 习题

第7章 Spark解析

7.1 Spark RDD

7.2 Spark与MapReduce的对比

7.3 Spark的工作机制

7.3.1 DAG工作图

7.3.2 Partition

7.3.3 Lineage容错方法

7.3.4 内存管理

7.3.5 数据持久化

7.4 数据的读取

7.4.1 HDFS

7.4.2 Amazon S3

7.4.3 HBase

7.5 应用案例

7.5.1 日志挖掘

7.5.2 判别西瓜好坏

7.6 Spark的发展趋势

7.7 习题

第8章 流计算

8.1 流计算概述

8.2 流计算与批处理系统的对比

8.3 Storm流计算系统

8.4 Samza流计算系统

8.5 阿里云流计算

8.6 集群日志文件的实时分析

8.7 流计算的发展趋势

8.8 习题

第9章 图计算

9.1 图计算概述

9.2 图计算与流计算、批处理的对比

9.3 Spark GraphX

9.4 Pregel

9.5 航班机场状态分析

9.6 图计算的发展趋势

9.7 习题

第10章 阿里云大数据计算服务平台

10.1 MaxCompute概述

10.2 MR计算

10.3 SQL计算

10.4 Graph计算

10.5 习题

第11章 集群资源管理与调度

11.1 集群资源统一管理系统

11.1.1 集群资源管理概述

11.1.2 Apache YARN

11.1.3 Apache Mesos

11.1.4 Google Omega

11.2 资源管理模型

11.2.1 基于slot的资源表示模型

11.2.2 基于最大最小公平原则的资源分配模型

11.3 资源调度策略

11.3.1 调度策略概述

11.3.2 Capacity Scheduler调度

11.3.3 Fair Scheduler调度

11.4 在YARN上运行计算框架

11.4.1 MapReduce on YARN

11.4.2 Spark on YARN

11.4.3 YARN程序设计

11.5 阿里云伏羲调度系统

11.5.1 伏羲调度系统架构

11.5.2 5K挑战

11.5.3 伏羲优化实践

11.6 习题

第三部分 大数据分析与应用

第12章 数据分析

12.1 数据操作与绘图

12.1.1 数据结构

12.1.2 绘图功能

12.2 初级数据分析

12.2.1 描述性统计分析

12.2.2 回归诊断

12.3 交互式数据分析

12.3.1 交互式数据分析的特征

12.3.2 交互式数据处理的典型应用

12.3.3 典型的处理系统

12.4 数据仓库与分析

12.4.1 数据仓库的基本架构

12.4.2 数据仓库的实现步骤

12.4.3 分布式数据仓库Hive

12.4.4 数据仓库之SQL分析

12.4.5 阿里云MaxCompute数据仓库案例

12.5 习题

第13章 数据挖掘与机器学习技术

13.1 相关理论基础知识

13.1.1 数据挖掘与机器学习简介

13.1.2 关联分析

13.1.3 分类与回归

13.1.4 聚类分析

13.1.5 离群点检测

13.1.6 复杂数据类型的挖掘

13.2 应用实践

13.2.1 广告点击率预测

13.2.2 并行随机梯度下降

13.2.3 自然语言处理:文档相似性的计算

13.2.4 阿里云PAI与ET

13.3 深度学习

13.3.1 深度学习简介

13.3.2 DistBelief

13.3.3 TensorFlow

13.4 数据挖掘与机器学习的发展趋势

13.5 习题

第14章 大数据实践:基于数加平台的推荐系统

14.1 数据集简介

14.2 数据探索

14.3 方案设计

14.4 训练集构造

14.4.1 MapReduce环境配置

14.4.2 MapReduce代码编写

14.4.3 特征提取与标签提取

14.4.4 训练集采样

14.4.5 缺失值填充

14.5 模型训练与预测

14.6 模型预测的准确性评测

14.7 特征重要性的评估

14.8 总结

参考文献


书查询(www.shuchaxun.com)本网页唯一编码:
06b6af92fd492d190a1d2272a2fc1c07#51b5d76ab5a2cd8a2d0f0452c38baf59#31665050#大数据基础及应用_14182091.zip