内容简介
第1章 概论
1.1大数据技术简介
1.1.1大数据技术的起源
1.1.2大数据应用领域
1.1.3大数据基础设施
1.2大数据技术与大数据开发
1.2.1什么是大数据开发
1.2.2大数据开发的作用
1.2.3大数据开发技术框架
1.2.4大数据开发与大数据分析的异同
1.3本书中你将学习到的内容
本章小结
本章练习
第2章 Hadoop集群环境搭建
2.1Hadoop简介
2.1.1Hadoop的优点
2.1.2Hadoop生态系统
2.2Hadoop集群环境搭建
2.2.1修改主机名
2.2.2修改主机IP映射
2.2.3配置SSH无密码登录
2.2.4安装JDK
2.2.5安装Hadoop
本章小结
本章练习
第3章 HDFS
3.1HDFS的概念
3.2HDFS的特点
3.3HDFS的原理
3.3.1HDFS体系结构
3.3.2HDFS主要组件
3.4HDFS中的文件读/写
3.4.1HDFS读数据
3.4.2HDFS写数据
3.5HDFS的安全性措施
3.6HDFS命令行操作
3.7常用HDFS Java API详解
3.7.1新建Hadoop项目
3.7.2读取数据
3.7.3创建目录
3.7.4创建文件
3.7.5删除文件
3.7.6遍历文件和目录
3.7.7复制上传本地文件
3.7.8复制下载文件
本章小结
本章练习
第4章 MapReduce
4.1MapReduce概述
4.2MapReduce技术特征
4.3MapReduce工作流程
4.3.1MapReduce工作原理
4.3.2MapReduce任务流程
4.4MapReduce工作组件
4.5MapReduce错误处理机制
4.5.1硬件故障处理
4.5.2任务失败处理
4.6案例分析一:单词计数
4.6.1设计思路
4.6.2程序源代码
4.6.3程序解读
4.6.4程序运行
4.7案例分析二:数据去重
4.7.1设计思路
4.7.2程序源代码
4.7.3程序解读
4.7.4程序运行
本章小结
本章练习
第5章 ZooKeeper
5.1ZooKeeper简介
5.1.1主要优势
5.1.2总体架构
5.1.3应用场景
5.2ZooKeeper的特性
5.2.1数据模型
5.2.2节点类型
5.2.3Watcher机制
5.2.4分布式锁
5.2.5权限控制
5.3ZooKeeper问题与应对
5.4ZooKeeper安装和配置
5.4.1单机模式
5.4.2集群模式
5.4.3伪分布模式
5.5ZooKeeper命令行工具
5.6ZooKeeper Java API
5.6.1常用接口
5.6.2创建节点
5.6.3添加数据
5.6.4获取数据
5.6.5删除节点
本章小结
本章练习
第6章 HBase
6.1HBase简介
6.2HBase与RDBMS
6.3HBase数据结构
6.3.1相关概念
6.3.2存储特点
6.4HBase组成架构
6.4.1HMaster
6.4.2HRegionServer
6.4.3HRegion
6.4.4ZooKeeper
6.4.5HFile
6.4.6HLog
6.5HBase表结构
6.6HBase集群安装
6.6.1单机模式
6.6.2伪分布模式
6.6.3全分布模式
6.7HBase Shell
6.8HBase Java API的基本操作
6.8.1创建Java工程
6.8.2创建表
6.8.3添加数据
6.8.4查询数据
6.8.5删除数据
6.9HBase过滤器
6.9.1过滤器简介
6.9.2行键过滤器
6.9.3列族过滤器
6.9.4列过滤器
6.9.5值过滤器
6.9.6单列值过滤器
本章小结
本章练习
第7章 Hive
7.1Hive简介
7.1.1系统结构和工作方式
7.1.2Hive数据模型
7.1.3Hive内置服务
7.2Hive环境搭建
7.3Hive命令行
7.3.1Hive CLI交互式命令行
7.3.2hive命令
7.4HiveQL详解
7.4.1DDL操作
7.4.2DML操作
7.5Hive JDBC
7.5.1配置和启动HiveServer2
7.5.2JDBC访问Hive
7.5.3JDBC示例代码
本章小结
本章练习
第8章 Storm
8.1简介
8.1.1基础知识
8.1.2集群环境搭建
8.2Topology入门
8.2.1Hello World Topology
8.2.2Topology生命周期
8.3命令行和UI
8.3.1常用命令行简介
8.3.2Storm UI简介
8.4常用API详解
8.4.1TopologyBuilder
8.4.2Component
本章小结
本章练习
第9章 Sqoop
9.1Sqoop简介
9.1.1Sqoop基本架构
9.1.2Sqoop实际应用
9.2导入/导出工具
9.2.1数据导入工具import
9.2.2数据导出工具export
9.3Sqoop安装与配置
9.4案例分析:使用Sqoop进行数据导入/导出
9.4.1将MySQL表数据导入到HDFS中
9.4.2将HDFS中的数据导出到MySQL中
9.4.3将MySQL表数据导入到HBase中
本章小结
本章练习
第10章 Kafka
10.1Kafka简介
10.1.1基本概念
10.1.2集群架构
10.1.3主题和分区
10.1.4消费者组
10.1.5主要特性
10.1.6应用场景
10.2Kafka集群搭建
10.2.1前提条件
10.2.2搭建步骤
10.3Kafka集群测试
10.3.1创建主题
10.3.2查询主题
10.3.3创建生产者
10.3.4创建消费者
10.4Kafka Java API
10.4.1创建生产者
10.4.2创建消费者
10.4.3运行程序
本章小结
本章练习
第11章 Spark
11.1Spark简介
11.1.1Spark基本概念
11.1.2Spark的优势
11.1.3Spark的核心组件
11.1.4Spark应用程序执行流程
11.2Spark集群环境搭建
11.2.1前提条件
11.2.2搭建步骤
11.3Spark Shell命令操作
11.4Spark编程
11.4.1IntelliJ IDEA开发环境搭建
11.4.2初始化SparkContext
11.4.3向Spark提交应用程序
11.4.4RDD编程
11.5Spark数据读写
11.5.1Spark文件的读取与保存
11.5.2文件系统和数据库简介
本章小结
本章练习
第12章 ElasticSearch
12.1简介
12.1.1ES的起源
12.1.2ES的功能特性
12.1.3ES的应用场景
12.2基础知识
12.2.1基本概念
12.2.2面向文档
12.2.3与ES交互
12.3环境搭建
12.4RESTful API简介
12.4.1集群操作
12.4.2文档操作
12.4.3数据操作
12.5Java API简介
12.5.1传输客户端简介
12.5.2文档API
12.5.3搜索API
本章小结
本章练习