内容简介
第1章 Spark和Spark Streaming的安装与配置
安装Spark
硬件需求
软件需求
安装Spark扩展——Spark Streaming
配置和运行Spark集群
你的第一个Spark程序
用Scala编码Spark作业
用Java开发Spark作业
管理员/开发者工具
集群管理
提交Spark作业
故障定位
配置端口号
类路径问题——类没有发现
其他常见异常
总结
第2章 Spark和Spark Streaming的体系结构与组件
批处理和实时数据处理的比较
批处理
实时数据处理
Spark的体系结构
Spark对比Hadoop
Spark的层次化结构
Spark Streaming的体系结构
Spark Streaming是什么
Spark Streaming的上层体系结构
你的第一个Spark Streaming程序
用Scala编码Spark Streaming作业
用Java编码Spark Streaming作业
客户端程序
打包和部署一个Spark Streaming作业
总结
第3章 实时处理分布式日志文件
Spark的封装结构和客户端API
Spark内核
Spark库及扩展
弹性分布式数据集及离散流
弹性分布式数据集
离散流
从分布的、多样的数据源中加载数据
Flume框架
Flume的安装和配置
配置Spark以接收Flume事件
封装和部署Spark Streaming作业
分布式日志文件处理的总体架构
总结
第4章 在流数据中应用Transformation
理解并应用Transformation功能
模拟日志流
功能操作
转换操作
窗口操作
性能调优
分块和并行化
序列化
Spark内存调优
总结
第5章 日志分析数据的持久化
Spark Streaming的输出操作
集成Cassandra
安装和配置Apache Cassandra
配置Spark
通过编写Spark作业将流式网页日志存入Cassandra
总结
第6章 与Spark高级库集成
实时查询流数据
了解Spark SQL
集成Spark SQL与流数据
图的分析——Spark GraphX
GraphX API介绍
集成Spark Streaming
总结
第7章 产品部署
Spark部署模式
部署在Apache Mesos上
部署在Hadoop或者YARN上
高可用性和容错性
单机模式下的高可用性
Mesos或者YARN下的高可用性
容错性
Streaming作业的监听
应用程序UI界面/作业UI界面
与其他监控工具的集成
总结