主页 详情

《Spark Streaming 实时流处理入门与精通》_(美)苏密特·古普塔(Sumit Gupta)_14177616_9787121310492

【书名】:《Spark Streaming 实时流处理入门与精通》
【作者】:(美)苏密特·古普塔(Sumit Gupta)
【出版社】:北京:电子工业出版社
【时间】:2017
【页数】:170
【ISBN】:9787121310492
【SS码】:14177616

最新查询

内容简介

第1章 Spark和Spark Streaming的安装与配置

安装Spark

硬件需求

软件需求

安装Spark扩展——Spark Streaming

配置和运行Spark集群

你的第一个Spark程序

用Scala编码Spark作业

用Java开发Spark作业

管理员/开发者工具

集群管理

提交Spark作业

故障定位

配置端口号

类路径问题——类没有发现

其他常见异常

总结

第2章 Spark和Spark Streaming的体系结构与组件

批处理和实时数据处理的比较

批处理

实时数据处理

Spark的体系结构

Spark对比Hadoop

Spark的层次化结构

Spark Streaming的体系结构

Spark Streaming是什么

Spark Streaming的上层体系结构

你的第一个Spark Streaming程序

用Scala编码Spark Streaming作业

用Java编码Spark Streaming作业

客户端程序

打包和部署一个Spark Streaming作业

总结

第3章 实时处理分布式日志文件

Spark的封装结构和客户端API

Spark内核

Spark库及扩展

弹性分布式数据集及离散流

弹性分布式数据集

离散流

从分布的、多样的数据源中加载数据

Flume框架

Flume的安装和配置

配置Spark以接收Flume事件

封装和部署Spark Streaming作业

分布式日志文件处理的总体架构

总结

第4章 在流数据中应用Transformation

理解并应用Transformation功能

模拟日志流

功能操作

转换操作

窗口操作

性能调优

分块和并行化

序列化

Spark内存调优

总结

第5章 日志分析数据的持久化

Spark Streaming的输出操作

集成Cassandra

安装和配置Apache Cassandra

配置Spark

通过编写Spark作业将流式网页日志存入Cassandra

总结

第6章 与Spark高级库集成

实时查询流数据

了解Spark SQL

集成Spark SQL与流数据

图的分析——Spark GraphX

GraphX API介绍

集成Spark Streaming

总结

第7章 产品部署

Spark部署模式

部署在Apache Mesos上

部署在Hadoop或者YARN上

高可用性和容错性

单机模式下的高可用性

Mesos或者YARN下的高可用性

容错性

Streaming作业的监听

应用程序UI界面/作业UI界面

与其他监控工具的集成

总结


书查询(www.shuchaxun.com)本网页唯一编码:
b3e0eec8602ea819a965669ded751813#3d14cf671c52326f9bb061a6359c5134#51605933#Spark Streaming实时流处理入门与精通=Learning real-time processing with Spark Streaming_14177616.zip