图书介绍

实时大数据分析 基于Storm、Spark技术的实时应用PDF|Epub|txt|kindle电子书版本网盘下载

实时大数据分析 基于Storm、Spark技术的实时应用
  • (美)SumitGupta,ShilpiSaxena著;张广骏译 著
  • 出版社: 北京:清华大学出版社
  • ISBN:9787302477280
  • 出版时间:2018
  • 标注页数:243页
  • 文件大小:32MB
  • 文件页数:260页
  • 主题词:数据处理软件

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

实时大数据分析 基于Storm、Spark技术的实时应用PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 大数据技术前景及分析平台1

1.1大数据的概念1

1.2大数据的维度范式2

1.3大数据生态系统3

1.4大数据基础设施4

1.5大数据生态系统组件5

1.5.1构建业务解决方案8

1.5.2数据集处理8

1.5.3解决方案实施8

1.5.4呈现9

1.6分布式批处理9

1.7分布式数据库(NoSQL)13

1.7.1 NoSQL数据库的优势15

1.7.2选择NoSQL数据库16

1.8实时处理16

1.8.1电信或移动通信场景17

1.8.2运输和物流17

1.8.3互联的车辆18

1.8.4金融部门18

1.9本章小结18

第2章 熟悉Storm19

2.1 Storm概述19

2.2 Storm的发展20

2.3 Storm的抽象概念22

2.3.1流22

2.3.2拓扑22

2.3.3 Spout23

2.3.4 Bolt23

2.3.5任务24

2.3.6工作者25

2.4 Storm的架构及其组件25

2.4.1 Zookeeper集群25

2.4.2 Storm集群25

2.5如何以及何时使用Storm27

2.6 Storm的内部特性32

2.6.1 Storm的并行性32

2.6.2 Storm的内部消息处理34

2.7本章小结36

第3章用Storm处理数据37

3.1 Storm输入数据源37

3.2认识Kafka38

3.2.1关于Kafka的更多知识39

3.2.2 Storm的其他输入数据源43

3.2.3 Kafka作为输入数据源46

3.3数据处理的可靠性47

3.3.1锚定的概念和可靠性49

3.3.2 Storm的acking框架51

3.4 Storm的简单模式52

3.4.1联结52

3.4.2批处理53

3.5 Storm的持久性53

3.6本章小结58

第4章Trident概述和Storm性能优化59

4.1使用Trident59

4.1.1事务60

4.1.2 Trident拓扑60

4.1.3 Trident操作61

4.2理解LMAX65

4.2.1内存和缓存66

4.2.2环形缓冲区——粉碎器的心脏69

4.3 Storm的节点间通信72

4.3.1 ZeroMQ73

4.3.2 Storm的ZeroMQ配置74

4.3.3 Netty74

4.4理解Storm UI75

4.4.1 Storm UI登录页面75

4.4.2拓扑首页78

4.5优化Storm性能80

4.6本章小结83

第5章 熟悉Kinesis84

5.1 Kinesis架构概述84

5.1.1 Amazon Kinesis的优势和用例84

5.1.2高级体系结构86

5.1.3 Kinesis的组件87

5.2创建Kinesis流服务90

5.2.1访问AWS90

5.2.2配置开发环境91

5.2.3创建Kinesis流93

5.2.4创建Kinesis流生产者97

5.2.5创建Kinesis流消费者102

5.2.6产生和消耗犯罪警报102

5.3本章小结105

第6章 熟悉Spark106

6.1 Spark概述107

6.1.1批量数据处理107

6.1.2实时数据处理108

6.1.3一站式解决方案Apache Spark110

6.1.4何时应用Spark——实际用例112

6.2 Spark的架构114

6.2.1高级架构114

6.2.2 Spark扩展/库116

6.2.3 Spark的封装结构和API117

6.2.4 Spark的执行模型——主管-工作者视图119

6.3弹性分布式数据集(RDD)122

6.4编写执行第一个Spark程序124

6.4.1硬件需求125

6.4.2基本软件安装125

6.4.3配置Spark集群127

6.4.4用Scala编写Spark作业129

6.4.5用Java编写Spark作业132

6.5故障排除提示和技巧133

6.5.1 Spark所用的端口数目134

6.5.2类路径问题——类未找到异常134

6.5.3其他常见异常134

6.6本章小结135

第7章 使用RDD编程136

7.1理解Spark转换及操作136

7.1.1 RDD API137

7.1.2 RDD转换操作139

7.1.3 RDD功能操作141

7.2编程Spark转换及操作142

7.3 Spark中的持久性157

7.4本章小结159

第8章Spark的SQL查询引擎——Spark SQL160

8.1 Spark SQL的体系结构161

8.1.1 Spark SQL的出现161

8.1.2 Spark SQL的组件162

8.1.3 Catalyst Optimizer164

8.1.4 SQL/Hive context165

8.2编写第一个Spark SQL作业166

8.2.1用Scala编写Spark SQL作业166

8.2.2用Java编写Spark SQL作业170

8.3将RDD转换为DataFrame173

8.3.1自动化过程174

8.3.2手动过程176

8.4使用Parquet179

8.4.1在HDFS中持久化Parquet数据182

8.4.2数据分区和模式演化/合并185

8.5 Hive表的集成186

8.6性能调优和最佳实践190

8.6.1分区和并行性191

8.6.2序列化191

8.6.3缓存192

8.6.4内存调优192

8.7本章小结194

第9章用Spark Streaming分析流数据195

9.1高级架构195

9.1.1 Spark Streaming的组件196

9.1.2 Spark Streaming的封装结构198

9.2编写第一个Spark Streaming作业200

9.2.1创建流生成器201

9.2.2用Scala编写Spark Streaming作业202

9.2.3用Java编写Spark Streaming作业205

9.2.4执行Spark Streaming作业207

9.3实时查询流数据209

9.3.1作业的高级架构209

9.3.2编写Crime生产者210

9.3.3编写Stream消费者和转换器212

9.3.4执行SQL Streaming Crime分析器214

9.4部署和监测216

9.4.1用于Spark Streaming的集群管理器216

9.4.2监测Spark Streaming应用程序218

9.5本章小结219

第10章 介绍Lambda架构220

10.1什么是Lambda架构220

10.1.1 Lambda架构的需求220

10.1.2 Lambda架构的层/组件222

10.2 Lambda架构的技术矩阵226

10.3 Lambda架构的实现228

10.3.1高级架构229

10.3.2配置Apache Cassandra和Spark230

10.3.3编写自定义生产者程序233

10.3.4编写实时层代码235

10.3.5编写批处理层代码238

10.3.6编写服务层代码239

10.3.7执行所有层代码241

10.4本章小结243

热门推荐