图书介绍
图解Spark 核心技术与案例实战PDF|Epub|txt|kindle电子书版本网盘下载
- 郭景瞻编著 著
- 出版社: 北京:电子工业出版社
- ISBN:7121302367
- 出版时间:2017
- 标注页数:466页
- 文件大小:48MB
- 文件页数:484页
- 主题词:
PDF下载
下载说明
图解Spark 核心技术与案例实战PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第一篇 基础篇1
第1章 Spark及其生态圈概述1
1.1 Spark简介1
1.1.1 什么是Spark1
1.1.2 Spark与MapReduce比较3
1.1.3 Spark的演进路线图4
1.2 Spark生态系统5
1.2.1 Spark Core6
1.2.2 Spark Streaming7
1.2.3 Spark SQL9
1.2.4 BlinkDB11
1.2.5 MLBase/MLlib12
1.2.6 GraphX12
1.2.7 SparkR13
1.2.8 Alluxio14
1.3 小结15
第2章 搭建Spark实战环境16
2.1 基础环境搭建16
2.1.1 搭建集群样板机17
2.1.2 配置集群环境22
2.2 编译Spark源代码25
2.2.1 配置Spark编译环境26
2.2.2 使用Maven编译Spark27
2.2.3 使用SBT编译Spark29
2.2.4 生成Spark部署包30
2.3 搭建Spark运行集群31
2.3.1 修改配置文件31
2.3.2 启动Spark33
2.3.3 验证启动33
2.3.4 第一个实例33
2.4 搭建Spark实战开发环境35
2.4.1 CentOS中部署IDEA36
2.4.2 使用IDEA开发程序37
2.4.3 使用IDEA阅读源代码42
2.5 小结47
第二篇 核心篇48
第3章 Spark编程模型48
3.1 RDD概述48
3.1.1 背景48
3.1.2 RDD简介49
3.1.3 RDD的类型50
3.2 RDD的实现51
3.2.1 作业调度51
3.2.2 解析器集成52
3.2.3 内存管理53
3.2.4 检查点支持54
3.2.5 多用户管理54
3.3 编程接口55
3.3.1 RDD分区(Partitions)55
3.3.2 RDD首选位置(PreferredLocations)56
3.3.3 RDD依赖关系(Dependencies)56
3.3.4 RDD分区计算(Iterator)58
3.3.5 RDD分区函数(Partitioner)58
3.4 创建操作59
3.4.1 并行化集合创建操作59
3.4.2 外部存储创建操作61
3.5 转换操作63
3.5.1 基础转换操作63
3.5.2 键值转换操作70
3.6 控制操作77
3.7 行动操作80
3.7.1 集合标量行动操作80
3.7.2 存储行动操作84
3.8 小结87
第4章 Spark核心原理89
4.1 消息通信原理90
4.1.1 Spark消息通信架构90
4.1.2 Spark启动消息通信91
4.1.3 Spark运行时消息通信94
4.2 作业执行原理102
4.2.1 概述102
4.2.2 提交作业104
4.2.3 划分调度阶段106
4.2.4 提交调度阶段109
4.2.5 提交任务112
4.2.6 执行任务117
4.2.7 获取执行结果119
4.3 调度算法122
4.3.1 应用程序之间122
4.3.2 作业及调度阶段之间126
4.3.3 任务之间130
4.4 容错及HA136
4.4.1 Executor异常136
4.4.2 Worker异常137
4.4.3 Master异常138
4.5 监控管理139
4.5.1 UI监控139
4.5.2 Metrics150
4.5.3 REST152
4.6 实例演示154
4.6.1 计算年降水实例154
4.6.2 HA配置实例157
4.7 小结160
第5章 Spark存储原理161
5.1 存储分析161
5.1.1 整体架构161
5.1.2 存储级别167
5.1.3 RDD存储调用168
5.1.4 读数据过程170
5.1.5 写数据过程177
5.2 Shuffle分析186
5.2.1 Shuffle简介186
5.2.2 Shuffle的写操作186
5.2.3 Shuffle的读操作193
5.3序列化和压缩200
5.3.1序列化200
5.3.2压缩201
5.4 共享变量202
5.4.1 广播变量202
5.4.2 累加器203
5.5 实例演示204
5.6 小结208
第6章 Spark运行架构209
6.1 运行架构总体介绍209
6.1.1 总体介绍209
6.1.2 重要类介绍210
6.2 本地(Local)运行模式211
6.2.1 运行模式介绍211
6.2.2 实现原理213
6.3 伪分布(Local-Cluster)运行模式215
6.3.1 运行模式介绍215
6.3.2 实现原理216
6.4 独立(Standalone)运行模式218
6.4.1 运行模式介绍218
6.4.2 实现原理219
6.5 YARN运行模式220
6.5.1 YARN运行框架220
6.5.2 YARN-Client运行模式介绍221
6.5.3 YARN-Client运行模式实现原理223
6.5.4 YARN-Cluster运行模式介绍227
6.5.5 YARN-Cluster运行模式实现原理229
6.5.6 YARN-Client与YARN-Cluster对比232
6.6 Mesos运行模式233
6.6.1 Mesos介绍233
6.6.2 粗粒度运行模式介绍234
6.6.3 粗粒度实现原理236
6.6.4 细粒度运行模式介绍239
6.6.5 细粒度实现原理240
6.6.6 Mesos粗粒度和Mesos细粒度对比243
6.7 实例演示243
6.7.1 独立运行模式实例243
6.7.2 YARN-Client实例247
6.7.3 YARN-Cluster实例250
6.8 小结253
第三篇 组件篇255
第7章 Spark SQL255
7.1 Spark SQL简介255
7.1.1 Spark SQL发展历史255
7.1.2 DataFrame/Dataset介绍258
7.2 Spark SQL运行原理261
7.2.1 通用SQL执行原理261
7.2.2 SparkSQL运行架构262
7.2.3 SQLContext运行原理分析265
7.2.4 HiveContext介绍276
7.3 使用Hive-Console278
7.3.1 编译Hive-Console278
7.3.2 查看执行计划280
7.3.3 应用Hive-Console281
7.4 使用SQLConsole284
7.4.1 启动HDFS和Spark Shell284
7.4.2 与RDD交互操作284
7.4.3 读取JSON格式数据287
7.4.4 读取Parquet格式数据288
7.4.5 缓存演示289
7.4.6 DSL演示290
7.5 使用Spark SQL CLI290
7.5.1 配置并启动Spark SQL CLI291
7.5.2 实战Spark SQL CLI292
7.6 使用Thrift Server293
7.6.1 配置并启动Thrift Server293
7.6.2 基本操作295
7.6.3 交易数据实例296
7.6.4 使用IDEA开发实例298
7.7 实例演示299
7.7.1 销售数据分类实例299
7.7.2 网店销售数据统计303
7.8 小结306
第8章 Spark Streaming308
8.1 Spark Streaming简介308
8.1.1 术语定义309
8.1.2 Spark Streaming特点312
8.2 Spark Streaming编程模型314
8.2.1 DStream的输入源314
8.2.2 DStream的操作315
8.3 Spark Streaming运行架构319
8.3.1 运行架构319
8.3.2 消息通信320
8.3.3 Receiver分发323
8.3.4 容错性329
8.4 Spark Streaming运行原理331
8.4.1 启动流处理引擎331
8.4.2 接收及存储流数据334
8.4.3 数据处理341
8.5 实例演示346
8.5.1 流数据模拟器346
8.5.2 销售数据统计实例348
8.5.3 Spark Streaming+Kafka实例351
8.6 小结356
第9章 Spark MLlib358
9.1 Spark MLlib简介358
9.1.1 Spark MLlib介绍358
9.1.2 Spark MLlib数据类型360
9.1.3 Spark MLlib基本统计方法365
9.1.4 预言模型标记语言369
9.2 线性模型370
9.2.1 数学公式370
9.2.2 线性回归371
9.2.3 线性支持向量机372
9.2.4 逻辑回归373
9.2.5 线性最小二乘法、Lasso和岭回归373
9.2.6 流式线性回归373
9.3 决策树374
9.4 决策模型组合375
9.4.1 随机森林376
9.4.2 梯度提升决策树377
9.5 朴素贝叶斯377
9.6 协同过滤378
9.7 聚类380
9.7.1 K-means380
9.7.2 高斯混合382
9.7.3 快速迭代聚类384
9.7.4 LDA384
9.7.5 二分K-means385
9.7.6 流式K-means386
9.8 降维386
9.8.1 奇异值分解降维386
9.8.2 主成分分析降维387
9.9 特征提取和变换388
9.9.1 词频—逆文档频率388
9.9.2 词向量化工具389
9.9.3 标准化390
9.9.4 范数化390
9.10 频繁模式挖掘391
9.10.1 频繁模式增长391
9.10.2 关联规则挖掘391
9.10.3 PrefiixSpan391
9.11 实例演示392
9.11.1 K-means聚类算法实例392
9.11.2 手机短信分类实例396
9.12 小结401
第10章 Spark GraphX402
10.1 GraphX介绍402
10.1.1 图计算402
10.1.2 GraphX介绍403
10.1.3 发展历程404
10.2 GraphX实现分析405
10.2.1 GraphX图数据模型406
10.2.2 GraphX图数据存储408
10.2.3 GraphX图切分策略410
10.2.4 GraphX图操作412
10.3 实例演示418
10.3.1 图例演示418
10.3.2 社区发现演示425
10.4 小结429
第11章 SparkR430
11.1 概述430
11.1.1 R语言介绍430
11.1.2 SparkR介绍431
11.2 SparkR与DataFrame432
11.2.1 DataFrames介绍432
11.2.2 与DataFrame的相关操作434
11.3 编译安装SparkR435
11.3.1 编译安装R语言435
11.3.2 安装SparkR运行环境437
11.3.3 安装SparkR438
11.3.4 启动并验证安装439
11.4 实例演示440
11.5 小结444
第12章 Alluxio445
12.1 Alluxio简介445
12.1.1 Alluxio介绍445
12.1.2 Alluxio系统架构446
12.1.3 HDFS与 Alluxio450
12.2 Alluxio编译部署451
12.2.1 编译Alluxio451
12.2.2 单机部署Alluxio453
12.2.3 集群模式部署Alluxio455
12.3 Alluxio命令行使用457
12.3.1 接口说明457
12.3.2 接口操作示例459
12.4 实例演示462
12.4.1 启动环境462
12.4.2 Alluxio上运行Spark462
12.4.3 Alluxio上运行MapReduce465
12.5 小结466