图书介绍
基于Hadoop与Spark的大数据开发实战PDF|Epub|txt|kindle电子书版本网盘下载
![基于Hadoop与Spark的大数据开发实战](https://www.shukui.net/cover/73/34596582.jpg)
- 肖睿,丁科,吴刚山主编 著
- 出版社: 北京:人民邮电出版社
- ISBN:9787115477644
- 出版时间:2018
- 标注页数:367页
- 文件大小:34MB
- 文件页数:383页
- 主题词:数据处理软件-教材
PDF下载
下载说明
基于Hadoop与Spark的大数据开发实战PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章Hadoop初体验1
任务1初识大数据2
1.1.1大数据基本概念2
1.1.2大数据带来的挑战3
任务2初识Hadoop3
1.2.1 Hadoop概述4
1.2.2 Hadoop生态圈6
1.2.3 Hadoop应用案例8
任务3安装Hadoop平台9
1.3.1安装虚拟机10
1.3.2安装Linux系统13
1.3.3安装Hadoop伪分布式环境30
本章总结34
本章练习34
第2章Hadoop分布式文件系统35
任务1 HDFS入门36
2.1.1认识HDFS36
2.1.2 HDFS基础38
2.1.3 HDFS架构40
任务2 HDFS基本操作41
2.2.1使用HDFS shell访问41
2.2.2使用Java API访问45
任务3 HDFS运行原理48
2.3.1 HDFS读写流程49
2.3.2 HDFS副本机制50
2.3.3 HDFS负载均衡51
2.3.4 HDFS机架感知52
任务4 HDFS高级知识53
2.4.1 Hadoop序列化机制53
2.4.2 SequenceFile58
2.4.3 MapFile63
本章总结65
本章练习66
第3章Hadoop分布式计算框架67
任务1认识MapReduce编程模型68
3.1.1 MapReduce基础68
3.1.2 MapReduce编程模型69
3.1.3 MapReduce词频统计编程实例70
任务2 MapReduce应用开发75
3.2.1 MapReduce输入/输出类型75
3.2.2 MapReduce输入格式76
3.2.3 MapReduce输出格式78
3.2.4 Combiner操作79
3.2.5 Partitioner操作82
3.2.6自定义RecordReader86
任务3 MapReduce高级应用92
3.3.1使用MapReduce实现join操作93
3.3.2使用MapReduce实现排序100
3.3.3使用MapReduce实现二次排序103
3.3.4使用MapReduce合并小文件108
本章总结113
本章练习113
第4章Hadoop新特性115
任务1初识YARN116
4.1.1 YARN产生背景116
4.1.2 YARN简介117
4.1.3 YARN架构设计119
任务2了解HDFS新特性121
4.2.1 HDFS NameNode高可用机制121
4.2.2 HDFS NameNode Federation129
4.2.3 HDFS Snapshots130
4.2.4 HDFS REST API134
4.2.5 DistCp工具134
任务3了解YARN新特性135
4.3.1 ResourceManager自动重启135
4.3.2 ResourceManager高可用机制136
本章总结139
本章练习139
第5章Hadoop分布式数据库141
任务1认识HBase142
5.1.1 HBase简介142
5.1.2 HBase体系结构143
5.1.3 HBase数据模型145
5.1.4 HBase的安装148
任务2 HBase Shell操作155
5.2.1 HBase Shell简介155
5.2.2 HBase Shell的使用156
任务3 HBase编程162
5.3.1开发HBase应用程序162
5.3.2 HBase数据存储管理API163
本章总结175
本章练习175
第6章Hadoop综合实战——音乐排行榜177
任务1 MapReduce与HBase的集成178
6.1.1 MapReduce与HBase的集成环境178
6.1.2批量数据导入(Bulk Loading)181
任务2 HBase MapReduce API182
6.2.1 HBase MapReduce API简介182
6.2.2 TableMapper的使用183
6.2.3 TableReducer的使用195
任务3实现音乐排行榜197
6.3.1程序的结构与实现198
6.3.2 HBase数据库设计优化205
6.3.3 MapReduce全局共享数据205
本章总结207
本章练习207
第7章 数据仓库Hive209
任务1 Hive基础210
7.1.1认识Hive210
7.1.2 Hive架构设计211
7.1.3 Hive与Hadoop212
7.1.4 Hive与传统关系型数据库212
7.1.5 Hive数据存储模型213
7.1.6 Hive部署213
任务2掌握Hive操作214
7.2.1 Hive DDL214
7.2.2 Hive DML217
7.2.3 Hive shell222
任务3 Hive高级应用223
7.3.1 Hive函数224
7.3.2 Hive调优策略227
本章总结232
本章练习232
第8章 大数据离线处理辅助系统233
任务1认识并使用数据迁移框架Sqoop234
8.1.1 Sqoop简介234
8.1.2使用Sqoop导入MySQL数据到HDFS239
8.1.3使用Sqoop导出HDFS数据到MySQL246
8.1.4使用Sqoop导入MySQL数据到Hive248
8.1.5 Sqoop Job250
任务2使用Azkaban实现工作流调度250
8.2.1 Azkaban概述250
8.2.2 Azkaban环境部署252
8.2.3 Azkaban应用实例256
本章总结259
本章练习259
第9章Spark基础261
任务1 Spark入门262
9.1.1 Spark简介262
9.1.2 Spark优势262
9.1.3 Spark生态圈264
任务2 Scala基础267
9.2.1 Scala简介268
9.2.2 Scala函数定义271
9.2.3 Scala面向对象操作272
9.2.4 Scala集合的使用275
9.2.5 Scala高阶函数278
任务3编译Spark281
9.3.1下载Spark源码281
9.3.2编译Spark源码282
任务4 Spark初体验284
9.4.1 Spark环境部署284
9.4.2 spark-shell285
本章总结286
本章练习286
第10章Spark Core287
任务1 Spark RDD288
10.1.1 RDD介绍288
10.1.2 RDD的创建289
10.1.3 RDD的转换算子291
10.1.4 RDD的动作算子293
10.1.5 RDD的依赖关系295
任务2 RDD高级应用297
10.2.1 RDD缓存机制297
10.2.2共享变量300
10.2.3 Spark架构设计302
任务3基于RDD的Spark应用程序开发303
10.3.1准备工作303
10.3.2词频计数实例304
10.3.3年龄统计实例308
本章总结309
本章练习309
第11章Spark SQL311
任务1认识Spark SQL312
11.1.1 SQL312
11.1.2 SQL on Hadoop框架312
11.1.3 Spark SQL简介314
任务2 Spark SQL编程基础315
11.2.1 Spark SQL编程入口315
11.2.2 DataFrame基础317
11.2.3 DataFrame编程实例318
任务3 Spark SQL编程进阶325
11.3.1 Spark SQL操作外部数据源325
11.3.2 Spark SQL函数329
11.3.3 Spark SQL调优332
本章总结334
本章练习335
第12章Spark Streaming337
任务1流处理框架及Spark Streaming338
12.1.1流处理框架简介338
12.1.2 Spark Streaming简介340
任务2使用Spark Streaming编程343
12.2.1 Spark Streaming核心343
12.2.2 Spark Streaming编程实例348
任务3 Spark Streaming高级应用352
12.3.1使用Spark Streaming整合Flume353
12.3.2使用Spark Streaming整合Kafka356
12.3.3 Spark Streaming优化策略361
本章总结363
本章练习363
附录365