图书介绍

大数据开发工程师系列 Hadoop&Spark大数据开发实战PDF|Epub|txt|kindle电子书版本网盘下载

大数据开发工程师系列 Hadoop&Spark大数据开发实战
  • 肖睿,雷刚跃,宋丽萍,张宇,彭英著 著
  • 出版社: 北京:中国水利水电出版社
  • ISBN:9787517056430
  • 出版时间:2017
  • 标注页数:298页
  • 文件大小:159MB
  • 文件页数:313页
  • 主题词:数据处理软件

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据开发工程师系列 Hadoop&Spark大数据开发实战PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 初识Hadoop1

本章任务2

任务1 大数据概述2

1.1.1 大数据基本概念2

1.1.2 大数据对于企业带来的挑战3

任务2 Hadoop概述4

1.2.1 Hadoop简介4

1.2.2 Hadoop生态系统7

1.2.3 大数据应用案例9

任务3 Hadoop环境搭建10

1.3.1 虚拟机安装11

1.3.2 Linux系统安装14

1.3.3 Hadoop伪分布式环境搭建31

本章总结34

本章作业35

第2章 分布式文件系统HDFS37

本章任务38

任务1 初识HDFS38

2.1.1 HDFS概述38

2.1.2 HDFS基本概念41

2.1.3 HDFS体系结构42

任务2 HDFS操作44

2.2.1 HDFS shell访问44

2.2.2 Java API访问47

任务3 HDFS运行机制50

2.3.1 HDFS文件读写流程51

2.3.2 HDFS副本机制52

2.3.3 数据负载均衡53

2.3.4 机架感知54

任务4 HDFS进阶55

2.4.1 Hadoop序列化55

2.4.2 基于文件的数据结构SequenceFile60

2.4.3 基于文件的数据结构MapFile65

本章总结67

本章作业68

第3章 分布式计算框架MapReduce69

本章任务70

任务1 MapReduce编程模型70

3.1.1 MapReduce概述70

3.1.2 MapReduce编程模型71

3.1.3 MapReduce WordCount编程实例72

任务2 MapReduce进阶77

3.2.1 MapReduce类型77

3.2.2 MapReduce输入格式78

3.2.3 MapReduce输出格式80

3.2.4 Combiner81

3.2.5 Partitioner84

3.2.6 RecordReader87

任务3 MapReduce高级编程94

3.3.1 Join的MapReduce实现94

3.3.2 排序的MapReduce实现101

3.3.3 二次排序的MapReduce实现103

3.3.4 合并小文件的MapReduce实现109

本章总结113

本章作业114

第4章 YARN与Hadoop新特性115

本章任务116

任务1 初识资源调度框架YARN116

4.1.1 YARN产生背景116

4.1.2 初识YARN117

4.1.3 YARN运行机制119

任务2 HDFS新特性121

4.2.1 HDFS NameNode HA122

4.2.2 HDFS NameNode Federation129

4.2.3 HDFS Snapshots131

4.2.4 WebHDFS RESTAPI134

4.2.5 DistCp135

任务3 YARN新特性135

4.3.1 ResourceManager Restart135

4.3.2 ResourceManager HA136

本章总结139

本章作业139

第5章 大数据数据仓库Hive141

本章任务142

任务1 初识Hive142

5.1.1 Hive简介142

5.1.2 Hive架构143

5.1.3 Hive与Hadoop的关系144

5.1.4 Hive与传统关系型数据库对比144

5.1.5 Hive数据存储145

5.1.6 Hive环境部署145

任务2 Hive基本操作146

5.2.1 DDL操作147

5.2.2 DML操作150

5.2.3 Hive shell操作154

任务3 Hive进阶155

5.3.1 Hive函数155

5.3.2 Hive常用调优策略158

本章总结163

本章作业164

第6章 离线处理辅助系统165

本章任务166

任务1 使用Sqoop完成数据迁移166

6.1.1 Sqoop简介166

6.1.2 导入MySQL数据到HDFS171

6.1.3 导出HDFS数据到MySQL177

6.1.4 导入MySQL数据到Hive179

6.1.5 Sqoop中Job的使用180

任务2 工作流调度框架Azkaban180

6.2.1 Azkaban简介181

6.2.2 Azkaban部署182

6.2.3 Azkaban实战186

本章总结189

本章作业189

第7章 Spark入门191

本章任务192

任务1 初识Spark192

7.1.1 Spark概述192

7.1.2 Spark优点193

7.1.3 Spark生态系统BDAS195

任务2 Scala入门198

7.2.1 Scala介绍199

7.2.2 Scala函数202

7.2.3 Scala面向对象203

7.2.4 Scala集合206

7.2.5 Scala进阶209

任务3 获取Spark源码并进行编译211

7.3.1 获取Spark源码211

7.3.2 Spark源码编译212

任务4 第一次与Spark亲密接触214

7.4.1 Spark环境部署214

7.4.2 Spark完成词频统计分析215

本章总结216

本章作业217

第8章 Spark Core219

本章任务220

任务1 Spark的基石RDD220

8.1.1 RDD概述220

8.1.2 RDD常用创建方式221

8.1.3 RDD的转换223

8.1.4 RDD的动作225

8.1.5 RDD的依赖227

任务2 RDD进阶230

8.2.1 RDD缓存230

8.2.2 共享变量(Shared Variables)233

8.2.3 Spark核心概念235

8.2.4 Spark运行架构236

任务3 基于RDD的Spark编程237

8.3.1 开发前置准备237

8.3.2 使用Spark Core开发词频计数WordCount238

8.3.3 使用Spark Core进行年龄统计242

本章总结243

本章作业243

第9章 Spark SQL245

本章任务246

任务1 Spark SQL前世今生246

9.1.1 为什么需要SQL246

9.1.2 常用的SQL on Hadoop框架247

9.1.3 Spark SQL概述248

任务2 Spark SQL编程250

9.2.1 Spark SQL编程入口250

9.2.2 DataFrame是什么251

9.2.3 DataFrame编程252

任务3 Spark SQL进阶259

9.3.1 Spark SQL外部数据源操作259

9.3.2 Spark SQL函数的使用263

9.3.3 Spark SQL常用调优266

本章总结269

本章作业269

第10章 Spark Streaming271

本章任务272

任务1 初始流处理框架及Spark Streaming272

10.1.1 流处理框架概述272

10.1.2 Spark Streaming概述274

任务2 Spark Streaming编程277

10.2.1 Spark Streaming核心概念278

10.2.2 使用Spark Streaming编程282

任务3 Spark Streaming进阶286

10.3.1 Spark Streaming整合Flume287

10.3.2 Spark Streaming整合Kafka290

10.3.3 Spark Streaming常用优化策略294

本章总结297

本章作业297

热门推荐