图书介绍

基于Hadoop与Spark的大数据开发实战PDF|Epub|txt|kindle电子书版本网盘下载

基于Hadoop与Spark的大数据开发实战
  • 肖睿,丁科,吴刚山主编 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115477644
  • 出版时间:2018
  • 标注页数:367页
  • 文件大小:34MB
  • 文件页数:383页
  • 主题词:数据处理软件-教材

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

基于Hadoop与Spark的大数据开发实战PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章Hadoop初体验1

任务1初识大数据2

1.1.1大数据基本概念2

1.1.2大数据带来的挑战3

任务2初识Hadoop3

1.2.1 Hadoop概述4

1.2.2 Hadoop生态圈6

1.2.3 Hadoop应用案例8

任务3安装Hadoop平台9

1.3.1安装虚拟机10

1.3.2安装Linux系统13

1.3.3安装Hadoop伪分布式环境30

本章总结34

本章练习34

第2章Hadoop分布式文件系统35

任务1 HDFS入门36

2.1.1认识HDFS36

2.1.2 HDFS基础38

2.1.3 HDFS架构40

任务2 HDFS基本操作41

2.2.1使用HDFS shell访问41

2.2.2使用Java API访问45

任务3 HDFS运行原理48

2.3.1 HDFS读写流程49

2.3.2 HDFS副本机制50

2.3.3 HDFS负载均衡51

2.3.4 HDFS机架感知52

任务4 HDFS高级知识53

2.4.1 Hadoop序列化机制53

2.4.2 SequenceFile58

2.4.3 MapFile63

本章总结65

本章练习66

第3章Hadoop分布式计算框架67

任务1认识MapReduce编程模型68

3.1.1 MapReduce基础68

3.1.2 MapReduce编程模型69

3.1.3 MapReduce词频统计编程实例70

任务2 MapReduce应用开发75

3.2.1 MapReduce输入/输出类型75

3.2.2 MapReduce输入格式76

3.2.3 MapReduce输出格式78

3.2.4 Combiner操作79

3.2.5 Partitioner操作82

3.2.6自定义RecordReader86

任务3 MapReduce高级应用92

3.3.1使用MapReduce实现join操作93

3.3.2使用MapReduce实现排序100

3.3.3使用MapReduce实现二次排序103

3.3.4使用MapReduce合并小文件108

本章总结113

本章练习113

第4章Hadoop新特性115

任务1初识YARN116

4.1.1 YARN产生背景116

4.1.2 YARN简介117

4.1.3 YARN架构设计119

任务2了解HDFS新特性121

4.2.1 HDFS NameNode高可用机制121

4.2.2 HDFS NameNode Federation129

4.2.3 HDFS Snapshots130

4.2.4 HDFS REST API134

4.2.5 DistCp工具134

任务3了解YARN新特性135

4.3.1 ResourceManager自动重启135

4.3.2 ResourceManager高可用机制136

本章总结139

本章练习139

第5章Hadoop分布式数据库141

任务1认识HBase142

5.1.1 HBase简介142

5.1.2 HBase体系结构143

5.1.3 HBase数据模型145

5.1.4 HBase的安装148

任务2 HBase Shell操作155

5.2.1 HBase Shell简介155

5.2.2 HBase Shell的使用156

任务3 HBase编程162

5.3.1开发HBase应用程序162

5.3.2 HBase数据存储管理API163

本章总结175

本章练习175

第6章Hadoop综合实战——音乐排行榜177

任务1 MapReduce与HBase的集成178

6.1.1 MapReduce与HBase的集成环境178

6.1.2批量数据导入(Bulk Loading)181

任务2 HBase MapReduce API182

6.2.1 HBase MapReduce API简介182

6.2.2 TableMapper的使用183

6.2.3 TableReducer的使用195

任务3实现音乐排行榜197

6.3.1程序的结构与实现198

6.3.2 HBase数据库设计优化205

6.3.3 MapReduce全局共享数据205

本章总结207

本章练习207

第7章 数据仓库Hive209

任务1 Hive基础210

7.1.1认识Hive210

7.1.2 Hive架构设计211

7.1.3 Hive与Hadoop212

7.1.4 Hive与传统关系型数据库212

7.1.5 Hive数据存储模型213

7.1.6 Hive部署213

任务2掌握Hive操作214

7.2.1 Hive DDL214

7.2.2 Hive DML217

7.2.3 Hive shell222

任务3 Hive高级应用223

7.3.1 Hive函数224

7.3.2 Hive调优策略227

本章总结232

本章练习232

第8章 大数据离线处理辅助系统233

任务1认识并使用数据迁移框架Sqoop234

8.1.1 Sqoop简介234

8.1.2使用Sqoop导入MySQL数据到HDFS239

8.1.3使用Sqoop导出HDFS数据到MySQL246

8.1.4使用Sqoop导入MySQL数据到Hive248

8.1.5 Sqoop Job250

任务2使用Azkaban实现工作流调度250

8.2.1 Azkaban概述250

8.2.2 Azkaban环境部署252

8.2.3 Azkaban应用实例256

本章总结259

本章练习259

第9章Spark基础261

任务1 Spark入门262

9.1.1 Spark简介262

9.1.2 Spark优势262

9.1.3 Spark生态圈264

任务2 Scala基础267

9.2.1 Scala简介268

9.2.2 Scala函数定义271

9.2.3 Scala面向对象操作272

9.2.4 Scala集合的使用275

9.2.5 Scala高阶函数278

任务3编译Spark281

9.3.1下载Spark源码281

9.3.2编译Spark源码282

任务4 Spark初体验284

9.4.1 Spark环境部署284

9.4.2 spark-shell285

本章总结286

本章练习286

第10章Spark Core287

任务1 Spark RDD288

10.1.1 RDD介绍288

10.1.2 RDD的创建289

10.1.3 RDD的转换算子291

10.1.4 RDD的动作算子293

10.1.5 RDD的依赖关系295

任务2 RDD高级应用297

10.2.1 RDD缓存机制297

10.2.2共享变量300

10.2.3 Spark架构设计302

任务3基于RDD的Spark应用程序开发303

10.3.1准备工作303

10.3.2词频计数实例304

10.3.3年龄统计实例308

本章总结309

本章练习309

第11章Spark SQL311

任务1认识Spark SQL312

11.1.1 SQL312

11.1.2 SQL on Hadoop框架312

11.1.3 Spark SQL简介314

任务2 Spark SQL编程基础315

11.2.1 Spark SQL编程入口315

11.2.2 DataFrame基础317

11.2.3 DataFrame编程实例318

任务3 Spark SQL编程进阶325

11.3.1 Spark SQL操作外部数据源325

11.3.2 Spark SQL函数329

11.3.3 Spark SQL调优332

本章总结334

本章练习335

第12章Spark Streaming337

任务1流处理框架及Spark Streaming338

12.1.1流处理框架简介338

12.1.2 Spark Streaming简介340

任务2使用Spark Streaming编程343

12.2.1 Spark Streaming核心343

12.2.2 Spark Streaming编程实例348

任务3 Spark Streaming高级应用352

12.3.1使用Spark Streaming整合Flume353

12.3.2使用Spark Streaming整合Kafka356

12.3.3 Spark Streaming优化策略361

本章总结363

本章练习363

附录365

热门推荐