图书介绍
Hadoop实战 第2版PDF|Epub|txt|kindle电子书版本网盘下载
![Hadoop实战 第2版](https://www.shukui.net/cover/26/30342539.jpg)
- 陆嘉恒著 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111395836
- 出版时间:2012
- 标注页数:498页
- 文件大小:43MB
- 文件页数:517页
- 主题词:数据处理-应用软件
PDF下载
下载说明
Hadoop实战 第2版PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 Hadoop简介1
1.1 什么是Hadoop2
1.1.1 Hadoop概述2
1.1.2 Hadoop的历史2
1.1.3 Hadoop的功能与作用2
1.1.4 Hadoop的优势3
1.1.5 Hadoop应用现状和发展趋势3
1.2 Hadoop项目及其结构3
1.3 Hadoop体系结构6
1.4 Hadoop与分布式开发7
1.5 Hadoop计算模型——MapReduce10
1.6 Hadoop数据管理10
1.6.1 HDFS的数据管理10
1.6.2 HBase的数据管理12
1.6.3 Hive的数据管理13
1.7 Hadoop集群安全策略15
1.8 本章小结17
第2章 Hadoop的安装与配置19
2.1 在Linux上安装与配置Hadoop20
2.1.1 安装JDK 1.6 20
2.1.2 配置SSH免密码登录21
2.1.3 安装并运行Hadoop22
2.2 在Mac OSX上安装与配置Hadoop24
2.2.1 安装Homebrew24
2.2.2 使用Homebrew安装Hadoop25
2.2.3 配置SSH和使用Hadoop25
2.3 在Windows上安装与配置Hadoop25
2.3.1 安装JDK 1.6 或更高版本25
2.3.2 安装Cygwin25
2.3.3 配置环境变量26
2.3.4 安装sshd服务26
2.3.5 启动sshd服务26
2.3.6 配置SSH免密码登录26
2.3.7 安装并运行Hadoop26
2.4 安装和配置Hadoop集群27
2.4.1 网络拓扑27
2.4.2 定义集群拓扑27
2.4.3 建立和安装Cluster28
2.5 日志分析及几个小技巧34
2.6 本章小结35
第3章 MapReduce计算模型36
3.1 为什么要用MapReduce37
3.2 MapReduce计算模型38
3.2.1 MapReduce Job38
3.2.2 Hadoop中的Hello World程序38
3.2.3 MapReduce的数据流和控制流46
3.3 MapReduce任务的优化47
3.4 Hadoop流49
3.4.1 Hadoop流的工作原理50
3.4.2 Hadoop流的命令51
3.4.3 两个例子52
3.5 Hadoop Pipes54
3.6 本章小结56
第4章 开发MapReduce应用程序57
4.1 系统参数的配置58
4.2 配置开发环境60
4.3 编写MapReduce程序60
4.3.1 Map处理60
4.3.2 Reduce处理61
4.4 本地测试62
4.5 运行MapReduce程序62
4.5.1 打包64
4.5.2 在本地模式下运行64
4.5.3 在集群上运行64
4.6 网络用户界面65
4.6.1 JobTracker页面65
4.6.2 工作页面65
4.6.3 返回结果66
4.6.4 任务页面67
4.6.5 任务细节 页面67
4.7 性能调优68
4.7.1 输入采用大文件68
4.7.2 压缩文件68
4.7.3 过滤数据69
4.7.4 修改作业属性71
4.8 MapReduce工作流72
4.8.1 复杂的Map和Reduce函数72
4.8.2 MapReduce Job中全局共享数据74
4.8.3 链接MapReduce Job75
4.9 本章小结77
第5章 MapReduce应用案例79
5.1 单词计数80
5.1.1 实例描述80
5.1.2 设计思路80
5.1.3 程序代码81
5.1.4 代码解读82
5.1.5 程序执行83
5.1.6 代码结果83
5.1.7 代码数据流84
5.2 数据去重85
5.2.1 实例描述85
5.2.2 设计思路86
5.2.3 程序代码86
5.3 排序87
5.3.1 实例描述87
5.3.2 设计思路88
5.3.3 程序代码89
5.4 单表关联91
5.4.1 实例描述91
5.4.2 设计思路92
5.4.3 程序代码92
5.5 多表关联95
5.5.1 实例描述95
5.5.2 设计思路96
5.5.3 程序代码96
5.6 本章小结98
第6章 MapReduce工作机制99
6.1 MapReduce作业的执行流程100
6.1.1 MapReduce任务执行总流程100
6.1.2 提交作业101
6.1.3 初始化作业103
6.1.4 分配任务104
6.1.5 执行任务106
6.1.6 更新任务执行进度和状态107
6.1.7 完成作业108
6.2 错误处理机制108
6.2.1 硬件故障109
6.2.2 任务失败109
6.3 作业调度机制110
6.4 Shuffle和排序111
6.4.1 Map端111
6.4.2 Reduce端113
6.4.3 shuffle过程的优化114
6.5 任务执行114
6.5.1 推测式执行114
6.5.2 任务JVM重用115
6.5.3 跳过坏记录115
6.5.4 任务执行环境116
6.6 本章小结117
第7章 Hadoop I/O操作118
7.1 I/O操作中的数据检查119
7.2 数据的压缩126
7.2.1 Hadoop对压缩工具的选择126
7.2.2 压缩分割和输入分割127
7.2.3 在MapReduce程序中使用压缩127
7.3 数据的I/O中序列化操作128
7.3.1 Writable类128
7.3.2 实现自己的Hadoop数据类型137
7.4 针对Mapreduce的文件类139
7.4.1 SequenceFile类139
7.4.2 MapFile类144
7.4.3 ArrayFile、SetFile和BloomMapFile146
7.5 本章小结148
第8章 下一代MapReduce:YARN149
8.1 MapReduce V2设计需求150
8.2 MapReduce V2主要思想和架构151
8.3 MapReduce V2设计细节153
8.4 MapReduce V2优势156
8.5 本章小结156
第9章 HDFS详解157
9.1 Hadoop的文件系统158
9.2 HDFS简介160
9.3 HDFS体系结构161
9.3.1 HDFS的相关概念161
9.3.2 HDFS的体系结构162
9.4 HDFS的基本操作164
9.4.1 HDFS的命令行操作164
9.4.2 HDFS的Web界面165
9.5 HDFS常用Java API详解166
9.5.1 使用Hadoop URL读取数据166
9.5.2 使用FileSystem API读取数据167
9.5.3 创建目录169
9.5.4 写数据169
9.5.5 删除数据171
9.5.6 文件系统查询171
9.6 HDFS中的读写数据流175
9.6.1 文件的读取175
9.6.2 文件的写入176
9.6.3 一致性模型178
9.7 HDFS命令详解179
9.7.1 通过distcp进行并行复制179
9.7.2 HDFS的平衡180
9.7.3 使用Hadoop归档文件180
9.7.4 其他命令183
9.8 WebHDFS186
9.8.1 WebHDFS的配置186
9.8.2 WebHDFS命令186
9.9 本章小结190
第10章 Hadoop的管理191
10.1 HDFS文件结构192
10.2 Hadoop的状态监视和管理工具196
10.2.1 审计日志196
10.2.2 监控日志196
10.2.3 Metrics197
10.2.4 Java管理扩展199
10.2.5 Ganglia200
10.2.6 Hadoop管理命令202
10.3 Hadoop集群的维护206
10.3.1 安全模式206
10.3.2 Hadoop的备份207
10.3.3 Hadoop的节 点管理208
10.3.4 系统升级210
10.4 本章小结212
第11章 Hive详解213
11.1 Hive简介214
11.1.1 Hive的数据存储214
11.1.2 Hive的元数据存储216
11.2 Hive的基本操作216
11.2.1 在集群上安装Hive216
11.2.2 配置MySQL存储Hive元数据218
11.2.3 配置Hive220
11.3 Hive QL详解221
11.3.1 数据定义(DDL)操作221
11.3.2 数据操作(DML)231
11.3.3 SQL操作233
11.3.4 Hive QL使用实例235
11.4 Hive网络(Web UI)接口237
11.4.1 Hive网络接口配置237
11.4.2 Hive网络接口操作实例238
11.5 Hive的JDBC接口241
11.5.1 Eclipse环境配置241
11.5.2 程序实例241
11.6 Hive的优化244
11.7 本章小结246
第12章 HBase详解247
12.1 HBase简介248
12.2 HBase的基本操作249
12.2.1 HBase的安装249
12.2.2 运行HBase253
12.2.3 HBase Shell255
12.2.4 HBase配置258
12.3 HBase体系结构260
12.3.1 HRegion260
12.3.2 HRegion服务器261
12.3.3 HBase Master服务器262
12.3.4 ROOT表和META表262
12.3.5 ZooKeeper263
12.4 HBase数据模型263
12.4.1 数据模型263
12.4.2 概念视图264
12.4.3 物理视图264
12.5 HBase与RDBMS265
12.6 HBase与HDFS266
12.7 HBase客户端266
12.8 Java API267
12.9 HBase编程273
12.9.1 使用Eclipse开发HBase应用程序273
12.9.2 HBase编程275
12.9.3 HBase与MapReduce278
12.10 模式设计280
12.10.1 模式设计应遵循的原则280
12.10.2 学生表281
12.10.3 事件表282
12.11 本章小结283
第13章 Mahout详解284
13.1 Mahout简介285
13.2 Mahout的安装和配置285
13.3 Mahout API简介288
13.4 Mahout中的频繁模式挖掘290
13.4.1 什么是频繁模式挖掘290
13.4.2 Mahout中的频繁模式挖掘290
13.5 Mahout中的聚类和分类292
13.5.1 什么是聚类和分类292
13.5.2 Mahout中的数据表示293
13.5.3 将文本转化成向量294
13.5.4 Mahout中的聚类、分类算法295
13.5.5 算法应用实例299
13.6 Mahout应用:建立一个推荐引擎304
13.6.1 推荐引擎简介304
13.6.2 使用Taste构建一个简单的推荐引擎305
13.6.3 简单分布式系统下基于产品的推荐系统简介307
13.7 本章小结309
第14章 Pig详解310
14.1 Pig简介311
14.2 Pig的安装和配置311
14.2.1 Pig的安装条件311
14.2.2 Pig的下载、安装和配置312
14.2.3 Pig运行模式313
14.3 Pig Latin语言315
14.3.1 Pig Latin语言简介315
14.3.2 Pig Latin的使用316
14.3.3 Pig Latin的数据类型318
14.3.4 Pig Latin关键字319
14.4 用户定义函数323
14.4.1 编写用户定义函数324
14.4.2 使用用户定义函数325
14.5 Zebra简介326
14.5.1 Zebra的安装326
14.5.2 Zebra的使用简介327
14.6 Pig实例328
14.6.1 Local模式328
14.6.2 MapReduce模式330
14.7 Pig进阶331
14.7.1 数据实例331
14.7.2 Pig数据分析332
14.8 本章小结336
第15章 ZooKeeper详解337
15.1 ZooKeeper简介338
15.1.1 ZooKeeper的设计目标338
15.1.2 数据模型和层次命名空间339
15.1.3 ZooKeeper中的节 点和临时节 点339
15.1.4 ZooKeeper的应用340
15.2 ZooKeeper的安装和配置340
15.2.1 安装ZooKeeper340
15.2.2 配置ZooKeeper346
15.2.3 运行ZooKeeper348
15.3 ZooKeeper的简单操作350
15.3.1 使用ZooKeeper命令的简单操作步骤350
15.3.2 ZooKeeper API的简单使用352
15.4 ZooKeeper的特性355
15.4.1 ZooKeeper的数据模型355
15.4.2 ZooKeeper会话及状态356
15.4.3 ZooKeeper watches357
15.4.4 ZooKeeper ACL358
15.4.5 ZooKeeper的一致性保证359
15.5 使用ZooKeeper进行Leader选举359
15.6 ZooKeeper锁服务360
15.6.1 ZooKeeper中的锁机制360
15.6.2 ZooKeeper提供的一个写锁的实现361
15.7 使用ZooKeeper创建应用程序363
15.7.1 使用Eclipse开发ZooKeeper应用程序363
15.7.2 应用程序实例365
15.8 BooKeeper369
15.9 本章小结371
第16章 Avro详解372
16.1 Avro介绍373
16.1.1 模式声明374
16.1.2 数据序列化378
16.1.3 数据排列顺序380
16.1.4 对象容器文件381
16.1.5 协议声明382
16.1.6 协议传输格式383
16.1.7 模式解析386
16.2 Avro的C/C++实现387
16.3 Avro的Java实现398
16.4 GenAvro(Avro IDL)语言402
16.5 Avro SASL概述406
16.6 本章小结407
第17章 Chukwa详解409
17.1 Chukwa简介410
17.2 Chukwa架构411
17.2.1 客户端及其数据模型412
17.2.2 收集器413
17.2.3 归档器和分离解析器414
17.2.4 HICC415
17.3 Chukwa的可靠性415
17.4 Chukwa集群搭建416
17.4.1 基本配置要求416
17.4.2 Chukwa的安装416
17.4.3 Chukwa的运行419
17.5 Chukwa数据流的处理424
17.6 Chukwa与其他监控系统比较425
17.7 本章小结426
本章参考资料426
第18章 Hadoop的常用插件与开发428
18.1 Hadoop Studio的介绍和使用429
18.1.1 Hadoop Studio的介绍429
18.1.2 Hadoop Studio的安装配置430
18.1.3 Hadoop Studio的使用举例430
18.2 Hadoop Eclipse的介绍和使用436
18.2.1 Hadoop Eclipse的介绍436
18.2.2 Hadoop Eclipse的安装配置437
18.2.3 Hadoop Eclipse的使用举例438
18.3 Hadoop Streaming的介绍和使用440
18.3.1 Hadoop Streaming的介绍440
18.3.2 Hadoop Streaming的使用举例444
18.3.3 使用Hadoop Streaming常见的问题446
18.4 Hadoop Libhdfs的介绍和使用448
18.4.1 Hadoop Libhdfs的介绍448
18.4.2 Hadoop Libhdfs的安装配置448
18.4.3 Hadoop Libhdfs API简介448
18.4.4 Hadoop Libhdfs的使用举例449
18.5 本章小结450
第19章 企业应用实例452
19.1 Hadoop在Yahoo!的应用453
19.2 Hadoop在eBay的应用455
19.3 Hadoop在百度的应用457
19.4 即刻搜索中的Hadoop460
19.4.1 即刻搜索简介460
19.4.2 即刻Hadoop应用架构460
19.4.3 即刻Hadoop应用分析463
19.5 Facebook中的Hadoop和HBase463
19.5.1 Facebook中的任务特点464
19.5.2 MySQL VS Hadoop+HBase466
19.5.3 Hadoop和HBase的实现467
19.6 本章小结472
本章参考资料472
附录A 云计算在线检测平台474
附录B Hadoop安装、运行与使用说明484
附录C 使用DistributedCache的MapReduce程序491
附录D 使用ChainMapper和ChainReducer的MapReduce程序495