图书介绍
Hadoop实战PDF|Epub|txt|kindle电子书版本网盘下载
- (美)拉姆著;韩冀中译 著
- 出版社: 北京:人民邮电出版社
- ISBN:7115264480
- 出版时间:2011
- 标注页数:253页
- 文件大小:104MB
- 文件页数:267页
- 主题词:
PDF下载
下载说明
Hadoop实战PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第一部分 Hadoop——一种分布式编程框架第1章 Hadoop简介2
1.1 为什么写《Hadoop实战》3
1.2 什么是Hadoop3
1.3 了解分布式系统和Hadoop4
1.4 比较SQL数据库和Hadoop5
1.5 理解MapReduce6
1.5.1 动手扩展一个简单程序7
1.5.2 相同程序在MapReduce中的扩展9
1.6 用Hadoop统计单词——运行第一个程序11
1.7 Hadoop历史15
1.8 小结16
1.9 资源16
第2章 初识Hadoop17
2.1 Hadoop的构造模块17
2.1.1 NameNode17
2.1.2 DataNode18
2.1.3 Secondary NameNode19
2.1.4 JobTracker19
2.1.5 TaskTracker19
2.2 为Hadoop集群安装SSH21
2.2.1 定义一个公共账号21
2.2.2 验证SSH安装21
2.2.3 生成SSH密钥对21
2.2.4 将公钥分布并登录验证22
2.3 运行Hadoop22
2.3.1 本地(单机)模式23
2.3.2 伪分布模式24
2.3.3 全分布模式25
2.4 基于Web的集群用户界面28
2.5 小结30
第3章 Hadoop组件31
3.1 HDFS文件操作31
3.1.1 基本文件命令32
3.1.2 编程读写HDFS35
3.2 剖析MapReduce程序37
3.2.1 Hadoop数据类型39
3.2.2 Mapper40
3.2.3 Reducer41
3.2.4 Partitioner:重定向Mapper输出41
3.2.5 Combiner:本地reduce43
3.2.6 预定义mapper和Reducer类的单词计数43
3.3 读和写43
3.3.1 InputFormat44
3.3.2 OutputFormat49
3.4 小结50
第二部分 实战52
第4章 编写MapReduce基础程序52
4.1 获得专利数据集52
4.1.1 专利引用数据53
4.1.2 专利描述数据54
4.2 构建MapReduce程序的基础模板55
4.3 计数60
4.4 适应Hadoop API的改变64
4.5 Hadoop的Streaming67
4.5.1 通过Unix命令使用Streaming68
4.5.2 通过脚本使用Streaming69
4.5.3 用Streaming处理键/值对72
4.5.4 通过Aggregate包使用Streaming75
4.6 使用combiner提升性能80
4.7 温故知新83
4.8 小结84
4.9 更多资源84
第5章 高阶MapReduce85
5.1 链接MapReduce作业85
5.1.1 顺序链接MapReduce作业85
5.1.2 具有复杂依赖的MapReduce链接86
5.1.3 预处理和后处理阶段的链接86
5.2 联结不同来源的数据89
5.2.1 Reduce侧的联结90
5.2.2 基于DistributedCache的复制联结98
5.2.3 半联结:map侧过滤后在reduce侧联结101
5.3 创建一个Bloom filter102
5.3.1 Bloom filter做了什么102
5.3.2 实现一个Bloom filter104
5.3.3 Hadoop 0.20以上版本的Bloom filter110
5.4 温故知新110
5.5 小结111
5.6 更多资源112
第6章 编程实践113
6.1 开发MapReduce程序113
6.1.1 本地模式114
6.1.2 伪分布模式118
6.2 生产集群上的监视和调试123
6.2.1 计数器123
6.2.2 跳过坏记录125
6.2.3 用IsolationRunner重新运行出错的任务128
6.3 性能调优129
6.3.1 通过combiner来减少网络流量129
6.3.2 减少输入数据量129
6.3.3 使用压缩129
6.3.4 重用JVM132
6.3.5 根据猜测执行来运行132
6.3.6 代码重构与算法重写133
6.4 小结134
第7章 细则手册135
7.1 向任务传递作业定制的参数135
7.2 探查任务特定信息137
7.3 划分为多个输出文件138
7.4 以数据库作为输入输出143
7.5 保持输出的顺序145
7.6 小结146
第8章 管理Hadoop147
8.1 为实际应用设置特定参数值147
8.2 系统体检149
8.3 权限设置151
8.4 配额管理151
8.5 启用回收站152
8.6 删减DataNode152
8.7 增加DataNode153
8.8 管理NameNode和SNN153
8.9 恢复失效的NameNode155
8.10 感知网络布局和机架的设计156
8.11 多用户作业的调度157
8.11.1 多个JobTracker158
8.11.2 公平调度器158
8.12 小结160
第三部分 Hadoop也疯狂162
第9章 在云上运行Hadoop162
9.1 Amazon Web Services简介162
9.2 安装AWS163
9.2.1 获得AWS身份认证凭据164
9.2.2 获得命令行工具166
9.2.3 准备SSH密钥对168
9.3 在EC2上安装Hadoop169
9.3.1 配置安全参数169
9.3.2 配置集群类型169
9.4 在EC2上运行MapReduce程序171
9.4.1 将代码转移到Hadoop集群上171
9.4.2 访问Hadoop集群上的数据172
9.5 清空和关闭EC2实例175
9.6 Amazon Elastic MapReduce和其他AWS服务176
9.6.1 Amazon Elastic MapReduce176
9.6.2 AWS导入/导出177
9.7 小结177
第10章 用Pig编程178
10.1 像Pig一样思考178
10.1.1 数据流语言179
10.1.2 数据类型179
10.1.3 用户定义函数179
10.2 安装Pig179
10.3 运行Pig180
10.4 通过Grunt学习Pig Latin182
10.5 谈谈Pig Latin186
10.5.1 数据类型和schema186
10.5.2 表达式和函数187
10.5.3 关系型运算符189
10.5.4 执行优化196
10.6 用户定义函数196
10.6.1 使用UDF196
10.6.2 编写UDF197
10.7 脚本199
10.7.1 注释199
10.7.2 参数替换200
10.7.3 多查询执行201
10.8 Pig实战——计算相似专利的例子201
10.9 小结206
第11章 Hive及Hadoop群207
11.1 Hive207
11.1.1 安装与配置Hive208
11.1.2 查询的示例210
11.1.3 深入HiveQL213
11.1.4 Hive小结221
11.2 其他Hadoop相关的部分221
11.2.1 HBase221
11.2.2 ZooKeeper221
11.2.3 Cascading221
11.2.4 Cloudera222
11.2.5 Katta222
11.2.6 CloudBase222
11.2.7 Aster Data和Greenplum222
11.2.8 Hama和Mahout223
11.2.9 search-hadoop.com223
11.3 小结223
第12章 案例研究224
12.1 转换《纽约时报》1100万个库存图片文档224
12.2 挖掘中国移动的数据225
12.3 在StumbleUpon推荐最佳网站229
12.3.1 分布式StumbleUpon的开端230
12.3.2 HBase和StumbleUpon230
12.3.3 StumbleUpon上的更多Hadoop应用236
12.4 搭建面向企业查询的分析系统——IBM的ES2项目238
12.4.1 ES2系统结构240
12.4.2 ES2爬虫241
12.4.3 ES2分析242
12.4.4 小结249
12.4.5 参考文献250
附录A HDFS文件命令251