图书介绍

Hadoop实战 第2版PDF|Epub|txt|kindle电子书版本网盘下载

Hadoop实战 第2版
  • 陆嘉恒著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111395836
  • 出版时间:2012
  • 标注页数:498页
  • 文件大小:43MB
  • 文件页数:517页
  • 主题词:数据处理-应用软件

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Hadoop实战 第2版PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 Hadoop简介1

1.1 什么是Hadoop2

1.1.1 Hadoop概述2

1.1.2 Hadoop的历史2

1.1.3 Hadoop的功能与作用2

1.1.4 Hadoop的优势3

1.1.5 Hadoop应用现状和发展趋势3

1.2 Hadoop项目及其结构3

1.3 Hadoop体系结构6

1.4 Hadoop与分布式开发7

1.5 Hadoop计算模型——MapReduce10

1.6 Hadoop数据管理10

1.6.1 HDFS的数据管理10

1.6.2 HBase的数据管理12

1.6.3 Hive的数据管理13

1.7 Hadoop集群安全策略15

1.8 本章小结17

第2章 Hadoop的安装与配置19

2.1 在Linux上安装与配置Hadoop20

2.1.1 安装JDK 1.6 20

2.1.2 配置SSH免密码登录21

2.1.3 安装并运行Hadoop22

2.2 在Mac OSX上安装与配置Hadoop24

2.2.1 安装Homebrew24

2.2.2 使用Homebrew安装Hadoop25

2.2.3 配置SSH和使用Hadoop25

2.3 在Windows上安装与配置Hadoop25

2.3.1 安装JDK 1.6 或更高版本25

2.3.2 安装Cygwin25

2.3.3 配置环境变量26

2.3.4 安装sshd服务26

2.3.5 启动sshd服务26

2.3.6 配置SSH免密码登录26

2.3.7 安装并运行Hadoop26

2.4 安装和配置Hadoop集群27

2.4.1 网络拓扑27

2.4.2 定义集群拓扑27

2.4.3 建立和安装Cluster28

2.5 日志分析及几个小技巧34

2.6 本章小结35

第3章 MapReduce计算模型36

3.1 为什么要用MapReduce37

3.2 MapReduce计算模型38

3.2.1 MapReduce Job38

3.2.2 Hadoop中的Hello World程序38

3.2.3 MapReduce的数据流和控制流46

3.3 MapReduce任务的优化47

3.4 Hadoop流49

3.4.1 Hadoop流的工作原理50

3.4.2 Hadoop流的命令51

3.4.3 两个例子52

3.5 Hadoop Pipes54

3.6 本章小结56

第4章 开发MapReduce应用程序57

4.1 系统参数的配置58

4.2 配置开发环境60

4.3 编写MapReduce程序60

4.3.1 Map处理60

4.3.2 Reduce处理61

4.4 本地测试62

4.5 运行MapReduce程序62

4.5.1 打包64

4.5.2 在本地模式下运行64

4.5.3 在集群上运行64

4.6 网络用户界面65

4.6.1 JobTracker页面65

4.6.2 工作页面65

4.6.3 返回结果66

4.6.4 任务页面67

4.6.5 任务细节 页面67

4.7 性能调优68

4.7.1 输入采用大文件68

4.7.2 压缩文件68

4.7.3 过滤数据69

4.7.4 修改作业属性71

4.8 MapReduce工作流72

4.8.1 复杂的Map和Reduce函数72

4.8.2 MapReduce Job中全局共享数据74

4.8.3 链接MapReduce Job75

4.9 本章小结77

第5章 MapReduce应用案例79

5.1 单词计数80

5.1.1 实例描述80

5.1.2 设计思路80

5.1.3 程序代码81

5.1.4 代码解读82

5.1.5 程序执行83

5.1.6 代码结果83

5.1.7 代码数据流84

5.2 数据去重85

5.2.1 实例描述85

5.2.2 设计思路86

5.2.3 程序代码86

5.3 排序87

5.3.1 实例描述87

5.3.2 设计思路88

5.3.3 程序代码89

5.4 单表关联91

5.4.1 实例描述91

5.4.2 设计思路92

5.4.3 程序代码92

5.5 多表关联95

5.5.1 实例描述95

5.5.2 设计思路96

5.5.3 程序代码96

5.6 本章小结98

第6章 MapReduce工作机制99

6.1 MapReduce作业的执行流程100

6.1.1 MapReduce任务执行总流程100

6.1.2 提交作业101

6.1.3 初始化作业103

6.1.4 分配任务104

6.1.5 执行任务106

6.1.6 更新任务执行进度和状态107

6.1.7 完成作业108

6.2 错误处理机制108

6.2.1 硬件故障109

6.2.2 任务失败109

6.3 作业调度机制110

6.4 Shuffle和排序111

6.4.1 Map端111

6.4.2 Reduce端113

6.4.3 shuffle过程的优化114

6.5 任务执行114

6.5.1 推测式执行114

6.5.2 任务JVM重用115

6.5.3 跳过坏记录115

6.5.4 任务执行环境116

6.6 本章小结117

第7章 Hadoop I/O操作118

7.1 I/O操作中的数据检查119

7.2 数据的压缩126

7.2.1 Hadoop对压缩工具的选择126

7.2.2 压缩分割和输入分割127

7.2.3 在MapReduce程序中使用压缩127

7.3 数据的I/O中序列化操作128

7.3.1 Writable类128

7.3.2 实现自己的Hadoop数据类型137

7.4 针对Mapreduce的文件类139

7.4.1 SequenceFile类139

7.4.2 MapFile类144

7.4.3 ArrayFile、SetFile和BloomMapFile146

7.5 本章小结148

第8章 下一代MapReduce:YARN149

8.1 MapReduce V2设计需求150

8.2 MapReduce V2主要思想和架构151

8.3 MapReduce V2设计细节153

8.4 MapReduce V2优势156

8.5 本章小结156

第9章 HDFS详解157

9.1 Hadoop的文件系统158

9.2 HDFS简介160

9.3 HDFS体系结构161

9.3.1 HDFS的相关概念161

9.3.2 HDFS的体系结构162

9.4 HDFS的基本操作164

9.4.1 HDFS的命令行操作164

9.4.2 HDFS的Web界面165

9.5 HDFS常用Java API详解166

9.5.1 使用Hadoop URL读取数据166

9.5.2 使用FileSystem API读取数据167

9.5.3 创建目录169

9.5.4 写数据169

9.5.5 删除数据171

9.5.6 文件系统查询171

9.6 HDFS中的读写数据流175

9.6.1 文件的读取175

9.6.2 文件的写入176

9.6.3 一致性模型178

9.7 HDFS命令详解179

9.7.1 通过distcp进行并行复制179

9.7.2 HDFS的平衡180

9.7.3 使用Hadoop归档文件180

9.7.4 其他命令183

9.8 WebHDFS186

9.8.1 WebHDFS的配置186

9.8.2 WebHDFS命令186

9.9 本章小结190

第10章 Hadoop的管理191

10.1 HDFS文件结构192

10.2 Hadoop的状态监视和管理工具196

10.2.1 审计日志196

10.2.2 监控日志196

10.2.3 Metrics197

10.2.4 Java管理扩展199

10.2.5 Ganglia200

10.2.6 Hadoop管理命令202

10.3 Hadoop集群的维护206

10.3.1 安全模式206

10.3.2 Hadoop的备份207

10.3.3 Hadoop的节 点管理208

10.3.4 系统升级210

10.4 本章小结212

第11章 Hive详解213

11.1 Hive简介214

11.1.1 Hive的数据存储214

11.1.2 Hive的元数据存储216

11.2 Hive的基本操作216

11.2.1 在集群上安装Hive216

11.2.2 配置MySQL存储Hive元数据218

11.2.3 配置Hive220

11.3 Hive QL详解221

11.3.1 数据定义(DDL)操作221

11.3.2 数据操作(DML)231

11.3.3 SQL操作233

11.3.4 Hive QL使用实例235

11.4 Hive网络(Web UI)接口237

11.4.1 Hive网络接口配置237

11.4.2 Hive网络接口操作实例238

11.5 Hive的JDBC接口241

11.5.1 Eclipse环境配置241

11.5.2 程序实例241

11.6 Hive的优化244

11.7 本章小结246

第12章 HBase详解247

12.1 HBase简介248

12.2 HBase的基本操作249

12.2.1 HBase的安装249

12.2.2 运行HBase253

12.2.3 HBase Shell255

12.2.4 HBase配置258

12.3 HBase体系结构260

12.3.1 HRegion260

12.3.2 HRegion服务器261

12.3.3 HBase Master服务器262

12.3.4 ROOT表和META表262

12.3.5 ZooKeeper263

12.4 HBase数据模型263

12.4.1 数据模型263

12.4.2 概念视图264

12.4.3 物理视图264

12.5 HBase与RDBMS265

12.6 HBase与HDFS266

12.7 HBase客户端266

12.8 Java API267

12.9 HBase编程273

12.9.1 使用Eclipse开发HBase应用程序273

12.9.2 HBase编程275

12.9.3 HBase与MapReduce278

12.10 模式设计280

12.10.1 模式设计应遵循的原则280

12.10.2 学生表281

12.10.3 事件表282

12.11 本章小结283

第13章 Mahout详解284

13.1 Mahout简介285

13.2 Mahout的安装和配置285

13.3 Mahout API简介288

13.4 Mahout中的频繁模式挖掘290

13.4.1 什么是频繁模式挖掘290

13.4.2 Mahout中的频繁模式挖掘290

13.5 Mahout中的聚类和分类292

13.5.1 什么是聚类和分类292

13.5.2 Mahout中的数据表示293

13.5.3 将文本转化成向量294

13.5.4 Mahout中的聚类、分类算法295

13.5.5 算法应用实例299

13.6 Mahout应用:建立一个推荐引擎304

13.6.1 推荐引擎简介304

13.6.2 使用Taste构建一个简单的推荐引擎305

13.6.3 简单分布式系统下基于产品的推荐系统简介307

13.7 本章小结309

第14章 Pig详解310

14.1 Pig简介311

14.2 Pig的安装和配置311

14.2.1 Pig的安装条件311

14.2.2 Pig的下载、安装和配置312

14.2.3 Pig运行模式313

14.3 Pig Latin语言315

14.3.1 Pig Latin语言简介315

14.3.2 Pig Latin的使用316

14.3.3 Pig Latin的数据类型318

14.3.4 Pig Latin关键字319

14.4 用户定义函数323

14.4.1 编写用户定义函数324

14.4.2 使用用户定义函数325

14.5 Zebra简介326

14.5.1 Zebra的安装326

14.5.2 Zebra的使用简介327

14.6 Pig实例328

14.6.1 Local模式328

14.6.2 MapReduce模式330

14.7 Pig进阶331

14.7.1 数据实例331

14.7.2 Pig数据分析332

14.8 本章小结336

第15章 ZooKeeper详解337

15.1 ZooKeeper简介338

15.1.1 ZooKeeper的设计目标338

15.1.2 数据模型和层次命名空间339

15.1.3 ZooKeeper中的节 点和临时节 点339

15.1.4 ZooKeeper的应用340

15.2 ZooKeeper的安装和配置340

15.2.1 安装ZooKeeper340

15.2.2 配置ZooKeeper346

15.2.3 运行ZooKeeper348

15.3 ZooKeeper的简单操作350

15.3.1 使用ZooKeeper命令的简单操作步骤350

15.3.2 ZooKeeper API的简单使用352

15.4 ZooKeeper的特性355

15.4.1 ZooKeeper的数据模型355

15.4.2 ZooKeeper会话及状态356

15.4.3 ZooKeeper watches357

15.4.4 ZooKeeper ACL358

15.4.5 ZooKeeper的一致性保证359

15.5 使用ZooKeeper进行Leader选举359

15.6 ZooKeeper锁服务360

15.6.1 ZooKeeper中的锁机制360

15.6.2 ZooKeeper提供的一个写锁的实现361

15.7 使用ZooKeeper创建应用程序363

15.7.1 使用Eclipse开发ZooKeeper应用程序363

15.7.2 应用程序实例365

15.8 BooKeeper369

15.9 本章小结371

第16章 Avro详解372

16.1 Avro介绍373

16.1.1 模式声明374

16.1.2 数据序列化378

16.1.3 数据排列顺序380

16.1.4 对象容器文件381

16.1.5 协议声明382

16.1.6 协议传输格式383

16.1.7 模式解析386

16.2 Avro的C/C++实现387

16.3 Avro的Java实现398

16.4 GenAvro(Avro IDL)语言402

16.5 Avro SASL概述406

16.6 本章小结407

第17章 Chukwa详解409

17.1 Chukwa简介410

17.2 Chukwa架构411

17.2.1 客户端及其数据模型412

17.2.2 收集器413

17.2.3 归档器和分离解析器414

17.2.4 HICC415

17.3 Chukwa的可靠性415

17.4 Chukwa集群搭建416

17.4.1 基本配置要求416

17.4.2 Chukwa的安装416

17.4.3 Chukwa的运行419

17.5 Chukwa数据流的处理424

17.6 Chukwa与其他监控系统比较425

17.7 本章小结426

本章参考资料426

第18章 Hadoop的常用插件与开发428

18.1 Hadoop Studio的介绍和使用429

18.1.1 Hadoop Studio的介绍429

18.1.2 Hadoop Studio的安装配置430

18.1.3 Hadoop Studio的使用举例430

18.2 Hadoop Eclipse的介绍和使用436

18.2.1 Hadoop Eclipse的介绍436

18.2.2 Hadoop Eclipse的安装配置437

18.2.3 Hadoop Eclipse的使用举例438

18.3 Hadoop Streaming的介绍和使用440

18.3.1 Hadoop Streaming的介绍440

18.3.2 Hadoop Streaming的使用举例444

18.3.3 使用Hadoop Streaming常见的问题446

18.4 Hadoop Libhdfs的介绍和使用448

18.4.1 Hadoop Libhdfs的介绍448

18.4.2 Hadoop Libhdfs的安装配置448

18.4.3 Hadoop Libhdfs API简介448

18.4.4 Hadoop Libhdfs的使用举例449

18.5 本章小结450

第19章 企业应用实例452

19.1 Hadoop在Yahoo!的应用453

19.2 Hadoop在eBay的应用455

19.3 Hadoop在百度的应用457

19.4 即刻搜索中的Hadoop460

19.4.1 即刻搜索简介460

19.4.2 即刻Hadoop应用架构460

19.4.3 即刻Hadoop应用分析463

19.5 Facebook中的Hadoop和HBase463

19.5.1 Facebook中的任务特点464

19.5.2 MySQL VS Hadoop+HBase466

19.5.3 Hadoop和HBase的实现467

19.6 本章小结472

本章参考资料472

附录A 云计算在线检测平台474

附录B Hadoop安装、运行与使用说明484

附录C 使用DistributedCache的MapReduce程序491

附录D 使用ChainMapper和ChainReducer的MapReduce程序495

热门推荐