图书介绍

Hadoop应用开发技术详解PDF|Epub|txt|kindle电子书版本网盘下载

Hadoop应用开发技术详解
  • 刘刚著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111452447
  • 出版时间:2014
  • 标注页数:408页
  • 文件大小:82MB
  • 文件页数:424页
  • 主题词:数据处理软件-程序设计

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Hadoop应用开发技术详解PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 Hadoop概述1

1.1 Hadoop起源1

1.1.1 Google与Hadoop模块1

1.1.2 为什么会有Hadoop1

1.1.3 Hadoop版本介绍2

1.2 Hadoop生态系统3

1.3 Hadoop常用项目介绍4

1.4 Hadoop在国内的应用6

1.5 本章小结7

第2章 Hadoop安装8

2.1 Hadoop环境安装配置8

2.1.1 安装VMware8

2.1.2 安装Ubuntu8

2.1.3 安装VMwareTools15

2.1.4 安装JDK15

2.2 Hadoop安装模式16

2.2.1 单机安装17

2.2.2 伪分布式安装18

2.2.3 分布式安装20

2.3 如何使用Hadoop27

2.3.1 Hadoop的启动与停止27

2.3.2 Hadoop配置文件28

2.4 本章小结28

第3章 MapReduce快速入门30

3.1 WordCount实例准备开发环境30

3.1.1 使用Eclipse创建一个Java工程30

3.1.2 导入Hadoop的JAR文件31

3.2 MapReduce代码的实现32

3.2.1 编写WordMapper类32

3.2.2 编写WordReducer类33

3.2.3 编写WordMain驱动类34

3.3 打包、部署和运行35

3.3.1 打包成JAR文件35

3.3.2 部署和运行36

3.3.3 测试结果38

3.4 本章小结39

第4章 Hadoop分布式文件系统详解40

4.1 认识HDFS40

4.1.1 HDFS的特点40

4.1.2 Hadoop文件系统的接口45

4.1.3 HDFS的Web服务46

4.2 HDFS架构46

4.2.1 机架47

4.2.2 数据块47

4.2.3 元数据节点48

4.2.4 数据节点50

4.2.5 辅助元数据节点50

4.2.6 名字空间52

4.2.7 数据复制53

4.2.8 块备份原理53

4.2.9 机架感知54

4.3 Hadoop的RPC机制55

4.3.1 RPC的实现流程56

4.3.2 RPC的实体模型56

4.3.3 文件的读取57

4.3.4 文件的写入58

4.3.5 文件的一致模型59

4.4 HDFS的HA机制59

4.4.1 HA集群59

4.4.2 HA架构60

4.4.3 为什么会有HA机制61

4.5 HDFS的Federation机制62

4.5.1 单个NameNode的HDFS架构的局限性62

4.5.2 为什么引入Federation机制63

4.5.3 Federation架构64

4.5.4 多个名字空间的管理问题65

4.6 Hadoop文件系统的访问66

4.6.1 安全模式66

4.6.2 HDFS的Shell访问67

4.6.3 HDFS处理文件的命令67

4.7 JavaAPI接口72

4.7.1 Hadoop URL读取数据73

4.7.2 FileSystem类73

4.7.3 FileStatus类75

4.7.4 FSDataInputStream类77

4.7.5 FSDataOutputStream类81

4.7.6 列出HDFS下所有的文件83

4.7.7 文件的匹配84

4.7.8 PathFilter对象84

4.8 维护HDFS86

4.8.1 追加数据86

4.8.2 并行复制88

4.8.3 升级与回滚88

4.8.4 添加节点90

4.8.5 删除节点91

4.9 HDFS权限管理92

4.9.1 用户身份92

4.9.2 权限管理的原理93

4.9.3 设置权限的Shell命令93

4.9.4 超级用户93

4.9.5 HDFS权限配置参数94

4.10 本章小结94

第5章 Hadoop文件I/O详解95

5.1 Hadoop文件的数据结构95

5.1.1 SequenceFile存储95

5.1.2 MapFile存储99

5.1.3 SequenceFile转换为MapFile101

5.2 HDFS数据完整性103

5.2.1 校验和103

5.2.2 数据块检测程序104

5.3 文件序列化106

5.3.1 进程间通信对序列化的要求106

5.3.2 Hadoop文件的序列化107

5.3.3 Writable接口107

5.3.4 WritableComparable接口108

5.3.5 自定义Writable接口109

5.3.6 序列化框架113

5.3.7 数据序列化系统Avro114

5.4 Hadoop的Writable类型115

5.4.1 Writable类的层次结构115

5.4.2 Text类型116

5.4.3 NullWritable类型117

5.4.4 ObjectWritable类型117

5.4.5 GenericWritable类型117

5.5 文件压缩117

5.5.1 Hadoop支持的压缩格式118

5.5.2 Hadoop中的编码器和解码器118

5.5.3 本地库121

5.5.4 可分割压缩LZO122

5.5.5 压缩文件性能比较122

5.5.6 Snappy压缩124

5.5.7 gzip、LZO和Snappy比较124

5.6 本章小结125

第6章 MapReduce工作原理126

6.1 MapReduce的函数式编程概念126

6.1.1 列表处理126

6.1.2 Mapping数据列表127

6.1.3 Reducing数据列表127

6.1.4 Mapper和Reducer如何工作128

6.1.5 应用实例:词频统计129

6.2 MapReduce框架结构129

6.2.1 MapReduce模型130

6.2.2 MapReduce框架组成130

6.3 MapReduce运行原理132

6.3.1 作业的提交132

6.3.2 作业初始化134

6.3.3 任务的分配136

6.3.4 任务的执行136

6.3.5 进度和状态的更新136

6.3.6 MapReduce的进度组成137

6.3.7 任务完成137

6.4 MapReduce容错137

6.4.1 任务失败138

6.4.2 TaskTracker失败138

6.4.3 JobTracker失败138

6.4.4 子任务失败138

6.4.5 任务失败反复次数的处理方法139

6.5 Shuffle阶段和Sort阶段139

6.5.1 Map端的Shuffle140

6.5.2 Reduce端的Shuffle142

6.5.3 Shuffle过程参数调优143

6.6 任务的执行144

6.6.1 推测执行144

6.6.2 任务JVM重用145

6.6.3 跳过坏的记录145

6.6.4 任务执行的环境146

6.7 作业调度器146

6.7.1 先进先出调度器146

6.7.2 容量调度器146

6.7.3 公平调度器149

6.8 自定义Hadoop调度器153

6.8.1 Hadoop调度器框架153

6.8.2 编写Hadoop调度器155

6.9 YARN介绍157

6.9.1 异步编程模型157

6.9.2 YARN支持的计算框架158

6.9.3 YARN架构158

6.9.4 YARN工作流程159

6.10 本章小结160

第7章 Eclipse插件的应用161

7.1 编译Hadoop源码161

7.1.1 下载Hadoop源码161

7.1.2 准备编译环境161

7.1.3 编译common组件162

7.2 Eclipse安装MapReduce插件166

7.2.1 查找MapReduce插件166

7.2.2 新建一个Hadoop location167

7.2.3 Hadoop插件操作HDFS168

7.2.4 运行MapReduce的驱动类170

7.3 MapReduce的Debug调试171

7.3.1 进入Debug运行模式171

7.3.2 Debug调试具体操作172

7.4 单元测试框架MRUnit174

7.4.1 认识MRUnit框架174

7.4.2 准备测试案例174

7.4.3 Mapper单元测试176

7.4.4 Reducer单元测试177

7.4.5 MapReduce单元测试178

7.5 本章小结179

第8章 MapReduce编程开发180

8.1 WordCount案例分析180

8.1.1 MapReduce工作流程180

8.1.2 WordCount的Map过程181

8.1.3 WordCount的Reduce过程182

8.1.4 每个过程产生的结果182

8.1.5 Mapper抽象类184

8.1.6 Reducer抽象类186

8.1.7 MapReduce驱动188

8.1.8 MapReduce最小驱动189

8.2 输入格式193

8.2.1 InputFormat接口193

8.2.2 InputSplit类195

8.2.3 RecordReader类197

8.2.4 应用实例:随机生成100个小数并求最大值198

8.3 输出格式205

8.3.1 OutputFormat接口205

8.3.2 RecordWriter类206

8.3.3 应用实例:把首字母相同的单词放到一个文件里206

8.4 压缩格式211

8.4.1 如何在MapReduce中使用压缩211

8.4.2 Map作业输出结果的压缩212

8.5 MapReduce优化212

8.5.1 Combiner类212

8.5.2 Partitioner类213

8.5.3 分布式缓存217

8.6 辅助类218

8.6.1 读取Hadoop配置文件218

8.6.2 设置Hadoop的配置文件属性219

8.6.3 GenericOptionsParser选项220

8.7 Streaming接口221

8.7.1 Streaming工作原理221

8.7.2 Streaming编程接口参数221

8.7.3 作业配置属性222

8.7.4 应用实例:抓取网页的标题223

8.8 本章小结225

第9章 MapReduce高级应用226

9.1 计数器226

9.1.1 默认计数器226

9.1.2 自定义计数器229

9.1.3 获取计数器231

9.2 MapReduce二次排序232

9.2.1 二次排序原理232

9.2.2 二次排序的算法流程233

9.2.3 代码实现235

9.3 MapReduce中的Join算法240

9.3.1 Reduce端Join240

9.3.2 Map端Join242

9.3.3 半连接Semi Join244

9.4 MapReduce从MySQL读写数据244

9.4.1 读数据245

9.4.2 写数据248

9.5 Hadoop系统调优248

9.5.1 小文件优化249

9.5.2 Map和Reduce个数设置249

9.6 本章小结250

第10章 数据仓库工具Hive251

10.1 认识Hive251

10.1.1 Hive工作原理251

10.1.2 Hive数据类型252

10.1.3 Hive的特点253

10.1.4 Hive下载与安装255

10.2 Hive架构256

10.2.1 Hive用户接口257

10.2.2 Hive元数据库259

10.2.3 Hive的数据存储262

10.2.4 Hive解释器263

10.3 Hive文件格式264

10.3.1 TextFile格式265

10.3.2 SequenceFile格式265

10.3.3 RCFile文件格式265

10.3.4 自定义文件格式269

10.4 Hive操作270

10.4.1 表操作270

10.4.2 视图操作278

10.4.3 索引操作280

10.4.4 分区操作283

10.4.5 桶操作289

10.5 Hive复合类型290

10.5.1 Struct类型291

10.5.2 Array类型292

10.5.3 Map类型293

10.6 Hive的JOIN详解294

10.6.1 JOIN操作语法294

10.6.2 JOIN原理294

10.6.3 外部JOIN295

10.6.4 Map端JOIN296

10.6.5 JOIN中处理NULL值的语义区别296

10.7 Hive优化策略297

10.7.1 列裁剪297

10.7.2 Map Join操作297

10.7.3 Group By操作298

10.7.4 合并小文件298

10.8 Hive内置操作符与函数298

10.8.1 字符串函数299

10.8.2 集合统计函数299

10.8.3 复合类型操作301

10.9 Hive用户自定义函数接口302

10.9.1 用户自定义函数UDF302

10.9.2 用户自定义聚合函数UDAF304

10.10 Hive的权限控制306

10.10.1 角色的创建和删除307

10.10.2 角色的授权和撤销307

10.10.3 超级管理员权限309

10.11 应用实例:使用JDBC开发Hive程序311

10.11.1 准备测试数据311

10.11.2 代码实现311

10.12 本章小结313

第11章 开源数据库HBase314

11.1 认识HBase314

11.1.1 HBase的特点314

11.1.2 HBase访问接口314

11.1.3 HBase存储结构315

11.1.4 HBase存储格式317

11.2 HBase设计319

11.2.1 逻辑视图320

11.2.2 框架结构及流程321

11.2.3 Table和Region的关系323

11.2.4 -ROOT-表和.META.表323

11.3 关键算法和流程324

11.3.1 Region定位324

11.3.2 读写过程325

11.3.3 Region分配327

11.3.4 Region Server上线和下线327

11.3.5 Master上线和下线327

11.4 HBase安装328

11.4.1 HBase单机安装328

11.4.2 HBase分布式安装330

11.5 HBase的Shell操作334

11.5.1 一般操作334

11.5.2 DDL操作335

11.5.3 DML操作337

11.5.4 HBase Shell脚本339

11.6 HBase客户端340

11.6.1 JavaAPI交互340

11.6.2 MapReduce操作HBase344

11.6.3 向HBase中写入数据348

11.6.4 读取HBase中的数据350

11.6.5 Avro、REST和Thrift接口352

11.7 本章小结353

第12章 Mahout算法354

12.1 Mahout的使用354

12.1.1 安装Mahout354

12.1.2 运行一个Mahout案例354

12.2 Mahout数据表示356

12.2.1 偏好Perference类356

12.2.2 数据模型DataModel类357

12.2.3 Mahout链接MySQL数据库358

12.3 认识Taste框架360

12.4 Mahout推荐器361

12.4.1 基于用户的推荐器361

12.4.2 基于项目的推荐器362

12.4.3 Slope One推荐策略363

12.5 推荐系统365

12.5.1 个性化推荐365

12.5.2 商品推荐系统案例366

12.6 本章小结370

附录A Hive内置操作符与函数371

附录B HBase默认配置解释392

附录C Hadoop三个配置文件的参数含义说明398

热门推荐