图书介绍
Hive编程指南PDF|Epub|txt|kindle电子书版本网盘下载
![Hive编程指南](https://www.shukui.net/cover/77/35088004.jpg)
- (美)卡普廖洛,(美)万普勒,(美)卢森格林著;曹坤译 著
- 出版社: 北京:人民邮电出版社
- ISBN:9787115333834
- 出版时间:2013
- 标注页数:294页
- 文件大小:43MB
- 文件页数:315页
- 主题词:数据库系统-程序设计-指南
PDF下载
下载说明
Hive编程指南PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 基础知识1
1.1 Hadoop和MapReduce综述3
1.2 Hadoop生态系统中的Hive6
1.2.1 Pig8
1.2.2 HBase8
1.2.3 Cascading、Crunch及其他9
1.3 Java和Hive:词频统计算法11
1.4后续事情13
第2章 基础操作14
2.1安装预先配置好的虚拟机14
2.2安装详细步骤15
2.2.1装Java16
2.2.2安装Hadoop17
2.2.3本地模式、伪分布式模式和分布式模式18
2.2.4测试Hadoop19
2.2.5安装Hive21
2.3 Hive内部是什么22
2.4启动Hive22
2.5配置Hadoop环境24
2.5.1本地模式配置24
2.5.2分布式模式和伪分布式模式配置26
2.5.3使用JDBC连接元数据27
2.6 Hive命令29
2.7命令行界面30
2.7.1 CLI选项30
2.7.2变量和属性31
2.7.3 Hive中“一次使用”命令34
2.7.4从文件中执行Hive查询35
2.7.5 hiverc文件36
2.7.6使用Hive CLI的更多介绍36
2.7.7查看操作命令历史37
2.7.8执行shell命令37
2.7.9在Hive内使用Hadoop的dfs命令38
2.7.10 Hive脚本中如何进行注释38
2.7.11显示字段名称38
第3章 数据类型和文件格式40
3.1基本数据类型40
3.2集合数据类型42
3.3文本文件数据编码44
3.4读时模式47
第4章 HiveQL:数据定义48
4.1 Hive中的数据库48
4.2修改数据库52
4.3创建表52
4.3.1管理表56
4.3.2外部表56
4.4分区表、管理表57
4.4.1外部分区表61
4.4.2自定义表的存储格式63
4.5删除表66
4.6修改表66
4.6.1表重命名67
4.6.2增加、修改和删除表分区67
4.6.3修改列信息68
4.6.4增加列68
4.6.5删除或者替换列68
4.6.6修改表属性69
4.6.7修改存储属性69
4.6.8众多的修改表语句70
第5章 HiveQL:数据操作71
5.1向管理表中装载数据71
5.2通过查询语句向表中插入数据73
5.3单个查询语句中创建表并加载数据76
5.4导出数据76
第6章 HiveQL:查询78
6.1 SELECT…FROM语句78
6.1.1使用正则表达式来指定列80
6.1.2使用列值进行计算81
6.1.3算术运算符81
6.1.4使用函数82
6.1.5 LIMIT语句93
6.1.6列别名93
6.1.7嵌套SELECT语句93
6.1.8 CASE…WHEN…THEN句式93
6.1.9什么情况下Hive可以避免进行MapReduce94
6.2 WHERE语句95
6.2.1谓词操作符96
6.2.2关于浮点数比较97
6.2.3 LIKE和RLIKE98
6.3 GROUP BY语句99
6.4 JOIN语句100
6.4.1 INNER JOIN100
6.4.2 JOIN优化103
6.4.3 LEFT OUTER JOIN104
6.4.4 OUTER JOIN104
6.4.5 RIGHT OUTER JOIN106
6.4.6 FULL OUTER JOIN107
6.4.7 LEFT SEMI-JOIN107
6.4.8笛卡尔积JOIN108
6.4.9 map-side JOIN108
6.5 ORDER BY和SORT BY110
6.6含有SORT BY的DISTRIBUTE BY111
6.7 CLUSTER BY112
6.8类型转换112
6.9抽样查询113
6.9.1数据块抽样114
6.9.2分桶表的输入裁剪114
6.10 UNION ALL115
第7章 HiveQL:视图117
7.1使用视图来降低查询复杂度117
7.2使用视图来限制基于条件过滤的数据118
7.3动态分区中的视图和map类型118
7.4视图零零碎碎相关的事情119
第8章 HiveQL:索引122
8.1创建索引122
8.2重建索引124
8.3显示索引124
8.4删除索引124
8.5实现一个定制化的索引处理器125
第9章 模式设计126
9.1按天划分的表126
9.2关于分区127
9.3唯一键和标准化128
9.4同一份数据多种处理129
9.5对于每个表的分区130
9.6分桶表数据存储131
9.7为表增加列132
9.8使用列存储表133
9.8.1重复数据133
9.8.2多列133
9.9(几乎)总是使用压缩134
第10章 调优135
10.1使用EXPLAIN135
10.2 EXPLAIN EXTENDED138
10.3限制调整139
10.4 JOIN优化140
10.5本地模式140
10.6并行执行141
10.7严格模式141
10.8调整mapper和reducer个数142
10.9 JVM重用144
10.10索引145
10.11动态分区调整145
10.12推测执行146
10.13单个MapReduce中多个GROUP BY147
10.14虚拟列147
第11章 其他文件格式和压缩方法149
11.1确定安装编解码器149
11.2选择一种压缩编/解码器150
11.3开启中间压缩151
11.4最终输出结果压缩152
11.5 sequence file存储格式152
11.6使用压缩实践153
11.7存档分区157
11.8压缩:包扎159
第12章 开发160
12.1修改Log4J属性160
12.2连接Java调试器到Hive161
12.3从源码编译Hive161
12.3.1执行Hive测试用例162
12.3.2执行hook163
12.4配置Hive和Eclipse163
12.5 Maven工程中使用Hive164
12.6 Hive中使用hive test进行单元测试165
12.7新增的插件开发工具箱(PDK)167
第13章 函数168
13.1发现和描述函数168
13.2调用函数169
13.3标准函数169
13.4聚合函数169
13.5表生成函数170
13.6一个通过日期计算其星座的UDF171
13.7 UDF与GenericUDF174
13.8不变函数177
13.9用户自定义聚合函数177
13.10用户自定义表生成函数183
13.10.1可以产生多行数据的UDTF183
13.10.2可以产生具有多个字段的单行数据的UDTF185
13.10.3可以模拟复杂数据类型的UDTF185
13.11在UDF中访问分布式缓存188
13.12以函数的方式使用注解190
13.12.1定数性(deterministic)标注191
13.12.2状态性(stateful)标注191
13.12.3唯一性191
13.13宏命令191
第14章 Streaming193
14.1恒等变换194
14.2改变类型194
14.3投影变换194
14.4操作转换195
14.5使用分布式内存195
14.6由一行产生多行196
14.7使用streaming进行聚合计算197
14.8 CLUSTER BY、DISTRIBUTE BY、SORT BY198
14.9 GenericMR Tools for Streaming to Java201
14.10计算cogroup203
第15章 自定义Hive文件和记录格式204
15.1文件和记录格式204
15.2阐明CREATE TABLE句式204
15.3文件格式206
15.3.1 SequenceFile207
15.3.2 RCfile207
15.3.3示例自定义输入格式:DualInputFormat208
15.4记录格式:SerDe210
15.5 CSV和TSV SerDe211
15.6 ObjectInspector212
15.7 Thing Big Hive Reflection ObjectInspector212
15.8 XML UDF212
15.9 XPath相关的函数213
15.10 JSON SerDe214
15.11 Avro Hive SerDe215
15.11.1使用表属性信息定义Avro Schema215
15.11.2从指定URL中定义Schema216
15.11.3进化的模式216
15.12二进制输出217
第16章 Hive的Thrift服务218
16.1启动Thrift Server218
16.2配置Groovy使用HiveServer219
16.3连接到HiveServer219
16.4获取集群状态信息220
16.5结果集模式220
16.6获取结果220
16.7获取执行计划221
16.8元数据存储方法221
16.9管理HiveServer222
16.9.1生产环境使用HiveServer223
16.9.2清理224
16.10 Hive ThriftMetastore224
16.10.1 ThriftMetastore配置224
16.10.2客户端配置224
第17章 存储处理程序和NoSQL226
17.1 Storage Handler Background226
17.2 HiveStorageHandler227
17.3 HBase227
17.4 Cassandra229
17.4.1静态列映射( Static Column Mapping)229
17.4.2为动态列转置列映射229
17.4.3 Cassandra SerDe Properties229
17.5 DynamoDB230
第18章 安全232
18.1和Hadoop安全功能相结合233
18.2使用Hive进行验证233
18.3 Hive中的权限管理234
18.3.1用户、组和角色235
18.3.2 Grant和Revoke权限236
18.4分区级别的权限238
18.5自动授权239
第19章 锁241
19.1 Hive结合Zookeeper支持锁功能241
19.2显式锁和独占锁244
第20章 Hive和Oozie整合245
20.1 Oozie提供的多种动作(Action)245
20.2一个只包含两个查询过程的工作流示例247
20.3 Oozie网页控制台248
20.4工作流中的变量248
20.5获取输出249
20.6获取输出到变量250
第21章 Hive和亚马逊网络服务系统(AWS)251
21.1为什么要弹性MapReduce251
21.2实例251
21.3开始前的注意事项252
21.4管理自有EMR Hive集群252
21.5 EMR Hive上的Thrift Server服务253
21.6 EMR上的实例组253
21.7配置EMR集群254
21.7.1部署hive-site.xml文件254
21.7.2部署.hiverc脚本255
21.7.3建立一个内存密集型配置255
21.8 EMR上的持久层和元数据存储256
21.9 EMR集群上的HDFS和S3257
21.10在S3上部署资源、配置和辅助程序脚本258
21.11 S3上的日志258
21.12现买现卖258
21.13安全组260
21.14 EMR和EC2以及Apache Hive的比较260
21.15 包装261
第22章 HCatalog262
22.1介绍262
22.2 MapReduce263
22.2.1读数据263
22.2.2写数据265
22.3命令行268
22.4安全模型269
22.5架构270
第23章 案例研究271
23.1 m6d.com(Media6Degrees)271
23.1.1 M6D的数据科学,使用Hive和R271
23.1.2 M6D UDF伪随机275
23.1.3 M6D如何管理多MapReduce集群间的Hive数据访问280
23.2 Outbrain284
23.2.1站内线上身份识别284
23.2.2计算复杂度287
23.2.3会话化288
23.3 NASA喷气推进实验室295
23.3.1区域气候模型评价系统295
23.3.2我们的经验:为什么使用Hive297
23.3.3解决这些问题我们所面临的挑战298
23.4 Photobucket299
23.4.1 Photobucket公司的大数据应用情况299
23.4.2 Hive所使用的硬件资源信息300
23.4.3 Hive提供了什么300
23.4.4 Hive支持的用户有哪些300
23.5 SimpleReach300
23.6 Experiences and Needs from the Customer Trenches303
23.6.1介绍303
23.6.2 Customer Trenches的用例304
术语词汇表312