图书介绍

Hive编程指南PDF|Epub|txt|kindle电子书版本网盘下载

Hive编程指南
  • (美)卡普廖洛,(美)万普勒,(美)卢森格林著;曹坤译 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115333834
  • 出版时间:2013
  • 标注页数:294页
  • 文件大小:43MB
  • 文件页数:315页
  • 主题词:数据库系统-程序设计-指南

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Hive编程指南PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 基础知识1

1.1 Hadoop和MapReduce综述3

1.2 Hadoop生态系统中的Hive6

1.2.1 Pig8

1.2.2 HBase8

1.2.3 Cascading、Crunch及其他9

1.3 Java和Hive:词频统计算法11

1.4后续事情13

第2章 基础操作14

2.1安装预先配置好的虚拟机14

2.2安装详细步骤15

2.2.1装Java16

2.2.2安装Hadoop17

2.2.3本地模式、伪分布式模式和分布式模式18

2.2.4测试Hadoop19

2.2.5安装Hive21

2.3 Hive内部是什么22

2.4启动Hive22

2.5配置Hadoop环境24

2.5.1本地模式配置24

2.5.2分布式模式和伪分布式模式配置26

2.5.3使用JDBC连接元数据27

2.6 Hive命令29

2.7命令行界面30

2.7.1 CLI选项30

2.7.2变量和属性31

2.7.3 Hive中“一次使用”命令34

2.7.4从文件中执行Hive查询35

2.7.5 hiverc文件36

2.7.6使用Hive CLI的更多介绍36

2.7.7查看操作命令历史37

2.7.8执行shell命令37

2.7.9在Hive内使用Hadoop的dfs命令38

2.7.10 Hive脚本中如何进行注释38

2.7.11显示字段名称38

第3章 数据类型和文件格式40

3.1基本数据类型40

3.2集合数据类型42

3.3文本文件数据编码44

3.4读时模式47

第4章 HiveQL:数据定义48

4.1 Hive中的数据库48

4.2修改数据库52

4.3创建表52

4.3.1管理表56

4.3.2外部表56

4.4分区表、管理表57

4.4.1外部分区表61

4.4.2自定义表的存储格式63

4.5删除表66

4.6修改表66

4.6.1表重命名67

4.6.2增加、修改和删除表分区67

4.6.3修改列信息68

4.6.4增加列68

4.6.5删除或者替换列68

4.6.6修改表属性69

4.6.7修改存储属性69

4.6.8众多的修改表语句70

第5章 HiveQL:数据操作71

5.1向管理表中装载数据71

5.2通过查询语句向表中插入数据73

5.3单个查询语句中创建表并加载数据76

5.4导出数据76

第6章 HiveQL:查询78

6.1 SELECT…FROM语句78

6.1.1使用正则表达式来指定列80

6.1.2使用列值进行计算81

6.1.3算术运算符81

6.1.4使用函数82

6.1.5 LIMIT语句93

6.1.6列别名93

6.1.7嵌套SELECT语句93

6.1.8 CASE…WHEN…THEN句式93

6.1.9什么情况下Hive可以避免进行MapReduce94

6.2 WHERE语句95

6.2.1谓词操作符96

6.2.2关于浮点数比较97

6.2.3 LIKE和RLIKE98

6.3 GROUP BY语句99

6.4 JOIN语句100

6.4.1 INNER JOIN100

6.4.2 JOIN优化103

6.4.3 LEFT OUTER JOIN104

6.4.4 OUTER JOIN104

6.4.5 RIGHT OUTER JOIN106

6.4.6 FULL OUTER JOIN107

6.4.7 LEFT SEMI-JOIN107

6.4.8笛卡尔积JOIN108

6.4.9 map-side JOIN108

6.5 ORDER BY和SORT BY110

6.6含有SORT BY的DISTRIBUTE BY111

6.7 CLUSTER BY112

6.8类型转换112

6.9抽样查询113

6.9.1数据块抽样114

6.9.2分桶表的输入裁剪114

6.10 UNION ALL115

第7章 HiveQL:视图117

7.1使用视图来降低查询复杂度117

7.2使用视图来限制基于条件过滤的数据118

7.3动态分区中的视图和map类型118

7.4视图零零碎碎相关的事情119

第8章 HiveQL:索引122

8.1创建索引122

8.2重建索引124

8.3显示索引124

8.4删除索引124

8.5实现一个定制化的索引处理器125

第9章 模式设计126

9.1按天划分的表126

9.2关于分区127

9.3唯一键和标准化128

9.4同一份数据多种处理129

9.5对于每个表的分区130

9.6分桶表数据存储131

9.7为表增加列132

9.8使用列存储表133

9.8.1重复数据133

9.8.2多列133

9.9(几乎)总是使用压缩134

第10章 调优135

10.1使用EXPLAIN135

10.2 EXPLAIN EXTENDED138

10.3限制调整139

10.4 JOIN优化140

10.5本地模式140

10.6并行执行141

10.7严格模式141

10.8调整mapper和reducer个数142

10.9 JVM重用144

10.10索引145

10.11动态分区调整145

10.12推测执行146

10.13单个MapReduce中多个GROUP BY147

10.14虚拟列147

第11章 其他文件格式和压缩方法149

11.1确定安装编解码器149

11.2选择一种压缩编/解码器150

11.3开启中间压缩151

11.4最终输出结果压缩152

11.5 sequence file存储格式152

11.6使用压缩实践153

11.7存档分区157

11.8压缩:包扎159

第12章 开发160

12.1修改Log4J属性160

12.2连接Java调试器到Hive161

12.3从源码编译Hive161

12.3.1执行Hive测试用例162

12.3.2执行hook163

12.4配置Hive和Eclipse163

12.5 Maven工程中使用Hive164

12.6 Hive中使用hive test进行单元测试165

12.7新增的插件开发工具箱(PDK)167

第13章 函数168

13.1发现和描述函数168

13.2调用函数169

13.3标准函数169

13.4聚合函数169

13.5表生成函数170

13.6一个通过日期计算其星座的UDF171

13.7 UDF与GenericUDF174

13.8不变函数177

13.9用户自定义聚合函数177

13.10用户自定义表生成函数183

13.10.1可以产生多行数据的UDTF183

13.10.2可以产生具有多个字段的单行数据的UDTF185

13.10.3可以模拟复杂数据类型的UDTF185

13.11在UDF中访问分布式缓存188

13.12以函数的方式使用注解190

13.12.1定数性(deterministic)标注191

13.12.2状态性(stateful)标注191

13.12.3唯一性191

13.13宏命令191

第14章 Streaming193

14.1恒等变换194

14.2改变类型194

14.3投影变换194

14.4操作转换195

14.5使用分布式内存195

14.6由一行产生多行196

14.7使用streaming进行聚合计算197

14.8 CLUSTER BY、DISTRIBUTE BY、SORT BY198

14.9 GenericMR Tools for Streaming to Java201

14.10计算cogroup203

第15章 自定义Hive文件和记录格式204

15.1文件和记录格式204

15.2阐明CREATE TABLE句式204

15.3文件格式206

15.3.1 SequenceFile207

15.3.2 RCfile207

15.3.3示例自定义输入格式:DualInputFormat208

15.4记录格式:SerDe210

15.5 CSV和TSV SerDe211

15.6 ObjectInspector212

15.7 Thing Big Hive Reflection ObjectInspector212

15.8 XML UDF212

15.9 XPath相关的函数213

15.10 JSON SerDe214

15.11 Avro Hive SerDe215

15.11.1使用表属性信息定义Avro Schema215

15.11.2从指定URL中定义Schema216

15.11.3进化的模式216

15.12二进制输出217

第16章 Hive的Thrift服务218

16.1启动Thrift Server218

16.2配置Groovy使用HiveServer219

16.3连接到HiveServer219

16.4获取集群状态信息220

16.5结果集模式220

16.6获取结果220

16.7获取执行计划221

16.8元数据存储方法221

16.9管理HiveServer222

16.9.1生产环境使用HiveServer223

16.9.2清理224

16.10 Hive ThriftMetastore224

16.10.1 ThriftMetastore配置224

16.10.2客户端配置224

第17章 存储处理程序和NoSQL226

17.1 Storage Handler Background226

17.2 HiveStorageHandler227

17.3 HBase227

17.4 Cassandra229

17.4.1静态列映射( Static Column Mapping)229

17.4.2为动态列转置列映射229

17.4.3 Cassandra SerDe Properties229

17.5 DynamoDB230

第18章 安全232

18.1和Hadoop安全功能相结合233

18.2使用Hive进行验证233

18.3 Hive中的权限管理234

18.3.1用户、组和角色235

18.3.2 Grant和Revoke权限236

18.4分区级别的权限238

18.5自动授权239

第19章 锁241

19.1 Hive结合Zookeeper支持锁功能241

19.2显式锁和独占锁244

第20章 Hive和Oozie整合245

20.1 Oozie提供的多种动作(Action)245

20.2一个只包含两个查询过程的工作流示例247

20.3 Oozie网页控制台248

20.4工作流中的变量248

20.5获取输出249

20.6获取输出到变量250

第21章 Hive和亚马逊网络服务系统(AWS)251

21.1为什么要弹性MapReduce251

21.2实例251

21.3开始前的注意事项252

21.4管理自有EMR Hive集群252

21.5 EMR Hive上的Thrift Server服务253

21.6 EMR上的实例组253

21.7配置EMR集群254

21.7.1部署hive-site.xml文件254

21.7.2部署.hiverc脚本255

21.7.3建立一个内存密集型配置255

21.8 EMR上的持久层和元数据存储256

21.9 EMR集群上的HDFS和S3257

21.10在S3上部署资源、配置和辅助程序脚本258

21.11 S3上的日志258

21.12现买现卖258

21.13安全组260

21.14 EMR和EC2以及Apache Hive的比较260

21.15 包装261

第22章 HCatalog262

22.1介绍262

22.2 MapReduce263

22.2.1读数据263

22.2.2写数据265

22.3命令行268

22.4安全模型269

22.5架构270

第23章 案例研究271

23.1 m6d.com(Media6Degrees)271

23.1.1 M6D的数据科学,使用Hive和R271

23.1.2 M6D UDF伪随机275

23.1.3 M6D如何管理多MapReduce集群间的Hive数据访问280

23.2 Outbrain284

23.2.1站内线上身份识别284

23.2.2计算复杂度287

23.2.3会话化288

23.3 NASA喷气推进实验室295

23.3.1区域气候模型评价系统295

23.3.2我们的经验:为什么使用Hive297

23.3.3解决这些问题我们所面临的挑战298

23.4 Photobucket299

23.4.1 Photobucket公司的大数据应用情况299

23.4.2 Hive所使用的硬件资源信息300

23.4.3 Hive提供了什么300

23.4.4 Hive支持的用户有哪些300

23.5 SimpleReach300

23.6 Experiences and Needs from the Customer Trenches303

23.6.1介绍303

23.6.2 Customer Trenches的用例304

术语词汇表312

热门推荐