图书介绍
深入浅出大数据PDF|Epub|txt|kindle电子书版本网盘下载
![深入浅出大数据](https://www.shukui.net/cover/72/33418657.jpg)
- 宋智军编著 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302421818
- 出版时间:2016
- 标注页数:368页
- 文件大小:61MB
- 文件页数:383页
- 主题词:数据处理-教材
PDF下载
下载说明
深入浅出大数据PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 大数据概述1
1.1 大数据发展历程1
1.2 大数据的定义及特征3
1.2.1 大数据定义3
1.2.2 大数据的关键特征4
1.3 大数据与传统数据的区别6
1.3.1 数据思维6
1.3.2 数据处理7
1.3.3 数据分析9
1.4 大数据的核心价值9
1.5 大数据安全与隐私保护11
1.5.1 基础设施安全11
1.5.2 数据隐私12
1.5.3 数据治理13
1.5.4 被动安全机制14
第2章 大数据关键技术15
2.1 大数据采集与预处理技术15
2.1.1 Flume16
2.1.2 Scribe17
2.1.3 Kafka19
2.1.4 Time Tunnel20
2.1.5 Chukwa21
2.2 大数据存储与管理技术22
2.2.1 分布式文件系统23
2.2.2 分布式数据库27
2.3 大数据分析与挖掘技术31
2.3.1 传统数据分析与挖掘方法31
2.3.2 大数据分析与挖掘方法35
2.3.3 大数据分析与挖掘框架38
2.4 大数据应用与展现技术42
2.4.1 大数据应用42
2.4.2 大数据可视化44
第3章 基于Hadoop的大数据生态系统49
3.1 Hadoop概述49
3.1.1 Hadoop发展历程49
3.1.2 Hadoop特点54
3.1.3 Hadoop核心思想54
3.2 Hadoop家族成员55
3.3 Hadoop生态系统57
3.3.1 Hadoop 1.0生态系统57
3.3.2 Hadoop 2.0生态系统58
3.4 Hadoop集群架构58
3.4.1 Hadoop 1.0生态系统的集群架构59
3.4.2 Hadoop 2.0生态系统的集群架构59
3.5 Hadoop运行环境60
3.5.1 硬件环境60
3.5.2 软件环境62
3.5.3 网络环境64
3.6 Hadoop集群的安装与配置64
3.6.1 准备工作65
3.6.2 Hadoop部署82
第4章 分布式文件系统HDFS90
4.1 HDFS概述90
4.2 HDFS基本组成92
4.2.1 数据块92
4.2.2 元数据节点93
4.2.3 辅助元数据节点96
4.2.4 数据节点97
4.3 HDFS体系架构98
4.3.1 Hadoop 1.0生态系统中HDFS体系架构98
4.3.2 Hadoop 2.0生态系统中HDFS体系架构99
4.4 HDFS核心功能100
4.5 HDFS通信机制101
4.5.1 RPC Interface102
4.5.2 RPC Client109
4.5.3 RPC Server110
4.5.4 RPC通信实现111
4.6 HDFS安全机制115
4.6.1 授权机制116
4.6.2 认证机制119
4.7 HDFS容错机制123
4.7.1 副本策略123
4.7.2 心跳检测125
4.7.3 HDFS HA132
4.7.4 HDFS Federation140
4.8 HDFS快照机制144
4.8.1 快照原理144
4.8.2 适用场景145
4.8.3 基本操作147
4.9 HDFS读写机制150
4.9.1 HDFS读机制150
4.9.2 HDFS写机制153
4.10 HDFS常用操作155
4.10.1 dfs命令155
4.10.2 dfsadmin命令157
4.10.3 Web接口158
4.10.4 HDFS API160
第5章 分布式计算框架MapReduce164
5.1 MapReduce概述164
5.2 MapReduce原理165
5.3 MapReduce框架166
5.3.1 Hadoop 1.0生态系统中MapReduce框架166
5.3.2 Hadoop 2.0生态系统中MapReduce框架167
5.4 MapReduce开发环境169
5.4.1 搭建MapReduce开发环境169
5.4.2 开发MapReduce应用程序172
5.5 MapReduce编程过程178
5.5.1 InputFormat179
5.5.2 Map182
5.5.3 Combine/Partition184
5.5.4 Reduce186
5.5.5 OutputFormat187
5.6 MapReduce开发实例191
5.6.1 MapReduce编程191
5.6.2 实例解析199
第6章 资源管理框架YARN203
6.1 YARN概述203
6.2 YARN体系架构204
6.2.1 ResourceManager205
6.2.2 NodeManager209
6.2.3 ApplicationMaster209
6.2.4 Container210
6.3 YARN工作流程211
6.4 YARN通信机制212
6.5 YARN安全机制214
6.5.1 认证机制215
6.5.2 授权机制216
6.6 YARN容错机制218
6.7 YARN资源调度机制220
6.7.1 FIFO Scheduler220
6.7.2 Fair Scheduler223
6.7.3 Capacity Scheduler227
6.8 可在YARN上运行的框架231
6.9 YARN编程实例232
6.9.1 编程过程232
6.9.2 DistributedShell实例234
第7章 分布式列存储数据库HBase238
7.1 HBase概述238
7.2 HBase特点240
7.3 HBase体系架构241
7.4 HBase安装配置244
7.4.1 准备工作244
7.4.2 安装HBase245
7.4.3 配置HBase246
7.4.4 启停HBase248
7.5 HBase数据模型250
7.5.1 逻辑视图250
7.5.2 物理视图252
7.6 HBase关键技术253
7.6.1 HRegion定位253
7.6.2 HRegion分裂255
7.6.3 HBase读写机制257
7.7 HBase交互接口258
7.7.1 Native Java API259
7.7.2 HBase Shell265
7.8 HBase快照机制269
第8章 数据仓库Hive272
8.1 Hive概述272
8.2 Hive特点275
8.3 Hive体系架构276
8.4 Hive安装配置277
8.4.1 准备工作278
8.4.2 安装模式278
8.4.3 安装Hive279
8.4.4 配置Hive282
8.4.5 启动Hive285
8.5 Hive数据模型287
8.6 Hive数据类型289
8.6.1 基本数据类型289
8.6.2 复杂数据类型290
8.6.3 数据类型转换291
8.7 Hive基本操作292
8.7.1 DDL操作292
8.7.2 DML操作296
8.8 Hive内置运算符299
8.8.1 关系运算符299
8.8.2 算术运算符300
8.8.3 逻辑运算符301
8.8.4 复杂运算符302
8.9 Hive内置函数302
8.9.1 数值计算函数302
8.9.2 日期函数303
8.9.3 条件函数304
8.9.4 字符串函数304
8.9.5 集合统计函数305
8.10 Hive实例306
第9章 数据分析与挖掘Mahout308
9.1 Mahout概述308
9.2 Mahout安装配置309
9.2.1 Mahout安装309
9.2.2 Mahout配置309
9.2.3 Mahout测试310
9.3 Mahout算法集311
9.4 分类算法313
9.4.1 逻辑回归313
9.4.2 贝叶斯314
9.4.3 随机森林317
9.5 聚类算法318
9.5.1 Canopy聚类319
9.5.2 K-means聚类321
9.6 模式挖掘算法323
9.7 协同过滤算法324
9.7.1 收集用户偏好324
9.7.2 相似度计算325
9.7.3 推荐计算327
第10章 大数据应用331
10.1 大数据应用现状及发展趋势331
10.1.1 产业现状331
10.1.2 应用现状332
10.1.3 发展趋势333
10.2 互联网大数据应用336
10.3 金融行业大数据应用337
10.4 电信行业大数据应用338
10.5 医疗行业大数据应用339
10.6 智慧交通大数据应用340
10.7 大数据应用案例341
10.7.1 互联网大数据应用案例341
10.7.2 智慧交通大数据应用案例347
附表349
参考文献365