图书介绍
大数据分析与计算PDF|Epub|txt|kindle电子书版本网盘下载
![大数据分析与计算](https://www.shukui.net/cover/68/34511483.jpg)
- 汤羽,林迪,范爱华,吴薇薇编著 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302485865
- 出版时间:2018
- 标注页数:486页
- 文件大小:73MB
- 文件页数:500页
- 主题词:数据处理-高等学校-教材
PDF下载
下载说明
大数据分析与计算PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 绪论1
1.1数据与数据科学2
1.2大数据概念6
1.3大数据技术特征13
参考文献16
习题17
第2章 大数据计算体系18
2.1大数据计算架构18
2.2数据存储系统19
2.2.1数据清洗与建模19
2.2.2分布式文件系统21
2.2.3 NoSQL数据库23
2.2.4统一数据访问接口27
2.3数据处理平台31
2.3.1数据分析算法31
2.3.2计算处理模型35
2.3.3计算平台与引擎38
2.4数据应用系统39
2.4.1大数据应用领域39
2.4.2大数据解决方案41
参考文献50
习题52
第3章 大数据标准与模式53
3.1大数据标准体系53
3.2大数据计算模式64
参考文献68
习题69
第4章 数据采集方法70
4.1系统日志采集70
4.1.1日志采集的目的71
4.1.2日志采集过程71
4.2网络数据采集72
4.2.1网络爬虫工作原理72
4.2.2网页搜索策略73
4.2.3网页分析算法73
4.2.4网络爬虫框架74
4.3数据采集接口75
参考文献76
习题76
第5章 数据清洗与规约方法77
5.1数据预处理研究现状78
5.1.1数据清洗的研究现状78
5.1.2数据规约的研究现状78
5.2数据质量问题分类79
5.2.1单数据源的问题79
5.2.2多数据源的问题81
5.3数据清洗技术82
5.3.1重复记录清洗82
5.3.2消除噪声数据83
5.3.3缺失值清洗83
5.4数据归约84
5.4.1维归约85
5.4.2属性选择85
5.4.3离散化方法85
5.5数据清洗工具86
参考文献86
习题87
第6章 数据分析算法88
6.1 C4.5算法88
6.1.1算法描述89
6.1.2属性选择度量89
6.1.3其他特征91
6.2 k-均值算法92
6.3支持向量机92
6.4 Apriori算法93
6.5 EM算法94
6.5.1案例:估计k个高斯分布的均值94
6.5.2 EM算法步骤95
6.6 PageRank算法96
6.6.1 PageRank的核心思想96
6.6.2 PageRank的计算过程97
6.7 AdaBoost算法99
6.7.1 Boosting算法的发展历史99
6.7.2 AdaBoost算法及其分析99
6.8 k-邻近算法101
6.9朴素贝叶斯102
6.9.1朴素贝叶斯分类器102
6.9.2贝叶斯网络103
6.10分类回归树算法104
6.10.1建立回归树105
6.10.2剪枝过程105
参考文献105
习题106
第7章 文本读写技术107
7.1读取文本文件107
7.1.1读取txt文件108
7.1.2读取csv文件109
7.2写入文本文件110
7.3处理二进制数据111
7.4数据库的使用112
7.4.1数据库的连接112
7.4.2执行SQL语句112
7.4.3选择和打印113
7.4.4动态插入113
7.4.5 update操作114
参考文献114
习题114
第8章 数据处理技术115
8.1合并数据集115
8.1.1索引上的合并115
8.1.2轴向连接119
8.1.3合并重叠数据122
8.2数据转换123
8.2.1移除重复数据123
8.2.2利用函数进行数据转换125
8.2.3替换值126
8.2.4重命名轴索引128
8.2.5离散化数据129
8.2.6检测异常值133
8.2.7排列和随机采样134
8.2.8哑变量136
8.3字符串操作138
8.3.1内置字符串方法138
8.3.2正则表达式139
8.3.3 Pandas中矢量化的字符串函数142
参考文献144
习题144
第9章 数据分析技术145
9.1 NumPy工具包145
9.1.1创建数组146
9.1.2打印数组147
9.1.3基本运算148
9.1.4索引、切片和迭代149
9.1.5形状操作150
9.1.6复制和视图151
9.1.7 NumPy实用技巧152
9.2 Pandas工具包153
9.2.1 Series154
9.2.2 DataFrame157
9.3 Scikit-Learn工具包160
9.3.1逻辑回归160
9.3.2朴素贝叶斯161
9.3.3 k-最近邻161
9.3.4决策树161
9.3.5支持向量机162
9.3.6优化算法参数162
参考文献163
习题163
第10章 数据可视化技术164
10.1 Matplotlib绘图164
10.1.1 Matplotlib API入门164
10.1.2 Figure和Subplot的画图方法164
10.1.3调整Subplot周围的间距167
10.1.4颜色、标记和线型的设置167
10.1.5刻度、标签和图例169
10.2 Mayavi2绘图172
10.2.1使用mlab快速绘图172
10.2.2 Mayavi嵌入到界面中174
10.3其他图形化工具176
参考文献176
习题177
第11章 Hadoop生态系统178
11.1 Hadoop系统架构178
11.2 HDFS分布式文件系统188
11.2.1 HDFS体系结构189
11.2.2 HDFS存储结构191
11.2.3数据容错与恢复196
11.2.4 Hadoop/HDFS安装198
11.3分布式存储架构208
11.3.1 HBase系统架构209
11.3.2数据模型与存储模式214
11.3.3 HBase数据读写218
11.3.4数据仓库工具Hive220
11.3.5 HBase安装与配置224
11.4 HBase索引与检索229
11.4.1二次索引表机制229
11.4.2二次索引技术方案231
11.5资源管理与作业调度240
11.5.1分布式协同管理组件ZooKeeper240
11.5.2作业调度与工作流引擎Oozie246
11.5.3集群资源管理框架YARN249
参考文献257
习题259
第12章 MapReduce计算模型260
12.1分布式并行计算系统260
12.2 MapReduce计算架构266
12.3键值对与输入格式269
12.4映射与化简274
12.5应用编程接口282
参考文献295
习题295
第13章 图并行计算框架296
13.1图基本概念302
13.2 BSP模型304
13.3 Pregel图计算引擎307
13.4 Hama开源框架316
13.5应用编程接口331
参考文献335
习题336
第14章 交互式计算模式337
14.1数据模型337
14.2存储结构339
14.3并行查询347
14.4开源实现349
参考文献357
习题357
第15章 流计算系统358
15.1流计算模型359
15.2 Storm计算架构369
15.3工作机制实现376
15.4 Storm编程接口382
参考文献388
习题388
第16章 内存计算模式390
16.1分布式缓存体系391
16.2内存数据库407
16.3内存云MemCloud412
16.4 Spark内存计算419
参考文献439
习题440
第17章 基于医疗数据的临床决策分析应用442
17.1国内外研究现状及发展动态分析443
17.2技术路线和方案444
参考文献451
习题451
第18章 基于医保数据的预测分析应用452
18.1数据准备阶段452
18.2模型变量选择和转换452
18.2.1模型变量的选择453
18.2.2模型变量的转换454
18.2.3筛选模型变量455
18.3建模过程456
18.4模型效果457
参考文献458
习题458
第19章 互联网电商数据的分析应用459
19.1电商流程管理分析460
19.1.1行业背景与业务问题460
19.1.2分析方法与过程460
19.2用户消费行为分析464
19.2.1业务问题464
19.2.2分析方法与过程465
19.3送货速度相关性分析466
19.3.1业务问题466
19.3.2分析方法与过程467
19.4总结469
参考文献469
习题469
第20章 金融和经济数据的分析应用470
20.1企业对创新经济活动推动的影响分析470
20.1.1案例背景471
20.1.2分析方法与过程471
20.2信贷风险模型评估477
20.3中小能源型企业的信用评价分析480
20.3.1案例背景480
20.3.2分析方法与过程480
20.3.3分析结果483
参考文献484
习题485