图书介绍

大数据分析与计算PDF|Epub|txt|kindle电子书版本网盘下载

大数据分析与计算
  • 汤羽,林迪,范爱华,吴薇薇编著 著
  • 出版社: 北京:清华大学出版社
  • ISBN:9787302485865
  • 出版时间:2018
  • 标注页数:486页
  • 文件大小:73MB
  • 文件页数:500页
  • 主题词:数据处理-高等学校-教材

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据分析与计算PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 绪论1

1.1数据与数据科学2

1.2大数据概念6

1.3大数据技术特征13

参考文献16

习题17

第2章 大数据计算体系18

2.1大数据计算架构18

2.2数据存储系统19

2.2.1数据清洗与建模19

2.2.2分布式文件系统21

2.2.3 NoSQL数据库23

2.2.4统一数据访问接口27

2.3数据处理平台31

2.3.1数据分析算法31

2.3.2计算处理模型35

2.3.3计算平台与引擎38

2.4数据应用系统39

2.4.1大数据应用领域39

2.4.2大数据解决方案41

参考文献50

习题52

第3章 大数据标准与模式53

3.1大数据标准体系53

3.2大数据计算模式64

参考文献68

习题69

第4章 数据采集方法70

4.1系统日志采集70

4.1.1日志采集的目的71

4.1.2日志采集过程71

4.2网络数据采集72

4.2.1网络爬虫工作原理72

4.2.2网页搜索策略73

4.2.3网页分析算法73

4.2.4网络爬虫框架74

4.3数据采集接口75

参考文献76

习题76

第5章 数据清洗与规约方法77

5.1数据预处理研究现状78

5.1.1数据清洗的研究现状78

5.1.2数据规约的研究现状78

5.2数据质量问题分类79

5.2.1单数据源的问题79

5.2.2多数据源的问题81

5.3数据清洗技术82

5.3.1重复记录清洗82

5.3.2消除噪声数据83

5.3.3缺失值清洗83

5.4数据归约84

5.4.1维归约85

5.4.2属性选择85

5.4.3离散化方法85

5.5数据清洗工具86

参考文献86

习题87

第6章 数据分析算法88

6.1 C4.5算法88

6.1.1算法描述89

6.1.2属性选择度量89

6.1.3其他特征91

6.2 k-均值算法92

6.3支持向量机92

6.4 Apriori算法93

6.5 EM算法94

6.5.1案例:估计k个高斯分布的均值94

6.5.2 EM算法步骤95

6.6 PageRank算法96

6.6.1 PageRank的核心思想96

6.6.2 PageRank的计算过程97

6.7 AdaBoost算法99

6.7.1 Boosting算法的发展历史99

6.7.2 AdaBoost算法及其分析99

6.8 k-邻近算法101

6.9朴素贝叶斯102

6.9.1朴素贝叶斯分类器102

6.9.2贝叶斯网络103

6.10分类回归树算法104

6.10.1建立回归树105

6.10.2剪枝过程105

参考文献105

习题106

第7章 文本读写技术107

7.1读取文本文件107

7.1.1读取txt文件108

7.1.2读取csv文件109

7.2写入文本文件110

7.3处理二进制数据111

7.4数据库的使用112

7.4.1数据库的连接112

7.4.2执行SQL语句112

7.4.3选择和打印113

7.4.4动态插入113

7.4.5 update操作114

参考文献114

习题114

第8章 数据处理技术115

8.1合并数据集115

8.1.1索引上的合并115

8.1.2轴向连接119

8.1.3合并重叠数据122

8.2数据转换123

8.2.1移除重复数据123

8.2.2利用函数进行数据转换125

8.2.3替换值126

8.2.4重命名轴索引128

8.2.5离散化数据129

8.2.6检测异常值133

8.2.7排列和随机采样134

8.2.8哑变量136

8.3字符串操作138

8.3.1内置字符串方法138

8.3.2正则表达式139

8.3.3 Pandas中矢量化的字符串函数142

参考文献144

习题144

第9章 数据分析技术145

9.1 NumPy工具包145

9.1.1创建数组146

9.1.2打印数组147

9.1.3基本运算148

9.1.4索引、切片和迭代149

9.1.5形状操作150

9.1.6复制和视图151

9.1.7 NumPy实用技巧152

9.2 Pandas工具包153

9.2.1 Series154

9.2.2 DataFrame157

9.3 Scikit-Learn工具包160

9.3.1逻辑回归160

9.3.2朴素贝叶斯161

9.3.3 k-最近邻161

9.3.4决策树161

9.3.5支持向量机162

9.3.6优化算法参数162

参考文献163

习题163

第10章 数据可视化技术164

10.1 Matplotlib绘图164

10.1.1 Matplotlib API入门164

10.1.2 Figure和Subplot的画图方法164

10.1.3调整Subplot周围的间距167

10.1.4颜色、标记和线型的设置167

10.1.5刻度、标签和图例169

10.2 Mayavi2绘图172

10.2.1使用mlab快速绘图172

10.2.2 Mayavi嵌入到界面中174

10.3其他图形化工具176

参考文献176

习题177

第11章 Hadoop生态系统178

11.1 Hadoop系统架构178

11.2 HDFS分布式文件系统188

11.2.1 HDFS体系结构189

11.2.2 HDFS存储结构191

11.2.3数据容错与恢复196

11.2.4 Hadoop/HDFS安装198

11.3分布式存储架构208

11.3.1 HBase系统架构209

11.3.2数据模型与存储模式214

11.3.3 HBase数据读写218

11.3.4数据仓库工具Hive220

11.3.5 HBase安装与配置224

11.4 HBase索引与检索229

11.4.1二次索引表机制229

11.4.2二次索引技术方案231

11.5资源管理与作业调度240

11.5.1分布式协同管理组件ZooKeeper240

11.5.2作业调度与工作流引擎Oozie246

11.5.3集群资源管理框架YARN249

参考文献257

习题259

第12章 MapReduce计算模型260

12.1分布式并行计算系统260

12.2 MapReduce计算架构266

12.3键值对与输入格式269

12.4映射与化简274

12.5应用编程接口282

参考文献295

习题295

第13章 图并行计算框架296

13.1图基本概念302

13.2 BSP模型304

13.3 Pregel图计算引擎307

13.4 Hama开源框架316

13.5应用编程接口331

参考文献335

习题336

第14章 交互式计算模式337

14.1数据模型337

14.2存储结构339

14.3并行查询347

14.4开源实现349

参考文献357

习题357

第15章 流计算系统358

15.1流计算模型359

15.2 Storm计算架构369

15.3工作机制实现376

15.4 Storm编程接口382

参考文献388

习题388

第16章 内存计算模式390

16.1分布式缓存体系391

16.2内存数据库407

16.3内存云MemCloud412

16.4 Spark内存计算419

参考文献439

习题440

第17章 基于医疗数据的临床决策分析应用442

17.1国内外研究现状及发展动态分析443

17.2技术路线和方案444

参考文献451

习题451

第18章 基于医保数据的预测分析应用452

18.1数据准备阶段452

18.2模型变量选择和转换452

18.2.1模型变量的选择453

18.2.2模型变量的转换454

18.2.3筛选模型变量455

18.3建模过程456

18.4模型效果457

参考文献458

习题458

第19章 互联网电商数据的分析应用459

19.1电商流程管理分析460

19.1.1行业背景与业务问题460

19.1.2分析方法与过程460

19.2用户消费行为分析464

19.2.1业务问题464

19.2.2分析方法与过程465

19.3送货速度相关性分析466

19.3.1业务问题466

19.3.2分析方法与过程467

19.4总结469

参考文献469

习题469

第20章 金融和经济数据的分析应用470

20.1企业对创新经济活动推动的影响分析470

20.1.1案例背景471

20.1.2分析方法与过程471

20.2信贷风险模型评估477

20.3中小能源型企业的信用评价分析480

20.3.1案例背景480

20.3.2分析方法与过程480

20.3.3分析结果483

参考文献484

习题485

热门推荐