图书介绍

大数据挖掘及应用PDF|Epub|txt|kindle电子书版本网盘下载

王国胤，刘群，于洪，曾宪华编著著
出版社：北京：清华大学出版社
ISBN：9787302469278
出版时间：2017
标注页数：400页
文件大小：65MB
文件页数：432页
主题词：数据采集－研究

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：1e6a300d460a8af2f0969068e13953d3

下载说明

大数据挖掘及应用PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章大数据挖掘及应用概论1

1.1大数据智能分析处理的普及和应用1

1.1.1云计算1

1.1.2大数据3

1.1.3云计算与大数据的智能应用4

1.2大数据的发展及挑战10

1.2.1大数据的发展催生三元空间世界10

1.2.2大数据智能分析处理面临的挑战12

1.3数据挖掘概述14

1.3.1数据挖掘的概念14

1.3.2数据挖掘的功能15

1.3.3数据挖掘运用的技术16

1.3.4大数据挖掘与传统数据挖掘16

1.4大数据挖掘的计算框架17

1.4.1大数据挖掘计算框架17

1.4.2大数据挖掘处理基本流程21

1.5大数据时代“互联网＋”的未来：智能互联23

1.6本书架构26

1.7小结27

1.8习题27

1.9参考文献28

第2章数据认知与预处理29

2.1数据分析的定义和流程30

2.1.1如何理解和描述数据分析的问题30

2.1.2数据获取与准备31

2.1.3数据质量评估32

2.2数据类型33

2.2.1属性的定义33

2.2.2标称属性33

2.2.3二元属性34

2.2.4序值属性34

2.2.5数值属性34

2.3数据的统计描述方法35

2.3.1数据的中心趋势度量35

2.3.2数据的离散趋势度量37

2.4数据对象关系的计算方法39

2.4.1数据相似性计算方法40

2.4.2数据相关性计算方法46

2.5数据准备48

2.5.1数据清洗与集成48

2.5.2数据归约52

2.5.3数据转换58

2.6数据统计分析常用工具介绍61

2.6.1 Excel统计分析工具61

2.6.2 SPSS统计分析工具63

2.6.3 SAS统计分析工具64

2.6.4 R语言统计分析工具66

2.7 SPSS案例分析68

2.7.1日志文件数据准备68

2.7.2数据录入与编辑68

2.7.3数据清洗与转换70

2.7.4数据方差分析72

2.7.5数据相关性分析74

2.7.6数据间距离分析74

2.8小结77

2.9习题78

2.10参考文献79

第3章数据可视化80

3.1可视化简介80

3.2高维数据可视化81

3.2.1降维方法82

3.2.2非降维方法84

3.3网络数据可视化90

3.3.1节点-链接法90

3.3.2邻接矩阵布局96

3.3.3混合布局98

3.4可视化案例分析99

3.4.1案例一：China VIS 2015竞赛题99

3.4.2案例二：VAST Challenge 2016竞赛题107

3.5小结120

3.6习题121

3.7参考文献122

第4章数据关联分析123

4.1数据关联分析简介123

4.2基本概念125

4.2.1频繁项集和关联规则126

4.2.2闭项集和极大频繁项集128

4.2.3稀有模式和负模式129

4.3 Apriori算法130

4.3.1 Apriori算法的核心思想131

4.3.2 Apriori算法描述132

4.3.3改进的Apriori算法133

4.4 FP-Growth算法137

4.4.1 FP-Growth算法的核心思想138

4.4.2 FP-Growth算法描述139

4.5面向大数据的有效数据结构142

4.6关联规则有效性的评估方法143

4.6.1关联规则兴趣度评估144

4.6.2关联规则相关度评估144

4.6.3其他相关评估度量方法146

4.7多维关联规则挖掘148

4.8多层关联规则挖掘151

4.9基于Python平台的案例分析156

4.10小结158

4.11习题159

4.12参考文献161

第5章数据分类分析163

5.1基本概念和术语163

5.1.1数据分类163

5.1.2解决分类问题的一般方法165

5.2决策树算法166

5.2.1决策树归纳166

5.2.2决策树构建167

5.2.3属性测试条件的表示方法169

5.2.4选择最佳划分的度量171

5.2.5决策树归纳算法175

5.2.6树剪枝176

5.2.7决策树归纳的特点178

5.3贝叶斯分类算法180

5.3.1贝叶斯定理181

5.3.2朴素贝叶斯分类182

5.3.3贝叶斯信念网络184

5.4支持向量机算法185

5.4.1数据线性可分的情况185

5.4.2数据非线性可分的情况189

5.5粗糙集分类算法190

5.6分类器评估方法191

5.6.1评估分类器性能的度量192

5.6.2保持方法和随机二次抽样195

5.6.3交叉验证195

5.6.4自助法195

5.6.5使用统计显著性检验选择模型196

5.7组合分类器技术197

5.7.1组合分类方法简介198

5.7.2装袋198

5.7.3提升和AdaBoost199

5.7.4随机森林200

5.7.5提高类不平衡数据的分类准确率200

5.8惰性学习法（k最近邻分类）201

5.9基于Python平台的案例分析203

5.9.1数据集准备203

5.9.2算法描述204

5.9.3算法测试206

5.10小结209

5.11习题209

5.12参考文献211

第6章数据聚类分析214

6.1基本概念和术语214

6.1.1聚类分析简介215

6.1.2对聚类的基本要求215

6.1.3聚类分析方法216

6.2基于划分的方法218

6.2.1 k-means算法218

6.2.2 k中心点算法221

6.3基于层次的方法224

6.3.1凝聚的与分裂的层次聚类224

6.3.2簇间距离度量225

6.4基于密度的方法229

6.4.1传统的密度：基于中心的方法230

6.4.2 DBSCAN算法231

6.5基于概率模型的聚类方法233

6.5.1模糊聚类233

6.5.2基于概率模型的聚类235

6.5.3期望最大化算法237

6.6聚类评估239

6.6.1聚类趋势的估计239

6.6.2聚类簇数的确定241

6.6.3聚类质量的测定242

6.7基于Python平台的案例分析245

6.7.1数据准备245

6.7.2聚类分析结果探讨246

6.8小结248

6.9习题249

6.10参考文献253

第7章深度学习255

7.1引言255

7.1.1发展背景255

7.1.2基本概念256

7.2深信网257

7.2.1玻尔兹曼机258

7.2.2受限玻尔兹曼机258

7.2.3深信网260

7.3深玻尔兹曼机264

7.4栈式自动编码器266

7.4.1自动编码器266

7.4.2栈式自动编码器267

7.5卷积神经网络269

7.5.1卷积269

7.5.2池化270

7.5.3 CNN训练过程272

7.5.4 CNN网络构造的案例分析276

7.6深度学习开源框架278

7.6.1开源框架简介278

7.6.2开源案例分析278

7.7深度学习应用技巧284

7.8小结285

7.9习题286

7.10参考文献286

第8章R语言288

8.1下载和安装R语言288

8.1.1下载R语言288

8.1.2安装R语言288

8.2使用R语言292

8.2.1运行R语言292

8.2.2 R语言常用操作294

8.2.3包的使用298

8.3 R语言的数据结构300

8.3.1向量300

8.3.2矩阵301

8.3.3数组302

8.3.4因子303

8.3.5列表304

8.3.6数据框305

8.4 R语言的编程结构306

8.4.1条件语句306

8.4.2循环语句308

8.5 R语言的数据挖掘和图形绘制包310

8.6实际案例312

8.7小结314

8.8习题314

8.9参考文献315

第9章Hadoop大数据分布式处理生态系统316

9.1 Hadoop集群基础316

9.1.1 Hadoop安装317

9.1.2 Hadoop配置319

9.2 HDFS基础操作324

9.3 MapReduce并行计算框架331

9.3.1 MapReduce程序实例：WordCount332

9.3.2 Hadoop Streaming333

9.4基于 Storm的分布式实时计算334

9.4.1 Storm简介334

9.4.2 Storm基本概念334

9.4.3 Storm编程338

9.5基于Spark Streaming的分布式实时计算346

9.5.1 Spark内存计算框架346

9.5.2 Spark Streaming简介347

9.5.3 Spark Streaming编程349

9.6小结352

9.7参考文献353

第10章大数据分析算法的并行化355

10.1并行算法设计基础355

10.1.1并行算法概念355

10.1.2并行计算模型356

10.1.3并行算法设计的策略和技术360

10.2典型数据挖掘算法并行化案例362

10.2.1 MR k-means算法分析362

10.2.2 Mahout聚类算法案例364

10.2.3 Spark MLlib聚类算法案例369

10.3大数据分析应用案例371

10.3.1搜索引擎日志数据分析371

10.3.2出租车轨迹数据分析374

10.3.3新闻组数据分析377

10.4小结383

10.5习题383

10.6参考文献384

第11章大数据挖掘及应用展望385

11.1大数据时代的发展回顾与展望385

11.1.1大数据发展回顾385

11.1.2从“小”到“大”的数据分析处理387

11.1.3大数据的智能分析与挖掘389

11.2大数据中的新数据类型391

11.3大数据挖掘的新方法394

11.3.1深度学习394

11.3.2知识计算395

11.3.3社会计算396

11.3.4特异群组挖掘397

11.4未来发展趋势398

11.5小结399

11.6参考文献399