图书介绍
实用数据分析 原书第2版PDF|Epub|txt|kindle电子书版本网盘下载
- (美)赫克托·奎斯塔,桑帕斯·库马尔著;刁晓纯译 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111579212
- 出版时间:2017
- 标注页数:236页
- 文件大小:73MB
- 文件页数:252页
- 主题词:统计数据-统计分析
PDF下载
下载说明
实用数据分析 原书第2版PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 开始1
1.1 计算机科学1
1.2 人工智能2
1.3 机器学习2
1.4 统计学2
1.5 数学2
1.6 专业领域知识3
1.7 数据、信息和知识3
1.7.1 数据、信息和知识之间的相互性3
1.7.2 数据的本质4
1.8 数据分析过程5
1.8.1 问题6
1.8.2 数据准备6
1.8.3 数据探索7
1.8.4 预测建模7
1.8.5 结果可视化8
1.9 定量与定性数据分析9
1.10 数据可视化的重要性9
1.11 大数据10
1.12 自我量化12
1.12.1 传感器和摄像头12
1.12.2 社交网络分析13
1.13 本书的工具和练习13
1.13.1 为什么使用Python14
1.13.2 为什么使用mlpy14
1.13.3 为什么使用D3.js14
1.13.4 为什么使用MongoDB15
1.14 小结15
第2章 数据预处理16
2.1 数据源16
2.1.1 开源数据17
2.1.2 文本文件18
2.1.3 Excel文件18
2.1.4 SQL数据库18
2.1.5 NoSQL数据库19
2.1.6 多媒体20
2.1.7 网页检索20
2.2 数据清洗22
2.2.1 统计方法23
2.2.2 文本解析23
2.2.3 数据转化25
2.3 数据格式25
2.3.1 CSV26
2.3.2 JSON27
2.3.3 XML28
2.3.4 YAML29
2.4 数据归约30
2.4.1 过滤及抽样30
2.4.2 分箱算法30
2.4.3 降维31
2.5 开始使用OpenRefine工具32
2.5.1 text facet33
2.5.2 聚类33
2.5.3 文本过滤器34
2.5.4 numeric facet34
2.5.5 数据转化35
2.5.6 数据输出36
2.5.7 操作历史记录36
2.6 小结37
第3章 可视化38
3.1 可视化概述39
3.2 利用网页版的可视化39
3.3 探索科学可视化39
3.4 在艺术上的可视化40
3.5 可视化生命周期40
3.6 可视化不同类型的数据41
3.6.1 HTML41
3.6.2 DOM42
3.6.3 CSS42
3.6.4 JavaScript43
3.6.5 SVG43
3.7 开始使用D3.js43
3.7.1 柱状图44
3.7.2 饼图48
3.7.3 散点图50
3.7.4 单线图52
3.7.5 多线图55
3.8 交互与动画59
3.9 社交网络中的数据61
3.10 可视化分析的摘要62
3.11 小结62
第4章 文本分类63
4.1 学习和分类63
4.2 贝叶斯分类64
4.3 E-mail主题测试器65
4.4 数据66
4.5 算法68
4.6 分类器的准确性71
4.7 小结73
第5章 基于相似性的图像检索74
5.1 图像相似性搜索74
5.2 动态时间规整75
5.3 处理图像数据集77
5.4 执行DTW77
5.5 结果分析79
5.6 小结81
第6章 模拟股票价格82
6.1 金融时间序列82
6.2 随机漫步模拟83
6.3 蒙特卡罗方法84
6.4 生成随机数85
6.5 用D3.js实现86
6.6 计量分析师91
6.7 小结93
第7章 预测黄金价格94
7.1 处理时间序列数据94
7.2 平滑时间序列97
7.3 线性回归100
7.4 数据——历史黄金价格101
7.5 非线性回归101
7.5.1 核岭回归102
7.5.2 平滑黄金价格时间序列104
7.5.3 平滑时间序列的预测105
7.5.4 对比预测值106
7.6 小结107
第8章 使用支持向量机的方法进行分析108
8.1 理解多变量数据集109
8.2 降维111
8.2.1 线性无差别分析112
8.2.2 主成分分析112
8.3 使用支持向量机114
8.3.1 核函数115
8.3.2 双螺旋问题116
8.3.3 在mlpy实现SVM116
8.4 小结119
第9章 应用细胞自动机的方法对传染病进行建模120
9.1 流行病学简介120
9.2 流行病模型122
9.2.1 SIR模型122
9.2.2 使用SciPy来解决SIR模型的常微分方程123
9.2.3 SIRS模型124
9.3 对细胞自动机进行建模125
9.3.1 细胞、状态、网格和邻域126
9.3.2 整体随机访问模型127
9.4 通过D3.js模拟CA中的SIRS模型127
9.5 小结135
第10章 应用社交图谱136
10.1 图谱的结构136
10.1.1 无向图137
10.1.2 有向图137
10.2 社交网络分析137
10.3 捕获Facebook图谱138
10.4 使用Gephi再现图谱139
10.5 统计分析142
10.6 度的分布144
10.6.1 图谱直方图145
10.6.2 集中度146
10.7 将GDF转化为JSON148
10.8 在D3.js环境下进行图谱可视化150
10.9 小结154
第11章 分析Twitter数据155
11.1 解析Twitter数据155
11.1.1 tweet156
11.1.2 粉丝156
11.1.3 热门话题156
11.2 使用OAuth访问TwitterAPI157
11.3 开始使用Twython158
11.3.1 利用Twython进行简单查询159
11.3.2 获取时间表数据163
11.3.3 获取粉丝数据165
11.3.4 获取地点和趋势信息167
11.3.5 获取用户数据168
11.3.6 API流169
11.4 小结171
第12章 使用MongoDB进行数据处理和聚合172
12.1 开始使用MongoDB172
12.1.1 数据库173
12.1.2 集合175
12.1.3 文件175
12.1.4 Mongo shell175
12.1.5 Insert/Update/Delete176
12.1.6 查询177
12.2 数据准备178
12.2.1 使用OpenRefine进行数据转换179
12.2.2 通过PyMongo插入文件180
12.3 分组182
12.4 聚合框架184
12.4.1 流水线184
12.4.2 表达式185
12.5 小结186
第13章 使用MapReduce方法188
13.1 MapReduce概述188
13.2 编程模型189
13.3 在MongoDB中使用MapReduce190
13.3.1 map函数190
13.3.2 reduce函数191
13.3.3 使用Mongo shell191
13.3.4 使用Jupyter193
13.3.5 使用PyMongo194
13.4 过滤输入集合195
13.5 分组和聚合196
13.6 在tweet中统计高频词汇198
13.7 小结201
第14章 使用Jupyter和Wakari进行在线数据分析202
14.1 开始使用Wakari202
14.2 开始使用Jupyter记事本205
14.3 通过PIL进行图像处理208
14.3.1 打开图像208
14.3.2 显示图像直方图208
14.3.3 过滤209
14.3.4 操作211
14.3.5 转化212
14.4 开始使用pandas213
14.4.1 处理时间序列213
14.4.2 通过数据框架来操作多变量数据集215
14.4.3 分组、聚合和相关219
14.5 分享你的记事本221
14.6 小结224
第15章 使用Apache Spark处理数据225
15.1 数据处理平台226
15.1.1 Cloudera平台226
15.1.2 安装Cloudera VM227
15.2 分布式文件系统概述229
15.2.1 使用Hadoop分布式文件系统(HDFS)的具体步骤229
15.2.2 利用HUE的Web界面来进行文件管理230
15.3 Apache Spark概述231
15.3.1 Spark的生态系统231
15.3.2 Spark编程模型232
15.3.3 Apache启动的介绍性操作样例234
15.4 小结235