图书介绍
数据之魅 基于开源工具的数据分析PDF|Epub|txt|kindle电子书版本网盘下载
![数据之魅 基于开源工具的数据分析](https://www.shukui.net/cover/68/33846188.jpg)
- (美)雅纳特著 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302290988
- 出版时间:2012
- 标注页数:511页
- 文件大小:159MB
- 文件页数:529页
- 主题词:数据处理
PDF下载
下载说明
数据之魅 基于开源工具的数据分析PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 导论1
数据分析1
本书内容2
关于工作坊3
关于数学4
需要具备的知识6
本书不涉及的内容6
第Ⅰ部分 图表:观察数据11
第2章 单一变量:形状和分布11
数据点和抖动图12
直方图和核密度估计14
直方图15
核密度估计19
选学:如何选择最优带宽22
累积分布函数23
选学:概率图分布和QQ图分布的对比25
秩序图和上升图30
仅用于适当时机:汇总统计量和箱形图33
汇总统计量33
Box-and-Whisker图36
工作坊:NumPy模块38
NumPy实践38
NumPy详解41
扩展阅读45
第3章 两个变量:建立关系47
散点图47
克服噪声:平滑48
样条50
LOESS51
示例52
残差54
其他观点及提醒55
对数图57
倾斜61
线性回归以及诸如此类的方法62
描述重要信息66
图形分析与图形演示68
工作坊:matplotlib69
交互式使用matplotlib70
案例学习:matplotlib与LOESS73
控制属性74
matplotlib对象模型及结构76
零碎知识77
扩展阅读78
第4章 以时间为变量:时序分析79
示例79
任务83
需求和现实84
平滑处理84
移动平均法85
指数平滑法86
不要忽视显而易见的东西!90
相关函数91
示例92
实现上的问题93
选学:过滤器和卷积95
工作坊:scipy.signal包96
扩展阅读98
第5章 多变量:图形的多变量分析99
假色图100
概览:多值图105
散点图矩阵105
协作图107
变种108
组成问题110
组成的改变110
多维组成:树形图和马赛克图112
新颖的曲线类型116
标识符116
平行坐标图117
交互式探索120
查询和缩放121
连接和涂层121
大游览与投影寻踪121
工具122
工作坊:多变量图形工具123
R123
实验工具124
Python的Chaco库124
扩展阅读125
第6章 插曲:数据分析会话127
数据分析会话127
工作坊:gnuplot软件136
扩展阅读138
第Ⅱ部分 分析:数据建模141
第7章 推算和粗略计算141
推算的原理142
估计大小143
建立关联145
使用数字146
10的幂146
小扰动147
对数148
更多示例149
我所知道的一些常见事(物)的相关数字151
这些数字是否足够好?151
准备工作:可行性和成本153
完成之后:引用和呈现数字154
选学:进一步探索摄动理论和误差传播155
误差传播156
工作坊:Gnu科学库(GSL)158
扩展阅读161
第8章 缩放参数模型163
模型163
建模164
模型的运用和误用164
参数的缩放165
缩放参数165
示例:维度参数167
示例:优化问题169
示例:成本模型170
选学:缩放参数与量纲分析172
其他理论174
平均场近似175
背景知识和其他示例176
常见的时间演变方案178
无限增长和衰减现象178
约束增长:逻辑斯谛方程180
振荡181
案例学习:多少台服务器才是最好的?182
为什么要建模?184
工作坊:Sage184
扩展阅读188
第9章 关于概率模型的讨论191
二项分布和伯努利试验191
精确的结果192
利用伯努利试验建立平均场模型194
高斯分布和中心极限定理195
中心极限定理195
中心项与尾项197
为什么高斯分布如此实用?198
选学:高斯积分199
幂律分布和非常规统计学201
幂律分布的用法203
选学:期望值为无限时的分布204
接下来的研究206
其他分布206
几何分布207
泊松分布207
对数正态分布209
特殊用途的分布211
选学:案例学习——随时间变化的单一访问者数量211
工作坊:幂律分布215
扩展阅读219
第10章 你真正需要了解的经典统计学知识221
起源221
统计学的定义223
从统计学角度解释226
示例:公式测验VS图解法229
控制实验VS观察研究230
实验设计232
前景234
选学:贝叶斯统计——另一种观点235
用频率论来解释概率235
用贝叶斯方法来理解概率236
贝叶斯数据分析:一个实际有效的例子238
贝叶斯推理:总结与讨论241
工作坊:关于R243
扩展阅读249
第11章 插曲:数学大搜捕——大脚怪和最小二乘等253
如何平均均值253
辛普森悖论254
标准差256
如何计算258
选学:如何选择?259
选学:标准误差259
最小二乘260
统计参数估计261
函数逼近263
扩展阅读264
第Ⅲ部分 计算:数据挖掘265
第12章 模拟267
热身问题267
蒙特卡洛模拟270
组合问题270
获得结果分布272
优点和缺点275
重新采样方法276
拔靴法277
拔靴法适用于哪些情况?278
拔靴变量280
工作坊:SimPy离散事件模拟280
SimPy简介281
最简单的排队过程282
选学:排队理论285
运行SimPy模拟288
小结290
扩展阅读291
第13章 找出簇293
簇由什么组成?293
一种不同的观点296
距离计算和相似度计算298
常见的距离和相似度计算方法300
聚类方法304
中心探索法305
树形构造器307
邻居生长器309
前期处理和后期处理311
规模的规范化311
类的属性和评估311
其他想法314
具体案例:超市购物篮的分析316
提醒319
工作坊:Pycluster和C聚类库320
扩展阅读324
第14章 一木见林:找出重要属性327
主成分分析法328
动机328
选学:理论330
解释333
计算334
实用观点335
双标图336
可视化技术337
多元尺度法338
网络图339
柯霍南图339
工作坊:用R进行PCA342
扩展阅读348
线性代数349
第15章 插曲:当数据的增长不成比例时351
一个真实的故事353
一些建议354
Map/Reduce如何?356
工作坊:生成排列357
扩展阅读358
第Ⅳ部分 应用:使用数据361
第16章 报表、商务智能和仪表板361
商务智能362
报表364
企业指标和仪表板369
关于指标计划的建议370
数据的质量问题373
数据的可用性373
数据的一致性375
工作坊:Berkeley DB和SQLite376
Berkeley DB377
SQLite379
扩展阅读381
第17章 金融计算与建模383
货币的时间价值384
一次性支付:未来值和现值384
多笔付款:复利386
复利的计算技巧387
概览:现金流分析和净现值389
计划成本和机会成本中的不确定性391
用账户的期望值来考虑不确定性391
机会成本393
成本概念及贬值394
直接成本和间接成本394
固定成本和可变成本396
资本开支与运营成本397
是否应该加以关注?398
这些就是全部吗?399
工作坊:报纸经销商问题400
选学:精确解402
扩展阅读403
报纸经销商问题404
第18章 预测分析405
预测分析的主题406
一些分类术语407
分类算法408
基于实例的分类和最近邻分类算法409
贝叶斯分类器409
回归413
支持向量机414
决策树和基于规则的分类器416
其他分类算法418
流程419
集成方法:Bagging和Boosting419
估计预测误差420
类不平衡问题421
私家秘诀423
统计学习的本质424
工作坊:自己编写的两个分类器426
扩展阅读431
第19章 结语:事实并非现实433
附录A 科学计算与数据分析的编程环境435
附录B 应用:微积分447
附录C 使用数据485
索引499