图书介绍

数据之魅 基于开源工具的数据分析PDF|Epub|txt|kindle电子书版本网盘下载

数据之魅 基于开源工具的数据分析
  • (美)雅纳特著 著
  • 出版社: 北京:清华大学出版社
  • ISBN:9787302290988
  • 出版时间:2012
  • 标注页数:511页
  • 文件大小:159MB
  • 文件页数:529页
  • 主题词:数据处理

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

数据之魅 基于开源工具的数据分析PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 导论1

数据分析1

本书内容2

关于工作坊3

关于数学4

需要具备的知识6

本书不涉及的内容6

第Ⅰ部分 图表:观察数据11

第2章 单一变量:形状和分布11

数据点和抖动图12

直方图和核密度估计14

直方图15

核密度估计19

选学:如何选择最优带宽22

累积分布函数23

选学:概率图分布和QQ图分布的对比25

秩序图和上升图30

仅用于适当时机:汇总统计量和箱形图33

汇总统计量33

Box-and-Whisker图36

工作坊:NumPy模块38

NumPy实践38

NumPy详解41

扩展阅读45

第3章 两个变量:建立关系47

散点图47

克服噪声:平滑48

样条50

LOESS51

示例52

残差54

其他观点及提醒55

对数图57

倾斜61

线性回归以及诸如此类的方法62

描述重要信息66

图形分析与图形演示68

工作坊:matplotlib69

交互式使用matplotlib70

案例学习:matplotlib与LOESS73

控制属性74

matplotlib对象模型及结构76

零碎知识77

扩展阅读78

第4章 以时间为变量:时序分析79

示例79

任务83

需求和现实84

平滑处理84

移动平均法85

指数平滑法86

不要忽视显而易见的东西!90

相关函数91

示例92

实现上的问题93

选学:过滤器和卷积95

工作坊:scipy.signal包96

扩展阅读98

第5章 多变量:图形的多变量分析99

假色图100

概览:多值图105

散点图矩阵105

协作图107

变种108

组成问题110

组成的改变110

多维组成:树形图和马赛克图112

新颖的曲线类型116

标识符116

平行坐标图117

交互式探索120

查询和缩放121

连接和涂层121

大游览与投影寻踪121

工具122

工作坊:多变量图形工具123

R123

实验工具124

Python的Chaco库124

扩展阅读125

第6章 插曲:数据分析会话127

数据分析会话127

工作坊:gnuplot软件136

扩展阅读138

第Ⅱ部分 分析:数据建模141

第7章 推算和粗略计算141

推算的原理142

估计大小143

建立关联145

使用数字146

10的幂146

小扰动147

对数148

更多示例149

我所知道的一些常见事(物)的相关数字151

这些数字是否足够好?151

准备工作:可行性和成本153

完成之后:引用和呈现数字154

选学:进一步探索摄动理论和误差传播155

误差传播156

工作坊:Gnu科学库(GSL)158

扩展阅读161

第8章 缩放参数模型163

模型163

建模164

模型的运用和误用164

参数的缩放165

缩放参数165

示例:维度参数167

示例:优化问题169

示例:成本模型170

选学:缩放参数与量纲分析172

其他理论174

平均场近似175

背景知识和其他示例176

常见的时间演变方案178

无限增长和衰减现象178

约束增长:逻辑斯谛方程180

振荡181

案例学习:多少台服务器才是最好的?182

为什么要建模?184

工作坊:Sage184

扩展阅读188

第9章 关于概率模型的讨论191

二项分布和伯努利试验191

精确的结果192

利用伯努利试验建立平均场模型194

高斯分布和中心极限定理195

中心极限定理195

中心项与尾项197

为什么高斯分布如此实用?198

选学:高斯积分199

幂律分布和非常规统计学201

幂律分布的用法203

选学:期望值为无限时的分布204

接下来的研究206

其他分布206

几何分布207

泊松分布207

对数正态分布209

特殊用途的分布211

选学:案例学习——随时间变化的单一访问者数量211

工作坊:幂律分布215

扩展阅读219

第10章 你真正需要了解的经典统计学知识221

起源221

统计学的定义223

从统计学角度解释226

示例:公式测验VS图解法229

控制实验VS观察研究230

实验设计232

前景234

选学:贝叶斯统计——另一种观点235

用频率论来解释概率235

用贝叶斯方法来理解概率236

贝叶斯数据分析:一个实际有效的例子238

贝叶斯推理:总结与讨论241

工作坊:关于R243

扩展阅读249

第11章 插曲:数学大搜捕——大脚怪和最小二乘等253

如何平均均值253

辛普森悖论254

标准差256

如何计算258

选学:如何选择?259

选学:标准误差259

最小二乘260

统计参数估计261

函数逼近263

扩展阅读264

第Ⅲ部分 计算:数据挖掘265

第12章 模拟267

热身问题267

蒙特卡洛模拟270

组合问题270

获得结果分布272

优点和缺点275

重新采样方法276

拔靴法277

拔靴法适用于哪些情况?278

拔靴变量280

工作坊:SimPy离散事件模拟280

SimPy简介281

最简单的排队过程282

选学:排队理论285

运行SimPy模拟288

小结290

扩展阅读291

第13章 找出簇293

簇由什么组成?293

一种不同的观点296

距离计算和相似度计算298

常见的距离和相似度计算方法300

聚类方法304

中心探索法305

树形构造器307

邻居生长器309

前期处理和后期处理311

规模的规范化311

类的属性和评估311

其他想法314

具体案例:超市购物篮的分析316

提醒319

工作坊:Pycluster和C聚类库320

扩展阅读324

第14章 一木见林:找出重要属性327

主成分分析法328

动机328

选学:理论330

解释333

计算334

实用观点335

双标图336

可视化技术337

多元尺度法338

网络图339

柯霍南图339

工作坊:用R进行PCA342

扩展阅读348

线性代数349

第15章 插曲:当数据的增长不成比例时351

一个真实的故事353

一些建议354

Map/Reduce如何?356

工作坊:生成排列357

扩展阅读358

第Ⅳ部分 应用:使用数据361

第16章 报表、商务智能和仪表板361

商务智能362

报表364

企业指标和仪表板369

关于指标计划的建议370

数据的质量问题373

数据的可用性373

数据的一致性375

工作坊:Berkeley DB和SQLite376

Berkeley DB377

SQLite379

扩展阅读381

第17章 金融计算与建模383

货币的时间价值384

一次性支付:未来值和现值384

多笔付款:复利386

复利的计算技巧387

概览:现金流分析和净现值389

计划成本和机会成本中的不确定性391

用账户的期望值来考虑不确定性391

机会成本393

成本概念及贬值394

直接成本和间接成本394

固定成本和可变成本396

资本开支与运营成本397

是否应该加以关注?398

这些就是全部吗?399

工作坊:报纸经销商问题400

选学:精确解402

扩展阅读403

报纸经销商问题404

第18章 预测分析405

预测分析的主题406

一些分类术语407

分类算法408

基于实例的分类和最近邻分类算法409

贝叶斯分类器409

回归413

支持向量机414

决策树和基于规则的分类器416

其他分类算法418

流程419

集成方法:Bagging和Boosting419

估计预测误差420

类不平衡问题421

私家秘诀423

统计学习的本质424

工作坊:自己编写的两个分类器426

扩展阅读431

第19章 结语:事实并非现实433

附录A 科学计算与数据分析的编程环境435

附录B 应用:微积分447

附录C 使用数据485

索引499

热门推荐