图书介绍
实用预测分析PDF|Epub|txt|kindle电子书版本网盘下载
![实用预测分析](https://www.shukui.net/cover/8/31371468.jpg)
- (美)拉尔夫·温特斯著;刘江一,陈瑶,刘旭斌译 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111603351
- 出版时间:2018
- 标注页数:372页
- 文件大小:53MB
- 文件页数:393页
- 主题词:决策预测
PDF下载
下载说明
实用预测分析PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 预测分析入门1
1.1 许多行业中都有预测分析2
1.1.1 市场营销中的预测分析2
1.1.2 医疗中的预测分析2
1.1.3 其他行业中的预测分析3
1.2 技能和角色在预测分析中都很重要3
1.3 预测分析软件4
1.3.1 开源软件5
1.3.2 闭源软件5
1.3.3 和平共处5
1.4 其他有用的工具5
1.4.1 超越基础知识6
1.4.2 数据分析/研究6
1.4.3 数据工程6
1.4.4 管理7
1.4.5 数据科学团队7
1.4.6 看待预测分析的两种不同方式7
1.5 R8
1.5.1 CRAN8
1.5.2 安装R语言8
1.5.3 其他安装R语言的方法8
1.6 预测分析项目是如何组织的9
1.7 图形用户界面10
1.8 RStudio入门11
1.8.1 重新布局以保持和示例一致11
1.8.2 部分重要面板的简要描述12
1.8.3 创建新项目13
1.9 R语言控制台14
1.10 源代码窗口15
1.11 第一个预测模型16
1.12 第二个脚本18
1.12.1 代码描述19
1.12.2 predict函数20
1.12.3 检验预测误差21
1.13 R语言包22
1.13.1 stargazer包22
1.13.2 安装stargazer包23
1.13.3 保存工作24
1.14 参考资料24
1.15 本章小结24
第2章 建模过程25
2.1 结构化方法的优点25
2.2 分析过程方法26
2.2.1 CRISP-DM和SEMMA27
2.2.2 CRISP-DM和SEMMA的图表27
2.2.3 敏捷过程28
2.2.4 六西格玛和根本原因28
2.2.5 是否需要数据抽样28
2.2.6 使用所有数据29
2.2.7 比较样本与群体29
2.3 第一步:理解业务30
2.4 第二步:理解数据36
2.4.1 衡量尺度36
2.4.2 单变量分析38
2.5 第三步:数据准备43
2.6 第四步:建模44
2.6.1 具体模型说明45
2.6.2 逻辑回归46
2.6.3 支持向量机47
2.6.4 决策树47
2.6.5 降维技术51
2.6.6 主成分51
2.6.7 聚类52
2.6.8 时间序列模型52
2.6.9 朴素贝叶斯分类器53
2.6.10 文本挖掘技术54
2.7 第五步:评估57
2.7.1 模型验证58
2.7.2 曲线下面积59
2.7.3 样本内和样本外测试、前进测试60
2.7.4 训练/测试/验证数据集60
2.7.5 时间序列验证61
2.7.6 最佳冠军模型的基准测试61
2.7.7 专家意见:人与机器61
2.7.8 元分析61
2.7.9 飞镖板方法61
2.8 第六步:部署62
2.9 参考资料62
2.10 本章小结62
第3章 输入和探索数据64
3.1 数据输入64
3.1.1 文本文件输入65
3.1.2 数据库表格66
3.1.3 电子表格文件67
3.1.4 XML和JSON数据67
3.1.5 生成你自己的数据68
3.1.6 处理大型文件的技巧68
3.1.7 数据整理68
3.2 连接数据69
3.2.1 使用sqldf函数69
3.2.2 生成数据70
3.2.3 检查元数据71
3.2.4 使用内部连接和外部连接来合并数据72
3.2.5 识别有多个购买记录的成员73
3.2.6 清除冗余记录74
3.3 探索医院数据集74
3.3.1 str(df)函数的输出74
3.3.2 View函数的输出75
3.3.3 colnames函数75
3.3.4 summary函数76
3.3.5 在浏览器中打开文件77
3.3.6 绘制分布图77
3.3.7 变量的可视化绘图78
3.4 转置数据帧80
3.5 缺失值84
3.5.1 建立缺失值测试数据集84
3.5.2 缺失值的不同类型85
3.5.3 纠正缺失值87
3.5.4 使用替换过的值运行回归90
3.6 替换分类变量91
3.7 异常值91
3.7.1 异常值为什么重要91
3.7.2 探测异常值92
3.8 数据转换96
3.8.1 生成测试数据97
3.8.2 Box-Cox转换97
3.9 变量化简/变量重要性98
3.9.1 主成分分析法98
3.9.2 全子集回归102
3.9.3 变量重要性104
3.10 参考资料106
3.11 本章小结106
第4章 回归算法导论107
4.1 监督学习模型和无监督学习模型108
4.1.1 监督学习模型108
4.1.2 无监督学习模型108
4.2 回归技术109
4.3 广义线性模型110
4.4 逻辑回归110
4.4.1 比率111
4.4.2 逻辑回归系数111
4.4.3 示例:在医疗中使用逻辑回归来预测疼痛阈值112
4.4.4 GLM模型拟合114
4.4.5 检验残差项115
4.4.6 添加变量的分布图116
4.4.7 p值及其效应量117
4.4.8 p值及其影响范围118
4.4.9 变量选择119
4.4.10 交互121
4.4.11 拟合优度统计量123
4.4.12 置信区间和Wald统计124
4.4.13 基本回归诊断图124
4.4.14 分布图类型描述124
4.4.1.5 拟合优度:Hosmer-Lemeshow检验126
4.4.16 正则化127
4.4.17 示例:ElasticNet128
4.4.18 选择一个正确的Lambda128
4.4.19 基于Lambda输出可能的系数129
4.5 本章小结130
第5章 决策树、聚类和SVM导论131
5.1 决策树算法131
5.1.1 决策树的优点131
5.1.2 决策树的缺点132
5.1.3 决策树的基本概念132
5.1.4 扩展树132
5.1.5 不纯度133
5.1.6 控制树的增长134
5.1.7 决策树算法的类型134
5.1.8 检查目标变量135
5.1.9 在rpart模型中使用公式符号135
5.1.10 图的解释136
5.1.11 输出决策树的文本版本137
5.1.12 修剪138
5.1.13 渲染决策树的其他选项139
5.2 聚类分析140
5.2.1 聚类分析应用于多种行业140
5.2.2 什么是聚类140
5.2.3 聚类的类型141
5.2.4 k均值聚类算法141
5.2.5 测量聚类之间的距离143
5.2.6 聚类的肘形图146
5.3 支持向量机151
5.3.1 映射函数的简单说明152
5.3.2 使用SVM分析消费者投诉数据153
5.3.3 将非结构化数据转换为结构化数据154
5.4 参考资料157
5.5 本章小结157
第6章 使用生存分析来预测和分析客户流失158
6.1 什么是生存分析158
6.1.1 依赖时间的数据159
6.1.2 删失159
6.2 客户满意度数据集160
6.2.1 利用概率函数生成数据161
6.2.2 创建矩阵图表166
6.3 划分训练和测试数据167
6.4 通过创建生存对象来设置阶段168
6.5 检查生存曲线170
6.5.1 更好的绘图172
6.5.2 对比生存曲线173
6.5.3 检验生存曲线之间的性别差异174
6.5.4 检验生存曲线之间的教育程度差异174
6.5.5 绘制客户满意度和服务电话数量曲线175
6.5.6 添加性别来改进教育程度生存曲线176
6.5.7 把服务电话转换成二进制变量178
6.5.8 检验打过和没打过服务电话的客户179
6.6 cox回归建模179
6.6.1 我们的第一个模型180
6.6.2 检查cox回归的输出182
6.6.3 比例风险测试182
6.6.4 比例风险绘图183
6.6.5 获取cox生存曲线184
6.6.6 绘制曲线184
6.6.7 偏回归绘图184
6.6.8 检查子集的生存曲线186
6.6.9 比较性别差异187
6.6.10 验证模型188
6.6.11 决定一致性191
6.7 基于时间的变量191
6.7.1 改变数据以反映第二次调查192
6.7.2 survSplit的工作原理192
6.7.3 调整记录来模拟一次干预193
6.7.4 运行基于时间的模型195
6.8 比较模型197
6.9 变量选择197
6.9.1 合并交互作用项199
6.9.2 比较各个备选模型的AIC199
6.10 本章小结200
第7章 使用购物篮分析作为推荐系统引擎201
7.1 什么是购物篮分析201
7.2 检查杂货明细202
7.3 示例购物篮203
7.4 关联规则算法204
7.5 先例和后果205
7.6 评估规则的准确性205
7.6.1 支持度206
7.6.2 计算支持度206
7.6.3 置信度206
7.6.4 提升度206
7.7 准备原始数据文件进行分析207
7.7.1 读取交易文件207
7.7.2 capture.output函数208
7.8 分析输入文件208
7.8.1 分析发票日期209
7.8.2 绘制日期210
7.9 净化和清洗数据211
7.9.1 移除不必要的字符空格211
7.9.2 简化描述212
7.10 自动移除颜色212
7.10.1 colors()函数212
7.10.2 清洗颜色213
7.11 过滤单个商品交易214
7.12 将结果合并到原始数据中216
7.13 使用camelcase压缩描述217
7.13.1 自定义函数映射到camelcase217
7.13.2 提取最后一个单词218
7.14 创建测试和训练数据集219
7.14.1 保存结果220
7.14.2 加载分析文件220
7.14.3 确定后续规则221
7.14.4 替换缺失值222
7.14.5 制作最后的子集222
7.15 创建购物篮交易文件223
7.16 方法1:强制将数据帧转换为交易文件223
7.16.1 检查交易文件225
7.16.2 获取topN购买商品225
7.16.3 寻找关联规则226
7.16.4 检验规则摘要228
7.16.5 检验规则质量并观察最高支持度228
7.16.6 置信度和提升度指标229
7.16.7 过滤大量规则229
7.16.8 生成大量规则232
7.16.9 绘制大量规则232
7.17 方法2:创建一份物理交易文件233
7.17.1 再次读取交易文件234
7.17.2 绘制规则237
7.17.3 创建规则的子集237
7.17.4 文本聚类239
7.18 转换为一个文献术语相关矩阵240
7.18.1 移除稀疏术语241
7.18.2 找出频繁术语242
7.19 术语的k均值聚类243
7.19.1 研究聚类1243
7.19.2 研究聚类2244
7.19.3 研究聚类3244
7.19.4 研究聚类4244
7.19.5 研究聚类5245
7.20 预测聚类分配245
7.20.1 使用flexclust预测聚类分配245
7.20.2 运行k均值生成聚类246
7.20.3 创建测试DTM247
7.21 在聚类中运行apriori算法249
7.22 总结指标250
7.23 参考资料250
7.24 本章小结251
第8章 将医疗注册数据作为时间序列探索252
8.1 时间序列数据252
8.2 健康保险覆盖率数据集253
8.3 准备工作253
8.4 读入数据253
8.5 从各列提取子集254
8.6 数据的描述254
8.7 目标时间序列变量255
8.8 保存数据256
8.9 确定所有子集组256
8.10 将汇总数据合并回原始数据257
8.11 检查时间间隔258
8.12 按平均人数挑选最高级别的群体259
8.13 使用lattice绘制数据259
8.14 使用ggplot绘制数据260
8.15 将输出发送到外部文件261
8.16 检查输出262
8.17 检测线性趋势262
8.18 自动化回归263
8.19 对系数进行排序264
8.20 将分数合并回原始的数据帧265
8.21 用趋势线绘制数据265
8.22 绘制一个图表上的全部类别268
8.23 使用ets函数执行一些自动预测269
8.24 使用移动平均线来使数据平滑269
8.25 简单移动平均线270
8.26 验证SMA的计算值271
8.27 指数移动平均线271
8.27.1 使用函数计算EMA272
8.27.2 选择平滑因子273
8.28 使用ets函数273
8.29 使用ALL AGES做预测274
8.30 绘制预测值和实际值275
8.31 forecast(fit)方法276
8.32 用置信带来绘制未来的值276
8.33 修改模型以包含趋势组件277
8.34 对所有类别迭代运行ets函数279
8.35 onestep生成的精度指标280
8.36 比较UNDER 18 YEARS组的测试和训练281
8.37 精度指标282
8.38 参考资料283
8.39 本章小结283
第9章 Spark284
9.1 关于Spark284
9.2 Spark环境285
9.2.1 聚类计算285
9.2.2 并行计算286
9.3 SparkR286
9.4 构建第一个Spark数据帧287
9.5 导入相同的笔记本288
9.6 创建一个新的笔记本289
9.7 从小开始变大289
9.8 运行代码290
9.9 运行初始化代码291
9.10 解压缩皮马印第安人糖尿病数据集291
9.10.1 检查输出291
9.10.2 比较结果293
9.10.3 检查缺失值294
9.10.4 输入缺失值294
9.10.5 检查替换值(读者练习)295
9.10.6 缺失值处理完成296
9.10.7 计算相关性矩阵296
9.10.8 计算各列的均值298
9.11 仿真数据299
9.11.1 使用哪些相关性299
9.11.2 检查对象类型300
9.12 仿真糖尿病阴性结果的情况301
9.13 运行汇总统计302
9.14 保存你的工作303
9.15 本章小结303
第10章 用Spark探索大型数据集304
10.1 对阳性数据进行一些探索性分析304
10.1.1 显示Spark数据帧的内容305
10.1.2 用本地绘图特性来绘图305
10.1.3 直接对一个Spark数据帧运行两两相关性计算306
10.2 清理和缓存内存中的表格307
10.3 一些探索数据时有用的Spark函数307
10.3.1 count和groupby307
10.3.2 协方差和相关性函数308
10.4 创建新列309
10.5 构建一个交叉表310
10.6 构建直方图310
10.7 使用ggplot绘图312
10.8 Spark SQL312
10.8.1 注册表格313
10.8.2 通过R接口发布SQL313
10.8.3 用SQL来检查潜在异常值314
10.8.4 创建一些汇总314
10.8.5 用第三个查询选出一些潜在异常值315
10.8.6 变成SQL API315
10.8.7 SQL:用case语句计算一个新列316
10.8.8 基于年龄段评估结果变量317
10.8.9 计算所有变量的均值318
10.9 从Spark回到R来探索数据319
10.10 运行本地R包320
10.10.1 使用pairs函数(在基本包中提供)320
10.10.2 生成一个相关性图形320
10.11 一些关于使用Spark的技巧321
10.12 本章小结321
第11章 Spark机器学习:回归和聚类模型322
11.1 关于本章/你将学到什么322
11.1.1 读取数据322
11.1.2 运行数据帧的摘要并保存对象323
11.2 将数据分割成训练和测试数据集324
11.2.1 生成训练数据集324
11.2.2 生成测试数据集325
11.2.3 关于并行处理的说明325
11.2.4 将误差引入测试数据集325
11.2.5 生成分布的直方图326
11.2.6 生成有误差的新测试数据326
11.3 使用逻辑回归的Spark机器学习327
11.3.1 检查输出327
11.3.2 正则化模型328
11.3.3 预测结果329
11.3.4 绘制结果330
11.4 运行测试数据的预测331
11.5 合并训练和测试数据集331
11.6 将这三个表提供给SQL333
11.7 验证回归结果333
11.8 计算拟合度的好坏333
11.9 测试组的混淆矩阵334
11.10 在Spark以外绘图337
11.10.1 收集结果的样本337
11.10.2 按outcome的值检查分布337
11.10.3 注册一些额外的表338
11.11 创建一些全局视图338
11.11.1 用户练习338
11.11.2 聚类分析339
11.11.3 准备进行分析的数据339
11.11.4 从全局视图读取数据339
11.11.5 输入以前计算的平均值和标准偏差340
11.11.6 连接平均值和训练数据的标准偏差340
11.11.7 连接平均值和测试数据的标准偏差341
11.12 归一化数据342
11.12.1 显示输出342
11.12.2 运行k均值模型343
11.12.3 将模型拟合到训练数据344
11.12.4 将模型拟合到测试数据344
11.12.5 以图形方式显示聚类分配345
11.13 通过聚类的平均值来描述它们的特征347
11.14 本章小结348
第12章 Spark模型:基于规则的学习349
12.1 加载盘查(停止和搜身)数据集349
12.2 读取表格351
12.2.1 运行第一个单元351
12.2.2 将整个文件读取到内存中351
12.2.3 将变量转化为整数352
12.3 发现重要特征353
12.3.1 消除级别过多的因子354
12.3.2 测试和训练数据集354
12.3.3 检查分级数据355
12.4 运行OneR模型356
12.4.1 理解输出356
12.4.2 构建新变量358
12.4.3 在测试样本上运行预测358
12.5 另一个OneR例子359
12.6 使用rpart构建决策树361
12.6.1 首先收集样本361
12.6.2 使用rpart的决策树361
12.6.3 绘制树362
12.7 运行Python中的另一种模型363
12.7.1 运行Python决策树363
12.7.2 读取盘查表格363
12.8 索引分类特征364
12.8.1 映射到RDD366
12.8.2 指定决策树模型366
12.8.3 生成更大的树367
12.8.4 可视化树368
12.8.5 比较训练决策树和测试决策树368
12.9 本章小结370