图书介绍
数据架构 大数据、数据仓库以及DATA VAULT = DATA ARCHITECTURE APRIMER FOR THE DATA SCIENTIST BIG DATA DATA WARHOUSEPDF|Epub|txt|kindle电子书版本网盘下载
![数据架构 大数据、数据仓库以及DATA VAULT = DATA ARCHITECTURE APRIMER FOR THE DATA SCIENTIST BIG DATA DATA WARHOUSE](https://www.shukui.net/cover/8/31939180.jpg)
- (美)W.H.INMON,(美)DANIEL LINSTEDT著;唐富年译 著
- 出版社: 北京:人民邮电出版社
- ISBN:7115438430
- 出版时间:2017
- 标注页数:278页
- 文件大小:40MB
- 文件页数:291页
- 主题词:
PDF下载
下载说明
数据架构 大数据、数据仓库以及DATA VAULT = DATA ARCHITECTURE APRIMER FOR THE DATA SCIENTIST BIG DATA DATA WARHOUSEPDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 企业数据1
1.1 企业数据1
1.1.1 企业的全体数据1
1.1.2 非结构化数据的划分2
1.1.3 业务相关性3
1.1.4 大数据3
1.1.5 分界线4
1.1.6 大陆分水岭5
1.1.7 企业数据全貌6
1.2 数据基础设施6
1.2.1 重复型数据的两种类型7
1.2.2 重复型结构化数据7
1.2.3 重复型大数据8
1.2.4 两种基础设施9
1.2.5 优化了什么10
1.2.6 对比两种基础设施11
1.3 分界线12
1.3.1 企业数据分类12
1.3.2 分界线12
1.3.3 重复型非结构化数据13
1.3.4 非重复型非结构化数据15
1.3.5 不同的领域17
1.4 企业数据统计图17
1.5 企业数据分析22
1.6 数据的生命周期——随时间推移理解数据27
1.7 数据简史31
1.7.1 纸带和穿孔卡片31
1.7.2 磁带32
1.7.3 磁盘存储器32
1.7.4 数据库管理系统32
1.7.5 耦合处理器33
1.7.6 在线事务处理33
1.7.7 数据仓库34
1.7.8 并行数据管理34
1.7.9 Data Vault35
1.7.10 大数据35
1.7.11 分界线35
第2章 大数据37
2.1 大数据简史37
2.1.1 打个比方——占领制高点37
2.1.2 占领制高点38
2.1.3 IBM360带来的标准化38
2.1.4 在线事务处理39
2.1.5 Teradata的出现和大规模并行处理39
2.1.6 随后到来的Hadoop和大数据39
2.1.7 IBM和Hadoop39
2.1.8 控制制高点40
2.2 大数据是什么40
2.2.1 另一种定义40
2.2.2 大数据量40
2.2.3 廉价存储器41
2.2.4 罗马人口统计方法41
2.2.5 非结构化数据42
2.2.6 大数据中的数据42
2.2.7 重复型数据中的语境43
2.2.8 非重复型数据44
2.2.9 非重复型数据中的语境44
2.3 并行处理45
2.4 非结构化数据50
2.4.1 随处可见的文本信息50
2.4.2 基于结构化数据的决策51
2.4.3 业务价值定位51
2.4.4 重复型和非重复型的非结构化信息52
2.4.5 易于分析53
2.4.6 语境化54
2.4.7 一些语境化方法55
2.4.8 MapReduce56
2.4.9 手工分析56
2.5 重复型非结构化数据的语境化57
2.5.1 解析重复型非结构化数据57
2.5.2 重组输出数据58
2.6 文本消歧58
2.6.1 从叙事到分析数据库58
2.6.2 文本消歧的输入59
2.6.3 映射60
2.6.4 输入/输出61
2.6.5 文档分片/指定值处理61
2.6.6 文档预处理62
2.6.7 电子邮件——一个特例62
2.6.8 电子表格63
2.6.9 报表反编译63
2.7 分类法65
2.7.1 数据模型和分类法65
2.7.2 分类法的适用性66
2.7.3 分类法是什么66
2.7.4 多语言分类法68
2.7.5 分类法与文本消歧的动态68
2.7.6 分类法和文本消歧——不同的技术69
2.7.7 分类法的不同类型70
2.7.8 分类法——随时间推移不断维护70
第3章 数据仓库71
3.1 数据仓库简史71
3.1.1 早期的应用程序71
3.1.2 在线应用程序71
3.1.3 抽取程序72
3.1.4 4GL技术73
3.1.5 个人电脑73
3.1.6 电子表格74
3.1.7 数据完整性75
3.1.8 蛛网系统76
3.1.9 维护积压77
3.1.10 数据仓库78
3.1.11 走向架构式环境78
3.1.12 走向企业信息工厂78
3.1.13 DW 2.079
3.2 集成的企业数据81
3.2.1 数量众多的应用程序81
3.2.2 放眼企业82
3.2.3 多个分析师83
3.2.4 ETL技术84
3.2.5 集成的挑战86
3.2.6 数据仓库的效益86
3.2.7 粒度的视角87
3.3 历史数据89
3.4 数据集市92
3.4.1 颗粒化的数据92
3.4.2 关系数据库设计93
3.4.3 数据集市93
3.4.4 关键性能指标94
3.4.5 维度模型94
3.4.6 数据仓库和数据集市的整合95
3.5 作业数据存储96
3.5.1 集成数据的在线事务处理96
3.5.2 作业数据存储97
3.5.3 ODS和数据仓库98
3.5.4 ODS分类99
3.5.5 将外部数据更新到ODS99
3.5.6 ODS/数据仓库接口100
3.6 对数据仓库的误解101
3.6.1 一种简单的数据仓库架构101
3.6.2 在数据仓库中进行在线高性能事务处理101
3.6.3 数据完整性102
3.6.4 数据仓库工作负载102
3.6.5 来自数据仓库的统计处理103
3.6.6 统计处理的频率104
3.6.7 探查仓库104
第4章 Data Vault106
4.1 Data Vault简介106
4.1.1 Data Vault 2.0建模107
4.1.2 Data Vault 2.0方法论定义107
4.1.3 Data Vault 2.0架构107
4.1.4 DataVault2.0实施108
4.1.5 Data Vault 2.0商业效益108
4.1.6 Data Vault 1.0109
4.2 Data Vault建模介绍110
4.2.1 Data Vault模型概念110
4.2.2 Data Vault模型定义110
4.2.3 Data Vault模型组件111
4.2.4 DataVault和数据仓库112
4.2.5 转换到Data Vault建模112
4.2.6 数据重构113
4.2.7 Data Vault建模的基本规则114
4.2.8 为什么需要多对多链接结构114
4.2.9 散列键代替顺序号115
4.3 Data Vault架构介绍116
4.3.1 Data Vault 2.0架构116
4.3.2 如何将NoSQL适用于本架构117
4.3.3 Data Vault 2.0架构的目标117
4.3.4 Data Vault 2.0建模的目标118
4.3.5 软硬业务规则118
4.3.6 托管式SSBI与DV2架构119
4.4 Data Vault方法论介绍120
4.4.1 Data Vault 2.0方法论概述120
4.4.2 CMMI和Data Vault 2.0方法论120
4.4.3 CMMI与敏捷性的对比122
4.4.4 项目管理实践和SDLC与CMMI和敏捷的对比123
4.4.5 六西格玛和Data Vault 2.0方法论123
4.4.6 全质量管理124
4.5 Data Vault实施介绍125
4.5.1 实施概述125
4.5.2 模式的重要性126
4.5.3 再造工程和大数据127
4.5.4 虚拟化我们的数据集市128
4.5.5 托管式自助服务BI128
第5章 作业环境130
5.1 作业环境——简史130
5.1.1 计算机的商业应用130
5.1.2 最初的应用程序131
5.1.3 EdYourdon和结构化革命132
5.1.4 系统开发生命周期132
5.1.5 磁盘技术132
5.1.6 进入数据库管理系统时代133
5.1.7 响应时间和可用性133
5.1.8 现代企业计算136
5.2 标准工作单元136
5.2.1 响应时间要素136
5.2.2 沙漏的比喻137
5.2.3 车道的比喻138
5.2.4 你的车跑得跟前面的车一样快139
5.2.5 标准工作单元139
5.2.6 服务等级协议139
5.3 面向结构化环境的数据建模140
5.3.1 路线图的作用140
5.3.2 只要粒度化的数据140
5.3.3 实体关系图141
5.3.4 数据项集142
5.3.5 物理数据库设计143
5.3.6 关联数据模型的不同层次143
5.3.7 数据联动的示例144
5.3.8 通用数据模型146
5.3.9 作业数据模型和数据仓库数据模型146
5.4 元数据146
5.4.1 典型元数据146
5.4.2 存储库147
5.4.3 使用元数据148
5.4.4 元数据用于分析149
5.4.5 查看多个系统150
5.4.6 数据谱系150
5.4.7 比较已有系统和待建系统150
5.5 结构化数据的数据治理151
5.5.1 企业活动151
5.5.2 数据治理的动机152
5.5.3 修复数据152
5.5.4 粒度化的详细数据153
5.5.5 编制文档153
5.5.6 数据主管岗位154
第6章 数据架构156
6.1 数据架构简史156
6.2 大数据/已有系统的接口166
6.2.1 大数据/已有系统的接口166
6.2.2 重复型原始大数据/已有系统接口167
6.2.3 基于异常的数据168
6.2.4 非重复型原始大数据/已有系统接口169
6.2.5 进入已有系统环境170
6.2.6 “语境丰富”的大数据环境171
6.2.7 将结构化数据/非结构化数据放在一起分析172
6.3 数据仓库/作业环境接口172
6.3.1 作业环境/数据仓库接口172
6.3.2 经典的ETL接口173
6.3.3 作业数据存储/ETL接口173
6.3.4 集结区174
6.3.5 变化数据的捕获175
6.3.6 内联转换175
6.3.7 ELT处理176
6.4 数据架构——一种高层视角177
6.4.1 一种高层视角177
6.4.2 冗余177
6.4.3 记录系统178
6.4.4 不同的群体180
第7章 重复型分析181
7.1 重复型分析——必备基础181
7.1.1 不同种类的分析181
7.1.2 寻找模式182
7.1.3 启发式处理183
7.1.4 沙箱186
7.1.5 标准概况187
7.1.6 提炼、筛选188
7.1.7 建立数据子集188
7.1.8 筛选数据190
7.1.9 重复型数据和语境192
7.1.10 链接重复型记录193
7.1.11 日志磁带记录193
7.1.12 分析数据点194
7.1.13 按时间的推移研究数据195
7.2 分析重复型数据196
7.2.1 日志数据198
7.2.2 数据的主动/被动式索引199
7.2.3 汇总/详细数据200
7.2.4 大数据中的元数据202
7.2.5 相互关联的数据203
7.3 重复型分析204
7.3.1 内部、外部数据204
7.3.2 通用标识符205
7.3.3 安全性205
7.3.4 筛选、提炼207
7.3.5 归档结果208
7.3.6 指标210
第8章 非重复型分析211
8.1 非重复型数据211
8.1.1 内联语境化213
8.1.2 分类法/本体处理214
8.1.3 自定义变量215
8.1.4 同形异义消解216
8.1.5 缩略语消解217
8.1.6 否定分析218
8.1.7 数字标注219
8.1.8 日期标注220
8.1.9 日期标准化220
8.1.10 列表的处理220
8.1.11 联想式词处理221
8.1.12 停用词处理222
8.1.13 提取单词词根222
8.1.14 文档元数据223
8.1.15 文档分类223
8.1.16 相近度分析224
8.1.17 文本ETL中功能的先后顺序225
8.1.18 内部参照完整性225
8.1.19 预处理、后处理226
8.2 映射227
8.3 分析非重复型数据229
8.3.1 呼叫中心信息229
8.3.2 医疗记录237
第9章 作业分析1242
第10章 作业分析2249
第11章 个人分析259
第12章 复合式的数据架构264
词汇表268