图书介绍

大数据管理丛书 大数据集成PDF|Epub|txt|kindle电子书版本网盘下载

大数据管理丛书 大数据集成
  • (美)董欣,(美)戴夫士·斯里瓦斯塔瓦著;王秋月,杜治娟,王硕译 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111559863
  • 出版时间:2017
  • 标注页数:186页
  • 文件大小:22MB
  • 文件页数:206页
  • 主题词:数据处理

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据管理丛书 大数据集成PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 大数据集成的挑战和机遇1

1.1 传统数据集成2

1.1.1 航班示例:数据源2

1.1.2 航班示例:数据集成7

1.1.3 数据集成:体系结构和三个主要步骤10

1.2 大数据集成:挑战12

1.2.1 “V”维度13

1.2.2 案例研究:深网数据量15

1.2.3 案例研究:抽取的领域数据18

1.2.4 案例研究:深网数据的质量22

1.2.5 案例研究:浅网结构化数据25

1.2.6 案例研究:抽取的知识三元组28

1.3 大数据集成:机遇30

1.3.1 数据冗余性31

1.3.2 长数据32

1.3.3 大数据平台33

1.4 章节安排33

第2章 模式对齐34

2.1 传统模式对齐:快速导览35

2.1.1 中间模式35

2.1.2 属性匹配36

2.1.3 模式映射37

2.1.4 查询问答38

2.2 应对多样性和高速性的挑战39

2.2.1 概率模式对齐39

2.2.2 按需集成用户反馈52

2.3 应对多样性和海量性的挑战54

2.3.1 集成深网数据55

2.3.2 集成Web表格59

第3章 记录链接68

3.1 传统记录链接:快速导览69

3.1.1 两两匹配71

3.1.2 聚类72

3.1.3 分块74

3.2 应对海量性挑战76

3.2.1 使用MapReduce并行分块77

3.2.2 meta-blocking:修剪两两匹配83

3.3 应对高速性挑战88

3.4 应对多样性挑战95

3.5 应对真实性挑战100

3.5.1 时态记录链接100

3.5.2 具有唯一性约束的记录链接107

第4章 大数据集成:数据融合113

4.1 传统数据融合:快速导览114

4.2 应对真实性挑战116

4.2.1 数据源的准确度117

4.2.2 值为真的概率118

4.2.3 数据源之间的复制关系121

4.2.4 端到端的解决方案128

4.2.5 扩展性和适应性131

4.3 应对海量性挑战134

4.3.1 基于MapReduce框架做离线融合135

4.3.2 在线数据融合136

4.4 应对高速性挑战142

4.5 应对多样性挑战146

第5章 大数据集成:出现的新问题149

5.1 众包的角色149

5.1.1 利用传递关系150

5.1.2 众包端到端的工作流155

5.1.3 未来的工作158

5.2 数据源选择158

5.2.1 静态数据源160

5.2.2 动态数据源162

5.2.3 未来的工作166

5.3 数据源分析166

5.3.1 Bellman系统167

5.3.2 概述数据源170

5.3.3 未来的工作174

第6章 结论175

参考文献177

索引184

热门推荐