图书介绍

大数据搜索引擎原理分析及编程实现PDF|Epub|txt|kindle电子书版本网盘下载

大数据搜索引擎原理分析及编程实现
  • 刘凡平编著 著
  • 出版社: 北京:电子工业出版社
  • ISBN:9787121291647
  • 出版时间:2016
  • 标注页数:312页
  • 文件大小:26MB
  • 文件页数:330页
  • 主题词:搜索引擎-程序设计

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据搜索引擎原理分析及编程实现PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 引论1

1.1 搜索引擎的过去1

1.2 搜索引擎的现在2

1.3 搜索引擎的未来4

1.4 大数据与搜索引擎6

1.4.1 搜索价值提升6

1.4.2 用户价值提升7

1.5 大数据与人工智能7

1.5.1 人工智能发展7

1.5.2 人工智能技术9

1.6 本章小结11

第2章 搜索引擎原理与技术12

2.1 基本工作原理12

2.2 基本模块结构13

2.2.1 爬虫服务14

2.2.2 索引服务15

2.2.3 缓存服务16

2.2.4 搜索服务17

2.2.5 日志服务19

2.3 技术概要20

2.3.1 自然语言处理20

2.3.2 知识图谱技术21

2.3.3 海量数据存储23

2.3.4 分布式计算25

2.3.5 搜索排序技术26

2.4 本章小结27

第3章 自然语言处理框架28

3.1 英文分词28

3.2 中文分词30

3.2.1 中文分词概述30

3.2.2 基于词库的分词技术31

3.2.3 基于条件随机场的中文分词33

3.2.4 分词粒度41

3.3 词性标注41

3.3.1 隐马尔科夫模型概要42

3.3.2 隐马尔科夫模型与词性标注43

3.4 语义相似度51

3.5 依存句法分析53

3.5.1 依存句法分析概要53

3.5.2 依存句法分析实现56

3.6 情感倾向分析59

3.7 文档关键词抽取61

3.7.1 关键词抽取概述61

3.7.2 基于TF-IDF算法62

3.7.3 基于TextRank算法64

3.8 文档句子相似度分析67

3.8.1 句子相似度68

3.8.2 文档相似度70

3.9 文档核心句抽取71

3.10 聚类分类74

3.10.1 文本分类75

3.10.2 文本聚类80

3.11 语种检测84

3.12 本章小结87

第4章 构建大数据存储引擎88

4.1 架构体系89

4.1.1 结构概要89

4.1.2 服务器上线92

4.1.3 服务器下线92

4.1.4 数据读取93

4.2 数据模型94

4.3 数据压缩96

4.4 负载均衡97

4.5 数据存储逻辑视图100

4.6 本章小结103

第5章 构建分布式实时计算104

5.1 概述104

5.2 设计架构106

5.2.1 设计思想106

5.2.2 基本框架108

5.3 运行模式110

5.4 负载均衡111

5.5 通信设计112

5.5.1 基本方式113

5.5.2 分布式远程服务调用113

5.6 容灾恢复114

5.7 数据容错原理115

5.8 数据处理设计示例117

5.9 本章小结118

第6章 分布式可扩展爬虫119

6.1 爬虫体系架构119

6.1.1 主从分布式结构爬虫120

6.1.2 对等分布式结构爬虫120

6.1.3 基于分布式计算平台爬虫121

6.2 网页解析122

6.2.1 状态码处理123

6.2.2 链接去重123

6.2.3 广告识别125

6.2.4 网站地图128

6.2.5 非网页数据获取129

6.2.6 网页去重130

6.2.7 链接提取134

6.2.8 爬虫协议135

6.3 网页结构化137

6.3.1 网页的编码信息137

6.3.2 网页的正文信息138

6.3.3 网站的关键词信息142

6.3.4 网站的标题142

6.3.5 网页的发布时间144

6.3.6 网站语言检测144

6.3.7 其他结构化数据145

6.4 网页抓取策略146

6.5 爬虫权限应对147

6.6 深网抓取150

6.7 抓取更新策略151

6.8 本章小结153

第7章 大数据构建知识图谱154

7.1 概述154

7.2 搜索引擎与知识图谱155

7.3 可靠数据源选择157

7.4 实体抽取158

7.5 关系抽取159

7.5.1 关系抽取概述160

7.5.2 隐藏关系抽取161

7.5.3 结构化确定关系抽取164

7.5.4 非结构化确定关系抽取166

7.6 知识图谱检测171

7.6.1 实体关系修正171

7.6.2 实体对齐整合172

7.6.3 实体歧义分析174

7.7 知识推理与计算175

7.7.1 知识推理175

7.7.2 知识计算176

7.8 知识聚类179

7.9 智能搜索实现181

7.9.1 模式匹配181

7.9.2 知识拆解182

7.9.3 合并求解184

7.10 智能搜索扩展186

7.10.1 常识性智能搜索186

7.10.2 实时信息智能搜索187

7.10.3 可交互式智能搜索187

7.11 本章小结189

第8章 索引构建机制190

8.1 倒排索引190

8.1.1 倒排索引概述191

8.1.2 索引结构192

8.1.3 构建过程194

8.1.4 排序规则195

8.1.5 索引压缩196

8.1.6 更新策略202

8.2 分布式存储202

8.2.1 存储划分方式203

8.2.2 存储平衡策略204

8.3 存储索引209

8.3.1 二叉搜索树210

8.3.2 B树211

8.3.3 B+树213

8.3.4 B+树与文件索引214

8.4 字典树索引216

8.4.1 字典树索引概述217

8.4.2 字典树索引构建219

8.4.3 字典树查询优化221

8.5 本章小结221

第9章 搜索服务构建223

9.1 概述223

9.1.1 体系结构223

9.1.2 七何分析法224

9.1.3 搜索语法225

9.1.4 相关性排序227

9.1.5 不安全信息过滤231

9.2 大数据分布式缓存235

9.2.1 缓存结构设计235

9.2.2 缓存更新策略236

9.3 文本纠错算法237

9.3.1 中文文本纠错237

9.3.2 英文文本纠错241

9.4 结果显示算法242

9.4.1 动态摘要243

9.4.2 关键词高亮算法246

9.4.3 网页快照250

9.5 搜索智能提示250

9.6 网页排序254

9.6.1 基于PageRank的网页重要性评价254

9.6.2 基于Hits算法的网页权威性评价257

9.6.3 Hilltop算法259

9.6.4 网页作弊评价260

9.6.5 网页排序调试263

9.7 个性化搜索264

9.7.1 个性化搜索示例264

9.7.2 人工神经网络与个性化搜索265

9.7.3 地理位置搜索266

9.8 图片搜索271

9.8.1 基于内容的图片搜索271

9.8.2 基于文本的图片搜索272

9.9 搜索与广告274

9.9.1 广告投放策略275

9.9.2 基于User-Based协同过滤的广告投放275

9.9.3 基于Item-Based协调过滤的广告投放277

9.9.4 基于混合模式广告投放278

9.9.5 广告投放评价279

9.10 搜索引擎评价282

9.10.1 搜索评价概述282

9.10.2 基于准确率、召回率及F值评价283

9.10.3 归一化折扣累计增益285

9.11 本章小结288

第10章 基于用户日志的反馈学习290

10.1 基于用户搜索词语的分析290

10.1.1 发现搜索词的价值291

10.1.2 发现不明意图下的用户行为292

10.2 基于用户点击日志的分析293

10.2.1 时间与搜索意图的关系293

10.2.2 地理位置与搜索意图的关系294

10.2.3 点击日志与同义词296

10.2.4 点击日志与词语权重297

10.2.5 点击日志与新词分类298

10.2.6 点击日志与知识图谱300

10.2.7 点击日志与网页重排序301

10.2.8 点击日志与网页评价303

10.3 基于用户的特征分析304

10.3.1 用户跟踪305

10.3.2 用户群体特征306

10.3.3 用户个体特征308

10.4 本章小结309

热门推荐