图书介绍

音频信息检索理论与技术PDF|Epub|txt|kindle电子书版本网盘下载

韩纪庆，郑铁然，郑贵滨编著著
出版社：北京：科学出版社
ISBN：9787030303721
出版时间：2011
标注页数：244页
文件大小：17MB
文件页数：255页
主题词：语言信号处理

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：d3a3a10abdb70b527bfb1e35c4abaf96

下载说明

音频信息检索理论与技术PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第一部分音频信息检索的发展与理论基础第1章绪论3

1.1 信息检索技术的分类及进展3

1.1.1 概述3

1.1.2 文本信息检索3

1.1.3 多媒体信息检索4

1.2 音频信息检索技术的发展9

1.2.1 语音文档检索11

1.2.2 说话人检索14

1.2.3 音乐检索16

1.3 音频信息检索的应用18

1.4 本书的构成19

参考文献20

第2章音频信息检索的基础24

2.1 人类对音频信息的认知机理24

2.1.1 听觉的生理基础24

2.1.2 听觉的感知机制25

2.1.3 听觉特性26

2.2 音频信号的数字处理及特征表示28

2.2.1 信号的统计特征28

2.2.2 感知特征33

2.3 音频信息检索框架及模型35

2.4 音频信息检索的评价39

参考文献40

第二部分表示级的音频检索43

第3章基于直接匹配的音频样例检索方法43

3.1 基于分段的实时检索方法43

3.1.1 片段划分44

3.1.2 基于检索窗的检索控制45

3.1.3 基于分段的检索方法46

3.1.4 快速分段检索方法48

3.2 MPEG-1压缩域模糊分类的检索方法52

3.2.1 MPEG音频编码简介52

3.2.2 MPEG-1 压缩域特征选择和提取54

3.2.3 基于MPEG-1压缩域模糊分类的检索方法57

参考文献58

第4章基于索引的音频样例检索方法61

4.1 局部敏感哈希索引方法61

4.1.1 局部敏感哈希62

4.1.2 p-稳定分布局部敏感哈希65

4.1.3 p-稳定分布局部敏感哈希音频索引方法66

4.2 基于局部敏感哈希倒排索引的检索方法67

4.2.1 基于局部敏感哈希的倒排索引构造67

4.2.2 基于局部敏感哈希倒排索引的搜索69

4.3 基于树与链表混合索引的检索方法72

4.3.1 模糊直方图模型72

4.3.2 树与链表混合索引构造74

4.3.3 基于树与链表混合索引的搜索74

4.3.4 时间复杂度分析76

参考文献77

第5章基于GPU通用计算的快速音频样例检索方法79

5.1 通用图形处理器与统一计算设备框架79

5.1.1 通用图形处理器79

5.1.2 统一计算设备框架80

5.2 检索算法GPU加速的可行性分析83

5.2.1 检索算法可移植性分析83

5.2.2 检索算法计算特点分析84

5.3 检索算法GPU加速的实现86

5.3.1 以线程为粒度的算法实现87

5.3.2 以线程块为粒度的算法实现92

5.3.3 加速效果比较96

参考文献96

第三部分语义级语音文档检索101

第6章语音文档检索的预处理技术101

6.1 语音文档检索系统的组成101

6.2 检索系统中的预处理技术104

6.2.1 连续语音识别104

6.2.2 关键词检出111

6.3 语音文档检索的评价指标114

参考文献117

第7章语音文档检索的索引和搜索技术120

7.1 基于关键词检出的检索方法121

7.2 基于语音识别器最优候选的检索方法121

7.2.1 基于大词表连续语音识别器最优候选的检索方法121

7.2.2 基于子词识别器最优候选的检索方法122

7.3 基于音节网格搜索的检索方法124

7.3.1 音节网格的若干定义及性质125

7.3.2 基于音节网格搜索的检索方法126

7.3.3 索引去冗余方法132

7.3.4 检索性能分析133

7.4 基于音节倒排索引的检索方法134

7.4.1 倒排索引结构135

7.4.2 采用时间匹配机制的检索方法135

7.4.3 采用位置匹配机制的检索方法138

7.4.4 检索性能分析143

7.5 基于后验概率邻接音节矩阵的检索方法144

7.5.1 语音文档的表示144

7.5.2 网格的邻接音节后验概率矩阵145

7.5.3 语音文档的邻接音节后验概率矩阵148

7.5.4 检索方法描述149

7.5.5 基于韵律加权的索引修正150

7.5.6 检索性能分析152

参考文献153

第8章语音文档检索中的容错技术155

8.1 基于模糊匹配策略的容错方法155

8.2 基于融合策略的容错方法158

8.2.1 索引层面的融合158

8.2.2 分数层面的融合159

8.3 基于扩充网格的容错方法162

8.3.1 算法的基本思想162

8.3.2 基于局部路径的简化计算167

8.3.3 基于扩充网格的检索精度提高方法168

8.3.4 检索性能分析169

8.4 基于词片语言模型的容错方法169

8.4.1 词片170

8.4.2 基于互信息的词片选择算法170

8.4.3 基于词片的语言模型171

8.4.4 采用词片识别器的检索方法172

参考文献173

第四部分语义级的说话人检索177

第9章说话人检索177

9.1 说话人分割178

9.2 检索中的说话人识别技术179

9.2.1 基于GMM的识别方法180

9.2.2 基于GMM-UBM的识别方法183

9.3 直接利用说话人识别实现的检索技术185

9.3.1 极低错误接受率的实现186

9.3.2 训练语料不充分问题的解决189

9.4 间接利用说话人识别实现的检索技术193

9.4.1 锚模型索引方法193

9.4.2 GMM模型索引方法194

参考文献196

第五部分语义级的音乐检索199

第10章音乐自动标注199

10.1 音乐声学基础199

10.1.1 乐音的感知199

10.1.2 音程、音律、音名与音高标准200

10.1.3 音乐的要素203

10.2 音乐自动标注方法及存在的问题204

10.3 基于谐波结构信息的音乐标注207

10.3.1 基于BP神经网络的起始点检测207

10.3.2 基于谐波结构信息的多基频估计方法209

10.4 基于半音域频率系数的歌曲旋律提取215

10.4.1 半音域频率系数215

10.4.2 基于Viterbi方法的旋律提取216

参考文献220

第11章音乐检索222

11.1 哼唱检索222

11.1.1 基于规则的哼唱旋律提取223

11.1.2 乐曲库的索引方法228

11.1.3 旋律匹配233

11.2 拍打检索233

11.2.1 特征提取233

11.2.2 基于DTW的匹配计算235

11.3 基于色度图的复调音乐检索235

11.3.1 色度236

11.3.2 色度图237

11.3.3 离散色度图和色度特征237

11.3.4 基于色度的相关计算与检索241

参考文献243