新書推薦:
《
机器人自动化集成系统设计(NX MCD)
》
售價:HK$
61.6
《
原生家庭,一所隐秘的学校
》
售價:HK$
96.8
《
信托一本通:财富传承的模式、案例与实务(丰富案例+专业解读,讲透10大信托业务功能、法律风险与实操)
》
售價:HK$
107.8
《
AI绘画:技术、创意与商业应用全解析
》
售價:HK$
85.8
《
新民说·经济学家的恶习
》
售價:HK$
46.2
《
阅世奇言:靖康生死局
》
售價:HK$
74.8
《
前浪后浪:近代中国知识分子的精神世界
》
售價:HK$
96.8
《
八路军史
》
售價:HK$
107.8
|
內容簡介: |
本书系统介绍了声音信号处理的背景知识、发展历史以及研究现状与趋势,并详细阐述了基础原理、处理方法、实践应用、新成果与新技术。 全书共9章。第1章绪论,第2章声音信号简介,第3章短时时域处理技术,第4章短时傅里叶变换,第5章声音信号的线性预测,第6章语音编码,第7章声音合成与转换,第8章语音识别,第9章基于深度学习技术的声音技术应用。 本书体系完整,结构严谨,系统性强,原理阐述透彻,联系实际应用,凸显理论与实践结合,包含丰富的实践案例。本书可作为高等院校信号与信息处理、通信与电子工程、模式识别与人工智能等专业高年级本科生及研究生教材,也可供该领域的科研及工程技术人员参考。
|
關於作者: |
应娜,杭州电子科技大学通信工程学院副院长。负责通信工程学院教学工作,国家一流专业”通信工程专业”的负责人。负责《信息论与编码》、《随机信号原理》、《语音信号处理》、《认识实习》、《综合创新实践1/2/3》等课程。负责省级校企培养基地2项;负责省级一流课程2门;主持校级课程教改3项和核心课程建设1项;指导学生获得国家级、省级竞赛获奖多项,获得大唐杯、研究生电子设计大赛等优秀指导教师多项;获得校级优秀班主任、优秀指导教师多次。该教材获批浙江省普通本科高校”十四五”重点教材建设项目。
|
目錄:
|
目 录 第1章 绪论 1 1.1 声音信号处理的研究内容1 1.2 声音信号处理的发展历史2 1.2.1 语音编码算法的发展历史3 1.2.2 语音识别算法的发展历史4 1.2.3 语音去噪及增强算法的发展历史5 1.2.4 语音合成转换等其他算法的发展历史7 1.2.5 基于语音和视觉信息的多模态融合方法11 1.3 声音效果评价14 1.3.1 主观评价方法14 1.3.2 客观评价方法15 练习题16 第2章 声音信号简介17 2.1 人类语音信号的产生17 2.2 语音信号的基本特征18 2.3 声音的特征提取19 2.3.1 手工声音特征19 2.3.2 深度语音情感特征19 2.4 人类的听觉感知20 2.5 语音数据库22 2.5.1 语音识别数据集22 2.5.2 语音情感数据库23 2.5.3 多模态情感数据集24 练习题26 第3章 短时时域处理技术27 3.1 语音信号的短时处理方法27 3.1.1 语音端点检测27 3.1.2 预加重28 3.1.3 分帧与加窗28 3.2 短时能量和短时平均幅度30 3.3 短时过零率33 3.4 短时自相关函数35 3.5 短时时域处理技术案例:基音提取35 3.5.1 基音检测估计方法1:三电平削波法36 3.5.2 基音检测估计方法2:SHR谐波检测法40 练习题42 第4章 短时傅里叶变换44 4.1 短时傅里叶变换的定义44 4.2 短时傅里叶变换的理解45 4.3 短时傅里叶变换的实现49 4.4 语音短时傅里叶变换的应用案例50 4.4.1 梅尔频率倒谱系数的提取和应用50 4.4.2 声音去噪算法的实现57 4.4.3 声音信号熵的提取应用62 练习题69 第5章 声音信号的线性预测编码70 5.1 线性预测基本原理70 5.2 线性预测的解析算法73 5.3 线性预测的应用案例76 5.3.1 基音检测估计77 5.3.2 共振峰估计81 练习题85 第6章 语音编码86 6.1 脉冲编码调制87 6.1.1 均匀量化脉冲编码调制87 6.1.2 非均匀量化脉冲编码调制87 6.1.3 自适应量化脉冲编码调制88 6.2 差分脉冲编码89 6.2.1 差分脉冲编码原理89 6.2.2 自适应差分脉冲编码91 6.3 增量调制95 6.3.1 增量调制原理95 6.3.2 自适应增量调制原理95 6.4 基于线性预测编码的声码器96 6.4.1 LPC-10声码器96 6.4.2 码激励线性预测编码102 练习题107 第7章 声音合成与转换109 7.1 语音合成方法109 7.1.1 参数合成方法110 7.1.2 波形合成方法115 7.2 汉语基于音节的规则合成方法120 7.2.1 韵律规则合成121 7.2.2 多音节协同发音规则合成129 7.2.3 轻声音节规则合成130 7.3 语音转换方法131 7.3.1 语音转换系统的总体框架131 7.3.2 语音转换常见的特征参数132 7.4 语音转换评价指标134 7.4.1 客观评价135 7.4.2 主观评价135 7.5 语音转换应用案例136 7.5.1 平行语音转换方法136 7.6 非平行语音转换应用案例139 7.6.1 循环生成对抗网络139 7.6.2 星型生成对抗网络140 7.6.3 变分自动编码器141 7.6.4 自适应实例规范化141 7.6.5 激活引导和自适应实例归一化142 练习题150 第8章 语音识别151 8.1 采用矢量量化的说话人识别151 8.1.1 矢量量化的原理151 8.1.2 矢量量化的训练152 8.1.3 矢量量化说话人识别的实现153 8.2 采用动态时间规整的孤立词识别154 8.3 基于隐马尔可夫模型的语音(语句)识别159 8.3.1 HMM模型159 8.3.2 HMM的概率求解161 8.3.3 HMM的解码164 8.3.4 HMM的训练166 8.3.5 HMM-GMM模型171 8.3.6 基于HMM的语音识别应用案例173 练习题180 第9章 基于深度学习模型的声音技术应用183 9.1 深度学习网络基础183 9.1.1 深度学习网络基本结构183 9.1.2 深度学习网络的训练185 9.1.3 卷积神经网络187 9.1.4 循环神经网络191 9.1.5 注意力机制197 9.2 基于深度学习的声音去噪算法198 9.2.1 基于深度神经网络幅度谱估计的深度学习声音去噪算法198 9.2.2 基于多尺度时频卷积网络的多通道声音去噪201 9.3 基于深度学习的语音识别应用案例205 9.3.1 基于循环神经网络-连续时序分类的语音识别206 9.3.2 基于卷积神经网络的语音识别209 9.3.3 基于Transformer的语音识别211 9.4 基于ResNet的语音情感识别应用案例220 9.5 声音与呼吸信号联合识别应用案例225 9.6 声音与人脸联合识别应用案例228 练习题231 参考文献 232
|
|