一、基于小波变换和Teager能量算子浊音段提取(论文文献综述)
查琳[1](2020)在《基于声音传感器的目标识别技术研究》文中认为目前指纹识别、虹膜识别、声音识别等生物特征识别技术发展十分迅速,已经在军事、金融和安全等领域有着广泛的应用。因为声音目标识别技术有样本易采集、算法复杂度低、隐蔽性强等优点,所以适用于更多的场景也有更重大的研究意义,已成为近年来的研究热点。但是现有的声音目标识别技术的相关研究多是在实验室中进行的,不适用于野外这类噪声较大的环境中。本文主要研究了在噪声环境中的声音目标识别,利用放置在野外环境中的声音传感器采集声音数据,经过一系列处理,最终能够识别出声音是由人、车还是小型飞行器发出的。为此,本文将从以下几个方面进行讨论和研究:(1)对在噪声环境中采集的声音信号进行预处理,提取较纯净的声音信号。本文采用基于Teager能量算子的端点检测来达到预处理的目的。传统的端点检测方法大部分是基于声音信号的短时能量和短时过零率特征研究出来的。这两种特征是在时域中检测到的,简单且易于实现,但不适用于信噪比较低的情况,会增加误判的可能性。但是在小波域中,有用声音信号段的小波系数明显大于无声和噪声段而且更稳定。因此,基于小波域Teager能量算子的端点检测更适用于野外环境中的声音目标识别。(2)将现有的声音特征参数分为时域参数和频域参数两类,逐一介绍了常用声音特征参数的原理及优缺点。本文使用的声音数据是由放置在野外环境中的声音传感器采集到的,会产生信噪比低、不稳定等问题。单一的特征参数不能达到很好的识别效果,所以使用梅尔频率倒谱系数和线性预测倒谱系数的融合特征作为本次研究的特征参数。(3)本次实验需要在短时间内识别出声音是由人、车还是小型飞行器发出的,所以在保证识别率的条件下,对识别速度也有一定的要求。因此,最终选择使用矢量量化模型(VQ)进行分类。经过分析和研究,发现目前矢量量化模型多使用欧式距离作为失真测度。由于本文使用梅尔频率倒谱系数和线性预测倒谱系数的融合特征作为特征参数,所以改用对数似然比作为矢量量化模型的失真测度。利用MATLAB对模型进行了设计与实现,通过实验证明该识别系统能够在保证识别率的情况下提高识别速度,而且可以适用于更广泛的场景中。
吴鹏[2](2019)在《机载环境下的语音识别关键技术的研究》文中指出语音识别技术是近三十年来的热门研究课题,也是一门综合性很强的学科,有着远大的应用前景。虽然在当今社会已经涌现出不少的语音产品,但在应用过程中还存在着各种各样的问题,特别是在某种特定的背景下,因此本文着重于对机载环境下的语音识别技术展开研究。详细介绍了语音识别的实现流程与系统架构,阐述了语音识别系统的各个组成部分的基本原理,包括预处理、端点检测、特征提取以及识别的方法。提出一种结合谱减法与短时零熵的检测方法。该方法在检测的前端部分运用谱减法进行降噪处理,并融合了短时过零率和功率谱熵,构造出一种新的语音参数,即短时零熵。经实验证明,该算法能够在机载环境下取得较为满意的检测效果。提出一种基于HHT变换的改进MFCC特征。该方法是将HHT变换取代FFT变换进行时频分析,且在MFCC特征的高频部分采用Teager能量,得到一种改进MFCC参数。实验结果表明,该参数在机载环境下有着良好的稳健性和鲁棒性。在HMM的理论基础上,以Matlab软件作为开发平台,搭建一个基于机载指令的语音识别系统,并展现了识别流程中的各个环节的操作界面与仿真结果。最终的演示结果表明改进算法在机载环境下具有很好的应用价值。
夏令祥[3](2019)在《低信噪比环境下语音端点检测方法的研究》文中进行了进一步梳理国务院下发了《新一代人工智能发展规划的通知》,要求建立新一代人工智能关键共性技术体系,将自然语言处理技术规划在内。语音端点检测作为自然语言处理技术中的关键部分,对其展开研究具有重大意义。针对低信噪比环境下的语音端点检测准确率低的问题,本文提出了三种新的语音端点检测方法,并设计实验验证了其可行性和优越性。首先介绍了语音信号预处理方法、传统的语音特征提取方法和端点识别方法,为本文的研究提供了理论基础。然后在特征提取部分,提出了三种语音特征提取方法:(1)分析了使用谱熵(SE)和梅尔频率倒谱系数(MFCC)进行语音端点检测效果较差的缺点及原因,并探究了MFCC的第一个分量(MFCC0)对MFCC在语音信号处理中影响,发现MFCC0具有一定程度的语音追踪能力。然后使用MFCC0对SE加权,提出了谱熵梅尔积(PSEM)的概念。最后使用PSEM进行语音信号特征提取,并与SE和MFCC倒谱系数距离对比,证明了PSEM的优越性。(2)针对基于经验模式分解(EMD)和Teager能量算子(EMD-TEO)的特征提取方法,指出导致其算法耗时长的原因是进行了大量的EMD分解。引入信息熵的概念,并改进概率计算的方式,降低算法复杂度,提高鲁棒性,提出了Teager能量信息熵(TEE)的概念。提取语音信号的TEE特征并与EMD-TEO特征比较,证明了TEE具有较好的实时性和端点检测性能。(3)探究了传统排列熵(PE)中的概率计算方式对语音端点检测效果的影响,指出PE的概率计算未考虑子序列均值的缺点,使用加权排列熵(WPE)作为语音特征参数提取方法,并通过仿真实验证明了该方法进行语音端点检测的优越性。在端点识别部分,使用模糊C均值聚类算法(FCMC)和贝叶斯信息准则(BIC)对传统双门限法的高、低门限值自适应估计,使双门限法具有了自适应性。最后,将本文三种特征参数分别与该方法结合,形成三种新的语音端点检测方法。使用TIMIT语音库和NUST6032014语音库设计对比实验,实验结果证明,在低信噪比环境中,与传统语音端点检测方法相比,本文所提三种方法都具有较高的端点检测准确率。
朱春利[4](2019)在《基于多特征融合的语音端点检测方法研究》文中提出随着信息技术的发展,语音智能化逐渐走上成熟,端点检测作为语音信号处理中一个核心技术而显得十分重要。语音端点检测的目的是从带噪语音信号中有效判别出语音的端点,从而减少语音信号处理的运算量和提高系统的性能。现有的端点检测方法在信噪比(Signal Noise Ratio,SNR)较高的环境下往往具有较好的检测效果,但随着信噪比的降低,端点检测效果很不理想,甚至失效。针对此问题,本文通过改进前端语音降噪算法,并结合改进后的多特征融合策略进行语音的双门限端点检测,并通过与其它方法进行实验仿真对比,验证了本文方法的优越性。本文的研究工作及创新点主要表现在以下几个方面:(1)结合语音增强技术,提出了基于最小均方(the Least Mean Square,LMS)自适应滤波减噪与多特征改进的语音单字端点检测方法,在处理噪声的过程中引入多次中值滤波平滑处理,有效减少了语音信号所含的野点噪声,并将改进后的对数能量和短时平均过门限率相融合进行双门限端点检测。(2)针对谱减法中短时傅里叶变换(Short-Time Fast Fourier Transform,SFFT)不能对非平稳信号进行有效分析,提出基于S谱减与多特征改进融合的连续语音端点检测方法,将S变换引入到谱减法中,使得语音具有更强的抗噪声性能,并利用改进的Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)倒谱距离与均匀子带方差特征相融合的方法实现双门限双参数法检测。(3)为了提高语音端点检测阈值设定的自适应性,采用了基于语音前导无话段噪声估计的动态阈值设定策略,使得该阈值会随着每段语音的前导无话段计算噪声的情况而动态变化。(4)针对传统的评测方法存在操作性不足、误差性较大的问题,提出了置信度评测机制,通过端点检出率、漏检率、算法复杂度等指标来计算端点检测正确率,增强了实验的可信度和可靠性。
刘振焘,徐建平,吴敏,曹卫华,陈略峰,丁学文,郝曼,谢桥[5](2018)在《语音情感特征提取及其降维方法综述》文中进行了进一步梳理情感智能是人工智能的重要发展方向,随着人工智能的迅速发展,情感智能已成为当前人机交互领域的研究热点.语音情感是人们相互情感交流最直接、最高效的途径,越来越多的研究者投入到语音情感识别的研究中.该文综述了国内外近几年语音情感特征提取及降维领域的最新进展.首先,介绍了语音情感识别中常用的特征,将语音特征分为韵律特征、基于谱的特征等,并提出以个性化与非个性化的方式对语音情感特征进行分类.然后,对其中广泛应用的特征提取方法进行了详细地比较与分析,阐述了各类方法的优缺点,并对最新的基于深度学习方法的语音特征提取的相关研究进行了介绍.同时,介绍了常用的语音情感特征降维方法,并在此基础上分析了这些特征降维方法时间复杂度,对比了各类方法的优缺点.最后,对当前语音情感识别领域的研究现状与难点进行了讨论与展望.
朱虹,金小峰[6](2017)在《改进的跨语种说话人确认方法的研究》文中指出提出了一种基于改进的语音融合特征和GMM模型相结合的跨语种说话人确认方法.首先,采用Teager能量算子提取语音中的浊音段,消除与说话人声道特征无关的静音段和清音段.其次,提取基音周期参数,并与16维的MFCC参数融合形成本文的语音融合特征.最后,将本文方法与文献[9]的方法分别进行了单语种和跨语种的说话人确认对比实验,实验结果表明本文方法识别准确率和平均判别时间均优于文献[9]的方法,证明本文提出的方法有效,可用于跨语种的说话人确认应用领域.
王磊[7](2014)在《基于小波包变换的说话人识别特征参数提取算法研究》文中研究指明随着互联网技术的发展,语音特征已经成为计算机处理的一种重要资源。传统的文字、图像等信息处理虽然在某些领域有很大的市场,但是在某些领域文字、图像等信息的处理却不能反映个体的特征,对个体的认证也有局限性。说话人识别是一种通过对人的语音信号进行提取、分析,然后判断说话人是谁的技术。说话人识别技术在某些领域能通过对不同信号的差异性进行分析来达到区分人与人之间这种差异性,从而实现个体的认证。随着技术发展,其应用场景将进入通信、互联网、医疗、消费电子等各种领域。因此,对说话人识别进行研究有很大的意义。本文以MFCC特征参数提取过程为基础,将小波包变换技术和Teager能量算子运用到特征参数提取过程中,重点研究基于小波包变换的说话人识别过程,以及基于小波包变换与能量算子的说话人识别过程。论文主要工作如下:首先对说话人识别技术进行介绍,然后对常用的几种说话人识别技术进行阐述,并对一种传统的基于MFCC的计算方法分析优点与缺点。此外,对小波包变换的理论、原理进行了分析和介绍。提出了一种基于小波包变换的特征参数提取算法。详细分析了MFCC的优缺点,将小波包变换应用到MFCC提取过程中去,用小波包变换替代快速傅里叶变换和Mel滤波器组,从而能很好的反映信号非平稳、持续短、时域和频域局部化等特征,同时又解决了Mel滤波器组高频部分精度不高的问题,最后得到新特征参数newMFCC,与频谱重心结合得到组合特征参数,并且用差分参数作为特征参数作为比对,并通过仿真实验证明改进算法有更好的识别效果。提出了一种小波包变换与Teager能量算子结合的特征参数提取算法。分析了噪音环境下MFCC的不足,同时结合Teager能量算子在语音增强下的表现,将Teager能量算子运用到之前的小波包变换的特征提取算法中。构建了新的提取算法过程,得到了新特征参数newMFCC2,最后仿真实验证明了在噪音环境下该算法有更好的识别结果。
王耀琦,王小鹏,张忠林[8](2012)在《一种低信噪比环境下的基音检测方法》文中提出噪声是低信噪比环境下影响基音检测准确率的主要因素之一,为此提出一种基于形态学滤波和小波变换相结合的基音检测方法。该方法首先用形态学滤波器滤除噪声,突出基音。然后在小波域利用Teager能量算子区分清、浊音,通过浊音小波系数模的极大值提取基音。实验结果表明,在信噪比较小时该方法也能准确地检测出语音信号的基音,与传统的基音检测方法相比,该方法有较强的抗噪性。
冯亚楠[9](2012)在《基于小波域Teager能量熵的音符起点检测算法研究》文中研究指明音乐音符起点检测是基于内容的音乐信号分析处理的关键性环节。尤其对开启音乐检索领域新篇章的哼唱检索(QBH)系统而言,若加入一种高效快捷的音符切分程序,不仅可以在很大程度上提升检索效率,而且可以极大程度地方便用户的使用,即可免去很多限制直接使用自然哼唱进行检索。因此音符起点检测确实是基于内容的音乐检索系统中不可缺少的一个重要步骤。本文首先介绍了近年来音乐信号领域中各种经典有效的处理算法,并分析了各自利弊。之后,针对音乐音符所特有的信号特征,将几种有效的特征参数进行融合进而提出了更为有效的全新的音符起点检测算法——小波域的Teager能量熵算法。鉴于Teager能量特征参量不仅包含信号幅度信息,而且包含信号的频率信息,这一特性恰能很好地反映音频流中音符所特有的能量分布随频率而有所差异的特性。与此同时,信息熵能够很好地反映特征参量的分布情况,而不会受到信号个别样本点变化的影响。因此,本文首先将二者相结合,提出了基于Teager能量熵的音符切分算法。接着对所提取的Teager能量熵特征曲线首先经由对数函数的均衡峰值处理,而后用双门限阈值法提取峰值,进而完成整个音符切分过程。与目前较优的音符切分法——自适应子带谱熵法相比,Teager能量熵算法快速简洁,计算量减少近60%,得到的检测曲线更平整光滑,音符分界更为明显,音符切分的准确度提高近十个百分点,尤其适用于打击类乐曲。但是,当待处理的音乐信号中掺杂有噪声信号,尤其是高频噪声时,Teager能量熵算法的检测性能会逊色不少。对于这一问题,本文在特征提取前首先进行了小波变换,滤除高频噪声,只对低频信号进行Teager能量熵特征提取,实验证明抗噪性能确实提升了不少。至此,形成了本文最终提出的音符起点检测算法——小波域的Teager能量熵算法。文中对不同种类的音乐音频进行实验检测,实验数据大体分为四大类共七组音乐片段,约共含2000多个音符。实验结果表明本文算法在音符起点检测中确实更具优势,尤其对于由多种乐器演奏或加有背景音乐的复杂音乐音频信号,本文算法的优势将更加突出。
孙颖[10](2011)在《情感语音识别与合成的研究》文中研究表明情感语音识别与合成技术是当前语音信号处理研究的热点问题,目的是使计算机既能够听懂人类语言所携带的情感成分,又可以说出人类语言,实现人机智能通信,使计算机与人的交流畅通无阻。情感语音识别是语音识别技术的一个新的分支,由于情感本身概念的不确定性及语音中情感特征的模糊性,使得情感语音识别成为一个难点问题。语音合成技术一直以来研究者众多,但是,如何能够构建出一个存储量小,自然度高的合成系统一直是需要重点解决的问题。本文紧紧抓住情感语音识别的难点和语音合成的重点,提出了基于人耳听觉特性模型的情感语音识别特征,并用声门特征对基于人耳听觉的情感语音特征进行了补偿优化;实现了基于隐马尔科夫模型的语音合成系统,在此基础上,对系统合成的语音进行了参数分析和修改,将情感特征加入了合成语音,实现了基于隐马尔科夫模型的情感语音合成。本文的主要工作和创新性成果如下:(1)在深入研究情感理论的基础上,分析了韵律特征在不同情感中的表现,构建了包括“高兴”、“生气”和“中立”三种情感状态,汉语普通话和英语两种语言的TYUT情感语音数据库。通过主观辨听实验和典型特征的分析实验,确定了TYUT情感语音数据库的有效性。(2)将基于人耳听觉特性模型的过零峰值幅度特征用于情感语音识别,并将该特征中用于代表频率与说话速率的过零特征与Teager能量算子中的非线性能量特征有机地结合在一起,提出了一种基于人耳听觉特性模型的新特征——过零最大Teager能量算子特征,新特征在情感语音识别实验中表现出良好的性能。(3)将人的发音模型与听觉模型相结合,通过分析声门特征对人耳听觉模型特征的影响,提出了用声门特征补偿人耳听觉特征的新算法,并将补偿后的新算法用于情感识别实验,得到了较高的识别率。新算法表现出了优良的性能。(4)针对实际交谈中,背景环境复杂的情况,设计了一种混合情感语音数据库的实验,用以检验情感特征的数据库独立性。通过对混合语音数据库实验结果的对比,发现过零最大Teager能量算子特征是本文所有特征中,数据库依赖性最小的特征。(5)为了能够合成出具有不同情感的语句,首先,搭建了基于隐马尔科夫模型的情感语音合成系统,接着对合成出的语句进行了参数修改,最终实现了基于隐马尔科夫模型的情感语音合成,初步得到了合成的情感语音。
二、基于小波变换和Teager能量算子浊音段提取(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于小波变换和Teager能量算子浊音段提取(论文提纲范文)
(1)基于声音传感器的目标识别技术研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究的背景和意义 |
1.2 国内外研究现状 |
1.2.1 声音目标识别国内外研究现状 |
1.2.2 特征融合技术国内外研究现状 |
1.3 论文主要研究内容及结构安排 |
1.4 技术路线 |
第2章 基于端点检测的声音信号预处理 |
2.1 声音信号预处理 |
2.2 端点检测 |
2.2.1 声音信号的端点检测 |
2.2.2 端点检测基本原理 |
2.3 基于短时能量和短时过零率的端点检测 |
2.4 基于Teager能量算子的端点检测 |
2.4.1 Teager能量算子原理 |
2.4.2 Teager能量算子特性 |
2.5 本章小节 |
第3章 声音特征参数提取 |
3.1 时域特征参数 |
3.2 频域特征参数 |
3.3 本章小节 |
第4章 基于主成分分析的特征融合 |
4.1 特征融合理论基础 |
4.2 PCA基本原理 |
4.3 基于PCA的特征融合 |
4.4 本章小结 |
第5章 基于声音传感器的目标识别方法 |
5.1 声音目标识别方法 |
5.2 基于传统矢量量化的声音目标识别 |
5.2.1 标量量化与矢量量化 |
5.2.2 矢量量化原理 |
5.3 基于改进矢量量化的声音目标识别 |
5.4 仿真实验与结果分析 |
5.4.1 实验参数设置及模块 |
5.4.2 不同特征参数下识别率分析 |
5.4.3 不同特征参数下识别速度分析 |
5.4.4 预处理对识别率影响分析 |
5.4.5 失真测度对识别率影响分析 |
5.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文和获得的科研成果 |
致谢 |
(2)机载环境下的语音识别关键技术的研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 语音识别的研究背景与意义 |
1.2 语音识别研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 语音识别在航空领域的应用 |
1.4 主要研究内容 |
1.5 论文的组织机构 |
第二章 语音识别技术的基本理论 |
2.1 .语音识别的概述 |
2.1.1 语音识别的分类 |
2.1.2 语音的产生机理和模型 |
2.1.3 语音识别的系统构架 |
2.2 语音信号的预处理 |
2.2.1 语音的采集 |
2.2.2 预加重 |
2.2.3 分帧加窗 |
2.2.4 端点检测 |
2.3 语音信号的特征提取 |
2.4 主要的识别算法 |
2.5 本章小结 |
第三章 改进的短时零熵端点检测方法 |
3.1 引言 |
3.2 传统的端点检测算法 |
3.2.1 基于时域特征-短时能量和过零率 |
3.2.2 基于频域特征-功率谱熵 |
3.3 基于谱减法和短时零熵值的端点检测算法 |
3.3.1 机载噪声的特点 |
3.3.2 谱减法 |
3.3.3 短时零熵值的定义 |
3.3.4 门限估计算法 |
3.3.5 基于谱减法和短时零熵的端点检测 |
3.4 实验及结果分析 |
3.5 本章小结 |
第四章 基于HHT变换的改进MFCC特征提取 |
4.1 引言 |
4.2 常用的特征提取方法 |
4.2.1 线性预测倒谱系数 |
4.2.2 MFCC倒谱系数 |
4.3 Hilbert-Huang变化 |
4.3.1 EMD分解的原理及过程 |
4.3.2 Hilbert谱分析 |
4.4 基于HHT变化的特征提取方法 |
4.4.1 Teager能量算子 |
4.4.2 基于HHT变换的改进MFCC特征提取 |
4.5 仿真实验及结果分析 |
4.6 本章小结 |
第五章 HMM语音识别系统的研究 |
5.1 HMM模型的概念 |
5.2 HMM的定义及基本参数 |
5.3 HMM的类型及三大问题 |
5.4 HMM的基本算法 |
5.4.1 前向-后向算法 |
5.4.2 Viterbi算法 |
5.4.3 Baum-Welch算法 |
5.5 HMM的实现 |
5.6 本章小结 |
第六章 机载语音识别系统的实验仿真 |
6.1 实验平台的搭建 |
6.1.1 语音库的建立 |
6.1.2 语音识别系统的主界面 |
6.2 HMM的训练和识别 |
6.3 实验结果的分析 |
6.4 本章小结 |
第七章 总结与展望 |
7.1 本文总结 |
7.2 展望 |
致谢 |
攻读硕士学位期间主要的研究成果 |
参考文献 |
附录一 插图清单 |
附录二 表格清单 |
(3)低信噪比环境下语音端点检测方法的研究(论文提纲范文)
致谢 |
摘要 |
abstract |
变量注释表 |
1 绪论 |
1.1 课题研究背景及意义 |
1.2 国内外研究现状 |
1.3 本文主要研究内容与章节安排 |
2 语音端点检测的基本理论 |
2.1 语音信号的预处理 |
2.2 传统的语音特征提取方法 |
2.3 语音端点识别方法 |
2.4 本章小结 |
3 低SNR环境下基于谱熵梅尔积的语音特征提取 |
3.1 引言 |
3.2 基于谱熵的语音特征提取 |
3.3 基于梅尔频率倒谱系数的语音特征提取 |
3.4 低SNR环境下基于PSEM的语音特征提取 |
3.5 本章小结 |
4 低SNR环境下基于Teager能量信息熵的语音特征提取 |
4.1 引言 |
4.2 基于EMD-TEO的语音特征提取 |
4.3 低SNR环境下基于TEE的语音特征提取 |
4.4 本章小结 |
5 低SNR环境下基于加权排列熵的语音特征提取 |
5.1 引言 |
5.2 基于排列熵的语音特征提取 |
5.3 低SNR环境下基于WPE的语音特征提取 |
5.4 本章小结 |
6 基于FCMC和 BIC的双门限法与实验验证 |
6.1 引言 |
6.2 基于FCMC和 BIC的双门限法 |
6.3 语音端点检测实验验证与分析 |
6.4 本章小结 |
7 总结与展望 |
7.1 结论 |
7.2 展望 |
参考文献 |
作者简历 |
学位论文数据集 |
(4)基于多特征融合的语音端点检测方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题的研究背景及意义 |
1.2 国内外研究现状及发展趋势 |
1.2.1 研究概况 |
1.2.2 国内外语音端点检测方法的发展 |
1.3 论文的主要研究内容与章节安排 |
第二章 语音信号处理基础 |
2.1 语音信号的特点与模型 |
2.1.1 语音信号的产生机制及特性 |
2.1.2 语音信号的数学模型 |
2.2 语音信号数字化与预处理 |
2.2.1 语音信号的数字化 |
2.2.2 语音信号的预处理 |
2.3 语音去噪方法介绍 |
2.3.1 语音去噪对于端点检测的意义 |
2.3.2 噪声的分类与特性 |
2.3.3 传统的语音去噪方法 |
2.4 典型语音端点检测模块 |
2.4.1 特征提取 |
2.4.2 噪声估计 |
2.4.3 判决机制 |
2.5 本章小结 |
第三章 基于特征的语音端点检测典型算法 |
3.1 基于特征参数的端点检测方法 |
3.1.1 基于特征参数的端点检测方法的一般步骤 |
3.1.2 双门限端点检测法 |
3.2 基于时域特征参数的端点检测 |
3.2.1 语音能量特征 |
3.2.2 语音过零率特征 |
3.2.3 自相关特征 |
3.3 基于频域特征参数的端点检测 |
3.3.1 倒谱距离特征 |
3.3.2 频带方差特征 |
3.3.3 谱熵特征 |
3.4 传统特征参数端点检测的缺陷 |
3.5 基于多特征参数融合的端点检测 |
3.5.1 能零比的端点检测 |
3.5.2 能熵比的端点检测 |
3.6 本章小结 |
第四章 基于LMS减噪与多特征改进的语音单字端点检测方法 |
4.1 自适应滤波减噪 |
4.1.1 LMS算法基本原理 |
4.1.2 LMS自适应算法 |
4.2 LMS减噪与改进双门限端点检测 |
4.2.1 改进的短时对数能量 |
4.2.2 改进的短时平均过门限率 |
4.2.3 中值滤波平滑处理 |
4.3 实现结果与分析 |
4.3.1 实验环境 |
4.3.2 实验置信度性能评测 |
4.3.3 实验准确性结果与分析 |
4.3.4 实验稳健性结果与分析 |
4.4 本章小结 |
第五章 基于S谱减与多特征改进融合的连续语音端点检测方法 |
5.1 基于MFCC倒谱距离特征提取 |
5.1.1 MFCC特征提取 |
5.1.2 MFCC倒谱距离 |
5.2 基于S谱减法的MFCC倒谱距离特征提取 |
5.2.1 S谱减法降噪 |
5.2.2 S谱减MFCC倒谱距离特征提取 |
5.3 基于均匀子带分离频带方差特征提取 |
5.4 动态阈值更新与端点检测 |
5.5 实验结果与分析 |
5.5.1 实验环境 |
5.5.2 实验置信度性能评测 |
5.5.3 实验结果与分析 |
5.6 本章小结 |
第六章 结论与展望 |
6.1 结论 |
6.2 展望 |
参考文献 |
作者在攻读硕士学位期间公开发表的论文 |
作者在攻读硕士学位期间所参与的项目 |
致谢 |
(6)改进的跨语种说话人确认方法的研究(论文提纲范文)
0 引言 |
1 融合特征的提取方法 |
1.1 浊音段的提取与整合 |
1.2 融合特征 |
2 跨语种说话人确认算法 |
3 实验结果及分析 |
3.1 单语种说话人确认实验 |
3.2 跨语种说话人确认实验 |
4 结论 |
(7)基于小波包变换的说话人识别特征参数提取算法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究的现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 本文主要工作 |
1.4 本文的组织结构 |
第2章 说话人识别技术的研究 |
2.1 说话人识别基本介绍 |
2.1.1 说话人识别的概念 |
2.1.2 说话人识别的原理 |
2.1.3 说话人识别的性能评估 |
2.2 说话人识别的特征提取 |
2.2.1 说话人识别的特征提取准则 |
2.2.2 常用的特征参数 |
2.2.3 特征参数的评价方法 |
2.2.4 语音信号的分析方法 |
2.2.5 LPCC特征参数提取 |
2.2.6 MFCC特征参数的提取 |
2.3 说话人识别模型 |
2.3.1 说话人识别模型匹配方法 |
2.3.2 高斯混合模型 |
2.3.3 最大似然估计 |
2.3.4 基于GMM的说话人识别系统 |
2.4 小结 |
第3章 小波分析和小波包变换 |
3.1 小波分析 |
3.1.1 小波分析概述 |
3.1.2 母小波 |
3.1.3 连续小波变换 |
3.1.4 离散小波变换 |
3.2 多分辨率分析 |
3.3 小波包变换 |
3.4 常用小波函数 |
3.5 小结 |
第4章 基于小波包变换的特征提取算法 |
4.1 MFCC的缺点 |
4.2 小波包变换 |
4.3 改进的特征参数newMFCC提取过程 |
4.4 频谱重心 |
4.5 newMFCC和频谱重心的提取过程 |
4.6 仿真实验 |
4.6.1 实验设置 |
4.6.2 实验一结果 |
4.6.3 实验二结果 |
4.6.4 实验三结果 |
4.6.5 实验结果分析 |
4.7 小结 |
第5章 基于Teager能量算子的特征提取算法 |
5.1 噪音的处理方式 |
5.2 小波去噪 |
5.3 Teager能量算子 |
5.4 改进的特征参数newMFCC2的提取过程 |
5.5 仿真实验 |
5.5.1 实验设置 |
5.5.2 实验一结果 |
5.5.3 实验二结果 |
5.5.4 实验三结果 |
5.5.5 实验结果分析 |
5.6 小结 |
结论 |
参考文献 |
附录 A 攻读学位期间发表的论文 |
致谢 |
(8)一种低信噪比环境下的基音检测方法(论文提纲范文)
1 形态学滤波器 |
2 小波变换的基音检测算法 |
3 仿真实验与算法性能分析 |
4 结束语 |
(9)基于小波域Teager能量熵的音符起点检测算法研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题研究背景 |
1.2 音符起点检测 |
1.2.1 音符起点检测的定义及意义 |
1.2.2 音符起点检测的发展现状 |
1.3 课题主要研究工作 |
1.4 论文结构安排 |
第二章 音乐信号相关知识 |
2.1 音高 |
2.2 音强 |
2.3 音色 |
2.4 波形包络 |
第三章 音符起点检测特征 |
3.1 基于能量的音符起点检测算法 |
3.1.1 简谐运动能量 |
3.1.2 时域能量 |
3.1.3 Teager能量 |
3.1.3.1 Teager能量算子 |
3.1.3.2 Teager能量算子的抗噪性能 |
3.1.4 对比分析 |
3.2 基于熵的音符起点检测算法 |
3.2.1 信息熵 |
3.2.2 熵在音乐信号处理中的应用 |
3.2.2.1 谱熵 |
3.2.2.2 子带谱熵 |
3.2.3 算法改进 |
3.3 小波域的音符起点检测算法 |
3.3.1 傅里叶变换 |
3.3.2 短时傅里叶变换 |
3.3.3 小波变换的含义 |
3.3.3.1 连续小波变换(CWT)的数学定义 |
3.3.3.2 离散小波变换(DWT)的数学定义 |
3.3.4 小波域中的音符切分 |
第四章 音符起点检测系统 |
4.1 预处理 |
4.1.1 预加重 |
4.1.2 加窗 |
4.1.3 分帧 |
4.2 特征提取 |
4.2.1 特征参数 |
4.2.2 方差 |
4.3 后处理 |
4.4 峰值提取 |
第五章 实验仿真及结果分析 |
5.1 实验数据 |
5.2 性能评价指标 |
5.3 结果分析 |
5.3.1 Teager能量熵 |
5.3.2 小波域的Teager能量熵 |
第六章 总结与展望 |
参考文献 |
发表论文和参加科研情况说明 |
致谢 |
(10)情感语音识别与合成的研究(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
图索引 |
表索引 |
第一章 绪论 |
1.1 课题研究背景与意义 |
1.2 语音感知系统和生成系统 |
1.2.1 激励模型 |
1.2.2 声道模型 |
1.2.3 辐射模型 |
1.2.4 语音信号的数学模型 |
1.3 语音识别技术与语音合成技术的研究现状 |
1.3.1 国内外语音识别技术的现状 |
1.3.2 国内外语音合成技术的现状 |
1.4 本文的研究内容及创新点 |
1.5 论文的结构安排 |
第二章 情感语音基本理论研究 |
2.1 绪论 |
2.2 情感的分类 |
2.2.1 情感维度空间理论 |
2.2.2 离散情感理论 |
2.2.3 基于离散情感的情感维度空间理论 |
2.3 情感语音特征分析 |
2.3.1 短时平均过零率 |
2.3.2 短时平均能量 |
2.3.3 基音频率 |
2.3.4 共振峰 |
2.4 情感语音识别模型 |
2.4.1 隐马尔科夫模型(HMM) |
2.4.2 人工神经网络(ANN) |
2.4.3 混合高斯模型(GMM) |
2.4.4 主元素分析法(PCA) |
2.4.5 矢量分隔型马氏距离判别法 |
2.4.6 支持向量机(SVM) |
2.5 情感语音合成研究 |
2.6 本章小结 |
第三章 情感语音库 |
3.1 引言 |
3.2 TYUT情感语音数据库的建立 |
3.2.1 情感语音数据库建立的基本原则 |
3.2.2 情感及情感语句的选择 |
3.2.3 语音的采集 |
3.2.4 情感语句的有效性分析 |
3.3 Berlin(EMO-DB)情感语音数据库 |
3.4 其它情感语音数据库简介 |
3.5 本章小结 |
第四章 多种语音情感识别特征对情感语音库有效性的验证 |
4.1 引言 |
4.2 基本特征简介 |
4.2.1 LPCC特征 |
4.2.2 MFCC特征 |
4.2.3 LPMCC特征 |
4.2.4 ZCPA特征 |
4.2.5 AUSEES特征 |
4.2.6 AUSEEG特征 |
4.3 实验过程及结果分析 |
4.3.1 一种语言的实验 |
4.3.2 混合语音数据库的实验 |
4.4 本章小结 |
第五章 基于人耳听觉特性模型的特征研究及在情感语音识别中的应用 |
5.1 引言 |
5.2 人耳的听觉模型 |
5.3 基于人耳听觉特性的过零峰值幅度(ZCPA)特征及其在情感语音识别中的应用 |
5.3.1 过零峰值幅度特征基本算法 |
5.3.2 过零峰值幅度特征在情感语音识别中的应用 |
5.4 帧优化算法对ZCPA特征的改进 |
5.4.1 帧优化算法基本理论 |
5.4.2 实验步骤 |
5.4.3 实验结果及分析 |
5.5 Teager能量算子特征及在情感语音识别中的应用 |
5.5.1 Teager能量算子 |
5.5.2 Teager能量算子在情感语音识别中的应用 |
5.6 基于人耳听觉特性的过零峰值最大Teager能量算子(ZCMT)特征 |
5.6.1 ZCMT特征原理及提取步骤 |
5.6.2 实验结果及分析 |
5.7 本章小结 |
第六章 声门特征补偿的人耳听觉模型特征研究及在情感语音识别中的应用 |
6.1 引言 |
6.2 声门特征的基本理论 |
6.2.1 语音产生的非线性模型 |
6.2.2 典型的声门特征及基音周期的提取 |
6.3 一种声门特征补偿的人耳听觉模型特征 |
6.3.1 声门特征对于人耳听觉模型特征的影响 |
6.3.2 人耳听觉补偿算法 |
6.3.3 声门特征补偿的人耳听觉模型特征在情感语音识别中的应用 |
6.3.4 实验结果及分析 |
6.3.5 本文所有特征在情感语音识别实验的结果比较 |
6.4 本章小结 |
第七章 基于隐马尔科夫模型的语音合成与情感语音合成 |
7.1 引言 |
7.2 基于HMM的语音合成系统 |
7.2.1 基于HMM的语音合成系统的基本结构 |
7.2.2 基于HMM的语音合成系统实验平台的搭建 |
7.2.3 实验结果及分析 |
7.3 基于HMM的情感语音合成系统的实现 |
7.3.1 基于HMM的情感语音合成系统的基本结构 |
7.3.2 实验结果及分析 |
7.4 本章小结 |
第八章 总结与展望 |
8.1 总结 |
8.2 展望 |
参考文献 |
致谢 |
攻读博士期间已发表的学术论文 |
攻读博士期间的科研工作及成果 |
四、基于小波变换和Teager能量算子浊音段提取(论文参考文献)
- [1]基于声音传感器的目标识别技术研究[D]. 查琳. 沈阳理工大学, 2020(08)
- [2]机载环境下的语音识别关键技术的研究[D]. 吴鹏. 安徽工业大学, 2019(02)
- [3]低信噪比环境下语音端点检测方法的研究[D]. 夏令祥. 中国矿业大学, 2019(09)
- [4]基于多特征融合的语音端点检测方法研究[D]. 朱春利. 上海大学, 2019(03)
- [5]语音情感特征提取及其降维方法综述[J]. 刘振焘,徐建平,吴敏,曹卫华,陈略峰,丁学文,郝曼,谢桥. 计算机学报, 2018(12)
- [6]改进的跨语种说话人确认方法的研究[J]. 朱虹,金小峰. 延边大学学报(自然科学版), 2017(02)
- [7]基于小波包变换的说话人识别特征参数提取算法研究[D]. 王磊. 湖南大学, 2014(04)
- [8]一种低信噪比环境下的基音检测方法[J]. 王耀琦,王小鹏,张忠林. 铁道学报, 2012(02)
- [9]基于小波域Teager能量熵的音符起点检测算法研究[D]. 冯亚楠. 天津大学, 2012(08)
- [10]情感语音识别与合成的研究[D]. 孙颖. 太原理工大学, 2011(10)