一、语音识别技术研究(论文文献综述)
段杰鹏[1](2021)在《面向语音识别应用的开源软件演化技术研究》文中研究指明开源软件社区的出现,为软件开发提供了丰富的可参考原型资源,无论从软件技术原型到机器学习模型等等。然而,这些原型资源往往依赖具体应用背景和计算环境,很难适应个性化需求,如何有效利用这些开源原型是一个新的挑战。本文结合语音识别应用,研究如何利用软件演化技术解决开源语音模型自适应问题。利用反射机制,动态感知环境变化和语音识别需求的变化,并对开源软件进行自适应调整,以便满足个性化语音识别应用需求。研究中提出了模型驱动和数据驱动演化算法,以解决语音识别精度要求变化和语音模型环境变化引起的语音识别模型演化的个性化问题。以乒乓球技战术采集语音识别系统应用为案例,检验上述提出算法的有效性。设计并开发了一个乒乓球技战术采集语音识别原型系统,采用模型库、方法库和数据库体系结构,在方法库中不同方法的驱动下完成模型驱动和数据驱动的语音识别自适应过程。
李泽瑞[2](2021)在《基于RNN-Transducer的端到端长时语音识别模型研究及系统实现》文中研究表明随着计算机科学技术的快速发展,人们对人机自由交互的需求日益增大,语音识别技术作为实现人机智能交互的重要技术之一,迅速成为了研究的热点。在深度学习的影响下,端到端语音识别系统在减化语音识别复杂流程的同时,其性能逐渐超过传统算法。但是当前端到端语音识别技术依然面临一些问题与难点:(1)端到端语音识别模型语言建模能力不足;(2)模型对长时语音识别的泛化能力和鲁棒性较差;(3)算法模型参数量大及时间和空间复杂度高。针对以上问题,本文对长时语音识别和语音模型压缩技术展开研究,主要工作如下:1.提出融合语言模型的RNN-Transducer模型。针对端到端语音识别模型无法有效整合语言模型进行联合优化,语言建模能力不足的问题,本文提出了融合语言模型的RNN-Transducer 模型。首先为 RNN-Transducer 预测网络增加语言建模辅助任务,使用多任务学习联合优化方法帮助模型训练。然后利用知识蒸馏算法将外部语言学知识传递给预测网络语言模型,在训练过程中将语言模型集成到RNN-Transducer模型中,进一步提升模型的语言建模能力。经实验证明,本文所提算法可以更好地学习文本信息,并且保证了模型的端到端地训练优化,降低模型字符错误率约1个百分点。2.提出长时音频语音识别算法。针对长时语音识别场景中模型鲁棒性较差的问题,本文提出了长时音频语音识别算法。首先,提出跨句上下文模块用于保留跨句子的历史上下文语义信息,使模型可以更好地学习会话级别的语境信息,提升长时语音识别的性能。然后采用初始化隐层状态的训练方式在训练过程中模拟长时语音训练,提高了模型的识别准确率。经实验表明,本文所提算法在合成长时语音数据上取得了出色的识别准确率,在短句和长句测试集上识别错误率相差不超过1个百分点,有效地提高模型对于长时语音识别场景的泛化能力与鲁棒性。3.提出基于互学习的序列级别知识蒸馏算法。针对语音识别模型参数量大且计算复杂度高的问题,本文提出了基于互学习的序列级别知识蒸馏算法。结合知识蒸馏算法,采用多个不同结构学生模型间的相互学习,引入模型之间的多样性,学习其结构差异性来实现互补,以将老师模型中更多丰富且正确的信息传递给学生模型,进一步提升学生模型的性能。经实验表明,本文所提出的算法可以有效地减少模型参数量及计算复杂度,同时保证语音识别任务的性能,达到了两者较好的平衡。综上所述,本文提出了一种可行、鲁棒、快速的语音识别方法,有效地缓解了端到端模型“语言建模能力不足”、“长时语音识别鲁棒性和泛化能力较差”、“模型参数量大及计算复杂度高”等问题。最后,在本文研究内容的基础上,设计并实现了一个语音识别演示系统。
高茹洁[3](2021)在《政务资讯平台语音信号处理方法研究与实现》文中提出随着国家对“智慧政务”的关注和人工智能的迅猛发展,使人们对政务资讯平台的时、度、效提出了更高的要求。政务资讯平台的运营维护需要大量的文字输入,手动拼音输入法严重影响汉字的输入速度,进而影响相关的工作进程。而语音识别技术作为一种可以取代传统拼音输入的技术,其具有的精准度和时效性在政务资讯平台中具有较大的应用潜力。目前将语音识别技术应用于政务资讯平台的应用系统研究尚不成熟,因此,本文研究政务资讯平台中语音信号处理方法及其实现。针对政务资讯平台语音信号处理的功能需求,本文重点研究政务资讯平台语音信号处理方法及其实现,特别是对语音增强算法、端点检测算法以及语音识别算法进行了研究和分析。根据作者实际工作情况采用了具有针对性的语音信号处理方法,同时完成了政务资讯平台语音信号处理软件的实现与测试。首先,本文采用谱减法对输入的含噪语音信号进行增强,从而提高信号的信噪比。然后,针对传统双门限端点检测算法存在信号漏检的问题,采用一种改进的双门限端点检测算法,有效解决信号漏检问题。之后,利用基于听觉感知频率的语音信号MFCC系数提取语音信号特征。最后针对BP神经网络语音识别算法中存在的局部最优解问题,研究利用粒子群优化的BP神经网络,通过粒子群对网络层内部层与层连接的权值和阈值进行优化,从而降低运行时间并提高了识别准确率。在此基础上,进一步研究了政务资讯平台语音信号处理的软件实现方法,利用Python环境实现了本文提出的语音处理方法,并对相关功能模块进行了测试。测试结果表明,本文采用的方法能够较好的实现政务平台语音识别功能。
闫晓辉[4](2021)在《智能语音处理技术在空间环境预报业务中的研究与应用》文中提出空间环境与人类的生产生活方式密切相关,空间环境的状态对通讯、卫星导航以及航天活动等都有重要的影响。为减少和避免空间环境灾害对人类造成的损失,空间环境预报已具有不可撼动的地位。空间环境预报对可能造成空间环境效应的事件进行及时预警,为不同飞行任务的空间环境安全提供保障服务。随着空间科学的不断深入,空间环境预报的作用日益增强,空间环境领域内不同任务的完成需要使用的软件日益增多,而程序化逐步进行不可跨越的预报工作执行顺序以及鼠标键盘等传统图形化操作对人机交互方式提出了新的要求,追求简便快捷更加高效的人机交互方式是空间环境领域内开拓创新的良好方向。语音识别研究如何利用计算机从人的语音信号中提取有用信息并确定其语言含义,借助语音识别技术可以实现功能命令的由语音输入到命令的自动执行,具有解放双手、提升效率、自然便捷等优点。随着语音识别技术的不断发展,移动设备、电子商务、车载系统等领域普遍实现语音识别技术的应用,而在空间环境领域尚无语音识别应用的出现,将语音识别技术应用到空间环境软件系统中,是提升领域内软件系统人机交互效率的新型且必要手段。本文通过分析空间环境预报工作模式以及空间环境领域软件系统的操作方式现状,提出了建立基于语音处理交互技术的智能化空间环境系统的思想。针对空间环境预报高效交互方式的需求,提出了将语音识别、语义处理及进程通信技术应用到空间环境预报业务中的智能化空间环境预报技术系统架构。通过搭建基于讯飞语音识别的空间环境预报原型系统,实现了语音交互技术在空间环境预报业务中的应用,证明了语音处理技术在提升空间环境预报人机交互效率方面的有效性。论文的主要研究内容及成果如下:(1)空间环境预报业务中语音识别技术的研究与实现。在充分比较不同语音识别开放接口的基础上,采用讯飞语音识别开放平台作为本文语音识别的基础,并对此进行扩充与改进,建立空间环境预报业务中用户语音输入的语法规则,增加预报指令文本纠错功能,提升讯飞语音识别在空间环境预报业务中的适用性及结果的准确率。(2)空间环境预报业务中语义处理技术的研究与实现。在充分调研文本语义处理相关技术的基础上,采用Python中文分词库Jieba分词系统对识别文本进行分词及关键词的提取,提出了空间环境预报工作中三类用户指令的语义匹配关联分析方法,定义了语义处理过程中用于进行关联匹配的关键词匹配度Kd值的计算公式,为后续进程通信参数的确立及预报工作的执行奠定了基础。(3)空间环境预报业务中进程通信技术的研究与实现。以Win32中进程通信方式为基础,根据空间环境预报命令特点,提出了空间环境预报用户指令与对应功能函数进行映射的方法。(4)空间环境预报原型系统的设计与实现。搭建智能化空间环境预报原型系统,将语音识别、语义处理及进程通信技术组合,实现了语音指令控制原型系统自动执行命令并显示结果的全过程,并结合实例进行系统的验证。
刘美娟[5](2021)在《基于注意力机制的音视频双模态语音识别技术研究》文中认为语音识别是人工智能、机器学习等领域中非常重要的一门技术,得到了越来越广泛的研究,越来越多的语音产品也投入到使用中,给生活带来了便利。但在面对复杂环境时,如多人背景、声音混杂或缺失等,语音识别技术还有待进一步提升。视频信息的加入,可以使语音识别有效的应对更复杂的环境,越来越多的专家学者们也投入到音视频双模态语音识别(Audio-Video Bimodal Speech Recognition,AVSR)技术研究中。AVSR相较于单一模态下的语音识别有了很大的提升,可以有效解决单一模态下的不足,如音频语音识别(Audio Speech Recognition,ASR)在噪声污染严重情况下的性能大幅度下降,视频语音识别(Video Speech Recognition,VSR)存在着同音异议词的不确定性,这在双模态下都可以得到弥补,但同时AVSR也存在着更大的挑战。一方面,声学语音有性能良好的特征-梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC),但视觉信息的特征则比较多元化,哪些视觉特征有助于语音识别性能的提升,与MFCC相匹配是一个难点。另一方面,音频和视频的速率不匹配、信息长度不相同,如何有效的进行信息融合也是非常具有挑战性的。因为VSR的准确率在大多数情况下是低于ASR的,不恰当的融合反而会降低原本的结果。针对上述两个难题,本文对AVSR模型中的关键技术进行了研究,包括特征提取、信息融合以及分类识别等,并在这两个难题上提出了可行的创新性方法,其主要工作包含以下几个方面:1、提出了一种基于图滤波的图像去噪改进算法,提升了视频图像的质量,为提取到鲜明有辨别性的视频特征做好了准备工作。首先根据图像像素间的关联属性,构建权值矩阵,然后结合图拉普拉斯矩阵进行图傅里叶变换,并利用信号先验知识得到频域滤波公式,接着我们对公式进行了探究,提出了更通用的滤波公式,并对公式进行优化,来提升图像的质量。对比维纳滤波、高斯滤波以及基本的频域滤波方法,本文的方法实现了更好的去噪效果。接着,我们设计了残差网络(Residual Network,ResNet)架构来提取视频特征,因为对比于其它网络,如卷积神经网络(Convolutional Neural Networks,CNN),ResNet 可以设计的更深,提取到更高层次的特征。2、设计了一种基于注意力机制的AVSR模型,兼顾了特征的前期和后期融合,提升了信息融合的有效性。在方法设计中,首先在编码部分,通过一个注意力机制将神经网络输出的音频和视频信息进行对齐修正,得到修正后的音频特征,实现特征的前期融合。然后在解码阶段,使用两个独立的注意力机制,一个用于视频特征,一个用于修正后的音频特征,经过各自注意力机制后的两个特征向量再进行后期的拼接融合,共同决定最终的识别。注意力机制的巧妙使用,有效解决了音频和视频速率不匹配、信息长度不相同等带来的信息融合难题。视频信息在特征前期和后期的两次辅助,有效提升了模型在噪声下的识别结果,增加了模型对噪声的鲁棒性。通过实验数据分析发现,视频信息的过多参与也会使干净情况下的语音识别性能下降,对于是否需要视频信息的前期或后期融合,本文提出了基于信噪比(Signal-To-Noise Ratio,SNR)估计的模型选择方法,它利用了不同模型的优势,可以应对不同环境下的识别任务。3、整个研究过程中,并不局限于本文所提出的AVSR模型,还包括了 ASR、VSR、特征后期融合的语音识别模型。我们在公开的数据库GRID上进行了实验,并探究了音频在不同噪声污染情况下,视觉信息对语音识别的影响。相比于单一模态,本文提出的双模态语音识别模型性能得到了提升,不仅在噪声污染严重的情况下取得更好的识别结果,在声音信号相对干净的情况下也取得了很好的结果。对比其他在GRID数据库上的实验,本文提出的模型也取得了一定性能上的提升。而且模型是分模块化设计的,方便应用与移植。
巫两璟[6](2021)在《基于CLDNN混合模型的中文语音识别系统》文中研究指明目前语音识别技术中运用较成熟的高斯混合-隐马尔科夫模型(Gauss MixedModel and Hidden Markov Model,GMM-HMM),其结构简单,实现方便,小数据下训练速度较快。但随着语料库的增大,及语音识别精度的要求变高,GMM-HMM难以穷举所有的文字关系,导致其对数据的适应性差,识别效果不够好,且传统模型使用解析语音的音素信号序列与对应文字进行训练,需对齐语料语音与文字标签,以上弊端使GMM-HMM等传统模型难以满足需求。针对上述问题,本文基于卷积长短时记忆深度网络(Convolutional Long stortterm Deep Nerual Network,CLDNN),对传统模型提出了三种改进方案。第一,针对该模型需要对齐输入输出标签,统一对齐输入信号长度,每次输入均完整输入整段语音,只需要整段文字对应的文字标签,并与连接时序分类(Connectionist Temporal Classfication,CTC)结合。第二,针对该模型在应用上述改进后适应性不足的问题,用深层CNN代替浅层CNN,可提取更高级的特征提供给后续层,更适应中文语音识别任务应用场景。第三,针对该模型中双层相关联的LSTM复杂且无法获得下文信息的问题,采用门控循环单元(Gated Recurrent Unit,GRU)简化和加强LSTM层,两层相关联但方向不同的GRU组成的双向GRU(Bi-directional GRU,BiGRU)能在一个时刻同时获得上下文信息,有更强的时序反馈能力。为了验证三种改进方案的有效性,本文以传统的CLDNN模型作为基准,设计实验进行验证,与单独添加三种改进方案后的模型、需要对齐标签的传统GMMHMM模型,以及主流Deep CNN-CTC模型进行对比。实验结果证明了改进的CLDNN-CTC模型在准确性与无需标签对齐上的优越性。最后,本文基于浏览器-服务器架构,应用三种改进后的CLDNN混合模型,构建了中文语音识别系统。其主要功能包括语音识别、纠正词典、识别记录查询等,用户可以在浏览器上使用该系统进行语音识别,并对识别结果进行修改、保存和反馈,还可以添加特殊词到纠正字典,服务器会重新对识别结果查错,并根据纠正词典对错误进行修正,提高识别准确率。为了检验系统实际应用效果,本文对系统的纠正词典及语音识别功能进行了测试。测试结果表明系统的纠正词典以及语音识别功能达到预期效果,具有较好的鲁棒性及泛化能力。
杨学斌[7](2021)在《低资源的维吾尔语语音识别系统设计与实现》文中进行了进一步梳理在语音识别中,称训练语音时长30小时以下的语音识别系统为低资源语音识别系统。低资源的语音识别效果较差,原因是缺少了足够的训练数据,导致声学模型训练效果不好。本文主要研究低资源下的维吾尔语语音识别系统,引入了迁移学习来解决低资源下的语音识别声学建模问题。维吾尔语属于阿尔泰语系,对于迁移学习来说,在同语系中的迁移效果最好,但是阿尔泰语系其他语音语料没有开源,所以本文将大语量的英语和汉语作为源语料进行迁移学习实验,得到了如下的研究结果:1、将本文构建的英语声学模型隐藏层与汉语声学模型隐藏层到维吾尔语声学模型隐藏层进行迁移,研究结果表明两者在低资源的维吾尔语声学建模中均有效果。2、在已有的fine-tuning迁移与权重迁移实验方法上,提出了针对低资源维吾尔语声学建模的fine-tuning迁移与权重迁移实验方法。并分别采用了提出的fine-tuning迁移方法与权重迁移方法来进行英语与汉语到维吾尔语的迁移学习实验,实验结果表明fine-tuning迁移方法效果良好,而用权重迁移方法迁移层数多时效果较好,迁移层数少时没有效果。3、本文将MPE与x Ent训练方法引入了低资源的维吾尔语声学建模实验中,实验结果表明MPE方法优于x Ent方法。4、经过众多实验,最终得到了性能最好的声学模型,即使用权重迁移方法对汉语声学模型的隐藏层迁移前5层,实验结果的WER为18.75%。在进行声学建模的实验之后,本文利用实验结果最优的声学模型与开源的3-gram语言模型搭建了一个完整的维吾尔语语音识别系统。
王伟喆[8](2021)在《基于语谱特征的藏语语音识别的研究》文中认为自动语音识别是将语音序列转换为文本序列,是实现人机交互的关键技术。当前,随着人工智能的发展,汉语、英语、日语等主流语言的研究以及语音识别技术已经很成熟。但藏语作为一种少数民族语言,没有大规模的语料库,语言学研究基础薄弱,导致藏语语音识别技术比较落后,实际应用较少。针对藏语语音识别中存在的问题,本文设计并建立了藏语发音词典、语料库、语言模型,重点对藏语语音声学特征的提取以及语音识别模型的构建进行研究。本文的主要工作和创新点如下:1.设计并建立藏语发音词典、语音识别语料库和语言模型。通过对藏语语言学知识以及藏语音节特点的分析,以藏语拼音的声母和韵母作为识别基元来构建藏语卫藏方言语料库,并建立了藏语发音词典和藏语语言模型。建立的语料库包含18000条数据,总时长达11.26小时,共有说话人20位,其中男性说话人8人,女性说话人12人,发音词典包含16398个词。2.构建混合架构的藏语语音识别模型。提取藏语语音梅尔频率倒谱系数构建隐马尔科夫模型(Hidden Markov Model,HMM)、深度神经网络(Deep Neural Network,DNN)、卷积神经网络(Convolutional Neural Network,CNN)和长短时记忆网络(Long Short-term Memory,LSTM)的藏语语音识别模型,并进行实验验证。结果表明,GMM-HMM、DNN-HMM,CNN-HMM,LSTM-HMM四种模型在相同实验环境下,词错误率分别为35.58%,33.38%,31.61%,25.35%,并以此作为基线模型,与下文建立的基于语谱特征的端到端藏语语音识别模型识别效果进行对比。3.建立基于语谱特征的端到端藏语语音识别模型,并通过数据增强提升模型的识别率和泛化性能。通过快速傅里叶变换将语音转换为语谱图,并使用该特征训练端到端模型。在同样的实验环境下,该模型的词错误率达到34.72%,优于GMM-HMM模型。针对端到端模型在小语料库中识别率低的问题,本文通过加噪对数据进行增强,实验表明,数据增强后模型的词错误率降低6.19%,模型的性能优于DNN-HMM、CNN-HMM模型,且在自然环境中具有更强的泛化性。同时,本文的研究结果优于实验室前人的研究结果。
李秘[9](2021)在《基于语音和肢体动作的无人机人机交互技术的研究》文中认为近年来,无人机被应用到各行各业,深受普通民众的喜爱,无人机也逐渐朝着智能化的方向发展。在无人机智能化的方向中,通过人机交互的方式来控制无人机的飞行也是一个重要的研究方向。现在智能化人机交互的方式也主要以语音识别和动作识别为主,本文就是研究将语音识别技术和动作识别技术应用到无人机的飞行控制中去。在动作识别任务中,主要分为基于视频的动作识别和基于骨架数据的动作识别,考虑到骨架数据中数据量更小,模型训练的花费更小一些,所以本文的研究基于骨架数据进行的。骨架数据主要是由Open Pose姿态估计算法从视频文件中提取而来,然后再用时空图卷积神经网络(ST-GCN)进行动作识别。在本文中自主设计了用于无人机飞行控制的动作数据集,再结合迁移学习来优化模型在自主数据集上学习不佳的问题。在语音识别任务中,针对传统的MFCC、Fbank等特征在做转换时会有信息损失,本文采用保留更多原始信息的语谱图作为声学特征表示,再利用CNN网络的平移不变性来提取声纹特征和双向GRU网络来学习语音信号上下文中的时序信息,用CTC做为损失函数实现一个端到端的语音识别模型。最后设计了基于语音识别和动作识别的无人机人机交互系统。本系统首先通过关键词语音唤醒系统,然后语音识别系统和动作识别系统才开始工作进行识别,将识别出的指令发送给无人机完成响应。针对连续输入的语音流信号,采用端点检测的方式提取只包含人声部分的语音片段进行识别;针对连续输入的视频流采用滑动窗口的方式截取视频段进行动作识别。最后在Air Sim仿真环境中进行仿真验证,并取得不错的实验效果。
杨晓东[10](2021)在《在线藏语语音识别系统的研究》文中指出在线语音识别是语音处理与应用的重要研究领域之一,近年来,随着网络与通信技术的不断发展,越来越多的技术应用于在线领域,语音识别作为一种重要的人机交互技术越来越得到重视。目前,主流语言如英语、汉语、日语等语言的研究与应用已经很成熟,也有容易获取的大数据量语料库。但是藏语识别方向还存在一些有待解决的问题,藏语作为一种低资源语言,语料库的录制也存在一些困难。基于藏语识别方向研究人数较少,研究基础较为薄弱,实际应用较少的现状,本文从以下三个方面开展研究工作:1.通过研究基于端到端语音识别的建模方法,进行实验对比CNN-CTC、LSTM-CTC、Transformer模型在藏语识别上的性能,在相同实验环境下三种模型的词错率分别达到了32.6%、30.6%和29.3%,实验结果表明在藏语识别任务中Transformer模型的性能最好。对于端到端语音识别在小语料库中识别率低的问题,本文引入Specaugment语音增强算法对原有语音数据进行增强,在引入语音增强算法后,实验结果表明三种模型的词错率分别降低到了28.1%、26.1%和25.3%。2.本文通过对在线藏语识别系统进行需求分析,结合语音识别技术和网页开发技术完成了在线藏语语音识别系统的框架设计。搭建了基于B/S架构的Web在线藏语语音识别系统,实现了基于Web的在线藏语识别,总结并分析了在线藏语语音识别系统的实现方法和设计方案。3.为了验证在线藏语识别系统的可靠性,本文搭建测试环境,对在线藏语识别系统各个模块分别进行功能测试,通过对运行结果的分析和对比,验证系统功能能否正常运行。
二、语音识别技术研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、语音识别技术研究(论文提纲范文)
(1)面向语音识别应用的开源软件演化技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 研究现状 |
1.3 主要研究内容 |
1.4 研究方法与技术 |
1.5 本文组织结构 |
第二章 相关理论与技术 |
2.1 开源语音识别系统 |
2.2 软件演化技术 |
2.2.1 C2体系结构风格与动态演化 |
2.2.2 计算反射 |
2.2.3 中间件 |
2.2.4 再工程 |
2.3 模型库决策支持 |
2.4 语音识别技术 |
2.5 神经网络 |
2.6 乒乓球技战术语言 |
2.7 本章总结 |
第三章 需求驱动的开源语音识别系统演化算法研究 |
3.1 模型驱动演化 |
3.1.1 演化模型 |
3.1.2 模型驱动演化算法 |
3.2 数据驱动演化 |
3.2.1 演化模型 |
3.2.2 数据驱动演化算法 |
3.3 实验验证与分析 |
3.3.1 应用案例介绍 |
3.3.2 实验环境介绍 |
3.3.3 模型驱动演化实验分析 |
3.3.4 数据驱动演化实验分析 |
3.4 本章总结 |
第四章 软件原型实现 |
4.1 语音识别辅助乒乓球技战术采集系统设计 |
4.1.1 再工程 |
4.1.2 反射式中间件 |
4.1.3 数据字典 |
4.2 演化算法实现 |
4.3 原型系统测试 |
4.4 本章总结 |
第五章 结论与展望 |
5.1 结论 |
5.2 展望 |
参考文献 |
在学期间的研究成果 |
致谢 |
(2)基于RNN-Transducer的端到端长时语音识别模型研究及系统实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 选题研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 语音识别技术 |
1.2.2 模型压缩技术 |
1.3 论文主要研究内容及创新点 |
1.4 论文结构与内容安排 |
第二章 语音识别与模型压缩相关理论 |
2.1 语音识别关键技术 |
2.1.1 传统语音识别技术 |
2.1.2 端到端语音识别模型 |
2.2 模型压缩关键技术 |
2.2.1 帧级别知识蒸馏 |
2.2.2 序列级别知识蒸馏 |
2.3 实验数据集 |
2.3.1 中文数据集 |
2.3.2 英文数据集 |
2.3.3 合成长时语音数据集 |
2.4 相关评价指标 |
2.4.1 语音识别性能评价指标 |
2.4.2 模型压缩评价指标 |
2.5 本章小结 |
第三章 融合语言模型的RNN-Transducer模型 |
3.1 融合语言模型的RNN-Transducer模型 |
3.1.1 多任务学习联合优化 |
3.1.2 融合语言模型的端到端网络框架 |
3.2 实验结果与分析 |
3.2.1 实验设置与模型结构 |
3.2.2 多任务学习联合优化实验结果与分析 |
3.2.3 融合语言模型实验结果与分析 |
3.2.4 对比实验结果与分析 |
3.3 本章小结 |
第四章 长时音频语音识别算法 |
4.1 长时音频语音识别算法 |
4.1.1 跨句上下文模块 |
4.1.2 模拟长时音频训练 |
4.2 实验结果与分析 |
4.2.1 实验设置与模型训练 |
4.2.2 跨句上下文模块实验结果与分析 |
4.2.3 模拟长时音频训练实验结果与分析 |
4.2.4 对比实验结果与分析 |
4.3 本章小结 |
第五章 基于互学习的序列级别知识蒸馏算法 |
5.1 基于互学习的序列级别知识蒸馏算法 |
5.1.1 相互学习算法 |
5.1.2 基于互学习的知识蒸馏框架 |
5.2 实验结果与分析 |
5.2.1 实验设置与模型结构 |
5.2.2 TIMIT数据集实验结果与分析 |
5.2.3 LibriSpeech数据集实验结果与分析 |
5.2.4 模型参数量及计算量对比 |
5.2.5 RNN-Transducer模型压缩 |
5.3 本章小结 |
第六章 语音识荆系统设计与实现 |
6.1 系统设计 |
6.2 系统实现 |
6.3 系统运行效果 |
6.4 本章小结 |
第七章 总结与展望 |
7.1 工作总结 |
7.2 展望 |
参考文献 |
致谢 |
攻读学位期间取得的研究成果 |
(3)政务资讯平台语音信号处理方法研究与实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 论文主要研究内容及结构安排 |
第二章 政务资讯平台语音信号处理应用分析 |
2.1 政务资讯平台语音信号处理概述 |
2.2 政务资讯平台语音信号处理基本流程 |
2.2.1 语音增强 |
2.2.2 预处理 |
2.2.3 特征参数提取 |
2.2.4 语音识别 |
2.3 本章小结 |
第三章 政务资讯平台语音信号处理方法研究 |
3.1 基于谱减法的语音增强 |
3.2 基于改进双门限端点检测的语音信号预处理 |
3.2.1 改进的双门限端点检测算法 |
3.2.2 仿真及结果分析 |
3.3 基于MFCC系数的语音信号特征参数提取 |
3.4 基于粒子群优化BP神经网络的语音识别算法 |
3.4.1 BP神经网络算法原理 |
3.4.2 粒子群优化算法原理 |
3.4.3 基于粒子群优化的BP神经网络算法原理 |
3.4.4 仿真及结果分析 |
3.5 本章小结 |
第四章 政务资讯平台语音信号处理实现研究 |
4.1 政务资讯平台中语音信号处理软件设计与实现 |
4.1.1 政务资讯平台语音信号处理软件实现概述 |
4.1.2 政务资讯平台常用词汇语音数据库设计 |
4.1.3 政务资讯平台语音信号处理人机交互界面的设计与实现 |
4.1.4 政务资讯平台语音信号处理离线模式的设计与实现 |
4.1.5 政务资讯平台语音信号处理在线模式的设计与实现 |
4.2 政务资讯平台语音信号处理软件的功能测试 |
4.2.1 政务资讯平台语音信号处理软件基本需求 |
4.2.2 政务资讯平台语音识别测试语音数据库构建 |
4.2.3 语音增强模块功能测试 |
4.2.4 语音信号预处理模块功能测试 |
4.2.5 语音信号特征信息提取模块功能测试 |
4.2.6 语音识别模块功能测试 |
4.2.7 语音信号处理软件性能分析 |
4.3 本章小结 |
第五章 总结与展望 |
5.1 论文总结 |
5.2 展望 |
参考文献 |
附录 部分代码 |
致谢 |
(4)智能语音处理技术在空间环境预报业务中的研究与应用(论文提纲范文)
摘要 |
abstract |
第1章 引言 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 语音识别技术 |
1.2.2 空间环境预报业务 |
1.3 研究目标及内容 |
1.4 论文组织结构 |
第2章 空间环境预报业务中的语音识别技术 |
2.1 语音识别理论 |
2.1.1 语音识别概念 |
2.1.2 语音识别的基本原理 |
2.1.3 语音识别的工作流程 |
2.1.4 语音识别系统影响因素及解决办法 |
2.2 讯飞开放平台的语音识别技术 |
2.2.1 语音识别开发工具现状 |
2.2.2 讯飞语音识别功能组成 |
2.2.3 讯飞语音识别SDK接口介绍 |
2.2.4 讯飞语音识别SDK项目集成步骤 |
2.2.5 讯飞语音识别SDK API调用流程 |
2.3 讯飞语音识别在空间环境预报业务中的应用 |
2.3.1 空间环境预报业务中用户语音输入的语法规范 |
2.3.2 语音识别在空间环境预报业务中的文本纠错 |
2.4 本章小结 |
第3章 空间环境预报业务中的语义处理 |
3.1 自然语言处理 |
3.1.1 自然语言处理概念 |
3.1.2 自然语言处理方法 |
3.1.3 自然语言处理研究内容 |
3.2 文本分词 |
3.2.1 Python结巴分词系统 |
3.2.1.1 Jieba分词介绍 |
3.2.1.2 Jieba分词原理 |
3.2.1.3 Jieba分词过程 |
3.2.2 空间环境预报中的分词实现 |
3.2.2.1 自定义用户词典 |
3.2.2.2 基于用户词典的分词 |
3.2.3 关键词提取 |
3.3 语义处理 |
3.3.1 语义处理关联分析 |
3.3.2 功能函数映射 |
3.4 本章总结 |
第4章 空间环境预报业务中的进程通信 |
4.1 进程通信 |
4.1.1 进程及进程通信概念 |
4.1.2 进程通信方式 |
4.1.3 基于WM_COPYDATA的进程通信 |
4.2 进程通信技术在空间环境预报业务中的应用 |
4.2.1 空间环境预报业务中的WM_COPYDATA消息 |
4.2.2 进程通信函数映射过程 |
4.2.3 界面跳转映射过程 |
4.3 本章总结 |
第5章 空间环境预报原型系统的设计和实现 |
5.1 空间环境预报工作模式及预报系统 |
5.2 原型系统架构及功能介绍 |
5.3 系统设计与实现 |
5.3.1 开发环境 |
5.3.2 预报原型系统中用户语音输入语法规则 |
5.3.3 智能化空间环境预报系统的实现 |
5.4 本章总结 |
第6章 总结与展望 |
参考文献 |
致谢 |
作者简历及攻读学位期间发表的学术论文与研究成果 |
(5)基于注意力机制的音视频双模态语音识别技术研究(论文提纲范文)
中文摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 音频单模态语音识别技术研究现状 |
1.2.2 视频单模态语音识别技术研究现状 |
1.2.3 音视频双模态语音识别技术研究现状 |
1.3 本文的研究内容和结构安排 |
第二章 语音识别的深度学习技术基础与理论 |
2.1 深度学习神经网络 |
2.1.1 循环神经网络 |
2.1.2 长短时记忆网络 |
2.1.3 门控循环单元 |
2.1.4 残差网络 |
2.2 神经网络常用函数 |
2.2.1 激活函数 |
2.2.2 Softmax函数 |
2.3 注意力机制 |
2.3.1 注意力机制算法 |
2.3.2 注意力机制在语音识别中的应用 |
2.4 本章小结 |
第三章 音视频双模态语音识别预处理 |
3.1 数据集 |
3.2 音频信号的预处理 |
3.2.1 音频信号的谱减法去噪 |
3.2.2 音频信号的端点检测 |
3.2.3 音频信号的预加重 |
3.2.4 音频信号的加窗分帧 |
3.2.5 音频信号的梅尔频率倒谱系数 |
3.3 视频信号的预处理 |
3.3.1 基于图滤波的图像去噪算法 |
3.3.2 算法性能分析 |
3.3.3 图像人脸的检测对齐算法 |
3.4 本章小结 |
第四章 基于注意力机制的音视频双模态语音识别模型 |
4.1 基本思想和整体框架 |
4.2 双模态语音识别模型实现 |
4.2.1 模型输入 |
4.2.2 音频和视频编码 |
4.2.3 音视频双模态解码 |
4.2.4 模型优化算法 |
4.2.5 模型选择机制 |
4.3 实验设置 |
4.3.1 数据处理 |
4.3.2 模型设置 |
4.3.3 模型训练 |
4.3.4 性能评价指标 |
4.4 实验结果与分析 |
4.4.1 模型参数及网络设置实验 |
4.4.2 实验结果比较分析 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 工作总结 |
5.2 工作展望 |
参考文献 |
致谢 |
攻读硕士研究生期间研究成果 |
参与的项目 |
学位论文评阅及答辩情况表 |
(6)基于CLDNN混合模型的中文语音识别系统(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.2 国内外研究历史与现状 |
1.3 本文的主要贡献 |
1.4 本论文的结构安排 |
第二章 语音识别技术与神经网络技术基础 |
2.1 语音识别技术 |
2.1.1 信号预处理与特征提取 |
2.1.2 声学模型 |
2.1.3 语言模型 |
2.2 神经网络基础 |
2.2.1 卷积神经网络 |
2.2.2 循环神经网络 |
2.2.3 连接时序分类 |
2.3 本章小结 |
第三章 改进CLDNN的声学模型及其解码器设计与实验 |
3.1 CLDNN及其分析 |
3.1.1 CLDNN模型 |
3.1.2 模型分析 |
3.2 改进CLDNN模型原理与设计 |
3.2.1 统一语音信号长度 |
3.2.2 卷积神经网络深化 |
3.2.3 长短时记忆网络层的简化与优化 |
3.2.4 总体结构 |
3.3 统计语言模型解码器设计 |
3.3.1 马尔科夫链解码器 |
3.3.2 语言模型的词频统计方法 |
3.4 实验设计与结果分析 |
3.4.1 实验设计 |
3.4.2 实验结果及分析 |
3.5 本章小结 |
第四章 基于改进后CLDNN模型的中文语音识别系统 |
4.1 系统设计与实现 |
4.1.1 总体设计 |
4.1.2 用户信息管理模块 |
4.1.3 语音识别模块 |
4.1.4 纠正词典模块 |
4.1.5 识别记录管理模块 |
4.2 系统测试 |
4.2.1 纠正词典测试 |
4.2.2 语音识别测试 |
4.3 本章小结 |
第五章 全文总结与展望 |
5.1 全文总结 |
5.2 后续工作展望 |
致谢 |
参考文献 |
(7)低资源的维吾尔语语音识别系统设计与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 语音识别技术国内外研究现状 |
1.3 低资源语音识别技术研究现状 |
1.4 研究工作概述 |
1.5 论文组织结构 |
第2章 维吾尔语语音识别与迁移学习相关技术 |
2.1 维吾尔语介绍 |
2.2 语音识别相关技术 |
2.2.1 语音识别流程 |
2.2.2 特征提取 |
2.2.3 声学模型 |
2.2.4 语言模型 |
2.2.5 解码器 |
2.2.6 评价标准 |
2.2.7 训练方法 |
2.3 迁移学习 |
2.4 本章小结 |
第3章 基于DNN-HMM的维吾尔语声学建模 |
3.1 数据集介绍与展示 |
3.2 实验环境 |
3.2.1 硬件环境 |
3.2.2 软件环境 |
3.3 语言模型测试 |
3.4 数据预处理 |
3.5 特征提取过程 |
3.5.1 预加重 |
3.5.2 分帧加窗 |
3.5.3 傅里叶变换 |
3.5.4 Mel滤波器组 |
3.6 GMM-HMM声学模型训练 |
3.6.1 GMM-HMM单音素训练 |
3.6.2 GMM-HMM三音素训练 |
3.7 DNN-HMM基线系统声学建模 |
3.8 语音识别结果对比 |
3.8.1 维吾尔语语音识别过程 |
3.8.2 维吾尔语语音识别结果 |
3.9 本章小结 |
第4章 基于迁移学习的维吾尔语声学建模 |
4.1 使用的迁移学习方法 |
4.1.1 fine-tuning迁移 |
4.1.2 权重迁移 |
4.2 英语与汉语数据集的建立 |
4.3 基于fine-tuning迁移的声学模型建模 |
4.3.1 英语迁移 |
4.3.2 汉语迁移 |
4.4 基于权重迁移的声学模型建模 |
4.4.1 汉语迁移 |
4.4.2 英语迁移 |
4.5 识别结果对比 |
4.6 本章小结 |
第5章 维吾尔语语音识别系统设计与实现 |
5.1 设计概要 |
5.2 系统原理及构成 |
5.2.1 软件系统的设计与实现 |
5.2.2 主界面设计 |
5.2.3 文件选择设计 |
5.2.4 播放音频设计 |
5.2.5 前端与后端交互设计 |
5.2.6 后端解码部分设计 |
5.3 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
(8)基于语谱特征的藏语语音识别的研究(论文提纲范文)
摘要 |
abstract |
第1章 引言 |
1.1 研究背景 |
1.2 研究现状 |
1.2.1 语音识别研究现状 |
1.2.2 藏语语音识别研究现状 |
1.2.3 藏语语音识别存在的问题 |
1.3 研究目的与研究内容 |
1.4 论文结构安排 |
第2章 语音识别基础 |
2.1 语音识别原理 |
2.1.1 语音信号预处理 |
2.1.2 特征提取 |
2.1.3 声学模型 |
2.1.4 语言模型 |
2.1.5 解码 |
2.1.6 语音识别评价指标 |
2.2 深度学习模型原理 |
2.2.1 深度神经网络 |
2.2.2 长短时记忆网络 |
2.2.3 卷积神经网络 |
2.3 本章小结 |
第3章 藏语语料库的构建 |
3.1 语料库设计原则 |
3.2 藏语方言概述 |
3.3 藏语发音词典的建立 |
3.4 藏语语料库的构建 |
3.4.1 文本语料设计 |
3.4.2 语音语料的录制 |
3.4.3 藏语语料库的清洗 |
3.4.4 藏语语料库覆盖分析 |
3.5 文本转写 |
3.6 藏语语言模型的建立 |
3.7 本章小结 |
第4章 基于混合架构的藏语语音识别 |
4.1 混合架构藏语语音识别模型结构 |
4.1.1 基于GMM-HMM的声学模型 |
4.1.2 基于神经网络的声学模型 |
4.2 实验结果及分析 |
4.2.1 实验数据 |
4.2.2 模型配置 |
4.2.3 实验结果及分析 |
4.3 本章小结 |
第5章 基于语谱图特征的藏语语音识别 |
5.1 引言 |
5.2 端到端模型结构 |
5.2.1 特征提取 |
5.2.2 模型训练 |
5.3 数据增强 |
5.4 实验结果与分析 |
5.4.1 实验配置 |
5.4.2 数据增强分析 |
5.4.3 实验数据 |
5.4.4 识别结果及分析 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
个人简历、在学期间发表的学术论文及研究成果 |
(9)基于语音和肢体动作的无人机人机交互技术的研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景及意义 |
1.2 相关工作的国内外研究现状 |
1.2.1 无人机智能化的研究现状 |
1.2.2 动作识别研究现状 |
1.2.3 语音识别研究现状 |
1.3 本文的主要研究内容 |
1.4 本论文的结构安排 |
第二章 动作识别和语音识别相关技术原理 |
2.1 语音识别系统的基本组成原理 |
2.1.1 信号预处理 |
2.1.2 声学特征提取 |
2.1.3 声学模型 |
2.1.4 语言模型 |
2.1.5 解码器 |
2.2 语音识别中的神经网络原理 |
2.2.1 循环神经网络 |
2.2.2 长短期记忆网络 |
2.2.3 门控循环单元 |
2.3 动作识别中的神经网络原理 |
2.3.1 卷积神经网络 |
2.3.2 图卷积神经网络 |
2.4 人体姿态估计算法Open Pose |
2.5 本章小结 |
第三章 基于迁移学习和时空图卷积神经网络的动作识别 |
3.1 迁移学习 |
3.1.1 迁移学习的基本概念 |
3.1.2 迁移学习的分类 |
3.2 时空图卷积神经网络 |
3.2.1 人体骨架时空图 |
3.2.2 空间分割策略 |
3.2.3 时空图卷积神经网络模型 |
3.3 迁移学习在动作识别中的实现 |
3.3.1 基于特征提取器优化的模型迁移 |
3.3.2 基于初始化参数优化的模型迁移 |
3.4 实验及结果分析 |
3.4.1 动作识别开源数据集 |
3.4.2 算法实验对比 |
3.4.3 用于无人机交互的动作识别实验 |
3.5 本章小结 |
第四章 端到端的语音识别系统 |
4.1 链接时序分类算法CTC |
4.1.1 CTC损失函数 |
4.1.2 损失函数的计算 |
4.1.3 CTC算法解码 |
4.2 端到端的语音识别模型设计 |
4.2.1 RNN与 CNN在语音识别中的应用 |
4.2.2 基于CNN-GRU-CTC端到端模型 |
4.3 实验分析 |
4.3.1 语音数据集 |
4.3.2 数据处理 |
4.3.3 实验结果与分析 |
4.4 本章小结 |
第五章 基于语音和肢体动作识别的无人机交互方案设计 |
5.1 总体方案设计 |
5.2 语音识别系统设计 |
5.2.1 基于双门限法的端点检测 |
5.2.2 语音识别系统方案设计 |
5.3 语音唤醒 |
5.4 动作识别方案设计 |
5.5 仿真实验分析 |
5.5.1 仿真实验平台介绍 |
5.5.2 仿真实验 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
(10)在线藏语语音识别系统的研究(论文提纲范文)
摘要 |
abstract |
第1章 引言 |
1.1 研究背景 |
1.2 研究现状 |
1.3 研究目的及意义 |
1.4 本文主要研究内容与组织结构 |
1.5 本章小结 |
第2章 语音识别原理与在线系统架构 |
2.1 传统语音识别系统 |
2.2 端到端语音识别系统 |
2.2.1 卷积神经网络 |
2.2.2 循环神经网络 |
2.2.3 长短时记忆神经网络 |
2.2.4 Transformer神经网络 |
2.2.5 CTC算法 |
2.3 B/S架构与通信协议原理 |
2.4 本章小结 |
第3章 藏语语料库的构建与深度学习模型选择 |
3.1 藏语语料库的设计与构建 |
3.1.1 藏语方言概述 |
3.1.2 藏语语料库的构建 |
3.2 Specaugment语音增强算法 |
3.3 实验结果与分析 |
3.4 本章小结 |
第4章 在线藏语识别系统的搭建 |
4.1 在线藏语识别系统需求分析 |
4.1.1 在线藏语识别系统的功能需求分析 |
4.1.2 在线藏语语音识别系统的非功能需求分析 |
4.2 在线藏语语音识别系统框架设计 |
4.3 服务器端配置与实现 |
4.3.1 语音识别模型的训练 |
4.3.2 服务器端通信API设计 |
4.4 B/S网页客户端的设计与实现 |
4.4.1 Web网页端UI界面设计 |
4.4.2 音频录制、播放模块设计 |
4.4.3 数据通信模块设计 |
4.5 本章小结 |
第5章 在线藏语识别系统的测试 |
5.1 测试环境的搭建 |
5.2 语音识别模型功能测试 |
5.3 服务器端通信API模块功能测试 |
5.4 Web端模块功能测试 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 论文工作总结 |
6.2 下一步工作展望 |
参考文献 |
个人简历、在学期间发表的学术论文及研究成果 |
致谢 |
四、语音识别技术研究(论文参考文献)
- [1]面向语音识别应用的开源软件演化技术研究[D]. 段杰鹏. 北方工业大学, 2021(01)
- [2]基于RNN-Transducer的端到端长时语音识别模型研究及系统实现[D]. 李泽瑞. 北京邮电大学, 2021(01)
- [3]政务资讯平台语音信号处理方法研究与实现[D]. 高茹洁. 内蒙古大学, 2021(12)
- [4]智能语音处理技术在空间环境预报业务中的研究与应用[D]. 闫晓辉. 中国科学院大学(中国科学院国家空间科学中心), 2021(01)
- [5]基于注意力机制的音视频双模态语音识别技术研究[D]. 刘美娟. 山东大学, 2021(12)
- [6]基于CLDNN混合模型的中文语音识别系统[D]. 巫两璟. 电子科技大学, 2021(01)
- [7]低资源的维吾尔语语音识别系统设计与实现[D]. 杨学斌. 西北民族大学, 2021(08)
- [8]基于语谱特征的藏语语音识别的研究[D]. 王伟喆. 西北师范大学, 2021(12)
- [9]基于语音和肢体动作的无人机人机交互技术的研究[D]. 李秘. 电子科技大学, 2021(01)
- [10]在线藏语语音识别系统的研究[D]. 杨晓东. 西北师范大学, 2021(12)