一、汉语听觉视觉双模态数据库CAVSR1.0(论文文献综述)
苏荣锋[1](2020)在《多重影响因素下的语音识别系统研究》文中研究指明由于实际应用的声学环境非常复杂,存在环境噪声、远场、窄带等多种干扰因素,语音信号易受到这些因素的影响而发生变异,导致传统基于听觉模态的自动语音识别(Automatic Speech Recognition,ASR)系统的性能下降,不能满足实际应用需求。人类言语交流行为的研究发现,人类大脑对言语的理解不仅仅依赖于声音,而是会结合视觉通道信息,如嘴唇发音运动轨迹,交互并发处理后得出合理的一致的解释。另有研究表明,视觉信息和听觉信息具有互补性,在复杂声学环境下,视觉信息的互补部分会明显提高语音的感知性能,符合人类的双模态感知方式。此外,大量研究表明,基于双模态的视听语音识别(Audio-Visual Speech Recognition,AVSR)系统在很多实际应用中均优于ASR系统。因此,AVSR系统已逐渐成为研究热点。然而,AVSR系统在实际环境中仍存在应用瓶颈。一方面,建立一个鲁棒的AVSR系统需要大量的视听觉训练数据,而对比广泛可用的语音数据,视听并行数据大量采集代价昂贵。另一方面,使用传统的AVSR系统进行识别时,需要同时输入视听并行数据,但在多数实际使用环境中只有语音数据可用,缺少视觉信息。这些问题阻碍了AVSR系统的广泛应用。因此,本文针对上述问题,构建一种新型的AVSR系统框架,通过在语音识别系统声学建模时加入自动生成的视觉信息,从而提升其在复杂声学环境中的鲁棒性。本文的主要研究成果和贡献如下:(1)提出一种基于卷积神经网络(Convolutional Neural Network,CNN)的视听融合方法。利用独立的CNN结构,实现视听觉的独立建模和异步性信息传递,并获取视听并行数据在高维特征空间中的描述;然后通过紧随其后的共享全连接结构,实现在更高维度中对视听并行数据的长时间依赖关系进行建模。实验表明,对比传统的视听融合方法,使用基于CNN的视听融合方法建立的AVSR系统能获得显着性能提升,其识别错误率相对下降约15%。本文所提出的视听融合方法可针对视听并行数据之间的独立性、异步性以及长时相互依赖性进行建模,对于基于深度学习的视听融合方法的进一步研究具有重要意义。(2)提出一种基于视觉特征生成的双模态建模方法。使用有限的视听并行数据,结合基于双向长短时记忆网络(Bi-directional Long Short-Term Memory Recurrent Neural Network,BLSTM-RNN)的方法,构建听觉特征到视觉特征的生成模型;然后利用该生成模型自动生成大量视觉特征,结合基于CNN的视听融合方法,进行双模态建模。实验表明,当生成模型的训练和测试声学环境一样,只需使用少量的视听并行数据,结合所提出的基于视觉特征生成的双模态方法,可建立一个鲁棒的AVSR系统,其识别错误率较基线系统相对下降约11%。基于视觉特征生成的双模态方法可有效解决实际使用环境中的视觉信息缺失问题。(3)提出一种基于多层级自适应深度网络的跨域自适应方法。实际语音数据与视听并行数据的域不匹配问题将导致不可靠的视觉特征产生,最终引起识别系统性能下降。为此,本文提出一种新型的跨域自适应方法:通过多层级自适应深度网络,获取与实际使用环境匹配的声学特征描述;然后使用这些特征描述作为生成模型的额外输入以缓解域不匹配问题,实现由广泛可用的实际语音数据自动生成大量可靠的视觉数据。实验表明,由于域不匹配问题的存在,视觉特征生成方法直接应用于AVSR系统,并不能提升系统鲁棒性;而结合跨域自适应方法训练得到的语音识别系统能获得显着的性能提升,其识别错误率较基线系统相对下降10%以上。该方法首次应用于AVSR领域,降低了传统AVSR系统对大量视听并行数据的依赖性,使得AVSR系统可在只有语音输入情况下使用,推广其实际可应用性。
马金林,陈德光,郭贝贝,周洁[2](2019)在《唇语语料库综述》文中指出优秀的语料库能为唇语识别提供良好的基础保障,但通用语料库的缺乏是导致唇语识别发展缓慢的重要原因之一。较为全面地综述了20多种语料库的相关特性。简单介绍了唇语识别的传统方法和深度学习方法。重点整理了近20多年较有影响力的唇语语料库,从识别对象、语料规模、录制方式与录制环境等12个方面进行比较分析,得出各种语料库的优缺点及适用范围,方便唇读工作者快速找到适合自己研究方向的语料库。比较了各种语料库采用何种算法及其所能达到的性能。对唇读面临的困难进行了剖析,对未来工作进行了展望。
朱铮宇[3](2016)在《语音唇动关联性分析方法研究及其在录音回放检测中的应用》文中提出语音唇动关联性分析是利用发音过程中唇动与语音之间的因果关系来判断两者的变化是否同步一致,在电影口型匹配,视频中的说话人分割等多媒体处理领域有着广泛的应用。现有录音回放攻击检测手段主要是基于语音单一模态,即使利用音视频双模态信息也只是通过融合两者的认证得分来提高系统的安全性,这样处理虽起到一定的抗攻击作用,却忽视了语音变化和唇部运动间的强相关性这一重要的活体检测信息。本文针对语音唇动关联性分析及其在录音回放攻击中的应用展开研究,主要工作和贡献如下:(1)开发了基于语音唇动一致性分析的录音回放检测平台SCUT-AV Playback Detection System,该平台可进行录音回放攻击检测,语音唇动关联性及时延分析等实验研究。探讨了音视频结合的回放检测系统可能面对的各种攻击,定义了四类语音唇动不一致数据。为构建四类不一致数据进行实验分析,对国内外的双模态数据库进行研究,选用VidTIMIT、CUAVE和中文通用库作为主库,并针对VidTIMIT库存在数据不全面的问题,自建了一个双模态数据库作为补充。同时,为深入探讨韵母语音唇动关联度的需要,从中文通用库中切取不同韵母的音视频数据建立了一个韵母单元数据库。(2)传统语音唇动分析模型忽略了发音过程中语音与唇形变化在时域上的动态联系,本文基于时空联合分析思想,提出基于时空相关度融合的语音唇动一致性检测算法。先通过唇宽、唇高与语音幅度变化之间的联系获得语音唇动的时域相关度;再由协惯量分析(CoIA)求得语音与唇部像素空间特征的相关度。并探讨语音唇动一致和不一致数据在时延上的差异,针对典型相关分析和二次互信息两种算法(MI)时延估算结果易受样本数量和参数影响等不足,提出基于Co IA的时延估算方法,其估算准确率达95.4%,较前两者分别提高了9.7%和4.9%。利用此算法对音唇一致和不一致的数据进行时延估计,统计出一致数据的合理时延分布范围,并结合两者在相关度上的差异提出一种奖惩机制对相关度得分进行修订,最后通过置信度对时空域上的得分进行融合来度量一致性。实验表明,对于四类不一致数据,与单独基于XY空间唇部特征的分析模型相比,时空融合方法的等错误率(EER)平均下降了约8.2%,而且采用新的得分修订方法后对四类不一致数据的EER也较采用前平均下降了5.4%。(3)目前,统计类与相关法类等分析方法忽略了唇动帧间时变信息,且难以反映出包含发音规律的时空结构性信息,本文利用音视频联合原子作为描述不同音节发音时音频与唇形同步变化关系的模板,提出基于音视频移不变(SI)学习字典的语音唇动一致性判决方法。分别通过时域、时空域SI稀疏表示模型描述共同时轴上的语音和唇动信号,由联合字典学习算法训练音视频字典,并对算法稀疏编码部分的平移集合矩阵维度过大的问题采用新的映射方式进行改进,然后依据学习所得字典提出新的语音唇动一致性判决准则。实验结果表明,与统计类方法中的CoIA以及MI法,相关法中的双模态线性预测法和归一化相关系数结合SVM的方法相比,对于小词汇量语料,本文方法总体EER分别下降了9.1%,17.6%,13.9%和10.5%;对于大词汇量语料,总体EER也分别下降了3.2%,12.4%,7.2%和4.1%。(4)(2)和(3)的方法均对整句话进行分析,并无对唇形变化显着或语音唇动关联性较强的信息加以区分,存在运算量大,分析结果易受静音及弱关联片段影响等不足,借鉴假唱鉴别中只以显着嘴型段为参考的思想,以唇型变化较明显的韵母为代表性发音事件,提出基于韵母发音事件音视频匹配及位置时延分析的一致性分析方法。先对字典学习数据进行韵母段筛选,并提出一种音视频结合的韵母切分方法,其切分准确率达93.5%;利用(3)中方法获得韵母字典并进行韵母事件匹配分析,同时加入对事件发生位置的时延分布分析,再由GMM模型融合这两种分析的得分进行判决。实验表明,该方法训练和分析的运算量较(3)下降了35%,总体EER较(2)和(3)下降了2.1%和4.6%。接着对韵母单元进行深入分析,采用动态口型序列特征通过凝聚层次聚类对韵母进行归类,并利用相关度分析选出关联度较强的类别共19个韵母作为“特定发音单元”,提出基于特定韵母发音单元的一致性检测方法。实验表明,采用特定韵母单元代替整句进行一致性分析是可行和有效的,其中对一至三类不一致数据的EER更分别降低了1.2%,0.9%和0.5%,运算量也显着减少。而且融合韵母位置时延分布得分后,对三、四类不一致数据的EER较融合前降低了4.9%和10.6%,总体EER降低了4.8%。
吴迪[4](2015)在《口型识别与唇读算法研究》文中提出人类对语言的感知是多通道的,听力正常者在交谈的过程中也无意识的使用唇动、表情等视觉信息以辅助听觉能力。对于听力障碍者或噪声环境下的语言感知,视觉信息显得更加重要。计算机唇读技术正是在这样的背景下应运而生,它是指对说话者的口型变化等视频信息进行分析而识别出说话内容的过程。该技术涉及计算机视觉、人机交互、图像处理、模式识别等诸多领域,被广泛应用于与语音信息融合以提高识别率,也用于公共安全领域、生物特征识别和口型合成等。本文主要研究单视觉通道下基于孤立汉语字的唇读系统,从唇部区域检测、唇区特征提取及唇读训练和识别三方面展开研究,主要工作及创新如下:(1)在唇部区域检测模块,详细介绍了基于Viola-Jones的检测方法,该方法利用Haar like矩形特征作为特征模板,以Adaboost算法训练特征值,并用级联的方式得到强分类器以实现检测。本文将其用于人脸和唇区的检测,检测正确率达到了97%,为下一步处理打下了良好的基础。(2)特征提取是唇读技术的核心。本文提出了一种基于像素的4阶段级联的特征提取方法。该方法首先对唇区图像进行图像变换,接着针对不同的图像变换结果采用合适的方法选取需要的数据,然后进行数据降维,最后对降维后数据实现矢量量化,得到最终特征向量。实验结果表明该方法与单独使用基于像素的方法相比特征向量维度大大降低,DCT-PCA和DWT-PCA方法的最高识别率分别达到了72.8%和77.4%。(3)唇读训练和识别模块,分析了HMM模型用于唇读识别的可行性,对将HMM应用于唇读时所面临的模型类型选取、初始参数选择等具体问题做了详细的说明,并给出了利用HMM进行唇读训练和识别的过程,最后通过实验建立了合理的唇读HMM模型。(4)唇读数据库是进行唇读研究的基础。文章研究了国内外现有的一些数据库,分析了它们的语料和规格,并建立了适合本文研究的数据库。自建数据库选取了汉语中常用的37个汉字,有3女2男共5名发音者,每人对每个字发音10遍,并对录制的视频资料进行了唇区提取等后期处理工作。同时本文设计了一个唇读识别原型系统,该系统基于C++和MFC,实现了基于汉语孤立字的唇读识别功能。
韩艳芳[5](2013)在《面向双模式语音识别的视觉语音模型构建》文中指出在人机交互领域,传统的单语音识别技术在相对安静的环境下对连续的单词或短语能够达到较高的识别率。然而,将其应用到真实环境时,其识别能力通常会由于背景噪声等因素的影响受到极大的限制。人类的语言认知过程是一个多通道的感知过程,在现实语音交流中,人们在理解他人讲话内容时不仅通过声音来感受信息,而且还用眼睛观察对方口型、表情的变化,视觉信息作为一种重要的语音理解源,可以明显提升接受者的感知能力。因此,针对视听语音识别系统,本文主要研究了计算机视觉语音特征,并探讨了基于耦合隐马尔科夫模型的双通道语音识别算法。本文首先介绍了视觉语音研究的背景和意义,详细阐述了视觉语音研究的现状,分析了主流的方法,在此基础上,提出了本文基于声视频融合的中文汉字识别系统框架,该系统包括数据的采集和预处理、特征提取、特征分析以及融合与识别四部分。其中唇区视觉特征的检测提取与声视频信息融合是提高系统整体语音识别能力的关键,亦是本文研究的重点,本文主要工作如下:1)基于口型类的AAM模版。精确的特征点定位直接影响后期几何特征提取和内唇区域定位的准确性,鉴于唇部闭合与张口、内外唇嘴角点是否重叠等状态纹理差异较大,带来AAM自动特征点定位后,需要大量手工调整工作量,本文提出基于口型分类样本后,分别训练AAM模版,建立了3种典型的AAM模板:①闭嘴AAM模板;②”O”型AAM模板;③普通AAM模板。以提高特征点定位准确性,减少手工工作量。2)内唇纹理模型的构建。特征提取在语音识别中具有重要地位,得到的特征向量是否具有很好的反映对象本征特性能力,使对象具有可区分性,将直接影响识别率的高低。根据中文发音规律,为充分表现发音过程中牙齿和舌头的状态和形状信息,本文提出了几种基于统计特性的内唇纹理模型,包括内唇纹理统计直方图、分块的内唇纹理统计直方图、牙齿比例、分块内唇子空间均像素值、颜色矩和离散余弦变换,为构建视觉特征提供基础。3)视觉特征分析。为验证各内唇纹理模型的表征能力,以及RGB、HSV、Lab、YCrCb不同颜色空间分量建模各纹理模型的可分性,本文进行筛选比较实验,利用多种有监督的分类算法,把各个特征模型、不同色度空间分量描述模型应用于静态视觉语音图片的分类,根据分类正确率实现了颜色空间的选取以及不同的特征和特征组合的内唇纹理模型确定。并通过特征降维和归一化实现了内唇纹理特征与几何特征相结合的视觉语音模型。4)基于自建双模态数据库,实现了基于耦合隐马尔科夫模型(CHMM)中期融合策略的双模态中文字识别系统。主要工作包括:第一,通过限制信息流的状态数量和限制信息流之间的异步程度简化模型结构,并通过等效变换完成了基于传统HMM的CHMM算法实现,基于CHMM中期融合的视听语音识别系统既保留了视、音特征的独立性又实现了在时间上对视、音频流状态的异步过程建模。第二,进行了基于HMM和CHMM的单、双通道的对比实验,一方面进一步验证单通道各个特征模型的表征能力,另一方面验证了基于双模态的视听识别系统具有更好的识别效果。
姚文娟[6](2011)在《基于视频的唇部定位和序列切分算法的研究》文中认为唇读(Lipreading/speechreading),即是通过观察说话者的口型变化,“读出”所说的内容。唇读是人工智能,图像处理,模式识别等相关研究领域综合发展所产生的一个新的研究方向,它被广泛应用于语音识别的辅助手段,同时在安防系统的身份认证,辅助手语识别,听觉障碍人士的语言学习,基于唇动特点的生物特征识别等领域也有广阔的应用前景。一个完整的唇读系统通常包括人脸检测,唇部检测定位,图像序列的切分(端点检测),特征提取和唇语识别。其中,准确地将嘴唇实时检测和定位,是一切唇读系统的首要任务,它直接影响到后续的唇读工作。而对于一个视频,每个孤立字的图像序列的切分,则是唇读系统的又一个重要步骤,直接影响到唇读识别率。目前,用于唇读识别的孤立字切分都是基于音频的(基于听觉特征的),必然存在音节切分不完整的缺点,本文利用视觉和听觉融合的序列切分算法,提高了唇读识别率。本文的主要研究内容包括以下方面:(1)考虑到唇读视频数据库所占存储容量大,不利于共享和传播,以及鉴于本文的研究内容,本文自建了双模态数据库,并在此基础上进行后续的处理。(2)本文在利用OpenCV人脸检测模块检测出人脸之后,通过大量的实验,提出了利用人脸的结构特征和灰度信息进行唇部检测定位的方法,并完成了对唇部图像的归一化。该方法对头部运动和镜头的缩放具有较好的鲁棒性。(3)目前用于唇读识别的孤立字切分一般都是基于音频(基于听觉特征)的,比较经典的方法是基于短时能量的端点检测方法。本文以此为基础,在视觉通道上,利用图像比较的方法,提出了改进的切分算法,达到了视觉和听觉的融合。实验结果显示,本文方法能对孤立字进行更完整的切分,并且相对于基于听觉特征的切分,提高了唇读的识别率。
梁亚玲[7](2011)在《基于单视觉通道唇读系统的研究》文中认为唇读(lipreading/ speechreading)是人工智能,图像处理,模式识别等相关研究领域综合发展所产生的一个新的研究方向,被广泛的应用于噪声环境下提高自动语音的识别率,也用于安防系统的身份认证,远距离语义识别,听觉障碍人士的语言学习,老年人的唇部语义学习及残障人士辅助系统的唇部命令识别等。目前关于唇读的研究集中在将视频通道作为音频通道的一种补充来提高语音的识别率。在真正的高噪声环境下,语音信道的信息量急剧下降,系统的识别率主要取决于视觉通道,研究基于单视觉通道的语义识别就非常重要。目前基于单视觉通道唇读的研究处于较为初级的阶段,研究对象为小词汇量,且识别率相对较低。将词汇量扩大到较大词汇量,提高单视觉通道唇读的识别率是本文的研究目标。本文针对单视觉唇读系统中几个关键问题,进行了较为系统,深入及广泛的研究,主要的研究工作及成果包括以下几个方面:(1)对国内外的数据库进行了相应的研究,结合本文的研究对象采用哈工大的数据库HITBICAVDatabase作为主库,在该库的基础上选取不同音标的字建立了一个适合本文研究的数据子库database9603。并对该数据库中的每幅图像提取感兴趣区域生成了可直接用于特征提取和识别的数据库。自建了一个小型的双模态唇读数据库,并对自建数据库进行相应的预处理工作。(2)针对唇部感兴趣区域的提取问题,提出了基于人脸结构和灰度信息的感兴趣区域提取方法。该方法通过对大量人脸结构的分析发现,人嘴的宽度与双眼的距离相当,因此采用双眼瞳孔来定位唇部的左右边界,并完成对唇部图像的缩放以及水平位置的调整。利用灰度投影检测唇角,定位唇部的垂直位置。该方法提取的图像具有相对固定的参照,能够真实反映唇部的大小和形状信息。对镜头的缩放以及头部的倾斜具有较好的鲁棒性。针对唇部的提取问题,提出了基于LAB空间a分量的唇部提取(分割)方法。通过对色度空间各分量可分离性的研究,通过fisher准则寻找到能够将唇部和非唇部(肤色,牙齿,胡须等)进行有效分割的彩色分量‘a’。该方法可较好的将唇部提取出来,并根据图像特征自动生成阈值,便于唇部提取的自动化。针对基于轮廓的唇部提取,本文提出了基于流形的唇部轮廓提取方法。实验结果表明,本文提出的唇部轮廓提取方法更逼近唇部的真实轮廓图像。文中还将‘a’分量方法与流形的方法结合起来,提取唇部,实验结果表明基于色度和轮廓的方法提取的唇部效果更好。(3)对唇部特征表示进行研究。提出了DT-CWT+PCA的唇部特征提取方法,DT-CWT具有近似的平移不变性及良好的方向性,能够较好的提取唇部感兴趣区域的边缘信息及频域信息,且能克服感兴趣区域(ROI)提取过程中存在的位移问题。实验结果表明该特征提取方法提高了识别率。针对DT-CWT+PCA的方法中将DT-CWT的幅值系数重新排列导致丧失数据本身几何信息的缺点,提出了基于DT-CWT+LBP+PCA空频域相结合的特征提取方法。该方法提取的特征既能体现唇部的频域信息和空间域信息,又能反应其局部信息和全局信息,且对位移和旋转具有不变性。实验结果表明基于DT-CWT和LBP的空频域特征提取方法很大程度上提高了唇读的识别率。(4)对唇部特征有效降维问题进行研究。提出了基于DCT+ONPP的特征提取方法,正交邻域保持投影(ONPP)在降维的同时保持了数据本身的几何结构信息。实验结果表明该方法能够提高识别率。在基于监督的学习方法,本文提出了采用局部敏感的判别分析方法(LSDA)对唇部图像提取特征。LSDA结合了LDA和LPP两者的优点,充分体现了唇部局部几何特征。实验结果表明与LDA及传统的方法相比,本文方法识别率更高,且该方法的识别率高于非监督的降维方法。(5)针对唇读系统中各样本帧数不同的问题,提出了基于唇部灰度能量图的概念,并结合唇部能量图提出相应的特征提取方法。唇部灰度能量图是通过唇部灰度图像的叠加平均得到的,在投影的过程中完成了样本特征维数的归一化。唇部灰度能量图在保留唇部图像本身静态特征的同时也反映了其动态特征,有效去除传统方法中对单帧分别提取特征时各帧特征之间的相关性,大大降低了特征的维数,缩短了识别时间,提高了识别率。唇部灰度能量图的提出,使得基于人脸识别和基于监督的特征提取方法非常容易移植到基于唇部灰度能量图的唇部特征提取上来。基于此本文将DT-CWT+LBP和LDA的特征表示和特征降维方法应用到唇部灰度能量图上来提取特征。实验结果表明传统的特征表示和特征降维方法仍然适用于唇部灰度能量图,且基于能量图的方法比传统方法的识别率高。
奉小慧[8](2010)在《音频噪声环境下唇动信息在语音识别中的应用技术研究》文中认为传统语音识别研究只利用声学语音信息,而音视频双模态语音识别将说话人的唇动信息和声学语音信息一起作为特征参数,共同完成语音识别,为提高语音识别系统的鲁棒性和抗噪性能提供了一条新途径。本文着重研究音视频语音识别中视频图像的前端处理、视频特征提取、音视频信息融合等实际应用问题。本文主要工作如下:1)建立了一个针对车载控制系统的中文句子级双模态语音数据库(BiModal Speech Database, BiMoSp),由26人(14男12女)的数据构成。经过对多个驾驶员进行问卷调查后归纳出68条最常用的车载设备控制指令作为语料,每个说话人为每个控制语句提供4个音视频语音样本。2)提出一种基于多色彩空间的嘴唇区域定位算法。该算法将RGB空间的彩色边缘检测结果、HSV空间的色调以及饱和度分量相结合,并根据嘴唇的位置特性,对嘴唇区域的基准线进行调整,然后通过投影确定嘴唇边界点的位置,最后在二值图像中完成嘴唇区域定位。为了提高视频图像处理的鲁棒性,在实验中还引用其他数据库的部分图像,实验定位的准确率为98.25%,相对利用PCA的定位算法,准确率提高了3.37%。3)以提高轮廓提取精度和速度为目标,提出了一种利用多方向梯度信息和基于先验知识的改进几何活动轮廓(GAC)模型。将多方向梯度信息和嘴形椭圆形状的先验知识(Prior Shape)结合起来引入到Level Set的能量函数中,避免了传统GAC模型在嘴形轮廓提取中的不足。相比传统的GAC,该模型使嘴唇轮廓提取实验的准确率提高了8.38%。4)提出了一种基于帧间距离和线性判别投影变换(LDA)的动态特征提取方法。该方法弥补了差分特征的缺陷。利用该方法得到的特征不仅嵌入了语音分类的先验知识,而且捕捉了视觉特征的纹理变化信息。实验结果表明,由DTCWT变化而来的静态特征经过帧间距离运算,识别错误率相对降低了3.25%。而该静态特征经过LDA变换之后识别错误率相对降低了6.50%。LDA变化后的特征和一阶、二阶差分特征结合之后,相对静态特征,又可使识别错误率分别降低了9.44%和15.43%。将帧间距离和LDA差分得到最终的动态特征,其识别错误率相对静态特征降低了20.12%。5)提出了一种双训练模型来改善音视频特征融合的识别效果。从训练数据和测试数据不匹配而带来的噪声影响考虑,在不影响识别速度的前提下,使用噪声模型和基准模型来共同完成音视频特征融合语音识别。对在噪声环境下的基于英语音视频数据库(AMP-AVSp)和中文音视频双模态语音数据库(BiMoSp)的实验结果表明,使用双训练模型在高噪声情况下识别性能得到了很大地提高。对于AMP-AVSp和BiMoSp,在SNR=-5dB时,比仅使用基准模型识别的错误率分别降低了45.27%和37.24%。6)提出一种基于整数线性规划(Integer Linear Programming,ILP)的最优流指数选取的决策融合方法。根据决策融合中的似然概率线性相加特性,利用提出的最大对数似然距离(Maximum Log-Likelihood Distance,MLLD)为准则,建立了流指数选取模型。在实验中用梯度值为0.05的穷举搜索法选取的流指数做参考。实验结果表明,两种方法得到的流权值和音视频语音识别结果都很接近。因为穷举搜索法往往都能得到模型的最优解,两个模型实验结果的近似也反映了ILP模型能够为音视频决策融合选取出最优数据流指数以达到最佳识别效果。
严乐贫,奉小慧[9](2010)在《双模态车载语音控制仿真系统的设计与实现》文中研究表明针对音、视频双模态语音识别能有效地提高噪声环境下的识别率的特性,本文设计了车载语音控制指令识别实验系统。该系统模拟车载环境,把说话时的视频信息融入到语音识别系统中,系统分为模型训练、离线识别和在线识别3部分。在线识别全程采用语音作为人机交互手段,并具备用户自适应的功能。离线识别部分将系统产生的数据分层次进行统计,非常适合进行双模态语音识别算法研究。
严乐贫[10](2010)在《音视频双模态车载语音控制系统的设计与实现》文中研究表明语音控制应用于行车环境有助于解放驾驶员的双手和双眼,提高驾驶安全和驾驶乐趣。目前噪声环境下单独依靠音频信息所得到的识别率很低,制约了车载语音控制的发展。利用视觉信息辅助语音识别能提高噪声环境下语音识别系统的识别率。行车过程中驾驶员位置固定,取像方便,使得在车载语音控制系统中利用视觉信息成为可能。车载语音控制系统中使用双模态语音识别抗噪声,已成为一个重要的研究课题。为了加快车载语音控制系统的研发进程,本文在PC机平台上构建了一个双模态车载语音控制仿真系统,为嵌入式车载语音控制系统的研发提供参考。本文主要工作如下:(1)论述了双模态语音识别基本原理及相关技术,并提出了双模态车载语音控制仿真系统的设计方案。系统整体构架采用中词汇量连续语音识别,音频特征选取能体现人耳听觉特征且抗噪性能较强的美尔频率倒谱系数(Mel Frequency Cepstral Coefficients, MFCC),声学模型采用隐马尔可夫模型(Hidden Markov Model, HMM),视频特征采用基于嘴唇轮廓的像素特征,听觉信息与视觉信息使用后融合的策略进行双模态语音识别。(2)结合车载语音控制的实际需要,构建了一个面向车载控制语音识别双模态数据库。分析了现有的国内外双模态数据库,归纳了建立双模态数据库的依据。参考建库依据,建立了车载语音控制双模态数据库。为减小数据库内语料标注的工作量,设计了标注软件,并进行了标注。(3)设计并实现了双模态车载语音识别控制系统。系统分为模型训练、离线识别和在线识别三个子系统,各子系统在结构上相互联系,功能上相互独立。各子系统由若干功能模块组成,且功能相同的模块在子系统中能通用。模型训练子系统分听觉和视觉两个通道训练了声学模型和视觉模型,供离线和在线识别子系统使用。研究了在Visual C/C++环境下调用ATK(Application Toolkit for HTK)接口进行音频信号的处理。为便于算法的升级,视频信号的处理模块采用动态链接库的方法。为了使系统能体现直观的测试结果,离线识别子系统中设计了结果统计功能模块。为了体现良好的人机交互和有效地降低外界语音的干扰,在线识别子系统中设计了人机语音对话式交互处理流程,以及结果的归一化处理和可选择处理。(4)评估了仿真系统在多种环境下的识别性能,并对评估结果进行了讨论。实验结果表明,与纯听觉的语音识别相比,双模态语音识别具有更好的抗噪性能,更适合应用于车载语音控制。
二、汉语听觉视觉双模态数据库CAVSR1.0(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、汉语听觉视觉双模态数据库CAVSR1.0(论文提纲范文)
(1)多重影响因素下的语音识别系统研究(论文提纲范文)
摘要 |
abstract |
重要符号说明 |
第1章 绪论 |
1.1 研究背景和研究意义 |
1.2 国内外研究现状 |
1.2.1 基于听觉模态的自动语音识别系统研究 |
1.2.2 基于双模态的视听语音识别系统研究 |
1.2.2.1 视听并行数据库 |
1.2.2.2 视听融合策略 |
1.2.2.3 数据专门性 |
1.3 现有基于双模态的视听语音识别系统面临的挑战 |
1.4 本文的研究内容和主要贡献 |
1.5 本文的章节安排 |
第2章 基于听觉模态的自动语音识别系统 |
2.1 前端处理 |
2.2 声学建模 |
2.2.1 基于混合高斯隐马尔科夫模型的声学建模 |
2.2.1.1 评估问题、训练问题和解码问题 |
2.2.1.2 声学建模基元以及参数估计 |
2.2.2 基于人工神经网络隐马尔科夫模型的声学建模 |
2.2.2.1 神经元 |
2.2.2.2 反向传播算法 |
2.2.2.3 深层次神经网络的构建 |
2.3 语言模型 |
2.4 语音识别系统性能评价 |
2.5 小结 |
第3章 基于双模态的视听语音识别系统 |
3.1 视听并行数据库设计 |
3.1.1 录音语料设计以及说话人选取 |
3.1.2 录制环境与录制参数 |
3.1.3 三维视觉数据后处理 |
3.2 卷积神经网络在语音识别中应用 |
3.2.1 声学特征的重构 |
3.2.2 卷积层 |
3.2.3 池化层 |
3.2.4 卷积层参数更新 |
3.2.5 预训练 |
3.3 基于卷积神经网络的视听融合方法 |
3.3.1 网络参数更新 |
3.3.2 预训练 |
3.4 实验 |
3.4.1 实验数据 |
3.4.2 系统参数 |
3.4.3 结果分析 |
3.5 小结 |
第4章 视觉特征生成方法应用于视听语音识别系统 |
4.1 视觉特征生成方法 |
4.1.1 循环神经网络概述 |
4.1.2 长短时记忆网络概述 |
4.1.2.1 遗忘门 |
4.1.2.2 输入门 |
4.1.2.3 细胞状态输出 |
4.1.2.4 输出门 |
4.1.2.5 网络参数更新 |
4.1.3 双向长短时记忆网络概述 |
4.1.4 基于双向长短时记忆网络的视觉特征生成方法 |
4.2 基于视觉特征生成方法的双模态建模 |
4.3 说话人自适应训练应用于视听语音识别系统 |
4.3.1 说话人自适应训练应用于传统双模态建模 |
4.3.2 说话人自适应训练应用于基于视觉特征生成方法的双模态建模 |
4.4 实验 |
4.4.1 视觉特征生成方法应用于视听语音识别系统的实验 |
4.4.1.1 系统参数 |
4.4.1.2 视觉特征生成方法分析 |
4.4.1.3 基于视觉特征生成的视听语音识别系统性能分析 |
4.4.2 说话人自适应训练应用于视听语音识别系统的实验 |
4.5 小结 |
第5章 跨域自适应的视听语音识别系统 |
5.1 基于多层级自适应深度网络的跨域自适应方法 |
5.2 基于跨域自适应的视觉特征生成方法 |
5.3 跨域自适应的视听语音识别系统框架 |
5.5 实验 |
5.5.1 中文广播语音识别任务 |
5.5.1.1 系统参数 |
5.5.1.2 结果分析 |
5.5.2 中文电话语音识别任务 |
5.5.2.1 系统参数 |
5.5.2.2 结果分析 |
5.6 小结 |
第6章 总结和展望 |
6.1 本文工作总结 |
6.2 后续工作 |
参考文献 |
致谢 |
作者简历及攻读学位期间发表的学术论文与研究成果 |
(2)唇语语料库综述(论文提纲范文)
1 引言 |
2 唇语系统 |
3 唇语识别方法 |
3.1 传统唇语识别方法 |
3.2 深度神经网络唇语识别方法 |
4 唇语语料库 |
4.1 语料库详述 |
4.2 语料库性能比较 |
5 唇语识别应用 |
6 难点与发展趋势 |
7 总结与展望 |
(3)语音唇动关联性分析方法研究及其在录音回放检测中的应用(论文提纲范文)
摘要 |
Abstract |
主要缩写对照表 |
第一章 绪论 |
1.1 课题研究背景与意义 |
1.2 语音唇动一致性分析概述 |
1.2.1 录音回放攻击检测研究现状 |
1.2.2 一致性分析国内外研究现状 |
1.3 论文的主要工作与章节安排 |
第二章 数据准备及实验平台搭建 |
2.1 音视频双模态数据库概述 |
2.2 语音唇动不一致数据分类及构建 |
2.3 选用的英文双模态数据库 |
2.3.1 VidTIMIT数据库 |
2.3.2 CUAVE数据库 |
2.3.3 自建补充数据库 |
2.4 选用的中文双模态数据库 |
2.4.1 通用中文双模态数据库 |
2.4.2 汉语韵母发音单元数据库 |
2.5 音视频双模态录音回放检测平台 |
2.5.1 系统功能及设计要求 |
2.5.2 系统总体结构 |
2.5.3 系统功能模块 |
2.5.4 其他实验平台和工具 |
2.6 本章小结 |
第三章 基于时空相关度融合的语音唇动一致性判决方法 |
3.1 语音唇动相关度分析 |
3.1.1 语音唇动时域关联性数学模型 |
3.1.2 基于协惯量的相关度分析方法 |
3.2 语音唇动时延概念及其估算方法 |
3.2.1 时延定义及其产生原因 |
3.2.2 时延估计 |
3.2.3 时延搜索范围 |
3.2.4 时延估算准确性分析 |
3.3 时延分布范围统计 |
3.3.1 语音唇动一致数据时延分布 |
3.3.2 各类不一致数据时延分布 |
3.3.3 时延以及相关度区分性分析 |
3.4 基于时空相关度融合的语音唇动一致性分析方法 |
3.4.1 唇部运动时空分析模型 |
3.4.2 时空域语音唇动相关度分析 |
3.4.3 一致性评分策略 |
3.4.4 时空域相关度得分融合 |
3.5 实验结果与分析 |
3.5.1 实验设置 |
3.5.2 实验结果分析 |
3.6 本章小结 |
第四章 基于音视频时空移不变学习字典的语音唇动一致性判决方法 |
4.1 移不变语音唇动表示模型 |
4.1.1 移不变稀疏表示 |
4.1.2 时序信号移不变稀疏表示模型 |
4.1.3 语音唇动联合表示模型 |
4.2 音视频联合字典学习算法 |
4.2.1 联合字典学习问题描述 |
4.2.2 改进的移不变匹配追踪算法 |
4.2.3 音视频联合稀疏编码 |
4.2.4 联合字典更新 |
4.3 基于移不变联合字典的一致性评分策略 |
4.4 实验结果与分析 |
4.4.1 实验设置 |
4.4.2 小词汇量数据实验结果分析 |
4.4.3 大词汇量数据实验结果分析 |
4.5 本章小结 |
第五章 基于代表性发音事件的语音唇动一致性分析 |
5.1 发音事件分割 |
5.1.1 代表性发音事件选择 |
5.1.2 基于两步切分的音节唇动序列分割 |
5.1.3 音视频结合声韵母分割 |
5.2 基于韵母发音事件匹配及位置时延分析的一致性分析方法 |
5.3 特定发音单元语音唇动关联性分析 |
5.3.1 韵母视素聚类 |
5.3.2 韵母类发音单元的相关度分析 |
5.3.3 特定发音单元选取 |
5.3.4 基于特定韵母发音单元的一致性分析 |
5.4 实验与结果分析 |
5.4.1 韵母发音事件分割准确性分析 |
5.4.2 一致性分析实验设置 |
5.4.3 各章算法比较分析 |
5.5 本章小结 |
总结与展望 |
研究总结 |
后续工作展望 |
参考文献 |
攻读博士学位期间取得的研究成果 |
致谢 |
附件 |
(4)口型识别与唇读算法研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
序言 |
1 引言 |
1.1 选题背景及研究意义 |
1.2 国内外研究现状 |
1.3 文章结构安排 |
2 唇部区域检测 |
2.1 唇区检测方法简介 |
2.1.1 基于人脸结构特征的方法 |
2.1.2 基于颜色的方法 |
2.1.3 基于模型的方法 |
2.2 Viola-Jones唇区检测方法 |
2.2.1 Haar矩形特征 |
2.2.2 基于Adaboost的特征选择 |
2.2.3 分类器级联 |
2.2.4 实验结果及分析 |
2.3 本章小结 |
3 唇部特征提取 |
3.1 唇部特征提取方法简介 |
3.2 基于像素的特征提取方法 |
3.2.1 离散余弦变换(DCT) |
3.2.2 离散小波变换(DWT) |
3.2.3 主成分分析(PCA) |
3.3 一种级联的唇部特征提取方法 |
3.3.1 方法描述 |
3.3.2 实验结果及分析 |
3.4 本章小结 |
4 基于HMM的唇读训练和识别 |
4.1 HMM模型的定义 |
4.2 HMM应用于唇读系统中的具体问题 |
4.2.1 马尔科夫链的拓扑结构选择 |
4.2.2 HMM类型选择 |
4.2.3 初始模型参数的选取 |
4.3 唇读训练和识别过程 |
4.4 本章小结 |
5 唇读识别系统的设计与实现 |
5.1 唇读数据库 |
5.1.1 现有的唇读数据库 |
5.1.2 自建数据库介绍 |
5.2 唇读识别原型系统 |
5.2.1 唇区检测模块功能与设计描述 |
5.2.2 特征提取模块功能与设计描述 |
5.2.3 唇读训练与识别模块功能与设计描述 |
5.3 本章小结 |
6 结论 |
参考文献 |
作者简历及攻读硕士学位期间取得的研究成果 |
学位论文数据集 |
(5)面向双模式语音识别的视觉语音模型构建(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 研究现状 |
1.3 主要研究内容 |
1.4 论文章节安排 |
第2章 基于声视频融合的中文字识别系统设计 |
2.1 视听语音识别系统框架 |
2.2 基于 CHMM 中期融合的中文字识别策略 |
2.2.1 信息融合概述 |
2.2.2 声视频语音信息表示 |
2.3 本章小结 |
第3章 基于几何和内唇纹理的视觉语音特征模型构建 |
3.1 面向几何特征的 AAM 面部特征点定位 |
3.1.1 AAM 概述 |
3.1.2 基于口型类的 AAM 模板训练 |
3.1.3 几何特征 |
3.2 内唇纹理特征模型构建 |
3.2.1 唇区的检测和定位 |
3.2.2 内唇纹理特征模型 |
3.3 特征融合及归一化 |
3.3.1 特征融合 |
3.3.2 最大最小值归一化 |
3.4 本章小结 |
第4章 基于各颜色空间的内唇纹理特征模型表述能力分析 |
4.1 数据的采集和预处理 |
4.2 基于内唇纹理特征模型的静态视觉语音图片识别 |
4.2.1 颜色空间的选取 |
4.2.2 实验结果及分析 |
4.3 本章小结 |
第5章 基于 CHMM 的双模态中文字识别 |
5.1 基于中文字的双模态数据库的建立 |
5.1.1 国内外双模态数据库简介 |
5.1.2 双模态数据库的建立 |
5.2 基于传统 HMM 的 CHMM 算法实现 |
5.2.1 HMM 算法概述 |
5.2.2 CHMM 算法的实现 |
5.3 基于 HMM 和 CHMM 的对比实验 |
5.3.1 实验数据 |
5.3.2 实验结果及分析 |
5.4 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的学术论文 |
致谢 |
(6)基于视频的唇部定位和序列切分算法的研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 引言 |
1.2 研究背景和意义 |
1.3 国内外研究现状 |
1.4 本文的研究内容与结构 |
1.5 本章小结 |
第二章 基于Adaboost 的人脸检测技术 |
2.1 人脸检测方法研究 |
2.1.1 基于知识的人脸检测方法 |
2.1.2 基于统计的人脸检测方法 |
2.2 人眼检测方法研究 |
2.2.1 投影函数法 |
2.2.2 对称变换法 |
2.2.3 模板匹配法 |
2.3 基于Adaboost 的人脸检测算法 |
2.3.1 Haar 特征 |
2.3.2 积分图(Integral Image) |
2.3.3 Adaboost 算法的训练过程 |
2.4 基于OpenCV 的人脸和人眼检测的实现 |
2.4.1 人脸检测的实现 |
2.4.2 眼睛检测的实现 |
2.5 本章小结 |
第三章 视频图像的唇部定位跟踪与归一化 |
3.1 引言 |
3.2 唇部定位方法简介 |
3.2.1 利用唇部低灰度值,多边缘性 |
3.2.2 基于人脸结构特征的唇部检测 |
3.2.3 基于色度差异 |
3.2.4 利用变换的方法 |
3.2.5 基于变形模板的方法 |
3.3 双模态语料库介绍 |
3.4 基于人脸结构和投影的唇部定位算法 |
3.4.1 图像的旋转 |
3.4.2 尺度归一化 |
3.4.3 唇部定位算法的实现 |
3.5 本章小结 |
第四章 视频图像序列的切分算法 |
4.1 引言 |
4.2 基于听觉特征的切分方法 |
4.2.1 基于短时能量和过零率的语音端点检测方法 |
4.2.2 基于LPC-10 声码器的端点检侧 |
4.2.3 基于信息熵的语音端点检测方法 |
4.3 基于视觉特征的切分方法 |
4.3.1 基于图像比较的方法 |
4.3.2 基于FAP 的方法 |
4.3.3 基于函数的检测方法 |
4.4 基于图像比较的视听觉融合的序列切分算法 |
4.4.1 数据集的选取 |
4.4.2 基于能量的语音端点检测过程 |
4.4.3 图像比较 |
4.4.4 实验结果 |
4.5 本章小结 |
结论和展望 |
参考文献 |
攻读硕士学位期间取得的研究成果 |
致谢 |
附件 |
(7)基于单视觉通道唇读系统的研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 唇读主要研究内容 |
1.2.1 数据库 |
1.2.2 唇部的检测定位与分割 |
1.2.3 唇部特征提取 |
1.2.4 识别方法 |
1.3 唇读的研究现状 |
1.3.1 国外研究现状 |
1.3.2 国内研究现状 |
1.4 本文的研究内容与创新点 |
1.5 论文的内容安排 |
第二章 唇读数据库 |
2.1 引言 |
2.2 国外相关的数据库 |
2.3 国内主要的双模态数据库介绍 |
2.4 本文所使用的数据库 |
2.4.1 采用现有的数据库 |
2.4.2 自建数据库 |
2.5 本章小结 |
第三章 唇部的检测定位与分割 |
3.1 引言 |
3.2 唇部感兴趣区域的定位和分割方法 |
3.2.1 典型方法介绍 |
3.2.2 基于人脸结构和中心扩展的感兴趣区域分割 |
3.3 基于色度的唇部提取方法 |
3.3.1 相关方法介绍 |
3.3.2 基于LAB 空间a 分量的唇部提取方法 |
3.4 基于轮廓的唇部提取方法 |
3.4.1 主动轮廓模型方法 |
3.4.2 可变模板法 |
3.4.3 流形用于轮廓提取的理论基础 |
3.4.4 基于流形的轮廓提取方法基本思路 |
3.4.5 实验及其结果 |
3.5 基于LAB 色度空间和流形的唇部提取方法(LABME) |
3.5.1 参数设置 |
3.5.2 实验步骤 |
3.5.3 实验结果及其分析 |
3.6 本章小结 |
第四章 唇部特征提取 |
4.1 引言 |
4.2 唇部特征提取方法简介 |
4.2.1 特征唇方法 |
4.2.2 基于DCT 变换的唇部特征提取 |
4.2.3 基于DCT+PCA 的唇部特征提取 |
4.2.4 基于DCT+LDA 的唇部特征提取 |
4.3 DCT +ONPP 的唇部特征提取方法 |
4.3.1 流形降维相关方法介绍 |
4.3.2 ONPP 简介 |
4.3.3 基于DCT 与ONPP 的唇部特征提取方法 |
4.3.4 实验及其结果 |
4.4 DCT+LSDA |
4.4.1 LSDA 简介 |
4.4.2 基于LSDA 的唇部特征提取方法 |
4.5 基于DT-CWT+PCA 的特征提取方法 |
4.5.1 双树复小波简介 |
4.5.2 DT-CWT+PCA 方法思路 |
4.5.3 实验及其结果 |
4.6 DT-CWT+LBP+PCA |
4.6.1 局部二值模式简介 |
4.6.2 思路及步骤 |
4.6.3 识别方法 |
4.6.4 实验结果及其分析 |
4.7 DT-CWT+ONPP 的特征提取方法 |
4.8 本章小结 |
第五章 基于唇部灰度能量图的特征提取 |
5.1 引言 |
5.2 能量图相关的理论 |
5.2.1 步态能量图GEI |
5.2.2 运动历史图像(Motion History Image, MHI)和运动能量图MEI |
5.2.3 联合时空图 |
5.2.4 时空能量图(Spactio-temporal energy,STE) |
5.3 唇部灰度能量图 |
5.3.1 唇部灰度能量图(Lip Gray Energy Image,LGEI) |
5.3.2 数据的预处理 |
5.3.3 LGEI 的抗噪性 |
5.3.4 唇部灰度能量图用于唇读 |
5.4 唇部灰度能量图的扩展 |
5.5 基于唇部灰度能量图和DCT+PCA 的唇部特征提取方法 |
5.5.1 LGEI+DCT+PCA 的基本思路 |
5.5.2 实验及其结果分析 |
5.6 基于唇部灰度能量图的其它特征提取方法 |
5.6.1 LGEI+DCT+LDA |
5.6.2 LGEI+DT-CWT+LBP |
5.7 本章小结 |
结论 |
1. 总结 |
2. 未来工作展望 |
参考文献 |
攻读博士学位期间完成的学术论文 |
致谢 |
附件 |
(8)音频噪声环境下唇动信息在语音识别中的应用技术研究(论文提纲范文)
摘要 |
Abstract |
插图索引 |
表格索引 |
主要缩写对照表 |
第一章 绪论 |
1.1 课题研究意义 |
1.2 音视频语音识别概述 |
1.2.1 国内外研究现状 |
1.2.2 视频图像处理 |
1.2.3 音视频融合策略 |
1.3 本文的主要工作及贡献 |
1.4 论文章节安排 |
第二章 音视频语音数据库介绍 |
2.1 音视频语音数据库概述 |
2.2 研究中使用的音视频语音数据库 |
2.2.1 AMP 英文双模语音数据库 |
2.2.2 中文双模态连续语音数据库 |
2.3 本章小结 |
第三章 嘴唇区域定位和轮廓提取方法 |
3.1 基于多色彩空间的嘴唇区域定位算法 |
3.1.1 基于彩色梯度嘴唇边缘提取方法 |
3.1.2 基准线判准方法 |
3.1.3 嘴唇区域投影定位 |
3.2 基于改进GAC 模型的嘴形轮廓提取方法 |
3.2.1 传统GAC 的嘴形轮廓提取模型 |
3.2.2 GAC 模型在嘴形轮廓提取中的不足 |
3.2.3 多方向梯度信息 |
3.2.4 基于先验知识的水平集方法 |
3.3 实验结果及分析 |
3.3.1 嘴唇区域定位实验及分析 |
3.3.2 嘴形轮廓提取实验及分析 |
3.4 本章小结 |
第四章 嘴唇动态特征提取方法 |
4.1 常用的视频图像特征 |
4.1.1 特征唇(Eigenlips) |
4.1.2 DTCWT 变换 |
4.1.3 形状特征 |
4.1.4 静态特征的唇读实验结果和分析 |
4.2 基于帧间距离和LDA 的动态特征提取方法 |
4.2.1 帧间距离 |
4.2.2 线性判别分析 |
4.2.3 动态特征的唇读实验结果与分析 |
4.3 本章小结 |
第五章 基于多流HMM 的音视频信息融合方法 |
5.1 音视频融合方法 |
5.1.1 感知融合 |
5.1.2 音视频融合级别 |
5.1.3 基于双训练模型的特征融合策略 |
5.2 基于MSHMM 的音视频决策融合模型 |
5.2.1 多流隐马尔科夫模型 |
5.2.2 基于N-best 的句子级音视频决策融合 |
5.3 基于ILP 模型最优流指数选取的决策融合方法 |
5.3.1 最大对数似然距离准则 |
5.3.2 ILP 模型的建立 |
5.3.3 阈值的确定 |
5.4 实验结果及分析 |
5.4.1 Sphinx3 简介 |
5.4.2 实验设计 |
5.4.3 AMP-AVSp 英语孤立词识别实验 |
5.4.4 BiMoSp 中文连续语音识别实验 |
5.4.5 结果分析 |
5.5 本章小结 |
第六章 车载音视频语音控制仿真系统 |
6.1 车载控制系统整体结构 |
6.2 模拟系统的功能模块 |
6.2.1 音频语音模块 |
6.2.2 视频语音模块 |
6.2.3 音视频融合模块 |
6.3 在线音频语音控制系统的性能测试 |
6.4 本章小结 |
结论 |
研究总结 |
后续工作展望 |
参考文献 |
攻读博士学位期间取得的研究成果 |
致谢 |
附录 |
(9)双模态车载语音控制仿真系统的设计与实现(论文提纲范文)
0 引 言 |
1 系统设计 |
1.1 设计思路 |
(1) 车载噪声环境的提供。 |
(2) 用户双模态语音处理子程序的接入。 |
(3) 实验结果处理模块。 |
(4) 人机交互。 |
(5) 不断完善和修改针对特定用户的语音模型。 |
1.2 系统的组成 |
1.3 实验系统的实现 |
1.3.1 双模态车载控制语音识别数据库的建立 |
1.3.2 音频信号的处理 |
1.3.3 视频信号的处理 |
1.3.4 系统测试 |
(1) 模型训练。 |
(2) 测试准备。 |
(3) 识别结果。 |
2 结束语 |
(10)音视频双模态车载语音控制系统的设计与实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 研究现状 |
1.2.1 双模态语音识别的研究现状 |
1.2.2 语音识别技术在汽车控制上的应用现状 |
1.3 论文的主要工作及章节安排 |
第二章 双模态语音识别介绍及仿真系统方案 |
2.1 语音识别基础 |
2.1.1 语音识别基本原理 |
2.1.2 特征表示与提取 |
2.1.3 隐马尔可夫模型 |
2.2 噪声环境下的语音识别 |
2.2.1 噪声对语音识别的影响 |
2.2.2 车载环境下的噪声分析 |
2.2.3 抗噪声语音识别技术 |
2.3 双模态语音识别 |
2.3.1 视频特征的提取 |
2.3.2 音视频信息的融合 |
2.4 仿真系统的方案设计 |
2.5 本章小结 |
第三章 行车环境语音识别双模态数据库 |
3.1 双模态语音数据库简介 |
3.1.1 国内外的双模态数据库 |
3.1.2 双模态数据库的建库依据 |
3.2 面向车载控制语音识别数据库的建立 |
3.2.1 BiMoSp数据库的语料选择 |
3.2.2 音视频数据的建立 |
3.2.3 语料的标注 |
3.2.4 词典和语法规则的建立 |
3.3 本章小结 |
第四章 双模态车载语音识别控制系统的设计与实现 |
4.1 识别系统结构 |
4.1.1 系统的工作环境 |
4.1.2 系统的功能 |
4.1.3 系统的结构 |
4.2 模型训练 |
4.2.1 语音识别单元的选取 |
4.2.2 音节的声学模型训练 |
4.2.3 音节的视觉模型训练 |
4.3 离线识别系统的设计 |
4.3.1 基于ATK的音频处理模块 |
4.3.2 视频处理模块的接口 |
4.3.3 识别结果的处理 |
4.4 在线识别系统的设计 |
4.4.1 人机交互处理步骤 |
4.4.2 识别命令归一化处理和可选择处理 |
4.4.3 语音合成的实现 |
4.4.4 预留接口 |
4.5 本章小结 |
第五章 双模态车载语音识别控制系统的性能评估 |
5.1 离线识别系统的性能评估 |
5.2 在线识别系统的性能评估 |
5.3 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间取得的研究成果 |
致谢 |
四、汉语听觉视觉双模态数据库CAVSR1.0(论文参考文献)
- [1]多重影响因素下的语音识别系统研究[D]. 苏荣锋. 中国科学院大学(中国科学院深圳先进技术研究院), 2020(07)
- [2]唇语语料库综述[J]. 马金林,陈德光,郭贝贝,周洁. 计算机工程与应用, 2019(22)
- [3]语音唇动关联性分析方法研究及其在录音回放检测中的应用[D]. 朱铮宇. 华南理工大学, 2016(05)
- [4]口型识别与唇读算法研究[D]. 吴迪. 北京交通大学, 2015(06)
- [5]面向双模式语音识别的视觉语音模型构建[D]. 韩艳芳. 北京工业大学, 2013(03)
- [6]基于视频的唇部定位和序列切分算法的研究[D]. 姚文娟. 华南理工大学, 2011(12)
- [7]基于单视觉通道唇读系统的研究[D]. 梁亚玲. 华南理工大学, 2011(12)
- [8]音频噪声环境下唇动信息在语音识别中的应用技术研究[D]. 奉小慧. 华南理工大学, 2010(07)
- [9]双模态车载语音控制仿真系统的设计与实现[J]. 严乐贫,奉小慧. 计算机与现代化, 2010(08)
- [10]音视频双模态车载语音控制系统的设计与实现[D]. 严乐贫. 华南理工大学, 2010(04)