一、ENERGY CALCULUSIN CHINESE LANGUAGE SEGMENTATION(论文文献综述)
张灏[1](2021)在《基于深度学习的中文语音合成的研究和实现》文中进行了进一步梳理语音合成解决的主要任务是将文本信息转化为语音信息,在智能家居、虚拟主播、语音导航、信息播报、阅读教育、娱乐等领域有广泛的应用场景,语音合成是人机交互的重要组成部分之一。近年来,考虑到实际应用场景,合成的中文语音除了表达正确的文字信息还应具有情感风格的多样性,同时降低中文语音合成系统的延时性具有非常重要的应用价值。本文对基于深度学习的中文语音合成技术进行了研究,从中文语音合成质量、中文语音合成系统延时性、多情感风格中文语音等方面研究并实现了基于深度学习的中文语音合成系统,该系统主要由编码器模块、注意力机制、解码器、声码器模块和情感嵌入模块五个部分组成。本文主要研究内容如下:第一,相比于传统语音合成方法,深度学习技术可以大大减少前端文本分析的成本。本文研究中文语音合成相关技术,为了提高语音合成效率和合成语音质量,设计了基于Tacotron2的改进中文语音合成模型一T-LPCNet,对其原理以及每个模块进行重点阐述,特征维度由80维的梅尔谱特征优化为20维的线性预测倒谱系数特征,提高了中文语音合成速度,特征维度减少75%,较好的满足实时性要求,MOS主观评分为3.90。第二,成型的开源中文情感语音数据库较少,通过设计中文语音自动分割技术,创建了基于6种情感:恐惧、愤怒、厌恶、高兴、中性、悲伤的中文情感语音数据集,为后续深度学习模型做准备。第三,设计了两种多风格中文语音合成模型,通过深度学习网络学习到的情感风格特征控制合成不同情感风格的语音。该方法从参考音频中提取语音情感风格特征合成情感风格语音。两种组合模型均获得一定情感语音合成效果,两种组合模型在测试集上MCD值分别达到 9.81 和 9.95。
黄鹂[2](2021)在《基于深度神经网络的文本生成技术研究》文中研究说明被广泛认为用以衡量机器是否具备智能的标志之一就是机器是否具备与人无障碍交流的能力,而这一能力主要由隐藏在机器背后的文本生成技术来体现。随着近十年来计算机硬件技术的飞速发展带动深度神经网络的日益更新,其强大的学习能力、特征取能力以及在信息间的映射能力为文本生成模型性能的升带来新的发展契机,同时也产生了一系列新的研究问题。本文着眼基于深度神经网络框架下的文本生成技术的研究,以文本摘要和机器翻译为切入点,针对该框架下文本生成技术面临的一些问题出有效的解决方案,探索合适的生成模型,升生成系统的性能。本文的研究内容和贡献概括如下:(1)针对句子摘要任务中标记的重要性建模问题,本文出了一种基于自我感知的内容筛选机制。现有的句子摘要生成模型采用注意力机制隐式的对源文本中的重要标记进行建模,未对重要标记进行进一步强调,同时非重要标记也不会被显式的过滤。本文出的内容筛选机制在基于注意力网络对重要标记建模的基础上,根据当前摘要生成的进度对源文本标记组进行自动筛选,显式的强调相关标记过滤无关标记。为了配合筛选机制更好的进行重要性筛选工作,本文还研究了一种异步双向编码器,在不影响模型并行计算的基础上,对源文进行充分的高层特征取和标记间的依赖关系挖掘。实验结果表明,出的方法可以高效的进行标记重要性建模,升句子摘要模型的性能。(2)针对文档摘要中的片段重要性建模问题,本文出了局部内容裁剪模型。考虑到文档摘要对应的摘要内容更多,仅采用针对标记组的重要性建模帮助并不大。本文设计了一个渐进式局部内容裁剪方法用以对源文档进行片段的重要性建模,该裁剪方法能够根据当前生成的摘要词语定位源文中的重要片段,并进行动态渐进内容裁剪以控制冗余内容对当前摘要生成的影响。同时,该方法设计融合到当前主流的两种端到端框架中保证模型结构的简单高效。实验结果表明,出的方法可以有效实现对源文局部内容进行冗余裁剪以生成简洁摘要的目的,升端到端的文档摘要模型的性能。此外,本工作对主流模型的混合结构验证了文本生成工作中序列状态信息的重要性,为后续工作供了新的视角。(3)针对并行化机器翻译任务中序列状态信息缺失的问题,本文出在并行化模型中对标记序列状态信息建模的方法。出的方法以并行化模型为基础,增加了序列状态信息层为标记间的依赖关系构建和语义上下文的构建供状态信息。此外,为了辅助解码器更准确的解码译文,本文还对交互注意力网络进行扩展,实现了一个焦点自适应的交互注意力网络。实验结果表明,出的模型在同语系和跨语系的译文质量上均有所高。相关实验也证明了本工作所出的门控状态网络和焦点自适应方法可以相互辅助的进行工作。综上,本文以文本摘要和机器翻译为切入点在文本生成任务上开展研究工作,出了多个方法升当前基于深度神经网络的文本生成模型的性能。所出的方法和模型均在公开的标准数据集上验证了其可行性和有效性,也为自然语言处理领域内的其他相关研究供工作支撑。
教育部[3](2020)在《教育部关于印发普通高中课程方案和语文等学科课程标准(2017年版2020年修订)的通知》文中指出教材[2020]3号各省、自治区、直辖市教育厅(教委),新疆生产建设兵团教育局:为深入贯彻党的十九届四中全会精神和全国教育大会精神,落实立德树人根本任务,完善中小学课程体系,我部组织对普通高中课程方案和语文等学科课程标准(2017年版)进行了修订。普通高中课程方案以及思想政治、语文、
易冠先[4](2020)在《基于语音和文本的课堂情绪识别研究》文中进行了进一步梳理情绪在人类的决策、交互和认知过程中扮演着十分重要的角色,人们迫切希望通过技术手段来自动的、精准的识别人类的情绪,为人类做决策制定解决方案提供有效的支撑。近年来随着深度学习算法在图像、文本、语音等各个领域的成功应用,众多的科研人员也将这项技术应用到了情绪识别研究中。课堂作为一个重要的应用场景,研究者们也是迫切希望利用课堂场景下的数据通过机器来实现对师生情绪的自动识别。以课堂情绪来反映学情,辅助老师实施教学干预,也就是将学生的情绪转化为老师的决策建议,以帮助老师进行精准教学。对于教师而言,这将有助于教师进行课后反思,亦可作为教师教学水平的一项评估依据。此外,实现对课堂情绪的精准画像将有效促进对课堂的客观评价。针对目前的课堂情绪识别研究而言,首先相关研究比较少,部分课堂情绪识别研究是基于视觉或生理信号的,而视觉数据和生理信号的采集相对比较困难而且成本高昂;其次识别方法也更多的是基于统计理论的传统机器学习方法;最后数据模态的利用比较单一,由于情绪的复杂性所以目前使用单一模态来进行有效的情绪识别仍然是一项艰巨的任务。因为课堂教学过程中师生间的交互主要是话语交流,所以本研究旨在通过利用师生交流过程中的语音和语音中的文本来构建一个能在课堂场景下具有较高识别精度的语音和文本多模态融合的情绪识别模型。为开展基于语音和文本的课堂情绪识别研究,本文主要完成了以下工作和创新:(1)梳理了近年来国内外关于语音和文本的情绪识别研究。这其中包括情绪理论、数据集构建方法、情绪识别和多模态融合方法,为后续的研究提供理论基础。(2)针对语音和文本的课堂情绪识别任务设计了课堂情绪识别数据集。我们首先从一师一优课公共教育平台上筛选了部分来自同一地区、同一年级、同一学科的课堂教学视频,然后分离出语音并对语音做批量预处理,接着对于语音做端点检测并按端点切分音频为语音样本,然后调用百度语音识别API获得语音样本的文本内容,最后进行多人文本纠错和情绪标注,初步建立了含8000余条语音和文本数据的双模态课堂情绪识别数据集。(3)根据语音的不同特征设计了不同的语音情绪识别模型完成了对课堂语音的情绪识别研究。分别针对语音的MFCC、韵律和语谱图特征设计了基于时序结构和基于时空结构的课堂语音情绪识别模型,并在课堂情绪识别数据集上进行了实验。实验表明两种模型各有优势,其中融合了 MFCC和韵律特征的时序模型对中性情绪有最好的识别结果,而利用语谱图特征的时空模型对沉默类有最好的识别效果。(4)基于XLNet预训练模型完成了对课堂文本的情绪识别研究。首先着重阐述了中文分词和中文词表示这两个重要的文本预处理工作;然后介绍了最新的在多项NLP任务中有着最佳效果的XLNet模型,并基于XLNet模型实现了对课堂文本的情绪识别;接着对比分析了四种文本情绪识别模型,我们发现XLNet-L12模型相比原生循环网络模型约有7个百分点的提升;最后对了语音和文本的情绪识别结果,结果表明在整体上文本模态的情绪识别表现要优于语音模态,但从细分情绪类上来看它们又各有优势,这启发我们可以取长补短通过模态融合来寻求进一步的提升。(5)探究了在特征层融合策略下的多模态融合情绪识别方法并提出了一种改进的注意力机制融合方法。首先对比分析了三种多模态融合策略并选择了基于特征层融合的策略用于探究语音和文本融合的课堂情绪识别任务;然后设计了浅层和基于注意力机制的融合模型;最后针对注意力机制融合方法的缺陷,改进了注意力融合模型,提出了改进的注意力融合模型。实验表明,在公开数据集上浅层融合方法相比于其他研究还有差距,而改进的注意力融合方法则达到了最优表现;在课堂情绪识别数据集上浅层融合模型、注意力融合模型和改进的注意力融合模型的识别率依次增加,而且三种融合模型的识别效果都要优于单一模态,其中改进的注意力融合模型相比于语音模态有约11个百分点的提升,相比于文本模态有约3个百分点的提升,这体现出了多模态比单一模态在课堂情绪识别上更具有优势。
岑咏华[5](2010)在《面向领域中文文本信息的潜在语义分析研究》文中研究表明随着计算机和网络技术的不断发展,以自然语言为特征的领域文本信息不断喷涌,这些文本信息是进行科学研究、企业竞争情报研究的宝贵知识源泉,如何处理和利用这些文本型数据至关重要。中文文本信息在这些年亦是飞速增长。然而较之于那些通过空格分隔语义单元的语种信息来说,中文文本信息缺乏在计算机化信息处理方面的天然便利,处理工作困难重重。这其中首先要解决的问题是如何对中文文本信息进行预处理,以正确地识别和理解中文文本信息中的语义单元(即词语单元),包括如何进行语义单元的自动切分(即分词),如何对切分的歧义进行有效消解,如何智能化地识别和提取文本中所包含的新的命名实体、概念、术语等。正是因为这些问题的存在,传统中文文本信息处理对文本中所包含的内容特征的识别和理解能力不足。再者,现有文本信息处理的研究与应用主要基于“文档词语映射”来建立信息组织模型,例如将文档表示成词语的向量。词语间的独立性假设在这些模型中广泛使用。尽管这个假设使得信息组织、检索和处理模型的设计变得简单,但语言中词语间的严格独立性显然不成立。更具体地,自然语言中存在某些内在的、潜在的语义结构,这种语义结构支配着词语的使用、出现和文档的构成。文档的语义是由词语组成的,而词语又要放到文档中去理解,其中存在着一种“词语-文档”双重概率关系。文档可被视为以词语为维度的空间中的点,一个包含语义的文档出现在这种空间中,其分布绝对不是随机的,而是服从某种语义结构;词语也可视为以文档为维度的空间中的点,一个词语出现在某个文档中也同其它出现在该文档中的词语有密切的关系,其分布同样服从某种语义结构。然而,因为自然语言中词语使用的不一致性以及文档主题的不确定性等因素的存在,支配自然语言中词语使用和文档构成的语义结构在一定程度上被“噪音”所干扰和掩藏。传统信息处理方式忽略了这种语义结构的存在,因而无法更有效地形成对文档、词语等知识单元的正确表示。更为理想的信息处理方式是考虑文本信息中所包含的语义单元(特征词语)之间的语义关系,在此基础上实现对文档、概念本身、作者、机构等知识单元的语义表示和信息处理。这里特征词语之间的语义关联,可以是形式化的关联,如包含、隶属、等同、同义、反义等,抑或是本体(Ontology)意义上的概念的属性、函数、公理、实例等语义特征,还可以是超乎这种形式化、很难准确定性却又客观存在的潜在关联。而不管是哪一种,都是智能化领域文本信息处理应该去揭示的。进一步地,传统文本信息处理的高维稀疏文档表示模型也为大规模特定领域的文本信息检索、聚类、分类、相似测度等典型应用工作的效率、准确率和召回率都提出了严重的挑战。为解决上述问题,本论文试图研究一套全流程、自动化的机制(包括理论模型和方法体系)来解决传统面向领域的文本信息处理和文本挖掘的语义缺失问题。具体的,论文的主要研究工作包括以下几个部分:1)中文领域文本粗分词与词性标注主要研究了面向中文领域文本信息深度处理和潜在语义分析的粗分词与词性标注等预处理的方法:(1)首先基于对中科院计算所ICTCLAS分词系统的词典结构和最短路径算法的改进,研究并实现一种有效的中文粗分词系统;(2)在此基础上,基于隐性马尔科夫模型,针对粗分词结果进行词性标注,并根据各种不同粗分词结果的词性标注概率优选最佳词语切分方案。2)中文领域术语的边界标注与识别提取分析面向中文文本信息处理的领域术语界定、识别和提取方面的实际需求和特征,在比较众多模型(如隐性马尔科夫模型、最大熵模型、条件随机场模型等)的基础上,研究和探索了一套基于条件随机场模型的领域概念识别和提取方案,根据领域概念的位置特征、语法特征(主要为词性特征)、独立成词概率概率、语境概率特征、领域语言规则特征等选定模型所需的条件特征集合,构造各特征的势函数,确定各特征的权重,设计模型的算法,实现了基于条件随机场模型的领域中文术语识别和提取系统。3)面向潜在语义分析的术语权重模型研究主要研究了两个方面的问题:(1)基于术语区域分类的领域术语甄选:在领域文本信息预处理的基础上,借助于若干对比领域语料,测度术语的领域相关性、领域间一致性、领域内部一致性和术语新奇性,进而将术语划分到通用词语、领域一般术语、主题术语、新奇术语等四个术语区域中,基于分类思想对具有特定领域意义的术语进行甄选。(2)术语文档权重模型研究:在领域术语甄选的基础,研究一种包括术语局部权重、术语全局权重,文档全局权重及归一除数等四个部分的术语综合权重方案,测度术语在不同文档中的权重进而对文档予以正确表示,构建术语文档权重矩阵,为面向领域文本信息处理的潜在语义分析或主题加权采样提供支撑。4)基于矩阵分解的潜在语义分析研究主要研究了以下几种基于矩阵分解的潜在语义分析方法:(1)基于矩阵分解的潜在语义分析的基本方法:包括基于奇异值分解(SVD)的LSA的基本思想、等价特征值问题、Lanczos迭代算法及其理论解释;基于半离散分解(SDD)的LSA的基本思想,整数规划原理以及实现SDD的迭代方法。(2)基于Σ调整的潜在语义分析方法——μ-SVD/SDD方法:作为本课题的创新研究之一,提出并研究一种基于Σ调整的潜在语义分析方法——μ-SVD/SDD方法,通过有监督的机器学习方法,获取SVD/SDD分解结果中对角矩阵Σ的分配调整向量,以改进传统基于SVD/SDD方法将Σ的对角元素作为潜在维度的重要性时对对角元素向量进行同指数分配的思想缺陷和精度不足问题。(3)基于稀疏约束的非负矩阵分解(NMF)方法:作为本课题的探索性研究之一,本部分在对NMF的基本思想、损失函数、乘性迭代规则等基本问题的研究基础上,考虑领域文本信息处理对于矩阵分解结果的稀疏性要求,研究了稀疏约束下的NMF分解算法。5)基于主题模型的潜在语义分析研究作为本论文的主要创新点之一,本部分将在对概率潜在语义分析模型、潜在狄利克雷分配模型、相关主题模型、弹珠机分配模型、基于中式餐厅处理分布的层次主题模型等的原理、模型学习、瓶颈问题的理论分析以及对潜在狄利克雷分配模型、相关主题模型、弹珠机分配模型等应用于潜在语义分析的实验分析基础上,提出并研究一种基于加权采样的层次主题模型(WS-HTM)的理论框架,以解决已有主题模型在采样和学习效率、主题层次路径、精度等方面的不足。6)潜在语义分析在领域中文文本信息处理的应用研究对基于潜在语义分析的领域文本信息处理的典型应用问题进行了方法设计,包括:设计了面向潜在语义分析的大规模稀疏矩阵的文件存储和内存装载机制;重点研究了基于压缩编码过滤和语义倒排的领域文本信息检索方法;阐述了基于潜在语义分析的领域知识单元关联挖掘的基本方案;研究了一种基于二分k-Means的高效领域文本信息聚类方法,分析了潜在语义(主题)维度与聚类意义上的类目之间的等价性问题;研究了基于潜在语义分析的领域文本信息可视化的途径并重点就基于力导算法的领域知识单元网络化语义关联自适应可视化进行了方法设计。论文在进行理论和方法研究的同时,通过实验和对比,对论文所研究理论和方法进行了实证分析,相关实验分析结果表明,论文在领域中文文本信息处理的每一个流程上所研究的方法和理论较之于传统的方法,具有一定的科学性和实践可参考性。
姜海坤[6](2021)在《基于异构神经网络的音频舆情分析系统研究与实现》文中进行了进一步梳理随着移动互联网技术的飞速发展,公众可以通过网络随意针对社会热点事件进行转发和点评,从而导致网络舆情事件爆发。近年来,舆情事件信息的主体逐渐由文本数据转变为视听化程度更高的音视频数据,由于音视频数据存在时长差异且极有可能出现超长时的情况,针对这类音频数据无法直接进行识别分析,同时现有的语音识别系统未融合舆情领域知识和音频情感因素,无法针对音视频数据进行有效的舆情研判。针对以上问题,本文设计并实现了基于多特征输入的音频端点检测算法,实现超长时单文件音频数据按照语义间隔进行切分,切分处理后的短音频可以直接进行分析识别。本文设计并实现了结合智能纠错的音频语义识别模型,将音频数据转化为文本描述,并实现针对识别结果中存在的识别错误进行自动纠正。本文设计并实现融合音频情感的舆情研判模型,结合舆情领域知识构建舆情分类体系,参考舆情分类体系和音频情感因素进行音频舆情研判。最后,本文按照异构神经网络的思想将多个模型进行整合设计并实现基于异构神经网络的音频舆情分析系统,提供从音视频数据采集、数据分布式传输到音频舆情分析和结果前端可视化呈现的完整功能。实验通过系统采集模块获取网络社区和开源语音数据库音视频数据,分别针对音频端点检测算法、音频语义识别模型、音频情感识别模型和舆情研判模型进行实验验证。本文提出的音频端点检测算法在混合场景下的效果优于参照的三种算法;本文提出的音频语义识别模型与基线模型RCNN相比,字错误率降低了 5.22%;音频情感识别模型与3D-ACRNN模型相比,未加权精度提升了 4.06%;本文提出的舆情指数计算模型和Fasttext舆情研判模型与特定舆情事件检测方法相比,F值分别有所提升。实验结果表明,本文提出的基于异构神经网络的音频舆情系统可以有效的针对网络中音视频数据进行舆情分析。
朱明星[7](2021)在《基于神经肌肉生理信息的吞咽与发音功能评估方法研究》文中指出吞咽是维持人类生存最基本的生理功能,为人体生命健康提供必须的营养物质;发音则是保持社会交流最重要的生理功能,是人类与外界进行信息交流的重要途径。吞咽和发音功能的正常维系都依赖面部肌肉和颈部肌肉的运动收缩和协调工作,这些肌肉一旦发生损伤或病变,就会使得吞咽和发音功能受到不同程度的影响,甚至引起吞咽障碍或构音障碍。表面肌电(sEMG)是利用电极在皮肤表面采集到的微弱电压信号,sEMG信号与肌肉的活动情况和功能状态间有着较强的关联性,可以在不同程度上体现出相应神经肌肉的活动水平。然而目前吞咽和发音相关的临床和研究大多采用少量电极采集sEMG信号,因信息量有限无法对吞咽和发音功能做出全面的了解与评估。由于使用电极数量有限,不能准确捕捉到引起吞咽或发音异常的受损肌群,也因此无法实现对受损肌群进行有效的功能康复训练,从而限制了吞咽和发音障碍的临床康复效果。针对目前吞咽和发音功能理论研究和临床应用中存在的问题,本研究提出采用高密度表面肌电技术,研究吞咽、发音过程中面颈部肌肉群的电生理功能及协同工作机制,建立多模态吞咽功能和发音功能生理信息评价系统,为吞咽障碍、构音障碍患者的临床诊断提供更加准确、无创、客观的新理论和新方法。在本研究的吞咽实验中,采用96通道表面肌电电极,所有电极以6×16二维阵列的形式放置在受试者颈部,以获取足够多的信息量。受试者分别完成不同体量、粘稠度、头部姿势等不同的吞咽任务,同步利用荷兰TMSi-128(Refa-136ch)高性能肌电采集系统记录整个吞咽过程的高密度sEMG信号。实验结果表明,高密度sEMG能量图与吞咽的生理和生物力学原理紧密相关,它可以将整个吞咽过程进行动态可视化,显示吞咽过程中sEMG空间分布的变化过程,并全面呈现与吞咽相关肌肉的收缩力度和相互协调能力。研究结果显示干吞咽过程似乎比吞水需要更长的时间,随着吞咽的食物粘稠度的增加,电极覆盖区域的sEMG信号的最大活性显着增强。当受试者的头部保持在中间位置时,左右两侧的肌肉活动在不同的吞咽任务中几乎都是对称的,如果头部偏向一侧,sEMG能量图则显示肌肉活动的主要能量会转移到头部相对的另一侧。本论文提出的高密度sEMG方法为分析吞咽过程中的肌肉收缩力量分布和协调性提供了一种新方法,可能为评估肌肉功能的正常与否提供一种实用的工具。本论文关于不同体量、粘稠度、头部姿势对吞咽的影响结果,有助于更科学地管理吞咽障碍患者的饮食,并为定位吞咽障碍患者的可能病因提供实验基础和理论依据。在本研究的发音实验中,将120个表面电极以阵列形式尽可能覆盖面部和颈部所有与发音相关的肌肉,其中80个电极以5×16的阵列均匀的分布在颈部,另外40个电极以两个4×5的阵列对称地放置在面颈部肌肉的左侧和右侧。受试者在放松状态下,分别完成不同声音强度、音调逐渐增加的3个元音([a:]、[i:]、[?:])的发音任务、用中文和英文分别说出数字0至9两个不同的任务,并同步采集各种发音任务中的声学语音信号和高密度sEMG数据,并对数字发音的肌电信号进行特征提取和语音识别。在元音发音任务中,高密度sEMG能量图结果表明面部和颈部肌肉都在发音任务中都被激活,激活的程度随着声调的增加而增强,激活的肌肉数量和区域也随声调的增加而扩大。同时面部和颈部肌肉激活区域的位置变化和迁移规律与发音过程中的气流流通途径非常一致。结果同时观察到颈部肌肉的活动强度显着高于面部肌肉的活动强度,表明颈部肌肉在发声过程中担任着更重要的角色。发音过程的sEMG能量图的面部和喉部区域会呈现左侧和右侧对称分布的特征,这表明与发声活动相关的肌肉能量在面部和颈部肌肉的右侧和左侧具有几乎相等的强度和持久性。在数字语音识别任务中,高密度sEMG信号计算出的能量图表明发音过程中不同位置的肌肉活动表现出明显不同的模式,颈部肌肉采集到的肌电信号可以实现更好的语音识别准确率,表明颈部肌肉在基于sEMG的语音识别中比脸部肌肉贡献更大。在此基础上,本论文采用了SFS算法来自动选择具有最高分类精度的最佳通道,重要发现是通过SFS算法选择的最佳电极,在电极数目相当少的情况下也可以表现出十分优异的语音识别性能。比如只需要10个最优电极就可以达到接近90%的分类精度,并且明显优于使用全部40个面部电极的情况。这些结果表明,电极的选择和优化对于基于sEMG的语音识别非常重要,如果没有电极优化,比如所有电极都放在不太重要的位置(例如面部),则即使电极数量高达40个,分类精度也低至73.6%。本论文的研究结果表明,高密度sEMG技术可以用以实现吞咽和发音过程的动态可视化,呈现面部和颈部肌肉的动态活动情况及协同工作机制,从而实现吞咽功能和发音功能的客观评估,可以为吞咽及发音患者的病因诊断和靶向干预提供实验基础和客观依据。
苏悦[8](2021)在《多源语音的自动切分与聚类方法研究与实现》文中研究表明真实场景中下载、监听、收集到的音频数据属于多源异构数据,具有多变性、复杂性、多层次性等特点,可能来源于宽带、窄带、近场、远场等不同的声学条件,并且包含不同种类的音频,如:音乐、噪声、音乐背景语音等等。音频数据流的时长通常较长,并且含有未知数量的说话人。想要自动获取这类音频数据流的音频类型分布、说话人分布等信息,需要研究性能较高的多源语音的自动切分与聚类方法作为支撑,将输入的音频数据流划分为不同声学类别的语音片段,即多源语音的音频类型切分问题。对检出的有效语音部分进一步切分出不同说话人,并将区分后的说话人语音片段聚类合并,即说话人分割聚类问题。针对多源语音的音频类型切分问题,本文通过数据预处理和规范化标注规整了用于模型训练和测试的多源语音音频数据集,并选取开源语音数据集进行训练集的扩充。通过基于能量阈值的静音检测去除掉静音段后,采用语音、音乐、噪音分类器与语音、音乐背景语音分类器级联的方式,完成音频切分。本文采用K-Means特征提取以缓解语音、音乐背景语音分类器在多源语音域外测试集上鲁棒性差的问题。由于K-means特征与语谱图特征在语音、音乐背景语音分类中表现地各有优劣,提出K-means特征与语谱图特征的特征融合的方法,实现基于特征融合模型的语音、音乐背景语音分类。在测试集上,特征融合模型相比单用语谱图特征训练的模型提升了 4.36的召回率,相比K-Means特征训练的模型提升了 2.53的召回率。针对说话人分割聚类问题,对比了三种深度学习的嵌入特征提取方法,分别为基于全连接神经网络的嵌入特征提取,基于门控循环单元的嵌入特征提取,基于残差神经网络的嵌入特征提取。为解决传统聚类方法无法自动确定聚类簇数的痛点,选用UIS-RNN为聚类模型,并与K-Means聚类、谱聚类等传统聚类方法进行了对比实验。实验表明,基于UIS-RNN的后端聚类方法相比K-Means聚类提高了 6.64的DER(Diarization Error Rate),相比谱聚类提高了 1.6的DER。为实现多源语音的自动切分与聚类,在完成音频切分与说话人分割聚类模块的基础上,本文将多源语音的音频切分作为说话人分割聚类模块的预处理部分,定位到语音片段后,再使用说话人分割聚类模块进行说话人的切分聚类。实验表明,该种结构的多源语音自动切分聚类算法相比单纯使用说话人分割聚类算法在广播语音数据集上的性能提升了 17.11 的 DER。
唐忠[9](2021)在《支持产品概念设计的专利知识挖掘方法及其原型系统研究》文中进行了进一步梳理概念设计是产品创新的核心,是一种基于知识驱动的问题求解过程,其实质是对知识进行迁移和重组的过程。作为创新设计的产物,专利文献成为了一种新的激发设计者获得创新灵感的知识资源,它与产品创新活动关系最为密切。因此,如何从海量专利文献中挖掘并利用专利知识辅助概念设计就成为了产品创新设计的关键。专利文献的分类和检索是专利知识挖掘与支持产品概念设计的必要工具和重要研究内容。本论文以中文专利文献为研究对象,以获取产品概念设计所需知识为目的,从专利分类和专利知识检索的角度出发,对其中存在的一些关键问题和支持产品概念设计的方法与工具进行研究,提出了支持产品概念设计的专利知识挖掘新方法。本论文的主要研究内容如下:(1)根据现有概念设计求解过程模型的相关研究,对构成概念设计求解过程模型的设计元素信息进行分析,构建了专利知识辅助产品概念设计的需求-功能-原理-结构(Requirement-Function-Principle-Structure,RFPS)过程模型,建立了功能基来规范表达该模型中的功能,并对模型中各层的作用及其相互关系进行了详细的论述。(2)以现有的几种特征权重计算方法为例,首先分析并阐述了专利分类中如何合理地对测试集专利进行特征权重计算,并在此基础上提出了五种无监督特征权重计算方法。然后,针对目前有监督词语权重方法在专利分类方面表现出的不足,建立了一种融合词-文本-类别的多层次专利特征权重计算模型,并在此基础上,基于累积剩余熵提出了一种有监督词语权重方法。最后,针对无监督和有监督特征权重计算方法均未考虑词语之间的语义关系问题,构建了加权词向量并引入证据理论、圆周卷积和卷积神经网络来完成加权词向量的合成。更进一步地,为了解决传统向量空间模型存在的稀疏问题,提出了一种基于语义的向量空间模型来实现专利的特征权重计算。通过实验分别验证了所提方法的可行性和有效性。(3)根据专利中所蕴藏的设计知识的特点,分别用动名词词组(动词+名词对)、动词和名词代表专利中的功能知识、原理知识和结构知识,完成了专利知识的表示。以Stanford Corenlp为词性标注工具,阐述了专利知识的提取规则。针对专利中的附图知识,给出了从专利中提取专利附图的算法。建立了以专利标题和摘要为索引的专利知识组织与存储策略,为进一步地实现专利知识的检索提供了支持。(4)作为利用专利知识的必要工具之一,专利知识检索决定了专利知识应用(即迁移与重组)的效率与效果。针对关键词检索方法会出现使用同义词的现象以及关键词不能充分表达检索意图的问题,根据国际专利分类表(IPC)建立了意图单元来识别与理解检索意图,提出了基于IPC的专利知识检索方法,并详细阐述了该方法的计算流程。考虑到每个意图单元和每个专利中所包含的功能动词数不可能完全彼此相同,分别从IPC和专利中提取了完整的用于描述动作的功能动词集,进而定义了用于专利知识检索的功能绝对性指标,解决了专利知识检索中仅用余弦函数计算相似度存在的问题,提高了专利知识检索的准确性。(5)以前述理论研究为基础,开发了支持产品概念设计的专利知识挖掘原型系统(Patent Knowledge Mining Prototype System,PKMPS)。将PKMPS应用于压水型反应堆辐照样品孔塞的创新设计中,展示了PKMPS各功能模块的窗口布局,同时详细介绍了各功能模块的操作规则与使用方法。初步验证了PKMPS在辅助产品概念设计上的可行性和实用性。
司念文[10](2021)在《面向图像识别的深度学习可视化解释技术研究》文中指出可解释性是当前深度学习领域面临的突出问题之一。与传统机器学习方法相比,深度神经网络“端到端”的特点和分布式的特征表示形式,使人们难以理解其工作机制及决策依据,阻碍了其性能提升及面向风险敏感领域的拓展应用。其中,卷积神经网络(Convolutional Neural Network,CNN)是图像识别领域最常用的网络结构,提升CNN模型的可解释性对其进一步研究和应用具有重要意义。为此,本文面向图像识别领域的CNN模型,分别从正常场景和对抗场景两个方面出发,围绕如何提升CNN模型决策的解释效果及解释的可信任性问题,研究了基于显着图可视化的CNN可解释性方法及其攻击与防御方法,旨在从可视化的角度直观地对CNN模型内部表征及决策进行解释,并确保对抗场景下解释结果的有效性。本文完成的主要工作如下:第一,针对现有基于显着图可视化的CNN可解释性方法缺乏统一直观比较的问题,通过分析主流可视化方法的算法原理,对其进行了分类整理、特点归纳与效果比较,实现了统一标准下的评估与对比。首先,本文将主流可视化方法概括为5类:基于扰动的方法、基于反向传播的方法、类激活映射、激活最大化和其它方法,详细介绍了每类中的典型方法。然后,归纳了现有方法的6个方面特点,并对每种特点作了深入分析。最后,选取其中十余种典型方法,在相同输入和后处理方式下,对其可视化效果进行直观比较。该部分工作可为用户在应用中选择合适的方法提供指导,同时也为本文后续研究打下基础。第二,针对现有类激活映射方法仅关注特征图通道特征、未能充分利用空间分布特征的问题,提出了一种基于空间-通道注意力的类激活映射方法,利用注意力机制调整对特征分布的关注,以生成效果更佳的类激活图,用于解释CNN预测与输入特征之间的关联。具体地,首先归纳设计了一种基于类激活映射的CNN可视化框架。然后,基于该框架,首次提出类激活权重的概念,并推导了两种类激活权重间的关系。最后,采用注意力机制的思想,将两种类激活权重视作注意力权重,结合推导出的线性对应关系,提出基于注意力的类激活映射方法表示形式。实验中,在4种典型CNN结构下,对类激活权重和类激活图进行了可视化实验与分析。结果表明,两种类激活权重之间存在线性对应关系,与理论推导结果一致。与GAP-CAM(Global Average Pooling based Class Activation Mapping)和Grad-CAM(Gradient-weighted CAM)相比,所提方法的类激活图可视化效果具有一定优势。第三,针对现有方法生成的显着图存在的粗糙、噪声多和不够细粒度的问题,提出了一种基于区分性反卷积的细粒度显着图可视化方法,通过区分性反卷积过程逐层融合特征图信息,在上采样的同时提升显着图清晰度,以实现细粒度的显着图可视化效果。具体地,该方法首先利用改进的Grad-CAM方法生成初始类激活图,将其作为反卷积过程的起点。然后,通过两个反卷积分支将其逐层传递到输入空间,分别获取细粒度显着图和类别区域掩码。其中,细粒度反卷积分支从各层特征图中融合有益特征,以逐层提升显着图清晰度。最后,将细粒度显着图和类别区域掩码融合以获取最终显着图。实验结果表明,该方法在定性和定量评估指标上优于7种现有的典型可视化方法,尤其针对传统方法可视化效果不佳的小目标图像,该方法的细粒度效果更为明显。此外,在简单背景图像上的弱监督实例分割实验表明,该方法实现了比较有效的分割效果,对该领域具有一定应用前景。第四,在对抗场景下,针对现有的显着图攻击方法存在攻击代价较大、攻击方式单一的问题,提出了一种基于对抗补丁的显着图攻击方法,通过为输入图像添加专门设计的对抗补丁以构造对抗图像,可在不修改目标模型的条件下,使Grad-CAM方法产生异常显着图,从而更简单地实现攻击目的。具体地,该方法在模型的分类损失后添加对显着图的约束项,可以针对性地优化出一个对抗补丁,用于诱导显着图的显着性区域偏向补丁位置,实现对显着图的攻击。同时,通过批次训练方法与增加扰动范数约束,提升了对抗补丁的泛化性,并可利用其生成对抗样本。实验结果表明,该方法可以有效地攻击多种不同CNN结构下的显着图,诱导其偏向指定区域,并可用于攻击未见过的新图像的显着图,适用于多种不同攻击场景。与现有基于模型微调的Grad-CAM显着图攻击方法相比,该方法无需修改模型权重,可在保持模型分类精度的同时,更简单有效地实现攻击目的。第五,在对抗场景下,针对可视化方法由于受到对抗样本攻击而导致的显着图异常和解释过程失效的问题,提出了一种基于随机扰动的显着图对抗样本防御方法,通过简单的输入预处理策略,即可恢复对抗样本的显着图,保证在对抗场景下解释的有效性。具体地,该方法在对抗样本输入模型和可视化方法前,对其添加服从高斯分布的随机噪声,利用噪声扰动来抵消其中的对抗性特征,实现对抗样本显着图的恢复。为了验证该方法的有效性和通用性,在ILSVRC 2012数据集上进行了广泛实验,针对3种类激活映射方法和6种反向传播可视化方法对应的对抗样本分别进行了效果测试与对比。结果表明,该方法能够有效地恢复对抗样本的显着图,对多种敌手攻击方法生成的对抗样本均适用。与现有基于对抗性训练的防御方法相比,该方法无需重新训练模型,仅需对输入样本进行简单预处理,再按照常规流程即可获得有效的显着图,在现实环境中更加简单易用。
二、ENERGY CALCULUSIN CHINESE LANGUAGE SEGMENTATION(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、ENERGY CALCULUSIN CHINESE LANGUAGE SEGMENTATION(论文提纲范文)
(1)基于深度学习的中文语音合成的研究和实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究目的和意义 |
1.3 语音合成的研究现状 |
1.3.1 物理语音合成方法 |
1.3.2 基于波形拼接的语音合成技术 |
1.3.3 基于统计参数的语音合成技术 |
1.3.4 基于深度学习的语音合成技术 |
1.3.5 中文语音合成技术 |
1.4 研究内容及论文结构安排 |
1.4.1 研究内容概述 |
1.4.2 论文结构安排 |
第二章 语音合成和深度学习的理论分析 |
2.1 语音信号处理 |
2.1.1 预加重 |
2.1.2 傅里叶变换 |
2.1.3 梅尔倒谱系数特征提取 |
2.1.4 线性预测倒谱系数特征提取 |
2.2 语音质量评价 |
2.2.1 主观评测 |
2.2.2 客观评测 |
2.3 深度学习基础 |
2.3.1 深度神经网络 |
2.3.2 卷积神经网络 |
2.3.3 循环神经网络 |
2.3.4 序列到序列网络模型 |
2.3.5 注意力机制 |
2.3.6 深度学习框架 |
2.4 本章总结 |
第三章 基于Tacotron2的中文语音合成改进模型T-LPCNet |
3.1 基于Tacotron2的中文语音合成 |
3.2 T-LPCNet模型构建 |
3.2.1 文本转化器 |
3.2.2 编码器 |
3.2.3 注意力机制 |
3.2.4 解码器 |
3.2.5 损失函数设计 |
3.2.6 声码器——LPCNet |
3.3 实验环境与配置 |
3.3.1 实验环境 |
3.3.2 实验数据准备 |
3.3.3 实验参数设置 |
3.4 实验结果与讨论 |
3.5 本章总结 |
第四章 多风格中文语音合成 |
4.1 概述 |
4.2 T-LPCNet和GST相结合的中文语音合成模型 |
4.3 T-LPCNet和VAE相结合的中文语音合成 |
4.4 情感数据库的设计和构建 |
4.4.1 情感获取方式 |
4.4.2 情感语料库 |
4.4.3 情感语音的录制 |
4.4.4 VAD切片 |
4.4.5 语音标注与文本处理 |
4.5 实验环境和实验配置 |
4.6 实验结果分析 |
4.7 本章总结 |
第五章 总结与展望 |
5.1 本文工作总结 |
5.2 未来工作展望 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文目录 |
(2)基于深度神经网络的文本生成技术研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 研究现状和发展 |
1.2.1 机器翻译 |
1.2.2 文本摘要 |
1.3 研究内容与贡献 |
1.4 本文结构 |
第二章 相关模型与方法 |
2.1 深度神经网络 |
2.1.1 全连接神经网络 |
2.1.2 循环神经网络 |
2.1.3 卷积神经网络 |
2.2 文本生成任务中的相关模型 |
2.2.1 基于循环神经网络的深度神经序列模型 |
2.2.2 基于卷积神经网络的深度神经网络模型 |
2.2.3 基于堆叠注意力网络的深度神经序列模型 |
2.3 文本生成任务常见技术和方法 |
2.3.1 残差网络 |
2.3.2 子词切分算法 |
2.3.3 标签平滑处理技术 |
2.3.4 集束搜索算法 |
第三章 基于自我感知内容筛选机制的句子摘要生成 |
3.1 引言 |
3.2 模型设计 |
3.2.1 双向异步编码器 |
3.2.2 自我感知内容筛选机制 |
3.2.3 训练与推理 |
3.3 实验结果及讨论 |
3.3.1 实验设置 |
3.3.2 实验结果 |
3.3.3 消融实验分析 |
3.3.4 实例分析 |
3.4 本章小结 |
第四章 基于局部内容裁剪的文档摘要生成方法 |
4.1 引言 |
4.2 模型设计 |
4.2.1 局部内容裁剪方法 |
4.2.2 模型整合 |
4.2.3 结合指针网络的目标单词生成 |
4.2.4 训练与推理 |
4.3 实验结果及讨论 |
4.3.1 实验设置 |
4.3.2 实验结果 |
4.3.3 模型分析 |
4.3.4 实例分析 |
4.4 本章小结 |
第五章 结合门控状态网络的机器翻译方法研究 |
5.1 引言 |
5.2 模型设计 |
5.2.1 门控状态网络 |
5.2.2 焦点自适应交互注意力网络 |
5.2.3 跳空自我注意力网络 |
5.3 实验结果及讨论 |
5.3.1 实验设置 |
5.3.2 实验结果 |
5.3.3 模型分析 |
5.3.4 实例分析 |
5.4 本章小结 |
第六章 全文总结与展望 |
6.1 全文总结 |
6.2 后续工作展望 |
致谢 |
参考文献 |
攻读博士学位期间取得的成果 |
(4)基于语音和文本的课堂情绪识别研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 选题背景及研究意义 |
1.2 情绪识别国内外研究现状 |
1.2.1 语音情绪识别 |
1.2.2 文本情绪识别 |
1.2.3 多模态融合情绪识别 |
1.3 研究内容 |
1.4 主要工作及贡献 |
1.5 论文的组织结构 |
第二章 相关理论基础 |
2.1 情绪理论基础 |
2.1.1 情绪的定义 |
2.1.2 情绪的描述模型 |
2.2 深度神经网络 |
2.2.1 前馈神经网络 |
2.2.2 卷积神经网络 |
2.2.3 循环神经网络 |
2.3 注意力机制 |
2.4 本章小结 |
第三章 课堂语音情绪识别研究 |
3.1 课堂情绪识别数据集 |
3.2 语音的声学特征 |
3.2.1 语音的谱相关特征 |
3.2.2 语音的韵律特征 |
3.2.3 语音的语谱图特征 |
3.3 课堂语音情绪识别实验 |
3.3.1 课堂语音特征工程 |
3.3.2 数据增强 |
3.3.3 基于时序结构的情绪识别模型 |
3.3.4 基于时空结构的情绪识别模型 |
3.3.5 实验评估指标 |
3.3.6 实验结果及分析 |
3.4 本章小结 |
第四章 课堂文本情绪识别研究 |
4.1 文本预处理 |
4.2 中文分词 |
4.2.1 中文分词技术 |
4.2.2 中文分词工具 |
4.3 文本词表示 |
4.3.1 one-hot编码 |
4.3.2 TF-IDF表示 |
4.3.3 主题模型 |
4.3.4 基于语言模型的词嵌入表示 |
4.4 课堂文本情绪识别实验 |
4.4.1 实验数据预处理 |
4.4.2 词级别的课堂文本初始化表示 |
4.4.3 基于XLNet的课堂文本情绪识别模型 |
4.4.4 预训练的XLNet模型微调 |
4.4.5 实验结果及分析 |
4.5 本章小结 |
第五章 基于多模态融合的课堂情绪识别研究 |
5.1 多模态融合策略的选择 |
5.2 基于语音和文本融合的课堂情绪识别模型设计 |
5.2.1 浅层融合模型 |
5.2.2 基于注意力机制的融合模型 |
5.2.3 改进的注意力机制融合模型 |
5.3 多模态融合模型实验结果及分析 |
5.3.1 公开数据集上的实验结果 |
5.3.2 课堂情绪数据集上的实验结果 |
5.4 单模态与多模态对比分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 本文总结 |
6.2 不足与展望 |
参考文献 |
致谢 |
(5)面向领域中文文本信息的潜在语义分析研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究问题的引出 |
1.2 研究意义和目标 |
1.3 论文研究框架与内容 |
第2章 国内外研究现状综述 |
2.1 中文文本信息处理 |
2.2 中文词语切分预处理 |
2.3 中文领域术语的识别与提取 |
2.3.1 基于语言规则的术语识别与提取 |
2.3.2 基于统计的术语识别与提取 |
2.3.3 基于机器学习的术语识别与提取 |
2.3.4 中文领域术语识别与提取方法总结 |
2.4 形式化规范语义知识库构建 |
2.5 潜在语义或主题结构挖掘 |
2.5.1 基于词语共现的浅层语义分析 |
2.5.2 基于矩阵分解的潜在语义分析 |
2.5.3 基于主题模型的潜在语义分析 |
2.6 总结 |
第3章 领域中文文本粗分词与词性标注 |
3.1 基于多重哈希和改进最短路径算法的中文粗分词方案 |
3.1.1 多重哈希结构词典设计 |
3.1.2 全切分与全切分有向图构建 |
3.1.3 基于全切分有向图的改进K-最短路径搜索 |
3.1.4 系统实验与结果分析 |
3.2 基于隐马尔科夫模型的粗切分语义单元的词性标注 |
3.2.1 隐马尔科夫模型概述 |
3.2.2 基于隐马尔科夫模型的词性标注系统的总体框架 |
3.2.3 模型参数训练 |
3.2.4 词性标注 |
3.3 本章小结 |
第4章 中文领域术语的边界标注与识别提取 |
4.1 条件随机场(CRF)模型原理 |
4.1.1 基本思想 |
4.1.2 特征选择 |
4.1.3 模型训练 |
4.2 基于条件随机场的中文领域术语识别与提取 |
4.2.1 系统总体框架设计 |
4.2.2 预处理与原始特征赋值 |
4.2.3 特征函数设计与获取 |
4.2.4 模型参数估计 |
4.2.5 模型应用——术语边界标注 |
4.3 实验设计与结果分析 |
4.3.1 训练用语料选择 |
4.3.2 测试用语料选择 |
4.3.3 特征模板设计 |
4.3.4 实验结果及分析 |
4.4 本章小结 |
第5章 面向潜在语义分析的术语权重模型 |
5.1 术语领域权重模型与面向领域的术语甄选 |
5.1.1 术语的术语性 |
5.1.2 术语领域相关性 |
5.1.3 术语领域一致性 |
5.1.4 术语新奇性 |
5.1.5 基于区域分类的领域术语甄选 |
5.2 术语文档权重模型 |
5.2.1 术语文档权重模型概述 |
5.2.2 术语局部权重 |
5.2.3 术语全局权重 |
5.2.4 文档全局权重 |
5.3 实验分析 |
5.3.1 术语领域权重模型与领域术语甄选的实验分析 |
5.3.2 不同组合术语文档权重模型的实验对比分析 |
5.4 本章小节 |
第6章 基于矩阵分解的潜在语义分析 |
6.1 潜在语义分析概述 |
6.1.1 传统文本信息检索与处理存在的问题 |
6.1.2 潜在语义分析(LSA)的内涵 |
6.2 基于奇异值分解(SVD)的潜在语义分析 |
6.2.1 SVD的基本思想 |
6.2.2 与SVD等价的特征值问题 |
6.2.3 SVD迭代算法 |
6.2.4 基于SVD的潜在语义分析分析的理论解释 |
6.2.5 基于Σ调整的潜在语义分析方法——μ-SVD |
6.3 基于半离散矩阵分解(SDD)的潜在语义分析 |
6.3.1 SDD的基本思想 |
6.3.2 k-SDD的计算 |
6.4 基于非负矩阵分解(NMF)的潜在语义分析 |
6.4.1 NMF的基本思想 |
6.4.2 NMF的概率模型与辅助约束 |
6.4.3 稀疏性约束下的NMF |
6.5 实验分析 |
6.5.1 应用LSA与不应用LSA的实验对比分析 |
6.5.2 基于Σ调整的LSA——μ-SVD实验分析 |
6.5.3 不同损失函数定义下的NMF算法实验对比分析 |
6.5.4 基于NMF与k-Means的文本聚类实验对比分析 |
6.5.5 NMF方法与SVD方法的实验对比分析 |
6.5.6 稀疏性约束下的NMF实验对比分析 |
6.6 本章小节 |
第7章 基于主题模型的潜在语义分析 |
7.1 概率潜在语义分析(PLSA)模型 |
7.1.1 PLSA模型的基本思想 |
7.1.2 基于期望最大化(EM)算法的模型拟合 |
7.1.3 改进的模型拟合方法——退火期望最大化算法 |
7.1.4 PLSA与LSA的关系 |
7.2 潜在狄利克雷分配(LDA)模型 |
7.2.1 LDA模型的基本思想 |
7.2.2 基于变分算法的模型推理 |
7.2.3 基于Gibbs采样的模型推理 |
7.3 相关主题模型(CTM) |
7.3.1 CTM的基本思想 |
7.3.2 基于变分算法的模型推理 |
7.4 层次主题模型(hLDA) |
7.4.1 中式餐厅处理(CRP)分布 |
7.4.2 hLDA模型的基本思想 |
7.4.3 非参数hLDA |
7.4.4 模型推理 |
7.5 弹珠机分配模型(PAM) |
7.5.1 PAM的基本思想 |
7.5.2 模型推理 |
7.5.3 PAM与hLDA比较 |
7.6 实验分析 |
7.6.1 基于LDA模型的潜在语义分析实验 |
7.6.2 基于CTM模型的潜在语义分析实验 |
7.6.3 基于PAM模型的层次潜在主题挖掘实验 |
7.7 一种加权采样层次主题模型(WS-HTM)的理论框架设计 |
7.8 本章小节 |
第8章 潜在语义分析在领域文本信息处理中的应用 |
8.1 面向潜在语义分析的大规模稀疏矩阵实现 |
8.2 基于潜在语义分析的领域文本信息检索 |
8.2.1 压缩编码过滤 |
8.2.2 语义倒排索引构建 |
8.3 基于潜在语义分析的领域知识单元关联挖掘 |
8.4 基于潜在语义分析的领域文本信息聚类 |
8.4.1 一种基于二分k-Means的高效率文本聚类方法 |
8.4.2 潜在语义(主题)与聚类类目的等价性分析 |
8.5 基于潜在语义分析的领域文本信息可视化 |
8.5.1 基于潜在语义降维和坐标轴定位的可视化 |
8.5.2 基于层次化主题模型的潜在主题可视化 |
8.5.3 基于力导算法的领域知识单元网络化语义关联自适应可视化 |
8.6 本章小节 |
第9章 结束语 |
参考文献 |
致谢 |
攻读博士学位期间参加科研项目及发表论文情况 |
(6)基于异构神经网络的音频舆情分析系统研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.3 论文研究内容 |
1.4 论文组织结构 |
第二章 相关关键技术 |
2.1 语音端点检测技术 |
2.1.1 特征选取 |
2.1.2 判决准则 |
2.2 深度学习技术 |
2.2.1 卷积神经网络 |
2.2.2 循环神经网络 |
2.3 语言模型 |
2.3.1 N-gram语言模型 |
2.3.2 BERT预训练语言模型 |
2.4 FASTTEXT文本分类 |
第三章 音频语义内容识别模型 |
3.1 音频语义内容识别模型设计 |
3.1.1 音频端点检测算法 |
3.1.2 音频语义识别模型 |
3.1.3 智能纠错模型 |
3.2 音频语义内容识别模型实现 |
3.2.1 音频端点检测实现 |
3.2.2 音频语义识别模型实现 |
3.2.3 智能纠错模型实现 |
3.3 音频语义内容识别模型实验 |
3.3.1 实验数据集及环境 |
3.3.2 实验验证方案 |
3.3.3 实验结果及分析 |
第四章 融合音频情感的舆情研判模型 |
4.1 融合音频情感的舆情研判模型设计 |
4.1.1 音频情感识别模型 |
4.1.2 舆情分类体系构建 |
4.1.3 舆情指数计算模型 |
4.1.4 Fasttext舆情研判模型 |
4.2 融合音频情感的舆情研判模型实现 |
4.2.1 音频情感识别模型实现 |
4.2.2 舆情指数计算模型实现 |
4.2.3 Fasttext舆情研判模型实现 |
4.3 融合音频情感的舆情研判模型实验 |
4.3.1 实验数据集及环境 |
4.3.2 实验验证方案 |
4.3.3 实验结果及分析 |
第五章 基于异构神经网络的音频舆情分析系统 |
5.1 基于异构神经网络的音频舆情分析系统设计 |
5.2 基于异构神经网络的音频舆情分析系统实现 |
5.3 系统测试流程 |
5.3.1 数据处理模块功能测试 |
5.3.2 音频分析模块功能测试 |
5.3.3 舆情研判模块功能测试 |
5.3.4 可视化呈现模块功能测试 |
第六章 总结和展望 |
6.1 研究工作总结 |
6.2 下一步研究工作展望 |
参考文献 |
致谢 |
攻读硕士学位期间发表的论文 |
(7)基于神经肌肉生理信息的吞咽与发音功能评估方法研究(论文提纲范文)
摘要 |
abstract |
第1章 引言 |
1.1 研究背景和意义 |
1.1.1 正常吞咽功能与吞咽障碍 |
1.1.2 正常发音与构音障碍 |
1.1.3 吞咽障碍与构音障碍的同理性和普遍性 |
1.1.4 现有吞咽和发音功能评估方法存在的问题 |
1.2 国内外研究现状 |
1.2.1 现有表面肌电技术在吞咽功能评估方面的研究现状 |
1.2.2 现有表面肌电技术在发音功能评估方面的研究现状 |
1.2.3 高密度表面肌电技术的发展趋势 |
1.3 本论文拟解决的问题及目标 |
1.4 论文结构 |
第2章 实验方案设计与数据分析算法 |
2.1 实验受试者招募 |
2.1.1 吞咽实验受试者选取 |
2.1.2 发音实验受试者选取 |
2.2 吞咽实验方案 |
2.3 发元音实验方案 |
2.3.1 发元音实验方案 |
2.3.2 说中英文数字实验方案 |
2.4 实验数据预处理 |
2.5 高密度肌电可视化算法分析 |
2.6 肌肉协同分解算法 |
2.6.1 非负矩阵分解算法 |
2.6.2 肌肉协同个数的确认 |
2.6.3 肌肉协同的结构相似度评估 |
2.7 最优通道选择算法 |
2.7.1 特征提取 |
2.7.2 交叉验证 |
2.7.3 分类器 |
2.7.4 顺序前向搜索 |
第3章 吞咽过程中面颈部吞咽肌群电生理活动分析 |
3.1 吞咽肌群动态肌电信息与正常吞咽功能的对应 |
3.2 高密度动态肌电信息与吞咽障碍的关联性分析 |
3.3 吞咽过程中颈部吞咽肌群的肌肉协同分析 |
3.4 本章讨论与小结 |
第4章 发音过程中肌群电生理活动分析 |
4.1 发音过程面颈部肌群活动的动态可视化 |
4.2 正常发音过程中语音信息与肌电信息的生理相关性研究 |
4.3 发音过程中面颈部的肌肉协同分析 |
4.3.1 不同元音的肌肉协同分析 |
4.3.2 不同音量的肌肉协同分析 |
4.3.3 不同音量的激活系数分析 |
4.4 本章讨论与小结 |
第5章 基于高密度表面肌电的语音识别研究 |
5.1 语音识别中面颈部肌肉贡献分析 |
5.2 语音识别中的电极优化策略 |
5.3 本章讨论与小结 |
5.3.1 语音识别中的面颈部肌肉贡献 |
5.3.2 语音识别中的最优电极数目和位置 |
第6章 总结与展望 |
6.1 本论文总结 |
6.2 今后工作展望 |
参考文献 |
致谢 |
作者简历及攻读学位期间发表的学术论文与研究成果 |
(8)多源语音的自动切分与聚类方法研究与实现(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 前言 |
1.2 课题研究背景及意义 |
1.3 国内外相关研究现状 |
1.3.1 音频切分方法 |
1.3.2 说话人分割聚类方法 |
1.4 论文主要研究内容 |
1.5 论文结构安排 |
2 系统方案设计和数据集介绍 |
2.1 系统方案设计 |
2.1.1 音频切分模块设计 |
2.1.2 说话人分割聚类模块设计 |
2.2 数据集 |
2.2.1 音频切分数据集构建 |
2.2.2 说话人分割聚类数据集 |
2.3 本章小结 |
3 多源语音的音频切分 |
3.1 音频切分模块相关原理介绍 |
3.1.1 静音检测原理 |
3.1.2 特征提取原理 |
3.1.3 维特比算法原理 |
3.2 语音、音乐、噪声分类器搭建与训练 |
3.2.1 特征拼接 |
3.2.2 卷积神经网络分类器的构建 |
3.3 语音、音乐背景语音分类器搭建与训练 |
3.3.1 基于卷积神经网络的语音、音乐背景语音分类器 |
3.3.2 基于K-Means特征的语音、音乐背景语音分类器 |
3.3.3 特征融合模型设计与实现 |
3.4 实验设置与结果分析 |
3.4.1 评价指标 |
3.4.2 实验结果对比与分析 |
3.5 本章小结 |
4 说话人分割聚类 |
4.1 基于深度学习的说话人特征提取 |
4.1.1 基于全连接神经网络的嵌入特征提取 |
4.1.2 基于门控循环单元的嵌入特征提取 |
4.1.3 基于残差神经网络的嵌入特征提取 |
4.2 基于无界交错状态递归神经网络的说话人聚类 |
4.2.1 基于无界交错状态递归神经网络的说话人聚类原理 |
4.2.2 基于无界交错状态递归神经网络的模型训练 |
4.3 多源语音的自动切分与聚类实现 |
4.4 实验设置与结果分析 |
4.4.1 评价指标 |
4.4.2 实验结果与对比分析 |
4.5 本章小结 |
5 结论与展望 |
5.1 结论 |
5.2 展望 |
参考文献 |
攻读硕士学位期间发表的论文及成果 |
致谢 |
(9)支持产品概念设计的专利知识挖掘方法及其原型系统研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景及意义 |
1.2 产品概念设计概述 |
1.2.1 产品创新设计相关概念 |
1.2.2 概念设计的内涵 |
1.2.3 概念设计过程模型的研究 |
1.3 辅助产品创新设计的功能基和专利知识研究 |
1.3.1 产品功能的定义与表达 |
1.3.2 功能基支持产品创新设计的研究 |
1.3.3 基于专利知识辅助产品创新设计的研究 |
1.4 面向产品创新设计的专利分类与检索研究 |
1.4.1 面向产品创新设计的专利分类研究 |
1.4.2 面向产品创新设计的专利检索研究 |
1.5 存在的主要问题与本论文研究的技术路线 |
1.5.1 存在的主要问题 |
1.5.2 本论文研究的技术路线 |
1.6 论文的体系架构与主要研究内容 |
2 专利知识辅助产品概念设计过程模型及其关键技术 |
2.1 引言 |
2.2 基于功能基的概念设计求解过程模型 |
2.2.1 功能基的建立 |
2.2.2 建立基于功能基的概念设计求解过程模型 |
2.3 专利知识辅助产品概念设计过程模型 |
2.4 基于功能基的专利分类关键技术 |
2.4.1 专利获取及其标签设定 |
2.4.2 专利成分选择及预处理 |
2.4.3 特征选择与专利向量化表示模型 |
2.4.4 专利分类算法与分类性能评价 |
2.5 本章小结 |
3 基于功能基的专利分类特征权重计算方法研究 |
3.1 引言 |
3.2 专利分类中测试集专利特征权重计算方法分析 |
3.2.1 现有的无监督特征权重计算方法分析 |
3.2.2 现有的有监督特征权重计算方法分析 |
3.3 无监督的专利特征权重计算方法 |
3.4 有监督的专利特征权重计算方法 |
3.4.1 融合词-文本-类别的多层次专利特征权重计算模型 |
3.4.2 基于累积剩余熵的专利特征权重计算 |
3.5 基于语义的专利特征权重计算方法 |
3.5.1 词向量模型及基于词向量的专利特征权重计算 |
3.5.2 基于加权词向量的专利特征权重计算 |
3.5.3 基于证据理论的专利特征权重计算 |
3.5.4 基于圆周卷积的专利特征权重计算 |
3.5.5 基于卷积神经网络的专利特征权重计算 |
3.5.6 基于语义向量空间模型的专利特征权重计算 |
3.6 实验设计及结果分析 |
3.6.1 无监督的专利特征权重计算结果与分析 |
3.6.2 有监督的专利特征权重计算结果与分析 |
3.6.3 基于语义的专利特征权重计算结果与分析 |
3.7 本章小结 |
4 支持产品概念设计的专利知识挖掘与检索方法研究 |
4.1 引言 |
4.2 专利知识表示及其提取规则 |
4.2.1 专利知识的表示 |
4.2.2 专利知识的提取规则 |
4.3 基于国际专利分类表的专利知识检索意图识别与理解方法 |
4.3.1 问题的提出 |
4.3.2 建立基于国际专利分类表的意图单元 |
4.4 基于国际专利分类表的专利知识检索方法 |
4.4.1 功能动词的建立 |
4.4.2 基于国际专利分类表的专利知识检索流程 |
4.5 本章小结 |
5 支持产品概念设计的专利知识挖掘原型系统及其应用实例 |
5.1 引言 |
5.2 系统开发环境及总体框架 |
5.2.1 系统开发环境 |
5.2.2 系统总体框架 |
5.3 专利知识挖掘原型系统开发及其应用实例 |
5.4 本章小结 |
6 总结与展望 |
6.1 全文总结 |
6.2 工作展望 |
参考文献 |
攻读博士学位期间取得的科研成果 |
攻读博士学位期间参与的科研项目 |
致谢 |
(10)面向图像识别的深度学习可视化解释技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.1.1 面向图像识别的深度学习技术进展 |
1.1.2 深度学习面临不可解释的挑战 |
1.2 研究现状分析 |
1.2.1 可解释性方法的研究现状 |
1.2.2 可解释性方法的攻击与防御方法研究现状 |
1.3 本文研究内容与结构安排 |
1.3.1 本文研究内容 |
1.3.2 本文结构安排 |
第二章 基于显着图可视化的CNN可解释性方法对比研究 |
2.1 可视化方法 |
2.1.1 基于扰动的方法 |
2.1.2 基于反向传播的方法 |
2.1.3 类激活映射 |
2.1.4 激活最大化 |
2.1.5 其它方法 |
2.2 可视化方法的特点比较 |
2.3 实验与分析 |
2.3.1 基于扰动、基于反向传播和类激活映射方法的实验 |
2.3.2 激活最大化方法的实验 |
2.4 本章小结 |
第三章 基于空间-通道注意力的类激活映射方法 |
3.1 引言 |
3.2 类激活映射与注意力机制 |
3.2.1 类激活映射 |
3.2.2 注意力机制 |
3.3 提出的方法 |
3.3.1 类激活映射可视化框架 |
3.3.2 类激活权重分析 |
3.3.3 基于空间-通道注意力的类激活映射 |
3.4 实验与分析 |
3.4.1 实验设置 |
3.4.2 类激活权重可视化 |
3.4.3 类激活图可视化 |
3.5 本章小结 |
第四章 基于区分性反卷积的细粒度显着图可视化方法 |
4.1 引言 |
4.2 提出的方法 |
4.2.1 PGrad-CAM |
4.2.2 区分性反卷积 |
4.2.3 算法的过程 |
4.2.4 与现有方法的比较 |
4.3 实验与分析 |
4.3.1 实验设置 |
4.3.2 定性评估 |
4.3.3 定量评估 |
4.3.4 弱监督实例分割实验 |
4.3.5 显着图后处理中缩放参数的影响 |
4.3.6 逐层反卷积的细节分析 |
4.4 本章小结 |
第五章 基于对抗补丁的显着图攻击方法 |
5.1 引言 |
5.2 对抗样本与对抗补丁 |
5.2.1 对抗样本的基本原理 |
5.2.2 攻击解释方法的对抗样本 |
5.2.3 对抗补丁 |
5.3 提出的方法 |
5.3.1 Grad-CAM符号定义 |
5.3.2 显着图攻击方法 |
5.3.3 可泛化的通用对抗补丁 |
5.3.4 扩展到对抗样本 |
5.3.5 对攻击方法的原理分析及比较 |
5.4 实验与分析 |
5.4.1 实验设置 |
5.4.2 攻击结果与分析 |
5.4.3 不同模型上的攻击结果比较 |
5.4.4 通用对抗补丁实验 |
5.4.5 对抗样本实验 |
5.5 本章小结 |
第六章 基于随机扰动的显着图对抗样本防御方法 |
6.1 引言 |
6.2 问题定义与敌手模型描述 |
6.2.1 问题定义 |
6.2.2 敌手模型描述 |
6.3 提出的方法 |
6.3.1 算法的出发点 |
6.3.2 算法的过程 |
6.4 实验与分析 |
6.4.1 实验设置 |
6.4.2 攻击过程的细节分析 |
6.4.3 针对Grad-CAM和 LRP的对抗样本防御实验 |
6.4.4 不同可视化方法的对抗样本防御效果比较 |
6.5 本章小结 |
第七章 总结与展望 |
7.1 工作总结 |
7.2 研究展望 |
致谢 |
参考文献 |
附录 A 软件:可解释性知识推理原型系统 |
附录 B 软件:智能会议听抄系统 |
作者简介 |
四、ENERGY CALCULUSIN CHINESE LANGUAGE SEGMENTATION(论文参考文献)
- [1]基于深度学习的中文语音合成的研究和实现[D]. 张灏. 北京邮电大学, 2021(01)
- [2]基于深度神经网络的文本生成技术研究[D]. 黄鹂. 电子科技大学, 2021(01)
- [3]教育部关于印发普通高中课程方案和语文等学科课程标准(2017年版2020年修订)的通知[J]. 教育部. 中华人民共和国教育部公报, 2020(06)
- [4]基于语音和文本的课堂情绪识别研究[D]. 易冠先. 华中师范大学, 2020(01)
- [5]面向领域中文文本信息的潜在语义分析研究[D]. 岑咏华. 南京大学, 2010(05)
- [6]基于异构神经网络的音频舆情分析系统研究与实现[D]. 姜海坤. 北京邮电大学, 2021(01)
- [7]基于神经肌肉生理信息的吞咽与发音功能评估方法研究[D]. 朱明星. 中国科学院大学(中国科学院深圳先进技术研究院), 2021(01)
- [8]多源语音的自动切分与聚类方法研究与实现[D]. 苏悦. 西安工业大学, 2021(02)
- [9]支持产品概念设计的专利知识挖掘方法及其原型系统研究[D]. 唐忠. 四川大学, 2021(12)
- [10]面向图像识别的深度学习可视化解释技术研究[D]. 司念文. 战略支援部队信息工程大学, 2021(01)