一、中文文本挖掘中姓名特征提取技术的研究(论文文献综述)
陈彦光[1](2021)在《面向法律文书的实体关系抽取算法研究》文中进行了进一步梳理由于司法流程公开与共享的不断推进,我国的司法大数据公开化已趋于成熟,蕴含于法律文书中的丰富法律信息成为了值得深入研究的珍贵资源。但由于法律文书以自然语言形式进行记录,机器难以直接对文档内容进行理解和分析。因此,通过文本挖掘技术对非结构化的司法领域文本进行信息提取和结构化存储,对司法领域信息化发展以及司法效率的进一步提高都具有积极意义和深远影响。文本挖掘中的实体识别和关系抽取技术对于法律文书中关键信息的提取至关重要。文本挖掘技术旨在从文本中提取出有效信息并形成结构化的三元组,从而对文本内容进行更好的理解和应用。基于此,本文首先提出了基于刑事案例的多粒度信息抽取方法,针对法律文书的结构化信息抽取,定义了案例信息存储结构,并构造语法规则集提取各项信息。针对案情描述中的细粒度实体关系信息,通过训练基于神经网络的案情三元组抽取模型进行提取。考虑到不构成关系的实体信息带来的影响,通过改进关系抽取模块的训练阶段,实现模型性能上的进一步提高。为使实体识别和关系抽取阶段的模型学习到的信息可以进行更好的交互,并且应用中文司法领域具有的领域特性和领域知识,本文提出了融入司法特征表示的实体关系联合抽取方法,该方法针对于特定案件建立法律特征词典,通过自注意力机制将词典特征融入模型编码器部分,采用编码器-解码器模型得到对应三元组的向量表示,继而进行实体和关系的提取。实验结果表明,该方法对实体关系信息交互的学习及引入的融合司法特征编码器可以有效地提高模型性能。针对处理多罪名案件文书的实际业务需求,本文探索了多任务学习在多罪名实体关系抽取任务上的应用。通过引入罪名分类任务加强案情实体关系抽取模型对文本的建模能力。实验结果证明,与单任务模型相比,引入罪名分类任务进行多任务学习F1值提高了1.6%,同时,本文提出的多任务方法可以在不同罪名的数据集上都获得提升,验证了该方法的有效性。
董红松[2](2021)在《司法诉讼案件文本挖掘若干关键技术研究》文中进行了进一步梳理案件文本作为案件描述的主要载体,已经成为重要的司法领域参考资源,为法律人工智能提供了数据基础。采用有效的文本挖掘手段从案件文本中快速准确的自动提取出有用的信息,形成的结构化数据对司法案例分析数据库的建设具有重要意义。司法案件的命名实体识别、要素抽取和判决预测作为建立案例分析数据库的有效手段,可为司法实践和案例预判提供参考依据,实现同案同判,促进司法公平,对司法案件智能化处理有较大的推动作用。近年来深度学习技术的发展将以数据驱动为策略的自然语言处理研究推向新的高潮,并展现出潜在的应用价值。为此,本文主要采用基于深度学习方法的司法领域案件文本挖掘技术,来对司法领域文本命名实体识别、要素抽取和案件判决预测三个任务展开研究。主要研究内容如下:(1)基于迁移学习的歧义型命名实体识别方法研究:通过研究司法领域命名实体识别任务数据特点,归纳总结了实体基本类型,扩充了领域语料库;根据不同实体类型,研究了面向命名实体任务的预训练方法。针对实体理解的差异性问题,给出了一种利用迁移学习实现消除实体歧义的命名实体识别方法。根据预训练模型学习到的通用知识来拟合下游神经网络,对文本字符级别词向量层次特征进行表示,利用文本的上下文依赖信息,实现上下文双向特征的提取并有效解决命名实体任务边界划分问题,通过实验验证了所提方法的有效性;以基本实体为基础,制定了三级别法律本体NERP、NERCGP和NERFPP,对司法领域命名实体识别语料库进行了扩充,为司法诉讼案件要素抽取提供了标注规范。面向不同级别的实体,给出了实体识别结果,为司法领域命名实体识别提供了新思路。实验结果表明,该方法相比现有方法,提高了实体识别效果。(2)融合领域知识的深度神经网络要素抽取方法研究:以文本分类为基础,根据事实要素与要素描述间的关系,分别构建了基于多元二分类和多标签分类的要素抽取方法;以命名实体识别法律本体为标注规范,建立了要素抽取工作的要素标签体系,为监督型的要素抽取工作提供了技术支持。针对司法领域诉讼案件要素复杂、领域知识缺乏的特点,提出了一种融合领域知识的深度神经网络要素抽取方法,首先根据无监督数据知识,给出了拟合司法领域数据的权重参数来提高下游模型抽取效果。然后构造了“句子对”监督类型数据并结合词性信息作为网络输入来增强模型的理解和泛化能力。最后通过构造深度循环卷积神经网络为捕捉分散在不同句子中的要素描述信息提供了有效手段。实验表明,深度循环卷积神经网络可以有效挖掘事实要素的深层次特征,提高要素抽取准确率,进而提升网络性能。(3)面向数据特性的案件判决预测方法研究:对司法案件的文本数据进行深入研究,提出了一种面向不平衡数据的联合神经网络司法案件判决预测方法。该方法构造了关键词特征向量,建立了实例权重方案以及数据平衡策略,缓解了数据不平衡问题;在此基础上,根据任务中多标签之间的共现模式对联合神经网络进行初始化,统计共现模式出现的频率并结合主成分分析进行降维实现案件的判决预测,增强了模型对罪名和法条特征的认识能力。实验结果表明,所提方法为不平衡数据的案件判决预测提供了有效手段,能够有效提高案件判决预测结果。
刘音[3](2021)在《基于文本挖掘的网购产品评论稳健情感分类研究》文中进行了进一步梳理随着互联网的快速发展,人们的日常购物场所逐渐由线下实体店转为线上网店,其中,消费者购物体验后的评论作为一种重要的市场反馈,在网络销售和顾客商品选购中有着重要应用,且近来随着越来越多的人适应这种网购模式,其规模正日益增大。考虑到,对于网购用户而言,相关评论数据可能影响用户的最终购买决定,而对于商家而言,评论数据可作为其获取经营决策信息,提炼出对消费者和商家有价值的信息的重要基础,因此,如何对网购评论数据进行分析和挖掘,并有效利用蕴含其中的有益信息正成为商品评论情感分析的重要研究方向。但值得注意的是,对这种数据的挖掘以及分析方法和传统的方法有所差异,网络购物用户评论是非结构化数据,传统的数据挖掘方法已不适用于网络购物用户评论的分析。有鉴于此,现有文献对此开展了大量前期研究。不过值得一提的是,现有方法易受异常值影响,在实际中存在较大局限性。针对这一问题,本文在稳健聚类分析方法的基础上,重点考察了如何将构建词典法、机器学习方法及深度学习的相关方法应用于对评论数据进行情感倾向分类分析。本文主要以京东商城平台上的华为P40Pro和华为P40手机为例,爬取了近20000条评论数据,并且利用词云图可视化技术和建立LDA主题模型对评论数据进行语义挖掘分析,提取评论数据的关键词与主题。最终分析结果显示,本文运用稳健方法其结果更贴近客观实际。从产品款型角度来看,华为P40pro比华为P40的好评率要更高,主要体现在拍照功能和运行速度等等这几个方面。华为P40比华为P40pro更受欢迎的地方在于其小巧、方便使用及性价比等方面。从消费者分类角度看,会员与非会员对手机所专注的性能与功能大同小异,从所收集到的数据看,会员消费者更加关注于手机性能、内存以及系统是否满意等,而非会员消费者主要关注手机外观是否漂亮、拍照是否清晰及产品的性价比等。从手机特征角度来看,屏幕、性价比、物流、音质等方面尚有待改进,尤其是屏幕和性价比,而手机外观设计及功能和客服服务,均得到了用户的普遍认可。本文通过对结果进一步的分析,比较基础版与升级版的评价,会员和非会员的需求,分析消费者需求是否与商家提供的产品吻合,更加直观反映消费者需求以及产品需要改造升级的地方,充分利用评论数据反映的信息,对商家以及消费者提出合理建议。
张茜茜[4](2021)在《基于文本挖掘的企业技术创新指标体系构建方法研究》文中指出技术创新是企业生存与发展的根本,是国家经济和社会发展的动力和保。正确分析和价企业的技术创新力,是企业发现、分析原因、寻求对策、从得竞争优势的手段。传统的企业技术创新价研究,主头暴、列名群体决策、德尔等方法,依据专家的知经确定企业技术创新力的影响因素,构建价指标体系。种传统方法往往受专家意的主因素影响,不同价基于不同的景知和经,对同一企业的技术创新力估价,会构建出不一样的指标体系,往往会出现大相径庭的结果,估结果的主性加大,很从整体上客全地反映企业技术创新力的影响因子。研究中发现,多企业在发展程中,积累了各种形态的技术文档和数据,其中含着本企业技术创新力的关信息,如何从些海的结构化和结构化数据中挖掘信息,提取线索,形成方法,为企业技术创新提供助决策,是大数据时代下的一大挑战。因此,对目前企业技术创新价指标择主性大、片性强、更新及时性不的,本文以收到的400余家企业技术创新文本数据为依托,在大数据和企业技术创新相关研究的基础上,结合交叉科学思想与方法,将企业技术创新理、知管理理与文本挖掘、机器学习、本体理、义网络等方法相结合,研究提出了一套基于文本挖掘的企业技术创新域指标体系构建方法,改的基于义概念模型的知类、知分类、知挖掘等方法实现企业技术创新域知的别与发现、知划分以及知关分析,对企业技术创新力影响因素全客研究。归纳来,本文的主研究内容与成果如下:(1)研究建立了企业技术创新指标体系构建方法框架。先对收到的企业技术创新相关结构化文本数据然处理,并基于域本体的半动化构建模块和基于域本体的义示模块对文本数据基于概念的义示。在此基础上,利用文本挖掘技术基于概念义模型的文本类、文本分类和文本关分析,从实现企业技术创新域指标体系构建,包括数据收、知组织与示和知挖掘分析的三个层次的框架。(2)研究提出了构建企业技术创新域本体并基于域本体义概念示的方法。本文文献知图研究方法对企业技术创新域关提取,并构建了企业技术创新域的种子本体,然后提出了一种基于LDA主模型的、向企业技术创新域本体的动扩展方法,丰富和完善了域本体知,并改了传统的空向模型,用企业技术创新域本体的概念替代文本中的关,加强概念的义特征描,提文本示的准确性。(3)研究提出了基于义概念模型的企业技术创新域知类分析方法。本文提出一种基于义概念模型改的文本类算法,利用构建的企业技术创新域本体关与域本体概念的映射,提出的基于域本体的义相似度和相关度算法,得到概念的义相似度和相关度矩,据此基于概念义相似度和相关度的关类。本文提出的基于义概念模型的企业技术创新域知类分析方法,不仅决了概念义关系的,且实现了企业技术创新域的关因素类,其类结果可以作为企业技术创新指标体系的一级指标。(4)研究提出了基于义概念模型的企业技术创新知分类分析方法。本文提出了一种基于义概念模型的文本分类算法,以企业技术创新域知类结果作为目标类别,算文本文档中关特征与类别的义相似度和相关度的加权最大值,得文本所属的类别。本文提出的基于义概念模型的知分类方法不仅可以决概念义关系,且可以实现对无标注的企业技术创新域的文本数据的知分类,其分类结果可以作为企业技术创新指标体系的二级和三级指标。(5)研究提出了基于义概念模型的企业技术创新知关分析方法。本文提出了一种基于义概念模型的知关分析方法,利用构建的企业技术创新域本体和基于域本体的概念义离算方法,对挖掘到的关则义兴度排序,并结合改的FP-G h算法,实现了基于义概念模型的知关分析。本文提出的基于义概念模型的知关分析方法不仅在性上优于传统的关分析方法,决了概念义关系的并且发现了企业技术创新指标体系中指标之的潜在关关系,其结果可以为企业发现技术创新力影响因子之的作用模式与程度提供参。(6)开展了企业技术创新指标体系构建方法应用研究。本文收了北京市400余家企业技术中心关于技术创新方相关的数据,并对400余家企业了实研究。本文先文本数据收与处理模块,对企业技术创新数据了整理和处理;然后基于义概念示模块,构建了企业技术创新域本体,并基于域本体义概念示;最后基于义概念模型的知挖掘模块,对企业技术创新域知基于义概念模型的知类分析、知分类分析以及知关分析,构建了北京市企业技术创新指标体系并分析了指标之潜在的关关系。与传统基于专家群体决策法构建的企业技术创新指标体系对比与,本文提出的基于文本挖掘的企业技术创新指标体系是客的、全的、够及时更新的,可以有效决由传统专家群体决策择的指标体系主性大、片性强、及时更新性不等。
谢静怡[5](2021)在《石油文摘文本挖掘的可视化研究及应用》文中指出石油和天然气公司的数据资源非常丰富,但是存在数据量大、数据类型多、存储格式复杂等问题,目前大多数研究都只是基于传统的统计方法和图表形式进行分析,所以采用文本挖掘对分析文本数据具有一定的意义。本文的中文文本来源为中国知网中石油相关的期刊和硕博士论文,英文文本为石油工程协会的会议论文。由于Python具有强大的编程功能,提供数据加载、自然语言处理、图像处理和可视化等多样的库,本文选用Python进行文本挖掘分析。论文有关中文文本挖掘可视化研究及应用,首先针对中文文本的预处理,通过Jieba分词去除停用词计算出频率较高的词语,形成词云图;接着进行特征提取计算TF-IDF值,根据计算结果生成直方图进行可视化展示;然后通过K-Means聚类生成聚类图,通过层次聚类生成树状图;最后通过LDA主题模型的分析,进行主题模型的主题和关键词的可视化呈现。论文有关英文文本挖掘可视化研究及应用,首先介绍英文文本挖掘不同于中文文本挖掘的技术;其次进行英文文本的预处理,主要包括转化为小写、词干提取与词形还原;然后进行特征提取形成排序完成的词语及其TD-IDF值的文档并进行词云图和直方图的可视化展示;最后进行分类算法的准确度对比分析,验证了算法的有效性。对石油相关文摘进行可视化研究及应用,不仅可以分析某个时间段内石油行业的重点研究内容,还可以对比分析了解差别,探索石油行业的发展规律,重视石油行业的历史演变的前因后果,依据石油工业的态势发展进行有效的预测。文本挖掘与可视化目前仍存在诸多问题尚未解决。文本挖掘可视化技术需要适应不同规模、不同数据格式和质量欠缺的文本数据;需要提高文本挖掘可视化分析的效率以便处理大规模数据;需要逐步帮助大众认可并接受文本挖掘可视化技术对日常生活的影响。
覃婷婷[6](2020)在《基于深度主题模型的专利文献对比分析》文中研究表明随着科技的快速发展,知识产权对于各企业、个人、研究院所、高校来说,都是重要的竞争力量,有效保护知识产权不受侵害是保护自身竞争力的必要措施。而对于专利申请人来说,比较专利申请与现有专利技术文本,规避与现有专利技术的相似部分,能有效提高专利申请的授权率。本文首先研究了当前国内外专利对比分析的方法以及相关应用。目前的专利对比分析技术主要是基于文本挖掘技术和可视化技术。基于文本挖掘技术的专利分析是一种采用分析工具从自然语言专利文本中获取有意义的知识信息的方法。通过从大量文本数据中识别和检测重要模式,获取重要信息。但是文本挖掘技术对于专利文本来说,无法正确表示技术概念,且在识别同义词方面也存在很大限制。可视化的专利对比分析技术是利用可视方式展示专利信息,这有利于人工分析专利结果。例如,可利用专利图谱或者专利网络的方式来了解特定领域的专利技术趋势。但是,可视化的技术也用到了文本挖掘技术,通过文本挖掘技术来提取有效模式,然后可视化构建有利于分析的专利图谱或网络。在当前的技术基础上,本文的研究工作主有两个:一是基于深度主题模型的专利文献分类;二是一对多的专利对比分析。现有的专利分类技术主要采用的是传统的文本分类技术,采用文本挖掘技术提取文本的特征,然后根据提取的特征进行文本分类。本文采用深度主题模型来提取专利文本的主题分布,然后根据主题分布进行专利文本的分类。并且,本文在经典主题模型的基础上引入了单词嵌入和主题嵌入并通过注意力机制将单词嵌入和主题嵌入融合到主题模型中。因为单词嵌入和主题嵌入考虑了单词的位置信息,这弥补了经典主题模型将文本简单看作词袋的缺陷,同时,在一定程度上了弥补了语义信息不足的问题。本文的一对多专利对比分析框架比较了目标专利和相似专利集的相似部分,并生成了可读性较好的专利对比分析报告。一对多的专利对比分析框架主要包括三个步骤:一是基于自然语言处理技术提取专利技术特征;二是基于专利技术特征-专利文本多关系图模拟技术特征与专利文本之间的相关关系;三是利用技术特征之间的相似度和技术特征与专利文本的相关性向量建立目标规划函数,选择最能表示专利对比分析结果的技术特征生成专利对比分析报告。实验证明,本文基于深度主题模型的专利文献分类较传统的分类模型具有更好地效果,一对多的专利对比分析框架可以有效提取专利的技术特征并生成了可读性良好的专利对比分析结果,这有利于专利申请人和专利审核专家对专利申请做出明确的判断,在大大节省时间的同事也提高了工作效率。
李轩冰[7](2020)在《基于文本挖掘技术的网络热点新闻系统的研建》文中进行了进一步梳理针对新闻内容复杂多样的特性和目前传统的新闻搜索对用户的需求结果不能完全把控的问题,本文的主要工作是研究常用的新闻文本挖掘算法和文本类搜索召回算法的效果和规律,通过分析用户在搜索行为中的搜索词语和新闻文本本身的特性,探索将用户的搜索词语和新闻的文本信息定义并且抽象化为特征的形式,将传统的新闻搜索转化为用户和新闻机器人的对话模式,为进一步提高对用户搜索结果的精准度和使用的满意度提供支撑。为了实现对话形式的智能新闻搜索,首先,选取合适的新闻数据源,编写网络爬虫爬取新闻,本文旨在为用户提供热点新闻,所以爬虫爬取的是网站每日热榜新闻。本文对比了四家主流新闻网站,最终选取新浪新闻网站为系统提供数据。然后,将谷歌提出的基于 Transformer 的双向编码器表征(Bidirectional Encoder Representations from Transformers,BERT)与基于条件随机场和双向长短时记忆神经网络的命名实体识别方法结合作为命名实体识别模型的构建方法,并用BERT优化TextRank的特征抽取和向量化的过程,实现新闻主题和摘要的抽取。用户进行智能对话时,命名实体识别模型识别用户聊天内容,并返回识别出的实体所对应的新闻主题、摘要和原文链接信息,用户可以通过主题和摘要快速了解新闻内容,并且通过原文链接详细浏览新闻内容。本系统在模型训练的收敛性、准确率、召回率等方面均有明显的提升,尤其在捕捉句子中的重要信息上有较好的表现,智能新闻检索将用户的搜索词语特征与新闻的核心信息特征进行匹配,获取更能结合用户意向的更智能的新闻信息结果。为了实现一个完整的新闻平台系统,本文通过网页开发技术搭建了新闻系统和新闻管理系统,新闻系统实现了用户智能新闻聊天、浏览热点新闻、新闻搜索以及评论点赞等功能,新闻管理系统为管理员用户提供了用户管理、新闻管理、新闻审核、用户评论管理等功能。本文中的新闻平台系统实现了完整的新闻网站的运营和管理功能。
刘冠东[8](2020)在《基于文本挖掘的主题投资探索性研究》文中研究指明随着互联网及社交媒体的蓬勃发展,社交平台的文本信息潜移默化地影响着投资者的投资行为,市场舆情直接影响到投资者心理和行为,因此,投资主题风格轮动是市场驱动的重要因素。运用投资者产生的海量互联网文本信息数据,准确地给出主题相关概念股的投资建议,对投资者的投资分析模式理论探索和实践操作均将有极大现实意义。本文通过对股吧文本进行深入分析挖掘,首次在量化投资领域构建了一种基于主题挖掘及情感分析相结合的投资策略模式。方法主要基于隐狄利克雷分布(LDA)算法模型,对东方财富网财经评论吧的文本进行主题挖掘,实现了股市每日舆论热点监测;接着为改进主题挖掘结果的独特性,设计了信息熵指标进一步过滤主题干扰词,该方法有效地降低了主题的困惑度及提升了主题间的差异性;针对主题模型挖掘出的主题是随机的,与金融市场认可的主题不匹配的问题,本文以市场已有概念——新能源汽车主题为例,利用已调优的主题模型抽取该主题的关键词建立主题词库,设计了“主题得分”指标进而实现从股吧舆情中提取出该主题的热度并实施每天自动监测,完成了主题热度的量化工作。接下来本文基于此构建了量化投资策略并进行实证分析:首先针对2019/01/01-2020/02/29期间的股吧舆情挖掘提取出新能源汽车主题得分,将其与新能源汽车指数超额收益波动做了相关性检验,选择了与主题得分显着相关的主题关联股票作为投资股票池。就此对股池的个股爬取同时期的股吧评论,运用文本分类算法进行情感分析后构造了“看涨”情绪指标以辅助策略择时信号的生成;最后利用“主题得分”+“看涨指标”结合均线策略,建立了一种基于股吧文本的“主题+情感”的量化投资新策略模式,在聚宽平台进行历史回测后证实策略有效且表现良好,从而为投资者提供了一种新的投资策略模式参考,同时也证明了股吧文本中的确蕴含对于主题投资决策有价值的信息。
付晓倩[9](2020)在《基于文本挖掘的事件关联分析及可视化研究》文中认为由于互联网发展的越来越快速,网络资源呈现了爆炸式的增长,事件文本数据也在指数性的提高。在事件之间存在多重且复杂的关联,正确分析其中的关联性可以使人们更快捷且清楚地了解事件,因此如何获取大量数据中的关联成为亟待解决的问题。在事件关联分析的过程中,由于网络资源存在不确定性、瞬时变化性等多种原因,需考虑选取数据完整、事件丰富、稳定可控的数据进行分析,故本文以名着文本作为研究载体,试图完成文本事件的关联分析研究,为其他工作提供一定的社会参考价值。本文主要工作及创新点主要包含以下三个方面:(1)数据的预处理工作:将文本数据进行分词、去除停用词及词性的标注,并在分词过程中进行优化,使得分词的正确率从48.3%提高到78.9%。(2)事件抽取及关联性分析:在事件抽取阶段选择事件的命名实体和核心触发词等要素,之后针对抽取出的要素进行关联分析,主要包括事件的组成关系、核心动词的连接以及事件文本的整体分析。(3)数据可视化分析:采用知识图谱的构建方式,通过面向特定领域的数据可视化工具来提出相关的解决方案,并将事件的分析结果清晰明了的展示在平台中。
洪明[10](2020)在《面向产品和服务的网购平台关键问题挖掘研究》文中指出随着电子商务的蓬勃发展,网购平台聚集了众多的商家,为消费者提供多种多样的产品。面对日趋广阔的网络市场和日益激烈的同行竞争,研究网购平台如何优化其产品和服务,从而提高消费者的满意度和忠诚度,增加产品销量具有必要性和现实意义。在网购平台运营和发展的过程中,产生了海量的与消费相关的数据,包括产品评论、消费者投诉文本、广告业务数据。这些数据包含了网购平台中产品和服务的相关信息,因此,本论文从数据挖掘和文本挖掘的角度提出解决思路,为网购平台优化其产品和服务提供有效的技术、理论与方法。本论文的研究思路如下:(1)产品评论中包含的大量噪声词和无关词会带来很多噪声和无关的内容,而文本特征选择方法能够从中筛选出与产品优缺点相关的关键词,为生成产品评论摘要减少大量噪声。(2)面对海量的产品评论,商家需要花费大量的时间从中获得有关产品的重要信息,而产品评论摘要生成方法能够根据产品评论生成简洁易读的摘要,解决海量产品评论带来的“信息爆炸”问题。(3)网购流程的优化有利于提高消费者的购物体验,规范对商家的管理,减少购物纠纷,而目前有关网购平台服务质量的研究基本是从平台的整体入手,没有从网购流程的角度出发,研究其存在的问题并提出优化策略。基于消费者投诉文本,结合文本挖掘和服务科学模型的网购流程优化方法,既能在一定程度上避免了经验的限制,样本量不足和数据偏性等问题,又能反映消费者最关注的服务问题。(4)无效广告的投放为商家带来的收益远低于其投放成本,因此,提高有效广告识别率,帮助商家及时发现并移除无效广告,节省广告成本,是一个亟待解决的问题。基于客观的业务数据的广告分类模型,能够一定程度避免当前广告效果评价的研究中数据样本量不足,数据偏性,主观性强,量化困难等问题,有效解决有效广告和无效广告的分类问题。本论文的研究内容如下:(1)基于两种经典的深度学习模型卷积神经网络和长短期记忆网络,分别设计了对应的特征选择方法。首先,阐述提出的两种特征选择方法的具体原理,包括进行特征选择的步骤,深度学习模型的结构和训练。然后,基于多个来自网络的公开数据集,从分类性能、语义性能、存储性能三个角度,将提出的方法与传统的特征选择方法进行比较,验证方法的有效性。最后,基于分类性能、语义性能、存储性能三个角度的实验结果,对比分析提出的两种方法的性能差异。(2)结合词性规则、特征选择方法、主题模型和深度学习模型设计了产品评论摘要生成方法。第一,阐述产品评论摘要生成方法的具体原理,包括词性规则的设定,特征选择方法、主题模型和深度学习模型的作用。第二,利用从网络搜集的产品评论数据集对提出的方法展开实例分析,通过结果验证方法的有效性。(3)基于文本挖掘和服务科学模型设计了网购流程优化方法。第一,利用提出的产品评论摘要生成方法,从消费者投诉文本中挖掘网购流程存在的问题。第二,利用服务科学的模型“过程链网络”,结合发现的网购流程中的具体问题,提出网购流程优化的针对性策略。(4)提出了基于高斯滤波和决策树的广告分类模型。第一,阐述了分类模型的具体原理,包括高斯滤波对业务数据的作用,决策树的参数设置。第二,通过现实的广告业务数据验证了模型的有效性。本论文的创新点如下:(1)提出的基于深度学习的特征选择方法,为目前特征选择的研究提供了新的思路。将深度学习模型应用于特征选择,结合深度特征与传统的词频信息设计更有效的特征选择方法。对深度学习模型采取无指导的训练方法,提高了方法对无指导文本的适用性。(2)提出的综合多种方法优势的产品评论摘要生成方法,丰富了目前产品评论内容挖掘的研究。结合词性规则、主题模型和特征选择设计了三层信息提取机制,保证提取的信息能够反映产品评论的重要内容。利用特征选择方法提供了一种交互机制,用户能够从特征选择提供的关键词中选择其需要了解的产品属性。依托深度学习模型“长短期记忆网络”自主学习文本信息以及文本预测的优势,从提取的信息中学习关键信息,自动生成摘要。(3)提出的结合文本挖掘和服务科学模型的网购流程优化方法,扩展了当前网购平台服务质量的研究。将提出的产品评论摘要生成方法和服务科学模型运用到网购流程优化中,对消费者最关注的网购流程问题展开讨论和优化,避免人为经验的限制和调研方法中可能存在的样本不足或数据偏性等问题。(4)提出的基于业务视角的广告分类模型,为当前广告效果评价的研究提供了新的思路。采用高斯滤波调整原始业务数据的分布,缓解特征工程、主成分分析等方法处理业务数据都无法避免的有效和无效广告在分类过程中由于特征不明显而难以区分的问题。利用C5.0决策树构建了分类器,提高有效广告识别率,帮助商家尽早移除无效广告,降低成本。综上,网购平台(商家)可以从产品评论、网购流程和广告三个方面优化其产品和服务,提高消费者的满意度和忠诚度,增加产品销量,具体的建议包括:定期分析产品的优缺点以及时调整销售策略,定期分析和优化网购流程以提供高效的服务,以及定期优化广告投放策略以提高消费者的购物体验。
二、中文文本挖掘中姓名特征提取技术的研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、中文文本挖掘中姓名特征提取技术的研究(论文提纲范文)
(1)面向法律文书的实体关系抽取算法研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景 |
1.2 研究现状 |
1.2.1 实体关系抽取研究现状 |
1.2.2 司法领域自然语言处理技术研究现状 |
1.3 本文工作 |
1.4 本文结构 |
2 相关理论与技术 |
2.1 文本向量化表示 |
2.1.1 词向量 |
2.1.2 预训练语言模型 |
2.2 神经网络模型 |
2.2.1 循环神经网络 |
2.2.2 注意力机制 |
2.3 实验数据集与评价指标 |
2.3.1 实验数据集 |
2.3.2 评价指标 |
3 基于刑事案例的多粒度信息抽取 |
3.1 引言 |
3.2 方法 |
3.2.1 司法案例信息识别 |
3.2.2 案情三元组抽取模型 |
3.2.3 训练及预测过程 |
3.3 实验结果与分析 |
3.3.1 案例信息识别结果 |
3.3.2 三元组抽取实验数据与参数设置 |
3.3.3 案情三元组抽取实验 |
3.3.4 不同训练策略对案情三元组抽取性能影响实验 |
3.4 本章小结 |
4 融合领域词典知识的案情实体关系联合抽取 |
4.1 引言 |
4.2 方法 |
4.2.1 融合毒品词典知识的编码器 |
4.2.2 法律三元组序列解码器 |
4.2.3 序列标注辅助训练过程 |
4.3 实验结果与分析 |
4.3.1 数据集与参数设置 |
4.3.2 融合词典知识的案情实体关系抽取模型结果 |
4.3.3 融合毒品词典知识对性能影响实验 |
4.3.4 序列标注层辅助训练对性能影响实验 |
4.4 本章小结 |
5 基于多任务学习的多罪名实体关系抽取 |
5.1 引言 |
5.2 方法 |
5.2.1 单任务模型 |
5.2.2 多任务模型 |
5.2.3 训练过程 |
5.3 实验结果与分析 |
5.3.1 数据集与参数设置 |
5.3.2 基于多任务学习的多罪名实体关系抽取实验 |
5.3.3 其他加权方式对模型性能影响实验 |
5.3.4 共享特征向量权值变化分析 |
5.4 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表学术论文情况 |
攻读硕士学位期间参加学术评测和获奖情况 |
攻读硕士学位期间发明专利申请情况 |
攻读硕士学位期间参加科研项目情况 |
致谢 |
(2)司法诉讼案件文本挖掘若干关键技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 诉讼案件命名实体识别研究现状 |
1.2.2 诉讼案件事实要素抽取研究现状 |
1.2.3 诉讼案件判决预测研究现状 |
1.3 存在的问题 |
1.4 本文主要研究思路和内容 |
1.5 章节安排 |
第2章 文本挖掘相关理论基础 |
2.1 文本挖掘技术 |
2.2 司法领域案件文书数据特点 |
2.2.1 命名实体识别任务案件数据特点 |
2.2.2 案件要素抽取任务数据特点 |
2.2.3 案件判决预测任务数据特点 |
2.3 司法领域文本挖掘相关工作 |
2.3.1 序列标注 |
2.3.2 文本分类 |
2.3.3 文本表示 |
2.3.4 多标签预测 |
2.3.5 神经网络 |
2.4 本章小结 |
第3章 面向司法领域的命名实体识别方法研究 |
3.1 引言 |
3.2 基于迁移学习的歧义型命名实体识别方法 |
3.2.1 预训练模型 |
3.2.2 数据集标注 |
3.2.3 输入数据词向量表示 |
3.2.4 模型深层次编码 |
3.2.5 BiLSTM-CRF模型 |
3.2.6 基于自编码模型预训练词嵌入的BiLSTM-CRF模型 |
3.3 实验与分析 |
3.3.1 实验设置 |
3.3.2 与其他方法性能比较 |
3.3.3 数据标签类别对结果的影响 |
3.4 本章小结 |
第4章 司法案件事实要素抽取方法研究 |
4.1 引言 |
4.2 融合领域知识的深度神经网络司法领域事实要素抽取方法 |
4.2.1 无监督民事案件句子知识 |
4.2.2 监督类型的民事案件句子对知识 |
4.2.3 基于POS信息的词嵌入表示 |
4.2.4 基于微调RoBERTa的浅层特征获取 |
4.2.5 基于循环卷积门控单元的深层次特征提取 |
4.2.6 模型输出 |
4.3 实验与分析 |
4.3.1 数据预处理 |
4.3.2 实验设置和评价指标 |
4.3.3 消融研究 |
4.3.4 与其他方法对比 |
4.3.5 对模型泛化能力的评估 |
4.3.6 误差分析 |
4.4 基于文本命名实体标注的案件事实要素抽取工作 |
4.5 本章小结 |
第5章 面向数据特性的案件判决预测方法研究 |
5.1 引言 |
5.2 面向不平衡数据集的司法领域案件判决预测方法 |
5.2.1 方法架构 |
5.2.2 关键词构造 |
5.2.3 低频标签特征向量的构建 |
5.2.4 融入标签共现信息的卷积循环神经网络模型 |
5.3 实验与分析 |
5.3.1 数据预处理 |
5.3.2 实验设置和评价指标 |
5.3.3 与其他方法性能比较 |
5.3.4 消融实验 |
5.4 基于文本命名实体和要素的案件判决预测工作 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 主要工作 |
6.2 创新点 |
6.3 展望 |
参考文献 |
攻读博士期间发表的学术成果和参加的科研项目 |
致谢 |
(3)基于文本挖掘的网购产品评论稳健情感分类研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状及述评 |
1.2.1 文本挖掘相关研究 |
1.2.2 情感分析相关研究 |
1.2.3 文献述评 |
1.3 研究思路与方法 |
1.4 本文结构 |
1.5 本文创新与不足之处 |
1.5.1 本文创新 |
1.5.2 不足之处 |
第2章 相关理论与方法 |
2.1 文本挖掘 |
2.1.1 文本挖掘相关概念 |
2.1.2 文本挖掘主要方法 |
2.2 情感分析 |
2.2.1 情感分析相关概念 |
2.2.2 情感分析主要方法 |
2.3 稳健聚类 |
2.3.1 聚类概念 |
2.3.2 聚类主要方法 |
第3章 数据获取与处理 |
3.1 数据获取 |
3.1.1 网络爬虫方法介绍 |
3.1.2 数据采集 |
3.2 数据预处理 |
3.2.1 数据清洗 |
3.2.2 中文分词 |
3.2.3 去停用词 |
3.3 数据可视化 |
3.3.1 词频统计 |
3.3.2 词云图 |
第4章 评论数据聚类和主题词提取 |
4.1 稳健聚类 |
4.2 主题模型 |
4.3 基于LDA模型的主题词提取 |
第5章 基于评论的情感倾向分析 |
5.1 基于情感词典的情感分类 |
5.1.1 情感词典 |
5.1.2 基于情感词典实证分析 |
5.2 基于优化机器学习的情感分类 |
5.2.1 词向量训练 |
5.2.2 模型构建 |
5.3 基于LSTM的情感分类 |
5.4 结果对比及分析 |
第6章 结论与启示 |
6.1 研究结论 |
6.1.1 相关特征的用户偏好 |
6.1.2 文本挖掘在评论数据中的应用总结 |
6.2 研究启示 |
6.2.1 对消费者的启示 |
6.2.2 对商家的启示 |
参考文献 |
致谢 |
(4)基于文本挖掘的企业技术创新指标体系构建方法研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景与意义 |
1.1.1 研究背景与目的 |
1.1.2 理论与现实意义 |
1.2 国内外研究现状 |
1.2.1 企业技术创新的研究现状 |
1.2.2 指标体系构建的研究现状 |
1.2.3 企业技术创新领域指标体系构建方法研究现状 |
1.2.4 文本挖掘在企业技术创新领域的研究现状 |
1.3 研究内容 |
1.4 论文组织结构 |
1.5 本章小结 |
2 基本理论与研究方法概述 |
2.1 企业技术创新理论概述 |
2.2 文本挖掘技术理论概述 |
2.2.1 文本数据预处理技术 |
2.2.2 文本表示模型 |
2.2.3 文本聚类挖掘方法 |
2.2.4 文本分类挖掘方法 |
2.2.5 文本关联分析方法 |
2.3 本体技术理论概述 |
2.3.1 本体相关概念 |
2.3.2 本体的描述语言 |
2.3.3 本体的构建方法 |
2.4 企业技术创新指标体系构建方法框架 |
2.5 本章小结 |
3 基于概念的语义表示模型对企业技术创新领域的知识组织与表示研究 |
3.1 概述 |
3.2 文本预处理模型研究 |
3.2.1 企业技术创新文本词库建立 |
3.2.2 企业技术创新领域文本预处理 |
3.3 企业技术创新领域本体半自动化构建方法研究 |
3.3.1 种子领域本体的构建 |
3.3.2 LDA主题模型研究 |
3.3.3 基于LDA主题模型的领域本体自动扩展 |
3.3.4 实验结果及分析 |
3.4 基于领域本体的语义概念表示模型 |
3.4.1 传统的概念表示模型 |
3.4.2 改进的基于概念的语义表示模型 |
3.5 本章小结 |
4 基于语义概念模型的知识聚类方法对企业技术创新领域的知识发现与识别研究 |
4.1 概述 |
4.2 基于语义概念模型的聚类挖掘分析方法 |
4.2.1 语义相似度和相关度 |
4.2.2 基于语义的聚类挖掘方法 |
4.3 基于语义概念模型的企业技术创新领域知识聚类方法 |
4.3.1 改进的概念间语义相似度和相关度计算方法 |
4.3.2 基于概念语义相似度和相关度的文本聚类方法 |
4.3.3 实现基于语义的企业技术创新领域知识聚类构建思路 |
4.4 算法实验性能评估与结果分析 |
4.4.1 实验数据 |
4.4.2 实验性能对比 |
4.4.3 实验结果分析 |
4.5 本章小结 |
5 基于语义概念模型的知识分类方法对企业技术创新领域的知识划分研究 |
5.1 概述 |
5.2 基于语义概念模型分类挖掘分析方法 |
5.2.1 传统的文本分类方法流程 |
5.2.2 基于语义的分类挖掘方法 |
5.3 基于语义概念模型的企业技术创新领域知识分类方法 |
5.3.1 改进的基于关键词与类别语义相似度的知识分类方法 |
5.3.2 实现基于语义的企业技术创新领域知识分类构建思路 |
5.4 算法实验与性能评估 |
5.4.1 实验数据 |
5.4.2 实验性能对比 |
5.4.3 实验结果分析 |
5.5 本章小结 |
6.. 基于语义概念模型的知识关联方法对企业技术创新领域的知识关系分析研究 |
6.1 概述 |
6.2 基于语义的关联规则挖掘方法 |
6.2.1 兴趣度度量方法 |
6.2.2 基于语义的关联分析方法 |
6.3 基于语义概念模型的企业技术创新领域知识关联分析方法 |
6.3.1 改进的基于语义概念模型的知识关联分析方法 |
6.3.2 实现基于语义概念模型的知识关联分析方法 |
6.4 算法实验与性能评估 |
6.4.1 实验数据 |
6.4.2 实验性能对比 |
6.4.3 实验结果分析 |
6.5 本章小结 |
7 企业技术创新指标体系构建方法应用实证研究 |
7.1 概述 |
7.2 企业技术创新指标体系构建方法模块与结果展示 |
7.2.1 文本数据收集与预处理模块 |
7.2.2 基于语义概念表示模块实验与结果展示 |
7.2.3 基于语义概念模型的知识挖掘模块实验与结果展示 |
7.3 企业技术创新指标体系构建结果分析 |
7.4 企业技术创新指标体系比较论证 |
7.4.1 专家群体决策法企业技术创新指标体系概述 |
7.4.2 基于专家群体决策法指标体系与文本挖掘方法指标体系比较分析 |
7.4.3 基于文本挖掘方法构建的企业技术创新指标体系优势 |
7.5 本章小结 |
8 结论与展望 |
8.1 论文的主要工作 |
8.2 论文的创新点 |
8.3 论文的展望 |
参考文献 |
作者简历及攻读博士学位期间取得的研究成果 |
学位论文数据集 |
(5)石油文摘文本挖掘的可视化研究及应用(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景、目的及意义 |
1.2 国内外研究现状 |
1.3 研究目标和技术路线 |
1.4 论文结构 |
第二章 文本挖掘与文本可视化 |
2.1 文本挖掘概述 |
2.1.1 文本挖掘流程 |
2.1.2 文本挖掘方法 |
2.2 文本可视化 |
2.2.1 文本数据可视化的流程 |
2.2.2 文本可视化类型 |
2.3 本章小结 |
第三章 文本挖掘的核心技术 |
3.1 文本预处理 |
3.1.1 文本处理工具集Jieba |
3.1.2 文本处理工具集NLTK |
3.1.3 正则表达式 |
3.2 特征提取技术 |
3.2.1 TF-IDF算法 |
3.2.3 LDA主题模型 |
3.3 聚类与分类 |
3.3.1 K-Means聚类 |
3.3.2 层次聚类 |
3.3.3 朴素贝叶斯分类模型 |
3.3.4 线性分类 |
3.3.5 支持向量机 |
3.3.6 随机森林 |
3.3.7 Boosting模型 |
3.3.8 人工神经网络 |
3.4 实验环境及工具包 |
3.5 本章小结 |
第四章 中文石油文摘的文本挖掘可视化研究应用 |
4.1 数据来源 |
4.2 数据爬取 |
4.3 中文文本预处理 |
4.3.1 中文分词 |
4.3.2 去除停用词 |
4.4 特征提取 |
4.5 K-Means聚类 |
4.6 层次聚类 |
4.7 LDA主题模型构建 |
4.8 本章小结 |
第五章 英文石油文摘的文本挖掘可视化研究应用 |
5.1 数据来源与获取 |
5.2 英文文本数据预处理 |
5.2.1 数据标准化 |
5.2.2 词性标注 |
5.2.3 词干提取与词形还原 |
5.3 特征提取 |
5.3.1 TF-IDF向量 |
5.3.2 计数向量 |
5.3.3 词嵌入 |
5.4 建立分类模型 |
5.4.1 朴素贝叶斯分类器 |
5.4.2 线性分类器 |
5.4.3 实现支持向量机 |
5.4.4 Bagging随机森林模型 |
5.4.5 Boosting Xgboost模型 |
5.4.6 浅层神经网络 |
5.4.7 卷积神经网络层 |
5.5 可视化展示 |
5.6 本章小结 |
第六章 总结与展望 |
致谢 |
参考文献 |
攻读学位期间参加科研情况及获得的学术成果 |
(6)基于深度主题模型的专利文献对比分析(论文提纲范文)
摘要 |
Abstract |
专用术语注释表 |
第一章 绪论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 研究内容与方法 |
1.3.1 研究内容 |
1.3.2 研究方法 |
1.4 论文创新与不足 |
1.4.1 论文创新点 |
1.4.2 论文难点 |
第二章 相关研究基础 |
2.1 主题模型理论基础 |
2.1.1 主题模型相关方法 |
2.1.2 主题模型相关应用 |
2.2 专利对比分析研究基础 |
2.2.1 专利对比分析方法基本框架 |
2.2.2 其他专利对比分析方法 |
2.3 本章小结 |
第三章 基于深度主题模型的专利文本分类研究 |
3.1 深度主题模型的研究现状 |
3.2 JEA-LDA主题模型 |
3.2.1 模型框架 |
3.2.2 模型参数推导 |
3.3 深度主题模型试验评估 |
3.3.1 模型设定与试验数据说明 |
3.3.2 主题一致性评估 |
3.3.3 分类试验评估 |
3.4 本章小结 |
第四章 一对多专利文献对比分析 |
4.1 专利对比分析研究现状 |
4.2 一对多专利对比分析框架 |
4.2.1 技术特征提取 |
4.2.2 技术特征-专利图模型 |
4.2.3 对比分析优化模型 |
4.3 一对多专利对比分析实验评估 |
4.3.1 模型设定与数据说明 |
4.3.2 模型实验性能评估 |
4.3.3 模型实验案例研究 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 内容总结 |
5.2 不足与展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
附录2 攻读硕士学位期间申请的专利 |
附录3 攻读硕士学位期间参加的科研项目 |
致谢 |
(7)基于文本挖掘技术的网络热点新闻系统的研建(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 课题主要研究内容 |
1.4 论文结构 |
2 相关理论技术基础 |
2.1 文本挖掘技术 |
2.1.1 文本预处理 |
2.1.2 文本表示 |
2.1.3 文本摘要 |
2.1.4 特征提取 |
2.2 爬虫技术 |
2.2.1 爬虫技术的分类 |
2.2.2 常见的网络爬虫框架 |
2.3 Web框架与数据仓库 |
2.3.1 SSM架构 |
2.3.2 高性能缓存技术 |
2.3.3 数据库技术 |
2.4 本章小结 |
3 新闻信息提取算法设计与优化 |
3.1 基于BERT的文本挖掘算法设计 |
3.1.1 BERT算法概述 |
3.1.2 BERT算法原理 |
3.2 基于BERT和TextRank的摘要和主题抽取算法设计 |
3.2.1 TextRank的词图构建 |
3.2.2 BERT词向量的语义加权 |
3.2.3 通过关键词得分的摘要抽取计算 |
3.2.4 BertVecRank算法实现 |
3.2.5 实验结果 |
3.3 基于BERT和BiLSTM-CRF的中文实体识别算法设计 |
3.3.1 BiLSTM模型结构 |
3.3.2 CRF模型结构 |
3.3.3 BERT-BiLSTM-CRF模型结构设计 |
3.3.4 BERT-BiLSTM-CRF算法实现 |
3.3.5 实验结果 |
3.4 本章小结 |
4 系统需求分析与设计 |
4.1 系统需求分析 |
4.1.1 系统功能性需求 |
4.1.2 系统非功能性需求 |
4.1.3 系统整体用例分析 |
4.2 系统概要设计 |
4.2.1 系统模块结构设计 |
4.2.2 系统技术架构设计 |
4.2.3 系统物理架构设计 |
4.2.4 系统数据库设计 |
4.3 本章小结 |
5 系统实现 |
5.1 新闻数据选择与采集 |
5.1.1 新闻数据源的选择 |
5.1.2 新闻数据的采集和处理 |
5.2 功能模块实现 |
5.2.1 用户管理 |
5.2.2 新闻信息 |
5.2.3 智能新闻检索 |
5.2.4 新闻系统后台管理 |
5.3 本章小结 |
6 系统测试 |
6.1 系统测试目标和方法 |
6.1.1 测试目标 |
6.1.2 测试方法 |
6.1.3 测试环境 |
6.2 系统功能测试 |
6.2.1 注册与登录功能测试用例 |
6.2.2 用户管理功能测试用例 |
6.2.3 新闻信息管理功能测试用例 |
6.2.4 智能新闻检索功能测试用例 |
6.2.5 后台管理功能测试用例 |
6.3 系统非功能性测试 |
6.4 本章小结 |
7 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
个人简介 |
导师简介 |
获得成果目录 |
致谢 |
(8)基于文本挖掘的主题投资探索性研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.2.1 文本挖掘相关研究 |
1.2.2 主题模型相关研究 |
1.2.3 文本挖掘在股市中的应用研究 |
1.2.4 主题投资量化策略研究综述 |
1.3 本文主要工作和研究亮点 |
1.3.1 研究内容 |
1.3.2 本文亮点 |
1.3.3 章节安排 |
1.4 本章小结 |
第二章 预备知识 |
2.1 主题挖掘相关理论 |
2.1.1 获取文本数据 |
2.1.2 文本预处理 |
2.1.3 主题挖掘 |
2.2 情感分析相关理论 |
2.2.1 基于情感词典的方法 |
2.2.2 基于机器学习的方法 |
2.2.3 基于深度学习的方法 |
2.2.4 情感分类算法 |
2.2.5 分类评估 |
2.3 量化投资相关知识 |
2.3.1 均线策略简介 |
2.3.2 投资策略评价指标 |
2.4 本章小结 |
第三章 基于股吧文本的主题挖掘 |
3.1 股吧文本数据获取 |
3.1.1 金融文本数据源选择 |
3.1.2 文本数据爬取 |
3.1.3 数据保存 |
3.2 数据预处理 |
3.2.1 中文分词 |
3.2.2 过滤停用词 |
3.2.3 特征提取 |
3.3 主题挖掘 |
3.3.1 LDA主题模型训练与调参 |
3.3.2 文本聚类算法 |
3.3.3 基于信息熵的主题挖掘结果优化 |
3.4 本章小结 |
第四章 主题投资策略构建 |
4.1 主题得分的构建 |
4.1.1 主题词库的建立 |
4.1.2 主题得分的计算 |
4.2 主题得分与指数的相关性检验 |
4.2.1 主题关联指数的超额收益波动的计算 |
4.2.2 主题得分与指数超额收益波动的相关性检验 |
4.3 情感分析 |
4.3.1 股评情感分析 |
4.3.2 构造情绪指标 |
4.4 基于主题演化过程中的情感分析构建策略 |
4.4.1 止损 |
4.4.2 策略构建 |
4.4.3 添加主题得分前后策略效果对比 |
4.5 本章小结 |
第五章 策略实证分析 |
5.1 主题得分的构建 |
5.1.1 文本数据获取 |
5.1.2 数据预处理 |
5.1.3 主题挖掘 |
5.1.4 建立主题词库 |
5.1.5 利用主题词库生成主题得分 |
5.2 主题得分与指数相关性检验 |
5.2.1 主题关联指数相对大盘指数的超额收益波动 |
5.2.2 主题得分与指数超额收益波动的相关性检验 |
5.3 个股情感分析并构造情绪指数 |
5.3.1 股评情感分析 |
5.3.2 构造看涨指标 |
5.4 策略历史回测及对比分析结果 |
5.4.1 交易规则假设: |
5.4.2 交易策略收益统计对比 |
5.5 本章小结 |
总结与展望 |
参考文献 |
攻读硕士学位期间取得的研究成果 |
致谢 |
附件 |
(9)基于文本挖掘的事件关联分析及可视化研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 事件抽取 |
1.2.2 事件的关联分析 |
1.2.3 数据可视化 |
1.3 论文研究内容 |
1.4 论文组织结构 |
第二章 数据收集与预处理 |
2.1 数据预处理的定义和意义 |
2.2 文本预处理 |
2.2.1 分词 |
2.2.2 停用词 |
2.2.3 词性标注 |
2.3 文本预处理工作 |
2.3.1 分词 |
2.3.2 停用词 |
2.3.3 词性标注 |
2.4 本章小结 |
第三章 事件抽取 |
3.1 事件和事件抽取 |
3.1.1 事件 |
3.1.2 事件抽取 |
3.1.3 事件语料库 |
3.2 事件抽取相关工作 |
3.2.1 命名实体识别 |
3.2.2 触发词识别 |
3.2.3 搭建语料库 |
3.3 本章小结 |
第四章 事件的关联性分析 |
4.1 事件关联 |
4.2 事件关联分析 |
4.2.1 组成关系 |
4.2.2 核心动词关联分析 |
4.2.3 事件的整体分析 |
4.3 本章小结 |
第五章 数据可视化方法 |
5.1 数据可视化 |
5.2 数据可视化技术 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 下一步展望 |
参考文献 |
作者在读期间科研成果简介 |
一、 发表论文 |
二、 参与的科研项目 |
三、 获得奖项 |
四、 软件着作权 |
致谢 |
(10)面向产品和服务的网购平台关键问题挖掘研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.2.1 理论意义 |
1.2.2 实践意义 |
1.3 研究内容 |
1.3.1 文本特征选择方法研究 |
1.3.2 产品评论摘要生成方法研究 |
1.3.3 网购流程优化方法研究 |
1.3.4 广告分类模型研究 |
1.4 技术路线 |
1.5 研究创新点 |
1.6 组织结构 |
第二章 文献综述 |
2.1 文本特征选择 |
2.1.1 基于“评分机制”的特征选择 |
2.1.2 基于“筛选机制”的特征选择 |
2.1.3 基于“优化机制”的特征选择 |
2.1.4 研究评述 |
2.2 产品评论摘要相关技术研究 |
2.2.1 关键信息提取 |
2.2.2 关键信息组织 |
2.2.3 研究评述 |
2.3 网购平台服务质量研究 |
2.3.1 基于经验的分析方法 |
2.3.2 基于研究成果或专家知识的分析方法 |
2.3.3 基于问卷或实证的分析方法 |
2.3.4 基于消费者数据的分析方法 |
2.3.5 研究评述 |
2.4 广告效果评价研究 |
2.4.1 影响因素研究 |
2.4.2 评价模型研究 |
2.4.3 研究评述 |
2.5 本章小结 |
第三章 基于深度学习的特征选择方法研究 |
3.1 引言 |
3.2 理论基础 |
3.2.1 文本特征选择 |
3.2.2 CNN原理 |
3.2.3 LSTM单元结构 |
3.3 特征选择方法研究 |
3.3.1 特征选择的原理 |
3.3.2 CNN-FS原理 |
3.3.3 LSTM-FS原理 |
3.4 特征选择比较实验 |
3.4.1 实验设置 |
3.4.2 文本分类比较实验分析 |
3.4.3 语义比较实验分析 |
3.4.4 稀疏度比较实验分析 |
3.4.5 CNN-FS与 LSTM-FS的比较 |
3.5 本章小结 |
第四章 产品评论摘要生成方法研究 |
4.1 引言 |
4.2 基础理论 |
4.2.1 产品评论摘要 |
4.2.2 LDA主题模型 |
4.2.3 LSTM网络 |
4.3 产品评论摘要生成方法的原理 |
4.3.1 关键信息提取模块 |
4.3.2 关键信息组织模块 |
4.3.3 摘要生成方法的伪代码 |
4.3.4 例子演示 |
4.4 产品评论摘要生成实验 |
4.4.1 数据集 |
4.4.2 LDA最优主题个数分析 |
4.4.3 产品评论摘要实例分析 |
4.5 产品评论摘要生成系统展示 |
4.6 本章小结 |
第五章 基于文本挖掘和PCN的网购流程优化方法研究 |
5.1 引言 |
5.2 PCN的原理 |
5.3 网购流程存在问题挖掘 |
5.3.1 客服方面的问题 |
5.3.2 商品方面的问题 |
5.3.3 卖家方面的问题 |
5.3.4 物流方面的问题 |
5.4 网购流程优化研究 |
5.4.1 网购流程的PCN描述 |
5.4.2 网购流程的PCN优化 |
5.5 网购流程优化策略建议 |
5.5.1 客服服务质量提升 |
5.5.2 售前商品管理 |
5.5.3 商家发货管理 |
5.6 本章小结 |
第六章 基于高斯滤波和决策树的广告分类模型研究 |
6.1 引言 |
6.2 理论基础 |
6.2.1 高斯滤波 |
6.2.2 决策树 |
6.3 广告分类模型 |
6.3.1 GF数据处理 |
6.3.2 有效和无效广告分类 |
6.3.3 模型的伪代码 |
6.4 广告分类实验 |
6.4.1 数据集 |
6.4.2 实验设置 |
6.4.3 实验结果和讨论 |
6.5 本章小结 |
第七章 总结与展望 |
7.1 研究总结 |
7.2 管理建议 |
7.3 研究展望 |
参考文献 |
攻读博士学位期间取得的研究成果 |
致谢 |
附件 |
四、中文文本挖掘中姓名特征提取技术的研究(论文参考文献)
- [1]面向法律文书的实体关系抽取算法研究[D]. 陈彦光. 大连理工大学, 2021(01)
- [2]司法诉讼案件文本挖掘若干关键技术研究[D]. 董红松. 中北大学, 2021(01)
- [3]基于文本挖掘的网购产品评论稳健情感分类研究[D]. 刘音. 江西财经大学, 2021(10)
- [4]基于文本挖掘的企业技术创新指标体系构建方法研究[D]. 张茜茜. 北京交通大学, 2021(02)
- [5]石油文摘文本挖掘的可视化研究及应用[D]. 谢静怡. 西安石油大学, 2021(09)
- [6]基于深度主题模型的专利文献对比分析[D]. 覃婷婷. 南京邮电大学, 2020(03)
- [7]基于文本挖掘技术的网络热点新闻系统的研建[D]. 李轩冰. 北京林业大学, 2020(03)
- [8]基于文本挖掘的主题投资探索性研究[D]. 刘冠东. 华南理工大学, 2020(02)
- [9]基于文本挖掘的事件关联分析及可视化研究[D]. 付晓倩. 青海大学, 2020(02)
- [10]面向产品和服务的网购平台关键问题挖掘研究[D]. 洪明. 华南理工大学, 2020