一、基于模糊集的名词细分类研究(论文文献综述)
哈妮克孜·伊拉洪[1](2019)在《维吾尔语领域本体构建关键技术及其应用研究》文中研究指明随着知识发现相关技术研究工作的不断深入及更广范围的开展,本体方法开始暴露出其潜在的缺陷和局限性。因为如今互联网已经遍及到全球各地,怎样能够从信息资源之中以最快、最准确的方式获得知识,成为了时下不得不面对的重要话题。在检索技术不断发展的背景之下,检索效率有了显着的提升,不过从检索结果上看依然无法达到人们的预期目标。所以对知识的规范组织同样是人们所关注的重要对象,本体的诞生让知识组织具备了良好的条件。然而维吾尔语中目前为止几乎没有本体相关的研究报告和可用本体资源。维吾尔语的本体研究才开始,况且构建本体存在着方式多样、领域区分等现象使得本体共享以及重用受到了限制。为此打造本体构建规范,是实现本体顺利构建和大规模发展的重要前提,进而保证知识组织上本体能够发挥最大优势,给知识的分析、知识的检索、知识的存储创造有利条件。针对这种情况,本体构建抽象方法作为本文研究指导,具体对维吾尔语领域本体构建工作开展了划分,包括维吾尔语领域本体的初步人工构建,通用本体知识库UWN的半自动构建及其它的应用,在此基础上实现通过概念获取和关系获取来自动构建领域本体,最后应用在维吾尔语自动文摘上。本文具体工作包括以下几个内容:1、深入分析本体定义、相关理论及方法。先对本体定义进行了阐释和研究,分析了知识共享和描述当中,本体具有的特点。阐述了本体的基本元素、分类、构建方法、描述语言和构建工具等。2、详细介绍维吾尔语领域本体的人工构建过程,选用Protege4.3工具和OWL本体描述语言,利用改进的七步法,结合维吾尔语的语言特点在数学领域和信息科学领域初步实现了维吾尔语的本体库。在此基础上使用Jena工具包半自动构建大学管理领域的维汉双语本体并实现SPARQL语言的查询。之后本文使用跨语言重用领域本体构建方法,对收集的英语领域本体集合进行三元组抽取。然后使用跨语言技术进行英语与维吾尔语概念及关系的匹配,之后通过Jena工具实现维吾尔语标准领域本体。实验结果验证了所构建的领域本体的语法准确性,同时初步使用Jena开源工程搭建了领域本体构建平台,为今后的研究工作奠定了基础。3、由于研究的需要即在维吾尔中缺乏叙词表或类似于WordNet、HowNet之类的结构化知识库,因此开发了维吾尔语的WordNet(简称UWN)通用本体知识库,与英语的WordNet概念平均匹配率达到90%以上,词性考虑名词、动词、形容词和副词,概念间的关系只考虑上下位关系、同义关系和反义关系等四种。在此基础上重用UWN来扩建并丰富了维吾尔语旅游领域本体。4、前期工作的基础上实现了维吾尔语领域本体的自动构建,通过多特征融合的概念提取方法和基于混合层次聚类方法的关系提取来初步实现了维吾尔语旅游领域的本体自动构建。由于本文选择的文本内容的局限性和层次聚类方法合并节点的困难等因素,虽然层次聚类结果不太理想但基本符合本体层次结构。实验结果表明,本方法是可行的,并提高向量维度和文本内容的广泛性等因素可进一步提升领域概念及关系的精度。5、所构建的领域本体融入到自动摘要抽取上。本文将本体技术引入到维吾尔文自动摘要提取上,得到了高质量的基于本体的维吾尔文自动摘要,与前期完成的基于语义串技术的维吾尔文自动摘要相互对比,证明了本体技术在自动摘要上的优越性。基于本体的自动摘要系统中,通过对关键词进行语义分析即词汇特征转为概念特征,提高了文摘的自然度和连贯度,抽取的文摘句不仅精准更加精简。
任秋芳[2](2018)在《商品评论情感分析系统设计与实现》文中研究表明随着网络在最近几年的飞速发展,现在社会体系俨然成为了互联社会,人们之间的交流方式、出行方式、学习方式、生活方式等都在革新。现在,数据量几何式增长使得单纯地通过人工去筛选收集用户所对商品态度(情感)已经不现实了,现在企业等急需一个情感分析系统可以更快更好地对商品评论进行抽取,并分析这些评论中所带有的情感,加大做好对其产品提升的标准,使消费者愿意买单。本文通过对电脑行业产品评论为例进行深入研究,研究的目的就是建立一个商品评论情感分析系统,这个系统用于对用户的评论进行分析,从情感词汇中得出商品优缺点。可以分作三个部分来构造情感分析系统。第一部分,对商品评论进行爬取和处理,在这一部分中,首先运用爬虫技术爬取互联网上电脑商品的评论数据,再对这些数据用“0”和“1”标注这些数据,标注完之后对其进行拆分正负样本。第二部分,研究了特征选择和特征降维方法,特征选择选取了单词特征、双词搭配特征和结巴分词进行研究。通过统计分析算法对选取的特征进行降维,仅保留信息量丰富的特征,简化有利于提高算法的速度并增加算法的执行效率,在这一部分中,通过对属性特征进行创新研究,提出了属性特征维度、属性情感和属性权重概念,进一步提高特征的准确性,以提高分类算法的精确度。第三部分,我们使用机器学习算法来训练这些特征信息,本文主要运用了朴素贝叶斯算法、支持向量机算法、K-近邻算法,经过试验对比,并对结果进行分析,最后选取支持向量机算法作为最后的评论语句情感分析系统算法。商品评论情感分析模型构建出来之后,还需要对其健壮性进行验证。使用机器学习算法作为情感分析系统的主要技术,要大量数据对训练模型进行优化,通过增加数据量,分类效果就会越来越好,并能逐步提高分类器的准确度。本文中的这个系统是对电脑商品的评论进行情感分析研究,以后随着算法的优化、高质量数据的训练,使得分类器越来越好,最后该方法可以运用到商品评论的方方面面,最终实现对任意商品评论进行情感分析的目的。
贾丽臻[3](2017)在《跨域类比驱动的产品创新设计关键技术研究》文中指出面对竞争激烈的国际市场环境,不断进行产品创新是保持和提高企业核心竞争力的关键。在产品设计过程中,概念设计能给予设计人员较大的创新空间,是最能体现设计者的智慧和创造性,决定产品的结构特征和技术性能的阶段。类比作为一种重要的创新思维和技法,对于产品概念设计的创新具有重要意义。以心理学中对类比推理过程的研究为基础,众多学者以实验研究和方法研究为手段,探索了类比在设计过程中的最佳时机、作用及对设计结果的影响等,提出了不同的设计知识表征模型、检索方法、知识转移特征。尽管成果丰富,但实验研究各有侧重、结论不一;且检索方式比较单一。因此,类比应用于产品创新中的关键技术仍需进一步研究。基于现有的研究成果和不足,本文针对跨域类比在产品创新设计过程中的应用所面临的部分关键问题,展开深入研究,确定了面向跨域类比创新设计的知识表征模型、类比源检索机制及其形式化描述策略和实现方法。论文的主要内容如下:1、类比及类比设计的研究现状回顾。从现实背景和理论背景两个角度分析了本文研究工作的意义,提出了类比创新设计过程面临的关键问题。在对现有类比源分类方法进行归纳、探讨的基础上,将类比源分为本域类比源和跨域类比源;进一步地,将跨域类比源分为近域、中域和远域三类,进而界定了本文中的基本概念,确定了研究对象及研究范围。2、类比源对设计结果的影响及设计知识转移特征探究。以实验设计为手段,以工程系统间的类比为对象,以统计分析软件SPSS 22.0(Statistical Product and Service Solutions 22.0)为数据处理工具,探索了不同类型的跨域类比源对设计结果创新性的影响;分析实验过程产生的目标设计方案与对应的类比源之间设计知识的映射,归纳了作用原理、动作过程、结构三类知识类比转移特征。3、跨域类比过程中的设计知识表征模型构建。将现有的设计知识表征模型分为面向设计过程的模型、面向技术系统的模型和面向问题分析的模型;以知识类比转移特征为判定原则,对上述模型进行比较。最终以结构—行为—功能(Structure–Behavior–Function,SBF)为基础,提出了改进的结构—行为—功能(Refined SBF,R-SBF)模型及其建模规则。4、知识表征和类比源检索的桥梁搭建。以本体为知识表示策略,在Protégé5.2.0环境中,构建了面向R-SBF的领域本体模型,提供了形式化描述方法,为检索方法的研究及计算机辅助工具的开发奠定了基础。5、类比源检索机制及其技术实现。基于实验研究结果,采取“功能相似为主,行业相似为辅”的检索排序策略,将语义分析和检索过程结合,提出FsD(单功能&行业领域)检索和FmD(多功能&行业领域)检索机制。其中,前者以总功能检索为出发点,基于本体和概念连通图,通过建立功能与功能间的语义相似度度量模型实现。后者以行为检索为出发点,首先在基于产生式的行为—功能映射规则下,将行为转化为多个子功能,进而基于潜在语义分析(Latent Semantic Analysis,LSA)技术,建立功能—案例矩阵,提出改进的权重设定方法,利用奇异值分解(Singular Value Decomposition,SVD)降维,最终通过计算余弦距离度量案例相似度实现。6、跨域类比创新设计辅助工具开发及过程模型构建。在Windows操作环境下,以RUP软件开发过程及增量模型为指导,采用C++/C#、XML、MySql等程序设计语言,开发了面向跨域类比创新设计的计算机辅助工具(Cross-domain Analogy Aided Design Innovation,AADI);构建了AADI辅助下的产品创新设计过程模型,并应用于智能扫地机的创新设计中。
侯锋[4](2010)在《中文报业出版的文字质量智能辅助控制技术研究》文中提出从汉字“激光照排”技术的应用开始,中文新闻出版业的信息化水平突飞猛进。近年来,我国中文报业出版规模不断扩大,报社中的采编、组版、印刷、财务和发行等生产环节已实现信息化。但是,报业生产流程中的质量控制环节仍然以传统的全手工方式处理每日见报的新闻稿件及版面,效率低,成本高,成为报业生产的瓶颈所在。本文从当前报业出版的现状和存在的问题出发,以报业生产流程优化为切入点,以自动文字查错和重稿检测为手段,以期实现智能辅助的报业出版文字质量控制。论文取得的主要成果如下:1.对现有的报业生产流程和相关软件进行整合优化,提出了文字质量数字化智能辅助控制的概念框架和技术框架。优化后的生产流程不仅为人和计算机提供了协同质量控制的数字化平台,而且为计算机构建了闭环学习的环境,使其能从历史稿件中不断学习新词和语言知识,这些知识又应用于基于词汇语义类的文字查错和重稿检测算法,因此计算机可以较高的智能辅助人工质量控制。2.为利用词汇语义进行语义层面的文字查错,提出了面向文字查错的汉语实词语义分类体系划分方法及种子词获取方法。并提出一种基于种子词的汉语实词义类自动获取算法,利用句法和构词素两种特征,从大规模未分词语料库中自动获取实词的义类标签,该算法能自动获取多义词的多个义类,并能识别情感词。给出了基于词汇义类的汉语词法分析过程,利用条件随机场模型标注词汇义类并识别名词短语边界。3.根据新闻稿的文字错误类型及造成错误的原因,针对中文自动校对研究中没有解决的语法、语义以及前后不一致等错误,提出了四种针对不同错误类型的文字查错算法。基于义类3-gram的语义查错算法是利用词汇义类之间的邻接异常查找普通查错算法无法查出的真词替换错误,以及部分语法、语义错误。基于语义优选的查错算法是利用动词对主语和宾语的语义优选,查找长距离的动宾或主谓搭配错误。基于点互信息的复句结构和标点查错算法,是利用复句连词和标点之间的共现概率查找语法和标点错误。人名-职务不一致检测利用人名-职务对的比较,查找人名或职务在前后文的不一致错误。4.针对重稿检测对历史稿件自动更新的需求,提出了重稿检测的流程与具体算法。算法首先对历史稿件按照广义话题进行分类,并在广义话题内对稿件聚类。在线重稿检测时,首先根据待测稿件的首段文字将其分配到相应的事件类下;然后利用全文特征在事件类内判断其是否为重稿。算法可以同时实现历史稿件自动更新和重稿检测,通过段落间的相似比较,提高重稿检测的精度。基于生产流程优化的应用系统在《长江日报》上线并运行2年多,其在效率和成本方面的优势得到证明。本文提出的自动文字查错和重稿检测算法绝大多数也已在系统中得到应用。
谷琼[5](2009)在《面向非均衡数据集的机器学习及在地学数据处理中的应用》文中指出分类是数据挖掘和知识发现的重要任务之一,传统的机器学习分类研究大多基于如下假设:(1)以高总体分类正确率为目标;(2)数据集中的各类样本数目基本均衡;(3)所有的分类错误会带来相同的错误代价。基于这些假设,人们研究了大量的分类算法如决策树算法、贝叶斯分类、人工神经网络、K-近邻算法、支持向量机、遗传算法等,并将其广泛应用于医学诊断、信息检索、文本分类等众多应用领域。然而,真实世界的分类问题存在很多类别非均衡的情况,数据集中某个类别的样本数可能会远多于其他类别。在这些情况下,分类器通常会倾向于将测试样本全部判别为大类而忽视小类样本,这使得到的分类器在小类样本上效果会变得很差。不平衡数据集自身的特点(少数类数据的绝对缺乏和相对缺乏、数据碎片、噪声)以及传统分类算法的局限性(不恰当的评价标准和不恰当的归纳偏置)是对不平衡数据集进行准确可靠分类的关键制约因素。因此,对不平衡数据集的分类问题已成为机器学习和模式识别领域中新的研究热点,是对传统分类算法的重大挑战。目前,针对非均衡数据集分类性能提高的解决方法主要围绕数据层面和算法层面来开展。通过数据重取样的方法包括过取样和欠取样两类来改变不平衡数据的类分布以降低数据的非均衡程度可提高分类性能;改进已有的分类算法如代价敏感学习、支持向量机算法、单类学习和集成学习等,通过调节各类样本之间的代价函数、对不同类的样本设置不同的权值、改变概率密度、调整分类边界等措施使其更有利于少数类的分类来提高分类性能。然而,目前的处理手段和改进方法在对少数类的分类性能上尽管都有一定程度的改善,但仍旧存在过学习或多数类重要信息损失等问题,分类结果的可靠性会受到一定的影响。因此,在尽可能不降低总体分类性能的前提下,提高少数类分类性能,从而合理运用非均衡数据集的分类结果进行准确的预测仍是一个值得进一步研究的课题。本论文针对传统的机器学习分类的三个假设,从算法的改进发展和其实用性验证两大方面展开了系统深入的研究。首先对非均衡数据集的分类性能的评估方法和评价指标进行了详细讨论。进一步的,从数据层面上,在已有算法的基础上对非均衡数据集的重取样算法作了两项关键的改进,并将所提出的算法用于地学领域的数据分类预处理中;从算法层面上,实现了将重构数据集和基于误分类代价最小的算法改进两种方法的有机融合。论文的主要工作和结论如下:一、非均衡数据集分类性能评估、算法的改进与发展1、非均衡数据集的分类性能评估讨论了传统机器学习分类研究的第一条基本假设的合理性,即高的总体正确率为分类目标是否适用于对非均衡数据集分类性能进行评估。正确地评价一个分类系统的性能,对选择分类特征和分类器参数都有重要的指导作用,因此如何检验分类系统性能是很重要的一环。分类器的评估方法和评价指标很多,不同的分类方法可能会偏好某些评估指标,即对分类方法的改进也是基于某一种标准上的改进。建立或设计更先进的算法来解决机器学习的分类问题受到众多学者的重视,然而机器学习结果的评估与算法的改进其重要性至少是相当的,是数据挖掘能否取得真正进展的关键之处。本文对经典的分类技术和常用分类的评估方法、评价指标进行了系统的讨论,并分别对数值型评价指标和图形评价指标进行了分析和比较,指出某些评价指标在面对非均衡数据集分类的性能评价时可能存在一定的问题,从而较难对分类结果做出正确的判断和决策。此外,论文还探讨了一些其他复合数值型评价指标,这些指标亦可用于非均衡数据集的分类性能评估。实际上,没有任何评价指标可以适合于所有的分类问题,盲目地确定某一个指标作为评价标准并不是一个好的策略。这也是分类器设计中常见的具体问题,选用哪个分类评价指标将更依赖于分类器的应用背景或用户的需求。根据不同的情况应该选择合适的评价指标,才能有助于我们对算法的分类性能做出正确的评价与判断。2、非均衡数据集的重取样算法针对传统的机器学习分类研究的第二条“数据集中的各类样本数目基本均衡”的基本假设进行了非均衡数据集分类的研究。论文提出了两种类型的混合重取样算法,即通过将过取样技术和欠取样技术将结合的方法,使非均衡数据集在分类前达到基本均衡。第一种是自适应选择近邻的混合重取样算法(Automated Adaptive Selection of the Numberof Nearest Neighbors of Hybrid Re-Sampling,ADSNNHRS),该算法分为两部分,过取样部分解决了SMOTE(Synthetic Minority Over-sampling Technique)算法在产生合成样本过程中存在的盲目性、只能复制生成数值型属性等问题,能够根据实例样本集内部分布的真实特性,自动适应调整选择SMOTE方法中的近邻选择策略,并对具有混合型属性的数据集采用不同的复制方法生成新的实例,从而有效地控制和提高合成样本的质量;欠取样部分通过对合成之后的实例集用改进的邻域清理方法进行欠取样,去掉了多数类中的冗余实例和边界上的噪音数据。本论文所提出的方法实际上结合了过取样和欠取样两种方法的优势,一方面通过自适应选择近邻的方法增加少数类样本的方式强调了正类,另一方面对多数类进行适当程度的欠取样,减少其规模,达到多数类和少数类样本在一定程度上的相对均衡,从而可以有效地处理非均衡数据分类问题,提高分类器的性能。第二种是基于Isomap降维混合重取样算法(Hybrid Re-Sampling based on Isomap,HRS-Isomap),即将非线性降维和混合重取样算法相结合,来降低数据的不平衡性。论文研究了两种类型的常用数据降维方法,线性数据降维方法,如主成分分析法(Principal ComponentAnalysis,PCA)、多维尺度分析(Multidimensional Scaling,MDS)和非线性数据降维方法,如等距离特征映射(Isometric feature mapping,Isomap)、局部线性嵌入(Locally Linear Embedding,LLE)等;并分别将两种经典的降维方法用于地学数据的处理中,通过对地学数据分类前的预处理,简化模型的结构,从整体上提高模型的预测性能。在此基础上,针对SMOTE算法基于空间上任意两个少数类样本点之间的样本点也属于少数类这样一个在实际情况下(尤其当数据集非线性可分时)不一定正确的假设,提出将非线性降维Isomap算法和混合重取样算法相结合,先利用等距离特征映射算法(Isomap)将初始数据集进行非线性降维,然后再通过合成少数类过抽样算法(SMOTE)在降维后更加线性可分的数据上过取样,再对过取样后的数据集进行邻域清理的欠取样,来降低数据的不平衡性,得到基本均衡的低维数据。对非均衡数据集进行非线性降维后,其分类性能有较大程度的改善,各项评价指标均有不同程度的提高,特别是对非线性降维后的数据再进行混合重取样,少数类的F-measure值提高显着,在少数类分类性能显着上升的情况下,整体分类性能也有不同程度的提高。说明将非线性降维Isomap方法引入到非均衡数据的重取样处理中是行之有效的。Isomap的强降维和发现数据本质结构的能力给我们提供了一个解决非均衡数据集分类问题的新思路。3、非均衡数据集的代价敏感学习算法围绕解决传统的机器学习分类研究的第三条基本假设,即所有的分类错误会带来相同的错误代价来展开讨论。基于大多数研究只是集中于纯非均衡数据集分类学习或者纯代价敏感学习,而忽略了类分布非均衡往往和不等错误分类代价同时发生这一事实,本论文尝试在原有的代价敏感学习算法中将重构数据集和基于误分类代价最小的算法改进两种不同类型的解决方法融合在一起,一方面先用样本类空间重构的方法使原始数据集的两类数据达到基本均衡,另一方面,分类基于最小误分代价而非最小错误率,对所关心的类别赋以较大的代价,其他类则赋以较小的代价,然后再用代价敏感学习算法进行分类。当通过使用样本空间重构的方法使类分布变得相对均衡且选择合适的代价因子时,基于最小误分类代价的代价敏感学习算法的分类结果明显优于其他的分类算法,不但少数类的分类性能大幅上升,整体的分类性能也有一定程度的提高。二、非均衡数据集分类的方法在地学领域中的应用及分析本论文将所发展的自适应选择近邻的重取样算法用于岩爆危险性预测工程。岩爆的统计结果是一种典型的非均衡数据集,传统的数据挖掘分类算法很难得到精确的预测结果。实际上,岩爆现象中的少数类实例才是真正需要关注的对象,并期望获得较高的预测精度。论文利用南非科学研究院建立的VCR采场岩爆实例数据库,通过人工生成部分少数类实例作为训练数据进行仿真实验,预测的岩爆危险性状态与实际情况完全一致。这说明本文提出的重取样方案在工程实例岩爆危险性的实例数据非均衡情况下是可行的,预测准确率高,具有良好的工程应用前景。该方法不必建立复杂的数学方程或计算模型,输入数据客观存在或易于量测的,具有实现简单的优点。采用该方法可以找到岩爆发生的主控因素,可为深部开采工程的合理设计与安全施工提供科学依据。论文的主要创新点如下:1、提出了两种类型的混合重取样算法。针对经典的过取样算法SMOTE产生合成样本的过程中存在的问题和不准确的假设,分别提出了自适应选择近邻的混合重取样算法ADSNNHRS和基于Isomap非线性降维的混合重取样算法HRS-Isomap,这两种混合重取样算法均可有效地处理不平衡数据分类问题。2、提出了一种新型的不均衡数据集的代价敏感学习算法。针对数据集类分布不均衡及其错误分类之后可能造成不同的误分类代价这两种情况可能同时发生这一事实,将二种不同类型解决非均衡数据集的分类方法样本类空间重构和基于误分代价最小的代价敏感学习算法有机地融合在一起,其分类结果明显优于其他的分类算法。3、在地学领域中引入非均衡数据集的处理解决方法。针对大量地学数据存在着不确定性、经验性、间接性、不完整性及类分布非均衡等特点,将降维方法灵活地用于高维地学数据的预处理中,并在地学数据分析领域中引入非均衡数据的机器学习概念、模式和解决方法,为有效地处理海量地学数据、提高地学数据分析的自动化和智能化水平提供了一套有力的分析工具。
张会鹏[6](2006)在《中文词法分析技术的研究与实现》文中认为中文词法分析是中文信息处理中的一项基础性工作。词法分析结果的好坏将直接影响中文信息处理上层应用的效果。本文针对词法分析中的中文分词、词性标注和动词细分类进行了深入的研究并实现了一个实用化的词法分析系统IRLAS。通过权威的评测和实际应用表明,IRLAS是一个高精度、高质量的、高可靠性的词法分析系统。众所周知,切分歧义和未登录词识别是中文分词中的两大难点。文本采用了基于词类的分词概率模型,此模型把词归为若干类别并且把这些类别纳入到一个统一的概率模型框架下。通过选择概率最大的切分路径可以消除掉大部分的切分歧义。对于未登录词识别,文本采用了基于角色标注的未登录词识别方法,这种方法能充分利用未登录词的上下文信息并把未登录词识别的问题转化为角色序列的标注问题。通过训练角色的隐马模型参数,再利用Viterbi算法即可标注出最优的角色序列,也即完成了未登录词的识别。词性标注和动词细分类可以为上层应用提供更丰富的语法信息,例如句法分析可以利用这些词性信息进行句法关系的识别。词性标注是隐马尔科夫模型的一个典型应用,本文利用隐马尔科夫模型的方法进行词性标注并取得了较高的准确率。动词细分类和词性标注有些类似,它是在词性标注基础上对其中的动词进行更细致的类别标注。根据动词细分类自身的特点,本文提出了一种改进的隐马尔科夫模型的方法进行动词类别的自动划分,通过与最大熵的方法进行比较,证明这种方法十分有效。本文还通过把动词细分类嵌入到句法分析系统中,从而有效地提高了句法分析的识别精度。
李国臣,罗云飞[7](2005)在《采用优先选择策略的中文人称代词的指代消解》文中研究表明指代是自然语言中常见的语言现象,指代消解是文本信息处理中的一个重要任务。随着篇章处理相关应用日益广泛,指代消解也显示出前所未有的重要性。本文针对中文人称代词的指代特点,提出了一种基于语料库的,运用决策树机器学习算法并结合优先选择策略,进行指代消解的方法。该方法充分考虑了与指代相关的若干属性,及相互之间的影响。实验表明,对中文人称代词的消解特别是第三人称的消解获得了一定的效果。
罗云飞[8](2005)在《中文人称代词指代消解系统的研究与实现》文中指出指代是自然语言中常见的语言现象,大量出现在篇章或对话中。指代词的使用可以使语篇的表述不显累赘,简明清晰。指代消解是文本信息处理中的一个重要任务。随着篇章处理相关应用日益广泛,指代消解也显示出前所未有的重要性,成为一个文本信息处理的研究热点。它在机器翻译、自动摘要、问答系统、信息抽取等许多自然语言处理技术应用领域中发挥着重要作用,并已经成为MUC和ACE中的重要评测任务。 本文在深入分析突发事件语料中人称代词指代特点的基础上,提出了一种基于语料库的,机器学习方法与优先选择策略相结合的指代消解模型。该模型充分考虑了与指代相关的若干属性,利用决策树算法构建过滤器,有效的降低了噪音,大量减少了进入优先选择策略待消解对的数量。而优先选择策略可以将通过滤器不能很好处理的指代现象利用统计学的方法消解出来。二者互相补充,相辅相成。 该模型具有以下特点 (1) 机器自学习模型。该方法是从大规模语料库中自动训练出来的指代消解系统模型,很少需要人工干预,所有特征属性都可以直接从训练语料中获得。 (2) 减少了非先行语噪音的干扰。利用决策树算法构建的过滤器降低了候选互指对的噪音,剔除了许多非互指的待消解对,提高了指代消解的效率和准确率。 (3) 统计与规则相结合的方法。充分利用优先选择策略对指代消解的特征属性综合考虑,使他们对消解效果的影响更加趋于合理,弥补了利用规则进行指代消解的不足。 在该模型的基础上,本文详细描述了中文文本人称代词指代消解试验系统的设计与实现,并且对算法和各个特征属性进行了全面的测试评估。从该算法目前所取得的一些初步试验结果看来,这是行之有效的。在突发事件新闻文本中,对中文人称代词的消解特别是第三人称的消解获得了较好的效果。 指代消解系统具有一定的先行语和特征属性的可扩展性,保证了系
罗云飞,李国臣[9](2004)在《采用优先选择策略的中文人称代词的指代消解》文中指出指代消解是自然语言理解研究中常见的语言现象。本文针对中文人称代词的指代特点,提出了一种基于语料库的,运用决策树机器学习算法并结合优先选择策略,进行指代消解的方法。该方法充分考虑了与指代相关的若干属性,及相互之间的影响,实验表明,对中文人称代词的消解特别是第三人称的消解获得了较好的效果。
段建勇[10](2004)在《现代汉语词性细分类标注研究》文中进行了进一步梳理现代汉语词性细分类标注研究是当前基于语料库的自然语言处理研究的基础工作,这也是面向深层研究所遇到的新课题。 本文参考了国际上关于动词自动分类和标注的研究方法,分析了国内相关领域关于词性细分类标注研究的分类体系、词性标注方法,以及语料库资源等研究状况,提出了一种统计与规则相结合的词性细分类标注模型,并且把词汇向量空间模型以及模糊集的方法引入词性细分类自动标注领域。 现代汉语词性细分类标注模型是在对传统的各种标注方法进行对比分析的基础上提出的,实验分别独立采用基于词性信息以及基于词汇向量空间的细分类标注方法,最后两种方法结合起来建立标注模型。 另外还对标注模型从两方面作了优化,由于词汇特征向量的特殊作用,本文对特征词汇采用层次聚类来提高其分类精度;另一方面,引入规则来进一步丰富细分类标注信息,减少数据稀疏等问题,并且引入置信度来选择统计与规则的优先关系。
二、基于模糊集的名词细分类研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于模糊集的名词细分类研究(论文提纲范文)
(1)维吾尔语领域本体构建关键技术及其应用研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 选题背景及研究意义 |
1.1.1 选题背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.3 本文研究工作及创新点 |
1.4 本文内容安排 |
第2章 本体相关理论研究 |
2.1 本体的定义 |
2.2 本体的类型 |
2.3 本体的基本元素 |
2.4 本体的形式化描述 |
2.5 本体的构建方法 |
2.6 本体的构建工具 |
第3章 维吾尔语领域本体的人工构建 |
3.1 维吾尔语的简介 |
3.1.1 维吾尔语语言特征 |
3.1.2 维吾尔语文本处理中存在的问题 |
3.2 维吾尔语领域本体人工构建方法 |
3.2.1 本体相关综述 |
3.2.2 领域本体构建流程 |
3.2.3 构建本体工具和描述语言 |
3.2.4 实验结果分析 |
3.2.5 小结 |
3.3 维汉双语领域本体构建技术研究 |
3.3.1 前期工作 |
3.3.2 UC领域本体构建算法 |
3.3.3 小结 |
3.4 跨语言本体重用的构建方法 |
3.4.1 相关综述 |
3.4.2 资源本体的来历并预处理 |
3.4.3 实现跨语言重用实验及结果分析 |
3.4.4 小结 |
第4章 维吾尔语通用本体库的半自动构建及应用 |
4.1 通用本体知识库简介 |
4.2 Uyghur WordNet—UWN的开发 |
4.2.1 相关工作综述 |
4.2.2 UWN的开发背景 |
4.2.3 实验结果及分析 |
4.2.4 小结 |
4.3 重用UWN的本体扩建方法 |
4.3.1 引言及相关工作 |
4.3.2 本体重用和扩建技术 |
4.3.3 实验结果及分析 |
4.3.4 小结 |
第5章 维吾尔语领域本体的自动构建方法 |
5.1 多特征融合的概念提取方法研究 |
5.1.1 概念提取相关综述 |
5.1.2 必备知识 |
5.1.3 文本预处理 |
5.1.4 实验结果及分析 |
5.1.5 小结 |
5.2 基于混合层次聚类法的关系提取方法研究 |
5.2.1 关系获取相关综述 |
5.2.2 相关理论 |
5.2.3 基于文本的层次聚类算法 |
5.2.4 实验步骤及分析 |
5.2.5 小结 |
第6章 基于领域本体的维吾尔语自动摘要方法 |
6.1 自动摘要相关综述 |
6.2 前期工作 |
6.3 基于本体的自动摘要的实现 |
6.3.1 基于本体的文摘原理 |
6.3.2 基于本体的文摘算法实现 |
6.3.3 实验结果及分析 |
6.3.4 小结 |
第7章 总结与展望 |
7.1 工作总结 |
7.2 展望 |
参考文献 |
攻读博士学位期间主要的研究成果 |
附录 |
致谢 |
(2)商品评论情感分析系统设计与实现(论文提纲范文)
摘要 |
abstract |
1 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 论文的研究目标与关键技术 |
1.3.1 研究目标与内容 |
1.3.2 面临的挑战 |
1.3.3 关键技术 |
1.4 创新点 |
1.5 论文结构 |
1.6 本章小结 |
2 国内外研究现状 |
2.1 基于情感词典方法 |
2.2 基于机器学习方法 |
2.3 混合情感词典和机器学习方法 |
2.4 本章小结 |
3 系统需求分析 |
3.1 系统功能性需求 |
3.1.1 商品搜索 |
3.1.2 商品信息显示 |
3.1.3 评论数据获取 |
3.1.4 属性分类对比可视化 |
3.1.5 商品总体评价可视化 |
3.1.6 测试新评论 |
3.2 系统非功能性需求 |
3.2.1 系统分类准确率 |
3.2.2 系统性能 |
3.3 本章小结 |
4 系统设计 |
4.1 系统架构设计 |
4.2 系统模块设计 |
4.2.1 数据处理模块 |
4.2.2 特征选取模块 |
4.2.3 属性词典构造 |
4.2.4 分类器设计模块 |
4.2.5 情感分析模块 |
4.3 特征选择方法 |
4.3.1 基于Bag_of_words单词特征 |
4.3.2 双词搭配模型 |
4.3.3 分词和卡方统计模型 |
4.3.4 属性词典与卡方统计模型 |
4.4 特征选择方法对比 |
4.5 本章小结 |
5 系统实现 |
5.1 多线程数据爬取 |
5.2 数据处理 |
5.3 属性词典构造 |
5.4 特征词选取 |
5.5 分类器训练 |
5.6 本章小结 |
6 系统测试 |
6.1 测试环境 |
6.2 可视化设计 |
6.3 功能测试 |
6.3.1 搜索页面测试 |
6.3.2 商品显示页面 |
6.3.3 商品信息界面 |
6.3.4 评论信息页面测试 |
6.3.5 评论信息对比可视化表示界面测试 |
6.3.6 分词、去停用词界面测试 |
6.3.7 属性信息页面测试 |
6.3.8 评论界面测试 |
6.4 评论数据测试 |
6.5 属性分类 |
6.6 本章小结 |
7 总结与展望 |
7.1 论文总结 |
7.2 存在的不足 |
7.3 展望 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文目录 |
(3)跨域类比驱动的产品创新设计关键技术研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 引言 |
1.2 创新设计研究现状 |
1.2.1 创新的定义及分类 |
1.2.2 创新设计的定义及研究对象 |
1.2.3 创新辅助工具的研究概述 |
1.3 类比过程研究及意义 |
1.3.1 类比概述 |
1.3.1.1 类比的含义 |
1.3.1.2 类比的类型 |
1.3.1.3 类比和比喻 |
1.3.1.4 类比与归纳、演绎和联想 |
1.3.1.5 类比的特征 |
1.3.2 类比的认知过程 |
1.3.2.1 经典类比推理机制的研究 |
1.3.2.2 面向问题解决的类比推理机制研究 |
1.3.3 类比的应用 |
1.3.3.1 类比在科学发现中的应用 |
1.3.3.2 类比在学科发展中的应用 |
1.3.3.3 类比在人工智能中的应用 |
1.4 类比设计研究概况 |
1.4.1 类比在概念设计中的作用 |
1.4.1.1 类比的问题解决功能 |
1.4.1.2 类比的解释功能 |
1.4.2 类比设计的研究对象及成果 |
1.4.2.1 实验探索研究 |
1.4.2.2 方法应用研究 |
1.4.3 类比设计过程中的关键技术 |
1.4.3.1 知识表征方法研究 |
1.4.3.2 信息检索方法研究 |
1.4.3.3 设计知识转移 |
1.5 课题的提出及主要研究内容 |
1.5.1 课题的研究背景和意义 |
1.5.2 论文的主要工作和组织结构 |
第二章 类比实验设计及影响因素分析 |
2.1 引言 |
2.2 类比源的分类 |
2.3 实验设计 |
2.3.1 实验准备工作 |
2.3.1.1 确定实验人员 |
2.3.1.2 明确设计任务 |
2.3.1.3 选择类比源 |
2.3.2 实验流程 |
2.3.3 实验数据处理 |
2.3.3.1 数量 |
2.3.3.2 新颖性 |
2.3.3.3 质量 |
2.3.3.4 多样性 |
2.3.3.5 数据分析方法 |
2.4 实验结果及分析 |
2.4.1 数据处理结果及分析 |
2.4.1.1 (非)一致性分析 |
2.4.1.2 差异分析 |
2.4.2 知识映射和转移分析 |
2.5 小结 |
第三章 设计知识表征——R-SBF模型构建 |
3.1 引言 |
3.2 设计知识表征模型概述 |
3.2.1 模型的分类 |
3.2.2 模型的比较 |
3.2.3 R-SBF模型的提出 |
3.3 R-SBF知识表征建模规则 |
3.3.1 结构表征 |
3.3.2 行为表征 |
3.3.3 功能表征 |
3.4 实例 |
3.4.1 设计任务确定 |
3.4.2 R-SBF模型构建 |
3.4.3 类比方案产生 |
3.5 小结 |
第四章 基于R-SBF模型的领域本体建立 |
4.1 引言 |
4.2 本体概述 |
4.2.1 本体定义 |
4.2.2 本体构建方法 |
4.2.3 本体描述语言 |
4.2.4 本体编辑工具 |
4.3 R-SBF本体模型构建过程 |
4.3.1 流本体模型 |
4.3.2 结构本体模型 |
4.3.3 行为本体模型 |
4.3.4 功能本体模型 |
4.3.5 R-SBF本体模型 |
4.4 基于Protégé的本体知识库建立 |
4.4.1 流本体知识库构建 |
4.4.2 结构本体知识库构建 |
4.4.3 行为本体知识库构建 |
4.4.4 功能本体知识库构建 |
4.4.5 行业分类标准本体知识库构建 |
4.5 实例 |
4.5.1 iRobot780的R-SBF模型 |
4.5.2 iRobot780 的本体模型建立 |
4.6 小结 |
第五章 F_sD和 F_mD检索技术实现 |
5.1 引言 |
5.2 检索技术概述 |
5.2.1 查询扩展技术 |
5.2.2 相似度度量模型 |
5.2.3 检索性能评价 |
5.3 F_sD检索机制 |
5.3.1 功能语义相似度模型 |
5.3.1.1 概念相似度计算 |
5.3.1.2 概念相关度计算 |
5.3.1.3 概念权重设定 |
5.3.2 F_sD检索算法 |
5.3.2.1 基于向量空间的类比源检索模型 |
5.3.2.2 面向F_sD的类比源输出过程 |
5.4 F_m D检索机制 |
5.4.1 基于产生式规则的行为—功能映射 |
5.4.2 基于LSA的 F_mD检索算法 |
5.4.2.1 权重函数设定 |
5.4.2.2 检索实现过程 |
5.5 检索方法验证 |
5.5.1 检索过程模型 |
5.5.2 检索方法评价 |
5.5.2.1 查全率检验 |
5.5.2.2 查准率检验 |
5.5.2.3 F-measure检验 |
5.6 小结 |
第六章 AADI计算机辅助设计系统原型开发 |
6.1 引言 |
6.2 计算机设计软件开发策略 |
6.3 AADI系统数据库设计 |
6.3.1 索引数据库 |
6.3.2 案例数据库 |
6.4 AADI系统组成及功能模块 |
6.4.1 AADI系统组成 |
6.4.2 AADI系统功能模块 |
6.4.2.1 基础知识模块 |
6.4.2.2 案例录入模块 |
6.4.2.3 检索和输出模块 |
6.4.2.4 数据库可编辑模块 |
6.5 小结 |
第七章 基于AADI的产品创新设计过程及应用 |
7.1 引言 |
7.2 面向产品创新的跨域类比设计过程 |
7.3 基于AADI的智能扫地机创新设计 |
7.3.1 设计任务确定 |
7.3.2 类比源检索 |
7.3.2.1 目标问题确定 |
7.3.2.2 类比源确定 |
7.3.3 知识转移和方案产生 |
7.3.4 目标方案确定 |
7.3.4.1 边角吸尘系统仿真 |
7.3.4.2 主吸尘系统仿真 |
7.4 小结 |
第八章 结论与展望 |
8.1 论文主要结论 |
8.2 论文主要创新点 |
8.3 未来工作及展望 |
参考文献 |
附录A |
攻读学位期间所取得的相关研究成果 |
致谢 |
(4)中文报业出版的文字质量智能辅助控制技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 问题的提出 |
1.3 论文的研究思路 |
1.4 论文的主要工作及贡献 |
1.5 论文的组织结构 |
第二章 相关研究工作现状 |
2.1 词汇的语义分类与短语识别 |
2.1.1 外文词汇的语义分类 |
2.1.2 汉语词汇的语义分类 |
2.1.3 情感词汇的自动分类 |
2.1.4 短语识别方法 |
2.2 句子和篇章级语义分析 |
2.2.1 有监督的语义角色标注 |
2.2.2 半监督和无监督的语义角色标注 |
2.2.3 篇章级意见挖掘研究现状 |
2.3 新事件检测与复制检测 |
2.3.1 新事件检测与复制检测的异同 |
2.3.2 新事件检测方法 |
2.3.3 文本复制检测方法 |
第三章 文字质量智能辅助控制的概念和技术框架 |
3.1 文字质量智能辅助控制的相关概念 |
3.2 报业出版文字质量智能辅助控制的生产流程 |
3.2.1 报业出版文字质量智能辅助控制的概念及其内涵 |
3.2.2 报业出版文字质量智能辅助控制的生产流程 |
3.3 报业出版文字质量智能辅助控制技术框架 |
3.3.1 文字质量智能辅助控制系统技术框架 |
3.3.2 文字质量智能辅助控制的关键技术 |
3.4 本章小结 |
第四章 面向文字查错的汉语实词和短语义类标记 |
4.1 构建面向文字查错的新闻语料库 |
4.1.1 分词标注新闻语料库的来源 |
4.1.2 以系统工程法标注分词新闻语料库 |
4.1.3 辅助的未分词语料库来源 |
4.2 面向文字查错的汉语实词语义分类 |
4.2.1 进行语义分类的目的 |
4.2.2 面向文字查错的词汇分类原则与理想分类 |
4.2.3 汉语实词分类与种子词的标记 |
4.3 汉语实词义类的自动获取 |
4.3.1 分类特征的选择 |
4.3.2 分类学习语料库的抽取 |
4.3.3 基于BootStrapping 的义类自动获取算法 |
4.3.4 低频词汇的义类自动获取 |
4.4 词义消歧与义类自动标注 |
4.4.1 面向义类的粗粒度词义消歧 |
4.4.2 条件随机场模型 |
4.4.3 词性与义类的联合标注 |
4.5 复合名词与名词短语的义类标注 |
4.5.1 复合名词的离线义类学习 |
4.5.2 基本名词短语的自动识别 |
4.5.3 基本名词短语义类识别 |
4.6 实验结果与讨论 |
4.6.1 实词义类的自动获取算法实验 |
4.6.2 词性与义类联合标注实验 |
4.6.3 名词短语识别实验 |
4.7 本章小结 |
第五章 基于义类标记的新闻稿自动查错 |
5.1 新闻稿中的文字质量问题分析 |
5.1.1 字词错误 |
5.1.2 标点、数字与计量单位使用错误 |
5.1.3 语法错误 |
5.1.4 语义错误 |
5.1.5 前后不一致 |
5.2 利用基于义类的N-gram 模型查找局部错误 |
5.2.1 统计语言处理的N-gram 语言模型及其问题 |
5.2.2 基于类的n-gram 模型 |
5.2.3 利用基于义类的3-gram 模型的自动查错 |
5.3 基于语义优选的长距离查错 |
5.3.1 动词对主语和宾语的语义优选 |
5.3.2 针对的问题 |
5.3.3 基于半监督语义角色标注的主谓和动宾搭配提取策略 |
5.3.4 句子核心谓语动词的识别 |
5.3.5 基于语义优选的主谓和动宾搭配查错 |
5.4 基于点互信息的复句结构与标点查错 |
5.4.1 问题分析 |
5.4.2 熵与互信息 |
5.4.3 基于复句连词点互信息的复句结构与标点查错 |
5.5 人名-职务前后不一致检测 |
5.5.1 问题分析 |
5.5.2 基于小规模特征的人名识别 |
5.5.3 人名-职务前后不一致检查算法 |
5.6 实验结果与讨论 |
5.6.1 实验数据与评价指标 |
5.6.2 基于义类的Tri-gram 模型的查错性能实验 |
5.6.3 基于语义优选的查错算法性能实验 |
5.6.4 复句结构与标点查错实验 |
5.6.5 人名-职务的前后不一致检测实验 |
5.7 本章小结 |
第六章 历史稿件话题内聚类与重稿检测 |
6.1 重稿检测问题分析 |
6.1.1 重稿问题描述 |
6.1.2 重稿检测与相关技术的区别 |
6.1.3 重稿检测算法流程 |
6.2 历史稿件分类组织与聚类 |
6.2.1 基于广义话题的稿件分类 |
6.2.2 历史稿件的话题内事件聚类 |
6.3 基于首段文字特征的新事件检测 |
6.3.1 首段内容的多语义类描述 |
6.3.2 改进的相似性度量 |
6.3.3 广义话题内新事件检测算法 |
6.4 基于全文特征的重稿检测 |
6.4.1 面向重稿检测的特征提取 |
6.4.2 话题内历史查重算法 |
6.4.3 新闻评论的意见识别及重稿检测 |
6.4.4 预见报稿件内查重 |
6.5 实验结果与讨论 |
6.5.1 基于首段文字特征的新事件检测实验 |
6.5.2 基于全文特征的重稿检测实验 |
6.5.3 新闻评论的重稿检测实验 |
6.6 本章小结 |
第七章 结束语 |
7.1 论文的主要贡献 |
7.2 进一步的工作 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(5)面向非均衡数据集的机器学习及在地学数据处理中的应用(论文提纲范文)
摘要 |
AB5TRACT |
第一章 前言 |
1.1 问题的提出 |
1.1.1 选题的来源 |
1.1.2 选题的目的和意义 |
1.2 研究的背景 |
1.2.1 选题的国内外研究现状 |
1.2.2 选题的发展趋势 |
1.2.3 存在问题 |
1.3 本课题的研究内容及主要创新点 |
1.4 论文的组织结构 |
第二章 不均衡数据集的机器学习 |
2.1 机器学习及其研究现状 |
2.1.1 概述 |
2.1.2 机器学习研究现状 |
2.2 机器学习方法与分类器设计 |
2.2.1 机器学习方法 |
2.2.2 机器学习方法对分类器设计的影响 |
2.3 不均衡数据集分类问题的难点 |
2.3.1 不恰当的评价标准 |
2.3.2 数据缺乏 |
2.3.3 数据碎片 |
2.3.4 噪声 |
2.3.5 不恰当的归纳偏置 |
2.4 机器学习技术在地学信息处理中的应用 |
第三章 分类技术及其结果评估 |
3.1 分类技术和典型的分类算法 |
3.1.1 分类技术 |
3.1.2 典型的分类算法 |
3.2 分类器性能的评估方法 |
3.2.1 保持法 |
3.2.2 随机二次抽样 |
3.2.3 K-折交叉验证 |
3.2.4 留一法 |
3.2.5 自助法 |
3.3 分类器性能的评估指标 |
3.3.1 常用的分类器性能数值评价指标 |
3.3.2 分类器性能可视化评价指标 |
3.3.3 评价指标所存在的问题 |
3.3.4 扩展的复合数值分类性能评价指标 |
3.4 本章小结 |
第四章 典型的数据降维方法及其应用 |
4.1 概述 |
4.1.1 降维问题的提出 |
4.1.2 降维的定义 |
4.1.3 降维的分类 |
4.2 典型数据降维方法 |
4.2.1 线性降维方法 |
4.2.2 非线性降维方法 |
4.3 降维技术在地学数据处理中的应用 |
4.3.1 PCA降维技术在边坡稳定性测试中的应用 |
4.3.2 Isomap降维在瓦斯突出预测中的应用 |
4.4 本章小结 |
第五章 混合重取样算法 |
5.1 不均衡数据集重取样方法 |
5.1.1 简单重取样方法 |
5.1.2 高级重取样算法 |
5.2 自适应选择近邻的混合重取样算法 |
5.2.1 SMOTE方法存在的问题 |
5.2.2 自适应选择近邻的混合重取样算法 |
5.2.3 实验平台的构建 |
5.2.4 仿真实验 |
5.3 降维混合重取样方法 |
5.3.1 降维混合重取样算法 |
5.3.2 仿真实验 |
5.4 重取样算法在岩爆发生可能性识别预测中的应用 |
5.4.1 引言 |
5.4.2 岩爆的预测方法 |
5.4.3 重取样方法在岩爆预测中的应用 |
5.4.4 结论 |
5.5 本章小结 |
第六章 非均衡数据集的代价敏感学习 |
6.1 代价敏感学习的相关研究 |
6.1.1 代价的类型 |
6.1.2 代价敏感学习 |
6.1.3 代价敏感学习算法的评价指标 |
6.1.4 典型的代价敏感学习算法 |
6.2 两类代价敏感学习算法的实验比较 |
6.2.1 Sick数据集实验 |
6.2.2 Hepatitis数据集实验 |
6.2.3 Ionosphere数据集实验 |
6.2.4 实验结果分析 |
6.3 基于重取样的最小误分类代价敏感学习算法 |
6.3.1 实验数据及设置 |
6.3.2 实验结果与分析 |
6.4 本章小结 |
第七章 结论与展望 |
7.1 结论 |
7.2 存在的问题及今后的研究思路 |
致谢 |
参考文献 |
(6)中文词法分析技术的研究与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景 |
1.1.1 中文分词研究的意义 |
1.1.2 词性标注和动词细分类研究的意义 |
1.2 词法分析的主要问题和方法及研究现状概述 |
1.2.1 中文分词的主要问题和方法概述 |
1.2.2 词性标注的主要问题和方法概述 |
1.2.3 动词细分类的研究现状概述 |
1.3 SIGHAN Segmentation Bakeoff 2005 中分词方法评述 |
1.4 本文的结构 |
1.5 本章小结 |
第2章 基于词类的分词概率模型 |
2.1 语言模型 |
2.1.1 统计语言模型介绍 |
2.1.2 信源信道模型与统计语言模型 |
2.1.3 N-gram模型 |
2.1.4 数据平滑 |
2.2 基于词类的分词概率模型 |
2.2.1 模型的理论推导 |
2.2.2 词类的定义 |
2.3 本章小结 |
第3章 基于角色标注的未登录词识别 |
3.1 隐马尔科夫模型 |
3.1.1 隐马尔科夫模型的定义 |
3.1.2 Viterbi算法 |
3.2 未登录词识别的主要难点 |
3.2.1 未登录词与命名实体 |
3.2.2 未登录词识别的主要难点 |
3.3 角色的定义及角色语料库 |
3.3.1 角色的定义 |
3.3.2 角色语料库 |
3.4 基于角色标注的未登录词识别 |
3.4.1 角色标注的隐马尔科夫模型参数的训练 |
3.4.2 利用Viterbi算法进行角色标注 |
3.4.3 未登录词概率的计算 |
3.5 本章小结 |
第4章 词性标注与动词细分类研究 |
4.1 词性标注 |
4.1.1 词性标记集 |
4.1.2 基于隐马尔科夫模型的词性标注 |
4.2 动词细分类 |
4.2.1 动词细分类标注规范 |
4.2.2 基于改进隐马尔科夫模型的动词细分类 |
4.2.3 基于最大熵模型的动词细分类 |
4.2.4 动词细分类对比实验及其对句法分析的影响 |
4.3 本章小结 |
第5章 IR词法分析系统(IRLAS)的设计与实现 |
5.1 IRLAS介绍 |
5.2 IRLAS的流程与结构设计 |
5.2.1 切分词图介绍 |
5.2.2 系统流程及各模块介绍 |
5.2.3 系统结构设计 |
5.3 实验与结果分析 |
5.3.1 分词与词性标注评测方法 |
5.3.2 在2000 年1 月人民日报语料上的实验 |
5.3.3 在SIGHAN Segmentation Bakeoff 2005 PKU语料上的实验 |
5.4 本章小结 |
结论 |
参考文献 |
附录1 词法分析系统(IRLAS)在线演示及源代码共享情况介绍 |
附录2 第二届国际SIGHAN分词评测及IRLAS参赛情况介绍 |
附录3 词法分析系统(IRLAS)技术转让列表 |
附录4 信息检索研究室动词细分类标注规范 |
附录5 攻读硕士期间参与的研究与开发项目 |
攻读学位期间发表的学术论文 |
哈尔滨工业大学硕士学位论文原创性声明 |
哈尔滨工业大学硕士学位论文使用授权书 |
哈尔滨工业大学硕士学位涉密论文管理 |
致谢 |
(7)采用优先选择策略的中文人称代词的指代消解(论文提纲范文)
1 引言 |
2 基于语料库的指代消解 |
2.1 语料库信息 |
(1) 性别属性。 |
(2) 单复数属性。 |
(3) 语义类属性。 |
(4) 距离属性。 |
(5) 频次属性。 |
2.2 指代分析与过滤 |
2.3 优先选择策略 |
3 试验及其结果分析 |
3.1 不同方法的比较 |
3.2 属性的测试 |
3.3 系统评估 |
4 结论和今后的研究 |
(8)中文人称代词指代消解系统的研究与实现(论文提纲范文)
第一章 引言 |
1.1 自然语言处理 |
1.2 项目背景——突发事件文本信息抽取系统 |
1.3 指代消解问题研究的意义 |
1.4 本文的主要工作和结构安排 |
第二章 指代消解技术 |
2.1 指代消解相关概念 |
2.1.1 指代消解的定义 |
2.1.2 形成指代的必要条件 |
2.1.3 指代消解系统的评估 |
2.2 指代消解的算法及实现技术 |
2.2.1 指代消解算法 |
2.2.2 指代消解的实现方法 |
2.2.3 汉语指代消解的研究 |
2.3 指代消解技术的分析及发展趋势 |
第三章 中文文本人称代词指代消解关键问题的讨论 |
3.1 中文文本人称代词消解的难点 |
3.2 在中文文本中进行指代消解的关键问题 |
第四章 人称代词指代消解模型的设计 |
4.1 人称代词指代消解系统模型 |
4.2 决策树模型的介绍 |
4.3 消解特征属性的选择与改进 |
4.4 优先选择策略 |
4.5 与其他消解算法的比较 |
第五章 人称代词指代消解系统模型的实现 |
5.1 文本及数据的预处理 |
5.2 特征属性及优先选择因子的计算 |
5.3 特征属性的可扩充性 |
5.4 实验及其数据分析 |
5.4.1 评测指标的计算 |
5.4.2 不同方法的比较 |
5.4.3 属性的测试 |
5.5 系统评估 |
第六章 结束语与展望 |
6.1 结束语 |
6.2 展望 |
参考文献 |
致谢 |
附录 |
承诺 |
(10)现代汉语词性细分类标注研究(论文提纲范文)
1 引言 |
1.1 现代汉语词性细分类标注的提出 |
1.1.1 现代汉语词性细分类标注的意义 |
1.1.2 现代汉语词性细分类标注的影响 |
1.2 国外细分类标注研究动态 |
1.3 国内细分类标注领域的研究动态 |
2 现代汉语词性细分类体系 |
2.1 词性细分类体系简介 |
2.1.1 语素字分类体系 |
2.1.2 量词分类体系 |
2.1.3 名词分类体系 |
2.1.4 动词分类体系 |
3 基于语法语义的词性细分类标注模型 |
3.1 基于词性信息的细分类标注模型 |
3.1.1 当前词性标注方法 |
3.1.2 基于词性信息的细分类标注模型 |
3.1.3 实验设计与分析 |
3.1.3.1 实验设计 |
3.1.3.2 实验分析 |
3.2 基于词汇向量空间的细分类标注模型 |
3.2.1 基于词汇向量空间的细分类模型的提出 |
3.2.2 词性细分类标注中的向量空间模型 |
3.2.2.1 基于词汇的语义矢量表示 |
3.2.2.2 特征值的筛选 |
3.2.2.3 特征值的加权 |
3.2.3 模糊集方法的引入 |
3.2.3.1 隶属函数的确定 |
3.2.3.2 模糊相似关系的确定 |
3.2.3.3 基于模糊集的向量空间模型 |
3.2.4 实验设计与分析 |
3.2.4.1 实验设计 |
3.2.4.2 实验分析 |
3.3 基于语法语义的词性细分类标注模型 |
3.3.1 语法语义相结合的词性细分类标注模型 |
3.3.2 实验设计与分析 |
3.3.2.1 实验设计1 |
3.3.2.2 实验设计2 |
4 词性细分类标注模型的改进 |
4.1 词汇特征向量的层次聚类 |
4.2 规则的引入 |
4.2.1 语法信息词典简介 |
4.2.2 规则的抽取 |
4.2.2.1 名词与量词的搭配规则提取 |
4.2.2.2 动词规则库的提取 |
4.3 统计与规则相结合标注模型的建立 |
4.4 实验设计与分析 |
4.4.1 实验设计 |
4.4.2 实验分析 |
5 结束语 |
致谢 |
参考文献 |
四、基于模糊集的名词细分类研究(论文参考文献)
- [1]维吾尔语领域本体构建关键技术及其应用研究[D]. 哈妮克孜·伊拉洪. 新疆大学, 2019(10)
- [2]商品评论情感分析系统设计与实现[D]. 任秋芳. 上海交通大学, 2018(06)
- [3]跨域类比驱动的产品创新设计关键技术研究[D]. 贾丽臻. 河北工业大学, 2017(01)
- [4]中文报业出版的文字质量智能辅助控制技术研究[D]. 侯锋. 国防科学技术大学, 2010(08)
- [5]面向非均衡数据集的机器学习及在地学数据处理中的应用[D]. 谷琼. 中国地质大学, 2009(10)
- [6]中文词法分析技术的研究与实现[D]. 张会鹏. 哈尔滨工业大学, 2006(12)
- [7]采用优先选择策略的中文人称代词的指代消解[J]. 李国臣,罗云飞. 中文信息学报, 2005(04)
- [8]中文人称代词指代消解系统的研究与实现[D]. 罗云飞. 山西大学, 2005(07)
- [9]采用优先选择策略的中文人称代词的指代消解[A]. 罗云飞,李国臣. 第二届全国学生计算语言学研讨会论文集, 2004
- [10]现代汉语词性细分类标注研究[D]. 段建勇. 山西大学, 2004(03)