一、Web页面相关度算法(论文文献综述)
杨广召[1](2021)在《面向红枣信息资源的爬虫技术研究》文中研究指明在现代互联网技术迅猛发展的时代,互联网上的各类资源呈现出爆炸式增长,网络上积累了丰富的红枣相关信息。传统主题网络爬虫会爬取与红枣主题相关性高的页面,但不能满足用户想要快速、精准、有效获取所需红枣信息的需求。传统主题网络爬虫在页面检索时能够做到只爬取与主题相关性高的页面,但现有传统主题网络爬虫的算法也存在缺点,如容易产生“主题漂移”、对新页面忽视和红枣链接去重效率低等问题。针对红枣类相关页面,结合不同算法的优点对HITS(Hyperlink-Induced Topic Search)算法和链接去重算法进行改进,以使改进后的算法在爬取页面时展现更好的性能。本文的主要研究内容如下:首先,对通用网络爬虫中相关理论和技术进行研究,主要对主题网络爬虫实现中用到的相关技术进行分析,并对页面处理,主题相关度计算等进行分析。其次,在对传统主题网络爬虫技术的研究中发现存在一些问题:1.HITS算法存在对新页面忽视问题和“主题漂移”现象。2.传统内存去重方法对红枣链接去重效率低。针对以上问题对红枣主题网络爬虫中的算法展开研究,结合不同算法的优点对红枣主题网络爬虫算法进行改进,使改进后的算法在爬取红枣页面时展现出更好的性能。再次,对传统主题网络爬虫算法的深入研究,发现现有主题网络爬虫算法的不足并对其进行改进,提出引入时间因素的HITS算法与Shark-Search算法相结合,使得结合后的算法在页面爬取时与红枣主题密切相关,解决传统算法中对新页面忽视问题和消除“主题漂移”现象,提高红枣主题网络爬虫算法查准率和查全率。针对传统内存去重效率低的问题,提出基于Redis的Bloom Filters去重方法,Bloom Filters将红枣链接表示成二进制向量并存储在内存数据库Redis中,提高了红枣链接的去重效率。最后,实现红枣主题网络爬虫系统整体爬取功能,将改进算法应用于关键功能模块的实现。实验结果表明,改进算法在提高红枣主题相关计算和红枣链接去重效率方面是可行有效的。
闻豪[2](2021)在《基于主题爬虫的群体智能优化算法研究》文中进行了进一步梳理随着互联网的快速发展,人类的活动得以进一步扩展,各行各业累积的数据规模急剧膨胀,数据量越来越大,如何从海量的网络资源中快速准确地获取主题信息逐渐成为搜索行业研究热点。主题网络爬虫可以专业化、精准化的提高搜索信息的准确度。准确度的评价指标主要有查准率和查全率,查准率依赖于主题相关性计算,查全率则取决于网页搜索策略的选择。因此,本文围绕主题爬虫的两大关键技术:网页主题相关度计算方法和网页搜索策略开展研究工作。(1)主题相关性的研究。无论采用哪种主题相关度算法均离不开主题关键词确权。传统的确权方法是通过邀请相关有经验的专家对主题关键词进行确权,这种确权方式查准率虽高,但具有强烈的主观性和经验依赖性。为了解决这个问题,本文提出了一种基于改进五行环优化算法的主题关键词确权方法,在人工确权的基础上建立确权模型,对已有关键词在专家样本上进行训练,然后对模型进行测试评估,根据评估结果优化模型,直到查准率达到一定令人满意的值。(2)网页搜索策略的研究。深度优先搜索策略、广度优先搜索策略以及最佳优先搜索策略等算法在面向少量网页的爬行或者简单的网络结构时,具有优秀的搜索性能。但是,随着网页数目的增多,网络结构更加复杂时,这些常用的网页搜索策略搜索性能不高。本文提出的基于改进差分进化算法的网页搜索策略可以有效解决这些问题。(3)实践验证。为验证改进算法对主题爬虫性能的影响,本文将改进算法应用于中小型企业政策主题项目“中小型企业政策查询系统”,通过实验验证,相比常用的主题爬虫技术,本文算法能扩大爬虫的搜索范围,提高相关度计算精度,在一定程度上提高了主题爬虫的查准率和查全率,检索出的网页更加贴合主题需要。
刘娜[3](2020)在《冬奥会新闻文本采集及分类分析系统的设计与实现》文中研究表明随着互联网技术的发展,网络信息数量不断增加。网络数据多以文本类型展现,但文本信息分布发散,内容复杂,分类单一,导致网络信息的采集和分析难度较大。为解决数据采集困难和文本分类粗糙的问题,本论文以主题爬虫和文本分类技术为基础,利用Python语言设计并实现了冬奥会新闻文本采集及分类分析系统。该系统主要包括数据采集、数据分类、数据可视化三个功能模块。在数据采集模块中,为了采集与冬奥会主题相关的新闻文本数据,定制了主题爬虫。所获得的数据为冬奥会信息的分类与分析提供了数据支撑,并实现了对冬奥会网络信息的初步数据整合。数据分类模块主要分为两个部分:数据筛选和文本分类。为实现对无关信息的筛选,本论文基于近邻算法SNN引入局部密度和相似度,提出了基于局部密度和相似度的自适应SNN算法(AK-SNN)。为验证AK-SNN算法的性能,分别在UCI数据集和冬奥会新闻文本数据集上进行了对比实验。实验结果表明,AK-SNN具有更好的鲁棒性和预测精度。为进一步对网络文本数据进行类别细分,采用极限学习机(ELM)作为文本分类器实现文本信息的多分类。结果表明,ELM在多类别的文本分类中获得了良好的分类精度。在数据可视化模块中,为了直观展示采集和分类结果,利用Django框架设计了Web展示界面。为挖掘信息中的潜在价值,对分类结果、新闻来源、新闻发布日期等多方面进行数据分析,并对分析结果进行了可视化。本论文的设计与实现为2022年冬奥会网络信息的采集和分析提供了一定的数据支持和技术支撑,同时为挖掘大型体育赛事相关网络新闻文本中的潜在价值信息提供了一种可供借鉴的思路。
陈豪[4](2020)在《基于改进的Shark-Search算法的健康垂直搜索引擎的研究与实现》文中认为随着近几年经济飞速发展和人民生活水平的提高,健康问题也越来越受人们重视。而在使用当前传统搜索引擎搜索健康领域信息时,搜索结果中往往存在大量的广告信息,并且专业性、权威性较差。针对该问题,本课题基于改进的Shark-Search算法实现了一个健康领域的垂直搜索引擎,课题主要工作如下:(1)对Shark-Search算法的不足进行改进。针对Shark-Search算法使用链接上下文计算导致噪音链接对主题链接判定产生负面影响的不足,将链接上下文改为使用网页标题来计算,其他计算因素不变;针对Shark-Search算法的“近视问题”,提出将Shark-Search算法与OPIC算法相结合。通过实验表明Shark-Search改进算法较Shark-Search算法、OPIC算法、shark-PageRank算法在查准率上分别提高了7.8%、14.1%、0.9%,在查全率(目标召回率)上分别提高了 11.8%、17.7%、2.9%。(2)基于改进的Shark-Search算法实现健康领域的爬虫,并基于爬取的数据开发了一个健康领域的垂直搜索引擎。将本垂直搜索引擎与百度和必应搜索对比测试,结果表明本垂直搜索引擎在搜索健康关键词时在结果的前100个网页中主题相关性表现更好。本文的创新点在于:1、在Shark-Search算法中考虑使用网页标题来替代链接上下文来做主题相关度计算,避免噪音链接对主题链接判定产生影响。2、提出将Shark-Search算法与OPIC算法相结合,这不仅改善了Shark-Search算法的“近视问题”,在一定程度上消除了 OPIC算法的“主题漂移”问题。
王冬旭[5](2020)在《基于Python的旅游网站数据爬虫研究》文中研究指明随着信息时代的发展和编程技术的普及,搜索引擎成为了使用互联网的常用工具。搜索引擎大多使用爬虫技术作为核心模块,通过关键词返回用户查询的结果。但是网络信息呈现爆炸式的增长,使得信息的查找和定位也变得困难。为解决上述困境,研究借助Python和Scrapy语言框架基础,以“旅游网站”为爬取目标,通过分析当前现有Web crawler的运行机理、功能单元以及算法程序,试探性的创建一个针对性比较强的网络爬虫,对课题的目标数据进行爬取。在简明给出了爬虫技术的原理和发展现状、介绍爬虫工程中一些关键技术、并着重介绍了在研究中有深刻影响的Cookie和Robot协议之后,论文阐述了以Mongo DB为代表的NOSQL数据库对目标信息数据存储中起到的关键作用,并针对程序开发的流程及关键性的实现细节作出重点介绍。同时,论文还提及了现今爬虫技术开发所涉及的关键性问题,以及具体在本文中采用的实际解决方法。为解决网站的限制困境,重点介绍通过更换Cookie和user-agent伪装来解决上述问题。而原始资源符地址去重和多线程并发的问题,则采用并分析Scrapy自带的解决方案。最后对爬虫进行测试并可视化的进行成果展示,并于对已经作出的研究成果所存在的问题和改进的可能进行论述。
刘成军[6](2020)在《基于查询扩展和多目标优化的主题爬虫系统的研究和实现》文中进行了进一步梳理随着互联网的迅速发展,互联网上的信息不断累积,传统的网络爬虫已经难以满足人们对信息的个性化和实时性获取的需要,主题爬虫应运而生。相比于传统网络爬虫,主题爬虫有明确的主题描述作为爬取目标,有智能的链接评价来优化主题爬取的路径,从而获得了更高的效率。然而,主题爬虫当前的主题描述方法难以实现构建成本与完备性的平衡,当前的主题爬取过程也难以协调影响链接优先级的多种因素之间的关系。针对这些问题,本文提出基于查询扩展和多目标优化的主题爬虫系统。本文使用查询扩展来增强原始主题描述的完备性,在迭代查询结果中使用改进后的TextRank算法抽取主题关键词来充实主题模型。首先基于BERT模型预训练的词向量在TextRank算法的转移权重矩阵中引入主题相关度影响因子,从而提出Topic-TextRank算法,用以改进主题关键词的提取效果;再结合查询扩展中相关反馈和伪相关反馈的迭代过程,将Topic-TextRank算法的主题关键词结果权重与查询排名做了动态融合;进而提出基于动态Topic-TextRank算法的相关反馈和伪相关反馈两种主题描述的扩展框架,并用实验验证这两种框架对于主题描述效果的提升。本文将主题爬取过程抽象成多目标优化问题,将决定链接优先级的因素抽象为目标函数,再使用改进后的蚁群算法和改进后的NSGA-Ⅱ算法来解决。对于蚁群算法,本文根据网页主题相关与否将信息素细分为增益信息素和惩罚信息素两类,并基于这两种信息素和蚁群路径上的点对前溯多段路径的影响力提出蚁群的回溯式信息素更新算法。对于NSGA-Ⅱ算法,本文引入了带权拥挤距离的计算方法以优化最终的精英选择。然后融合这两种改进算法提出了基于多目标优化的主题爬取策略,并用实验验证了其对于主题爬虫查准率和效率的提高。本文开发并实现了基于查询扩展和多目标优化的主题爬虫系统,实现对目标主题的准确全面高效的爬取。系统包括主题描述模块、主题爬取模块和数据存储模块。主题描述模块基于查询扩展获取主题模型和种子网页,主题爬取模块实现基于多目标优化的爬取过程,数据存储模块使用Redis和MySQL实现爬行中间数据及结果网页的存储。
顾瑶平[7](2020)在《基于改进禁忌搜索策略的分布式主题爬虫方法研究》文中指出主题爬虫(Focused Crawler,FC)是信息检索的核心技术,致力于从Web上尽可能下载更多与主题相关的网页,因此如何提高FC技术的全局搜索能力并设计一个高效、稳定且准确的爬虫系统尤为重要。气象灾害中的暴雨灾害和台风灾害频繁多发且造成的损失不可估量,Web中存在很多与气象灾害有关的文本信息。为了在众多网页中高效、准确地获取暴雨灾害和台风灾害的信息,本文针对暴雨灾害主题和台风灾害主题,利用Hadoop的大数据平台,研究设计了一个融合回溯隧道穿越法和本体的改进禁忌搜索策略的分布式主题爬虫(Distributed Focused Crawler,DFC)系统,主要研究内容和方法如下:1)针对FC技术中的主题描述问题,提出了一种构建领域本体来描述主题的方法。首先利用本体语义相似度构建主题语义权重向量,基于超级文本标记语言(HTML)位置加权构建网页文本特征向量,然后采用向量空间模型计算网页的主题相关度。在此基础上,进一步提出了一种基于页面主题相关度、锚文本主题相关度以及链接指向网页PR值的链接综合优先度评估方法。通过分别以暴雨灾害和台风灾害为主题的主题爬虫实验结果表明,该方法能有效预防“主题漂移”,提高爬虫系统的准确性。2)针对FC技术中的爬行策略问题,提出了一种融合本体和改进禁忌搜索策略的主题爬虫(On-ITS)方法。利用全局本体和局部本体多次筛选链接,加入回溯隧道穿越法,最终提出一种结合On-ITS方法和回溯隧道穿越策略的主题爬虫方法(RO-ITS),该方法扩宽了爬虫的搜索路径,提高了爬虫系统全局搜索的能力。通过以暴雨灾害和台风灾害为主题,将本文提出的爬虫方法与文献中其他不同算法的实验结果进行比较,发现本文的策略能抓取更多与主题相关的网页。3)针对FC技术中的爬行效率问题,搭建了基于Hadoop平台的DFC系统。通过将RO-ITS策略引入Map Reduce计算模型,设计并实现了系统的页面抓取、页面解析以及链接处理三个模块,利用HDFS存储数据。经过实验测试,本文设计的DFC系统运行稳定,爬准率较高,与单机爬虫系统相比,其网页抓取效率明显提升。
陶林[8](2020)在《基于ElasticSearch与聚合支付的分布式电商平台的设计与实现》文中认为近年来,随着互联网技术的发展,电商行业应运而生,彻底改变了传统的购物方式。但是,随着业务规模的不断扩大,业务逻辑错综复杂,功能之间耦合严重,开发运维成本也与日俱增;同时,商品信息量也呈爆发式增长,传统商品搜索过程效率低下,急需一种电商垂直领域专用搜索引擎;其次,随着第三方支付渠道的不断增多,如支付宝、微信、银联等,传统支付系统支付渠道接入复杂且可扩展性差。针对如何实现业务解耦合提高业务可伸缩性、如何高效精确的获取到用户想要的商品信息、如何集成简单易用的支付系统等问题,本文设计并实现了一种基于ElasticSearch与聚合支付的分布式电商平台,具体如下:首先,构建一个分布式电商平台。首先,使用Dubbo微服务框架搭建分布式架构,使用Zookeeper实现服务注册与发现,使用Dubbo-admin构建服务监控中心;其次,使用Java Web后端技术实现后台业务的开发,使用Mysql创建数据库系统,使用Maven项目管理工具进行项目管理;然后,使用Vue框架搭建前后端分离架构,使用Java Web前端技术开发前端页面。其次,设计并实现了一种电商垂直搜索引擎。首先,利用ElasticSearch构建分布式搜索引擎集群;其次,利用Kibana可视化设计工具根据搜索业务需求设计并创建搜索引擎数据结构,使用IK中文分词算法实现文本分词计算;然后,利用倒排索引算法、相关性匹配算分以及聚合分析等设计了一种电商垂直搜索引擎,实现全文检索、分类查询、聚合搜索以及排序推荐等功能。然后,设计并实现了一种多通道聚合支付。首先,分析支付宝支付、微信支付、银联支付等主流第三方支付工具的接入原理;其次,构建聚合支付数据库表结构,利用策略设计模式、工厂设计模式、模板方法设计模式以及反射机制对第三方支付渠道进行了融合设计;然后,对高并发时分布式事务问题进行了研究和设计,实现了一种安全可靠的多通道聚合支付。最后,进行了完整的系统测试与分析。测试数据与预期吻合,系统各功能模块均已实现,电商垂直搜索引擎高效精确,聚合支付系统安全可靠,业务的可扩展性显着增强,开发运维效率显着提高,系统高并发性能良好,系统运行稳定流畅,能为用户提供良好的购物体验。
刘齐[9](2020)在《PageRank算法在Web挖掘中的研究与应用》文中认为随着计算机网络技术的快速发展,用户获取信息的途径越来越多,但面对庞大的信息资源,如何高效准确的获取对自己有用的信息成为一个难题。在Web结构挖掘中,通过分析网页间的链接关系,结合用户搜索主题,能为用户提供更全面、更精确的信息。本文以Web结构挖掘的Page Rank算法为对象,对其数学模型和实际应用情况进行深入研究,指出了存在主题漂移和偏重旧网页的不足,并提出改进算法,实验结果表明,改进后的算法提高了搜索效果。本文主要工作内容如下:(1)首先对Web数据挖掘和搜索引擎进行研究,介绍了Web数据挖掘的研究背景和发展趋势,详细介绍了其各自的应用场景、发展状况和优缺点;介绍了搜索引擎的原理和应用流程等。(2)针对主题漂移的缺点,本文基于IDF词频计算和二元检索模型提出了BM25概率检索模型,该模型区别于传统的余弦相似度计算,在计算关键字和文档的相关度的过程中,具有更灵活、更高效的优势。(3)针对偏重旧网页的不足,本文引入时间反馈因子,使用搜索引擎搜索到的周期数来替代网页的发布时间,避免了因网页结构差异而导致发布时间获取规则的不统一的问题,能有效对质量高的新网页提供补偿。(4)根据(2)(3)的工作,提出一种改进的Page Rank算法,为了验证改进算法的优势,通过网页爬虫工具Nutch抓取原始网页,进行预处理后作为数据集存储到数据库中,最后分别用原始Page Rank算法和改进的Page Rank算法进行试验,验证了改进算法的有效性。
张龙龙[10](2019)在《基于网站特征分析的信源发现技术研究》文中提出随着互联网信息内容的爆炸式增长,如何从海量信息中动态获取个人感兴趣的信息已成为当前研究热点之一。目前人们主要通过搜索引擎进行相关信息的检索。搜索引擎返回的信息往往是基于关键词的相关网页列表,而网页的来源错综复杂,如何基于网页发现与主题紧密相关的专业网站或专栏(本文简称“信源”)是本课题研究的重点。与网页检索相比,网站或专栏往往具有专题性强、信息质量高、动态更新等特点,更符合科技人员的研究需要。本文提出了一种基于网站特征分析的信源发现技术研究。即通过网页检索、内容清洗、相关性分析、网页来源分析、来源网站或栏目特征提取、评价推荐等环节实现用户需求网站或栏目的自主发现和检索排序。在本研究中,将网站或栏目作为情报研究的主要信源。网站特征的选取与相关度计算算法是本文研究的重点。本文提出了一种基于网站结构特征和内容特征相结合的网站特征抽取算法,并结合BM25(Okapi Best Match25)算法和余弦距离实现相关度的计算,同时综合考虑网站的特征数量和更新频度等评价网站的重要度。最终将高得分新网站或栏目信息每天反馈给用户,从而实现信源自动发现的目的。实验表明,该方法能充分利用不同网站的结构特征和内容语义特征有效地实现网站信源的检索发现。为了不断提高信源发现的精准性,系统结合用户浏览相关网站的隐性反馈行为,可以动态地优化排序结果;为了提升信源发现的效率,在实现环节采用了分布式文件系统和分布式计算架构。
二、Web页面相关度算法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、Web页面相关度算法(论文提纲范文)
(1)面向红枣信息资源的爬虫技术研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 爬虫的研究现状 |
1.3.1 国外研究现状 |
1.3.2 国内研究现状 |
1.4 网络爬虫研究概述 |
1.4.1 网络爬虫体系结构 |
1.4.2 主题网络爬虫与通用网络爬虫的区别 |
1.5 研究内容 |
第2章 网络爬虫相关技术研究 |
2.1 网页处理 |
2.1.1 HTML网页结构 |
2.1.2 内容提取 |
2.1.3 中文分词 |
2.1.4 去停用词 |
2.2 主题相关度计算 |
2.2.1 信息检索模型 |
2.2.2 主题相关度计算 |
2.3 本章小结 |
第3章 HITS网页排序算法改进策略 |
3.1 网页排序算法研究 |
3.1.1 网页排序算法对比分析 |
3.1.2 HITS算法分析 |
3.2 引入时间因素的HITS算法改进策略 |
3.2.1 HITS算法优缺点分析 |
3.2.2 针对红枣类主题网页的HITS算法改进策略 |
3.3 针对红枣“主题漂移”现象的HITS算法的改进策略 |
3.3.1 Shark-Search算法研究 |
3.3.2 Shark-Search算法优缺点分析 |
3.3.3 Shark-Search算法和HITS算法的融合改进策略 |
3.3.4 融合算法在系统的具体应用流程 |
3.4 算法性能评判标准 |
3.5 融合算法性能对比实验与结果分析 |
3.6 本章小结 |
第4章 基于Redis的 Bloom Filters去重算法 |
4.1 红枣链接去重研究 |
4.1.1 链接重复的影响 |
4.1.2 链接去重算法对比分析 |
4.1.3 链接提取过程 |
4.2 基于Redis的 Bloom Filters去重技术研究 |
4.2.1 Redis数据库研究 |
4.2.2 Bloom Filters算法研究 |
4.2.3 Bloom Filters的实现 |
4.3 基于Redis的 Bloom Filters红枣URL去重实验设计 |
4.4 基于Redis的 Bloom Filters红枣URL去重实验 |
4.4.1 红枣URL去重流程设计 |
4.4.2 红枣URL去重实验数据获取 |
4.4.3 红枣URL去重实验对比与结果分析 |
4.5 本章小结 |
第5章 红枣主题网络爬虫系统设计与分析 |
5.1 红枣主题网络爬虫系统设计 |
5.1.1 红枣主题网络爬虫系统架构设计 |
5.1.2 系统技术路线 |
5.1.3 实验的软硬件环境 |
5.1.4 种子链接的选取 |
5.2 实验常用函数 |
5.3 红枣网页爬取过程 |
5.4 爬取实验结果展示 |
5.5 应用新算法系统与传统索引效果对比 |
5.6 本章小结 |
第6章 总结与展望 |
6.1 工作总结 |
6.2 未来展望 |
参考文献 |
致谢 |
作者简介 |
(2)基于主题爬虫的群体智能优化算法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与研究意义 |
1.2 国内外研究现状 |
1.3 本文主要研究内容 |
第二章 相关理论和技术 |
2.1 搜索引擎 |
2.1.1 搜索引擎原理介绍 |
2.1.2 垂直搜索引擎 |
2.2 网络爬虫 |
2.2.1 网络爬虫技术 |
2.2.2 网络爬虫分类 |
2.2.3 网络爬虫的搜索策略 |
2.3 群体智能算法介绍 |
2.3.1 差分进化算法 |
2.3.2 五行环优化算法 |
2.4 主题网络爬虫的相关度 |
2.4.1 主题相关度概述 |
2.4.2 相关度分析算法概述 |
2.5 本章小结 |
第三章 群体智能算法的研究和改进 |
3.1 改进差分进化算法 |
3.1.1 算法步骤 |
3.1.2 算法伪代码 |
3.2 改进五行环优化算法 |
3.2.1 扰动公式 |
3.2.2 算法步骤 |
3.2.3 算法伪代码 |
3.3 本章小结 |
第四章 基于主题爬虫的群体智能算法的应用和实现 |
4.1 基于主题爬虫的改进群体智能算法的设计 |
4.1.1 主题描述 |
4.1.2 基于SAF-DE算法的网页搜索策略 |
4.1.3 基于IFECO算法的权值计算 |
4.1.4 基于向量空间模型算法的主题相关度计算 |
4.2 主题爬虫的实现 |
4.2.1 数据库设计 |
4.2.2 初始网页请求下载模块和网页解析模块 |
4.2.3 主题相关度计算模块 |
4.2.4 政策网页下载模块 |
4.2.5 存储模块 |
4.2.6 改进差分进化算法搜索策略实现 |
4.3 本章小结 |
第五章 实验验证和结果分析 |
5.1 性能指标 |
5.2 实验验证 |
5.2.1 构建专家样本集 |
5.2.2 参数设置 |
5.2.3 实验结果 |
5.3 本章小结 |
第六章 总结与展望 |
参考文献 |
附录A 实验部分代码 |
致谢 |
攻读学位期间的研究成果 |
(3)冬奥会新闻文本采集及分类分析系统的设计与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 主题爬虫发展现状 |
1.2.2 文本分类发展现状 |
1.3 主要工作 |
1.4 论文组织结构 |
第2章 相关技术 |
2.1 爬虫技术相关介绍 |
2.1.1 去重技术 |
2.1.2 页面解析 |
2.1.3 主题爬虫 |
2.1.4 爬行策略 |
2.2 文本处理技术的相关介绍 |
2.3 相关分类算法介绍 |
2.3.1 近邻算法介绍 |
2.3.2 ELM算法介绍 |
2.4 系统设计中使用框架的介绍 |
2.4.1 Scrapy框架概述 |
2.4.2 Django框架概述 |
2.5 本章小结 |
第3章 冬奥会新闻文本采集及分类分析系统需求分析 |
3.1 系统需求背景介绍 |
3.2 数据采集的来源及特征 |
3.3 系统的需求分析 |
3.3.1 系统功能需求 |
3.3.2 系统非功能需求 |
3.4 本章小结 |
第4章 冬奥会新闻文本采集及分类分析系统设计 |
4.1 系统总框架的设计 |
4.2 初始化模块的设计 |
4.3 主题爬虫模块的设计 |
4.4 数据分类模块的设计 |
4.5 数据可视化模块的设计 |
4.6 本章小结 |
第5章 系统实现 |
5.1 系统开发环境及初始化介绍 |
5.2 冬奥会新闻文本采集功能的实现 |
5.3 冬奥会新闻文本分类功能的实现 |
5.3.1 基于局部密度和相似度的自适应SNN算法 |
5.3.2 使用AK-SNN实现数据筛选 |
5.3.3 使用ELM算法实现文本分类 |
5.4 冬奥会新闻文本可视化功能的实现 |
5.5 系统测试 |
5.6 本章小结 |
结论 |
参考文献 |
攻读硕士期间发表的论文和科研成果 |
致谢 |
作者简介 |
(4)基于改进的Shark-Search算法的健康垂直搜索引擎的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题研究背景及意义 |
1.2 课题研究现状 |
1.3 课题主要研究内容 |
1.4 论文组织结构 |
第2章 爬虫的相关技术 |
2.1 主题爬虫相关理论 |
2.1.1 通用爬虫 |
2.1.2 主题爬虫 |
2.2 爬虫框架 |
2.2.1 Nutch爬虫框架 |
2.2.2 Heritrix爬虫框架 |
2.2.3 WebMagic爬虫框架 |
2.3 中文分词技术 |
2.3.1 基于词典的分词方法 |
2.3.2 基于统计的分词方法 |
2.3.3 基于人工智能技术的分词方法 |
2.4 URL去重 |
2.5 主题爬虫的搜索策略 |
2.5.1 HITs算法 |
2.5.2 PageRank算法 |
2.5.3 OPIC算法 |
2.5.4 Shark-Search算法 |
2.6 主题判定模型 |
2.7 搜索引擎 |
2.7.1 搜索引擎的工作原理 |
2.7.2 搜索引擎服务器 |
2.8 本章小结 |
第3章 Shark-Search算法的改进及实验结果分析 |
3.1 Shark-Search算法的缺点分析 |
3.2 Shark-Search算法与OPIC算法结合 |
3.3 实验环境 |
3.4 性能评价指标 |
3.5 种子链接选取及主题特征向量的生成 |
3.5.1 种子链接选取 |
3.5.2 主题特征向量的生成 |
3.6 实验结果及分析 |
3.7 本章总结 |
第4章 健康垂直搜索引擎的设计与实现 |
4.1 需求分析 |
4.1.1 功能需求分析 |
4.1.2 性能需求分析 |
4.2 搜索引擎设计与实现 |
4.2.1 搜索引擎整体架构设计 |
4.2.2 数据库设计 |
4.2.3 中文分词的实现 |
4.2.4 去重模块的实现 |
4.2.5 索引模块的实现 |
4.2.6 查询模块的实现 |
4.3 搜索引擎测试 |
4.4 本章总结 |
第5章 总结与期望 |
5.1 总结 |
5.2 期望 |
致谢 |
参考文献 |
(5)基于Python的旅游网站数据爬虫研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 课题背景 |
1.1.1 互联网技术的普及 |
1.1.2 传统信息渠道的“萎靡” |
1.1.3 用户获取信息的范式重构 |
1.2 课题引入 |
1.3 旅游网站简述 |
1.3.1 旅游网站发展分析 |
1.3.2 旅游网站待爬取数据分析 |
1.4 本课题的研究价值 |
1.5 本课题的研究目的实现方式 |
1.6 课题研究中需要解决的技术困局 |
1.7 本论文架构与逻辑范式 |
第2章 Web crawler核心机理及算法策略介绍 |
2.1 Web crawler技术推演 |
2.1.1 Web crawler技术发展进程梳演 |
2.1.2 Web crawler技术发展困境概述 |
2.2 通用Web crawler的工作原理及运行流程介绍 |
2.2.1 工作原理 |
2.2.2 Web crawler运行细节介绍 |
2.3 主流跟踪捕获算法策略 |
2.3.1 主流算法分类介绍 |
2.3.2 相关度优先Web crawler的特种算法 |
2.4 COOKIE的概念引入及运作机理 |
2.4.1 COOKIE的基本概念 |
2.4.2 COOKIE的不足与弊端 |
2.4.3 COOKIE的体系引入 |
2.5 机器人协议对Web crawler运行的影响 |
2.5.1 机器人协议的具体实现过程 |
2.5.2 机器人协议典型用例 |
2.5.3 本次课题研究对机器人协议的对策 |
第3章 Web crawler编写中基于Twisted异步处理框架 |
3.1 SCRAPY系统框架简洁及应用 |
3.1.1 Scrapy程序框架内容结构简述 |
3.1.2 SCRAPY程序框架的机理 |
3.2 数据的存取 |
3.2.1 NOT ONLY SQL数据库 |
3.2.2 MONGO DB数据库 |
第4章 SCRAPY程序框架的架构过程 |
4.1 Web crawler代码系统整体简述 |
4.1.1 程序体系结构综述 |
4.1.2 Python性能介绍 |
4.2 具体代码实现 |
4.2.1 提前操作预备代码段单元 |
4.2.2 跟踪捕获代码字段 |
4.2.3 后续数据处理代码 |
4.3 关键问题处理 |
第5章 爬虫测试过程 |
5.1 测试软硬件背景阐述 |
5.2 爬虫运行状态 |
5.3 获取信息data |
5.4 爬取数据价值介绍 |
5.5 其他结果展示 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文和取得的科研成果 |
致谢 |
(6)基于查询扩展和多目标优化的主题爬虫系统的研究和实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 研究内容 |
1.3 主要创新工作 |
1.4 论文组织结构 |
第二章 主题爬虫相关技术研究 |
2.1 主题爬虫简介 |
2.2 主题描述研究概述 |
2.3 主题爬取研究概述 |
2.3.1 链接评价策略研究 |
2.3.2 文本主题相关度计算 |
2.3.3 主题词在文本中的权重计算 |
2.3.3.1 TF-IDF算法原理 |
2.3.3.2 基于TF-IDF算法的主题词权重计算 |
2.4 查询扩展概述 |
2.4.1 信息检索中的查询扩展 |
2.4.2 查询扩展的相关反馈 |
2.4.3 查询扩展的伪相关反馈 |
2.5 蚁群算法的原理及算法模型 |
2.5.1 蚁群算法的基本原理 |
2.5.2 蚁群算法的算法模型 |
2.6 NSGA-Ⅱ算法原理 |
第三章 基于查询扩展的主题描述 |
3.1 Topic-TextRank算法 |
3.1.1 TextRank算法原理 |
3.1.2 BERT模型词向量 |
3.1.3 在TextRank算法转移矩阵中引入主题相关度 |
3.1.3.1 基于BERT模型词向量计算词节点主题相关度 |
3.1.3.2 Topic-TextRank算法 |
3.2 基于查询扩展的主题描述扩展框架设计 |
3.2.1 基于动态Topic-TextRank算法的相关反馈主题描述扩展 |
3.2.2 基于动态Topic-TextRank算法的伪相关反馈主题描述扩展 |
3.3 实验及分析 |
3.3.1 实验数据 |
3.3.2 实验评价指标 |
3.3.3 实验设计 |
3.3.4 实验结果及分析 |
3.4 本章小结 |
第四章 基于多目标优化的主题爬行 |
4.1 多目标优化问题与主题爬行 |
4.1.1 多目标优化问题定义 |
4.1.2 多目标优化问题最终解的求解 |
4.1.3 主题爬行中的多目标优化 |
4.2 BT-ACO算法 |
4.2.1 在蚁群算法中引入惩罚信息素 |
4.2.2 基于回溯式信息素更新机制的BT-ACO |
4.3 在NSGA-Ⅱ算法中引入带权拥挤距离 |
4.4 基于BT-ACO和改进NSGA-Ⅱ算法的主题爬行策略设计 |
4.5 实验及分析 |
4.5.1 实验环境 |
4.5.2 实验评价指标 |
4.5.3 实验设计 |
4.5.4 实验结果及分析 |
4.6 本章小结 |
第五章 基于查询扩展和多目标优化的主题爬虫系统 |
5.1 系统总体设计 |
5.1.1 系统整体结构 |
5.1.2 系统公共功能函数设计 |
5.1.3 系统公共存储设计 |
5.2 主题描述模块 |
5.2.1 主题描述模块流程设计 |
5.2.2 基于Topic-TextRank算法的主题关键词抽取实现 |
5.2.3 伪相关反馈主题描述框架实现 |
5.2.4 相关反馈主题描述框架实现 |
5.2.5 主题描述模块存储设计与实现 |
5.3 主题爬取模块 |
5.3.1 主题爬取模块流程设计 |
5.3.2 基于多目标优化的主题爬取实现 |
5.3.3 主题爬取模块存储设计与实现 |
5.4 系统功能效果展示 |
5.4.1 主题描述功能效果展示 |
5.4.2 主题爬取功能效果展示 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
攻读学位期间取得的研究成果 |
(7)基于改进禁忌搜索策略的分布式主题爬虫方法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 主题描述方法研究现状 |
1.2.2 网络爬虫策略研究现状 |
1.2.3 分布式爬虫研究现状 |
1.3 论文的主要工作 |
1.4 论文的结构 |
1.5 本章小结 |
第二章 相关背景知识介绍 |
2.1 网络爬虫简介 |
2.2 本体简介 |
2.3 禁忌搜索算法简介 |
2.4 Hadoop大数据平台 |
2.4.1 Hadoop生态系统 |
2.4.2 HDFS文件系统 |
2.4.3 Map Reduce分布式计算框架 |
2.5 本章小结 |
第三章 改进禁忌搜索策略及其在主题爬虫中的应用 |
3.1 主题描述 |
3.1.1 气象灾害本体构建 |
3.1.2 本体概念语义相似度计算 |
3.2 主题相关度计算方法 |
3.2.1 文本主题相关度计算 |
3.2.2 网页PR值及链接综合优先度计算 |
3.3 基于改进禁忌搜索策略的主题爬虫方法 |
3.3.1 链接的邻域集和扩展邻域集 |
3.3.2 禁忌对象 |
3.3.3 藐视准则 |
3.3.4 融合本体和改进禁忌搜索策略的主题爬虫设计 |
3.3.5 基于回溯法和On-ITS策略的主题爬虫设计 |
3.4 实验结果与分析 |
3.4.1 评价指标 |
3.4.2 结果分析 |
3.4.3 参数测试 |
3.5 本章小结 |
第四章 基于Hadoop的分布式主题爬虫系统设计 |
4.1 分布式网络爬虫框架设计 |
4.2 Map Reduce并行化设计 |
4.2.1 页面抓取模块 |
4.2.2 页面解析模块 |
4.2.3 链接处理模块 |
4.3 HDFS存储数据 |
4.4 实验与结果分析 |
4.4.1 Hadoop平台搭建 |
4.4.2 实验与性能分析 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 论文所做的工作 |
5.2 论文的主要创新点 |
5.3 研究展望 |
致谢 |
参考文献 |
作者简介 |
(8)基于ElasticSearch与聚合支付的分布式电商平台的设计与实现(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 主要研究内容 |
1.4 论文结构安排 |
2 ElasticSearch与聚合支付及分布式电商平台相关技术 |
2.1 Java Web相关技术 |
2.1.1 前端相关技术 |
2.1.2 后端相关技术 |
2.2 分布式相关技术 |
2.2.1 Zookeeper |
2.2.2 Dubbo |
2.3 ElasticSearch相关技术 |
2.3.1 倒排索引算法 |
2.3.2 TF-IDF算法 |
2.3.3 BM25算法 |
2.4 聚合支付相关技术 |
2.4.1 第三方支付 |
2.4.2 设计模式 |
2.5 本章小结 |
3 基于ElasticSearch与聚合支付的分布式电商平台总体设计 |
3.1 系统总体需求分析 |
3.2 系统总体架构设计 |
3.3 搜索引擎总体功能设计 |
3.4 聚合支付总体功能设计 |
3.5 高可用的分析与设计 |
3.5.1 缓存与分布式锁算法设计 |
3.5.2 分布式文件存储设计 |
3.6 数据库设计 |
3.6.1 概念结构分析 |
3.6.2 数据表设计 |
3.7 本章小结 |
4 一种基于ElasticSearch的电商垂直搜索引擎的分析与设计 |
4.1 基于ElasticSearch的电商垂直搜索引擎相关算法分析 |
4.1.1 中文分词计算 |
4.1.2 倒排索引算法 |
4.1.3 相关性匹配算分 |
4.1.4 聚合分析 |
4.2 基于ElasticSearch的电商垂直搜索引擎设计 |
4.2.1 搜索引擎分布式集群设计 |
4.2.2 搜索引擎数据结构的设计 |
4.2.3 搜索引擎搜索算法的设计 |
4.3 本章小结 |
5 一种多通道聚合支付的分析与设计 |
5.1 多支付通道融合算法设计 |
5.1.1 第三方支付通道接入分析 |
5.1.2 多支付通道融合算法设计 |
5.2 分布式事务的研究与设计 |
5.2.1 分布式事务问题研究 |
5.2.2 分布式事务业务设计 |
5.3 本章小结 |
6 基于ElasticSearch与聚合支付的分布式电商平台实现与测试 |
6.1 电商平台环境搭建部署 |
6.2 电商平台前台功能实现 |
6.2.1 前台首页 |
6.2.2 SSO单点登录模块 |
6.2.3 社交登录模块 |
6.2.4 商品详情模块 |
6.2.5 购物车模块 |
6.2.6 订单结算模块 |
6.2.7 搜索引擎模块 |
6.2.8 聚合支付模块 |
6.3 电商平台后台管理功能实现 |
6.3.1 登录认证模块 |
6.3.2 后台主页 |
6.3.3 基本信息管理模块 |
6.3.4 商品信息管理模块 |
6.4 系统测试与分析 |
6.4.1 系统整体测试环境 |
6.4.2 分布式电商平台的测试与分析 |
6.4.3 电商垂直搜索引擎的测试与分析 |
6.4.4 多通道聚合支付的测试与分析 |
6.5 本章小结 |
7 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
攻读硕士期间发表的论文 |
致谢 |
(9)PageRank算法在Web挖掘中的研究与应用(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 本文主要工作 |
1.4 本文组织结构 |
第二章 Web数据挖掘和搜索引擎 |
2.1 Web数据挖掘概述 |
2.1.1 数据挖掘介绍 |
2.1.2 Web数据挖掘介绍 |
2.1.3 Web数据挖掘的步骤 |
2.1.4 Web数据挖掘的趋势 |
2.2 Web数据挖掘的分类 |
2.2.1 Web结构挖掘 |
2.2.2 Web内容挖掘 |
2.2.3 Web使用挖掘 |
2.2.4 Web语义挖掘 |
2.3 搜索引擎技术介绍 |
2.3.1 搜索引擎的原理 |
2.3.2 搜索引擎的分类 |
2.3.3 搜索引擎系统流程 |
2.4 本章小结 |
第三章 Page Rank算法的研究与分析 |
3.1 Page Rank算法概述 |
3.2 Page Rank算法解析 |
3.2.1 Page Rank原理 |
3.2.2 Page Rank算法的简单模型 |
3.2.3 Page Rank算法的线性代数解法 |
3.3 Page Rank算法的实现 |
3.4 本章小结 |
第四章 基于Page Rank的综合排序算法 |
4.1 Page Rank算法的优缺点 |
4.2 改进的Page Rank算法 |
4.2.1 BM25模型的相关研究 |
4.2.2 时间反馈研究 |
4.3 提出新的Page Rank算法 |
4.4 本章小结 |
第五章 实验与分析 |
5.1 实验方案 |
5.2 实验环境搭建 |
5.3 实验设计 |
5.4 实验结果与分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 研究总结 |
6.2 工作展望 |
参考文献 |
攻读硕士学位期间的科研成果 |
致谢 |
(10)基于网站特征分析的信源发现技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 本文主要工作 |
1.2.1 信源发现系统架构 |
1.2.2 本文重点工作 |
1.3 本文组织结构 |
第2章 相关工作与技术 |
2.1 相关工作介绍 |
2.1.1 基于网页内容的排序算法 |
2.1.2 基于链接分析的排序算法 |
2.1.3 基于机器/深度学习排序算法 |
2.1.4 基于用户反馈的排序算法 |
2.2 相关技术介绍 |
2.2.1 BM25算法原理 |
2.2.2 余弦距离相关度计算原理 |
2.2.3 Text Rank算法原理 |
2.2.4 网络爬虫技术原理 |
2.2.5 HDFS文件系统原理 |
2.2.6 Dask分布式系统原理 |
2.3 本章小结 |
第3章 网站特征分析及数据处理 |
3.1 数据准备 |
3.1.1 数据收集 |
3.1.2 数据分析 |
3.2 数据预处理 |
3.2.1 特征分析 |
3.2.2 数据清洗 |
3.3 本章小结 |
第4章 基于网站特征分析的相关度计算 |
4.1 句子相关度概述 |
4.2 网站信源相关程度度量标准 |
4.3 相关度计算 |
4.3.1 基于BM25算法的相关度计算 |
4.3.2 基于余弦距离的相关度计算 |
4.3.3 基于网站特征分析的相关度计算 |
4.4 实验结果分析 |
4.4.1 评价标准 |
4.4.2 BM25算法实验及结果分析 |
4.4.3 余弦距离相关度实验及结果分析 |
4.4.4 基于网站特征分析算法实验结果及分析 |
4.5 用户反馈 |
4.5.1 基于用户反馈结果及分析 |
4.6 本章小结 |
第5章 信源发现技术系统设计与实现 |
5.1 系统框架 |
5.2 系统实现 |
5.3 系统优化 |
5.3.1 HDFS分布式文件系统及Dask分布式 |
5.3.2 实验设置 |
5.4 本章小结 |
结论 |
参考文献 |
致谢 |
攻读硕士期间发表(含录用)的学术论文 |
四、Web页面相关度算法(论文参考文献)
- [1]面向红枣信息资源的爬虫技术研究[D]. 杨广召. 塔里木大学, 2021(08)
- [2]基于主题爬虫的群体智能优化算法研究[D]. 闻豪. 江西理工大学, 2021(01)
- [3]冬奥会新闻文本采集及分类分析系统的设计与实现[D]. 刘娜. 河北工程大学, 2020(04)
- [4]基于改进的Shark-Search算法的健康垂直搜索引擎的研究与实现[D]. 陈豪. 南昌大学, 2020(01)
- [5]基于Python的旅游网站数据爬虫研究[D]. 王冬旭. 沈阳理工大学, 2020(08)
- [6]基于查询扩展和多目标优化的主题爬虫系统的研究和实现[D]. 刘成军. 北京邮电大学, 2020(05)
- [7]基于改进禁忌搜索策略的分布式主题爬虫方法研究[D]. 顾瑶平. 南京信息工程大学, 2020(02)
- [8]基于ElasticSearch与聚合支付的分布式电商平台的设计与实现[D]. 陶林. 华中师范大学, 2020(12)
- [9]PageRank算法在Web挖掘中的研究与应用[D]. 刘齐. 江苏科技大学, 2020(12)
- [10]基于网站特征分析的信源发现技术研究[D]. 张龙龙. 沈阳航空航天大学, 2019(04)