一、主题爬虫的解决方案(论文文献综述)
刘娜[1](2020)在《冬奥会新闻文本采集及分类分析系统的设计与实现》文中认为随着互联网技术的发展,网络信息数量不断增加。网络数据多以文本类型展现,但文本信息分布发散,内容复杂,分类单一,导致网络信息的采集和分析难度较大。为解决数据采集困难和文本分类粗糙的问题,本论文以主题爬虫和文本分类技术为基础,利用Python语言设计并实现了冬奥会新闻文本采集及分类分析系统。该系统主要包括数据采集、数据分类、数据可视化三个功能模块。在数据采集模块中,为了采集与冬奥会主题相关的新闻文本数据,定制了主题爬虫。所获得的数据为冬奥会信息的分类与分析提供了数据支撑,并实现了对冬奥会网络信息的初步数据整合。数据分类模块主要分为两个部分:数据筛选和文本分类。为实现对无关信息的筛选,本论文基于近邻算法SNN引入局部密度和相似度,提出了基于局部密度和相似度的自适应SNN算法(AK-SNN)。为验证AK-SNN算法的性能,分别在UCI数据集和冬奥会新闻文本数据集上进行了对比实验。实验结果表明,AK-SNN具有更好的鲁棒性和预测精度。为进一步对网络文本数据进行类别细分,采用极限学习机(ELM)作为文本分类器实现文本信息的多分类。结果表明,ELM在多类别的文本分类中获得了良好的分类精度。在数据可视化模块中,为了直观展示采集和分类结果,利用Django框架设计了Web展示界面。为挖掘信息中的潜在价值,对分类结果、新闻来源、新闻发布日期等多方面进行数据分析,并对分析结果进行了可视化。本论文的设计与实现为2022年冬奥会网络信息的采集和分析提供了一定的数据支持和技术支撑,同时为挖掘大型体育赛事相关网络新闻文本中的潜在价值信息提供了一种可供借鉴的思路。
刘成军[2](2020)在《基于查询扩展和多目标优化的主题爬虫系统的研究和实现》文中研究表明随着互联网的迅速发展,互联网上的信息不断累积,传统的网络爬虫已经难以满足人们对信息的个性化和实时性获取的需要,主题爬虫应运而生。相比于传统网络爬虫,主题爬虫有明确的主题描述作为爬取目标,有智能的链接评价来优化主题爬取的路径,从而获得了更高的效率。然而,主题爬虫当前的主题描述方法难以实现构建成本与完备性的平衡,当前的主题爬取过程也难以协调影响链接优先级的多种因素之间的关系。针对这些问题,本文提出基于查询扩展和多目标优化的主题爬虫系统。本文使用查询扩展来增强原始主题描述的完备性,在迭代查询结果中使用改进后的TextRank算法抽取主题关键词来充实主题模型。首先基于BERT模型预训练的词向量在TextRank算法的转移权重矩阵中引入主题相关度影响因子,从而提出Topic-TextRank算法,用以改进主题关键词的提取效果;再结合查询扩展中相关反馈和伪相关反馈的迭代过程,将Topic-TextRank算法的主题关键词结果权重与查询排名做了动态融合;进而提出基于动态Topic-TextRank算法的相关反馈和伪相关反馈两种主题描述的扩展框架,并用实验验证这两种框架对于主题描述效果的提升。本文将主题爬取过程抽象成多目标优化问题,将决定链接优先级的因素抽象为目标函数,再使用改进后的蚁群算法和改进后的NSGA-Ⅱ算法来解决。对于蚁群算法,本文根据网页主题相关与否将信息素细分为增益信息素和惩罚信息素两类,并基于这两种信息素和蚁群路径上的点对前溯多段路径的影响力提出蚁群的回溯式信息素更新算法。对于NSGA-Ⅱ算法,本文引入了带权拥挤距离的计算方法以优化最终的精英选择。然后融合这两种改进算法提出了基于多目标优化的主题爬取策略,并用实验验证了其对于主题爬虫查准率和效率的提高。本文开发并实现了基于查询扩展和多目标优化的主题爬虫系统,实现对目标主题的准确全面高效的爬取。系统包括主题描述模块、主题爬取模块和数据存储模块。主题描述模块基于查询扩展获取主题模型和种子网页,主题爬取模块实现基于多目标优化的爬取过程,数据存储模块使用Redis和MySQL实现爬行中间数据及结果网页的存储。
东熠[3](2020)在《基于领域本体和多目标蚁群算法的主题爬虫技术研究》文中进行了进一步梳理随着网络资源的日益庞大和信息更新速度的飞速增长,适应特定领域、特定需求的个性化搜索急需主题爬虫技术的支持。为了提高主题爬虫的搜索质量,本文主要研究了主题模型的构建方法、主题相关度计算方法和主题爬虫的搜索策略,通过本体学习技术半自动构建领域本体,引入多目标蚁群优化算法(MOACO)提高主题爬虫的搜索性能。具体的研究内容和方法如下:(1)针对主题模型的构建,提出了一种基于本体学习技术的领域本体构建方法。首先,通过形式概念分析(FCA)方法从文献资源中获取类和类的上下位关系,构建本体的骨架。然后,采用潜在狄利克雷分布(LDA)主题模型从网络资源中挖掘与主题相关的概念,并将Apriori算法引入生成的主题集合中挖掘概念之间的关系,丰富本体骨架的层次结构。最后,人工对本体进行调整,生成领域本体。本文依据所提出的方法构建了台风领域本体、暴雨领域本体和寒潮领域本体。通过Protégé软件实现领域本体的可视化。(2)针对主题相关度计算,基于领域本体的主题模型,给出了概念语义相似度、网页文本主题相关度和超链接主题相关度的计算方法。分别以“台风”、“暴雨”和“寒潮”为主题,将基于本体学习技术构建的领域本体和基于FCA方法构建的领域本体进行对比试验,实验结果验证了本文提出的基于本体学习技术的领域本体构建方法的可行性和有效性。(3)针对主题爬虫搜索策略,提出了一种基于领域本体和多目标蚁群算法的主题爬虫技术(FC_OMOACO)。本文综合考虑链接结构和网页文本内容构建多目标优化模型,根据快速非支配排序方法和最近最远候选解法(NFCS)选取一组Pareto最优链接,优化超链接选择的多样性,指导爬虫的搜索方向。将蚁群算法引入主题爬虫技术,并通过启发式搜索和正反馈机制提高爬虫的全局搜索能力,尽量避免搜索陷入局部最优的困境。最后,分别以“台风灾害”,“暴雨灾害”和“寒潮灾害”为主题,将FC_OMOACO和文献中其他四种主题爬虫方法进行对比实验,结果表明本文提出的主题爬虫技术是一种更加有效的爬虫方法。
单文远[4](2020)在《分布式主题网络爬虫研究与设计》文中研究说明互联网时代,如何从海量数据中收集信息是一个关键问题。目前,使用最频繁的信息检索与收集工具是基于通用爬虫的搜索引擎。但通用爬虫获取到的信息价值密度低。对此,部分学者提出了主题爬虫。主题爬虫是一种会按照爬行策略对页面内容与爬行方向进行分析与筛选的爬虫。与通用爬虫相比,主题爬虫尽量避免与主题不相关页面的抓取,存储的页面数量更少,所获取的信息价值密度更高,是一种有效的信息收集工具。主题爬虫的研究与应用始于20世纪90年代,迄今为止,研究成果主要包括基于内容的爬行策略与基于链接结构的爬行策略;前者以Fish Search、Shark Search为代表,后者以Page Rank、HITS为代表。此外,一些学者提出了基于叙词表或本体的语义爬虫,让主题爬虫在特定领域具备了语义分析的能力。在生产应用中,则形成了以WebMagic、WebCollector、WebCollector-Hadoop为代表的爬虫技术。语义爬虫具备了一定的同义词、近义词识别能力,是对向量空间模型的一种有效改进。但问题在于,这种识别能力受到叙词表或本体的限制,有一定的局限性。如何让主题爬虫具备泛化的同义词、近义词识别能力,在相似度计算过程中更好的对同义词、近义词做评估是一个研究热点。另外,如何通过有效的架构设计降低爬虫任务的耗时是一个关键问题。为了改善主题爬虫的同义词、近义词识别能力。本文提出了一种基于分布式词向量的相似度计算方式。本文以word2vec作为生成的词向量模型,模型通过维基百科的语料库进行训练。此种方法的核心在于,用主题与页面的词向量集合而非二者的文档向量作为相似度计算的基准,把二者的每一对词语的相似度都纳入到二者整体相似度的考量中去,让主题爬虫具备泛化的同义词、近义词识别能力,更全面地评价页面与主题之间的相似度;有效地提升主题爬虫的爬准率与爬全率。为验证这种方法的优劣,本文选取了多个目标网站与多组主题词集合,在等同条件下检测了向量空间模型与本文提出的相似度计算方式。此外,为提升主题爬虫的运行效率,本文结合微服务的理念,设计了一种分布式爬虫架构。为验证该架构设计的有效性,在等同条件下,以在生产环境中已经得到广泛应用的WebMagic、WebCollector、WebCollector-Hadoop作为参照进行了对比实验。经过实验,与向量空间模型相比,本文提出的相似度计算方式提升了主题爬虫的爬准率与爬全率。在与WebMagic、WebCollector、WebCollector-Hadoop的对比中,本文设计的爬虫在任务条件相同的情形下完成爬虫任务的时间更短,表现出更高的运作效率。此外,本文通过Java等编程语言开发了一个简单易用的分布式主题网络爬虫系统。总体而言,本文的对主题爬虫的设计与改进是有效的。但本文设计的主题爬虫也存在一些待完善的点。首先,实验中用到的种子URL都是人工选择的;另外,页面中的图片、视频等信息并没有得到充分利用。如何自动化、智能化的选择种子URL,并有效的分析页面中的非文本信息是主题爬虫未来的研究点。
彭宏胜[5](2019)在《基于Shark-Search与OTIE自适应算法的主题爬虫关键技术研究与实现》文中指出在数据量呈爆炸式增长的大数据时代,互联网数据成为21世纪最重要的资源,同时也是人工智能发展的基石。如何精准、快速地从互联网资源中获取有用的数据成为当前研究的热点。通用搜索引擎尽量为用户查询并返回更多的数据,但是返回的数据中非用户需要数据占据多数。主题搜索引擎是通过检索用户给定的主题信息,来提高搜索引擎的速度与准确率,因此成为搜索引擎研究的主要方向。网络爬虫是搜索引擎中重要的组成部分,专为搜索引擎从互联网上获取网络资源。主题爬虫领域的三类经典算法其中包括:基于链接的算法、基于内容的算法和链接与内容相结合的算法。本文首先对基于内容的Shark-Search算法中存在的不足进行优化,然后对基于链接与内容相结合的OTIE自适应算法中存在的问题进行解决,最后在两个改进算法的基础上实现主题爬虫系统。主要研究内容如下:(1)基于内容的主题爬虫算法Shark-Search的改进。针对Shark-Search算法在计算子链接主题相关度时易受到其上下文信息量不足和噪音链接的影响,提出改进算法ESS(Enhance Shark-Search)。首先,ESS算法不再通过简单的关键词与子链接上下文内容进行相似度计算,而是利用迭代式扩展-过滤技术来扩展主题词,得到一个主题相关性更全面的主题词集,可以有效降低因信息量不足而产生的影响。其次,ESS算法通过引入预判权值U(l)来消除噪音链接,预判权值U(l)是通过获取子链接在网页中的CSS样式、锚文本、图片标签等特征同时利用每个特征对应的权重计算得到最后的权值,预判权值U(l)的引入对降低噪音链接的影响起到明显的效果。通过从新浪资讯网中抓取4个不同主题的数据进行实验,实验结果表明,ESS算法的查准率比原算法提高了12.1%,查全率比原算法提高了12.08%。(2)基于链接与内容相结合的OTIE自适应算法的改进。针对OTIE自适应算法未全面考虑新旧网页的平衡,爬虫程序在爬行网页过程中由于网页现金值分配不佳导致抓取到的新网页数量偏少的问题,提出改进的自适应算法E-OTIE。E-OTIE自适应算法在判断网页重要性时引入一个与时间有关的权重因子W(t)。权重因子W(t)是网页最新被修改到被抓取的时间差值,若时间差越大,则该网页越旧,对应的权值越低。时间权重的引入对平衡新旧网页起到明显的效果。通过从互联网中爬取的数据进行实验,实验结果表明,E-OTIE自适应算法的平均收获率和平均召回率与原始算法很接近,而算法的新网页收获率提升约23%。(3)基于上述的研究,本文将实现一个主题爬虫的原型系统,使用者根据其需求在系统界面中简单配置,然后抓取符合条件的数据。
李帆[6](2019)在《设施布局及主题爬虫技术的超启发式算法研究》文中指出超启发式算法及其应用一直是计算机理论科学领域研究的重点。研究表明,超启发式算法对于求解NP-hard难度问题和优化信息检索技术的性能和质量十分有效。设施布局问题(FLP)属于NP-hard难度问题,而生产车间合理的设施布局能有效地提升企业生产效益,但目前尚不存在精准而有效的方法来求解FLP的全局最优解。对于信息检索中的主题爬虫(FC)技术,其旨在从整个Web上抓取尽可能多的与特定主题相关的网页,因此如何优化FC技术的全局搜索能力十分重要。本文主要研究多行动态设施布局问题(DFLP)和主题爬虫搜索策略,通过提出几种超启发式算法来求解多行DFLP问题和提高主题爬虫的搜索性能。具体研究内容和方法如下:1)对于多行DFLP问题的求解,本文提出了一种改进的遗传算法(mGA)和回溯搜索算法(BSA)。首先,通过结合使用自适应部分映射交叉(PMX)和自适应混合多种变异策略来提高遗传算法(GA)解的多样性,提出一种求解多行DFLP的改进遗传算法(mGA)。其次,对于一种新的进化算法——回溯搜索算法(BSA),由于其具有独特的初始化、交叉以及变异机制和更强的“记忆”能力,本文通过对其进行改进后引入多行DFLP的求解。最后,将不同算法应用于经典算例进行实验测试,计算结果验证了mGA和BSA算法求解多行DFLP问题的有效性。2)对于优化主题爬虫检索技术,本文提出一种基于本体的主题退火爬虫算法(FCOSA)。在FCOSA算法中,提出了使用基于全局本体和局部本体的超链接二次筛选策略,结合改进的模拟退火算法(ISA),可以有效地拓宽爬虫路径,避免主题爬行陷入局部最优搜索。通过以“暴雨灾害”为主题,实现基于不同优化算法的爬虫策略,发现FCOSA算法是优化FC技术的一种非常有效的方法。
李新[7](2019)在《面向设施布局和主题爬虫的构型空间进化算法研究》文中研究指明全局优化算法一直是计算机理论科学研究的重点,涉及生产制造、物流运输、网络服务等诸多领域。构型空间进化算法(Configuration Space Evolutionary,CSE)是一种先进的全局优化算法,具有良好的全局搜索能力和较强的健硕性。本文以企业生产中设施布局以及网络服务中信息检索为应用背景,主要研究多目标动态设施布局问题(Multi-objective Dynamic Facility Layout Problem,MO-DFLP)和主题爬虫搜索策略,通过提出两种改进的CSE算法来求解MO-DFLP和提高主题爬虫的全局搜索性能。主要研究内容和方法如下:(1)针对MO-DFLP的求解,提出了一种结合混合多种交叉策略和启发式变异策略的改进的CSE算法(ICSE),进一步提高了解的多样性和算法的全局优化能力。另外,针对多目标优化中Pareto最优解的选取问题,提出了一种基于个体距离的最近最远候选解法(Nearest and Farthest Candidate Solution,NFCS),维持了Pareto解集中解的良好分布。最后,使用两组测试算例对ICSE算法进行测试,并将其计算结果与文献中其他几个优秀算法进行比较。实验结果表明ICSE算法是求解MO-DFLP的一种有效算法。(2)针对主题爬虫搜索策略的优化,提出了一种基于Web的构型空间进化算法(WCSE)。根据主题爬虫的特点,WCSE算法重新定义了CSE算法中构型距离的度量方式,并设计了新的进化操作和构型库更新机制,结合快速非支配排序法和NFCS方法,对链接主题相关度进行综合排序分析后确定待爬行链接的选择,优化了爬虫的全局搜索路径。最后,以“暴雨灾害”为主题,将WCSE算法与三种经典单目标优化算法进行对比实验,数值结果表明WCSE算法是优化主题爬虫技术的一种有效算法。
蒋鹏[8](2019)在《基于仿生学的主题爬虫搜索策略及关键技术研究》文中指出主题爬虫(Focused Crawler)是主题搜索引擎的关键部件,目的是检索最大数量的与特定主题相关的网页。它会根据相关算法或者特定策略进行网页筛选,直到达到一定的下载数量、迭代次数或者主题相似度的精度阈值为止。比之通用爬虫,主题爬虫需要解决以下问题:主题定义、网页数据的分析、未知URL的搜索策略。对于主题定义、网页数据的分析已经比较准确和全面。而未知URL的搜索策略一直是主题爬虫研究领域的热点及难点,该领域的研究从最初的基于内容和链接到利用叙词表和本体,再到目前基于机器学习算法,主题爬虫的搜索精度和覆盖率都有了一定的提升。然而,当前主题爬虫的搜索策略研究依然存在着主题计算准确率较低,抓取网页的覆盖率不高,容易出现主题偏移,种子页面选取不合理等问题。为了解决以上问题,本文对主题爬虫搜索策略及相关技术进行了如下研究:1.本文设计了一个基于变异思想改进粒子群算法的主题爬虫模型。首先,对于每个主题基于点击率获取3种容易产生大规模聚集的网页群中的典型页面。然后,计算每个主题3种种子页面的权值,将权值作为粒子群爬虫的初始速度和方向值,使用本文提出的基于变异思想改进的粒子群算法抓取页面。其中,本文改进的算法将全局极值设置为完美但实际上并不存在的值,从而忽略了全局极值的影响并在算法陷入局部收敛时加入变异思想。最后通过对比实验并进行结果分析,对比于传统的爬虫方法,本文提出的主题爬虫模型可以获得更高的准确率,能够抓取高质量的网页。2.本文搭建了一种基于改进Louvain算法的种子页面选取框架。首先,基于搜索引擎获取一定数量的初始相关种子页面,将这些页面作为节点,使用本文改进Louvain算法对其进行社区划分。然后,计算初始划分社区的归一化互信息确定节点大小,通过删除多余节点构造出超级节点网络。最后,通过计算超级网络节点页面内容与主题的相似度得到超级网络节点页面权值,选取权值大于阈值的节点页面并去掉属于同一个社区的节点页面,得到种子页面集合。经过实验分析,证明本框架生成的种子页面能够有效提升主题爬虫的准确率和主题覆盖率。
闫宁[9](2019)在《基于网络爬虫的水利信息聚合系统的设计与实现》文中指出随着水利信息化的发展,互联网上累积了数据量庞大的水利主题信息。由于互联网上的信息具有数据量庞大,分布离散,结构复杂等特点,采用传统的人工采集方式进行信息的获取,具有效率低下等问题。使用网络爬虫则可以方便快捷地获取到数据量庞大,主题相关性高的水利信息。系统以主题爬虫为基础构建信息聚合平台,实现水利信息的获取和利用。论文的主要研究内容如下:(1)水利主题爬虫各功能模块设计。对主题爬虫的框架进行选择,种子站点的集合进行筛选,主题描述词库进行定义,爬行策略进行选择,链接提取方案进行设计,主题相关性分析算法进行分析与改进。(2)水利GIS信息爬取方案设计。GIS格式的信息是水利行业区别于其他行业的显着特点。水利地理信息大多数是以接口的形式提供服务,用户无法直接获取到原始的数据。可根据瓦片金字塔模型进行地图拼接和缩放算法的设计,实现水利地图信息的获取。(3)多种格式水利信息爬取方案设计。水利主题爬虫根据不同格式信息的特点定制不同的爬取方案,将文字、数据、图片、视频影像和地图等多种格式的水利信息进行全面获取。(4)水利信息规范化设计。为了解决水利信息形式不统一、表现不规范等问题,水利信息规范化模块将信息按种类转化成通用的格式,并对不符合规范的信息进行相应算法处理,使信息规范化。(5)搭建水利信息聚合平台。以爬虫爬取的水利信息为基础,进行水利信息聚合平台的搭建。该平台对水利信息进行聚合,为用户提供水利信息展示和检索等多种服务。水利信息聚合系统采用主题爬虫对信息进行爬取,并且构建水利信息聚合平台,将水利信息在该平台进行聚合使用,为用户提供多种特色化信息服务。该系统为用户进行水利信息的采集和利用带来了极大的便利和良好的体验。
杨力[10](2019)在《基于网络爬虫的注塑信息研究与实现》文中研究表明这些年来,随着互联网的发展,尤其是智能手机和各种物联网设备的加入,互联网中的数据量也迎来了爆发式的增长。如此巨量的信息一方面丰富和方便了人们的生活,但另一方面也增加了获取有效信息的难度。因此采用主题爬虫技术方便快捷地收集注塑行业的相关信息,从而实现对注塑行业发展的监控和预测,对于企业发展有着重要意义。本文来源于《大型注塑成型智能制造工厂》,设计和实现了能够定向抓取网络数据的主题爬虫系统。通过阅读大量的国内外文献资料,然后结合项目实际中遇到的问题,对主题爬虫以及技术框架有了一定的了解和认识,发现一些对于主题爬虫的研究中所存在的问题:1)目前还没有对于如何选取适当的初始种子的研究;2)主题爬虫的性能和召回率仍有提高空间,需要进一步研究。针对上面提出的几个问题,通过进一步的实践研究,本文给出了一些新的解决方法,并以此为基础,设计实现了主题爬虫系统。在论文后面,利用多个实验表明了本文改进算法的效果。本文的创新点有以下几个:(1)在介绍了初始种子的选取问题后,在HITS算法的基础上,提出了一种新的改进,以此来更方便高效的选取初始种子。在本文中,结合HITS算法定义的权威度和中心度,通过它们来描述链接之间的连接情况,并定义了一个能够计算候选种子好坏的公式,从而选取更好的初始种子,提高主题爬虫的效率。在论文最后也给出了系统的采集结果,证明了算法改进的效果。(2)主题爬虫通常采用概念背景图来作为爬行策略,针对这种策略的缺点,本文给出了一种改进方法——基于综合价值的概念背景图的爬行策略。针对概念背景图的构建过程,给出了一种改进方法。与此同时,将经常被忽略的父网页、链接上下文等因素纳入了综合考虑,定义了一种能够预测待访问链接价值的公式,以此来提前预测链接价值,剔除无关链接,加快爬虫运行速率。在最后,给出相关实验数据,表明了采用改进后的爬行策略的主题爬虫,无论是速度还是精准度都有很大提升。(3)结合前两点,设计实现完整的主题爬虫系统。本文介绍了系统中关键模块的设计实现方案,并设计了相应的数据库方案,利用Java中的爬虫框架WebMagic实现了爬虫系统。该爬虫系统具有一定的通用性,初始种子选取策略的改进减少了大量的人工时间,爬行策略的改进提高了系统的速度和准确度。在最后,给出系统运行结果也表明爬行效率有显着的提升。
二、主题爬虫的解决方案(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、主题爬虫的解决方案(论文提纲范文)
(1)冬奥会新闻文本采集及分类分析系统的设计与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 主题爬虫发展现状 |
1.2.2 文本分类发展现状 |
1.3 主要工作 |
1.4 论文组织结构 |
第2章 相关技术 |
2.1 爬虫技术相关介绍 |
2.1.1 去重技术 |
2.1.2 页面解析 |
2.1.3 主题爬虫 |
2.1.4 爬行策略 |
2.2 文本处理技术的相关介绍 |
2.3 相关分类算法介绍 |
2.3.1 近邻算法介绍 |
2.3.2 ELM算法介绍 |
2.4 系统设计中使用框架的介绍 |
2.4.1 Scrapy框架概述 |
2.4.2 Django框架概述 |
2.5 本章小结 |
第3章 冬奥会新闻文本采集及分类分析系统需求分析 |
3.1 系统需求背景介绍 |
3.2 数据采集的来源及特征 |
3.3 系统的需求分析 |
3.3.1 系统功能需求 |
3.3.2 系统非功能需求 |
3.4 本章小结 |
第4章 冬奥会新闻文本采集及分类分析系统设计 |
4.1 系统总框架的设计 |
4.2 初始化模块的设计 |
4.3 主题爬虫模块的设计 |
4.4 数据分类模块的设计 |
4.5 数据可视化模块的设计 |
4.6 本章小结 |
第5章 系统实现 |
5.1 系统开发环境及初始化介绍 |
5.2 冬奥会新闻文本采集功能的实现 |
5.3 冬奥会新闻文本分类功能的实现 |
5.3.1 基于局部密度和相似度的自适应SNN算法 |
5.3.2 使用AK-SNN实现数据筛选 |
5.3.3 使用ELM算法实现文本分类 |
5.4 冬奥会新闻文本可视化功能的实现 |
5.5 系统测试 |
5.6 本章小结 |
结论 |
参考文献 |
攻读硕士期间发表的论文和科研成果 |
致谢 |
作者简介 |
(2)基于查询扩展和多目标优化的主题爬虫系统的研究和实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 研究内容 |
1.3 主要创新工作 |
1.4 论文组织结构 |
第二章 主题爬虫相关技术研究 |
2.1 主题爬虫简介 |
2.2 主题描述研究概述 |
2.3 主题爬取研究概述 |
2.3.1 链接评价策略研究 |
2.3.2 文本主题相关度计算 |
2.3.3 主题词在文本中的权重计算 |
2.3.3.1 TF-IDF算法原理 |
2.3.3.2 基于TF-IDF算法的主题词权重计算 |
2.4 查询扩展概述 |
2.4.1 信息检索中的查询扩展 |
2.4.2 查询扩展的相关反馈 |
2.4.3 查询扩展的伪相关反馈 |
2.5 蚁群算法的原理及算法模型 |
2.5.1 蚁群算法的基本原理 |
2.5.2 蚁群算法的算法模型 |
2.6 NSGA-Ⅱ算法原理 |
第三章 基于查询扩展的主题描述 |
3.1 Topic-TextRank算法 |
3.1.1 TextRank算法原理 |
3.1.2 BERT模型词向量 |
3.1.3 在TextRank算法转移矩阵中引入主题相关度 |
3.1.3.1 基于BERT模型词向量计算词节点主题相关度 |
3.1.3.2 Topic-TextRank算法 |
3.2 基于查询扩展的主题描述扩展框架设计 |
3.2.1 基于动态Topic-TextRank算法的相关反馈主题描述扩展 |
3.2.2 基于动态Topic-TextRank算法的伪相关反馈主题描述扩展 |
3.3 实验及分析 |
3.3.1 实验数据 |
3.3.2 实验评价指标 |
3.3.3 实验设计 |
3.3.4 实验结果及分析 |
3.4 本章小结 |
第四章 基于多目标优化的主题爬行 |
4.1 多目标优化问题与主题爬行 |
4.1.1 多目标优化问题定义 |
4.1.2 多目标优化问题最终解的求解 |
4.1.3 主题爬行中的多目标优化 |
4.2 BT-ACO算法 |
4.2.1 在蚁群算法中引入惩罚信息素 |
4.2.2 基于回溯式信息素更新机制的BT-ACO |
4.3 在NSGA-Ⅱ算法中引入带权拥挤距离 |
4.4 基于BT-ACO和改进NSGA-Ⅱ算法的主题爬行策略设计 |
4.5 实验及分析 |
4.5.1 实验环境 |
4.5.2 实验评价指标 |
4.5.3 实验设计 |
4.5.4 实验结果及分析 |
4.6 本章小结 |
第五章 基于查询扩展和多目标优化的主题爬虫系统 |
5.1 系统总体设计 |
5.1.1 系统整体结构 |
5.1.2 系统公共功能函数设计 |
5.1.3 系统公共存储设计 |
5.2 主题描述模块 |
5.2.1 主题描述模块流程设计 |
5.2.2 基于Topic-TextRank算法的主题关键词抽取实现 |
5.2.3 伪相关反馈主题描述框架实现 |
5.2.4 相关反馈主题描述框架实现 |
5.2.5 主题描述模块存储设计与实现 |
5.3 主题爬取模块 |
5.3.1 主题爬取模块流程设计 |
5.3.2 基于多目标优化的主题爬取实现 |
5.3.3 主题爬取模块存储设计与实现 |
5.4 系统功能效果展示 |
5.4.1 主题描述功能效果展示 |
5.4.2 主题爬取功能效果展示 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
攻读学位期间取得的研究成果 |
(3)基于领域本体和多目标蚁群算法的主题爬虫技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状和进展 |
1.2.1 传统启发式的主题爬虫 |
1.2.2 基于概念语义的主题爬虫 |
1.2.3 基于智能优化算法的主题爬虫 |
1.3 论文的主要工作 |
1.4 论文组织结构 |
1.5 本章小结 |
第二章 主题爬虫相关知识和方法介绍 |
2.1 搜索引擎和网络爬虫介绍 |
2.1.1 搜索引擎的基本原理和分类 |
2.1.2 网络爬虫的基本原理和流程 |
2.2 主题爬虫及其方法介绍 |
2.2.1 主题模型构建方法介绍 |
2.2.2 主题相关性评估方法介绍 |
2.2.3 主题爬虫搜索策略介绍 |
2.3 本章小结 |
第三章 基于本体学习的领域本体构建方法 |
3.1 本体构建的问题描述 |
3.2 本体构建的解决思路及构建流程 |
3.2.1 形式概念分析 |
3.2.2 潜在狄利克雷分布 |
3.2.3 关联规则 |
3.2.4 领域本体的构建流程 |
3.3 本体可视化展示 |
3.4 本章小结 |
第四章 主题相关度计算 |
4.1 基于本体的概念语义相似度计算模型 |
4.2 网页文本的主题相关度 |
4.3 超链接的主题相关度 |
4.4 实验结果和分析 |
4.5 本章小结 |
第五章 多目标蚁群算法及其在主题爬虫技术上的应用 |
5.1 多目标优化问题 |
5.2 基于领域本体和多目标优化的主题爬虫技术 |
5.2.1 多目标蚁群算法 |
5.2.2 目标函数 |
5.2.3 基于领域本体和多目标蚁群算法的主题爬虫设计 |
5.3 实验结果与分析 |
5.3.1 实验评价标准 |
5.3.2 实验结果与分析 |
5.4 本章小结 |
第六章 总结及展望 |
6.1 论文所做的工作 |
6.2 论文的主要创新点 |
6.3 研究展望 |
致谢 |
参考文献 |
作者简介 |
(4)分布式主题网络爬虫研究与设计(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.2.1 爬虫技术 |
1.2.2 爬虫系统 |
1.3 论文研究内容及意义 |
1.4 本文组织结构 |
第二章 相关理论与技术 |
2.1 Hadoop文件系统 |
2.2 微服务 |
2.3 主题爬虫运作流程 |
2.4 页面相似度计算 |
2.4.1 页面相似度的概念 |
2.4.2 分词 |
2.4.3 词语权重评估 |
2.4.4 向量空间模型 |
2.4.5 余弦相似度 |
2.5 爬行策略 |
2.5.1 URL相似度的概念 |
2.5.2 Fish Search策略 |
2.5.3 Shark Search策略 |
2.6 页面去重 |
2.6.1 页面去重的概念 |
2.6.2 Bloom过滤器 |
2.7 代理 |
2.7.1 代理的概念 |
2.7.2 私有代理 |
2.7.3 开放代理 |
2.8 本章小结 |
第三章 分布式主题爬虫研究与设计 |
3.1 设计原则 |
3.2 爬行策略 |
3.3 架构设计 |
3.3.1 功能模块划分 |
3.3.2 集群规划 |
3.4 数据库设计 |
3.4.1 概念模型 |
3.4.2 物理模型 |
3.5 系统的反反爬虫机制 |
3.6 相似度计算研究与改进 |
3.6.1 词向量的两种形式 |
3.6.2 基于分布式词向量的页面相似度计算 |
3.6.3 基于分布式词向量的URL相似度计算 |
3.7 系统功能模块设计 |
3.7.1 代理服务 |
3.7.2 URL队列 |
3.7.3 页面抓取 |
3.7.4 页面解析 |
3.7.5 相似度分析 |
3.7.6 页面存储 |
3.7.7 任务管理 |
3.7.8 集群管理 |
3.8 本章小结 |
第四章 实验环境部署与测试 |
4.1 硬件资源 |
4.2 实验环境搭建 |
4.3 功能测试 |
4.3.1 Bloom过滤器测试 |
4.3.2 代理可用性测试 |
4.4 性能测试 |
4.4.1 运作效率测试 |
4.4.2 爬准率测试 |
4.4.3 爬全率测试 |
4.5 鲁棒性测试 |
4.6 扩展性测试 |
4.7 本章小结 |
第五章 分布式主题爬虫系统实现 |
5.1 系统首页 |
5.2 集群管理 |
5.3 主题词记录 |
5.4 代理信息 |
5.5 任务信息 |
5.6 页面信息 |
5.7 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
(5)基于Shark-Search与OTIE自适应算法的主题爬虫关键技术研究与实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.3 论文研究内容 |
1.4 论文结构安排 |
第二章 爬虫理论基础和关键技术 |
2.1 搜索引擎简介 |
2.1.1 搜索引擎及发展历程 |
2.1.2 搜索引擎的基本原理 |
2.1.3 搜索引擎的分类 |
2.2 通用爬虫简介 |
2.2.1 通用爬虫的原理 |
2.2.2 通用爬虫的架构 |
2.3 主题爬虫简介 |
2.3.1 主题爬虫的原理 |
2.3.2 主题爬虫的架构 |
2.4 关键技术简介 |
2.4.1 超链接去重 |
2.4.2 Elasticsearch |
2.4.3 Nutch |
2.4.4 正则表达式 |
2.5 本章小结 |
第三章 基于内容的主题爬虫算法Shark-Search的改进 |
3.1 Shark-Search算法介绍 |
3.2 Shark-Search算法的不足 |
3.3 ESS算法 |
3.3.1 主题词扩展 |
3.3.2 预判权值计算 |
3.3.3 ESS算法流程 |
3.4 实验及结果分析 |
3.4.1 评价方法 |
3.4.2 结果分析 |
3.5 本章小结 |
第四章 基于链接与内容相结合的OTIE自适应算法的改进 |
4.1 OTIE自适应算法及其不足之处 |
4.2 E-OTIE自适应算法 |
4.3 实验及分析 |
4.3.1 实验数据集 |
4.3.2 算法评价指标 |
4.3.3 结果分析 |
4.4 本章小结 |
第五章 主题爬虫原型系统设计与实现 |
5.1 系统需求分析 |
5.1.1 系统总体目标 |
5.1.2 功能需求 |
5.1.3 系统性能需求 |
5.2 系统概要设计 |
5.2.1 系统功能架构 |
5.2.2 系统工作流程 |
5.3 系统数据库设计 |
5.4 反爬虫机制的应对策略 |
5.5 系统业务功能实现 |
5.5.1 网页抓取统计 |
5.5.2 算法分析统计 |
5.5.3 新增爬虫模板 |
5.5.4 爬虫模板列表 |
5.5.5 定时任务管理 |
5.5.6 查看爬虫进度 |
5.6 系统爬行实验 |
5.7 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 工作展望 |
参考文献 |
致谢 |
硕士期间研究成果 |
(6)设施布局及主题爬虫技术的超启发式算法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 设施布局问题的研究现状与发展 |
1.2.2 主题爬虫技术的研究现状与发展 |
1.3 论文的主要工作 |
1.4 论文的组织结构 |
1.5 本章小结 |
第二章 超启发式算法简介 |
2.1 启发式算法概述 |
2.2 超启发式算法介绍 |
2.2.1 贪心算法 |
2.2.2 模拟退火算法 |
2.2.3 经典进化算法 |
2.3 本章小结 |
第三章 回溯搜索算法及其在多行动态设施布局问题上的应用 |
3.1 多行动态设施布局问题及数学模型 |
3.2 遗传算法 |
3.2.1 改进的交叉策略 |
3.2.2 改进的变异策略 |
3.2.3 遗传算法思路及具体步骤 |
3.3 回溯搜索算法 |
3.3.1 初始化过程 |
3.3.2 选择策略I |
3.3.3 变异策略 |
3.3.4 交叉策略 |
3.3.5 改进的选择策略II |
3.3.6 回溯搜索算法思路及具体步骤 |
3.4 实验结果与分析 |
3.5 本章小结 |
第四章 改进的模拟退火算法及其在主题爬虫中的应用 |
4.1 本体描述方法 |
4.1.1 暴雨灾害本体构建 |
4.1.2 本体概念语义相似度计算 |
4.2 主题综合优先度计算方法 |
4.2.1 网页文本主题相关度 |
4.2.2 锚文本主题相关度 |
4.2.3 改进的网页PageRank值 |
4.2.4 超链接综合优先度 |
4.3 基于本体的主题退火爬虫算法 |
4.3.1 基于模拟退火算法选择链接 |
4.3.2 基于本体的主题退火爬虫算法设计 |
4.4 实验结果与分析 |
4.4.1 评价指标 |
4.4.2 结果分析 |
4.4.3 参数测试 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 论文所做的工作 |
5.2 论文的主要创新点 |
5.3 研究展望 |
致谢 |
参考文献 |
作者简介 |
(7)面向设施布局和主题爬虫的构型空间进化算法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 设施布局问题及国内外研究现状 |
1.2.2 主题爬虫技术及国内外研究现状 |
1.3 论文的主要工作 |
1.4 论文的组织结构 |
1.5 本章小结 |
第二章 相关基础理论介绍 |
2.1 多目标优化问题介绍及相关概念 |
2.2 智能优化算法介绍 |
2.2.1 进化算法 |
2.2.2 非支配排序遗传算法 |
2.3 本章小结 |
第三章 面向多目标动态设施布局问题的构型空间进化算法 |
3.1 多目标动态设施布局问题描述与数学模型 |
3.2 多目标动态设施布局问题的求解思路 |
3.3 改进的构型空间进化算法 |
3.3.1 构型空间进化算法流程及思路 |
3.3.2 进化操作 |
3.3.3 构型库更新 |
3.3.4 改进的交叉策略 |
3.3.5 改进的变异策略 |
3.3.6 基于个体距离的最近最远候选解法 |
3.3.7 改进的构型空间进化算法步骤 |
3.4 算法评价 |
3.4.1 两个经典多目标动态设施布局算例 |
3.4.2 一个具有实际生产应用的多目标动态算例 |
3.4.3 算法性能测试与分析 |
3.5 本章小结 |
第四章 面向主题爬虫技术的构型空间进化算法 |
4.1 主题爬虫框架 |
4.2 主题描述 |
4.2.1 基于FCA方法构建暴雨灾害本体 |
4.2.2 基于本体的语义相似度计算模型 |
4.3 主题相关度计算 |
4.3.1 网页文本的主题相关度 |
4.3.2 锚文本的主题相关度 |
4.3.3 改进的PageRank算法 |
4.3.4 链接综合相关度 |
4.4 基于Web的构型空间进化算法 |
4.4.1 构型距离的度量方式 |
4.4.2 改进的进化操作 |
4.4.3 改进的构型库更新机制 |
4.4.4 基于Web的构型空间进化爬虫算法设计 |
4.5 实验结果与分析 |
4.5.1 实验设置与评价标准 |
4.5.2 四种爬虫算法的实验结果 |
4.5.3 算法参数影响分析 |
4.6 本章小结 |
第五章 总结与展望 |
5.1 本文所做的工作 |
5.2 本文的主要创新点 |
5.3 研究展望 |
致谢 |
参考文献 |
作者简介 |
(8)基于仿生学的主题爬虫搜索策略及关键技术研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 研究现状 |
1.2.1 搜索策略 |
1.2.2 种子页面选择 |
1.2.3 主题爬虫领域的主要问题 |
1.3 论文研究内容及意义 |
1.4 论文组织结构 |
第2章 相关理论与技术 |
2.1 仿生学算法 |
2.1.1 粒子群算法 |
2.1.2 遗传算法 |
2.2 相似度计算 |
2.2.1 欧几里德距离 |
2.2.2 余弦相似度 |
2.3 主题爬虫搜索策略 |
2.3.1 VSM爬虫 |
2.3.2 SSRM爬虫 |
2.4 种子页面选取策略BFC |
2.5 非重叠社区发现算法 |
2.6 本章小结 |
第3章 基于变异思想改进粒子群算法的主题爬虫模型 |
3.1 问题提出与解决办法 |
3.2 模型框架 |
3.3 种子页面的选取 |
3.4 页面初始权值计算 |
3.4.1 网页文本预处理 |
3.4.2 关键词选择 |
3.4.3 计算网页权重 |
3.4.4 基于VR-PSO算法抓取页面 |
3.5 实验与分析 |
3.5.1 实验设计 |
3.5.2 实验评价指标 |
3.5.3 实验结果与分析 |
3.6 本章小结 |
第4章 基于改进Louvain算法的种子页面选取框架 |
4.1 问题提出与解决办法 |
4.2 模型框架 |
4.3 加权的Louvain算法 |
4.4 选取核心子团 |
4.5 页面选择 |
4.6 实验与分析 |
4.6.1 实验环境 |
4.6.2 实验设计 |
4.6.3 实验结果与分析 |
4.7 本章小结 |
第5章 结论 |
5.1 研究工作总结 |
5.2 未来工作展望 |
参考文献 |
致谢 |
攻读硕士学位期间从事的科研工作及取得的成果 |
(9)基于网络爬虫的水利信息聚合系统的设计与实现(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 课题研究背景及意义 |
1.2 国内外研究现状 |
1.3 研究内容 |
2 水利信息聚合系统的相关技术 |
2.1 水利主题分类及特点 |
2.2 网络爬虫相关技术 |
3 水利信息聚合系统的需求分析与设计 |
3.1 系统需求分析 |
3.2 系统整体设计 |
3.3 水利主题爬虫爬取方案设计 |
3.4 水利主题爬虫功能模块设计 |
3.5 水利信息规范化设计 |
3.6 数据库设计 |
3.7 水利信息聚合平台设计 |
4 系统的实现 |
4.1 开发环境搭建 |
4.2 系统功能实现 |
5 总结与展望 |
5.1 全文总结 |
5.2 展望 |
致谢 |
参考文献 |
(10)基于网络爬虫的注塑信息研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 国内外研究现状及分析 |
1.4 研究工作与创新点 |
1.5 论文结构 |
第二章 相关技术研究 |
2.1 网络爬虫相关技术 |
2.1.1 网络爬虫的工作原理 |
2.1.2 主题描述形式 |
2.1.3 初始种子选取 |
2.1.4 相关度计算模型 |
2.1.5 主题爬行策略 |
2.2 WebMagic框架简介 |
2.3 本章小结 |
第三章 基于HITS算法的初始种子选取算法 |
3.1 HITS算法的简介 |
3.2 种子质量度量 |
3.3 初始种子选取算法 |
3.3.1 无效链接剔除 |
3.3.2 链接价值评价 |
3.3.3 页面内容评价 |
3.3.4 HITS计算过程 |
3.4 本章小结 |
第四章 基于综合价值的概念背景图的主题爬虫策略 |
4.1 本章引言 |
4.2 构建概念背景图 |
4.2.1 核心概念和非核心概念 |
4.2.2 概念之间的语义相关度 |
4.3 基于综合价值的概念背景图的主题爬虫策略 |
4.3.1 页面的主题相关度计算 |
4.3.2 待访问链接的主题相关度预测 |
4.3.3 主题爬行策略 |
4.4 主题爬行策略评估 |
4.5 本章小结 |
第五章 注塑信息主题爬虫系统设计与实现 |
5.1 注塑信息主题爬虫系统总体设计 |
5.1.1 系统目标 |
5.1.2 需求分析 |
5.1.3 系统结构设计 |
5.2 数据库设计方案 |
5.2.1 数据库E-R图 |
5.2.2 表结构设计 |
5.3 系统功能模块设计 |
5.3.1 系统登录 |
5.3.2 初始种子选取模块的设计 |
5.3.3 概念背景图的构建 |
5.3.4 主题爬行模块设计 |
5.4 注塑信息主题爬虫系统功能模块实现 |
5.4.1 系统开发环境 |
5.4.2 系统登录实现 |
5.4.3 初始种子选取模块的实现 |
5.4.5 概念背景图构建模块的实现 |
5.4.6 主题爬行模块的实现 |
5.5 系统运行结果评估 |
5.6 本章小结 |
总结与展望 |
参考文献 |
攻读学位期间科研成果 |
致谢 |
四、主题爬虫的解决方案(论文参考文献)
- [1]冬奥会新闻文本采集及分类分析系统的设计与实现[D]. 刘娜. 河北工程大学, 2020(04)
- [2]基于查询扩展和多目标优化的主题爬虫系统的研究和实现[D]. 刘成军. 北京邮电大学, 2020(05)
- [3]基于领域本体和多目标蚁群算法的主题爬虫技术研究[D]. 东熠. 南京信息工程大学, 2020(02)
- [4]分布式主题网络爬虫研究与设计[D]. 单文远. 电子科技大学, 2020(07)
- [5]基于Shark-Search与OTIE自适应算法的主题爬虫关键技术研究与实现[D]. 彭宏胜. 江苏大学, 2019(03)
- [6]设施布局及主题爬虫技术的超启发式算法研究[D]. 李帆. 南京信息工程大学, 2019(04)
- [7]面向设施布局和主题爬虫的构型空间进化算法研究[D]. 李新. 南京信息工程大学, 2019(04)
- [8]基于仿生学的主题爬虫搜索策略及关键技术研究[D]. 蒋鹏. 重庆邮电大学, 2019(02)
- [9]基于网络爬虫的水利信息聚合系统的设计与实现[D]. 闫宁. 华中科技大学, 2019(03)
- [10]基于网络爬虫的注塑信息研究与实现[D]. 杨力. 广东工业大学, 2019(02)
标签:文本分类论文; 分类数据论文; python爬虫论文; 文本分析论文; 优化策略论文;