基于Java的元搜索引擎的设计与实现

基于Java的元搜索引擎的设计与实现

一、一种基于Java的元搜索引擎的设计与实现(论文文献综述)

胡晓峰[1](2020)在《基于Solr的新媒体稿件检索系统研究与设计》文中研究指明随着近年来互联网和移动互联网的兴起,新媒体也取得了蓬勃发展,新媒体文章和稿件也呈现爆发式增长的趋势。面对海量和多种格式的新媒体数据信息,如何在这样大规模的数据信息中快速和准确地找到所需要的稿件信息成为自媒体用户所面临的一个问题。本文根据以上问题和需求,基于Spring+SpringMVC+Hibernate的架构进行设计开发,结合了 Solr搜索引擎服务和百度语音识别工具,提出了一种B/S架构的新媒体稿件检索系统,系统使用Java作为开发语言进行实现。本文重点分析了系统架构设计中使用的关键技术和策略,开发设计了基于Solr的新媒体稿件检索系统,主要包括预处理,构建Solr系统,用户查询和数据库几部分。本文以开源搜索引擎Solr作为系统的核心,研究了搜索引擎核心技术索引的实现原理。为了保证分词的效率和质量,研究了分词的算法以及各种中文分词器的性能对比,为了方便Solr使用文本构建索引,研究了将非文本文件进行文本转化的方法。本文研究的主要创新点如下:第一,由于传统的关系型数据库无法满足能够应对庞大的实时请求,且关系数据库对中文的全文检索效果不佳,需要使用企业级搜索引擎来解决搜索的问题。Solr作为企业级搜索引擎,其强大的全文检索功能能够满足企业搜索的需要。开发者基于Solr搜索引擎服务的框架上进行开发,利用其稳定的搜索框架,只需要开发上层的业务逻辑而不需要负责底层实现逻辑,缩减了开发周期和开发成本,提高了系统的稳定性。第二,鉴于新媒体稿件当中包含大量图片,音频,视频等多媒体文件,本系统将Solr快速索引和成熟的百度语音识别相结合,构成面向企业平台的新媒体稿件检索系统。相对于传统的通过文本这类单一格式进行查询的方式,本系统集成了百度语音识别的功能,可以对音视频格式的文件进行文字转化,从而进行查询。通过音视频文件信息的加入,使得查询准确度更高,查询资源变得多元化,丰富了系统检索功能。

宏朴[2](2016)在《基于Lucene的搜索引擎的研究与实现》文中研究指明最近这些年,有一门新兴的技术正越来越多的引起人们的广泛注意,它就是垂直搜索引擎。垂直搜索引擎建造价格便宜,而且它是一种相对有效的搜索方式。用户可从相关网页上,根据输入的关键字搜索需要的消息,又可以浏览这些检索出的界面。检索界面可以被用户打开,进行信息的浏览。结果包含所有相关网页在通用搜索引擎中是不可能实现的,即使雅虎公司的搜索结果覆盖率也不到50%。通过这些数据可以表明,很大一部分网页并没有被搜索引擎检测到,所以就无法对其中包含的信息加以利用。大量的信息无法为人们所有,造成了信息资源的浪费。尽管有些搜索引擎设置了一些功能使得一些没有检测到的信息得到一个可以检测的出口,即身份验证,但还是无法使这种现象得以改善。系统使用Eclipse和Dreamweaver作为开发环境。系统后台的信息是由某网站提供的,经过分析网站内容,准备好Heritrix的抓取清单,然后提交给Heritrix处理。网页抓取到后使用HTMLParser解析,将详细信息插入My SQL数据库,然后建立用来检索关键字的词库和Lucene的索引,最后搭建一个Web平台,采用JSP技术对建立的索引和数据库进行整合,为用户提供真正的搜索服务。

王然[3](2016)在《主题元搜索引擎排序算法研究》文中提出主题搜索引擎的产生是针对某种具体的组织、行业的网络信息来构建的,这是一个能够使该组织、行业的搜索要求满足的搜索引擎。随着网络信息的多元化形成,没有任何一种主题搜索技术能应用到所有的主题信息领域,而主题元搜索引擎的出现很好地解决了这个现象。主题元搜索引擎将元搜索引擎和主题搜索引擎相结合,在提高查全率的同时又进一步提高了查准率。其中搜索引擎的分词技术和排序技术是影响搜索结果的关键性。本文以开源的搜索引擎Nutch为原型,使用主题提取器在多个搜索引擎中提取种子站点,再从各种子站点上搜索关键词,实现搜索的主题化和多元化,提高了查准率和查全率。针对Nutch搜索引擎按字分词和排序效果差的问题,本文主要完成了以下两方面的工作:第一,参考各种资料以及相关中文分词插件文档,通过实验对Paoding,IKAnalyzer等中文分词器进行了时效性以及准确率等方面的对比,选取在大量文字分词时,时间和准确度等方面性能更优且有丰富的本地词库的ICTCLAS2015分词器,进行了Nutch中文分词模块的改进。第二,本文提出了结合使用Page Rank算法并加入本地浏览器书签作为参考因子的方法,对Nutch的评分机制进行了改进,提高了搜索结果的确切度。对改进后的算法进行了验证,通过对实验数据的分析说明了改进后的算法不仅可以提高PR值较高的页面的排序结果,而且对本地书签有相关性的搜索结果的排名有所提高。本文通过结合ICTCLAS2015中文分词插件和改良中文分词算法对Nutch搜索引擎系统进行了二次开发,在此基础上,结合网站PR值和本地书签影响因子对Nutch排序算法进行改进,经试验测试表明,改进后的算法在搜索结果更确切,更符合用户的需求。

周承璐[4](2015)在《智能化元搜索引擎中多Agent系统架构的研究与实现》文中指出随着互联网中信息量的不断增长,搜索引擎已经成为人们快速获取有效信息的重要手段,是人们日常生活中必不可少的工具之一。但是单一搜索引擎能够检索到的信息量有限;而且有多种搜索引擎并且各有其擅长的领域;同时,随着垂直搜索引擎的出现,搜索引擎之间的差异更为明显。因此人们通常需要根据搜索目的选用不同搜索引擎,这降低了用户的信息检索效率。元搜索引擎为用户提供了统一的访问接口,综合处理与分析来自多个搜索引擎的结果。它既能减轻用户的负担,也能有效地提高检索结果的全面性。元搜索引擎正逐步往个性化、智能化发展:通过智能学习用户的个人兴趣,元搜索引擎在保证检索结果查全率的同时,也能提高其准确性。关于元搜索引擎及其相关技术的研究主要考虑如何进行自动的成员搜索引擎、采用更好的结果合成算法以及建立良好的系统框架支持,以使得元搜索引擎更好地达成目标。本文介绍元搜索引擎系统中多Agent系统架构的研究与实现。首先,本文分析了目前元搜索引擎中的研究内容及多Agent系统在元搜索引擎研究中的发展现状。然后对于本文相关的技术进行了概述与介绍,包括元搜索引擎的相关技术、Agent的相关理论以及本文所采用的JADE开发框架。接下来设计了基于Agent的元搜索引擎系统框架模型,详细介绍了如何将传统的Web应用与多Agent系统相结合机制及多Agent系统的设计过程,包括系统中各类Agent的结构设计、角色及能力定义以及生命周期中的行为模式。随后将本文的设计方案与成熟的多Agent系统开发框架JADE相结合,实现了元搜索引擎中的多Agent系统,同时也在已有成果的基础之上,丰富了元搜索引擎的结果处理方法,增加其个性化特性。对系统的测试表明,本文所设计的系统中各类Agent通过相互协作,完成系统中的各项任务。同时本文还对系统在检索结果的个性化排序方面也进行了测试,结果证明搜索结果能够具有一定的个性化特性,达到了预定的研究目标。

张永光[5](2015)在《基于分布式的搜索引擎技术研究与设计》文中研究说明随着计算机技术、互联网技术的快速发展,网络上的信息几乎是呈现爆炸式增长,这对传统的搜索引擎技术带来不小的挑战。面对海量数据的处理和存储,人们对搜索引擎的需求,不仅仅局限于能够尽可能地获取准确的检索结果,还需其具有更好的时效性,更高的可扩展性,更低的故障率。大数据时代,对数据的处理能力要求越来越高,随着分布式计算技术的不断发展,以及云计算的不断普及,基于分布式的搜索引擎无疑会成为未来发展的趋势。本论文针对基于分布式的搜索引擎,论述了国内外对搜索引擎的研究现状以及未来发展的趋势,分析了搜索引擎的工作原理,详细介绍了分布式搜索引擎涉及的相关理论技术。对主要的几种分布式搜索引擎方案进行对比分析,研究改进措施,提出了基于Hadoop的分布式搜索引擎技术方案。根据搜索引擎本身特点,将搜索引擎分为爬行、索引、检索三个子模块,对系统的每个子模块进行详细设计并实现,将Hadoop的Map/Reduce模型和分布式文件系统HDFS应用在整个搜索引擎中。在原有PageRank算法基础,进行优化,添加用户访问反馈影响因子,提出一种基于用户访问反馈的PageRank算法,来对网页进行评分。利用轻量级Web应用框架SpringMVC对检索子模块进行构建,视图层采用新一代Java模板引擎jetbrick-template替代Jsp,提高了页面加载速度,提升搜索引擎的时效性。最后,对实验环境进行介绍和部署,搭建分布式搜索引擎系统,对实现的搜索引擎系统从功能、可靠性、可扩展性几个方面分别进行了测试。对实验结果进行对比和分析,论证了基于Hadoop的分布式搜索引擎技术方案的可行性。

李青山,王俊,褚华,季陶然[6](2015)在《基于Agent的智能化元搜索引擎个性化机制》文中研究说明大数据环境下,信息量过载,人们需要精准、智能的检索工具.本文研究了基于Agent的智能元搜索引擎中的个性化机制,准确地理解用户的搜索意图,有效地提高了信息检索的服务质量.文中着重研究基于Agent的智能元搜索引擎个性化方法及功能实现所需的相关理论与技术,给出了查询语句分析与查询兴趣挖掘及成员搜索引擎调度过程,设计了基于动态学习的复杂查询识别机制,基于动态更新的用户兴趣概貌模型的检索兴趣挖掘机制,以及基于概念格与日志分析的搜索引擎评估调度策略机制.最后,针对复杂查询语句识别、搜索引擎调度策略效果及检索结果相关性的测试结果表明,本文提出的基于Agent的智能元搜索引擎个性化机制,可较为准确地识别出复杂的查询语句并进行预处理,高效学习用户的查询兴趣,达到明显提高检索结果相关程度的目的,并智能化地调度成员搜索引擎,为提高用户信息检索效率提供充分支持,从而提高用户的检索体验.

董佳[7](2016)在《基于垂直搜索技术的互联网公开文档搜集系统》文中提出现今,伴随着云存储、虚拟化办公等多种互联网技术的发展,人们获取信息的途径和方式,已从传统的社交媒体时代进入网络信息时代,谷歌、百度等通用搜索引擎正广泛被人们用于从互联网上检索信息,获取资讯。通用搜索引擎主要依赖传统的网络爬虫技术,“大而全”地采集互联网上的信息数据,忽略了“准而精”地满足用户在专业检索领域、索引海量级数据、信息更新速度、个性化服务等方面的需求。为此,针对某一特定使用者,涉猎某一特定领域,满足某一特定需求的主题网络爬虫和垂直搜索服务应运而生,正逐渐成为信息搜索领域至关重要的一部分。本文针对目前使用频率较高且迅速增长的文档检索垂直服务领域,主要研究如何基于垂直搜索技术,对互联网上的各类文档,进行定向化搜集和个性化应用,实现基于垂直搜索技术的互联网公开文档搜集系统。一是运用垂直搜索技术和信息抽取技术,搜集和存储指定专业网站上用户关注的网页信息和文档数据;二是结合采集型元搜索技术,利用已有的通用搜索引擎,搜集和存储互联网上存在的多种类型公开电子文档;三是运用增量索引技术,实现对搜集文档数据的二次搜索和结果展示。本文的创新点在于:一是笔者分析研究了网页URL链接的智能识别处理算法和基于DOM树的文本密度正文提取算法,优化了文档数据采集方案;二是笔者通过Lucene全文检索引擎,研发出独具特色的自建索引模块,并结合成熟的百度硬盘搜索技术,实现对word、excel、pdf、ppt等多种互联网公开文档的索引、关键词搜索和文档提取。

武耀旭[8](2014)在《基于遗传算法的专业元搜索引擎技术研究》文中研究指明当今互联网技术蓬勃发展,网络普及率直线上升,网民的数量以指数量级增长,由于网络使用人数的增多,网络信息量也是每天都在大量增加,目前网络的信息量非常庞大,现在的网民使用网络去查找信息的意识不断增强,但是由于不同的网民对专业信息需求面各不相同再加上现在网络信息爆炸式的增长,单单依靠独立的搜索引擎去查找真正自己需要的信息是非常困难的,那么怎么解决针对不同领域的用户搜索引擎能够返回用户相关领域的结果,使搜索引擎返回的结果更能人性的接近用户对某一专业领域的需求,成为各大搜索引擎运营商的首要任务。本文深层次的分析和研究了各个独立搜索引擎的相关理论信息和元搜索引擎的相关理论信息,结合各自的优点改进彼此的缺点,建立起了一个面向培训领域的专业元搜索引擎。由于本文的搜索引擎是面向专业领域的,所以就要分析网页结果集的各个网页的专业相关度,网页相关度的计算就要建立一个网页相关度模型,用模型来预测计算网页的专业相关的值并且利用这个值对网页进行排序,把结果返回给查询用户,本文就是利用改进的遗传算法在专业词汇表里筛选出对专业网页排序影响较高的关键词然后建网页相关度模型,最后对模型进行检测验证了模型的可靠性。本文根据改进的遗传算法建立的网页相关度模型作为网页排序的结果优化算法,并且建立起了面向教育培训领域的专业元搜索引擎,介绍了相关模块的设计与实现,最后对这个搜索引擎的搜索结果进行了评价和分析。

孙颖成[9](2013)在《基于Agent的智能元搜索引擎个性化功能的研究与实现》文中研究指明随着信息资源的不断膨胀及用户需求的不断提高,传统搜索引擎逐渐暴露出信息覆盖率低、智能化服务水平不足等方面的问题,能够有效提高信息检索覆盖率及准确率的智能化元搜索引擎因而被提出并得到广泛关注。本文重点研究基于Agent的智能元搜索引擎中的个性化功能,利用Agent技术优势实现用户兴趣的主动学习及检索结果的个性化过滤,为获得更高质量的检索结果提供支持。本文介绍了基于Agent的智能元搜索引擎中个性化功能的研究与实现。首先明确了目前搜索引擎存在的不足之处及国内外的相关研究,然后概述了个性化方法研究及功能实现所需的相关理论与技术。接下来提出了可解决目前搜索引擎不足的基于Agent的智能元搜索引擎体系结构,包括其框架模型、检索结果合成模型、Agent结构模型及Agent生命周期。随后着重研究了个性化功能的设计,给出了查询兴趣挖掘与查询语句分析过程,设计了基于公共兴趣黑板的群组推荐检索结果生成机制、基于动态学习的复杂查询识别机制及相关数据库。接下来给出了个性化功能具体实现,包括基于公共兴趣黑板的群组推荐检索结果生成机制的实现以及复杂查询语句识别方法的实现。针对检索结果相关性和复杂查询语句识别效果的测试结果表明,本文提出的基于Agent的智能元搜索引擎个性化功能可有效学习用户的查询兴趣,明显提高检索结果相关程度,较为准确地识别出复杂的查询语句,能够为提高用户信息检索效率提供充分支持。

张春磊[10](2012)在《基于元搜索的Web信息搜索技术研究》文中研究说明伴随着互联网的普及和发展,网络信息内容日益增加,这些信息中不但包含文本形式的内容,图片、音频、视频等内容也夹杂其中。如何在网络资源中快速准确地筛选和整理用户所需信息成为信息检索领域的一个研究热点。数据挖掘技术在人工智能领域也称之为知识发现,它是通过分析已有数据,从海量数据中找寻相同的规律,并将发现的规律进行展示的技术。而Web信息搜索技术是数据挖掘技术在互联网上的一项拓展。搜索引擎最早的收录方式是人工收录,人工收录的方法建立的搜索引擎以雅虎为代表。这种方法将互联网的信息经过人工搜集、筛选并进行相关分类,之后将整理好的结果收录到网站中。但是这种方法由于人工维护成本高昂、用户知识结构各不相同等因素不能满足用户多方面需求。伴随着数据挖掘技术的发展,自动化的搜索引擎应运而生。搜索引擎通过网络机器人程序将互联网中所有数据进行数据关联并进行爬行抓取,从而得到信息索引。同时,它为用户提供一个信息检索平台,用户可以通过该平台使用关键词进行检索。搜索引擎可分为:全文搜索引擎、目录搜索引擎、元搜索引擎等。其中元搜索引擎是网页搜索引擎的进一步延伸,用户可以在一个用户交互平台中根据关键词选择在多个搜索引擎中进行相关检索操作,元搜索的特点就在于可以独立调用其他搜索引擎,实现信息的跨引擎融合,满足用户快速整合信息的需求。元搜索引擎与传统搜索引擎相比,前者能够获得更加精确而全面的信息。本文系统地阐述了Web信息提取技术的相关原理和研究现状,同时介绍了Web信息提取技术的关键步骤。重点研究了搜索引擎的流程以及关键性技术,并对元搜索进行了深入研究。本文的主要工作主要体现在:(1)对Web信息提取技术的研究背景以及Web信息提取技术的分类和步骤进行了阐述。(2)对Web信息提取模型、HTML语言和DOM文档对象进行了介绍。(3)对SSH框架中Struts、Spring、Hibernate框架进行了介绍,对网站的结构信息进行了分析。(4)对搜索引擎的背景和分类以及关键技术进行了总结,以AJAX技术、HTML Parser等技术设计并实现了一个元搜索引擎。(5)对搜索引擎得到的结果进行了分析比对。(6)对搜索引擎程序进行了测试。本文的研究以原有搜索引擎技术为基础,为实现更好的元搜索和开发更优秀的网络信息检索工具提供了一些参考。

二、一种基于Java的元搜索引擎的设计与实现(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、一种基于Java的元搜索引擎的设计与实现(论文提纲范文)

(1)基于Solr的新媒体稿件检索系统研究与设计(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 项目背景
    1.2 国内外研究现状
    1.3 研究内容
    1.4 本论文的组织结构
    1.5 本章总结
第二章 系统技术方案
    2.1 搜索引擎研究
        2.1.1 搜索引擎介绍
        2.1.2 搜索引擎原理
    2.2 企业搜索引擎方案选定
    2.3 Solr介绍
    2.4 Solr原理
        2.4.1 数据分类
        2.4.2 搜索分类
        2.4.3 索引原理
        2.4.4 索引实现步骤
        2.4.5 评分规则
    2.5 中文分词
        2.5.1 中文分词介绍
        2.5.2 分词算法
        2.5.3 技术难点
        2.5.4 分词应用
    2.6 本章总结
第三章 系统详细设计
    3.1 系统需求分析
        3.1.1 资源导入模块
        3.1.2 预处理模块
        3.1.3 Solr模块
        3.1.4 查询模块
    3.2 系统总体架构
        3.2.1 总体架构设计
        3.2.2 系统技术框架
    3.3 系统模块设计
        3.3.1 资源导入模块
        3.3.2 预处理模块
        3.3.3 Solr索引模块
        3.3.4 查询模块
    3.4 数据结构设计
        3.4.1 MySQL数据库设计
        3.4.2 Solr字段设计
    3.5 本章总结
第四章 系统实现方案
    4.1 系统整体架构实现
    4.2 软件技术方案
        4.2.1 数据库MySQL
        4.2.2 依赖管理Maven
        4.2.3 版本管理Git
        4.2.4 服务器Tomcat
    4.3 系统功能实现
        4.3.1 资源导入模块
        4.3.2 预处理模块
        4.3.3 Solr检索模块
        4.3.4 查询模块
    4.4 本章总结
第五章 系统测试
    5.1 系统部署方案
    5.2 系统测试方案
        5.2.1 单元测试
        5.2.2 功能测试
        5.2.3 性能测试
        5.2.4 安全性测试
    5.3 查询方案对比
    5.4 本章总结
第六章 总结与展望
    6.1 总结
    6.2 展望
参考文献
致谢

(2)基于Lucene的搜索引擎的研究与实现(论文提纲范文)

摘要
Abstract
1 绪论
    1.1 课题内容简介
    1.2 课题的研究背景与意义
        1.2.1 课题的研究背景
        1.2.2 课题的研究意义
        1.2.3 搜索引擎的重要性
    1.3 论文结构
2 搜索引擎概述
    2.1 搜索引擎定义
    2.2 搜索引擎的特点
    2.3 搜索引擎的分类
        2.3.1 全文索引搜索引擎
        2.3.2 目录索引搜索引擎
        2.3.3 元搜索引擎搜索引擎
    2.4 本章小结
3 需求分析
    3.1 可行性分析
        3.1.1 技术可行性
        3.1.2 经济可行性
        3.1.3 法律可行性
        3.1.4 操作可行性
    3.2 系统的综合需求分析
    3.3 功能需求分析
    3.4 搜索引擎的功能描述
        3.4.1 目录搜索功能
        3.4.2 网络机器人搜索功能
        3.4.3 元搜索搜索功能
    3.5 搜索引擎的用例分析
    3.6 本章小结
4 Lucene分析与设计
    4.1 Lucene相关概念
    4.2 Lucene索引建立
        4.2.1 逻辑文件
        4.2.2 索引工具
        4.2.3 切分词问题(Word Segment)
        4.2.4 简单化查询处理器
        4.2.5 处理指定记录
        4.2.6 排序功能
        4.2.7 更通用的输入输出接口
    4.3 本章小结
5 网络爬虫Heritrix
    5.1 抓取任务
    5.2 中央控制器
    5.3 搜索效果优化
    5.4 本章小结
6 系统实现与界面显示
    6.1 网络爬虫
        6.1.1 抓取
        6.1.2 提取文本信息
    6.2 实现过程
        6.2.1 数据库中建表
        6.2.2 在spring-bean中配置
        6.2.3 对文档进行索引
        6.2.4 Lucene搜索
        6.2.5 查询结果的显示方式
        6.2.6 Web通用文件配置
    6.3 界面显示
        6.3.1 搜索主要界面
        6.3.2 详细页面
    6.4 系统功能与运行环境
    6.5 系统运行和操作指南
    6.6 本章小结
结论
参考文献
致谢

(3)主题元搜索引擎排序算法研究(论文提纲范文)

摘要
ABSTRACT
第1章 绪论
    1.1 选题背景及意义
    1.2 国内外研究现状
        1.2.1 元搜索引擎:提高查全率
        1.2.2 主题搜索引擎:提高查准率
        1.2.3 开源搜索引擎:Nutch
    1.3 本文工作
    1.4 章节安排
第2章 搜索引擎及NUTCH系统研究
    2.1 搜索引擎概述
        2.1.1 元搜索引擎
        2.1.2 全文搜索引擎
        2.1.3 目录索引
        2.1.4 主题搜索引擎
        2.1.5 主题元搜索引擎
    2.2 NUTCH系统
        2.2.1 Crawler爬虫
        2.2.2 Searcher查询
        2.2.3 Nutch分词机制
        2.2.4 Nutch网页排序方法
    2.3 本章小结
第3章 中文分词技术研究
    3.1 中文分词技术分析
    3.2 常用中文分词插件
        3.2.1 ICTCLAS2015分词器
        3.2.2 庖丁中文分词
        3.2.3 IKAnalyzer
        3.2.4 其他分词器
    3.3 中文分词器性能对比
        3.3.1 分词效果对比
        3.3.2 分词速度对比
        3.3.3 建立索引效率对比
    3.4 分词效果演示
    3.5 本章小结
第4章 NUTCH网页排序算法优化
    4.1 常用网页排序算法分析
        4.1.1 基于词频统计和位置加权的排序算法
        4.1.2 Page Rank算法
        4.1.3 HITS算法
    4.2 排序算法性能对比
    4.3 NUCTH网页排序算法改进
        4.3.1 权威性改进
        4.3.2 本地相关度改进
    4.4 实验验证及分析
    4.5 本章小结
第5章 基于NUTCH的主题元搜索引擎实现
    5.1 NUTCH系统开发环境
    5.2 NUTCH搜索引擎系统中文分词模块改进
    5.3 NUTCH搜索引擎系统排序算法改进
    5.4 NUTCH搜索引擎系统效果演示
    5.5 本章小结
第6章 总结与展望
    6.1 总结
    6.2 展望
参考文献
攻读硕士学位期间发表的论文及其他研究成果
致谢

(4)智能化元搜索引擎中多Agent系统架构的研究与实现(论文提纲范文)

摘要
ABSTRACT
缩略语对照表
第一章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
        1.2.1 典型的元搜索引擎系统
        1.2.2 基于Agent的元搜索引擎系统架构
    1.3 论文工作内容
    1.4 本文组织结构
第二章 理论基础与关键技术
    2.1 元搜索引擎技术
    2.2 Agent相关理论与技术
    2.3 JADE框架
        2.3.1 JADE基本架构
        2.3.2 Agent的生命周期
        2.3.3 Agent的交互机制
    2.4 本章小结
第三章 元搜索引擎中多Agent系统结构的设计
    3.1 元搜索引擎系统目标分析
    3.2 系统框架模型
    3.3 Agent模型设计
        3.3.1 接口Agent
        3.3.2 用户个性化Agent
        3.3.3 调度管理Agent
        3.3.4 结果合成Agent
        3.3.5 系统推荐Agent
    3.4 本章小结
第四章 元搜索引擎中多Agent系统的实现
    4.1 多Agent系统初始化模块的实现
    4.2 Agent模型及相关支撑环境的实现
        4.2.1 接口Agent的实现
        4.2.2 用户个性化Agent的实现
        4.2.3 调度管理Agent的实现
        4.2.4 结果合成Agent的实现
        4.2.5 系统推荐Agent的实现
    4.3 本章小结
第五章 实验测试与分析
    5.1 实验目的
    5.2 实验环境
    5.3 实验过程及结果分析
        5.3.1 系统功能测试结果分析
        5.3.2 系统性能测试结果分析
    5.4 本章小结
第六章 总结与展望
    6.1 本文工作总结
    6.2 后续工作展望
参考文献
致谢
作者简介

(5)基于分布式的搜索引擎技术研究与设计(论文提纲范文)

摘要
abstract
第1章 绪论
    1.1 研究背景及意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 国内外研究现状
    1.3 论文主要研究内容
    1.4 论文结构
第2章 相关理论技术分析
    2.1 搜索引擎原理
    2.2 分布式计算技术
        2.2.1 分布式计算平台
        2.2.2 Hadoop中的Map/Reduce编程模型
        2.2.3 HDFS分布式文件系统
    2.3 网络爬虫
    2.4 分词技术
    2.5 索引技术
        2.5.1 索引技术介绍
        2.5.2 倒排索引
        2.5.3 基于Lucene的全文检索
    2.6 网页评分与排序机制
    2.7 本章小结
第3章 分布式搜索引擎技术方案分析
    3.1 分布式搜索引擎技术方案
        3.1.1 分布式元搜索引擎
        3.1.2 散列式分布搜索引擎
        3.1.3 基于P2P的分布搜索引擎
        3.1.4 局部遍历型搜索引擎
    3.2 基于Hadoop的分布式搜索引擎技术方案
    3.3 技术方案对比分析
    3.4 本章小结
第4章 基于Hadoop的分布式搜索引擎设计
    4.1 系统总体设计
    4.2 爬行子模块设计
        4.2.1 初始URL注入
        4.2.2 注入生成待下载列表
        4.2.3 网页内容下载
        4.2.4 crawldb数据库更新
    4.3 索引子模块设计
        4.3.1 非结构化文档解析
        4.3.2 Jcesg中文分词
        4.3.3 基于用户访问反馈的PageRank算法
        4.3.4 索引库构建
    4.4 检索子模块设计
        4.4.1 前台展示
        4.4.2 后台查询处理
    4.5 系统评测分析
        4.5.1 分布式环境部署
        4.5.2 系统测试
    4.6 本章小结
结论
参考文献
攻读硕士学位期间发表的论文和取得的科研成果
致谢

(7)基于垂直搜索技术的互联网公开文档搜集系统(论文提纲范文)

中文摘要
Abstract
第一章 引言
    1.1 研究的背景与意义
        1.1.1 研究的背景
        1.1.2 研究的意义
        1.1.3 研究对经济社会发展的作用
    1.2 国内外的研究现状
        1.2.1 垂直搜索的定义
        1.2.2 垂直搜索的研究现状
        1.2.3 文档垂直搜索服务
    1.3 研究目的和研究内容
        1.3.1 研究目的
        1.3.2 研究内容
    1.4 论文结构
第二章 理论基础
    2.1 主题网络爬虫技术
        2.1.1 主题网络爬虫的定义
        2.1.2 主题网络爬虫的工作原理
        2.1.3 主题网络爬虫的搜索策略
        2.1.4 开源的主题网络爬虫策略
    2.2 元搜索技术
        2.2.1 元搜索技术概述
        2.2.2 元搜索工作原理
        2.2.3 元搜索的特点
        2.2.4 采集型元搜索技术
    2.3 Web信息抽取技术
        2.3.1 Web信息抽取技术概述
        2.3.2 HTML基本语法分析
        2.3.3 HTML网页的预处理
        2.3.4 Web信息内容的抽取
    2.4 基于Lucene的索引与搜索技术
        2.4.1 Lucene概述
        2.4.2 Lucene的索引技术
        2.4.3 Lucene的搜索技术
        2.4.4 文本分词技术
    2.5 本章小结
第三章 系统设计与实现
    3.1 系统概述
    3.2 目标定义
        3.2.1 使用需求的定义
        3.2.2 检索数据的定义
    3.3 难点处理和技术实现
        3.3.1 指定网站文档采集的优化方案
        3.3.2 通用搜索引擎的文档采集策略
        3.3.3 文档索引检索功能的实现方案
    3.4 本章小结
第四章 系统实验与结果分析
    4.1 实验环境
    4.2 系统功能
        4.2.1 文件操作功能
        4.2.2 模式操作功能
        4.2.3 设置操作功能
        4.2.4 抓取操作功能
    4.3 实验结果与分析
        4.3.1 指定网站信息抓取模式的功能实验
        4.3.2 网络文档信息抓取模式的功能实验
        4.3.3 自建索引和百度索引二次搜索模式的功能实验
    4.4 本章小结
第五章 总结和展望
    5.1 研究工作总结
    5.2 论文的创新点
    5.3 后续研究展望
参考文献
致谢
个人简历
攻读硕士期间的研究经历与成果

(8)基于遗传算法的专业元搜索引擎技术研究(论文提纲范文)

摘要
Abstract
目录
绪论
    一、课题研究背景
    二、论文的意义以及主要研究内容
第一章 专业元搜索引擎相关理论技术研究
    1.1 引言
    1.2 搜索引擎概述
        1.2.1 搜索引擎的发展历史
        1.2.2 搜索引擎的研究现状
        1.2.3 搜索引擎发展趋势
        1.2.4 搜索引擎的分类
        1.2.5 搜索引擎的原理和结构
    1.3 专业搜索引擎概述
        1.3.1 专业搜索引擎的研究现状
        1.3.2 专业搜索引擎的研究意义
        1.3.3 专业搜索引擎特点及优势
        1.3.4 专业搜索引擎的结构和原理
    1.4 元搜索引擎概述
        1.4.1 元搜索引擎的特点及优势
        1.4.2 元搜索引擎分类
        1.4.3 元搜索引擎原理和结构
    本章小结
第二章 遗传算法理论研究
    2.1 引言
    2.2 遗传算法发展历史及现状
        2.2.1 发展历史
        2.2.2 发展现状
    2.3 遗传算法基本思想及特点
    2.4 遗传算法基本操作步骤
    2.5 遗传算法流程
    本章小结
第三章 遗传算法改进研究
    3.1 引言
    3.2 选择算子的改进
    3.3 交叉算子的改进
    3.4 变异算子的改进
    3.5 改进遗传算法的流程
    本章小结
第四章 基于改进的遗传算法的网页相关度模型建立
    4.1 引言
    4.2 最小二乘法研究
        4.2.1 多元线性回归最小二乘解法
        4.2.2 求解正规方程组的算法
    4.3 网页相关度模型建立
        4.3.1 编码
        4.3.2 适应度函数
        4.3.3 模型建立
    4.4 模型检测
    本章小结
第五章 面向培训领域的专业元搜索引擎的设计与实现
    5.1 引言
    5.2 专业元搜索引擎系统的设计
        5.2.1 专业元搜索引擎系统结构
        5.2.2 查询代理模块的设计与实现
        5.2.3 URL管理器
        5.2.4 分词系统
    5.3 专业元搜索引擎的实现
        5.3.1 系统实现
        5.3.2 结果实验与分析
    本章小结
第六章 总结
参考文献
攻读硕士学位期间发表的学术论文
致谢

(9)基于Agent的智能元搜索引擎个性化功能的研究与实现(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状分析
        1.2.1 典型的元搜索引擎
        1.2.2 元搜索引擎个性化方法与技术
    1.3 论文工作内容
    1.4 论文组织结构
第二章 相关技术概述
    2.1 Agent 理论与技术
    2.2 元搜索引擎
    2.3 SSH 框架介绍
        2.3.1 Struts2 框架
        2.3.2 Spring 框架
        2.3.3 Hibernate 框架
    2.4 本章小结
第三章 基于 Agent 的智能元搜索引擎体系结构
    3.1 系统框架模型
    3.2 检索结果合成模型
    3.3 系统 Agent 结构模型及其交互关系
    3.4 系统 Agent 生命周期
    3.5 本章小结
第四章 基于 Agent 的智能元搜索引擎个性化功能设计
    4.1 查询兴趣挖掘与查询语句分析过程
    4.2 基于动态学习的复杂查询语句识别方法
        4.2.1 复杂查询语句相关定义
        4.2.2 基于动态学习的查询语句复杂性分析
    4.3 个性化功能相关的数据库设计
    4.4 本章小结
第五章 基于 Agent 的智能元搜索引擎个性化功能实现
    5.1 基于公共兴趣黑板的群组推荐检索结果生成机制的实现
    5.2 复杂查询语句识别方法的实现
    5.3 本章小结
第六章 实验研究与测试
    6.1 实验环境
    6.2 检索结果相关性测试
        6.2.1 用户兴趣学习效果测试
        6.2.2 检索效果对比测试
    6.3 复杂查询语句识别功能测试
        6.3.1 复杂查询语句的提出必要性实验
        6.3.2 复杂查询语句识别效果测试
    6.4 本章小结
第七章 结束语
    7.1 论文工作总结
    7.2 后续工作展望
致谢
参考文献
在研期间研究成果

(10)基于元搜索的Web信息搜索技术研究(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 研究背景
    1.2 研究现状和分类
    1.3 本文的研究内容
    1.4 本文的内容组织
第2章 WEB 信息提取模型
    2.1 概述
    2.2 抽象模型架构
        2.2.1 Struts 构架概述
        2.2.2 Spring 概述
        2.2.3 Hibernate 框架概述
    2.3 页面分析
    2.4 本章小结
第3章 基于元搜索的网络搜索引擎
    3.1 元搜索理论概述
        3.1.1 搜索引擎介绍
        3.1.2 搜索引擎的分类
        3.1.3 搜索引擎的关键技术
    3.2 基于 AJAX 语言实现元搜索
        3.2.1 元搜索介绍
        3.2.2 AJAX 语言实现元搜索
    3.3 数据抽取规则相关工作
        3.3.1 正则表达式介绍
        3.3.2 HTML Parser 介绍
    3.4 JAVA 语言内部程序设计
    3.5 信息结果对比
    3.6 本章小结
第4章 元搜索引擎实现与测试
    4.1 源代码实现与软件运行
        4.1.1 软件功能图
        4.1.2 软件流程图
        4.1.3 搜索引擎前台工作流程图
        4.1.4 搜索引擎后台工作流程图
    4.2 基于小样的文本抽取规则实现测试
        4.2.1 软件测试基础
        4.2.2 搜索引擎用例
    4.3 本章小结
第5章 总结与进一步工作
    5.1 总结
    5.2 进一步工作
参考文献
附录
作者简介
致谢

四、一种基于Java的元搜索引擎的设计与实现(论文参考文献)

  • [1]基于Solr的新媒体稿件检索系统研究与设计[D]. 胡晓峰. 北京邮电大学, 2020(05)
  • [2]基于Lucene的搜索引擎的研究与实现[D]. 宏朴. 大连理工大学, 2016(07)
  • [3]主题元搜索引擎排序算法研究[D]. 王然. 华北电力大学, 2016(03)
  • [4]智能化元搜索引擎中多Agent系统架构的研究与实现[D]. 周承璐. 西安电子科技大学, 2015(03)
  • [5]基于分布式的搜索引擎技术研究与设计[D]. 张永光. 哈尔滨工程大学, 2015(08)
  • [6]基于Agent的智能化元搜索引擎个性化机制[J]. 李青山,王俊,褚华,季陶然. 中国科学:信息科学, 2015(05)
  • [7]基于垂直搜索技术的互联网公开文档搜集系统[D]. 董佳. 福州大学, 2016(05)
  • [8]基于遗传算法的专业元搜索引擎技术研究[D]. 武耀旭. 大连交通大学, 2014(04)
  • [9]基于Agent的智能元搜索引擎个性化功能的研究与实现[D]. 孙颖成. 西安电子科技大学, 2013(02)
  • [10]基于元搜索的Web信息搜索技术研究[D]. 张春磊. 吉林大学, 2012(10)

标签:;  ;  ;  ;  ;  

基于Java的元搜索引擎的设计与实现
下载Doc文档

猜你喜欢