您好,欢迎来到第2导师的网站!

服务热线:4000-199-985

搜索引擎的资料分享
专栏:学习资料
发布日期:2021-06-03
阅读量:44
作者:第2导师
收藏:
第2导师提供在线1对1及在线班课的论文写作辅导培训。含1对1论文辅导课、写作录播课、学术启蒙课等,采用1对1真人在线互动教学形式,利用电脑、手机及ipad等移动终端。

      第2导师提供在线1对1及在线班课的论文写作辅导培训。含1对1论文辅导课、写作录播课、学术启蒙课等,采用1对1真人在线互动教学形式,利用电脑、手机及ipad等移动终端

     随着工业4.0及智能制造的迅速崛起,工业互联网深入应用到制造企业的各个方面,企业内部信息资源在不断地快速增长,面对繁多的信息资源如何准确快速的检索出想要的信息已成为一个亟需解决的问题。

  搜索引擎是用来从互联网和数据库中检索相关信息。在检索信息时需要对信息数据进行收集、标引、构建索引机制。其目的是从海量的信息数据中快速准确地找到用户所需的信息。虽然市面上的搜索引擎种类繁多,但其功能模块基本是一致的,搜索引擎之所以能够快速地检索出用户所需的信息主要依赖于以下三大核心功能:

  (1)索引库:索引库是存储信息的地方,也是用户查询结果保存的地方。

  (2)索引器:索引器是生成索引模块的地方,将处理过的信息数据包装成文档,在索引器中建立该文档的索引。

  (3)用户检索机制:提供搜索界面,完成搜索请求并将检索结果展示给用户。

  以上三大核心功能虽然可以组成一个简单的搜索引擎,但不能方便的处理现存的各种文档,如Word、Excel、HTML等。使用起来显得非常不方便,所以一个完善的搜索引擎还需要其他模块的支持。除了文档解析外搜索引擎还需要从海量信息数据中准确的检索出用户所需的内容,这需要用到分词技术,我们使用的是中文不像英文一样在每个单词间有个空格分隔,因此我们使用针对中文汉字的分词技术,我们称之为中文分词。所以一个完善的搜索引擎还需要文档解析模块、中文分词模块、网页处理模块、以及人机交互的用户界面等。solr是一个独立的企业级搜索应用服务器,对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。solr是一个高性能,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,实现了可配置、可扩展并对查询性能进行了优化,提供了完善的功能管理界面,是一款优秀的全文搜索引擎。

1608463553147001891.png


  solr是在lucene工具包的基础之上进行了封装,以web服务的形式对外提供索引功能,在需要使用到索引功能时,只要发出http请求,并将返回数据进行解析即可。solr可以独立运行在Jetty、Tomcat等这些Servlet容器中,solr索引的实现方法很简单,用POST方法向solr服务器发送一个描述Field及其内容的XML文档,solr根据xml文档添加、删除、更新索引。solr搜索只需要发送http get请求,然后对solr返回Xml、json等格式的查询结果进行解析,组织页面布局。solr提供了一个管理界面,通过管理界面可以查询solr的配置和运行情况。

  一个完整的solr服务器应该包含主体、主目录和客户端三个部分。其中主体部分部署在服务器(如Tomcat)上,它一方面通过Servlet对外提供HTTP调用接口,另一方面通过JNDI等技术使得主体部分与主机上的主目录相关联;主目录是存储索引数据的地方,这里不仅存储索引数据,还存储模式和配置文件,solr允许多个独立的索引数据库(称作核心Core);客户端是可选的结构,我们可以通过客户端来调用服务器,也可以直接通过浏览器来访问。中文分词技术是中文搜索引擎的核心技术,一个中文句子如果在不同的地方进行分词可能得到不一样的效果及意思,在分词时处理起来非常复杂。若要企业自主研发这需要非常专业的团队,在研发过程中还需要消耗极大的财力,并且开发周期长。目前网上已经可以找到较好的分词器。比如IKAnalyzer分词器。我们可以下载这些分词器与Solr搜索服务器的整合来实现中文分词。建立索引、更新索引和删除索引是我们对索引的常用操作,通过Http协议的post方法将表示具体动作的xml消息提交给Solr,来驱动引擎执行相关的操作。索引的添加和更新采用相同的xml消息,类似数据库概念中的主键,需要为索引定义主键,来唯一标识一条索引记录:<unique Key>id</unique Key>。我们也可以自定义自己的索引字段,其中特别需要注意的是type属性的值同配置中文分词器IKAnalyzer的filedtype中的name属性必须相同。自定义索引域完成后,须要将Solr与数据库的整合,我们可以利用Solr文件中自带的Dataimport插件,批量将数据库中表的数据导入到索引库中。

  查询模块是与用户进行交互的模块,从接口上可以有多种实现方式。常见的主要有Web方式,另外还可以通过无线接入方式(例如手机、平板等终端)进行查询。通过用户输入的关键字,向Solr发出查询请求,Solr接收到请求后进行查询并返回相应的的查询结果返回给用户。

  管理员模块主要是基于索引库实时更新数据信息,给信息管理员提供一个后台维护的窗口。为用户检索系统提供了数据一致性,避免因为出现不同版本或错误的信息数据而造成的问题,这样不仅能保证数据的准确性,同时也可以避免因为数据错误而给企业带来经济或信誉上的损失。

  Solr是一种深受开发者喜爱的开源搜索引擎,它功能强大、容易实施、可灵活扩展。为数据资源的整合、索引、检索提供了一系列完备的解决方案。本文从卷烟企业对信息数据检索的需求出发,论述了基于Solr开发出符合自身企业的搜索引擎的可行性,介绍了有关搜索引擎及Solr的相关知识。随着大数据时代的到来,各行各业的信息数据在急剧增加。卷烟企业也不例外,若企业能够拥有符合自身的个性化高效搜索引擎,将能够提升企业的效率,使企业积累的数据更具有价值。

     第2导师提供在线1对1及在线班课的论文写作辅导培训。含1对1论文辅导课、写作录播课、学术启蒙课等,采用1对1真人在线互动教学形式,利用电脑、手机及ipad等移动终端

  

上一页:研究生论文写作要求汇总
下一页:注释和参考文献怎么界定

客服热线

4000-199-985

公司信息

关注我们

关注微信公众号

关注手机官网