金色坐标

关注互联网应用和搜索引擎技术

« 金色坐标博客精选文章推荐中小型企业网站初级建站指南 »

个人和企业网站站点型搜索引擎的建立方法

所谓站点型搜索引擎,即针对单个网站或者某几个网站内容提供检索功能的微型搜索引擎。和通用搜索引擎相比,不同点在于通用搜索引擎是面向整个互联网,或者至少是面向某个特定领域对大量网站内容的检索,而站点型搜索引擎,主要用于对个人或者企业自身所建网站和信息系统内容的检索。


以企业网站为例。目前,单个企业网站实现自身的搜索功能,通常有两个办法:


一是基于后台数据库提供关键词搜索和产品信息的查找。


这个方法的实现原理是将网站网页或者文档的关键词存入关系数据库中,数据库中同时存在企业产品型号,价格等信息表,以此提供按照关键词进行搜索文档网页,或者利用产品名称,型号进行查找产品的功能。这个方法严格来说,并不属于搜索引擎的抓取,索引,提供检索范畴,其实只是一个数据库信息服务。


其优点是实现方法简单和对特定信息搜索精准度高,因为网站后台一般都需要有数据库的支持,那么增加这个功能只是顺手而为,另外数据库查找产品时,查找结果的精准度相对较高。但缺点就在于它并不是真正的搜索引擎,无法真正做到全部网站内容的检索,只是关键词和产品型号等特定信息的检索;检索条件要求精准度较高,一般不支持模糊查询,对于网页和文档的全文检索一般无法实现。另外网站建立之后,搜索功能维护代价较高,新增网页和文档时,需要同步更新数据库,对产品等信息表的更新也要求和网页同步修改。

 

第二个方法是基于搜索引擎技术建立的网站全文检索。


此方法利用搜索引擎索引技术,为网站的网页,文档等所有待检索信息建立索引,依据索引提供全文检索功能,本质上和通用搜索引擎原理相同,但技术方面进行轻量级实现。这个方法的优点是支持网站全文检索,用户可以模糊查询,网站建立之后维护代价较小,只要根据需要,设置定期自动更新索引即可。但缺点在于实现代价通常比数据库要大,模糊查询的查询结果比数据库查询精准率要差。


关于代价问题,第二种方法的实现实际上也有两个途径,一是利用目前通用搜索引擎提供的站点搜索功能实现,例如目前Google,雅虎,百度等都提供有各自的站点搜索功能并对外免费服务,二是自己进行开发实现。


如果使用第一种途径实现,那么你只需要注册成为某一个通用搜索引擎的站点搜索用户,将它提供的一段JavaScript代码放在网页上即可实现,实现代价几可忽略不计。但是得到的搜索功能,也同时会受到通用搜索引擎收录的影响。例如搜索结果,只会显示企业网站被通用搜索引擎收录的网页,那些没有被收录或者不愿意被收录的文档信息,是无法被检索的。


如果自己开发进行实现,那么完全可以按照自己的要求提供检索服务。考虑到实现代价,目前最好使用基于开源项目二次开发的方法进行实现,这将使实现变得容易和可行。如果是想提供完善功能的网页和文档的自动检索,可参考NUTCH进行开发;如果是对相对特定的网页或者文档集合(例如你的网页都是静态网页且在某些特定的地址目录下),那么可以借鉴LUCENE进行开发;以上二者在中文分词方面有所欠缺,可以在网上搜寻开源的中文分词插件进行弥补,例如中科院计算所的ICTCLAS




原创文章,如转载请注明:转载自金色坐标 [ http://www.kingxy.com/ ]

本文链接地址:http://www.kingxy.com/archives/26.html
  • 相关文章:

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

订阅博客

  • 订阅我的博客:订阅我的博客
  • 通过Google订阅本站
  • 通过bloglines订阅本站
  • 通过抓虾订阅本站
  • 通过yahoo订阅本站

Search

Google

最新评论及回复

最近发表

金色坐标博客——京ICP备09009094号

本站采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议.
KingXY Blog - This site is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 2.5 License.