金色坐标

关注互联网和IT科技的个人博客

« asp.net网站中app_code文件夹的作用SAML协议简介和统一认证SOAP接口示例 »

主题搜索引擎(垂直搜索引擎)的实现原理和方法

主题搜索引擎(垂直搜索引擎)与通用搜索引擎有所不同,主题搜索引擎是以构筑某一专题或学科领域的Internet网络信息资源库为目标,智能地在互联网上搜集符合这一专题或领域需要的信息资源,能够为包括学科信息门户、专业信息机构、特定行业领域、公司信息中心、行业专家等等在内的信息用户,提供整套的网络信息资源开发方案。


主题搜索引擎的实现方法主要有三种:


一是控制信息采集更新的网站范围,将索引和检索信息限制在特定的几个主题网站之内。例如淘宝网站的搜索只是局限于自身网站的物品和交易信息,某些行业搜索只是抓取几个行业内主要网站的信息提供检索等。


二是在通用搜索引擎采集信息的基础上进行文本分类或过滤,提取主题信息进行索引和检索。例如通用搜索引擎Google,百度等在自身通用搜索采集网页库的基础上提供的资讯,生活等主题搜索服务。


三是实现主题Crawler来控制信息的采集,仅仅采集,索引网络上与主题相关的信息。例如目前网络上的Blog搜索就大都是通过网页信息筛选,单独抓取BLOG网页来实现的。


可以看出,只有第三种方法才是保持信息采集精度,缩短采集时间、减少存储、加快检索,节约网络资源,实现高性能主题搜索引擎的根本解决之道,同时第三种方法也是公认的搜索引擎主题化反展方向。


但是限于技术和商业原因,现存的大部分主题搜索引擎都是基于前两种方法开发实现的,在主题Web信息的识别和抓取上还普遍存在着较大的不足和发展空间。




原创文章,如转载请注明:转载自金色坐标 [ http://www.kingxy.com/ ]

本文链接地址:http://www.kingxy.com/archives/42.html

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

订阅博客

  • 订阅我的博客:订阅我的博客
  • 关注新浪微博:关注新浪微博
  • 关注腾讯微博:关注腾讯微博
  • 通过Google订阅本站
  • 通过鲜果订阅本站
  • 通过电子邮件订阅
  • 本站支持WAP访问

Search

Google

最新评论及回复

最近发表

金色坐标博客——京ICP备09009094号

本站采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议.
KingXY Blog - This site is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 2.5 License.