主题搜索引擎(垂直搜索引擎)与通用搜索引擎有所不同,主题搜索引擎是以构筑某一专题或学科领域的Internet网络信息资源库为目标,智能地在互联网上搜集符合这一专题或领域需要的信息资源,能够为包括学科信息门户、专业信息机构、特定行业领域、公司信息中心、行业专家等等在内的信息用户,提供整套的网络信息资源开发方案。
主题搜索引擎的实现方法主要有三种:
一是控制信息采集更新的网站范围,将索引和检索信息限制在特定的几个主题网站之内。例如淘宝网站的搜索只是局限于自身网站的物品和交易信息,某些行业搜索只是抓取几个行业内主要网站的信息提供检索等。
二是在通用搜索引擎采集信息的基础上进行文本分类或过滤,提取主题信息进行索引和检索。例如通用搜索引擎Google,百度等在自身通用搜索采集网页库的基础上提供的资讯,生活等主题搜索服务。
三是实现主题Crawler来控制信息的采集,仅仅采集,索引网络上与主题相关的信息。例如目前网络上的Blog搜索就大都是通过网页信息筛选,单独抓取BLOG网页来实现的。
可以看出,只有第三种方法才是保持信息采集精度,缩短采集时间、减少存储、加快检索,节约网络资源,实现高性能主题搜索引擎的根本解决之道,同时第三种方法也是公认的搜索引擎主题化反展方向。
但是限于技术和商业原因,现存的大部分主题搜索引擎都是基于前两种方法开发实现的,在主题Web信息的识别和抓取上还普遍存在着较大的不足和发展空间。





