主题搜索引擎与通用搜索引擎有所不同,主题搜索引擎是以构筑某一专题或学科领域的Internet网络信息资源库为目标,智能地在互联网上搜集符合这一专题或领域需要的信息资源。这些差异决定了主题搜索引擎在网页抓取中,与通用搜索引擎有几个差异点:
1,需要以一定的启发式搜索策略算法控制信息资源的搜集。
WWW是一张巨大的信息网,如何在这张网中漫游,有目的、有控制地收集与特定领域相关的信息是一个关键问题。为达到这个目的,通常需要采用某种启发式搜索策略算法,根据用户设置的主题导向词或主题表示模型,以启发式函数计算每个URL的权值,并选择权值高的URL优先访问抓取。
2,对网页进行主题过滤。
网络上的Web信息是海量的,往往希望搜集的只是其中很少的一部分信息,除去大量的噪音,重复和垃圾网页之外,大量的网页也都是与主题不相关或相关性较低的信息。所以,主题搜索引擎通常需要对抓取的网页进行主题过滤,滤除不相关网页。
3,寻找和发现高质量网页和关键资源。
关键资源:是指一个包含许多指向指定主题的链接的网页。高质量网页:是指内容是指定主题的网页。由于网页信息分布通常呈现不均匀性。通常,指定主题的关键资源总是链向高质量网页。寻找和发现高质量网页和关键资源不仅可以大大提高主题Web搜集的效率和质量,还可以为主题表示模型的优化等应用提供支持。
4,信息的定制。
由于面向主题的搜索是面向用户搜集某一领域的信息。搜集的信息应该满足用户的要求。信息定制就是让用户定制自己想要搜集的内容,定制的方法通常是给出分类体系,关键词,初始网站和网页例子等形式。




