金色坐标

关注互联网和IT科技的个人博客

« 统一认证SOAP接口示例—SAML响应格式网络应用系统安全具体要求实例(一) »

主题搜索引擎(垂直搜索引擎)网页抓取要点

主题搜索引擎与通用搜索引擎有所不同,主题搜索引擎是以构筑某一专题或学科领域的Internet网络信息资源库为目标,智能地在互联网上搜集符合这一专题或领域需要的信息资源。这些差异决定了主题搜索引擎在网页抓取中,与通用搜索引擎有几个差异点:


1,需要以一定的启发式搜索策略算法控制信息资源的搜集。

WWW是一张巨大的信息网,如何在这张网中漫游,有目的、有控制地收集与特定领域相关的信息是一个关键问题。为达到这个目的,通常需要采用某种启发式搜索策略算法,根据用户设置的主题导向词或主题表示模型,以启发式函数计算每个URL的权值,并选择权值高的URL优先访问抓取。


2,对网页进行主题过滤。

网络上的Web信息是海量的,往往希望搜集的只是其中很少的一部分信息,除去大量的噪音,重复和垃圾网页之外,大量的网页也都是与主题不相关或相关性较低的信息。所以,主题搜索引擎通常需要对抓取的网页进行主题过滤,滤除不相关网页。


3,寻找和发现高质量网页和关键资源。

关键资源:是指一个包含许多指向指定主题的链接的网页。高质量网页:是指内容是指定主题的网页。由于网页信息分布通常呈现不均匀性。通常,指定主题的关键资源总是链向高质量网页。寻找和发现高质量网页和关键资源不仅可以大大提高主题Web搜集的效率和质量,还可以为主题表示模型的优化等应用提供支持。


4,信息的定制。

由于面向主题的搜索是面向用户搜集某一领域的信息。搜集的信息应该满足用户的要求。信息定制就是让用户定制自己想要搜集的内容,定制的方法通常是给出分类体系,关键词,初始网站和网页例子等形式。




原创文章,如转载请注明:转载自金色坐标 [ http://www.kingxy.com/ ]

本文链接地址:http://www.kingxy.com/archives/45.html

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

订阅博客

  • 订阅我的博客:订阅我的博客
  • 关注新浪微博:关注新浪微博
  • 关注腾讯微博:关注腾讯微博
  • 通过Google订阅本站
  • 通过鲜果订阅本站
  • 通过电子邮件订阅
  • 本站支持WAP访问

Search

Google

最新评论及回复

最近发表

金色坐标博客——京ICP备09009094号

本站采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议.
KingXY Blog - This site is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 2.5 License.