面向互联网和海量Web信息进行网页搜集,必须进行一系列的搜集性能优化工作,否则搜集网页的数量和质量(例如时效性)都将无法得到保证。这些技术涉及到很多方面,下面挑选几个有代表性的进行介绍:
1,并行处理技术
Web上成千上万的WWW服务器通过网页之间的链接构成海量信息,并且这些信息大多具有时效性,会随着时间发生变化。单处理机系统受限于CPU的处理能力、磁盘存储的容量,不可能具备处理这种海量信息的能力,更不必说跟上Web信息的飞速增长了。采用并行处理技术成为一个自然的选择。尽管一个搜集子系统的硬件并行度不需要很高,但不做并行是达不到性能要求的。而能否在较短的时间内搜集到足够多的网页,也对搜索引擎系统后续的服务质量有直接影响。
2,集中式与分布式系统构架
网页搜集系统构架主要分集中式和分布式两种,集中式系统由一台计算机或一个节点统一调度任务,分布式系统任务的加载和运行控制由系统中每台计算机或每个节点自行完成。两种架构互有优缺,集中式架构的优点体现在系统的通信和管理开销小,而分布式架构在负载均衡上面很有优势。实际的系统架构设计需要根据具体情况进行选择,并且两者也不是完全对立,在系统中可以对两者进行综合运用。
3,可扩展性
从实际运行出发,系统还要考虑动态配置问题,即要允许在运行过程中添加和删除节点机器。这是因为一次搜集时间比较长,一方面在这期间可能需要添加机器提高搜集效率,另一方面有时难免出现机器故障等,需要修复然后再投入服务,而在此期间系统应该持续运行。
4,更新策略
搜索引擎资源更新是指搜索引擎系统本地资源内容等于真实世界中内容的过程。根据根据中国网(CHINA.COM.CN)的全国网页情况调查,全国网页数量在高速增长的同时,己存在的网页也在以不同的速度更新,这种情况给网页搜集带来了巨大的负担。因此必须对网络资源的变化更新进行研究找出规律,针对网络资源的变化规律设计网页搜集系统的相应更新策略,使得网页搜集在系统负载允许的情况下,进行高效的资源更新同步。
5,其它方面
除了以上几个方面,还有一些与性能相关的因素是需要考虑的。例如:为了避免DNS地址解析瓶颈采用的DNS缓存技术;为了防止网页搜集受到阻挠而采取的礼貌性采集技术和遵守Robots.txt协议;由于网络上充满的未知因素和各种病态HTML文件甚至误导陷阱,网页搜集系统必须拥有很强的健壮性等。




