每个人都在说互联网信息的海量性,每个人都在说互联网信息的丰富,甚至还有一门学科就叫Web信息挖掘。那么,互联网到底能提供哪些有价值的信息呢?Web信息挖掘到底包括哪几方面呢?
通常情况下,Web信息挖掘主要分为Web文本信息挖掘,Web结构信息挖掘和Web访问信息挖掘,因此,互联网的有价值信息主要可以分为以下三类:
1,Web文本信息
Web文本信息简单的讲是指互联网上的所有网页,但是通常情况下,也包括互联网上的所有图片,音频,视频等各类供访问资源。
2,Web结构信息
Web结构信息主要指互联网上所有网页之间的链接关系,以及这些链接关系所能反映出的信息。例如搜索引擎使用的PageRank算法就是利用网页之间的链接结构,来对网页的重要程度进行区分。
3,Web访问信息
Web访问信息主要是指信息系统对来访用户和用户访问网页情况的记录,这些信息通常可以反映出用户的行为特性以及网页的发展价值,有助于信息系统获取反馈和优化改进,也可以对用户行为进行统计研究。
明确以上内容,有助于避免在互联网相关工作中一斑窥豹。举个简单的例子,例如在网站经营中,就要求我们不仅要关心网站内容的丰富多彩,也要对网站链接结构进行适当优化,而在此基础上,利用用户访问网站信息记录或者用户的使用反馈,不断对网站进行各方面的改进,也是相当重要的。





