主题描述是指对主题的量化表现,即通过一定的方法和模型将抽象的主题概念表达为可量化计算和对比的表现形式。
主题描述是主题Web搜集的基础,因为主题Web信息是通过判断Web信息是否与搜集主题相关来筛选所需的,主题描述的精确度直接影像着搜集信息的质量。目前通用的主题描述方法是选取一定的主题样本并基于一定的数学模型对其进行样本分析和特征提取,从而建立相应的主题特征描述。
当我们要完整的表现一类主题信息在互联网上的特征的时候,最理想、最彻底的方法是将网上的所有信息考察一遍。但这显然是不现实的。通常,我们只能取一个样本空间来进行研究。具体来说,样本空间就是网页总体集合的一个子集,对应于若干特定网站中的若个特定网页。
为了有效的对主题特征进行描述,样本空间的选取要最大可能的做到覆盖范围广且有代表性。目前,面向主题的信息采集主要用三种方法进行主题描述样本的选择:
首先,可以在网上许多分类目录站点例如Yahoo,Yellow Pages等的主题分类目录中选取自己所需的主题样本;
其次,对第一种方法获取的主题样本进行人工或机器选择,以使得它们能够更完整准确地满足主题信息搜集的需求;
第三,如果以上方法提供的主题样本不能全面完整地满足主题搜集的需求,或者主题分类目录中没有所需要的主题,则需要对主题词和主题样本进行自定义,例如通过搜索引擎和人工筛选的方法进行确定等。
用于主题描述的数学模型是多种多样的,其选择需要满足系统采用的主题相关性判断算法的需求。相关性判断算法会将待判断文本进行文本分析和信息提取,并据此创建算法设计的文本表达模型,利用此表达模型和主题描述计算出文本的主题相关度,从而判断文本是否与主题相关。所以系统使用的相关性判断算法中提取信息的种类、方法以及文本表达模型,通常也会使用于主题描述。




