本发明公开了一种基于样本对分类器可纠正的交互式信息检索方法,在初始检索信息较少,且人机交互次数受限的情况下,本发明通过评价样本对分类器纠错能力来选择高价值样本向用户提问,某些代表性文档是否是用户检索的目标文档,从而逐步理解用户检索需求,从而确保了检索精度。并通过评价样本对分类器的纠正能力,利用交互式学习策略从未标注文本库中选择高价值的样本,从而在较短时间内获得高精度的文本分类器,进一步地提高信息检索精度。并采用基于词频的弱分类器和增强学习策略同本发明提出的样本价值评价方法结合,形成了计算复杂度较小的、适用于在线信息检索的主动学习方法。
1.一种基于样本对分类器可纠正的交互式信息检索方法,其特征在于包括如下步骤:/nS1用户提交查询信息,搜索引擎对用户输入的查询信息进行检索后,根据检索到的信息,通过查询结果的链接信息获取相关文档,记为顶层文档;/nS2计算用户输入的查询信息与所述顶层文档中每篇文档的相关度,所述相关度根据用户输入查询信息的词项在所述顶层文档中的出现频率计算,取相关度较高的前m篇作为用户检索的候选集;/nS3从所述候选集中随机抽取n篇文档交给用户判断是否是希望获取的文档,把用户标注后的这n篇文档放入训练集T中;/nS4使用向量空间模型(Vector Space Model)对所述训练集T进行表示,用AdaBoost.MHwith real-valued predictions算法在候选集T上进行训练,并产生分类器;/nS5采用步骤S4所述的分类器对所述候选集T中的用户未标注文档进行分类;/nS6根据上一步的分类结果,对每一篇未标注文档计算可能的贡献度,所述贡献度的计算公式如下:
本文链接:http://www.vipzhuanli.com/tech/sell/s_1637151.html,转载请声明来源钻瓜专利网。