查询反馈是通过分析反馈文档来更改原始查询项。检索词在检索公式中的权重直接影响检索结果的质量,但是缺乏可靠的依据来设置检索词权重。本文将检索看作是一个二分类问题,在线性模型的框架下,把检索词的权重设置转化为线性分类模型中的参数学习问题。对于反馈的文本集合,采用生成式模型进行训练,从而确定检索词的参数。在TREC Disk 4&5测试数据上进行了实验,采用这套方法,向量模型可以获得和语言模型相当的检索性能。在TREC 7&8的测试话题上,不做查询扩展仅设置检索词的权重的情况下,MAP分别提升了7.8%和9.6%。
暂无评论