随着信息检索技术的不断发展,信息检索模型不同阶段出现的风险问题,如相关性估计中的风险,文档排序中的风险,查询扩展中的风险逐渐地被关注。研究这些风险问题的突破点是设计一种可以同时评价性能均值和模型风险的方法,量化这些风险的大小,进而再找出降低风险的策略。本文的研究重点有两个,其一是对信息检索风险评价指标的研究,具体工作是将基于偏差方差分解的风险评价指标从平均准确率(AP)一般化到其他评价指标,并将该指标中的目标模型设置得更加公平无偏。另一个研究重点是如何降低信息检索模型中存在的查询扩展失败的风险。针对该问题,本文提出了一种基于知识图谱的查询扩展方法来降低检索模型的风险,即增加了查询扩展模型中与查询相关的信息来降低风险,具体做法是从知识图谱中抽取与查询相关的若干实体及实体属性作为扩展词来重构查询,更好地表达用户的信息需求;且在计算扩展词权重时,参考了投资组合理论中的收益-风险分析方法,最大化扩展词和原查询的相关性收益,同时也最小化扩展词可能带来的查询漂移的风险,更进一步控制了查询扩展中的风险。为检验本文所提出的基于偏差方差分解的风险评价方法的合理性,实验部分首先利用该评价方法重新评价了TREC Ad Hoc(1993-1999)和Web Track(2010-2013)两个任务上提交的模型检索结果,说明了所提评价方法对衡量模型整体性能的合理性,并利用偏差和方差对模型的有效性和稳定性之间存在的折中现象做了量化分析。接着针对本文所提基于知识图谱来降低查询扩展风险的策略,实验部分在两个网页数据集上验证了该策略的有效性,并和基于伪相关反馈的查询扩展模型(RM3)做了对比分析,实验结果表明该本文所提扩展模型在有效性和稳定性上都优于RM3。
【目的/意义】大数据时代对各领域信息检索系统检索模型查准率提出了较高要求。然而,现阶段对于传统检索模型的相关研究陷入瓶颈,表现为近若干年被提出的相关模型查准率提升幅度小,无法较好满足当前用户对于精准查询的需求。由此,高查准率检索模型亟待探索。近年来,一种基于数字信号处理理论的新型检索模型构架(Digital Signal Processing Framework:DSPF)被提出。同时,基于该模型构架的检索模型已被验证相较于传统检索模型具备显著的查准率优势。【方法/过程】据此,本研究基于数字信号处理理论构架,引入了经典概率模型F2LOG与F2EXP的词项权重计算方法,提出了模型DSPF-F2LOG与DSPF-F2EXP。为验证其查准率,本研究通过实验法,基于多种不同类型的标准数据集,采用多项查准率指标,将其与多个经典检索模型进行查准率对比分析。【结果/结论】实验结果表明,本研究所提模型较经典检索模型普遍具备更高查准率,且至少与当前查准率最高的基于数字信号处理理论的检索模型具备相当的查准率表现。本研究所提出的两个高查准率DSP模型可有效提高当前各领域信息检索系统对于非结构化文本的查准率。【创新/局限】本研究提出了基于数字信号处理理论的高查准率检索模型DSPF-F2LOG与DSPF-F2EXP。
暂无评论