随着Web2.0设计理念的普及和技术的不断成熟,“以人为本”的网络模式逐渐成为当今互联网的主流,微博是其中具有代表性的应用之一。面对着海量的微博数据,微博检索已经成为用户在微博平台中提取个人所需信息的重要手段,针对微博检索的研究已经是近年来信息检索领域的热点之一。 微博检索属于文本检索的范畴,但是作为网络中的新型数据,它又表现出不同于传统文本检索的特点。一方面,微博文档相对于传统文本具有很多新特征,例如微博文本具有字数限制(通常不超过140个字);内容中包含有特殊意义的标签#和@等。另一方面,多数微博查询具有时间敏感性。时间敏感查询是指当用户查找的话题具有时效性时,用户输入的与当时实时背景相关的查询,比如对热点事件的搜索等。传统的信息检索方法仅考虑了查询与文档的语义相似度,不足以很好的处理这类型查询。在相关技术中融入时间因素是目前典型的解决手段之一,统称为时间感知的检索技术。综上所述,与传统检索相比,微博文档和微博查询具有不同的特点,给微博检索研究提出了新的问题和难点。 本文将从微博检索与传统信息检索的不同点出发,以信息检索过程为主线,分别对文档先验、文本表示、查询扩展三方面进行深入研究,并提出了新的检索模型,主要的贡献和创新点如下所示: ***-一个基于高频时刻的混合语言模型。在统计语言模型的背景下,融入时间因素的代表性工作是定义文档的时间先验,主要分为与查询无关和与查询有关两种做法。这两类方法都基于“时间越新文档越重要”这个简单假设。然而,通过统计观察发现,多数微博查询的大部分相关文档并没有分布在最新时刻,也就是说提高最新时刻的文档重要度可能会对微博查询带来反作用,由此表明这一假设并不适合所有查询。因此本文定义相关文档分布突出的时刻为查询高频时刻(High-Frequency Time),并提出HTLM(High-Frequency Time LanguageModel)系列模型。在此基础上,通过JM平滑方法融合文档的背景时间先验和查询时间先验,提出混合时间语言模型(Mix Timed Language Model,简称MTLM)。实验表明,HTLM模型的效果优于已有模型,混合模型相比单一模型进一步提升了微博检索的效果。 ***-一个融合聚类和时间的微博排序模型。通过对比微博检索和传统信息检索可知,微博文档属于短文本,不够丰富的信息量不利于构造准确的语言模型;同时微博文本中含有主题概括词(#标签,称为Hashtag),有利于确定微博与查询的相关程度;微博查询大都是时间敏感查询,在计算查询与文档的语义相似度的同时应该考虑时间信息。这三个特点对于微博搜索都非常重要,因此,本文针对微博文档的特征和微博查询的时间性提出了融合多因素的检索方法(Cluster& Time Language Model,简称CTLM)。具体地,本文使用聚类方法达到融合微博的Hashtag信息和对微博文本进行扩充的目的,通过定义文档的时间先验在排序模型中引入时间因素。实验结果表明,与原始检索模型相比,本文提出的方法具有更优的微博检索性能。 ***-一个利用时间序列信息的查询扩展方法。微博查询大都是时间敏感查询,在考虑时间属性的查询扩展研究中,大多数工作是以时刻为单位在扩展过程中引入时间信息的,并假设时刻之间完全独立。但是很显然时刻和时刻之间并非完全独立而是相互影响的。本文对微博查询进行分析发现,当扩展词与查询词相关时,二者在时间分布上具有一定的相似性,同时当扩展词与查询词不相关时,二者的时间分布具有较大的差异性。因此,本文基于词项的时间分布信息定义其时间序列概率,然后以相关模型为基础模型,提出三个利用时间序列信息的查询扩展方法(Time Series Relevance Model,简称TSRM)。实验结果表明,TSRM可以显著提高微博检索的性能。
暂无评论