为了克服现有文档相似性模型对文档特性拟合的不完全性和缺乏理论根据的弱点,本文在统计语言模型的基础上,提出了一种基于混合语言模型(M ixture Language Model,MLM)文档相似性计算模型。MLM利用统计语言模型描述文档特征,将相关影响...
详细信息
为了克服现有文档相似性模型对文档特性拟合的不完全性和缺乏理论根据的弱点,本文在统计语言模型的基础上,提出了一种基于混合语言模型(M ixture Language Model,MLM)文档相似性计算模型。MLM利用统计语言模型描述文档特征,将相关影响因素作为模型的潜在子模型,文档语言模型由各子模型混合构成,从而准确和全面地反映文档特征。由于MLM根据具体应用确定相关影响因素,并以此构建相应文档描述模型,因此具有很强的灵活性和扩展性。在MLM的基础上,本文给出了一个基于文档主题内容相似性的实例,在TREC9数据集上的实验表明MLM优于向量空间模型(VSM)。
讨论基于统计语言模型SLM(Statistic Language Model)的二叉树在语音停顿预测中的应用。基于大规模语料,利用三元模型Trigram,建立统计语言模型;基于SLM为待处理句子生成相应的二叉树;将生成的二叉树所包含的信息,从不同角度应用于语音...
详细信息
讨论基于统计语言模型SLM(Statistic Language Model)的二叉树在语音停顿预测中的应用。基于大规模语料,利用三元模型Trigram,建立统计语言模型;基于SLM为待处理句子生成相应的二叉树;将生成的二叉树所包含的信息,从不同角度应用于语音停顿的预测。实验结果表明,基于SLM生成的二叉树能够较好地为语音停顿的预测做出贡献。
暂无评论