随着电商平台的兴起,网络上产生了大量产品相关的评价信息,对市场调研以及潜在客户购买意向决策具有重要意义。面对海量的评价信息,如何快速挖掘产品性能关键评价,从而生成与产品性能息息相关的问答数据具有极大的研究价值。因此,本文针对大量产品评价数据,通过问题生成模型,挖掘用户最关心的产品性能相关问题。传统的问题生成主要针对问答任务相关数据,采用端到端的深度学习架构模型。而基于产品评论的问题生成,不仅需要考虑评论信息中口语化表达,且生成的问题需要精准的围绕产品的类别、属性和性能特点展开,使得之前的问题生成模型在该任务上性能不佳。基于此,本文具体的研究内容包括:(1)基于文本信息的问题生成模型。为了探究如何利用产品相关的评论数据去生成产品相关的问题,本章从产品评价数据文本长度较短,用词较口语化的特点出发,设计相应的算法。首先,针对评论数据文本长度较短的问题,本章提出利用相似评论拼接的方式,丰富文本内容。然后,通过采用指针复制机制,克服评论数据口语化严重和容易产生使用词汇超出词典(out of vocabulary,OOV)限制的问题,这使得模型不仅可以从词典中生成对应的词汇,还可以从原文中抽取问题生成需要的词汇。本文利用京东评论数据进行实验,结果表明,在基于评论等短文本问题生成的任务上,与目前已有的神经网络模型对比,效果有了很大的提升。(2)结合产品属性信息的问题生成模型。采用指针复制机制虽然能避免用词超出词典限制的问题,但如何避免复制机制指向性错误,仍然是巨大的挑战。本章在上一章的基础上,为了增强模型围绕产品生成问题的能力,本章通过数据标注融入了产品的属性信息。这不仅加深了模型对产品相关数据的理解,提升了复制词汇指向性的正确率,也使得模型能够更加关注产品的相关属性信息,明确了实体属性的边界。因此生成的问题能够围绕着产品的相关信息提问,更直观地反映出产品的各个方面。本章在京东数据集上进行实验,结果表明,生成问题的准确性有较大的提升。(3)基于联合学习的产品评论问题生成模型。结合产品的属性信息虽然可以提升问题的准确性,但是仍然存在生成的问题较为简单,内容比较直白,提问的方式比较单一,以及模型无法理解产品相关的敏感方面的信息等问题。因此,本章在上一章的基础上,提出基于联合学习的问题生成模型,结合产品属性和观点信息抽取,使得生成的问题不仅围绕产品类别名称,同时考虑到产品特性。此外,模型还融合了属性信息关系抽取,挖掘观点信息与属性之间的关系,加深了模型对产品数据的理解,从而进一步提升了问题的质量。在中文京东英文亚马逊的双语料的测试下,结果表明,生成的问题在质量上有了显著的提升。
暂无评论