近年来,使用机器学习算法从导游投诉文本数据中识别出导游违规行为,辅助旅游监管人员工作,为旅游监管提供依据,成为一个必然趋势。然而导游投诉文本存在着语料单一、难以获取等困难,如何对这些导游投诉文本进行文本增强以满足导游违规行为识别需要,是一个迫切需要解决的问题。针对这一问题,提出了一种基于EDA(easy data augmentation)和回译的导游投诉文本混合增强方法。从EDA和回译两个角度对导游投诉文本进行增强,将两种方法返回的增强投诉语料进行混合,得到最终的增强文本;并将该方法在实际的导游违规行为识别系统中进行了应用与验证。通过大量实验对该方法与传统的EDA文本增强方法、回译文本增强方法进行了分析与对比,实验数据表明,基于EDA和回译的导游投诉文本混合增强方法相对于其他两种传统文本增强方法具有更高的准确率和更优秀的文本增强效果,应用在实际的导游违规行为识别系统中得到了87.54%的准确率,相比原始数据集准确率提升了7.4%。
政府数据资源分级管理是政府数据共享开放和数据治理的关键性工作。由于数据资源规模大,分级体系不完善,工具缺乏,使得该工作多由人工进行,导致支撑依据不足、主观性强、精确性差、成效不足。文中设计并实现了基于政策法规、典型案例的政府数据自动分级系统-GSGD(grading system for government data)。首先,利用政策法规以及典型案例构建本体库,根据分级目标以及构建的本体特性,构建自定义推理规则;再通过BERT获得输入数据与关键词的语义特征词/句向量,并计算向量之间的余弦相似度;最后对相似度较高的关键词,采用Jena对政策法规库以及典型案例库进行查询推理得到分级结果以及分级依据,以实现对政府数据的自动化分级,提高分级工作效率。通过实验对比分析,验证了该方法的有效性。
暂无评论