咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于数据增强的藏文改写检测研究 收藏

基于数据增强的藏文改写检测研究

Tibetan Paraphrase Detection Based on Data Augment

作     者:赵小兵 鲍薇 董建 包乌格德勒 ZHAO Xiaobing;BAO Wei;DONG Jian;BAO Wugedele

作者机构:中央民族大学信息工程学院北京100081 中国电子技术标准化研究院北京100007 呼和浩特民族学院计算机系内蒙古呼和浩特010051 

出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)

年 卷 期:2019年第33卷第12期

页      面:83-90页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家语委重点项目(ZDl135-39) 国家重点研发计划项目子课题(2017YFB1002103-1) 国家社会科学基金(17CYY044) 

主  题:改写检测 数据增强 孪生网络 低资源语言 

摘      要:该文针对藏文语料稀缺的问题,在藏汉双语、藏文单语文本改写检测任务中使用数据增强的方法,在一定程度上解决了低资源语言训练语料规模小的问题。在藏汉跨语言文本改写检测任务中,该文使用数据增强方法,有效利用目前公开的藏汉平行语料,扩充藏汉跨语言文本改写检测训练语料,当扩充至20万句对时,藏汉改写检测模型的皮尔森系数(pearson correlation)达到0.5476,比基线系统的皮尔森系数提升了0.3971,表明藏汉改写检测模型检测出的句对相似度值与人工标注的相似度值已达到中等程度相关。在藏文单语言任务中,该文采用训练藏文音节向量的方法,以缓解语料稀缺带来的词向量稀疏问题。实验结果表明,基于藏文音节向量的藏文改写检测模型的皮尔森系数可达到0.6780,比相应的基于藏文词向量实验的结果提升了0.1,使得藏文单语言文本改写检测模型的检测结果与人工标注的结果达到了强相关程度。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分