咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >多策略融合的俄语文本词语提取方法研究 收藏

多策略融合的俄语文本词语提取方法研究

Extracting Terms from Russian Texts Based on Multi Strategies

作     者:唐菊香 孙怿晖 廖晓 刘建国 于娟 TANG Juxiang;SUN Yihui;LIAO Xiao;LIU Jianguo;YU Juan

作者机构:福州大学经济与管理学院福建福州350108 广东金融学院互联网金融与信息工程学院广东广州510521 上海财经大学会计与财务研究院上海200433 

出 版 物:《中国科技术语》 (CHINA TERMINOLOGY)

年 卷 期:2021年第23卷第3期

页      面:59-67页

学科分类:0502[文学-外国语言文学] 0401[教育学-教育学] 04[教育学] 05[文学] 050211[文学-外国语言学及应用语言学] 

基  金:国家自然科学基金项目“基于本体学习与本体映射的组织异构数据融合方法研究”(71771054) 

主  题:俄语文本挖掘 词语提取 词性标注 频繁词串 

摘      要:俄语是联合国工作语言之一,是俄罗斯等多个国家的官方语言。随着“一带一路倡议的推进和全球化进程的加快,俄语文本数据成为有关组织管理决策的重要信息来源,俄语文本挖掘也因而成为重要的管理决策支持方法。然而,俄语文本挖掘方法研究目前还远未成熟,尤其是其关键基础——俄语文本词语提取的性能较低,阻碍着俄语文本建模的准确性。因此,文章提出一种多策略融合的俄语文本词语提取方法,结合俄语词性分析、语法规则和串频统计等多种方法,自动提取包含单词和短语在内的俄语词语。在联合国平行语料库和Taiga Corpus语料库上的实验结果表明,文章提出的方法在保证高召回率的同时,达到了85%以上的高准确率,显著优于常用的n-gram方法,能够为俄语文本主题发现和文本分/聚类等文本挖掘应用提供有效的词库。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分