版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:中国科学院计算技术研究所移动计算与新型终端北京市重点实验室北京100190 中国科学院大学北京100049 中国盲文出版社北京100142
出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)
年 卷 期:2019年第33卷第4期
页 面:60-67页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:汉盲转换是指将汉字文本自动转换为对应的盲文文本,其在盲文出版、盲人教育等领域具有重要应用价值,但当前已有系统性能难以满足实用需求。该文提出一种基于汉盲对照语料库和深度学习的汉盲自动转换方法,首次将深度学习技术引入该领域,采用按照盲文规则分词的汉字文本训练双向LSTM模型,从而实现准确度高的盲文分词。为支持模型训练,提出了从不精确对照的汉字和盲文文本中自动匹配抽取语料的方法,构建了规模为27万句、234万字、448万方盲文的篇章、句子、词语多级对照的汉盲语料库。实验结果表明,该文所提出的基于汉盲对照语料库和深度学习的汉盲转换方法准确率明显优于基于纯盲文语料库和传统机器学习模型的方法。