针对实际交通卡口图像中文字标注规范性存在的问题,提出了一种强文字鲁棒性的通用信息提取(universal information extraction, UIE)字段序列化分析方法。首先利用UIE作为基础预训练语言模型,针对特定场景中的字段内容进行字段级...
详细信息
针对实际交通卡口图像中文字标注规范性存在的问题,提出了一种强文字鲁棒性的通用信息提取(universal information extraction, UIE)字段序列化分析方法。首先利用UIE作为基础预训练语言模型,针对特定场景中的字段内容进行字段级别扰动训练,以增强模型对实际应用中变异字段信息的处理能力。其次,通过强文字鲁棒性的UIE模型对文本进行信息提取,获取关键字段的内容及其在文本中的位置索引,从而构建出结构化的字段信息。最后,利用上述结构化信息进行字段序列化分析,以评估叠加文字的逻辑连贯性与信息完整性是否达到预定规范。在真实数据集Real-Text-Data上进行了广泛实验。结果表明,本文方法在处理实际交通卡口图像中的叠加文字信息时,相较于BERT、ERNIE等现有预训练语言模型,在同等任务条件下性能得到显著提升,F1指标至少增加了27.63个百分点,验证了其在评估叠加信息规范性方面的优越性和实用性。
暂无评论