针对实际交通卡口图像中文字标注规范性存在的问题,提出了一种强文字鲁棒性的通用信息提取(universal information extraction, UIE)字段序列化分析方法。首先利用UIE作为基础预训练语言模型,针对特定场景中的字段内容进行字段级...
详细信息
针对实际交通卡口图像中文字标注规范性存在的问题,提出了一种强文字鲁棒性的通用信息提取(universal information extraction, UIE)字段序列化分析方法。首先利用UIE作为基础预训练语言模型,针对特定场景中的字段内容进行字段级别扰动训练,以增强模型对实际应用中变异字段信息的处理能力。其次,通过强文字鲁棒性的UIE模型对文本进行信息提取,获取关键字段的内容及其在文本中的位置索引,从而构建出结构化的字段信息。最后,利用上述结构化信息进行字段序列化分析,以评估叠加文字的逻辑连贯性与信息完整性是否达到预定规范。在真实数据集Real-Text-Data上进行了广泛实验。结果表明,本文方法在处理实际交通卡口图像中的叠加文字信息时,相较于BERT、ERNIE等现有预训练语言模型,在同等任务条件下性能得到显著提升,F1指标至少增加了27.63个百分点,验证了其在评估叠加信息规范性方面的优越性和实用性。
当前信息抽取任务主要依赖大语言模型(LLM),而标书信息中广泛存在领域术语,模型缺乏相关先验知识,导致微调效率低且抽取性能不佳。此外,模型的抽取和泛化性能在很大程度上依赖于提示信息的质量和提示模板的构建方式。针对上述问题,提出一种基于提示学习的标书信息抽取方法(TIEPL)。首先,利用生成式信息抽取的提示学习方法对LLM注入领域知识,以实现预训练和微调阶段的统一优化;其次,以LoRA(Low-Rank Adaption)微调方法为框架,单独设计提示训练旁路,并设计标书场景关键词提示模板,从而增强模型信息抽取与提示的双向关联。在自建的招中标数据集上的实验结果表明,相较于次优的UIE(Universal Information Extraction)方法,TIEPL的ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation)和BLEU-4(BiLingual Evaluation Understudy)分别提高1.05和4.71个百分点,能更准确和完整地生成抽取结果,验证了所提方法在提高标书信息抽取准确性和泛化性方面的有效性。
暂无评论