针对实际交通卡口图像中文字标注规范性存在的问题,提出了一种强文字鲁棒性的通用信息提取(universal information extraction, UIE)字段序列化分析方法。首先利用UIE作为基础预训练语言模型,针对特定场景中的字段内容进行字段级...
详细信息
针对实际交通卡口图像中文字标注规范性存在的问题,提出了一种强文字鲁棒性的通用信息提取(universal information extraction, UIE)字段序列化分析方法。首先利用UIE作为基础预训练语言模型,针对特定场景中的字段内容进行字段级别扰动训练,以增强模型对实际应用中变异字段信息的处理能力。其次,通过强文字鲁棒性的UIE模型对文本进行信息提取,获取关键字段的内容及其在文本中的位置索引,从而构建出结构化的字段信息。最后,利用上述结构化信息进行字段序列化分析,以评估叠加文字的逻辑连贯性与信息完整性是否达到预定规范。在真实数据集Real-Text-Data上进行了广泛实验。结果表明,本文方法在处理实际交通卡口图像中的叠加文字信息时,相较于BERT、ERNIE等现有预训练语言模型,在同等任务条件下性能得到显著提升,F1指标至少增加了27.63个百分点,验证了其在评估叠加信息规范性方面的优越性和实用性。
多模态对话情感分析的目标是识别对话中每个句子的情感。现有方法的模态融合方式较简单,无法充分捕捉和利用不同模态的特性和信息。此外,这些方法更侧重于局部上下文的捕捉,特别是在处理较长对话时,往往忽略了发言者之间远距离情感信息的整合。为了解决这些问题,提出了一种基于多模态双向融合的图神经网络(Graph Neural Network Based on Multimodal Bidirectional Fusion,GMBF),该网络由多模态融合模块和远距离情感融合模块组成。多模态融合模块由三个双向融合模块组成,双向融合模块从正向和逆向两个方向融合多模态信息,通过逐步融合模态信息以确保信息的充分融合;远距离情感融合模块首先构建对话的句子信息,然后捕捉远距离发言者信息,并将其融入句子信息中,从而使模型能够更好地理解全局情感背景。实验结果表明,所提出的方法在多模态对话情感分析任务中表现优异,展现了其在多模态信息融合和全局信息提取方面的优势。
暂无评论