针对实际交通卡口图像中文字标注规范性存在的问题,提出了一种强文字鲁棒性的通用信息提取(universal information extraction, UIE)字段序列化分析方法。首先利用UIE作为基础预训练语言模型,针对特定场景中的字段内容进行字段级...
详细信息
针对实际交通卡口图像中文字标注规范性存在的问题,提出了一种强文字鲁棒性的通用信息提取(universal information extraction, UIE)字段序列化分析方法。首先利用UIE作为基础预训练语言模型,针对特定场景中的字段内容进行字段级别扰动训练,以增强模型对实际应用中变异字段信息的处理能力。其次,通过强文字鲁棒性的UIE模型对文本进行信息提取,获取关键字段的内容及其在文本中的位置索引,从而构建出结构化的字段信息。最后,利用上述结构化信息进行字段序列化分析,以评估叠加文字的逻辑连贯性与信息完整性是否达到预定规范。在真实数据集Real-Text-Data上进行了广泛实验。结果表明,本文方法在处理实际交通卡口图像中的叠加文字信息时,相较于BERT、ERNIE等现有预训练语言模型,在同等任务条件下性能得到显著提升,F1指标至少增加了27.63个百分点,验证了其在评估叠加信息规范性方面的优越性和实用性。
知识超图(knowledge hypergraph,KHG)是超图结构的知识图谱。现有知识超图链接预测模型主要存在以下不足:模型输入时将实体和关系简单地表示为嵌入层的ID(索引),而没有考虑实体和关系之间复杂的联系和语义;编码时只考虑位置和角色信息,而忽略了实体邻域结构和多元关系间的联系,导致实体和关系表示能力不足;模型训练时采样的负样本质量不够高,不能帮助模型高效学习样本特征。针对以上问题,提出一种联合预训练模型和层级注意力的知识超图链接预测模型(link prediction in knowledge hypergraph combining pretrained model and hierarchical attention,LPPH)。该模型引入预训练模型和简化的团式展开方法初始化超图嵌入,将实体和关系之间复杂联系和语义融入至实体和关系嵌入中;编码时使用层级注意力机制聚合实体邻域结构信息以增强实体表示,并使用实体-关系融合操作增强关系表示;提出一种基于过滤机制和主动学习的负样本选择策略,实现模型的高效训练。真实数据集上的大量实验结果验证了LPPH能有效提高知识超图链接预测的效果。
知识超图(knowledge hypergraph,KHG)是一种超图结构的知识图谱。知识超图链接预测是基于已知的实体和关系来预测缺失的实体或关系,具有重要的意义和价值。然而,现有基于神经网络的知识超图链接预测方法,只关注关系事实局部的语义特征,缺乏对关系事实之间关联特征的表示学习。针对以上问题,提出了一种基于图注意力网络与卷积神经网络的链接预测方法(knowledge prediction based on GAT and convolutional neural network,HPGC)。一方面,采用改进的卷积网络(convolutional neural network,CNN)提取知识超图中节点实体表示的局部特征;另一方面,使用改进的GAT对节点和关系进行注意力建模,捕获节点之间的全局特征关系,并将两者进行融合,从而获取关系事实更全面的邻域结构,丰富超图关系事实的语义表示。此外,针对HPGC的GAT层输出矢量问题,引入多层感知机(multilayer perceptron,MLP)和正则化技术,提高模型训练的泛化能力。真实数据集上的大量实验结果验证了所提出方法的预测性能均优于基线方法。
暂无评论