版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:哈尔滨理工大学测控技术与通信工程学院黑龙江哈尔滨150080
出 版 物:《光学精密工程》 (Optics and Precision Engineering)
年 卷 期:2025年第33卷第1期
页 面:135-147页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金资助项目(No.11804068) 黑龙江省自然科学基金资助项目(No.LH2020F033) 黑龙江省省属高等学校基本科研业务资助项目(No.2020-KYYWF-0342)
摘 要:针对现有方法在文本图像特征表示缺乏尺度变换,分辨率不足导致识别器难以提取到正确的文本内容信息指导重构网络的问题,提出多模态语义交互的文本图像超分辨率重构方法。利用语义推理模块中的注意力掩码对文本内容信息进行校正,获得语义先验信息,约束并指导网络重构语义正确的文本超分辨率重构图像。为增强网络的表征能力,适应不同形状和长度的文本图像,设计了多模态语义交互块,其基本单元由视觉双流集成块、跨模态自适应融合块和正交双向门控循环单元组成。视觉双流集成块利用全局统计特性和局部拟合能力互补优势,获得包含上下文理解的多粒度视觉信息,跨模态自适应融合块动态执行语义信息与多粒度视觉特征之间的交互协作,缩小模态间的特征差异;最后,正交双向门控循环单元建立多模态特征在垂直和水平方向上的文本依赖。实验结果表明,在TextZoom测试集上,本文提出的方法在PSNR和SSIM定量指标上相比于其他主流方法均有所提升,并且在ASTER,MORAN,CRNN 3种识别器的平均识别精度相比TPGSR模型分别提高了2.9%,3.6%和3.7%。由此表明,采用多模态语义交互方法的文本图像超分辨率重构,可以有效提高文本识别精度。