咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >多模态语义交互的文本图像超分辨率重构 收藏

多模态语义交互的文本图像超分辨率重构

Super-resolution reconstruction of text image with multimodal semantic interaction

作     者:韩玉兰 罗轶宏 崔玉杰 兰朝凤 HAN Yulan;LUO Yihong;CUI Yujie;LAN Chaofeng

作者机构:哈尔滨理工大学测控技术与通信工程学院黑龙江哈尔滨150080 

出 版 物:《光学精密工程》 (Optics and Precision Engineering)

年 卷 期:2025年第33卷第1期

页      面:135-147页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金资助项目(No.11804068) 黑龙江省自然科学基金资助项目(No.LH2020F033) 黑龙江省省属高等学校基本科研业务资助项目(No.2020-KYYWF-0342) 

主  题:超分辨率重构 文本图像 多粒度 语义先验 多模态 

摘      要:针对现有方法在文本图像特征表示缺乏尺度变换,分辨率不足导致识别器难以提取到正确的文本内容信息指导重构网络的问题,提出多模态语义交互的文本图像超分辨率重构方法。利用语义推理模块中的注意力掩码对文本内容信息进行校正,获得语义先验信息,约束并指导网络重构语义正确的文本超分辨率重构图像。为增强网络的表征能力,适应不同形状和长度的文本图像,设计了多模态语义交互块,其基本单元由视觉双流集成块、跨模态自适应融合块和正交双向门控循环单元组成。视觉双流集成块利用全局统计特性和局部拟合能力互补优势,获得包含上下文理解的多粒度视觉信息,跨模态自适应融合块动态执行语义信息与多粒度视觉特征之间的交互协作,缩小模态间的特征差异;最后,正交双向门控循环单元建立多模态特征在垂直和水平方向上的文本依赖。实验结果表明,在TextZoom测试集上,本文提出的方法在PSNR和SSIM定量指标上相比于其他主流方法均有所提升,并且在ASTER,MORAN,CRNN 3种识别器的平均识别精度相比TPGSR模型分别提高了2.9%,3.6%和3.7%。由此表明,采用多模态语义交互方法的文本图像超分辨率重构,可以有效提高文本识别精度。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分