咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >细粒度文本引导的跨模态风格迁移 收藏

细粒度文本引导的跨模态风格迁移

Fine-granularity Text-Guided Cross-modality Style Transfer

作     者:孙世昶 魏爽 孟佳娜 林鸿飞 肖文浩 刘爽 SUN Shichang;WEI Shuang;MENG Jiana;LIN Hongfei;XIAO Wenhao;LIU Shuang

作者机构:大连民族大学计算机科学与工程学院辽宁大连116600 大连理工大学计算机科学与技术学院辽宁大连116024 

出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)

年 卷 期:2024年第38卷第12期

页      面:170-180页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金(61876031 62076046) 

主  题:风格迁移 多模态预训练模型 文本语义分类 

摘      要:借助于StyleGANs的解纠缠表示和多模态预训练模型中不同模态之间的语义对应关系,现有方法在跨模态风格迁移领域取得了较好的结果。然而,基于图像尺度分解的StyleGANs的潜在空间不利于局部属性的编辑,这会造成在迁移时对无关部分的干扰。该文提出细粒度文本引导的跨模态风格迁移模型,通过利用文本中包含的区域信息来实现局部可控的风格迁移。首先,通过基于BERT的文本语义分类网络对目标风格文本包含的语义区域进行定位,然后利用特征映射网络将目标文本的CLIP特征嵌入到SemanticStyleGAN的潜在空间。文本语义分类网络和特征映射网络的结合使得目标文本的CLIP特征细粒度地嵌入到可编辑的潜在空间。最后通过对生成的风格化图像进行随机透视增强来解决训练中的对抗生成问题。实验表明,该方法能够生成更贴近文本描述风格的图像,并提高了跨模态编辑的区域准确性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分