为了缓解现有故事可视化方法难以准确生成多人物场景的问题,提出一种基于角色定位的故事可视化模型CGSV(Character-Grounded Story Visualization),从文本-角色映射和多角色视觉布局两个方面优化多人物生成。首先,CGSV设计了一个...
详细信息
为了缓解现有故事可视化方法难以准确生成多人物场景的问题,提出一种基于角色定位的故事可视化模型CGSV(Character-Grounded Story Visualization),从文本-角色映射和多角色视觉布局两个方面优化多人物生成。首先,CGSV设计了一个边界框-姓名融合模块,通过提取和过滤角色的边界框并将其与相应的名字进行融合,提供准确的人物位置信息。此外,CGSV引入了布局互注意力模块,通过人物位置信息引导生成过程,实现在视觉布局中的多角色精准定位。实验表明,CGSV在Pororo-SV和Flintstones-SV上的FID达到11.32和20.93,FSD达到22.88和26.02,超过了现有方法,验证了该算法的有效性。
融合听觉、视觉和触觉交互的多模态应用有望为用户提供高度沉浸的体验和丰富的交互功能,即将成为下一代物联网(Internet of Things,IoT)的关键服务。然而,IoT中网络资源的碎片化和分布式特性给触觉通信的高时效性和可靠性提出了巨...
详细信息
融合听觉、视觉和触觉交互的多模态应用有望为用户提供高度沉浸的体验和丰富的交互功能,即将成为下一代物联网(Internet of Things,IoT)的关键服务。然而,IoT中网络资源的碎片化和分布式特性给触觉通信的高时效性和可靠性提出了巨大挑战。针对这一问题,本文提出了一种触觉编码和网络资源分配的联合方案。首先,设计了一种灵活可伸缩的触觉编码方法,结合人类触觉感知机制,能够自适应IoT复杂多变网络环境下的传输需求;其次,构建了一种基于用户体验质量(Quality of Experience,QoE)的按需网络资源分配机制,在提升用户体验的同时优化网络资源的利用效率。仿真结果表明,该方案在提升触觉通信服务的QoE和网络资源效能方面效果显著。该研究成果为未来IoT场景下的高效多模态应用提供了技术支撑,具有重要的实践价值和理论意义。
暂无评论