检索结果-内蒙古大学图书馆

兵工学报 2022年第5期43卷 1107-1116页

作者：曾志贤曹建军翁年凤蒋国权范强国防科技大学计算机学院湖南长沙410003 国防科技大学第六十三研究所江苏南京210007

现有的视频-文本跨模态实体分辨方法在视频处理上均采用均匀取帧的方法,必然导致视频信息的丢失,增加问题的复杂度。针对这一问题,提出一种结合关键帧提取的视频-文本跨模态实体分辨双重编码方法(DEIKFE)。以充分保留视频信息表征为前提... 详细信息

现有的视频-文本跨模态实体分辨方法在视频处理上均采用均匀取帧的方法,必然导致视频信息的丢失,增加问题的复杂度。针对这一问题,提出一种结合关键帧提取的视频-文本跨模态实体分辨双重编码方法(DEIKFE)。以充分保留视频信息表征为前提,设计关键帧提取算法提取视频中的关键帧,获得视频关键帧集合表示。对于视频关键帧集合和文本,采用多级编码的方法,分别提取表征视频和文本的全局、局部和时序的特征,将其进行拼接形成多级编码表示。将该编码表示映射至共同嵌入空间,采用强负样本跨模态三元组损失对模型参数进行优化,使得匹配的视频-文本相似度越大,而不匹配的视频-文本相似度越小。通过在MSR-VTT、VATEX两个数据集上进行实验验证,与现有方法进行对比,在总体性能R@sum上分别提升了9.22%、2.86%,证明了该方法的优越性。

关键词：跨模态实体分辨关键帧提取共同嵌入空间双重编码强负样本

来源：评论

学校读者我要写书评

暂无评论

基于结构保持对抗网络的跨模态实体分辨

引用

南京大学学报（自然科学版） 2020年第2期56卷 197-205页

作者：吕国俊曹建军郑奇斌常宸翁年凤陆军工程大学指挥控制工程学院南京210007 国防科技大学第六十三研究所南京210007

跨模态实体分辨旨在从不同模态的数据中找到对同一实体的不同客观描述.常用的跨模态实体分辨方法通过将不同模态数据映射到同一空间中进行相似性度量,大多通过使用类别信息建立映射前后的语义联系,却忽略了对跨模态成对样本信息的有效利... 详细信息

跨模态实体分辨旨在从不同模态的数据中找到对同一实体的不同客观描述.常用的跨模态实体分辨方法通过将不同模态数据映射到同一空间中进行相似性度量,大多通过使用类别信息建立映射前后的语义联系,却忽略了对跨模态成对样本信息的有效利用.在真实数据源中,给大量的数据进行标注耗时费力,难以获得足够的标签数据来完成监督学习.对此,提出一种基于结构保持的对抗网络跨模态实体分辨方法(Structure Maintenance based Adversarial Network,SMAN),在对抗网络模型下构建模态间的K近邻结构损失,利用模态间成对信息在映射前后的结构保持学习更一致的表示,引入联合注意力机制实现模态间成对样本信息的对齐.实验结果表明,在不同数据集上,SMAN和其他无监督方法和一些典型的有监督方法相比有更好的性能.

关键词：数据质量跨模态实体分辨无监督学习对抗学习 K近邻联合注意力

来源：评论

学校读者我要写书评

暂无评论

基于注意力机制的细粒度语义关联视频-文本跨模态实体分辨

引用

计算机科学 2022年第7期49卷 106-112页

作者：曾志贤曹建军翁年凤蒋国权徐滨中国人民解放军国防科技大学第六十三研究所南京210007

随着移动网络、自媒体平台的迅速发展,大量的视频和文本信息不断涌现,这给视频-文本数据跨模态实体分辨带来了迫切的现实需求。为提高视频-文本跨模态实体分辨的性能,提出了一种基于注意力机制的细粒度语义关联视频-文本跨模态实体分辨... 详细信息

随着移动网络、自媒体平台的迅速发展,大量的视频和文本信息不断涌现,这给视频-文本数据跨模态实体分辨带来了迫切的现实需求。为提高视频-文本跨模态实体分辨的性能,提出了一种基于注意力机制的细粒度语义关联视频-文本跨模态实体分辨模型(Fine-grained Semantic Association Video-Text Cross-Model Entity Resolution Model Based on Attention Mechanism,FSAAM)。对于视频中的每一帧,利用图像特征提取网络特征信息,并将其作为特征表示,然后通过全连接网络进行微调,将每一帧映射到共同空间;同时,利用词嵌入的方法对文本描述中的词进行向量化处理,通过双向递归神经网络将其映射到共同空间。在此基础上,提出了一种自适应细粒度视频-文本语义关联方法,该方法计算文本描述中的每个词与视频帧的相似度,利用注意力机制进行加权求和,得出视频帧与文本的语义相似度,并过滤与文本语义相似度较低的帧,提高了模型性能。FSAAM主要解决了文本描述的词与视频帧关联程度不同而导致视频-文本跨模态数据语义关联难以构建以及视频冗余帧的问题,在MSR-VTT和VATEX数据集上进行了实验,实验结果验证了所提方法的优越性。

关键词：跨模态实体分辨共同空间注意力机制细粒度语义相似度特征提取

来源：评论

学校读者我要写书评

暂无评论

面向大规模定制信息质量的跨模态实体分辨研究

面向大规模定制信息质量的跨模态实体分辨研究

引用

作者：杨秋宇南京工业大学

学位级别：硕士

由于科学技术的飞速进步,在商品制造领域内产品和服务更新换代的速度愈发提升。客户对产品的需求也变得更加个性化,这使得企业面临着竞争日益激烈的市场环境。在新的市场环境中很多旧有的生产模式与管理方式都显得“水土不服”。大规模... 详细信息

由于科学技术的飞速进步,在商品制造领域内产品和服务更新换代的速度愈发提升。客户对产品的需求也变得更加个性化,这使得企业面临着竞争日益激烈的市场环境。在新的市场环境中很多旧有的生产模式与管理方式都显得“水土不服”。大规模定制是21世纪后兴起的一种全新的生产模式,它的出现便带有着鲜明的革命性,极有可能改变人类制造业的面貌。另一方面,随着移动网络、自媒体平台的迅速发展,用户参与的网络活动越来越多,多媒体数据的表现形式也越来越多样化,文本、图像、视频和音频等多媒体数据数量呈现指数级增长。企业面对获取的海量数据,需要解决的数据质量/信息质量(本课题对二者不加区分)问题日益凸显。由于信息的相对欠缺,企业需要更加广泛地搜集数据,丰富的数据来源使得企业获取的数据更加无序、混乱,呈现出各种媒体形态混杂的特征。此时,根据实际生产目标,将这些数据按照所属实体区分开来可以大大提高数据的使用效率。面对这种问题,如何更有效地使用不同模态的数据显得特别紧迫。但是,在进行计算机处理的过程中不同模态的数据往往有着截然不同的基质结构,仅在语言意义上相关性较高。本文针对多媒体数据“模态鸿沟”问题,引入了神经网络用于提取和模拟特征,结合深度对抗网络的相关方法得到更佳的视频-文本跨模态实体分辨结果。基于神经网络的跨模态检索、分辨方法在很多研究中都展示了其优秀的性能,有着远超传统方法的测量结果。与此同时,自2015年对抗网络理论模型被提出以来,其已在许多领域取得了突破性的成果。本文提出了一种基于对抗网络的新,通过生成器和判别器之间的竞争机制建立更加一致的数据表示,实现视频和文本数据的跨模态对照。针对视频中的关键实体容易遗漏的问题,提出基于帧间差分的视频关键帧提取方法,准确识别视频中包含重要信息的关键帧,因此得以提取出更为优秀的视频特征,从而进一步改善视频-文本数据的对齐效果。除了不同模态数据间的关联对照,同一模态内部的数据特征表示是跨模态实体分辨研究的先决条件和基础。为了改善原本文本特征提取过程中获得特征过于粗糙的问题,从而取得更佳的跨模态实体分辨结果,提出了一种新的方法。其基础是分别获取视频关键帧和文本细粒度特征,为此对视频和文本数据分别引入了帧间差分机制以及自注意力模型,从而在将特征数据导入神经网络的过程中强化了原数据中重要实体的存在。本文针对视频-文本的多模态实体分辨,使用了神经网络模型进行研究,对于研究中遇到的提取特征及跨模态数据对齐等一系列问题,提出了相应的方法来解决和改进,对研究跨模态数据的相关问题,改善大规模定制生产模式下存在的信息质量情况有着重要价值。

关键词：大规模定制信息质量跨模态实体分辨深度学习注意力机制

来源：评论

学校读者我要写书评

暂无评论

基于视觉语义嵌入的图像-文本跨模态实体分辨

基于视觉语义嵌入的图像-文本跨模态实体分辨

引用

作者：曾志贤国防科技大学

学位级别：硕士

实体分辨是数据质量领域的19个研究主题之一。图像-文本跨模态实体分辨旨在找到具有相同语义的图像和文本。然而,图像-文本跨模态数据存在底层数据特征异构、高层特征语义相关的特点,即“异构鸿沟”和“语义鸿沟”的问题。针对以上问题... 详细信息

实体分辨是数据质量领域的19个研究主题之一。图像-文本跨模态实体分辨旨在找到具有相同语义的图像和文本。然而,图像-文本跨模态数据存在底层数据特征异构、高层特征语义相关的特点,即“异构鸿沟”和“语义鸿沟”的问题。针对以上问题,论文采用视觉语义嵌入框架,从模态内语义关联、池化策略、数据增强和跨模态三元组损失函数四个方面进行了以下研究。由于深度学习模型极好的非线性拟合能力,针对现有的基于视觉语义嵌入的图像-文本跨模态实体分辨模型并不能很好地构建模态内数据细粒度语义关联和生成全局表征的问题,提出基于图推理和池化操作的视觉语义嵌入方法。使用图卷积神经网络构建图像和文本数据模态内细粒度语义关联,采用统一的池化操作将细粒度特征映射聚合生成全局向量表示,进行跨模态数据语义对齐。为图像-文本跨模态实体分辨提供了一个可供改进的模型。在前一项工作的基础上,针对视觉语义嵌入聚合器引入了新的训练参数和忽视细粒度特征信息关联的问题,对模型进行优化,提出了一种基于Softmax池化的视觉语义嵌入方法。首次将Softmax池化操作引入视觉语义嵌入模型,在不引入新的训练参数的情况下,自适应的计算细粒度特征值间的权重,加权求和生成全局统一表征,同时保留细粒度特征间的关联信息,降低运行时间,提高模型性能。然而,现有的视觉语义嵌入方法依赖于大量的标注数据,并未采用数据增强技术扩充训练数据。针对该问题,提出了一种适用图像-文本跨模态实体分辨的数据增强方法。采用预测替换、随机删除和随机替换对文本进行数据增强;采用对图像目标识别的细粒度特征进行预测替换方式对图像进行数据增强。实验验证了数据增强技术的普适性,能够有效降低训练样本量、提高模型性能。最后,在跨模态数据语义对齐上,针对现有的难负样本跨模态三元组损失收敛速度慢的问题,提出了一种统一跨模态三元组损失函数,通过引入两个控制跨模态三元组和锚点的伸缩因子,使得模型优化过程中能够更加关注难负样本三元组和难锚点,同时也不忽视那些已经优化的样本,显著提高模型的收敛速度和泛化能力。论文采用视觉语义嵌入框架解决图像-文本跨模态实体分辨问题,针对语义关联、池化策略、数据增强和语义对齐中存在的问题开展研究工作,分别提出对应的解决方法,对解决图像-文本跨模态实体分辨问题,切实提高数据质量具有重要的理论价值和应用价值。

关键词：跨模态实体分辨视觉语义嵌入特征提取语义关联数据增强池化策略

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：