检索结果-内蒙古大学图书馆

作者：唐晟中南大学

学位级别：硕士

医学报告的自动生成是基于人工智能和自然语言处理等技术的一项重要研究领域。医学报告在临床诊疗过程中起着至关重要的作用,它记录了医生对患者进行的诊断和治疗的结果,并提供了后续医疗决策的依据。因此,医学报告自动生成技术的发展... 详细信息

医学报告的自动生成是基于人工智能和自然语言处理等技术的一项重要研究领域。医学报告在临床诊疗过程中起着至关重要的作用,它记录了医生对患者进行的诊断和治疗的结果,并提供了后续医疗决策的依据。因此,医学报告自动生成技术的发展具有重要的现实意义,可以大大减轻医生的工作负担,提高医疗诊断的效率和准确性,同时缓解医疗资源紧张的问题。目前医学报告的自动生成存在着两个主要问题:1)生成的医学报告遗漏关键病灶描述,以及相关基本的推断结果,导致医学报告不完整。当图像中包含多个形态大小不同的病灶时,现有的方法容易忽略微小且难以察觉的病灶。由于编码阶段缺少疾病相关的高级语义信息,在生成病灶描述后,会遗漏病灶相关的疾病推断描述。上述两点导致生成的医学报告不完整。2)医学图像和医学文本存在模态差异,且模型难以学习医学领域专业知识,导致生成的医学报告不准确。二维的医学影像和一维的医学报告是不同语义密度的信号,两种模态的特征分布之间的距离过大,影响了信息的提取和推理。医学文本描述具有专业性,模型缺少对医学领域专业知识的学习,导致生成的医学报告缺少对医学领域知识和规则的认知。针对上述两个问题,本文提出了基于多尺度注意力的方法来提高生成医学报告的完整性和基于跨模态对齐的方法来提高生成医学报告的准确性。本文的主要工作如下: (1)针对遗漏关键病灶描述和相关基本推断导致的医学报告不完整问题,本文提出了多尺度注意力方法编码图像中的多个关键病灶,使模型发现大小形态不同的潜在病灶,并且进行病灶相关联的疾病推断,解码后生成更完整的医学报告。本文通过一种多尺度方法从局部视觉尺度,病灶区域尺度,全局语义尺度三个尺度对病灶特征进行编码来更全面的发现关键病灶,并进行生成相关的疾病推断文本,从而生成完整的医学报告。具体来说,本方法通过一种空间感知的区域伪标签特征生成模块来聚合区域级别的病灶特征表示,使模型能够更好的分辨不同的病灶特征。然后通过全局语义级别的疾病引导注意力模块,生成具有较强疾病相关性的医学报告,使生成的报告具有较好的完整性。实验结果表明,本文的方法能够完整的找到不同关键病灶并进行描述,生成对病灶和疾病描述更加完整的医学报告,提高医学报告生成的完整性和临床可用性。 (2)针对模态差异以及缺少医学领域专业知识导致的医学报告不准确问题,本文提出了跨模态对齐方法来减少二维的医学图像和一维的医学文本报告之间的模态差异,并在生成过程中学习医学领域的专业知识,生成更准确的报告。具体来说,本方法提出的跨模态对齐模块通过将视觉特征和文本特征在公共表征空间进行跨模态对齐来建模模态不变性特征,缩小视觉特征分布和文本特征分布的距离,从而减少视觉特征和文本特征的模态差异,生成更准确的医学报告。本方法提出的记忆感知模块能够使模型能够从已生成医学文本中建模相似病灶的描述模式,使模型学习医学领域的专业知识,生成更加准确的医学报告。实验结果表明,本方法在MIMIC-CXR和IU-Xray医学报告生成数据集上能够分别取得0.392和0.491的BLEU-1生成指标,与医学报告生成领域会议的方法性能相当。图18幅,表12个,参考文献67篇

关键词：医学报告生成自注意力跨模态对齐

来源：评论

学校读者我要写书评

暂无评论

基于跨模态语义对齐的视频时刻检索研究

基于跨模态语义对齐的视频时刻检索研究

引用

作者：王公勉电子科技大学

学位级别：硕士

随着互联网技术的繁荣和视频技术的发展,视频内容正被越来越多的人们所青睐。每天,世界上都有大量的视频被拍摄、剪辑,并上传到互联网上。由于视频内容每天都在指数级地增长,研究人员越来越多地关注于使用视频检索技术来处理大量的视频... 详细信息

随着互联网技术的繁荣和视频技术的发展,视频内容正被越来越多的人们所青睐。每天,世界上都有大量的视频被拍摄、剪辑,并上传到互联网上。由于视频内容每天都在指数级地增长,研究人员越来越多地关注于使用视频检索技术来处理大量的视频信息。随着视频时长的增加,人们希望可以从较长的视频中检索出与文本最为对应的视频片段,这就引出了视频时刻检索这个任务。视频时刻检索是根据给定的文本,从一段长视频中,找到与该文本语义最为对应的一个片段,并返回该片段的开始时间和结束时间。这个任务还有助于完成其他的视频任务,如视频问答、视频描述生成和视频定位等。目前主流的视频时刻检索方法主要由以下三个阶段组成:多模态特征提取、跨模态融合和视频时刻定位。在多模态特征提取过程中,视频特征和文本特征被分别提取。随后,不同模态的特征进行跨模态融合,得到融合特征。最后,融合特征被送入视频时刻定位网络,生成最终的视频时刻检索结果。虽然该流程被证明能有效的进行视频时刻检索,但仍存在着很大的改进空间。比如,跨模态融合不够充分,同一视频片段中多个动作会产生相互干扰,视频表征过于粗糙等。基于以上问题,本文以该流程为基础,分别针对不同视频时刻检索的不同问题,提出了以下两种不同的改进算法以提升视频时刻检索的效果。针对不同模态的特征融合不够充分,以及视频中多个动作的干扰问题,本文提出了基于跨模态动态网络的视频时刻检索方法。该方法根据文本和视频特征,创新性地动态生成卷积网络的卷积核,使用跨模态的特征引导卷积。同时,该方法还使用了一种新颖的序列帧注意力机制,来捕捉同一个视频片段中的不同动作特征,从而减少同一片段中不同动作之间相互造成的干扰。这两种机制在推断过程中,均不会带来显著的计算量的增加,且有效地提高了视频时刻检索的性能。针对视频表征过于粗糙的问题,本文还提出了基于语义增强物体推理网络的视频时刻检索方法。不同于传统的视频特征,该方法使用了物体级别的视觉特征,结合语义信息来推测不同物体之间的关系,从而理解视频内容。并且,该方法使用了一个新的时序平移机制,来避免不对齐的物体所带来的干扰。本文所提出的方法,在公开的Charades-STA和TACo S数据集上进行了实验。实验结果表明,相较于已有的方法,本文所提出的方法在多个指标上都达到了具有竞争力的性能。

关键词：视频时刻检索视频理解跨模态对齐时刻定位

来源：评论

学校读者我要写书评

暂无评论

基于大语言模型的致密砂岩储层测井含水饱和度预测

引用

天然气工业 2024年第9期44卷 77-87页

作者：武娟罗仁泽雷璨如殷疆陈星廷西南石油大学地球科学与技术学院 610500 油气藏地质及开发工程全国重点实验室·西南石油大学西南石油大学电气信息学院西北大学地质学系大陆动力学国家重点实验室·西北大学

致密砂岩储层测井含水饱和度预测是油气藏储层评价和产量预测的关键步骤,应用机器学习模型预测含水饱和度在一定程度上缓解了常规方法预测误差大的问题。但是现有的机器学习方法通常使用有限的测井数据从头开始训练模型,导致模型能力受... 详细信息

致密砂岩储层测井含水饱和度预测是油气藏储层评价和产量预测的关键步骤,应用机器学习模型预测含水饱和度在一定程度上缓解了常规方法预测误差大的问题。但是现有的机器学习方法通常使用有限的测井数据从头开始训练模型,导致模型能力受限,进而阻碍了它的泛化能力。为此,基于大语言模型(LLMs)出色的泛化性能及丰富的知识信息,引入LLMs进行储层测井含水饱和度预测,提出了一种基于真实关系及表格Transformer网络(REaLTabFormer)增强的LLMs对齐框架模型(RTF-LLA),最后进行了实验对比验证。研究结果表明:(1) RTF-LLA模型由数据增强、知识蒸馏和跨模态对齐3个核心模块构成;(2)数据增强模块以原始测井数据为基础,利用REaLTabFormer捕获测井参数与储层物性参数间的内在关系,生成了高信息量的测井数据;(3)知识蒸馏模块从LLMs提取主要的知识信息,指导测井数据与LLMs文本知识进行跨模态对齐,并赋予模型准确预测储层测井含水饱和度的能力;(4)跨模态对齐模块通过词元对齐、特征对齐和序列对齐,有效地降低了模型对储层含水饱和度的预测误差。结论认为:(1)RTF-LLA模型在S气田储层饱和度实验评价中的平均绝对误差和均方根误差分别为1.332和2.207,相较于其他主流机器学习算法至少降低了3.310和3.174;(2)RTF-LLA模型可为小样本测井资料储层含水饱和度准确预测提供有效技术支撑,为储层测井含水饱和度预测提供了新思路、新方法。

关键词：大语言模型跨模态对齐致密砂岩储层测井含水饱和度预测泛化能力

来源：评论

学校读者我要写书评

暂无评论

无模态融合的高效弱监督视频时刻检索算法

引用

北京航空航天大学学报 2023年

作者：蒋寻徐行沈复民王国庆杨阳电子科技大学计算机科学与工程学院

弱监督视频时刻检索旨在基于视频与自然语言文本的匹配关系训练深度学习算法模型，以实现根据自然语言查询文本从未经修剪的视频中检索特定事件内容的起始与结束时间。大多数现有的弱监督视频时刻检索方法采用多模态融合机制来理解视频... 详细信息

弱监督视频时刻检索旨在基于视频与自然语言文本的匹配关系训练深度学习算法模型，以实现根据自然语言查询文本从未经修剪的视频中检索特定事件内容的起始与结束时间。大多数现有的弱监督视频时刻检索方法采用多模态融合机制来理解视频内容以完成时刻检索。然而，由于完成模态融合所需要的跨模态交互十分复杂看，且只有在明确收到用户的查询指令后才能推进模态融合，限制了现有方法的运行效率，降低了该项技术在多媒体应用中的实用性。针对以上问题，提出了一种可实现快速弱监督视频时刻检索的无融合多模态对齐算法，称为FMAN。该方法可以将复杂的跨模态交互计算全部限制在训练阶段，从而允许模型对视频数据和文本数据都进行离线编码，显著提高了视频时刻检索的推理速度。在Charades-STA数据集和ActivityNet-Captions数据集上的实验结果表明，FMAN所取得的检索性能与效率都优于现有的方法：对于衡量检索性能的指标R1召回率和R5召回率，在Charades-STA数据集上，本方法分别平均取得了2.66%和1.57%的性能提升；在ActivityNet-Captions数据集上，本方法分别平均取得了0.19%和3.35%的性能提升；在检索效率上，所提出的方法将在线每秒浮点运算次数降低至原有方法的1%以下。

关键词：视频时刻检索弱监督学习媒体内容检索模型效率跨模态对齐

来源：评论

学校读者我要写书评

暂无评论

基于自然语言的视频片段定位综述

引用

计算机科学 2022年第9期49卷 111-122页

作者：聂秀山潘嘉男谭智方刘新放郭杰尹义龙山东建筑大学计算机科学与技术学院济南250101 山东大学软件学院济南250100

自然语言视频定位(Natural Language Video Localization, NLVL)是一项新颖而富有挑战性的任务。该任务的目的是根据给定的查询文本从未修剪的视频中找到与这条查询文本语义最为相似的目标片段。与传统的时序动作定位任务不同,NLVL具有... 详细信息

自然语言视频定位(Natural Language Video Localization, NLVL)是一项新颖而富有挑战性的任务。该任务的目的是根据给定的查询文本从未修剪的视频中找到与这条查询文本语义最为相似的目标片段。与传统的时序动作定位任务不同,NLVL具有更强的灵活性,因为它不受预定义动作列表的限制;同时也更具挑战性,因为NLVL需要从视频和文本两种模态间对齐语义信息。此外,在对齐关系中获取最终的时间戳也是一个艰巨的任务。首先,描述了NLVL的流程;其次,根据是否有监督信息将NLVL算法分为监督方法和弱监督方法两大类并分析其优缺点;然后,总结了常用的数据集和评估指标,对现有的研究进行了总体性能的评估和分析;最后,讨论了技术难点及未来的研究趋势,为今后的工作提供参考。

关键词：多模态检索视频片段定位视频理解跨模态对齐跨模态交互

来源：评论

学校读者我要写书评

暂无评论

文本属性激活视觉的广义零样本图像识别

引用

计算机工程与应用 2024年

作者：闫文尚张桂梅南昌航空大学江西省图像处理与模式识别重点实验室

现有的零样本学习方法存在语义信息与视觉特征无法有效对齐，且视觉特征中存在较多冗余信息，导致零样本和广义零样本图像识别精度不佳。针对该问题，提出文本属性激活视觉的广义零样本图像识别方法。首先，借助大语言模型生成判别性语... 详细信息

现有的零样本学习方法存在语义信息与视觉特征无法有效对齐，且视觉特征中存在较多冗余信息，导致零样本和广义零样本图像识别精度不佳。针对该问题，提出文本属性激活视觉的广义零样本图像识别方法。首先，借助大语言模型生成判别性语义信息-文本属性。并引入类先验估计模块，计算每个文本属性的先验权重，以增强文本属性的可解释性，优化模型的性能。其次，利用判别性文本属性激活与其对应的视觉特征，有效去除视觉特征中的冗余信息。最后，在先验权重的引导下，将激活的视觉特征与文本属性进行跨模态对齐，以实现更精准高效的视觉语义交互，提高模型的图像识别精度。在三个基准数据集(AWA2、CUB、SUN)上进行自监督广义零样本图像识别实验，在AWA2和SUN数据集上调和平均值均达到最优，分别比次优值提高了1.1%和0.8%，在CUB数据集中取得次优，实验结果证明了提出方法的有效性。

关键词：文本属性先验权重视觉激活跨模态对齐

来源：评论

学校读者我要写书评

暂无评论

基于视觉与语言的行人理解

基于视觉与语言的行人理解

引用

作者：荆雅中国科学院大学

学位级别：博士

基于视觉与语言的行人理解是一个融合了计算机视觉、自然语言处理和机器学习的综合问题。其任务目标是对行人图像以及关于行人的自然语言描述进行共同理解。现在随着基础设备和互联网的普及，每天都会产生海量的多模态数据，包括视觉数... 详细信息

基于视觉与语言的行人理解是一个融合了计算机视觉、自然语言处理和机器学习的综合问题。其任务目标是对行人图像以及关于行人的自然语言描述进行共同理解。现在随着基础设备和互联网的普及，每天都会产生海量的多模态数据，包括视觉数据与文本数据，而其中最重要的是有关人的图像和文本，对其进行理解具有广泛的应用场景，包括视频监控中的特定行为识别、跨模态行人检索以及人机交互中与机器的交流互动。现实场景中，根据不同的任务需求，基于视觉与语言的行人理解催生了不同的解决思路，但是都需要对语言与视觉内容进行充分的理解并学习它们之间的语义关联。　　本文的研究是一个由浅入深的过程，首先对整张图像中发生的行为以及相关对象进行理解，之后聚焦到具体的行人，也就是基于文本的行人检索，其研究过程也是从有监督学习进而拓展到无监督学习来探索模型的通用性。最后为了实现更自然的人机交互，对聚焦到的行人进一步进行轮廓边缘识别，也就是基于文本的行人分割。作为视觉与语言进行交互的跨模态任务，对图文之间的关联性进行建模来消除语义鸿沟是该任务面临的最大的挑战。此外，作为行人相关的任务，解决实际场景中行人姿态变化以及不同行人间的细节变化也是一个很大的挑战。虽然相关的研究已经取得了一些进展，但是仍存在很多问题，相关的技术也有很大的改进空间。基于此，本文从建立视觉与语言之间的关联出发，研究了行人图像-文本中多粒度的对应关系。针对视觉理解，研究了图像中不同对象之间的关系。针对文本理解，探索了文本描述中不同描述性词汇之间的内在语义关联。从而更好地建立不同模态之间多粒度的语义对应。综上，本文的研究内容主要包括以下五个方面:　　针对面向行人所处环境进行理解的情境识别任务，本文提出了一种新颖的关系图神经网络，该模型在行为和对象之间构建连接，通过图节点之间的信息传递显式地对行为和相关对象之间的三元关系进行建模。此外还提出了一个两阶段的训练策略来优化模型，首先采用渐进式有监督的学习方法，该方法将权重逐步添加到交叉熵损失中来加快模型训练。最后为了统一训练和测试过程，本文使用策略梯度方法直接对不可微分的“所有值”指标进行优化。　　针对面向行人外貌进行理解的基于文本的行人检索任务，提取与行人描述相关的视觉内容是解决这种跨模态匹配问题的关键。本文提出利用粗粒度对齐网络和细粒度对齐网络提取多粒度的相关视觉内容，其中细粒度对齐网络中使用行人姿态去指导学习视觉身体部分与文本名词短语之间的潜在语义对应关系，这也是第一个将行人姿态用于该任务的方法。　　考虑到在基于文本的行人检索任务中，不同句子的结构会有很大的不同。而通过建模文本描述内的关系可以判断各个单词是否描述同一视觉对象，这在之前的工作中通常被忽略。因此本文提出了一种图注意关系网络通过对名词短语之间的关系进行建模来学习对齐的图像-文本表示。　　将有监督的基于文本的行人检索拓展到无监督来减少数据标注成本。本文首次尝试在没有成对标签的情况下使模型可以迁移到新的目标域，这融合了跨模态行人检索和跨域行人检索中的挑战。针对这个新任务，本文提出了一种矩对齐网络，通过学习三个有效的矩对齐方式，包括域对齐、跨模态对齐和样例对齐来共同学习域不变且语义对齐的跨模态表示来提高模型的通用性。　　为了更精细地识别图像中具体行人的位置，本文对行人指代性分割进行了研究，其目标是分割自然语言所描述的对象。以前的方法通常着重于设计一种隐式的递归特征交互机制用于融合视觉-文本特征来直接生成最终的分割结果，而没有显式建模被指代行人的位置。为了解决这些问题，本文从另一个角度来看待此任务，将该任务解耦为先定位再分割的方案:(1)被指代对象的位置预测;(2)对象分割结果的生成。此外，通过明确对象的位置，该模型更易于解释。　　综上，本文提出的方法通过关系建模解决了基于视觉与语言的行人理解中的跨模态语义关联问题，并在许多不同的基准数据集上取得了很好的实验结果。

关键词：情境识别行人检索行人分割跨模态对齐关系学习

来源：评论

学校读者我要写书评

暂无评论

基于自编码器的零样本图像分类

基于自编码器的零样本图像分类

引用

作者：崔碧莹天津大学

学位级别：硕士

大数据时代,随着深度学习算法在计算机视觉领域的不断发展,图像分类技术也取得了巨大的进步。监督学习依赖于庞大的有标注图像实现对模型的训练,然而对现实世界中数以万计的图像进行标注需要耗费极高的人力和时间成本。即便如此,某些稀... 详细信息

大数据时代,随着深度学习算法在计算机视觉领域的不断发展,图像分类技术也取得了巨大的进步。监督学习依赖于庞大的有标注图像实现对模型的训练,然而对现实世界中数以万计的图像进行标注需要耗费极高的人力和时间成本。即便如此,某些稀缺类别仍缺少足够的样本用来支撑训练。为此,受到人类具备根据描述识别出未见类别能力的启发,研究人员提出一种无需对新类别的标注样本进行训练即可完成对新类别分类的零样本学习(Zero-Shot Learning,ZSL)技术来应对标签缺失的问题。这种技术通过对有标注的可见类样本进行训练,借助可见类和未见类的辅助语义信息完成视觉特征和类别语义特征之间的跨模态对齐,从而实现知识从可见类到未见类的迁移。本文基于不同的跨模态对齐方式,提出两种基于自编码器的模型结构来完成零样本图像分类任务。首先,针对广义零样本图像分类任务下的将未见类别样本错分到可见类的分类偏差问题,利用自编码器构造了一种简单而有效的未见类原型学习(Unseen Prototype Learning,UPL)模型,实现从类别语义原型直接学习相应的视觉原型。通过对所学视觉原型的三元组约束和语义重构,提高了视觉原型的判别能力。此外,受到元学习(Meta-Learning)思想的启发,本方案采用基于episode的训练机制,通过多个任务对零样本学习的模仿,使UPL模型为学习到更具判别力的视觉原型积累了充分的经验,从而更好地实现从可见类到未见类的知识迁移,有效缓解了分类偏差问题。最后,在多个主流数据集上验证了方法的有效性。其次,本文从分类损失函数的角度出发,基于分类所得负标签同样蕴含有用信息的假设,提出了一种基于软目标的半监督分类(Soft Target Semi-Supervised Classification,STS2C)模型。该模型将语义空间作为自编码器的潜在空间,完成跨模态的信息对齐和重构,引入从互联网或其他数据集收集的辅助数据,用半监督学习的方式加强了模型对未见类别的知识迁移能力和泛化能力,缓解了域偏移的问题。为收集负标签所蕴含的信息,寻找错分类和正确标签的类间关系,在利用softmax函数计算分类交叉熵损失函数时,本方案借鉴知识蒸馏的思想提出对softmax函数加入高温蒸馏参数,放大错分类结果信息熵的贡献度,使得模型更加鲁棒。最后,所提方法在多个主流数据集上证明了方法的先进性。

关键词：零样本学习图像分类元学习自编码器跨模态对齐半监督学习

来源：评论

学校读者我要写书评

暂无评论

基于特征点的指代表达理解算法研究

基于特征点的指代表达理解算法研究

引用

作者：赵沛芝广西大学

学位级别：硕士

作为人类在现实世界中交互的基本手段,使用自然语言对实体或者抽象概念进行统一的指代可以实现高效的信息交流。因此让智能体能够在视觉概念与自然语言概念上构建关联是实现人工智能模型在现实世界中与人类交互的关键性技术。随着深度... 详细信息

作为人类在现实世界中交互的基本手段,使用自然语言对实体或者抽象概念进行统一的指代可以实现高效的信息交流。因此让智能体能够在视觉概念与自然语言概念上构建关联是实现人工智能模型在现实世界中与人类交互的关键性技术。随着深度学习领域中大模型以及具身智能相关技术的快速发展,实现高效的指代表达理解(Referring Expression Comprehension,REC)将显著的促进自动驾驶、视觉导航以及人机对话等方面的研究。具体来说,REC旨在理解自然语言表达式传达的意图并在复杂的现实世界中定位被指代的目标。作为视觉和语言任务中的一个长期挑战和基本任务,REC体现了智能体的多模态内容细粒度对齐的能力。 REC模型可以分为两阶段与一阶段两种范式,借助Transformer高效的信息交互能力,大规模参数化的一阶段方法最近显示出令人印象深刻的改进。然而,对于耦合抽象概念的理解和具体实例的本地化的复杂任务,基于Transformer的一阶段方法受到计算和数据资源的限制。因此本文重新设计了一个高效的两阶段求解体系:1)为了解决早期两阶段方法基于孤立区域的解决方案无法充分利用上下文,并且通常受到提案质量的限制的问题,本文提出一种基于点特征排序的方案。该框架将原始边界框和分割掩模重建为中心和质量分数,作为测量跨模态相关性的伪标签。2)借助伪标签,REC可以近似为二元分类问题,从根本上避免了孤立区域对优化过程的影响。借助这一思想,建模过程可以被重新定义为基于点的跨模态理解和基于点的实例定位两个阶段。值得注意的是,中心分数和质量分数之间的一致指标使该框架能够利用相同的架构直接优化定位和分割。除了模型架构对于算法能力的影响,本文进一步探讨了,先前求解方法对于REC模型性能的阻碍。尤其在跨模态内容对齐方面,区域标注在表达式主语和一些常见的视觉实体之间往往形成了表面相关性,这阻碍了模型理解语言的内容和结构。然而,由于连续图像块和离散文本序列之间的结构差距,现有方法很难对视觉和语言结构进行统一建模。因此本文提出了一个用于REC的半结构化推理方法,以逐步理解语言内容和结构。该方法实现了两个改进:1)一个借助外部跨模态知识校正的内容对齐编码器,该编码器通过知识引导的交叉注意力模块将CLIP提供的token级先验知识引入对齐过程,从而实现对无标注的上下文信息有效地对齐到一个稳定的语义空间中。2)一个多分支调制定位解码器,该模块通过将文本表达式切分为主语和上下文来平衡不同语义成分对定位过程的影响,实现通过部分语言结构的调制定位。在六个广泛使用的数据集上的实验结果验证了本文提出的基于点的两阶段框架与半结构化推理方法的性能改进。

关键词：视觉与语言指代表达理解视觉定位跨模态对齐

来源：评论

学校读者我要写书评

暂无评论

自监督音视频理解研究

自监督音视频理解研究

引用

作者：王化森电子科技大学

学位级别：硕士

深度学习和人工智能的发展极大影响了人类社会,已经深入到人们学习生活中。尽管在人工智能和计算机视觉领域,视觉更加受到研究者的青睐,但音频仍然是我们学习和理解现实世界不可或缺的重要信息。视觉和音频是人们感知现实世界最直接的方... 详细信息

深度学习和人工智能的发展极大影响了人类社会,已经深入到人们学习生活中。尽管在人工智能和计算机视觉领域,视觉更加受到研究者的青睐,但音频仍然是我们学习和理解现实世界不可或缺的重要信息。视觉和音频是人们感知现实世界最直接的方式,与此对应的,研究者们已经开始探索如何引入视觉和音频来提高机器的感知能力。多模态信息的引入,往往能够提供更加丰富的、互补的信息,从而提升机器使用单一模态信息时的性能限制,增强解决问题的能力。然而,视觉特征和音频特征属于两种模态的特征,实现音视频的跨模态匹配对齐是音视频理解相关任务中的关键点和难题。为了增强对音视频多模态的理解,探索音视频模态匹配对齐关系,本文从音视频声源分离任务、音视频音频修复任务入手,借助深度学习网络以自监督学习的方式解决音视频多模态任务中的复杂问题,加深对音视频多模态学习的理解与研究。1)音视频声源分离任务的目标是在混合音频中,将给定的视觉目标发出的声音分离出来。由于模态分布差异导致的跨模态异构问题,以及分离精度严重依赖目标检测效果的问题,本文设计了跨模态音视频声源分离模型,综合利用三种模态信息实现更精确的跨模态匹配,提高声源分离效果。2)针对音视频声源分离任务中常用的“混合-分离”训练方式引起的模型对天然混合音频分离能力不足的问题,本文提出了半监督的音视频声源分离模型,以半监督的方式将天然混合音频与人工混合音频共同引入训练,提升模型对天然混合音频分离的泛化能力。3)音视频音频修复的目标是在视觉信息的指导下,修复对应音频中缺失的部分。该任务存在着跨模态异构和长时音频修复难度大的挑战。本文设计了迭代特征推理的长时音视频音频修复网络,通过迭代推理的方式提高模型对长时音频的修复能力。本论文的意义在于更好地理解音视频跨模态信息的关系,探究音视频结合的使用方法,提高机器对现实世界的感知能力。具体到实际应用场景,本文的工作可以在乐器合奏教学、多音源下的语音识别、声音编辑中的增强和去噪、人机交互、复杂场景中发声目标定位、音频的修复和提升质量、无约束视频的综合评定等众多现实需求中发挥作用。

关键词：跨模态声源分离跨模态音频修复跨模态对齐自监督学习

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：