基于多尺度视觉特征的多模态大语言模型训练方法及系统-内蒙古大学图书馆

文献详情 >基于多尺度视觉特征的多模态大语言模型训练方法及系统收藏

基于多尺度视觉特征的多模态大语言模型训练方法及系统

专利申请号：CN202311711967.6

公开号：CN117852607A

发明人：林霭良

代理人：董涛

代理机构：北京知汇林知识产权代理事务所(普通合伙)

专利类型：发明专利

申请日：20240409

公开日：20231213

专利主分类号：G06N3/08

关键词：视觉特征信息视觉特征分辨率嵌入注意力语言模型多模态查询学习上下文感知信息语言模型训练语义视觉表示视觉感知视觉信息输入需求特征信息无缝集成多尺度计算量提纯模态捕获文本视觉全局

摘要：本发明提供基于多尺度视觉特征的多模态大语言模型训练方法及系统，方法包括：使用一组可学习的查询嵌入，作为LLM大语言模型的汇总视觉信息输入；利用多个连续的交叉注意力层，从多种不同分辨率大小的视觉特征表示中提取出所需的视觉特征信息；将可学习查询嵌入经过多个交叉注意力层的学习，充分捕获到所需的各种分辨率大小的视觉特征信息表示；通过自注意力层使可学习查询嵌入建立起全局的上下文感知信息，提纯出所需的视觉特征信息，符合MLLM的输入需求。本发明将视觉和文本模态无缝集成，减少计算量同时获得更高语义视觉表示；从多种不同分辨率大小的视觉特征表示中提取出所需有用特征信息，有效提升了多模态大语言模型的视觉感知能力。

本地馆藏 | 借阅须知 | 我要预约

已订购，未入库

sda

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

CADAL相关文献

基于多尺度视觉特征的多模态大语言模型训练方法及系统

读者评论与其他读者分享你的观点

请选择收藏分类：

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

CADAL相关文献

基于多尺度视觉特征的多模态大语言模型训练方法及系统

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：