版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202311711967.6
公 开 号:CN117852607A
发 明 人:林霭良
代 理 人:董涛
代理机构:北京知汇林知识产权代理事务所(普通合伙)
专利类型:发明专利
申 请 日:20240409
公 开 日:20231213
专利主分类号:G06N3/08
关 键 词:视觉特征信息 视觉特征 分辨率 嵌入 注意力 语言模型 多模态 查询 学习 上下文感知信息 语言模型训练 语义 视觉表示 视觉感知 视觉信息 输入需求 特征信息 无缝集成 多尺度 计算量 提纯 模态 捕获 文本 视觉 全局
摘 要:本发明提供基于多尺度视觉特征的多模态大语言模型训练方法及系统,方法包括:使用一组可学习的查询嵌入,作为LLM大语言模型的汇总视觉信息输入;利用多个连续的交叉注意力层,从多种不同分辨率大小的视觉特征表示中提取出所需的视觉特征信息;将可学习查询嵌入经过多个交叉注意力层的学习,充分捕获到所需的各种分辨率大小的视觉特征信息表示;通过自注意力层使可学习查询嵌入建立起全局的上下文感知信息,提纯出所需的视觉特征信息,符合MLLM的输入需求。本发明将视觉和文本模态无缝集成,减少计算量同时获得更高语义视觉表示;从多种不同分辨率大小的视觉特征表示中提取出所需有用特征信息,有效提升了多模态大语言模型的视觉感知能力。