针对当前方法普遍存在较为严重的细节结构信息丢失与事件间重叠的问题,提出一种基于双向特征金字塔的密集视频描述生成方法(dense video captioning with bilateral feature pyramid net,BFPVC)。BFPVC通过带有自底向上、自顶向下、横...
详细信息
针对当前方法普遍存在较为严重的细节结构信息丢失与事件间重叠的问题,提出一种基于双向特征金字塔的密集视频描述生成方法(dense video captioning with bilateral feature pyramid net,BFPVC)。BFPVC通过带有自底向上、自顶向下、横向链接3条分支的双向特征金字塔强化视频多尺度特征图,兼顾对时序信息、空间信息、语义信息的特征表示,解码器从强化后的视频特征中捕获更加全面的事件候选集,从而为对应的视频事件生成更加丰富、详尽的文本描述。在ActivityNet Captions数据集和YouCook2数据集上的实验结果表明,BFPVC与同类模型相比生成的文本描述更详细、丰富,验证了双向特征金字塔在密集视频描述领域的有效性。
大型语言模型(Large Language Models,LLM)已经成为现今主流的研究热点,而垂直领域行业大模型则成为落地应用的关键点,以医疗为代表的大型语言模型有着可解释性、可靠性、高安全性等要求。针对这类问题,提出MedKGGPT模型,一个基于ChatGL...
详细信息
大型语言模型(Large Language Models,LLM)已经成为现今主流的研究热点,而垂直领域行业大模型则成为落地应用的关键点,以医疗为代表的大型语言模型有着可解释性、可靠性、高安全性等要求。针对这类问题,提出MedKGGPT模型,一个基于ChatGLM的模型,并提出一种面向医疗领域的知识图谱(Knowledge Graphs,KGs)和LLM相结合的框架。框架主要包含两个部分:首先,通过KG三元组中的实体和关系,提出了一种基于KG结构数据的提示工程方法,使得LLM更加具有医学领域的专用知识,提高LLM的可解释性;其次,提出一种利用KG来对齐LLM的方法,将LLM的输出与KG的相关知识进行比较,验证LLM输出结果的一致性和准确性,从而增强了LLM在医疗领域的安全性。实验结果表明,最终生成的MedKGGPT模型能够输出更加具有安全性的结果,说明KG能够有效增强LLM的可解释性,为LLM应用在医疗领域提供了帮助。
暂无评论