跳转至主要内容

04AI门户网

MetaVL: 将上下文学习能力从语言模型迁移到视觉-语言模型

admin
最后编辑于 2025年2月21日

MetaVL: Transferring In-Context Learning Ability From Language Models to Vision-Language Models

M Monajatipoor, L H Li, M Rouhsedaghat, L F. Yang, K Chang[UCLA & USC]

MetaVL: 将上下文学习能力从语言模型迁移到视觉-语言模型

动机:研究如何在视觉-语言领域实现上下文学习,将单模态的元学习知识转移到多模态中,以提高大规模预训练视觉-语言(VL)模型的能力。方法:首先在自然语言处理(NLP)任务上元训练一个语言模型,实现上下文学习,然后通过连接一个视觉编码器将该模型转移到视觉-语言任务上,以实现跨模态的上下文学习能力的转移。优势:实验证明,跨模态的上下文学习能力可以转移,该模型显著提高了视觉-语言任务上的上下文学习能力,并且在模型大小方面能够有显著的优化,例如在VQA、OK-VQA和GQA上,所提出方法在参数数量减少约20倍的情况下超过了基准模型。

探索了将元学习的上下文学习能力从单模态迁移到多模态的可能性,证明了在视觉-语言任务中通过迁移可以显著提升上下文学习能力,甚至在模型大小方面实现优化。

https://arxiv.org/abs/2306.01311 

分类:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注