AIGC动态欢迎阅读
原标题:新加坡国立大学发布图文预训练框架 CosMo,助力长文本理解
关键字:数据,模型,文本,性能,视频
文章来源:夕小瑶科技说
内容字数:9802字
内容摘要:
夕小瑶科技说 原创作者 | 智商掉了一地、Python近年来,随着大型语言模型(LLM)的兴起,让多模态学习领域也得到了不断发展。本文作者深入探讨了视觉-语言预训练模型的进展,特别关注了从短文本理解到长文本理解的重要性。
通过在文本生成模型中引入对比损失,作者提出了一种新颖的架构 CosMo,进一步扩展了视觉-语言预训练的演进路径,以实现不同模态之间更高效的对比学习。CosMo 这一统一框架巧妙地将语言模型划分为专用的单模态文本处理和擅长多模态数据处理的组件,从而提高了模型在涉及文本和视觉数据的任务中的性能,并减少了可学习参数。
为了应对长文本数据集的需求,作者创建了一个包含详细字幕的视频-文本数据集 Howto-Interlink7M。论文还展示了如何利用这个数据集提高图像-文本任务模型的性能。通过在保留更少可学习参数的同时利用更多可用数据,本文的模型显著改善了性能。
论文题目: COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training
论文链接: https://arxiv.org/a
原文链接:新加坡国立大学发布图文预训练框架 CosMo,助力长文本理解
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI应用开发者、算法工程师和研究人员。一线作者均来自清北、国外顶级AI实验室和互联网大厂,兼备媒体sense与技术深度。
暂无评论...