精确指出特定事件发生时间！字节&复旦大学多模态大模型解读视频太香了

AIGC动态欢迎阅读

原标题：精确指出特定事件发生时间！字节&复旦大学多模态大模型解读视频太香了
关键字：解读,字节跳动,数据,模型,视频
 文章来源：量子位
内容字数：3511字

内容摘要：

丰色发自凹非寺量子位 | 公众号 QbitAI字节&复旦大学多模态理解大模型来了：
可以精确定位到视频中特定事件的发生时间。
比如在下面这个视频中：
狗子转身看镜头时的时间戳是多少？
什么时候用爪子推开滑板？
在这里，视频中的宝宝什么时候推起眼镜、舒展了一下身体？又是什么时候翻的书？
对于这样的问题，这个叫做LEGO的模型全都读得懂，并毫不犹豫给出正确答案。
看起来，有了这些研究成果，以后我们看视频查资料都要方便一大截咯？
可精确识别局部信息的多模态LLM来了LEGO全称是一个语言增强的多模态grounding模型。
它主要解决的是多模态LLM跨多种模态进行细粒度理解的能力，此前业内的成果主要强调全局信息。
为了实现该目标，作者主要先从数据集下手，打造了一套用于模型训练的多模式、多粒度问答形式数据集（即将开源）。
该数据集的构建涉及两个关键流程。
一是数据集转换（Dataset Conversion）。
在这个阶段，作者的目的是构建用于模态对齐和细粒度对齐的基础多模态数据集。
由于数据集质量相对较低，主要通过转换公开数据集获得。
如下图上部分所示，他们向GPT-3.5提供任务描述以