精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

AIGC动态欢迎阅读

原标题:精确指出特定事件发生时间字节&复旦大学多模态模型解读视频太香了
关键字:解读,字节跳动,数据,模型,视频
文章来源:量子
内容字数:3511字

内容摘要:


丰色 发自 凹非寺量子位 | 公众号 QbitAI字节&复旦大学多模态理解大模型来了:
可以精确定位到视频中特定事件的发生时间。
比如在下面这个视频中:
狗子转身看镜头时的时间戳是多少?
什么时候用爪子推开滑板?
在这里,视频中的宝宝什么时候推起眼镜、舒展了一下身体?又是什么时候翻的书?
对于这样的问题,这个叫做LEGO的模型全都读得懂,并毫不犹豫给出正确答案。
看起来,有了这些研究成果,以后我们看视频查资料都要方便一大截咯?
可精确识别局部信息的多模态LLM来了LEGO全称是一个语言增强的多模态grounding模型。
它主要解决的是多模态LLM跨多种模态进行细粒度理解的能力,此前业内的成果主要强调全局信息。
为了实现该目标,作者主要先从数据集下手,打造了一套用于模型训练的多模式、多粒度问答形式数据集(即将开源)。
该数据集的构建涉及两个关键流程。
一是数据集转换(Dataset Conversion)。
在这个阶段,作者的目的是构建用于模态对齐和细粒度对齐的基础多模态数据集。
由于数据集质量相对较低,主要通过转换公开数据集获得。
如下图上部分所示,他们向GPT-3.5提供任务描述以


原文链接:精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

暂无评论

暂无评论...