DeepSeek最新开源的MoE视觉语言模型系列

产品名称:DeepSeek-VL2
产品简介:DeepSeek-VL2DeepSeek最新开源的一系列大型混合专家(Mixture-of-Experts,简称MoE)视觉语言模型,在前代 DeepSeek-VL 的基础上进行了显著改进。DeepSeek-VL2 在多种任务上展现出卓越的能力,包括但不限于视觉问题回答、光学字符识别、文档/表格/图表理解以及视觉定位。
详细介绍:

DeepSeek-VL2是什么

DeepSeek-VL2是DeepSeek最新开源的一系列大型混合专家(Mixture-of-Experts,简称MoE)视觉语言模型,在前代 DeepSeek-VL 的基础上进行了显著改进。DeepSeek-VL2 在多种任务上展现出卓越的能力,包括但不限于视觉问题回答、光学字符识别、文档/表格/图表理解以及视觉定位。模型系列包括三个版本:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2,分别拥有 1.0B、2.8B 和 4.5B 的激活参数。DeepSeek-VL2 在保持相似或更少激活参数的情况下,与现有的开源密集型和基于 MoE 的模型相比,实现了竞争性或最先进的性能。模型于 2024 年 12 月 13 日正式发布。支持高达 1152×1152 的分辨率和 1:9 或 9:1 的极端长宽比,适配更多应用场景。DeepSeek-VL2 通过学习更多科研文档数据,理解各种科研图表的能力。能通过 Plot2Code 功能,根据图像生成 Python 代码

DeepSeek最新开源的MoE视觉语言模型系列

DeepSeek-VL2的主要功能

  • 动态分辨率支持:DeepSeek-VL2能处理高达1152×1152分辨率的图像,支持1:9或9:1的极端长宽比,适配多种应用场景
  • 图表理解:通过学习科研文档数据,DeepSeek-VL2能轻松理解各种科研图表。
  • Plot2Code:模型具备图像理解和代码生成的能力,可以根据图像生成Python代码。
  • 梗图识别:DeepSeek-VL2能解析各种Meme(梗图),拥有更深层次的理解能力。
  • Visual Grounding:模型能进行零样本(Zero-shot)视觉定位,根据自然语言描述在图像中找到相应的物体。
  • Visual Storytelling:DeepSeek-VL2能将多张图像串联起来,形成视觉故事。

DeepSeek-VL2的技术原理

  • 多头潜在注意力(MLA):DeepSeek-VL2 在注意力机制上采用了 MLA,基于低秩键值联合压缩来消除推理时键值缓存的瓶颈,支持高效的推理。
  • DeepSeekMoE 架构:在前馈网络(Feed-Forward Networks,FFNs)中,DeepSeek-VL2 采用了 DeepSeekMoE 架构,这是一种高性能的 MoE 架构,能在降低成本的同时训练更强大的模型。
  • 经济高效的训练和推理:DeepSeek-VL2 在预训练阶段使用了 8.1 万亿 token 的多样化和高质量语料库,通过监督式微调(Supervised Fine-Tuning,SFT)和强化学习(Reinforcement Learning,RL)来充分发挥模型的能力。与 DeepSeek 67B 相比,DeepSeek-VL2 在训练成本上节省了 42.5%,减少了 93.3% 的 KV 缓存,将最大生成吞吐量提高了 5.76 倍。
  • 支持长上下文窗口:DeepSeek-VL2 在 Needle In A Haystack(NIAH)测试中表现出色,支持长达 128K 的上下文窗口长度。

DeepSeek-VL2的项目地址

DeepSeek-VL2的应用场景

  • 聊天机器人:通过 DeepSeek-VL2 的聊天模型,可以实现与用户的自然语言交互。
  • 图像描述:模型能根据图像内容生成描述性文本。
  • 代码生成:DeepSeek-VL2 能根据用户的需求生成代码,适用在编程和软件开发领域。
版权声明:atcat 发表于 2024-12-16 12:03:52。
转载请注明:DeepSeek最新开源的MoE视觉语言模型系列 | 86AIGC导航

暂无评论

暂无评论...