SmolVLM是HuggingFace模型仅有2B参数,以高效内存占用著称。
原标题:HuggingFace端侧家族新成员SmolVLM解读&实战:仅2B参数,完全开源
文章来源:智猩猩GenAI
内容字数:8554字
引言
近年来,多模态领域发展迅猛,涌现出一系列大型视觉语言模型。然而,这些模型的计算资源需求高、部署成本大。为了解决这些问题,研究者们开始探索如何构建高效且轻量级的多模态模型。
SmolVLM概述
SmolVLM是HuggingFace推出的一款精巧型视觉语言模型,具有2B参数,特别注重内存效率。该模型完全开源,包括模型权重、数据集和训练方案。
解决方案
SmolVLM通过创新的架构设计和优化策略来解决大型模型的资源消耗问题。其采用SmolLM2 1.7B作为语言模型基座,并使用9倍像素重排压缩策略优化图像处理块大小。
效果评估
在多个视觉语言基准测试中,SmolVLM展现出优异的资源效率,内存占用最优。与Qwen2-VL相比,SmolVLM在预填充和生成吞吐量方面均有显著提升,达到了可竞争的水平。
架构设计
SmolVLM的架构与Idefics3相似,但在语言模型和图像处理方面进行了关键调整,优化了图像块大小和压缩策略,以实现更高效的性能。
训练过程
训练SmolVLM时,首先扩展了SmolLM2的上下文长度,然后使用多种数据集进行训练。这一过程确保了模型可以有效处理长文本和多图像输入。
性能基准测试
SmolVLM在内存使用和吞吐量方面表现出色,适合在资源有限的设备上运行。其编码效率高,仅需1.2k个token即可处理单张图像,显著降低了内存消耗。
实战应用
SmolVLM已与VLMEvalKit集成,方便用户在其他基准测试上进行评估。同时,用户可以通过transformers库快速加载并进行微调,以适应不同的应用需求。
总结
SmolVLM作为一款开源的视觉语言多模态模型,虽然在中文性能上仍有待提升,但其出色的计算效率和资源占用优势使其在多模态模型市场保持竞争力。对于追求轻量级、高性价比模型的开发者而言,SmolVLM是一个值得关注的选择。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。