震撼发布！PaliGemma二代——视觉语言全能王引领多项任务SOTA新纪元！

原标题：DeepMind悄悄发布PaliGemma二代，最易微调「视觉语言全能王」来了，多项任务登顶SOTA
文章来源：新智元
内容字数：5540字

根据新智元的报道，谷歌悄然发布了PaliGemma 2模型，在多个任务上取得了行业领先的成绩。该模型在图像描述、乐谱识别和医学图像报告生成等领域表现突出，提供了多种尺寸和分辨率的版本，以满足不同任务的需求。

PaliGemma 2在PaliGemma的基础上进行了显著改进，增强了视觉能力并简化了微调过程。技术报告指出，该模型能够生成详细、上下文相关的图像描述，超越简单的对象识别。其在化学式识别、乐谱识别和放射学报告生成等方面的性能得到了提升。

研究人员遵循与PaliGemma相同的建模和训练设置，进行三阶段的预训练。第一阶段结合了预训练的视觉编码器和Gemma 2模型权重，第二阶段则针对不同分辨率的数据进行微调，第三阶段则将模型微调至目标任务。这种分阶段的训练方式确保了模型在各类任务中的高效性。

在文本检测、表格结构识别和乐谱识别等多项任务中，PaliGemma 2表现出色。尤其在高级光学字符识别（OCR）任务中，模型在896像素分辨率下的性能超越了其他先进模型，展示了其多功能性和在预训练阶段的优势。

研究还对PaliGemma 2的推理速度进行了评估，使用CPU进行推理的性能表现良好。同时，在量化实验中，从32位浮点转换到16位浮点的过程并未显著影响模型性能，证明了模型在资源使用方面的高效性。

PaliGemma 2模型通过一系列创新和优化，提升了视觉语言模型的性能，适应了多种任务需求。其在医学图像、乐谱识别及图像描述等领域的应用潜力巨大，为进一步的研究和开发奠定了基础。

联系作者

文章来源：新智元
作者微信：
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

暂无评论...