多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

最长150页文档

原标题：多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格
文章来源：量子位
内容字数：7061字

本文介绍了LongDocURL，一个用于全面评估大型视觉语言模型(LVLMs)多模态长文档理解能力的新基准。该基准由中科院自动化研究所刘成林课题组和淘天集团算法技术-未来生活实验室团队合作完成，旨在克服现有基准在处理长文档、复杂元素和多样化任务方面的局限性。

1. 长上下文：LongDocURL 专注于篇幅在 50～150 页的英文文档，平均页数高达 85.6 页，远超现有基准。这使得它能够更有效地评估模型处理长上下文信息的能力。

2. 多模态输入：该基准支持多模态输入（图像和文本），能够更全面地评估模型对文档图像和结构信息的理解能力。

3. 细粒度评估：LongDocURL 定义了三个主任务类别（理解、数值推理、跨元素定位）以及 20 个细分子任务，涵盖了更广泛的任务类型，例如表格解析、图表理解和跨元素关系分析。

4. 高质量数据：数据集经过模型自动验证和人工验证，确保了数据的准确性和可靠性。

LongDocURL 对当前的 LVLMs 构成了巨大的挑战。在 26 种不同的模型配置下进行的评估显示，即使是表现最好的 GPT-4o，准确率也仅为 64.5%，勉强及格。其他模型的表现则更加逊色，大部分甚至未及格。

1. 模型性能差异：闭源模型整体性能优于开源模型。在开源模型中，只有 Qwen2-VL 和 LLaVA-OneVision 的得分超过 20 分。

2. 多模态 vs. 纯文本：LVLM 的性能显著高于 LLM，这主要是因为纯文本输入在解析过程中丢失了重要的文档结构信息。

3. 细粒度分析：模型在文本问题上的表现最好，在表格问题上的表现最差，凸显了文档结构解析能力的不足。多页 QA 的准确率高于单页 QA，但一些强模型在多页 QA 上的定位任务得分较低，影响了整体表现。

4. 输入方式消融实验：实验表明，截断图像输入优于合并图像输入，而使用 Docmind 解析的文本输入优于 PyMuPDF 解析的文本输入，这说明保留完整的表格结构信息对模型性能至关重要。

LongDocURL 为评估 LVLMs 的长文档理解能力提供了一个更全面、细粒度的基准。其对现有模型的挑战性结果表明，未来的研究需要进一步提升模型处理长文档、复杂元素和多样化任务的能力。LongDocURL 的出现，将推动多模态长文档理解领域的发展，并为构建更强大的文档理解系统提供重要的参考。

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

暂无评论...