多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格


最长150页文档

多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格

原标题:多模态长文档基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格
文章来源:量子
内容字数:7061字

LongDocURL:评估多模态长文档理解能力的新基准

本文介绍了LongDocURL,一个用于全面评估大型视觉语言模型(LVLMs)多模态长文档理解能力的新基准。该基准由中科院自动化研究所刘成林课题组和淘天集团算法技术-未来生活实验室团队合作完成,旨在克服现有基准在处理长文档、复杂元素和多样化任务方面的局限性。

LongDocURL 的创新之处

1. 上下文LongDocURL 专注于篇幅在 50~150 页的英文文档,平均页数高达 85.6 页,远超现有基准。这使得它能够更有效地评估模型处理长上下文信息的能力。

2. 多模态输入:该基准支持多模态输入(图像文本),能够更全面地评估模型对文档图像和结构信息的理解能力。

3. 细粒度评估:LongDocURL 定义了三个主任务类别(理解、数值推理、跨元素定位)以及 20 个细分子任务,涵盖了更广泛的任务类型,例如表格解析、图表理解和跨元素关系分析。

4. 高质量数据数据集经过模型自动验证和人工验证,确保了数据的准确性和可靠性。

LongDocURL 的挑战性

LongDocURL 对当前的 LVLMs 构成了巨大的挑战。在 26 种不同的模型配置下进行的评估显示,即使是表现最好的 GPT-4o,准确率也仅为 64.5%,勉强及格。其他模型的表现则更加逊色,大部分甚至未及格。

实验结果与分析

1. 模型性能差异:闭源模型整体性能优于开源模型。在开源模型中,只有 Qwen2-VL 和 LLaVA-OneVision 的得分超过 20 分。

2. 多模态 vs. 纯文本:LVLM 的性能显著高于 LLM,这主要是因为纯文本输入在解析过程中丢失了重要的文档结构信息。

3. 细粒度分析:模型在文本问题上的表现最好,在表格问题上的表现最差,凸显了文档结构解析能力的不足。多页 QA 的准确率高于单页 QA,但一些强模型在多页 QA 上的定位任务得分较低,影响了整体表现。

4. 输入方式消融实验:实验表明,截断图像输入优于合并图像输入,而使用 Docmind 解析的文本输入优于 PyMuPDF 解析的文本输入,这说明保留完整的表格结构信息对模型性能至关重要。

结论

LongDocURL 为评估 LVLMs 的长文档理解能力提供了一个更全面、细粒度的基准。其对现有模型的挑战性结果表明,未来的研究需要进一步提升模型处理长文档、复杂元素和多样化任务的能力。LongDocURL 的出现,将推动多模态长文档理解领域的发展,并为构建更强大的文档理解系统提供重要的参考。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

暂无评论

暂无评论...