最长150页文档
原标题:多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格
文章来源:量子位
内容字数:7061字
LongDocURL:评估多模态长文档理解能力的新基准
本文介绍了LongDocURL,一个用于全面评估大型视觉语言模型(LVLMs)多模态长文档理解能力的新基准。该基准由中科院自动化研究所刘成林课题组和淘天集团算法技术-未来生活实验室团队合作完成,旨在克服现有基准在处理长文档、复杂元素和多样化任务方面的局限性。
LongDocURL 的创新之处
1. 长上下文:LongDocURL 专注于篇幅在 50~150 页的英文文档,平均页数高达 85.6 页,远超现有基准。这使得它能够更有效地评估模型处理长上下文信息的能力。
2. 多模态输入:该基准支持多模态输入(图像和文本),能够更全面地评估模型对文档图像和结构信息的理解能力。
3. 细粒度评估:LongDocURL 定义了三个主任务类别(理解、数值推理、跨元素定位)以及 20 个细分子任务,涵盖了更广泛的任务类型,例如表格解析、图表理解和跨元素关系分析。
4. 高质量数据:数据集经过模型自动验证和人工验证,确保了数据的准确性和可靠性。
LongDocURL 的挑战性
LongDocURL 对当前的 LVLMs 构成了巨大的挑战。在 26 种不同的模型配置下进行的评估显示,即使是表现最好的 GPT-4o,准确率也仅为 64.5%,勉强及格。其他模型的表现则更加逊色,大部分甚至未及格。
实验结果与分析
1. 模型性能差异:闭源模型整体性能优于开源模型。在开源模型中,只有 Qwen2-VL 和 LLaVA-OneVision 的得分超过 20 分。
2. 多模态 vs. 纯文本:LVLM 的性能显著高于 LLM,这主要是因为纯文本输入在解析过程中丢失了重要的文档结构信息。
3. 细粒度分析:模型在文本问题上的表现最好,在表格问题上的表现最差,凸显了文档结构解析能力的不足。多页 QA 的准确率高于单页 QA,但一些强模型在多页 QA 上的定位任务得分较低,影响了整体表现。
4. 输入方式消融实验:实验表明,截断图像输入优于合并图像输入,而使用 Docmind 解析的文本输入优于 PyMuPDF 解析的文本输入,这说明保留完整的表格结构信息对模型性能至关重要。
结论
LongDocURL 为评估 LVLMs 的长文档理解能力提供了一个更全面、细粒度的基准。其对现有模型的挑战性结果表明,未来的研究需要进一步提升模型处理长文档、复杂元素和多样化任务的能力。LongDocURL 的出现,将推动多模态长文档理解领域的发展,并为构建更强大的文档理解系统提供重要的参考。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破