LongDocURL

LongDocURL – 中科院联合淘天集团推出的多模态长文档理解基准 数据集

LongDocURL是由中国科学院自动化研究所与阿里巴巴淘宝天猫集团共同推出的多模态长文档理解基准数据集，旨在评估AI模型在处理长文本、复杂元素和多样化任务时的理解、推理和定位能力。数据集包含2,325个问答对，覆盖超过33,000页文档，涵盖20个子任务，推动文档理解技术的进步。

LongDocURL是一个专注于长文档理解的基准数据集，由中国科学院自动化研究所与阿里巴巴淘宝天猫集团联合发布。该数据集旨在评估模型在处理复杂文本、识别关键段落及分析文档结构方面的能力。数据集包括2,325个问答对，涉及超过33,000页的文档，涵盖20个子任务，旨在促进长文档理解技术的发展。

多模态文档理解：LongDocURL旨在评估模型处理包含文本、图像和表格等多种内容的长文档的能力。这涉及将文档的不同元素整合到共享的多模态嵌入空间，以便模型能够理解和推理这些元素之间的关系。
页面检索与问答生成：LongDocURL使用多模态检索模型（如ColPali）来查找与查询相关的页面，并利用多模态语言模型（如Qwen2-VL）结合页面图像和查询进行视觉问答，生成最终答案。
半自动化构建流程：LongDocURL通过一个半自动化的流程构建数据集，包括文档提取与过滤、问答生成、自动化验证和人工验证四个模块。这一流程能够高效地从大量文档中生成高质量的问答对，并确保内容质量。
模型评估：LongDocURL提出了一个新的基准，包含2,441个多跳问题，分布在3,368个PDF文档中，总计41,005页。每个问题都由一个或多个文档中的证据支持，涵盖文本、图像和表格等多种形式，反映现实世界文档的复杂性和多样性。
任务分类：LongDocURL将任务分为理解、推理和定位三个主要类别，进一步细分为20个子任务，支持更细致的评估。

版权声明：atcat 发表于 2025-01-06 14:14:49。
转载请注明：LongDocURL | 86AIGC导航

暂无评论...