破解复杂问题的智能探索:阿里多模态检索智能体的创新思维之旅


可适配不同模型

破解复杂问题的智能探索:阿里多模态检索智能体的创新思维之旅

原标题:阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解,动态调整下一步检索策略
文章来源:量子
内容字数:4181字

OmniSearch:自适应规划的多模态检索智能体

近日,阿里通义实验室发布了OmniSearch,这是一种新的多模态检索增强生成(mRAG方法,旨在模拟人类问题解决的思维方式。OmniSearch能够将复杂问题逐步拆解,并根据当前的检索结果和问题情境动态调整检索策略,从而提升检索效率和生成内容的准确性。

1. OmniSearch的核心架构

OmniSearch的设计克服了传统mRAG方法的局限,具有以下几个核心组件:

  • 规划智能体(Planning Agent):负责解析原始问题,并制定逐步的检索策略。
  • 检索器(Retriever):执行图像文本及跨模态的检索任务。
  • 子问题求解器(Sub-question Solver):总结和解答检索到的信息,具备高度可扩展性。
  • 迭代推理与检索(Iterative Reasoning and Retrieval):通过递归检索和推理逐步接近问题的最终答案。
  • 反馈循环机制(Feedback Loop):在每一步检索和推理后反思检索结果,以提高检索的精确度。

2. Dyn-VQA数据集的构建与实验评估

为评估OmniSearch的性能,研究团队构建了新数据集Dyn-VQA,涵盖1452个动态问题,主要分为以下三类:

  • 答案快速变化的问题:如明星电影票房等,需要动态再检索能力
  • 多模态知识需求的问题:需结合图像和文本信息来获取答案。
  • 多跳问题:需要多个推理步骤以得出答案。

实验结果显示,OmniSearch在这三类问题上均表现优异,特别是在处理需要多步推理和快速变化答案的问题时,准确率显著高于现有的mRAG方法。

3. 性能优势与模块化能力

在多个基准数据集上,OmniSearch达到了接近人类的表现。例如,在VQAv2数据集中,其准确率达到了70.34,超越了传统mRAG方法。OmniSearch的模块化设计允许灵活集成不同规模的多模态大语言模型(MLLM),为复杂问题提供解决方案。

整体而言,OmniSearch通过动态检索规划框架,突破了传统mRAG的局限性,展现出强大的多模态检索能力和灵活的模型集成特性,为未来的智能检索系统提供了新的方向。

4. 进一步阅读与资源

欲了解更多信息,可以访问以下链接:


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

暂无评论

暂无评论...