可适配不同模型
原标题:阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解,动态调整下一步检索策略
文章来源:量子位
内容字数:4181字
OmniSearch:自适应规划的多模态检索智能体
近日,阿里通义实验室发布了OmniSearch,这是一种新的多模态检索增强生成(mRAG)方法,旨在模拟人类问题解决的思维方式。OmniSearch能够将复杂问题逐步拆解,并根据当前的检索结果和问题情境动态调整检索策略,从而提升检索效率和生成内容的准确性。
1. OmniSearch的核心架构
OmniSearch的设计克服了传统mRAG方法的局限,具有以下几个核心组件:
- 规划智能体(Planning Agent):负责解析原始问题,并制定逐步的检索策略。
- 检索器(Retriever):执行图像、文本及跨模态的检索任务。
- 子问题求解器(Sub-question Solver):总结和解答检索到的信息,具备高度可扩展性。
- 迭代推理与检索(Iterative Reasoning and Retrieval):通过递归检索和推理逐步接近问题的最终答案。
- 反馈循环机制(Feedback Loop):在每一步检索和推理后反思检索结果,以提高检索的精确度。
2. Dyn-VQA数据集的构建与实验评估
为评估OmniSearch的性能,研究团队构建了新数据集Dyn-VQA,涵盖1452个动态问题,主要分为以下三类:
- 答案快速变化的问题:如明星电影票房等,需要动态再检索能力。
- 多模态知识需求的问题:需结合图像和文本信息来获取答案。
- 多跳问题:需要多个推理步骤以得出答案。
实验结果显示,OmniSearch在这三类问题上均表现优异,特别是在处理需要多步推理和快速变化答案的问题时,准确率显著高于现有的mRAG方法。
3. 性能优势与模块化能力
在多个基准数据集上,OmniSearch达到了接近人类的表现。例如,在VQAv2数据集中,其准确率达到了70.34,超越了传统mRAG方法。OmniSearch的模块化设计允许灵活集成不同规模的多模态大语言模型(MLLM),为复杂问题提供解决方案。
整体而言,OmniSearch通过动态检索规划框架,突破了传统mRAG的局限性,展现出强大的多模态检索能力和灵活的模型集成特性,为未来的智能检索系统提供了新的方向。
4. 进一步阅读与资源
欲了解更多信息,可以访问以下链接:
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破
暂无评论...