思考16小时后……o3选择了交白卷。
OpenAI 的 o3 模型:ARC-AGI 基准测试及局限性分析
OpenAI 最新发布的推理模型 o3 和 o3-mini 实现了在 ARC-AGI 基准测试上的突破,这是首个突破该基准的 AI 模型。ARC-AGI 基准测试已存在五年,一直未被攻克,该基准要求 AI 根据配对的「输入-输出」示例寻找规律,并基于输入预测输出。o3 在低计算量模式下每个任务需花费 17-20 美元,高计算量模式下则需数千美元。
o3 模型的突破与局限性
o3 模型在 ARC-AGI 基准测试中最低性能可达 75.7%,最高可达 87.5%(使用更多计算资源)。相比之下,o1 模型的准确率仅在 25% 到 32% 之间。但这并不意味着 o3 达到了 AGI 水平。在 400 个任务中,仍有 34 个任务 o3 无法解决,即使经过 16 小时的思考。
o3 失败案例分析:空间推理能力不足
文章分析了 o3 失败的几个案例,主要集中在空间推理方面。例如,在涉及二维网格操作的任务中,o3 常常出现照抄题干、答案错位、漏行漏列等问题,这表明其在处理空间信息和模式识别方面存在显著不足。即使在简单的图形操作中,o3 也表现出明显的局限性,无法准确识别和操作二维物体。
o3 失败案例细节
一个案例中,o3 无确输出网格,因为它无法处理在某些列上添加了错误的额外方块的情况。另一个案例中,o3 对于方块类型的题目完全束手无策,多次出现少生成一行或列的情况,表明其在处理重复模式和记忆方面存在缺陷。某些任务中,o3 的第一次尝试是正确的,但第二次尝试却给出了完全错误的答案,甚至直接“摆烂”。
对未来研究的启示
尽管 o3 在 ARC-AGI 基准测试中取得了显著进展,但其在某些简单任务上的失败也揭示了其与人类智能的根本差异。这些失败案例为未来的 AI 研究提供了宝贵的经验,提示我们需要进一步提升 AI 在空间推理、模式识别和记忆等方面的能力。
Keras 之父的评价
ARC-AGI 发起者 François Chollet 指出,o3 的高昂成本以及在一些简单任务上的失败,表明其并非真正的 AGI。他认为,o3 的表现并非仅仅是暴力计算的结果,而是人工智能适应新任务能力的重大飞跃,但仍然存在根本性的局限性。
总而言之,OpenAI 的 o3 模型在推理能力方面取得了显著进展,但距离真正的 AGI 还有很长的路要走。其在空间推理和模式识别方面的不足,为未来的 AI 研究指明了方向。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台