o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观

0 0 8

编写一个 Python 脚本，让一个球在某个形状内弹跳

原标题：o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观
文章来源：机器之心
内容字数：4083字

近日，OpenAI发布全新推理模型系列o3-mini，其成本降低至o1系列的1/15，并首次向免费用户开放。这一举动打破了DeepSeek R1此前在大模型圈的统治地位，引发网友热议。

DeepSeek R1的辉煌与挑战
此前，DeepSeek R1在“编写球在旋转形状内弹跳的Python脚本”任务中击败了OpenAI o1 pro、Claude 3.5 Sonnet和谷歌Gemini 1.5 Pro等模型，风靡全球。然而，o3-mini的出现改变了这一局面。
o3-mini的强势表现
在相同的“球在旋转六边形内弹跳”任务中，o3-mini展现出更优秀的碰撞、弹跳效果，对重力和摩擦力的理解也更为准确。在模拟球在四维超立方体内部弹跳的任务中，o3-mini也表现出更稳定的几何结构和更灵活的轨迹，而DeepSeek R1则出现了一些诡异的和形状简化的问题。
多场景测试对比
AIGC从业者@myapdx使用更复杂的“100个小球在旋转球体内部弹跳”任务进行测试，o3-mini完美满足了所有要求，DeepSeek R1的表现也不差。测试结果显示，o3-mini在理解真实世界物理规律方面表现出色，尤其在对重力、摩擦力等物理状态的“世界模型”理解上有所突破。
DeepSeek R1的不足与猜测
一些网友指出DeepSeek R1在某些测试中只生成一个球，可能是因为模型“想得太多”。OpenAI也在发布博客中提到，o3-mini在博士级科学问题上的表现优于o1系列。
结论
o3-mini的出现标志着大模型在理解物理规律方面取得了显著进展。虽然DeepSeek R1仍具备竞争力，但o3-mini在某些特定任务上的表现更为出色，这场大模型之间的较量仍在继续。

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

暂无评论...