DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

双双掉进弱智吧陷阱

原标题：DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了
文章来源：量子位
内容字数：2672字

国产大模型DeepSeek V3强势崛起，与Claude 3.5 Sonnet展开激烈竞争

近日，国产大模型DeepSeek V3在竞技场排名中表现亮眼，优于o1-mini，位列总榜第七，并荣获最强开源模型认证，成为唯一进入前十的开源模型。在困难提示、编程、数学和写作等方面，DeepSeek V3全面超越Claude 3.5 Sonnet，引发了双方支持者激烈的讨论。

1. 竞技场排名与实测对比： DeepSeek V3在竞技场排名中表现突出，但在实际应用中与Claude 3.5 Sonnet的优劣仍存在争议。量子位及网友进行了实测，结果显示两款模型各有千秋。

2. 脑筋急转弯测试： 简单的脑筋急转弯测试中，DeepSeek V3和Claude 3.5 Sonnet均能正确解答中文脑筋急转弯。但在英文双关语测试中，DeepSeek V3未能理解双关含义，而Claude 3.5 Sonnet轻松解答，显示出Claude 3.5 Sonnet在处理英文语境下的幽默和双关方面更具优势，DeepSeek V3可能更擅长中文语境。

3. 逻辑陷阱与反转诅咒测试： 在弱智吧逻辑陷阱测试中，两款模型均未能给出正确答案。但在“反转诅咒”测试中，两款模型均正确回答了关于Mary Lee Pfeiffer儿子身份的问题。

4. 数学能力测试： 考研数学真题测试中，DeepSeek V3能够详细解答并给出正确答案，而Claude 3.5 Sonnet虽然方法简便，但最终答案错误。

5. 编码能力测试： 网友在Scroll Hub中使用两款模型创建网站的测试结果显示，DeepSeek V3完全胜出。

6. o1模型空降第一： OpenAI的o1模型满血版上线，在竞技场排名中超越o1-preview 24分，空降总榜第一，除了创意写作，各个单项均排名第一。

7. 总结： 有限的测试结果显示DeepSeek V3与Claude 3.5 Sonnet各有优势，DeepSeek V3在部分领域表现更强，尤其是在中文语境和编码方面。但Claude 3.5 Sonnet在处理英文双关和一些特定场景下表现更出色。o1模型的出现，也进一步加剧了大模型领域的竞争。

8. 进一步探讨： 实际应用中，模型的优劣还取决于具体的应用场景和任务需求，用户需要根据自身需求选择合适的模型。