张俊林拆解o1:OpenAI o1原理逆向工程图解

张俊林拆解o1:OpenAI o1原理逆向工程图解

AIGC动态欢迎阅读

原标题:张俊林拆解o1:OpenAI o1原理逆向工程图解
关键字:模型,能力,逻辑推理,状态,概率
文章来源:Founder Park
内容字数:0字

内容摘要:


新浪微博机器学习团队 AI Lab 负责人张俊林,针对OpenAI o1原理进行逆向工程图解。
原贴:https://zhuanlan.zhihu.com/p/721952915OpenAI o1的推出称为横空出世不为过,尽管关于Q*、草莓等各种传闻很久了,用了强化学习增强逻辑推理能力这个大方向大家猜的也八九不离十,但是融合LLM和RL来生成Hidden COT,估计很少人能想到这点,而且目前看效果确实挺好的。
OpenAI奔向Close的路上越走越远,你要从o1官宣字面来看,除了“强化学习生成Hidden COT”外,基本找不到其它有技术含量的内容。Sora好歹还给出了个粗略的技术框架图,字里行间也透漏不少隐含的技术点,细心点总能发现很多蛛丝马迹,串起来之后整个背后的技术就若隐若现。而且,尽管目前有不少公开文献在用LLM+RL增强大模型的推理能力,但几乎找不到做Hidden COT生成的工作,所以可供直接参考的内容非常少,这为分析o1进一步增添了难度。
那是否就没办法了呢?倒也不一定,如果多观察细节,再加上一些专业性的推论,我觉得还是有痕迹可循的。本文以相对容易理解的方式来对o1做些


原文链接:张俊林拆解o1:OpenAI o1原理逆向工程图解

联系作者

文章来源:Founder Park
作者微信:
作者简介:

版权声明:atcat 发表于 2024-12-30 12:00:06。
转载请注明:张俊林拆解o1:OpenAI o1原理逆向工程图解 | 86AIGC导航

暂无评论

暂无评论...