网友:按价格算也对的上
微软论文“泄露”OpenAI模型参数,引发热议
近日,一篇由微软发布的医学相关论文意外泄露了多个大型语言模型(LLM)的参数信息,其中包括OpenAI的GPT-4系列和Anthropic的Claude 3.5 Sonnet等,引发了广泛关注和讨论。
1. 论文核心内容及参数泄露
这篇名为MEDEC的论文旨在评估LLM在医学临床笔记错误识别和纠正方面的能力。研究人员使用多个LLM进行实验,并在论文中列出了这些模型的参数信息,包括GPT-4o (约200B参数)、GPT-4o-mini (约8B参数)、o1-preview (约300B参数) 、Claude 3.5 Sonnet (约175B参数)等。 微软也公布了其自研模型Phi-3-7B的参数为7B。论文虽然声明这些数字是估计值,但其精确度之高引发质疑,尤其是在缺少谷歌Gemini模型参数估计的情况下。
2. 参数泄露的争议
这不是微软第一次在论文中“意外”泄露OpenAI模型参数。去年10月,一篇论文就曾泄露GPT-3.5-Turbo的20B参数,随后被删除。此次再次引发人们对微软行为的质疑,是无意之失还是故意为之?
有人认为,大多数模型在英伟达GPU上运行,可以通过token生成速度来估计参数,而谷歌模型使用TPU,所以难以估计,这可能是微软只公布部分模型参数的原因。但也有人认为,微软对公布的数据有信心,才敢如此“大胆”。
3. 网友热议与推测
此次参数泄露引发网友热议,主要集中在以下几个方面:
- Claude 3.5 Sonnet参数小于GPT-4o,暗示Anthropic可能拥有技术优势。
- GPT-4o-mini只有8B参数令人难以置信,但根据此前推理成本计算,这个数字并非完全不可能,可能指的是MoE模型的激活参数。
- OpenAI对模型参数的保密性极高,此次泄露再次凸显了其对开源模型的谨慎态度。
4. 总结
微软论文泄露LLM参数再次引发了人们对大型模型参数保密性和模型架构的关注。虽然论文声明数字为估计值,但其精确度和选择性引发了诸多猜测和讨论。OpenAI对模型参数的严格保密策略,以及业界对模型架构和参数规模的持续探索,都将持续影响着AI领域的发展。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破
暂无评论...