微软论文意外「」，OpenAI参数全泄密！GPT-4o仅200B，o1 300B

原标题：微软论文意外「」，OpenAI 参数全泄密！GPT-4o仅200B，o1 300B
文章来源：新智元
内容字数：11086字

微软华盛顿大学研究：GPT-4参数意外曝光，LLM在医疗 错误检测中的表现

近日，一篇发表在arXiv上的论文意外曝光了OpenAI多个模型的参数，其中包括GPT-4、GPT-4o及其mini版本等。更令人惊讶的是，GPT-4o mini模型的参数量仅为80亿，远低于预期。该论文由微软和华盛顿大学的研究团队合作完成，主要关注的是利用大型语言模型(LLM)进行医疗错误检测和纠正。

1. **模型参数的意外披露:** 论文中意外披露了GPT-4参数约为1.76万亿，GPT-4o约为2000亿，GPT-4o mini约为80亿，o1-preview约为3000亿，o1-mini约为1000亿，Claude 3.5 Sonnet约为1750亿。这些参数值均为估算值。GPT-4o mini模型参数量之小引发了广泛讨论，部分网友推测其可能采用了MoE（混合专家）架构。

2. **MEDEC数据集的构建与特点:** 论文的核心是MEDEC数据集的介绍及应用。MEDEC是一个全新的临床笔记数据集，包含3848篇临床文本，涵盖诊断、管理、治疗、药物治疗和致病因子五种类型的医疗错误。该数据集的构建方法独特，结合了医学委员会考试题目和真实临床笔记，并由多位医学标注员进行标注，保证了数据的质量和可靠性。MEDEC数据集的出现，为评估LLM在医疗领域的应用提供了重要的基准。

3. **LLM在医疗错误检测和纠正中的表现:** 研究人员使用MEDEC数据集评估了包括GPT-4、Claude 3.5 Sonnet、o1系列和Gemini 2.0 Flash等多个先进LLM在医疗错误检测和纠正方面的表现。结果显示，这些LLM在错误检测和纠正方面表现良好，但仍存在一定的局限性，与人类医生的表现存在差距。例如，部分模型存在过度预测错误的情况（即产生幻觉）。此外，模型在基于真实临床笔记（UW子集）上的表现不如基于公开文本（MS子集）的表现好，这可能与模型预训练数据相关。

4. **研究结论与未来方向:** 研究表明，虽然LLM在医疗错误检测和纠正方面展现出潜力，但要达到人类医生的水平仍需进一步研究。未来的研究方向包括改进提示词设计、优化模型训练数据以及开发更有效的评估指标等。该研究强调了在将LLM应用于医疗领域时，需要谨慎评估其性能，并采取必要的措施来保证其安全性与可靠性。

5. **研究团队背景:** 该研究由微软和华盛顿大学的研究人员共同完成，团队成员包括来自应用科学、医学信息学和语言学等多个领域的专家，拥有丰富的研究经验和专业知识。