微调的陷阱：大模型为何可能变“傻”？

原标题：关于微调导致大模型“降智”的一些思考
文章来源：夕小瑶科技说
内容字数：3202字

探索SFT模型的知识掌握与幻觉现象

在最近一次轻松的讨论中，我们聚焦于SFT（Supervised Fine-Tuning）后模型与预训练模型在知识掌握层面的差异。尽管SFT后模型在某些应用中表现不如预训练模型，但其原因却值得深入探讨。

1. 数据分布差异

首先，从统计学的角度来看，SFT数据与预训练数据的分布差异显著。这种偏离导致模型在知识掌握上出现幻觉现象。为了解决这个问题，学术界提出了多种解决方案，比如在SFT阶段引入预训练数据，或在预训练阶段采用SFT数据等。这些方法旨在缩小两者之间的分布差异。

2. 训练过程中的局部最优

其次，从训练过程来看，SFT过程中的训练周期较长、学习率设置较小、数据质量高等因素，可能导致模型陷入局部最优。因此，SFT的过程似乎像是一个大的退火阶段，但却并未引入明显的幻觉现象。

3. 捷径思维的影响

讨论的高潮来自于一个哲学角度的思考，即“捷径”。SFT模型试图通过“捷径”直接给出答案，而非逐步推导。这种方式虽然提升了回答的效率，但相应地增加了幻觉现象的风险。以中国的首都问题为例，预训练模型可能需要多次推导，而SFT模型则直接给出“北京”。这背后的信息量和推导过程的缺失，容易导致模型在其他知识上也产生幻觉。

4. 反思与未来的实验方向

最后，我们提出了一个实验设想：将预训练模型的推理过程延长，通过续写大量token再总结，从而避免模型在知识推导时走捷径。这一思路虽然引向了O1（OpenAI提出的技术路线），但也引发了对该方法实际可行性的思考。

此次讨论不仅拓宽了我们对模型学习过程的理解，也为未来的研究方向提供了新的视角。希望下次能够继续探讨与O1相关的其他话题。

联系作者

文章来源：夕小瑶科技说
作者微信：
作者简介：专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员，覆盖500多家海内外机构投资人，互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189

AIGC动态人工智能大模型微调行业影响降智

版权声明：atcat 发表于 2024-12-05 20:30:51。
转载请注明：微调的陷阱：大模型为何可能变“傻”？ | 86AIGC导航

暂无评论

暂无评论...