颠覆传统：腾讯优图与中科大携手推出全新模型知识蒸馏SOTA！

一种基于Sinkhorn距离的知识蒸馏 方法

原标题：模型知识蒸馏新SOTA！告别传统散度蒸馏｜腾讯优图&中科大出品
文章来源：量子位
内容字数：6619字

最近，中科大和腾讯优图实验室提出了一种新的知识蒸馏方法SinKD，旨在通过Sinkhorn距离来改善大语言模型（LLMs）向小模型的知识转移。这一方法能够在不同类型和架构的LLMs上实现更优秀的性能，超越了现有的最先进技术（SOTA）。

知识蒸馏（KD）是一种通过对教师模型的输出进行软目标对齐，将其知识传递给学生模型的技术。传统的KD方法主要依赖于KL散度、RKL散度和JS散度等度量，这些方法在模型输出差异较大时表现不佳，容易导致学生模型学习到过于平滑或低估稀有事件的概率。

SinKD采用了Sinkhorn距离作为新的散度度量，克服了传统KD方法的局限性。Sinkhorn距离能够更准确地衡量教师和学生模型之间的差异，避免了KL散度的非对称性，以及模式崩溃与模式平均的问题。此外，SinKD通过批量重构捕捉样本分布的几何复杂性，使得模型在高维空间中更具适应性。

SinKD方法的核心在于使用批量化的Sinkhorn距离来进行知识蒸馏。该方法通过定义一个包含多个样本的批次来整体参与散度度量，显著提高了对复杂分布的捕捉能力。此外，SinKD还适用于回归任务及独热标签微调，从而扩展了其应用范围。

在GLUE和SuperGLUE等多个自然语言处理任务上，SinKD显示出显著的性能提升，相较于基线和当前SOTA方法，均取得了更好的结果。消融实验表明，Sinkhorn损失对学生模型的提升作用最大，批量化的SinKD优于逐样本的KD方法。

SinKD方法不仅解决了现有知识蒸馏技术的不足，还通过批量化重构增强了模型的表现。研究表明，SinKD在各种任务和模型架构中表现优异，未来将有望在计算机视觉等其他领域进一步应用。

如需了解更多细节，请查阅原论文链接。

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

暂无评论...