“破解AI黑箱：上海实验室揭示大模型‘指纹’与剪枝合并的秘密！”

利用模型 微调后表征不变性打造

原标题：专治大模型“套壳”！上海AI实验室等给LLM做“指纹识别”，模型剪枝、合并等也无所遁形
文章来源：量子位
内容字数：5065字

量子位投稿摘要：REEF方法有效检测大模型“套壳”行为

近日，来自上海AI Lab邵婧课题组的学者们提出了一种名为REEF（Representation Encoding Fingerprints）的方法，旨在有效检测大语言模型（LLM）的未经授权的后续开发行为，通常被称为“套壳”行为。该方法在不影响模型性能的情况下，通过表征编码实现对源模型的精准识别，为大模型开发团队应对侵权问题提供了新的解决方案。

1. REEF的关键思想

REEF依赖于模型在微调后的表征“不变性”，通过计算源模型与被测模型的CKA（中心核对齐）相似性来判断二者的关系。CKA是一种用于测量两组随机变量之间独立性的相似性指数，能够确保在不同的排列和缩放变换下保持鲁棒性。这一特点使得REEF能够有效识别经过剪枝、合并等处理后的衍生模型。

2. 实验验证与鲁棒性

研究者将REEF应用于多种通过微调、剪枝、合并等手段衍生出的模型，结果显示REEF在这些情况下依然能够准确识别源模型，验证了其优越的鲁棒性。具体而言，REEF在使用多达700B tokens进行微调时仍能保持高达0.9962的相似度，对高达90%的剪枝比率也表现出良好的识别准确性。

3. 跨数据集的有效性

REEF的有效性还体现在其对不同数据集的适应性。实验表明，REEF在多个数据集上均能稳定识别源模型，并且在样本量较少时也能实现可靠的指纹识别。这使得REEF不仅在实际应用中具备高效性，也为模型的知识产权保护提供了有力支持。

4. 结论与展望

REEF方法为大模型的开发与知识产权管理提供了一种新标准，推动了更透明与合作的AI社区。作者们相信，这一研究成果将促进AI模型的保护与安全可信性的发展。

相关论文链接：[REEF论文](https://arxiv.org/abs/2410.14273)，项目主页：[REEF项目](https://github.com/tmylla/REEF)。

联系作者

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

AIGC动态人工智能实验室大模型指纹识别模型剪枝模型合并

版权声明：atcat 发表于 2024-12-14 21:04:22。
转载请注明：“破解AI黑箱：上海实验室揭示大模型‘指纹’与剪枝合并的秘密！” | 86AIGC导航

暂无评论

暂无评论...