利用模型微调后表征不变性打造
原标题:专治大模型“套壳”!上海AI实验室等给LLM做“指纹识别”,模型剪枝、合并等也无所遁形
文章来源:量子位
内容字数:5065字
量子位投稿摘要:REEF方法有效检测大模型“套壳”行为
近日,来自上海AI Lab邵婧课题组的学者们提出了一种名为REEF(Representation Encoding Fingerprints)的方法,旨在有效检测大语言模型(LLM)的未经授权的后续开发行为,通常被称为“套壳”行为。该方法在不影响模型性能的情况下,通过表征编码实现对源模型的精准识别,为大模型开发团队应对侵权问题提供了新的解决方案。
1. REEF的关键思想
REEF依赖于模型在微调后的表征“不变性”,通过计算源模型与被测模型的CKA(中心核对齐)相似性来判断二者的关系。CKA是一种用于测量两组随机变量之间独立性的相似性指数,能够确保在不同的排列和缩放变换下保持鲁棒性。这一特点使得REEF能够有效识别经过剪枝、合并等处理后的衍生模型。
2. 实验验证与鲁棒性
研究者将REEF应用于多种通过微调、剪枝、合并等手段衍生出的模型,结果显示REEF在这些情况下依然能够准确识别源模型,验证了其优越的鲁棒性。具体而言,REEF在使用多达700B tokens进行微调时仍能保持高达0.9962的相似度,对高达90%的剪枝比率也表现出良好的识别准确性。
3. 跨数据集的有效性
REEF的有效性还体现在其对不同数据集的适应性。实验表明,REEF在多个数据集上均能稳定识别源模型,并且在样本量较少时也能实现可靠的指纹识别。这使得REEF不仅在实际应用中具备高效性,也为模型的知识产权保护提供了有力支持。
4. 结论与展望
REEF方法为大模型的开发与知识产权管理提供了一种新标准,推动了更透明与合作的AI社区。作者们相信,这一研究成果将促进AI模型的保护与安全可信性的发展。
相关论文链接:[REEF论文](https://arxiv.org/abs/2410.14273),项目主页:[REEF项目](https://github.com/tmylla/REEF)。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破