突破Scaling Law：vivo AI Lab揭示文本分类任务中的数据质量提升新策略

用近一半数据，有效提升训练集的训练效率

原标题：Scaling Law不总是适用！尤其在文本分类任务中，vivo AI Lab提出数据质量提升解决方法
 文章来源：量子位
内容字数：4814字

近期，vivo AI Lab 研究团队提出了一种数据质量提升（DQE）的方法，旨在提高大语言模型（LLM）在文本分类任务中的准确性和效率。研究表明，传统的缩放定律并不总是适用，尤其是在文本分类任务中，扩增训练集的数据量可能导致数据冲突和冗余，从而影响模型性能。

首先，DQE方法对训练集进行初步的数据清洗，处理缺失值、重复数据和标签不一致的数据。接着，利用文本嵌入模型将文本转化为语义向量。通过贪婪采样，随机选择初始数据向量，每次选择与向量中心距离最远的数据以提升数据多样性。

最终收集50%的数据作为sampled，剩余50%作为unsampled。使用sampled数据集微调大语言模型，并通过向量检索将未采样数据中的预测错误分为Uncovered、Difficult和Noisy三种类型。通过这种分类，研究者能够更有效地优化模型性能。

Uncovered数据是指sampled未覆盖的数据，Difficult数据是难以学习的样本，而Noisy数据则是由于标签不一致造成的噪声。利用GPT-4o进行辅助判断，能够进一步提高标注的准确性。

在多个数据集（如MR、CR、IMDb等）上进行对比实验，结果显示DQE方法以更少的数据获得了更高的准确率，训练效率显著提升。统计显著性分析表明，DQE方法在大多数测试集上表现优于全量数据微调模型。

DQE方法为文本分类任务提供了一种新的思路，通过优化数据质量而非单纯增加数据量，有效提升了模型性能。在实际应用中，尤其是情感分析和用户意图识别等关键领域，数据质量的提升将有助于更好地服务于AI Agent的性能需求。

欲了解更多详情，请参考论文链接：论文地址。

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

暂无评论...