原标题:Tokenization,再见!Meta提出大概念模型LCM,1B模型干翻70B?
文章来源:新智元
内容字数:13114字
Meta提出颠覆性大概念模型(LCM):超越token,开启AI新纪元
Meta AI的研究人员近日提出了一种全新的语言建模范式——大概念模型(Large Concept Model,LCM),它彻底改变了传统大语言模型(LLM)的工作方式,有望成为AI领域的一匹黑马。
1. LCM的核心思想:从token到概念
不同于现有的LLM基于token进行预测,LCM直接在句子嵌入空间上对推理进行建模,抛弃了token,转而使用更高层次的“概念”。一个“概念”通常对应于一个句子或等效的语音片段,代表着一种整体的、不可分的抽象见解。这种方法使得LCM能够在抽象的、语言和模态无关的层面上进行推理,从而超越了token的限制。
2. LCM的架构与工作流程
LCM的架构相对简单,只需要一个固定长度的句子嵌入空间的编码器和解码器。首先,输入内容被分割成句子,然后编码器将每个句子编码成一个“概念”向量(句子嵌入);接着,LCM对这些“概念”序列进行处理;最后,解码器将生成的“概念”序列解码成子词序列。 Meta使用了其开源的SONAR模型作为编码器和解码器。
3. LCM的优势与特点
LCM具有诸多优势,包括:
- 高效的推理效率:在长文本处理方面,LCM的计算资源需求远低于同等性能的LLM,尤其是在处理超过1000个token的文本时优势更加明显。
- 语言和模态无关:LCM能够同时对多种语言和模态进行训练,并实现无偏见的扩展性,目前已支持200种语言的文本输入。
- 明确的层次结构:提高了长文本输出的可读性和用户交互性。
- 强大的零样本泛化能力:LCM可以在任何语言或模态下进行预训练和微调。
- 模块化和可扩展性:编码器和解码器可以开发和优化,方便添加新的语言或模态。
4. LCM的训练与改进
LCM的训练需要将原始文本数据集转换为SONAR嵌入序列。文章探讨了多种句子分割方法,并比较了其性能。此外,文章还提出了基于扩散模型的LCM,以及量化LCM的方法,以提高模型的效率和生成能力。 不同的噪音进度(例如余弦、二次函数和Sigmoid)和加权策略被用来优化模型。
5. LCM的性能评估
文章对LCM在摘要、长文档总结和摘要扩展等任务上的性能进行了评估,结果显示LCM在这些任务上展现出了具有竞争力的性能,尤其是在零样本泛化能力方面表现出色。 与其他LLM相比,LCM在处理多语言任务时,尤其是在低资源语言上,展现出显著的优势。
6. 总结与展望
Meta的大概念模型代表了对传统LLM范式的一种突破,它在推理效率、语言和模态无关性、以及零样本泛化能力等方面都展现出了巨大的潜力。虽然目前LCM仍需进一步改进以达到现有顶尖LLM的性能,但其提出的新范式无疑为未来AI的发展方向指明了新的道路。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。