Meta对Transformer架构下手了：新注意力机制更懂推理

AIGC动态欢迎阅读

内容字数：5038字

内容摘要：机器之心报道编辑：杜伟、陈萍作者表示，这种全新注意力机制（Sytem 2 Attention）或许你也需要呢。大型语言模型（LLM）很强已经是一个不争的事实，但它们有时仍然容易犯一些简单的错误，表现出较弱的推理能力。举个例子，LLM 可能会因不相关的上下文或者输入提示中固有的偏好或意见做出错误的判断。后一种情况表现出的问题被叫做「阿谀奉承」，即模型与输入保持一致。有没有方法来缓解这类问题呢？有些学者试图通过添加更多监督训练数据或通过强化学习策略来解决，但这些无法从根本上解决问题。近日 Meta 研究者在论文《System 2 Attention (is something you might need too)》中认为，根本问题在于 Transformer 本身固有的构建方式，尤其是其注意力机制。也就是说，软注意力既倾向于将概率分配给大部分上下文（包括不相关的部分），也倾向于过度关注重复的…

原文链接：点此阅读原文：Meta对Transformer架构下手了：新注意力机制更懂推理

联系作者

文章来源：机器之心

作者微信：almosthuman2014

作者简介：专业的人工智能媒体和产业服务平台

AIGC动态上下文变体提示机制注意力

版权声明：atcat 发表于 2024-12-12 6:03:28。
转载请注明：Meta对Transformer架构下手了：新注意力机制更懂推理 | 86AIGC导航

暂无评论

暂无评论...

Meta对Transformer架构下手了：新注意力机制更懂推理

AIGC动态欢迎阅读

联系作者

Anthropic CEO：大模型训练成本暴涨，2027年将达1000亿美元！

ChatGPT在编码方面到底有多好？

暂无评论