Prompt自相矛盾，大模型能发现吗？上海交通大学最新研究解密 | ECCV 2024

AIGC动态欢迎阅读

原标题：Prompt自相矛盾，大模型能发现吗？上海交通大学最新研究解密 | ECCV 2024
关键字：模型,指令,冲突,能力,语义
 文章来源：量子位
内容字数：0字

内容摘要：

上海交通大学王德泉课题组投稿量子位 | 公众号 QbitAI上海交通大学王德泉教授课题组在最新研究中提出了这样的一个问题。
设想这样一个场景：一个幼儿园的小朋友拿着一张老虎的图片，向你询问：“这个小猫很可爱，它是一只母猫么？”你会如何回答？
你可能并不会直接回答“是”或“不是”，而是首先指出这个提问中的“矛盾”所在——这张图片是一只老虎，而不是猫。
但关于大模型会怎样应对，之前很少有系统性的研究。
要知道，无法检测出“指令冲突”的AI模型会针对“不应该有答案的问题”生成结果，而无论生成的结果偏向于冲突的哪一方，都会引发潜在的灾难，影响AI安全性以及Superalignment（超级对齐）。
在最新的这项研究中，团队提出了多模态基准测试——自相矛盾指令集，并设计了一个创新的自动数据集创建框架，名为AutoCreate。
团队发现多模态大模型对于自相矛盾的用户指令的检测非常欠缺，因此提出了认知唤醒提示方法（CAP），从外部世界注入认知能力从而提高了矛盾检测的能力。
该论文即将发表在今年10月份的第18届欧洲计算机视觉大会（ECCV）上。
大模型能检测到冲突指令吗？目前，多模态大模型在科研