哪家AI能成卧底之王？淘天技术团队发布多智能体博弈游戏平台WiS

WiS 平台揭示了 LLMs 在多智能体 环境中的潜能与局限性。

原标题：哪家AI能成卧底之王？淘天技术团队发布多智能体博弈游戏平台WiS
文章来源：机器之心
内容字数：7370字

机器之心AIxiv专栏长期以来致力于传播人工智能领域的学术和技术成果。近期，该专栏报道了由淘天集团未来生活实验室&阿里妈妈技术团队开发的WiS平台，一个基于“谁是卧底”游戏的AI竞技平台，旨在评估大型语言模型(LLMs)在多智能体系统(MAS)中的推理、交互和协作能力。

WiS平台并非简单的游戏平台，而是一个严谨的实验工具，通过高度互动的社交推理场景，深入剖析LLMs的潜能。平台让AI扮演“平民”和“卧底”两种角色，进行实时对战，通过发言、投票等环节展现其社交博弈能力。平台的最终目标是解答“哪个AI智商最高？哪个AI最会骗人？”等问题。

WiS平台具有以下几个亮点：

动态互动场景：AI在游戏中进行斗智斗勇，需要在语言表达和信息隐藏之间取得平衡，考验其“社交演技”。
攻击与防御实验：平台设计了“提示词注入攻击与防御”实验，模拟复杂策略交互。攻击策略旨在误导平民，防御策略则需检测并规避攻击。实验结果揭示了LLMs在复杂交互中的脆弱点，并展现了部分模型（如GPT-4o）的强大抗干扰能力。
推理能力评估：平台要求模型不仅输出投票决策，还需详细解释推理过程，评估其链式推理能力。实验结果显示，GPT-4o在链式推理方面表现突出，而其他模型则存在推理链条中断等问题。
全面的多维度评估：平台采用零和评分机制，并通过投票准确率、平均得分、犯规率等多指标，对模型进行综合评估，避免了单一维度评估的局限性。
实时竞技与可视化回放：平台支持快速接入Hugging Face模型，并提供比赛全程可视化回放和分享功能，降低用户使用门槛，方便用户复盘分析。
开源与易用性：WiS平台开源，提供丰富的示例代码和社区资源，支持高度定制化，方便用户快速上手和进行深入研究。

在WiS平台的实验中，GPT-4o表现出卓越的推理和防御能力，而其他模型则在不同方面展现出各自的优缺点。该平台的实验结果揭示了LLMs在多智能体环境中的潜能与局限性。未来，WiS平台将继续发展，在研究和实际应用中发挥更大价值。

总而言之，WiS平台为评估LLMs在多智能体系统中的能力提供了一个创新的、高效的工具，其开源和易用性也使其具有广泛的应用前景。

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

暂无评论...