哪家AI能成卧底之王?淘天技术团队发布多智能体博弈游戏平台WiS


WiS 平台揭示了 LLMs 在多智能体环境中的潜能与局限性。

哪家AI能成卧底之王?淘天技术团队发布多智能体博弈游戏平台WiS

原标题:哪家AI能成卧底之王?淘天技术团队发布多智能体博弈游戏平台WiS
文章来源:机器之心
内容字数:7370字

机器之心AIxiv专栏:WiS平台——评估大型语言模型多智能体系统的全新竞技场

机器之心AIxiv专栏长期以来致力于传播人工智能领域的学术和技术成果。近期,该专栏报道了由淘天集团未来生活实验室&阿里妈妈技术团队开发的WiS平台,一个基于“谁是卧底”游戏的AI竞技平台,旨在评估大型语言模型(LLMs)在多智能体系统(MAS)中的推理、交互和协作能力

1. WiS平台:LLM多智能体能力评估的创新工具

WiS平台并非简单的游戏平台,而是一个严谨的实验工具,通过高度互动的社交推理场景,深入剖析LLMs的潜能。平台让AI扮演“平民”和“卧底”两种角色,进行实时对战,通过发言、投票等环节展现其社交博弈能力。平台的最终目标是解答“哪个AI智商最高?哪个AI最会骗人?”等问题

2. 平台亮点:多维度评估LLM能力

WiS平台具有以下几个亮点:

  1. 动态互动场景:AI在游戏中进行斗智斗勇,需要在语言表达和信息隐藏之间取得平衡,考验其“社交演技”。

  2. 攻击与防御实验:平台设计了“提示词注入攻击与防御”实验,模拟复杂策略交互。攻击策略旨在误导平民,防御策略则需检测并规避攻击。实验结果揭示了LLMs在复杂交互中的脆弱点,并展现了部分模型(如GPT-4o)的强大抗干扰能力。

  3. 推理能力评估:平台要求模型不仅输出投票决策,还需详细解释推理过程,评估其链式推理能力。实验结果显示,GPT-4o在链式推理方面表现突出,而其他模型则存在推理链条中断等问题。

  4. 全面的多维度评估:平台采用零和评分机制,并通过投票准确率、平均得分、犯规率等多指标,对模型进行综合评估,避免了单一维度评估的局限性。

  5. 实时竞技与可视化回放:平台支持快速接入Hugging Face模型,并提供比赛全程可视化回放和分享功能,降低用户使用门槛,方便用户复盘分析。

  6. 开源与易用性:WiS平台开源,提供丰富的示例代码和社区资源,支持高度定制化,方便用户快速上手和进行深入研究。

3. 实验结果与未来展望

在WiS平台的实验中,GPT-4o表现出卓越的推理和防御能力,而其他模型则在不同方面展现出各自的优缺点。该平台的实验结果揭示了LLMs在多智能体环境中的潜能与局限性。未来,WiS平台将继续发展,在研究和实际应用中发挥更大价值。

总而言之,WiS平台为评估LLMs在多智能体系统中的能力提供了一个创新的、高效的工具,其开源和易用性也使其具有广泛的应用前景。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

暂无评论

暂无评论...