CogAgent-9B


CogAgent-9B – 智谱AI开源 GLM-PC 的基座模型

CogAgent-9B是什么

CogAgent-9B是一个专为Agent任务设计的模型,基于GLM-4V-9B进行训练。它独特之处在于仅依赖屏幕截图作为输入,无需依赖HTML等文本表示。这款模型不仅支持高分辨率图像处理,还具备中英文双语交互能力,能够预测并执行图形用户界面(GUI)操作,从而实现自动化任务。CogAgent-9B在多个GUI操作数据集上表现出色,已经开源,为大模型Agent生态的进展提供了助力。它的应用场景涵盖个人电脑手机、车载系统等多种基于GUI的交互环境

CogAgent-9B

CogAgent-9B的主要功能

  • GUI理解与操作:CogAgent-9B能够理解并操作图形用户界面,执行如点击按钮、输入文本等多种任务。
  • 屏幕截图输入:模型仅需屏幕截图作为输入,无需附加文本表示手段,因而在多设备应用中更加灵活。
  • 分辨率处理:支持高达1120×1120像素的高分辨率图像输入,能够解析更复杂的视觉信息
  • 双语交互:支持中文和英文的屏幕截图及语言交互,提升了国际应用的适应性。
  • 预测GUI操作:根据用户指定的任务及先前操作,模型能够预测下一步的GUI动作
  • 自动化任务执行:CogAgent-9B可模拟用户操作,自动执行一系列GUI任务。
  • 跨平台应用:适用于个人电脑、手机及车载系统等多种基于GUI的场景
  • 性能领先:在多个GUI操作数据集上取得了卓越的成绩,展现了其强大的性能。

CogAgent-9B的技术原理

  • 视觉语言模型(VLM):CogAgent-9B构建在强大的视觉语言模型GLM-4V-9B之上,能够同时处理视觉数据(如屏幕截图)与文本信息,理解和操作GUI元素。
  • 双流注意力机制:该模型采用双流注意力机制,将视觉元素(如按钮和图标)映射到对应的文本标签或描述,增强了对用户意图的预测及相关操作的执行能力。
  • GUI Grounding预训练:在预训练阶段,CogAgent-9B引入了GUI Grounding预训练方法,通过屏幕截图和布局信息建立界面子区域与布局表示的对应关系,提升了对视觉输入和GUI界面的基础理解。
  • 丰富的数据集:CogAgent-9B团队广泛收集并整合多种数据集,包括无监督数据和GUI指令微调数据集,为模型提供了丰富的训练和测试基础。
  • 优化的预训练与后训练策略:在预训练阶段,CogAgent-9B引入GUI Referring Expression Generation (REG)和GUI Referring Expression Comprehension (REC)任务,以构建界面子区域与布局表征的对应关系。在后训练阶段,采用了更科学的后训练策略,使模型具备更强的分析、推理和预测能力。
  • 模型推理与思维链优化:CogAgent-9B将推理链分解为状态(当前屏幕状态)、计划(全局计划)、行动(自然语言描述的下一步)和操作(形式语言描述的下一步),通过随机采样混合多种模式训练数据,灵活调整和控制推理过程中的输出。
  • 完善的动作空间:CogAgent-9B明确了基础动作空间,并新增了LLM、QUOTE_TEXT、LAUNCH等高级动作,增强了模型的工具使用和交互能力。

CogAgent-9B的项目地址

CogAgent-9B的应用场景

  • 自动化测试:在软件开发领域,CogAgent-9B可用于自动化测试,模拟用户操作以评估应用程序的GUI性能,提高测试效率与覆盖率。
  • 智能助手:作为智能个人助理,CogAgent-9B能够帮助用户自动化完成日常任务,如日程安排与邮件处理等。
  • 客户服务:在客户服务行业,CogAgent-9B可以通过自动化操作为客服人员提供支持,快速响应客户需求并执行相关操作。
  • 智能家居控制:CogAgent-9B能够集成到智能家居系统中,通过GUI控制各种智能设备。
  • 智能座舱:在汽车领域,CogAgent-9B可以用于智能座舱系统,通过GUI与车载信息娱乐系统互动,提供更安全便捷的驾驶体验。
版权声明:atcat 发表于 2024-12-27 12:07:21。
转载请注明:CogAgent-9B | 86AIGC导航

暂无评论

暂无评论...