CogAgent-9B – 智谱AI开源 GLM-PC 的基座模型
CogAgent-9B是什么
CogAgent-9B是一个专为Agent任务设计的模型,基于GLM-4V-9B进行训练。它独特之处在于仅依赖屏幕截图作为输入,无需依赖HTML等文本表示。这款模型不仅支持高分辨率图像处理,还具备中英文双语交互能力,能够预测并执行图形用户界面(GUI)操作,从而实现自动化任务。CogAgent-9B在多个GUI操作数据集上表现出色,已经开源,为大模型Agent生态的进展提供了助力。它的应用场景涵盖个人电脑、手机、车载系统等多种基于GUI的交互环境。
CogAgent-9B的主要功能
- GUI理解与操作:CogAgent-9B能够理解并操作图形用户界面,执行如点击按钮、输入文本等多种任务。
- 屏幕截图输入:模型仅需屏幕截图作为输入,无需附加文本表示手段,因而在多设备应用中更加灵活。
- 高分辨率处理:支持高达1120×1120像素的高分辨率图像输入,能够解析更复杂的视觉信息。
- 双语交互:支持中文和英文的屏幕截图及语言交互,提升了国际应用的适应性。
- 预测GUI操作:根据用户指定的任务及先前操作,模型能够预测下一步的GUI动作。
- 自动化任务执行:CogAgent-9B可模拟用户操作,自动执行一系列GUI任务。
- 跨平台应用:适用于个人电脑、手机及车载系统等多种基于GUI的场景。
- 性能领先:在多个GUI操作数据集上取得了卓越的成绩,展现了其强大的性能。
CogAgent-9B的技术原理
- 视觉语言模型(VLM):CogAgent-9B构建在强大的视觉语言模型GLM-4V-9B之上,能够同时处理视觉数据(如屏幕截图)与文本信息,理解和操作GUI元素。
- 双流注意力机制:该模型采用双流注意力机制,将视觉元素(如按钮和图标)映射到对应的文本标签或描述,增强了对用户意图的预测及相关操作的执行能力。
- GUI Grounding预训练:在预训练阶段,CogAgent-9B引入了GUI Grounding预训练方法,通过屏幕截图和布局信息建立界面子区域与布局表示的对应关系,提升了对视觉输入和GUI界面的基础理解。
- 丰富的数据集:CogAgent-9B团队广泛收集并整合多种数据集,包括无监督数据和GUI指令微调数据集,为模型提供了丰富的训练和测试基础。
- 优化的预训练与后训练策略:在预训练阶段,CogAgent-9B引入GUI Referring Expression Generation (REG)和GUI Referring Expression Comprehension (REC)任务,以构建界面子区域与布局表征的对应关系。在后训练阶段,采用了更科学的后训练策略,使模型具备更强的分析、推理和预测能力。
- 模型推理与思维链优化:CogAgent-9B将推理链分解为状态(当前屏幕状态)、计划(全局计划)、行动(自然语言描述的下一步)和操作(形式语言描述的下一步),通过随机采样混合多种模式训练数据,灵活调整和控制推理过程中的输出。
- 完善的动作空间:CogAgent-9B明确了基础动作空间,并新增了LLM、QUOTE_TEXT、LAUNCH等高级动作,增强了模型的工具使用和交互能力。
CogAgent-9B的项目地址
- Github仓库:https://github.com/THUDM/CogAgent
- HuggingFace模型库:https://huggingface.co/THUDM/cogagent-9b-20241220
CogAgent-9B的应用场景
暂无评论...