Aria-UI – 港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型
Aria-UI是什么
Aria-UI是由香港大学与Rhymes AI联合开发的一个大型多模态模型,旨在处理图形用户界面(GUI)中的定位任务。该模型采用纯视觉的方法,不依赖于HTML或AXTree等辅助输入,通过大规模的多样化数据合成流程,从Common Crawl及公开数据中生成高质量的元素描述和指令样本,能够灵活适应不同环境下的指令表达。Aria-UI创新性地整合了动态动作历史信息,利用文本或文本-图像交错格式增强模型在多步任务场景中的定位能力。经过广泛的基准测试,包括离线和在线代理任务,Aria-UI展现出卓越的性能,显现出强大的零样本泛化能力和跨平台适应性,是解决通用GUI定位任务的理想选择。
Aria-UI的主要功能
- GUI元素定位:能够将语言指令精确映射到GUI中的目标元素,从而实现元素的准确定位,为后续交互操作奠定基础。
- 多模态输入处理:支持处理包括GUI图像、文本指令及动作历史等多种输入模态,充分理解和利用多模态数据中的丰富信息。
- 多样化指令适应:通过大规模、多样化的数据合成流程生成的指令样本,能够有效适应不同环境下的各种指令表达方式。
- 动态上下文理解:整合动态动作历史信息,采用文本或文本-图像交错格式,在多步任务场景中理解当前的动态上下文,为准确的元素定位提供重要参考。
- 高分辨率图像处理:支持高达3920×2940的图像分辨率,能够将图像分割成小块进行处理,显著扩展可处理的图像尺寸范围。
Aria-UI的技术原理
- 纯视觉方法:该模型通过纯视觉方法,直接从GUI图像中提取视觉特征,利用视觉信息进行目标元素的理解与定位。
- 多模态MoE模型:基于Aria多模态MoE(Mixture of Experts)模型构建,具有3.9B的激活参数,特别擅长处理多模态数据。
- 数据合成与训练:采用两阶段的数据合成流程,从Common Crawl及公开数据中生成高质量的元素描述与多样化指令样本,覆盖Web、桌面和移动三大GUI环境,为模型训练提供丰富、多样的训练数据,增强模型对不同指令和元素的识别能力。
- 上下文感知数据扩展:利用公开的代理轨迹数据模拟具有上下文的定位任务,构建文本动作历史和文本-图像交错历史两种上下文设置,基于数据合成流程为轨迹数据中的所有定位步骤生成详细的逐步指令,使模型在动态环境中更好地理解并执行任务。
- 超分辨率支持:支持高达3920×2940的图像分辨率,将图像分割成小块进行处理,确保图像细节和准确性。
Aria-UI的项目地址
- 项目官网:https://ariaui.github.io/
- GitHub仓库:https://github.com/AriaUI/Aria-UI
- HuggingFace模型库:https://huggingface.co/Aria-UI
- arXiv技术论文:https://arxiv.org/pdf/2412.16256
Aria-UI的应用场景
- 自动化测试:用于Web应用的测试,自动点击网页按钮、输入信息,验证功能是否正常。
- 用户交互辅助:通过语音指令控制家居设备,例如“开灯”来自动点击开关按钮。
- 智能客服:电商平台客服可以快速定位产品详情,迅速回答用户咨询问题。
- 教育行业:自动操作代码编辑器,演示编程过程和结果,提升学习效率。
- 自动化办公:自动操作财务软件,生成报表,提高工作效率。
常见问题
- Aria-UI适用于哪些平台? Aria-UI可广泛应用于Web、桌面及移动设备的图形用户界面。
- 如何获取Aria-UI? 用户可以通过访问项目官网或GitHub仓库获取相关资源和文档。
- Aria-UI是否支持其他语言的指令? 是的,Aria-UI能够处理多样化的语言指令,适应不同用户的需求。
- 如何提高Aria-UI的性能? 通过提供更多样化的训练数据和上下文信息,可以有效提升模型的识别和定位能力。
暂无评论...