通用UI导航智能体的底座!苹果手机端UI多模态大模型Ferret-UI 2解读


详细解读Ferret-UI 2模型

通用UI导航智能体的底座!苹果手机端UI多模态大模型Ferret-UI 2解读

原标题:通用UI导航智能体的底座!苹果手机端UI多模态大模型Ferret-UI 2解读
文章来源:智猩猩GenAI
内容字数:11146字

苹果Ferret-UI 2:跨平台UI理解多模态大模型详解

本文详细解读苹果最新发布的Ferret-UI 2模型,该模型显著提升了跨平台用户界面(UI)的理解和交互能力。Ferret-UI 2在Ferret-UI的基础上进行了三大关键改进,使其能够更好地应对多平台环境下的复杂UI交互。

1. Ferret-UI 2 的核心改进

Ferret-UI 2 的核心改进体现在以下三个方面

  1. 支持更多平台: 扩展支持手机、平板、网页智能电视等多种平台,突破了Ferret-UI仅限于移动设备的限制。

  2. 动态高分辨率图像编码: 采用自适应网格化方法,能够处理不同分辨率的图像,提升了视觉元素识别的精度,并有效控制推理成本

  3. 质量多模态训练数据生成 利用GPT-4o生成包含视觉提示的高级任务训练数据,显著改善了对UI空间关系的理解。通过人工标注、HTML解析和OCR技术,构建了高质量的多平台数据集,并利用损失权重和数据增强技术解决了数据不平衡问题

2. 数据集构建与模型架构

Ferret-UI 2 的数据集构建过程复杂,针对不同平台(iPhone、iPad、AppleTV、网页、Android)采用不同的标注策略,并最终将标签映射到13个公共类别。为了解决数据不平衡问题,采用了调整损失权重和为数据量少的平台生成更多高级任务的策略。数据生成分为基础任务(指代和交互任务)和高级任务(由GPT-4o生成,包含综合描述、多轮感知问答和多轮交互问答)。为了提升GPT-4o对UI控件空间关系的理解,引入了Set-of-Mark(SoM)视觉提示。

模型架构方面,Ferret-UI 2 基于Ferret-UI,采用Any-Resolution(AnyRes)方法,并结合CLIP图像编码器和LLM视觉采样器,最终输出UI元素的感知或交互的定位描述。自适应网格化是其关键创新,能够在预定义的推理成本限制内,实现最小分辨率失真,高效地进行局部图像特征编码。

3. 实验结果与分析

实验结果表明,Ferret-UI 2 在多个基准测试(包括自行构建的测试集和GUIDE、GUI-World基准测试)上均显著优于Ferret-UI。搭载Llama-3-8B的Ferret-UI 2 表现最佳,在高级任务上取得了最高的GPT-4o评分和IoU分数。消融实验结果表明,数据集改进对性能提升起到了更关键的作用。Ferret-UI 2 还展现出强大的跨平台迁移能力,尤其是在iPhone、iPad和Android平台之间。

4. 总结与未来展望

Ferret-UI 2 作为一种创新的多模态大型语言模型,显著提升了跨平台UI理解和交互能力。其多平台支持、高分辨率图像编码和改进的数据生成方法,为通用UI理解奠定了坚实的基础。未来研究方向包括整合更多平台类型以及构建通用UI导航智能体。


联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。

暂无评论

暂无评论...