谷歌推出的原生多模态输入输出 + Agent 为核心的AI模型

产品名称：Gemini 2.0
产品简介：Gemini 2.0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini 2.0 Flash是2.0家族第一个模型，以多模态输入输出和Agent技术为核心，速度比 1.5 Pro快两倍，关键性能指标超过 1.5 Pro。模型支持原生工具调用和实时音视频流输入，提供文本、音频和图像的集成响应，具备多语言音频输出能力。
详细介绍：

Gemini 2.0是什么

Gemini 2.0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini 2.0 Flash是2.0家族第一个模型，以多模态输入输出和Agent技术为核心，速度比 1.5 Pro快两倍，关键性能指标超过 1.5 Pro。模型支持原生工具调用和实时音视频流输入，提供文本、音频和图像的集成响应，具备多语言音频输出能力。Gemini 2.0致力于构建自主理解、规划和执行任务的智能助手，谷歌基于Gemini 2.0推出了Jules、Colab数据科学代理等原型，展现在编程、数据分析等领域的应用潜力。Gemini 2.0 Flash 及API目前免费提供，基于 Google AI Studio 和 Vertex AI 中的 Gemini API 使用，每分钟最多15个提问，每天最多1500个提问，计划于明年开放更多模型尺寸和功能。

Gemini 2.0的主要功能

原生多模态输入输出：支持图像、视频、音频等多种数据类型的输入与输出。
增强的性能：在关键基准测试中，Gemini 2.0 Flash的性能超越前代产品Gemini 1.5 Pro，速度达到Gemini 1.5 Pro的两倍。
全新的输出模态：支持文本、音频和图像的集成响应，包括多语言原生音频输出和原生图像输出。
原生工具使用：直接调用Google搜索、代码执行等工具，能基于函数调用使用自定义的第三方函数。
多模态实时API：支持实时音视频流输入，进行语音活动检测，能集成多个工具完成复杂任务。
AI“代理”应用：基于Gemini 2.0 ，谷歌正在探索AI“代理”的应用，打造能自主理解、规划和执行任务的智能助手，如Jules（编程助手）、Project Astra（多模态助手）等。

Gemini 2.0的技术原理

机器学习和深度学习算法：Gemini 2.0基于最新的机器学习和深度学习算法，提升神经网络的结构和效率。
自然语言处理（NLP）：在自然语言处理领域表现出色，让Gemini 2.0能更好地理解和生成自然语言。
定制硬件支持：基于谷歌定制的硬件第六代TPU Trillium构建，为Gemini 2.0的培训和推理提供100%算力支持。
全栈式AI创新研究：得益于谷歌长达10年的全栈式AI创新研究的投入，Gemini 2.0在技术前沿领域展现出卓越的性能。

基于Gemini 2.0的AI代理

Project Astra：
- 多模态智能体，能进行多语言和混合语言对话，理解不同口音和生僻单词。
- 基于Gemini 2.0，Project Astra能使用Google Search、Google Lens和Google Maps。
- 增强记忆能力，能记住长达10分钟的会话内容，提供个性化服务。
- 改进语音回复的延迟，能用接近人类对话的速度理解语言。
Project Mariner：
- 早期研究原型，探索人机交互的未来，从浏览器开始。
- 能理解和推理浏览器页面中的信息，包括像素和文本、代码、图像和表单等网页元素。
- 基于Chrome扩展程序使用为用户完成任务。
Jules：AI驱动的编码智能体，直接集成到GitHub工作流中。用户用自然语言描述问题，Jules能生成可直接合并到项目中的代码。
游戏智能体：
- 基于Gemini 2.0构建的智能体，根据屏幕上的实时画面分析游戏情况，为用户提供行动建议。
- 正在与游戏开发商如Supercell合作，在《部落冲突》和《海岛奇兵》等游戏中测试这些智能体。