颠覆想象！Gemini 2.0震撼发布：超越1.5 Pro的多模态智能助手，音频与图片一键生成！

原生多模态输入、输出的大模型 时代来了。

原标题：Gemini 2.0发布！主打Agent+多模态，性能超1.5 Pro、可直接生成音频、图片
 文章来源：Founder Park
内容字数：5816字

谷歌发布Gemini 2.0 Flash，开启多模态输入输出时代

谷歌在发布Gemini 2.0 Flash后，标志着原生多模态输入输出的大模型时代的到来。DeepMind首席执行官哈萨比斯表示，Gemini 2.0的表现与当前的1.5 Pro型号相当，但在成本效益、性能效率和速度上都有显著提升。

1. 强大的多模态能力

Gemini 2.0 Flash不仅能够生成音频和图像，还引入了新的多模态能力。该模型支持多种输入形式，包括图片、视频和音频，并能生成图像与文本的混合内容，以及可控的多语言文本转语音（TTS）音频。开发者可以通过单一API调用实现集成响应，这一功能将于明年全面推广。

2. Project Astra的重大更新

基于Gemini 2.0 Flash，谷歌的通用助手Project Astra经历了多项功能更新。它能够更流畅地进行多语言对话，理解不同口音，并能够使用Google Search、Google Lens和Google Maps等工具来增强日常助手功能。此外，Project Astra的记忆能力得到了提升，能够记住长达10分钟的对话内容。

3. Project Mariner与浏览器Agent

Project Mariner是一个基于Gemini 2.0的浏览器Agent，能够理解和推理网页信息，完成复杂任务。尽管目前仅限于受信任的测试人员使用，但它在WebVoyager基准测试中展现了出色的工作效率，达到了83.5%。

4. AI代码助手Jules

基于Gemini 2.0的AI代码助手Jules，能够与用户的GitHub工作流程集成，处理Bug修复和其他任务。官方声称在SWE-bench Verified测试中，Jules的通过率达到了51.8%，提高了编码效率。

5. 游戏Agent与深度研究

谷歌还推出了基于Gemini 2.0的游戏Agent，这些Agent能够实时指导用户在游戏中导航。此外，新的深度研究功能能帮助用户完成研究任务，生成主题报告。

总的来说，Gemini 2.0 Flash的发布为AI领域带来了新的可能性，尤其是在多模态输入输出和智能助手的发展上，展现了谷歌在AI技术方面的持续创新。

联系作者

文章来源：Founder Park
作者微信：
作者简介：来自极客公园，专注与科技创业者聊「真问题」。

版权声明：atcat 发表于 2024-12-14 21:05:45。
转载请注明：颠覆想象！Gemini 2.0震撼发布：超越1.5 Pro的多模态智能助手，音频与图片一键生成！ | 86AIGC导航

暂无评论

暂无评论...