颠覆想象!Gemini 2.0震撼发布:超越1.5 Pro的多模态智能助手,音频与图片一键生成!

AI快讯 17小时前 atcat
0 0

原生多模态输入、输出的大模型时代来了。

颠覆想象!Gemini 2.0震撼发布:超越1.5 Pro的多模态智能助手,音频与图片一键生成!

原标题:Gemini 2.0发布!主打Agent+多模态,性能超1.5 Pro、可直接生成音频图片
文章来源:Founder Park
内容字数:5816字

谷歌发布Gemini 2.0 Flash,开启多模态输入输出时代

谷歌在发布Gemini 2.0 Flash后,标志着原生多模态输入输出的大模型时代的到来。DeepMind首席执行官哈萨比斯表示,Gemini 2.0的表现与当前的1.5 Pro型号相当,但在成本效益、性能效率和速度上都有显著提升。

1. 强大的多模态能力

Gemini 2.0 Flash不仅能够生成音频和图像,还引入了新的多模态能力。该模型支持多种输入形式,包括图片、视频和音频,并能生成图像与文本的混合内容,以及可控的多语言文本转语音(TTS)音频。开发者可以通过单一API调用实现集成响应,这一功能将于明年全面推广。

2. Project Astra的重大更新

基于Gemini 2.0 Flash,谷歌的通用助手Project Astra经历了多项功能更新。它能够更流畅地进行多语言对话,理解不同口音,并能够使用Google Search、Google Lens和Google Maps等工具来增强日常助手功能。此外,Project Astra的记忆能力得到了提升,能够记住长达10分钟的对话内容。

3. Project Mariner与浏览器Agent

Project Mariner是一个基于Gemini 2.0的浏览器Agent,能够理解和推理网页信息,完成复杂任务。尽管目前仅限于受信任的测试人员使用,但它在WebVoyager基准测试中展现了出色的工作效率,达到了83.5%。

4. AI代码助手Jules

基于Gemini 2.0的AI代码助手Jules,能够与用户的GitHub工作流程集成,处理Bug修复和其他任务。官方声称在SWE-bench Verified测试中,Jules的通过率达到了51.8%,提高了编码效率。

5. 游戏Agent与深度研究

谷歌还推出了基于Gemini 2.0的游戏Agent,这些Agent能够实时指导用户在游戏中导航。此外,新的深度研究功能能帮助用户完成研究任务,生成主题报告。

总的来说,Gemini 2.0 Flash的发布为AI领域带来了新的可能性,尤其是在多模态输入输出和智能助手的发展上,展现了谷歌在AI技术方面的持续创新。


联系作者

文章来源:Founder Park
作者微信:
作者简介:来自极客公园,专注与科技创业者聊「真问题」。

暂无评论

暂无评论...