谷歌推出Gemini Live:智能语音助手的新纪元
在8月14日的“Made by Google 2024”大会上,谷歌正式推出了其最新的智能语音AI助手——Gemini Live。这一重磅消息引起了广泛关注,因为Gemini Live的功能与OpenAI的GPT-4o语音模式不相上下,都是多模态智能助手,能够流畅理解自然语言,同时具备识别图像、视频和语音的能力。
智能助手的新体验
想象一下,你拿起手机拍摄了一幅《清明上河图》,然后询问Gemini Live关于这幅画的历史。它不仅能给你详细的解说,还能像朋友一样与您互动,你随时可以打断它进行提问。此外,用户还可以授权Gemini Live访问邮箱、地图及通讯录,从而帮助安排约会、寻找餐馆等,宛如钢铁侠中的AI助理贾维斯。
谷歌的市场先机
尽管OpenAI的GPT-4o语音模式早在5月就已推出,但仍处于小范围测试阶段。而谷歌则迅速行动,推出Gemini Live,抢占了安卓手机市场。用户们普遍认为,谷歌在这场竞争中走在了OpenAI的前面。
现场演示的真实感
在Gemini Live的演示现场,主持人曾询问助手他是否有空见朋友,但Gemini Live起初没有反应。经过三次提问后,它终于回答道:“我发现她将在2024年11月9日来旧金山,我查看了你的日历,那段时间你没有任何活动。”这一幕让现场观众惊呆了,尽管有些小尴尬,但也展现了Gemini Live的真实能力。
简单易用的操作方式
使用Gemini Live非常简单,只需长按电源按钮或唤醒“Hey Google”即可开始。除了理解语音、图片和视频,Gemini Live还能生成图片,直接应用于谷歌的生态系统中。谷歌表示,Gemini Live已与邮件、云盘、相册、天气等原生应用集成,未来还将扩展到更多知名应用,以帮助用户自动完成日常任务。
个性化的交流体验
Gemini Live不仅能理解你说的话,还能根据需求生成图片。例如,你可以对它说“帮我设计一张生日庆祝的图片”,它会迅速生成符合你要求的作品,并允许你直接在谷歌应用中使用。如果你是安卓用户并订阅了Gemini Advanced英文版,就可以体验到这项新功能。它支持10种不同的语音选项和45种语言,满足不同用户的交流需求。
展望未来
谷歌的Gemini Live展示了其在智能语音助手领域的持续创新与进步,可能会对市场产生深远的影响,尤其是在与OpenAI的竞争中。未来几周,谷歌计划将Gemini Live扩展到iOS系统,并增加更多语言功能,让更多用户能够享受到这一新技术。我们期待看到Gemini Live为我们带来更多惊喜!
联系作者
文章来源:小夏聊AIGC
作者微信:
作者简介:专注于人工智能生成内容的前沿信息与技术分享。我们提供AI生成艺术、文本、音乐、视频等领域的最新动态与应用案例。每日新闻速递、技术解读、行业分析、专家观点和创意展示。期待与您一起探索AI的无限潜力。欢迎关注并分享您的AI作品或宝贵意见。