连日来,全球人工智能领域异常热闹,OpenAI进行着为期12天的产品发布活动,包括Sora对外开放使用,同时,谷歌也在频频放大招,刚公布量子芯片Willow后,旗下大模型也迎来升级迭代。
12月12日,谷歌对外公布推出新一代模型Gemini 2.0,并称是迄今为止最强大的模型。谷歌CEO桑达尔·皮查伊(Sundar Pichai)表示:“凭借在多模态方面的新进展,例如原生图像和原生音频的输出以及原生工具使用,Gemini 2.0使我们能够构建新的AI智能体,从而让我们离构建通用助手的愿景更进一步。”
据了解,即日起,谷歌将Gemini 2.0开放给开发者以及受信任的测试人员,并正在积极推进将其整合到公司的产品中,率先从Gemini和Search开始。
目前,谷歌完全对外开放的新模型是Gemini 2.0 Flash体验版,是谷歌的主力模型,具有低延迟特性。与此前的1.5 Flash版本相比,Gemini 2.0 Flash在同样快速的响应时间下性能进一步增强。谷歌提到,2.0 Flash在关键基准测试中甚至超越了此前的旗舰模型1.5Pro,其速度是1.5 Pro的两倍。2.0 Flash还具有新功能,除了能够支持图片、视频和音频等多模态输入,2.0 Flash可以支持多模态输出,例如可以直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。它还可以原生调用Google Search、代码执行以及第三方用户定义的函数等工具。即日起,Gemini 2.0 Flash体验版模型将对所有Gemini用户开放。
同时,谷歌还推出了Deep Research的新功能,它运用高级推理和长上下文处理能力,承担研究助手的角色,帮助用户探索复杂的主题并撰写报告。该功能自即日起对Gemini Advanced用户开放。
业内人士指出,谷歌在年底重点发布了Gemini 2.0,明显就是希望抢占AI智能体(AI Agent)市场先机,可预见的是,明年全球各家AI公司竞争的焦点也将会是智能体。