财中社12月16日电江海证券发布计算机行业报告。
2024年12月12日,谷歌发布AI大模型Gemini 2.0,推出一些列新功能包括原生图像生成和音频输出的多模态输出,并支持原生调用谷歌搜索、地图、Lens等工具。Gemini 2.0 Flash主打多模态与AIAgent,实验版本速度为Gemini 1.5 pro的两倍。Gemini 2.0 Flash引入了多模态输出功能,能够生成与文本混合的原生图像和文本转语音(TTS)多语言音频。该模型还具备具备原生调用谷歌搜索、代码执行以及第三方用户定义函数等工具的能力。基于Gemini 2.0 Flash,谷歌还推出了一系列AIAgent新品,包括广受关注的通用AI助手原型Project Astra、能在谷歌浏览器中执行复杂任务的ProjectMariner,以及实验性的AI编程Agent Jules和游戏Agent。Gemini和GeminiAdvanced用户可通过桌面端模型下拉菜单选择聊天优化版Gemini 2.0进行试用,开发人员则可通过Google AIStudio和Vertex AI在Gemini API中使用该模型进行构建。明年1月份,Gemini 2.0 Flash将全面上市。
2024年12月5日,OpenAI CEO山姆奥特曼在社媒表示,12个工作日内每天进行一场直播,并在直播中展示新品。12月6日,OpenAI正式推出o1模型完整版,显著提升了推理能力和新增图像分析功能,为多领域应用带来重要突破,并在整体准确性上有较大进步。OpenAI还推出了ChatGPT Pro高级订阅服务,月费200美元,提供对先进AI功能的无限制访问,包括专属版本的o1推理模型和高级语音功能。本次活动第二日,OpenAI推出了强化微调(Reinforcement Fine-Tuning),为帮助开发者和机器学习工程师打造针对特定复杂领域任务的专家模型。12月9日,OpenAI推出了Sora文生视频AI模型的最新版本Sora Turbo,在生成速度和视频质量上进行了优化。Sora支持生成最高1080p分辨率、最长20秒的视频,画面比例包括16:9、1:1和9:16,提供给ChatGPT Plus和Pro用户。
字节跳动视频生成模型PixelDance启动内测。2024年12月10日,字节跳动的视频生成模型PixelDance已在豆包电脑版正式启动内测,部分用户每日可免费生成十支视频。该模型于9月底首次发布,最初通过即梦AI和火山引擎面向创作者及企业客户进行小范围测试。豆包相关负责人表示,未来将不断开放与优化此功能,以更好地支持用户的创作和表达。