“豆包视觉理解,我们的定价是每千tokens3厘钱,比行业平均价格降低85%。这个价格代表什么?一块钱可以处理284张720P的图片。”
在12月18日举办的火山引擎 Force 大会上,字节跳动正式发布豆包视觉理解模型,火山引擎总裁谭待宣布了视觉理解模型的价格。继大语言模型价格以厘计算之后,视觉理解模型也宣告进入“厘时代”。
火山引擎总裁谭待
每千tokens定价比行业均价低85%
今年5月,火山引擎正式发布了豆包大模型家族。此后,豆包大模型的日均调用量也在高速的增长。据谭待披露,5月份的时候,模型日均tokens 1200亿;到7月份涨到了5000亿,到9月份1.3万亿;而截至上周日,12月15号,豆包大模型的日均tokens数已经突破了4万亿,在7个月的时间里增长超过33倍。
在发布大半年后,豆包大模型也迎来全面升级。会上,谭待发布了豆包视觉理解模型。据总裁谭待介绍,豆包视觉理解模型不仅能精准识别视觉内容,还具备出色的理解和推理能力,可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。此外,该模型有着细腻的视觉描述和创作能力。
谭待在现场展示了多个例子,例如给视觉理解模型发布一张风景图片并提问,模型能识别出这是丁达尔效应并解释背后的原理;给模型发布一张高考物理题的图片,模型可以给出详细完整的分析和答案。
研究显示,人类接受的信息超过80%来自视觉。视觉理解将极大地拓展大模型的能力边界,同时也会降低人们与大模型交互的门槛,为大模型解锁更丰富的应用场景。
谭待透露,在过去两个月里,已经邀请了数百家企业对豆包视觉理解模型进行了测试,也看到了不少有价值的场景,“比如在教育场景,豆包不仅可以让传统的拍照搜题更加智能,还可以进一步对孩子的作业进行批改,或者帮助孩子优化作文等等;电商营销也一个非常实用的场景,利用豆包视觉理解模型的强大能力,商家可以通过模型能力构建多模态AI搜索与推荐方案,帮助用户方便的拍照找同款;还可以基于已购买的商品,推荐适合的搭配,让顾客的购物体验升级。商家想快速上架商品,发布营销活动文案,通过豆包视觉理解模型,效率都会大大提升。”
在公布定价时,谭待也对比了主流视觉模型的定价。如Claude的价格,是每千tokens两分一厘钱;GPT-4o的价格,是每千Tokens一分七厘;阿里的千问,价格是每千Tokens 2分钱。
“豆包视觉理解,我们的定价是每千tokens 3厘钱,比行业平均价格降低85%。这个价格代表什么呢?一块钱可以处理284张720P的图片。今天,视觉理解模型也正式走进厘时代,好模型就是要让每家企业都用得起。”谭待表示。
据了解,豆包视觉理解模型已经接入豆包App和PC端产品。豆包战略研究负责人周昊表示:“豆包一直在努力,让用户的输入更快更方便”。为此,豆包产品非常注重多模态的输入和打磨,包括语音、视觉等能力,这些模型都已通过火山引擎开放给企业客户。
豆包大模型多款产品也迎来更新
会上,豆包3D生成模型也首次亮相。该模型与火山引擎数字孪生平台veOmniverse结合使用,可以高效完成智能训练、数据合成和数字资产制作,成为一套支持 AIGC 创作的物理世界仿真模拟器。
豆包大模型多款产品也迎来更新:豆包通用模型pro已全面对齐GPT-4o,使用价格仅为后者的1/8;音乐模型从生成60秒的简单结构,升级到生成3分钟的完整作品;文生图模型2.1版本,更是在业界首次实现精准生成汉字和一句话P图的产品化能力,该模型已接入即梦AI和豆包App。
剪映业务负责人张楠在会上表示,生成式AI技术可以把每个人脑子里的奇思妙想快速视觉化,“像做梦一样”。即梦希望成为“想象力世界”的相机,记录每个人的奇思妙想,帮助每个有想法的人轻松表达、自由创作。
剪映业务负责人张楠
大会上正式宣告,2025年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版,豆包端到端实时语音模型也将很快上线,从而解锁多角色演绎、方言转换等新能力。谭待表示,豆包大模型虽然发布较晚,但一直在快速迭代进化,目前已成为国内最全面、技术最领先的大模型之一。
智能终端的调用量半年时间内增长100倍
谭待透露,与企业生产力相关的场景,豆包大模型也获得了众多企业客户青睐:最近3个月,豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长16倍,硬件终端场景增长13倍,AI工具场景增长9倍,学习教育等场景也有大幅增长。
据悉,豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC等智能终端,覆盖终端设备约3亿台,来自智能终端的豆包大模型调用量在半年时间内增长100倍。
值得一提的是,12月19日,有传闻称苹果正与腾讯和字节跳动,就将这两家公司的 AI 模型整合至中国市场的iPhone进行初步谈判。对此,腾讯和字节跳动暂未回复。关于苹果在中国市场的iPhone到底要使用哪家企业的AI服务,此前还传闻过百度。
对于火山引擎在B端客户的竞争,谭待告诉南都记者,“从我的角度现在不太关心竞争,因为这个市场还在很早期,可能这个市场千分之一刚开发出来。这个时候不用关心竞争的问题,应该关心的是到底用户的需求有哪些没有被满足。”
对于在智能手机端的市场竞争,谭待表示,国内安卓手机品牌大部分都在和豆包合作,“手机的场景很多,所以对手机厂商来说,他会在某些场景用豆包,某些场景用其他的,或者某一个场景混合使用。对企业来说,肯定也需要一个多云或者多模型的策略,这个我觉得很正常。最终还是说你的能力更好、成本更低,他就会用谁,这笔账就很好算。”
在公布豆包视觉理解模型超低定价的同时,火山引擎升级了火山方舟、扣子和 HiAgent 三款平台产品,帮助企业构建好自身的 AI 能力中心,高效开发 AI 应用。其中,火山方舟发布了大模型记忆方案,并推出 prefix cache 和 session cache API,降低延迟和成本。火山方舟还带来全域 AI 搜索,具备场景化搜索推荐一体化、企业私域信息整合等服务。
云原生是过去十年最重要的计算范式,大模型时代则推动着云计算的变革。火山引擎认为,下一个十年,计算范式应该从云原生进入到AI云原生的新时代。
谭待说:“今年是大模型高速发展的一年。当你看到一列高速行驶的列车,最重要的事就是确保自己要登上这趟列车。通过AI云原生和豆包大模型家族,火山引擎希望帮助企业做好AI创新,驶向更美好的未来。”