12月日均tokens(处理文本最小单位)使用量超过4万亿,较5月发布时增长了33倍;价格仅为3厘/千tokens,1元就可以处理284张720P的图片,比行业平均价格降低了85%。
12月18日,“2024火山引擎FORCE原动力大会·冬”上,字节跳动正式发布豆包视觉理解模型,无论性能升级还是价格下降,都再次引发行业巨震。
“视觉是人类了解这个世界最重要的成分,对于大模型来说也是如此。”火山引擎总裁谭待在发布现场如是介绍。据称,该模型具备更出色的内容识别、理解和推理,以及视觉描述和创作等能力。而该价格的推出,也标志着继通用大模型后,多模态模型价格迈入“厘时代”。
图片来源:每经记者杨昕怡摄
此前的5月份,豆包刚一亮相就以比行业便宜99.3%的价格带动了行业的“降价潮”,而此次多模态的“低价”难免让外界猜测,多模态模型的价格战要来了?
针对外界争议,12月19日,抖音集团副总裁李亮在微博直接发声回应:“这不是价格战。”他解释称,豆包大模型通过技术创新来降低成本,在算法、软件工程和硬件方案上做了非常多的优化。“3厘/千tokens的定价也有可观的毛利。而且这是一步到位的透明价格,并不是‘刊例价+折扣’的玩法。”
现阶段,国内大模型厂商在人才、算力、性能和产品获客等方面的竞争日趋激烈。对于大模型产品的市场竞争,谭待对《每日经济新闻》记者表示:“我现在不太关心竞争,因为(大模型)这个市场还在很早期,可能才开发出千分之一。这个时候其实不用关心竞争的问题,关心的(应该)是用户的需求到底哪些没有被满足。”
视觉理解模型上线豆包刷新多模态定价新低
12月18日的上海世博中心,豆包大模型再次成为这里的焦点——更多展台、更多模型、更多前来的观众以及更多关于豆包的讨论,足以显示出过去7个月中豆包大模型在性能以及市场声量上的进步。
记者在发布会现场了解到,截至12月中旬,豆包通用模型的日均tokens使用量已超过4万亿,较7个月前首次发布时增长了33倍。
日均tokens使用量上涨的同时,豆包也在快速成为一名“六边形战士”。发布会上,豆包视觉理解模型正式发布,豆包大模型家族再次扩容。
据谭待介绍,豆包视觉理解模型不仅能精准识别视觉内容,还具备出色的理解和推理能力,可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。此外,该模型有着细腻的视觉描述和创作能力。
发布会上的演示视频展示,该模型可以识别视频画面中的物体、解释杂志内页的天文图片、分析体检报告内的具体指标、读懂电脑屏幕上的代码,甚至还能记得桌面物品的摆放位置、给用户提供穿搭意见和为用户识别地标、提供出行建议等。
图片来源:每经记者杨昕怡摄
“好的模型,就是要让每一家企业都用得起。”发布会上,谭待公布了豆包视觉理解模型的价格,宣布多模态定价正式迈入“厘时代”。
“这不是价格战。”李亮在微博发声回应称,“豆包大模型通过技术创新来降低成本,在算法、软件工程和硬件方案上做了非常多优化,3厘/千tokens的定价也有可观的毛利。”
谭待在发布会后接受采访时表示:“我们的算力储备肯定是非常够的,而且我们在工程技术上做了非常多的优化。这也是我们有信心去大规模、低价格、高吞吐地承接业界服务上很重要的一点。”
“To C、To B不再割裂” 豆包怎么面对市场获客竞争?
“未来,金融、医疗、建筑、教育、体育和物流等诸多行业里将涌现出新的大模型应用场景案例。”在谭待看来,豆包视觉理解模型将极大地拓展大模型应用的场景边界,为更多行业企业提供具有性价比的多模态大模型能力。
记者从火山引擎方面了解到,在B端市场上,豆包大模型目前已与八成主流汽车品牌合作,并接入多家手机、PC等智能终端,覆盖终端设备约3亿台,来自智能终端的豆包大模型调用量在半年时间内增长了100倍。
12月19日,有报道称,苹果公司正与腾讯、字节跳动商谈,将两家公司的人工智能模型整合到在中国销售的iPhone中,但谈判仍处于早期阶段。截至发稿,字节跳动对此暂未回应。
不过,随后,字节跳动官方账号发布风险提示称,近期,资本市场出现炒作“豆包概念股”现象,流传着众多夸大其词甚至是虚构的内容,涉及字节跳动资本开支、数据中心花费、AI硬件、应用合作等多方面。请投资者切勿轻信市场传言,以免遭受不必要的投资损失。
“目前,国内安卓手机大部分都在和豆包合作。”被问及与苹果合作一事时,谭待也没有正面回复,而是提及了豆包和国内多家手机厂商的合作。
“手机的场景很多,所以对手机厂商来说,会在某些场景用豆包,某些场景用其他的大模型,或者某一个场景混合使用。对企业来说,肯定也需要一个多云或多模型的策略,这个我觉得很正常。最终还是谁能力更好、成本更低,(手机厂商)就会用谁,这笔账就很好算。”谭待表示。
图片来源:每经记者杨昕怡摄
同时,他向《每日经济新闻》记者指出,区别于以往的技术产品,大模型在B端和C端获客上不再割裂,而是齐头并进。
“大家天天刷抖音,但会天天用火山引擎的云吗?这两者没有必然关系。因为你看重抖音的价值和你看重火山引擎的价值是完全不一样的,你个人用云没有这个需求。但大模型不一样,大模型的C端和B端背后都是同一个东西,就是模型本身。”谭待以一个细节举例,在被企业问及如何进行AI转型时,他有时会直接建议企业CEO下载豆包App试用,以便于去想象哪些企业场景需要大模型的应用。
时至今日,以技术为中心的“百模大战”筛选出了一批能够进入新赛程的选手,而变现压力也逐渐显现。
不可忽视的是,国内大模型产品在B端、C端获客上的竞争日趋激烈。
今年11月,月之暗面创始人杨植麟在接受《每日经济新闻》记者采访时指出,目前Kimi最为核心的任务是提升留存,“(令自己满意的留存)永无止境”。
先于豆包2天,Kimi在12月16日发布了视觉思考模型k1。据介绍,在数学、物理、化学等基础科学学科的基准能力测试中,初代k1模型的表现超过了OpenAI o1、GPT-4o以及Claude 3.5 Sonnet。
今年10月,《每日经济新闻》记者也从月之暗面方面证实,业界顶尖的语音技术专家——微软亚洲研究院前首席研究经理谭旭已正式加入月之暗面。不难看出,豆包的对手们也在大力投入,坚定追逐多模态。
“从我的角度,现在不太关心(市场)竞争,因为这个市场还在很早期,可能才开发出千分之一。”面对大模型领域的战况,谭待显得淡然。“肯定有竞争,但这不是最关键的。最关键的是,能不能把自己的东西做好、把成本做低、把方案的落地应用性做好,让企业和用户真正能用起来。”