12月26日,据界面新闻等报道,小米正着手搭建自己的GPU万卡集群,将对AI大模型大力投入。小米大模型团队在成立时已有6500张GPU资源。《每日经济新闻》记者就此事向小米方面求证,截至发稿时未获回应。
万卡集群是指由一万张及以上的加速卡(如GPU、TPU或其他专用AI加速芯片)组成的高性能计算系统,用以训练基础大模型。建设万卡集群是个“百亿元”成本的投入,其中单是GPU采购成本就高达几十亿元。
科技大厂正竞相投入万卡集群的建设。国际上,OpenAI、Meta等科技巨头,都争相部署万卡集群;在国内,运营商、头部互联网大厂、大型AI研发企业等先后入局,一些巨头甚至已开始迈向“十万卡集群”。
如果小米搭建万卡集群的消息属实,独立电信分析师付亮分析道,小米将大模型视为 “人车家”战略的重要支撑,其建设万卡集群的方向或与其他企业不同,“别人没有利用率,小米自带利用率”。
“万卡集群”被视作新一轮大模型竞赛“入场券”
搭建万卡集群需要耗费巨大的财力。
百度集团执行副总裁、百度智能云事业群总裁沈抖今年9月曾介绍,GPU集群有三个特征:极致规模、极致“高密”和极致互联。建一个万卡集群,单是GPU的采购成本就高达几十亿元。而建设GPU万卡集群需要面临的风险之一便是故障率,沈抖介绍:“Meta训练Llama3的时候,用了1.6万张GPU卡的集群,平均每3小时就会出一次故障。”
尽管造价高昂,但“万卡集群”使得训练复杂的大模型成为可能,被业界视作这一轮大模型竞赛的“入场券”。
“模型大小和训练数据量大小成为决定模型能力的关键因素。在同等模型参数和数据集下,集群训练时间有望显著缩短。更大、更先进的集群能及时对市场趋势作出反应,快速进行迭代训练。整体上超万卡的集群将有助于压缩大模型训练时间,实现模型能力的快速迭代,并及时对市场趋势作出应对,实现大模型技术上的追赶和领先。”长江证券研报阐释道。
作为长于端侧的科技公司,小米集团也多次提到将自研大模型与端侧融合。
2023年5月,小米集团业绩公告显示,其当年4月正式组建了AI实验室大模型团队,AI领域相关人员超1200人,并将不断挖掘AI相关的用户场景,发挥自身技术优势,并以开放的态度与合作伙伴开拓更多机会。
2023年8月,小米集团的公告中显示,AI是公司长期投入的底层赛道。小米60亿参数的自研大模型在同参数量级中排名第一。
2023年11月,小米披露将AI大模型与小米澎湃OS深度融合,为用户提供基于端侧大模型的各类便利和智能的功能。
根据小米集团财报,今年前三季度,小米集团经调整净利润(非国际财务报告准则计量)189.18亿元,同比上涨31.7%。在当前经营稳健,盈利能力提升的基础上,扩大对算力基础的投入,也成为可选项。
部分万卡集群已经投产、端侧拥抱AI已是共识
目前,多家头部企业正竞相投入万卡集群的建设。
运营商是我国算力基础设施建设的中坚力量。中国移动呼和浩特、哈尔滨两大万卡级别智算中心已先后投产运行。中国电信上海、北京两个万卡集群已经投产。
在国内,百度等公司已在讨论如何构建十万卡集群。今年9月,沈抖就在百度智云大会上说道:“很快就会有更多的10万卡集群出现。”
海外头部AI大厂的步调更为激进,据报道。OpenAI正在设计能够将1000万块GPU连在一起的计算模型,Meta到今年年底将拥有35万张H100。
国内的端侧大厂,鲜少大举投入建设万卡集群,但端侧拥抱AI已是共识。就在不久前,理想汽车创始人李想接受采访时还提出,理想汽车不再仅仅是一家汽车制造企业,而是一家AI企业。
端侧AI在今年以来呈现爆发式创新的趋势。
以手机为例,AI的能力在未来的竞争中举足轻重。今年10月,在被问及如何看待AI时代的智能手机竞争时,vivo副总裁、AI全球研究院院长周围表示,AI会提供给传统的手机厂商更多自主研发的空间,这意味着更多个性化机会正在出现。未来人工智能会成为各个厂商手机产品体验差异的分水岭。
家电行业也掀起AI大模型的竞赛。美的集团、海尔智家等头部家电企业纷纷推出AI大模型,在大模型的加持下,AI电视、AI洗烘套装、AI厨电、AI扫地机、AI净水器、AI家庭机器人等接连被推向市场。
小米集团拥有手机、家电、智驾等诸多终端产品。不过,独立电信分析师付亮向《每日经济新闻》记者表示,不要把小米理解为硬件厂商,小米在生产手机的同时,一直是一个活跃的互联网平台。付亮表示,小米认为大模型是其“人车家”战略的重要支撑,如果其建设万卡集群,方向也与其他企业不同,“别人没有利用率,小米自带利用率”。