21世纪经济报道记者骆轶琪广州报道
AI大模型持续迭代演进,相应对智算中心有了更持续的需求。虽然现阶段智算中心需求尚且面临一定程度波动,但AI技术和应用的持续迭代无疑驱动智算中心走入下一个发展周期。
第三方机构IDC近日发布的报告显示,2024上半年中国智算服务整体市场同比增长79.6%,市场规模达146.1亿元人民币。其中,智算集成服务市场同比增长168.4%,市场规模达57.0亿元人民币;GenAI IaaS市场同比增长203.6%,市场规模52.0亿元人民币。
智算中心的建设进程不仅在高速成长,也显得迫切。
近日,普洛斯中国高级副总裁、数据中心业务联席总裁郭仁声接受21世纪经济报道等记者采访时介绍,过去一年多时间,算力行业需求很旺盛。公司客户提出的要求是,希望采购的算力服务器一到就立刻上架、快速组网,并能对外提供服务或对企业内部IT提供服务能力。“目前我们从(数据中心基建)交付到客户服务器上架,再到投产的过程非常快。”
但智算产业链技术仍在持续迭代,亟需产业链间共同推动探索发展。
智算需求积蓄
如今,智算中心是发展数字经济的重要基础设施之一,承接着基础大模型的训练和垂域大模型训练、推理相关工作。由此不难理解现阶段大规模建设的重要性。
一名业内专家向记者分析,统计显示,2023年美国、中国、德国、日本、韩国五个国家的数字经济总量超过33万亿美元,同比增长超8%,数字经济占GDP的比重平均达60%,较2019年提升了8个百分点。
“2023年我国数字经济占GDP比重大约为42.8%,较上年提升了1.3个百分点。数字经济增长对GDP增长的贡献率达66.45%。从国家政策方面也可以看到,国家非常重视数字经济发展。”该专家续称。
不同于上一轮以CPU为核心建设的通算中心,本轮以GPU为核心的智算中心建设提出了更为复杂的技术要求。
受访时郭仁声分析,随着智算中心的建设规模越来越大、功率密度持续走高,对数据中心的物理条件提出了较高要求,同时,制冷、输配电等基础设施,都要能够配合相应高功率要求。
(2022-2024年上半年中国智算服务市场规模预估,图源:IDC咨询)
“我们观察到,特别是大型客户在搭建一个千卡或万卡集群的算力平台时,功率要达到30兆瓦,这对电力就有很高的起步要求,还要考虑后续的扩展计划,客户会要求具备未来扩容到100兆瓦的体量。”他进一步分析,因此新的数据中心的发展趋势也正在变化,从传统单体的数据中心(如容纳2000个机柜规模)逐渐向大型基地型数据中心转移。
从技术趋势看,郭仁声分析,当前智算产业链的技术演变迅速,可见的趋势是,从整个服务器或从IT设备供应链角度在进行整合,慢慢走向一体机形式,同时在整合机柜内结合了供电、甚至内置制冷、液冷相关能力。
“从普洛斯数据中心的角度看,在基础架构层面,制冷、配电要达到更弹性智能;还要跟客户紧密配合,基于不同供应链体系摸索不同路径,比如风冷可以支撑到最大多少千瓦一个机柜、布局用冷通道还是热通道、中间是否再加不同的设计思路等。”他续称,没有一个技术方案能包打天下,所以普洛斯要与服务器厂商、设备供应链厂商等业内产业链一起,多做不同的探索、尝试。
持续建设的智算中心也令普洛斯相关业务持续成长。郭仁声介绍,近些年,集团为普洛斯数据中心业务投入了大量资源,数据中心已经成为集团第二大业务板块。“头部客户大约从近一两年开始布局智算,推动智算中心在我们业务内的比例成长很快,当然从规模来看,通算中心的占比相对更多一些。今年前三季度,普洛斯数据中心销售收入同比增长63%,保持高速成长态势。我们希望专注把数据中心底层的基础设施、服务做精做专。”
IDC中国企业级研究部研究经理杨洋表示,从2024年市场的实际情况看,智算服务市场以远超预期的增速在高速成长。
“IDC认为智算服务市场在未来五年内仍将保持超高增速高速成长,原因在于,一是头部客户对于训练算力的需求仍呈现量级跃迁特征;二是从产业阶段和算力结构上看,GenAI仍处于早期阶段,推理侧算力支出占较小比例,以终局来看,推理侧算力应占到算力支出的6-7成,意味着推理侧算力支出将有百倍以上的增长空间;三是算力成本在逐步下降,2024上半年,IDC观测到更多中腰部组织/企业在展开GenAI实践,未来,大量的中腰部组织/企业将成为智算服务市场的优质增量。”他进一步分析,GenAI同样在重塑整个ICT市场的技术体系和竞争均势,而智算服务市场将处于价值链的核心环节,成为ICT巨头的必争之地。
多维度竞跑
从2022年末ChatGPT落地至今也不过两年左右,关于大模型的技术路线、应用方向等内容依然是业内持续探讨的话题,也意味着智算中心作为核心赋能方,还要为接下来的持续变化做准备。
郭仁声介绍道,“‘集中化’是未来算力基础设施及服务很明显的走向,对普洛斯数据中心来说,技术上我们会更关注绿色节能、架构上更灵活,结合运营上的优势,承接客户更高的算力需求。”
液冷散热技术也备受关注。郭仁声指出,目前对液冷技术,大部分还是在试点的环境下建设。“很多时候是客户、供应商跟我们三方共同投入去做。客户也会测算投入液冷的成本,和节约的电能、物理空间成本能不能持平。总体上来说,如果在满负荷运行情况下,他们认为账能算得过来。”
据介绍,例如在普洛斯常熟东南数据中心,就有和客户共建液冷测试环境。“一方面是做技术探讨,另一方面是根据客户需求进行液冷设施建设、供应链连接,比如管路、冷却液等,在供应链方面我们已经形成了比较成熟的体系,也看到很多客户在逐步尝试应用液冷技术。”他续称。
与新型储能技术结合也有望为数据中心发展带来益处。他进一步指出,随着国内今年储能供应链成本下降,对数据中心应用储能更有利,有望降低建设成本。“我们在密切留意这方面可行的方案、希望能更好适配政策,在项目上结合储能和绿电,这是未来数据中心发展很关键的一个方向。”
杨洋认为,随着智算中心建设提速,专业服务和商业化运营成为关注重点。
“据不完全统计,上半年智算中心项目已过百,但其中相当数量仍处于规划/开工/在建等状态。这些项目呈现出资金投入大、算力密度大、建设难度高等特征。如何通过专业服务实现大规模集群系统架构部署优化、大规模计算稳定性保障以及集群高效运维,越来越受到算力使用方以及相关服务商重视。”他分析道,同时,现阶段部分投产上线智算中心面临缺乏商业化运营能力,如何实现零散算力整合售卖并完成与最终用户的对接使用正成为算力建设方、运营方关注重点。
郭仁声对21世纪经济报道记者进一步分析,智算中心的出现给数据中心运维带来很多新挑战。
“传统通用服务器机柜2千瓦功率起,就算停了制冷,大约能有15分钟进行应急处理;但智算中心如此高的密度,一旦制冷异常,可能不到3分钟,温度就已经急剧上升。这也是我们认为一定要靠智能化工具帮助运维的原因。我们现在对一个中型数据中心部署有上百万个传感器探点,大概每10秒实时循环一次,对所有探点收集运营数据、实时更新,并做好分析和预警,尽可能提前看到异常的状况、及时处理。”他分析道。
此外,在高密度的算力中心里,可能会应用液冷或多种不同的制冷情形。“普洛斯数据中心自主开发了GLP DCBASE智慧化运营管理系统,最新的3.0版本在业内率先具备同时管理冷板式液冷和浸没式液冷两种不同场景的能力,能够让客户在一个平台对不同液冷技术的情况进行实时监控、管理不同算力环境,更好做管理和功能调配。”郭仁声指出。
在智算中心建设过程中,第三方数据中心服务商也面临更为严苛的竞争环境。
郭仁声总结道,近一两年,市场竞争非常激烈,价格也在波动。“我们看到一些头部大型云厂商或互联网客户,不只看价格,尤其在区域性节点选择过程中,会更看重合作伙伴的长期运营能力,包括运维服务的水平和质量。因为任何事故的出现,对客户来说造成的损失不是在租金上能够弥补。”
长远来说,他指出,随着不同行业在投入数字化转型、对AI大模型进行能力建设、推动AI应用场景落地。今天的需求可能更多是数据存储,未来随着影像、声音等多类型数据产生,对数据的存储、处理需求会持续保持高增长,也就会直接带动数据中心建设。