财中社1月8日电东吴证券发布AI算力行业跟踪深度报告,认为AEC是AI计算时代Scale Up需求被放大后的新兴技术方向,与Scale Out光互联并不构成需求的“零和游戏”,后续有望在柜间、柜内、ToR层互联中继续渗透。
1、如何辨析Scale Out与Scale Up网络? Scale Out网络实现集群内(Cluster,如万卡、十万卡集群)所有GPU卡互联,亮点在于网络内连接GPU数量大,与传统数据中心网络类似,Scale Up网络实现超节点内(SuperPod,如NVL 72)所有GPU卡互联,亮点在网络内单卡通信带宽高,为AI算力场景下并行计算、内存墙等瓶颈催生出的新兴需求。
2、DAC、AEC、AOC是什么? 1)DAC、AEC都是铜连接,DAC无源(没有信号处理芯片)、AEC有源(有信号处理芯片),AOC是有源光连接;2)信号传输的核心部件与原理不同导致三类连接方式的功耗、距离、成本成倍递增;
3、为什么AEC在DAC、AOC的夹缝中挤出空间? 1)光进铜退已经发生于Scale Out网络:由于传输速率、距离均不断提升,光几乎已占据Scale Out所有互联场景;2)能用铜的场景就只会用铜不会用光:当前铜在10m以内高速连接仍可使用,因此光模块、CPO尚无法替代此场景;3) Scale Up互联GPU数量少距离近,10m以内铜连接或可全覆盖,并不构成对光互联空间的侵蚀;4)距离、尺寸等差距导致铜缆内部有源(AEC)进无源(DAC)退;
4、AEC在算力网络侧如何部署、前景如何? 1)目前AEC主要用在Scale Up的柜间连接,如目前亚马逊Trn2-Ultra64使用AEC柜间互联,ASIC芯片与AEC配比为1:1;2)AEC与ASIC两者的兴起有相关性而非因果性,其底层逻辑是计算与通信的再解耦:云厂使用ASIC或英伟达HGX等,而非英伟达DGX方案时,完全来自英伟达的计算+通信方案也随之解耦,云厂便可以自主选择使用AEC;3)AEC还可以向柜内与ToR层渗透:假如英伟达GB200 NVL72、8柜内换用AEC,一枚B200对应4.5支等效1.6TAEC,假如亚马逊Trn2-Ultra64柜内换用AEC,一枚Trainium2对应约3支800GAEC,决定配比的关键因素仍为单卡带宽及交换机层数;假如AEC参与ToR层连接,和算力卡配比为1:1;4)与DAC产业链中连接器品牌方是最核心环节不同,Retimer芯片供应商+品牌方变为AEC产业链中主导方。