近日,YouTube视频博主ServeTheHome首次曝光了埃隆·马斯克(Elon Musk)旗下人工智能企业xAI的Colossus AI超级计算机集群。该集群集成了100,000个英伟达(NVIDIA)H100 GPU,被誉为目前全球最强大的AI超级计算机集群。
早在今年7月下旬,马斯克在“X”平台宣布启动了“世界上最强大的AI集群”。该集群从建设到组装仅用了122天,目前已运行约3个月。
Colossus AI超级计算机集群采用了超威电脑(Supermicro)的服务器,基于NVIDIA HGX H100方案,每个服务器包含8个H100 GPU,这些服务器装在Supermicro的4U通用GPU液冷系统中,为每个GPU提供简易的热插拔液冷解决方案。这些服务器安装在机架内,每个机架可容纳8台服务器,即每个机架有64个GPU。1U歧管连接在每个HGX H100之间,为服务器提供液体冷却。每个机架的底部是一个配备冗余泵系统和机架监控系统的Supermicro 4U单元。
这些机架成组出现,每组8个机架,每个阵列包含512个GPU。每台服务器有4个冗余电源,GPU机架背面设有三相电源、以太网交换机以及提供液体冷却的机架级歧管。据报道,Colossus集群包含超过1500个GPU机架,或近200个机架阵列。英伟达首席执行官黄仁勋表示,这200个阵列的GPU仅用三周时间便完成安装。
由于AI超级集群需要处理大量的数据传输需求,xAI在其网络互连性方面提供了极大的带宽支持。目前每个显卡都配备了一个400GbE的专用网络接口控制器(NIC),而每台服务器则额外配备了一个400Gb NIC。这意味着每台HGX H100服务器具备每秒3.6TB的以太网速率。整个集群通过以太网运行,而非InfiniBand或其他常见的超级计算连接方式。
此外,为了应对突发停电的情况,该超级计算机集群外部配置了大量的特斯拉Megapack电池,每个电池容量高达3.9MWh。这些电池能够在毫秒内快速提供备用电源,比柴油发电机更快,从而为启动其他备用电源提供充足的时间。
综上所述,xAI的Colossus AI超级计算机集群以其强大的硬件配置和高效的冷却系统,在全球范围内脱颖而出,成为最强大的AI超级计算机之一。