微软公司于Hot Chip 2024大会分享了其自研的Maia 100芯片的详细规格信息。这款芯片是基于台积电5纳米工艺制造的巨无霸处理器,专门针对Azure云平台上的大规模AI工作负载进行了优化设计。
Maia 100芯片的亮点包括:
- 尺寸:820平方毫米
- 封装:采用COWOS-S夹层技术的TSMC N5工艺
- HBM带宽/容量:1.8TB/s @ 64GB HBM2E
- 峰值密集Tensor POPS:6bit: 3, 9bit: 1.5, BF16: 0.8
- 缓存:L1/L2:500MB
- 后端网络带宽:600GB/s(12X400gbe)
- 主机带宽:32GB/s PCIe Gen5X8
- 设计功耗:700W
- Provision功耗:500W
Maia 100系统采用垂直集成策略,旨在优化成本与性能。该系统配备定制服务器板、专门设计的机架和软件堆栈,以提升性能。
架构亮点:
- 高速Tensor单元:提供高效处理能力,支持多种数据类型,采用16xRx16结构。
- 矢量处理器:一个松耦合的超标量引擎,支持多种指令集架构(ISA),包括FP32和BF16等。
- DMA引擎:支持不同的张量分片方案。
- 硬件semaphores:支持系统的异步编程。
- 大L1和L2 scratch pads:由软件管理,用于提高数据利用率和能效。
Maia 100采用基于以太网的互联技术,结合类似RoCE的定制协议,实现高带宽计算。其支持高达4800 Gbps的all-gather和scatter-reduced带宽,以及1200 Gbps的all-to-all带宽。
软件开发:
- Maia SDK:为PyTorch和Triton模型的快速移植至Maia提供了软件开发工具包。此工具包为开发者提供了多个组件,方便他们轻松部署模型至Azure OpenAI服务。
以上信息概述了Maia 100芯片的规格、架构以及软件支持,展示了其在AI工作负载处理上的强大性能和灵活性。