在2024年的百度云智大会上,百度智能云正式推出了百舸AI异构计算平台的4.0版本,针对这一升级,官方着重指出了解决算力资源紧张问题的战略。新版本在“多芯混训”能力上取得了显著进展,实现了在大规模集群中达到95%的多芯混合训练效率。
百舸4.0在集群部署方面也进行了优化,使得部署时间大幅缩短。升级后的平台能在工具层面实现秒级部署,极大地加速了万卡集群的运行准备过程,最快只需1小时即可完成,显著提升了工作效率。
此外,该版本还强化了故障检测手段和自动容错机制,保证了在万卡集群上的有效训练时间超过99.5%,从而提高了整体稳定性和训练效率。
此次升级旨在增强计算平台的灵活性和可靠性,为人工智能领域的研究和应用提供更为强大的支持。