解密|阿里云破图像识别世界纪录的背后

图灵汇官网

2018年12月25日,斯坦福大学发布了最新的DAWNbench深度学习推理榜单,阿里云在该榜单上取得了图像识别性能和成本双料冠军,打破了此前由亚马逊AWS计算平台保持的记录。这是该榜单首次出现中国科技公司的身影。

阿里云的技术团队使用ecs.gn5i-c8g1.2xlarge实例,以每张图片4.218毫秒的处理速度和0.00000154美元的推理成本,分别在性能和成本排行榜上占据首位。其性能是第二名Amazon EC2[c5.18xlarge]实例的2.36倍,且平均每张图片的推理成本降低了6.1%。

尽管深度学习模型优化一直是学术界和产业界的重要研究方向,但在DAWNbench竞赛推出前,业界缺乏一套全面评估深度学习训练及推理任务的标准。DAWNbench竞赛不仅关注性能指标,还关注模型精度和成本等因素。自2017年在NIPS会议上发布以来,该竞赛引起了业界的高度关注。

阿里云参加了DAWNbench竞赛中的两个项目:一是对ImageNet验证集中的50000张图片进行分类,要求分类模型的Top-5精度至少达到93%,并统计每张图片的平均延迟;二是以每次一张图片的方式,完成50000张图片的推理,计算平均成本。

根据2018年12月25日的排名,阿里云在这两个项目上均位列第一。为了实现最快的性能和最低的成本,参赛团队从以下三个方面进行了优化:选择合适的深度学习模型、应用8位量化技术、以及选用适合的阿里云GPU实例。

深度学习模型的选择

在阿里云团队参赛前,ImageNet推理任务的榜首选择了ResNet50-v2模型,该模型基于Facebook的论文“Accurate, Large Minibatch SGD: Training ImageNet in 1小时”,在Amazon EC2[c5.18xlarge]实例上以9.96毫秒的推理性能和1.64E-06美元的成本位居第一。尽管ResNet50-v2更容易训练,但其计算量有所增加。因此,阿里云团队选择了ResNet50-v1模型。

在训练过程中,团队发现传统的三阶段学习率设置难以达到93%的Top-5精度。经过多次尝试,他们设计了一种新的学习率方案,即在训练初期快速提升学习率至峰值,随后逐步降低,最终实现了93.28%的Top-5精度。

8位量化

低比特量化是提升推理性能的关键技术之一。虽然已有研究尝试使用1位或2位进行量化,但精度损失较大。阿里云团队选择了8位量化技术,在保证计算性能的同时,尽可能保持模型的预测精度。他们基于TensorFlow和TensorRT平台进行优化,重点解决了将训练好的TensorFlow模型转化为TensorRT的8位模型的问题,并优化了推理模式,以实现神经网络各层激活值的动态范围校准。

阿里云GPU实例的选择

为了实现高性能和低成本的目标,阿里云团队选用了支持8位计算的NVIDIA Tesla P4 GPU,以及基于该GPU的ecs.gn5i-c8g1.2xlarge实例。该实例配备了一个8核的vCPU和一块P4 GPU。此外,该实例提供了多种价格选项,包括包年包月、按量付费和抢占式实例。在抢占式实例下,每小时的价格仅为7.015元。根据测试,该实例的平均推理性能为4.218毫秒/张,而推理精度达到了93.16%。

这些优化成果已应用于阿里云的GPU计算平台加速框架(Perseus)中,为用户提供更优质的使用体验。阿里云正致力于打造一个涵盖虚拟化、存储、GPU加速及深度学习框架优化的全栈异构计算服务平台。

本文来源: 图灵汇 文章作者: 丁舒熳