2024年7月26日至28日,由中国计算机学会(CCF)主办的“CCF Computility 2024分布式计算大会暨全国开放式分布与并行计算学术年会”在长春市成功举办。这场学术盛宴吸引了包括陈国良、于全、郑纬民在内的11位院士,以及千余名来自学术界和产业界的顶级专家参与,共同深入探讨分布式计算与算力网的最新进展,促进科技与产业的深度融合。
作为中国领先的分布式云服务商,PPIO派欧云联合创始人、董事长兼CEO姚欣受邀参会,并发表了题为《面向下一代人工智能的分布式智算网络建设与运营》的主题演讲。他宣布正式发布下一代分布式推理加速技术产品——派欧算力云推理加速引擎。
派欧算力云推理加速引擎通过自主研发的推理加速算法,实现了大语言模型(LLM)推理性能的显著提升,性能提升幅度达10倍,同时综合推理成本降低超过90%,在性能与成本之间取得了卓越的平衡,为开发者提供了高性价比的大模型推理服务。
为了突破显存、算力和带宽对大模型推理性能的限制,PPIO派欧云通过算法、系统和硬件的协同创新实践,推出了三大核心技术:
Pyramid Cache稀疏化压缩算法:通过分析不同层间的计算注意力分数分布,动态分配KV Cache预算,实现压缩比与模型性能的最佳匹配,有效降低GPU内存开销,提升推理效率。
Hydra Sampling投机采样技术:基于多头并行推理,显著提高推理效率,通过在线动态更新草稿模型,提升输出token接受率,实现端到端性能优化。
端到端FP8推理:通过优化注意力算法和KV Cache保存方式,实现全链路FP8计算,大幅降低数据存储和通信成本,提升端到端推理效率。
派欧算力云推理加速引擎支持多种应用场景,提供灵活高效的解决方案。用户只需几行代码即可享受高性价比的推理服务,按实际消耗的token数量付费,大大降低了使用门槛和成本。此外,提供容器化的推理基础设施,满足模型定制和私有部署需求,企业可快速部署和扩展推理服务,适应业务变化。
PPIO派欧云积极参与高校学术合作与人才培养,与天津大学等机构共同探讨分布式算力云方向的最新动态。通过举办首届CCF算力网系统与应用大赛,激发青年学生创新潜力,深入了解算力网的关键技术和系统架构,为算力网等分布式领域的创新人才提供交流与实践平台。
PPIO派欧云致力于通过持续的技术创新与优化,降低推理成本,构建高效、低成本的AI基础设施,助力更多AI创业企业和开发者轻松承担大模型推理费用。PPIO的目标是实现推理成本的大幅度降低,构建赋能AIGC应用爆发的基础设施,推动智能技术的快速发展与应用普及。
PPIO派欧云是中国领先的分布式云服务商,成立于2018年,由PPTV创始人姚欣和前蓝驰创投投资合伙人王闻宇共同创立。公司使命是“汇聚全球计算资源,为世界提供服务”,为人工智能、音视频、元宇宙等新一代应用场景提供一站式算力、模型及边缘计算服务。通过优化产品与服务,PPIO派欧云正加速推动智能时代的到来。