人工智能动态

微信公众号

人工智能报

微信视频号

图灵汇

抖音号

图灵汇

小红书

AI中国

头条号

媒体矩阵

更多

以上自媒体由本平台或本平台合作伙伴提供服务。

    11月 19
  1. 今天
  2. 星期二
59:19
grade

摘要:苹果公司最近发布了一份论文,详细阐述了其名为Apple Intelligence的模型技术,该技术部分性能已超越OpenAI的GPT-4。本文聚焦于苹果基础模型(AFM)的特性及其训练过程。

苹果推出了两款AFM模型:AFM-on-device与AFM-server。前者设计用于本地设备,具有30亿参数,能在如iPhone和iPad等移动设备上高效运行;后者参数等具体细节暂未公开。苹果强调模型训练过程中对用户隐私的保护,确保数据集不包含苹果用户的信息。

苹果通过与出版商的合作,构建了一个多元化的训练数据集,包括授权数据、公开或开源数据集以及由其网络爬虫Applebot抓取的公开信息。此外,AFM模型还在GitHub托管的开源代码上进行了训练,涵盖多种编程语言,如Swift、Python、C等。

为了提升模型的数学能力,苹果在训练集中整合了来自网页、数学论坛、博客、教程和研讨会的数学问题及答案。高质量、可公开获取的数据集被用于训练模型,且经过处理以剔除敏感信息。AFM模型的训练数据集规模约为6.3万亿个token,远少于Meta用于训练Llama 3.1 405B所需的15万亿token。

苹果采用TPUv4和TPUv5p芯片进行模型训练,其中AFM-server使用8192片TPUv4芯片,而AFM-on-device则使用2048片TPUv5p芯片。TPUv5p每秒的浮点运算和内存能力是TPUv4的两倍,训练速度加快近三倍。

AFM模型在指令执行、文本总结等任务上表现出色,优于GPT-4。AFM-server的有害输出违规率显著低于GPT-4,且在设备上,AFM的违规率也低于由Meta训练的Llama-3-8B。在电子邮件、信息和通知汇总方面,设备上的AFM满意度分别达到71.3%、63%和74.9%,在这些任务上领先于Llama、Gemma和Phi-3模型。


原文改写

苹果公司近期公布了一篇详述其Apple Intelligence模型技术的论文,揭示部分性能已超越OpenAI的GPT-4。本文将重点介绍苹果基础模型(AFM)的特性和训练策略。

苹果推出了两款AFM模型:AFM-on-device和AFM-server。AFM-on-device设计用于本地设备,具备30亿参数,能在包括iPhone和iPad在内的移动设备上高效运行;AFM-server的具体参数细节暂未透露。

苹果在数据集构建时强调用户隐私保护,确保训练数据不包含苹果用户信息。其数据集源自多个渠道,包括出版商提供的授权数据、公开或开源数据集以及由其网络爬虫Applebot收集的公开信息。此外,AFM模型还在GitHub托管的开源代码上进行了训练,覆盖了Swift、Python、C等多种编程语言。

为了增强数学能力,苹果在训练集中整合了来自互联网的数学问题和答案。高质量、可公开获取的数据集用于训练,经过处理以消除敏感信息。AFM模型的训练数据规模约为6.3万亿个token,远少于Meta用于训练Llama 3.1 405B模型的15万亿token。

苹果采用了TPUv4和TPUv5p芯片进行模型训练。AFM-server使用8192片TPUv4芯片,而AFM-on-device则使用2048片TPUv5p芯片。TPUv5p每秒的浮点运算和内存能力较TPUv4翻倍,训练速度提升近三倍。

AFM模型在指令执行、文本总结等任务上展现出卓越性能,超过GPT-4。AFM-server的有害输出违规率低于GPT-4,设备上的AFM违规率也低于Meta训练的Llama-3-8B。在电子邮件、信息和通知汇总方面,设备上的AFM满意度分别达到71.3%、63%和74.9%,在这些任务上超越了Llama、Gemma和Phi-3模型。


扫描二维码即可下载图灵汇App
  • 扫码关注
  • 图灵汇