图灵汇报道,马斯克和其他人工智能专家认为,当前现实中用于训练AI模型的数据已接近枯竭。在最近的一次直播对话中,马斯克提到:“我们基本上已经用完了几乎所有可用于人工智能训练的人类知识数据。这种现象大概从去年开始出现。”
马斯克的观点与前OpenAI首席科学家伊利亚·苏茨克弗的看法相呼应。苏茨克弗在去年的NeurIPS会议上表示,AI行业已经达到了“数据峰值”,未来将面临训练数据不足的问题,这或将促使AI模型开发方式发生变化。
马斯克认为,合成数据可能是解决问题的关键。他解释说:“唯一的解决办法是通过合成数据,让AI自行生成训练数据。AI可以通过自我评估和持续学习,不断提高自身性能。”
许多科技巨头如微软、Meta、OpenAI和Anthropic等,已经开始利用合成数据来训练主要的AI模型。根据Gartner的预测,到2024年,60%用于人工智能和数据分析项目的数据将通过合成方式生成。
合成数据的一个显著优点是能够降低成本。例如,一家人工智能初创公司Writer称,其Palmyra X 004模型几乎完全依赖合成数据开发,开发成本仅为70万美元,相比之下,规模类似的OpenAI模型的开发成本约为460万美元。
然而,合成数据也带来了一些风险。研究显示,如果合成数据带有偏见或局限性,可能会导致模型性能下降,甚至产生更加偏颇的结果,从而影响其实际应用效果。因此,如何确保合成数据的质量和多样性,成为一个亟待解决的问题。