机器学习的四个步骤

图灵汇官网

在学习人工智能之前,掌握一些基本的机器学习知识是非常重要的。本文将介绍机器学习训练“模型”的四个步骤,帮助大家更好地理解这一过程。

我们可以将机器学习类比为大脑的学习过程。

大脑的学习成果是“智慧”,而机器学习的成果则是“模型”。

训练机器学习模型主要分为以下四个步骤:

  1. 收集数据:这相当于大脑积累知识的过程。
  2. 训练模型:这相当于大脑消化理解知识的过程。
  3. 模型评估:这相当于大脑通过考试检验学习效果的过程。
  4. 模型部署:这相当于大脑将所学应用到实际生活中的过程。

收集数据

机器学习的核心思想是利用以往的经验来预测未来的问题,这与人类大脑的学习方式非常相似。为了训练模型,我们需要收集大量的数据。这些数据通常会被随机分成两个部分:

  • 训练数据集:用于训练模型,相当于学习过程中用来理解和吸收知识的材料。
  • 测试数据集:用于评估模型的性能,相当于考试时用来检验学习效果的题目。

在机器学习中,这些数据被称为“样本”。而“token”则是数据集中最小且有意义的单元,例如一个单词、一个数字或一个汉字。

通常,我们会用token的数量来衡量数据集的大小。据报道,GPT-4使用了大约13万亿个token进行训练。

训练模型

在人类学习中,“智慧”是从问题中提取答案的过程;而在机器学习中,“模型”则从样本中提取标签。以一个预测冰淇淋销量的模型为例:

  • 特征:气温(x1)、降水量(x2)、是否节假日(x3)等。
  • 标签:销售额(y)。

模型会通过复杂的算法自动找出这些特征与标签之间的关系,即找到一个函数f,使得y = f(x1, x2, x3...)。

科学家们开发了许多算法,例如“随机森林”、“k近邻算法”、“生成对抗网络”和“支持向量机”等。除了算法外,模型的性能还依赖于参数,这些参数是可以调整的变量,用于控制模型的行为和性能。最常见的参数之一是“权重参数”。

据称,GPT-4拥有高达1.8万亿的参数。

模型评估

在实际应用中,我们常常会发现即使自认为已经掌握了知识,但在实际操作时仍然会出现错误。因此,我们需要通过“考试打分”来检验学习效果。在机器学习中,通过测试数据集来评估模型性能的过程称为“模型评估”。

常用的评估指标包括:

  • 过拟合:模型在训练数据集上表现良好,但在测试数据集上表现较差。
  • 泛化能力:模型对未见过的数据的适应能力。
  • 精度:模型预测正确的样本数占总样本的比例。

所谓“模型迭代”是指通过不断优化或增加训练数据集,选择更合适的算法或参数,从而提升模型在测试数据集上的表现。

模型部署

虽然“考试打分”不是学习的最终目标,但只有将模型应用于实际场景,才能体现其真正的价值。部署模型是一个持续的过程,需要定期监控模型的性能和预测结果,及时发现并解决问题。此外,新出现的情况也可以作为新的训练数据,以进一步提高模型的准确性。

本文简要介绍了机器学习的四个关键步骤,它们与人类大脑的学习过程有着惊人的相似之处。通过不断的学习和实践,我们可以更好地掌握这些技能,跟上时代的步伐。

本文来源: 图灵汇 文章作者: 徐誉菁