机器学习的四个步骤

徐誉菁

2024-04-19 22:09:42

在学习人工智能之前，掌握一些基本的机器学习知识是非常重要的。本文将介绍机器学习训练“模型”的四个步骤，帮助大家更好地理解这一过程。

我们可以将机器学习类比为大脑的学习过程。

大脑的学习成果是“智慧”，而机器学习的成果则是“模型”。

训练机器学习模型主要分为以下四个步骤：

机器学习的核心思想是利用以往的经验来预测未来的问题，这与人类大脑的学习方式非常相似。为了训练模型，我们需要收集大量的数据。这些数据通常会被随机分成两个部分：

在机器学习中，这些数据被称为“样本”。而“token”则是数据集中最小且有意义的单元，例如一个单词、一个数字或一个汉字。

通常，我们会用token的数量来衡量数据集的大小。据报道，GPT-4使用了大约13万亿个token进行训练。

在人类学习中，“智慧”是从问题中提取答案的过程；而在机器学习中，“模型”则从样本中提取标签。以一个预测冰淇淋销量的模型为例：

模型会通过复杂的算法自动找出这些特征与标签之间的关系，即找到一个函数f，使得y = f(x1, x2, x3...)。

科学家们开发了许多算法，例如“随机森林”、“k近邻算法”、“生成对抗网络”和“支持向量机”等。除了算法外，模型的性能还依赖于参数，这些参数是可以调整的变量，用于控制模型的行为和性能。最常见的参数之一是“权重参数”。

据称，GPT-4拥有高达1.8万亿的参数。

在实际应用中，我们常常会发现即使自认为已经掌握了知识，但在实际操作时仍然会出现错误。因此，我们需要通过“考试打分”来检验学习效果。在机器学习中，通过测试数据集来评估模型性能的过程称为“模型评估”。

常用的评估指标包括：

所谓“模型迭代”是指通过不断优化或增加训练数据集，选择更合适的算法或参数，从而提升模型在测试数据集上的表现。

虽然“考试打分”不是学习的最终目标，但只有将模型应用于实际场景，才能体现其真正的价值。部署模型是一个持续的过程，需要定期监控模型的性能和预测结果，及时发现并解决问题。此外，新出现的情况也可以作为新的训练数据，以进一步提高模型的准确性。

本文简要介绍了机器学习的四个关键步骤，它们与人类大脑的学习过程有着惊人的相似之处。通过不断的学习和实践，我们可以更好地掌握这些技能，跟上时代的步伐。

步骤机器学习

本文来源：图灵汇文章作者：徐誉菁

通透！机器学习各大模型原理的深度剖析！