机器学习不是统计学!这篇文章终于把真正区别讲清楚了

图灵汇官网

【新智元导读】统计学和机器学习的真正区别是什么?许多人往往难以区分两者,尽管它们有很多相似之处。本文详细探讨了统计学和机器学习的实际差异,提供了重要的指导意义。

很多人无法清楚地区分统计学和机器学习,因为两者之间确实有许多相似之处。一种常见的观点是,机器学习和统计学的主要区别在于它们的目的:机器学习模型旨在实现最准确的预测;统计模型则用于推断变量间的关系。

这种说法虽然在技术上正确,但并未提供明确的答案。机器学习侧重于准确预测,而统计模型侧重于推断变量间的关系,这样的表述除非你对这些概念有深刻的理解,否则显得空洞。

统计学是数据的数学研究,而统计模型则是数据的模型,用于揭示数据内部的关系或预测未来值。实际上,我们需要讨论两个方面:一是统计数据与机器学习的区别,二是统计模型与机器学习的区别。

统计学模型与机器学习在线性回归上的差异

尽管统计建模和机器学习使用的方法相似,但它们并不是一回事。最明显的例子是线性回归,这可能是造成误解的主要原因。线性回归是一种统计方法,旨在最小化数据点间的平方误差。

在机器学习中,我们使用训练数据的一部分进行模型训练,并在另一部分未见过的数据(测试集)上评估模型性能。机器学习的目的是在测试集上获得最佳表现。

相比之下,统计模型只需最小化所有数据的均方误差,无需训练和测试步骤。在科学研究中,模型的目的是表征数据与结果变量之间的关系,而不是预测未来数据。我们称之为统计推断,而不是预测。但统计模型也可以用于预测,只是评估模型的方式不涉及测试集,而是评估模型参数的重要性和稳健性。

统计与机器学习在线性回归上的差异

有一种误解认为,仅因为统计学和机器学习都基于概率概念,所以两者是相同的。这种观点是不正确的。

有人提出,机器学习只是美化统计学的说法是荒谬的。实际上,物理学是数学应用于现实世界的产物,统计学也是数学的一部分。同样,机器学习也是建立在统计学基础上的,但它还结合了其他数学和计算机科学领域的知识。

数据科学 vs 统计学

数据科学是一种将计算和统计方法应用于数据的技术,可以用于小型或大型数据集。数据科学不仅涉及统计,还涉及数据处理和计算机科学等其他领域。

机器学习 vs 人工智能

机器学习是人工智能的一个子集,专注于训练机器根据已有数据做出可推广的推断。

机器学习是基于统计学的

机器学习建立在统计学的基础上,但它还涉及其他数学和计算机科学领域。机器学习的核心是统计学习理论,该理论发展于20世纪60年代,并扩展了传统统计学的内容。

统计学习理论:机器学习的统计基础

统计学和机器学习都基于概率空间。统计学仅依赖于概率空间,而机器学习则在此基础上扩展,引入了更多的数学和计算机科学概念。

举例

以线性回归为例,统计学试图最小化误差,而机器学习则通过训练和测试数据来验证模型。尽管两种方法都能得出相似的结果,但它们的实现方式不同。

结论

统计学和机器学习有着紧密的联系,但它们的目的和实现方式有所不同。选择哪种方法取决于具体的应用场景。如果目的是准确预测,机器学习可能是更好的选择;如果需要推断变量间的关系,统计模型更为合适。

此外,即使不具备强大的统计学背景,也能掌握机器学习并应用于实际问题。但了解基本的统计概念有助于避免模型过度拟合并提供可靠的推论。

本文来源: 图灵汇 文章作者: 石平