机器学习基础:学习算法

图灵汇官网

机器学习算法是一种能够从数据中自动学习的算法。这里的“学习”指的是算法可以通过数据自我优化,以更好地完成特定任务。Mitchell(1997)曾简洁地定义过:“对于某一类任务T和性能度量P,如果一个计算机程序通过经验E改善了其在任务T上的表现,则可以说它从经验E中‘学习’。”经验E、任务T和性能度量P的定义范围很广,下面将通过一些示例来介绍不同任务、性能度量以及经验。

一、任务T

机器学习可以帮助解决那些传统方法难以应对的问题。从科学和哲学角度看,机器学习之所以受到重视,是因为它能促进我们对智能背后的原理的理解。

1. 分类

在分类任务中,计算机程序需要判断输入属于哪一类。例如,机器人识别饮料并送至顾客手中,就是典型的分类问题。当前,深度学习在对象识别方面取得了显著成就。

2. 输入缺失分类

当输入向量中存在缺失值时,分类问题变得更加复杂。在这种情况下,学习算法需要定义从输入向量到输出类别的映射函数。例如,在医疗诊断中,由于某些医学测试成本高昂或对人体有害,常常会出现输入缺失的情况。

3. 回归

在回归任务中,计算机程序需要预测数值输出。例如,预测保险理赔金额或股票价格。这类任务与分类任务非常相似,只是输出形式不同。

4. 转录

在转录任务中,机器学习系统将非结构化的数据转换为结构化的文本形式。例如,光学字符识别系统将图像转换为文本,而语音识别则将音频信号转换为文本。

5. 机器翻译

在机器翻译任务中,计算机程序需要将一种语言的文本转换为另一种语言。深度学习在这一领域发挥了重要作用。

6. 结构化输出

在结构化输出任务中,程序需要生成包含多个值的数据结构。例如,将自然语言句子解析为语法树或对图像中的像素进行分类。

7. 异常检测

异常检测任务要求程序在一组数据中找出不正常或非典型的个体。例如,信用卡公司通过分析消费模式来检测欺诈行为。

8. 合成与采样

合成与采样任务涉及生成与训练数据相似的新样本。例如,视频游戏中可以利用机器学习自动生成纹理,减少艺术家的工作量。

9. 缺失值填充

在缺失值填充任务中,机器学习算法需要填补样本中缺失的值。这在数据预处理阶段非常重要。

10. 去噪

去噪任务要求机器学习算法从噪声数据中恢复原始数据。这在图像和音频处理中非常常见。

11. 密度估计或概率质量函数估计

密度估计任务要求算法学习样本的概率分布。这在很多任务中都很有用,例如,通过概率分布解决缺失值填充问题。

二、性能度量P

为了评估机器学习算法的表现,我们需要设计相应的性能度量。这些度量通常与算法执行的任务有关。例如,在分类任务中,常用的度量是准确率和错误率;而在回归任务中,则采用均方误差等度量。

三、经验E

根据学习过程中使用的经验,机器学习算法可以分为无监督学习和监督学习两大类。无监督学习侧重于从数据集中学习有用的结构,而监督学习则依赖于带有标签的数据集。

四、示例:线性回归

线性回归是一种简单的机器学习算法,用于解决回归问题。其基本思想是通过线性函数拟合输入与输出之间的关系。例如,通过最小化均方误差来优化权重参数,从而提高预测准确性。这不仅是一个理论上的概念,还提供了机器学习如何运作的具体示例。

以上内容是对原文进行了改写,确保不扭曲原文的核心信息,同时提高了文章的紧凑性和可读性。

本文来源: 图灵汇 文章作者: 晏倩