周志华的《机器学习》

图灵汇官网

内容概述

周志华的《机器学习》被誉为人工智能领域中文版的经典之作。这本书面向中文读者,旨在帮助学生和对人工智能感兴趣的读者了解机器学习的基础知识。书中以通俗易懂的方式,详细介绍了机器学习的各个方面,被业内称为“西瓜书”。

全书分为三个部分,共计16章:

  1. 基础知识(第1~3章):涵盖机器学习的基本概念,如绪论、模型评估与选择、线性模型等。
  2. 经典方法(第4~10章):讨论了一些经典的机器学习方法,包括决策树、神经网络、支持向量机、贝叶斯分类器、集成学习、聚类、降维与度量学习等。
  3. 进阶知识(第11~16章):涉及特征选择与稀疏学习、计算学习理论、半监督学习、概率图模型、规则学习及强化学习等内容。

目录

书中除第1章外,每章都配有习题。这些习题旨在帮助读者巩固所学知识,并引导他们扩展相关知识。部分习题难度较高,仅供具有挑战精神的读者参考。本书适合作为计算机、自动化等相关专业学生的教材,也可供研究人员和工程师参考。

绪论

基本术语

  • 数据集:一组数据样本的集合。
  • 示例:对数据样本的具体描述。
  • 属性:描述样本的特性。
  • 属性值:属性的具体数值。
  • 属性空间:由属性构成的空间,有几个属性就有几维。
  • 特征向量:属性空间中的向量。
  • 训练:通过数据学习模型的过程。
  • 训练数据:用于训练的数据。
  • 不可知样本:未来可能出现的数据。
  • 假设:模型对数据的解释。
  • 真相:数据的真实规律。
  • 分类:离散的输出结果。
  • 回归:连续的输出结果。
  • 监督学习:已知结果的数据。
  • 无监督学习:未知结果的数据。

假设空间

假设我们有一个训练数据集,目标是通过数据集学习出一个好的模型。例如,通过一些属性来判断一个“好瓜”。

归纳偏好

归纳偏好是指在面对多个可能的假设时,算法如何根据先验知识或假设选择最优模型。这种偏好会影响模型的学习过程和性能。

模型评估与选择

经验误差与过拟合

  • 过拟合:模型过度拟合训练数据,导致在新数据上的表现不佳。
  • 欠拟合:模型未能充分学习数据的特征,导致在新数据上的表现不佳。

评估方法

  • 留出法:将数据集分为训练集和测试集。
  • 交叉验证法:将数据集划分为多个互斥子集。
  • 自助法:通过有放回抽样构建训练集和测试集。

性能度量

  • 错误率与精度:错误率是分类错误的样本比例,精度是分类正确的样本比例。
  • 查准率与查全率:查准率是预测为正类的实际为正类的比例,查全率是实际为正类的预测为正类的比例。
  • F1分数:查准率和查全率的调和平均值。
  • ROC曲线与AUC:ROC曲线以真阳性率和假阳性率为坐标轴,AUC表示ROC曲线下的面积。
  • PR曲线与PR-AUC:PR曲线以查准率为纵轴,查全率为横轴,PR-AUC表示PR曲线下的面积。

比较检验

比较检验主要涉及两个步骤:

  1. 提出假设:

    • 零假设:通常是关于总体参数的假设。
    • 备择假设:当零假设被拒绝时接受的假设。
  2. 收集证据并进行检验:

    • 使用统计测试(如t检验、卡方检验等)。
    • 计算统计量(如t值、卡方值等)。
    • 确定显著性水平(如α=0.05)。
    • 根据统计量的值和显著性水平计算p值。
    • 如果p值小于显著性水平,则拒绝零假设;否则不拒绝。

书籍资料领取方式

  • 方式一:私信发送“1”即可免费领取。
  • 方式二:关注公众号“编程百事通”。
本文来源: 图灵汇 文章作者: 酷plane
    下一篇