周志华的《机器学习》
酷plane
2024-08-09 10:40:03
图灵汇官网
内容概述
周志华的《机器学习》被誉为人工智能领域中文版的经典之作。这本书面向中文读者,旨在帮助学生和对人工智能感兴趣的读者了解机器学习的基础知识。书中以通俗易懂的方式,详细介绍了机器学习的各个方面,被业内称为“西瓜书”。
全书分为三个部分,共计16章:
- 基础知识(第1~3章):涵盖机器学习的基本概念,如绪论、模型评估与选择、线性模型等。
- 经典方法(第4~10章):讨论了一些经典的机器学习方法,包括决策树、神经网络、支持向量机、贝叶斯分类器、集成学习、聚类、降维与度量学习等。
- 进阶知识(第11~16章):涉及特征选择与稀疏学习、计算学习理论、半监督学习、概率图模型、规则学习及强化学习等内容。
目录
书中除第1章外,每章都配有习题。这些习题旨在帮助读者巩固所学知识,并引导他们扩展相关知识。部分习题难度较高,仅供具有挑战精神的读者参考。本书适合作为计算机、自动化等相关专业学生的教材,也可供研究人员和工程师参考。
绪论
基本术语
- 数据集:一组数据样本的集合。
- 示例:对数据样本的具体描述。
- 属性:描述样本的特性。
- 属性值:属性的具体数值。
- 属性空间:由属性构成的空间,有几个属性就有几维。
- 特征向量:属性空间中的向量。
- 训练:通过数据学习模型的过程。
- 训练数据:用于训练的数据。
- 不可知样本:未来可能出现的数据。
- 假设:模型对数据的解释。
- 真相:数据的真实规律。
- 分类:离散的输出结果。
- 回归:连续的输出结果。
- 监督学习:已知结果的数据。
- 无监督学习:未知结果的数据。
假设空间
假设我们有一个训练数据集,目标是通过数据集学习出一个好的模型。例如,通过一些属性来判断一个“好瓜”。
归纳偏好
归纳偏好是指在面对多个可能的假设时,算法如何根据先验知识或假设选择最优模型。这种偏好会影响模型的学习过程和性能。
模型评估与选择
经验误差与过拟合
- 过拟合:模型过度拟合训练数据,导致在新数据上的表现不佳。
- 欠拟合:模型未能充分学习数据的特征,导致在新数据上的表现不佳。
评估方法
- 留出法:将数据集分为训练集和测试集。
- 交叉验证法:将数据集划分为多个互斥子集。
- 自助法:通过有放回抽样构建训练集和测试集。
性能度量
- 错误率与精度:错误率是分类错误的样本比例,精度是分类正确的样本比例。
- 查准率与查全率:查准率是预测为正类的实际为正类的比例,查全率是实际为正类的预测为正类的比例。
- F1分数:查准率和查全率的调和平均值。
- ROC曲线与AUC:ROC曲线以真阳性率和假阳性率为坐标轴,AUC表示ROC曲线下的面积。
- PR曲线与PR-AUC:PR曲线以查准率为纵轴,查全率为横轴,PR-AUC表示PR曲线下的面积。
比较检验
比较检验主要涉及两个步骤:
提出假设:
- 零假设:通常是关于总体参数的假设。
- 备择假设:当零假设被拒绝时接受的假设。
收集证据并进行检验:
- 使用统计测试(如t检验、卡方检验等)。
- 计算统计量(如t值、卡方值等)。
- 确定显著性水平(如α=0.05)。
- 根据统计量的值和显著性水平计算p值。
- 如果p值小于显著性水平,则拒绝零假设;否则不拒绝。
书籍资料领取方式
- 方式一:私信发送“1”即可免费领取。
- 方式二:关注公众号“编程百事通”。