一文详解机器学习,让机器学习人的学习方式

图灵汇官网

什么是机器学习?

机器学习是一种人工智能技术,它利用大数据训练算法模型,使机器能够进行预测或决策。简单来说,机器学习就是让机器通过数据进行学习。

机器学习与传统算法

传统算法依赖于固定的逻辑和规则,适用于具有明确结果的问题。而机器学习则基于数据驱动,尤其擅长处理未知数据。例如,判断一个人是否漂亮涉及多个因素,如眼睛大小、鼻梁高度等。如果用传统算法进行预测,由于需要穷尽所有可能性,这几乎是不可能完成的任务。然而,机器学习可以通过大量人脸图片,人为地告诉机器哪些是漂亮的,漂亮程度是多少,从而自动提取人脸特征,并在新的人脸图片出现时,给出相应的漂亮程度评分。

机器学习分类

机器学习主要可以分为以下几类:

  • 有监督学习:在已知数据输出的情况下对模型进行训练,根据输出进行调整和优化。例如,做作业时,老师指出错误并提供正确答案,学生通过这样的反馈进行学习。

  • 无监督学习:在没有正确答案的情况下,让机器自行发现数据中的模式、结构和关联关系。例如,分析求职者的简历信息,找出年龄和学历对薪资的影响。

  • 半监督学习:结合无监督学习和有监督学习的方法。例如,机器先根据黄色和长条形状将香蕉分类,然后我们给这个类别贴上标签。

  • 批量学习:将学习过程和应用过程分开,用全部训练数据来训练模型,然后在应用场景中进行预测。如果预测效果不佳,则重新回到学习过程,反复迭代。

  • 增量学习:将学习过程和应用过程统一起来,在应用的同时,以增量方式不断学习新的内容。例如,张无忌在与不同门派高手对战的过程中,不断学习对方的绝学,从而不断提升自己的实力。

机器学习的一般过程

  1. 数据采集:通过各种方式收集数据,如手工采集、网站收集、爬虫爬取等。
  2. 数据清洗:去除错误或无效的数据。例如,统计初中生的人均身高时,若收集到的数据为负数,则需要剔除这些异常值。
  3. 选择模型:根据需求选择合适的算法。
  4. 训练模型:用历史数据对模型进行训练。
  5. 模型评估:在虚拟环境中测试模型的性能。
  6. 测试模型:在实际场景中进行小规模测试。
  7. 应用模型:在大规模应用场景中使用模型。
  8. 模型维护:定期检查和调整模型参数,以应对新的情况。

数据预处理常用方式

  • 均值移除:使样本矩阵中每一列的平均值为 0,标准差为 1。
  • 范围缩放:通常将数据缩放到 0 到 1 之间。
  • 归一化:将每个样本的特征值除以该样本各个特征值绝对值之和,使得每个样本的特征值总和为 1。
  • 二值化:根据给定的阈值,将数据转换为 0 或 1。
  • 独热编码:将分类变量转换为二进制向量,每个可能的取值对应一个唯一的二进制向量。

希望这些改写后的信息对你有所帮助!

本文来源: 图灵汇 文章作者: 邱茜茜