Skip to content

第 1 章 机器学习概述

机器学习(Machine Learning, ML):从数据中学习模型,用模型对未知样本进行预测、分类、生成或决策。

机器学习问题通常包含三个基本对象:数据、模型和目标。数据提供经验,模型表示规律,目标函数用来衡量模型好坏。

1.1 学习问题的三个组成部分

Tom Mitchell 的定义:

如果一个程序在任务 T 上,随着经验 E 的增加,性能指标 P 得到提升,就可以说它在学习。

组成含义例子
任务 T要完成的问题分类、回归、聚类、推荐
经验 E用来学习的数据训练样本、历史记录、交互数据
性能 P衡量效果的指标准确率、损失函数、误差

建模前通常要明确:

  1. 输入是什么。
  2. 输出是什么。
  3. 用什么数据训练。
  4. 用什么指标评价。

1.2 样本、特征和标签

一个有监督学习样本通常写成:

(x,y)

其中:

符号含义
x输入,也叫特征
y输出,也叫标签
m训练样本数量
x(i)i 个训练样本的输入
y(i)i 个训练样本的标签
xj(i)i 个样本的第 j 个特征

特征可以来自原始数据,也可以来自人工构造或模型自动学习。

数据类型常见特征
表格数据年龄、收入、面积、价格
图像数据像素、边缘、纹理
文本数据词频、词向量
图数据节点属性、边关系、邻居结构

传统机器学习更依赖人工特征工程;深度学习更依赖模型自动学习表示。

1.3 监督学习

监督学习(Supervised Learning):训练数据带有标签,模型学习从输入到标签的映射关系。

xy

监督学习主要分为回归和分类。

类型输出例子
回归连续值房价预测、销量预测
分类离散类别图像分类、垃圾邮件识别

回归和分类的区别在于输出 y

  • 回归输出连续数值。
  • 分类输出离散类别。

1.4 无监督学习

无监督学习(Unsupervised Learning):训练数据没有人工标签,模型从数据本身发现结构。

常见任务:

任务作用例子
聚类把相似样本分到一组用户分群、文档聚类
降维用更低维度表示数据PCA、可视化、压缩
密度估计学习数据分布异常检测、生成建模

无监督学习不直接预测标签,而是寻找数据中的相似性、低维结构或概率分布。

1.5 判别式模型和生成式模型

判别式模型(Discriminative Model)直接学习输入和输出之间的判别边界,常见形式是:

P(yx)

例子:

  • 逻辑回归
  • SVM
  • 普通分类神经网络

生成式模型(Generative Model)学习数据如何产生,常见形式是:

P(x)

或:

P(x,y)

例子:

  • 朴素贝叶斯
  • 高斯混合模型
  • VAE
  • GAN
  • 扩散模型

对比:

类型关注点典型问题
判别式模型如何区分类别分类、回归
生成式模型数据如何产生生成、密度估计、缺失值建模

Powered by VitePress