第 1 章 机器学习概述
机器学习(Machine Learning, ML):从数据中学习模型,用模型对未知样本进行预测、分类、生成或决策。
机器学习问题通常包含三个基本对象:数据、模型和目标。数据提供经验,模型表示规律,目标函数用来衡量模型好坏。
1.1 学习问题的三个组成部分
Tom Mitchell 的定义:
如果一个程序在任务
T上,随着经验E的增加,性能指标P得到提升,就可以说它在学习。
| 组成 | 含义 | 例子 |
|---|---|---|
任务 T | 要完成的问题 | 分类、回归、聚类、推荐 |
经验 E | 用来学习的数据 | 训练样本、历史记录、交互数据 |
性能 P | 衡量效果的指标 | 准确率、损失函数、误差 |
建模前通常要明确:
- 输入是什么。
- 输出是什么。
- 用什么数据训练。
- 用什么指标评价。
1.2 样本、特征和标签
一个有监督学习样本通常写成:
其中:
| 符号 | 含义 |
|---|---|
| 输入,也叫特征 | |
| 输出,也叫标签 | |
| 训练样本数量 | |
第 i 个训练样本的输入 | |
第 i 个训练样本的标签 | |
第 i 个样本的第 j 个特征 |
特征可以来自原始数据,也可以来自人工构造或模型自动学习。
| 数据类型 | 常见特征 |
|---|---|
| 表格数据 | 年龄、收入、面积、价格 |
| 图像数据 | 像素、边缘、纹理 |
| 文本数据 | 词频、词向量 |
| 图数据 | 节点属性、边关系、邻居结构 |
传统机器学习更依赖人工特征工程;深度学习更依赖模型自动学习表示。
1.3 监督学习
监督学习(Supervised Learning):训练数据带有标签,模型学习从输入到标签的映射关系。
监督学习主要分为回归和分类。
| 类型 | 输出 | 例子 |
|---|---|---|
| 回归 | 连续值 | 房价预测、销量预测 |
| 分类 | 离散类别 | 图像分类、垃圾邮件识别 |
回归和分类的区别在于输出 y:
- 回归输出连续数值。
- 分类输出离散类别。
1.4 无监督学习
无监督学习(Unsupervised Learning):训练数据没有人工标签,模型从数据本身发现结构。
常见任务:
| 任务 | 作用 | 例子 |
|---|---|---|
| 聚类 | 把相似样本分到一组 | 用户分群、文档聚类 |
| 降维 | 用更低维度表示数据 | PCA、可视化、压缩 |
| 密度估计 | 学习数据分布 | 异常检测、生成建模 |
无监督学习不直接预测标签,而是寻找数据中的相似性、低维结构或概率分布。
1.5 判别式模型和生成式模型
判别式模型(Discriminative Model)直接学习输入和输出之间的判别边界,常见形式是:
例子:
- 逻辑回归
- SVM
- 普通分类神经网络
生成式模型(Generative Model)学习数据如何产生,常见形式是:
或:
例子:
- 朴素贝叶斯
- 高斯混合模型
- VAE
- GAN
- 扩散模型
对比:
| 类型 | 关注点 | 典型问题 |
|---|---|---|
| 判别式模型 | 如何区分类别 | 分类、回归 |
| 生成式模型 | 数据如何产生 | 生成、密度估计、缺失值建模 |