第 1 章机器学习概述

机器学习（Machine Learning, ML）：从数据中学习模型，用模型对未知样本进行预测、分类、生成或决策。

机器学习问题通常包含三个基本对象：数据、模型和目标。数据提供经验，模型表示规律，目标函数用来衡量模型好坏。

1.1 学习问题的三个组成部分

Tom Mitchell 的定义：

如果一个程序在任务 T 上，随着经验 E 的增加，性能指标 P 得到提升，就可以说它在学习。

建模前通常要明确：

一个有监督学习样本通常写成：

(x, y)

其中：

特征可以来自原始数据，也可以来自人工构造或模型自动学习。

传统机器学习更依赖人工特征工程；深度学习更依赖模型自动学习表示。

监督学习（Supervised Learning）：训练数据带有标签，模型学习从输入到标签的映射关系。

x \to y

监督学习主要分为回归和分类。

类型	输出	例子
回归	连续值	房价预测、销量预测
分类	离散类别	图像分类、垃圾邮件识别

回归和分类的区别在于输出 y：

无监督学习（Unsupervised Learning）：训练数据没有人工标签，模型从数据本身发现结构。

常见任务：

无监督学习不直接预测标签，而是寻找数据中的相似性、低维结构或概率分布。

判别式模型（Discriminative Model）直接学习输入和输出之间的判别边界，常见形式是：

P (y ∣ x)

例子：

生成式模型（Generative Model）学习数据如何产生，常见形式是：

P (x)

或：

P (x, y)

例子：

对比：

类型	关注点	典型问题
判别式模型	如何区分类别	分类、回归
生成式模型	数据如何产生	生成、密度估计、缺失值建模