第 11 章机器学习系统的设计

这一章讲如何设计和改进一个实际机器学习系统。核心方法是快速建立基线、做误差分析，并使用合适的评估指标。

11.1 首先要做什么

课程以垃圾邮件分类为例。

面对一个机器学习系统，不应一开始就花很久设计复杂方案。更好的做法是：

垃圾邮件分类可以使用邮件中的单词作为特征。是否出现某个单词，可以作为 0 / 1 特征。

误差分析就是查看模型预测错误的样本，找出错误的主要类型。

例如垃圾邮件分类中，可以统计错误邮件属于哪些类别：

如果某类错误占比很高，就说明下一步优化应该优先针对它。

误差分析强调用数据决定方向，而不是凭感觉添加功能。

当类别极度不平衡时，准确率可能误导人。

例如癌症检测中，如果只有 0.5% 的样本是阳性，一个永远预测阴性的模型也能有 99.5% 的准确率，但它没有实际价值。

这时应该使用查准率和查全率。

查准率：

P r e c i s i o n = \frac{T P}{T P + F P}

查全率：

R e c a l l = \frac{T P}{T P + F N}

含义：

分类器通常会输出一个概率或评分。调整阈值会改变查准率和查全率。

提高阈值：

降低阈值：

为了综合评价，可以使用 F1 分数：

F_{1} = 2 \frac{P r e c i s i o n \times R e c a l l}{P r e c i s i o n + R e c a l l}

有时更多数据会带来明显提升，但前提是特征中包含足够信息，并且模型有能力学习到规律。

通常，复杂模型配合大量数据会有较好表现。

但数据不是万能的。应该先通过学习曲线和误差分析判断问题主要来自数据不足、特征不足，还是模型偏差过高。