第 18 章应用实例：图片文字识别

这一章用 Photo OCR 作为完整机器学习系统案例，说明如何拆分系统流程、获取数据，并用上限分析决定优化方向。

18.1 问题描述和流程图

Photo OCR 的目标是从图片中识别文字。

一个完整流程可以拆成：

这种流程图有助于把复杂系统拆成多个可评估模块。

滑动窗口用于在图像中寻找目标区域。

基本做法：

如果目标尺寸变化较大，需要使用多个窗口大小。

滑动窗口也可以用于行人检测、文本检测等任务。

机器学习系统常常受益于更多数据，但前提是模型和特征有能力利用这些数据。

获取数据的方式：

例如字符识别中，可以用不同字体生成大量字符图像，也可以对已有图像做旋转、缩放、扭曲等变换。

生成人工数据时要注意：合成数据应该接近真实测试场景，否则帮助有限。

上限分析用于决定系统中哪个模块最值得优化。

做法：

例如 Photo OCR 中，可以分别把文本检测、字符切分、字符识别替换成完美输出，比较系统准确率提升。

上限分析可以避免把时间花在对整体效果帮助很小的模块上。