第 3 章图像分类

第 3 章图像分类
- 3.1 数据驱动方法
  - 3.1.1 语义上的差别
  - 3.1.2 图像分类任务面临着许多挑战
  - 3.1.3 数据驱动的方法
- 3.2 k 最近邻算法
  - 3.2.1 k 近邻模型
  - 3.2.2 k 近邻模型三个基本要素
  - 3.2.3 KNN算法的决策过程
  - 3.2.4 k 近邻算法Python实现
  - 小结
  - 参考文献
- 3.3 支持向量机
  - 3.3.1 概述
  - 3.3.2 线性支持向量机
  - 3.3.3 从零开始实现支持向量机
  - 3.3.4 支持向量机的简洁实现
- 3.4 逻辑回归 LR
  - 3.4.1 逻辑回归模型
  - 3.4.2 从零开始实现逻辑回归
  - 3.4.3 逻辑回归的简洁实现
- 3.5 实战项目 3 - 表情识别
- 3.6 实战项目 4 - 使用卷积神经网络对CIFAR10图片进行分类
- 小结
- 参考文献

点击每个章节的超链接可查看对应章节，

图像分类

目标：这一章我们将介绍图像分类问题。所谓图像分类问题，就是已有固定的分类标签集合，然后对于输入的图像，从分类标签集合中找出一个分类标签，最后把分类标签分配给该输入图像。虽然看起来挺简单的，但这可是计算机视觉领域的核心问题之一，并且有着各种各样的实际应用。在后面的课程中，我们可以看到计算机视觉领域中很多看似不同的问题（比如物体检测和分割），都可以被归结为图像分类问题。

例子：以下图为例，图像分类模型读取该图片，并生成该图片属于集合 {cat, dog, hat, mug}中各个标签的概率。需要注意的是，对于计算机来说，图像是一个由数字组成的巨大的3维数组。在这个例子中，猫的图像大小是宽248像素，高400像素，有3个颜色通道，分别是红、绿和蓝（简称RGB）。如此，该图像就包含了248X400X3=297600个数字，每个数字都是在范围0-255之间的整型，其中0表示全黑，255表示全白。我们的任务就是把这些上百万的数字变成一个简单的标签，比如“猫”。

图3.0 图像分类的任务，就是对于一个给定的图像，预测它属于的那个分类标签（或者给出属于一系列不同标签的可能性）。图像是3维数组，数组元素是取值范围从0到255的整数。数组的尺寸是宽度x高度x3，其中这个3代表的是红、绿和蓝3个颜色通道。

ENJOY！

作者: 张伟 (Charmve)

日期: 2021/06/13

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

第 3 章图像分类

图像分类

Files

README.md

Latest commit

History

README.md

File metadata and controls

第 3 章 图像分类

图像分类

第 3 章图像分类