lane-detection

文章提出了 Lannet 网络结构，如下图：
Lanenet 使用一个共享的encoder，对输入图像进行处理，得到2个branch：嵌入branch和语义分割的branch。嵌入branch可以将不同的车道线区分为不同的instance；因为只需要考虑车道线，因此语义分割的结果是二值化图像；然后对2个branch做聚类，最终得到结果

通常情况下，车道像素被投影成“鸟瞰图”表示，使用一个固定的转换矩阵。然而，由于变换参数对所有图像都是固定的，所以当遇到非地面时，例如在斜坡上，这会引起一些问题。为了缓解这个问题，文章提出 H-Network，它可以估算输入图像上的“理想”透视变换的参数。

基于学习方法的投影方法H-Net
- 将输入的RGB图像作为输入，使用LaneNet得到输出的实例分割结果，然后将车道线像素使用H-Net输出得到的透视变换矩阵进行变换，对变换后的车道线像素在变化后的空间中进行拟合，再将拟合结果经过逆投影，最终得到原始视野中的车道线拟合结果
- H-Net将RGB作为输入，输出为基于该图像的透视变换系数矩阵，优化目标为车道线拟合效果
论文的整体计算流程图大致如下(草图)所示：

说到这篇端到端的车道线检测，不得不提的是这篇文章中用到的一个聚类loss，同样是这篇文章的作者发表的一篇文章《Semantic Instance Segmentation with a Discriminative Loss Function》

这篇文章最重要的是提出一个判别损失函数，其主要作用是：
- 1.同instance内部像素的embedding vector在映射空间中要尽可能的临近（L1、L2距离）
- 2.不同instance的mean embedding vector（即在映射空间中聚类的中心点）要尽可能的远离

C代表groundtruth中instance数目，Nc代表某个instance中的像素个数。Xi 代表instance中第i个像素产生的embedding vector

训练过程中使用ground truth作为instance mask。上述LOSS仅涉及同一类object的不同instance之间的聚类学习。如果要用到多类object，则需要分别对每个类计算LOSS并累加。

Name		Name	Last commit message	Last commit date
Latest commit History 53 Commits
imgs		imgs
1708.02551v1.pdf		1708.02551v1.pdf
1802.05591.pdf		1802.05591.pdf
Loss_functions_20190110.py		Loss_functions_20190110.py
README.md		README.md
culane_loader.py		culane_loader.py
dic_loss.py		dic_loss.py

Provide feedback