冠军方案之农作物范围识别

freeopen 2021-02-13 [机器学习] #top1

冠军:华南理工黄钦建等(冲啊大黄 团队 )

任务说明

通过无人机航拍的地面影像,探索像素级农作物分类的算法,具体的分类目标为薏仁米、玉米、烤烟、人造建筑(复赛新增),其余所有位置归为背景类。

初赛、复赛提供的数据是同一片区域的航拍影像。其中初赛提供数据为农作物生长的早期(大多没长出来),分割难度较大。复赛数据农作物长势良好,并在初赛赛题基础上增加了一类“建筑”。

提供的label为与原始图像1:1大小的单通道图像(mask),像素的大小对应不同的标注类别。其中“烤烟”像素值为1,“玉米”像素值为2,“薏仁米”像素值为3,“人造建筑”像素值为4,背景类像素值为0.

评估指标

评估指标为mIoU,榜上排名分数为所有计算所有类别IoU后取平均的结果。

数据分析

图像分辨率超大,背景类占比远高于其它类别,mask无效的区域面积也较大,类别不平衡问题突出。

数据切割

使用gdal库分割遥感影像,采用两种切割策略:

模型选择

DeeplabV3+ (注:决赛5个队伍中3个用了它),backbone为Xception-65和ResNet-101以及DenseNet-121。从 A榜分数看,不加任何trick时,DenseNet分数略高于另外两个,但是显存占用太大以及训练时间太长,在后来的方案里就舍弃了。决赛复现时,使用了两个Xception-65和一个ResNet-101投票,投票的每个模型用不同的数据训练,增加模型差异。

157137269012195351571372690503

157137272713270821571372727612

改进措施

膨胀预测

方格效应:如果直接做不重叠滑窗预测拼接,得到的预测结果拼接痕迹明显。

原因分析:网络卷积计算时,为了维持分辨率进行了大量zero-padding,导致网络对边缘预测不准。

膨胀预测:预测时,只保留预测结果的中心区域,舍弃预测不准的边缘。

具体实现

  1. 填充右下边界至滑窗预测窗口大小的整数倍(方便切割);
  2. 填充1/2滑窗步长大小的外边框(考虑边缘数据的膨胀预测);
  3. 以1024x1024为滑窗,512为步长,每次预测只保留滑窗中心512x512的预测结果(可以调整更大的步长,或保留更大的中心区域,提高效率)。

测试增强

测试时,通过对图像水平翻转,垂直翻转,水平垂直翻转等多次预测,再对预测结果取平均可以提高精度,但相对的,推理时间也会大幅度升高。

with torch.no_grad():
    for (image,pos_list) in tqdm(dataloader):
        # forward --> predict
        image = image.cuda(device) # 复制image到model所在device上
        predict_1 = model(image)
        
        # 水平翻转
        predict_2 = model(torch.flip(image,[-1]))
        predict_2 = torch.flip(predict_2,[-1])
        # 垂直翻转
        predict_3 = model(torch.flip(image,[-2]))
        predict_3 = torch.flip(predict_3,[-2])
        # 水平垂直翻转
        predict_4 = model(torch.flip(image,[-1,-2]))
        predict_4 = torch.flip(predict_4,[-1,-2])
        
        predict_list = predict_1 + predict_2 + predict_3 + predict_4   
        predict_list = torch.argmax(predict_list.cpu(),1).byte().numpy() # n x h x w

snapshot ensemble

snapshot ensemble 是一个简单通用的提分trick,通过余弦周期退火的学习率调整策略,保存多个收敛到局部最小值的模型,通过模型自融合提升模型效果。详细的实验和实现可以看黄高老师ICLR 2017的这篇论文

snapshot ensemble 另一个作用是作新方案的验证。深度学习训练的结果具有一定的随机性,在做新改进方案验证时,有时难以确定线上分数的小幅度提升是来自于随机性,还是改进方案really work。在比赛提交次数有限的情况下,snapshot ensemble 不失为一个稳定新方案验证的方法。

后处理

对输出结果做最简单的填充孔洞和去除小连通域。

标签平滑

标签平滑想法参考了Hinton大神关于的知识蒸馏When does label smoothing help?的工作,标签平滑训练的模型更加稳定和泛化能力更强。

在知识蒸馏中,用teacher模型输出的soft target训练的student模型,比直接用硬标签(onehot-label)训练的模型具有更强的泛化能力。我对这部分提升理解是:软标签更加合理反映样本的真实分布情况,硬标签只有全概率和0概率,太过绝对。知识蒸馏时teacher模型实现了easy sample 和 hard sample 的“分拣”(标签平滑),对hard sample输出较低的置信度,对easy sample 输出较高的置信度,使得student模型学到了更加丰富的信息。

参考相关论文的实验数据可以看出,软标签训练的模型类内更加凝聚,更加可分。

在图像分割任务中,每个像素的分类结果很大程度依赖于周围像素,基于此,即使不通过teacher模型,我们也可以发掘部分样本中的hard sample。

图像边缘:卷积时零填充太多,信息缺少,难以正确分类

不同类间交界处:类间交界难以界定,存在许多标注错误,训练时梯度不稳定;类间交界的点,往往只相差几个像素偏移,对网络来说输入信息高度相似,但训练时label 却不同,也是训练过程的不稳定因素。

针对性的解决方案是在图像边缘和类间交界设置过渡带,过渡带内的像素视为 hard sample作标签平滑处理,平滑的程度取决于训练时每个batch中 hard sample 像素占总输入像素的比例。而过渡带width的大小为一个超参数,在本次比赛中我们取 width = 11 个像素点

不加hard sample 的损失函数:

$$H(y,p)=\sum^{K}_{k=1}-y_klog(p_k)$$

对hard sample 加入平滑后:

$$H(y,p)=\sum_{k=1}^{K}-y_k^{easy}log(p_k^{easy}) + \sum_{k=1}^{K}-y_k^{hard}log(p_k^{hard})$$

$$y_k^{hard} = y_k(1-\alpha)+ \alpha/K$$

其中,$\alpha$用于控制标签的平滑程度,取值为每次输入数据中hard sample像素占输入数据的比例。

伪标签 + 软标签

伪标签是分类比赛中常用的trick之一,在模型分数已经较高的情况下可以尝试。提分显著,但对A榜过拟合的风险极大。具体实施是:

  1. 利用在测试集表现最好的融合模型结果作伪标签,用多组不同置信度阈值过滤数据,结合训练集训练模型;
  2. 对所有伪标签数据进行标签平滑,缓解伪标签中错误数据对网络训练影响;
  3. 选取多个snapshot的方法对模型进行自融合提高模型的泛化能力;
  4. 利用3的结果,更新伪标签,重复步骤1~3。

总结

  1. 膨胀预测消除边缘预测不准问题;
  2. 使用测试增强、消除空洞和小连通域等后处理提高精度;
  3. 使用snapshot模型自融合、标签平滑、伪标签等方法提高模型稳定性。

Back to top