文章摘要 | 摘 要 全景分割是图像语义分割与实例分割的融合,在自动驾驶、机器人应用等领域有重要应用价值.在当前基于深度学习的全景分割方法中,基于“查询”的方法在分割流程上统一了语义分割任务和实例分割任务,取得了当前最优全景分割效果.该类方法将自然语言处理中的注意力机制应用到了图像分割领域,然而由于输入图片数据量远大于文本句子数据量,该方法无法直接采用输入数据作为查询向量,为此构建了固定数量的静态向量作为“查询”.但是,该静态查询设计存在查询向量个数不好确定,容易出现实例表示混淆等问题.在基于静态查询的设计中,需要人为地根据经验去设定实例查询向量的个数,但是在实际情况中,输入图片中实例的个数不是固定的,在动态变化.如果把需要的查询向量个数设置的太少,少于图片中的实例数,则多的实例就无法表示.且由于每一个查询向量在解析过程中都会生成一张对应的掩码图片,多一倍的查询向量就会多一倍的资源开销,因此如果设置了太多的查询向量,在一些图片输入下就可能导致大量的资源浪费.另一方面,由于静态设置的查询向量和需要解析的输入图片不相关,在某些情况下,一个静态查询向量可能会得到多个事物的掩码,或者多个静态查询向量得到相同物体的掩码,导致查询向量在事物表示上发生混淆.为了解决该问题,我们期望查询向量是动态的,和输入图片中待查询的事物相关,且每个查询向量之间都具有一定的可区分性,为此本文提出了一种基于目标物体关键点的动态查询全景分割方法,称之为K-Query.为了让实例查询向量与图片中的实例直接关联,并在它们之间具有一定的区分距离,本方法首先将图片中的实例通过深度神经网络映射为可区分的高维嵌入编码,并保证同一个物体对应像素点的编码距离足够近,不同物体间像素点的编码距离足够远,然后基于快速“行列式”聚类方法为每一个物体都挑选一个对应的高维嵌入编码和对应的位置编码作为最终的实例查询向量.K-Query方法中的查询向量,动态地来自于输入图片中目标物体自身的高维嵌入编码,能避免静态查询面临的问题,进一步提升了全景分割性能.本文基于detectron2框架对K-Query进行了实现,并在多个数据集上进行了验证.测试结果表示,在Res50的骨干网络配置下,K-Query在Cityscapesval数据集上的全景分割结果为63.2%PQ,在COCOpanoptic2017val数据集上的PQ值为52.9%,相比当前最优全景分割方法,它在PQ值上分别提升了1.1和1.0个点(points).
关键词 深度学习;图像分割;聚类;实例分割;全景分割
中图法分类号TP391 DOI号10.11897/SP.J.1016.2023.01693
|