《High-Order Information Matters Learning》遮挡行人重识别(CVPR2020)

论文解读部分
《High-Order Information Matters: Learning Relation and Topology for Occluded Person Re-Identification》

摘要

研究的问题:遮挡的行人重识别问题

提出的方法:通过高维关系和拓扑信息,以实现判别特征和鲁棒对齐。

方法步骤:

1.使用卷积神经网络作为主干并使用一个关键点检测模型提取语义局部特征。

2.将一张图的局部特征作为图的一个节点,然后通过一个适应的方向图卷积层(ADGC)去处理节点之间的关系信息。通过动态的学习连接边的方向和角度,可以挖掘有意义的特征。

3.将识别问题转变为一个图匹配的问题,通过一个跨图嵌入对齐层(CGEA)去获得拓扑信息,同时直接预测相似值。

引言

遮挡行人重识别的意义:更接近现实情况和非常具有挑战。

图片说明

从图1中可以看出,遮挡在行人重识别任务中存在的示例。

目前主流的方法如(b)所示,基于关键点检测获得局部特征,然后对于局部特征进行匹配判断。但是这种方法还是会受到遮挡的影响,关键点检测的方法在遮挡的情况下也比较容易预测失败,所以在进行具有遮挡的局部特征判别的时候也会产生偏差。

而作者的方法如(c)所示,利用图来建立局部特征的关系模型,然后将对齐当作一个图匹配问题,用以建立拓扑信息,通过同时节点对节点,边对边的对应学习。

相关工作

行人重识别

遮挡的行人重识别研究现状:

1.Zhuo 使用遮挡或者不遮挡的二值分类损失去区别遮挡的图片

2.基于显著图的方法和教师-学生学习方案促进了这些方法

3.Miao 提出了一个局域关节特征对齐的方法去匹配局部候选块,使用了一个基于关键点信息值的方式来判断是否被遮挡

4.Fan 用一个空间通道平行网络来对身体部件特征进行学习

5.Luo 用一个空间迁移模块来转换全身图对齐到部分的人体

部分行人重识别研究

算法介绍

one-order semantic module (S) 一阶语义模块:根据人头关键点的区域提取语义特征

high-order relation module (R) 高阶关系模块:对不同语义特征之间的关系信息进行建模

high-order human-topology module (T ) 高阶人体拓扑图模块:学习鲁棒的对齐和预测相似值

图片说明

Semantic Features Extraction

如图2所示,一阶段语义模块主要由两个部分组成:CNN主干获得特征图,关键点检测模型获得关键点信息,然后结合获得局部特征和全局特征。

由下面的公式表示局部和全局特征的获得:

图片说明

训练特征提取网络的损失函数:

图片说明

High-Order Relation Learning

利用图卷积网络获得高阶关系信息

由于关键点检测也会存在偏差,所以获得的局部特征也是会出现无意义的特征。所以作者提出了一个方向适应的图卷积层(adaptive-direction graph convolutional)用以过滤掉无意义的信息。

一般的图卷积数学上由下面公式定义:

图片说明
A表示邻接矩阵,X表示特征节点,W表示图卷积的参数

什么是有意义的局部特征?

假设是一个有意义的局部特征会和全局特征会比无意义的特征有更高的相似度。

所以整个ADGC层有三个输入:一个全局特征V_g,K个局部特征V_l,和一个预先定义的图(邻接矩阵A)

而ADGC的作用就是调整邻接矩阵A变为A^adp,意味着已经去除了那些无意义的局部特征。

整个模块设计如下图所示:

图片说明
整个过程的公式如下所示:
图片说明
图中的“方框-”表示element-wise subtraction(逐像素相减)

“方框+”表示element-wise add(逐像素相加)

“方框x”表示element-wise multiplication(逐像素相乘)

“圆x”表示matrix multiplication(矩阵相乘)

计算两个输入样本的相似性:

图片说明

High-Order Human-Topology Learning

基于局部特征进行相似性的匹配是常用的方法,

这样的方式针对于那些遮挡严重的样本是无效的。

那么作为融入高阶拓扑信息的图匹配的方式自然的可以在一定程度上解决那些遮挡严重的样本。

但是这种一对一操作不适用于各种多变的情形。

图匹配计算公式:

图片说明

为了解决上面一对一的问题,作者提出了一个Cross-Graph Embedded-Alignment Layer with Similarity Prediction(CGEA)

该模块的输入是两个图片的子图,

输出为嵌入特征,该特征包含语义特征和人体拓扑指导对齐特征。

图片说明
公式上表示:

图片说明

计算两个输入样本的相似性:

图片说明

训练和推测过程

训练损失函数:

图片说明
第一个是在进行局部特征和全局特征的训练:

图片说明
第二个是高阶相关性局部特征的学习:

图片说明
第三个是高阶拓扑特征的学习:

图片说明

测试的过程中,

计算输入样本的相似度:

图片说明

这里有个细节的东西,类似于re-ranking的方式,给定一个查询图片x_q,首先根据这个图片对所有的gallery图片计算相似性s^R,获得前n个相近的的结果。然后在根据公式(13)计算最终的相似度去调整这些前n个结果。

实验

特征提取主干设计:ResNet50,最后一个残差模块步长为1

关键点模型:HR-Net,选择了14个关键点,包含head, shoulders, elbows, wrists, hips, knees, and ankles

训练细节:图片大小256*128

数据增强方式:random horizontal flipping, padding 10 pixels, random cropping, and random erasing

对于遮挡数据进行测试的时候加入color jitter augmentation数据增强方法

实验结果:

图片说明

全部评论

相关推荐

投票
我要狠拿offer:如果不是必须去成都绝对选九院呀,九院在四川top1研究所了吧
点赞 评论 收藏
分享
评论
点赞
1
分享
牛客网
牛客企业服务