2022-08-20 13:57 厦门大学深度学习发布于福建

关注

一个简单但有效的基于部分的卷积baseline

【写在前面】

基于文本的人物搜索是图像检索领域的一个子任务，旨在根据给定的文本描述检索目标人物图像。两种模态之间的显著特征差距使得这项任务非常具有挑战性。许多现有方法试图利用局部对齐在细粒度级别解决这个问题。然而，大多数相关方法都引入了额外的模型或复杂的训练和评估策略，很难在实际场景中使用。为了便于实际应用，作者提出了一个简单但有效的端到端学习框架，用于基于文本的任务搜索，名为TIPCB（即基于文本图像部分的卷积基线）。首先，作者提出了一种新的双路径局部对齐网络结构来提取视觉和文本局部表示，其中图像水平分割，文本自适应对齐。然后，作者提出了一种多阶段跨模态匹配策略，该策略从低层、局部层和全局层三个特征层消除了模态差异。在广泛使用的基准数据集（CUHK-PEDES）上进行了大量实验，验证了本文方法的性能。

1. 论文和代码地址

TIPCB: A Simple but Eﬀective Part-based Convolutional Baseline for Text-based Person Search

2. Motivation

人物搜索是图像检索领域的一项关键技术，旨在从具有给定检索条件的大型数据库中查找目标人物图像，包括人物图像、相关属性或自然语言描述。根据查询的形式，该技术可以大致分为基于图像的搜索、基于属性的搜索和基于文本的搜索。近年来，人员搜索因其在公共安全和视频监控中的广泛应用而受到越来越多的关注，例如搜索嫌疑人和失踪人员。

在本文中，作者研究了基于文本的人员搜索任务，如上图所示。具体来说，需要根据与查询文本描述的相似性对大型图库中的所有人物图像进行排序，并选择排名靠前的人物图像作为匹配项。由于文本描述作为检索查询更自然、更易访问，因此在没有目标人物图像的情况下，基于文本的人物搜索具有很大的潜在价值，例如，根据目击者的描述搜索嫌疑人。

基于文本的人员搜索仍然是一项具有挑战性的任务，因为它既有人员重新识别的困难，也有跨模态检索的困难。一方面，由于遮挡、背景杂波和位姿/视点变化的干扰，很难提取鲁棒的视觉表示。另一方面，不同人物的一些图像或描述具有非常相似的高级语义，而图像和文本的域具有显著差异，导致模态间特征方差远大于模态内特征方差。

因此，人们提出了一系列相关方法来减少图像域和文本域之间的差距。作者将其大致分为全局匹配方法和局部匹配方法。全局匹配方法主要关注全局视觉和文本表示学习，并获得统一的特征空间。然而，图像包含许多独特的局部细节，难以通过全局表示提取进行探索。此外，图像中存在一些不相关的区域，这会给全局信息带来噪声。为了进一步挖掘有鉴别和全面的信息，提出了一些局部匹配方法，通过局部对齐来匹配人物图像和文本描述。

然而，现有的大多数局部匹配方法由于其高度的复杂性而不够实用，无法满足现实场景的要求。其中一些方法引入了额外的模型或应用了多任务学习策略，如人体姿势估计、语义分割或属性识别，这会带来大量计算量，使网络无法执行端到端学习。一些方法采用了多粒度相似性度量策略。在使用阶段，这些方法需要学习每个图像或文本的多个局部表示，并重复计算局部相似度。对于实际应用而言，附加模型和复杂的相似性度量都非常耗时。因此，有必要为基于文本的人员搜索问题设计一个简单但有效的框架。

在本文中，作者提出了一种新的端到端学习框架TIPCB（即基于文本图像部分的卷积基线），以便于实际应用。首先，提出了一种新的双路径局部对齐网络结构来提取视觉和文本局部表示。视觉局部表示是通过一般PCB策略提取的，在该策略中，人物图像被水平分割为多个条纹。在文本表示学习路径中，单词嵌入通过具有预训练和固定参数的BERT模型学习，并通过多分支残差网络进一步处理。在每个分支中，学习文本表示以自适应地匹配相应的视觉局部表示，从而提取对齐的文本局部表示。此外，一种多阶段跨模态匹配策略被提出，该策略消除了低层、局部和全局特征的模态间隙，然后逐步缩小图像域和文本域之间的特征间隙。

本文的主要贡献总结如下：

1）提出了一种新的双路径局部对齐网络，用于联合学习视觉和文本表示，该网络可以以简单但有效的方式对齐局部特征。

2）设计了一种多阶段跨模态匹配策略，以逐步缩小两种模态之间的差距。整个框架可以端到端的方式进行训练。

3）结果地验证了本文提出的TIPCB框架达到了最先进的性能。

3. 方法

在本节中，作者将阐述本文提出的基于文本图像部分的卷积基线（TIPCB），用于基于文本的人员搜索问题。作者首先说明了双路径局部对齐网络结构，包括视觉CNN分支和文本CNN分支，然后是多级交叉模态匹配策略被引入来消除模态建模的gap。

3.1. 视觉表征学习

如上图所示，本文提出的TIPCB包含两个CNN分支，其目的是分别从输入的人物图像和描述中学习区分性和兼容的视觉和文本表示。在训练阶段，训练数据为 $D=\left\{I_{i}, T_{i}\right\}_{i=1}^{N}$ ，其中N表示每batch中图像-文本对的数量，每个对由图像I和相应的描述T组成。在视觉CNN分支中，采用ResNet-50作为主干来提取视觉特征，主要由四个残差块组成。不同的残差块可以从不同级别捕获语义信息。对于每个图像I，作者将第3和第4个残差块生成的特征定义为其低层特征图 $f_{l}^{I} \in \mathbb{R}^{H \times W \times C_{1}}$ 和高级特征映射图 $f_{h}^{I} \in \mathbb{R}^{H \times W \times C_{2}}$ ，其中H、W和 $C_{1} / C_{2}$ 表示上述特征图中的高度、宽度和通道尺寸。然后得到了它的视觉低层表示 $v_{l}^{I} \in \mathbb{R}^{C_{1}}$ ：

$v_{l}^{I}=\operatorname{GMP}\left(f_{l}^{I}\right)$

其中，GMP表示全局最大池化层，作为挖掘显著信息的过滤器。

在这里，作者采用PCB策略来获得局部区域。具体来说，高级特征映射 $f_{h}^{I}$ 被分割成K个水平条纹，表示为 $\left\{f_{p 1}^{I}, f_{p 2}^{I}, \ldots, f_{p K}^{I}\right\}$ ，其中 $f_{p i}^{I} \in \mathbb{R} \frac{H}{K} \times W \times C_{2}$ 。对于每个条带，作者仍然采用全局最大池化层来提取视觉局部表示 $v_{p i}^{I} \in \mathbb{R}^{C_{2}}$ 。为了融合所有局部表示，作者选择通道维度中每个元素的最大值，得到视觉全局表示 $v_{g}^{I} \in \mathbb{R}^{C_{2}}$ ：

$v_{g}^{I}=\operatorname{Max}\left(v_{p 1}^{I}, v_{p 2}^{I}, \ldots, v_{p K}^{I}\right)$

因此，得到了视觉特征集 $V^{I}=\left\{v_{l}^{I}, v_{p 1}^{I}, \ldots, v_{p K}^{I}, v_{g}^{I}\right\}$ ，包含低层、局部和全局表示。在测试阶段，仅采用全局级表示来度量相似度。

3.2. 文本表征学习

在文本CNN分支中，应用高性能语言表示模型BERT提取有区别的单词嵌入，该模型可以通过双向训练Transformer来学习单词之间的上下文关系。具体来说，作者将每个文本描述分解为一个单词列表，并在每个句子的开头和结尾插入[CLS]和[SEP]。然后，该列表由预训练的tokenizer嵌入到token中。为了确保文本长度的一致性，当文本长于L时，作者选择前L个token，当文本小于L时，在文本末尾应用零填充。然后，将每个标记化的文本描述输入到BERT模型中，该模型经过预训练和参数固定，以提取单词映射 $t \in \mathbb{R}^{L \times D}$ ，其中D表示每个单词嵌入的维数。在这里，作者“冻结”了BERT模型的权重，原因如下：1）预训练的BERT本身具有很强的语义表示能力，因此仅将其用作单词嵌入层，2）CNN结构能够进一步处理单词嵌入，3）只有训练CNN结构才能显著减少训练参数的数量并加速模型的收敛。

为了满足卷积层的输入要求，作者将单词向量的维度从 $t \in \mathbb{R}^{L \times D}$ 拓展到 $t^{*} \in \mathbb{R}^{1 \times L \times D}$ ，其中1、L和D分别被视为卷积输入的高度、宽度和通道维数。受残差网络和深度文本CNN的启发，作者设计了多分支文本CNN，如上图所示。在文本CNN中，为了将嵌入的单词映射到同一通道维度作为视觉底层特征映射 $f_{l}^{I} \in \mathbb{R}^{H \times W \times C_{1}}$ ，第一卷积层的滤波器大小设置为 $1 \times 1 \times D \times C_{1}$ ，可以将其视为查找表。然后，可以获得文本低层特征映射 $f_{l}^{T} \in \mathbb{R}^{1 \times L \times C_{1}}$ 。

多分支文本CNN包含K个残差分支，对应于人物图像的K条条纹。对于每个分支，它包含P个文本残差瓶颈，旨在自适应地学习能够匹配视觉局部表示的文本表示。文本残差瓶颈的结构与ResNet中的模块相似，由几个卷积层和batch归一化层组成。skip连接用于将信息从低层传输到高层，可以有效地抑制网络退化问题并加快模型训练。具体来说，为了保持文本信息未压缩，瓶颈中所有卷积层的步长设置为1×1。对于每个分支的第一个瓶颈，作者将文本特征图的通道维度修改为 $C_{2}$ ，这与视觉高级特征图 $f_{h}^{I} \in \mathbb{R}^{H \times W \times C_{2}}$ 一致，然后在以下瓶颈中保持通道维数不变。在多分支文本CNN之后，获得了文本局部特征图。与视觉CNN分支类似，作者采用全局最大池化层来提取文本局部表示，并选择通道维度中每个元素的最大值来融合这些局部表示。然后，得到文本特征集 $V^{T}=\left\{v_{l}^{T}, v_{p 1}^{T}, \ldots, v_{p K}^{T}, v_{g}^{T}\right\}$ ，包含低层、局部和全局表示。

与深度文本CNN不同，作者只堆叠了几个瓶颈，而不是使用非常深的残差网络来提取文本表示，原因如下：1）深度文本CNN不同阶段之间的下采样带来了明显的信息损失，2）深度网络与浅层网络相比没有带来明显的改善，这与图像领域的经验相反。

3.3. 多阶段跨模态匹配

为了消除图像模态与文本模态之间的特征差距，作者在低级，局部和全局级别表示上采用了跨模态投影匹配 (CMPM) 损失，它可以通过将交叉模态投影合并到KL发散中来关联不同模态的表示。对于每个视觉表示 $v_{i}^{I}$ ，假设图像-文本表示对集为 $\left\{\left(v_{i}^{I}, v_{j}^{T}\right), y_{i, j}\right\}_{j=1}^{N}$ ，其中 $y_{i, j}=1$ 表示 $v_{i}^{I}$ 和 $v_{j}^{T}$ 来自同一个人，否则表示它们不是匹配对。

$v_{i}^{I}$ 和 $v_{j}^{T}$ 是匹配对的概率可以通过以下公式计算：

$p_{i, j}=\frac{\exp \left(\left(v_{i}^{I}\right)^{\top} \bar{v}_{j}^{T}\right)}{\sum_{k=1}^{N} \exp \left(\left(v_{i}^{I}\right)^{\top} \bar{v}_{k}^{T}\right)}$

其中， $\bar{v}_{j}^{T}$ 是归一化的文本表示，表示为 $\bar{v}_{j}^{T}=\frac{v_{j}^{T}}{\left\|v_{j}^{T}\right\|}$ 。在CMPM中， $v_{i}^{I}$ 在 $v_{j}^{T}$ 上的标量投影被视为它们的相似性，匹配概率 $p_{i, j}$ 是 $v_{i}^{I}$ 和 $v_{j}^{T}$ 之间的相似性与 $v_{i}^{I}$ 和 $\left\{v_{j}^{T}\right\}_{j=1}^{N}$ 相除的结果。然后，可通过以下公式计算CMPM损失：

$L_{I 2 T}=\frac{1}{N} \sum_{i=1}^{N} \sum_{j=1}^{N} p_{i, j} \log \left(\frac{p_{i, j}}{q_{i, j}+\varepsilon}\right)$

其中 $\varepsilon$ 是一个较小的数字，以避免数值问题， $q_{i, j}$ 是 $v_{i}^{I}$ 和 $v_{j}^{T}$ 之间的归一化真实匹配概率，因为一个batch中可能有多个匹配的文本描述，表示为 $q_{i, j}=\frac{y_{i, j}}{\sum_{k=1}^{N} y_{i, k}}$ 。上述过程在单个方向上缩短了每个视觉表示及其匹配的文本表示之间的距离，作者反向执行类似的过程，以使每个文本表示及其匹配的视觉表示更接近。因此，双向CMPM损失通过以下公式计算：

$L_{C M P M}=L_{I 2 T}+l_{T 2 I}$

本文框架中的目标包括三个层次的跨模态表示匹配。低层表示中的CMPM损失是为了在早期阶段减少模态间隙。局部表示中的CMPM损失可以实现图像和文本之间的局部对齐。全局级表示中的CMPM损失确保评估的最终表示具有更强的模态兼容性。通过CMPM损失的多个阶段，可以逐步提高图像文本表示的匹配度，这将在消融研究中得到进一步验证。最后，根据视觉和文本表示集 $V^{I}$ 和 $V^{T}$ ，通过以下公式计算总体目标函数：

$L=\lambda_{1} L_{C M P M}^{l}+\lambda_{2} \sum_{k=1}^{K} L_{C M P M}^{p k}+\lambda_{3} L_{C M P M}^{g}$

其中 $\lambda_{1}, \lambda_{2}, \lambda_{3}$ 是超参数，用于控制不同CMPM损失的重要性，而 $L_{C M P M}^{l},\left\{L_{C M P M}^{p k}\right\}_{k=1}^{K}, L_{C M P M}^{g}$ 分别表示CMPM损失的低级、局部级和全局级表示。

4.实验

作者在CUHK-PEDES数据集上进行了实验，上图展示了CUHK-PEDES数据集上的一些样本可视化。

上表展示了本文方法和SOTA方法在CUHK-PEDES数据集上的性能对比。

为了验证局部特征的有效性，作者将基于局部特征的方法和全局特征的方法进行对比，从上图（a）可以看出局部特征的方法能够明显优于全局特征。从上图（b）可以看出，当局部区域的粒度太小时，局部区域集中的大量噪声将给网络提取该区域的公共特征带来困难。

上图（a）展示了不同瓶颈数量的模型性能，结果表明，随着瓶颈数量的增加，网络呈现出先增加后减少的总体趋势，当每个分支有3个瓶颈时，网络达到最佳性能。在上图（b）中，作者将残差分支与不同的下采样时间进行比较。

在训练阶段，为了逐步刺激模态间隙，我们应用了多阶段跨模态匹配策略，该策略将CMPM损失应用于三个阶段的表示，包括低水平和高水平表示。请注意，局部级别和全局级别的表示都属于高级表示。作者进行了以下消融实验，以验证每个阶段的CMPM损失，结果如下表所示。

作者进行了一系列消融实验，比较不同融合策略的性能，包括平均融合、最大融合和同时添加它们，结果如上表所示。

在上图中，作者应用t-SNE来可视化特征，并在四个步骤中显示特征分布的变化过程。在训练之前，文本模态和图像模态之间存在显著差距，模态内部的分布紊乱。经过几个训练阶段后，可以观察到相同身份的样本开始聚类，但这两种模式仍有很大差距。然后，两种模态的分布开始逐渐收敛，直到其中心接近。最后，两种模态的特征分布在一定程度上吻合良好，来自同一身份的样本可以具有良好的聚类性能。

如上图所示，本文通过提出的TIPCB可视化和分析了几个基于文本的任务搜索示例。

5. 总结

在本文中，作者提出了一个简单但有效的端到端学习框架，用于基于文本的人员搜索，称为TIPCB（即基于文本图像部分的卷积基线）。与现有的局部匹配方法相比，TIPCB采用端到端的可训练结构，无需额外的模型和复杂的评估策略。作者设计了一种新的双路径局部对齐网络来学习视觉和文本局部表示，其中图像水平分割，文本自适应对齐。此外，作者引入了一种多阶段跨模态匹配策略，从三个层次匹配视觉和文本表示，并逐步消除模态差距。出色的实验结果验证了作者提出的TIPCB方法的优越性。

已建立深度学习公众号——FightingCV，欢迎大家关注！！！

ICCV、CVPR、NeurIPS、ICML论文解析汇总：https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading

面向小白的Attention、重参数、MLP、卷积核心代码学习：https://github.com/xmu-xiaoma666/External-Attention-pytorch

加入交流群，请添加小助手wx：FightngCV666