带双模态难挖掘三元-中心损失的行人重识别方法及系统.pdf
《带双模态难挖掘三元-中心损失的行人重识别方法及系统.pdf》由会员分享,可在线阅读,更多相关《带双模态难挖掘三元-中心损失的行人重识别方法及系统.pdf(17页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010877730.5 (22)申请日 2020.08.27 (71)申请人 山东师范大学 地址 250014 山东省济南市历下区文化东 路88号 (72)发明人 张化祥蔡鑫刘丽朱磊 于治楼 (74)专利代理机构 济南圣达知识产权代理有限 公司 37221 代理人 黄海丽 (51)Int.Cl. G06K 9/00(2006.01) G06K 9/46(2006.01) G06K 9/62(2006.01) G06N 3/08(2006.01) G06N 3/04(2006。
2、.01) (54)发明名称 带双模态难挖掘三元-中心损失的行人重识 别方法及系统 (57)摘要 本申请公开了带双模态难挖掘三元中心损 失的行人重识别方法及系统, 将目标行人可视光 图像和目标行人红外图像, 输入到双路径基于局 部的特征学习网络中, 输出目标行人可视光图像 的局部特征表示和目标行人红外图像的局部特 征表示; 将得到的局部特征表示, 投影到公共特 征表示空间中, 在公共特征表示空间中进行拼接 处理, 得到目标行人的最终特征描述符; 同理, 得 到每个待查询行人的最终特征描述符; 公共特征 表示空间使用带双模态难挖掘三元中心损失函 数进行优化; 计算目标行人的最终特征描述符与 每个待。
3、查询行人的最终特征描述符之间的距离, 将距离小于设定阈值所对应的待查询行人图像 作为行人重识别结果输出。 权利要求书2页 说明书12页 附图2页 CN 112115805 A 2020.12.22 CN 112115805 A 1.带双模态难挖掘三元-中心损失的行人重识别方法, 其特征是, 包括: 将目标行人可视光图像和目标行人红外图像, 输入到双路径基于局部的特征学习网络 中, 输出目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示; 同理, 得到每个待查询行人的可视光图像的局部特征表示和红外图像的局部特征表示; 将目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表。
4、示, 投影到 公共特征表示空间中, 在公共特征表示空间中进行拼接处理, 得到目标行人的最终特征描 述符; 同理, 得到每个待查询行人的最终特征描述符; 公共特征表示空间, 使用带双模态难 挖掘三元-中心损失函数进行优化; 计算目标行人的最终特征描述符与每个待查询行人的最终特征描述符之间的欧式距 离, 将欧式距离小于设定阈值所对应的待查询行人图像作为行人重识别结果输出。 2.如权利要求1所述的方法, 其特征是, 双路径基于局部的特征学习网络; 网络结构包 括: 并列的可视光支路和红外支路; 所述可视光支路, 采用第一改进的Resnet-50网络结构来实现; 所述第一改进的 Resnet-50网络。
5、结构后面依次连接第一平均池化层、 第一全连接层和第一批归一化层; 所述 可视光支路的输入值为可视光图像, 第一平均池化层输出可视光图像的局部特征; 可视光 图像的局部特征通过第一全连接层和第一批归一化层处理后, 映射到公共特征表示空间 中; 所述红外支路, 也采用第二改进的Resnet-50网络结构来实现; 所述第二改进的 Resnet-50网络结构后面也依次连接第二平均池化层、 第二全连接层和第二批归一化层; 所 述红外支路的输入值为红外图像, 第二平均池化层输出红外图像的局部特征; 红外图像的 局部特征通过第二全连接层和第二批归一化层处理后, 也映射到公共特征表示空间中; 公共特征表示空间。
6、将可视光图像的局部特征和红外图像的局部特征进行拼接, 得到融 合后的特征; 所述第一改进的Resnet-50网络结构, 与所述第二改进的Resnet-50网络结构, 是一样 的; 所述第一改进的Resnet-50网络结构, 是指在Resnet-50网络结构的基础上, 去掉最后一 个平均池化层及其后续结构; 所述第一全连接层与第二全连接层是共享权重的。 3.如权利要求2所述的方法, 其特征是, 所述第一改进的Resnet-50网络结构, 与所述第 二改进的Resnet-50网络结构, 均是预先训练好的网络结构。 4.如权利要求1或2所述的方法, 其特征是, 所述公共特征表示空间采用双模态难挖掘 。
7、三元-中心损失函数和交叉熵损失函数来进行优化。 5.如权利要求4所述的方法, 其特征是, 所述双模态难挖掘三元-中心损失函数, 包括: 跨模态难挖掘三元-中心损失函数和模态内难挖掘三元-中心损失函数。 6.如权利要求1所述的方法, 其特征是, 双路径基于局部的特征学习网络; 训练步骤包 括: 构建数据集; 所述数据集, 包括已知目标行人的可视光图像、 已知目标行人的红外图 像、 已知重识别结果的可视光图像集合和已知重识别结果的红外图像集合; 将数据集按比 例划分为训练集和测试集; 将训练集, 输入到双路径基于局部的特征学习网络中, 对双路径基于局部的特征学习 权利要求书 1/2 页 2 CN 。
8、112115805 A 2 网络进行训练, 当总的损失函数达到最小值时, 停止训练, 得到训练好的双路径基于局部的 特征学习网络; 利用测试集对训练好的双路径基于局部的特征学习网络进行测试, 得到最终的双路径 基于局部的特征学习网络。 7.如权利要求1所述的方法, 其特征是, 得到每个待查询行人的最终特征描述符; 具体 步骤包括: 将每个待查询行人的可视光图像的局部特征表示和红外图像的局部特征表示, 投影到 公共特征表示空间中, 在公共特征表示空间中进行拼接处理, 得到每个待查询行人的最终 特征描述符。 8.带双模态难挖掘三元-中心损失的行人重识别系统, 其特征是, 包括: 局部特征提取模块,。
9、 其被配置为: 将目标行人可视光图像和目标行人红外图像, 输入到 双路径基于局部的特征学习网络中, 输出目标行人可视光图像的局部特征表示和目标行人 红外图像的局部特征表示; 同理, 得到每个待查询行人的可视光图像的局部特征表示和红 外图像的局部特征表示; 投影模块, 其被配置为: 将目标行人可视光图像的局部特征表示和目标行人红外图像 的局部特征表示, 投影到公共特征表示空间中, 在公共特征表示空间中进行拼接处理, 得到 目标行人的最终特征描述符; 同理, 得到每个待查询行人的最终特征描述符; 公共特征表示 空间, 使用带双模态难挖掘三元-中心损失函数进行优化; 行人重识别模块, 其被配置为: 。
10、计算目标行人的最终特征描述符与每个待查询行人的 最终特征描述符之间的欧式距离, 将欧式距离小于设定阈值所对应的待查询行人图像作为 行人重识别结果输出。 9.一种电子设备, 其特征是, 包括: 一个或多个处理器、 一个或多个存储器、 以及一个或 多个计算机程序; 其中, 处理器与存储器连接, 上述一个或多个计算机程序被存储在存储器 中, 当电子设备运行时, 该处理器执行该存储器存储的一个或多个计算机程序, 以使电子设 备执行上述权利要求1-7任一项所述的方法。 10.一种计算机可读存储介质, 其特征是, 用于存储计算机指令, 所述计算机指令被处 理器执行时, 完成权利要求1-7任一项所述的方法。。
11、 权利要求书 2/2 页 3 CN 112115805 A 3 带双模态难挖掘三元-中心损失的行人重识别方法及系统 技术领域 0001 本申请涉及可视-红外行人重识别领域和深度学习技术领域, 特别是涉及带双模 态难挖掘三元-中心损失的行人重识别方法及系统。 背景技术 0002 本部分的陈述仅仅是提到了与本申请相关的背景技术, 并不必然构成现有技术。 0003 行人重识别是跨不同的摄像机视点来检索目标行人, 是计算机视觉社区的一个热 门研究方向。 它可以作为人脸识别技术的重要补充, 并在视频监控系统中发挥重要作用。 在 过去的几年里, 学者们对行人重识别的研究主要集中在可视领域, 其中行人图像是。
12、由可视 光相机拍摄的。 但在现实生活中, 当光线较暗时, 可视光相机却无法捕捉到包含有效信息的 行人图片。 因此, 能够在光线昏暗时捕捉有效行人图像的红外摄像机得到了广泛的应用。 可 视-红外行人重识别问题也就应运而生。 0004 可视-红外行人重识别就是根据给定的检索目标的可见光(红外)图像, 从由红外 (可视光)图像构成的画廊中搜索目标行人。 它与可视-可视行人重识别最大的区别在于, 本 申请需要跨异质模态搜索行人图像。 因为可见光摄像机和红外摄像机的反射光谱存在差 异, 所以捕获的可视图片和红外图片的信息容量和表示形式完全不同。 此外, 发明人还发 现, 不同数据集的红外模态图片也不尽相。
13、同。 SYSU-MM01数据集包含近红外图像, 它们具有 相对清晰的轮廓并保留了一些细节信息。 但RegDB数据集包含的是远红外图像, 它们仅具有 模糊的轮廓。 此外, 可视-红外行人重识别还遭受着传统的可视-可视行人重识别中存在的 问题, 例如摄像机视角变化, 行人姿势变化和遮挡等, 现有技术中对行人重识别的精准度有 待提升。 发明内容 0005 为了解决现有技术的不足, 本申请提供了带双模态难挖掘三元-中心损失的行人 重识别方法及系统; 0006 第一方面, 本申请提供了带双模态难挖掘三元-中心损失的行人重识别方法; 0007 带双模态难挖掘三元-中心损失的行人重识别方法, 包括: 000。
14、8 将目标行人可视光图像和目标行人红外图像, 输入到双路径基于局部的特征学习 网络中, 输出目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示; 同理, 得到每个待查询行人的可视光图像的局部特征表示和红外图像的局部特征表示; 0009 将目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示, 投 影到公共特征表示空间中, 在公共特征表示空间中进行拼接处理, 得到目标行人的最终特 征描述符; 同理, 得到每个待查询行人的最终特征描述符; 公共特征表示空间, 使用带双模 态难挖掘三元-中心损失函数进行优化; 0010 计算目标行人的最终特征描述符与每个待查询行人的最终特征。
15、描述符之间的欧 式距离, 将欧式距离小于设定阈值所对应的待查询行人图像作为行人重识别结果输出。 说明书 1/12 页 4 CN 112115805 A 4 0011 第二方面, 本申请提供了带双模态难挖掘三元-中心损失的行人重识别系统; 0012 带双模态难挖掘三元-中心损失的行人重识别系统, 包括: 0013 局部特征提取模块, 其被配置为: 将目标行人可视光图像和目标行人红外图像, 输 入到双路径基于局部的特征学习网络中, 输出目标行人可视光图像的局部特征表示和目标 行人红外图像的局部特征表示; 同理, 得到每个待查询行人的可视光图像的局部特征表示 和红外图像的局部特征表示; 0014 投。
16、影模块, 其被配置为: 将目标行人可视光图像的局部特征表示和目标行人红外 图像的局部特征表示, 投影到公共特征表示空间中, 在公共特征表示空间中进行拼接处理, 得到目标行人的最终特征描述符; 同理, 得到每个待查询行人的最终特征描述符; 公共特征 表示空间, 使用带双模态难挖掘三元-中心损失函数进行优化; 0015 行人重识别模块, 其被配置为: 计算目标行人的最终特征描述符与每个待查询行 人的最终特征描述符之间的欧式距离, 将欧式距离小于设定阈值所对应的待查询行人图像 作为行人重识别结果输出。 0016 第三方面, 本申请还提供了一种电子设备, 包括: 一个或多个处理器、 一个或多个 存储器。
17、、 以及一个或多个计算机程序; 其中, 处理器与存储器连接, 上述一个或多个计算机 程序被存储在存储器中, 当电子设备运行时, 该处理器执行该存储器存储的一个或多个计 算机程序, 以使电子设备执行上述第一方面所述的方法。 0017 第四方面, 本申请还提供了一种计算机可读存储介质, 用于存储计算机指令, 所述 计算机指令被处理器执行时, 完成第一方面所述的方法。 0018 第五方面, 本申请还提供了一种计算机程序(产品), 包括计算机程序, 所述计算机 程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。 0019 与现有技术相比, 本申请的有益效果是: 0020 本申请设。
18、计了一个新颖的双模态难挖掘三元-中心损失(DTCL)。 它可以有效地继 承三元组损失和中心损失的优点, 即有效地在减小类内距离的同时增加类间距离, 并挖掘 难三元组, 减少计算开销。 双模态难挖掘三元-中心损失分别为每个类计算两个模态中心。 它约束了样本与同类的异质/同质模态中心的距离小于样本与不同类的异质/同质模态中 心的最小距离。 0021 本申请还设计了一种双路径的基于局部的特征学习网络(DPFLN)来提取局部特 征, 以解决可视-红外行人重识别的模态差异问题。 该模型分为可视支路和红外支路, 它们 分别用来处理两种模态下的异质图像。 0022 本申请采用Resnet-50作为各支路的主。
19、干网络, 然后使用卷积平均池化层将每一 条支路的骨干网络输出的特征图从上到下均匀地划分为若干水平条。 随后, 两个分支中对 应位置的水平条被输入到权重共享的全连通层中, 它将特定模态映射到一个共同的特征表 示空间中。 0023 本申请结合三元组损失和中心损失的优点, 提出了一种新型的双模态难挖掘三 元-中心(DTCL)。 它可以优化类内距离和类间距离, 使得相同身份行人的特征表示相互靠 近, 将不同身份行人的特征表示推远。 它还能挖掘难样本并减少计算代价。 0024 本申请还提出了一种简单但有效的双路径基于局部的特征学习网络(DPFLN), 能 够从两种不同的模态中提取具有鉴别性的行人的局部特。
20、征。 本申请联合使用DTCL和交叉熵 说明书 2/12 页 5 CN 112115805 A 5 损失来监督DPFLN的训练过程。 本申请在两个公开数据集上进行了实验, 结果表明本申请的 方法对可视-红外行人重识别任务的有效性。 附图说明 0025 构成本申请的一部分的说明书附图用来提供对本申请的进一步理解, 本申请的示 意性实施例及其说明用于解释本申请, 并不构成对本申请的不当限定。 0026 图1为第一个实施例的方法流程图; 0027 图2为第一个实施例的网络架构示意图。 具体实施方式 0028 应该指出, 以下详细说明都是示例性的, 旨在对本申请提供进一步的说明。 除非另 有指明, 本文。
21、使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常 理解的相同含义。 0029 需要注意的是, 这里所使用的术语仅是为了描述具体实施方式, 而非意图限制根 据本申请的示例性实施方式。 如在这里所使用的, 除非上下文另外明确指出, 否则单数形式 也意图包括复数形式, 此外, 还应当理解的是, 术语 “包括” 和 “具有” 以及他们的任何变形, 意图在于覆盖不排他的包含, 例如, 包含了一系列步骤或单元的过程、 方法、 系统、 产品或设 备不必限于清楚地列出的那些步骤或单元, 而是可包括没有清楚地列出的或对于这些过 程、 方法、 产品或设备固有的其它步骤或单元。 0030 另外, 。
22、为了便于清楚描述本申请实施例的技术方案, 在本申请实施例中, 采用了 “第一” 、“第二” 等字样对功能和作用基本相同的相同项或相似项进行区分。 本领域技术人 员可以理解 “第一” 、“第二” 字样并不对数量和执行次序进行限定, 并且 “第一” 、“第二” 等字 样也并不限定一定不同。 0031 在不冲突的情况下, 本申请中的实施例及实施例中的特征可以相互组合。 0032 实施例一 0033 本实施例提供了带双模态难挖掘三元-中心损失的行人重识别方法; 0034 如图1所示, 带双模态难挖掘三元-中心损失的行人重识别方法, 包括: 0035 S101: 将目标行人可视光图像和目标行人红外图像,。
23、 输入到双路径基于局部的特 征学习网络中, 输出目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征 表示; 同理, 得到每个待查询行人的可视光图像的局部特征表示和红外图像的局部特征表 示; 0036 S102: 将目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表 示, 投影到公共特征表示空间中, 在公共特征表示空间中进行拼接处理, 得到目标行人的最 终特征描述符; 同理, 得到每个待查询行人的最终特征描述符; 公共特征表示空间, 使用带 双模态难挖掘三元-中心损失函数进行优化; 0037 S103: 计算目标行人的最终特征描述符与每个待查询行人的最终特征描述符之间 的欧。
24、式距离, 将欧式距离小于设定阈值所对应的待查询行人图像作为行人重识别结果输 出。 0038 作为一个或多个实施例, 所述方法还包括: 说明书 3/12 页 6 CN 112115805 A 6 0039 S100: 获取目标行人图像和待查询的图像集合; 所述目标行人图像, 包括: 目标行 人可视光图像和目标行人红外图像; 所述待查询的图像集合, 包括: 若干个待查询行人可视 光图像和对应的红外图像。 0040 作为一个或多个实施例, 所述S101中, 如图2所示, 双路径基于局部的特征学习网 络(DPFLN, dual-path part-based feature learning netw。
25、ork); 网络结构包括: 0041 并列的可视光支路和红外支路; 0042 所述可视光支路, 采用第一改进的Resnet-50网络结构来实现; 所述第一改进的 Resnet-50网络结构后面依次连接第一平均池化层、 第一全连接层和第一批归一化层; 所述 可视光支路的输入值为可视光图像, 第一平均池化层输出可视光图像的局部特征; 可视光 图像的局部特征通过第一全连接层和第一批归一化层处理后, 映射到公共特征表示空间 中; 0043 所述红外支路, 也采用第二改进的Resnet-50网络结构来实现; 所述第二改进的 Resnet-50网络结构后面也依次连接第二平均池化层、 第二全连接层和第二批归。
26、一化层; 所 述红外支路的输入值为红外图像, 第二平均池化层输出红外图像的局部特征; 红外图像的 局部特征通过第二全连接层和第二批归一化层处理后, 也映射到公共特征表示空间中; 0044 公共特征表示空间将可视光图像的局部特征和红外图像的局部特征进行拼接, 得 到融合后的特征; 0045 所述第一改进的Resnet-50网络结构, 与所述第二改进的Resnet-50网络结构, 是 一样的; 所述第一改进的Resnet-50网络结构, 是指在Resnet-50网络结构的基础上, 去掉最 后一个平均池化层及其后续结构; 0046 所述第一全连接层与第二全连接层是共享权重的。 0047 进一步地, 。
27、所述第一改进的Resnet-50网络结构, 与所述第二改进的Resnet-50网 络结构, 均是预先训练好的网络结构。 0048 进一步地, 所述公共特征表示空间采用双模态难挖掘三元-中心损失函数(DTCL, dual-modality hard mining triplet-center loss)和交叉熵损失函数来进行优化。 0049 进一步地, 所述双模态难挖掘三元-中心损失函数, 包括: 跨模态难挖掘三元-中心 损失函数和模态内难挖掘三元-中心损失函数。 0050 跨模态难挖掘三元-中心损失。 除了可视相机和红外相机成像原理不同造成的模 态差异外, 可视-红外行人重识别也存在着类内差异。
28、。 为了解决跨模态的类内变化问题, 即 属于同一类的两个不同模态的样本之间的距离可能大于属于不同类的两个不同模态的样 本之间的距离, 本申请提出了一个跨模态难挖掘三元-中心损失。 本申请对每个类别分别计 算2个模态的类中心, 然后为每一张图片分别选择同类的不同模态的中心和离该张图片特 征距离最近的不同类的不同模态的中心一起形成新的三元组。 与中心损失类似, 在使用小 批量图像训练模型的过程中, 类中心不断更新。 0051 跨模态难挖掘三元-中心损失的定义为: 0052 0053其中,和分别表示DPFLN提取的可视图像和红外图像的特征嵌 说明书 4/12 页 7 CN 112115805 A 7。
29、 入, C1i和c2i分别表示来自可视模态和红外模态的第i个类别的特征分布的中心, yi是第i个 样本的类别身份标签, 是边缘距离, N是训练小批量数据的大小, x+max(0,x), D()是 欧式距离度量。 0054 模态内难挖掘三元-中心损失。 除了跨模态的类内变化, 可视红外行人重识别还受 到了模态内的类内变化的影响。 为了解决这一问题, 本申请设计了模态内难挖掘三元-中心 损失。 与跨模态难挖掘三元-中心损失不同, 本申请在可见光和红外模态分别选择了新的三 元组, 公式如下: 0055 0056其中,和分别表示DPFLN提取的可视图像和红外图像的特征嵌 入, c1i和c2i分别表示来。
30、自可视模态和红外模态的第i个类别的特征分布的中心, yi是第i个 样本的类别身份标签, 是边缘距离, N是训练小批量数据的大小, x+max(0,x), D()是 距离度量, 本申请用的是欧氏距离。 0057 双模态难挖掘三元-中心损失约束公式为: 0058 LdtclLc_tcl+Li_tcl; (3) 0059 交叉熵损失约束。 将公共表示空间中的模态共享特征输入到一个的全连接层中, 得到概率函数, 根据行人的真实标签和得到的概率函数计算行人身份的交叉熵损失, 公式 为: 0060 0061表示概率函数, yi是第i个样本的类别身份标签, N表示训练过程 中一个块中的图片数。 0062 得。
31、到网络模型的最终优化目标函数为: 0063 LallLdtcl+ Lid; (5) 0064 其中, Ldtcl表示双模态难挖掘三元-中心损失, Lid表示行人身份损失, 是权衡两种 损失的权重超参数。 0065 利用随机梯度下降法对总的损失函数进行优化, 直到模型收敛, 得到最终的共同 空间。 0066 示例性的, 所述双路径基于局部的特征学习网络(DPFLN)由可视支路和红外支路 组成, 分别对两种不同模态的小批量图像进行处理。 每条路径使用稍作修改的预训练好的 Resnet-50作为主干网络, 即去掉Resnet-50的最后一个平均池层及其后续结构。 之后跟着 一个平均池化层, 一个全连。
32、接层和一个批归一化层。 0067 示例性的, 所述两个模态的局部特征是通过结构相同但参数独立的可视支路和红 外支路提取的。 两条支路结构相同, 但参数相互独立。 在每个支路中, 上述的Resnet-50网络 从输入的小批量图像中提取出特征图, 然后通过平均池化层的作用, 将提取出来的特征图 从上到下均匀地分割为p条水平条, 得到特定模态的局部特征。 说明书 5/12 页 8 CN 112115805 A 8 0068 将提取的局部特征投影至公共表示空间即将上一步得到的特定模态的局部特征 通过一个共享权重的全连接层和一个批归一化层映射到一个公共表示空间中。 0069 作为一个或多个实施例, 所述。
33、S101中, 双路径基于局部的特征学习网络; 训练步骤 包括: 0070 构建数据集; 所述数据集, 包括已知目标行人的可视光图像、 已知目标行人的红外 图像、 已知重识别结果的可视光图像集合和已知重识别结果的红外图像集合; 将数据集按 比例划分为训练集和测试集; 0071 将训练集, 输入到双路径基于局部的特征学习网络中, 对双路径基于局部的特征 学习网络进行训练, 当总的损失函数达到最小值时, 停止训练, 得到训练好的双路径基于局 部的特征学习网络; 0072 利用测试集对训练好的双路径基于局部的特征学习网络进行测试, 得到最终的双 路径基于局部的特征学习网络。 0073 应理解的, 训练。
34、集和测试集中的行人身份没有交集, 每一个行人都被可视光相机 和红外相机捕获, 具有两个模态的不同视角的多张图片。 每一张图片都被重新调整大小为 288144, 并且进行随机水平翻转。 0074 示例性的, 所述运用测试集进行可视-红外行人重识别就是将测试集中的可视光 图片和红外图片输入训练好的网络模型中, 将得到可视光图片和热感图片的局部特征表示 进行拼接得到行人的最终的特征描述符。 然后求得查询图片和画廊中的图片特征之间的欧 式距离, 并将该距离从小到大排序, 距离越小的代表与查询图片越匹配。 0075 作为一个或多个实施例, 所述S102中, 同理, 得到每个待查询行人的最终特征描述 符;。
35、 具体步骤包括: 0076 将每个待查询行人的可视光图像的局部特征表示和红外图像的局部特征表示, 投 影到公共特征表示空间中, 在公共特征表示空间中进行拼接处理, 得到每个待查询行人的 最终特征描述符。 0077 在训练过程中, 本申请使用新的抽样策略选择每一个小批量数据, 即本申请从训 练集中随机选择P个行人身份, 然后为每个身份随机选择K张可见光图像和K张红外图像。 本 申请使用提出的DPFLN将选取的2N张图像(NPK)组成训练的小批数据嵌入到d维特征向 量中。 0078 本实施例公开了一种带有双模态难挖掘三元-中心损失的可视-红外行人重识别 方法, 下面以SYSU-MM01数据集为例,。
36、 对该方法进行清楚、 完整的描述。 0079 SYSU-MM01包括由6台摄像机拍摄的491人的287628张可见光图像和15792张红外 图像。 6个摄像头中, 4个是可见光摄像头, 2个是近红外摄像头。 它们分别安装在室内和室外 环境中, 因此SYSU-MM01具有极大的挑战性。 数据集原先被分为三个固定的部分, 包括296人 的训练集、 99人的验证集和96人的测试集。 本申请将原始的训练集和验证集结合起来作为 训练集, 其中可见光图像22258张, 红外图像11909张, 共395人, 剩余的96人进行测试。 在测 试阶段, 本申请使用3803张红外图像作为查询集, 然后使用挑选出的3。
37、01张可见图像组成画 廊。 0080 本申请的具体步骤如下: 0081 步骤1: 将数据集划分为训练集与测试集, 并进行预处理。 说明书 6/12 页 9 CN 112115805 A 9 0082表示数据集中的可视图片集,表示红外图片集, Nx和Nz分别表示可视 图片集合和红外图片集合中的图片数量。 在实际操作中, 本申请使用来自训练集和验证集 的395个行人22258张可视光图片和11909张红外图片作为训练集, 原来测试集中的数据作 为测试集。 为了进行数据增强, 本申请把输入数据的大小调整为288144, 然后进行水平随 机翻转。 0083 步骤2: 构建双路径基于局部的特征学习网络(。
38、DPFLN)。 0084 双路径基于局部的特征学习网络(DPFLN)由可视支路和红外支路组成, 分别对两 种不同模态的小批量图像进行处理。 每条路径使用稍作修改的预训练好的Resnet-50作为 主干网络, 即去掉Resnet-50的最后一个平均池化层及其后续结构。 之后跟着一个平均池化 层, 一个全连接层和一个批归一化层。 0085 步骤3: 将训练集中的可视光图像和红外图像分别输入到DPFLN的可视支路和红外 支路中, 提取两个模态的局部特征。 0086 可视光Xi和红外图像Zi分别输入DPFLN的两个支路中, 上述的Resnet-50输出的特 征经过平均池化层被从上到下切分成6个水平条,。
39、 得到特定模态的局部特征。 0087 步骤4: 将提取的局部特征投影到公共的特征表示空间中。 0088 将上述局部特征通过一个共享权重的全连接层和一个批归一化层, 映射到公共表 示空间, 其局部特征维度为512维。 0089 步骤5: 同时使用双模态难挖掘三元-中心损失(DTCL)和交叉熵损失优化公共表示 空间。 0090 双模态难挖掘三元-中心损失约束: 0091 双模态难挖掘三元-中心损失约束包括跨模态难挖掘三元-中心损失和模态内难 挖掘三元-中心损失两个部分。 在训练过程中, 本申请使用新的抽样策略选择每一个小批量 数据, 即本申请从训练集中随机选择P个行人身份, 然后为每个身份随机选择。
40、K张可见光图 像和K张红外图像。 本申请使用提出的DPFLN将选取的2N张图像(NPK)组成训练的小批 数据嵌入到d维特征向量中。 0092 跨模态难挖掘三元-中心损失。 除了可视相机和红外相机成像原理不同造成的模 态差异外, 可视-红外行人重识别也存在着类内差异。 为了解决跨模态的类内变化问题, 即 属于同一类的两个不同模态的样本之间的距离可能大于属于不同类的两个不同模态的样 本之间的距离, 本申请提出了一个跨模态难挖掘三元-中心损失。 本申请对每个类别分别计 算2个模态的类中心, 然后为每一张图片分别选择同类的不同模态的中心和离该张图片特 征距离最近的不同类的不同模态的中心一起形成新的三元。
41、组。 与中心损失类似, 在使用小 批量图像训练模型的过程中, 类中心不断更新。 本申请将跨模态难挖掘三元-中心损失定义 为: 0093 0094和分别表示DPFLN提取的可视图像和红外图像的特征嵌入, c1i 和c2i分别表示来自可视模态和红外模态的第i个类别的特征分布的中心, yi是第i个样本的 类别身份标签, 是边缘距离, N是训练小批量数据的大小, x+max(0, x), D()是距离度 说明书 7/12 页 10 CN 112115805 A 10 量, 本申请用的是欧氏距离。 0095 模态内难挖掘三元-中心损失。 除了跨模态的类内变化, 可视红外行人重识别还受 到了模态内的类内变。
42、化的影响。 为了解决这一问题, 本申请设计了模态内难挖掘三元-中心 损失。 与跨模态难挖掘三元-中心损失不同, 本申请在可见光和红外模态分别选择了新的三 元组, 公式如下: 0096 0097 是边缘距离, 其它符号的含义与公式(1)中的相同。 0098 双模态难挖掘三元-中心损失约束公式为: 0099 LdtclLc_tcl+Li_tcl; (8) 0100 交叉熵损失约束: 0101 将公共表示空间中的模态共享特征输入到一个的全连接层中, 得到概率函数, 根 据行人的真实标签和得到的概率函数计算行人身份的交叉熵损失, 公式为: 0102 0103表示概率函数, N表示训练过程中一个块中的图。
43、片数。 0104 得到网络模型的最终优化目标函数为: 0105 LallLdtcl+ Lid; (10) 0106 其中, 表示超参数。 0107 经过多次实验, 最终确定在第90代时模型收敛, 得到最终的网络模型。 0108 步骤6: 运用测试集进行可视-红外行人重识别。 0109 表1 RegDB数据集上single-shot all-search设置下的所有方法的效果 说明书 8/12 页 11 CN 112115805 A 11 0110 0111 在测试阶段, 本申请把可视光图像的测试样本和红外图像的测试样本输入到 DPFLN, 将提取的每张行人图片的6个局部特征在高度维度进行拼接,。
44、 作为行人最终的特征 描述符。 本申请可以求得查询样本和画廊中的样本两两之间的欧式距离, 并将该距离从小 到大排序, 距离越小的代表与查询样本越匹配。 对比查询样本的标签和检索到的样本标签, 计算Rank-1准确率、 累积匹配特征曲线(CMC)以及平均均值精度(mAP)。 表1和表2是本申请 提出的方法与一些先进的专门为跨模态行人重识别设计的方法以及一些并非专门为跨模 态行人重识别任务设计的方法(手工提取特征的方法、 度量学习方法)在2个常用的跨模态 行人重识别数据集上比较的效果。 本申请可以得出结论: 本申请提出的方法有效提高了跨 模态行人重识别的效果。 0112 表2 SYSU-MM01数。
45、据集上single-shot all-search设置下的所有方法的效果 说明书 9/12 页 12 CN 112115805 A 12 0113 0114 实施例二 0115 本实施例提供了带双模态难挖掘三元-中心损失的行人重识别系统; 0116 带双模态难挖掘三元-中心损失的行人重识别系统, 包括: 0117 局部特征提取模块, 其被配置为: 将目标行人可视光图像和目标行人红外图像, 输 入到双路径基于局部的特征学习网络中, 输出目标行人可视光图像的局部特征表示和目标 行人红外图像的局部特征表示; 同理, 得到每个待查询行人的可视光图像的局部特征表示 和红外图像的局部特征表示; 0118 。
46、投影模块, 其被配置为: 将目标行人可视光图像的局部特征表示和目标行人红外 图像的局部特征表示, 投影到公共特征表示空间中, 在公共特征表示空间中进行拼接处理, 得到目标行人的最终特征描述符; 同理, 得到每个待查询行人的最终特征描述符; 公共特征 表示空间, 使用带双模态难挖掘三元-中心损失函数进行优化; 0119 行人重识别模块, 其被配置为: 计算目标行人的最终特征描述符与每个待查询行 人的最终特征描述符之间的欧式距离, 将欧式距离小于设定阈值所对应的待查询行人图像 说明书 10/12 页 13 CN 112115805 A 13 作为行人重识别结果输出。 0120 此处需要说明的是, 。
47、上述局部特征提取模块、 投影模块和行人重识别模块对应于 实施例一中的步骤S101至S103, 上述模块与对应的步骤所实现的示例和应用场景相同, 但 不限于上述实施例一所公开的内容。 需要说明的是, 上述模块作为系统的一部分可以在诸 如一组计算机可执行指令的计算机系统中执行。 0121 上述实施例中对各个实施例的描述各有侧重, 某个实施例中没有详述的部分可以 参见其他实施例的相关描述。 0122 所提出的系统, 可以通过其他的方式实现。 例如, 以上所描述的系统实施例仅仅是 示意性的, 例如上述模块的划分, 仅仅为一种逻辑功能划分, 实际实现时, 可以有另外的划 分方式, 例如多个模块可以结合或。
48、者可以集成到另外一个系统, 或一些特征可以忽略, 或不 执行。 0123 实施例三 0124 本实施例还提供了一种电子设备, 包括: 一个或多个处理器、 一个或多个存储器、 以及一个或多个计算机程序; 其中, 处理器与存储器连接, 上述一个或多个计算机程序被存 储在存储器中, 当电子设备运行时, 该处理器执行该存储器存储的一个或多个计算机程序, 以使电子设备执行上述实施例一所述的方法。 0125 应理解, 本实施例中, 处理器可以是中央处理单元CPU, 处理器还可以是其他通用 处理器、 数字信号处理器DSP、 专用集成电路ASIC, 现成可编程门阵列FPGA或者其他可编程 逻辑器件、 分立门或。
49、者晶体管逻辑器件、 分立硬件组件等。 通用处理器可以是微处理器或者 该处理器也可以是任何常规的处理器等。 0126 存储器可以包括只读存储器和随机存取存储器, 并向处理器提供指令和数据、 存 储器的一部分还可以包括非易失性随机存储器。 例如, 存储器还可以存储设备类型的信息。 0127 在实现过程中, 上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者 软件形式的指令完成。 0128 实施例一中的方法可以直接体现为硬件处理器执行完成, 或者用处理器中的硬件 及软件模块组合执行完成。 软件模块可以位于随机存储器、 闪存、 只读存储器、 可编程只读 存储器或者电可擦写可编程存储器、 寄存器等。
50、本领域成熟的存储介质中。 该存储介质位于 存储器, 处理器读取存储器中的信息, 结合其硬件完成上述方法的步骤。 为避免重复, 这里 不再详细描述。 0129 本领域普通技术人员可以意识到, 结合本实施例描述的各示例的单元即算法步 骤, 能够以电子硬件或者计算机软件和电子硬件的结合来实现。 这些功能究竟以硬件还是 软件方式来执行, 取决于技术方案的特定应用和设计约束条件。 专业技术人员可以对每个 特定的应用来使用不同方法来实现所描述的功能, 但是这种实现不应认为超出本申请的范 围。 0130 实施例四 0131 本实施例还提供了一种计算机可读存储介质, 用于存储计算机指令, 所述计算机 指令被处。
- 内容关键字: 双模 挖掘 三元 中心 损失 行人 识别 方法 系统
链接地址:https://www.zhuanlichaxun.net/pdf/10147549.html