目标检测方法、装置、设备及可读存储介质.pdf
《目标检测方法、装置、设备及可读存储介质.pdf》由会员分享,可在线阅读,更多相关《目标检测方法、装置、设备及可读存储介质.pdf(19页完成版)》请在专利查询网上搜索。
1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202310453678.4(22)申请日 2023.04.20(71)申请人 浪潮电子信息产业股份有限公司地址 250000 山东省济南市高新区浪潮路1036号(72)发明人 张开华赵雅倩梁玲燕董刚(74)专利代理机构 北京集佳知识产权代理有限公司 11227专利代理师 姚璐华(51)Int.Cl.G06V 20/40(2022.01)G06V 10/40(2022.01)G06V 10/22(2022.01)G06V 10/774(2022.01)(54)发明名称一种目标检测方法、装置、设备及。
2、可读存储介质(57)摘要本申请在计算机视觉技术领域,具体公开了一种目标检测方法、装置、设备及可读存储介质,该方法包括:获取待检测的目标视频中各个原图像对应的深度图像;从原图像中提取外观特征,从深度图像中提取深度特征;利用深度特征中的目标深度信息,增强对应外观特征中的目标位置信息,得到深度信息引导特征;结合外观特征、深度特征和深度信息引导特征,确定目标检测结果。在本申请,通过深度信息来弥补伪装目标外观难以从背景中区分的问题,从而能精确地把视频中的伪装目标从背景里检测出来,可提高伪装目标检测的可靠性。权利要求书2页 说明书11页 附图5页CN 116612408 A2023.08.18CN 116。
3、612408 A1.一种目标检测方法,其特征在于,包括:获取待检测的目标视频中各个原图像对应的深度图像;从所述原图像中提取外观特征,从所述深度图像中提取深度特征;利用所述深度特征中的目标深度信息,增强对应所述外观特征中的目标位置信息,得到深度信息引导特征;结合所述外观特征、所述深度特征和所述深度信息引导特征,确定目标检测结果。2.根据权利要求1所述的目标检测方法,其特征在于,从所述原图像中提取外观特征,从所述深度图像中提取深度特征之后,还包括:对所述外观特征和所述深度特征,进行通道信息增强处理和/或上下文语义增强处理。3.根据权利要求1所述的目标检测方法,其特征在于,从所述原图像中提取外观特征。
4、,从所述深度图像中提取深度特征,包括:将所述原图像,及所述原图像的深度图像作为一组输入,利用双分支特征提取网络,从所述原图像中提取所述外观特征,从所述深度图像中提取所述深度特征。4.根据权利要求1所述的目标检测方法,其特征在于,利用所述深度特征中的目标深度信息,增强对应所述外观特征中的目标位置信息,得到深度信息引导特征,包括:利用空间注意力操作所述外观特征与所述深度特征的空间重要性权重矩阵;利用所述深度特征中的目标深度信息,对所述空间重要性权重矩阵中所述外观特征的目标位置信息进行增强,得到所述深度信息引导特征。5.根据权利要求1所述的目标检测方法,其特征在于,结合所述外观特征、所述深度特征和所。
5、述深度信息引导特征,确定目标检测结果,包括:将所述外观特征、所述深度特征和所述深度信息引导特征中,低分辨率特征与高分辨率特征进行特征聚合,得到所述聚合特征;利用所述聚合特征,确定所述目标检测结果。6.根据权利要求5所述的目标检测方法,其特征在于,利用所述聚合特征,确定所述目标检测结果,包括:对所述聚合特征进行逐级上采样,并与上一阶段的聚合特征两两拼接,逐步恢复特征尺寸至所述原图像大小,得到所述目标检测结果。7.根据权利要求1值6任一项所述的目标检测方法,其特征在于,还包括:基于所述目标检测结果,输出分割好的视频目标掩模图像。8.一种目标检测装置,其特征在于,包括:输入处理模块,用于获取待检测的。
6、目标视频中各个原图像对应的深度图像;特征提取模块,用于从所述原图像中提取外观特征,从所述深度图像中提取深度特征;深度信息引导模块,用于利用所述深度特征中的目标深度信息,增强对应所述外观特征中的目标位置信息,得到深度信息引导特征;特征聚合模块和逐级上采样模块,用于结合所述外观特征、所述深度特征和所述深度信息引导特征,确定目标检测结果。9.一种电子设备,其特征在于,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述目标检测方法的权利要求书1/2 页2CN 116612408 A2步骤。10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程。
7、序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述目标检测方法的步骤。权利要求书2/2 页3CN 116612408 A3一种目标检测方法、装置、设备及可读存储介质技术领域0001本申请涉及计算机视觉技术领域,特别是涉及一种目标检测方法、装置、设备及可读存储介质。背景技术0002视频伪装目标检测任务,旨在检测视频场景中,隐藏或者伪装的目标。这些目标能够通过模仿与背景相同的身体颜色、图案等形态外观,伪装在视频场景中。由于需要检测的目标经过伪装,与其周围环境之间的边界对比度非常低,导致检测伪装目标非常困难。此外,伪装目标大多为野生动物,其外观(例如大小和形状)往往各不相同,这进一步增加。
8、了准确检测的难度。视频伪装目标检测技术可应用于包括农业(如灾害检测、蝗虫检测)、计算机辅助搜救、医学成像(如肺部感染诊断、视网膜图像分割、息肉检测)在内的众多潜在领域。0003为了应对这些挑战,深度学习技术近年来被应用到视频伪装目标检测任务,并显示出巨大的潜力。这些方法,通常学习视频RGB图像的外观特征,来指导模型检测出伪装目标,例如,通过检测伪装目标与背景的边缘,或者分辨伪装目标与背景的不同纹理、语义特征来提高检测精度。0004然而,伪装目标检测中待检测的目标,通常与背景物体在外观上难以区分。例如:休息在树干上的枯叶蝶、站立在雪地的北极狐,这种伪装目标与背景外观高度相似的复杂情况时,深度学习。
9、技术还存在可靠性不足的问题。0005综上所述,如何有效地解决伪装目标监测的可靠性等问题,是目前本领域技术人员急需解决的技术问题。发明内容0006本申请的目的是提供一种目标检测方法、装置、设备及可读存储介质,在本申请中同时提取视频图像的外观特征与深度特征,并且利用目标的深度信息引导,通过深度信息来弥补伪装目标外观难以从背景中区分的问题,从而能精确地把视频中的伪装目标从背景里检测出来。0007为解决上述技术问题,本申请提供如下技术方案:0008一种目标检测方法,包括:0009获取待检测的目标视频中各个原图像对应的深度图像;0010从所述原图像中提取外观特征,从所述深度图像中提取深度特征;0011利。
10、用所述深度特征中的目标深度信息,增强对应所述外观特征中的目标位置信息,得到深度信息引导特征;0012结合所述外观特征、所述深度特征和所述深度信息引导特征,确定目标检测结果。0013优选地,从所述原图像中提取外观特征,从所述深度图像中提取深度特征之后,还包括:0014对所述外观特征和所述深度特征,进行通道信息增强处理和/或上下文语义增强说明书1/11 页4CN 116612408 A4处理。0015优选地,从所述原图像中提取外观特征,从所述深度图像中提取深度特征,包括:0016将所述原图像,及所述原图像的深度图像作为一组输入,利用双分支特征提取网络,从所述原图像中提取所述外观特征,从所述深度图像。
11、中提取所述深度特征。0017优选地,利用所述深度特征中的目标深度信息,增强对应所述外观特征中的目标位置信息,得到深度信息引导特征,包括:0018利用空间注意力操作所述外观特征与所述深度特征的空间重要性权重矩阵;0019利用所述深度特征中的目标深度信息,对所述空间重要性权重矩阵中所述外观特征的目标位置信息进行增强,得到所述深度信息引导特征。0020优选地,结合所述外观特征、所述深度特征和所述深度信息引导特征,确定目标检测结果,包括:0021将所述外观特征、所述深度特征和所述深度信息引导特征中,低分辨率特征与高分辨率特征进行特征聚合,得到所述聚合特征;0022利用所述聚合特征,确定所述目标检测结果。
12、。0023优选地,利用所述聚合特征,确定所述目标检测结果,包括:0024对所述聚合特征进行逐级上采样,并与上一阶段的聚合特征两两拼接,逐步恢复特征尺寸至所述原图像大小,得到所述目标检测结果。0025优选地,还包括:0026基于所述目标检测结果,输出分割好的视频目标掩模图像。0027一种目标检测装置,包括:0028输入处理模块,用于获取待检测的目标视频中各个原图像对应的深度图像;0029特征提取模块,用于从所述原图像中提取外观特征,从所述深度图像中提取深度特征;0030深度信息引导模块,用于利用所述深度特征中的目标深度信息,增强对应所述外观特征中的目标位置信息,得到深度信息引导特征;0031特征。
13、聚合模块和逐级上采样模块,用于结合所述外观特征、所述深度特征和所述深度信息引导特征,确定目标检测结果。0032一种电子设备,包括:0033存储器,用于存储计算机程序;0034处理器,用于执行所述计算机程序时实现上述目标检测方法的步骤。0035一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述目标检测方法的步骤。0036应用本申请实施例所提供的方法,获取待检测的目标视频中各个原图像对应的深度图像;从原图像中提取外观特征,从深度图像中提取深度特征;利用深度特征中的目标深度信息,增强对应外观特征中的目标位置信息,得到深度信息引导特征;结合外观特征、深度特征和深。
14、度信息引导特征,确定目标检测结果。0037在本申请中,在获取到待检测的视频之后,首先获取待检测的目标视频中各个原图像对应的深度图像。然后,再从原图像中提取外观特征,从深度图像中提取深度特征。伪装目标虽然可以在外观上与背景相似,但是其无法隐匿其身体在空间上的占位,即具有伪说明书2/11 页5CN 116612408 A5装目标的位置,其深度信息必然与常规背景构成区别。因而,在可利用深度特征中的目标深度信息,增强对应外观特征中的目标位置信息,得到深度信息引导特征。然后,在结合外观特征、深度特征和深度信息引导特征,确定目标检测结果。即,本申请,通过深度信息来弥补伪装目标外观难以从背景中区分的问题,从。
15、而能精确地把视频中的伪装目标从背景里检测出来,可提高伪装目标检测的可靠性。0038相应地,本申请实施例还提供了与上述目标检测方法相对应的目标检测装置、设备和可读存储介质,具有上述技术效果,在此不再赘述。附图说明0039为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。0040图1为本申请实施例中一种目标检测方法的实施流程图;0041图2为本申请实施例中一种基于视频伪装目标检测模型示意图;00。
16、42图3为本申请实施例中一种特征增强模块示意图;0043图4为本申请实施例中一种深度信息引导模块示意图;0044图5为本申请实施例中一种特征聚合模块示意图;0045图6为本申请实施例中一种逐级上采样模块示意图;0046图7为本申请实施例中一种目标检测装置的结构示意图;0047图8为本申请实施例中一种电子设备的结构示意图;0048图9为本申请实施例中一种电子设备的具体结构示意图。具体实施方式0049为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术。
17、人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。0050请参考图1,图1为本申请实施例中一种目标检测方法的流程图,该方法包括以下步骤:0051S101、获取待检测的目标视频中各个原图像对应的深度图像。0052目标视频可以为任意一个需要进行目标检测的视频,该视频可以是监控设备拍摄而来,也可以通过下载/接收等网络途径获得,也可以直接从存储设备中读取而得,本申请对目标视频的获取方式,其视频内容等均不做限定。0053在本申请中,将目标视频中各帧RGB图像称之为原图像,将通过原图像通过深度估算方法生成的对应图像,称之为深度图像。0054具体的,在本申请中,可以通过深度估算等。
18、方法,生成原图像对应的深度图像。例如,可以将目标视频中的各个原图像输入到深度估算模型中进行深度估算处理,即可得到对应的深度图像。在本申请实施例中对具体采用何种深度估算方法/模型并不做限定,仅需说明书3/11 页6CN 116612408 A6其能够获得原图像的深度图像即可。0055S102、从原图像中提取外观特征,从深度图像中提取深度特征。0056在提取特征时,不仅从原图像中提取外观特征,还从深度图像中提取深度特征。0057其中,外观特征可以具体为原图像的RGB特征,深度特征即表明原图像中的深度信息的特征。0058在本申请中,提取外观特征和深度特征,可以分别执行,也可以并行执行。例如,可以先从。
19、原图像中提取外观特征,再从深度图像中提取深度特征;也可以先从深度图像中提取深度特征,再从原图像中提取外观特征;还可以同时从原图像中提取外观特征,从深度图像中提取深度特征。0059提取特征所对应的特征提取网络可以参照常规的特征提取网络,例如,可采用卷积神经网络来提取特征,在此不再一一赘述。0060在本申请中的一种具体实施方式中,从原图像中提取外观特征,从深度图像中提取深度特征,包括:将原图像,及原图像的深度图像作为一组输入,利用双分支特征提取网络,从原图像中提取外观特征,从深度图像中提取深度特征。即,为了方便处理,可以将原图像和原图像的深度图像作为一组输入,然后基于双分支提取网络,分别提取出外观。
20、特征和深度特征。0061举例说明:可将视频RGB图像(即原图像)与对应的深度图像作为一组输入,分别输入两个特征提取分支,各经过四个阶段的特征提取,输出分辨率由高到低的外观特征:F1rgb,F2rgb,F3rgb,F4rgb,与深度特征:F1depth,F2depth,F3depth,F4depth。0062在本申请中的一种具体实施方式中,从原图像中提取外观特征,从深度图像中提取深度特征之后,还可以对外观特征和深度特征,进行通道信息增强处理和/或上下文语义增强处理。其中,和/或,即指可以仅针对外观特征和深度信息进行通道信息增强处理,也可以仅针对外观特征和深度信息进行上下文语义增强处理,还可以针对。
21、外观特征和深度信息进行通道信息增强处理和上下文语义增强处理。0063下面以通道信息增强处理和上下文语义增强处理对上述步骤进行详细说明。0064可构建如图3所示的特征增强模块(PEM),包括通道信息增强与上下文语义增强。将所提取的四组RGB特征Firgb与深度特征Fidepth分别输入四组特征增强模块,其中,i1,4。在特征增强模块中,首先,经过通道信息增强模块,根据各个特征的通道重要性权重,对特征的通道信息进行增强;再由上下文语义增强模块,经过并行的11、空洞率为6的33和空洞率为12的33尺寸的卷积核(conv)进行卷积操作对特征进行多尺度的提取,对特征的上下文语义进行增强,得到增强后的四组。
22、RGB特征Fire与深度特征Fide。0065进一步地,特征增强模块,该模块的作用是将双流特征骨干网络(双分支特征提取网络)得到的四组不同分辨率的外观特征F1rgb,F2rgb,F3rgb,F4rgb与深度特征F1depth,F2depth,F3depth,F4depth分别进行特征增强,具体过程为:0066步骤B1:将双流网络得到的第i阶段的外观特征Firgb分别作为输入,在通道层面进行增强,通过全局池化(GAP)与全连接(FC)操作后经过激活函数,得到通道重要性权重,再与Firgb点乘,得到增强后的特征当输入为深度特征Fidepth时,进行上述同样的操作。具体公式如下所示:说明书4/11 。
23、页7CN 116612408 A7006700680069其中,GAP表示全局池化操作,FC表示全连接操作,表示激活函数,为元素乘法操作,i1,4。0070步骤B2:经过并行的11、空洞率为6的33和空洞率为12的33尺寸卷积核进行卷积操作,对特征进行多尺度的提取,将特征的上下文语义进行增强,得到增强后的RGB特征Fire与深度特征Fide,具体公式为:007100720073其中,为元素乘法,concat为拼接,conv1、conv2与conv3分别为11、空洞率为6的33和空洞率为12的33尺寸的卷积。0074S103、利用深度特征中的目标深度信息,增强对应外观特征中的目标位置信息,得到深。
24、度信息引导特征。0075由于伪装目标无法隐匿实际身体,因而,其与真实背景在成像图像上,产生深度差异。例如,站立在雪地的北极狐,它是真实存在于雪地,虽然颜色与雪地接近,但是,光会从北极狐上反射回来,从而造成北极狐与雪地之间存在深度差异。因而,借助于此深度差异,可以辅助确定北极狐的位置。0076鉴于此,在本申请实施例中,将利用深度特征中的目标深度信息,增强对应外观特征中目标位置信息,从而得到深度信息引导特征。0077也就是说,基于深度特征中目标对应的目标深度信息,对外观特征中对应的目标位置信息进行增强,从而使得深度信息引导特征中,基于外观和深度同时指向目标。0078在本申请中的一种具体实施方式中,。
25、利用深度特征中的目标深度信息,增强对应外观特征中的目标位置信息,得到深度信息引导特征,包括:0079步骤一、利用空间注意力操作外观特征与深度特征的空间重要性权重矩阵;0080步骤二、利用深度特征中的目标深度信息,对空间重要性权重矩阵中外观特征的目标位置信息进行增强,得到深度信息引导特征。0081为便于描述,下面将上述两个步骤结合起来进行说明。0082其中,在计算机视觉中,能够把注意力聚集在图像重要区域,而丢弃掉不相关的方法被称注意力机制(Attention Mechanisms)。注意力机制,可以看作是对图像输入重要信息的动态选择过程。0083首先,基于空间注意力操作外观特征与深度特征的空间重。
26、要性权重矩阵;然后,利用深度特征中的目标深度信息,增强对空间重要性权重矩阵中外观特征的目标位置信息,从而得到深度信息引导特征。0084也就是说,在本申请实施例中,可利用深度特征中包含的深度信息,引导对视频RGB图像中的伪装目标进行检测。具体的,即将提取得到的外观特征与深度特征作为每个深度信息引导模块的输入;利用空间注意力操作得到外观特征与深度特征的空间重要性权重说明书5/11 页8CN 116612408 A8矩阵,利用深度特征中包含的目标深度信息不断增强外观特征中目标位置信息,得到深度信息引导的特征Fig(即深度信息引导特征)。0085具体的,可构建如图4所示的深度信息引导模块,该深度信息引。
27、导模块实现基于深度信息引导检测出伪装目标的位置。深度特征中包含伪装目标的深度信息,在外观难以区分伪装目标位置的情况下,该模块的作用是利用深度特征中包含的深度信息,引导检测出伪装目标的位置。具体过程为:0086步骤C1:对得到的四组RGB特征Fire与深度特征Fide,分别经过并行的平均池化与最大池化操作,再沿通道进行拼接,经过11卷积与激活函数,得到空间重要性权重矩阵Mirgb与Midepth,具体公式为:008700880089其中,表示激活函数,conv1表示11尺寸的卷积核,concat为拼接,AvgPool表示平均池化,MaxPool表示最大池化。0090步骤C2:对得到的四组特征Fi。
28、re与多尺度特征得到特征Fidepth沿通道维度进行拼接,与深度特征的空间重要性权重矩阵做元素乘法得到特征,将与RGB特征的空间重要性权重矩阵做元素乘法得到特征,再相加得到特征,具体公式为:00910092其中,concat表示拼接,表示元素乘法,表示元素加法。0093S104、结合外观特征、深度特征和深度信息引导特征,确定目标检测结果。0094得到了深度信息引导特征之后,便可结合外观特征、深度特征和深度信息引导特征,确定目标检测结果。由于该目标检测结果为基于结合外观特征、深度特征和深度信息引导特征而确定的,因而,该目标检测结果更为准确可靠。0095在本申请中的一种具体实施方式中,还基于目标检。
29、测结果,输出分割好的视频目标掩模图像。0096在本申请中的一种具体实施方式中,结合外观特征、深度特征和深度信息引导特征,确定目标检测结果,包括:0097步骤一、将外观特征、深度特征和深度信息引导特征中,低分辨率特征与高分辨率特征进行特征聚合,得到聚合特征;0098具体的,分辨率由高到低的特征Fig,i1,4,以F1g与F2g;F2g与F3g;F3g与F4g分组作为三个特征聚合模块(FAM)的输入;将低分辨率特征与高分辨率特征进行特征聚合,得到聚合后的特征Fia,i1,3。0099步骤二、利用聚合特征,确定目标检测结果。0100具体的,可对聚合特征进行逐级上采样,并与上一阶段的聚合特征两两拼接,。
30、逐步恢复特征尺寸至原图像大小,得到目标检测结果。0101逐级将所得聚合特征Fia上采样,并与前一阶段聚合特征Fi1a两两拼接,逐步恢复特征尺寸至原始图像大小,最终得到与原始分辨率相同的输出,i1,3。0102进一步地,可创建如图5所示的特征聚合模块,该模块的作用是将包含丰富语义信说明书6/11 页9CN 116612408 A9息的低分辨率特征与包含丰富外观、纹理信息的高分辨率特征进行聚合。首先,特征聚合模块将低分辨率特征Fig经过11卷积后上采样,与经过11卷积的高分辨率特征Fi1g进行元素乘法,得到特征具体公式为:01030104其中,conv1表示11尺寸的卷积核,为元素乘法,Upsam。
31、ple为上采样。0105再将特征Fi1g、与Fig进行拼接后经过卷积,具体公式为:01060107其中,concat表示拼接,conv1表示11尺寸的卷积。0108进一步地,可构建如图6所示逐级上采样模块(或称级联上采样模块),逐级上采样模块将得到的聚合特征Fia上采样,与前一阶段聚合特征Fi1a两两拼接得到特征Oi1,逐步恢复特征尺寸至原始图像大小,最终得到与原始分辨率相同的输出;最终输出分割好的视频目标掩模图像,具体公式为:0109Oi1conv1(concat(upsample(Fia),Fi1a),0110其中,upsample()表示上采样,concat()表示拼接。0111应用本申。
32、请实施例所提供的方法,获取待检测的目标视频中各个原图像对应的深度图像;从原图像中提取外观特征,从深度图像中提取深度特征;利用深度特征中的目标深度信息,增强对应外观特征中的目标位置信息,得到深度信息引导特征;结合外观特征、深度特征和深度信息引导特征,确定目标检测结果。0112在本申请中,在获取到待检测的视频之后,首先获取待检测的目标视频中各个原图像对应的深度图像。然后,再从原图像中提取外观特征,从深度图像中提取深度特征。伪装目标虽然可以在外观上与背景相似,但是其无法隐匿其身体在空间上的占位,即具有伪装目标的位置,其深度信息必然与常规背景构成区别。因而,在可利用深度特征中的目标深度信息,增强对应外。
33、观特征中的目标位置信息,得到深度信息引导特征。然后,在结合外观特征、深度特征和深度信息引导特征,确定目标检测结果。即,本申请,通过深度信息来弥补伪装目标外观难以从背景中区分的问题,从而能精确地把视频中的伪装目标从背景里检测出来,可提高伪装目标检测的可靠性。0113为便于本领域技术人员,更好地理解本申请实施例所提供的目标检测方法,下面结合具体应用场景为例,对目标检测方法进行详细说明。0114在实际应用中,基于上述目标检测方法,构建并训练一个视频伪装目标检测模型,从而使得该模型能够对视频进行结合了深度信息的目标检测,提升检测可靠性。0115具体的,该模型的整体架构可参考图2,图2为本申请实施例中一。
34、种基于视频伪装目标检测模型示意图。0116首先,获取包含目标二值掩膜(同掩模)的视频伪装目标数据集,将视频的各帧RGB图像通过深度估计方法生成对应的深度图像。其次,执行以下步骤A至步骤F,获得搭建好的视频伪装目标检测模型。最后,应用该视频伪装目标检测模型,获得视频伪装目标的检测结果。0117步骤A:构建包括四个阶段的双分支特征提取网络。将视频RGB图像与对应的深度说明书7/11 页10CN 116612408 A10图像作为一组输入,分别输入两个特征提取分支,各经过四个阶段的特征提取,输出分辨率由高到低的外观特征F1rgb,F2rgb,F3rgb,F4rgb与深度特征F1depth,F2dep。
35、th,F3depth,F4depth。0118步骤B:构建特征增强模块(如图3所示),包括通道信息增强与上下文语义增强。将步骤A输出的四组RGB特征Firgb与深度特征Fidepth分别输入四组特征增强模块,其中,i1,4。在特征增强模块中,首先,经过通道信息增强模块,根据各个特征的通道重要性权重,对特征的通道信息进行增强;再由上下文语义增强模块,经过并行的11、空洞率为6的33和空洞率为12的33尺寸的卷积核进行卷积操作对特征进行多尺度的提取,对特征的上下文语义进行增强,得到增强后的四组RGB特征Fire与深度特征Fide。0119即,该特征增强模块,采用残差结构,将多尺寸卷积并联提取特征。。
36、具体的,对于步骤B的细化步骤,可参照上述步骤B1、步骤B2,在此不再一一赘述。0120步骤C:构建深度信息引导模块(DGM)(如图4所示),利用深度特征中包含的深度信息,引导模型对视频RGB图像中的伪装目标进行检测。在深度信息引导模块中,将步骤B得到的四组RGB特征Fire与深度特征Fide作为每个深度信息引导模块的输入,其中,i1,4;利用空间注意力操作得到RGB特征Fire与深度特征Fide的空间重要性权重矩阵,利用深度特征Fide中包含的目标深度信息不断增强RGB特征中目标位置信息,得到深度信息引导的特征Fig。0121即,该特征增强模块,采用残差结构,将多尺寸卷积并联提取特征。0122。
37、具体的,对于步骤C的细化步骤,可参照上述步骤C1、步骤C2,在此不再一一赘述。0123步骤D:构建特征聚合模块(如图5所示),该特征聚合模块以步骤C得到的分辨率由高到低的特征Fig,i1,4,以F1g与F2g;F2g与F3g;F3g与F4g分组作为三个特征聚合模块的输入;将低分辨率特征与高分辨率特征进行特征聚合,得到聚合后的特征Fia,i1,3。0124具体的,对于步骤D的细化步骤,可参照上述特征聚合的相关描述,在此不再一一赘述。0125步骤E:构建逐级上采样模块(LUM)(如图6所示),该逐级上采样模块逐级将步骤D得到的聚合特征Fia上采样,与前一阶段聚合特征Fi1a两两拼接,逐步恢复特征尺。
38、寸至原始图像大小,最终得到与原始分辨率相同的输出,i1,3。0126具体的,对于步骤E的细化步骤,可参照上述特征上采样的相关描述,在此不再一一赘述。0127步骤F:根据步骤A至步骤E构建完整的视频伪装目标检测模型,以视频RGB图像与对应的深度图像作为一组输入,视频图像中的伪装目标检测二值掩模为输出进行训练,最终得到训练好的视频伪装目标检测模型。0128经试验验证,采用本申请实施例所提供的目标检测方法,获得的部分示例的检测结果可视化,从结果图中可看出北极狐、鼹鼠、枯叶蝶、猎豹等伪装目标物体从视频图像帧中分割出来。0129相应于上面的方法实施例,本申请实施例还提供了一种目标检测装置,下文描述的目标。
39、检测装置与上文描述的目标检测方法可相互对应参照。0130参见图7所示,该装置包括以下模块:0131输入处理模块101,用于获取待检测的目标视频中各个原图像对应的深度图像;0132特征提取模块102,用于从原图像中提取外观特征,从深度图像中提取深度特征;说明书8/11 页11CN 116612408 A110133深度信息引导模块103,用于利用深度特征中的目标深度信息,增强对应外观特征中的目标位置信息,得到深度信息引导特征;0134特征聚合模块104和逐级上采样模块105,用于结合外观特征、深度特征和深度信息引导特征,确定目标检测结果。0135应用本申请实施例所提供的装置,获取待检测的目标视频。
40、中各个原图像对应的深度图像;从原图像中提取外观特征,从深度图像中提取深度特征;利用深度特征中的目标深度信息,增强对应外观特征中的目标位置信息,得到深度信息引导特征;结合外观特征、深度特征和深度信息引导特征,确定目标检测结果。0136在本申请中,在获取到待检测的视频之后,首先获取待检测的目标视频中各个原图像对应的深度图像。然后,再从原图像中提取外观特征,从深度图像中提取深度特征。伪装目标虽然可以在外观上与背景相似,但是其无法隐匿其身体在空间上的占位,即具有伪装目标的位置,其深度信息必然与常规背景构成区别。因而,在可利用深度特征中的目标深度信息,增强对应外观特征中的目标位置信息,得到深度信息引导特。
41、征。然后,在结合外观特征、深度特征和深度信息引导特征,确定目标检测结果。即,本申请,通过深度信息来弥补伪装目标外观难以从背景中区分的问题,从而能精确地把视频中的伪装目标从背景里检测出来,可提高伪装目标检测的可靠性。0137在本申请的一种具体实施方式中,特征增强模块,用于从原图像中提取外观特征,从深度图像中提取深度特征之后,对外观特征和深度特征,进行通道信息增强处理和/或上下文语义增强处理。0138在本申请的一种具体实施方式中,特征提取模块102,具体用于将原图像,及原图像的深度图像作为一组输入,利用双分支特征提取网络,从原图像中提取外观特征,从深度图像中提取深度特征。0139在本申请的一种具体。
42、实施方式中,深度信息引导模块103,具体用于利用空间注意力操作外观特征与深度特征的空间重要性权重矩阵;0140利用深度特征中的目标深度信息,对空间重要性权重矩阵中外观特征的目标位置信息进行增强,得到深度信息引导特征。0141在本申请的一种具体实施方式中,特征聚合模块104,具体用于将外观特征、深度特征和深度信息引导特征中,低分辨率特征与高分辨率特征进行特征聚合,得到聚合特征;0142逐级上采样模块105,具体用于利用聚合特征,确定目标检测结果。0143在本申请的一种具体实施方式中,逐级上采样模块105,具体用于对聚合特征进行逐级上采样,并与上一阶段的聚合特征两两拼接,逐步恢复特征尺寸至原图像大。
43、小,得到目标检测结果。0144在本申请的一种具体实施方式中,还包括:0145结果输出模块,用于基于目标检测结果,输出分割好的视频目标掩模图像。0146相应于上面的方法实施例,本申请实施例还提供了一种电子设备,下文描述的一种电子设备与上文描述的一种目标检测方法可相互对应参照。0147参见图8所示,该电子设备包括:0148存储器332,用于存储计算机程序;0149处理器322,用于执行计算机程序时实现上述方法实施例的目标检测方法的步骤。说明书9/11 页12CN 116612408 A120150具体的,请参考图9,图9为本实施例提供的一种电子设备的具体结构示意图,该电子设备可因配置或性能不同而产。
44、生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,存储器332存储有一个或一个以上的计算机程序342或数据344。其中,存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,处理器322可以设置为与存储器332通信,在电子设备301上执行存储器332中的一系列指令操作。0151电子设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上。
45、输入输出接口358,和/或,一个或一个以上操作系统341。0152上文所描述的目标检测方法中的步骤可以由电子设备的结构实现。0153相应于上面的方法实施例,本申请实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种目标检测方法可相互对应参照。0154一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的目标检测方法的步骤。0155该可读存储介质具体可以为U盘、移动硬盘、只读存储器(ReadOnly Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介。
46、质。0156本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。0157本领域技术人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应。
47、用来使用不同方法来实现所描述的功能,但是这种实现不应该认为超出本申请的范围。0158结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CDROM、或技术领域内所公知的任意其它形式的存储介质中。0159最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语包括、包含或者其。
48、他任何变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。0160本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据说明书10/11 页13CN 116612408 A13本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。说明书11/11 页14CN 116612408 A14图1图2说明书附图1/5 页15CN 116612408 A15图3图4说明书附图2/5 页16CN 116612408 A16图5图6说明书附图3/5 页17CN 116612408 A17图7图8说明书附图4/5 页18CN 116612408 A18图9说明书附图5/5 页19CN 116612408 A19。
- 内容关键字: 目标 检测 方法 装置 设备 可读 存储 介质
链接地址:https://www.zhuanlichaxun.net/pdf/14330111.html