1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202310505743.3(22)申请日 2023.05.06(71)申请人 重庆理工大学地址 400054 重庆市巴南区红光大道69号(72)发明人 王勇康洪菠吴豆豆刘鹏(74)专利代理机构 成都东唐智宏专利代理事务所(普通合伙)51261专利代理师 晏辉(51)Int.Cl.G06T 17/00(2006.01)G06N 3/0455(2023.01)G06N 3/049(2023.01)G06N 3/08(2023.01)G06T 19/20(2011.01)(54)发明名称基于全局和局部
2、时空编码器的3D人体姿态估计方法(57)摘要本发明公开了基于全局和局部时空编码器的3D人体姿态估计方法,涉及3D人体姿态估计技术领域。本发明采用全局和局部时空编码器的配合设计,用于从单目视频中提取3D人体姿态,并通过局部时空编码器包括全局空间编码器、全局时间编码器、局部时空编码器和时间聚合器四个模块,能够提取全局和局部时空特征,实现对人体姿态的时间序列的建模和聚合,并通过在局部时空编码器中,加入时空注意力模块,该模块将空间和时间注意力进行并联,并且权重共享,用于建模局部时空相关性,通过这种方式,能够更好地捕捉关节的局部时空信息,提高姿态估计的准确性,配合时空注意力融合模块,将空间和时间注意力进
3、行融合,得到更加全面和准确的时空信息。权利要求书4页 说明书12页 附图3页CN 116612238 A2023.08.18CN 116612238 A1.基于全局和局部时空编码器的3D人体姿态估计方法,其特征在于:包括全局空间编码器,所述全局空间编码器用于将每一帧人体所有关节的空间信息融合,通过全连通残差网络对单个姿态的空间信息进行建模,从2D姿态中学习足够的空间信息,并映射到更高的维度;全局时间编码器,所述全局时间编码器用于弥补全局空间编码器整个序列的时间信息缺失;局部时空编码器,所述局部时空编码器用于模拟局部帧中每个关节的时空相关性;所述局部时空编码器包括用于模拟局部时空相关性的多头时空
4、自注意力机制模块;所述多头时空自注意力机制模块包括空间注意Attns和时间注意Attnt;所述局部时空编码器还包括时空注意融合模块,所述时空注意融合模块用于更好地整合空间注意Attns和时间注意Attnt的两个分支信息,从而完成对空间注意Attns和时间注意Attnt的两个分支信息的融合所述局部时空编码器还包括LSTE的网络结构;时间聚合器,所述时间聚合器用于从整个序列中回归出单个帧的任务,以更好地回归中间帧的三维姿态并聚合局部信息;全局到局部块,所述全局到局部块用于将全局空间编码器和全局时间编码器直接作用于局部时空编码器和时间聚合器。2.根据权利要求1所述的基于全局和局部时空编码器的3D人体
5、姿态估计方法,其特征在于:所述全局空间编码器将2D人体姿态序列PRTN2的每一帧中的所有关节的二维坐标合并为输入并通过全局空间编码器的线性层,将每个帧的空间信息嵌入到高维特征其中dg是全局模块的中间维度,以获得一组潜在特征作为全局时间编码器的输入,每个帧的特征被视为单独的标记。3.根据权利要求2所述的基于全局和局部时空编码器的3D人体姿态估计方法,其特征在于:所述全局时间编码器为Transformer编码器,由层组成;可学习的时间位置嵌入在编码器第一层之前使用,公式如下:全局时间编码器应用于输入以获得输出如下:其中LN()是层归一化;上述公式可用函数GTE()表示,如下所示:4.根据权利要求3
6、所述的基于全局和局部时空编码器的3D人体姿态估计方法,其特征在于:权利要求书1/4 页2CN 116612238 A2所述多头时空自注意力机制模块包括三个映射的可学习矩阵Q、K和V;为空间注意Attns和时间注意Attnt事项所共有;Qs,Ks,Vs是通过交换空间和时间维度获得的;Qt,Kt,Vt是通过将完整序列T划分为具有局部帧数 的S个序列获得的,如下所示:空间注意Attns用于模拟单个帧中每个关节之间的空间关系,时间注意Attnt用于模拟局部T帧中相同关节之间的时间关系;ATTns和Attnt的表述如下:Attns(QK,V)Reshape(Attention(Qs,ks,Vs)Attn
7、t(Q,K,V)Concat(Attention(Qt,Kt,Vt)其中Attention()是Transformer的自注意力机制,空间注意Attns和时间注意Attnt的注意力图形状分别为TNN和当MSAST有h个注意力头,MSAST操作通过连接所有注意力头来实现,如下所示:其中i1,2,.,h,是一个可学习矩阵,是时空注意力融合模块(STAF),分别是Attns()和Attnt()的第i个头。5.根据权利要求4所述的基于全局和局部时空编码器的3D人体姿态估计方法,其特征在于:所述时空注意融合模块中,在特征通道拼接空间注意Attns和时间注意Attnt,得到的维度是通过平均池化操作和最大池
8、化操作来压缩输入特性的时间维度;此过程生成两个尺寸为的特征,并将平均特征和最大特征相加;最后,特征通过全连接网络和sigmoid运算以产生权重对于空间注意Attns和时间注意Attnt的融合定义如下:fcatConcat(Attns,Attnt)favg+maxFC(AvgPool(fcat)+MaxPool(fcat)s .:0,t .:1权利要求书2/4 页3CN 116612238 A36.根据权利要求5所述的基于全局和局部时空编码器的3D人体姿态估计方法,其特征在于:LSTE的网络结构的输入Z1通过全局到局部模块获得,可学习的空间位置嵌入矩阵在本地时空编码器的第一层之前使用,其公式如下
9、:通过将局部时空编码器和时间聚合器组合来对局部特征建模,并由层组成;每个层的时间维度都会发生变化,因此模型在每一层之前都需进行时间位置嵌入,第一 层时 间 位 置 嵌 入 为此 过 程 从 输 入以 获 得 输 出的表示如下:其中TA()是时间聚集器,是第n层中的局部帧数,表示在第n层之前嵌入的时间位置。上述公式可表示如下:7.根据权利要求6所述的基于全局和局部时空编码器的3D人体姿态估计方法,其特征在于:所述全局到局部块处理全局特征全局到局部块通过投影和拆分实现全局到局部的操作,其定义如下:通过交换2D姿态序列P的时空通道,得到局部模型的输入XRNT2嵌入;局部嵌入模块通过线性投影将每个节点
10、的二维特征映射到更高维度dl;通过结合来指导全局到局部块从全局到局部的投影,定义如下:其中,xi,j表示X的第j帧的第i个节点是局部嵌入的参数矩阵。8.根据权利要求7所述的基于全局和局部时空编码器的3D人体姿态估计方法,其特征在于:所述时间聚合器通过1D卷积分别聚合每个节点的时间信息,输入的时间序列从T变为S,其中T和S分别表示当前层的完整序列数和当前层被分割后的序列数,表示为函数是当前层中分割序列的局部帧数,与LSTE的网络结构结合使用。9.根据权利要求8所述的基于全局和局部时空编码器的3D人体姿态估计方法,其特征在于:至少包括以下步骤:权利要求书3/4 页4CN 116612238 A4进
11、行预训练阶段,对全局空间编码器和全局时间编码器进行优化,使得全局空间编码器和全局时间编码器进行优化后通过重建随机遮掩部分帧和部分2D关节的受损2D姿态来学习2D关节的时空相关性和固有的全局特征,为模型提供了良好的初始化;在微调阶段,将预训练阶段训练好的权重加载到全局空间编码器和全局时间编码器中,然后对整个模型进行训练,并输出全序列尺度和单目标帧尺度下的三维关节位置;采用全局时空编码器和局部时空编码器的配合,全局时空编码器和局部时空编码器的输入为时间下采样策略之后的2D姿态序列,输出为全序列和单目标帧尺度下的3D关节位置;通过采用全局空间编码器获得所有关节的空间信息,通过全局时间编码器获得所有帧
12、的时间信息,从而获得全局特征;通过局部时空编码器获得局部帧中每个关节的时空信息,并通过时间聚合器聚合得到新的局部特征。10.根据权利要求9所述的基于全局和局部时空编码器的3D人体姿态估计方法,其特征在于:所述预训练阶段和微调阶段的2D姿态输入都采用了时间下采样策略TDS,从而缓解数据冗余并扩大时间感受野。权利要求书4/4 页5CN 116612238 A5基于全局和局部时空编码器的3D人体姿态估计方法技术领域0001本发明涉及3D人体姿态估计技术领域,具体为基于全局和局部时空编码器的3D人体姿态估计方法。背景技术0002随着计算机技术的发展,人机交互技术正在不断更新换代。基于视觉的人机交互技术
13、通过捕捉识别身体语言,为人们提供了更加灵活便捷的人机交互方式,成为了人工智能与自然人机交互领域的研究热点。三维人体姿态估计技术的目标,是以传感器采集的数据为输入,获取三维空间中人体的形状与动作。使用相机作为传感器并结合基于深度学习的三维人体姿态估计技术,可以高效、精确地捕捉识别人体动作与肢体语言,并且该技术目前已在多个领域获得了广泛的应用,例如虚拟现实领域,医疗康复领域,自动驾驶领域等等。但同时,3DHPE面临着更多的挑战,一方面,受数据采集难度的限制,目前大多数方法都是基于单目图像或视频的,而从2D图像到3D姿态的映射本就是一个多解问题。另一方面,深度学习算法依赖于大量的训练数据,但由于3D
14、姿态标注的难度和成本都比较高,目前的主流数据集基本都是在实验室环境下采集的,这势必会影响到算法在户外数据上的泛化性能。0003现有技术存在以下不足:0004(1)PoseFormer使用Transformer的自我注意机制来描述每个帧中关节之间的空间依赖性和序列中帧之间的时间依赖性。然而,由于视频中相邻帧中人体姿态的相似性,整个时间序列中存在大量冗余信息,需要大量计算资源。此外,PoseFormer忽略了局部上下文,但在计算机视觉任务中使用局部信息至关重要。0005(2)Strided Transformer提出通过普通的Transformer编码器架构对人体所有关节的长期依赖关系(全局时间相
15、关性)进行建模,然后通过Strided Transformer编码器对时序上下文信息进行建模,逐渐缩短序列长度。但是,它们只通过单个线性层获取空间信息,而这一层的表示能力不足。0006(3)PSTMO通过MLP块在单个帧中捕获所有关节的全局空间信息。同时,采用时间下采样策略和预训练技术,降低了模型的训练难度。该方法对人体所有关节的时间相关性建模,并没有考虑人体每个关节的运动差异,导致对局部时空相关性的学习不足。0007因此需要对以上问题提出一种新的解决方案,从而申请人提出了一种全局和局部时空编码器来建模时空相关性,具体而言,构建了全局空间编码器和全局时间编码器,以分别捕获单个帧中所有关节的全局
16、空间信息和所有帧的全局时间信息,构造了一个局部时空编码器来捕获局部N帧中每个关节的时空信息,此外,本发明提出了一个具有权重共享的并行注意模块,以更好地将空间和时间信息同时合并到每个节点中,申请人认为模拟全局和局部时空相关性的模型更适合视频中的2D到3D提升任务。说明书1/12 页6CN 116612238 A6发明内容0008本发明的目的在于提供基于全局和局部时空编码器的3D人体姿态估计方法,以解决背景技术中提出的技术问题。0009为实现上述目的,本发明提供如下技术方案:基于全局和局部时空编码器的3D人体姿态估计方法,包括全局空间编码器,所述全局空间编码器用于将每一帧人体所有关节的空间信息融合
17、,通过全连通残差网络对单个姿态的空间信息进行建模,从2D姿态中学习足够的空间信息,并映射到更高的维度;0010全局时间编码器,所述全局时间编码器用于弥补全局空间编码器整个序列的时间信息缺失;0011局部时空编码器,所述局部时空编码器用于模拟局部帧中每个关节的时空相关性;0012所述局部时空编码器包括用于模拟局部时空相关性的多头时空自注意力机制模块;0013所述多头时空自注意力机制模块包括空间注意Attns和时间注意Attnt;0014所述局部时空编码器还包括时空注意融合模块,所述时空注意融合模块用于更好地整合空间注意Attns和时间注意Attnt的两个分支信息,从而完成对空间注意Attns和时
18、间注意Attnt的两个分支信息的融合0015所述局部时空编码器还包括LSTE的网络结构;0016时间聚合器,所述时间聚合器用于从整个序列中回归出单个帧的任务,以更好地回归中间帧的三维姿态并聚合局部信息;0017全局到局部块,所述全局到局部块用于将全局空间编码器和全局时间编码器直接作用于局部时空编码器和时间聚合器。0018优选的,所述全局空间编码器将2D人体姿态序列PRTN2的每一帧中的所有关节的二维坐标合并为输入并通过全局空间编码器的线性层,将每个帧的空间信息嵌入到高维特征其中dg是全局模块的中间维度,以获得一组潜在特征作为全局时间编码器的输入,每个帧的特征被视为单独的标记。0019优选的,所
19、述全局时间编码器为Transformer编码器,由层组成;0020可学习的时间位置嵌入在编码器第一层之前使用,公式如下:00210022全局时间编码器应用于输入以获得输出如下:002300240025其中LN()是层归一化;0026上述公式可用函数GTE()表示,如下所示:说明书2/12 页7CN 116612238 A700270028优选的,所述多头时空自注意力机制模块包括三个映射的可学习矩阵Q、K和V;0029为空间注意Attns和时间注意Attnt事项所共有;0030Qs,Ks,Vs是通过交换空间和时间维度获得的;0031Qt,Kt,Vt是通过将完整序列T划分为具有局部帧数的S个序列获
20、得的,如下所示:003200330034空间注意Attns用于模拟单个帧中每个关节之间的空间关系,时间注意Attnt用于模拟局部T帧中相同关节之间的时间关系;0035Attns和Attnt的表述如下:0036Attns(QK,V)Reshape(Attention(Qs,Ks,Vs)0037Attnt(Q,K,V)Concat(Attention(Qt,Kt,Vt)0038其中Attention()是Transformer的自注意力机制,空间注意Attns和时间注意Attnt的注意力图形状分别为TNN和0039当MSAST有h个注意力头,MSAST操作通过连接所有注意力头来实现,如下所示:00
21、400041其中i1,2,h,是一个可学习矩阵,是时空注意力融合模块(STAF),分别是Attns()和Attnt()的第i个头。0042优选的,所述时空注意融合模块中,在特征通道拼接空间注意Attns和时间注意Attnt,得到的维度是0043通过平均池化操作和最大池化操作来压缩输入特性的时间维度;0044此过程生成两个尺寸为的特征,并将平均特征和最大特征相加;0045最后,特征通过全连接网络和sigmoid运算以产生权重 s,t0046对于空间注意Attns和时间注意Attnt的融合定义如下:0047fcatConcat(Attns,Attnt)0048favg+maxFC(AvgPool(
22、fcat)+MaxPool(fcat)00490050 Sigmoid(favg+max)0051s :0,t :100520053优选的,所述LSTE的网络结构的输入Z1通过全局到局部模块获得,可学习的空间位置嵌入矩阵在本地时空编码器的第一层之前使用,其公式如下:说明书3/12 页8CN 116612238 A800540055通过将局部时空编码器和时间聚合器组合来对局部特征建模,并由层组成;0056每个层的时间维度都会发生变化,因此模型在每一层之前都需进行时间位置嵌入,第一层时间位置嵌入为此过程从输入以获得输出的表示如下:00570058005900600061其中TA()是时间聚集器,是
23、第n层中的局部帧数,表示在第n层之前嵌入的时间位置。上述公式可表示如下:00620063优选的,所述全局到局部块处理全局特征全局到局部块通过投影和拆分实现全局到局部的操作,其定义如下:00640065通过交换2D姿态序列P的时空通道,得到局部模型的输入XRNT2嵌入;0066局部嵌入模块通过线性投影将每个节点的二维特征映射到更高维度dl;0067通过结合来指导全局到局部块从全局到局部的投影,定义如下:00680069其中,xi,j表示X的第j帧的第i个节点是局部嵌入的参数矩阵。0070优选的,所述时间聚合器通过1D卷积分别聚合每个节点的时间信息,输入的时间序列从T变为S,其中T和S分别表示当前
24、层的完整序列数和当前层被分割后的序列数,表示为函数是当前层中分割序列的局部帧数,与LSTE的网络结构结合使用;0071通过在训练期间从全局时间编码器的输出中添加一个回归头来施加额外的时间平滑约束,并获得全序列预测输出YgRT(N3),将回归头添加到LSTE的网络结构的输出中,以获得预测输出YlRN3;0072采用序列损失来最小化预测结果和真实结果之间的误差:0073说明书4/12 页9CN 116612238 A90074其中Pi,j和分别表示第j帧关节i的真实和估计的3D位置序列;0075假设LSTE的网络结构对局部帧进行建模,时间聚合器聚合时间信息以最终获得中间帧的特征,采用标准的每关节位
25、置误差平均值损失,以最小化预测姿态和真实姿态之间的误差,如下所示:00760077其中Pi和Yi分别是当前姿态中第i个关节的真实和估计的3D位置;0078网络以端到端的方式进行训练,最终损失函数 定义为:00790080其中 g和 l是加权因子。0081进行预训练阶段,对全局空间编码器和全局时间编码器进行优化,使得全局空间编码器和全局时间编码器进行优化后通过重建随机遮掩部分帧和部分2D关节的受损2D姿态来学习2D关节的时空相关性和固有的全局特征,为模型提供了良好的初始化;0082在微调阶段,将预训练阶段训练好的权重加载到全局空间编码器和全局时间编码器中,然后对整个模型进行训练,并输出全序列尺度
26、和单目标帧尺度下的三维关节位置;0083采用全局时空编码器和局部时空编码器的配合,全局时空编码器和局部时空编码器的输入为时间下采样策略之后的2D姿态序列,输出为全序列和单目标帧尺度下的3D关节位置;0084通过采用全局空间编码器获得所有关节的空间信息,通过全局时间编码器获得所有帧的时间信息,从而获得全局特征;0085通过局部时空编码器获得局部帧中每个关节的时空信息,并通过时间聚合器聚合得到新的局部特征。0086所述预训练阶段和微调阶段的2D姿态输入都采用了时间下采样策略TDS,从而缓解数据冗余并扩大时间感受野。0087与现有技术相比,本发明的有益效果是:00881、本发明采用全局和局部时空编码
27、器的配合设计,用于从单目视频中提取3D人体姿态,并通过局部时空编码器包括全局空间编码器、全局时间编码器、局部时空编码器和时间聚合器四个模块,能够提取全局和局部时空特征,实现对人体姿态的时间序列的建模和聚合;00892、本发明通过在局部时空编码器中,加入时空注意力模块,该模块将空间和时间注意力进行并联,并且权重共享,用于建模局部时空相关性,通过这种方式,能够更好地捕捉关节的局部时空信息,提高姿态估计的准确性,配合时空注意力融合模块,将空间和时间注意力进行融合,得到更加全面和准确的时空信息;00903、本发明通过进行两阶段的训练,在预训练阶段,主要对全局模块中的GSE和GTE进行优化,通过重建随机
28、遮掩部分帧和部分2D关节的受损2D姿态来学习2D关节的时空相关性和固有的全局特征,为模型提供了良好的初始化,在微调阶段,将预先训练好的权重加载到GSE和GTE中,然后对整个模型进行训练,并输出全序列尺度和单目标帧尺度下的三维关说明书5/12 页10CN 116612238 A10节位置,且两个阶段的2D姿态输入都采用了时间下采样策略附图说明0091为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。0092图1为本发
29、明整体流程图;0093图2为本发明用于3D姿态估计的GLSTE实例图;0094图3为本发明由全球时间编码器中的多头自我注意和本地时空编码器中的多头时空自我注意组成的示意图;0095图4为本发明时空注意力融合模块的示意图;0096图5为本发明Human3.6M测试中不同输入帧下的MPJPE度量比较的示意图;0097图6为本发明GLSTE与人类3.6M上的拍照、坐和坐下动作的定性比较的示意图。具体实施方式0098下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。0099实施例一:0100请参阅图14,基
30、于全局和局部时空编码器的3D人体姿态估计方法,包括全局空间编码器,全局空间编码器用于将每一帧人体所有关节的空间信息融合,通过全连通残差网络对单个姿态的空间信息进行建模,从2D姿态中学习足够的空间信息,并映射到更高的维度,见图3(a);0101全局时间编码器,全局时间编码器用于弥补全局空间编码器整个序列的时间信息缺失,如图3中的(b)所示;0102人体不同关节的运动是不同的,且相同的关节在局部几帧中运动更为明显,为此,采用局部时空编码器,局部时空编码器用于模拟局部帧中每个关节的时空相关性;0103局部时空编码器包括用于模拟局部时空相关性的多头时空自注意力机制模块;0104多头时空自注意力机制模块
31、包括空间注意Attns和时间注意Attnt;0105局部时空编码器还包括时空注意融合模块,时空注意融合模块用于更好地整合空间注意Attns和时间注意Attnt的两个分支信息,从而完成对空间注意Attns和时间注意Attnt的两个分支信息的融合0106局部时空编码器还包括LSTE的网络结构;0107时间聚合器,时间聚合器用于从整个序列中回归出单个帧的任务,以更好地回归中间帧的三维姿态并聚合局部信息;0108全局到局部块,全局到局部块用于将全局空间编码器和全局时间编码器直接作用于局部时空编码器和时间聚合器。0109全局空间编码器将2D人体姿态序列PRTN2的每一帧中的所有关节的二维坐标合并为输入并
32、通过全局空间编码器的线性层,将每个帧的空间信息嵌入到说明书6/12 页11CN 116612238 A11高维特征其中dg是全局模块的中间维度,以获得一组潜在特征作为全局时间编码器的输入,每个帧的特征被视为单独的标记。0110全局时间编码器为Transformer编码器,由层组成;0111可学习的时间位置嵌入在编码器第一层之前使用,公式如下:01120113全局时间编码器应用于输入以获得输出如下:011401150116其中LN()是层归一化,全局时间编码器中的MSA如图3中的(a)所示,其注意力矩阵为TT;0117上述公式可用函数GTE()表示,如下所示:01180119多头时空自注意力机制
33、模块包括三个映射的可学习矩阵Q、K和V;0120为空间注意Attns和时间注意Attnt事项所共有;0121Qs,Ks,Vs是通过交换空间和时间维度获得的;0122Qt,Kt,Vt是通过将完整序列T划分为具有局部帧数 的S个序列获得的,如下所示:012301240125空间注意Attns用于模拟单个帧中每个关节之间的空间关系,时间注意Attnt用于模拟局部T帧中相同关节之间的时间关系;0126Attns和Attnt的表述如下:0127Attns(QK,V)Reshape(Attention(Qs,Ks,Vs)0128Attnt(Q,K,V)Concat(Attention(Qt,Kt,Vt)0
34、129其中Attention()是Transformer的自注意力机制,空间注意Attns和时间注意Attnt的注意力图形状分别为TNN和0130当MSAST有h个注意力头,MSAST操作通过连接所有注意力头来实现,如下所示:01310132其中i1,2,h,是一个可学习矩阵,是时空注意力融合模块(STAF),分别是Attns()和Attnt()的第i个头。0133时空注意融合模块中,如图4所示。在特征通道拼接空间注意Attns和时间注意Attnt,得到的维度是说明书7/12 页12CN 116612238 A120134通过平均池化操作和最大池化操作来压缩输入特性的时间维度;0135此过程生
35、成两个尺寸为的特征,并将平均特征和最大特征相加;0136最后,特征通过全连接网络和sigmoid运算以产生权重 s,t0137对于空间注意Attns和时间注意Attnt的融合定义如下:0138fcatConcat(Attns,Attnt)0139favg+maxFC(avgPool(fcat)+MaxPool(fcat)01400141 Sigmoid(favg+max)0142s :0,t :101430144LSTE的网络结构的输入Z1通过全局到局部模块获得,可学习的空间位置嵌入矩阵在本地时空编码器的第一层之前使用,其公式如下:01450146LSTE的网络结构通过将局部时空编码器和时间聚
36、合器组合来对局部特征建模,并由层组成;0147每个层的时间维度都会发生变化,因此模型在每一层之前都需进行时间位置嵌入,第一层时间位置嵌入为此过程从输入以获得输出的表示如下:01480149015001510152其中TA()是时间聚集器,是第n层中的局部帧数,表示在第n层之前嵌入的时间位置。上述公式可表示如下:01530154全局到局部块处理全局特征鉴于全局特征是合并所有节点的特征,局部特征是单个节点的特征,全局到局部块通过投影和拆分实现全局到局部的操作,其定义如下:01550156通过交换2D姿态序列P的时空通道,得到局部模型的输入XRNT2嵌入;说明书8/12 页13CN 11661223
37、8 A130157局部嵌入模块通过线性投影将每个节点的二维特征映射到更高维度dl;0158通过结合来指导全局到局部块从全局到局部的投影,定义如下:01590160其中,xi,j表示X的第j帧的第i个节点是局部嵌入的参数矩阵。0161时间聚合器这项工作是从整个序列中回归出单个帧(中间帧)的任务。如果只学习时间序列而不进行聚合,则模型将获得大量冗余信息,并增加计算开销。因此,提出了一种时间聚合器,以更好地回归中间帧的三维姿态并聚合局部信息。具体来说,我们通过1D卷积分别聚合每个节点的时间信息,输入的时间序列从T变为S,其中T和S分别表示当前层的完整序列数和当前层被分割后的序列数,表示为函数是当前层
38、中分割序列的局部帧数,与LSTE的网络结构结合使用;0162通过在训练期间从全局时间编码器的输出中添加一个回归头来施加额外的时间平滑约束,并获得全序列预测输出YgRT(N3),将回归头添加到LSTE的网络结构的输出中,以获得预测输出YlRN3;0163由于全局时间编码器的输出是所有帧的特征信息,需要监控整个序列尺度,以实现序列的时间一致性,因此,采用序列损失来最小化预测结果和真实结果之间的误差:01640165其中Pi,j和分别表示第j帧关节i的真实和估计的3D位置序列;0166假设LSTE的网络结构对局部帧进行建模,时间聚合器聚合时间信息以最终获得中间帧的特征,采用标准的每关节位置误差平均值
39、损失,以最小化预测姿态和真实姿态之间的误差,如下所示:01670168其中Pi和Yi分别是当前姿态中第i个关节的真实和估计的3D位置;0169网络以端到端的方式进行训练,最终损失函数定义为:01700171其中 g和 l是加权因子。0172进行预训练阶段,对全局空间编码器和全局时间编码器进行优化,使得全局空间编码器和全局时间编码器进行优化后通过重建随机遮掩部分帧和部分2D关节的受损2D姿态来学习2D关节的时空相关性和固有的全局特征,为模型提供了良好的初始化;0173在微调阶段,将预训练阶段训练好的权重加载到全局空间编码器和全局时间编码器中,然后对整个模型进行训练,并输出全序列尺度和单目标帧尺度
40、下的三维关节位置;0174采用全局时空编码器和局部时空编码器的配合,全局时空编码器和局部时空编码器的输入为时间下采样策略之后的2D姿态序列,输出为全序列和单目标帧尺度下的3D关节说明书9/12 页14CN 116612238 A14位置;0175通过采用全局空间编码器获得所有关节的空间信息,通过全局时间编码器获得所有帧的时间信息,从而获得全局特征;0176通过局部时空编码器获得局部帧中每个关节的时空信息,并通过时间聚合器聚合得到新的局部特征。0177预训练阶段和微调阶段的2D姿态输入都采用了时间下采样策略TDS,从而缓解数据冗余并扩大时间感受野。0178实施例二:0179本实施例用于在上述实施
41、例的前提下进一步公开了一种模拟应用;0180在两个3D人体姿态估计数据集上评估了该模型:Human3.6M和MPIINF3DHP。0181Human3.6M是一个广泛使用的三维人体姿态估计数据集,它包含360万个视频帧和相应的3D人体姿态注释,数据集由11名演员的15项不同活动组成,这些活动由四台不同视角的摄像机拍摄,模型在五名受试者S1、S5、S6、S7和S8上进行训练,并在17个关节骨骼上对两名受试人S9和S11进行评估。0182使用最常用的评估指标MPJPE和PMPJPE。0183MPJPE即协议1用于测量预测和地面真值联合位置之间的平均欧氏距离,无需任何变换。0184PMPJPE即协议
42、2是使用刚性变换将预测的3D姿态与地面实况对齐后的MPJPE。0185Human3.6M的结果,将GLSTE与之前在Human360m数据集上的最先进方法进行了比较。0186使用CPN作为2D关键点检测器,然后在检测到的2D姿态序列上训练网络。0187如表I所示,模型在243帧时的性能如下所示,我们的方法在协议1的42.2mm和协议2的33.8mm中表现良好,还使用与UGCN相同的细化模块来训练我们的模型,根据协议1,它达到41.9mm,优于所有其他方法。0188如表II所示,当使用真实2D姿态作为输入时,我们的方法获得了最佳结果27.9mm,MPJPE,这优于所有其他方法。说明书10/12
43、页15CN 116612238 A1501890190表I使用级联金字塔网络(CPN)中检测到的二维姿态,在协议一与协议二下与最新方法在Human3.6M数据集上进行定量比较。(*)使用了UGCN中提出的细化模块。最佳结果以粗体显示,次佳结果以下划线显示。01910192表II在方案1下,以地面真实2D关节位置为输入,对Human3.6M数据集的MPJPE(mm)进行定量比较,最佳结果以粗体显示,次佳结果以下划线显示。01930194表III对人类3.6M数据集上不同输入帧的最新方法进行定量比较。报告了MPJPE度说明书11/12 页16CN 116612238 A16量和参数数量,输入2D姿
44、态由CPN检测。0195在表III中,报告了不同输入帧(T)的最新方法在参数总数、每帧估计浮点运算(FLOP)和模型性能方面的比较,可以看出,本案中的方法具有最少的参数但是有最好的效果。0196与基于全卷积架构的方法VideoPose和Anatomy3D相比,基于Transformer架构的方法PSTMO更有效,本案中的方法优于也使用预训练和下采样策略的方法。0197值得注意的是,当以27帧作为输入的方法结果可以超过以81帧和243帧为输入的一些最近的SOTA方法的结果,这表明了所提方法的有效性和效率。0198同时,图5还显示了表中不同输入帧下MPJPE度量的比较。019902000201表I
45、V MPIINF3DHP的定性结果0202MPIINF3DHP对于室内和室外场景都是一个具有挑战性的数据集。它记录了8名演员从14个摄像机视图执行的8项活动,包括三个场景:绿色屏幕、非绿色屏幕和户外。0203在实验中将MPJPE、150mm范围内的正确关键点百分比(PCK)和PCK阈值范围内的曲线下面积(AUC)的指标报告为评估指标。0204MPIINF3DHP的结果。为了评估所建议模型的泛化能力,表IV报告了GLSTE与其他方法在MPIINF3DHP上的定量结果。0205本案中使用了81帧的2D姿态序列作为输入数据集与Human3.6m进行比较。该表显示,本案中的方法在所有三个评估指标(PC
46、K、AUC和MPJPE)上再次达到了最先进的性能。它强调了GLSTE在提高户外场景性能方面的有效性。0206定性结果,提供了3D估态和和真实姿态之间的视觉比较,使用三个具有挑战性的动作(拍照、坐和坐下)在Human3.6M测试集S9和S11上评估GLSTE。与最先进的方法PSTMO相比,所提出的方法实现了更准确的预测,如图6所示。0207对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。说明书12/12 页17CN 116612238 A17图1图2说明书附图1/3 页18CN 116612238 A18图3图4图5说明书附图2/3 页19CN 116612238 A19图6说明书附图3/3 页20CN 116612238 A20