基于Actor-Critic的小型固定翼无人机自适应控制方法.pdf
《基于Actor-Critic的小型固定翼无人机自适应控制方法.pdf》由会员分享,可在线阅读,更多相关《基于Actor-Critic的小型固定翼无人机自适应控制方法.pdf(25页完成版)》请在专利查询网上搜索。
1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202310547901.1(22)申请日 2023.05.16(71)申请人 南京航空航天大学地址 210016 江苏省南京市秦淮区御道街29号(72)发明人 赵振根孔飞何海洋石鹏程(74)专利代理机构 南京经纬专利商标代理有限公司 32200专利代理师 王慧(51)Int.Cl.G05D 1/08(2006.01)G05D 1/10(2006.01)(54)发明名称一种基于Actor-Critic的小型固定翼无人机自适应控制方法(57)摘要本发明公开了一种基于ActorCritic的小型固定翼。
2、无人机纵向抗干扰控制方法,步骤如下:首先,建立扰动下的无人机纵向模型;其次,设计性能函数评估无人机的控制性能,Critic逼近非线性性能函数,Actor学习最小化性能函数的最优控制律;再次,加入干扰神经网络估计无人机最坏情况下的扰动,并采用动量神经网络提高学习速度。本发明通过强化学习技术,使用神经网络实现性能函数与最优控制律的逼近,实现扰动下无人机的自适应控制。本发明不仅能够加强无人机的抗干扰能力,也能加快强化学习控制律的收敛速度。权利要求书4页 说明书14页 附图6页CN 116610133 A2023.08.18CN 116610133 A1.一种基于ActorCritic的小型固定翼无人。
3、机自适应控制方法,其特征在于,包括如下步骤:S1,根据小型固定翼无人机纵向动力学构建性能函数;S2,构建Actor网络和Critic网络,采用带有动量系数的神经网络加强无人机控制器的稳定性;S3,对Actor神经网络和Critic神经网络进行信息传递构建,同时构建Disturbance神经网络对无人机加入扰动来测试干扰下无人机的飞行能力;S4,通过Critic计算出目标控制律和扰动极值,然后通过反向传播算法进行Actor神经网络、Critic神经网络和Disturbance神经网络的权值更新;S5,重复步骤S4,当满足收敛条件时,Actor神经网络、Critic神经网络和Disturbance。
4、神经网络的停止迭代;若不满足收敛条件,则继续进行迭代。2.根据权利要求1所述的基于ActorCritic的小型固定翼无人机自适应控制方法,其特征在于,步骤S1中,无人机的非线性状态空间表达式如下:x(k+1)f(x(k)+g(x(k)u(k)+h(x(k)d(k)其中,为无人机系统状态,为系统控制无关动力学,为系统控制动力学,为系统控制输入,为系统状态量,为外部扰动输入,为扰动输入矩阵;为实数集;无人机纵向非线性离散方程为:(k+1)hq(k)(k+1)(k)+(k)状态变量v(k)、(k)、(k)、q(k)分别表示k时刻无人机的速度、航迹角、迎角和俯仰角速度;h代表采样时间间隔,T为发动机推。
5、力,D为发动机拉力,L为发动机升力,M为发动机俯仰力矩,Iyy为对机体轴系绕y轴的转动惯量,g为重力加速度,m为无人机的质量;则基于小型固定翼无人机纵向控制的性能函数的表达式如下:V(k)为k时刻系统的性能函数,性能矩阵都为正定的;为性能函数因子,d为扰动衰减因子;为效用函数,用来评估当前时间无人机的飞行状态;由此得贝尔曼最优方程为:权利要求书1/4 页2CN 116610133 A2V*(k)代表k时刻最优状态下的性能函数;则哈密顿方程为:哈密顿方程两边分别对控制律u(k)进行求导,得到最优控制律:同理,哈密顿方程两边分别对扰动d(k)求导,得到极值扰动:3.根据权利要求2所述的基于Acto。
6、rCritic的小型固定翼无人机自适应控制方法,其特征在于,步骤S2中,Actor采用单隐藏层双层神经网络,Actor进行目标控制律的逼近:Na为Actor神经网络隐藏层的神经元个数,为Actor网络第j个输入层节点到第i个隐藏层节点的权值,为Actor第j个隐藏层节点到第i个输出层节点的权值,a为Actor激活函数,na为Actor输入层节点数,x(k)v(k)(k)(k)q(k)T为无人机系统状态;对于Critic,采用单隐藏层双层神经网络进行性能函数逼近,则Critic输出为:Nc为Critic隐藏层神经元个数,代表Critic从第j个输入层节点到第i个隐藏层节点的权值,为Critic第。
7、i个隐藏层节点到输出层的权值,c为Critic的激活函数,zc(k)为Critic的输入,nc为Critic的输出层节点数。4.根据权利要求2所述的基于ActorCritic的小型固定翼无人机自适应控制方法,其特征在于,步骤S3中,Disturbance网络采用带有动量梯度的神经网络进行构建,则Disturbance的输出为:Disturbance网络的激活函数 d为双曲正切函数;权利要求书2/4 页3CN 116610133 A3输入层和隐藏层之间的权值定义为:Nd为Disturbance隐藏层神经元个数,为Disturbance输入层第j个节点到隐藏层第i个节点的权值;定义隐藏层和输出层之。
8、间的权值为:为Disturbance从第i个隐藏层节点到输出层的权值。5.根据权利要求2所述的基于ActorCritic的小型固定翼无人机自适应控制方法,其特征在于,步骤S4中,Critic逼近性能函数,同时计算贝尔曼方程误差进行神经网络反向传播来权值更新:c为Critic学习率,ec(k)为k时刻Critic的TD误差,Ec(k)为k时刻Critic误差指标,为性能函数衰减因子;Actor用于目标控制律的逼近,使得性能函数的值为最优值:权利要求书3/4 页4CN 116610133 A4ea(k)为k时 刻Actor网络逼近误差,Ea(k)为k时 刻Actor网络误差指标,为Actor使用k。
9、时刻的权值在k1时刻的输出,u*(x(k1)为k1时刻的目标控制律。6.根据权利要求1所述的基于ActorCritic的小型固定翼无人机自适应控制方法,其特征在于,Disturbance根据当前无人机状态对无人机输入干扰以测试干扰下无人机的飞行与稳定能力:Nd为Disturbance隐藏层神经元个数,为Disturbance输入层第j个输入层节点到隐藏层第i个节点的权值,为Disturbance从第i个隐藏层节点到输出层的权值,d为Disturbance的激活函数,nd为Disturbance输入层节点数。7.根据权利要求1所述的基于ActorCritic的小型固定翼无人机自适应控制方法,其特。
10、征在于,步骤S5中,当满足收敛条件时,Actor、Critic和Disturbance的权值更新均停止迭代,为收敛条件常数;若不满足收敛条件,则继续进行迭代。权利要求书4/4 页5CN 116610133 A5一种基于ActorCritic的小型固定翼无人机自适应控制方法技术领域0001本发明涉及无人机飞行控制技术领域,尤其涉及一种基于ActorCritic的小型固定翼无人机自适应控制方法。背景技术0002随着强化学习算法和算力的不断发展,智能体通过强化学习可以完成如飞行控制、任务规划、机动决策等复杂决策任务,对于非线性系统的最优控制问题,其核心思想主要围绕求解HamiltonJacobiBe。
11、llman(HJB)方程,而求解这个方程是一个非常具有挑战性的问题。近年来许多研究人员利用神经网络的函数逼近特性在此方面做出了许多研究,如自适应动态规划(Adaptive Dynamic Programming,ADP)作为一种有效的最优控制框架,其独特的ActorCritic设计可以控制许多结构复杂的MIMO(Multipleinput Multipleoutput)系统。对于六自由度(6DoF)无人机的MIMO复杂模型,需要进行建模和参数设计,理论复杂、计算量大,因此飞行控制系统既要有能够处理无人机复杂动力学模型的能力,同时还要有对环境的高适应性和抗干扰性,很难适用于传统控制方法。发明内容。
12、0003发明目的:本发明的目的是提供一种能够在复杂环境下更加快速稳定的飞行,提高无人机抗干扰能力的基于ActorCritic的小型固定翼无人机自适应控制方法。0004技术方案:本发明的小型固定翼无人机自适应控制方法,包括如下步骤:0005S1,根据小型固定翼无人机纵向动力学构建性能函数;0006S2,构建Actor网络和Critic网络,采用带有动量系数的神经网络加强无人机控制器的稳定性;0007S3,对Actor神经网络和Critic神经网络进行信息传递构建,同时构建Disturbance神经网络对无人机加入扰动来测试干扰下无人机的飞行能力;0008S4,通过Critic计算出目标控制律和扰。
13、动极值,然后通过反向传播算法进行Actor神经网络、Critic神经网络和Disturbance神经网络的权值更新;0009S5,重复步骤S4,当满足收敛条件时,Actor神经网络、Critic神经网络和Disturbance神经网络的停止迭代;若不满足收敛条件,则继续进行迭代。0010进一步,步骤S1中,无人机的非线性状态空间表达式如下:0011x(k+1)f(x(k)+g(x(k)u(k)+h(x(k)d(k)0012其中,为无人机系统状态,为系统控制无关动力学,为系统控制动力学,为系统控制输入,为系统状态量,为外部扰动输入,为扰动输入矩阵;为实数集;0013无人机纵向非线性离散方程为:说。
14、明书1/14 页6CN 116610133 A6001400150016(k+1)hq(k)(k+1)(k)+(k)00170018状态变量v(k)、(k)、(k)、q(k)分别表示k时刻无人机的速度、航迹角、迎角和俯仰角速度;h代表采样时间间隔,T为发动机推力,D为发动机拉力,L为发动机升力,M为发动机俯仰力矩,Iyy为对机体轴系绕y轴的转动惯量,g为重力加速度,m为无人机的质量;0019则基于小型固定翼无人机纵向控制的性能函数的表达式如下:00200021V(k)为k时刻系统的性能函数,性能矩阵都为正定的;为性能函数因子,d为扰动衰减因子;为效用函数,用来评估当前时间无人机的飞行状态;由此。
15、得贝尔曼最优方程为:00220023V*(k)代表k时刻最优状态下的性能函数;0024则哈密顿方程为:00250026哈密顿方程两边分别对控制律u(k)进行求导,得到最优控制律:00270028同理,哈密顿方程两边分别对扰动d(k)求导,得到极值扰动:00290030进一步,步骤S2中,Actor采用单隐藏层双层神经网络,Actor进行目标控制律的逼近:00310032Na为Actor神经网络隐藏层的神经元个数,为Actor网络第j个输入层节点到第说明书2/14 页7CN 116610133 A7i个隐藏层节点的权值,为Actor第j个隐藏层节点到第i个输出层节点的权值,a为Actor激活函数。
16、,na为Actor输入层节点数,x(k)v(k)(k)(k)q(k)T为无人机系统状态;0033对于Critic,采用单隐藏层双层神经网络进行性能函数逼近,则Critic输出为:00340035Nc为Critic隐藏层神经元个数,代表Critic从第j个输入层节点到第i个隐藏层节点的权值,为Critic第i个隐藏层节点到输出层的权值,c为Critic的激活函数,zc(k)为Critic的输入,nc为Critic的输出层节点数。0036进一步,步骤S3中,Disturbance网络采用带有动量梯度的神经网络进行构建,则Disturbance的输出为:00370038Disturbance网络的激。
17、活函数 d为双曲正切函数;0039输入层和隐藏层之间的权值定义为:00400041Nd为Disturbance隐藏层神经元个数,为Disturbance输入层第j个节点到隐藏层第i个节点的权值;定义隐藏层和输出层之间的权值为:00420043为Disturbance从第i个隐藏层节点到输出层的权值。0044进一步,步骤S4中,Critic逼近性能函数,同时计算贝尔曼方程误差进行神经网络反向传播来权值更新:0045004600470048说明书3/14 页8CN 116610133 A8004900500051c为Critic学习率,ec(k)为k时刻Critic的TD误差,Ec(k)为k时刻C。
18、ritic误差指标,为性能函数衰减因子;0052Actor用于目标控制律的逼近,使得性能函数的值为最优值:00530054005500560057005800590060ea(k)为k时刻Actor网络逼近误差,Ea(k)为k时刻Actor网络误差指标,为Actor使用k时刻的权值在k1时刻的输出,u*(x(k1)为k1时刻的目标控制律。0061进一步,Disturbance根据当前无人机状态对无人机输入干扰以测试干扰下无人机的飞行与稳定能力:00620063Nd为Disturbance隐藏层神经元个数,为Disturbance输入层第j个输入层节点说明书4/14 页9CN 116610133。
19、 A9到隐藏层第i个节点的权值,为Disturbance从第i个隐藏层节点到输出层的权值,d为Disturbance的激活函数,nd为Disturbance输入层节点数。0064进一步,步骤S5中,当满足收敛条件时,Actor、Critic和Disturbance的权值更新均停止迭代,为收敛条件常数;若不满足收敛条件,则继续进行迭代0065本发明与现有技术相比,其显著效果如下:00661、本发明涉及一种ActorCritic的小型固定翼无人机抗扰动控制算法,相比于传统控制方法,该方法融合了神经网络的非线性逼近能力和强化学习的学习能力,能够在复杂的外部环境下自适应控制无人机稳定,并且加入Dist。
20、urbance神经网络进行干扰下无人机飞行能力训练,提高了系统的抗干扰能力并且改善了系统的准确性和快速性;00672、本发明在控制律设计过程中不断对系统输入、输出以及扰动输入的数据进行收集,利用这些数据进行抗干扰自适应控制器的设计,当外界环境发生改变时,控制律也会根据环境变化的情况进行自适应调节,这种方法使得无人机更加具有智能型;00683、本发明在进行神经网络构建时在神经网络中添加了动量式系数,可以有效减少外部扰动造成的抖动和振荡现象,极大优化了无人机在受到外部干扰时的系统性能;00694、本发明的抗干扰控制本质上是解决离散系统的最优控制问题,神经网络求解计算过程简单迅速,因此适用于计算能力。
21、较弱和存储空间较小的飞行器。附图说明0070图1表示基于强化学习的小型固定翼无人机控制框图;0071图2表示扰动下ActorCritic强化学习控制器流程图;0072图3表示不同衰减系数下的Critic输出结果;0073图4表示无人机效用函数的输出结果;0074图5(a)表示Actor的升降舵输出结果;0075图5(b)表示Actor的节流阀输出结果;0076图6表示Disturbance的输出结果;0077图7(a)为引角的控制效果对比图;0078图7(b)为航迹角的控制效果对比图;0079图7(c)为速度的控制效果对比图;0080图7(d)为俯仰角速度的控制效果对比图。具体实施方式0081。
22、下面结合说明书附图和具体实施方式对本发明做进一步详细描述。0082针对传统方法在抗干扰能力方面的不足,本发明结合ActorCritic框架设计一种抗扰动自适应控制律,该方法不仅能够使无人机在复杂环境下更加快速稳定的飞行,还能极大的提高无人机的抗干扰能力。0083本实施例中,小型固定翼无人机的质量m13.5kg,机翼展长b0.28956m,机翼面积S0.55m2,转动惯量Iyy1.135kgm2,机翼平均气动弦长c0.18994m,发动机常数说明书5/14 页10CN 116610133 A10Kmotor80。0084如图1所示,本发明基于ActorCritic的小型固定翼无人机自适应控制方法。
23、的具体步骤如下:0085步骤1,根据干扰下小型固定翼无人机的飞行器纵向动力学构建性能函数,由性能函数来对无人机当前状态进行评估。0086无人机纵向非线性离散方程为:00870088其中,状态变量v(k)、(k)、(k)、q(k)分别表示k时刻的速度、航迹角、迎角和俯仰角速度,状态变量v(k+1)、(k+1)、(k+1)、q(k+1)分别表示k+1时刻的速度、航迹角、迎角和俯仰角速度;h0.01s为采样时间间隔,T为发动机推力,D为拉力,L为升力,M为俯仰力矩,Iyy1.135kgm2为对机体轴系绕y轴的转动惯量,g9.8m/s2为重力加速度,m13.5kg为无人机质量;0089推力、拉力、升力。
24、和俯仰力矩的计算公式如下:00900091009200930094S0.55m2为机翼面积,1.2682kg/m3为空气密度,Sprop0.2027m2为螺旋桨面积,c0.18994m为机翼平均气动弦长,Cprop1.0为螺旋桨弦长,Kmotor80为发动机常数,T为节流阀输入;CL、CD、Cm分别为升力系数、拉力系数和俯仰力矩系数,各系数的计算公式为:0095009600970098e0.9为奥斯瓦尔德效率因子,AR0.152为翼宽高比,e为升降舵输入,为零迎角的升力系数,为迎角引起的升力系数,为升降舵引说明书6/14 页11CN 116610133 A11起的升力系数,为摩擦阻力产生的阻力。
25、系数,为升降舵引起的阻力系数,为迎角引起的俯仰力矩系数,为升降舵引起的俯仰力矩系数,为平飞状态下的俯仰力矩系数。0099无人机的纵向动力学表达为:0100 x(k+1)f(x(k)+g(x(k)u(k)+h(k)d(k)(2)0101x(k)v(k)a(k)(k)q(k)T为系统状态量,为系统的控制无关项动力学,为系统的控制项动力学,为系统的控制输入,为外部扰动输入;为扰动输入矩阵,代表外部扰动由于无人机动力学特征对无人机不同状态所造成的不同影响,为实数集,本实例中通过仿真实验得到其扰动输入矩阵为h(k)T2 1 1 0.5。0102无人机的初始条件选取为x0v0,0,a0,q0T75.739。
26、9,0.0615,0.1788,9.7399e5T。0103根据小型固定翼无人机设计性能函数:01040105U(i)为 i 时 刻 的 效 用 函 数,衡 量 该 时 刻 无 人 机 性 能 指 标;性 能 矩 阵都为正定的,性能矩阵Q用来衡量控制输入对无人机系统造成的消耗,R用来衡量无人机状态对于系统所造成的性能消耗;性能函数衰减因子 0.9,误差衰减系数将效用函数U(k)展开可以得到:01060107其中,Qdiag(0.1,1,1,4);u e,T表示控制律输入,e、T分别代表升降舵输入和节流阀输入,u(i)为i时刻的控制律输入,Rdiag(1,2)。0108公式(4)写成迭代形式可以。
27、得到贝尔曼方程:01090110由公式(5)可以得到贝尔曼最优方程:01110112V*(k)代表k时刻最优状态下的性能函数。0113由贝尔曼方程定义哈密顿方程为:0114说明书7/14 页12CN 116610133 A120115公式(7)哈密顿方程两边对控制律u(k)进行求导可以得到最优控制律:01160117类似的,公式(7)哈密顿方程两边再对扰动d(k)求导可以求出极值扰动:01180119步骤二,设定性能函数中的参数项与动量学习参数,进行Actor和Critic构建。0120如图2所示,Actor和Critic采用带有动量系数的神经网络,Actor采用单隐藏层双层神经网络。0121。
28、Actor输出为:01220123Actor激活函数 a(.)tanh(.),Actor输出为输入层和隐藏层之间的权值矩阵定义为:01240125na表示Actor输入层的神经元个数,Na为隐藏层的神经元个数,为第j个输入层节点到第i个隐藏层节点的权值。0126定义由隐藏层到输出层的权值为:01270128为第j个隐藏层节点到第i个输出层节点的权值,m为Actor输出层神经元个数。0129对于Critic,采用单隐藏层双层神经网络进行性能函数逼近。Critic输出为:01300131Critic输入为zc(k)v(k)a(k)(k)q(k)d(k)e(k)T(k)T,Critic激活函数 c(。
29、.)Relu(.);输入层到隐藏层的权值为:说明书8/14 页13CN 116610133 A1301320133nc为Critic输入层神经元个数,Nc为隐藏层的神经元个数,其中代表从第j个输入层节点到第i个隐藏层节点的权值。隐藏层到输出层的权值定义为:01340135为第i个隐藏层节点到输出层的权值。0136本实施例中,Critic采用单隐藏层双层神经网络,输入层节点数设置为7,隐藏层节点数设置为10,输出层节点设置为1,激活函数c为Relu函数,Critic动量学习参数 c0.1,学习率 c0.9,性能函数衰减参数 0.7;Actor采用单隐藏层双层神经网络,输入层节点设置为4,隐藏层节。
30、点设置为10,输出层节点设置为2;激活函数a选用双曲正切函数,无人机控制输入的阈值设置为|e|30deg,|T|100。Actor动量学习参数 a0.1,学习率 a0.8;Critic在计算出性能函数的同时,根据贝尔曼最优方程计算出目标控制律并且传送到Actor中进行权值更新,同时根据上一时刻的系统状态计算出本时刻的TD误差用于Critic的权值更新。0137步骤三,设计Disturbance网络,根据当前状态对无人机加入扰动以测试无人机在干扰下的飞行状态。0138Disturbance网络采用带有动量系数的神经网络进行构建,Disturbance网络的主要目的是根据无人机当前状态输出极值扰动。
31、以训练无人机在干扰下的飞行与稳定能力;0139Disturbance的输出为:01400141Disturbance激活函数 d为双曲正切函数。0142Disturbance输入层和隐藏层之间的权值定义为:01430144Nd为Disturbance隐藏层神经元个数,nd为Disturbance输入层神经元个数,为Disturbance输入层第j个节点到隐藏层第i个节点的权值。0145定义Disturbance网络隐藏层和输出层之间的权值为:01460147为Disturbance网络中从第i个隐藏层节点到输出层的权值。0148本实施例中,Disturbance采用单隐藏层双层神经网络,输入层。
32、节点数设置为4,隐说明书9/14 页14CN 116610133 A14藏层节点数设置为10,输出层节点数设置为1;激活函数d为Relu函数。Critic根据系统的当前状态计算出极值扰动输入到无人机系统中以训练无人机在扰动下的飞行稳定能力。0149步骤四,通过Critic计算出目标控制律和扰动极值,然后通过反向传播算法进行神经网络权值更新。0150本实施例中,当无人机在飞行状态时,首先根据无人机当前时刻的状态输入到Critic中进行性能函数的计算,然后将上一时刻存储的无人机状态用于计算TD(时间差分)误差以进行Critic的权值更新;TD误差ec(k)的计算公式如下:015101520153其。
33、中,Ec(k)为Critic的误差指标;0154Critic更新方式选用梯度下降算法:015501560157c0为Critic学习率。0158通过链式求导法则可以求得:015901600161同时根据贝尔曼方程计算出目标控制律:01620163Actor由Critic计算出的目标控制律进行更新,即对于Actor而言,Actor误差设置为实际控制律和目标控制律的误差:01640165为Actor使用k时刻的权值在k1时刻的输出,u*(x(k1)为k1时刻的目标控制律。0166定义Actor权值误差信号为Actor网络误差的平方:01670168Actor的权值更新方式采用梯度下降算法:说明书1。
34、0/14 页15CN 116610133 A15016901700171a为Actor学习率。0172通过链式求导法可以求得输入层和隐藏层之间的权值更新为:01730174隐藏层和输出层之前的权值更新为:01750176Disturbance根据无人机状态输出极值扰动到无人机中进行扰动下无人机控制训练,即对于Disturbance而言,设定Disturbance网络的误差为神经网络输出和计算出的目标值差值的平方:017701780179Disturbance网络权值更新方式采用梯度下降算法:018001810182其中 d0为Disturbance学习率。0183由链式求导法则可得:0184说。
35、明书11/14 页16CN 116610133 A1601850186考虑到实际运行过程中小型固定翼无人机在飞行状态下对外部干扰非常敏感,若无人机受到扰动时控制器没有及时调节恢复到稳定状态,极有可能出现失速或者抖动等现象。为加强无人机的控制效果,减少无人机受到扰动时产生的运行偏差,考虑添加动量梯度到ActorCritic控制器中进行神经网络构建,将其运用到神经网络中可得其一般形式更新迭代方程:01870188 为神经网络学习率,为动量学习梯度系数,w(k)为k时刻权值的变化值,将公式(37)分别运用到ActorCritic控制器中的神经网络中可得:01890190c、a、d分别为Critic、。
36、Actor、Disturbance的动量梯度系数,c、a、d分别为Critic、Actor、Disturbance的学习率。0191本实施例中,Critic隐藏层第一个节点权值收敛到如下数据:01920193Critic输出层第一个节点权值收敛到如下数据:说明书12/14 页17CN 116610133 A1701940195Actor隐藏层第一个节点收敛到如下数据:01960197Actor输出层第一个节点收敛到如下数据:01980199Disturbance隐藏层第一个节点收敛到如下数据:说明书13/14 页18CN 116610133 A1802000201Disturbance输出层第。
37、一个节点收敛到如下数据:02020203步骤五,重复步骤四,当神经网络满足收敛条件时停止迭代,为收敛条件常数。若不满足收敛条件,则继续进行迭代。0204图1为小型固定翼无人机强化学习控制的大体框架,主要由Actor和Critic构成,Actor用于计算控制律,Critic用于性能函数与目标控制律的计算。图2为扰动下无人机ActorCritic强化学习控制流程图,简要展示无人机运行过程中自适应控制器的学习过程。图3为Critic的误差变化曲线,Critic网络能迅速逼近价值函数体现的快速学习特性。图4为无人机效用函数U(k)变化曲线,在强化学习控制器的调节下无人机的效用函数U(k)在短时间内收敛。
38、并且呈现稳定状态。图5(a)、图5(b)分别为升降舵 e和节流阀 T输出结果,在神经网络的快速学习下升降舵和节流阀能够快速调节无人机稳定并且收敛。图6为Disturbance输出结果,在控制器的调节下其误差在短时间内迅速收敛并保持稳定。图7(a)(d)为不同控制方法对扰动下无人机的控制效果对比图,可以得出:相比于PID控制和非线性动态逆控制,强化学习控制器在干扰下能够快速稳定的控制无人机保持稳定并且维持系统性能,体现动量式AC框架的抗干扰性和稳定性。说明书14/14 页19CN 116610133 A19图1说明书附图1/6 页20CN 116610133 A20图2说明书附图2/6 页21CN 116610133 A21图3图4说明书附图3/6 页22CN 116610133 A22图5(a)图5(b)说明书附图4/6 页23CN 116610133 A23图6图7(a)图7(b)说明书附图5/6 页24CN 116610133 A24图7(c)图7(d)说明书附图6/6 页25CN 116610133 A25。
- 内容关键字: 基于 Actor Critic 小型 固定 无人机 自适应 控制 方法
链接地址:https://www.zhuanlichaxun.net/pdf/14330101.html