不同环境下BDI意图进展的学习方法、介质和设备.pdf
《不同环境下BDI意图进展的学习方法、介质和设备.pdf》由会员分享,可在线阅读,更多相关《不同环境下BDI意图进展的学习方法、介质和设备.pdf(13页完成版)》请在专利查询网上搜索。
1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202310489324.5(22)申请日 2023.05.04(71)申请人 浙江工业大学地址 310014 浙江省杭州市拱墅区潮王路18号(72)发明人 宋程程姚远产思贤刘晓莹郑可琛刘一帆(74)专利代理机构 杭州赛科专利代理事务所(普通合伙)33230专利代理师 周明辉(51)Int.Cl.G06F 18/24(2023.01)G06N 3/08(2023.01)G06F 18/243(2023.01)(54)发明名称一种不同环境下BDI意图进展的学习方法、介质和设备(57)摘要本发明涉及一。
2、种不同环境下BDI意图进展的学习方法、介质和设备,方法获取目标计划树中的执行特征,通过修改生成目标计划树时的初始环境中的部分变量值,生成让智能体进行学习的环境集合,对环境集合的元素分类,构建有向无环图DAG,保存智能体学习不同环境下的意图进展;介质存储不同环境下BDI意图进展的学习程序,执行所述方法,计算机设备的处理器执行程序实现所述方法。本发明提出执行特征的概念,以此来生成大量的环境让智能体进行学习,提出有效环境的概念,提高智能体学习环境的效率;提出让智能体学习以往环境的经验并保存为有向无环图,加快智能体的执行速度。权利要求书2页 说明书8页 附图2页CN 116610977 A2023.0。
3、8.18CN 116610977 A1.一种不同环境下BDI意图进展的学习方法,其特征在于:所述方法包括以下步骤:步骤1:获取目标计划树GPTst1,t2,t3.tn中的执行特征Ec;步骤2:根据Ec,通过修改生成GPTs时的初始环境s0中的部分变量值,生成让智能体进行学习的环境集合S;步骤3:对环境集合S的元素进行分类,分为有效环境和无效环境,只保留有效环境Enve让智能体学习,获取变量集合Rg;步骤4:构建有向无环图DAG,保存智能体学习不同环境下的意图进展。2.根据权利要求1所述的一种不同环境下BDI意图进展的学习方法,其特征在于:所述步骤1包括以下步骤:步骤1.1:对于GPTs中的任一。
4、目标计划树GPTi,将其中所有计划构成计划集PS,获取计划集PS中所有计划的前置条件组成的集合PSpre;i为1至n的任一整数;步骤1.2:以GPTi中所有动作构成动作集AS,获取动作集AS中所有动作的后置条件组成的集合ASpost;步骤1.3:该GPTi的执行特征Eci为PSpreASpost,获得属于集合PSpre但不属于集合ASpost的变量;步骤1.4:依次获取GPTs中每个目标计划树的执行特征,得到GPTs的执行特征EcEc1Ec2Ec3.Ecn。3.根据权利要求1所述的一种不同环境下BDI意图进展的学习方法,其特征在于:所述步骤2包括以下步骤:步骤2.1:随机生成一个整数num,n。
5、um为1至Ec中变量个数间的任一整数,在初始环境s0中选择num个变量进行修改,变量属于Ec且未被修改过;步骤2.2:修改选择的num个变量,即在初始环境s0中变量值为真则修改为假,变量值为假则修改为真,其余变量的值保持不变;步骤2.3:得到新环境s1,重复步骤2.1直至获得包括预期元素数量的环境集合S。4.根据权利要求1所述的一种不同环境下BDI意图进展的学习方法,其特征在于:所述步骤3包括以下步骤:步骤3.1:获取实现顶层目标TLGi的所有可能变量Ri,TLGi所对应的GPTi中每个计划节点和目标节点设置集合Set(treeNode),集合初始为空。用于存储使节点treeNode能够实现的。
6、环境变量值的所有可能组合;步骤3.2:从最底层的计划开始,检查实现该计划所必须满足的条件,并将结果依次往上层目标节点进行递归处理,以此类推,直到处理到顶层目标,最终RiSet(TLGi);步骤3.3:依次判断步骤2中生成的环境集合S中每一个环境是否为有效环境,有效环境满足RgR1R2R3.Ri,其中,Ri表示第i个顶层目标实现所至少需要满足的环境变量集合;不为有效环境,则删除。5.根据权利要求3所述的一种不同环境下BDI意图进展的学习方法,其特征在于:计划P的前置条件为p,能够实现计划的条件是它本身的前置条件;实现目标的条件为至少有一个计划的前置条件必须满足。6.根据权利要求1所述的一种不同环。
7、境下BDI意图进展的学习方法,其特征在于:步骤4中,构建单向路径保存智能体学习某有效环境下的意图进展,单向路径中节点保存每个顶权利要求书1/2 页2CN 116610977 A2层目标的当前步骤,单向路径的根节点中各顶层目标的当前步骤是其本身;将学习到的不同环境的意图进展进行合并,即使用DAG来保存不同环境下的意图进展,初始时,DAG为空图即不断的扩充DAG;将每一条单向路径与对应环境的唯一标识合并到DAG中。7.根据权利要求1所述的一种不同环境下BDI意图进展的学习方法,其特征在于:所述步骤4包括以下步骤:步骤4.1:依次学习步骤3后所得到的有效环境Enve,每个环境给定r次机会让智能体使用。
8、MCTS算法调度智能体意图,若第i次能够实现全部目标,则获取第i次时所经历的计划选择和意图选择组成的路径;0ir;步骤4.2:顺序根据路径中每一动作生成节点,从而生成一条单向路径;步骤4.3:将此单向路径和该环境下执行特征对应值合并到DAG中。8.根据权利要求1所述的一种不同环境下BDI意图进展的学习方法,其特征在于:智能体完成对环境的学习后,遇到实际的环境Env,首先判断当前环境是否学习过,若是,则使用DAG调度智能体意图,否则,使用MCTS调度智能体意图。9.一种计算机可读存储介质,其特征在于:其上存储有不同环境下BDI意图进展的学习程序,该程序被处理器执行时实现上述不同环境下BDI意图进。
9、展的学习方法。10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述程序时,实现上述不同环境下BDI意图进展的学习方法。权利要求书2/2 页3CN 116610977 A3一种不同环境下BDI意图进展的学习方法、介质和设备技术领域0001本发明涉及基于特定计算模型的计算机系统的技术领域,特别涉及一种不同环境下BDI意图进展的学习方法、介质和设备。背景技术0002智能体(Agent)是位于某环境中,通过感知信息并在该环境中自主行动来实现其设计目标的个体,智能体所在的环境可以是真实世界,也可以是计算机系统中的纯计算环境。智能体已被用于。
10、开发各种领域的应用,包括航天器、工业制造等。0003在基于信念愿望意图(beliefdesireintention)的智能体体系结构中,BDI智能体的行为是根据信念、目标和计划来指定的。信念表示智能体关于环境(和自身)的信息。目标表示智能体试图实现的环境的期望状态。计划是智能体修改环境以实现其目标的手段。计划由步骤组成,这些步骤要么是直接改变智能体环境的基本动作,要么是由其他计划实现的子目标。对于每个顶级目标,智能体选择一个构成意图根源的计划,并开始执行计划中的步骤。如果意图的下一步是子目标,则选择(子)计划来实现子目标并将其添加到意图中,然后执行(子)计划中的步骤,以此类推。0004针对意图。
11、进展问题,Yao等人提出了SA,一种基于蒙特卡洛(MCTS)搜索的方法,SA能够选择计划来实现智能体的目标,并在这些计划中交叉执行步骤。Thangarajah等人提出了目标计划树(GPT)的概念,以表示BDI智能体的目标和计划之间的关系。目标计划树的根是顶层的目标(目标节点),它的子节点是可以用来实现目标的计划(计划节点)。计划可能反过来包含子目标(目标节点)从而产生一个树结构,表示一个智能体可以实现顶层目标的所有可能方式。除了定义目标和计划之间的关系之外,目标计划树还用来记录关于实现(子)目标或成功执行计划所需条件的信息,前置条件是计划开始执行时必须为真的条件。后置条件是指通过执行计划或实现。
12、目标而实现的条件。0005然而,当前智能体并没有学习不同环境的能力,即不能从以往的意图进展中获取经验。智能体遇到之前所经历过的环境依然会使用MCTS调度智能体意图,因此,我们希望智能体能够学习不同环境下的意图进展,遇到重复环境时,能够根据以往经验进行意图进展。发明内容0006本发明所采用的技术方案是,一种不同环境下BDI意图进展的学习方法,所述方法包括以下步骤:0007步骤1:获取目标计划树GPTst1,t2,t3.tn中的执行特征Ec;0008步骤2:根据Ec,通过修改生成GPTs时的初始环境s0中的部分变量值,生成让智能体进行学习的环境集合S;0009步骤3:对环境集合S的元素进行分类,分。
13、为有效环境和无效环境,只保留有效环境Enve让智能体学习,获取变量集合Rg,即在不考虑目标交互的情况下获取保证目标有机会能够全部实现的所有可能Rg,Rg是一个集合,集合里的每一个元素是目标能够实现的一种可说明书1/8 页4CN 116610977 A4能;0010步骤4:构建有向无环图DAG,保存智能体学习不同环境下的意图进展。0011优选地,所述步骤1中,获取GPTi(1in)的执行特征包括以下步骤:0012步骤1.1:对于GPTs中的任一目标计划树GPTi,将GPTi中所有计划构成计划集PS,获取计划集PS中所有计划的前置条件组成的集合PSpre;i为1至n的任一整数;0013步骤1.2:。
14、GPTi中所有动作构成动作集AS,获取动作集AS中所有动作的后置条件组成的集合ASpost;0014步骤1.3:该GPTi的执行特征Eci为PSpreASpost,获得属于集合PSpre但不属于集合ASpost的变量;0015步骤1.4:依次获取每个GPT的执行特征Eci,GPTs的执行特征EcEc1Ec2Ec3.Ecn。0016本发明中,GPT的执行特征为完全来自于环境中的变量,即对智能体实现目标数量影响较大的变量。智能体想要实现一个目标,至少需要有一个计划的前置条件是满足的,而计划的前置条件可能是前一步或前几步的动作的后置条件,而这部分条件,不管外在环境如何变化,只要相应的动作能够执行,总。
15、能满足该计划的前置条件,而计划的前置条件,要么完全来自于环境,要么是由动作的后置条件导致的。因此,GPT中所有计划的前置条件集合与所有动作的后置条件集合的差集即为完全来自于环境中的变量,因此,只需获得对智能体执行结果影响最大的环境变量,即完全来自于环境中的变量,称之为GPT的执行特征。0017优选地,所述步骤2包括以下步骤:0018步骤2.1:随机生成一个整数num,num为1至Ec中变量个数间的任一整数,在初始环境s0中选择num个变量进行修改,变量属于Ec且未被修改过;0019步骤2.2:修改选择的num个变量,即在初始环境s0中变量值为真则修改为假,变量值为假则修改为真,其余变量的值保持。
16、不变;0020步骤2.3:得到新环境s1,重复步骤2.1直至获得包括预期元素数量的环境集合S。0021优选地,所述步骤3中,具体步骤如下:0022步骤3.1:获取实现顶层目标TLGi的所有可能Ri(Ri中任意一种可能中的任一元素是属于执行特征Ec),首先TLGi所对应的GPTi中每个计划节点和目标节点增加一个集合Set(treeNode)(集合初始为空),该集合存储保证treeNode能够实现的环境变量值的所有可能组合;0023步骤3.2:从最底层的计划开始,检查实现该计划所必须满足的条件,并将结果依次往上层目标节点进行递归处理,以此类推,直到处理到顶层目标,最终RiSet(TLGi);002。
17、4递归处理时对目标和计划的处理方式不同:0025如果处理的节点是计划Plan,则该计划对应的Set(Plan)中每个元素都添加该计划的前置条件中属于Ec的变量(最底层计划的Set只保存了它本身的前置条件);如果是目标Goal,则需要对实现该目标的所有计划的Set(Plan)进行依次汇总处理,得出该目标节点得最终Set(Goal)。0026进一步来说,汇总处理目标得出目标能够实现的所有环境变量值的可能组合步骤如下:假设某目标goal有两个计划plan1,plan2去实现它,plan1实现的可能集合为Set(plan1),plan1实现的可能集合为Set(plan2);说明书2/8 页5CN 11。
18、6610977 A50027基本处理步骤Basic step(set1,set2):找出set2中不属于set1的变量,将这部分变量赋值真假的所有可能分别与set1合并得到结果,在处理过程中存在矛盾冲突则需要删除,即在一个环境下,某环境变量值有真有假,则这种可能性不存在;0028步骤S.1:假设Set(plan1)中第i种可能为seti,顺序对Set(plan2)中每一种可能poss与seti进行Basic step(seti,poss),将得到的结果加入到Set(goal)中;0029步骤S.2:调换处理顺序,假设Set(plan2)中第i种可能为seti,顺序对Set(plan1)中每一种。
19、可能poss与seti进行Basic step(seti,poss),将得到的结果加入到Set(goal)中;0030步骤S.3:若还有其他计划plani,将Set(goal)与plani重复步骤S.1、步骤S.2的操作,直到将所有实现goal的计划处理完。0031步骤3.3:依次判断步骤2中生成的环境集合S中每一个环境是否为有效环境,对于GPTs来说,有效环境满足RgR1R2R3.Ri,其中,Ri表示第i个顶层目标实现所至少需要满足的环境变量集合,即判断该环境中执行特征所对应的环境变量值是否与Rg中任意一种可能相符,不相符则智能体不需学习该环境,将该环境删除。0032优选地,假设计划P的前置。
20、条件为p,计划能够实现的前提条件是p在当前环境中被满足(即p为真);实现目标的条件为至少有一个计划的前置条件在当前环境中被满足。0033本发明中,我们给定智能体目标让其去实现,前提条件是智能体有可能实现给定的全部目标,若让智能体去实现它不能实现的目标,这是没有意义的,因此,有效环境是在不考虑目标交互的情况下,智能体有机会能够实现全部目标。步骤1中已经获取了执行特征Ec,因此,在检查一个环境是否是有效环境时,只需判断该环境中执行特征所对应的环境变量值是否与Rg中任意一种可能相符,不相符,则智能体不需学习该环境。0034优选地,步骤4中,构建单向路径保存智能体学习某有效环境下的意图进展,单向路径中。
21、节点保存每个顶层目标的当前步骤(动作),单向路径的根节点中各顶层目标的当前步骤是其本身;0035将学习到的不同环境的意图进展进行合并,即使用DAG来保存不同环境下的意图进展,初始时,DAG为空图即不断的扩充DAG;具体步骤如下:0036步骤A.1在某一环境下的意图进展表示成单向路径Path后,从根节点顺序遍历该单向路径Path,直到叶子节点;0037步骤A.2初始DAG为空图,第一次合并得到的DAG即为单向路径Path,此后的合并,将DAG的根节点添加一个孩子节点,此孩子节点为单向路径Path的第二个节点,并把单向路径Path中根节点移除;0038将每一条单向路径(即每一环境下的意图进展)与对。
22、应环境的唯一标识合并到DAG中,具体步骤如下:0039步骤B.1:学习过的每个环境,获取总的变量中属于Ec且变量值为真的序号集合作为环境的唯一标识;0040步骤B.2:合并路径时,以每条路径的第二个节点的ID作为标识,将环境标识与ID的标识存储为HashMap,一旦确定某一环境,就可以唯一确定一条路径。0041优选地,所述步骤4中,具体步骤如下:0042步骤4.1:依次学习步骤3后所得到的有效环境Enve,每个环境给定r次机会让智能体使用MCTS算法调度智能体意图,若第i次(0iT0G0);0089所述步骤4中,具体步骤如下:0090步骤4.1:依次学习步骤3后所得到的有效环境Enve,每个环。
23、境给定r次机会让智能体使用MCTS算法调度智能体意图,若第i次(0iT0G0,T0G0T0a0,T0G0T0a1;0092步骤4.3:将此单向路径和该环境下执行特征对应值合并到DAG中。0093此处,将学习到的不同环境的意图进展进行合并,即使用DAG来保存不同环境下的意图进展,初始时,DAG为空图即不断的扩充DAG;具体步骤如下:0094步骤A.1:在某一环境下的意图进展表示成单向路径Path后,从根节点顺序遍历该Path,直到叶子节点;0095步骤A.2:初始DAG为空图,第一次合并得到的DAG即为Path,此后的合并,将DAG的根节点添加一个孩子节点,此孩子节点为Path的第二个节点,并把。
24、Path中根节点移除,此时DAG中有两条路径分别为T0G0T0G0,T0G0T0a0,T0G0T0a10096T0G0T0G0,T0G0T0a0,T0G0T0a20097两条路径共用一个根节点T0G0T0G0;0098然后将每一条单向路径(即每一环境下的意图进展)与对应环境的唯一标识合并到DAG中;具体步骤如下:0099步骤B.1:学习过的每个环境,获取总的变量中属于Ec且变量值为真的序号集合作为环境的唯一标识;0100步骤B.2:合并路径时,以每条路径的第二个节点的ID作为标识,将环境标识与ID说明书6/8 页9CN 116610977 A9的标识存储为HashMap,一旦确定某一环境,就可。
25、以唯一确定一条路径。0101智能体完成对环境的学习后,遇到实际的环境Env,首先判断当前环境是否学习过,若是,则使用DAG调度智能体意图,否则,使用MCTS调度智能体意图;具体步骤如下:0102遇到某环境Env,获取总的环境变量中属于Ec且变量值为真的序号集;0103判断该序号集是否存在于DAG中,若存在,则该环境智能体学习过,则使用DAG调度智能体意图,即通过对应的表示环境的序号集找到DAG中对应的意图进展;若不存在,使用MCTS调度智能体意图。0104如图3所示,展示了两种方法的实验结果,其中LE表示学习环境的方法,NLE表示未学习环境的方法,横坐标表示测试集中包含已学习环境数量,纵坐标表。
26、示平均实现目标个数,设定智能体要实现的目标是8个;根据结果可以看出,随着测试集中包含已学习环境数越来越多,LE在平均目标实现方面明显优于NLE,且在计算开销方面,传统的MCTS调度智能体意图的时间开销是毫秒级的,而LE中使用DAG调度智能体意图的开销是纳秒级的,因此,LE在时间开销方面也是明显优于NLE的。0105本发明还涉及一种计算机可读存储介质,其上存储有不同环境下BDI意图进展的学习程序,该程序被处理器执行时实现上述不同环境下BDI意图进展的学习方法。0106本发明还涉及一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述不。
27、同环境下BDI意图进展的学习方法。0107本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CDROM、光学存储器等)上实施的计算机程序产品的形式。0108本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计。
28、算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。0109这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。0110这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行。
29、一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。0111尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优说明书7/8 页10CN 116610977 A10选实施例以及落入本发明范围的所有变更和修改。0112显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。说明书8/8 页11CN 116610977 A11图1图2说明书附图1/2 页12CN 116610977 A12图3说明书附图2/2 页13CN 116610977 A13。
- 内容关键字: 不同 环境 BDI 意图 进展 学习方法 介质 设备
链接地址:https://www.zhuanlichaxun.net/pdf/14332372.html