应用于大数据的实体增强规则挖掘方法及装置.pdf
《应用于大数据的实体增强规则挖掘方法及装置.pdf》由会员分享,可在线阅读,更多相关《应用于大数据的实体增强规则挖掘方法及装置.pdf(17页完成版)》请在专利查询网上搜索。
1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202310568228.X(22)申请日 2023.05.18(71)申请人 深圳计算科学研究院地址 518000 广东省深圳市龙华区民宝路红山6979园区26座9-10层(72)发明人 王尧舒谢珉樊文飞(74)专利代理机构 深圳市智胜联合知识产权代理有限公司 44368专利代理师 黄勃(51)Int.Cl.G06F 16/2458(2019.01)G06F 16/2457(2019.01)G06N 5/025(2023.01)(54)发明名称一种应用于大数据的实体增强规则挖掘方法及装置(57)。
2、摘要本申请提供了一种应用于大数据的实体增强规则挖掘方法及装置,包括:获取数据集,并确定数据集中的实体增强规则集;记录实体增强集中不完全规则的所对应的待选谓词;确定实体增强规则集中实体增强规则对应的排序分值,并将排序分值中前K个完全规则生成第一目标规则集;当接收到针对更新目标规则集的输出请求时,则确定排序分值中前K个实体增强规则的规则种类;当前K个实体增强规则的规则种类包含不完全规则时,依据唤醒后的不完全规则和其余前K个实体增强规则生成第二目标规则集。本申请实施例可以在无需预先获得数据集中全部规则的前提下,快速返回下k个排序分值最高的实体增强规则,提高了对数据集进行实体增强规则挖掘的效率。权利要。
3、求书2页 说明书12页 附图2页CN 116610725 A2023.08.18CN 116610725 A1.一种应用于大数据的实体增强规则挖掘方法,其特征在于,获取数据集,并确定所述数据集中的实体增强规则集;所述实体增强规则集的规则种类包括完全规则和不完全规则;记录所述实体增强集中不完全规则的所对应的待选谓词;确定所述实体增强规则集中实体增强规则对应的排序分值,并将所述排序分值中前K个完全规则生成第一目标规则集,以及删除所述实体增强规则集中所述第一目标规则集包含的实体增强规则;当接收到针对更新目标规则集的输出请求时,则确定排序分值中前K个实体增强规则的规则种类;当前K个实体增强规则的规则种。
4、类包含所述不完全规则时,则依据所述待选谓词唤醒对应的所述不完全规则,并依据唤醒后的所述不完全规则和其余前K个实体增强规则生成第二目标规则集。2.根据权利要求1所述的方法,其特征在于,所述确定所述数据集中的实体增强规则集包括:确定所述数据集中的待选条件谓词集以及结果谓词;按照预设方式将待选条件谓词集中的至少一个迭代生成目标条件谓词集;依据所述目标条件谓词集合所述结果谓词确定实体增强规则;依据至少一个所述实体增强规则生成实体增强规则集。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:针对任一待识别实体增强规则,判断是否存在与所述待识别实体增强规则中目标条件谓词集的子集,且所述子集与所述待。
5、识别实体增强规则的结果谓词匹配;若不存在所述子集,则所述待识别实体增强规则的规则种类为完全规则。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:针对任一待识别实体增强规则,若在所述按照预设方式将待选条件谓词集中的至少一个迭代生成目标条件谓词集的过程中满足预设停止扩展条件时,停止所述迭代生成目标谓词集,并确定所述待识别实体增强规则的规则种类为不完全规则;所述预设停止扩展条件包括所述待识别实体增强规则的排序分值在第K个之后。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:构建预设堆;所述堆用于存储所述实体增强集中不完全规则的所对应的待选谓词,以及存储删除所述目标规则集后的实体增。
6、强规则集。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:当前K个实体增强规则的规则种类不包含所述不完全规则时,则依据当前的前K个实体增强规则生成第二目标规则集。7.根据权利要求2所述的方法,其特征在于,所述确定所述实体增强规则集中实体增强规则的排序分值包括:基于所述结果谓词,将所述数据集划分为与实体增强集中实体增强规则对应的多个待处理集合;将所述待处理集合分发至多个处理单元;所述处理单元用于按照其接收到的待处理集合输出相应的实体增强规则的初步排序信息;权利要求书1/2 页2CN 116610725 A2将所述多个处理单元的初步排序信息进行处理,得到实体增强规则对应的排序分值。8.一。
7、种应用于大数据的实体增强规则挖掘装置,其特征在于,包括:获取模块,用于获取数据集,并确定所述数据集中的实体增强规则集;所述实体增强规则集的规则种类包括完全规则和不完全规则;待选谓词记录模块,用于记录所述实体增强集中不完全规则的所对应的待选谓词;第一目标规则集处理模块,用于确定所述实体增强规则集中实体增强规则对应的排序分值,并将所述排序分值中前K个完全规则生成第一目标规则集,以及删除所述实体增强规则集中所述第一目标规则集包含的实体增强规则;规则种类确定模块,用于当接收到针对更新目标规则集的输出请求时,则确定排序分值中前K个实体增强规则的规则种类;第二目标规则集生成模块,用于当前K个实体增强规则的。
8、规则种类包含所述不完全规则时,则依据所述待选谓词唤醒对应的所述不完全规则,并依据唤醒后的所述不完全规则和其余前K个实体增强规则生成第二目标规则集。9.一种计算机设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。权利要求书2/2 页3CN 116610725 A3一种应用于大数据的实体增强规则挖掘方法及装置技术领域0001本申请涉及计。
9、算机领域,特别是一种应用于大数据的实体增强规则挖掘方法及装置。背景技术0002在大数据中进行规则发现是指,给定一个数据集D,确定出在数据集上成立的所有规则。规则发现面临的一个主要的问题是会产生大量的规则候选。因此,一个有效的策略就是进行topk规则发现。具体来说,给定一个数据打分函数score(),用表示规则,针对每条规则计算一个排序得分,用表示。那么在数据集D上,排序得分靠前的k条规则,就可以作为topk规则发现的结果返回。0003现有的topk规则挖掘算法通过深度优先或者广度优先的单机方式在数据中发现实体增强规则,本质是一个枚举在全数据D上所有谓词排列组合的过程。对于所有可能的谓词,任意的。
10、抽取一个或者多个出来都可能和REE结果e组成有效的规则。因此,为了进行规则挖掘,现有方法需要把谓词的所有排列组合都进行测试。对于每一个成立的规则计算他的排序得分并记录下来。当所有成立的规则的排序得分都被记录之后,可以获得得分排名前k的规则,作为topk规则挖掘算法的结果返回。0004当用户不满意当前返回的规则时,通常继续寻找下一组topk规则,然而,为了满足用户的这个需求,现有算法需要在最开始时,就需要将满足数据的所有可能的规则都枚举一遍并进行验证。但是在实际中用户往往只对排名靠前的规则感兴趣,无需遍历所有规则,并且遍历所有规则会影响规则发现效率。发明内容0005鉴于所述问题,提出了本申请以便。
11、提供克服所述问题或者至少部分地解决所述问题的一种应用于大数据的实体增强规则挖掘方法及装置,所述方法包括:0006获取数据集,并确定所述数据集中的实体增强规则集;所述实体增强规则集的规则种类包括完全规则和不完全规则;0007记录所述实体增强集中不完全规则的所对应的待选谓词;0008确定所述实体增强规则集中实体增强规则对应的排序分值,并将所述排序分值中前K个完全规则生成第一目标规则集,以及删除所述实体增强规则集中所述第一目标规则集包含的实体增强规则;0009当接收到针对更新目标规则集的输出请求时,则确定排序分值中前K个实体增强规则的规则种类;0010当前K个实体增强规则的规则种类包含所述不完全规则。
12、时,则依据所述待选谓词唤醒对应的所述不完全规则,并依据唤醒后的所述不完全规则和其余前K个实体增强规则生成第二目标规则集。说明书1/12 页4CN 116610725 A40011进一步地,所述确定所述数据集中的实体增强规则集包括:0012确定所述数据集中的待选条件谓词集以及结果谓词;0013按照预设方式将待选条件谓词集中的至少一个迭代生成目标条件谓词集;0014依据所述目标条件谓词集合所述结果谓词确定实体增强规则;0015依据至少一个所述实体增强规则生成实体增强规则集。0016进一步地,所述方法还包括:0017针对任一待识别实体增强规则,判断是否存在与所述待识别实体增强规则中目标条件谓词集的子。
13、集,且所述子集与所述待识别实体增强规则的结果谓词匹配;0018若不存在所述子集,则所述待识别实体增强规则的规则种类为完全规则。0019进一步地,所述方法还包括:0020针对任一待识别实体增强规则,若在所述按照预设方式将待选条件谓词集中的至少一个迭代生成目标条件谓词集的过程中满足预设停止扩展条件时,停止所述迭代生成目标谓词集,并确定所述待识别实体增强规则的规则种类为不完全规则;0021所述预设停止扩展条件包括所述待识别实体增强规则的排序分值在第K个之后。0022进一步地,所述方法还包括:0023构建预设堆;所述堆用于存储所述实体增强集中不完全规则的所对应的待选谓词,以及存储删除所述目标规则集后的。
14、实体增强规则集。0024进一步地,所述方法还包括:0025当前K个实体增强规则的规则种类不包含所述不完全规则时,则依据当前的前K个实体增强规则生成第二目标规则集。0026进一步地,所述确定所述实体增强规则集中实体增强规则的排序分值包括:0027基于所述结果谓词,将所述数据集划分为与实体增强集中实体增强规则对应的多个待处理集合;0028将所述待处理集合分发至多个处理单元;所述处理单元用于按照其接收到的待处理集合输出相应的实体增强规则的初步排序信息;0029将所述多个处理单元的初步排序信息进行处理,得到实体增强规则对应的排序分值。0030一种应用于大数据的实体增强规则挖掘装置,包括:0031获取模。
15、块,用于获取数据集,并确定所述数据集中的实体增强规则集;所述实体增强规则集的规则种类包括完全规则和不完全规则;0032待选谓词记录模块,用于记录所述实体增强集中不完全规则的所对应的待选谓词;0033第一目标规则集处理模块,用于确定所述实体增强规则集中实体增强规则对应的排序分值,并将所述排序分值中前K个完全规则生成第一目标规则集,以及删除所述实体增强规则集中所述第一目标规则集包含的实体增强规则;0034规则种类确定模块,用于当接收到针对更新目标规则集的输出请求时,则确定排序分值中前K个实体增强规则的规则种类;0035第二目标规则集生成模块,用于当前K个实体增强规则的规则种类包含所述不完全规则时,。
16、则依据所述待选谓词唤醒对应的所述不完全规则,并依据唤醒后的所述不完全说明书2/12 页5CN 116610725 A5规则和其余前K个实体增强规则生成第二目标规则集。0036一种计算机设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的应用于大数据的实体增强规则挖掘方法的步骤。0037一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的应用于大数据的实体增强规则挖掘方法的步骤。0038本申请具有以下优点:0039在本申请的实施例中,相对于现有技术中的当用户不满意当前。
17、返回的规则通常继续寻找下一组topk规则时,现有算法需要在最开始时,就需要将满足数据的所有可能的规则都枚举一遍并进行验证。但是在实际中用户往往只对排名靠前的规则感兴趣,无需遍历所有规则,并且遍历所有规则会影响规则发现效率。本申请提供了能够在挖掘数据中的实体增强规则时,将实体增强规则划的规则种类分为完全规则和不完全规则,同时记录不完全规则的所对应的待选谓词,并输出数据集的排序分值前K个完全规则为第一目标规则集,即在无需遍历所有规则的前提下输出针对数据集挖掘的topk规则。并且能够在接收到用户针对更新目标规则集的输出请求时,确定用户需要输出下k个实体增强规则且当前的前K个实体增强规则的种类包含不完。
18、全规则时,可以通过依据待选谓词唤醒对应的不完全规则,并依据唤醒后的不完全规则和其余前K个实体增强规则生成第二目标规则集的解决方案,避免需要对满足数据的所有可能的规则都枚举一遍并进行验证,具体为:获取数据集,并确定所述数据集中的实体增强规则集;所述实体增强规则集的规则种类包括完全规则和不完全规则;记录所述实体增强集中不完全规则的所对应的待选谓词;确定所述实体增强规则集中实体增强规则对应的排序分值,并将所述排序分值中前K个完全规则生成第一目标规则集,以及删除所述实体增强规则集中所述第一目标规则集包含的实体增强规则;当接收到针对更新目标规则集的输出请求时,则确定排序分值中前K个实体增强规则的规则种类。
19、;当前K个实体增强规则的规则种类包含所述不完全规则时,则依据所述待选谓词唤醒对应的所述不完全规则,并依据唤醒后的所述不完全规则和其余前K个实体增强规则生成第二目标规则集,即下一组topk规则。通过在接收到针对更新目标规则集的输出请求时,依据待选谓词唤醒对应的所述不完全规则,并依据唤醒后的不完全规则和其余前K个实体增强规则生成第二目标规则集,解决了当用户不满意当前返回的规则需要获取下一组topk规则时,需要在规则挖掘最开始将满足数据的所有可能的规则都枚举一遍并进行验证的缺点,达到了无需遍历数据集中所有规则即可输出topk规则,并且使得在不需要预先获得所有规则的前提下,可以随时根据用户的需求,返回。
20、下k个排序得分最高的规则,提高了数据中规则的挖掘效率。附图说明0040为了更清楚地说明本申请的技术方案,下面将对本申请的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。0041图1是本申请一实施例提供的一种应用于大数据的实体增强规则挖掘的步骤流程说明书3/12 页6CN 116610725 A6图;0042图2是本申请一实施例提供的一种应用于大数据的实体增强规则挖掘方法流程示意图;0043图3是本申请一实施例提供的一种应用于大数据的实体增强规则挖掘装置的结构框图。
21、;0044图4是本发明一实施例提供的一种计算机设备的结构示意图。具体实施方式0045为使本申请的所述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。0046发明人通过分析现有技术发现:0047实体增强规则(Rules for Entity Enhancing),简称REE。REE的基本组成部分是谓词p,定义如下:0048p:R(t)|t.Ac|t.As.B|M(t.A,s.B)00。
22、49其中,是一个操作符,可以是等于或不等于;R(t)表示t是关系表R中的一个元组变量;t.A表示变量t的A属性;M是一个机器学习模型,如果t.A和s.B是相关的,那么这个模型返回true,否则返回false。t.Ac带有常数,被称为常数谓词;t.As.B不带有常数,被称为变量谓词;M(t.A,s.B)被称为机器学习谓词。0050基于谓词,REE的定义为:Xe。其中,(1)X是多个谓词的结合,被称谓这个REE的条件;(2)e是一个谓词,被称为这个REE的结果。0051一个具体的REE实例如下:0052快递(t)快递(s)t.收件人s.收件人t.地址“A省B市”s.邮编“XYZZZZ”0053这个。
23、REE描述的场景是,如果两个快递t和s的收件人为同一人,且t的地址在“A省B市”,那么s的邮编一定是“XYZZZZ”。0054现有的topk规则挖掘算法通过深度优先或者广度优先的单机方式在数据中发现REE规则,他们的本质是一个枚举在全数据D上所有谓词排列组合的过程。对于所有可能的谓词,任意的抽取一个或者多个出来都可能和REE结果e组成有效的规则。因此,为了进行规则挖掘,已有方法需要把谓词的所有排列组合都试一遍。对于每一个成立的规则计算他的排序得分并记录下来。当所有成立的规则的排序得分都被记录后,可以获得得分排名前k的规则,作为topk规则挖掘算法的结果返回。由于完整的规则排序已经知道,当用户对。
24、当前的topk规则不满意时,可以从序列中获得下k个得分排名最高的规则作为结果返回。当数据规模庞大的时候,这样暴力尝试的单机算法的效率毫无疑问是很低的。0055为了得到topk规则,现有方法不仅需要将满足数据D的所有可能的规则都枚举一遍并进行验证,还不能将计算过程有效并行。当用户对当前的topk规则不满意时,也不能有效的像搜索引擎那样,快速的为用户返回下k条排序得分最高的规则。因此,现有的topk规则发现的效率(挖掘效率)非常低。说明书4/12 页7CN 116610725 A70056需要说明的是,在本发明任一实施例中,可以适用于不同的、一个或多个谓词组成的实体增强规则,本发明实施例对适用的实。
25、体增强规则不作限定。0057参照图1,示出了本申请一实施例提供的一种应用于大数据的实体增强规则挖掘方法;所述方法包括:0058S110、获取数据集,并确定所述数据集中的实体增强规则集;所述实体增强规则集的规则种类包括完全规则和不完全规则;0059S120、记录所述实体增强集中不完全规则的所对应的待选谓词;0060S130、确定所述实体增强规则集中实体增强规则对应的排序分值,并将所述排序分值中前K个完全规则生成第一目标规则集,以及删除所述实体增强规则集中所述第一目标规则集包含的实体增强规则;0061S140、当接收到针对更新目标规则集的输出请求时,则确定排序分值中前K个实体增强规则的规则种类;0。
26、062S150、当前K个实体增强规则的规则种类包含所述不完全规则时,则依据所述待选谓词唤醒对应的所述不完全规则,并依据唤醒后的所述不完全规则和其余前K个实体增强规则生成第二目标规则集。0063在本申请的实施例中,通过获取数据集,并确定所述数据集中的实体增强规则集;所述实体增强规则集的规则种类包括完全规则和不完全规则;记录所述实体增强集中不完全规则的所对应的待选谓词;确定所述实体增强规则集中实体增强规则对应的排序分值,并将所述排序分值中前K个完全规则生成第一目标规则集,以及删除所述实体增强规则集中所述第一目标规则集包含的实体增强规则;当接收到针对更新目标规则集的输出请求时,则确定排序分值中前K个。
27、实体增强规则的规则种类;当前K个实体增强规则的规则种类包含所述不完全规则时,则依据所述待选谓词唤醒对应的所述不完全规则,并依据唤醒后的所述不完全规则和其余前K个实体增强规则生成第二目标规则集,即下一组topk规则。通过在接收到针对更新目标规则集的输出请求时,依据待选谓词唤醒对应的所述不完全规则,并依据唤醒后的不完全规则和其余前K个实体增强规则生成第二目标规则集,解决了当用户不满意当前返回的规则需要获取下一组topk规则时,需要在规则挖掘最开始将满足数据的所有可能的规则都枚举一遍并进行验证的缺点,达到了无需遍历数据集中所有规则即可输出topk规则,并且使得在不需要预先获得所有规则的前提下,可以随。
28、时根据用户的需求,返回下k个排序得分最高的规则,提高了数据中规则的挖掘效率。0064下面,将对本示例性实施例中应用于大数据的实体增强规则挖掘方法作进一步地说明。0065如所述步骤S110所述,获取数据集,并确定所述数据集中的实体增强规则集;所述实体增强规则集的规则种类包括完全规则和不完全规则。0066本申请实施例对获取数据集的方式不作限定,可以从本地存储介质中读取,或者在线接收。另外,数据集也可以是一个动态更新的状态,即数据集可以是一个定时或不定时变更的数据。0067在本发明一实施例中,可以结合下列描述进一步说明步骤S110所述“确定所述数据集中的实体增强规则集”的具体过程,具体可以包括:确定。
29、所述数据集中的待选条件谓词集以及结果谓词;按照预设方式将待选条件谓词集中的至少一个迭代生成目标条件谓词说明书5/12 页8CN 116610725 A8集;依据所述目标条件谓词集合所述结果谓词确定实体增强规则;依据至少一个所述实体增强规则生成实体增强规则集。0068可以构建待选条件谓词集Pre和目标条件谓词集Psel。从数据集中提取出结果谓词e,以及将识别出的所有可能的谓词存储至待选条件谓词集Pre,构建目标条件谓词集Psel时其为空集,用于存储被选择为租车REE条件的谓词。通过广度优先的方式遍历搜索空间,迭代地选择Pre里的谓词加入到Psel中去,这个过程也叫做扩展Psel的过程,直到满足以。
30、下停止条件之一:(1)Pre成了空集;或(2)Psele是有效的REE规则,该规则表示为Xe。将从数据集中挖掘得到的实体增强规则生成实体增强规则集,并进行存储。0069在本申请实施例中,将实体增强规则集的规则种类划分为两类,一类为完全规则,另一类为不完全规则。0070在本申请实施例中通过如下步骤识别任一实体增强规则是否为完全规则:针对任一待识别实体增强规则,判断是否存在与所述待识别实体增强规则中目标条件谓词集的子集,且所述子集与所述待识别实体增强规则的结果谓词匹配;若不存在所述子集,则所述待识别实体增强规则为完全规则。0071完全规则也称为最小化的规则Xe。具体来说,如果存在一个已知的REE规。
31、则X e使得X 是X的一个子集,那么就不是一个最小化规则,即当前不是一个完全规则。同理,如果针对规则Xe的X不存在任一子集X 使得X e,则为完全规则。0072在本申请实施例中通过如下步骤识别任一实体增强规则是否为不完全规则:针对任一待识别实体增强规则,若在所述按照预设方式将待选条件谓词集中的至少一个迭代生成目标条件谓词集的过程中满足预设停止扩展条件时,停止所述迭代生成目标谓词集,并确定所述待识别实体增强规则为不完全规则;所述预设停止扩展条件包括所述待识别实体增强规则的排序分值在第K个之后。0073不完全也叫未扩展(目标谓词集合扩展)完成的规则。如果在扩展过程中,出现继续扩展X,规则的得分都不。
32、会比当前堆中排名前k的规则要高的情况。即使还没有满足扩展的停止条件,也停止对X的扩展,并将Xe作为不完全规则。0074在本申请实施例中,上述识别任一实体增强规则是否为完全规则,以及识别任一实体增强规则是否为不完全规则,可以在任意时刻调用,并可以多次调用,本申请实施例对此不作限定。0075可以结合下列描述进一步说明步骤S120所述“记录所述实体增强集中不完全规则的所对应的待选谓词”。0076虽然在上述的情况下,不完全规则不可能通过扩展成为排名得分前k高的topk规则。但是在以后的即时发现(步骤S150)中,如果部分的高分规则已经被返回,那么还是有可能通过扩展,成为得分较高的topk规则。因此,需。
33、要把不完全规则对应的待选谓词集进行存储,以便于随时继续进行对的扩展。这个对进行随时扩展的策略,也叫做惰性唤醒策略。0077在本申请实施例中,所述的一种应用于大数据的实体增强规则挖掘方法还包括:构建预设堆;所述堆用于存储所述实体增强集中不完全规则的所对应的待选谓词,以及存储删除所述目标规则集后的实体增强规则集。说明书6/12 页9CN 116610725 A90078本申请实施例可以通过构建堆,并在堆中存储完全规则和/或不完全规则,以及不完全规则对应的待选谓词,并当任一规则作为目标规则集被输出后,则在堆删除已被输出的目标规则集,从而避免当用户需要输出下一组topk规则时,重复输出相同规则,造成输。
34、出结果与用户需求不匹配,以及造成资源浪费的问题。0079在本发明一实施例中,可以结合下列描述进一步说明步骤S150所述“前K个实体增强规则的规则种类包含所述不完全规则时,则依据所述待选谓词唤醒对应的所述不完全规则,并依据唤醒后的所述不完全规则和其余前K个实体增强规则生成第二目标规则集”的具体过程。0080由于在前述步骤中存储不完全规则对应的待选谓词,可以很快速地完成对于不完全规则的继续扩展,即继续迭代更新目标谓词集合,从而唤醒不完全规则。唤醒后的不完全规则作为完全规则也会继续存在堆中,直到堆里面存储的排名得分最高的前k个规则全部都是完全规则,并将当前的排序分值前k个完全规则作为第二目标规则集返。
35、回给用户。通过步骤S150可以实现当用户不满意当前返回的规则时,可以即时地为他们寻找下一组排名得分最高的topk规则,也称为即时发现。0081在本发明一实施例中,所述方法还包括:当前K个实体增强规则的规则种类不包含所述不完全规则时,则依据当前的前K个实体增强规则生成第二目标规则集。0082如果当前堆中仅存在完全规则,则无需唤醒不完全规则即无需继续迭代不完全规则对应的目标谓词集合,只需要将当前的排序分值前k个完全规则作为第二目标规则集返回给用户即可。通过结合该步骤和步骤S150可以实现当用户不满意当前返回的规则时,可以进一步加快确定下一组排名得分最高的topk规则的速度。0083同时在实际应用中。
36、,为了保证每次即时发现的规则都是不冗余规则,则需要对输出的完全规则进行额外的检查。只有当该规则不能被其他已经输出过的规则推导时,才会输出该规则。0084在本申请实施例中,对排序分值的具体计算公式不作限定。0085另外,发明人通过分析现有技术发现:现有的topk规则挖掘算法通过深度优先或者广度优先的单机方式在数据中发现REE规则,其本质是一个枚举在全数据D上所有谓词排列组合的过程。对于所有可能的谓词,任意的抽取一个或者多个出来都可能和REE结果e组成有效的规则。因此,为了进行规则挖掘,已有方法需要把谓词的所有排列组合都试一遍。对于每一个成立的规则计算他的排序得分并记录下来。当所有成立的规则的排序。
37、得分都被记录之后,我们可以获得得分排名前k的规则,作为topk规则挖掘算法的结果返回。由于完整的规则排序已经知道,当用户对当前的topk规则不满意时,我们可以从序列中获得下k个得分排名最高的规则作为结果返回。当数据规模庞大的时候,这样暴力尝试的单机算法的效率毫无疑问是很低的。即使使用更多的计算资源,也不一定能保证提升规则挖掘的运算效率。0086在本申请的一种可选实施例中,步骤S130所述“计算各个实体增强规则的排序分值”可以包括:基于所述结果谓词,将所述数据集划分为多个待处理集合;将所述待处理集合分发至多个处理单元;所述处理单元用于按照其接收到的待处理集合输出相应的实体增强规则的初步排序信息;。
38、将所述多个处理单元的初步排序信息进行处理,得到排序分值。0087可以结合下列描述进一步说明步骤S130。参照图2,示出了本申请一实施例提供的说明书7/12 页10CN 116610725 A10一种应用于大数据的实体增强规则挖掘方法流程示意图,为了提高本申请实施例的处理效率,可以在实际中引入整体同步并行计算模型,以实现实体规则的并行发现。具体的如下:0088整体同步并行计算模型基于广度优先搜索,由一个调度单元(coordinator)和n个处理单元(worker)组成。在整体同步并行计算模型下,调度单元负责生成和分发任务,负责整体topk规则的维护和负载均衡,而处理单元负责并行的进行即时发现规。
39、则。整体计算分为多个超步,其中每个超步以固定的时间为界。0089总体来说,调度单元会维护一个总体的堆,在第i个超步中,调度单元会记录当前在堆中得分第k高的规则的排序得分,用Ti表示。0090调度单元首先根据需要发现的REE结果e,将规则发现拆分成多个小任务,每个任务由一个三元组组成:。其中Psel存的是已经被选择组成REE条件的谓词,而Pre存的是待选谓词。最开始,Psel为空集,Pre是所有可能的谓词集合。当调度单元将Ti的值和所有的任务平均分给所有处理单元之后,每个处理单元进行同时进行第i个超步的topk规则发现:他们会在本地维护一个堆,用于存储本地发现的规则。当处理单元进行本地的规则扩展。
40、时,他们会根据分发的任务抽取需要的数据并迭代地选择Pre里的谓词加入到Psel中去,直到满足下述三个条件中至少一个:(1)Pre成了空集;(2)Psele是完全规则;(3)Psele是不完全规则。0091在每个超步的最后,处理单元们会把发现的topk规则传送给调度单元进行汇总。调度单元根据收集到的规则,对总体的堆进行调整,并计算下一个超步会用到的排序得分(排序分值)Ti+1。在每个超步中,调度单元还会进行负载均衡,拆分工作量最重的处理单元W的任务,并将其中的一半分配给空闲的处理单元。如果W中还有多个任务,W会分配一半的任务出去。如果W只剩下一个任务,则通过拆分这个任务对应数据的方式将这个任务拆。
41、分成多个子任务进行分配。当所有处理单元都完成全部计算时,并行规则发现结束。当并行发现规则结束时,可以得到各个实体增强规则的排序分值,进而可以针对排序分值输出topk规则。0092在本申请实施例中,通过即时发现相关处理步骤,使得在不需要预先获得所有规则的前提下,可以随时根据用户的需求,返回下k个排序得分最高的规则。通过并行发现相关处理步骤,基于整体同步并行计算模型,通过任务生成、分发,以负载均衡的方式调整任务,调度单元和处理单元协同合作进行并行的topk规则发现。通过当使用更多的计算资源时,保证减少topk规则发现的运行时间,因此具有并行可扩展性。0093以下,以一个示例对本申请实施例做示例性说。
42、明:假设k3,当前堆中按排序得分从高到低的规则为:其中,若规则的上标为c,则表示该规则是完全规则;若规则的上标为p,则表示该规则是不完全规则。由于排名得分前三的规则中有不完全规则,我们以排序从高到低的顺序,对不完全规则进行继续扩展/唤醒。我们首先继续扩展假设经过扩展后,我们得到了三条新的规则堆也被更新为这个时候中排名得分前三的规则全部都是完全规则那么这三条规则就作为topk规则发现的结果返回了。0094在实际应用中,针对同一数据集采用本申请提供的应用于大数据的实体增强规则挖掘方法和现有方法进行规则挖掘,依据多个数据集进行试验,综合对比了使用本方案即说明书8/12 页11CN 116610725。
43、 A11时topk规则发现算法、并行规则发现算法和现有的规则发现算法的效率。结果显示:0095(1)当用户持续的想要下k条得分最高的规则时,即时规则发现算法优势明显,即时发现算法有效地维护了不完全规则,因此能够快速地唤醒和恢复不完全规则的扩展,使得即时发现算法相比于传统算法提速达到95倍。下k条规则可能已经被枚举过并且已存储,故当即时发现算法积累了足够的不完全规则时,进行下k条规则发现的时间还能进一步降低。0096(2)当使用更多的计算资源时,并行规则发现的提升非常明显。比如,针对一数据集进行规则发现时,当使用相同的计算设备从4个变到20个后,规则发现的处理效率提升了3.15倍。即可以确定并行。
44、规则发现算法是并行可拓展的。0097对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。0098参照图3,示出了本申请一实施例提供的一种应用于大数据的实体增强规则挖掘装置;具体包括:0099获取模块310,用于获取数据集,并确定所述数据集中的实体增强规则集;所述实体增强规则集的规则种类包括完全规则和不完全规则;0100待选谓词记录模块320,用于记录所述实体增强集中不完全规则的所对应的待选谓词;0101第一目标规则集处理模块330,用于确定所述实体增强规则集中实体增强规则对应的排序分值,并将所述排序分值中前K个完全规则生成第一目标规则集,以。
45、及删除所述实体增强规则集中所述第一目标规则集包含的实体增强规则;0102规则种类确定模块340,用于当接收到针对更新目标规则集的输出请求时,则确定排序分值中前K个实体增强规则的规则种类;0103第二目标规则集生成模块350,用于当前K个实体增强规则的规则种类包含所述不完全规则时,则依据所述待选谓词唤醒对应的所述不完全规则,并依据唤醒后的所述不完全规则和其余前K个实体增强规则生成第二目标规则集。0104在本发明一实施例中,所述获取模块310,包括:0105谓词确定子模块,用于确定所述数据集中的待选条件谓词集以及结果谓词;0106目标条件谓词迭代子模块,用于按照预设方式将待选条件谓词集中的至少一个。
46、迭代生成目标条件谓词集;0107规则确定子模块,用于依据所述目标条件谓词集合所述结果谓词确定实体增强规则。0108在本发明一实施例中,所述装置还包括:0109完全规则识别模块,用于针对任一待识别实体增强规则,判断是否存在与所述待识别实体增强规则中目标条件谓词集的子集,且所述子集与所述待识别实体增强规则的结果谓词匹配;若不存在所述子集,则所述待识别实体增强规则为完全规则。0110在本发明一实施例中,所述装置还包括:0111不完全规则识别模块,用于针对任一待识别实体增强规则,若在所述按照预设方式将待选条件谓词集中的至少一个迭代生成目标条件谓词集的过程中满足预设停止扩展条件时,停止所述迭代生成目标谓。
47、词集,并确定所述待识别实体增强规则为不完全规则;说明书9/12 页12CN 116610725 A120112所述预设停止扩展条件包括所述待识别实体增强规则的排序分值在第K个之后。0113在本发明一实施例中,所述装置还包括:0114堆构建模块,用于构建预设堆;所述堆用于存储所述实体增强集中不完全规则的所对应的待选谓词,以及存储删除所述目标规则集后的实体增强规则集。0115在本发明一实施例中,所述装置还包括:0116直接生成模块,用于当前K个实体增强规则的规则种类不包含所述不完全规则时,则依据当前的前K个实体增强规则生成第二目标规则集。0117在本发明一实施例中,所述第一目标规则集处理模块330。
48、包括:0118划分子模块,用于基于所述结果谓词,将所述数据集划分为与实体增强集中实体增强规则对应的多个待处理集合;0119分发子模块,用于将所述待处理集合分发至多个处理单元;所述处理单元用于按照其接收到的待处理集合输出相应的实体增强规则的初步排序信息;0120整合子模块,用于将所述多个处理单元的初步排序信息进行处理,得到实体增强规则对应的排序分值。0121参照图4,示出了本发明的一种应用于大数据的实体增强规则挖掘方法的计算机设备,具体可以包括如下:0122上述计算机设备12以通用计算设备的形式表现,计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不。
49、同系统组件(包括系统存储器28和处理单元16)的总线18。0123总线18表示几类总线18结构中的一种或多种,包括存储器总线18或者存储器控制器,外围总线18,图形加速端口,处理器或者使用多种总线18结构中的任意总线18结构的局域总线18。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线18,微通道体系结构(MAC)总线18,增强型ISA总线18、音视频电子标准协会(VESA)局域总线18以及外围组件互连(PCI)总线18。0124计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的。
50、介质。0125系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CDROM,DVDROM或者其他光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至少一个程序产品,该程序产品具有一组。
- 内容关键字: 应用于 数据 实体 增强 规则 挖掘 方法 装置
链接地址:https://www.zhuanlichaxun.net/pdf/14333359.html