数据聚类方法、装置和处理器及电子设备.pdf

上传人:伱** 文档编号:14331390 上传时间:2024-02-15 格式:PDF 页数:26 大小:1.54MB
收藏 版权申诉 举报 下载
数据聚类方法、装置和处理器及电子设备.pdf_第1页
第1页 / 共26页
数据聚类方法、装置和处理器及电子设备.pdf_第2页
第2页 / 共26页
数据聚类方法、装置和处理器及电子设备.pdf_第3页
第3页 / 共26页
文档描述:

《数据聚类方法、装置和处理器及电子设备.pdf》由会员分享,可在线阅读,更多相关《数据聚类方法、装置和处理器及电子设备.pdf(26页完成版)》请在专利查询网上搜索。

1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202310653827.1(22)申请日 2023.06.02(71)申请人 中国工商银行股份有限公司地址 100140 北京市西城区复兴门内大街55号(72)发明人 程永龙王钰范淑君王睿(74)专利代理机构 北京康信知识产权代理有限责任公司 11240专利代理师 余刚(51)Int.Cl.G06F 18/23(2023.01)G06F 18/22(2023.01)G06F 18/23213(2023.01)(54)发明名称数据聚类方法、装置和处理器及电子设备(57)摘要本申请公开了一种数据聚类。

2、方法、装置和处理器及电子设备。涉及大数据领域,该方法包括:获取数据样本集合,其中,数据样本集合包括有序排列的N个数据样本,N为正整数;从N个数据样本中确定出K组样本组合,其中,每一组样本组合包括M个连续排列的数据样本,K为正整数、M为小于N的正整数;对每一组样本组合进行筛选处理,得到K组筛选后的样本组合;获取每一组筛选后的样本组合的中心样本,并将中心样本确定为筛选后的样本组合的质心,得到K个质心;基于K个质心,对数据样本集合进行聚类。通过本申请,解决了相关技术中数据聚类的准确性低下的问题。权利要求书2页 说明书18页 附图5页CN 116610966 A2023.08.18CN 1166109。

3、66 A1.一种数据聚类方法,其特征在于,包括:获取数据样本集合,其中,所述数据样本集合包括有序排列的N个数据样本,N为正整数;从所述N个数据样本中确定出K组样本组合,其中,每一组样本组合包括M个连续排列的数据样本,K为正整数、M为小于N的正整数;对所述每一组样本组合进行筛选处理,得到K组筛选后的样本组合;获取每一组所述筛选后的样本组合的中心样本,并将所述中心样本确定为所述筛选后的样本组合的质心,得到K个质心;基于所述K个质心,对所述数据样本集合进行聚类。2.根据权利要求1所述的方法,其特征在于,所述对所述每一组样本组合进行筛选处理,得到K组筛选后的样本组合包括:获取第i组样本组合中密度最大的。

4、第一数据样本,其中,i为小于K的正整数;依次遍历所述第i组样本组合包括的全部数据样本,得到符合预设距离条件的目标数据样本,其中,所述第i组样本组合对应的所述筛选后的样本组合包括所述目标数据样本,所述预设距离条件用于指示所述目标数据样本与所述第一数据样本之间的余弦距离小于预设余弦距离阈值。3.根据权利要求2所述的方法,其特征在于,所述获取第i组样本组合中样本密度最大的第一数据样本包括:获取所述第i组样本组合包括的各个数据样本的样本密度,并从中确定出样本密度最大的所述第一数据样本;其中,获取所述第i组样本组合的当前数据样本的样本密度包括:获取所述当前数据样本关联的P个第一近邻数据样本,其中,所述P。

5、个第一近邻数据样本在所述第i组样本组合中与所述当前数据样本的余弦距离最近,所述第i组样本组合包括所述P个第一近邻数据样本;获取每一个第一近邻数据样本关联的P个第二近邻数据样本,其中,所述P个第二近邻数据样本在所述第i组样本组合中与所述第一近邻数据样本的余弦距离最近,所述第i组样本组合包括所述P个第二近邻数据样本;对所述P个第一近邻数据样本和所述每一个第一近邻数据样本关联的P个第二近邻数据样本做并集处理,得到所述当前数据样本关联的目标近邻数据样本集合;获取所述目标近邻数据样本集合包括的近邻数据样本的数量和值、以及获取所述目标近邻数据样本集合包括的各个近邻数据样本与所述当前数据样本的余弦距离的累加。

6、和值;将所述数量和值和所述累加和值的商确定为所述当前数据样本的样本密度。4.根据权利要求1所述的方法,其特征在于,所述从所述N个数据样本中确定出K组样本组合包括:获取第j个样本组合关联的窗口中心,其中,所述窗口中心用于指示所述N个数据样本中的第(2j1)*N/2a个数据样本;将所述N个数据样本中的第(2j1)*N/2a个数据样本至第(2j1)*N/2a+M1个数据样本在内的M个数据样本确定为所述第j个样本组合。5.根据权利要求1所述的方法,其特征在于,所述获取每一组所述筛选后的样本组合的权利要求书1/2 页2CN 116610966 A2中心样本,并将所述中心样本确定为所述筛选后的样本组合的质。

7、心包括:从所述筛选后的样本组合中选取一个数据样本作为初始质心近邻点;从所述筛选后的样本组合的其他数据样本确定出满足预设相似条件的至少一个目标数据样本,其中,所述预设相似条件用于指示所述至少一个目标数据样本与所述初始质心近邻点之间的余弦相似度大于预设相似度阈值;将所述至少一个目标数据样本的中心确定为所述中心样本。6.根据权利要求1所述的方法,其特征在于,所述获取数据样本集合包括:获取待排序的初始数据样本集合,其中,所述初始数据样本集合包括无序排列的N个初始数据样本;依次遍历所述N个初始数据样本,获取每一个初始数据样本的样本密度,并将样本密度最小的初始数据样本确定为边缘数据样本;根据其他初始数据样。

8、本与所述边缘数据样本之间的余弦距离,对所述其他初始数据样本进行排序,并将排序后的初始数据样本集合确定为所述数据样本集合,其中,所述边缘数据样本位于边缘位置,与所述边缘数据样本之间的余弦距离越大的数据样本的位置,与所述边缘位置相距越远、且靠前中心位置。7.根据权利要求6所述的方法,其特征在于,所述获取待排序的初始数据样本集合包括:从历史消费日志集合中获取所述初始样本集合,其中,所述历史消费日志集合包括客户端关联的账号在历史时间段的使用过程中产生的消费日志数据;在得到聚类后的目标样本集合之后,所述方法还包括:利用数据聚类结果,对所述账号关联的消费风险等级进行分类。8.一种数据聚类装置,其特征在于,。

9、包括:第一获取单元,用于获取数据样本集合,其中,所述数据样本集合包括有序排列的N个数据样本,N为正整数;确定单元,用于从所述N个数据样本中确定出K组样本组合,其中,每一组样本组合包括M个连续排列的数据样本,K为正整数、M为小于N的正整数;筛选单元,用于对所述每一组样本组合进行筛选处理,得到K组筛选后的样本组合;第二获取单元,用于获取每一组所述筛选后的样本组合的中心样本,并将所述中心样本确定为所述筛选后的样本组合的质心,得到K个质心;聚类单元,用于基于所述K个质心,对所述数据样本集合进行聚类。9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述。

10、的7方法。10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的方法。权利要求书2/2 页3CN 116610966 A3数据聚类方法、装置和处理器及电子设备技术领域0001本申请涉及大数据领域,具体而言,涉及一种数据聚类方法、装置和处理器及电子设备。背景技术0002聚类算法在初始化阶段需要确定聚类中心,即质心,现有技术中常常采用随机抽取的方式以确定预设数量的质心,然而,该方式存在抽取的质心分布过于分散或集中的情况,进而导致质心分布不够均匀。

11、,从而造成后续数据聚类的准确性较低。0003针对相关技术中数据聚类的准确性较低的问题,目前尚未提出有效的解决方案。发明内容0004本申请的主要目的在于提供一种数据聚类方法、装置和处理器及电子设备,以解决相关技术中数据聚类的准确性较低的问题。0005为了实现上述目的,根据本申请的一个方面,提供了一种数据聚类方法。该方法包括:获取数据样本集合,其中,上述数据样本集合包括有序排列的N个数据样本,N为正整数;从上述N个数据样本中确定出K组样本组合,其中,每一组样本组合包括M个连续排列的数据样本,K为正整数、M为小于N的正整数;对上述每一组样本组合进行筛选处理,得到K组筛选后的样本组合;获取每一组上述筛。

12、选后的样本组合的中心样本,并将上述中心样本确定为上述筛选后的样本组合的质心,得到K个质心;基于上述K个质心,对上述数据样本集合进行聚类。0006作为一种可选的方案,上述对上述每一组样本组合进行筛选处理,得到K组筛选后的样本组合包括:获取第i组样本组合中密度最大的第一数据样本,其中,i为小于K的正整数;依次遍历上述第i组样本组合包括的全部数据样本,得到符合预设距离条件的目标数据样本,其中,上述第i组样本组合对应的上述筛选后的样本组合包括上述目标数据样本,上述预设距离条件用于指示上述目标数据样本与上述第一数据样本之间的余弦距离小于预设余弦距离阈值。0007作为一种可选的方案,上述获取第i组样本组合。

13、中样本密度最大的第一数据样本包括:获取上述第i组样本组合包括的各个数据样本的样本密度,并从中确定出样本密度最大的上述第一数据样本;其中,获取上述第i组样本组合的当前数据样本的样本密度包括:获取上述当前数据样本关联的P个第一近邻数据样本,其中,上述P个第一近邻数据样本在上述第i组样本组合中与上述当前数据样本的余弦距离最近,上述第i组样本组合包括上述P个第一近邻数据样本;获取每一个第一近邻数据样本关联的P个第二近邻数据样本,其中,上述P个第二近邻数据样本在上述第i组样本组合中与上述第一近邻数据样本的余弦距离最近,上述第i组样本组合包括上述P个第二近邻数据样本;对上述P个第一近邻数据样本和上述每一个。

14、第一近邻数据样本关联的P个第二近邻数据样本做并集处理,得到上述当前数据样本关联的目标近邻数据样本集合;获取上述目标近邻数据样本集合包括的近邻数据样说明书1/18 页4CN 116610966 A4本的数量和值、以及获取上述目标近邻数据样本集合包括的各个近邻数据样本与上述当前数据样本的余弦距离的累加和值;将上述数量和值和上述累加和值的商确定为上述当前数据样本的样本密度。0008作为一种可选的方案,上述从上述N个数据样本中确定出K组样本组合包括:获取第j个样本组合关联的窗口中心,其中,上述窗口中心用于指示上述N个数据样本中的第(2j1)*N/2a个数据样本;将上述N个数据样本中的第(2j1)*N/。

15、2a个数据样本至第(2j1)*N/2a+M1个数据样本在内的M个数据样本确定为上述第j个样本组合。0009作为一种可选的方案,上述获取每一组上述筛选后的样本组合的中心样本,并将上述中心样本确定为上述筛选后的样本组合的质心包括:从上述筛选后的样本组合中选取一个数据样本作为初始质心近邻点;从上述筛选后的样本组合的其他数据样本确定出满足预设相似条件的至少一个目标数据样本,其中,上述预设相似条件用于指示上述至少一个目标数据样本与上述初始质心近邻点之间的余弦相似度大于预设相似度阈值;将上述至少一个目标数据样本的中心确定为上述中心样本。0010作为一种可选的方案,上述获取数据样本集合包括:获取待排序的初始。

16、数据样本集合,其中,上述初始数据样本集合包括无序排列的N个初始数据样本;依次遍历上述N个初始数据样本,获取每一个初始数据样本的样本密度,并将样本密度最小的初始数据样本确定为边缘数据样本;根据其他初始数据样本与上述边缘数据样本之间的余弦距离,对上述其他初始数据样本进行排序,并将排序后的初始数据样本集合确定为上述数据样本集合,其中,上述边缘数据样本位于边缘位置,与上述边缘数据样本之间的余弦距离越大的数据样本的位置,与上述边缘位置相距越远、且靠前中心位置。0011作为一种可选的方案,上述获取待排序的初始数据样本集合包括:从历史消费日志集合中获取上述初始样本集合,其中,上述历史消费日志集合包括客户端关。

17、联的账号在历史时间段的使用过程中产生的消费日志数据;在得到聚类后的目标样本集合之后,上述方法还包括:利用数据聚类结果,对上述账号关联的消费风险等级进行分类。0012为了实现上述目的,根据本申请的另一方面,提供了一种数据聚类装置。该装置包括:第一获取单元,用于获取数据样本集合,其中,上述数据样本集合包括有序排列的N个数据样本,N为正整数;确定单元,用于从上述N个数据样本中确定出K组样本组合,其中,每一组样本组合包括M个连续排列的数据样本,K为正整数、M为小于N的正整数;筛选单元,用于对上述每一组样本组合进行筛选处理,得到K组筛选后的样本组合;第二获取单元,用于获取每一组上述筛选后的样本组合的中心。

18、样本,并将上述中心样本确定为上述筛选后的样本组合的质心,得到K个质心;聚类单元,用于基于上述K个质心,对上述数据样本集合进行聚类。0013作为一种可选的方案,上述筛选单元,包括:第一获取模块,用于获取第i组样本组合中密度最大的第一数据样本,其中,i为小于K的正整数;第一遍历模块,用于依次遍历上述第i组样本组合包括的全部数据样本,得到符合预设距离条件的目标数据样本,其中,上述第i组样本组合对应的上述筛选后的样本组合包括上述目标数据样本,上述预设距离条件用于指示上述目标数据样本与上述第一数据样本之间的余弦距离小于预设余弦距离阈值。0014作为一种可选的方案,上述获取模块,用于包括:第一获取子模块,。

19、用于获取上述说明书2/18 页5CN 116610966 A5第i组样本组合包括的各个数据样本的样本密度,并从中确定出样本密度最大的上述第一数据样本;其中,获取上述第i组样本组合的当前数据样本的样本密度包括:第二获取子模块,用于获取上述当前数据样本关联的P个第一近邻数据样本,其中,上述P个第一近邻数据样本在上述第i组样本组合中与上述当前数据样本的余弦距离最近,上述第i组样本组合包括上述P个第一近邻数据样本;第三获取子模块,用于获取每一个第一近邻数据样本关联的P个第二近邻数据样本,其中,上述P个第二近邻数据样本在上述第i组样本组合中与上述第一近邻数据样本的余弦距离最近,上述第i组样本组合包括上述。

20、P个第二近邻数据样本;第四获取子模块,用于对上述P个第一近邻数据样本和上述每一个第一近邻数据样本关联的P个第二近邻数据样本做并集处理,得到上述当前数据样本关联的目标近邻数据样本集合;第五获取子模块,用于获取上述目标近邻数据样本集合包括的近邻数据样本的数量和值、以及获取上述目标近邻数据样本集合包括的各个近邻数据样本与上述当前数据样本的余弦距离的累加和值;确定子模块,用于将上述数量和值和上述累加和值的商确定为上述当前数据样本的样本密度。0015作为一种可选的方案,上述确定单元包括:第二获取模块,用于获取第j个样本组合关联的窗口中心,其中,上述窗口中心用于指示上述N个数据样本中的第(2j1)*N/2。

21、a个数据样本;第一确定模块,用于将上述N个数据样本中的第(2j1)*N/2a个数据样本至第(2j1)*N/2a+M1个数据样本在内的M个数据样本确定为上述第j个样本组合。0016作为一种可选的方案,上述第二获取模块包括:第三获取模块,用于从上述筛选后的样本组合中选取一个数据样本作为初始质心近邻点;第二确定模块,用于从上述筛选后的样本组合的其他数据样本确定出满足预设相似条件的至少一个目标数据样本,其中,上述预设相似条件用于指示上述至少一个目标数据样本与上述初始质心近邻点之间的余弦相似度大于预设相似度阈值;第三确定模块,用于将上述至少一个目标数据样本的中心确定为上述中心样本。0017作为一种可选的。

22、方案,上述第一获取单元包括:第四获取模块,用于获取待排序的初始数据样本集合,其中,上述初始数据样本集合包括无序排列的N个初始数据样本;第二遍历模块,用于依次遍历上述N个初始数据样本,获取每一个初始数据样本的样本密度,并将样本密度最小的初始数据样本确定为边缘数据样本;排序模块,用于根据其他初始数据样本与上述边缘数据样本之间的余弦距离,对上述其他初始数据样本进行排序,并将排序后的初始数据样本集合确定为上述数据样本集合,其中,上述边缘数据样本位于边缘位置,与上述边缘数据样本之间的余弦距离越大的数据样本的位置,与上述边缘位置相距越远、且靠前中心位置。0018作为一种可选的方案,上述第四获取模块包括:第。

23、六获取子模块,用于从历史消费日志集合中获取上述初始样本集合,其中,上述历史消费日志集合包括客户端关联的账号在历史时间段的使用过程中产生的消费日志数据;上述装置还包括:分类模块,用于在得到聚类后的目标样本集合之后,利用数据聚类结果,对上述账号关联的消费风险等级进行分类。0019通过本申请,采用以下步骤:获取数据样本集合,其中,上述数据样本集合包括有序排列的N个数据样本,N为正整数;从上述N个数据样本中确定出K组样本组合,其中,每一组样本组合包括M个连续排列的数据样本,K为正整数、M为小于N的正整数;对上述每一组样说明书3/18 页6CN 116610966 A6本组合进行筛选处理,得到K组筛选后。

24、的样本组合;获取每一组上述筛选后的样本组合的中心样本,并将上述中心样本确定为上述筛选后的样本组合的质心,得到K个质心;基于上述K个质心,对上述数据样本集合进行聚类。本申请基于初步排序后的数据样本集合,通过局部连续样本的筛选(窗口截取)方式得到多个窗口,并获取每一个窗口的中心样本以确定后续用于聚类的质心,其中,基于连续排列和窗口截取以及中心样本的确定方式,使得得到的新的质心点与初始质心点之间是“相对均匀关系”,保障了质心点选取的均匀性,从而实现提高后续基于质心的算法聚类的准确性的技术效果。附图说明0020构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本。

25、申请,并不构成对本申请的不当限定。在附图中:0021图1是根据本申请实施例提供的数据聚类方法的流程图;0022图2是根据本申请实施例提供的数据聚类方法的示意图;0023图3是根据本申请实施例提供的数据聚类方法的示意图;0024图4是根据本申请实施例提供的数据聚类方法的示意图;0025图5是根据本申请实施例提供的数据聚类装置的示意图;0026图6是根据本申请实施例提供的数据聚类电子设备的示意图。具体实施方式0027需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。0028为了使本技术领域的人员更好地理解本申请方案,下面将结合。

26、本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。0029需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品。

27、或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。0030需要说明的是,本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。例如,本系统和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。0031下面结合优选的实施步骤对本发明进行说明,图1是根据本申请实施例提供的数据聚类方法的流程图,如图1所示,该方法包括如下步。

28、骤:说明书4/18 页7CN 116610966 A70032步骤S101,获取数据样本集合,其中,数据样本集合包括有序排列的N个数据样本,N为正整数;0033步骤S102,从N个数据样本中确定出K组样本组合,其中,每一组样本组合包括M个连续排列的数据样本,K为正整数、M为小于N的正整数;0034步骤S103,对每一组样本组合进行筛选处理,得到K组筛选后的样本组合;0035步骤S104,获取每一组筛选后的样本组合的中心样本,并将中心样本确定为筛选后的样本组合的质心,得到K个质心;0036步骤S105,基于K个质心,对数据样本集合进行聚类。0037可选地,在本实施例中,上述数据聚类方法可以但不限。

29、于应用在客户群体风险识别场景。在该场景下,在获取到输入的指示客户群体近期消费的日志数据的情况下,基于上述数据聚类方法,能够基于窗口截取距离方法合理分散选取质心,并利用后续基于选取质心的聚类计算结果评估客户风险、依据聚类分析产生的客户类型,为服务方提出相关合理建议,进而达到了为客户进行精确风险识别、等级分类的目的,从而有效规避服务方在为客户提供相关业务服务出现的风险,提高服务方的风险管理能力。0038以及,利用上述数据聚类方法,基于初步排序后的数据样本集合,通过局部连续样本的筛选(窗口截取)方式得到多个窗口,并获取每一个窗口的中心样本以确定后续用于聚类的质心,其中,基于连续排列和窗口截取以及中心。

30、样本的确定方式,使得得到的新的质心点与初始质心点之间是“相对均匀关系”,保障了质心点选取的均匀性,从而实现提高后续基于质心的算法聚类的准确性的技术效果。0039可选地,在本实施例中,数据样本集合可以但不限于包括N个有序排列的数据样本,可以但不限于对待排序的初始数据样本集合进行排序处理后得到的,其中,上述排序处理可以但不限于用于指示从初始数据样本中确定出样本密度最大的边缘数据样本,再基于其他初始数据样本与边缘数据样本之间的余弦距离,对其他初始数据样本进行排序,与边缘数据样本之间的余弦距离越大,则与边缘数据样本的边缘位置相距越远,且越靠近中心位置。0040可选地,在本实施例中,K组样本组合中的每一。

31、组样本组合可以但不限于均包括M个连续排列的数据样本。0041可选地,在本实施例中,每一组样本组合可以但不限于为一个窗口,其中,窗口包括的第一个数据样本与边缘数据样本之间的余弦距离最远,窗口包括的最后一个数据样本与边缘数据样本之间的余弦距离最近,窗口包括的各个数据样本在数据样本集合中是连续排列的。0042可选地,在本实施例中,对K组样本组合的每一组样本组合进行筛选处理,得到各个样本组合对应的共K组筛选后的样本组合,其中,筛选处理可以但不限于用于指示将每一组样本组合中不符合预设距离条件的数据样本去除,预设距离条件用于指示数据样本与样本密度最大的第一数据样本之间的余弦距离小于预设余弦距离阈值,样本密。

32、度用于指示数据样本的近邻样本总数与全部近邻样本与数据样本的余弦距离累积和的商。0043可选地,在本实施例中,获取每一组筛选后的样本组合的中心样本,可以但不限于从筛选后的样本组合中选取一个数据样本作为初始质心近邻点;从筛选后的样本组合的其他数据样本确定出满足预设相似条件的至少一个目标数据样本,其中,预设相似条件用于说明书5/18 页8CN 116610966 A8指示至少一个目标数据样本与初始质心近邻点之间的余弦相似度大于预设相似度阈值;将至少一个目标数据样本的中心确定为所述中心样本。0044需要说明的是,初始质心近邻点可以但不限于为随机选取,至少一个目标数据样本的中心可以但不限于用于指示至少一。

33、个目标数据样本中的、与其他数据样本(指至少一个目标数据样本中的除当前数据样本之外的其他数据样本)之间的余弦距离的和值最小的数据样本。0045需要说明的是,在获取到每一个筛选后的样本组合的中心样本之后,中心样本确定为筛选后的样本组合的质心,累积得到K个质心,并基于K个质心,对数据样本集合进行聚类。0046进一步举例说明,如图2所示(其中,白球代表样本点,黑球代表质心点),一种可选的数据聚类方法,包括:0047步骤S1,获取包括多个且有序排列的数据样本的数据样本集合,如图2中的(a)所示,其中,最右边(最边缘)的白球用于指示边缘数据样本,且边缘数据样本为多个数据样本中样本密度最小的数据样本,其他数。

34、据样本按照与边缘数据样本的余弦距离,从右向左依次递增排列,排列越靠左的数据样本与边缘数据样本的余弦距离越大。0048步骤S2,从上述排序后的数据样本集合中截取确定出3组样本组合,其中,每一组样本组合中均包括4个连续排列的数据样本,形成3个窗口,如图2中的(b)所示,其中,每一个数据样本可以但不限于存在于一个或多个窗口/样本组合内。0049步骤S3,对每一组样本组合进行筛选处理,去除每一组样本组合中不符合预设条件的数据样本,其中,预设条件可以但不限于包括数据样本与样本组合内样本密度最大的第一数据样本的余弦距离大于预设余弦距离阈值。0050需要说明的是,上述预设条件还可以根据实际需要进一步增加其他。

35、额外子条件,如数据样本的数据量是否达标等,本实施例对此不作额外限定。0051还需要说明的是,如图2中的(c)所示,这里采用的是3组样本组合中的数据样本均符合预设条件的情况,因此并未去除相关数据样本。0052步骤S4,获取每一组筛选后的样本组合的中心样本,并将中心样本确定为筛选后的样本组合的质心,得到3个质心,如图2中的(c)和(d)所示的三个黑球,即为各个筛选后的样本组合的质心。0053步骤S5,基于上述3个质心,对数据样本集合进行聚类。0054通过本申请提供的实施例,获取数据样本集合,其中,上述数据样本集合包括有序排列的N个数据样本,N为正整数;从上述N个数据样本中确定出K组样本组合,其中,。

36、每一组样本组合包括M个连续排列的数据样本,K为正整数、M为小于N的正整数;对上述每一组样本组合进行筛选处理,得到K组筛选后的样本组合;获取每一组上述筛选后的样本组合的中心样本,并将上述中心样本确定为上述筛选后的样本组合的质心,得到K个质心;基于上述K个质心,对上述数据样本集合进行聚类。本申请基于初步排序后的数据样本集合,通过局部连续样本的筛选(窗口截取)方式得到多个窗口,并获取每一个窗口的中心样本以确定后续用于聚类的质心,其中,基于连续排列和窗口截取以及中心样本的确定方式,使得得到的新的质心点与初始质心点之间是“相对均匀关系”,保障了质心点选取的均匀性,从而实现提高后续基于质心的算法聚类的准确。

37、性的技术效果。说明书6/18 页9CN 116610966 A90055作为一种可选的方案,对每一组样本组合进行筛选处理,得到K组筛选后的样本组合包括:0056S1,获取第i组样本组合中样本密度最大的第一数据样本,其中,i为小于K的正整数;0057S2,依次遍历第i组样本组合包括的全部数据样本,得到符合预设距离条件的目标数据样本,其中,第i组样本组合对应的筛选后的样本组合包括目标数据样本,预设距离条件用于指示目标数据样本与第一数据样本之间的余弦距离小于预设余弦距离阈值。0058可选地,在本实施例中,获取每一组样本组合中样本密度最大的第一数据样本,并将每一组样本组合中与对应第一数据样本的余弦距离。

38、小于预设余弦距离阈值的数据样本确定为各组样本组合的筛选后的样本组合,其中,样本密度用于指示数据样本的近邻样本总数与全部近邻样本与数据样本的余弦距离累积和的商。0059可选地,在本实施例中,数据样本X的样本密度的计算方式可以但不限于包括:0060数据样本X的样本密度(数据样本X的二阶Kn近邻样本总数)/所有二阶Kn近邻与X的余弦距离累加和;0061其中,数据样本X的二阶Kn近邻样本是:距离数据样本X最近(余弦距离)的Kn个邻居样本组成的集合为N1,N1中每个数据样本最近的Kn个邻居样本组成的集合为N2,集合N1与N2组成的并集为集合N_total,就和N_total中的样本为数据样本X的二阶Kn。

39、近邻样本,集合N_total中样本的个数即为数据样本X的二阶Kn近邻样本总数。0062通过本申请提供的实施例,获取第i组样本组合中样本密度最大的第一数据样本,其中,i为小于K的正整数;依次遍历第i组样本组合包括的全部数据样本,得到符合预设距离条件的目标数据样本,其中,第i组样本组合对应的筛选后的样本组合包括目标数据样本,预设距离条件用于指示目标数据样本与第一数据样本之间的余弦距离小于预设余弦距离阈值。0063作为一种可选的方案,获取第i组样本组合中样本密度最大的第一数据样本包括:0064S1,获取第i组样本组合包括的各个数据样本的样本密度,并从中确定出样本密度最大的第一数据样本;0065其中,。

40、获取第i组样本组合的当前数据样本的样本密度包括:0066S2,获取当前数据样本关联的P个第一近邻数据样本,其中,P个第一近邻数据样本在第i组样本组合中与当前数据样本的余弦距离最近,第i组样本组合包括P个第一近邻数据样本;0067S3,获取每一个第一近邻数据样本关联的P个第二近邻数据样本,其中,P个第二近邻数据样本在第i组样本组合中与第一近邻数据样本的余弦距离最近,第i组样本组合包括P个第二近邻数据样本;0068S4,对P个第一近邻数据样本和每一个第一近邻数据样本关联的P个第二近邻数据样本做并集处理,得到当前数据样本关联的目标近邻数据样本集合;0069S5,获取目标近邻数据样本集合包括的近邻数据。

41、样本的数量和值、以及获取目标近邻数据样本集合包括的各个近邻数据样本与当前数据样本的余弦距离的累加和值;0070S6,将数量和值和累加和值的商确定为当前数据样本的样本密度。0071可选地,在本实施例中,获取当前样本组合的各个数据样本的样本密度,并将样本说明书7/18 页10CN 116610966 A10密度最大的数据样本确定为当前样本组合的第一数据样本,以及将当前样本组合内的、与第一数据样本之间的余弦距离胡晓宇预设余弦距离阈值的其他数据样本去除,得到筛选后的样本组合。0072可选地,在本实施例中,数据样本X的样本密度的计算方式可以但不限于包括:0073数据样本X的样本密度(数据样本X的二阶Kn。

42、近邻样本总数)/所有二阶Kn近邻与X的余弦距离累加和;0074其中,数据样本X的二阶Kn近邻样本是:距离数据样本X最近(余弦距离)的Kn个邻居样本组成的集合为N1,N1中每个数据样本最近的Kn个邻居样本组成的集合为N2,集合N1与N2组成的并集为集合N_total,就和N_total中的样本为数据样本X的二阶Kn近邻样本,集合N_total中样本的个数即为数据样本X的二阶Kn近邻样本总数。0075进一步举例说明,如图3所示,距离数据样本A1余弦距离最近的2个邻居样本为数据样本A2、A3,则数据样本A1对应的集合N1为A2,A3;进一步,距离数据样本A2余弦距离最近的2个邻居样本为数据样本A4、。

43、A5,距离样本A3距离最近的2个邻居样本为数据样本A6、A7,则数据样本A1对应的集合N2为A4,A5,A6,A7,以及数据样本对应的集合N_total为A2,A3,A4,A5,A6,A7;进一步,数据样本A1的二阶Kn近邻样本总数为6,所有二阶Kn近邻与数据样本A1的余弦距离累加和为d21+d31+d41+d51+d61+d71,则数据样本A1的样本密度为6/(d21+d31+d41+d51+d61+d71)。0076通过本申请提供的实施例,获取第i组样本组合包括的各个数据样本的样本密度,并从中确定出样本密度最大的第一数据样本;其中,获取第i组样本组合的当前数据样本的样本密度包括:获取当前数。

44、据样本关联的P个第一近邻数据样本,其中,P个第一近邻数据样本在第i组样本组合中与当前数据样本的余弦距离最近,第i组样本组合包括P个第一近邻数据样本;获取每一个第一近邻数据样本关联的P个第二近邻数据样本,其中,P个第二近邻数据样本在第i组样本组合中与第一近邻数据样本的余弦距离最近,第i组样本组合包括P个第二近邻数据样本;对P个第一近邻数据样本和每一个第一近邻数据样本关联的P个第二近邻数据样本做并集处理,得到当前数据样本关联的目标近邻数据样本集合;获取目标近邻数据样本集合包括的近邻数据样本的数量和值、以及获取目标近邻数据样本集合包括的各个近邻数据样本与当前数据样本的余弦距离的累加和值;将数量和值和。

45、累加和值的商确定为当前数据样本的样本密度。0077作为一种可选的方案,从N个数据样本中确定出K组样本组合包括:0078S1,获取第j个样本组合关联的窗口中心,其中,窗口中心用于指示N个数据样本中的第(2j1)*N/2a个数据样本;0079S2,将N个数据样本中的第(2j1)*N/2a个数据样本至第(2j1)*N/2a+M1个数据样本在内的M个数据样本确定为第j个样本组合。0080可选地,在本实施例中,窗口中心可以但不限于用于指示样本组合(即窗口)内的第一次数据样本,即样本组合/窗口的起点位置。0081可选地,在本实施例中,每一组样本组合可以但不限于包括M个数据样本,其中,M个数据样本中的第一个。

46、样本为N个数据样本中的第(2j1)*N/2a个数据样本,M个数据样本中的第M个数据样本为N个数据样本中的第(2j1)*N/2a+M1个数据样本。0082通过本申请提供的实施例,获取第j个样本组合关联的窗口中心,其中,窗口中心说明书8/18 页11CN 116610966 A11用于指示N个数据样本中的第(2j1)*N/2a个数据样本;将N个数据样本中的第(2j1)*N/2a个数据样本至第(2j1)*N/2a+M1个数据样本在内的M个数据样本确定为第j个样本组合。0083作为一种可选的方案,获取每一组筛选后的样本组合的中心样本,并将中心样本确定为筛选后的样本组合的质心包括:0084S1,从筛选后。

47、的样本组合中选取一个数据样本作为初始质心近邻点;0085S2,从筛选后的样本组合的其他数据样本确定出满足预设相似条件的至少一个目标数据样本,其中,预设相似条件用于指示至少一个目标数据样本与初始质心近邻点之间的余弦相似度大于预设相似度阈值;0086S3,将至少一个目标数据样本的中心确定为中心样本。0087可选地,在本实施例中,初始质心近邻点可以但不限于为随机选取,至少一个目标数据样本的中心可以但不限于用于指示至少一个目标数据样本中的、与其他数据样本(指至少一个目标数据样本中的除当前数据样本之外的其他数据样本)之间的余弦距离的和值最小的数据样本。0088进一步举例说明,从筛选后的集合Dg中随机选择。

48、数据样本L1作为初始质心近邻点,并从集合Dg中确定出数据样本Li,以及将数据样本Li的中心确定为中心样本,即质心,其中,cos(Xi,X1)T2,Xi为数据样本Li对应的向量信息,X1为数据样本L1对应的向量信息,T2为预设余弦相似度阈值,用于指示预设相似度阈值。0089需要说明的是,在获取到每一个筛选后的样本组合的中心样本之后,中心样本确定为筛选后的样本组合的质心,累积得到K个质心,并基于K个质心,对数据样本集合进行聚类。0090通过本申请提供的实施例,从筛选后的样本组合中选取一个数据样本作为初始质心近邻点;从筛选后的样本组合的其他数据样本确定出满足预设相似条件的至少一个目标数据样本,其中,。

49、预设相似条件用于指示至少一个目标数据样本与初始质心近邻点之间的余弦相似度大于预设相似度阈值;将至少一个目标数据样本的中心确定为中心样本。0091作为一种可选的方案,获取数据样本集合包括:0092S1,获取待排序的初始数据样本集合,其中,初始数据样本集合包括无序排列的N个初始数据样本;0093S2,依次遍历N个初始数据样本,获取每一个初始数据样本的样本密度,并将样本密度最小的初始数据样本确定为边缘数据样本;0094S3,根据其他初始数据样本与边缘数据样本之间的余弦距离,对其他初始数据样本进行排序,并将排序后的初始数据样本集合确定为数据样本集合,其中,边缘数据样本位于边缘位置,与边缘数据样本之间的。

50、余弦距离越大的数据样本的位置,与边缘位置相距越远、且靠前中心位置。0095可选地,在本实施例中,数据样本集合可以但不限于包括N个有序排列的数据样本,可以但不限于对待排序的初始数据样本集合进行排序处理后得到的,其中,上述排序处理可以但不限于用于指示从初始数据样本中确定出样本密度最大的边缘数据样本,再基于其他初始数据样本与边缘数据样本之间的余弦距离,对其他初始数据样本进行排序,与边缘数据样本之间的余弦距离越大,则与边缘数据样本的边缘位置相距越远,且越靠近中心位置。说明书9/18 页12CN 116610966 A120096通过本申请提供的实施例,获取待排序的初始数据样本集合,其中,初始数据样本集。

展开阅读全文
内容关键字: 数据 方法 装置 处理器 电子设备
关于本文
本文标题:数据聚类方法、装置和处理器及电子设备.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/14331390.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1