面向公共网络重要数据补全的基于多模态嵌入交互的链接预测方法.pdf
《面向公共网络重要数据补全的基于多模态嵌入交互的链接预测方法.pdf》由会员分享,可在线阅读,更多相关《面向公共网络重要数据补全的基于多模态嵌入交互的链接预测方法.pdf(12页完成版)》请在专利查询网上搜索。
1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202310485326.7(22)申请日 2023.04.28(71)申请人 北京工业大学地址 100124 北京市朝阳区平乐园100号(72)发明人 吴迪唐滋芳李童杨震(74)专利代理机构 北京思海天达知识产权代理有限公司 11203专利代理师 刘萍(51)Int.Cl.G06N 5/01(2023.01)G06N 5/02(2023.01)G06F 18/22(2023.01)G06F 18/25(2023.01)G06F 18/24(2023.01)G06F 40/205(2020.01)。
2、G06F 40/30(2020.01)(54)发明名称面向公共网络重要数据补全的基于多模态嵌入交互的链接预测方法(57)摘要面向公共网络重要数据补全的基于多模态嵌入交互的链接预测方法,属于网络数据安全领域,解决现有交互方法随机生成嵌入向量从而限制模型挖掘更多有价值信息的问题,达到更好地融合公共网络中的多源异构数据及补全公共网络中的重要数据。该方法步骤如下:获取公共网络重要数据的知识图谱数据集及重要数据的文本描述信息;文本嵌入模型训练;结构嵌入模型训练;交替拼接;特征降维;特征重排;循环卷积和预测尾实体向量。本方法在嵌入交互方法的基础上,利用重要数据的多模态信息,解决了面向公共网络多源异构数据的。
3、难以融合与补全的问题,在预测重要数据的准确率有提升。权利要求书3页 说明书7页 附图1页CN 116611509 A2023.08.18CN 116611509 A1.面向公共网络重要数据补全的基于多模态嵌入交互的链接预测方法,其特征在于,步骤如下:步骤(1)获取公共网络重要数据的知识图谱数据集;从不同的公共网络数据集网站收集信息,然后将数据集相关信息汇总到excel表格中,相关信息包括:数据集领域、数据集名称、下载地址、数据类型、数据集介绍、数据量规模、是否有标签、是否可下载信息;数据集表示为三元组形式(头实体、关系、为实体),其中头实体用h表示,关系用r表示,尾实体用t表示;三元组分为正样。
4、本和负样本,存在两个三元组(h1,r1,t1)和(h2,r2,t2),给定一个头实体h1和关系r1去预测尾实体,预测正确为正样本组(h1,r1,t1),预测错误为负样本(h1,r1,t2);步骤(2)文本嵌入;嵌入重要数据的文本信息目的是通过文本嵌入方法处理文本类型数据得到实体的文本嵌入向量;输入是在公共网络中收集到与Freebase数据集中与重要数据相关的文本描述信息,使用基于BERT的查询编码对文本描述进行处理,以获得实体文本嵌入向量Se;将重要数据的文本描述句子打包为单个输入标记序列;每个输入标记序列包含多个句子,使用唯一的标记SEP来分隔句子;输入表示通过对相应的、标记、段和位置嵌入求。
5、和来构建;标记嵌入ew由WordPiece嵌入生成;不同的元素由SEP区分,因此它们包含不同的段嵌入es;位置嵌入ep是位置大小到低维稠密向量的映射;每个输入标记都有一个位置嵌入表示,不同的标记在相同的位置包含相同的位置嵌入;每个输入序列中的第一个标记是一个唯一的分类标记CLS;与此标记相对应的最终隐藏状态是实体文本嵌入向量;步骤(3)结构嵌入;在结构嵌入中,利用TransD结构嵌入对三元组进行训练,得到满足结构h+rt的实体结构嵌入向量Se和关系结构嵌入向量Sr;TransD使用两个向量来表示每个实体和关系;第一个向量表示实体或关系的含义,另一个投影向量将用于构建映射矩阵;给定三元组(eh,。
6、er,et),其中,eh代表随机初始化的头实体嵌入向量,er代表随机初始化的关系嵌入向量,et代表随机初始化的尾实体嵌入向量;TransD将头部和尾部实体映射到关系空间,分别得到实体的映射矩阵和关系的映射矩阵其中,表示对头实体嵌入向量eh执行转置操作,Imn表示单位矩阵,表示对尾实体嵌入向量et执行转置操作;映射矩阵既与实体相关也与关系相关;分别是头实体和尾实体的映射向量;得分函数f(tr)表示头实体的映射向量加上关系向量er与尾实体的映射向量之间的误差;因此,通过计算头部和尾部实体的映射向量最小化目标函数SEP:fr|E;权利要求书1/3 页2CN 116611509 A2fr|ehE|et。
7、E其中是边界参数,用于限制关系嵌入空间中实体和关系之间的相对位置的参数,通常情况下,可以将边界参数随机初始化为0.001,0.001之间的随机数;在训练过程中,模型通过优化损失函数来学习实体和关系之间的嵌入式表示,并通过更新边界参数来限制实体和关系之间的相对位置关系;E是数据集中所有的实体集合;fr是训练数据集中的正样本集合;fr是损坏的三元组负样本集合,它是通过将正样本集合fr中有效三元组的头实体eh或尾实体et随机替换成实体集合中的任意头实体eh或尾实体et而产生的;步骤(4)交替拼接模块;交替拼接模型使用交替排列向量中的元素的方式将实体文本嵌入向量Te与结构嵌入向量Se进行拼接得到矩阵C。
8、;步骤(5)特征降维模块;实体嵌入向量Te,Se通过使用特征降维方法被映射到200维,得到实体嵌入向量Je;特征降维首先对矩阵C进行中心化操作;其中,是中心化的数据矩阵,X是文本嵌入向量的维度与结构嵌入向量维度的总数,Ci是矩阵C中第i个元素;接下来,计算中心化数据矩阵 的协方差矩阵:表示协方差矩阵;然后,通过特征值分解可以得到协方差矩阵的特征值和特征向量:表示特征值,v表示对应的特征向量;最后,将原始矩阵C投影到由第一个200维特征向量v1,v2,,v200构成的空间中,得到降维后的实体嵌入向量Je:步骤(6)特征重排模块;方法将实体嵌入向量Je和关系嵌入向量Sr重排为不同的矩阵方式;特征重。
9、排的第一步是对实体和关系嵌入向量进行元素随机排序,生成 不同的向量表示,旨在从不同角度交替拼接实体和关系嵌入向量产生的交互信息;第二步是按元素交替拼接两个嵌入向量;第三步是将拼接后的向量重新排列成不同的矩阵作为循环卷积的输入;步骤(7)循环卷积模块;利用循环卷积神经网络训练重构的置换向量;循环卷积模块为文本和结构嵌入向量提供了统一的嵌入空间;循环卷积将每个重排堆叠为一个单独的通道;以一种深度的方式将循环卷积应用于卷积层的循环填充;它通过分别用卷积核大小的一半的向量填充矩阵的顶部和底部来扩展矩阵的大小;同时使用的归一化函数和激活函数用于防止梯度爆炸;然后,通过隐藏层来防止过拟合,最后,使用激活函。
10、数进行反向传播;步骤(8)映射到向量空间模块;Pk是使用交替连接和特征降维将实体文本嵌入向量Je与结构嵌入向量Sr连接起来得到的拼接向量;接下来,采用特征重排操作()对实体和关系的拼接向量Pk进行排列;表示深度循环卷积操作,使用过滤器w连接的实体关系作为卷积层的输入;vec()将得到的特征映射张量向量化;eo表示目标实体嵌入矩阵;函数f()和g()分别是ReLU激活函数和sigmoid激活函数;模型通过矩阵参数W的线性转移将g()映射到向量空间;通过矩阵乘法与目标实体嵌入矩阵eo相乘得到最终的预测分数;权利要求书2/3 页3CN 116611509 A3 g(vec(f(Pk)w)W)eo。2。
11、.根据权利要求1所述的面向公共网络重要数据补全的基于多模态嵌入交互的链接预测方法,其特征在于:步骤(24)具体使用交替拼接算法充分融合公共网络重要数据中的多源异构信息,得到重要数据实体和关系的最优嵌入向量表示,从而更好地融合多源异构数据和补全公共网络中的重要数据信息。权利要求书3/3 页4CN 116611509 A4面向公共网络重要数据补全的基于多模态嵌入交互的链接预测方法技术领域0001本发明涉及一种面向公共网络重要数据补全的基于多模态嵌入交互的链接预测方法。背景技术0002网络数据安全管理对规范网络数据处理活动,保护个人、组织在网络空间的合法权益,维护国家安全和公共利益具有重要意义。针对。
12、公共网络重要数据的分析,面临数据多源异构,数据量庞大,且完整性缺失等挑战。研究基于知识图谱和深度学习技术实现对互联网公共数据资源的扫描和补全。知识图谱(Knowledge graph,KG)的本质是一个语义网络,其中网络中的节点表示实体或概念,网络中的边表示实体或概念之间的各种语义关系。知识图谱利用实体和关系可以很好地解决公共网络重要数据多源异构,完整性缺失等问题。一个典型的知识图谱通常是多关系数据集,其中包含大量的事实,如图1所示,三元组(威廉莎士比亚,出生地,英国)表示莎士比亚出生于英国这个事实。然而,现有的知识图谱大多是不完整的。随着互联网中可用信息的增加,这个问题变得更加严重。知识图谱。
13、相关应用如推荐、搜索等的性能更是严重依赖于知识图谱的补充。因此,完善知识图谱的需求变得更加迫切。链接预测(又称知识图谱补全)可以根据知识图谱中的已知事实预测未知事实,可以有效地改进知识图谱的预测和推理性能。面向公共网络重要数据的知识图谱嵌入(Knowledge graph embedding,KGE)是一种有效的链接预测方法,它通过将知识图谱中的实体(Entity)和关系(Relation)嵌入到连续向量空间,从而在方便计算的同时保留知识图谱中的结构信息。具体来说,KGE旨在通过一个判别器来学习实体和关系的表示嵌入,该判别器自动将高分数分配给有效三元组,将低分数分配给无效三元组。0003基于知。
14、识图谱,深度学习等技术对公共网络中多源异构数据进行快速扫描与融合。研制一种基于多模态嵌入交互的链接预测方法,缓解数据缺失的问题,为公共网络中重要数据发现奠定数据基础。面向公共重要数据的知识图谱嵌入可以分为基于翻译距离,基于文本和基于神经网络三种。基于翻译距离的KGE方法如TransE、TransH、TransR、TransD和TransA等将知识图谱中的内部结构信息用于表示学习。然而,这些模型独立地处理每一个三元组事实,因而不能充分捕捉三元组丰富的语义信息。基于文本的知识图谱嵌入可以增强实体和关系向量的语义表示,提高模型的语义准确率。一些研究人员引用了结合文本和结构信息使实体表示更具有语义。然。
15、而,这些模型依赖单层挖掘来训练得分函数,在嵌入向量表示方面存在局限性。而神经网络的优点是使用多层网络结构来改善相同参数下参数的表达方式。许多现有模型使用不同的神经网络架构来学习KGE如ConvE和InteractE使用卷积神经网络来挖掘实体和关系嵌入的特征。这些模型可以通过增加实体和关系嵌入向量之间可能的交互作用来增强模型的表示能力,从而有利于提高链接预测的性能。但是,在基于卷积神经网络的知识图谱嵌入方法的嵌入交互过程中,实体和关系的嵌入向量是随机生成的,不具有任何语义信息。从而限制了卷积神经网络挖掘实体和关系之间的不同方面,无法说明书1/7 页5CN 116611509 A5很好地从实体和关。
16、系嵌入向量中挖掘到更多有价值的信息,限制了模型提高链接预测准确度的能力。发明内容0004本发明用于解决面向公共网络多源异构数据的难以融合与补全问题,具体提出了一种面向公共网络重要数据补全的基于多模态嵌入交互的链接预测方法。该方法结合公共网络重要数据中多源异构数据来增强捕获实体和关系嵌入向量特征交互的质量,从而提高公共网络知识图谱的链接预测精度,进一步提高公共网络多源异构数据的融合和补全能力。0005为实现上述目的,本发明采用的技术方案是基于多模态嵌入交互的链接预测方法(MEILP),在MEILP模型中,输入为公共网络中重要数据的文本描述信息和公共网络知识图谱数据集,方法流程图如图2所示,该方法。
17、的实现步骤如下:0006步骤(1)获取公共网络重要数据的知识图谱数据集;从不同的公共网络数据集网站收集信息,然后将数据集相关信息汇总到excel表格中,相关信息包括:数据集领域、数据集名称、下载地址、数据类型、数据集介绍、数据量规模、是否有标签、是否可下载等信息。通过汇总这些相关信息,对数据集的基础信息有了全面认识。共收集144个数据集。基于数据集是否有标签,筛选出132个,共计11个公共网络领域数据,包括安全,地址交通,电商,计算机科学,互联网,金融,汽车,烟草,医疗健康,人文和自然科学等领域,约2787.6G数据(数据大小根据实际情况确定即可),数据类型有文本、图像、音频与视频。在本项研究。
18、中,考虑到人文领域数据集(Freebasedataset)的数据类型统一,语义信息丰富,适合做知识融合与知识图谱补全等相关研究。故本研究以Freebase中的数据为基础进行研究。Freebase数据集为三元组形式(头实体、关系、尾实体),其中头实体用表示,关系用r表示,尾实体用t表示。三元组分为正样本和负样本,例如,存在两个三元组(h1,r1,t1)和(h2,r2,t2),给定一个头实体h1和关系r1去预测尾实体,预测正确为正样本组(h1,r1,t1),预测错误为负样本(h1,r1,t2);0007步骤(2)文本嵌入;嵌入重要数据的文本信息目的是通过文本嵌入方法处理文本类型数据得到实体的文本嵌。
19、入向量;输入是在公共网络中收集到与Freebase数据集中与重要数据相关的文本描述信息,文本嵌入过程采用BERT(Bidirectional Encoder Representation from Transformers)方法。BERT已经被证实是强大的自然语言处理模型,可以充分地保留文本描述中的重要数据信息。为此,使用基于BERT的查询编码对文本描述进行处理,以获得高质量的实体文本嵌入向量Se;在原始BERT中,“句子”可以是任何范围的连续文本或单词序列,而不是实际的语言句子。相反,本方法是将重要数据的文本描述句子打包为单个输入标记序列。每个输入标记序列包含多个句子,使用唯一的标记SEP来。
20、分隔句子。输入表示通过对相应的、标记、段和位置嵌入求和来构建。标记嵌入et由WordPiece嵌入生成。不同的元素由SEP区分,因此它们包含不同的段嵌入es。位置嵌入ep是位置大小到低维稠密向量的映射。每个输入标记都有一个位置嵌入表示,不同的标记在相同的位置包含相同的位置嵌入。每个输入序列中的第一个标记是一个唯一的分类标记CLS。与此标记相对应的最终隐藏状态是实体文本嵌入向量。0008步骤(3)结构嵌入;嵌入Freebase数据集中重要数据知识图谱的结构信息目的是说明书2/7 页6CN 116611509 A6得到实体的结构嵌入向量;在结构嵌入中,利用TransD结构嵌入对三元组进行训练,得到。
21、满足结构h+rt的实体结构嵌入向量Se和关系结构嵌入向量Sr。TransD构建一个低维连续向量来描述KG的语义信息。生成的嵌入捕获了嵌入空间中实体之间的语义相似性。在结构嵌入模块中,使用标准化的TransD模型学习链接预测的结构嵌入,使实体结构嵌入向量Se和关系结构嵌入向量Sr保存预测的结构信息。由于TransD同时考虑了关系和实体的多样性,因此能很好地保持嵌入向量的特征多样性。利用TransD训练得到的向量,可以在后续交互过程中挖掘实体关系的各个特征。TransD使用两个向量来表示每个实体和关系。第一个向量表示实体或关系的含义,另一个投影向量将用于构建映射矩阵。给定三元组(eh,er,et)。
22、,其中,eh代表随机初始化的头实体嵌入向量,er代表随机初始化的关系嵌入向量,et代表随机初始化的尾实体嵌入向量;TransD将头部和尾部实体映射到关系空间,分别得到实体的映射矩阵和关系的映射矩阵其中,表示对头实体嵌入向量eh执行转置操作,Imn表示单位矩阵,表示对尾实体嵌入向量et执行转置操作。映射矩阵既与实体相关也与关系相关;分别是头实体和尾实体的映射向量。得分函数f(tr)表示头实体的映射向量加上关系向量er与尾实体的映射向量之间的误差;因此,通过计算头部和尾部实体的映射向量最小化目标函数SEP:fr|E;fr|ehE|etE其中是边界参数,用于限制关系嵌入空间中实体和关系之间的相对位置。
23、的参数,通常情况下,可以将边界参数随机初始化为0.001,0.001之间的随机数。在训练过程中,模型通过优化损失函数来学习实体和关系之间的嵌入式表示,并通过更新边界参数来限制实体和关系之间的相对位置关系。E是数据集中所有的实体集合。fr是训练数据集中的正样本集合;fr 是损坏的三元组负样本集合,它是通过将正样本集合fr中有效三元组的头实体eh或尾实体et随机替换成实体集合中的任意头实体eh或尾实体et而产生的;0009步骤(4)交替拼接模块;联合重要数据的文本信息和结构信息的知识图谱嵌入有助于增强特征交互,从而挖掘不同的特征实现融合公共网络中的多源异构数据和补全重要数据知识图谱的目的。为了更好。
24、地保留嵌入向量的文本和结构信息,设计了交替拼接模型来组合实体文本嵌入向量和实体结构嵌入向量。由于文本和结构嵌入向量的训练空间是不同的,所以使用简单的求和操作或注意加权求和操作,将文本嵌入向量加入结构嵌入向量。说明书3/7 页7CN 116611509 A7然而,事实是每个维度代表不同的特征,加和的操作并不能提供关于文本和结构的良好信息。为了更好地保留文本和结构信息,交替连接模型使用交替形式将实体文本嵌入向量Te与结构嵌入向量Se进行缝合,这样就很好地保留了重要数据的文本和结构信息。0010步骤(5)特征降维模块;实体嵌入向量Te,Se通过使用特征降维方法被映射到200维,得到实体嵌入向量Je。。
25、最后,对Je和Sr进行交叉排列,使得没有两个相邻的单元被嵌入到同一个向量中。本方法通过结合实体嵌入向量Je和关系嵌入向量Sr进行联合交互学习。实体嵌入向量Te,Se通过使用特征降维方法被映射到200维,得到实体嵌入向量Je;特征降维首先对矩阵C进行中心化操作。其中,是中心化的数据矩阵,X是文本嵌入向量的维度与结构嵌入向量维度的总数,Ci是矩阵C中第i个元素。接下来,计算中心化数据矩阵的协方差矩阵:表示协方差矩阵。然后,通过特征值分解可以得到协方差矩阵的特征值和特征向量:表示特征值,表示对应的特征向量。最后,将原始矩阵C投影到由第一个200维特征向量v1,v2,,v200构成的空间中,得到降维后。
26、的实体嵌入向量Je。0011步骤(6)特征重排模块;方法将实体嵌入向量J5和关系嵌入向量Sr重排为不同的矩阵方式;特征重排的第一步是对实体和关系嵌入向量进行元素随机排序,生成不同的向量表示,旨在从不同角度交替拼接实体和关系嵌入向量产生的交互信息。第二步是按元素交替拼接两个嵌入向量。第三步是将拼接后的向量重新排列成不同的矩阵作为循环卷积的输入。0012步骤(7)循环卷积模块;利用循环卷积神经网络训练重构的置换向量。循环卷积模块为文本和结构嵌入向量提供了统一的嵌入空间。使文本嵌入向量与结构信息充分交互以捕获更多特征。循环卷积可以改善特征交互,已成功应用于图像识别等任务。循环卷积将每个重排堆叠为一个。
27、单独的通道。以一种深度的方式将循环卷积应用于卷积层的循环填充。它通过分别用卷积核大小的一半的向量填充矩阵的顶部和底部来扩展矩阵的大小。同时使用的归一化函数和激活函数用于防止梯度爆炸。然后,通过隐藏层来防止过拟合,最后,使用激活函数进行反向传播。0013步骤(8)映射到向量空间模块;映射到向量空间模块;Pk是使用交替连接和特征降维将实体文本嵌入向量Je与结构嵌入向量Sr连接起来得到的拼接向量;采接下来,采用特征重排操作()对实体和关系的拼接向量Pk进行排列;表示深度循环卷积操作,使用过滤器w连接的实体关系作为卷积层的输入;vec()将得到的特征映射张量向量化;eo表示目标实体嵌入矩阵。函数f()。
28、和g()分别是ReLU激活函数和sigmoid激活函数。模型通过矩阵参数W的线性转移将g()映射到向量空间;通过矩阵乘法与目标实体嵌入矩阵eo相乘得到最终说明书4/7 页8CN 116611509 A8的预测分数;(o)g(vec(f(Pk)w)W)eo本方法在基于交互的知识图谱嵌入方法的基础上,利用了公共网络重要数据的多源异构信息,改进原有方法的学习效果,解决了面向公共网络多源异构数据的难以融合与补全问题。使用基于多模态嵌入交互的循环卷积模型性能比原来的基于交互的方法性有显著提升。附图说明0014图1为知识图谱示意图0015图2为本方法流程图具体实施方式0016本发明的目的在于提出一种面向公。
29、共网络重要数据的基于多模态嵌入交互的链接预测方法,在嵌入交互的基础上,利用重要数据的多源异构信息产生更准确的预测结果,从而融合公共网络中的多源异构数据和补全公共网络的重要数据信息。0017为了实现上述目标,本发明采用的技术方案是基于多模态嵌入交互的链接预测方法,如图2所示。该方法的实现步骤如下:0018步骤(1)获取公共网络重要数据的知识图谱数据集及重要数据的文本描述信息:0019公共网络知识图谱数据集表示为三元组形式(头实体、关系、为实体),其中头实体用表示,关系用r表示,尾实体用t表示。例如(莎士比亚,作者,罗密欧与朱丽叶)表示莎士比亚是 罗密欧与朱丽叶 的作者。在本研究中,使用知识图谱数。
30、据集FB15k237和WN18RR来验证提出的交互方法,从而证明本模型可以更好地融合公共网络中的多源异构信息和补全公共网络中的重要数据。FB15k237主要来源于Freebase数据集,其中很大一部分内容描述了关于电影、演员、奖项和体育的知识事实。WN18RR是英语词汇数据库WordNet。其中FB15k237有14496个实体,表示,237个关系,训练集有272115个三元组,验证集有17535个三元组,测试机有20466个三元组。WN18RR数据集有40943个实体,11个关系,训练集有86835个三元组,验证集有3034个三元组,测试集有3134个三元组。重要数据的文本描述信息来源于维基。
31、百科及公共网络中收集到的数据信息。0020步骤(2)根据数据集将三元组划分为正负样本集合;0021由于重要数据的知识图谱数据集中只记录了符合事实的三元组,而缺少不符合事实的三元组,所以,需要对每个实体划分为正负样本三元组集合。其中实体的正样本三元组集合使用ft表示,负样本集合使用ft 表示。0022步骤(3)重要数据的文本嵌入模块;输入是重要数据的文本描述信息,文本嵌入过程采用BERT方法。BERT已经被证实是强大的自然语言处理模型,可以充分地保留文本描述中的重要数据信息。为此,使用基于BERT的查询编码对文本描述进行处理,以获得高质量的重要数据的文本嵌入向量;0023步骤(4)重要数据的结构。
32、嵌入模块;利用TransD结构嵌入对三元组进行训练,得到满足结构h+rt的实体和关系结构嵌入向量Se和Sr。TransD构建一个低维连续向量来描述KG的语义信息。生成的嵌入捕获了嵌入空间中实体之间的语义相似性。在结构嵌入模块中,说明书5/7 页9CN 116611509 A9使用标准化的TransD模型学习链接预测的结构嵌入,使实体结构嵌入向量Se和关系结构嵌入向量Sr保存预测的结构信息。0024步骤(5)交替拼接模块;联合重要数据的文本信息和结构信息的知识图谱嵌入有助于增强特征交互,从而挖掘不同的特征。为了更好地保留嵌入向量的文本和结构信息,设计了交替拼接模型来组合实体文本嵌入向量和实体结构。
33、嵌入向量。由于文本和结构嵌入向量的训练空间是不同的,所以使用简单的求和操作或注意加权求和操作,将文本嵌入向量加入结构嵌入向量。然而,事实是每个维度代表不同的特征,和的操作并不能提供关于文本和结构的良好信息。为了更好地保留文本和结构信息,交替拼接模型使用交替的形式将实体文本嵌入向量Te与结构嵌入向量Se进行拼接,这样就很好地保留了重要数据的文本和结构信息。0025步骤(6)特征降维模块;实体嵌入向量Te,Se通过使用特征降维方法被映射到200维得到降维后的实体嵌入向量Je。0026步骤(7)特征重排模块;对实体嵌入向量Je和关系嵌入向量Sr进行交叉排列,使得没有两个相邻的单元被嵌入到同一个向量中。
34、,这对预测结果是有帮助的。因此,本方法通过结合实体嵌入向量Je和关系嵌入向量Sr通过不同的排列方式排列成不同的矩阵形式。0027步骤(8)循环卷积模块;利用循环卷积神经网络训练重构的置换向量。循环卷积嵌入为文本和结构嵌入向量提供了统一的嵌入空间。使文本嵌入向量与结构信息充分交互以捕获更多特征。循环卷积可以改善特征交互,已成功应用于图像识别等任务。循环卷积将每个重排堆叠为一个单独的通道。以一种深度的方式将循环卷积应用于卷积层的循环填充。它通过分别用卷积核大小的一半的向量填充矩阵的顶部和底部来扩展矩阵的大小。同时使用的归一化函数和激活函数用于防止梯度爆炸。然后,通过隐藏层来防止过拟合,最后,使用激。
35、活函数进行反向传播。0028步骤(9)映射到向量空间模块;映射到向量空间模块;Pk是使用交替连接和特征降维将实体文本嵌入向量Je与结构嵌入向量Sr连接起来得到的拼接向量;采接下来,采用特征重排操作()对实体和关系的拼接向量Pk进行排列;表示深度循环卷积操作,使用过滤器w连接的实体关系作为卷积层的输入;vec()将得到的特征映射张量向量化;eo表示目标实体嵌入矩阵。函数f()和g()分别是ReLU激活函数和sigmoid激活函数。模型通过矩阵参数W的线性转移将g()映射到向量空间;通过矩阵乘法与目标实体嵌入矩阵e0相乘得到最终的预测分数;g(vec(f(Pk)w)W)eo0029步骤(10)确定。
36、评价指标;使用过滤设置,即在评估测试三元组时,从候选集中过滤掉所有有效的三元组,这是通过损坏三元组的头或尾实体生成的。对于测试三元组(h,r,t),KGE任务的目的是预测缺失的链接,例如,给定头实体h和关系r预测尾实体t,或给定尾实体t和关系r预测头实体h。在标准评估指标上报告性能:平均倒数排名(MRR)、平均排名(MR)和Hits1(前1个预测的准确性)和Hits10(前10个预测的准确性)。MR越低,MRR越高,Hits10和Hits1越高表示性能越好。遵循 过滤 设置协议来评估模型,即对所有实体进行排名,排除出现在训练、验证和测试集中的其他真实实体集。0030步骤(11)实验参数设置;在。
37、MEILP模型中,根据验证集上的MRR值,通过网格搜索选择模型参数。从(0.1,0.5)范围中选择丢弃率(dropoutrate),从(0.0001,0.001)范围内中说明书6/7 页10CN 116611509 A10选择学习率,从32,64,128,256,512中选择了批量大小,从(1,10)范围内中选择了平滑参数 。本实验设置具体是每轮训练负样本个数为1000,批量大小设置为256,迭代次数为500,嵌入维度是200维。最后,根据MRR指标与退火测试,FB15k237数据集的学习率设置为0.0001,在卷积模块中,每个卷积操作的滤波器数量设置为96,卷积核大小是9,卷积通道数量为1,。
38、输入层的丢失率为0.2,隐藏层的丢失率为0.5和特征的丢失率为0.5。WN18RR数据集的学习率设置为0.001,在卷积模块中,每个卷积操作的滤波器数量设置为96,卷积核大小是11,卷积通道数量 为4,输入层的丢失率为0.2,隐藏层的丢失率为0.3和特征的丢失率为0.2。面向公共网络重要数据补全的基于多模态嵌入交互的链接预测方法能够产生比现有方法更好的预测结果,实验结果说明通过重要数据中头实体和关系能够准确地预测尾实体,从而完善公共网络中重要数据的信息。表1绘制了面向公共网络中重要数据补全的基于多模态嵌入交互的链接预测模型(MEILP)与现有方法的比较。在FB15k237数据集上,MEILP在。
39、MRR、MR和Hits1上明显优于基线,在Hits10上次于TECRL,这表明了增强交互的重要性。在WN18RR数据集上,MEILP模型在MRR、MR和Hits10上取得了最先进的性能,比最新的基线模型的MR提高了70以上。(2)在FB15K237和WN18RR数据集上,融合重要数据的文本信息的TECRL、MEILP和DKRL模型在Hits10和MR上的表现优于其他算法。这表明,添加重要数据的文本描述信息可以导致正确实体的排名更高。(3)SACN、TECRL和MEILP模型将翻译模型与卷积网络架构相结合,在Hits10上的FB15K237和WN18RR数据集上取得了比卷积网络模型RSN、RotatE、ConvE、ConvR和InteractE更好的结果。通过改进展示了学习知识图谱中实体结构特征的优势。这验证了重要数据的多模态信息可以有效增强实体和关系之间的交互,提高链接预测精度的假设。总之,本文证明了MEILP的有效性,可以很好地补全重要数据信息。表1:实验结果说明书7/7 页11CN 116611509 A11图1图2说明书附图1/1 页12CN 116611509 A12。
- 内容关键字: 面向 公共 网络 重要 数据 基于 多模态 嵌入 交互 链接 预测 方法
链接地址:https://www.zhuanlichaxun.net/pdf/14333366.html