文本相似度确定方法、装置、设备及存储介质.pdf

上传人:小** 文档编号:10123018 上传时间:2021-06-04 格式:PDF 页数:30 大小:1.35MB
收藏 版权申诉 举报 下载
文本相似度确定方法、装置、设备及存储介质.pdf_第1页
第1页 / 共30页
文本相似度确定方法、装置、设备及存储介质.pdf_第2页
第2页 / 共30页
文本相似度确定方法、装置、设备及存储介质.pdf_第3页
第3页 / 共30页
文档描述:

《文本相似度确定方法、装置、设备及存储介质.pdf》由会员分享,可在线阅读,更多相关《文本相似度确定方法、装置、设备及存储介质.pdf(30页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202011009879.8 (22)申请日 2020.09.23 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南山区高新区 科技中一路腾讯大厦35层 (72)发明人 向玥佳刘博陈曦林镇溪 文瑞管冲高文龙孙继超 张子恒徐超杨奕凡张云燕 (74)专利代理机构 北京三高永信知识产权代理 有限责任公司 11138 代理人 徐立 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/216(2020.01) G06K 9/62。

2、(2006.01) G06F 16/35(2019.01) (54)发明名称 文本相似度确定方法、 装置、 设备及存储介 质 (57)摘要 本申请公开了一种文本相似度确定方法、 装 置、 设备及存储介质, 属于人工智能技术领域。 所 述方法包括: 获取第一文本; 确定第一文本中包 含的要素词; 对于N个要素种类中的目标要素种 类, 获取第一文本中属于目标要素种类的各个目 标要素词与第二文本中属于目标要素种类的各 个目标要素词之间的字词相似度; 基于字词相似 度, 确定第一文本与第二文本在目标要素种类上 的相似度; 基于第一文本与第二文本在N个要素 种类上的相似度, 确定第一文本与第二文本之间 。

3、的相似度。 本申请实施例提供的技术方案, 从要 素词相似的角度确定不同文本在各个要素种类 上的相似度, 进而确定不同文本的相似度, 提升 了不同文本间相似度确定的准确性, 扩大了适用 范围。 权利要求书3页 说明书22页 附图4页 CN 112149414 A 2020.12.29 CN 112149414 A 1.一种文本相似度确定方法, 其特征在于, 所述方法包括: 获取第一文本; 确定所述第一文本中包含的要素词, 所述要素词是指属于预定义的N个要素种类中的 任一要素种类的字词, 所述N为正整数; 对于所述N个要素种类中的目标要素种类, 获取所述第一文本中属于所述目标要素种 类的各个目标要。

4、素词与第二文本中属于所述目标要素种类的各个目标要素词之间的字词 相似度; 基于所述字词相似度, 确定所述第一文本与所述第二文本在所述目标要素种类上的相 似度; 基于所述第一文本与所述第二文本在所述N个要素种类上的相似度, 确定所述第一文 本与所述第二文本之间的相似度。 2.根据权利要求1所述的方法, 其特征在于, 所述获取所述第一文本中属于所述目标要 素种类的各个目标要素词与第二文本中属于所述目标要素种类的各个目标要素词之间的 字词相似度, 包括: 对于所述第一文本中的第一目标要素词和所述第二文本中的第二目标要素词, 从相似 度矩阵中查找获取所述第一目标要素词与所述第二目标要素词之间的字词相似。

5、度; 其中, 所述相似度矩阵中包括所述目标要素种类包含的各个目标要素词中两两之间的 字词相似度。 3.根据权利要求2所述的方法, 其特征在于, 所述从相似度矩阵中查找获取所述第一目 标要素词与所述第二目标要素词之间的字词相似度之前, 还包括: 获取所述目标要素种类包含的各个要素词相互之间的上下位关系; 基于所述上下位关系, 构造所述目标要素种类的要素词结构树, 所述目标要素种类包 含的各个要素词分布在所述要素词结构树的各个节点上, 所述要素词结构树包括具有父子 关系的第一节点和第二节点, 所述第一节点上的要素词是所述第二节点上的要素词的上位 词, 所述第二节点上的要素词是所述第一节点上的要素词。

6、的下位词; 基于所述要素词结构树中所述各个节点之间的位置关系, 确定所述相似度矩阵, 所述 相似度矩阵中的元素反映所述元素所在行对应的要素词与所述元素所在列对应的要素词 之间的字词相似度。 4.根据权利要求3所述的方法, 其特征在于, 所述基于所述要素词结构树中所述各个节 点之间的位置关系, 确定所述相似度矩阵, 包括: 对所述目标要素种类i包含的n个要素词进行排序, 得到所述n个要素词的排列次序, 所 述排列次序用于确定所述n个要素词在所述相似度矩阵中对应的行序或者列序, 所述相似 度矩阵为nn的矩阵, 所述i、 所述n为正整数; 在所述第x行对应的要素词vx与所述第y列对应的要素词vy为同。

7、一要素词的情况下, 确 定位于所述相似度矩阵中第x行、 第y列的元素的值为1, 所述x、 y均为小于或者等于所 述n的正整数; 在所述第x行对应的所述要素词vx与所述第y列对应的所述要素词vy之间为冲突关系的 情况下, 确定所述元素的值为0, 所述冲突关系是指不存在所述上下位关系的要素词之 权利要求书 1/3 页 2 CN 112149414 A 2 间的关系; 在所述第x行对应的要素词vx与所述第y列对应的要素词vy之间具有所述上下位关系的 情况下, 基于所述要素词vx与所述要素词vy在所述要素词结构树中的距离, 确定所述元素 的值。 5.根据权利要求1所述的方法, 其特征在于, 所述确定所。

8、述第一文本与所述第二文本在 所述目标要素种类上的相似度, 包括: 对各个所述字词相似度进行求和处理, 得到字词相似度和; 将所述字词相似度和与所述第二文本中属于所述目标要素种类的目标要素词的数量 相除, 得到所述目标要素种类上所述第一文本对所述第二文本的覆盖率; 将所述字词相似度和与所述第一文本中属于所述目标要素种类的目标要素词的数量 相除, 得到所述目标要素种类上所述第二文本对所述第一文本的覆盖率; 对于所述目标要素种类, 将所述第一文本对所述第二文本的覆盖率, 与所述第二文本 对所述第一文本的覆盖率相乘, 得到所述第一文本与所述第二文本在所述目标要素种类上 的相似度。 6.根据权利要求1所。

9、述的方法, 其特征在于, 所述基于所述第一文本与所述第二文本在 所述N个要素种类上的相似度, 确定所述第一文本与第二文本之间的相似度, 包括: 基于所述第一文本与所述第二文本在所述N个要素种类上的相似度, 生成所述第一文 本与所述第二文本之间的相似度向量, 所述相似度向量用于从所述N个要素种类的角度评 估所述第一文本与第二文本之间的差异程度; 将所述相似度向量与要素权重向量进行点乘处理, 得到加权相似度值, 所述要素权重 向量中包括反映所述N个要素种类各自的重要程度的权重值, 所述加权相似度值用于从整 体角度评估所述第一文本与所述第二文本之间的差异程度。 7.根据权利要求6所述的方法, 其特征。

10、在于, 所述将所述相似度向量与要素权重向量进 行点乘处理之前, 还包括: 获取所述第一文本与所述第二文本中属于所述目标要素种类的各个目标要素词的词 权重值, 所述词权重值反映要素词在文本中的重要程度; 基于所述词权重值, 确定所述目标要素种类的要素权重值; 基于所述N个要素种类各自的要素权重值, 生成所述要素权重向量。 8.根据权利要求7所述的方法, 其特征在于, 所述获取所述第一文本与所述第二文本中 属于所述目标要素种类的各个目标要素词的词权重值, 包括: 获取所述第一文本与所述第二文本中属于所述目标要素种类的各个目标要素词的词 频以及逆文本频率指数, 所述词频用于指示要素词在文本中出现次数。

11、, 所述逆文本频率指 数用于度量要素词的普遍重要性; 基于所述词频以及所述逆文本频率指数, 确定所述第一文本与所述第二文本中属于所 述目标要素种类的各个目标要素词各自的词权重值; 所述基于所述词权重值, 确定所述目标要素种类的要素权重值, 包括: 对各个词权重值进行求平均处理, 得到所述目标要素种类的要素权重值。 9.根据权利要求1至8任一项所述的方法, 其特征在于, 所述第一文本为待校正文本, 所 权利要求书 2/3 页 3 CN 112149414 A 3 述第二文本为标准表达文本库中的标准表达文本; 所述确定所述第一文本与第二文本之间的相似度之后, 还包括: 确定所述第一文本与所述标准表。

12、达文本库中各标准表达文本之间的多个相似度; 根据所述多个相似度中的最大相似度, 输出与所述最大相似度对应的目标标准表达文 本, 所述目标标准表达文本作为所述待校正文本的校正结果。 10.根据权利要求1至8任一项所述的方法, 其特征在于, 所述获取第一文本之后, 还包 括: 对所述第一文本进行纠正处理, 得到纠正后的第一文本, 所述纠正处理是指纠正所述 第一文本中字词的处理。 所述确定所述第一文本中包含的要素词, 包括: 对所述纠正后的第一文本进行要素词识别处理, 确定所述第一文本中包含的要素词。 11.根据权利要求1至8任一项所述的方法, 其特征在于, 所述N个要素种类包括: 症状、 症状描述。

13、目标、 身体部位、 连接词、 否定词、 严重程度、 情景词、 位置词、 描述症状特征的词、 修饰词、 时间词、 疾病名称、 药物、 治疗。 12.一种文本相似度确定装置, 其特征在于, 所述装置包括: 文本获取模块, 用于获取第一文本; 要素词确定模块, 用于确定所述第一文本中包含的要素词, 所述要素词是指属于预定 义的N个要素种类中的任一要素种类的字词, 所述N为正整数; 字词相似度获取模块, 用于对于所述N个要素种类中的目标要素种类, 获取所述第一文 本中属于所述目标要素种类的各个目标要素词与第二文本中属于所述目标要素种类的各 个目标要素词之间的字词相似度; 要素相似度确定模块, 用于基于。

14、所述字词相似度, 确定所述第一文本与所述第二文本 在所述目标要素种类上的相似度; 整体相似度确定模块, 用于基于所述第一文本与所述第二文本在所述N个要素种类上 的相似度, 确定所述第一文本与所述第二文本之间的相似度。 13.一种计算机设备, 其特征在于, 所述计算机设备包括处理器和存储器, 所述存储器 中存储有至少一条指令、 至少一段程序、 代码集或指令集, 所述至少一条指令、 所述至少一 段程序、 所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一项所 述的文本相似度确定方法。 14.一种计算机可读存储介质, 其特征在于, 所述存储介质中存储有至少一条指令、 至 少一段程序。

15、、 代码集或指令集, 所述至少一条指令、 所述至少一段程序、 所述代码集或指令 集由处理器加载并执行以实现如权利要求1至11任一项所述的文本相似度确定方法。 权利要求书 3/3 页 4 CN 112149414 A 4 文本相似度确定方法、 装置、 设备及存储介质 技术领域 0001 本申请涉及人工智能技术领域, 特别涉及一种文本相似度确定方法、 装置、 设备及 存储介质。 背景技术 0002 随着人工智能技术的发展, 人们需要处理的信息量激增。 为了更好地利用这些海 量信息进行统计分析, 往往需要先对这些信息进行标准化处理。 比如, 在医疗领域中, 往往 需要将同一病情的多种表达方式统一为标。

16、准表达后, 再进行统计分析。 0003 相关技术中, 是通过计算非标准表达文本与标准表达文本之间的编辑距离, 来体 现非标准表达文本与标准表达文本之间的相似度, 在利用编辑距离作为相似度的同时辅助 一些同义词规则, 例如替换非标准表达中的字词, 实现标准化任务。 0004 通过相关技术确定的文本相似度的准确性低、 适用范围小。 例如,“癌” 和 “结节” 的 编辑距离是2,“癌” 和 “恶心肿瘤” 的编辑距离是4, 但是 “癌” 和 “恶心肿瘤” 显然要比 “癌” 和 “结节” 更接近。 又比如用户输入的是 “良性肿瘤” , 那么会匹配成 “良性癌” 这种医学上不存 在的表达。 发明内容 00。

17、05 本申请实施例提供了一种文本相似度确定方法、 装置、 设备及存储介质, 能够提升 文本之间相似度计算的准确度, 使得输出标准文本更加准确。 所述技术方案如下: 0006 根据本申请实施例的一个方面, 提供了一种文本相似度确定方法, 所述方法包括: 0007 获取第一文本; 0008 确定所述第一文本中包含的要素词, 所述要素词是指属于预定义的N个要素种类 中的任一要素种类的字词, 所述N为正整数; 0009 对于所述N个要素种类中的目标要素种类, 获取所述第一文本中属于所述目标要 素种类的各个目标要素词与第二文本中属于所述目标要素种类的各个目标要素词之间的 字词相似度; 0010 基于所述。

18、字词相似度, 确定所述第一文本与所述第二文本在所述目标要素种类上 的相似度; 0011 基于所述第一文本与所述第二文本在所述N个要素种类上的相似度, 确定所述第 一文本与所述第二文本之间的相似度。 0012 根据本申请实施例的一个方面, 提供了一种文本相似度确定装置, 所述装置包括: 0013 文本获取模块, 用于获取第一文本; 0014 要素词确定模块, 用于确定所述第一文本中包含的要素词, 所述要素词是指属于 预定义的N个要素种类中的任一要素种类的字词, 所述N为正整数; 0015 字词相似度获取模块, 用于对于所述N个要素种类中的目标要素种类, 获取所述第 一文本中属于所述目标要素种类的。

19、各个目标要素词与第二文本中属于所述目标要素种类 说明书 1/22 页 5 CN 112149414 A 5 的各个目标要素词之间的字词相似度; 0016 要素相似度确定模块, 用于基于所述字词相似度, 确定所述第一文本与所述第二 文本在所述目标要素种类上的相似度; 0017 整体相似度确定模块, 用于基于所述第一文本与所述第二文本在所述N个要素种 类上的相似度, 确定所述第一文本与所述第二文本之间的相似度。 0018 根据本申请实施例的一个方面, 提供了一种计算机设备, 所述计算机设备包括处 理器和存储器, 所述存储器中存储有至少一条指令、 至少一段程序、 代码集或指令集, 所述 至少一条指令。

20、、 所述至少一段程序、 所述代码集或指令集由所述处理器加载并执行以实现 上述文本相似度确定方法。 0019 根据本申请实施例的一个方面, 提供了一种计算机可读存储介质, 所述存储介质 中存储有至少一条指令、 至少一段程序、 代码集或指令集, 所述至少一条指令、 所述至少一 段程序、 所述代码集或指令集由处理器加载并执行以实现上述文本相似度确定方法。 0020 根据本申请实施例的一个方面, 提供了一种计算机程序产品或计算机程序, 该计 算机程序产品或计算机程序包括计算机指令, 该计算机指令存储在计算机可读存储介质 中。 计算机设备的处理器从计算机可读存储介质读取该计算机指令, 处理器执行该计算机。

21、 指令, 使得该计算机设备执行上述文本相似度确定方法。 0021 本申请实施例提供的技术方案可以带来如下有益效果: 0022 通过比较不同文本中属于相同要素种类的要素词之间的相似度, 进而确定不同文 本之间在各个要素种类上的相似度, 以便于从多个角度去考虑两者的相似度, 并且保证两 者之间的语义信息不被忽略, 最终通过不同文本之间在各个要素种类上的相似度确定不同 文本之间的相似度, 提升了不同文本间相似度确定的准确性, 也扩大了适用范围。 附图说明 0023 为了更清楚地说明本申请实施例中的技术方案, 下面将对实施例描述中所需要使 用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本。

22、申请的一些实施例, 对于 本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以根据这些附图获得其他 的附图。 0024 图1是本申请一个实施例提供的文本确定系统的框图; 0025 图2是本申请一个实施例提供的文本相似度确定方法的流程图; 0026 图3是本申请另一个实施例提供的文本相似度确定方法的流程图; 0027 图4是本申请一个实施例提供的文本相似度确定装置的框图; 0028 图5是本申请另一个实施例提供的文本相似度确定装置的框图; 0029 图6是本申请一个实施例提供的计算机设备的结构框图。 具体实施方式 0030 为使本申请的目的、 技术方案和优点更加清楚, 下面将结合附图对。

23、本申请实施方 式作进一步地详细描述。 0031 首先, 对本申请中的部分用语进行解释说明, 以便于本领域技术人员理解。 0032 编辑距离: 计算一个字符串转换成另一个字符串所需要的最小编辑操作数, 量化 说明书 2/22 页 6 CN 112149414 A 6 两个字符串的差异程度。 转换操作包括添加一个字符、 删除一个字符以及替换一个字符。 0033 BERT(BidirectionalEncoder Representation from Transformers, 基于转换器 的双向编码表示)模型, 一种基于Transformer架构的深度预训练模型, 基于掩码语言模型 任务学习双向。

24、上下文特征表示。 BERT在大规模的预料库上预训练完成后, 可以迁移至在下 游任务进行微调。 0034 TF-IDF(Term FrequencyInverse Document Frequency)是一种用于信息检索与 数据挖掘的常用加权技术。 TF是词频(Term Frequency), IDF是逆文本频率指数(Inverse Document Frequency), 评估一个字词在一个文档以及语料库中的重要性。 字词重要性与它 在文档中出现的次数成正比, 与它在语料库中出现的次数成反比。 0035 命名实体识别(Named Entity Recognition, 简称NER)是信息提取、。

25、 问答系统、 句 法分析、 机器翻译等应用领域的重要基础工具, 在自然语言处理技术走向实用化的过程中 占有重要地位。 一般来说, 命名实体识别的任务就是识别出待处理文本中三大类(实体类、 时间类和数字类)、 七小类(人名、 机构名、 地名、 时间、 日期、 货币和百分比)命名实体。 0036 LSTM(Long Short Term Memory, 长短期记忆网络)是一种特定形式的RNN (Recurrent Neural Network, 循环神经网络), 而RNN是一系列能够处理序列数据的神经网 络的总称。 RNN还有许多变形, 例如双向RNN(Bidirectional RNN)等。 然。

26、而, RNN在处理长期 依赖(时间序列上距离较远的节点)时会遇到巨大的困难, 因为计算距离较远的节点之间的 联系时会涉及雅可比矩阵的多次相乘, 这会带来梯度消失(经常发生)或者梯度膨胀(较少 发生)的问题, 为了解决该问题, 最广泛的就是门限RNN(Gated RNN), 而LSTM就是门限RNN中 最著名的一种。 有漏单元通过设计连接间的权重系数, 从而允许RNN累积距离较远节点间的 长期联系; 而门限RNN则泛化了这样的思想, 允许在不同时刻改变该系数, 且允许网络忘记 当前已经累积的信息。 LSTM就是这样的门限RNN。 LSTM通过增加输入门限, 遗忘门限和输出 门限, 使得自循环的权。

27、重是变化的, 这样, 在模型参数固定的情况下, 不同时刻的积分尺度 可以动态改变, 从而避免了梯度消失或者梯度膨胀的问题。 损失函数。 在训练深度神经网络 的过程中, 因为希望深度神经网络的输出尽可能的接近真正想要预测的值, 所以可以通过 比较当前网络的预测值和真正想要的目标值, 再根据两者之间的差异情况来更新每一层神 经网络的权重向量(当然, 在第一次更新之前通常会有过程, 即为深度神经网络中的各层预 先配置参数), 比如, 如果网络的预测值高了, 就调整权重向量让它预测低一些, 不断的调 整, 直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的 值。 因此, 就需要预。

28、先定义 “如何比较预测值和目标值之间的差异” , 这便是损失函数(loss function)或目标函数(objective function), 它们是用于衡量预测值和目标值的差异的 重要方程。 其中, 以损失函数举例, 损失函数的输出值(loss)越高表示差异越大, 那么深度 神经网络的训练就变成了尽可能缩小这个loss的过程。 0037 BiLSTM(Bi-directional Long Short-Term Memory, 双向长短期记忆网络), 是由 前向LSTM与后向LSTM组合而成, 在自然语言处理任务中都常被用来建模处理上下文信息, 通过BiLSTM可以更好的捕捉双向的语义依。

29、赖。 0038 条件随机场(Conditional Random Fields, CRF), 是一个序列化标注算法 (sequence labeling algorithm), 接收一个输入序列并且输出目标序列, 也能被看作是一 种seq2seq模型。 这里使用大写X,Y表示序列。 例如, 在词性标注任务中, 输入序列为一串单 说明书 3/22 页 7 CN 112149414 A 7 词, 输出序列就是相应的词性。 应用于NER中的BiLSTM-CRF模型主要由Embedding层(主要有 词向量, 字向量以及一些额外特征), 双向LSTM层, 以及最后的CRF层构成。 0039 上下位词:。

30、 当两个词具有包含以及被包含的关系, 我们可以称其具有上下位关系。 其中表示上位概念的词为上位词, 表示下位概念的词为下位词。 词的上下位关系具有层次 性以及可传递性。 0040 短文本领域: 指的是文本具备短语化特征的领域, 如简历、 合同、 新闻、 微博、 病历 等。 短文本领域的文本的内容较少, 包含的有效信息也较少。 0041 本申请技术方案涉及人工智能技术领域, 下面对此进行介绍说明。 0042 AI(Artificial Intelligence, 人工智能)是利用数字计算机或者数字计算机控 制的机器模拟、 延伸和扩展人的智能, 感知环境、 获取知识并使用知识获得最佳结果的理 论、。

31、 方法、 技术及应用系统。 换句话说, 人工智能是计算机科学的一个综合技术, 它企图了解 智能的实质, 并生产出一种新的能以人类智能相似的方式做出反应的智能机器。 人工智能 也就是研究各种智能机器的设计原理与实现方法, 使机器具有感知、 推理与决策的功能。 0043 人工智能技术是一门综合学科, 涉及领域广泛, 既有硬件层面的技术也有软件层 面的技术。 人工智能基础技术一般包括如传感器、 专用人工智能芯片、 云计算、 分布式存储、 大数据处理技术、 操作/交互系统、 机电一体化等技术。 人工智能软件技术主要包括计算机 视觉技术、 语音处理技术、 自然语言处理技术以及机器学习/深度学习等几大方向。

32、。 0044 自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智 能领域中的一个重要方向。 它研究能实现人与计算机之间用自然语言进行有效通信的各种 理论和方法。 自然语言处理是一门融语言学、 计算机科学、 数学于一体的科学。 因此, 这一领 域的研究将涉及自然语言, 即人们日常使用的语言, 所以它与语言学的研究有着密切的联 系。 自然语言处理技术通常包括文本处理、 语义理解、 机器翻译、 机器人问答、 知识图谱等技 术。 0045 ML(Machine Learning, 机器学习)是一门多领域交叉学科, 涉及概率论、 统计学、 逼近论、 凸分。

33、析、 算法复杂度理论等多门学科。 专门研究计算机怎样模拟或实现人类的学习 行为, 以获取新的知识或技能, 重新组织已有的知识结构使之不断改善自身的性能。 机器学 习是人工智能的核心, 是使计算机具有智能的根本途径, 其应用遍及人工智能的各个领域。 机器学习和深度学习通常包括人工神经网络、 置信网络、 强化学习、 迁移学习、 归纳学习、 示 教学习等技术。 0046 随着人工智能技术的研究和进步, 人工智能技术在多个领域展开研究和应用, 下 述文本确定系统中的计算机设备, 可以设置有基于AI技术训练的文本相似度确定模块, 可 以执行本申请提供的文本相似度确定方法, 达到准确确定文本间的相似度, 。

34、进而确定出最 匹配的文本的效果。 0047 请参考图1, 其示出了本申请一个实施例提供的文本确定系统的框图。 该文本相似 度确定系统包括至少一个计算机设备, 如终端120、 网络140和服务器160。 0048 终端120可以是手机、 平板电脑、 台式电脑、 笔记本电脑、 智能医疗终端、 医疗数据 管理平台等设备。 终端120是存在文本相似度确定需求的终端。 可选地, 终端120用于采集需 要确定相似度的文本。 0049 终端120可以通过网络140与服务器160相连。 网络140可以是有线网络或无线网 说明书 4/22 页 8 CN 112149414 A 8 络。 终端120可以将文本信息。

35、传输给服务器160, 由服务器160完成文本相似度确定后, 将最 终基于相似度确定的匹配结果回传给终端120。 0050 服务器160是用于进行文本相似度确定的后台服务器。 服务器160中设置有用于确 定文本相似度的算法或者模型, 能够实现文本之间的相似度确定功能。 0051 服务器160可以是独立的物理服务器, 也可以是多个物理服务器构成的服务器集 群或者分布式系统, 还可以是提供云服务、 云数据库、 云计算、 云函数、 云存储、 网络服务、 云 通信、 中间件服务、 域名服务、 安全服务、 CDN(Content Delivery Network, 内容分发网络)、 以及大数据和人工智能平。

36、台等基础云计算服务的云服务器(云计算服务中心)。 服务器160 用于为终端120提供后台服务。 例如, 服务器160可以是上述文本相似度确定系统的后台服 务器。 可选地, 服务器160同时为多个终端120提供后台服务。 终端120以及服务器160可以通 过有线或无线通信方式进行直接或间接地连接, 本申请在此不做限制。 0052 上述文本确定系统基于文本之间的相似度, 为文本寻找到最佳匹配结果。 上述文 本确定系统可应用于医疗领域, 完成疾病标准化任务。 在医学领域中, 一种疾病往往有多种 表达方式, 医生在病历里记录时往往用词较随意, 所以在对医疗数据、 医保数据、 病例数据 进行统计分析前需。

37、要先将这些同一个疾病的多种表达进行统一, 这就是疾病标准化任务。 例如 , 对于病历中的描述 “声带边有异物” , 在国际 疾病分类 (International Classification of Diseases, ICD)的第10次修订本 疾病和有关健康问题的国际统计分 类 (简称ICD-10)中对应的标准化结果应为 “编码: T17.900, 标准表达: 呼吸道内异物” , 不 同业务中标准化的目标不一致。 0053 以ICD-10标准为例, 该标准中一共有3万多个疾病的标准表达。 在本方案应用于疾 病表达标准化场景的情况下, 上述文本确定系统需要做的是, 对于一条不标准的疾病输入 文。

38、本, 文本确定系统需要从这3万多个候选标准表达中选择出与输入文本对应的标准表达 文本。 一种具体的做法是, 将输入的文本与这3万多个标准表达进行比较, 基于确定出的相 似度选择出其中与输入文本最接近的一个标准表达文本作为输出的结果。 在每一次对比 中, 需要处理两个文本。 其中一个是输入的不标准的文本, 另外一个是待比较的标准表达文 本, 比较后输出一个数值或者向量, 表示这两个文本之间的相似度。 0054 请参考图2, 其示出了本申请一个实施例提供的文本相似度确定方法的流程图。 该 方法可应用于计算机设备中, 如各步骤的执行主体可以是图1所示的文本确定系统中的终 端120或者服务器160。 。

39、该方法可以包括以下几个步骤(210-250): 0055 步骤210, 获取第一文本。 0056 可选地, 第一文本为短文本, 上述短文本是指文字数量较少的文本。 可选地, 第一 文本为在医疗领域中用于描述疾病或者患者病情的文本。 例如, 文本A “椎间孔骨性和不全 脱位性狭窄” 、 文本B “脊椎脱位性狭窄” 。 本申请实施例不对文本所述应用领域类型作限定。 0057 可选地, 上述第一文本为用户输入的非标准的文本。 可选地, 上述第一文本可定义 为有序序列(c1c2), 其中c表示字, c的下标表示文本中的第几个字, 在计算机设备中c表示 字的代码, 即第一文本是由字构成的有序序列。 00。

40、58 步骤220, 确定第一文本中包含的要素词。 0059 可选地, 通过要素词识别模型对第一文本进行要素词识别处理, 确定第一文本中 包含的要素词。 可选地, 上述要素词识别模型是基于命名实体识别模型构造的用于识别要 说明书 5/22 页 9 CN 112149414 A 9 素词的深度学习模型。 可选地, 上述要素词识别模型是基于BiLSTM+CRF构造神经网络模型, 用于识别出第一文本中包含的要素词。 0060 要素词是指属于预定义的N个要素种类中的任一要素种类的字词, N为正整数。 上 述要素种类是指要素词所属的种类, 以医学场景为例, 要素种类包括医学要素种类, 相应 地, 要素词为。

41、医学要素词, 医学要素是指组成医学文本的结构要素, 医学文本可理解为由至 少一个要素词组成的语句, 要素词的种类即为要素种类。 可选地, 一个医学文本可由至少一 种医学要素种类中至少一个要素词组成。 0061 在示例性实施例中, 以医学场景为例, N个要素种类包括: 症状(Atomsymptom)、 症 状描述目标(Headword)、 身体部位(Body part)、 连接词(Conjunction)、 否定词(Negative word)、 严重程度(Severity word)、 情景词(Situation word)、 位置词(Locative word)、 描 述症状特征的词(Fea。

42、ture word)、 修饰词(Modifier word)、 时间词(Temporal word)、 疾病 名称(Disease)、 药物(Medication)、 治疗(Treatments), 其中N14。 这里通过下面的表1对 部分要素种类作示例性的解释说明。 0062 表1 说明书 6/22 页 10 CN 112149414 A 10 0063 说明书 7/22 页 11 CN 112149414 A 11 0064 0065 可选地, 经过要素词识别处理后的要素词带有要素种类标注, 上述要素种类标注 用于反映要素词所属的要素种类。 可选地, 第一文本中包含的要素词以集合的方式存在。

43、。 可 选地, 按照要素种类对第一文本中包含的要素词分类, 得到要素种类的词集合, 上述要素种 类的词集合中包括第一文本中属于该要素种类的各个要素词。 可选地, 定义第i种要素的词 集合为Hih11, h12, ., 所有要素种类的词集合为HH1, H2, ., HN。 可选地, 通过训练 好的命名实体识别模型提取第一文本中包含的每一要素种类的词集合。 0066 对于上文提及的文本A: 椎间孔骨性和不全脱位性狭窄, 经过要素词识别处理后得 说明书 8/22 页 12 CN 112149414 A 12 到如下结果: 0067 Body part: 椎、 椎间; Headword: 孔骨性; N。

44、egative word: 不全; Severity word: 脱 位性, 不全脱位性; Conjunction: 和; Atomsymptom: 狭窄。 0068 对于上文提及的文本B: 脊椎脱位性狭窄, 经过要素词识别处理后得到如下结果: 0069 Body art: 椎、 脊椎; Severity word: 脱位性; Atomsymptom: 狭窄。 0070和可以分别定义为文本A和文本 B所包含的第i种要素的词集合, 其中i表示第i种要素, j为要素词在第i种要素下的排序序 号。 0071 在示例性实施例中, 获取第一文本之后, 还包括如下步骤: 0072 对第一文本进行纠正处理,。

45、 得到纠正后的第一文本。 0073 纠正处理是指纠正第一文本中字词的处理。 上述纠正第一文本中的字词包括补充 字词、 修改错误字词等处理。 可选地, 将第一文本输入至深度学习模型, 通过深度学习模型 对第一文本进行纠正处理, 输出纠正后的第一文本。 可选地, 上述深度学习模型是使用医用 文本作为训练样本对BERT模型进行微调处理后得到的深度学习模型。 可选地, 训练样本中 的医用文本是经过标记处理的医用文本, 例如对于文本 “患者感到喉咙疼痛” , 可对其中某 一个字进行标记处理, 得到 “患者感到喉*疼痛” , 作为训练样本对BERT模型进行微调处理, 使得微调后的BERT模型能够在输入 “。

46、患者感到喉疼痛” 的条件下, 输出 “患者感到喉咙疼 痛” 。 同时, 上述纠正处理也可以理解为对数据进行建模的过程, 提升文本质量, 从源头提升 准确性。 0074 相应地, 对于需对第一文本进行纠正处理的情况, 上述步骤220可改为由如下方式 实现: 0075 对纠正后的第一文本进行要素词识别处理, 确定第一文本中包含的要素词。 0076 这里虽然是对纠正后的第一文本进行要素词处理, 但基于纠正后的第一文本得到 的要素词依然是第一文本中包含的要素词, 在第一文本为上述例子中 “患者感到喉疼痛” 的 条件下, 补充 “咙” 字得到纠正后的第一文本 “患者感到喉咙疼痛” , 若直接对 “患者感。

47、到喉疼 痛” 进行要素词识别处理, 单字 “喉” 容易影响识别准确率, 而通过对纠正后的第一文本进行 要素词识别处理, 相对于原始的第一文本, 更有利于准确识别出第一文本包含的要素词, 或 者说第一文本想表达的要素词, 进一步保证后续计算相似度的准确性。 0077 在示例性实施例中, 对于第二文本, 可以执行与第一文本同样的步骤, 执行时间可 以早于第一文本, 进而降低相似度确定过程中的计算压力。 0078 需要说明的是, 本申请实施例对医学要素的体系构建、 算法模型结构、 训练方式不 作限定, 可根据具体情况作出合理选择。 0079 步骤230, 对于N个要素种类中的目标要素种类, 获取第一。

48、文本中属于目标要素种 类的各个目标要素词与第二文本中属于目标要素种类的各个目标要素词之间的字词相似 度。 0080 上述目标要素种类是指N个要素种类中的任一要素种类。 上述步骤230是针对单个 要素种类执行的步骤, 可根据目标要素种类的执行步骤类推得到针对其他要素种类情况下 的执行步骤。 0081 步骤240, 基于字词相似度, 确定第一文本与第二文本在目标要素种类上的相似 说明书 9/22 页 13 CN 112149414 A 13 度。 0082 字词相似度是指字词之间的相似程度, 也可以理解为相关程度。 可选地, 可通过字 或者词本身角度去评定文本间的字词相似度, 例如包含多少相同的字。

49、符, 或者字词。 可选 地, 可通过字词的上下位关系判断字词间的相似度, 例如上位词与下位词之间相似度高。 0083 步骤250, 基于第一文本与第二文本在N个要素种类上的相似度, 确定第一文本与 第二文本之间的相似度。 0084 可选地, 对第一文本与第二文本在N个要素种类上的相似度求平均值, 得到第一文 本与第二文本之间的相似度。 0085 可选地, 对第一文本与第二文本在N个要素种类上的相似度作加权求和处理, 得到 第一文本与第二文本之间的相似度。 其中, 根据N个要素种类各自在文本中的主导地位、 重 要程度确定N个要素种类各自的权重。 0086 可选地, 基于第一文本与第二文本在N个要。

50、素种类上的相似度, 生成第一文本与第 二文本之间的相似度向量。 0087 相似度向量用于从N个要素种类的角度评估第一文本与第二文本之间的差异程 度。 可选地, 相似度向量为N维向量。 可选地, 相似度向量的维度等于第一文本与第二文本包 含的要素种类的数量。 0088 综上所述, 本申请实施例提供的技术方案, 通过比较不同文本中属于相同要素种 类的要素词之间的相似度, 进而确定不同文本之间在各个要素种类上的相似度, 以便于从 多个角度去考虑两者的相似度, 并且保证两者之间的语义信息不被忽略, 最终通过不同文 本之间在各个要素种类上的相似度确定不同文本之间的相似度, 提升了不同文本间相似度 确定的。

展开阅读全文
内容关键字: 文本 相似 确定 方法 装置 设备 存储 介质
关于本文
本文标题:文本相似度确定方法、装置、设备及存储介质.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10123018.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1 
 


收起
展开