新群体描述词识别方法与装置、电子设备及存储介质.pdf
《新群体描述词识别方法与装置、电子设备及存储介质.pdf》由会员分享,可在线阅读,更多相关《新群体描述词识别方法与装置、电子设备及存储介质.pdf(26页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010434970.8 (22)申请日 2020.05.21 (71)申请人 北京明亿科技有限公司 地址 100021 北京市朝阳区北苑东路19号 院铁建广场5号楼1506室 (72)发明人 彭涛杜晶高丽青 (74)专利代理机构 北京植德律师事务所 11780 代理人 唐华东 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/242(2020.01) G06Q 50/18(2012.01) (54)发明名称 新群体描述词识别方法与装置、 电子。
2、设备及 存储介质 (57)摘要 本公开提供了新群体描述词识别方法与装 置、 电子设备及存储介质。 该方法的一具体实施 方式包括: 获取近期特殊事件历史文本集合; 对 近期特殊事件历史文本集合中的各近期特殊事 件历史文本进行切词处理得到对应的分词序列, 以及用切词处理后得到的各分词序列生成目标 分词序列集合; 用目标分词序列集合中的目标分 词序列中的两相邻分词组成的二元拼接词生成 二元拼接词库; 对于二元拼接词库中的每个二元 拼接词, 执行识别操作以确定该二元拼接词是否 为新群体描述词。 该实施方式实现了自动提取近 期特殊事件历史文本集合中的新群体描述词。 权利要求书4页 说明书16页 附图5页。
3、 CN 112131874 A 2020.12.25 CN 112131874 A 1.一种新群体描述词识别方法, 包括: 获取近期特殊事件历史文本集合, 其中, 所述近期特殊事件历史文本集合是最近预设 群体发现时长内生成的、 用于描述特殊事件的历史文本集合; 对所述近期特殊事件历史文本集合中的各近期特殊事件历史文本进行切词处理得到 对应的分词序列, 以及用切词处理后得到的各分词序列生成目标分词序列集合; 用所述目标分词序列集合中的目标分词序列中的两相邻分词组成的二元拼接词生成 二元拼接词库; 对于所述二元拼接词库中的每个二元拼接词, 执行以下识别操作: 基于所述目标分词 序列集合计算该二元拼。
4、接词的词频、 自由度和凝固度, 以及响应于确定该二元拼接词满足 预设新词发现条件组中的每个条件, 将该二元拼接词确定为新群体描述词, 其中, 所述预设 新词发现条件组包括以下至少一个条件: 该二元拼接词的词频大于预设词频阈值, 该二元 拼接词的凝固度大于预设凝固度阈值, 该二元拼接词的自由度大于预设自由度阈值。 2.根据权利要求1所述的方法, 其中, 所述对所述近期特殊事件历史文本集合中的各近 期特殊事件历史文本进行切词处理得到对应的分词序列, 包括: 基于预设切词词典对所述近期特殊事件历史文本集合中的各近期特殊事件历史文本 进行切词处理得到对应的分词序列; 以及 所述方法还包括: 将所述二元。
5、拼接词库中确定为新群体描述词的各二元拼接词添加到所述预设切词词 典中。 3.根据权利要求1或2所述的方法, 其中, 所述预设群体发现时长是通过如下时长确定 步骤预先确定的: 对于预设候选时长集合中的每个候选时长, 执行以下识别准确率确定操作: 获取最近 该候选时长内生成的、 用于描述特殊事件的历史文本集合, 以及对应的标注新群体描述词 集合; 对所获取的历史文本集合中的各历史文本进行切词处理得到对应的分词序列, 以及 用切词处理后得到的各分词序列生成与该候选时长对应的分词序列集合; 用与该候选时长 对应的分词序列集合中的分词序列中的两相邻分词组成的二元拼接词生成与该候选时长 对应的二元拼接词库。
6、; 对于与该候选时长对应的二元拼接词库中的每个二元拼接词, 基于 与该候选时长对应的分词序列集合计算该二元拼接词的词频、 自由度和凝固度, 以及响应 于确定该二元拼接词满足所述预设新词发现条件组中的每个条件且该二元拼接词属于所 述标注新群体描述词集合, 或者响应于确定该二元拼接词不满足所述预设新词发现条件组 中的至少一个条件且该二元拼接词不属于所述标注新群体描述词集合, 将该二元拼接词确 定为识别正确词; 将与该候选时长对应的二元拼接词库中的识别正确词的数目除以与该候 选时长对应的二元拼接词库中的二元拼接词的数目的比值确定为与该候选时长对应的识 别准确率; 将所述预设候选时长集合中对应的识别准。
7、确率最高的候选时长确定为所述预设群体 发现时长。 4.根据权利要求3所述的方法, 其中, 所述对于所述二元拼接词库中的每个二元拼接 词, 基于所述目标分词序列集合计算该二元拼接词的词频、 自由度和凝固度, 包括: 对于所述二元拼接词库X中的每个由分词x1和分词x2拼接而成的二元拼接词x, 执行以 权利要求书 1/4 页 2 CN 112131874 A 2 下计算操作: 统计该二元拼接词x在所述目标分词序列集合中的词频P(x), 分词x1在所述目标分词序 列集合中的词频P(x1)以及分词x2在所述目标分词序列集合中的词频P(x2); 按照如下公式计算该二元拼接词x的凝固度Agglomerati。
8、on(x): 用所述目标分词序列集合的各分词序列中位于该二元拼接词x之前且与该二元拼接词 x相邻的各个分词生成与该二元拼接词x对应的前序相邻词集合Prex; 统计所述前序相邻词集合Prex中每个词y在所述目标分词序列集合中的词频P(y); 用所述目标分词序列集合的各分词序列中位于该二元拼接词x之后且与该二元拼接词 x相邻的各个分词生成与该二元拼接词x对应的后序相邻词集合Postx; 统计所述后序相邻词集合Postx中每个词z在所述目标分词序列集合中的词频P(z); 按照如下公式计算该二元拼接词x的自由度Free(x): Free(x)min(H(Prex),H(Postx) 。 5.一种新群体。
9、描述词识别装置, 包括: 获取单元, 被配置成获取近期特殊事件历史文本集合, 其中, 所述近期特殊事件历史文 本集合是最近预设群体发现时长内生成的、 用于描述特殊事件的历史文本集合; 第一生成单元, 被配置成对所述近期特殊事件历史文本集合中的各近期特殊事件历史 文本进行切词处理得到对应的分词序列, 以及用切词处理后得到的各分词序列生成目标分 词序列集合; 第二生成单元, 被配置成用所述目标分词序列集合中的目标分词序列中的两相邻分词 组成的二元拼接词生成二元拼接词库; 识别单元, 被配置成对于所述二元拼接词库中的每个二元拼接词, 执行以下识别操作: 基于所述目标分词序列集合计算该二元拼接词的词频。
10、、 自由度和凝固度, 以及响应于确定 该二元拼接词满足预设新词发现条件组中的每个条件, 将该二元拼接词确定为新群体描述 词, 其中, 所述预设新词发现条件组包括以下至少一个条件: 该二元拼接词的词频大于预设 词频阈值, 该二元拼接词的凝固度大于预设凝固度阈值, 该二元拼接词的自由度大于预设 自由度阈值。 6.根据权利要求5所述的装置, 其中, 所述对所述近期特殊事件历史文本集合中的各近 期特殊事件历史文本进行切词处理得到对应的分词序列, 包括: 基于预设切词词典对所述近期特殊事件历史文本集合中的各近期特殊事件历史文本 进行切词处理得到对应的分词序列; 以及 所述装置还包括: 添加单元, 被配置。
11、成将所述二元拼接词库中确定为新群体描述词的各二元拼接词添加 权利要求书 2/4 页 3 CN 112131874 A 3 到所述预设切词词典中。 7.根据权利要求5或6所述的装置, 其中, 所述预设群体发现时长是通过如下时长确定 步骤预先确定的: 对于预设候选时长集合中的每个候选时长, 执行以下识别准确率确定操作: 获取最近 该候选时长内生成的、 用于描述特殊事件的历史文本集合, 以及对应的标注新群体描述词 集合; 对所获取的历史文本集合中的各历史文本进行切词处理得到对应的分词序列, 以及 用切词处理后得到的各分词序列生成与该候选时长对应的分词序列集合; 用与该候选时长 对应的分词序列集合中的。
12、分词序列中的两相邻分词组成的二元拼接词生成与该候选时长 对应的二元拼接词库; 对于与该候选时长对应的二元拼接词库中的每个二元拼接词, 基于 与该候选时长对应的分词序列集合计算该二元拼接词的词频、 自由度和凝固度, 以及响应 于确定该二元拼接词满足所述预设新词发现条件组中的每个条件且该二元拼接词属于所 述标注新群体描述词集合, 或者响应于确定该二元拼接词不满足所述预设新词发现条件组 中的至少一个条件且该二元拼接词不属于所述标注新群体描述词集合, 将该二元拼接词确 定为识别正确词; 将与该候选时长对应的二元拼接词库中的识别正确词的数目除以与该候 选时长对应的二元拼接词库中的二元拼接词的数目的比值确。
13、定为与该候选时长对应的识 别准确率; 将所述预设候选时长集合中对应的识别准确率最高的候选时长确定为所述预设群体 发现时长。 8.根据权利要求7所述的装置, 其中, 所述对于所述二元拼接词库中的每个二元拼接 词, 基于所述目标分词序列集合计算该二元拼接词的词频、 自由度和凝固度, 包括: 对于所述二元拼接词库X中的每个由分词x1和分词x2拼接而成的二元拼接词x, 执行以 下计算操作: 统计该二元拼接词x在所述目标分词序列集合中的词频P(x), 分词x1在所述目标分词序 列集合中的词频P(x1)以及分词x2在所述目标分词序列集合中的词频P(x2); 按照如下公式计算该二元拼接词x的凝固度Agglo。
14、meration(x): 用所述目标分词序列集合的各分词序列中位于该二元拼接词x之前且与该二元拼接词 x相邻的各个分词生成与该二元拼接词x对应的前序相邻词集合Prex; 统计所述前序相邻词集合Prex中每个词y在所述目标分词序列集合中的词频P(y); 用所述目标分词序列集合的各分词序列中位于该二元拼接词x之后且与该二元拼接词 x相邻的各个分词生成与该二元拼接词x对应的后序相邻词集合Postx; 统计所述后序相邻词集合Postx中每个词z在所述目标分词序列集合中的词频P(z); 按照如下公式计算该二元拼接词x的自由度Free(x): 权利要求书 3/4 页 4 CN 112131874 A 4 。
15、Free(x)min(H(Prex),H(Postx) 。 9.一种电子设备, 包括: 一个或多个处理器; 存储装置, 用于存储一个或多个程序; 当所述一个或多个程序被所述一个或多个处理器执行时, 使得所述一个或多个处理器 实现如权利要求1-4中任一所述的方法。 10.一种计算机可读介质, 其上存储有计算机程序, 其中, 所述程序被处理器执行时实 现如权利要求1-4中任一所述的方法。 权利要求书 4/4 页 5 CN 112131874 A 5 新群体描述词识别方法与装置、 电子设备及存储介质 技术领域 0001 本公开涉及计算机技术领域, 具体涉及新群体描述词识别方法与装置、 电子设备 及存。
16、储介质。 背景技术 0002 近期生成的描述特殊事件的文本中可能会涉及新型群体的描述。 这里, 群体是指 因为相同或相近的目的而自发性聚集在一起的人群。 群体中没有严格的组织管理体系。 例 如, 高考学生群体、 某小区的业主群体等。 0003 目前基本是靠人工提取近期生成的文本中的新群体描述词, 所需的人力和时间成 本较高, 新型的特殊事件不能被及时发现并处理, 对社会造成隐患。 另外, 由于文本大多采 用自然语言描述、 表达方式严重口语化且无规则, 人工提取难度较高, 依赖于人工经验, 即 人工提取新群体描述词过程中学习成本较高。 发明内容 0004 本公开提出了新群体描述词识别方法与装置、。
17、 电子设备及存储介质。 0005 第一方面, 本公开提供了一种新群体描述词识别方法, 该方法包括: 获取近期特殊 事件历史文本集合, 其中, 上述近期特殊事件历史文本集合是最近预设群体发现时长内生 成的、 用于描述特殊事件的历史文本集合; 对上述近期特殊事件历史文本集合中的各近期 特殊事件历史文本进行切词处理得到对应的分词序列, 以及用切词处理后得到的各分词序 列生成目标分词序列集合; 用上述目标分词序列集合中的目标分词序列中的两相邻分词组 成的二元拼接词生成二元拼接词库; 对于上述二元拼接词库中的每个二元拼接词, 执行以 下识别操作: 基于上述目标分词序列集合计算该二元拼接词的词频、 自由度。
18、和凝固度, 以及 响应于确定该二元拼接词满足预设新词发现条件组中的每个条件, 将该二元拼接词确定为 新群体描述词, 其中, 上述预设新词发现条件组包括以下至少一个条件: 该二元拼接词的词 频大于预设词频阈值, 该二元拼接词的凝固度大于预设凝固度阈值, 该二元拼接词的自由 度大于预设自由度阈值。 0006 在一些可选的实施方式中, 上述对上述近期特殊事件历史文本集合中的各近期特 殊事件历史文本进行切词处理得到对应的分词序列, 包括: 基于预设切词词典对上述近期 特殊事件历史文本集合中的各近期特殊事件历史文本进行切词处理得到对应的分词序列; 以及上述方法还包括: 将上述二元拼接词库中确定为新群体描。
19、述词的各二元拼接词添加到 上述预设切词词典中。 0007 在一些可选的实施方式中, 上述预设群体发现时长是通过如下时长确定步骤预先 确定的: 对于预设候选时长集合中的每个候选时长, 执行以下识别准确率确定操作: 获取最 近该候选时长内生成的、 用于描述特殊事件的历史文本集合, 以及对应的标注新群体描述 词集合; 对所获取的历史文本集合中的各历史文本进行切词处理得到对应的分词序列, 以 及用切词处理后得到的各分词序列生成与该候选时长对应的分词序列集合; 用与该候选时 说明书 1/16 页 6 CN 112131874 A 6 长对应的分词序列集合中的分词序列中的两相邻分词组成的二元拼接词生成与该。
20、候选时 长对应的二元拼接词库; 对于与该候选时长对应的二元拼接词库中的每个二元拼接词, 基 于与该候选时长对应的分词序列集合计算该二元拼接词的词频、 自由度和凝固度, 以及响 应于确定该二元拼接词满足上述预设新词发现条件组中的每个条件且该二元拼接词属于 上述标注新群体描述词集合, 或者响应于确定该二元拼接词不满足上述预设新词发现条件 组中的至少一个条件且该二元拼接词不属于上述标注新群体描述词集合, 将该二元拼接词 确定为识别正确词; 将与该候选时长对应的二元拼接词库中的识别正确词的数目除以与该 候选时长对应的二元拼接词库中的二元拼接词的数目的比值确定为与该候选时长对应的 识别准确率; 将上述预。
21、设候选时长集合中对应的识别准确率最高的候选时长确定为上述预 设群体发现时长。 0008 在一些可选的实施方式中, 上述对于上述二元拼接词库中的每个二元拼接词, 基 于上述目标分词序列集合计算该二元拼接词的词频、 自由度和凝固度, 包括: 对于上述二元 拼接词库X中的每个由分词x1和分词x2拼接而成的二元拼接词x, 执行以下计算操作: 统计该 二元拼接词x在上述目标分词序列集合中的词频P(x), 分词x1在上述目标分词序列集合中 的词频P(x1)以及分词x2在上述目标分词序列集合中的词频P(x2); 按照如下公式计算该二 元拼接词x的凝固度Agglomeration(x): 0009 0010 。
22、用上述目标分词序列集合的各分词序列中位于该二元拼接词x之前且与该二元拼 接词x相邻的各个分词生成与该二元拼接词x对应的前序相邻词集合Prex; 统计上述前序相 邻词集合Prex中每个词y在上述目标分词序列集合中的词频P(y); 用上述目标分词序列集 合的各分词序列中位于该二元拼接词x之后且与该二元拼接词 x相邻的各个分词生成与该 二元拼接词x对应的后序相邻词集合Postx; 统计上述后序相邻词集合Postx中每个词z在上 述目标分词序列集合中的词频P(z); 按照如下公式计算该二元拼接词x的自由度Free(x): 0011 0012 0013 Free(x)min(H(Prex),H(Post。
23、x) 0014 第二方面, 本公开提供了一种新群体描述词识别装置, 该装置包括: 获取单元, 被 配置成获取近期特殊事件历史文本集合, 其中, 上述近期特殊事件历史文本集合是最近预 设群体发现时长内生成的、 用于描述特殊事件的历史文本集合; 第一生成单元, 被配置成对 上述近期特殊事件历史文本集合中的各近期特殊事件历史文本进行切词处理得到对应的 分词序列, 以及用切词处理后得到的各分词序列生成目标分词序列集合; 第二生成单元, 被 配置成用上述目标分词序列集合中的目标分词序列中的两相邻分词组成的二元拼接词生 成二元拼接词库; 识别单元, 被配置成对于上述二元拼接词库中的每个二元拼接词, 执行以。
24、 下识别操作: 基于上述目标分词序列集合计算该二元拼接词的词频、 自由度和凝固度, 以及 响应于确定该二元拼接词满足预设新词发现条件组中的每个条件, 将该二元拼接词确定为 说明书 2/16 页 7 CN 112131874 A 7 新群体描述词, 其中, 上述预设新词发现条件组包括以下至少一个条件: 该二元拼接词的词 频大于预设词频阈值, 该二元拼接词的凝固度大于预设凝固度阈值, 该二元拼接词的自由 度大于预设自由度阈值。 0015 在一些可选的实施方式中, 上述对上述近期特殊事件历史文本集合中的各近期特 殊事件历史文本进行切词处理得到对应的分词序列, 包括: 基于预设切词词典对上述近期 特殊。
25、事件历史文本集合中的各近期特殊事件历史文本进行切词处理得到对应的分词序列; 以及上述装置还包括: 添加单元, 被配置成将上述二元拼接词库中确定为新群体描述词的 各二元拼接词添加到上述预设切词词典中。 0016 在一些可选的实施方式中, 上述预设群体发现时长是通过如下时长确定步骤预先 确定的: 对于预设候选时长集合中的每个候选时长, 执行以下识别准确率确定操作: 获取最 近该候选时长内生成的、 用于描述特殊事件的历史文本集合, 以及对应的标注新群体描述 词集合; 对所获取的历史文本集合中的各历史文本进行切词处理得到对应的分词序列, 以 及用切词处理后得到的各分词序列生成与该候选时长对应的分词序列。
26、集合; 用与该候选时 长对应的分词序列集合中的分词序列中的两相邻分词组成的二元拼接词生成与该候选时 长对应的二元拼接词库; 对于与该候选时长对应的二元拼接词库中的每个二元拼接词, 基 于与该候选时长对应的分词序列集合计算该二元拼接词的词频、 自由度和凝固度, 以及响 应于确定该二元拼接词满足上述预设新词发现条件组中的每个条件且该二元拼接词属于 上述标注新群体描述词集合, 或者响应于确定该二元拼接词不满足上述预设新词发现条件 组中的至少一个条件且该二元拼接词不属于上述标注新群体描述词集合, 将该二元拼接词 确定为识别正确词; 将与该候选时长对应的二元拼接词库中的识别正确词的数目除以与该 候选时长。
27、对应的二元拼接词库中的二元拼接词的数目的比值确定为与该候选时长对应的 识别准确率; 将上述预设候选时长集合中对应的识别准确率最高的候选时长确定为上述预 设群体发现时长。 0017 在一些可选的实施方式中, 上述对于上述二元拼接词库中的每个二元拼接词, 基 于上述目标分词序列集合计算该二元拼接词的词频、 自由度和凝固度, 包括: 对于上述二元 拼接词库X中的每个由分词x1和分词x2拼接而成的二元拼接词x, 执行以下计算操作: 统计该 二元拼接词x在上述目标分词序列集合中的词频P(x), 分词x1在上述目标分词序列集合中 的词频P(x1)以及分词x2在上述目标分词序列集合中的词频P(x2); 按照。
28、如下公式计算该二 元拼接词x的凝固度Agglomeration(x): 0018 0019 用上述目标分词序列集合的各分词序列中位于该二元拼接词x之前且与该二元拼 接词x相邻的各个分词生成与该二元拼接词x对应的前序相邻词集合Prex; 统计上述前序相 邻词集合Prex中每个词y在上述目标分词序列集合中的词频P(y); 用上述目标分词序列集 合的各分词序列中位于该二元拼接词x之后且与该二元拼接词 x相邻的各个分词生成与该 二元拼接词x对应的后序相邻词集合Postx; 统计上述后序相邻词集合Postx中每个词z在上 述目标分词序列集合中的词频P(z); 按照如下公式计算该二元拼接词x的自由度Fre。
29、e(x): 说明书 3/16 页 8 CN 112131874 A 8 0020 0021 0022 Free(x)min(H(Prex),H(Postx) 0023 第三方面, 本公开提供了一种电子设备, 包括: 一个或多个处理器; 存储装置, 其上 存储有一个或多个程序, 当上述一个或多个程序被上述一个或多个处理器执行时, 使得上 述一个或多个处理器实现如第一方面中任一实现方式描述的方法。 0024 第四方面, 本公开提供了一种计算机可读存储介质, 其上存储有计算机程序, 其 中, 该计算机程序被一个或多个处理器执行时实现如第一方面中任一实现方式描述的方 法。 0025 为了能从近期生成的。
30、文本中识别出新群体描述词, 申请人经过研究发现, 特殊事 件的文本是用来描述特殊事件的, 如果某个二元拼接词在近期特殊事件历史文本中经常出 现, 而特殊事件类别的文本大都是和群体有关, 因此很大可能性该二元拼接词为用于描述 群体的新词。 基于上述发现, 本公开提供的新群体描述词识别方法和装置, 通过首先获取最 近预设群体发现时长内生成的、 用于描述特殊事件的近期特殊事件历史文本集合。 再, 对近 期特殊事件历史文本集合中的各近期特殊事件历史文本进行切词处理得到对应的分词序 列, 以及用切词处理后得到的各分词序列生成目标分词序列集合。 而后, 用目标分词序列集 合中的目标分词序列中的两相邻分词组。
31、成的二元拼接词生成二元拼接词库。 接着, 对于二 元拼接词库中的每个二元拼接词, 基于目标分词序列集合计算该二元拼接词的词频、 自由 度和凝固度, 以及响应于确定该二元拼接词满足预设新词发现条件组中的每个条件, 将该 二元拼接词确定为新群体描述词。 上述识别新群体描述词的方法, 整个过程无需人工操作, 降低了发现新群体描述词的人工成本和时间成本, 该方法可以快速从大量近期生成的描述 特殊事件的文本中识别出新的群体描述词。 附图说明 0026 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述, 本公开的其它 特征、 目的和优点将会变得更明显: 0027 图1是本公开的一个实施例可以应用于。
32、其中的示例性系统架构图; 0028 图2是根据本公开的新群体描述词识别方法的一个实施例的流程图; 0029 图3是根据本公开的时长确定步骤的一个实施例的流程图; 0030 图4是根据本公开的新群体描述词识别方法的又一个实施例的流程图; 0031 图5是根据本公开的新群体描述词识别装置的一个实施例的结构示意图; 0032 图6是适于用来实现本公开的电子设备的计算机系统的结构示意图。 具体实施方式 0033 下面结合附图和实施例对本公开作进一步的详细说明。 可以理解的是, 此处所描 述的具体实施例仅仅用于解释相关发明, 而非对该发明的限定。 另外还需要说明的是, 为了 说明书 4/16 页 9 C。
33、N 112131874 A 9 便于描述, 附图中仅示出了与有关发明相关的部分。 0034 需要说明的是, 在不冲突的情况下, 本公开中的实施例及实施例中的特征可以相 互组合。 下面将参考附图并结合实施例来详细说明本公开。 0035 图1示出了可以应用本公开的新群体描述词识别方法或新群体描述词识别装置的 实施例的示例性系统架构100。 0036 如图1所示, 系统架构100可以包括终端设备101、 网络102和服务器103。 网络102用 以在终端设备101和服务器103之间提供通信链路的介质。 网络102 可以包括各种连接类 型, 例如有线、 无线通信链路或者光纤电缆等等。 0037 用户可。
34、以使用终端设备101通过网络102与服务器103交互, 以接收或发送消息等。 终端设备101上可以安装有各种通讯客户端应用, 例如文本记录类应用、 文本新群体描述词 识别类应用、 网页浏览器应用等。 0038 终端设备101可以是硬件, 也可以是软件。 当终端设备101为硬件时, 可以是具有显 示屏并且支持文本输入的各种电子设备, 包括但不限于智能手机、 平板电脑、 膝上型便携计 算机和台式计算机等等。 当终端设备101为软件时, 可以安装在上述所列举的电子设备中。 其可以实现成多个软件或软件模块(例如用来提供文本新群体描述词识别服务), 也可以实 现成单个软件或软件模块。 在此不做具体限定。。
35、 0039 服务器103可以是提供各种服务的服务器, 例如对终端设备101发送的文本提供新 群体描述词识别服务的后台服务器。 后台服务器可以对接收到的文本进行分析等处理, 并 将处理结果(例如新群体描述词)反馈给终端设备。 0040 在一些情况下, 本公开所提供的新群体描述词识别方法可以由终端设备101 和服 务器103共同执行, 例如,“获取近期特殊事件历史文本集合” 的步骤可以由终端设备101执 行, 其余步骤可以由服务器103执行。 本公开对此不做限定。 相应地, 新群体描述词识别装置 也可以分别设置于终端设备101和服务器103中。 0041 在一些情况下, 本公开所提供的新群体描述词。
36、识别方法可以由服务器103执行, 相 应地, 新群体描述词识别装置也可以设置于服务器103中, 这时, 系统架构100也可以不包括 终端设备101。 0042 在一些情况下, 本公开所提供的新群体描述词识别方法可以由终端设备101 执 行, 相应地, 新群体描述词识别装置也可以设置于终端设备101中, 这时, 系统架构100也可 以不包括服务器103。 0043 需要说明的是, 服务器103可以是硬件, 也可以是软件。 当服务器103为硬件时, 可 以实现成多个服务器组成的分布式服务器集群, 也可以实现成单个服务器。 当服务器103为 软件时, 可以实现成多个软件或软件模块(例如用来提供文本新。
37、群体描述词识别服务), 也 可以实现成单个软件或软件模块。 在此不做具体限定。 0044 应该理解, 图1中的终端设备、 网络和服务器的数目仅仅是示意性的。 根据实现需 要, 可以具有任意数目的终端设备、 网络和服务器。 0045 继续参考图2, 其示出了根据本公开的新群体描述词识别方法的一个实施例的流 程200。 该新群体描述词识别方法, 包括以下步骤: 0046 步骤201, 获取近期特殊事件历史文本集合。 0047 在本实施例中, 新群体描述词识别方法的执行主体(例如, 图1所示的服务器)可以 说明书 5/16 页 10 CN 112131874 A 10 首先获取近期特殊事件历史文本集。
38、合。 这里, 近期特殊事件历史文本集合是最近预设群体 发现时长内生成的、 用于描述特殊事件的历史文本集合。 0048 这里, 预设群体发现时长可以是采用各种实现方式预先设定的。 例如, 预设群体发 现时长可以是由技术人员根据上述执行主体的计算性能参数以及对于历史上单位时长内 所产生的描述特殊事件文本的数量而预先设定并存储在上述执行主体中的时间长度。 例 如, 预设群体发现时长可以是5天, 也可以是150小时等。 可以理解的是, 预设群体发现时长 越长, 则所获取的近期特殊事件历史文本集合中的数据量也越大, 相应地识别出近期特殊 事件历史文本集合中的新群体描述词的时间也越长, 这可能会延长得到新。
39、群体描述词的时 间。 另外, 如果预设特殊事件发现时长太短, 可能会导致所获取的近期特殊事件历史文本集 合中的文本数据太少, 而可能无法得到新群体描述词或者得到的新群体描述词不是实际的 新群体描述词。 因此, 设定预设群体发现时长时, 需要在计算所需时间和确定新群体描述词 的准确率之间进行平衡。 0049 这里, 上述执行主体可以获取本地存储的近期特殊事件历史文本集合, 或者上述 执行主体也可以远程地从与上述执行主体网络连接的其他电子设备(例如, 图1所示的终端 设备)获取近期特殊事件历史文本集合。 0050 需要说明的是, 这里所获取的近期特殊事件历史文本集合可以是原始的最近预设 群体发现时。
40、长内生成的、 用于描述特殊事件的历史文本集合; 所获取的近期特殊事件历史 文本集合还可以是对原始的最近预设群体发现时长内生成的、 用于描述特殊事件的历史文 本集合进行预处理之后的文本集合。 作为示例, 预处理可以包括但不限于去除无效字符, 全 半角转化等。 其中, 无效字符可以是例如语气词、 虚词等。 0051 步骤202, 对近期特殊事件历史文本集合中的各近期特殊事件历史文本进行切词 处理得到对应的分词序列, 以及用切词处理后得到的各分词序列生成目标分词序列集合。 0052 在本实施例中, 上述执行主体可以对步骤201中所获取的近期特殊事件历史文本 集合中的每个近期特殊事件历史文本进行切词处。
41、理得到对应的分词序列, 然后可以将切词 处理后所得到的各分词序列生成目标分词序列集合。 0053 需要说明的是, 如何对文本进行切词是本领域广泛研究和应用的现有技术, 在此 不再赘述。 例如, 可以采用基于字符串匹配的分词方法、 基于理解的分词方法或者基于统计 的分词方法等等。 例如, 对历史文本 “甲小区众多业主堵住小区出入口抗议小区停车位太 少” 进行切词可以得到分词序列 “甲|小区|众多|业主|堵住|小区|出入|口|抗议|小区|停 车|位|太|少” 。 0054 步骤203, 用目标分词序列集合中的目标分词序列中的两相邻分词组成的二元拼 接词生成二元拼接词库。 0055 在本实施例中, 。
42、上述执行主体可以用目标分词序列集合中的目标分词序列中的两 相邻分词组成的二元拼接词生成二元拼接词库。 0056 例如, 假设目标分词序列集合为 “甲|小区|众多|业主|堵住|小区|出入|口|抗议 |小区|停车|位|太|少” ,“学生|家长|在|乙|学校|门|前|集结” , 经过步骤203可以得到的 二元拼接词库为 “甲小区” ,“小区众多” ,“众多业主” ,“业主堵住” ,“堵住小区” ,“小区出 入” ,“出入口” ,“口抗议” ,“抗议小区” ,“小区停车” ,“停车位” ,“位太” ,“太少” ,“学生家 长” ,“家长在” ,“在乙” ,“乙学校” ,“学校门” ,“门前” ,“前集。
43、结” 。 说明书 6/16 页 11 CN 112131874 A 11 0057 步骤204, 对于二元拼接词库中的每个二元拼接词, 执行识别操作。 0058 在本实施例中, 上述执行主体可以对于步骤203中所生成的二元拼接词库中的每 个二元拼接词, 执行识别操作。 具体而言, 识别操作可以包括子步骤2041和子步骤2042。 0059 子步骤2041, 基于目标分词序列集合计算该二元拼接词的词频、 自由度和凝固度。 0060 在本实施例中, 上述执行主体可以采用各种实现方式基于目标分词序列集合计算 该二元拼接词的词频、 自由度和凝固度。 0061 其中, 该二元拼接词的词频用于表征该二元拼。
44、接词在目标分词序列集合中的出现 频次的程度。 如果该二元拼接词的词频目标分词序列集合中的出现频次的程度较高, 则表 明该二元拼接词是一个新群体描述词的可能性较大。 0062 在一些可选的实现方式中, 基于目标分词序列集合计算该二元拼接词的词频可以 是统计该二元拼接词在目标分词序列集合的各目标分词序列中的出现次数之和, 并将统计 得到的出现次数之和确定为该二元拼接词的词频。 0063 在一些可选的实现方式中, 基于目标分词序列集合计算该二元拼接词的词频也可 以如下进行: 首先统计该二元拼接词在目标分词序列集合的各目标分词序列中的出现次数 之和, 再将统计得到的出现次数之和除以目标分词序列集合对应。
45、的分词出现总次数之和所 得到的比值确定为该二元拼接词的词频。 这里, 目标分词序列集合对应的分词出现总次数 之和为目标分词序列集合中各目标分词序列中各分词的出现次数总和。 0064 其中, 该二元拼接词的凝固度用于表征该二元拼接词所包括的两个分词在目标分 词序列中固定或者结合在一起的程度, 如果该二元拼接词在目标分词序列集合中固定或者 结合在一起的程度较高, 则表明该二元拼接词是一个新群体描述词的可能性较大。 0065 假设二元拼接词库为X, 则对于二元拼接词库X中的每个由分词x1和分词x2拼接而 成的二元拼接词x, 即x为x1x2, 假设该二元拼接词x在目标分词序列集合中的词频为P(x)。 。
46、0066 在一些可选的实现方式中, 可以按照如下方法基于目标分词序列集合计算该二元 拼接词x的凝固度Agglomeration(x): 0067 首先, 可以确定分词x1在目标分词序列集合中的词频P(x1)以及分词x2在目标分词 序列集合中的词频P(x2)。 需要说明的是, 这里可以采用与上述确定二元拼接词x在目标分 词序列集合中的词频P(x)相同的方法确定P(x1)和P(x2)。 0068 然后, 可以按照如下公式计算该二元拼接词x的凝固度Agglomeration(x): 0069 0070 假设该二元拼接词x、 分词x1、 以及分词x2在目标分词序列集合的各目标分词序列 中的出现次数分别。
47、为n、 n1和n2, 以及假设目标分词序列集合对应的分词出现总次数之和为 N, N为正整数, 则P(x)、 P(x1)和P(x2)可以分别为n、 n1和n2, 或者P(x)、 P(x1)和P(x2)也可以分 别为和 0071 而从上述公式可以看出, 当P(x)、 P(x1)和P(x2)分别为n、 n1和n2时, 该二元拼接词x 的凝固度Agglomeration(x)可以表示如下: 0072 说明书 7/16 页 12 CN 112131874 A 12 0073当P(x) 、 P(x1) 和P(x2)分别为和时 , 该二元拼接词x的凝固度 Agglomeration(x)可以表示如下: 00。
48、74 0075 从公式2和公式3可以看出, 该二元拼接词x的凝固度Agglomeration(x)分别与分 词x1在目标分词序列集合中的出现次数n1以及分词x2在目标分词序列集合中的出现次数n2 成反比, 而与该二元拼接词x在目标分词序列集合中的出现次数n 成正比。 其中: 0076 Agglomeration(x)最大的极限情况是n1、 n2和n三个数值相同, 这时如果采用公式2 的所示的方法计算词频, 则Agglomeration(x)为相应地, 如果采用公式 3所示的方法计 算词频, 则Agglomeration(x)为这时对应的该二元拼接词x在目标分词序列集合中出现 的情况是, 只要分。
49、词x1出现就和分词x2一起出现, 且只要分词x2出现就和分词x1一起出现, 而不会x1单独出现或者分词x2单独出现, 表明二元拼接词x1x2结合成一个词使用的可能性 较高。 0077 反之, Agglomeration(x)最小的极限情况是n为1, 而n1和/或n2大于1, 这时如果采 用公式2的所示的方法计算词频, 则Agglomeration(x)为相应地, 如果采用公式3所示 的方法计算词频, 则Agglomeration(x)为这时对应的该二元拼接词x在目标分词序列 集合中出现的情况是, 分词x1仅一次与分词x2一起出现过, 其他情况下分词x1单独出现或者 分词x2单独出现, 表明二元。
50、拼接词x1x2结合成一个词使用的可能性较低。 0078 可以理解的是, 也可以采用其他方法基于目标分词序列集合计算该二元拼接词x 的凝固度Agglomeration(x), 只要该二元拼接词x的凝固度Agglomeration(x) 分别与分词 x1在目标分词序列集合中的出现次数n1以及分词x2在目标分词序列集合中的出现次数n2负 相关, 而与该二元拼接词x在目标分词序列集合中的出现次数n正相关即可。 例如, 可以采用 以下公式4或者公式5计算得到该二元拼接词x 的凝固度Agglomeration(x): 0079 0080 Agglomeration(x)P(x1)+P(x2)-P(x1x2。
- 内容关键字: 群体 描述 识别 方法 装置 电子设备 存储 介质
链接地址:https://www.zhuanlichaxun.net/pdf/10139849.html