军用公文自动生成系统和方法.pdf

上传人:刘** 文档编号:10123002 上传时间:2021-06-04 格式:PDF 页数:21 大小:795.44KB
收藏 版权申诉 举报 下载
军用公文自动生成系统和方法.pdf_第1页
第1页 / 共21页
军用公文自动生成系统和方法.pdf_第2页
第2页 / 共21页
军用公文自动生成系统和方法.pdf_第3页
第3页 / 共21页
文档描述:

《军用公文自动生成系统和方法.pdf》由会员分享,可在线阅读,更多相关《军用公文自动生成系统和方法.pdf(21页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202011006774.7 (22)申请日 2020.09.23 (71)申请人 中国电子科技集团公司第十五研究 所 地址 100083 北京市海淀区北四环中路211 号 (72)发明人 干家东杨军钱宝生王浪 李阜阳 (74)专利代理机构 北京高沃律师事务所 11569 代理人 崔玥 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/34(2019.01) G06F 40/242(2020.01) G06F 40/30(2020.01) (54)。

2、发明名称 一种军用公文自动生成系统和方法 (57)摘要 本发明涉及一种军用公文自动生成系统和 方法。 该军用公文自动生成系统和方法, 通过采 用用户输入的公文数据生成推荐提纲列表, 再根 据推荐提纲列表生成推荐内容, 然后根据推荐提 纲和所述推荐内容生成第一军用公文, 最后采用 用户输入的调整数据对生成的述第一军用公文 进行调整, 进而快速、 精确的生成用户想要的军 用公文, 以填补现有技术中存在的不能根据用户 的控制和引导自动生成军用公文的技术空白。 权利要求书3页 说明书10页 附图7页 CN 112148857 A 2020.12.29 CN 112148857 A 1.一种军用公文自动。

3、生成系统, 其特征在于, 包括: 输入模块, 用于输入公文数据和调整数据; 所述公文数据包括: 待生成军用公文的标 题、 待生成军用公文的关键词; 所述调整数据包括: 用户输入的用于调整推荐提纲和推荐内 容的文字; 提纲推荐模块, 与所述输入模块连接, 用于根据所述公文数据生成推荐提纲列表; 内容推荐模块, 分别与所述提纲推荐模块和所述输入模块连接, 用于根据所述推荐提 纲列表生成推荐内容; 军用公文生成模块, 分别与所述内容推荐模块和所述推荐提纲模块连接, 用于根据所 述推荐提纲和所述推荐内容生成军用公文; 显示模块, 分别与所述输入模块、 所述提纲推荐模块、 所述内容推荐模块和所述军用公 。

4、文生成模块连接, 用于显示所述标题、 所述关键词、 所述推荐提纲、 所述推荐内容和生成的 军用公文。 2.根据权利要求1所述的军用公文自动生成系统, 其特征在于, 所述提纲推荐模块包 括: 向量确定单元, 与所述输入模块连接, 用于根据所述公文数据确定公文数据向量; 提纲粗召回单元, 与所述向量确定单元连接, 用于根据所述公文数据向量生成第一推 荐提纲列表; 提纲细召回单元, 与所述提纲粗召回单元连接, 用于根据所述第一推荐提纲列表生成 第二推荐提纲列表; 所述第二推荐提纲列表即为最终生成的推荐提纲列表; 第一输出单元, 分别与所述提纲细召回单元和所述内容推荐模块连接, 用于将所述第 二推荐提。

5、纲列表输出至所述内容推荐模块。 3.根据权利要求2所述的军用公文自动生成系统, 其特征在于, 所述提纲粗召回单元包 括: 相似度确定子单元, 与所述向量确定单元连接, 用于确定所述公文数据向量与分布式 向量数据库中的数据向量的相似度得分; 所述分布式向量数据库中的数据向量包括: 采用 infersent模型对语料库中的文章和段落进行向量化后对应生成的文章向量和段落向量; 关键词匹配子单元, 与所述向量确定单元连接, 用于对所述公文数据向量和所述分布 式向量数据库中的数据向量进行关键词匹配, 得到匹配得分; 排序子单元, 分别与所述相似度确定子单元和所述关键词匹配子单元连接, 用于根据 所述相似。

6、度得分和所述匹配得分对所述分布式向量数据库中的数据向量进行降序排列, 得 到排列结果列表; 提纲粗召回子单元, 与所述排序子单元连接, 用于根据所述排列结果列表确定第一推 荐提纲列表; 所述第一推荐提纲列表为所述排列结果列表中的前n条数据向量; 第一输出子单元, 分别与所述提纲粗召回子单元和所述提纲细召回单元连接, 用于将 所述第一推荐提纲列表输出至所述提纲细召回单元中。 4.根据权利要求1所述的军用公文自动生成系统, 其特征在于, 所述内容推荐模块包 括: 内容粗召回单元, 与所述提纲推荐模块模块连接, 用于采用ES关键词检索技术根据所 述推荐提纲列表确定第一推荐内容; 权利要求书 1/3 。

7、页 2 CN 112148857 A 2 权重分配单元, 与所述内容粗召回单元连接, 用于采用排序打分法根据所述第一推荐 内容生成权重分配结果; 内容细召回单元, 与所述权重分配单元连接, 用于根据所述权重分配结果生成第二推 荐内容; 所述第二推荐内容即为最终生成的推荐内容; 第二输出单元, 分别与所述内容细召回单元和所述军用公文生成模块连接, 用于将所 述第二推荐内容输出给所述军用公文生成模块。 5.根据权利要求4所述的军用公文自动生成系统, 其特征在于, 所述权重分配单元包 括: 打分子单元, 与所述内容粗召回单元连接, 用于采用排序打分算法确定所述第一推荐 内容和所述预料库中各段落内容间。

8、的匹配相关度和质量得分; 权重确定子单元, 用于根据所述匹配相关度和质量得分确定权重分配结果; 第二输出子单元, 分别与所述权重确定子单元和所述内容细召回单元连接, 用于将所 述权重分配结果输出给所述内容细召回单元。 6.一种军用公文自动生成方法, 其特征在于, 应用于如权利要求1-5任意一项所述的军 用公文自动生成系统中; 所述军用公文自动生成方法包括: 获取公文数据和调整数据; 所述公文数据包括: 待生成军用公文的标题、 待生成军用公 文的关键词; 所述调整数据包括: 用户输入的用于调整推荐提纲和推荐内容的文字; 根据所述公文数据生成推荐提纲列表; 根据所述推荐提纲列表生成推荐内容; 判断。

9、所述推荐内容是否为预设推荐内容, 若是, 则根据所述推荐提纲和所述推荐内容 生成最终的军用公文, 反之, 则根据所述调整数据调整所述推荐提纲和所述推荐内容, 根据 调整后的推荐提纲和调整后的推荐内容生成军用公文。 7.根据权利要求6所述的军用公文自动生成方法, 其特征在于, 所述根据所述公文数据 生成推荐提纲列表, 具体包括: 根据所述公文数据确定公文数据向量; 根据所述公文数据向量生成第一推荐提纲列表; 根据所述第一推荐提纲列表生成第二推荐提纲列表; 所述第二推荐提纲列表即为最终 生成的推荐提纲列表。 8.根据权利要求7所述的军用公文自动生成方法, 其特征在于, 所述根据所述公文数据 向量生。

10、成第一推荐提纲列表, 具体包括: 采用排序打分法确定所述公文数据向量与分布式向量数据库中的数据向量的相似度 得分; 所述分布式向量数据库中的数据向量包括: 采用infersent模型对语料库中的文章和 段落进行向量化后对应生成的文章向量和段落向量; 对所述公文数据向量和所述分布式向量数据库中的数据向量进行关键词匹配, 得到匹 配得分; 根据所述相似度得分和所述匹配得分对所述分布式向量数据库中的数据向量进行降 序排列, 得到排列结果列表; 根据所述排列结果列表确定第一推荐提纲列表; 所述第一推荐提纲列表为所述排列结 果列表中的前n条数据向量。 权利要求书 2/3 页 3 CN 112148857。

11、 A 3 9.根据权利要求6所述的军用公文自动生成方法, 其特征在于, 所述根据所述推荐提纲 列表生成推荐内容, 具体包括: 采用ES关键词检索技术根据所述推荐提纲列表确定第一推荐内容; 采用排序打分法根据所述第一推荐内容生成权重分配结果; 根据所述权重分配结果生成第二推荐内容; 所述第二推荐内容即为最终生成的推荐内 容。 10.根据权利要求9所述的军用公文自动生成方法, 其特征在于, 所述采用排序打分法 根据所述第一推荐内容生成权重分配结果, 具体包括: 采用排序打分算法确定所述第一推荐内容和所述预料库中各段落内容间的匹配相关 度和质量得分; 根据所述匹配相关度和质量得分确定权重分配结果。 。

12、权利要求书 3/3 页 4 CN 112148857 A 4 一种军用公文自动生成系统和方法 技术领域 0001 本发明涉及数据处理领域, 特别是涉及一种军用公文自动生成系统和方法。 背景技术 0002 近年来, 人工智能的快速发展引起多个国家和政府部门的高度关注, 各国政府竞 相发力, 希望在人工智能引领的新兴科技浪潮中占据领先地位。 有人预测, 人工智能的发展 给人类社会带来的影响, 将超越过去几十年来互联网所带来的影响。 0003 人工智能技术在给经济社会发展带来巨大影响的同时, 也对新兴科技密集的军事 领域产生了巨大冲击, 其不仅代表着一种高科技型的 “前沿性技术” , 更是一种能够改。

13、变战 场规则的 “颠覆性技术” 。 军事科学研究始终处于科技发展的最前沿, 人工智能因其十分突 出的技术优势, 受到世界各军事大国的特别重视。 人工智能技术将改变长久以来的战争形 态, 在情报侦察、 指挥控制、 自主无人武器、 网络空间作战等领域形成常规武器难以弥补的 强大技术优势。 对各个国家来说, 人工智能研究已超越经济社会发展领域, 更关乎国防安全 领域建设, 这其中既蕴含着难得的创新发展机遇, 也面临着来自对手的巨大挑战。 0004 军事信息安全装备保障是指以物质、 技术和管理手段来保持或恢复军事信息安全 装备的良好状态, 使之按编配标准齐全配套, 按使用技术要求状况良好, 达到以军事。

14、信息安 全装备保障军事活动目的和措施的统称。 文书是军事信息安全装备保障各项工作的联系纽 带, 军事信息安全装备保障要从各类相关文书 (口授、 书面)中识别保障需求, 经分析、 决策 后给出保障方案, 通过命令、 指示等文书由相关单位执行。 在当前军事智能化发展的背景 下, 人工智能技术在各领域快速渗透, 军事信息安全装备保障工作也将不可避免地参与到 智能化发展的浪潮中。 要提升军事信息安全装备保障准确率和效率, 各类文书的自动处理 将是其重要发展方向。 0005 国外十分重视语言信息处理技术在军事领域中的应用, 己经开发出了一些信息检 索与信息提取系统, 如Mckoew.nK.R的海军舰艇数。

15、据库系统, 它能够根据询问自动生成舰艇 的描述。 但把自然语言生成技术应用于军事文本的生成少见报道。 中国国内由于在自然语 言生成方面的工作开展得较晚, 并且自然语言生成技术本身也处于大发展时期, 还远未成 熟, 对利用自然语言生成理论实现军用文本的自动生成也未曾进行深入、 系统地研究, 而且 针对己经尝试的领域也远没有军用文本领域复杂。 但随着语言信息处理的发展, 军事文本 实现自动生成将是一个重要发展方向。 0006 由于军事文本自动生成是基于用户使用场景所提出, 学术界并没有专门针对该任 务进行深入详细的研究。 但近年来, 随着大规模无监督语料的公布和使用, 体量庞大的预训 练语言模型使。

16、得篇章级别的生成成为可能。 传统的统计语言模型的代表为N-gram语言模 型, 即假设语言模型具备马尔可夫性且只与前面N-1个词相关, 通过统计词与词之间的共现 信息构建转移概率矩阵, 在生成时根据该转移概率矩阵确定下一步生成的结果。 但该方法 有明显的缺陷, 即依赖的语言信息过少, 且转移概率矩阵随统计语料的变化而变化, 普遍具 备稀疏性, 无法对新的字词组合进行合理的推测。 说明书 1/10 页 5 CN 112148857 A 5 0007 针对上述缺点, 现在采用的主流方法是利用神经网络进行句子建模, 其中经典的 方法为基于LSTM或GRU等门控神经的单元的循环神经网络建模。 此后, 。

17、为了进一步解决长距 离依赖问题, 基于self-attention机制的Transformer-XL 与GPT系列模型进一步提升了句 子建模的能力。 现如今使用Transformer-XL 与GPT2模型可以产生与人类撰写媲美的 “假新 闻” 。 但该生成过程是随机采样过程, 不受用户的控制和引导。 0008 因此, 提供一种能够基于用户的控制和引导自动生成军用公文的方法或系统, 是 本领域亟待解决的一个技术难题。 发明内容 0009 本发明的目的是提供一种军用公文自动生成系统和方法, 以能够在基于用户的控 制和引导自动生成军用公文的同时, 提高军用公文的生成效率和准确性。 0010 为实现上。

18、述目的, 本发明提供了如下方案: 0011 一种军用公文自动生成系统, 包括: 0012 输入模块, 用于输入公文数据和调整数据; 所述公文数据包括: 待生成军用公文的 标题、 待生成军用公文的关键词; 所述调整数据包括: 用户输入的用于调整推荐提纲和推荐 内容的文字; 0013 提纲推荐模块, 与所述输入模块连接, 用于根据所述公文数据生成推荐提纲列表; 0014 内容推荐模块, 分别与所述提纲推荐模块和所述输入模块连接, 用于根据所述推 荐提纲列表生成推荐内容; 0015 军用公文生成模块, 分别与所述内容推荐模块和所述推荐提纲模块连接, 用于根 据所述推荐提纲和所述推荐内容生成军用公文;。

19、 0016 显示模块, 分别与所述输入模块、 所述提纲推荐模块、 所述内容推荐模块和所述军 用公文生成模块连接, 用于显示所述标题、 所述关键词、 所述推荐提纲、 所述推荐内容和生 成的军用公文。 0017 优选的, 所述提纲推荐模块包括: 0018 向量确定单元, 与所述输入模块连接, 用于根据所述公文数据确定公文数据向量; 0019 提纲粗召回单元, 与所述向量确定单元连接, 用于根据所述公文数据向量生成第 一推荐提纲列表; 0020 提纲细召回单元, 与所述提纲粗召回单元连接, 用于根据所述第一推荐提纲列表 生成第二推荐提纲列表; 所述第二推荐提纲列表即为最终生成的推荐提纲列表; 002。

20、1 第一输出单元, 分别与所述提纲细召回单元和所述内容推荐模块连接, 用于将所 述第二推荐提纲列表输出至所述内容推荐模块。 0022 优选的, 所述提纲粗召回单元包括: 0023 相似度确定子单元, 与所述向量确定单元连接, 用于确定所述公文数据向量与分 布式向量数据库中的数据向量的相似度得分; 所述分布式向量数据库中的数据向量包括: 采用infersent模型对语料库中的文章和段落进行向量化后对应生成的文章向量和段落向 量; 0024 关键词匹配子单元, 与所述向量确定单元连接, 用于对所述公文数据向量和所述 分布式向量数据库中的数据向量进行关键词匹配, 得到匹配得分; 说明书 2/10 页。

21、 6 CN 112148857 A 6 0025 排序子单元, 分别与所述相似度确定子单元和所述关键词匹配子单元连接, 用于 根据所述相似度得分和所述匹配得分对所述分布式向量数据库中的数据向量进行降序排 列, 得到排列结果列表; 0026 提纲粗召回子单元, 与所述排序子单元连接, 用于根据所述排列结果列表确定第 一推荐提纲列表; 所述第一推荐提纲列表为所述排列结果列表中的前n 条数据向量; 0027 第一输出子单元, 分别与所述提纲粗召回子单元和所述提纲细召回单元连接, 用 于将所述第一推荐提纲列表输出至所述提纲细召回单元中。 0028 优选的, 所述内容推荐模块包括: 0029 内容粗召回。

22、单元, 与所述提纲推荐模块模块连接, 用于采用ES关键词检索技术根 据所述推荐提纲列表确定第一推荐内容; 0030 权重分配单元, 与所述内容粗召回单元连接, 用于采用排序打分法根据所述第一 推荐内容生成权重分配结果; 0031 内容细召回单元, 与所述权重分配单元连接, 用于根据所述权重分配结果生成第 二推荐内容; 所述第二推荐内容即为最终生成的推荐内容; 0032 第二输出单元, 分别与所述内容细召回单元和所述军用公文生成模块连接, 用于 将所述第二推荐内容输出给所述军用公文生成模块。 0033 优选的, 所述权重分配单元包括: 0034 打分子单元, 与所述内容粗召回单元连接, 用于采用。

23、排序打分算法确定所述第一 推荐内容和所述预料库中各段落内容间的匹配相关度和质量得分; 0035 权重确定子单元, 用于根据所述匹配相关度和质量得分确定权重分配结果; 0036 第二输出子单元, 分别与所述权重确定子单元和所述内容细召回单元连接, 用于 将所述权重分配结果输出给所述内容细召回单元。 0037 一种军用公文自动生成方法, 应用于上述的军用公文自动生成系统中; 所述军用 公文自动生成方法包括: 0038 获取公文数据和调整数据; 所述公文数据包括: 待生成军用公文的标题、 待生成军 用公文的关键词; 所述调整数据包括: 用户输入的用于调整推荐提纲和推荐内容的文字; 0039 根据所述。

24、公文数据生成推荐提纲列表; 0040 根据所述推荐提纲列表生成推荐内容; 0041 判断所述推荐内容是否为预设推荐内容, 若是, 则根据所述推荐提纲和所述推荐 内容生成最终的军用公文, 反之, 则根据所述调整数据调整所述推荐提纲和所述推荐内容, 根据调整后的推荐提纲和调整后的推荐内容生成军用公文。 0042 优选的, 所述根据所述公文数据生成推荐提纲列表, 具体包括: 0043 根据所述公文数据确定公文数据向量; 0044 根据所述公文数据向量生成第一推荐提纲列表; 0045 根据所述第一推荐提纲列表生成第二推荐提纲列表; 所述第二推荐提纲列表即为 最终生成的推荐提纲列表。 0046 优选的,。

25、 所述根据所述公文数据向量生成第一推荐提纲列表, 具体包括: 0047 采用排序打分法确定所述公文数据向量与分布式向量数据库中的数据向量的相 似度得分; 所述分布式向量数据库中的数据向量包括: 采用infersent 模型对语料库中的 说明书 3/10 页 7 CN 112148857 A 7 文章和段落进行向量化后对应生成的文章向量和段落向量; 0048 对所述公文数据向量和所述分布式向量数据库中的数据向量进行关键词匹配, 得 到匹配得分; 0049 根据所述相似度得分和所述匹配得分对所述分布式向量数据库中的数据向量进 行降序排列, 得到排列结果列表; 0050 根据所述排列结果列表确定第一。

26、推荐提纲列表; 所述第一推荐提纲列表为所述排 列结果列表中的前n条数据向量。 0051 优选的, 所述根据所述推荐提纲列表生成推荐内容, 具体包括: 0052 采用ES关键词检索技术根据所述推荐提纲列表确定第一推荐内容; 0053 采用排序打分法根据所述第一推荐内容生成权重分配结果; 0054 根据所述权重分配结果生成第二推荐内容; 所述第二推荐内容即为最终生成的推 荐内容。 0055 优选的, 所述采用排序打分法根据所述第一推荐内容生成权重分配结果, 具体包 括: 0056 采用排序打分算法确定所述第一推荐内容和所述预料库中各段落内容间的匹配 相关度和质量得分; 0057 根据所述匹配相关度。

27、和质量得分确定权重分配结果。 0058 根据本发明提供的具体实施例, 本发明公开了以下技术效果: 0059 本发明提供的军用公文自动生成系统和方法, 通过采用用户输入的公文数据生成 推荐提纲列表, 再根据推荐提纲列表生成推荐内容, 然后根据推荐提纲和所述推荐内容生 成第一军用公文, 最后采用用户输入的调整数据对生成的述第一军用公文进行调整, 进而 快速、 精确的生成用户想要的军用公文, 以填补现有技术中存在的不能根据用户的控制和 引导自动生成军用公文的技术空白。 附图说明 0060 为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施例中所 需要使用的附图作简单地介绍, 显而易见。

28、地, 下面描述中的附图仅仅是本发明的一些实施 例, 对于本领域普通技术人员来讲, 在不付出创造性劳动性的前提下, 还可以根据这些附图 获得其他的附图。 0061 图1为本发明提供的军用公文自动生成系统的结构示意图; 0062 图2为本发明提供的军用公文自动生成方法的第一流程图; 0063 图3为本发明提供的军用公文自动生成方法的第二流程图; 0064 图4为本发明实施例中提供的向量表示模型示意图; 0065 图5为本发明实施例中提供的DRRM模型示意图; 0066 图6为本发明实施例中提供的金字塔模型示意图; 0067 图7为本发明实施例中提供的Grad-CAM模型图; 0068 图8为本发明。

29、实施例中提供的HNSW示意图; 0069 图9为本发明实施例中提供的智能生成层级模型图; 0070 图10为本发明实施例中提供的向量数据库milvus的示意图。 说明书 4/10 页 8 CN 112148857 A 8 具体实施方式 0071 下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例, 都属于本发明保护的范围。 0072 本发明的目的是提供一种军用公文自动生成系统和方法, 以能够在。

30、基于用户的控 制和引导自动生成军用公文的同时, 提高军用公文的生成效率和准确性。 0073 为使本发明的上述目的、 特征和优点能够更加明显易懂, 下面结合附图和具体实 施方式对本发明作进一步详细的说明。 0074 图1为本发明提供的军用公文自动生成系统的结构示意图, 如图1所示, 一种军用 公文自动生成系统, 包括: 0075 输入模块1, 用于输入公文数据和调整数据。 公文数据包括: 待生成军用公文的标 题、 待生成军用公文的关键词。 调整数据包括: 用户输入的用于调整推荐提纲和推荐内容的 文字。 0076 提纲推荐模块2, 与输入模块1连接, 用于根据公文数据生成推荐提纲列表。 0077 。

31、内容推荐模块3, 分别与提纲推荐模块2和输入模块1连接, 用于根据推荐提纲列表 生成推荐内容。 0078 军用公文生成模块4, 分别与内容推荐模块3和推荐提纲模块2连接, 用于根据推荐 提纲和推荐内容生成军用公文。 0079 显示模块5, 分别与输入模块1、 提纲推荐模块2、 内容推荐模块3和军用公文生成模 块4连接, 用于显示标题、 关键词、 推荐提纲、 推荐内容和生成的军用公文。 0080 优选的, 上述提纲推荐模块2包括: 0081 向量确定单元, 与输入模块连接, 用于根据公文数据确定公文数据向量。 0082 提纲粗召回单元, 与向量确定单元连接, 用于根据公文数据向量生成第一推荐提 。

32、纲列表。 0083 提纲细召回单元, 与提纲粗召回单元连接, 用于根据第一推荐提纲列表生成第二 推荐提纲列表。 第二推荐提纲列表即为最终生成的推荐提纲列表。 0084 第一输出单元, 分别与提纲细召回单元和内容推荐模块连接, 用于将第二推荐提 纲列表输出至内容推荐模块。 0085 优选的, 上述提纲粗召回单元包括: 0086 相似度确定子单元, 与向量确定单元连接, 用于确定公文数据向量与分布式向量 数据库中的数据向量的相似度得分。 分布式向量数据库中的数据向量包括: 采用infersent 模型对语料库中的文章和段落进行向量化后对应生成的文章向量和段落向量。 0087 关键词匹配子单元, 与。

33、向量确定单元连接, 用于对公文数据向量和分布式向量数 据库中的数据向量进行关键词匹配, 得到匹配得分。 0088 排序子单元, 分别与相似度确定子单元和关键词匹配子单元连接, 用于根据相似 度得分和匹配得分对分布式向量数据库中的数据向量进行降序排列, 得到排列结果列表。 0089 提纲粗召回子单元, 与排序子单元连接, 用于根据排列结果列表确定第一推荐提 纲列表。 第一推荐提纲列表为排列结果列表中的前n条数据向量。 说明书 5/10 页 9 CN 112148857 A 9 0090 第一输出子单元, 分别与提纲粗召回子单元和提纲细召回单元连接, 用于将第一 推荐提纲列表输出至提纲细召回单元中。

34、。 0091 优选的, 上述内容推荐模块3包括: 0092 内容粗召回单元, 与提纲推荐模块模块连接, 用于采用ES关键词检索技术根据推 荐提纲列表确定第一推荐内容。 0093 权重分配单元, 与内容粗召回单元连接, 用于采用排序打分法根据第一推荐内容 生成权重分配结果。 0094 内容细召回单元, 与权重分配单元连接, 用于根据权重分配结果生成第二推荐内 容。 第二推荐内容即为最终生成的推荐内容。 0095 第二输出单元, 分别与内容细召回单元和军用公文生成模块连接, 用于将第二推 荐内容输出给军用公文生成模块。 0096 优选的, 上述权重分配单元包括: 0097 打分子单元, 与内容粗召。

35、回单元连接, 用于采用排序打分算法确定第一推荐内容 和预料库中各段落内容间的匹配相关度和质量得分。 0098 权重确定子单元, 用于根据匹配相关度和质量得分确定权重分配结果。 0099 第二输出子单元, 分别与权重确定子单元和内容细召回单元连接, 用于将权重分 配结果输出给内容细召回单元。 0100 图2为本发明提供的军用公文自动生成方法的第一流程图, 图3为本发明提供的军 用公文自动生成方法的第二流程图, 如图2和图3所示, 本发明提供的应用于上述的军用公 文自动生成系统的军用公文自动生成方法, 包括: 0101 步骤100: 获取公文数据和调整数据。 公文数据包括: 待生成军用公文的标题、。

36、 待生 成军用公文的关键词。 调整数据包括: 用户输入的用于调整推荐提纲和推荐内容的文字。 0102 步骤101: 根据公文数据生成推荐提纲列表。 0103 该步骤具体包括: 0104 步骤1011: 根据公文数据确定公文数据向量。 具体为: 对公文数据根据预先准备好 的词向量进行词向量映射, 利用GPU计算的多样性索引结构得到输入公文数据(Inputs)的 向量表示Inputs Embedding.qizhong, Inputs Embedding.qizhong即为公文数据向量。 其 中, 词向量优选采用word2vec字粒度和词粒度构建的自定义词典库和向量表确定。 所采用 的向量表的词典。

37、库维度大约在50万, 向量维度优选为300。 0105 步骤1012: 根据公文数据向量生成第一推荐提纲列表, 具体包括: 0106 A、 采用排序打分法确定公文数据向量与分布式向量数据库中的数据向量的相似 度得分。 分布式向量数据库中的数据向量包括: 采用infersent模型对语料库中的文章和段 落进行向量化后对应生成的文章向量和段落向量。 其中, 本发明所采用的分布式向量数据 库优选为Milvus。 0107 B、 对公文数据向量和分布式向量数据库中的数据向量进行关键词匹配, 得到匹配 得分。 0108 C、 根据相似度得分和匹配得分对分布式向量数据库中的数据向量进行降序排列, 得到排列。

38、结果列表。 0109 D、 根据排列结果列表确定第一推荐提纲列表。 第一推荐提纲列表为排列结果列表 说明书 6/10 页 10 CN 112148857 A 10 中的前n条数据向量。 其中n的具体数值根据用户的实际需要进行设定。 0110 步骤1012的具体实施过程为: 0111 将文章向量和段落向量表示存储在分布式向量数据库Milvus中, 利用其支持GPU 计算的多样性索引结构(如IVFLAT和HNSW)快速计算输入Inputs 的向量表示Inputs Embedding后, 确定向量表示Inputs Embedding与数据库中各文章向量和段落的向量的余 弦相似度。 其中, 余弦相似度。

39、的计算方式如下式所示: 0112 0113 其中, A和B表示待计算的向量, i和n表示向量的维度。 0114 根据ES关键词匹配得分以及余弦相似度等条件按顺序选取一定数量的得分较高 的提纲, 即进行提纲检索粗召回。 最后根据用户特征画像获取用户行为正则规律(如常用术 语等)排序特征, 作为进一步过滤的条件, 结合漏斗排序模型等按排序特征的匹配程度对提 纲粗召回结果进行精排序, 得到适配用户输入的推荐提纲输出Outlines, 完成细召回过程。 同时展示推荐提纲列表供用户通过输入模块手动选择和修正。 其中匹配得分的阈值以及余 弦相似度的阈值均是用户根据自身实际需要进行设定。 0115 步骤10。

40、13: 根据第一推荐提纲列表生成第二推荐提纲列表。 第二推荐提纲列表即 为最终生成的推荐提纲列表。 0116 步骤102: 根据推荐提纲列表生成推荐内容。 0117 该过程具体包括: 0118 步骤1021: 采用ES关键词检索技术根据推荐提纲列表确定第一推荐内容。 0119 步骤1022: 采用排序打分法根据第一推荐内容生成权重分配结果, 具体包括: 0120 A、 采用排序打分算法确定第一推荐内容和预料库中各段落内容间的匹配相关度 和质量得分。 0121 B、 根据匹配相关度和质量得分确定权重分配结果。 0122 步骤1023: 根据权重分配结果生成第二推荐内容。 第二推荐内容即为最终生成。

41、的 推荐内容。 0123 步骤102的具体实施过程为: 0124 将推荐提纲模块输出的Outlines输入到内容推荐模块中, 进而结合丰富的素材库 以及相关推荐算法对用户文章的提纲进行内容推荐, 主要流程是: 0125 通过ES关键词检索对段落内容进行粗召回, 即对每条提纲获得一定数量的对应的 待推荐相关段落, 并结合多个排序打分算法(例如使用预训练的段落质量分类器, 其输出该 段落为优质段落的概率P可以作为该段落的质量得分) 计算提纲推荐模块的输出Outlines 和其对应段落内容间的匹配程序相关度和段落质量得分, 并根据上述指标遵循权重分配 (即在不同场景下对不同指标如质量得分和匹配程度分。

42、配不同的权重), 进行精排序, 对每 条提纲选取排序靠前的段落作为其对应的段落内容, 得到最终内容推荐模块的输出 Paragraphs。 说明书 7/10 页 11 CN 112148857 A 11 0126 同时考虑到算力成本, 军事文章生成系统并不会主动提供生成或改写服务, 而是 由用户自行选择是否调用句子级别的文本生成或改写服务进行精修。 0127 步骤103: 判断推荐内容是否为预设推荐内容, 若是, 则根据推荐提纲和推荐内容 生成最终的军用公文, 反之, 则根据调整数据调整推荐提纲和推荐内容, 根据调整后的推荐 提纲和调整后的推荐内容生成军用公文。 0128 下面提供一个具体实施案。

43、例对本发明提供的技术方案进行细化说明。 0129 本发明提供的军用公文自动生成系统和方法的整体工作流程如下: 0130 步骤(一): 提取用户输入文章标题title和关键词keywords并组合为提纲推荐模 块的输入Inputs。 0131 步骤(二): 将步骤(一)中的提纲推荐的输入Inputs传输到提纲推荐模块, 对 Inputs根据预先准备好的词向量(采用word2vec字粒度和词粒度构建的自定义词典库和向 量表(词典库维度大约在50万, 向量维度为300)进行词向量映射, 得到输入Inputs的向量 表示Inputs Embedding。 同时采用infersent模型对语料库中的文章。

44、和段落进行向量化, 并 存入向量数据库(便于检索)如 Milvus等。 0132 再根据军事素材库进行提纲推荐, 主要流程是将文章和段落向量表示存储在分布 式向量数据库如Milvus中, 利用其支持GPU计算的多样性索引结构(如 IVFLAT和HNSW)快速 计算输入Inputs的向量表示Inputs Embedding后, 确定Inputs Embedding与数据库中各文 章和段落的向量表示的余弦相似度, 根据 ES关键词匹配得分以及余弦相似度等条件按顺 序选取一定数量的得分较高的提纲, 即进行提纲检索粗召回, 最后根据用户特征画像获取 用户行为正则规律 (如常用术语等)等排序特征, 作为。

45、进一步过滤的条件, 结合漏斗排序模 型等按排序特征的匹配程度对提纲粗召回结果进行精排序, 得到适配用户输入的推荐提纲 输出Outlines。 同时展示推荐提纲供用户选择和手动修正。 0133 步骤(三): 将步骤(二)中的推荐提纲输出Outlines输入到内容推荐模块, 进而结 合丰富的素材库以及相关推荐算法对用户文章的提纲进行内容推荐, 主要流程是通过ES关 键词检索对段落内容进行粗召回, 即对每条提纲获得一定数量的对应的待推荐相关段落, 并结合多个排序打分算法(例如使用预训练的段落质量分类器, 其输出该段落为优质段落 的概率P可以作为该段落的质量得分)计算提纲推荐模块的输出Outlines。

46、和其对应段落内 容间的匹配程序相关度和段落质量得分, 并根据上述指标遵循权重分配(即在不同场景 下对不同指标如质量得分和匹配程度分配不同的权重), 进行精排序, 对每条提纲选取排序 靠前的段落作为其对应的段落内容, 得到最终内容推荐模块的输出 Paragraphs。 0134 同时考虑到算力成本, 军用公文自动生成系统并不会主动提供生成或改写服务, 而是由用户自行选择是否调用句子级别的文本生成或改写服务进行精修。 0135 在创作的最后阶段, 本系统会提供审阅界面用于展示提纲推荐模块和内容推荐模 块的输出结果, 可以通过机器辅助或由用户本身进行审阅来保证创作质量, 最终得到完整 的匹配用户输入。

47、条件的军事文本Text。 0136 下面对本发明提供的上述技术方案所采用的关键技术进行详细介绍, 具体如下: 0137 1、 文档向量空间方法: 0138 文档向量方法是将文本表达为可以让计算机来理解的形式也就是将文本表示成 高维空间中的向量形式。 文本向量化, 可以分为词语的向量表达, 短文本的向量表达, 长文 说明书 8/10 页 12 CN 112148857 A 12 本的向量表达。 关键技术难点在于所表示的向量能否捕捉到文档中的重要信息。 0139 在向量表示中, 为了解决向量保留的语义信息完整和能够快速建模生成向量表 示, 本发明采用基于多粒度多方法的向量表示实现对语料库中的素材数。

48、据进行向量化, 采 用字粒度和词粒度构建自定义的词典库和向量表(词典库大约在50万, 向量维度为300), 以 及infersent模型对语料库中的文章和段落做向量表示, 并且使用多层级多类别的保存方 式进行数据存储。 0140 为了对本发明的技术方案进行进一步优化, 在该向量模型的基础上优选搭建了一 组完整的文档向量化更新体系(如图4所示), 以支持对实时数据的并行化向量表示, 并能及 时添加到线上服务。 基于该模型可以构建出拥有千万级优质段落的语料库。 0141 2、 文本语义理解: 0142 在上述步骤(三)中, 存在计算提纲和粗召回段落的匹配程度的场景, 即属于语义 理解的范围.理解篇。

49、章或段落等长文档的语义一直是业界的难题, 在本发明的系统中使用 DRRM模型(如图5所示)解决长文档的语义问题, 其主要是使用MatchHistogram和Term GatingNetwork技术使模型对文档的输入字数不做严格限制。 0143 在上述步骤(二)中, 涉及到使用用户特征画像对提纲粗召回结果进行精排序, 由 于提纲多属于短文本, 为了更好地理解提纲所蕴含的语义信息, 本发明使用MatchPyramid 模型(如图6所示)提升理解短文档语义的准确度, 目前将该项技术用在文本词的高亮显示 以及提纲等短文本排序上, 处理的最大文档长度限制是500词。 0144 其中针对文本词的高亮显示使。

50、用的是Grad-CAM模型(如图7所示)的思想, 模型思 路流程如下: 0145 3、 高效向量检索: 0146 为在成千上万的向量库中快速找到相似向量向用户推荐高质量的素材, 采用了基 于聚类数据的分布式存储方案和HNSW快速向量检索算法。 0147 为了挖掘用户输入关键词的潜在含义以及如何利用检索结果对用户查询意图的 进行进一步的完善和引导来避免不必要的计算消耗, 本发明采用自研意图识别方法对用户 意图做精确判断缩小检索范围, 主要实现方式是通过搭建的包括意图分类、 精准推荐等功 能在内的意图识别框架, 经过规则, 分类等多种处理方式去理解整体的用户行为背后包含 的语义信息, 而不仅仅是输。

展开阅读全文
内容关键字: 军用 公文 自动 生成 系统 方法
关于本文
本文标题:军用公文自动生成系统和方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10123002.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1 
 


收起
展开