文件识别方法及装置.pdf

上传人:g**** 文档编号:10138866 上传时间:2021-06-05 格式:PDF 页数:14 大小:478.44KB
收藏 版权申诉 举报 下载
文件识别方法及装置.pdf_第1页
第1页 / 共14页
文件识别方法及装置.pdf_第2页
第2页 / 共14页
文件识别方法及装置.pdf_第3页
第3页 / 共14页
文档描述:

《文件识别方法及装置.pdf》由会员分享,可在线阅读,更多相关《文件识别方法及装置.pdf(14页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010806391.1 (22)申请日 2020.08.12 (71)申请人 新华三技术有限公司 地址 310052 浙江省杭州市滨江区长河路 466号 (72)发明人 程柯楠王浩公鹏耀 (51)Int.Cl. H04L 29/08(2006.01) H04L 29/06(2006.01) G06F 40/289(2020.01) (54)发明名称 一种文件识别方法及装置 (57)摘要 本申请提供一种文件识别方法及装置, 该方 法包括: 分别获取每个网络配置文件中的AP标识。

2、 和SSID; 针对每个网络配置文件, 按照针对AP标 识设置的第一分词规则, 依次对该网络配置文件 中的AP标识进行分词, 以及按照针对SSID设置的 第二分词规则, 依次对该网络配置文件中的SSID 进行分词; 将该网络配置文件中的每个AP标识的 分词结果中的每个词, 逐一与AP标识关键词库进 行匹配; 若不存在与AP标识关键词库进行匹配的 词, 将该网络配置文件中的每个SSID的分词结果 中的每个词, 逐一与SSID关键词库进行匹配; 若 存在与SSID关键词库进行匹配的词, 识别该网络 配置文件为教育行业用户的网络配置文件。 本申 请可提高识别效率。 权利要求书4页 说明书8页 附图1。

3、页 CN 112134920 A 2020.12.25 CN 112134920 A 1.一种文件识别方法, 其特征在于, 所述方法包括: 从获取的多个网络配置文件中, 分别获取每个网络配置文件中的接入点AP标识和服务 集标识SSID; 针对每个网络配置文件, 按照针对AP标识设置的第一分词规则, 依次对该网络配置文 件中的AP标识进行分词, 以及按照针对SSID设置的第二分词规则, 依次对该网络配置文件 中的SSID进行分词; 将该网络配置文件中的每个AP标识的分词结果中的每个词, 逐一与AP标识关键词库进 行匹配; 若不存在与所述AP标识关键词库进行匹配的词, 则将该网络配置文件中的每个S。

4、SID的 分词结果中的每个词, 逐一与SSID关键词库进行匹配; 若存在与所述SSID关键词库进行匹配的词, 则识别该网络配置文件为教育行业用户的 网络配置文件; 其中, 所述AP标识关键词库和所述SSID关键词库均是根据教育行业和非教育行业用户 的样本网络配置文件生成的。 2.根据权利要求1所述的方法, 其特征在于, 通过以下方式生成所述AP标识关键词库和 所述SSID关键词库: 将所述教育行业用户和非教育行业用户的样本网络配置文件划分为训练集和测试集, 其中, 所述训练集和所述测试集均包括教育行业用户和非教育行业用户的样本网络配置文 件; 从所述训练集中的教育行业用户的样本网络配置文件中,。

5、 分别获取每个样本网络配置 文件中的AP标识和SSID; 按照所述第一分词规则, 依次对获取的AP标识进行分词, 以及按照所述第二分词规则, 依次对获取的SSID进行分词; 针对获取的AP标识和获取的SSID中的任一标识的分词结果, 基于词频-逆向文件频率 TF-IDF算法, 对获取的该标识的分词结果中的词进行统计, 得到每个词的词频, 并按照从高 到低的顺序, 对得到的词频进行排序; 将排序后的词频中前M个除表征指定含义的词的词频之外的词频对应的词, 添加到该 标识对应的关键词库中, 其中, M为正整数; 从排序后的词频中剩余的词频对应的词中, 选择表征的含义与所述关键词库中的词表 征的含义。

6、相同的词, 并将选择出的词添加到所述关键词库中; 基于逆向文件频率IDF算法, 对当前的关键词库中的词和已按照针对该标识设置的分 词规则对所述训练集中的非教育行业用户的样本网络配置文件中的该标识进行分词后的 样本网络配置文件进行处理, 得到当前的关键词库中的每个词的IDF值; 按照从小到大的顺序, 将计算出的IDF值进行排序, 从当前的关键词库中删除前N个IDF 值对应的词, 其中, N为正整数; 针对所述测试集中的每个样本网络配置文件, 按照所述第一分词规则, 依次对从该样 本网络配置文件中获取的AP标识进行分词, 以及按照所述第二分词规则, 依次对从该样本 网络配置文件中获取的SSID进行。

7、分词; 将该样本网络配置文件中的每个AP标识的分词结果中的每个词, 逐一与AP标识对应的 权利要求书 1/4 页 2 CN 112134920 A 2 当前的关键词库进行匹配; 若存在与AP标识对应的当前的关键库进行匹配的词, 则识别该样本网络配置文件为教 育行业用户的网络配置文件; 若不存在与AP标识对应的当前的关键词库进行匹配的词, 则将该样本网络配置文件中 的每个SSID的分词结果中的每个词, 逐一与SSID对应的当前的关键词库进行匹配; 若存在与SSID对应的当前的关键词库进行匹配的词, 则识别该样本网络配置文件为教 育行业用户的网络配置文件; 统计识别出的样本网络配置文件为教育行业用。

8、户的网络配置文件的总数量; 若统计出的总数量与所述测试集中的真实教育行业用户的网络配置文件的总数量的 比值不大于设定比值, 则将M的取值增大, 并针对获取的AP标识和获取的SSID中的任一标识 的分词结果, 返回执行将排序后的词频中前M个词频对应的词, 添加到该标识对应的关键词 库中的步骤, 直到所述比值不小于所述设定比值, 将AP标识对应的当前的关键词库确定为 所述AP标识关键词库, 将SSID对应的当前的关键词库确定为所述SSID关键词库。 3.根据权利要求1所述的方法, 其特征在于, 在逐一与AP标识关键词库进行匹配之前, 所述方法还包括: 将该网络配置文件中的每个AP标识的分词结果中的。

9、词, 按照出现次数从高到低的顺序 进行排序; 在逐一与SSID关键词库进行匹配之前, 所述方法还包括: 将该网络配置文件中的每个SSID的分词结果中的词, 按照出现次数从高到低的顺序进 行排序。 4.根据权利要求1所述的方法, 其特征在于, 在逐一与AP标识关键词库进行匹配之后, 所述方法还包括: 若存在与所述AP标识关键词库进行匹配的词, 则识别该网络配置文件为教育行业用户 的网络配置文件。 5.根据权利要求1所述的方法, 其特征在于, 在逐一与SSID关键词库进行匹配之后, 所 述方法还包括: 若不存在与所述SSID关键词库进行匹配的词, 则识别该网络配置文件为非教育行业用 户的网络配置文。

10、件。 6.一种文件识别装置, 其特征在于, 所述装置包括: 获取模块, 用于从获取的多个网络配置文件中, 分别获取每个网络配置文件中的接入 点AP标识和服务集标识SSID; 分词模块, 用于针对每个网络配置文件, 按照针对AP标识设置的第一分词规则, 依次对 该网络配置文件中的AP标识进行分词, 以及按照针对SSID设置的第二分词规则, 依次对该 网络配置文件中的SSID进行分词; 匹配模块, 用于将该网络配置文件中的每个AP标识的分词结果中的每个词, 逐一与AP 标识关键词库进行匹配; 以及若不存在与所述AP标识关键词库进行匹配的词, 则将该网络 配置文件中的每个SSID的分词结果中的每个词。

11、, 逐一与SSID关键词库进行匹配; 识别模块, 用于若所述匹配模块的匹配结果为存在与所述SSID关键词库进行匹配的 词, 则识别该网络配置文件为教育行业用户的网络配置文件; 权利要求书 2/4 页 3 CN 112134920 A 3 其中, 所述AP标识关键词库和所述SSID关键词库均是根据教育行业和非教育行业用户 的样本网络配置文件生成的。 7.根据权利要求6所述的装置, 其特征在于, 所述装置还包括: 生成模块, 用于通过以下方式生成所述AP标识关键词库和所述SSID关键词库: 将所述教育行业用户和非教育行业用户的样本网络配置文件划分为训练集和测试集, 所述训练集和所述测试集均包括教育。

12、行业用户和非教育行业用户的样本网络配置文件; 从所述训练集中的教育行业用户的样本网络配置文件中, 分别获取每个样本网络配置 文件中的AP标识和SSID; 按照所述第一分词规则, 依次对获取的AP标识进行分词, 以及按照所述第二分词规则, 依次对获取的SSID进行分词; 针对获取的AP标识和获取的SSID中的任一标识的分词结果, 基于词频-逆向文件频率 TF-IDF算法, 对获取的该标识的分词结果中的词进行统计, 得到每个词的词频, 并按照从高 到低的顺序, 对得到的词频进行排序; 将排序后的词频中前M个除表征指定含义的词的词频之外的词频对应的词, 添加到该 标识对应的关键词库中, 其中, M为。

13、正整数; 从排序后的词频中剩余的词频对应的词中, 选择表征的含义与所述关键词库中的词表 征的含义相同的词, 并将选择出的词添加到所述关键词库中; 基于逆向文件频率IDF算法, 对当前的关键词库中的词和已按照针对该标识设置的分 词规则对所述非教育行业用户的样本网络配置文件中的该标识进行分词后的样本网络配 置文件进行处理, 得到当前的关键词库中的每个词的IDF值; 按照从小到大的顺序, 将计算出的IDF值进行排序, 从当前的关键词库中删除前N个IDF 值对应的词, 其中, N为正整数; 针对所述测试集中的每个样本网络配置文件, 按照所述第一分词规则, 依次对从该样 本网络配置文件中获取的AP标识进。

14、行分词, 以及按照所述第二分词规则, 依次对从该样本 网络配置文件中获取的SSID进行分词; 将该样本网络配置文件中的每个AP标识的分词结果中的每个词, 逐一与AP标识对应的 当前的关键词库进行匹配; 若存在与AP标识对应的当前的关键库进行匹配的词, 则识别该样本网络配置文件为教 育行业用户的网络配置文件; 若不存在与AP标识对应的当前的关键词库进行匹配的词, 则将该样本网络配置文件中 的每个SSID的分词结果中的每个词, 逐一与SSID对应的当前的关键词库进行匹配; 若存在与SSID对应的当前的关键词库进行匹配的词, 则识别该样本网络配置文件为教 育行业用户的网络配置文件; 统计识别的样本网。

15、络配置文件为教育行业用户的网络配置文件的总数量; 若统计出的总数量与所述测试集中的真实教育行业用户的网络配置文件的总数量的 比值不大于设定比值, 则将M的取值增大, 并针对获取的AP标识和获取的SSID中的任一标识 的分词结果, 返回执行将排序后的词频中前M个词频对应的词, 添加到该标识对应的关键词 库中的步骤, 直到所述比值不小于所述设定比值, 将AP标识对应的当前的关键词库确定为 所述AP标识关键词库, 将SSID对应的当前的关键词库确定为所述SSID关键词库。 权利要求书 3/4 页 4 CN 112134920 A 4 8.根据权利要求6所述的装置, 其特征在于, 所述装置还包括: 第。

16、一排序模块, 用于在所述匹配模块逐一与AP标识关键词库进行匹配之前, 将该网络 配置文件中的每个AP标识的分词结果中的词, 按照出现次数从高到低的顺序进行排序; 所述装置还包括: 第二排序模块, 用于在所述匹配模块逐一与SSID关键词库进行匹配之前, 将该网络配 置文件中的每个SSID的分词结果中的词, 按照出现次数从高到低的顺序进行排序。 9.根据权利要求6所述的装置, 其特征在于, 所述识别模块, 还用于: 在所述匹配模块逐一与AP标识关键词库进行匹配之后, 若所述匹配模块的匹配结果为 存在与所述AP标识关键词库进行匹配的词, 则识别该网络配置文件为教育行业用户的网络 配置文件。 10.根。

17、据权利要求6所述的装置, 其特征在于, 所述识别模块, 还用于: 在所述匹配模块逐一与SSID关键词库进行匹配之后, 若所述匹配模块的匹配结果为不 存在与所述SSID关键词库进行匹配的词, 则识别该网络配置文件为非教育行业用户的网络 配置文件。 权利要求书 4/4 页 5 CN 112134920 A 5 一种文件识别方法及装置 技术领域 0001 本申请涉及技术领域, 尤其涉及一种文件识别方法及装置。 背景技术 0002 目前, 教育行业是无线网络广泛应用的行业之一, 无线服务提供方为了提供更高 效的网络运维、 更高质量的用户体验, 需要对相关网络配置文件进行分析。 0003 通常情况下, 。

18、技服人员或者开发人员获取的用户的网络配置文件, 都是从云平台 或者接入控制器(Access Control, AC)导出的。 这些网络配置文件的文件标识, 基本都是诸 如SHGEXY_20200809_config_AC.cfg的样式, 中英文、 缩写全拼混杂, 除了为其命名的人外, 这些人员需要花费较长时间才能识别哪些网络配置文件是教育行业用户的网络配置文件, 进而导致识别效率较低。 发明内容 0004 为克服相关技术中存在的问题, 本申请提供了一种文件识别方法及装置。 0005 根据本申请实施例的第一方面, 提供一种文件识别方法, 所述方法包括: 0006 从获取的多个网络配置文件中, 分。

19、别获取每个网络配置文件中的接入点(Access Point, AP)标识和服务集标识(Service Set Identifier, SSID); 0007 针对每个网络配置文件, 按照针对AP标识设置的第一分词规则, 依次对该网络配 置文件中的AP标识进行分词, 以及按照针对SSID设置的第二分词规则, 依次对该网络配置 文件中的SSID进行分词; 0008 将该网络配置文件中的每个AP标识的分词结果中的每个词, 逐一与AP标识关键词 库进行匹配; 0009 若不存在与所述AP标识关键词库进行匹配的词, 则将该网络配置文件中的每个 SSID的分词结果中的每个词, 逐一与SSID关键词库进行匹。

20、配; 0010 若存在与所述SSID关键词库进行匹配的词, 则识别该网络配置文件为教育行业用 户的网络配置文件; 0011 其中, 所述AP标识关键词库和所述SSID关键词库均是根据教育行业和非教育行业 用户的样本网络配置文件生成的。 0012 根据本申请实施例的第二方面, 提供一种文件识别装置, 所述装置包括: 0013 获取模块, 用于从获取的多个网络配置文件中, 分别获取每个网络配置文件中的 AP标识和SSID; 0014 分词模块, 用于针对每个网络配置文件, 按照针对AP标识设置的第一分词规则, 依 次对该网络配置文件中的AP标识进行分词, 以及按照针对SSID设置的第二分词规则, 。

21、依次 对该网络配置文件中的SSID进行分词; 0015 匹配模块, 用于将该网络配置文件中的每个AP标识的分词结果中的每个词, 逐一 与AP标识关键词库进行匹配; 以及若不存在与所述AP标识关键词库进行匹配的词, 则将该 说明书 1/8 页 6 CN 112134920 A 6 网络配置文件中的每个SSID的分词结果中的每个词, 逐一与SSID关键词库进行匹配; 0016 识别模块, 用于若所述匹配模块的匹配结果为存在与所述SSID关键词库进行匹配 的词, 则识别该网络配置文件为教育行业用户的网络配置文件; 0017 其中, 所述AP标识关键词库和所述SSID关键词库均是根据教育行业和非教育行。

22、业 用户的样本网络配置文件生成的。 0018 本申请的实施例提供的技术方案可以包括以下有益效果: 0019 在本申请实施例中, 先根据教育行业和非教育行业用户的样本网络配置文件, 得 到AP标识关键词库和SSID关键词库, 之后, 只需对获取到的每个网络配置文件中的AP标识 和SSID进行分词, 依据各自的分词结果中的词与各自对应的关键词库的匹配结果, 即可识 别哪些网络配置文件是教育行业用户的网络配置文件。 这种识别方式, 可实现自动识别网 络配置文件, 无需人工参与, 大大提高了识别效率。 0020 应当理解的是, 以上的一般描述和后文的细节描述仅是示例性和解释性的, 并不 能限制本申请。。

23、 附图说明 0021 此处的附图被并入说明书中并构成本申请的一部分, 示出了符合本申请的实施 例, 并与说明书一起用于解释本申请的原理。 0022 图1为本申请实施例提供的一种文件识别方法的流程示意图; 0023 图2为本申请实施例提供的一种文件识别装置的结构示意图; 0024 图3为本申请实施例提供的一种电子设备的结构示意图。 具体实施方式 0025 这里将详细地对示例性实施例进行说明, 其示例表示在附图中。 下面的描述涉及 附图时, 除非另有表示, 不同附图中的相同数字表示相同或相似的要素。 以下示例性实施例 中所描述的实施方式并不代表与本申请相一致的所有实施方式。 相反, 它们仅是与如所。

24、附 权利要求书中所详述的、 本申请的一些方面相一致的装置和方法的例子。 0026 在本申请使用的术语是仅仅出于描述特定实施例的目的, 而非旨在限制本申请。 在本申请和所附权利要求书中所使用的单数形式的 “一种” 、“所述” 和 “该” 也旨在包括多数 形式, 除非上下文清楚地表示其他含义。 还应当理解, 本文中使用的术语 “和/或” 是指并包 含一个或多个相关联的列出项目的任何或所有可能组合。 0027 接下来对本申请实施例进行详细说明。 0028 本申请实施例提供了一种文件识别方法, 该方法可以应用于AC或者胖AP等无线设 备, 如图1所示, 该方法可以包括如下步骤: 0029 S11、 从。

25、获取的多个网络配置文件中, 分别获取每个网络配置文件中的AP标识和 SSID。 0030 S12、 针对每个网络配置文件, 按照针对AP标识设置的第一分词规则, 依次对该网 络配置文件中的AP标识进行分词, 以及按照针对SSID设置的第二分词规则, 依次对该网络 配置文件中的SSID进行分词。 0031 S13、 将该网络配置文件中的每个AP标识的分词结果中的每个词, 逐一与AP标识关 说明书 2/8 页 7 CN 112134920 A 7 键词库进行匹配。 0032 S14、 若不存在与AP标识关键词库进行匹配的词, 则将该网络配置文件中的每个 SSID的分词结果中的每个词, 逐一与SSI。

26、D关键词库进行匹配。 0033 S15、 若存在与SSID关键词库进行匹配的词, 则识别该网络配置文件为教育行业用 户的网络配置文件。 0034 在本申请实施例中, 上述AP标识关键词库和SSID关键词库均是根据教育行业和非 教育行业用户的样本网络配置文件生成的。 0035 具体地, 可以通过以下方式生成AP标识关键词库和SSID关键词库: 0036 将教育行业用户和非教育行业用户的样本网络配置文件划分为训练集和测试集, 其中, 训练集和测试集均包括教育行业用户和非教育行业用户的样本网络配置文件; 0037 从训练集中的教育行业用户的样本网络配置文件中, 分别获取每个样本网络配置 文件中的AP。

27、标识和SSID; 0038 按照第一分词规则, 依次对获取的AP标识进行分词, 以及按照第二分词规则, 依次 对获取的SSID进行分词; 0039 针对获取的AP标识和获取的SSID中的任一标识的分词结果, 基于词频-逆向文件 频率(Term Frequency-Inverse Document Frequency, TF-IDF)算法, 对获取的该标识的分 词结果中的词进行统计, 得到每个词的词频, 并按照从高到低的顺序, 对得到的词频进行排 序; 0040 将排序后的词频中前M个除表征指定含义的词的词频之外的词频对应的词, 添加 到该标识对应的关键词库中, 其中, M为正整数; 0041 。

28、从排序后的词频中剩余的词频对应的词中, 选择表征的含义与关键词库中的词表 征的含义相同的词, 并将选择出的词添加到关键词库中; 0042 基于逆向文件频率(Inverse Document Frequency, IDF)算法, 对当前的关键词库 中的词和已按照针对该标识设置的分词规则对非教育行业用户的样本网络配置文件中的 该标识进行分词后的样本网络配置文件进行处理, 得到当前的关键词库中的每个词的IDF 值; 在这里, 当前的关键词库实际上是将选择出的词添加到关键词库之后得到的关键词库; 0043 按照从小到大的顺序, 将计算出的IDF值进行排序, 从当前的关键词库中删除前N 个IDF值对应的。

29、词, 其中, N为正整数; 在这里, 当前的关键词库仍然是将选择出的词添加到 关键词库之后得到的关键词库; 0044 针对测试集中的每个样本网络配置文件, 按照第一分词规则, 依次对从该样本网 络配置文件中获取的AP标识进行分词, 以及按照第二分词规则, 依次对从该样本网络配置 文件中获取的SSID进行分词; 0045 将该样本网络配置文件中的每个AP标识的分词结果中的每个词, 逐一与AP标识对 应的当前的关键词库进行匹配, 后续一旦匹配到, 若还有未进行匹配的词, 即不再进行匹 配; 在这里, AP标识对应的当前的关键词库实际上是将选择出的词添加到AP标识对应的关 键词库之后, 又删除了N个。

30、IDF值对应的词之后得到的AP标识对应的关键词库; 0046 若存在与AP标识对应的当前的关键库进行匹配的词, 则识别该样本网络配置文件 为教育行业用户的网络配置文件; 0047 若不存在与AP标识对应的当前的关键词库进行匹配的词, 则将该样本网络配置文 说明书 3/8 页 8 CN 112134920 A 8 件中的每个SSID的分词结果中的每个词, 逐一与SSID对应的当前的关键词库进行匹配, 后 续一旦匹配到, 若还有未进行匹配的词, 即不再进行匹配; 在这里, SSID对应的当前的关键 词库实际上是将选择出的词添加到SSID对应的关键词库之后, 又删除了N个IDF值对应的词 之后得到的。

31、SSID对应的关键词库; 0048 若存在与SSID对应的当前的关键词库进行匹配的词, 则识别该样本网络配置文件 为教育行业用户的网络配置文件; 0049 统计识别的样本网络配置文件为教育行业用户的网络配置文件的总数量; 0050 若统计出的总数量与测试集中的真实教育行业用户的网络配置文件的总数量的 比值不大于设定比值, 则将M的取值增大, 并针对获取的AP标识和获取的SSID中的任一标识 的分词结果, 返回执行将排序后的词频中前M个词频对应的词, 添加到该标识对应的关键词 库中的步骤, 直到比值不小于设定比值, 将AP标识对应的当前的关键词库确定为AP标识关 键词库, 将SSID对应的当前的。

32、关键词库确定为SSID关键词库。 0051 需要说明的是, 上述生成AP标识关键词库和SSID关键词库的流程, 可以分为训练 流程和测试流程。 0052 具体地, 训练流程中使用的训练集中的非教育行业用户的网络配置文件, 仅在使 用IDF算法时使用。 训练流程中使用的训练集中的样本网络配置文件的数量和测试流程中 使用的测试集中的样本网络配置文件的数量, 通常可以按照3: 1的比例分配, 当然, 本申请 并不限定具体的分配比例。 0053 在训练流程中, 在按照第一分词规则, 依次对获取的AP标识进行分词时, 具体的分 词流程如下: 针对每个AP标识, 先根据AP标识的配置规则, 对该AP标识进。

33、行分词, 得到初始 分词结果; 然后, 针对初始分词结果中的每个词, 如果该词包括有数字, 则将该词中的数字 删除, 如果删除后的该词中仅剩1个字符, 则将该词删除掉; 将最终得到的分词结果作为该 AP标识的分词结果。 0054 例如, 假设某个AP的配置规则为: 164个字符的字符串, 可以包括字母、 数字、 下 划线、“.” 、“” 、“” 、“/” 和 “-” , 区分大小写; 该AP的AP标识为dcda-8099-8500, 执行完上述 分词流程之后, 可以得到该AP的AP标识的分词结果为dcda。 0055 类似地, 在按照第二分词规则, 依次对获取的SSID进行分词时, 具体的分词。

34、流程如 下: 针对每个SSID, 先根据SSID的配置规则, 对该SSID进行分词, 得到初始分词结果; 然后, 针对初始分词结果中的每个词, 如果该词包括有数字, 则将该词中的数字删除, 如果删除后 的该词中仅剩1个字符, 则将该词删除掉; 将最终得到的分词结果作为该SSID的分词结果。 0056 在训练流程中, 在将排序后的词频中前M个除表征指定含义的词的词频之外的词 频对应的词, 添加到该标识对应的关键词库中时, 如果该标识为AP标识, 则表征指定含义的 词可以指与教育行业无关的无线术语, 例如,“ap” 、“radio” 等; 如果该标识为SSID, 则表征 指定含义的词可以指与教育行。

35、业无关的通用词或者无线领域的缩略词, 例如,“test” 、 “st” 、“cmcc” 、“net” 等。 0057 后续, 基于IDF算法, 对当前的关键词库中的词和已按照针对该标识设置的分词规 则对所述非教育行业用户的样本网络配置文件中的该标识进行分词后的样本网络配置文 件进行处理时, 具体的处理过程为: 针对当前的关键词库中的每个词, 先分别统计非教育行 业用户的样本网络配置文件的总数量(称为第一数量)以及非教育行业用户的样本网络配 说明书 4/8 页 9 CN 112134920 A 9 置文件中包括该词的文件总数量(称为第二数量); 再计算第一数量与第二数量加1之后的 商; 最后, 。

36、对计算出的商进行取对数运算, 得到该词的IDF值。 0058 其中, IDF值越大, 说明该词具有很好的类别区分能力; IDF值越小, 说明该词具有 较差的类别区分能力。 所以, 为了提高识别准确率, 将前N个IDF值对应的词从当前的关键词 库中移除。 0059 在训练流程中, 不管是AP标识的分词结果, 还是SSID的分词结果, 这些分词结果中 的有些词的写法虽不同, 但表征的含义相同, 均能明显表征教育行业, 例如, jiaoxuelou、 jiao、 jxl、 edu、 education、 stu、 sdu等这类词, 但正是由于这些词的写法不同, 可能会导致 有些词的词频较高, 在相应。

37、的关键词库中, 有些词的词频较低, 不在相应的关键词库中。 为 了提高识别准确率, 将不在相应的关键词库中的这些词也添加到相应的关键词库中。 0060 进一步需要说明的是, 在训练流程中, 上述M和N的取值, 可以不区分AP标识和 SSID, 进行统一设置; 也可以区分AP标识和SSID, 针对二者中的任一者单独设置。 0061 在测试流程中, 在统计出的总数量与测试集中的真实教育行业用户的网络配置文 件的总数量的比值不大于设定比值时, 可以按照事先设置的调整规则, 将M的取值增大, 例 如, 按照M的取值的倍数增大等等。 0062 将M的取值增大之后, 不管是针对获取的AP标识的分词结果, 。

38、还是针对获取的SSID 的分词结果, 均返回执行将排序后的词频中前M个词频对应的词, 添加到该标识对应的关键 词库中的步骤, 即, 继续训练与测试, 直到比值不小于设定比值, 例如, 设定比值为0.9, 将最 后一次测试流程中使用的AP标识对应的当前的关键词库确定为AP标识关键词库, 将SSID对 应的当前的关键词库确定为SSID关键词库, 以便后续依据AP标识关键词库和SSID关键词库 自动识别教育行业用户的网络配置文件, 进而提高了识别效率和识别准确率。 0063 进一步地, 在本申请实施例中, 在上述步骤S13中, 在逐一与AP标识关键词库进行 匹配之前, 还可以执行以下操作: 0064。

39、 将该网络配置文件中的每个AP标识的分词结果中的词, 按照出现次数从高到低的 顺序进行排序。 0065 在上述步骤S14中, 在逐一与SSID关键词库进行匹配之前, 还可以执行以下操作: 0066 将该网络配置文件中的每个SSID的分词结果中的词, 按照出现次数从高到低的顺 序进行排序。 0067 当然, 上述这两种操作流程也可应用于上述测试流程中, 以提高识别准确率。 0068 后续匹配AP标识关键词库以及匹配SSID关键词库的匹配方式, 可以与上述测试流 程中相应的匹配方式相同, 即, 不管是逐一匹配AP标识关键词库, 还是逐一匹配SSID关键词 库, 一旦匹配到, 若还有未进行匹配的词,。

40、 即不再进行匹配。 0069 更进一步地, 在本申请实施例中, 在执行完上述步骤S13之后, 还可以执行以下操 作: 0070 将该网络配置文件中的每个AP标识的分词结果中的每个词, 逐一与AP标识关键词 库进行匹配之后, 若存在与AP标识关键词库进行匹配的词, 则识别该网络配置文件为教育 行业用户的网络配置文件。 0071 在本申请实施例中, 在执行完上述步骤S14之后, 还可以执行以下操作: 0072 若不存在与AP标识关键词库进行匹配的词且不存在与SSID关键词库进行匹配的 说明书 5/8 页 10 CN 112134920 A 10 词, 则识别该网络配置文件为非教育行业用户的网络配置。

41、文件。 0073 由以上技术方案可以看出, 先根据教育行业和非教育行业用户的样本网络配置文 件, 得到AP标识关键词库和SSID关键词库, 之后, 只需对获取到的每个网络配置文件中的AP 标识和SSID进行分词, 依据各自的分词结果中的词与各自对应的关键词库的匹配结果, 即 可识别哪些网络配置文件是教育行业用户的网络配置文件。 这种识别方式, 可实现自动识 别网络配置文件, 无需人工参与, 大大提高了识别效率。 0074 基于同一发明构思, 本申请还提供了一种文件识别装置, 该装置应用于AC或者胖 AP等无线设备, 其结构示意图如图2所示, 具体包括: 0075 获取模块21, 用于从获取的多。

42、个网络配置文件中, 分别获取每个网络配置文件中 的AP标识和SSID; 0076 分词模块22, 用于针对每个网络配置文件, 按照针对AP标识设置的第一分词规则, 依次对该网络配置文件中的AP标识进行分词, 以及按照针对SSID设置的第二分词规则, 依 次对该网络配置文件中的SSID进行分词; 0077 匹配模块23, 用于将该网络配置文件中的每个AP标识的分词结果中的每个词, 逐 一与AP标识关键词库进行匹配; 以及若不存在与所述AP标识关键词库进行匹配的词, 则将 该网络配置文件中的每个SSID的分词结果中的每个词, 逐一与SSID关键词库进行匹配; 0078 识别模块24, 用于若所述匹。

43、配模块23的匹配结果为存在与所述SSID关键词库进行 匹配的词, 则识别该网络配置文件为教育行业用户的网络配置文件; 0079 其中, 所述AP标识关键词库和所述SSID关键词库均是根据教育行业和非教育行业 用户的样本网络配置文件生成的。 0080 优选地, 所述装置还包括: 0081 生成模块(图2中未示出), 用于通过以下方式生成所述AP标识关键词库和所述 SSID关键词库: 0082 将所述教育行业用户和非教育行业用户的样本网络配置文件划分为训练集和测 试集, 其中, 所述训练集和所述测试集均包括教育行业用户和非教育行业用户的样本网络 配置文件; 0083 从所述训练集中的教育行业用户的。

44、样本网络配置文件中, 分别获取每个样本网络 配置文件中的AP标识和SSID; 0084 按照所述第一分词规则, 依次对获取的AP标识进行分词, 以及按照所述第二分词 规则, 依次对获取的SSID进行分词; 0085 针对获取的AP标识和获取的SSID中的任一标识的分词结果, 基于TF-IDF算法, 对 获取的该标识的分词结果中的词进行统计, 得到每个词的词频, 并按照从高到低的顺序, 对 得到的词频进行排序; 0086 将排序后的词频中前M个除表征指定含义的词的词频之外的词频对应的词, 添加 到该标识对应的关键词库中, 其中, M为正整数; 0087 从排序后的词频中剩余的词频对应的词中, 选。

45、择表征的含义与所述关键词库中的 词表征的含义相同的词, 并将选择出的词添加到所述关键词库中; 0088 基于IDF算法, 对当前的关键词库中的词和已按照针对该标识设置的分词规则对 所述非教育行业用户的样本网络配置文件中的该标识进行分词后的样本网络配置文件进 说明书 6/8 页 11 CN 112134920 A 11 行处理, 得到当前的关键词库中的每个词的IDF值; 0089 按照从小到大的顺序, 将计算出的IDF值进行排序, 从当前的关键词库中删除前N 个IDF值对应的词, 其中, N为正整数; 0090 针对所述测试集中的每个样本网络配置文件, 按照所述第一分词规则, 依次对从 该样本网。

46、络配置文件中获取的AP标识进行分词, 以及按照所述第二分词规则, 依次对从该 样本网络配置文件中获取的SSID进行分词; 0091 将该样本网络配置文件中的每个AP标识的分词结果中的每个词, 逐一与AP标识对 应的当前的关键词库进行匹配; 0092 若存在与AP标识对应的当前的关键库进行匹配的词, 则识别该样本网络配置文件 为教育行业用户的网络配置文件; 0093 若不存在与AP标识对应的当前的关键词库进行匹配的词, 则将该样本网络配置文 件中的每个SSID的分词结果中的每个词, 逐一与SSID对应的当前的关键词库进行匹配; 0094 若存在与SSID对应的当前的关键词库进行匹配的词, 则识别。

47、该样本网络配置文件 为教育行业用户的网络配置文件; 0095 统计识别的样本网络配置文件为教育行业用户的网络配置文件的总数量; 0096 若统计出的总数量与所述测试集中的真实教育行业用户的网络配置文件的总数 量的比值不大于设定比值, 则将M的取值增大, 并针对获取的AP标识和获取的SSID中的任一 标识的分词结果, 返回执行将排序后的词频中前M个词频对应的词, 添加到该标识对应的关 键词库中的步骤, 直到所述比值不小于所述设定比值, 将AP标识对应的当前的关键词库确 定为所述AP标识关键词库, 将SSID对应的当前的关键词库确定为所述SSID关键词库。 0097 优选地, 所述装置还包括: 0。

48、098 第一排序模块(图2中未示出), 用于在所述匹配模块23逐一与AP标识关键词库进 行匹配之前, 将该网络配置文件中的每个AP标识的分词结果中的词, 按照出现次数从高到 低的顺序进行排序; 0099 所述装置还包括: 0100 第二排序模块(图2中未示出), 用于在所述匹配模块23逐一与SSID关键词库进行 匹配之前, 将该网络配置文件中的每个SSID的分词结果中的词, 按照出现次数从高到低的 顺序进行排序。 0101 优选地, 所述识别模块24, 还用于: 0102 在所述匹配模块23逐一与AP标识关键词库进行匹配之后, 若所述匹配模块23的匹 配结果为存在与所述AP标识关键词库进行匹配。

49、的词, 则识别该网络配置文件为教育行业用 户的网络配置文件。 0103 优选地, 所述识别模块24, 还用于: 0104 在所述匹配模块23逐一与SSID关键词库进行匹配之后, 若所述匹配模块23的匹配 结果为不存在与所述SSID关键词库进行匹配的词, 则识别该网络配置文件为非教育行业用 户的网络配置文件。 0105 由以上技术方案可以看出, 先根据教育行业和非教育行业用户的样本网络配置文 件, 得到AP标识关键词库和SSID关键词库, 之后, 只需对获取到的每个网络配置文件中的AP 标识和SSID进行分词, 依据各自的分词结果中的词与各自对应的关键词库的匹配结果, 即 说明书 7/8 页 1。

50、2 CN 112134920 A 12 可识别哪些网络配置文件是教育行业用户的网络配置文件。 这种识别方式, 可实现自动识 别网络配置文件, 无需人工参与, 大大提高了识别效率。 0106 本申请实施例还提供了一种电子设备, 如图3所示, 包括处理器31和机器可读存储 介质32, 所述机器可读存储介质32存储有能够被所述处理器31执行的机器可执行指令, 所 述处理器31被所述机器可执行指令促使: 实现上述文件识别方法的步骤。 0107 上述的机器可读存储介质可以包括随机存取存储器(Random Access Memory, RAM), 也可以包括非易失性存储器(Non-Volatile Mem。

展开阅读全文
内容关键字: 文件 识别 方法 装置
关于本文
本文标题:文件识别方法及装置.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10138866.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1