基于反向代理同步引擎的数据对账方法.pdf

上传人:二狗 文档编号:14333661 上传时间:2024-02-15 格式:PDF 页数:16 大小:1.19MB
收藏 版权申诉 举报 下载
基于反向代理同步引擎的数据对账方法.pdf_第1页
第1页 / 共16页
基于反向代理同步引擎的数据对账方法.pdf_第2页
第2页 / 共16页
基于反向代理同步引擎的数据对账方法.pdf_第3页
第3页 / 共16页
文档描述:

《基于反向代理同步引擎的数据对账方法.pdf》由会员分享,可在线阅读,更多相关《基于反向代理同步引擎的数据对账方法.pdf(16页完成版)》请在专利查询网上搜索。

1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202310599975.X(22)申请日 2023.05.25(71)申请人 广州唐邦信息科技有限公司地址 510000 广东省广州市天河区潭村路348号2113室2114室(仅限办公)(72)发明人 黄培涛谢志鸿(74)专利代理机构 深圳市广诺专利代理事务所(普通合伙)44611专利代理师 侯英俊(51)Int.Cl.G06Q 40/12(2023.01)G06F 18/2411(2023.01)G06N 3/0464(2023.01)G06F 40/216(2020.01)G06F 40/2。

2、89(2020.01)(54)发明名称一种基于反向代理同步引擎的数据对账方法(57)摘要本申请提供一种基于反向代理同步引擎的数据对账方法,包括:获取上传的对账材料数据内容,进行初步处理并上传至数据交换中心;根据得到的材料类型和文件类型,关键词词频和特别指定标记构建精准度需求评分模型;根据精准度需求对不同类型的对账需求材料进行摘要;根据精准度需求、网络速度预测对账出错的概率;将处理好的材料包括摘要进行传输,对于易出错数据进行反复验证;根据精准度需求评分和出错概率计算严谨度需求得分;基于反向代理同步引擎进行数据对账,具体包括:基于摘要值和严谨度需求进行对账,应用消息队列机制进行数据更新。权利要求书。

3、4页 说明书9页 附图2页CN 116611946 A2023.08.18CN 116611946 A1.一种基于反向代理同步引擎的数据对账方法,其特征在于,所述方法包括:获取上传的对账材料数据内容,进行初步处理并上传至数据交换中心,具体包括:利用CRNN模型对图像内容进行提取;根据得到的材料类型和文件类型,关键词词频和特别指定标记构建精准度需求评分模型;根据精准度需求对不同类型的对账需求材料进行摘要,具体包括:根据精准度需求对纯文本的对账需求材料进行摘要,根据精准度需求对固定关键信息模板材料进行摘要;根据精准度需求、网络速度预测对账出错的概率;将处理好的材料包括摘要进行传输,对于易出错数据进。

4、行反复验证,具体包括:针对不同精准度需求或材料不同计算上传出错概率,对于出错概率高、容错值低的数据,进行反复的数据验证;根据精准度需求评分和出错概率计算严谨度需求得分;基于反向代理同步引擎进行数据对账,具体包括:基于摘要值和严谨度需求进行对账,应用消息队列机制进行数据更新。2.根据权利要求1所述的方法,其中,所述获取上传的对账材料数据内容,进行初步处理并上传至数据交换中心,包括:接收包含日期的对账需求材料包括文本、数字、图像和语音文件并进行处理记录;提取图像的内容以文字和数据形式呈现,并将语音文件转为文字,去除口语化字段与语气词;对提取出的内容进行数据清洗,删其中的空格、乱码,将格式统一化;其。

5、中去口语化包括去除口语化字段与语气词,数据清洗包括删去纯文本中的空格、乱码,将提取出的内容的格式标准化;将日期从对账需求材料中取出,按照日期序列排列对账需求材料;获取需要进行对账的材料,将对账需求材料和对需要进行对账的材料上传到数据交换中心;对SVM向量支持机算进行训练:预输入对账记录,将其转成可供识别的VSM模型即向量空间模型,再将人工选择的真实对账所可能用到的材料以及其分类结果样本作为训练集训练向量支持机;将训练好的SVM向量支持机模型用于材料分类,得到上传材料材料类型和文件类型;所述材料类型包括合同、账目、发票、登记表、仓库单据、记录语音;所述文件类型指含数字文本或纯文本,语音,图像三种。

6、文件类型;包括:利用CRNN模型对图像内容进行提取;所述利用CRNN模型对图像内容进行提取,具体包括:加载预训练CRNN模型后修改卷积层神经网络参数,使网络自适应单通道到RGB三通道变化;在循环层初始化特征序列的权重参数;使用修改后CRNN卷积内循环神经网络模型对ICPRMTWI图像文本数据集进行训练,保存训练好的CRNN模型;保存带有可变尺寸机制的权重参数并再次保存CRNN模型;多次对CRNN卷积内循环神经网络模型进行测试和纠错,完善CRNN模型;将上传的材料图像输入CRNN模型中,进行内容的识别和提取。3.根据权利要求1所述的方法,其中,所述根据得到的材料类型和文件类型,关键词词频和特别指。

7、定标记构建精准度需求评分模型,包括:所述关键词为使用者自己输入的需要特别在对账中关注的关键词,一般默认为空值;所述标记为使用者为意图获得高精度的材料打上的标记,由使用者自己指定输入,一般默认为无;精准度需求评分scoreS*T+L*G+F*K+P*N,其中,T表示材料类型变量;G表示文件类型变量,默认含数字或纯文本最高,语音次之,图像最低;K表示关键词词频变量,词频越高则该变量越高;N表示标记变量,有标记时记特殊指定标记值N1,无标记时记N0;S表示预设材料类型权重,F表示预设关键词词频权重,L表示预设文件类型权重,P表示预设特别指定标记权重,且S+L+F+P1;所有指标进行归一化,指标内归一。

8、化公式为(xmin)/(maxmin),其中x为变量,max和min分别为该指标变量的最大值和最小值;最后按照精准度权利要求书1/4 页2CN 116611946 A2需求评分模型得出精准度需求评分,将精准度需求评分按照上下1/3区间划分为高、中、低三挡。4.根据权利要求1所述的方法,其中,所述根据精准度需求对不同类型的对账需求材料进行摘要,包括:根据精准度需求对纯文本的对账需求材料进行摘要,根据精准度需求对固定关键信息模板材料进行摘要;所述根据精准度需求对纯文本的对账需求材料进行摘要,具体包括:获取上传的对账材料数据内容,并处理成文本材料,记作对账需求材料文本;首先利用二进制转换将对账需求材。

9、料文本使用unicode解码转化为二进制串表示,在二进制串中添加01比特序列,并对其进行扫描;将形成的二进制串分割成长度为128bite的数据块,通过随机发生器获取128bite二进制键,在得到的数据块与二进制键中按照顺序进行计算,得到数据块的二进制表达值,将输出结果看作逐步的数据块摘要;二进制表达值转换成等价特征值,将等价特征值看作数据块摘要值保存;所述等价特征值为单个二进制数值;设置摘要值计算函数N(),用于将二进制表达值转换成预设的等价特征值,将等价特征值看作数据块摘要值n保存;用n描述数据块摘要值,用c描述数据块摘要,则有nN(c);对数据块进行编号处理,编号从1开始,利用摘要值计算函。

10、数N()对数据块摘要值进行计算;设置累计摘要值计算函数M(),用于从编号1开始,通过摘要值计算函数N(),循环计算编号为i的数据块摘要和编号为i1的数据块累计摘要值连接后的摘要值,得到编号前i个的数据块累计摘要值;其中,数据块累计摘要值n的初始值记作NULL;若精准度需求评分挡位为高时,则累计摘要计算迭代次数翻倍,将累计摘要值从二进制转化为文本,记作对账需求材料摘要;最后将得到的摘要值保存至本地数据库以及上传数据交换中心;所述根据精准度需求对固定关键信息模板材料进行摘要,具体包括:利用正则表达式建立账目、发票、仓库单据的固定提取关键信息模板,保存为可呈现的基本信息;若精准度需求评分档位为高,则。

11、提高相应读取的小数位数,反之降低读取的小数位数,默认读取小数点后两位。5.根据权利要求1所述的方法,其中,所述根据精准度需求、网络速度预测对账出错的概率,包括:使用CNN卷积神经网络模型建立对账出错概率模型以解决密集连接和参数过多问题,对账出错概率精准度需求,网络速度,材料件数,材料总量,文件类型,材料类型;所述精准度需求为所有材料的精准度评分之和;所述材料件数为上传的材料的件数,所述材料总量为上传材料的摘要占电脑内存大小之和;所述网络速度为当前网络速度,描述网络传输问题导致的数据上传错误因素,从电脑系统获得;先对预测对账出错概率的CNN模型进行初始训练:人工将真实对账需要的材料上传和对账之后。

12、查看出错概率,将其作为训练集输入,进行预训练,生成预训练初始模型;将各个变量输入生成的预训练初始模型当中获得对账出错的概率。6.根据权利要求1所述的方法,其中,所述将处理好的材料包括摘要进行传输,对于易出错数据进行反复验证,包括:根据精准度评分、网络速度、数字占比和材料类型预测上传出错概率,对需要传输的材料进行选择性上传;为预测的上传出错概率设立网络速度阈值,出错概率达到预设阈值时,仅在不低于预设好的网络速度阈值状况下进行上传;对于精准度需求评分为高挡或因网络权利要求书2/4 页3CN 116611946 A3问题上传失败的数据,对使用者进行验证提示并由使用者决定是否重新上传;包括:针对不同精。

13、准度需求或材料不同计算上传出错概率,对于出错概率高、容错值低的数据,进行反复的数据验证;所述针对不同精准度需求或材料不同计算上传出错概率,具体包括:利用BP神经网络模型建立上传出错概率模型,即t精准度需求评分,网络速度,文件类型,数字占比,其中t为上传出错概率;所述数字占比变量为数字占处理后的文本的总字数变量;人工向平台上传的真实对账需要的材料并人工识别上传出错的对账记录,将人工标记的出错记录的占全部训练材料的比例进行计算,得出对账出错概率,将人工识别上传出错的对账记录和对账出错概率其作为训练集输入BP神经网络模型中进行训练;结束训练之后,将精准度需求评分、网络速度、文件类型和数字占比输入BP。

14、神经网络模型中即可获得预测的上传出错概率;所述对于出错概率高、容错值低的数据,进行反复的数据验证,具体包括:首先设置材料中上传出错概率上限,高于这一出错概率视为上传极易出错,提醒使用者检查所上传数据,决定是否需要重新上传;在错误数据进行重新上传时,使用反向代理帮助提升上传效果。7.根据权利要求1所述的方法,其中,所述根据精准度需求评分和出错概率计算严谨度需求得分,包括:计算严谨度需求得分YA*sumscore+B*PR,其中,sumsocre为所有上传材料的精准度需求评分之和,PR为对账出错概率,A为预设的精准度需求评分权重,B为对账出错概率权重,且A+B1;人工设置对严谨度需求得分的水平和判。

15、断标准;当严谨度需求得分小于预设的第一阈值时标记为“建议对账严谨度:低”,当严谨度需求得分大于预设的第一阈值且小于预设的第二阈值时标记为“建议对账严谨度:中”,当严谨度需求得分大于预设的第二阈值“建议对账严谨程度:高”。8.根据权利要求1所述的方法,其中,所述基于反向代理同步引擎进行数据对账,包括:对账需求材料的数据将从本地数据库出发,经由数据交换中心到达异地数据库;数据交换中心在获得摘要和材料并传输同时也对材料进行截获,进行摘要值计算处理并保存;在发起传输数据对账请求时,将异地数据库需要进行对账的数据发送到数据交换中心,将异地数据库需要进行对账的数据进行摘要,计算摘要值,将异地数据库摘要的摘。

16、要值与本地数据库摘要的摘要值相比,即可实现数据对账;对不同严谨度需求,预设不同的摘要值匹配方法;默认严谨度需求高的,将本地数据库摘要中的文字使用精确匹配,本地数据库摘要中的数字在小数点4位之后进行模糊匹配;严谨度需求中的,将本地数据库摘要中的文字使用精确匹配,本地数据库摘要中的数字在小数点2位之后进行模糊匹配;严谨度需求低的,将本地数据库摘要中的文字使用模糊匹配,本地数据库摘要中的数字在个位后使用模糊匹配;将要进行对账的异地数据库数据摘要,并进行摘要值计算;若计算出的摘要值和本地数据库数据的摘要值不一致,说明摘要值匹配失败,则认为数据对账不成功;数据交换中心将对账不成功的数据重新传输至异地数据。

17、库,发送请求,更新不一致的摘要,重新获取不一致的摘要中的数字文本,并按照对应严谨度需求的数字匹配方法要求保留的小数位数,重复对账过程,完成对账;发送对账成功消息给数据交换中心,进行解包存储,循环此过程直至所有摘要值对账完毕;包括:基于摘要值和严谨度需求进行对账;应用消息队列机制进行数权利要求书3/4 页4CN 116611946 A4据更新;所述基于摘要值和严谨度需求进行对账,具体包括:对从材料中提取的各个记录的摘要值分别和需要进行对账的文件相对应记录的摘要值进行比较;输入需要进行对账的日期段,默认为材料中能够提取的最早日期和最晚日期;对账操作按照时间顺序从前向后依次进行,并在每完成一个日期段。

18、的对账工作之后都要重新计算记录本地数据库和异地数据库的相同摘要值;将本地数据库和异地数据库的共同摘要和数据交换中心形成的摘要数据比对,如果此时与对应数据段的摘要依然不一致,则重新计算本地数据库和异地数据库的相同摘要值,再和数据交换中心形成的摘要值进行比对;输出对账完成后的数据,对账工作完成;所述应用消息队列机制进行数据更新,具体包括:当数据交换平台对数据进行了更新,会将描述这些更新的消息以及本地应答队列和管理队列的地址存放到消息和平台内的交换节点中;交换节点设计大容量的数据高速缓冲区,针对缓冲区中的材料数据进行初步解析并生成日志记录;同时后端用MQ消息队列对交换数据重排序并进行存储;数据结果存。

19、储后,由对账模块进行数据对账更新操作。权利要求书4/4 页5CN 116611946 A5一种基于反向代理同步引擎的数据对账方法技术领域0001本发明涉及信息技术领域,尤其涉及一种基于反向代理同步引擎的数据对账方法。背景技术0002数据对账是一种监控上下游业务系统数据是否一致的流程,用于保证上下游业务系统数据无误,数据对账是各种企业、公司系统中的重要一环。传统的数据对账方法是将数据进行抽取,形成摘要数据,再进行比对,这样可以避开大量的数据量比对的问题,减少复杂度。但是这种数据对账方法在需要保障数据百分百在对账中精确匹配时,有些摘要数据会产生匹配误差,而有时,某些数据并不要求百分百在对账时精确匹。

20、配,无法实现在不同精确匹配需求进行数据对账。而且摘要数组的计算是按照对账文本顺序从前向后进行的,前面某一段数据的不一致会导致后面的所有数据的摘要不一致,导致本地数据库数据摘要和异地数据库数据摘要会存在差异。另一方面,随着业务发展,对账材料多样化,对账精确度需求也在发生变化。因此,如何根据文件类型要求、数据类型要求、质量要求等,调整摘要抽取的算法,使之能够对不同的对账要求抽取摘要也是当今数据对账中需要解决的问题;因此,设计并实现一种根据不同对账要求抽取摘要从而实现数据对账的方法,具有很重要的现实意义及理论研究价值。发明内容0003本发明提供了一种基于反向代理同步引擎的数据对账方法,主要包括:00。

21、04获取上传的对账材料数据内容,进行初步处理并上传至数据交换中心,具体包括:利用CRNN模型对图像内容进行提取;根据得到的材料类型和文件类型,关键词词频和特别指定标记构建精准度需求评分模型;根据精准度需求对不同类型的对账需求材料进行摘要,具体包括:根据精准度需求对纯文本的对账需求材料进行摘要,根据精准度需求对固定关键信息模板材料进行摘要;根据精准度需求、网络速度预测对账出错的概率;将处理好的材料包括摘要进行传输,对于易出错数据进行反复验证,具体包括:针对不同精准度需求或材料不同计算上传出错概率,对于出错概率高、容错值低的数据,进行反复的数据验证;根据精准度需求评分和出错概率计算严谨度需求得分;。

22、基于反向代理同步引擎进行数据对账,具体包括:基于摘要值和严谨度需求进行对账,应用消息队列机制进行数据更新。0005进一步可选地,所述获取上传的对账材料数据内容,进行初步处理并上传至数据交换中心包括:0006接收包含日期的对账需求材料包括文本、数字、图像和语音文件并进行处理记录;提取图像的内容以文字和数据形式呈现,并将语音文件转为文字,去除口语化字段与语气词;对提取出的内容进行数据清洗,删其中的空格、乱码,将格式统一化;其中去口语化包括去除口语化字段与语气词,数据清洗包括删去纯文本中的空格、乱码,将提取出的内容的格式标准化;将日期从对账需求材料中取出,按照日期序列排列对账需求材料;获取需要进行说。

23、明书1/9 页6CN 116611946 A6对账的材料,将对账需求材料和对需要进行对账的材料上传到数据交换中心;对SVM向量支持机算进行训练:预输入对账记录,将其转成可供识别的VSM模型即向量空间模型,再将人工选择的真实对账所可能用到的材料以及其分类结果样本作为训练集训练向量支持机;将训练好的SVM向量支持机模型用于材料分类,得到上传材料材料类型和文件类型;所述材料类型包括合同、账目、发票、登记表、仓库单据、记录语音;所述文件类型指含数字文本或纯文本,语音,图像三种文件类型;包括:利用CRNN模型对图像内容进行提取;0007所述利用CRNN模型对图像内容进行提取,具体包括:0008加载预训练。

24、CRNN模型后修改卷积层神经网络参数,使网络自适应单通道到RGB三通道变化。在循环层初始化特征序列的权重参数。使用修改后CRNN卷积内循环神经网络模型对ICPRMTWI图像文本数据集进行训练,保存训练好的CRNN模型。保存带有可变尺寸机制的权重参数并再次保存CRNN模型。多次对CRNN卷积内循环神经网络模型进行测试和纠错,完善CRNN模型。将上传的材料图像输入CRNN模型中,进行内容的识别和提取。0009进一步可选地,所述根据得到的材料类型和文件类型,关键词词频和特别指定标记构建精准度需求评分模型包括:0010所述关键词为使用者自己输入的需要特别在对账中关注的关键词,一般默认为空值;所述标记为。

25、使用者为意图获得高精度的材料打上的标记,由使用者自己指定输入,一般默认为无;精准度需求评分scoreS*T+L*G+F*K+P*N,其中,T表示材料类型变量;G表示文件类型变量,默认含数字或纯文本最高,语音次之,图像最低;K表示关键词词频变量,词频越高则该变量越高;N表示标记变量,有标记时记特殊指定标记值N1,无标记时记N0;S表示预设材料类型权重,F表示预设关键词词频权重,L表示预设文件类型权重,P表示预设特别指定标记权重,且S+L+F+P1;所有指标进行归一化,指标内归一化公式为(xmin)/(maxmin),其中x为变量,max和min分别为该指标变量的最大值和最小值;最后按照精准度需求。

26、评分模型得出精准度需求评分,将精准度需求评分按照上下1/3区间划分为高、中、低三挡。0011进一步可选地,所述根据精准度需求对不同类型的对账需求材料进行摘要包括:根据精准度需求对纯文本的对账需求材料进行摘要,根据精准度需求对固定关键信息模板材料进行摘要;0012所述根据精准度需求对纯文本的对账需求材料进行摘要,具体包括:0013获取上传的对账材料数据内容,并处理成文本材料,记作对账需求材料文本;首先利用二进制转换将对账需求材料文本使用unicode解码转化为二进制串表示,在二进制串中添加01比特序列,并对其进行扫描;将形成的二进制串分割成长度为128bite的数据块,通过随机发生器获取128b。

27、ite二进制键,在得到的数据块与二进制键中按照顺序进行计算,得到数据块的二进制表达值,将输出结果看作逐步的数据块摘要;二进制表达值转换成等价特征值,将等价特征值看作数据块摘要值保存;所述等价特征值为单个二进制数值;设置摘要值计算函数N(),用于将二进制表达值转换成预设的等价特征值,将等价特征值看作数据块摘要值n保存;用n描述数据块摘要值,用c描述数据块摘要,则有nN(c);对数据块进行编号处理,编号从1开始,利用摘要值计算函数N()对数据块摘要值进行计算;设置累计摘要值计算函数M(),用于从编号1开始,通过摘要值计算函数N(),循环计算编号为i的数据块摘要和编号为i1的数据块累计摘要值连接后的。

28、摘要值,得到编号前i个的数据块说明书2/9 页7CN 116611946 A7累计摘要值;其中,数据块累计摘要值n的初始值记作NULL;若精准度需求评分挡位为高时,则累计摘要计算迭代次数翻倍,将累计摘要值从二进制转化为文本,记作对账需求材料摘要;最后将得到的摘要值保存至本地数据库以及上传数据交换中心。0014所述根据精准度需求对固定关键信息模板材料进行摘要,具体包括:0015利用正则表达式建立账目、发票、仓库单据的固定提取关键信息模板,保存为可呈现的基本信息;若精准度需求评分档位为高,则提高相应读取的小数位数,反之降低读取的小数位数,默认读取小数点后两位。0016进一步可选地,所述根据精准度需。

29、求、网络速度预测对账出错的概率包括:0017使用CNN卷积神经网络模型建立对账出错概率模型以解决密集连接和参数过多问题,对账出错概率精准度需求,网络速度,材料件数,材料总量,文件类型,材料类型;所述精准度需求为所有材料的精准度评分之和;所述材料件数为上传的材料的件数,所述材料总量为上传材料的摘要占电脑内存大小之和;所述网络速度为当前网络速度,描述网络传输问题导致的数据上传错误因素,从电脑系统获得;先对预测对账出错概率的CNN模型进行初始训练:人工将真实对账需要的材料上传和对账之后查看出错概率,将其作为训练集输入,进行预训练,生成预训练初始模型;将各个变量输入生成的预训练初始模型当中获得对账出错。

30、的概率。0018进一步可选地,所述将处理好的材料包括摘要进行传输,对于易出错数据进行反复验证包括:0019根据精准度评分、网络速度、数字占比和材料类型预测上传出错概率,对需要传输的材料进行选择性上传;为预测的上传出错概率设立网络速度阈值,出错概率达到预设阈值时,仅在不低于预设好的网络速度阈值状况下进行上传;对于精准度需求评分为高挡或因网络问题上传失败的数据,对使用者进行验证提示并由使用者决定是否重新上传;包括:针对不同精准度需求或材料不同计算上传出错概率;对于出错概率高、容错值低的数据,进行反复的数据验证;0020所述针对不同精准度需求或材料不同计算上传出错概率,具体包括:0021利用BP神经。

31、网络模型建立上传出错概率模型,即t精准度需求评分,网络速度,文件类型,数字占比,其中t为上传出错概率。所述数字占比变量为数字占处理后的文本的总字数变量。人工向平台上传的真实对账需要的材料并人工识别上传出错的对账记录,将人工标记的出错记录的占全部训练材料的比例进行计算,得出对账出错概率,将人工识别上传出错的对账记录和对账出错概率其作为训练集输入BP神经网络模型中进行训练。结束训练之后,将精准度需求评分、网络速度、文件类型和数字占比输入BP神经网络模型中即可获得预测的上传出错概率。0022所述对于出错概率高、容错值低的数据,进行反复的数据验证,具体包括:0023首先设置材料中上传出错概率上限,高于。

32、这一出错概率视为上传极易出错,提醒使用者检查所上传数据,决定是否需要重新上传。在错误数据进行重新上传时,使用反向代理帮助提升上传效果。0024进一步可选地,所述根据精准度需求评分和出错概率计算严谨度需求得分包括:0025计算严谨度需求得分YA*sumscore+B*PR,其中,sumsocre为所有上传材料的精准度需求评分之和,PR为对账出错概率,A为预设的精准度需求评分权重,B为对账出错概率说明书3/9 页8CN 116611946 A8权重,且A+B1;人工设置对严谨度需求得分的水平和判断标准;当严谨度需求得分小于预设的第一阈值时标记为“建议对账严谨度:低”,当严谨度需求得分大于预设的第一。

33、阈值且小于预设的第二阈值时标记为“建议对账严谨度:中”,当严谨度需求得分大于预设的第二阈值“建议对账严谨程度:高”。0026进一步可选地,所述基于反向代理同步引擎进行数据对账包括:0027对账需求材料的数据将从本地数据库出发,经由数据交换中心到达异地数据库;数据交换中心在获得摘要和材料并传输同时也对材料进行截获,进行摘要值计算处理并保存;在发起传输数据对账请求时,将异地数据库需要进行对账的数据发送到数据交换中心,将异地数据库需要进行对账的数据进行摘要,计算摘要值,将异地数据库摘要的摘要值与本地数据库摘要的摘要值相比,即可实现数据对账;对不同严谨度需求,预设不同的摘要值匹配方法;默认严谨度需求高。

34、的,将本地数据库摘要中的文字使用精确匹配,本地数据库摘要中的数字在小数点4位之后进行模糊匹配;严谨度需求中的,将本地数据库摘要中的文字使用精确匹配,本地数据库摘要中的数字在小数点2位之后进行模糊匹配;严谨度需求低的,将本地数据库摘要中的文字使用模糊匹配,本地数据库摘要中的数字在个位后使用模糊匹配;将要进行对账的异地数据库数据摘要,并进行摘要值计算;若计算出的摘要值和本地数据库数据的摘要值不一致,说明摘要值匹配失败,则认为数据对账不成功;数据交换中心将对账不成功的数据重新传输至异地数据库,发送请求,更新不一致的摘要,重新获取不一致的摘要中的数字文本,并按照对应严谨度需求的数字匹配方法要求保留的小。

35、数位数,重复对账过程,完成对账;发送对账成功消息给数据交换中心,进行解包存储,循环此过程直至所有摘要值对账完毕;包括:基于摘要值和严谨度需求进行对账;应用消息队列机制进行数据更新;0028所述基于摘要值和严谨度需求进行对账,具体包括:0029对从材料中提取的各个记录的摘要值分别和需要进行对账的文件相对应记录的摘要值进行比较。输入需要进行对账的日期段,默认为材料中能够提取的最早日期和最晚日期。对账操作按照时间顺序从前向后依次进行,并在每完成一个日期段的对账工作之后都要重新计算记录本地数据库和异地数据库的相同摘要值。将本地数据库和异地数据库的共同摘要和数据交换中心形成的摘要数据比对,如果此时与对应。

36、数据段的摘要依然不一致,则重新计算本地数据库和异地数据库的相同摘要值,再和数据交换中心形成的摘要值进行比对。输出对账完成后的数据,对账工作完成。0030所述应用消息队列机制进行数据更新,具体包括:0031当数据交换平台对数据进行了更新,会将描述这些更新的消息以及本地应答队列和管理队列的地址存放到消息和平台内的交换节点中。交换节点设计大容量的数据高速缓冲区,针对缓冲区中的材料数据进行初步解析并生成日志记录。同时后端用MQ消息队列对交换数据重排序并进行存储。数据结果存储后,由对账模块进行数据对账更新操作。0032本发明实施例提供的技术方案可以包括以下有益效果:0033本发明能够对对账的数据进行更加。

37、精确的个性化处理,保证本地数据库和异地数据库摘要一致,使对账的容错性和精准度都得到更好的提升,并提升对账效率。说明书4/9 页9CN 116611946 A9附图说明0034图1为本发明的一种基于反向代理同步引擎的数据对账方法的流程图。0035图2为本发明的一种基于反向代理同步引擎的数据对账方法的示意图。具体实施方式0036为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下。

38、所获得的所有其他实施例,都应当属于本说明书保护的范围。0037本实施例一种基于反向代理同步引擎的数据对账方法具体可以包括:0038步骤101,获取上传的对账材料数据内容,进行初步处理并上传至数据交换中心。0039接收包含日期的对账需求材料包括文本、数字、图像和语音文件并进行处理记录。提取图像的内容以文字和数据形式呈现,并将语音文件转为文字,去除口语化字段与语气词。对提取出的内容进行数据清洗,删其中的空格、乱码,将格式统一化。其中去口语化包括去除口语化字段与语气词,数据清洗包括删去纯文本中的空格、乱码,将提取出的内容的格式标准化。将日期从对账需求材料中取出,按照日期序列排列对账需求材料;获取需要。

39、进行对账的材料,将对账需求材料和对需要进行对账的材料上传到数据交换中心;对SVM向量支持机算进行训练:预输入对账记录,将其转成可供识别的VSM模型即向量空间模型,再将人工选择的真实对账所可能用到的材料以及其分类结果样本作为训练集训练向量支持机。将训练好的SVM向量支持机模型用于材料分类,得到上传材料材料类型和文件类型。所述材料类型包括合同、账目、发票、登记表、仓库单据、记录语音。所述文件类型指含数字文本或纯文本,语音,图像三种文件类型。例如,上传发票单据、账目明细单和仓库单据图像之后,将单据账目图像按照转化为统一格式的内容提取物,识别当中的日期进行顺序排列,方便后续内容提取。将从图像中获得的数。

40、据输入训练好的模型中进行分类,打上相应类型标签,为后续的精准度需求提供依据。0040利用CRNN模型对图像内容进行提取。0041加载预训练CRNN模型后修改卷积层神经网络参数,使网络自适应单通道到RGB三通道变化。在循环层初始化特征序列的权重参数。使用修改后CRNN卷积内循环神经网络模型对ICPRMTWI图像文本数据集进行训练,保存训练好的CRNN模型。保存带有可变尺寸机制的权重参数并再次保存CRNN模型。多次对CRNN卷积内循环神经网络模型进行测试和纠错,完善CRNN模型。将上传的材料图像输入CRNN模型中,进行内容的识别和提取。例如,上传仓库单据图像,将仓库单据输入训练好的CRNN模型中,。

41、提取出包含时间、项目名称、金额数字和所属单位的内容。0042步骤102,根据得到的材料类型和文件类型,关键词词频和特别指定标记构建精准度需求评分模型。0043所述关键词为使用者自己输入的需要特别在对账中关注的关键词,一般默认为空值。所述标记为使用者为意图获得高精度的材料打上的标记,由使用者自己指定输入,一般默认为无。精准度需求评分scoreS*T+L*G+F*K+P*N,其中,T表示材料类型变量;G表示文说明书5/9 页10CN 116611946 A10件类型变量,默认含数字或纯文本最高,语音次之,图像最低;K表示关键词词频变量,词频越高则该变量越高;N表示标记变量,有标记时记特殊指定标记值。

42、N1,无标记时记N0。S表示预设材料类型权重,F表示预设关键词词频权重,L表示预设文件类型权重,P表示预设特别指定标记权重,且S+L+F+P1。所有指标进行归一化,指标内归一化公式为(xmin)/(maxmin),其中x为变量,max和min分别为该指标变量的最大值和最小值。最后按照精准度需求评分模型得出精准度需求评分,将精准度需求评分按照上下1/3区间划分为高、中、低三挡。例如,输入材料中含有账目文件、仓库单据和发票,其中,账目文件为含数字文件,仓库单据和发票为图像文件,且用户标记账目文件需要高精度,未设置关键词。账目文件变量情况T5,G3,N1;仓库单据变量情况T4,G2,N0;发票变量情。

43、况T4,G1,N0,三个文件的K均为0。在设置权重为S0.15,L0.3,F0.2,P0.35情况下,进行各个指标的归一化后,账目、仓库单据、发票的精准需求评分分别为0.45,0.15,0,对应的精准需求度评分挡位分别为高,中,低。0044步骤103,根据精准度需求对不同类型的对账需求材料进行摘要。0045根据精准度需求对纯文本的对账需求材料进行摘要。0046获取上传的对账材料数据内容,并处理成文本材料,记作对账需求材料文本;首先利用二进制转换将对账需求材料文本使用unicode解码转化为二进制串表示,在二进制串中添加01比特序列,并对其进行扫描;将形成的二进制串分割成长度为128bite的数。

44、据块,通过随机发生器获取128bite二进制键,在得到的数据块与二进制键中按照顺序进行计算,得到数据块的二进制表达值,将输出结果看作逐步的数据块摘要;二进制表达值转换成等价特征值,将等价特征值看作数据块摘要值保存;所述等价特征值为单个二进制数值;设置摘要值计算函数N(),用于将二进制表达值转换成预设的等价特征值,将等价特征值看作数据块摘要值n保存;用n描述数据块摘要值,用c描述数据块摘要,则有nN(c);对数据块进行编号处理,编号从1开始,利用摘要值计算函数N()对数据块摘要值进行计算;设置累计摘要值计算函数M(),用于从编号1开始,通过摘要值计算函数N(),循环计算编号为i的数据块摘要和编号。

45、为i1的数据块累计摘要值连接后的摘要值,得到编号前i个的数据块累计摘要值;其中,数据块累计摘要值n的初始值记作NULL;若精准度需求评分挡位为高时,则累计摘要计算迭代次数翻倍,将累计摘要值从二进制转化为文本,记作对账需求材料摘要;最后将得到的摘要值保存至本地数据库以及上传数据交换中心;例如,输入一段已经经过前述清洗处理的语音转成的文本形式后,先转化为二进制表示,再将该段文字切分成数据块;二进制表达值及其等价特征值存在一一对应的关系,所述等价特征值可以为二进制表达值对应的更为简单的二进制值或者二进制表达值中固定位置的数值;前i1个数据块累计摘要值ni1、第i个数据块摘要值ni与前i个数据块累计摘。

46、要值ni间的关系可描述成niM(ni1,ni);进行初始摘要值和累计摘要值的计算,并将计算结果重新转化成文字形式。0047根据精准度需求对固定关键信息模板材料进行摘要。0048利用正则表达式建立账目、发票、仓库单据的固定提取关键信息模板,保存为可呈现的基本信息;若精准度需求评分档位为高,则提高相应读取的小数位数,反之降低读取的小数位数,默认读取小数点后两位;例如输入经过图像转文字的发票数据,精准度需求高,包含了发票名称、联次、用途、客户名称、开户银行以及账号、商品名称或经营项目、计量单位、单价与数量、大小写金额、开票人与开票日期、开票单位名称和盖章。使用正则表达式模说明书6/9 页11CN 1。

47、16611946 A11板提取上述开票人和开票日期、商品名称和经营项目、客户名称,计量单位、单价数量、金额。由于精度需求评分为高,对小数位全部提取。0049步骤104,根据精准度需求、网络速度预测对账出错的概率。0050使用CNN卷积神经网络模型建立对账出错概率模型以解决密集连接和参数过多问题,对账出错概率精准度需求,网络速度,材料件数,材料总量,文件类型,材料类型。所述精准度需求为所有材料的精准度评分之和。所述材料件数为上传的材料的件数,所述材料总量为上传材料的摘要占电脑内存大小之和。所述网络速度为当前网络速度,描述网络传输问题导致的数据上传错误因素,从电脑系统获得。先对预测对账出错概率的C。

48、NN模型进行初始训练:人工将真实对账需要的材料上传和对账之后查看出错概率,将其作为训练集输入,进行预训练,生成预训练初始模型;将各个变量输入生成的预训练初始模型当中获得对账出错的概率。例如,上传的材料当中包含1件账目图像和5件发票信息,经处理材料精准度评分之和为3.6,当前从系统获得网络速度为100m/s,材料件数量为6,材料总量为6.7kb,文件类型向量为(6,0,0),材料类型向量为(0,1,0,5,0,0)。预测所得对账出错概率为2.6,说明出错概率不高。0051步骤105,将处理好的材料包括摘要进行传输,对于易出错数据进行反复验证。0052根据精准度评分、网络速度、数字占比和材料类型预。

49、测上传出错概率,对需要传输的材料进行选择性上传。为预测的上传出错概率设立网络速度阈值,出错概率达到预设阈值时,仅在不低于预设好的网络速度阈值状况下进行上传。对于精准度需求评分为高挡或因网络问题上传失败的数据,对使用者进行验证提示并由使用者决定是否重新上传。0053针对不同精准度需求或材料不同计算上传出错概率。0054利用BP神经网络模型建立上传出错概率模型,即t精准度需求评分,网络速度,文件类型,数字占比,其中t为上传出错概率。所述数字占比变量为数字占处理后的文本的总字数变量。人工向平台上传的真实对账需要的材料并人工识别上传出错的对账记录,将人工标记的出错记录的占全部训练材料的比例进行计算,得。

50、出对账出错概率,将人工识别上传出错的对账记录和对账出错概率其作为训练集输入BP神经网络模型中进行训练。结束训练之后,将精准度需求评分、网络速度、文件类型和数字占比输入BP神经网络模型中即可获得预测的上传出错概率。例如,账目材料图像已经过前面步骤的系统处理,精准度需求评分为0.86,文件类型为含数字文本,数字占比为0.4,输入训练好的模型之后,得到上传出错概率为5。0055对于出错概率高、容错值低的数据,进行反复的数据验证。0056首先设置材料中上传出错概率上限,高于这一出错概率视为上传极易出错,提醒使用者检查所上传数据,决定是否需要重新上传。在错误数据进行重新上传时,使用反向代理帮助提升上传效。

展开阅读全文
内容关键字: 基于 反向 代理 同步 引擎 数据 方法
关于本文
本文标题:基于反向代理同步引擎的数据对账方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/14333661.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1 
 


收起
展开