印章弯曲文本行矫正方法、装置及系统.pdf
《印章弯曲文本行矫正方法、装置及系统.pdf》由会员分享,可在线阅读,更多相关《印章弯曲文本行矫正方法、装置及系统.pdf(15页完成版)》请在专利查询网上搜索。
1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202410003543.2(22)申请日 2024.01.02(71)申请人 北京易道博识科技有限公司地址 100083 北京市海淀区农大南路1号院2号楼5层办公A-501(72)发明人 沈达伟王勇朱军民王立刚孙朗(74)专利代理机构 北京金智普华知识产权代理有限公司 11401专利代理师 巴晓艳(51)Int.Cl.G06V 30/16(2022.01)G06V 30/148(2022.01)(54)发明名称一种印章弯曲文本行矫正方法、装置及系统(57)摘要本发明公开了一种印章弯曲文本行矫正方。
2、法、装置及系统,涉及计算机视觉领域。该方法包括:接收印章图像,对所述印章图像进行文本分割,得到文本行掩膜、子字符掩膜、弯曲文本行首字符掩膜;根据以上三个掩膜,将所有文本行区分为直文本行和弯曲文本行,并针对弯曲文本行构成弯曲文本行实例;对所述弯曲文本行实例包含的所有子字符框进行排序;将所述弯曲文本行实例包含的所有子字符框根据所述排序的结果进行透视变换、切割和拼接,得到校正的弯曲文本行内容。本发明技术方案对于任意印章图像,能够分割并矫正所有弯曲文本行,以便进行后续的识别,具有通用性、高鲁棒性、高精度的特点。权利要求书3页 说明书8页 附图3页CN 117710988 A2024.03.15CN 1。
3、17710988 A1.一种印章弯曲文本行矫正方法,所述印章包含直文本行和/或弯曲文本行,其特征在于,所述印章弯曲文本行矫正方法包括:S1文本分割步骤:接收印章图像,对所述印章图像进行文本分割,得到文本行掩膜、子字符掩膜、弯曲文本行首字符掩膜;S2实例构造步骤:根据以上三个掩膜,将所有文本行区分为直文本行和弯曲文本行,并针对弯曲文本行构成弯曲文本行实例;S3字符排序步骤:对所述弯曲文本行实例包含的所有子字符框进行排序;S4字符切割和拼接步骤:将所述弯曲文本行实例包含的所有子字符框根据所述排序的结果进行透视变换、切割和拼接,得到校正的弯曲文本行内容。2.根据权利要求1所述的印章弯曲文本行矫正方法。
4、,其特征在于,所述S1文本分割步骤中,采用能够差分二值化的实时场景文本检测算法模型进行文本分割。3.根据权利要求2所述的印章弯曲文本行矫正方法,其特征在于,所述S1文本分割步骤中,所述实时场景文本检测算法模型包含三个结构相同的预测头,分别用于输出所述文本行掩膜、子字符掩膜、弯曲文本行首字符掩膜。4.根据权利要求1所述的印章弯曲文本行矫正方法,其特征在于,所述S1文本分割步骤还包括:将经处理后收缩的所述文本行掩膜、子字符掩膜、弯曲文本行首字符掩膜扩充为原实例大小尺寸。5.根据权利要求1所述的印章弯曲文本行矫正方法,其特征在于,所述S2实例构造步骤具体包括:S21:根据所述文本行掩膜,确定文本行坐。
5、标;S22:将所述文本行坐标映射至所述弯曲文本行首字符掩膜,确定弯曲文本行首字符位置是否存在字符,是,则为弯曲文本行;否,则为直文本行;S23:取所述弯曲文本行,根据所述子字符掩膜将每个子字符的轮廓求取最小外接矩形框,得到每个子字符的子字符框及坐标;S24:将所述子字符框坐标和弯曲文本行的首字符框坐标作为弯曲文本行实例。6.根据权利要求1所述的印章弯曲文本行矫正方法,其特征在于,所述S3字符排序步骤具体包括:S31:根据所述弯曲文本行实例包含信息对每个弯曲文本行实例所包含的所有字符进行排序,得到字符排序信息;S32:根据所述弯曲文本行实例包含信息对每个弯曲文本行实例所包含的所有字符的顶点进行排。
6、序,得到字符顶点排序信息。7.根据权利要求6所述的印章弯曲文本行矫正方法,其特征在于,所述步骤S31具体包括:从每个弯曲文本行实例的子字符框坐标中找到与弯曲文本行的首字符框坐标重叠的子字符框坐标,为第一个字符;剩余字符中与第一个字符距离最近的字符为第二个字符;剩余字符中与第二个字符距离最近的为第三个字符.直到只剩下一个字符,则该字符为最后一个字符;由此得到字符排序信息。8.根据权利要求7所述的印章弯曲文本行矫正方法,其特征在于,所述步骤S31中,根据权利要求书1/3 页2CN 117710988 A2两个字符框中点的直线距得到字符距离。9.根据权利要求6所述的印章弯曲文本行矫正方法,其特征在于。
7、,所述步骤S32具体包括:S321:对于每个所述弯曲文本行实例,根据字符排序信息计算所有字符的子字符框的中点;S322:取第一个子字符框和第二个子字符框中点,构建前进方向向量;针对第一个子字符框的4个顶点,分别从中点到顶点构建各个顶点方向的方向向量;S323:计算所述前进方向向量与任一顶点方向的方向向量的向量叉积和向量点积,并根据结果确定其为左下顶点、左上顶点、右上顶点或右下顶点;S324:以左下顶点为起点,按照顺时针方向将该子字符框的顶点按顺序排放,以此实现第一个子字符框的顶点顺序排序;S325:以此类推,再取第二个子字符框和第三个子字符框计算,实现第二个子字符框的顶点排序,直至最后一个子字。
8、符框,取上一个子字符框和该子字符框组成前进方向向量进行计算,由此得到字符顶点排序信息。10.根据权利要求9所述的印章弯曲文本行矫正方法,其特征在于,所述步骤S323中,根据以下原则确定左下顶点、左上顶点、右上顶点或右下顶点:如果叉积小于零且点积小于零,则该顶点为左上顶点;如果叉积小于零且点积大于零,则该顶点为右上顶点;如果叉积大于零且点积小于零,则该顶点为左下顶点;如果叉积大于零且点积大于零,则该顶点为右下顶点。11.根据权利要求1所述的印章弯曲文本行矫正方法,其特征在于,所述S4字符切割和拼接步骤具体包括:设定固定的文本行目标高度,每个字符的目标宽度根据自身长宽比进行缩放;针对每个所述弯曲文。
9、本行实例,根据所述字符顶点排序信息,在所述印章图像上通过透视变换以所述文本行目标高度将每个目标字符区域切割出来,并根据所述字符排序信息拼接成文本行,由此得到校正的弯曲文本行内容。12.根据权利要求11所述的印章弯曲文本行矫正方法,其特征在于,所述步骤S4中,所述文本行目标高度为32像素或48像素。13.根据权利要求11所述的印章弯曲文本行矫正方法,其特征在于,所述步骤S4中,在透视变换前将子字符框先左右各外扩0.1个字符宽度,以避免拼接成的文本行,字符因距离过近粘连在一起。14.一种印章弯曲文本行矫正装置,其特征在于,所述内容识别装置基于根据权利要求1至13中任一项所述的印章弯曲文本行矫正方法。
10、进行操作,包括:文本分割单元,用于接收印章图像,对所述印章图像进行文本分割,得到文本行掩膜、子字符掩膜、弯曲文本行首字符掩膜;实例构造单元,用于根据以上三个掩膜,将所有文本行区分为直文本行和弯曲文本行,并针对弯曲文本行构成弯曲文本行实例;字符排序单元,用于对所述弯曲文本行实例包含的所有子字符框进行排序;字符切割和拼接单元,用于将所述弯曲文本行实例包含的所有子字符框根据所述排序权利要求书2/3 页3CN 117710988 A3的结果进行透视变换、切割和拼接,得到校正的弯曲文本行内容。15.一种印章弯曲文本行矫正系统,所述系统包括:处理器和用于存储可执行指令的存储器;其特征在于,所述处理器被配置。
11、为执行所述可执行指令,以执行根据权利要求1至13中任一项所述的印章弯曲文本行矫正方法。16.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据权利要求1至13中任一项所述的印章弯曲文本行矫正方法。权利要求书3/3 页4CN 117710988 A4一种印章弯曲文本行矫正方法、装置及系统技术领域0001本发明涉及计算机视觉领域,尤其是一种印章弯曲文本行矫正方法、装置及系统。背景技术0002印章识别在很多图像信息提取业务中有重要价值。印章识别一个技术痛点是圆形印章中弯曲文本行的矫正和识别。0003目前对于该种弯曲文本行的识别可分为端到端识别方案和基于文本。
12、行分割、矫正、识别的级联方案。由于端到端方案的识别效果与级联方案相比有很大差距,工业界现以级联方案为主流。而级联方案中的弯曲文本行校正工作为整个流程中的痛点。0004对于弯曲文本行矫正,当前工业界分为两条方法路线:一条方法路线是使用TPS变换将弯曲文本行拉直,该方法路线的缺点是TPS变换会引起字符变形(如图4),这将导致后续的文字识别效果变差;另一条方法路线是字符分割组合,即将弯曲文本行中的每个字符切割出来并组合拼接成直的文本行以达到弯曲矫正的效果,并可避免字符变形问题。但由于第二条方法路线有两点致命缺陷,如今工业界仍首选第一条方法路线的TPS变换方法进行弯曲文本行矫正。该方法的效果图如图1所。
13、示。0005具体地,所述第二条路线的主流方法的两点致命缺陷如下:00061.对于包含两个或以上弯曲文本行的印章,无法区分不同的文本行实例(即无法区分某一字符应属于哪个文本行);00072.所有印章的弯曲文本行字符排列方向必须一致(全为顺时针或全为逆时针方向)。发明内容0008为了解决以上问题,本发明技术方案提供一种印章弯曲文本行矫正方法、装置及系统。对于任意印章图像,能够分割并矫正所有弯曲文本行,以便进行后续的识别,具有通用性、高鲁棒性、高精度的特点。由此,在避免了TPS变换带来字符变形问题的同时,突破了第二种路线主流方法的致命缺陷。0009根据本发明技术方案的第一方面,提供一种印章弯曲文本行。
14、矫正方法,所述印章包含直文本行和/或弯曲文本行,其中,所述印章弯曲文本行矫正方法包括:0010S1文本分割步骤:接收印章图像,对所述印章图像进行文本分割,得到文本行掩膜、子字符掩膜、弯曲文本行首字符掩膜;0011S2实例构造步骤:根据以上三个掩膜,将所有文本行区分为直文本行和弯曲文本行,并针对弯曲文本行构成弯曲文本行实例;0012S3字符排序步骤:对所述弯曲文本行实例包含的所有子字符框进行排序;0013S4字符切割和拼接步骤:将所述弯曲文本行实例包含的所有子字符框根据所述排序的结果进行透视变换、切割和拼接,得到校正的弯曲文本行内容。0014进一步地,所述S1文本分割步骤中,采用可差分二值化的实。
15、时场景文本检测说明书1/8 页5CN 117710988 A5(Realtime Scene Text Detection with Differentiable Binarization,DBNet)算法模型进行文本分割。0015进一步地,所述S1文本分割步骤中,所述实时场景文本检测算法模型包含三个结构相同的预测头,分别用于输出所述文本行掩膜、子字符掩膜、弯曲文本行首字符掩膜。0016进一步地,所述S1文本分割步骤还包括:将经处理后收缩的所述文本行掩膜、子字符掩膜、弯曲文本行首字符掩膜扩充为原实例大小尺寸。0017进一步地,所述S2实例构造步骤具体包括:0018S21:根据所述文本行掩膜,确。
16、定文本行坐标(文本行轮廓的坐标表示);0019S22:将所述文本行坐标映射至所述弯曲文本行首字符掩膜,确定弯曲文本行首字符位置是否存在字符,是,则为弯曲文本行;否,则为直文本行(无需构造实例进行处理);0020S23:取所述弯曲文本行,根据所述子字符掩膜将每个子字符的轮廓求取最小外接矩形框,得到每个子字符的子字符框及坐标;0021S24:将所述子字符框坐标和弯曲文本行的首字符框坐标作为弯曲文本行实例。0022进一步地,所述S3字符排序步骤具体包括:0023S31:根据所述弯曲文本行实例包含信息对每个弯曲文本行实例所包含的所有字符进行排序,得到字符排序信息;0024S32:根据所述弯曲文本行实例。
17、包含信息对每个弯曲文本行实例所包含的所有字符的顶点进行排序,得到字符顶点排序信息。0025进一步地,所述步骤S31具体包括:0026从每个弯曲文本行实例的子字符框坐标中找到与弯曲文本行的首字符框坐标重叠的子字符框坐标,为第一个字符;剩余字符中与第一个字符距离最近的字符为第二个字符;剩余字符中与第二个字符距离最近的为第三个字符.直到只剩下一个字符,则该字符为最后一个字符;0027由此得到字符排序信息。0028进一步地,所述步骤S31中,根据两个字符框中点的直线距得到字符距离。0029进一步地,所述步骤S32具体包括:0030S321:对于每个所述弯曲文本行实例,根据字符排序信息计算所有字符的子字。
18、符框的中点;0031S322:取第一个子字符框和第二个子字符框中点,构建前进方向向量;针对第一个子字符框的4个顶点,分别从中点到顶点构建各个顶点方向的方向向量;0032S323:计算所述前进方向向量与任一顶点方向的方向向量的向量叉积和向量点积,并根据结果确定其为左下顶点、左上顶点、右上顶点或右下顶点;0033S324:以左下顶点为起点,按照顺时针方向将该子字符框的顶点按顺序排放,以此实现第一个子字符框的顶点顺序排序;0034S325:以此类推,再取第二个子字符框和第三个子字符框计算,实现第二个子字符框的顶点排序,直至最后一个子字符框,取上一个子字符框和该子字符框组成前进方向向量进行计算,由此得。
19、到字符顶点排序信息。0035进一步地,所述步骤S323中,根据以下原则确定左下顶点、左上顶点、右上顶点或右下顶点:说明书2/8 页6CN 117710988 A60036如果叉积小于零且点积小于零,则该顶点为左上顶点;0037如果叉积小于零且点积大于零,则该顶点为右上顶点;0038如果叉积大于零且点积小于零,则该顶点为左下顶点;0039如果叉积大于零且点积大于零,则该顶点为右下顶点。0040进一步地,所述S4字符切割和拼接步骤具体包括:0041设定固定的文本行目标高度,每个字符的目标宽度根据自身长宽比进行缩放;0042针对每个所述弯曲文本行实例,根据所述字符顶点排序信息,在所述印章图像上通过透。
20、视变换以所述文本行目标高度将每个目标字符区域切割出来,并根据所述字符排序信息拼接成文本行,由此得到校正的弯曲文本行内容。0043进一步地,所述步骤S4中,所述文本行目标高度为32像素或48像素。0044进一步地,所述步骤S4中,在透视变换前将子字符框先左右各外扩0.1个字符宽度,以避免拼接成的文本行,字符因距离过近粘连在一起。0045根据本发明技术方案的第二方面,提供一种印章弯曲文本行矫正装置,所述内容识别装置基于根据以上任一方面所述的印章弯曲文本行矫正方法进行操作,包括:0046文本分割单元,用于接收印章图像,对所述印章图像进行文本分割,得到文本行掩膜、子字符掩膜、弯曲文本行首字符掩膜;00。
21、47实例构造单元,用于根据以上三个掩膜,将所有文本行区分为直文本行和弯曲文本行,并针对弯曲文本行构成弯曲文本行实例;0048字符排序单元,用于对所述弯曲文本行实例包含的所有子字符框进行排序;0049字符切割和拼接单元,用于将所述弯曲文本行实例包含的所有子字符框根据所述排序的结果进行透视变换、切割和拼接,得到校正的弯曲文本行内容。0050根据本发明的第三方面,提供一种印章弯曲文本行矫正系统,所述系统包括:处理器和用于存储可执行指令的存储器;其中,所述处理器被配置为执行所述可执行指令,以执行如以上任一方面所述的印章弯曲文本行矫正方法。0051根据本发明的第四方面,提供一种计算机可读存储介质,其特征。
22、在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如以上任一方面所述的印章弯曲文本行矫正方法。0052本发明的有益效果:00531.通过采用字符级别的分割、矫正和拼接策略,使得每个字符保留了原始形状结构,从而能够有效避免当前主流的TPS变换方式带来的明显字符变形而导致后续的字符识别率下降问题;00542.通过采用包含三个不同维度信息的文本分割模块,并结合实例构造模块,使得印章内所有弯曲文本行都能被构造为独立的弯曲文本行实例,从而能够支持印章内多个弯曲文本行的矫正,解决现存方法无法区分不同实例的缺陷;00553.通过采用字符排序模块,并结合文本分割模块预测的首字符信息,使得每个弯曲文本。
23、行实例的首字符和顺序都能被自适应确定,从而能够支持字符任意排列方向,尤其是同一个印章内的多个弯曲文本行字符排列方向不一致的情况,大大提高了适用范围。说明书3/8 页7CN 117710988 A7附图说明0056为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。0057图1示出现有技术中TPS变换方法效果图。0058图2示出根据本发明技术方案一个实施例的方法流程图。0059图3示出。
24、根据本发明技术方案一个实施例的程序结构示意图。0060图4示出根据本发明技术方案一个实施例的文本分割模块掩膜预测结果示意图。0061图5示出本发明技术方案与TPS变换方法识别效果对比图。0062本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式0063这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。0064本公开的说明书和权。
25、利要求书中的术语“第一”、“第二”等是用于区别类似的对象而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。0065此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。0066多个,包括两个或者两个以上。0067和/或,应当理解,对于本公开中使用的术语“和/或”,其仅仅是一种描述关联对象的关联关。
26、系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。0068本发明技术方案首先提供一种印章弯曲文本行矫正方法,该印章上包含直文本行和弯曲文本行,其中,印章弯曲文本行矫正方法包括:0069S1文本分割步骤:接收印章图像,对印章图像进行文本分割,得到文本行掩膜、子字符掩膜、弯曲文本行首字符掩膜;0070S2实例构造步骤:根据以上三个掩膜,将所有文本行区分为直文本行和弯曲文本行,并针对弯曲文本行构成弯曲文本行实例;0071S3字符排序步骤:对弯曲文本行实例包含的所有子字符框进行排序;0072S4字符切割和拼接步骤:将弯曲文本行实例包含的所有子字符框。
27、根据排序的结果进行透视变换、切割和拼接,得到校正的弯曲文本行内容。0073其中,S1文本分割步骤中,采用DBNet算法模型进行文本分割。说明书4/8 页8CN 117710988 A80074其中,S1文本分割步骤中,深度双向网络算法模型包含三个结构相同的预测头,分别用于输出文本行掩膜、子字符掩膜、弯曲文本行首字符掩膜。0075其中,S1文本分割步骤还包括:将经处理后收缩的文本行掩膜、子字符掩膜、弯曲文本行首字符掩膜扩充为原实例大小尺寸。0076其中,S2实例构造步骤具体包括:0077S21:根据文本行掩膜,确定文本行坐标;0078S22:将文本行坐标映射至弯曲文本行首字符掩膜,确定弯曲文本行。
28、首字符位置是否存在字符,是,则为弯曲文本行;否,则为直文本行;0079S23:取弯曲文本行,根据子字符掩膜将每个子字符的轮廓求取最小外接矩形框,得到每个子字符的子字符框及坐标;0080S24:将子字符框坐标和弯曲文本行的首字符框坐标作为弯曲文本行实例。0081其中,S3字符排序步骤具体包括:0082S31:根据弯曲文本行实例包含信息对每个弯曲文本行实例所包含的所有字符进行排序,得到字符排序信息;0083S32:根据弯曲文本行实例包含信息对每个弯曲文本行实例所包含的所有字符的顶点进行排序,得到字符顶点排序信息。0084其中,步骤S31具体包括:0085从每个弯曲文本行实例的子字符框坐标中找到与弯。
29、曲文本行的首字符框坐标重叠的子字符框坐标,为第一个字符;剩余字符中与第一个字符距离最近的字符为第二个字符;剩余字符中与第二个字符距离最近的为第三个字符.直到只剩下一个字符,则该字符为最后一个字符;0086由此得到字符排序信息。0087其中,步骤S31中,根据两个字符框中点的直线距得到字符距离。0088其中,步骤S32具体包括:0089S321:对于每个弯曲文本行实例,根据字符排序信息计算所有字符的子字符框的中点;0090S322:取第一个子字符框和第二个子字符框中点,构建前进方向向量;针对第一个子字符框的4个顶点,分别从中点到顶点构建的方向向量;0091S323:计算前进方向向量与任一顶点方向。
30、的方向向量的向量叉积和向量点积,并根据结果确定其为左下顶点、左上顶点、右上顶点或右下顶点;0092S324:按照顺时针方向将该子字符框的顶点按顺序排放,以此实现第一个子字符框的顶点顺序排序;0093S325:以此类推,再取第二个子字符框和第三个子字符框计算,实现第二个子字符框的顶点排序,直至最后一个子字符框,取上一个子字符框和该子字符框组成前进方向向量进行计算,由此得到字符顶点排序信息。0094其中,步骤S323中,根据以下原则确定左下顶点、左上顶点、右上顶点或右下顶点:0095如果叉积小于零且点积小于零,则该顶点为左上顶点;0096如果叉积小于零且点积大于零,则该顶点为右上顶点;0097如果。
31、叉积大于零且点积小于零,则该顶点为左下顶点;说明书5/8 页9CN 117710988 A90098如果叉积大于零且点积大于零,则该顶点为右下顶点。0099其中,S4字符切割和拼接步骤具体包括:0100设定固定的文本行目标高度,每个字符的目标宽度根据自身长宽比进行缩放;0101针对每个弯曲文本行实例,根据字符顶点排序信息,在印章图像上通过透视变换以文本行目标高度将目标字符区域切割出来,并根据字符排序信息拼接成文本行,由此得到校正的弯曲文本行内容。0102其中,步骤S4中,文本行目标高度为32像素或48像素。0103其中,步骤S4中,在透视变换前将子字符框先左右各外扩0.1个字符宽度。0104本。
32、发明技术方案又提供一种印章弯曲文本行矫正装置,内容识别装置基于根据以上任一方面的印章弯曲文本行矫正方法进行操作,包括:0105文本分割单元,用于接收印章图像,对印章图像进行文本分割,得到文本行掩膜、子字符掩膜、弯曲文本行首字符掩膜;0106实例构造单元,用于根据以上三个掩膜,将所有文本行区分为直文本行和弯曲文本行,并针对弯曲文本行构成弯曲文本行实例;0107字符排序单元,用于对弯曲文本行实例包含的所有子字符框进行排序;0108字符切割和拼接单元,用于将弯曲文本行实例包含的所有子字符框根据排序的结果进行透视变换、切割和拼接,得到校正的弯曲文本行内容。0109本发明技术方案还提供提供一种印章弯曲文。
33、本行矫正系统,系统包括:处理器和用于存储可执行指令的存储器;其中,处理器被配置为执行可执行指令,以执行如以上任一方面的印章弯曲文本行矫正方法。0110本发明技术方案另提供提供一种计算机可读存储介质,其特征在于,其上存储有计算机程序,计算机程序被处理器执行时实现如以上任一方面的印章弯曲文本行矫正方法。0111实施例0112根据本发明的实施例接收印章图像,首先将印章图像输入文本分割模块,得到文本行掩膜、子字符掩膜、弯曲文本行首字符掩膜。然后根据上述三个掩膜,将所有文本行(包括弯曲文本行和直文本行)构造为各个文本行实例,其中每个实例包含子字符框坐标、弯曲文本行的首字符框坐标。此时根据实例中是否包含有。
34、效的弯曲文本行首字符,可判断其为直文本行或弯曲文本行。其中直文本行无需矫正,对于其中的弯曲文本行实例,将其包含的子字符框使用本发明方法进行排序。接着根据排序结果,依次将实例中的子字符进行透视变换切割,然后拼接得到最终的矫正文本行。图2是本发明的流程示意图。图3是本发明实施例的程序结构示意图。0113文本分割模块0114本发明使用业界主流的DBNet算法模型执行该文本分割任务,使用其他文本分割算法,如pixellink等,亦可达到类似效果。原生的DBNet算法只有一个预测头,输出文本行掩膜。本发明在此算法基础上,额外添加2个结构完全一样的预测头,用于输出子字符掩膜和弯曲文本行首字符掩膜。其中文本。
35、行掩膜用于预测文本行的实例像素,子字符掩膜用于预测图像中每个字符的实例像素,弯曲文本行首字符掩膜用于预测图像中每个弯曲文本行的起始字符的实例像素。示意图如图4所示。由于DBNet的分割结果有收缩系数,因此网络输说明书6/8 页10CN 117710988 A10出的实例掩膜变得细小,在DBNet的后处理阶段会将掩膜扩充为原实例大小。0115实例构造模块0116将从文本分割模块获取的扩充后的三个掩膜,送入实例构造模块。0117首先,根据文本行掩膜,找到所有文本行的轮廓。然后,需要将找到的文本行分为弯曲文本行和直文本行两类:由于弯曲文本行首字符掩膜包含所有弯曲文本行的首字符信息,因此,对于每个文本。
36、行轮廓区域,计算该区域对应位置的弯曲文本行首字符掩膜上是否存在首字符。如果存在,则该文本行为弯曲文本行,如果不存在,则该文本行为直文本行。0118对于每个弯曲文本行,获取该文本行轮廓对应位置的子字符掩膜上的所有有效子字符,并将每个子字符的轮廓求取最小外接矩形框。然后,将该弯曲文本行轮廓、该弯曲文本行的首字符框、该弯曲文本行的所有子字符框,组成一个弯曲文本行实例。0119对于所有直文本行,由于直文本行可以直接进行识别,无需额外矫正处理,因此不在本发明讨论范围之内。0120字符排序模块0121将实例构造模块获取的所有弯曲文本行实例,送入字符排序模块。0122对于每个弯曲文本行实例,取该弯曲文本行实。
37、例的子字符框集合,找到与首字符框重叠的,为第一个字符;剩余字符中与第一个字符距离最近的为第二个字符;剩余字符中与第二个字符距离最近的为第三个字符,.,直到只剩下一个字符,则该字符为最后一个字符;至此,该文本行的字符顺序排列完毕。其中,每字符距离的计算方法,可采用两个字符框中点的直线距离。0123字符顶点排序模块0124为了确保后续将字符从原图中切割出来的方向是字头朝上的,需要对所有弯曲文本行实例中的所有字符框的顶点进行顺时针排序,期望的每个字符的顶点顺序是:左下,左上,右上,右下。0125对于每个弯曲文本行实例,计算已排序的所有子字符框的中点。然后我们取第一个和第二个字符框中点,组成一个表示了。
38、从第一字符到第二个字符前进方向的向量,记为forwardVector;此时对第一个字符框的4个顶点,分别计算从中点到顶点的方向向量,不妨将其中的一个记为vector1。计算forwardVector与vector1的向量叉积和向量点积,如果叉积小于零且点积小于零,则该顶点为左上顶点(计算机视觉中以图像左上角第一个像素点为原点,这样的话叉积小于零意味着顶点在前进方向向量的上方,点积小于零意味着两向量夹角大于90度);如果叉积小于零且点积大于零,则该顶点为右上顶点;如果叉积大于零且点积小于零,则该顶点为左下顶点;如果叉积大于零且点积大于零,则该顶点为右下顶点。按照左下,左上,右上,右下的顺时针方向。
39、将该字符框的顶点按顺序排放,以此实现第一个字符框的顶点顺序排序。以此类推,再取第二个和第三个字符框计算,实现第二个字符框的顶点排序。特殊地,最后一个字符框,取上一个字符框和该字符框组成前进方向向量即可。0126按照此方法,实现所有文本行实例的所有字符框顶点顺序排序。0127字符切割和拼接模块0128设定一个固定的文本行目标高度,如常用的32或48像素,每个字符的目标宽度则根据自身长宽比进行缩放。对于每个弯曲文本行实例,使用该实例中的每个字符框,在原图说明书7/8 页11CN 117710988 A11上通过透视变换以固定高度将目标字符区域切割出来,并按顺序拼接成一个文本行。在透视变换前建议将字。
40、符框先左右各外扩0.1个字符宽度,以避免拼接成的文本行,字符距离过近贴在一起。效果如图5所示。0129按照此方法,将所有文本行实例进行字符切割和拼接,实现所有弯曲文本行的矫正。0130需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。0131上述本发明实施例序号仅仅为了描述,不代表。
41、实施例的优劣。0132通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。0133上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。说明书8/8 页12CN 117710988 A12图1图2说明书附图1/3 页13CN 117710988 A13图3图4说明书附图2/3 页14CN 117710988 A14图5说明书附图3/3 页15CN 117710988 A15。
- 内容关键字: 印章 弯曲 文本 矫正 方法 装置 系统
链接地址:https://www.zhuanlichaxun.net/pdf/14527636.html