非结构化文档的识别转换方法、系统及电子设备与流程

allin2024-10-05  53



1.本发明涉及办公场景下的图纸转换技术领域,尤其涉及一种非结构化文档的识别转换方法、系统及电子设备。


背景技术:

2.现阶段,无论是在日常工作还是在出版、纸质文件留存方面,人们对非结构化文档的使用需求不断增加。比如办公场景下的文件、合同、报表的自动识别与归档之类的办公自动化操作步骤、数字图书馆中对于文档的自动检索和自动分类功能以及对老旧文档或者重要信息的电子化保存等等。这对相应的非结构化文档的处理及识别等技术提出了更高的要求,其中图片表格的识别与提取更是一个备受关注的问题。
3.对非结构化文档进行分析的重要步骤就是对文档图片的版面结构进行分析,这种对文档图片进行版面分析的方式很大程度上提高了对非结构化文档的自动化识别效率,同时也避免了人们为了方便文档图片中的内容的保存,再次输入到计算机中的麻烦,提高了非结构化文档保存的输入效率。现阶段所产生的能对非结构化文档进行分析的识别系统,是不需要使用者对非结构化数字文档中的各个分类通过手动鼠标点击或者键盘输入的操作方式进行辅助定位的,而是由计算机自动来完成这项工作。
4.国内现阶段对于非结构化文档的研究虽然已经有了一定的效果,但是使用者对于非结构化文档的识别系统还有更高的需求。一份内容完整的非结构化文档所包含的版面内容,不应该仅仅局限于对文字的识别,还有很多文字之外的结构及内容需要识别、重构和复现,比如对于图片以及对表格的识别及转换等等,所以对于非结构化文档识别的实用化程度不是很高,对于使用者的需求也不能很好的满足。


技术实现要素:

5.本发明的目的在于提供一种非结构化文档的识别转换方法、系统及电子设备,将表格图片转化为可编辑的excel表格,提高了非结构化文档的实用性。
6.为了达到上述目的,本发明提供了一种非结构化文档的识别转换方法,用于将办公场景下的文件、合同或报表中的表格图片识别转换为可编辑的表格,包括:
7.提供一表格图片,提取所述表格图片中的表格线及交点,且获得每一单元格的表格信息;
8.根据每一所述单元格的表格信息,将所述表格图片进行切割为若干子图片,每一所述子图片对应一个所述单元格,并提取每个所述子图片中的字符信息;以及,
9.将每一所述单元格的表格信息和每个所述子图片中的字符信息组合后转换成excel表格输出。
10.可选的,提取所述表格图片中的表格线及交点的步骤包括:
11.通过预设的滤波器对所述表格图片进行滤波;以及,
12.对滤波后的所述表格图片进行图像二值化,获得所述表格图片中的水平线、垂线
及所述水平线和所述垂线之间的交点。
13.可选的,获得所述表格图片中的交点的步骤包括:
14.延长长度小于所述表格图片中的第一条垂线的若干垂线,以使被延长的垂线的两端分别与所述表格图片中的第一条水平线和最后一条水平线对齐,和/或,延长长度小于所述表格图片中的第一条水平线的若干水平线,以使被延长的水平线的两端分别与所述表格图片中的第一条垂线和最后一条垂线对齐;
15.提取所有垂线与所有水平线的交点,逐个将提取的每个交点的位置信息与所述表格图片中的相应交点的位置信息进行对比,以判断提取的交点是否与所述表格图片中的相应交点重合,若不重合,则舍去该交点;若重合,则保留该交点,直至对比完提取的所有交点,保留的交点为获得的所述表格图片中的交点。
16.可选的,获得每一所述单元格的表格信息的步骤包括:
17.提取的交点的位置信息包括水平位置及垂向位置,遍历提取的每个所述交点,以每个所述交点为单元格的左上角交点,根据每个所述交点的水平位置及垂向位置获得与其处于同一水平位置且位于其右侧的所有水平交点,以及获得与其处于同一垂向位置且位于其下侧的所有垂向交点;根据所述水平交点和所述垂向交点得到右下角交点,判断所述右下角交点是否在所述表格图片中存在,判断所述左上角交点、所述水平交点、所述垂向交点和所述右下角交点之间的水平连线和垂向连线是否在所述表格图片中存在,以及判断所述左上角交点、所述水平交点、所述垂向交点和所述右下角交点之间的区域是否不存在其它连线,若均是,则所述左上角交点、所述水平交点、所述垂向交点和所述右下角交点构成一个所述单元格,以获得所述单元格的表格信息。
18.可选的,所述单元格的表格信息包括所述单元格的位置信息和排列信息。
19.可选的,在获得所述单元格的表格信息之后,对所述表格线进行切割以得到若干所述单元格,并存储每一所述单元格的表格信息。
20.可选的,利用神经网络模型提取每个所述子图片中的字符信息。
21.一种非结构化文档的识别转换系统,用于将办公场景下的文件、合同或报表中的表格图片识别转换为可编辑的表格,包括:
22.第一提取模块,用于提供一表格图片,提取所述表格图片中的表格线及交点,且获得每一单元格的表格信息;
23.第二提取模块,用于根据每一所述单元格的表格信息,将所述表格图片进行切割为若干子图片,每一所述子图片对应一个所述单元格,并提取每个所述子图片中的字符信息;
24.组合转换模块,用于将每一所述单元格的表格信息和每个所述子图片中的字符信息组合后转换成excel表格输出。
25.一种电子设备,所述电子设备包括:
26.一个或多个执行器;以及,
27.存储器,用于存储一个或多个程序;以及,
28.当所述一个或多个程序被所述一个或多个执行器执行,使得所述一个或多个执行器实现如上所述的非结构化文档的识别转换方法。
29.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被执行器
执行时实现如上所述的非结构化文档的识别转换方法。
30.在本发明提供的非结构化文档的识别转换方法、系统及电子设备中,提供一表格图片,提取表格图片中的表格线及交点,且获得每一单元格的表格信息;根据每一单元格的表格信息,将表格图片进行切割为若干子图片,每一子图片对应一个单元格,并提取每个子图片中的字符信息;以及,将每一单元格的表格信息和每个子图片中的字符信息组合后转换成excel表格输出;在本发明中,表格图片属于非结构化文档,无法进行直接编辑,利用本发明提供的方法进行识别转换,能够将表格图片转化为可编辑的excel表格,提高了非结构化文档的实用性。
附图说明
31.图1为本发明一实施例提供的非结构化文档的识别转换方法的流程图;
32.图2为本发明一实施例提供的非结构化文档的识别转换系统的框图。
33.其中,附图标记为:
34.10-第一提取模块;20-第二提取模块;30-组合转换模块。
具体实施方式
35.下面将结合示意图对本发明的具体实施方式进行更详细的描述。根据下列描述,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
36.图1为本实施例提供的非结构化文档的识别转换方法的流程图。请参考图1,本实施例提供了一种非结构化文档的识别转换方法,用于将办公场景下的文件、合同或报表中的表格图片识别转换为可编辑的表格,其包括:
37.步骤s1:提供一表格图片,提取表格图片中的表格线及交点,且获得每一单元格的表格信息;
38.步骤s2:根据每一单元格的表格信息,将表格图片进行切割为若干子图片,每一子图片对应一个单元格,并提取每个子图片中的字符信息;以及,
39.步骤s3:将每一单元格的表格信息和每个子图片中的字符信息组合后转换成excel表格输出。
40.下面对本实施例提供的非结构化文档的识别转换方法进行详细说明。
41.执行步骤s1:在办公场景中,很多文件、合同或报表中均具有表格图片,主要涉及统筹、审计、财务会计、金融等行业,但不限于此,还可以是大数据分析行业。例如在采购合同中会具有关于物品采购的数量和预算金额的表格图片,或者在财务报表中会具有关于项目经费预算和实际支出的表格图片,或者在审计文件中会具有人口增长和年份、地域相关的表格图片等等。提供一表格图片,表格图片属于一种非结构化文档,不能直接编辑表格图片,因此需要将表格图片进行识别转换成可编辑的表格。
42.表格图片上包括表格线和字符信息,表格线构成一矩阵,表格线包括水平线和垂线。通过预设的滤波器对表格图片进行滤波,然后对滤波后的表格图片进行图像二值化,获得表格图片中的水平线、垂线及水平线和垂线之间的交点;并且获得水平线和垂线的交点的位置信息,交点的位置信息能够准确体现获得的表格线是否跟表格图片中的相应表格线
重合。在本实施例中,交点的位置信息可以是在表格图片中建立坐标系,在对滤波后的所述表格图片进行图像二值化后,获得表格图片中每个像素点的坐标值作为每个像素点的位置信息,交点的位置信息即交点对应的像素点的坐标值,考虑到交点可能占有多个像素点,可以选取交点对应的中心像素点作为交点的位置信息。
43.在本实施例中,由于表格图片中的表格可能是不规则表格,即不同行和/或不同列的单元格数量不同,单元格数量不同可能导致垂线和/或水平线的长度不同,但表格图片中的第一条垂线和最后一条垂线作为表格的垂向外边框是垂线中最长的,表格图片中的第一条水平线和最后一条水平线作为表格的水平外边框是水平线中最长的。因此获得表格图片中的交点的步骤包括:延长表格图片中长度小于第一条垂线的若干垂线,以使被延长的垂线的两端分别与表格图片中的第一条水平线和最后一条水平线对齐,即延长后的垂线的长度等于第一条垂线的长度;和/或,延长表格图片中长度小于第一条水平线的若干水平线,以使被延长的水平线的两端分别与表格图片中的第一条垂线和最后一条垂线对齐,即延长后的水平线的长度等于第一条水平线的长度;提取所有垂线与所有水平线的交点,所有垂线包括延长后的垂线和未延长的垂线,所有水平线包括延长后的水平线和未延长的水平线;逐个将提取的每个交点的位置信息与所述表格图片中的相应交点的位置信息进行对比,以判断提取的交点是否与所述表格图片中的相应交点重合,若不重合,则舍去该交点;若重合,则保留该交点,直至遍历对比完提取的所有交点,被保留的交点即为获得的所述表格图片中的交点。
44.进一步地,获得表格图片中每一单元格的表格信息,表格信息包括位置信息及排列信息。在本实施例中,获得每一单元格的表格信息的步骤包括:提取的交点的位置信息包括水平位置及垂向位置,相当于水平坐标值和垂线坐标值,遍历提取的每个交点,以每个交点为单元格的左上角交点,根据每个交点的水平位置及垂向位置获得与其处于同一水平位置且位于其右侧的所有水平交点,若交点的右侧没有水平交点,则表明该交点不为左上角交点(即该交点位于最后一条垂线上);以及,根据每个交点的水平位置及垂向位置获得与其处于同一垂向位置且位于其下侧的所有垂向交点,若交点的下侧没有垂向交点,则表明该交点不为左上角交点(即该交点位于最后一条水平线上);根据水平交点和垂向交点得到右下角交点,判断右下角交点是否在表格图片中存在,判断左上角交点、水平交点、垂向交点和右下角交点之间的水平连线和垂向连线是否在表格图片中存在,以及判断左上角交点、水平交点、垂向交点和右下角交点之间的区域是否不存在其它连线,若均是,则左上角交点、水平交点、垂向交点和右下角交点构成一个单元格,以获得每一单元格的表格信息。由于若干表格线构成一矩阵,四个交点确定一个单元格,由每个单元格左上角交点的位置信息及单元格的长宽从而得到每一单元格的位置信息及排列信息。
45.在确定每一单元格的位置及排列关系后,对表格线进行切割以得到若干单元格,并存储每一单元格的表格信息,每一单元格的表格信息包括每一单元格的位置信息及排列信息。
46.执行步骤s2:根据每一单元格的表格信息,对表格图片进行切割以得到若干子图片,每一子图片对应一单元格。将若干子图片输入到神经网络模型中,神经网络模型具有强大的特征提取能力,能够提取子图片中字符的形态特征,从而进行字符的识别,以将每一子图片中的字符部分提取出来。在本实施例中的神经网络模型是专用于图像识别领域的模
型,以便于准确提取每一子图片中的字符信息。
47.执行步骤s3:在获得每一单元格的表格信息及字符信息后,将每一单元格的字符信息输入对应的单元格中,并且按照每一单元格的表格信息及自设定的比例进行单元格组合以使所有单元格组合后转换为excel表格输出,以便于对excel表格进行编辑,实现了表格图片的信息化处理。
48.图2为本实施例提供的非结构化文档的识别转换系统的框图。请参考图2,本实施例提供了一种非结构化文档的识别转换系统,用于将办公场景下的文件、合同或报表中的表格图片识别转换为可编辑的表格,其包括:
49.第一提取模块10,用于提供一表格图片,提取表格图片中的表格线及交点,且获得每一单元格的表格信息;
50.第二提取模块20,用于根据每一单元格的表格信息,将表格图片进行切割为若干子图片,每一子图片对应一个单元格,并提取每个子图片中的字符信息;
51.组合转换模块30,用于将每一单元格的表格信息和每个子图片中的字符信息组合后转换成excel表格输出。
52.在本实施例中,在办公场景中,很多文件、合同或报表中均具有表格图片,主要涉及统筹、审计、财务会计、金融等行业,但不限于此,还可以是大数据分析行业。表格图片属于一种非结构化文档,不能直接编辑表格图片,因此需要将表格图片进行识别转换成可编辑的表格。通过第一提取模块10提取表格图片中的表格线及交点,且获得每一单元格的表格信息,每一单元格的表格信息包括位置信息及排列信息。通过第二提取模块20对表格图片进行切割以得到若干子图片,每一子图片对应一单元格。将若干子图片输入到神经网络模型中,神经网络模型具有强大的特征提取能力,能够提取子图片中字符的形态特征,从而进行字符的识别,以将每一子图片中的字符部分提取出来。通过组合转换模块30将每一单元格的字符信息输入对应的单元格中,并且按照每一单元格的表格信息及自设定的比例进行单元格组合以使所有单元格组合后转换为excel表格输出,以便于对excel表格进行编辑,实现了表格图片的信息化处理。
53.进一步地,本实施例还提供一种电子设备,用于将表格图片转化为可编辑的excel表格,提高了非结构化文档的实用性,电子设备包括:
54.一个或多个执行器;以及,
55.存储器,用于存储一个或多个程序;以及,
56.当一个或多个程序被一个或多个执行器执行,使得一个或多个执行器实现如上述实施例提出的非结构化文档的识别转换方法。
57.本实施例中,执行器及存储器均为一个,执行器和存储器可以通过总线或其他方式连接。
58.存储器作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的非结构化文档的识别转换方法对应的程序指令/模块。执行器通过运行存储在所述存储器中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述的非结构化文档的识别转换方法。
59.存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。
此外,非结构化文档的识别转换方法的存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器可进一步包括相对于执行器远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
60.本实施例提出的电子设备与上述实施例提出的非结构化文档的识别转换方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
61.本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被执行器执行时实现如上述实施例提出的非结构化文档的识别转换方法。
62.通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
63.综上,在本发明提供的非结构化文档的识别转换方法、系统及电子设备中,提供一表格图片,提取表格图片中的表格线及交点,且获得每一单元格的表格信息;根据每一单元格的表格信息,将表格图片进行切割为若干子图片,每一子图片对应一个单元格,并提取每个子图片中的字符信息;以及,将每一单元格的表格信息和每个子图片中的字符信息组合后转换成excel表格输出;在本发明中,表格图片属于非结构化文档,无法进行直接编辑,利用本发明提供的方法进行识别转换,能够将表格图片转化为可编辑的excel表格,提高了非结构化文档的实用性。
64.上述仅为本发明的优选实施例而已,并不对本发明起到任何限制作用。任何所属技术领域的技术人员,在不脱离本发明的技术方案的范围内,对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动,均属未脱离本发明的技术方案的内容,仍属于本发明的保护范围之内。

技术特征:
1.一种非结构化文档的识别转换方法,用于将办公场景下的文件、合同或报表中的表格图片识别转换为可编辑的表格,其特征在于,包括:提供一表格图片,提取所述表格图片中的表格线及交点,且获得每一单元格的表格信息;根据每一所述单元格的表格信息,将所述表格图片进行切割为若干子图片,每一所述子图片对应一个所述单元格,并提取每个所述子图片中的字符信息;以及,将每一所述单元格的表格信息和每个所述子图片中的字符信息组合后转换成excel表格输出。2.如权利要求1所述的非结构化文档的识别转换方法,其特征在于,提取所述表格图片中的表格线及交点的步骤包括:通过预设的滤波器对所述表格图片进行滤波;以及,对滤波后的所述表格图片进行图像二值化,获得所述表格图片中的水平线、垂线及所述水平线和所述垂线之间的交点。3.如权利要求2所述的非结构化文档的识别转换方法,其特征在于,获得所述表格图片中的交点的步骤包括:延长长度小于所述表格图片中的第一条垂线的若干垂线,以使被延长的垂线的两端分别与所述表格图片中的第一条水平线和最后一条水平线对齐,和/或,延长长度小于所述表格图片中的第一条水平线的若干水平线,以使被延长的水平线的两端分别与所述表格图片中的第一条垂线和最后一条垂线对齐;提取所有垂线与所有水平线的交点,逐个将提取的每个交点的位置信息与所述表格图片中的相应交点的位置信息进行对比,以判断提取的交点是否与所述表格图片中的相应交点重合,若不重合,则舍去该交点;若重合,则保留该交点,直至对比完提取的所有交点,保留的交点为获得的所述表格图片中的交点。4.如权利要求1所述的非结构化文档的识别转换方法,其特征在于,获得每一所述单元格的表格信息的步骤包括:提取的交点的位置信息包括水平位置及垂向位置,遍历提取的每个所述交点,以每个所述交点为单元格的左上角交点,根据每个所述交点的水平位置及垂向位置获得与其处于同一水平位置且位于其右侧的所有水平交点,以及获得与其处于同一垂向位置且位于其下侧的所有垂向交点;根据所述水平交点和所述垂向交点得到右下角交点,判断所述右下角交点是否在所述表格图片中存在,判断所述左上角交点、所述水平交点、所述垂向交点和所述右下角交点之间的水平连线和垂向连线是否在所述表格图片中存在,以及判断所述左上角交点、所述水平交点、所述垂向交点和所述右下角交点之间的区域是否不存在其它连线,若均是,则所述左上角交点、所述水平交点、所述垂向交点和所述右下角交点构成一个所述单元格,以获得所述单元格的表格信息。5.如权利要求4所述的非结构化文档的识别转换方法,其特征在于,所述单元格的表格信息包括所述单元格的位置信息和排列信息。6.如权利要求1所述的非结构化文档的识别转换方法,其特征在于,在获得所述单元格的表格信息之后,对所述表格线进行切割以得到若干所述单元格,并存储每一所述单元格的表格信息。
7.如权利要求1所述的非结构化文档的识别转换方法,其特征在于,利用神经网络模型提取每个所述子图片中的字符信息。8.一种非结构化文档的识别转换系统,用于将办公场景下的文件、合同或报表中的表格图片识别转换为可编辑的表格,其特征在于,包括:第一提取模块,用于提供一表格图片,提取所述表格图片中的表格线及交点,且获得每一单元格的表格信息;第二提取模块,用于根据每一所述单元格的表格信息,将所述表格图片进行切割为若干子图片,每一所述子图片对应一个所述单元格,并提取每个所述子图片中的字符信息;组合转换模块,用于将每一所述单元格的表格信息和每个所述子图片中的字符信息组合后转换成excel表格输出。9.一种电子设备,其特征在于,所述电子设备包括:一个或多个执行器;以及,存储器,用于存储一个或多个程序;以及,当所述一个或多个程序被所述一个或多个执行器执行,使得所述一个或多个执行器实现如权利要求1-7中任一所述的非结构化文档的识别转换方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被执行器执行时实现如权利要求1-7中任一所述的非结构化文档的识别转换方法。

技术总结
本发明提供了一种非结构化文档的识别转换方法、系统及电子设备,用于对办公场景下的文件、合同或报表中的表格图片识别转换为可编辑的表格,包括:提供一表格图片,提取所述表格图片中的表格线及交点,且获得每一单元格的表格信息;根据每一所述单元格的表格信息,将所述表格图片进行切割为若干子图片,每一所述子图片对应一个所述单元格,并提取每个所述子图片中的字符信息;以及,将每一所述单元格的表格信息和每个所述子图片中的字符信息组合后转换成Excel表格输出。本发明将表格图片转化为可编辑的Excel表格,提高了非结构化文档的实用性。实用性。实用性。


技术研发人员:钱立贵 周小雪 陈鑫 李剑楠 王希 曾伟
受保护的技术使用者:上海爱可生信息技术股份有限公司
技术研发日:2022.04.18
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-16758.html

最新回复(0)