文档数据清洗方法、系统、电子设备、存储介质与流程

allin2024-08-03  67



1.本发明涉及数据清洗技术领域,尤其涉及一种文档数据清洗方法、系统、电子设备、存储介质。


背景技术:

2.对于图像版本的文献中的冗余信息(包括隐私信息、水印信息等等)的清洗在很多实际生产场景中有着广泛的需求,近年来,随着基于人工智能的计算机视觉(computer vision)任务的相关算法技术蓬勃发展,利用ai技术辅助进行各种数据清洗是一个十分有价值的过程,可以为企业或个人节省大量的时间并且减少成本的消耗。
3.在日常对图像版本的文献进行处理解析时,经常遇到一些不想要的垃圾冗余信息夹杂在所需文本信息之中,比如一些页眉页脚信息、水印信息、二维码信息等。但是,将这些无用信息通过某种方式一次性地进行清洗掉,很难找到一个方便、有效的方法。
4.目前,对图像版本的文献进行清洗,通常利用编程语言将图像版本的文献中的文本进行读取,通过指定特定的规则进行清洗,这类方法实现较为简单,只能针对形式较为规整、需要剔除信息较少的文献。


技术实现要素:

5.针对现有技术存在的问题,本发明提供一种文档数据清洗方法、系统、电子设备、存储介质。
6.本发明提供的一种文档数据清洗方法,所述方法包括:
7.获取待清洗的文档的图像版本,将文档的图像版本拆分为多个示例;
8.将示例转化为图像向量,并与预置的样本图像向量比较,判断示例是否需要去除;
9.去除需要去除的示例,拼接剩余的示例,获得清洗后的文档。
10.根据本发明提供的一种文档数据清洗方法,所述将文档的图像版本拆分为多个示例,包括:
11.基于多示例学习,将文档的图像版本拆分为多个多示例包;
12.其中,每个多示例包含有多个没有分类标签的示例。
13.根据本发明提供的一种文档数据清洗方法,所述将示例转化为图像向量,包括:
14.基于transformer网络,先将示例拆分形成序列,再对序列进行编码,形成与示例对应的图像向量。
15.根据本发明提供的一种文档数据清洗方法,所述将示例转化为图像向量,并与预置的样本图像向量比较,包括:
16.将示例转化为图像向量;
17.将示例转化的图像向量与预置的样本图像向量进行欧几里得距离求解,将欧几里得距离作为两个图像向量的相似度;
18.将相似度大于预定阈值的示例判断为需要去除的示例;
19.其中,示例和预置的样本均通过相同的transformer网络转化为图像向量。
20.根据本发明提供的一种文档数据清洗方法,所述获得清洗后的文档之前,或者,所述将文档的图像版本拆分为多个示例之前,还包括:
21.对文档的图像版本进行色素检测,去除与当前图像整体不符的斑点。
22.根据本发明提供的一种文档数据清洗方法,所述将示例转化为图像向量,并与预置的样本图像向量比较,之前包括:
23.确认待清洗的文档中需要去除的信息类别;
24.选择与需要去除的信息类别所对应的样本图像的种类。
25.本发明还提供的一种文档数据清洗系统,所述系统包括:
26.获取模块,所述获取模块获取待清洗的文档的图像版本,将文档的图像版本拆分为多个示例;
27.判断模块,所述判断模块将示例转化为图像向量,并与预置的样本图像向量比较,判断示例是否需要去除;
28.重构模块,所述重构模块去除需要去除的示例,拼接剩余的示例,获得清洗后的文档。
29.本发明还提供的一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一项所述文档数据清洗方法的步骤。
30.本发明还提供的一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述文档数据清洗方法的步骤。
31.本发明还提供的一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述文档数据清洗方法的步骤。
32.本发明提供的文档数据清洗方法、系统、电子设备、存储介质,可以对大多数各种形式的图像版本的文献进行清洗,大大节省数据清洗的成本,提高数据生产效率。
附图说明
33.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
34.图1为本发明提供的一种文档数据清洗方法的流程示意图;
35.图2为本发明还提供的一种文档数据清洗系统的结构时示意图;
36.图3为本发明提供的一种电子设备的实体结构示意图。
具体实施方式
37.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
38.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的文档数据清洗方法进行详细地说明。
39.图1为本发明提供的一种文档数据清洗方法的流程示意图,如图1所示,本发明提供的一种文档数据清洗方法,方法包括:
40.步骤100、获取待清洗的文档的图像版本,将文档的图像版本拆分为多个示例。
41.本方法能够用来应用于医学pdf文献,本方法的实现基于训练过的神经网络模型,通过对5000篇pdf文献进行人工处理,将一些非关键信息(如水印、页眉、页脚、二维码)与文献关键文本内容信息(如题目、摘要、正文、关键词等),进行坐标标记分类,分为非关键信息与关键信息两类,用做神经网络模型的训练集数据。
42.神经网络模型中将每张图像拆分多个图像块,每个图像块进一步拆分为多个示例。这里示例是指的比图像块更细粒度的、构成图像块的单元。优选地,示例指的是多示例学习中构成多示例包的示例(instance),也可理解为实例,比如在医学图像领域,ct图被标定为有无病症,而一个人有病症是因为在ct图的某个区域被检测为病灶区域。这时,多示例包就是ct图像,而示例就是ct图中的某个小区域。
43.步骤200、将示例转化为图像向量,并与预置的样本图像向量比较,判断示例是否需要去除。
44.神经网络模型中预置有需要去除的样本图像,通过一个图像向量转化模块,将示例与预置的样本都转化为图像向量的形式,从而方便数学上的比较。
45.预置的需要去除的样本图像,可以通过上传文本或图片的形式来实现。
46.对于示例转化后的图像向量与预置的样本图像向量相似度大于预置阈值的,说明该示例需要删除。
47.步骤300、去除需要去除的示例,拼接剩余的示例,获得清洗后的文档。
48.示例是通过图像块按照预定规则得来的,各个示例之间因而存在基于预定规则的连接或者映射关系,通过神经网络进行编码,该编码发力于全局,去除需要去除的示例后,进行编码的逆向操作,恢复示例之间的映射关系,完成拼接,获取清洗后的文档。
49.本实施例通过此种方法可以将图像版本的文献中的水印信息、二维码信息以及其他的某些自定义信息进行精准无痕清洗,以满足日常工作、生活中对图像版本的文献清洗的需要。
50.进一步地,另一实施例中,本实施例提供一种文档数据清洗方法,将文档的图像版本拆分为多个示例,包括:
51.基于多示例学习,将文档的图像版本拆分为多个多示例包;
52.其中,每个多示例包含有多个没有分类标签的示例。
53.神经网络模型中采用多示例学习,将每张图像拆分多个图像块,组合成一组具有分类标签的多示例包,每个多包(即多示例包)含有多个没有分类标签的示例,构建多示例学习分类器。
54.本实施例通过多示例学习将文档的图像版本拆分为多个示例,以完成较小粒度的清洗。
55.进一步地,另一实施例中,本实施例提供一种文档数据清洗方法,将示例转化为图像向量,包括:
56.基于transformer网络,先将示例拆分形成序列,再对序列进行编码,形成与示例对应的图像向量。
57.神经网络模型中采用transformer网络结合多示例学习分类器的多示例包,将多示例包的每个示例进一步拆分并形成embedding序列,形成类似nlp中的tokens,利用transformer网络将它们编码,该编码发力于局域,相应的映射形成示例转化的图像向量。
58.本实施例将多示例学习与transformer架构结合进行目标检测算法的搭建,提升了数据清洗模型的精度与效率。
59.进一步地,另一实施例中,本实施例提供一种文档数据清洗方法,将示例转化为图像向量,并与预置的样本图像向量比较,包括:
60.将示例转化为图像向量;
61.将示例转化的图像向量与预置的样本图像向量进行欧几里得距离求解,将欧几里得距离作为两个图像向量的相似度;
62.将相似度大于预定阈值的示例判断为需要去除的示例。
63.其中,示例和预置的样本均通过相同的transformer网络转化为图像向量。
64.优选地,首先将预置的清洗信息(比如某些logo图、二维码、文本信息等)转为20*20像素的自定义图像,经transformer网络转为自定义图像向量,然后利用该自定义图像向量与图像版本的文献拆分出来的多示例包中的每个示例所对应的图像向量做欧几里得距离,求两向量(ea,eb)的相似度d(ea,eb),公式如下:
65.ea=(a1,a2,...,an)
ꢀꢀꢀ
(1)
66.eb=(b1,b2,...,bn)
ꢀꢀꢀ
(2)
[0067][0068]
通过阈值设定将多示例包中与自定义图像向量距离较近的坐标记录下来,将对应图像页的信息进行去除。
[0069]
本实施例将图片向量相似度计算运用到文献数据清洗领域。
[0070]
进一步地,另一实施例中,本实施例提供一种文档数据清洗方法,获得清洗后的文档之前,或者,将文档的图像版本拆分为多个示例之前,还包括:
[0071]
对文档的图像版本进行色素检测,去除与当前图像整体不符的斑点。
[0072]
通过模型的ocr模块,对每个图像进行色素检测,去除与当前图像整体轮廓不符的斑点,通过小粒度的识别,将每个图像块的斑点去除,最终实现通过色素差异将相应的信息进行清除可以实现对水印、二维码等信息的清洗。
[0073]
本实施例使用文本与图像两个通道对需要清洗的内容进行清洗,将ocr模型与图像相似度和基于色素分离的图像处理技术进行融合,最终实现了将图像版本的文献中有明显色素差异的斑点数据和分块检测的用户输入冗余信息进行分类去除。
[0074]
进一步地,另一实施例中,本实施例提供一种文档数据清洗方法,将示例转化为图像向量,并与预置的样本图像向量比较,之前包括:
[0075]
确认待清洗的文档中需要去除的信息类别;
[0076]
选择与需要去除的信息类别所对应的样本图像的种类。
[0077]
需要说明的是,需要去除的信息类别指,logo图、二维码、水印、页眉、页脚等等。
[0078]
本实施例通过选择需要清洗的信息类别或者上传需要清洗的文本或图像,系统根据这些信息利用ai技术进行双通道的自动清洗或自定义清洗。
[0079]
下面对本发明提供的文档数据清洗系统进行描述,下文描述的文档数据清洗系统与上文描述的文档数据清洗方法可相互对应参照。
[0080]
图2为本发明还提供的一种文档数据清洗系统的结构时示意图,如图2所示,本发明还提供的一种文档数据清洗系统,系统包括:
[0081]
获取模块,获取模块获取待清洗的文档的图像版本,将文档的图像版本拆分为多个示例;
[0082]
判断模块,判断模块将示例转化为图像向量,并与预置的样本图像向量比较,判断示例是否需要去除;
[0083]
重构模块,重构模块去除需要去除的示例,拼接剩余的示例,获得清洗后的文档。
[0084]
通过上传100篇各种类型的pdf文献进行验证,其中有91篇结果文献符合预期,剩余9篇中有少量期望元素没有去除,可通过对模型的微调加以改进,整体精度可达90%以上。
[0085]
本实施例通过将ai领域计算机视觉算法应用到图像版本的文献数据清洗方向,可较为迅速、精准的对批量图像版本的文献进行清洗。
[0086]
图3为本发明提供的一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)810、通信接口(communications interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行文档数据清洗方法,所述方法包括:
[0087]
获取待清洗的文档的图像版本,将文档的图像版本拆分为多个示例;
[0088]
将示例转化为图像向量,并与预置的样本图像向量比较,判断示例是否需要去除;
[0089]
去除需要去除的示例,拼接剩余的示例,获得清洗后的文档。
[0090]
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0091]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的文档数据清洗方法,所述方法包括:
[0092]
获取待清洗的文档的图像版本,将文档的图像版本拆分为多个示例;
[0093]
将示例转化为图像向量,并与预置的样本图像向量比较,判断示例是否需要去除;
[0094]
去除需要去除的示例,拼接剩余的示例,获得清洗后的文档。
[0095]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的文档数据清洗方法,所述方法包括:
[0096]
获取待清洗的文档的图像版本,将文档的图像版本拆分为多个示例;
[0097]
将示例转化为图像向量,并与预置的样本图像向量比较,判断示例是否需要去除;
[0098]
去除需要去除的示例,拼接剩余的示例,获得清洗后的文档。
[0099]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0100]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0101]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:
1.一种文档数据清洗方法,其特征在于,所述方法包括:获取待清洗的文档的图像版本,将文档的图像版本拆分为多个示例;将示例转化为图像向量,并与预置的样本图像向量比较,判断示例是否需要去除;去除需要去除的示例,拼接剩余的示例,获得清洗后的文档。2.根据权利要求1所述的文档数据清洗方法,其特征在于,所述将文档的图像版本拆分为多个示例,包括:基于多示例学习,将文档的图像版本拆分为多个多示例包;其中,每个多示例包含有多个没有分类标签的示例。3.根据权利要求2所述的文档数据清洗方法,其特征在于,所述将示例转化为图像向量,包括:基于transformer网络,先将示例拆分形成序列,再对序列进行编码,形成与示例对应的图像向量。4.根据权利要求3所述的文档数据清洗方法,其特征在于,所述将示例转化为图像向量,并与预置的样本图像向量比较,包括:将示例转化为图像向量;将示例转化的图像向量与预置的样本图像向量进行欧几里得距离求解,将欧几里得距离作为两个图像向量的相似度;将相似度大于预定阈值的示例判断为需要去除的示例;其中,示例和预置的样本均通过相同的transformer网络转化为图像向量。5.根据权利要求1-4中任一所述的文档数据清洗方法,其特征在于,所述获得清洗后的文档之前,或者,所述将文档的图像版本拆分为多个示例之前,还包括:对文档的图像版本进行色素检测,去除与当前图像整体不符的斑点。6.根据权利要求5所述的文档数据清洗方法,其特征在于,所述将示例转化为图像向量,并与预置的样本图像向量比较,之前包括:确认待清洗的文档中需要去除的信息类别;选择与需要去除的信息类别所对应的样本图像的种类。7.一种文档数据清洗系统,其特征在于,所述系统包括:获取模块,所述获取模块获取待清洗的文档的图像版本,将文档的图像版本拆分为多个示例;判断模块,所述判断模块将示例转化为图像向量,并与预置的样本图像向量比较,判断示例是否需要去除;重构模块,所述重构模块去除需要去除的示例,拼接剩余的示例,获得清洗后的文档。8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述文档数据清洗方法的步骤。9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述文档数据清洗方法的步骤。10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述文档数据清洗方法的步骤。

技术总结
本发明提供一种文档数据清洗方法、系统、电子设备、存储介质,所述方法包括:获取待清洗的文档的图像版本,将文档的图像版本拆分为多个示例;将示例转化为图像向量,并与预置的样本图像向量比较,判断示例是否需要去除;去除需要去除的示例,拼接剩余的示例,获得清洗后的文档。本发明可以对大多数各种形式的图像版本的文献进行清洗,大大数据清洗的成本,提高数据生产效率。数据生产效率。数据生产效率。


技术研发人员:刘鹏 王则远
受保护的技术使用者:灵犀量子(北京)医疗科技有限公司
技术研发日:2022.03.15
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-15930.html

最新回复(0)