图像文献结构化解析方法、系统、电子设备、存储介质与流程

allin2024-07-30  99

1.本发明涉及文献处理
技术领域
:,尤其涉及一种图像文献结构化解析方法、系统、电子设备、存储介质。
背景技术
::2.对于图像文本内容的提取解析在很多实际生产场景中有着广泛的需求,随着基于人工智能的计算机视觉(computervision)任务的相关算法技术蓬勃发展,利用ai技术进行图像文本内容解析是一个十分具有价值和意义的方向。3.在图像文献中通常包含标题、关键词、摘要、正文、图表、参考文献等几部分信息,如何在解析图像文献过程中,对文献的各部分信息进行精准识别提取即图像文献页面布局分析是一个十分重要的研究课题。4.目前,对图像文献进行文本解析可以有多种不同的方式,比如可以通过使用python语言的内置工具包,直接对图像文献中的文本进行解析输出,但这种解析方式只是将图像中的文本进行读取,无法实现对每段文本进行按类别属性进行分类识别且这类方法只能针对文本内容,无法解决图表等非文本内容;还有的是通过采用一些图像解析工具,通过上传图像文件进行图像的拆分与内容识别,这种方式往往只是针对特定类型的图像有效,且同样无法实现图像内容的结构化输出。5.因此,如何将图像文献中的内容以某种固定的规则进行结构化的提取成为了一个值得探究的方案。技术实现要素:6.针对现有技术存在的问题,本发明提供一种图像文献结构化解析方法、系统、电子设备、存储介质。7.本发明提供的一种图像文献结构化解析方法,所述方法包括:8.将图像文献内各页图像按顺序拼接,获得合成图;9.基于预定的待剔除的文本内容信息,对合成图中对应部分进行遮盖处理;10.对合成图进行版面整合,获得待解析图;11.将待解析图输入lx-biolayoutlm模型,获得带有结构化标签的解析文档;12.其中,所述lx-biolayoutlm模型基于bert模型和layoutlm模型,完成对待解析图中图像信息和文本信息的对齐。13.根据本发明提供的一种图像文献结构化解析方法,所述将待解析图输入lx-biolayoutlm模型,获得带有结构化标签的解析文档,之后包括:14.将解析文档中文本的长度和待解析图中文本的长度作比较,获得关于文本结构化的完整度;15.若完整度超过预定阈值,将解析文档确认为图像文献的结构化解析后的文档。16.根据本发明提供的一种图像文献结构化解析方法,所述若完整度超过预定阈值,将解析文档确认为图像文献的结构化解析后的文档,之后包括:17.基于解析文档中的结构化标签,选中需要的若干标签,将标签对应的图像文献中的段落文本批量提取。18.根据本发明提供的一种图像文献结构化解析方法,所述lx-biolayoutlm模型的训练数据集为结构化标记的图像文献。19.根据本发明提供的一种图像文献结构化解析方法,所述lx-biolayoutlm模型中的bert模型部分,以待解析图中的文本和文本对应的位置信息作为输入,以体现文本语义理解的文本向量和表征文本段落与图像间映射关系的位置嵌入向量作为输出。20.根据本发明提供的一种图像文献结构化解析方法,所述lx-biolayoutlm模型中的layoutlm模型部分,以待解析图、待解析图中的文本和文本对应的位置信息作为输入,以字符级的2d位置嵌入向量和体现图像特征信息的图像嵌入向量作为输出。21.根据本发明提供的一种图像文献结构化解析方法,所述lx-biolayoutlm模型包括图像对齐层,所述图像对齐层以所述待解析图、体现文本语义理解的文本向量、表征文本段落与图像间映射关系的位置嵌入向量、字符级的2d位置嵌入向量、体现图像特征信息的图像嵌入向量作为输入,以带有结构化标签的解析文档作为输出。22.本发明还提供的一种图像文献结构化解析系统,所述系统包括:23.图像合成模块,所述图像合成模块将图像文献内各页图像按顺序拼接,获得合成图;24.自定义信息剔除模块,所述自定义信息剔除模块基于预定的待剔除的文本内容信息,对合成图中对应部分进行遮盖处理;25.图像版面重置模块,所述图像版面重置模块对合成图进行版面整合,获得待解析图;26.解析模块,所述解析模块将待解析图输入lx-biolayoutlm模型,获得带有结构化标签的解析文档;27.其中,所述lx-biolayoutlm模型基于bert模型和layoutlm模型,完成对待解析图中图像信息和文本信息的对齐。28.本发明还提供的一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一项所述图像文献结构化解析方法的步骤。29.本发明还提供的一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述图像文献结构化解析方法的步骤。30.本发明还提供的一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述图像文献结构化解析方法的步骤。31.本发明提供的图像文献结构化解析方法、系统、电子设备、存储介质,实现批量地对图像文献进行结构化解析,便于对复杂场景下的文献数据进行结构化提取。附图说明32.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。33.图1为本发明提供的一种图像文献结构化解析方法的流程示意图;34.图2为本发明还提供的一种图像文献结构化解析系统的结构示意图;35.图3为本发明提供的一种电子设备的实体结构示意图。具体实施方式36.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。37.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的图像文献结构化解析方法进行详细地说明。38.图1为本发明提供的一种图像文献结构化解析方法的流程示意图,如图1所示,本发明提供的一种图像文献结构化解析方法,方法包括:39.步骤100、将图像文献内各页图像按顺序拼接,获得合成图。40.需要说明的是,图像文献在本实施例中指医学领域的pdf文献。41.优选地,通过将图像文献的各页图像按顺序进行拼接合成一张大图,此过程通过python语言的内置pil包和cv2包结合图像拼接合成逻辑共同完成。42.步骤200、基于预定的待剔除的文本内容信息,对合成图中对应部分进行遮盖处理。43.根据在图像内容提取过程中,往往同一批次的图像文献可能具有某些相同的非重要性的文本内容信息,这些文本内容信息有对后续识别造成干扰的风险,因此,通过提供的当前批次图像文献中可以忽视的非重要性的文本内容信息,对合成图的相关内容进行自动遮盖处理;对无需剔除时,非重要性的文本内容信息设为空值。44.步骤300、对合成图进行版面整合,获得待解析图。45.在对输入图像进行前述的合成、遮盖处理后,可能会产生版面的冗余结构,通过将冗余信息结构进行裁剪,整合成更贴近后续模型的训练数据的图片形式。46.步骤400、将待解析图输入lx-biolayoutlm模型,获得带有结构化标签的解析文档;47.其中,lx-biolayoutlm模型基于bert模型和layoutlm模型,完成对待解析图中图像信息和文本信息的对齐。48.优选地,lx-biolayoutlm模型是基于医学图像理解任务训练的简单且有效的预训练模型,主要可以分为bert模型和layoutlm模型两个部分,通过bert模型完成对图像文献语义的理解,通过layoutlm模型捕捉图像文献的视觉特征与文本相对位置等信息,解决视觉信息层面的问题。49.本实施例实现批量地对图像文献进行结构化解析,便于对复杂场景下的文献数据进行结构化提取。50.进一步地,另一实施例中,本实施例提供一种图像文献结构化解析方法,将待解析图输入lx-biolayoutlm模型,获得带有结构化标签的解析文档,之后包括:51.将解析文档中文本的长度和待解析图中文本的长度作比较,获得关于文本结构化的完整度;52.若完整度超过预定阈值,将解析文档确认为图像文献的结构化解析后的文档。53.需要说明的是,lx-biolayoutlm模型通常用来批量处理多个图像文献,lx-biolayoutlm模型最终生成多个类html代码段的文件,每个文件对应一个原始图像文献。54.基于进入lx-biolayoutlm模型的图像文本长度和最终输出文件中文本的长度判断识别结果的完整度,基于实验数据,发现阈值确定为75%较为合适。55.本实施例公布了如何确定对图像文献的解析是否达到预定的要求,对于未能达标的解析,将解析生成的结构化的解析文本和原有的图像文献同时返回。56.进一步地,另一实施例中,本实施例提供一种图像文献结构化解析方法,若完整度超过预定阈值,将解析文档确认为图像文献的结构化解析后的文档,之后包括:57.基于解析文档中的结构化标签,选中需要的若干标签,将标签对应的图像文献中的段落文本批量提取。58.需要说明的是,通常的任务是,批量的图像文献被指定要求提取其中特定模块(比如,题目和关键词)的内容,通过模型获取解析文档,找到与特定模块对应的结构化标签,再将解析文档中与标签对应的内容提取来完成任务。59.本实施例实现将图像文献中的题目、摘要、关键词、正文、图标、参考文献等信息根据需求按模块属性进行提取输出,大大降低了人们对图像文献解析的难度,提高了图像数据处理的精度与效率。60.进一步地,另一实施例中,本实施例提供一种图像文献结构化解析方法,lx-biolayoutlm模型的训练数据集为结构化标记的图像文献。61.优选地,对8000篇医学图像文献进行结构化标记,通过将整个图像文献的题目、摘要、关键词、正文、图表、参考文献分别通过《title》《/title》、《abstract》《/abstract》、《k》《/k》、《text》《/text》、《table》《/table》、《r》《/r》等类html标签进行标记,构造训练数据集。62.训练数据采用生物医学文献库数据进行人工标记得到,训练出的模型对生物医学图像文献的效果更好。63.本实施例公布了lx-biolayoutlm模型的训练数据集的构造方法。64.进一步地,另一实施例中,本实施例提供一种图像文献结构化解析方法,lx-biolayoutlm模型中的layoutlm模型部分,以待解析图、待解析图中的文本和文本对应的位置信息作为输入,以字符级的2d位置嵌入向量和体现图像特征信息的图像嵌入向量作为输出;lx-biolayoutlm模型中的layoutlm模型部分,以待解析图、待解析图中的文本和文本对应的位置信息作为输入,以字符级的2d位置嵌入向量和体现图像特征信息的图像嵌入向量作为输出;lx-biolayoutlm模型包括图像对齐层,图像对齐层以待解析图、体现文本语义理解的文本向量、表征文本段落与图像间映射关系的位置嵌入向量、字符级的2d位置嵌入向量、体现图像特征信息的图像嵌入向量作为输入,以带有结构化标签的解析文档作为输出。65.需要说明的是,lx-biolayoutlm模型本身带有ocr功能,在获取待解析图时,即可相应获取图中的文本以及文本对应的位置信息。2d位置嵌入向量,用于表示文档内的相对位置标记,用于捕捉文档内的符号之间的关系;图像嵌入向量,用于捕捉一些表现特征,例如字的方向,类型与颜色。为了使文档的图像特征信息与文字信息对齐,在模型中添加一个图像嵌入向量层以在语言表现中代表图像特征。文档的图像特征信息与文字信息对齐,是图像特征如字体、颜色等信息,与相应文字内容信息对应的过程。66.lx-biolayoutlm可以细分为bert模型和layoutlm模型两部分,其中bert模型是自然语言处理方向的模型,在这里也用于处理文本信息,以解决此任务中语义理解层面的问题;layoutlm模型用于捕捉文档图像的视觉特征与文本相对位置等信息,解决视觉信息层面的问题,通过两部分结合利用医学图像与文本数据预训练得到了lx-biolayoutlm模型,实现对文档图像中的信息进行文档的布局识别,最终实现将图像文档中的题目、摘要、正文、图表等信息区别开,做到结构化标签化的输出。67.图像对齐层以待解析图、体现文本语义理解的文本向量、表征文本段落与图像间映射关系的位置嵌入向量、字符级的2d位置嵌入向量、体现图像特征信息的图像嵌入向量作为输入,通过这四个向量结合待解析图像本身进行对齐,就是把对内容的语义理解以及捕捉到的图像特征进行归一化,最终合成拿到了html结构化文件。68.图像对齐层是一个卷积神经网络层,通过利用待解析图将图像转换为由像素值组成的矩阵,然后对矩阵进行逐行扫描(将矩阵与扫描区域对应的矩阵进行相乘再相加再取均值),得到新特征矩阵,新特征矩阵与四个向量拼接后组成的矩阵进行加权求和,然后利用激活函数归一化,再将归一化后的矩阵解码得到html结构化文件。本实施例中向量的获取通过transformer网络编码实现。69.此外lx-biolayoutlm模型训练时加入多任务学习目标,包括遮罩视觉语言模型mvlm(maskedvisual-languagemodel)损失与多标签文档分类mdc(multi-labeldocumentclassification)损失,这会更加驱动文本与布局的结合预训练。70.本实施例公布了lx-biolayoutlm模型的训练和应用过程。71.下面对本发明提供的图像文献结构化解析系统进行描述,下文描述的图像文献结构化解析系统与上文描述的图像文献结构化解析方法可相互对应参照。72.图2为本发明还提供的一种图像文献结构化解析系统的结构示意图,如图2所示,本发明还提供的一种图像文献结构化解析系统,系统包括:73.图像合成模块,图像合成模块将图像文献内各页图像按顺序拼接,获得合成图;74.自定义信息剔除模块,自定义信息剔除模块基于预定的待剔除的文本内容信息,对合成图中对应部分进行遮盖处理;75.图像版面重置模块,图像版面重置模块对合成图进行版面整合,获得待解析图;76.解析模块,解析模块将待解析图输入lx-biolayoutlm模型,获得带有结构化标签的解析文档;77.其中,lx-biolayoutlm模型基于bert模型和layoutlm模型,完成对待解析图中图像信息和文本信息的对齐。78.本实施例实现批量地对图像文献进行结构化解析,便于对复杂场景下的文献数据进行结构化提取。79.通过训练微调,系统准确率可以达到96.5%,实际推理结果经人工校验确定准确率为93%,通过本发明提供的系统对图像文献进行结构化解析可较为完美地解决人工提取数据耗时且昂贵的问题。80.图3为本发明提供的一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)810、通信接口(communicationsinterface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行图像文献结构化解析方法,所述方法包括:81.将图像文献内各页图像按顺序拼接,获得合成图;82.基于预定的待剔除的文本内容信息,对合成图中对应部分进行遮盖处理;83.对合成图进行版面整合,获得待解析图;84.将待解析图输入lx-biolayoutlm模型,获得带有结构化标签的解析文档;85.其中,所述lx-biolayoutlm模型基于bert模型和layoutlm模型,完成对待解析图中图像信息和文本信息的对齐。86.此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。87.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的图像文献结构化解析方法,所述方法包括:88.将图像文献内各页图像按顺序拼接,获得合成图;89.基于预定的待剔除的文本内容信息,对合成图中对应部分进行遮盖处理;90.对合成图进行版面整合,获得待解析图;91.将待解析图输入lx-biolayoutlm模型,获得带有结构化标签的解析文档;92.其中,所述lx-biolayoutlm模型基于bert模型和layoutlm模型,完成对待解析图中图像信息和文本信息的对齐。93.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的图像文献结构化解析方法,所述方法包括:94.将图像文献内各页图像按顺序拼接,获得合成图;95.基于预定的待剔除的文本内容信息,对合成图中对应部分进行遮盖处理;96.对合成图进行版面整合,获得待解析图;97.将待解析图输入lx-biolayoutlm模型,获得带有结构化标签的解析文档;98.其中,所述lx-biolayoutlm模型基于bert模型和layoutlm模型,完成对待解析图中图像信息和文本信息的对齐。99.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。100.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。101.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页12当前第1页12
技术特征:
1.一种图像文献结构化解析方法,其特征在于,所述方法包括:将图像文献内各页图像按顺序拼接,获得合成图;基于预定的待剔除的文本内容信息,对合成图中对应部分进行遮盖处理;对合成图进行版面整合,获得待解析图;将待解析图输入lx-biolayoutlm模型,获得带有结构化标签的解析文档;其中,所述lx-biolayoutlm模型基于bert模型和layoutlm模型,完成对待解析图中图像信息和文本信息的对齐。2.根据权利要求1所述的图像文献结构化解析方法,其特征在于,所述将待解析图输入lx-biolayoutlm模型,获得带有结构化标签的解析文档,之后包括:将所述解析文档中文本的长度和所述待解析图中文本的长度作比较,获得关于文本结构化的完整度;若完整度超过预定阈值,将所述解析文档确认为所述图像文献的结构化解析后的文档。3.根据权利要求2所述的图像文献结构化解析方法,其特征在于,所述若完整度超过预定阈值,将所述解析文档确认为所述图像文献的结构化解析后的文档,之后包括:基于所述解析文档中的结构化标签,选中需要的若干标签,将标签对应的图像文献中的段落文本批量提取。4.根据权利要求1所述的图像文献结构化解析方法,其特征在于,所述lx-biolayoutlm模型的训练数据集为结构化标记的图像文献。5.根据权利要求1所述的图像文献结构化解析方法,其特征在于,所述lx-biolayoutlm模型中的bert模型部分,以待解析图中的文本和文本对应的位置信息作为输入,以体现文本语义理解的文本向量和表征文本段落与图像间映射关系的位置嵌入向量作为输出。6.根据权利要求5所述的图像文献结构化解析方法,其特征在于,所述lx-biolayoutlm模型中的layoutlm模型部分,以待解析图、待解析图中的文本和文本对应的位置信息作为输入,以字符级的2d位置嵌入向量和体现图像特征信息的图像嵌入向量作为输出。7.根据权利要求6所述的图像文献结构化解析方法,其特征在于,所述lx-biolayoutlm模型包括图像对齐层,所述图像对齐层以所述待解析图、体现文本语义理解的文本向量、表征文本段落与图像间映射关系的位置嵌入向量、字符级的2d位置嵌入向量、体现图像特征信息的图像嵌入向量作为输入,以带有结构化标签的解析文档作为输出。8.一种图像文献结构化解析系统,其特征在于,所述系统包括:图像合成模块,所述图像合成模块将图像文献内各页图像按顺序拼接,获得合成图;自定义信息剔除模块,所述自定义信息剔除模块基于预定的待剔除的文本内容信息,对合成图中对应部分进行遮盖处理;图像版面重置模块,所述图像版面重置模块对合成图进行版面整合,获得待解析图;解析模块,所述解析模块将待解析图输入lx-biolayoutlm模型,获得带有结构化标签的解析文档;其中,所述lx-biolayoutlm模型基于bert模型和layoutlm模型,完成对待解析图中图像信息和文本信息的对齐。9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运
行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述图像文献结构化解析方法的步骤。10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述图像文献结构化解析方法的步骤。

技术总结
本发明提供一种图像文献结构化解析方法、系统、电子设备、存储介质,所述方法包括:将图像文献内各页图像按顺序拼接,获得合成图;基于预定的待剔除的文本内容信息,对合成图中对应部分进行遮盖处理;对合成图进行版面整合,获得待解析图;将待解析图输入LX-BioLayoutLM模型,获得带有结构化标签的解析文档;其中,所述LX-BioLayoutLM模型基于BERT模型和LayoutLM模型,完成对待解析图中图像信息和文本信息的对齐。本发明实现批量地对图像文献进行结构化解析,便于对复杂场景下的文献数据进行结构化提取。行结构化提取。行结构化提取。


技术研发人员:王则远 刘鹏
受保护的技术使用者:灵犀量子(北京)医疗科技有限公司
技术研发日:2022.03.15
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-15823.html

最新回复(0)