本技术属于计算机软件,涉及医疗大模型训练用数据提取,尤其涉及一种电子病历后结构化标注方法、装置、电子设备及存储介质。
背景技术:
1、由于电子病历的结构化与书写便利性之间存在矛盾,结构化做得越好,书写便利程度往往会更差。因此,很多医院为了医生书写的便利性,在结构化程度方面做了牺牲。但在医院数据有效利用等方面又都要求做好电子病历结构化。
2、目前存在的病历后结构化就是解决此类问题的方案,其一般通过ai模型来实现后结构化比传统规则有更好的开发效率以及效果。而ai的训练依赖较好的、庞大的训练数据,但传统的标注系统需要大量的人工标注时间与成本,完全利用模型的方式来进行标注又会加大开发周期及开发成本。
技术实现思路
1、为了解决上述现有技术的不足,本技术提供一种电子病历后结构化标注方法、装置、电子设备及存储介质,基于对html格式的电子病历进行自动结构化标注以生成训练所需数据,可提高标注效率,降低标注成本,利于缩短项目研发周期。
2、为了实现上述目的,本发明采用以下技术:
3、一种电子病历后结构化标注方法,包括:
4、从导入的一批属于某个种类的电子病历中获取一个作为待处理的样本,其包含一份html格式的电子病历以及对应的病历模板编号;每个病历模板编号唯一对应一个预先配置的html模板;
5、根据病历模板编号获取根据其对应的html模板预先配置的标注配置和替换规则组,标注配置中预先设置有标准数据元与html模板中的病历组件的映射关系;
6、解析html格式的电子病历,提取含有id信息的html元素作为病历组件,并提取id信息对应的纯文本内容作为对应的病历组件的值;
7、遍历各标准数据元,根据映射关系完成对各标准数据元与病历组件的值的取值对应:
8、当标准数据元与病历组件的映射关系为一对一时,将病历组件的值提取作为标准数据元的取值;
9、当标准数据元与病历组件的映射关系为一对多时,根据各病历组件所具有的预设组合顺序序号或预设优先级序号进行提取:若具有预设组合顺序序号,则根据组合顺序序号对应的顺序,依次拼接各病历组件的值,将拼接后的结果作为标准数据元的取值;若具有预设优先级序号,则根据优先级序号对应的优先级,选择非空值中优先级最高的病历组件的值作为标准数据元的取值;
10、当标准数据元与病历组件的映射关系为多对一时,根据病历组件是否具有预设的ai辅助标识进行提取:若不具有预设的ai辅助标识,则将病历组件的值同时作为多个标准数据元的取值,若具有预设的ai辅助标识,则表明标注配置中该病历组件所对应映射关系的多个标准数据元的取值是需要通过调用预设的通用生成式ai语言模型的api提取生成,则依据映射关系调用所述通用生成式ai语言模型的api生成标准数据元的取值;
11、根据替换规则组对完成对应取值后的标准数据元进行优化处理,包括根据替换规则组中预设的优先顺序对标准数据元的取值进行字符串替换和/或正则表达式替换,完成后结构化标注。
12、进一步,获取到待处理样本后,解析html格式的电子病历以从中提取纯文本的电子病历,用于作为训练所需的输入input;
13、完成后结构化标注后,将标注结果作为训练所需的输出output;
14、将输入input和输出output一同生成为训练所需的json格式文档。
15、进一步,完成后结构化标注后,进行标注结果展示,以提供给用户进行人工修订标注结果;待用户完成人工修订标注结果的操作后,将修订后的标注结果作为训练所需的输出output。
16、进一步,调用通用生成式ai语言模型的api生成标准数据元的取值,包括:
17、将病历组件的值作为问题内容通过api输入通用生成式ai语言模型;
18、为各标准数据元分别生成一段提示词;
19、依次将各提示词通过api输入通用生成式ai语言模型;
20、依次接收通用生成式ai语言模型根据各提示词从问题内容中选择并输出的目标内容,将目标内容作为对应标准数据元的取值。
21、一种电子病历后结构化标注装置,包括:
22、接收模块,从导入的一批属于某个种类的电子病历中获取一个作为待处理的样本,其包含一份html格式的电子病历以及对应的病历模板编号;每个病历模板编号唯一对应一个预先配置的html模板;
23、获取模块,用于根据病历模板编号获取根据其对应的html模板预先配置的标注配置和替换规则组,标注配置中预先设置有标准数据元与html模板中的病历组件的映射关系;
24、解析模块,用于解析html格式的电子病历,提取含有id信息的html元素作为病历组件,并提取id信息对应的纯文本内容作为对应的病历组件的值;
25、取值模块,用于遍历各标准数据元,根据映射关系完成对各标准数据元与病历组件的值的取值对应:
26、当标准数据元与病历组件的映射关系为一对一时,将病历组件的值提取作为标准数据元的取值;
27、当标准数据元与病历组件的映射关系为一对多时,根据各病历组件所具有的预设组合顺序序号或预设优先级序号进行提取:若具有预设组合顺序序号,则根据组合顺序序号对应的顺序,依次拼接各病历组件的值,将拼接后的结果作为标准数据元的取值;若具有预设优先级序号,则根据优先级序号对应的优先级,选择非空值中优先级最高的病历组件的值作为标准数据元的取值;
28、当标准数据元与病历组件的映射关系为多对一时,根据病历组件是否具有预设的ai辅助标识进行提取:若不具有预设的ai辅助标识,则将病历组件的值同时作为多个标准数据元的取值,若具有预设的ai辅助标识,则表明标注配置中该病历组件所对应映射关系的多个标准数据元的取值是需要通过调用预设的通用生成式ai语言模型的api提取生成,则依据映射关系调用所述通用生成式ai语言模型的api生成标准数据元的取值;
29、替换模块,用于根据替换规则组对完成取值对应后的标准数据元进行优化处理,包括根据替换规则组中预设的优先顺序对标准数据元的取值进行字符串替换和/或正则表达式替换,完成后结构化标注。
30、进一步,解析模块还用于解析html格式的电子病历,以从中提取纯文本的电子病历;装置还包括生成模块,用于将提取获得的纯文本的电子病历作为训练所需的输入input,将完成后结构化标注得到的标注结果作为训练所需的输出output,并将输入input和输出output一同生成为训练所需的json格式文档。
31、进一步,装置还包括界面模块,用于在完成后结构化标注后,进行标注结果展示,以提供给用户进行人工修订标注结果;生成模块用于在用户完成人工修订标注结果的操作后,将修订后的标注结果作为训练所需的输出output。
32、一种电子设备,包括至少一个处理器和存储器;其中,所述存储器存储有计算机执行指令;在所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行所述的电子病历后结构化标注方法。
33、一种计算机可读存储介质,其上存储有计算机程序,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行所述的电子病历后结构化标注方法。
34、本发明有益效果在于:
35、1、基于对html格式的电子病历进行自动结构化标注以生成训练所需数据,可提高标注效率,降低标注成本,并利于缩短项目研发周期;
36、2、通过映射关系进行标准数据元与病历组件的值进行一对一、多对一、一对多的取值对应,并利用替换规则组进行优化处理,提高标注效率的同时,确保标注的合理性、有效性。
1.一种电子病历后结构化标注方法,其特征在于,包括:
2.根据权利要求1所述的电子病历后结构化标注方法,其特征在于,获取到待处理样本后,解析html格式的电子病历以从中提取纯文本的电子病历,用于作为训练所需的输入input;
3.根据权利要求2所述的电子病历后结构化标注方法,其特征在于,完成后结构化标注后,进行标注结果展示,以提供给用户进行人工修订标注结果;待用户完成人工修订标注结果的操作后,将修订后的标注结果作为训练所需的输出output。
4.根据权利要求1所述的电子病历后结构化标注方法,其特征在于,拼接各病历组件的值时,按“病历组件的前缀+病历组件的值+病历组件的后缀”的方式进行;其中,病历组件的前缀和病历组件的后缀用于作为拼接的间隔字符,病历组件的前缀为病历组件的描述信息,病历组件的值为病历组件的内容,病历组件的后缀为标点符号。
5.根据权利要求1所述的电子病历后结构化标注方法,其特征在于,调用通用生成式ai语言模型的api生成标准数据元的取值,包括:
6.根据权利要求5所述的电子病历后结构化标注方法,其特征在于,通用生成式ai语言模型包括通义千问、文心一言、qwen1.5、qwen2、chatglm中的一种。
7.根据权利要求1所述的电子病历后结构化标注方法,其特征在于,标注配置和替换规则组通过如下步骤进行预先配置:
8.一种电子病历后结构化标注装置,其特征在于,包括:
9.一种电子设备,包括至少一个处理器和存储器;其中,所述存储器存储有计算机执行指令;其特征在于,在所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-7中任意一项所述的电子病历后结构化标注方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利要求1-7中任意一项所述的电子病历后结构化标注方法。
