1.本发明涉及计算机技术领域,尤其涉及一种医学影像报告不合法词概率统计方法、装置及存储介质。
背景技术:2.医学影像报告包括影像描述部分和诊断报告部分,医生每天要处理几十份医学影像报告,工作量大,编写医学影像报告过程中,由于拼音输入法或其他原因,报告中出现了不适合当前报告的词汇或错误词汇,例如左手的医学影像报告中出现了涉及右手的词汇,又如关于男性的医学影像报告中出现涉及女性器官的词汇,再如头部的医学影像报告中出现了涉及其他部位的词汇,错误词汇可能是同音不同意的词汇。一旦出现上述情况,容易导致误会和纠纷。
3.鉴于此,为了辅助医生检查医学影像报告,对医学影像报告内容的词汇进行检查,发现不合法的词并给出提示就非常有必要。目前,是通过简单设定一些互斥词汇来解决,此做法容易误判并不能准确地的给出合理提示,有必要对现有的医学影像报告中不合法词的发现方法予以改进,以解决上述技术问题。
技术实现要素:4.本发明的目的在于揭示一种医学影像报告不合法词概率统计方法、装置及存储介质,具体通过概率统计的方式,统计出医学影像报告中存在的互斥词,在医生撰写医学影像报告过程中,随时做出不合法词的提示。
5.本发明的第一个发明目的是提供一种医学影像报告不合法词概率统计方法。
6.本发明的第二个发明目的是提供一种医学影像报告不合法词概率统计装置。
7.本发明的第三个发明目的是提供一种计算机可读存储介质。
8.为实现上述第一个发明目的,本发明提供了一种医学影像报告不合法词概率统计方法,包括以下步骤:
9.对第i份历史医学影像报告进行分词,得到词集ci;
10.设置第一大数据词集c,所述第一大数据词集c包括c1、c2…ci
;
11.为第一大数据词集c中的每个词设定编号,得到m个词汇,即m1、m2…mx
;
12.对第j份医学影像检查项目及患者性别信息进行分词,得到词集kj;
13.设置第二大数据词集k,所述第二大数据词集k包括k1、k2…
kj;
14.为第二大数据词集k中的每个词集设定编号,得到n个词集,即n1、n2…
ny;
15.任意的历史医学影像报告包括医学影像检查项目及患者性别信息,表示为词集ny对应词汇m1、m2…mx
,医学影像检查项目及患者性别信息为ny时词汇m1、m2…mx
出现的概率p1=p(m
x
|ny);
16.根据朴素贝叶斯公式,得出任意的医学影像报告中出现词汇m
x
时,词集ny出现的概率为p2=p(ny|m
x
)=(p(ny)p(m
x
|ny))/(p(m
x
)),使用词频代替p(m
x
)和p(ny),当p(ny|m
x
)为0
时,则认为词汇m
x
未在词集ny对应的医学影像报告中出现过,则判定词汇m
x
相对词集ny为互斥关系。
17.优选地,还包括以下步骤:计算任意两个词汇my和mz互斥的概率p3=p(my|mz),当p3为零时,则判断my和mz互斥关系。
18.优选地,还包括以下步骤:采用聚类算法得到互斥关系组合,将ny为聚类依据的my和mz互斥关系进行存储。
19.优选地,还包括以下步骤:录入新的医学影像报告并进行分词得到词集c
x
,对词集c
x
中的每个词汇进行编号;
20.提取医学影像报告中的医学影像检查项目及患者性别信息并进行分词的到词集k
x
;
21.将词集k
x
与词集c
x
进行组合,检索每个词汇对应的编号,若存在相互排斥的编号,则认定词集c
x
中存在不合法词,提示错误。
22.优选地,分词时采用医疗词库。
23.优选地,在所述第一大数据词集c中去除停用词。
24.为实现上述第二个发明目的,本发明提供了一种医学影像报告不合法词概率统计装置,包括:
25.第一大数据词集c的存储模块,所述第一大数据词集c包括i份历史医学影像报告的分词结果;
26.第二大数据词集k的存储模块,所述第二大数据词集k包括j份医学影像检查项目及患者性别信息进行分词的结果;
27.第一概率统计模块,用于计算词集k条件下词汇m出现的概率,将出现概率为零的词汇m和词集k设定为互斥关系并进行存储;
28.第二概率统计模块,用于计算在同一词集c中每个词汇出现的概率,将同时出现概率为零的词汇m
x
和my设定为互斥关系并进行存储。
29.优选地,对所述第一大数据词集c中的每个词汇设定编码。
30.优选地,还包括新的医学影像报告录入模块,所述新的医学影像报告录入模块用于录入新的医学影像报告并进行分词,得到并组合词集c
x
和词集k
x
,检索每个词汇对应的编号,若存在相互排斥的编号,则认定词集c
x
中存在不合法词,提示错误。
31.为实现上述第二个发明目的,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一发明创造所述的方法。
32.与现有技术相比,本发明的有益效果是:
33.(1)通过对若干历史医学影像报告进行分词,形成第一大数据词集c,为词集c中的每个词汇设置编号;对若干医学影像检查项目及患者性别信息进行分词,形成第二大数据词集k;通过朴素贝叶斯公式,统计具体词汇在具体词集k中出现概率为0的情况,得出具体词汇与具体词集k的互斥关系并进行存储,为后续在编制新的医学影像报告时进行提示。
34.(2)在具体词集k的情况下,统计医学影像报告中具体词汇出现概率为0的情况,得出词汇之间的互斥关系并进行存储,为后续在编制新的医学影像报告时进行提示。
附图说明
35.图1为本发明医学影像报告不合法词概率统计方法的流程图;
36.图2为本发明医学影像报告不合法词概率统计方法的流程图;
37.图3为本发明医学影像报告不合法词概率统计装置框图;
38.图4为本发明计算机介质模块示意图。
具体实施方式
39.下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
40.以下通过多个实施例对本发明的具体实现过程予以阐述。
41.实施例一:
42.参图1所示,本实施例揭示了一种医学影像报告不合法词概率统计方法(以下简称“方法”)的一种具体实施方式。
43.参图1所示,在本实施例中,医学影像报告不合法词概率统计方法,包括以下步骤:
44.s1:对第i份历史医学影像报告进行分词,得到词集ci。具体地,为了便于统计,将第i份历史医学影像报告进行分词,词集ci中包括若干词汇;为了减少部分词汇的干扰,在词集ci中去除停用词,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,如“的”、“地”、“得”、“了”等;为了提高分词的准确性,分词时采用医疗词库,避免因词库问题导致分词错误,从而影响后续不合法词的判断及统计。
45.s2:设置第一大数据词集c,所述第一大数据词集c包括c1、c2…ci
。具体地,将若干历史医学影像报告的分词结果组成第一大数据集c,第一大数据集c包含了不同种类、不同时期、不同医生所做出的历史医学影像报告得分词结果,第一大数据词集c的数据量越大,越有助于后续不合法词的判断及统计的准确性。
46.s3:为第一大数据词集c中的每个词设定编号,得到m个词汇,即m1、m2…mx
。为了便于后续不合法词的判断及统计的准确性,为每个词汇设定一个固定的编号,在后续检索并判断不合法词时,只需要检索编号即可,而不是检索词汇本身,便于数据处理。
47.s4:对第j份医学影像检查项目及患者性别信息进行分词,得到词集kj。具体地,在判断词汇合法性时,不仅要考虑医学影像报告本身的内容,更要考虑该医学影像报告对应的医学影像检查项目及患者性别信息,为此,还需要对若干医学影像检查项目及患者性别信息进行分词,得到词集kj,在后续检索时,首先要明确具体的医学影像检查项目及患者性别信息,与医学影像报告相关联后共同作为被检查对象。
48.s5:设置第二大数据词集k,所述第二大数据词集k包括k1、k2…
kj。具体地,将若干医学影像检查项目及患者性别信息的分词结果组成第二大数据集k,第二大数据集k包含了不同种类、不同时期、不同医生所做出的医学影像检查项目及患者性别信息的分词结果,第二大数据集k的数据量越大,越有助于后续不合法词的判断及统计的准确性。
49.s6:为第二大数据词集k中的每个词集设定编号,得到n个词集,即n1、n2…
ny。为了便于后续不合法词的判断及统计的准确性,为每个词集设定一个固定的编号,在后续检索
并判断不合法词时,只需要检索编号即可,而不是检索词汇本身,便于数据处理。
50.s7:任意的历史医学影像报告包括医学影像检查项目及患者性别信息,表示为词集ny对应词汇m1、m2…mx
,医学影像检查项目及患者性别信息为ny时词汇m1、m2…mx
出现的概率p1=p(m
x
|ny)。具体地,通过大数据统计,计算出医学影像检查项目及患者性别信息的分词结果为ny时,每个词汇m1、m2…mx
出现的概率p1=p(m
x
|ny),p1为先验概率。
51.s8:根据朴素贝叶斯公式,得出任意的医学影像报告中出现词汇m
x
时,词集ny出现的概率为p2=p(ny|m
x
)=(p(ny)p(m
x
|ny))/(p(m
x
)),使用词频代替p(m
x
)和p(ny),当p(ny|m
x
)为0时,则认为词汇m
x
未在词集ny对应的医学影像报告中出现过,则判定词汇m
x
相对词集ny为互斥关系。具体地,为了统计出ny中的不合法词,以先验概率p1为基础,计算后验概率p2=p(ny|m
x
)=(p(ny)p(m
x
|ny))/(p(m
x
)),因词汇m
x
和词集ny的数量均足够大,采用词汇m
x
和词集ny的词频代替概率p(m
x
)和p(ny),当计算出的后验概率p2为0时,则认为词汇m
x
未在词集ny对应的历史医学影像报告中出现过,则判定词汇m
x
相对词集ny为互斥关系。
52.在统计计算出词汇m
x
与词集ny的互斥关系后,方法还包括以下步骤:计算任意两个词汇my和mz互斥的概率p3=p(my|mz),当p3为零时,则判断my和mz互斥关系。具体地,该方法能够统计出任意两个词汇my和mz的互斥关系;通过步骤s8及本步骤,能够统计出任意医学影像报告中的词汇之间,以及词汇与词集之间的互斥关系,为后续准确提示不合法词提供基础数据库。
53.作为优选实施例,还包括以下步骤:采用聚类算法得到互斥关系组合,将ny为聚类依据的my和mz互斥关系进行存储。具体地,在无聚类情况下,在词集ny情况下,也就是在医学影像检查项目及患者性别信息确定情况下,词集ny对应的词汇与另一个词集nz所对应的词汇之间为互斥关系,这样互斥关系太多,导致存储数据量过大;为此,以ny为聚类依据,分别统计词汇之间的互斥关系,这样就大幅减少了互斥关系对,减少存储量,提高后续检索效率。
54.实施例二:
55.在实施例一的基础上,实施例二具体说明,在录入新的医学影像报告时,如何进行不合法词的检索并提示,具体参见图2,包括以下步骤:
56.s9:录入新的医学影像报告并进行分词得到词集c
x
,对词集c
x
中的每个词汇进行编号。具体地,在医生录入新的医学影像报告过程中,录入的内容随时被分词,得到若干个词汇。
57.s10:提取医学影像报告中的医学影像检查项目及患者性别信息并进行分词的到词集k
x
。具体地,医学录入新的医学影像报告过程中,提取医学影像检查项目及患者性别信息,分词后得到词集k
x
。
58.s11:将词集k
x
与词集c
x
进行组合,检索每个词汇对应的编号,若存在相互排斥的编号,则认定词集c
x
中存在不合法词,提示错误。具体地,将词集k
x
与词集c
x
进行组合,根据实施例一所得到的互斥关系或根据实施例计算每个词汇的后验概率;通过系统检索与比对,若存在相互排斥的编号,则认定词集c
x
中存在不合法词,提示错误;若后验概率为0,则说明输入了新的不合法词,提示错误;不合法词既可能是词汇与词集的互斥,也可能是词汇之间的互斥。
59.举例一:医学影像检查项目及患者性别信息:x线检查(全胸正位片),男;
60.医学影像描述:两侧胸廓对称,两肺纹理增多,两肺内带见斑片稍高密度影。
61.影像诊断报告:符合支气管肺炎征象。
62.上述为正确的x射线医学影像报告,利用本实施例,如影像诊断报告中,将支气管,输入时写成“志气管”,按实施例一的方式进行概率统计时,词汇“志气管”在第一大数据词集c中出现的概率为0,则说明“志气管”为不合法词,提示错误。
63.举例二:医学影像检查项目及患者性别信息:x线检查(左踝关节正侧位),女;
64.医学影像描述:左侧踝关节组成未见骨质破坏;关节边缘骨质增生,关节在位;关节间隙略狭窄。
65.影像诊断报告:左踝退行性改变。
66.上述为正确的x射线医学影像报告,利用本实施例的概率统计方式,如影像诊断报告中,将左侧,输入时写成“右侧”,并在影像描述中出现了“膝关节”,存在相互排斥的编号,即“右侧”与“左侧”互斥,同时“膝关节”与“踝关节”互斥,此时认定“右侧”、“膝关节”为不合法词,提示错误,医生改正后,则提示消失。
67.为了不断完善不合法词出现概率的统计方法,新的医学影像报告中新出现的互斥关系进行存储,不断改进互斥关系存储库。
68.实施例三:
69.参图3所示,本实施例揭示了一种医学影像报告不合法词概率统计装置(以下简称“装置”)的一种具体实施方式。
70.参图3所示,医学影像报告不合法词概率统计装置,包括:
71.第一大数据词集c的存储模块,所述第一大数据词集c包括i份历史医学影像报告的分词结果。具体地,为了便于统计,将第i份历史医学影像报告进行分词,词集ci中包括若干词汇,若干词集ci组成第一大数据词集c并进行存储;为了减少部分词汇的干扰,在词集ci中去除停用词,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,如“的”、“地”、“得”、“了”等;为了提高分词的准确性,分词时采用医疗词库,避免因词库问题导致分词错误,从而影响后续不合法词的判断及统计。
72.第二大数据词集k的存储模块,所述第二大数据词集k包括j份医学影像检查项目及患者性别信息进行分词的结果。具体地,在判断词汇合法性时,不仅要考虑医学影像报告本身的内容,更要考虑该医学影像报告对应的医学影像检查项目及患者性别信息,为此,还需要对若干医学影像检查项目及患者性别信息进行分词,得到词集kj,得到第二大数据词集k并进行存储,在后续检索时,首先要明确具体的医学影像检查项目及患者性别信息,与医学影像报告相关联后共同作为被检查对象。
73.第一概率统计模块,用于计算词集k条件下词汇m出现的概率,将出现概率为零的词汇m和词集k设定为互斥关系并进行存储。具体地,采用实施例1所述的方法进行计算得出词汇m和词集k之间的互斥关系。
74.第二概率统计模块,用于计算在同一词集c中每个词汇出现的概率,将同时出现概率为零的词汇m
x
和my设定为互斥关系并进行存储。具体地,采用实施例1所述的方法进行计算得出词汇m
x
和my之间的互斥关系。
75.作为优选实施例,对所述第一大数据词集c中的每个词汇设定编码。为了便于后续
不合法词的判断及统计的准确性,为每个词汇设定一个固定的编号,在后续检索并判断不合法词时,只需要检索编号即可,而不是检索词汇本身,便于数据处理。
76.作为优选实施例,还包括新的医学影像报告录入模块,所述新的医学影像报告录入模块用于录入新的医学影像报告并进行分词,得到并组合词集c
x
和词集k
x
,检索每个词汇对应的编号,若存在相互排斥的编号,则认定词集c
x
中存在不合法词,提示错误,具体参见实施例二的方法。
77.实施例四:
78.计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如实施例一所述的方法。
79.本实施例所揭示的计算机可读存储介质与实施例一中具有相同部分的技术方案,请参实施例一所述,在此不再赘述。
80.本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(asic),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
81.上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
82.对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
83.此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
技术特征:1.医学影像报告不合法词概率统计方法,其特征在于,包括以下步骤:对第i份历史医学影像报告进行分词,得到词集c
i
;设置第一大数据词集c,所述第一大数据词集c包括c1、c2…
c
i
;为第一大数据词集c中的每个词设定编号,得到m个词汇,即m1、m2…
m
x
;对第j份医学影像检查项目及患者性别信息进行分词,得到词集k
j
;设置第二大数据词集k,所述第二大数据词集k包括k1、k2…
k
j
;为第二大数据词集k中的每个词集设定编号,得到n个词集,即n1、n2…
n
y
;任意的历史医学影像报告包括医学影像检查项目及患者性别信息,表示为词集n
y
对应词汇m1、m2…
m
x
,医学影像检查项目及患者性别信息为n
y
时词汇m1、m2…
m
x
出现的概率p1=p(m
x
|n
y
);根据朴素贝叶斯公式,得出任意的医学影像报告中出现词汇m
x
时,词集n
y
出现的概率为p2=p(n
y
|m
x
)=(p(n
y
)p(m
x
|n
y
))/(p(m
x
)),使用词频代替p(m
x
)和p(n
y
),当p(n
y
|m
x
)为0时,则认为词汇m
x
未在词集n
y
对应的医学影像报告中出现过,则判定词汇m
x
相对词集n
y
为互斥关系。2.如权利要求1所述的医学影像报告不合法词概率统计方法,其特征在于,还包括以下步骤:计算任意两个词汇m
y
和m
z
互斥的概率p3=p(m
y
|m
z
),当p3为零时,则判断m
y
和m
z
互斥关系。3.如权利要求2所述的医学影像报告不合法词概率统计方法,其特征在于,还包括以下步骤:采用聚类算法得到互斥关系组合,将n
y
为聚类依据的m
y
和m
z
互斥关系进行存储。4.如权利要求3所述的医学影像报告不合法词概率统计方法,其特征在于,还包括以下步骤:录入新的医学影像报告并进行分词得到词集c
x
,对词集c
x
中的每个词汇进行编号;提取医学影像报告中的医学影像检查项目及患者性别信息并进行分词的到词集k
x
;将词集k
x
与词集c
x
进行组合,检索每个词汇对应的编号,若存在相互排斥的编号,则认定词集c
x
中存在不合法词,提示错误。5.如权利要求1-4任一所述的医学影像报告不合法词概率统计方法,其特征在于,分词时采用医疗词库。6.如权利要求5所述的医学影像报告不合法词概率统计方法,其特征在于,在所述第一大数据词集c中去除停用词。7.医学影像报告不合法词概率统计装置,其特征在于,包括:第一大数据词集c的存储模块,所述第一大数据词集c包括i份历史医学影像报告的分词结果;第二大数据词集k的存储模块,所述第二大数据词集k包括j份医学影像检查项目及患者性别信息进行分词的结果;第一概率统计模块,用于计算词集k条件下词汇m出现的概率,将出现概率为零的词汇m和词集k设定为互斥关系并进行存储;第二概率统计模块,用于计算在同一词集c中每个词汇出现的概率,将同时出现概率为
零的词汇mx和my设定为互斥关系并进行存储。8.如权利要求7所述的医学影像报告不合法词概率统计装置,其特征在于,对所述第一大数据词集c中的每个词汇设定编码。9.如权利要求8所述的医学影像报告不合法词概率统计装置,其特征在于,还包括新的医学影像报告录入模块,所述新的医学影像报告录入模块用于录入新的医学影像报告并进行分词,得到并组合词集cx和词集kx,检索每个词汇对应的编号,若存在相互排斥的编号,则认定词集c
x
中存在不合法词,提示错误。10.计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
技术总结本发明的目的在于揭示一种医学影像报告不合法词概率统计方法、装置及存储介质,包括以下步骤:对第i份历史医学影像报告进行分词,得到词集C
技术研发人员:荣辉
受保护的技术使用者:上海辉明软件有限公司
技术研发日:2022.04.24
技术公布日:2022/7/5