1.本技术实施例涉及金融科技(fintech)领域,尤其涉及一种工作单位名称校验方法及装置。
背景技术:2.随着计算机技术的发展,越来越多的技术(例如:大数据、云计算或区块链)应用在金融领域,传统金融业正在逐步向金融科技转变。例如,银行通过将很多线下的业务逐渐转变为通过线上进行办理,如此将可以提升用户对业务办理的效率,增加了用户对银行的黏性。
3.目前,在互联网金融领域,经常存在一些他人伪冒进行欺诈的案例。具体而言,在用户对主办方提供的一金融产品进行办理时,在该金融产品的申请阶段,主办方一般会要求用户手动填写自己所在工作单位的信息,如工作单位名称,以及其他一些个人信息。显然,该阶段将会给一些不法分子有可乘之机。例如,一些团伙在通过某不正当手段收集到一批真实的用户身份信息后,该团伙在金融产品的申请阶段虽然可填写出真实的用户身份信息,但却因为不知道该些用户所在工作单位的信息,从而该团伙将会填写一些虚假的工作单位名称,或者填写一些真实存在但却与申请人不符的工作单位名称。在系统接收到该团伙提供的申请人的信息后,通过正规渠道将可以查询到申请人真实的工作单位名称,最后系统通过比较该团伙手动输入的申请人的工作单位名称和查询到的申请人真实的工作单位名称,将可以确认该团伙对金融产品的申请是否是合法的。
4.然而,目前因为需要由用户手动填写并上传自己的工作单位名称,那么该手动输入工作单位名称的方式常常会出现简称、信息不标准、缺失、甚至是错误的情况,如此的话,在后续系统基于自身查询到的申请人真实的工作单位名称,也将很难判定用户手动输入的工作单位名称的合法性,从而对于不法分子于金融产品的申请阶段填写一些虚假信息或者伪冒信息的情况,不法分子的行为将容易骗过金融风控规则,达到获取利益的目的。
5.具体而言,对于上述情况,目前存在以下甄别用户主动输入的工作单位名称真假的方法——elasticsearch-matchquery(模糊查询)。其中:
6.elasticsearch是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎apache lucene(tm)基础上的搜索引擎,包含精确查询term和模糊查询match。
7.term是代表完全匹配,也就是精确查询,搜索前不会再对搜索词进行分词,所以搜索词必须是文档分词集合中的一个。match查询会先对搜索词进行分词,分词完毕后再逐个对分词结果进行匹配,因此相比于term的精确搜索,match是分词匹配搜索。例如:当在搜索“招商银行”时,搜索词就会预先分词为“招商”和“银行”两个分词,因此只要文档中包含“招商”和“银行”中任意一个分词,就都会被搜到。
8.对于上述方法,缺点比较明显,表现为:当分词应用广泛时,查询结果将会非常多,计算与正规渠道返回的用户真实的工作单位名称时,各个查询结果的分数相差不大,因此容易导致无法抉择哪个查询结果是最佳匹配的。
9.综上,目前亟需一种可快速、准确地确认用户输入的工作单位名称真假的方法。
技术实现要素:10.本技术提供一种工作单位名称校验方法及装置,用以快速、准确地确认用户手动输入的工作单位名称是否真实可靠。
11.第一方面,本技术实施例提供一种工作单位名称校验方法,该方法包括:对校验对象的校验工作单位名称进行分词得到各第一分词,并对所述校验对象的标准工作单位名称进行分词得到各第二分词;针对所述各第一分词各自具有的词性,确定所述各第一分词在工作单位名称的各构成要素下的第一分类信息,以及针对所述各第二分词各自具有的词性,确定所述各第二分词在所述各构成要素下的第二分类信息;其中,所述各构成要素各自包含的词汇的词性不同,所述各构成要素包括指示工作单位所属地区的第一构成要素、指示工作单位所属行业的第二构成要素、指示工作单位名称中关键词的第三构成要素和指示工作单位名称的后缀信息的第四构成要素;基于所述各构成要素分别对应的标识和所述第一分类信息确定所述校验工作单位名称对应的第一命名结构式,以及基于所述各构成要素分别对应的标识和所述第二分类信息确定所述标准工作单位名称对应的第二命名结构式;至少基于所述第一命名结构式和所述第二命名结构式中相同的构成要素,确定所述校验工作单位名称与所述标准工作单位名称间的相似度。
12.上述方案中,通过考虑工作单位名称的各构成要素,包括指示工作单位所属地区的构成要素、指示工作单位所属行业的构成要素、指示工作单位名称中关键词的构成要素和指示工作单位名称的后缀信息的构成要素,不同的构成要素能够包含的词汇的词性并不相同,因此通过对一工作单位名称进行分词处理,那么根据分词处理后得到的分词的词性,将可以将该工作单位名称转换为以工作单位名称的构成要素进行表达的样式,即命名结构式,从而后续在确定一校验对象的校验工作单位名称的可信度时,将可以基于该校验工作单位名称对应的命名结构式与该校验工作单位名称对应的标准工作单位名称对应的命名结构式中相同的构成要素而确定该两个工作单位名称间的相似度,该相似度可以用于表征校验工作单位名称是否为真实可信的工作单位名称。该方式中由于可基于工作单位名称中各分词的词性而将工作单位名称转换为以工作单位名称的构成要素进行表达的样式,如此后续在确定一校验工作单位名称是否为真实值时,将可以快速、准确地基于该校验工作单位名称与标准工作单位名称间相同的构成要素而得到该两个工作单位名称间的相似度,从而提升了确定用户输入的工作单位名称真假的效率及准确率。
13.在一种可能实现的方法中,所述至少基于所述第一命名结构式和所述第二命名结构式中相同的要素结构,确定所述校验工作单位名称与所述标准工作单位名称间的相似度,包括:基于所述第一命名结构式中的各第四构成要素,确定所述校验工作单位名称中的各校验子名称;基于所述第二命名结构式中的各第四构成要素,确定所述标准工作单位名称中的各标准子名称;通过所述各校验子名称中位于首位的第一校验子名称,确定所述校验工作单位名称的校验简称;通过所述各标准子名称中位于首位的第一标准子名称,确定所述标准工作单位名称的标准简称;至少基于所述第一命名结构式和所述第二命名结构式中相同的构成要素的要素相似度,和,所述校验简称与所述标准简称之间的简称相似度,确定所述校验工作单位名称与所述标准工作单位名称间的相似度。
14.由于用户在输入工作单位名称时,还可能直接写入的是其工作单位名称的简称,针对该问题,上述方案中提出可以工作单位名称对应的命名结构式中的第四构成要素为准,而将工作单位名称按序划分为一个个的子名称,同时考虑到用户对简称的书写习惯,本技术中将根据工作单位名称中的位于首位的子名称而确定工作单位名称的简称,最后,本技术中在确定校验工作单位名称与标准工作单位名称间的相似度时,在考虑该两个工作单位名称分别对应的命名结构式中的相同的构成要素的要素相似度之余,通过进一步考虑该两个工作单位名称的简称间的相似度,显然这对于准确确定校验工作单位名称是否就是标准工作单位名称具有重要意义。
15.在一种可能实现的方法中,所述通过所述各校验子名称中位于首位的第一校验子名称,确定所述校验工作单位名称的校验简称,包括:确定所述各校验子名称中位于首位的第一校验子名称对应的校验命名结构式;对所述校验命名结构式应用命名结构式的简称规则,从而确定所述第一校验子名称对应的各简称,并将所述第一校验子名称对应的各简称作为所述校验工作单位名称的校验简称;所述命名结构式的简称规则是通过样本工作单位名称与样本工作单位简称确定的。
16.上述方案中,通过考虑到用户对工作单位名称的简称的书写习惯,即一般写工作单位名称中比较靠前的子名称所对应的简称,因此本技术中在确定工作单位名称对应的简称时,可从工作单位名称中对应的命名结构式中提取出位于首位的子名称所对应的命名结构式,接着通过对该提取出的命名结构式应用命名结构式的简称规则,如此将可以得到位于首位的子名称对应的简称,并且本技术中可将该位于首位的子名称对应的简称作为工作单位名称的简称。其中,命名结构式的简称规则是预设的,即是通过样本工作单位名称与样本工作单位简称确定的,因此本技术中可在预设好命名结构式的简称规则后,针对一工作单位名称,基于该命名结构式的简称规则,将可以快速确定出该工作单位名称对应的简称。
17.在一种可能实现的方法中,所述至少基于所述第一命名结构式和所述第二命名结构式中相同的构成要素的要素相似度,和,所述校验简称与所述标准简称之间的简称相似度,确定所述校验工作单位名称与所述标准工作单位名称间的相似度,包括:确定所述校验工作单位名称中第二构成要素对应各行业信息与所述标准工作单位名称中第二构成要素对应各行业信息之间的第一要素相似度;确定所述校验工作单位名称中第三构成要素对应各关键词与所述标准工作单位名称中第三构成要素对应各关键词之间的第二要素相似度;确定所述校验简称与所述标准简称之间的简称相似度;确定所述各校验子名称中设定的校验子名称和所述各标准子名称中相应的标准子名称之间的子名称相似度;根据所述第一要素相似度、所述第二要素相似度、所述简称相似度和所述子名称相似度,确定所述校验工作单位名称与所述标准工作单位名称间的相似度。
18.上述方案中,具体描述了该如何根据要素相似度与简称相似度确定校验工作单位名称与标准工作单位名称间的相似度,包括可确定该两个工作单位名称各自所在的工作单位所属行业间的要素相似度(即第一要素相似度)、确定该两个工作单位名称各自具有的关键词之间的要素相似度(即第二要素相似度)、确定该两个工作单位名称各自对应的简称间的简称相似度,以及确定该两个工作单位名称在同一层级的子名称下的子名称相似度,在确定出校验工作单位名称与标准工作单位名称在以上四个方面的相似度后,那么这对于后续快速确定该二者间的相似度将具有重要意义。
19.在一种可能实现的方法中,所述对校验对象的校验工作单位名称进行分词得到各第一分词,并对所述校验对象的标准工作单位名称进行分词得到各第二分词之前,所述方法还包括:根据预设的正则表达式,确定所述校验工作单位名称和所述标准工作单位名称均存在对应的工作单位类型,且,确定所述校验工作单位名称和所述标准工作单位名称隶不属于第一计算策略中不同的工作单位类型;其中,所述预设的正则表达式用于基于工作单位名称确定所述工作单位名称指示的工作单位隶属的工作单位类型,所述第一计算策略中包括多个工作单位类型,所述多个工作单位类型中的任一个工作单位类型下的各工作单位的工作单位名称在命名时包含工作单位名称的各构成要素。
20.上述方案中,在对校验对象的校验工作单位名称与标准工作单位名称应用本技术所提出的工作单位名称校验方法之前,如果对校验对象的该两个工作单位名称分别应用预设的正则表达式进行工作单位类型的匹配后,其匹配结果为该两个工作单位名称中的至少一个工作单位名称不存在对应的工作单位类型或者该两个工作单位名称隶属于第一计算策略中不同的工作单位类型,则可以直接确定校验对象的该两个工作单位名称间的相似度为零,也即可以直接判定校验对象的校验工作单位名称是一个不可信的工作单位名称,而无需再对校验对象的该两个工作单位名称应用本技术所提出的工作单位名称校验方法了,从而提升了对校验对象的校验工作单位名称的快速核准;否则的话,也即除去以上两种工作单位名称的匹配情况之外,通过对校验对象的该两个工作单位名称应用本技术所提出的工作单位名称校验方法,也将可以快速、准确地判定校验对象的校验工作单位名称的可靠性。
21.在一种可能实现的方法中,所述对校验对象的校验工作单位名称进行分词得到各第一分词,并对所述校验对象的标准工作单位名称进行分词得到各第二分词之后,所述方法还包括:根据所述预设的正则表达式,确定所述校验工作单位名称和所述标准工作单位名称隶属于所述第一计算策略中同一工作单位类型;所述根据所述第一要素相似度、所述第二要素相似度、所述简称相似度和所述子名称相似度,确定所述校验工作单位名称与所述标准工作单位名称间的相似度,包括:根据所述第一要素相似度和第一预设权重,所述第二要素相似度和第二预设权重,所述简称相似度和第三预设权重,所述子名称相似度和第四预设权重,确定所述校验工作单位名称与所述标准工作单位名称间的相似度;其中,所述简称相似度和所述子名称相似度通过最短编辑距离的方式确定。
22.上述方案中,对于通过预设的正则表达式确定出校验对象的校验工作单位名称与标准工作单位名称隶属于第一计算策略中相同的一个工作单位类型的情况,通过使用最短编辑距离的方式确定校验对象的该两个工作单位名称间的简称相似度和子名称相似度,将可以使得对校验对象的该两个工作单位名称间的相似度的计算可以更加精确;此外,本技术中通过考虑工作单位名称中的行业信息、关键词信息、工作单位名称的简称以及工作单位名称的子名称等四个因素对工作单位名称在校验时所具有的不同的重要性,因此通过为不同的子相似度分配相应的权重,这对于准确确定校验工作单位名称的真实性具有重要意义。
23.在一种可能实现的方法中,所述对校验对象的校验工作单位名称进行分词得到各第一分词,包括:通过结巴分词的方式,对校验对象的校验工作单位名称进行分词得到各第一分词和各第一分词各自具有的词性;所述结巴分词对应的分词库包括基于工作单位名称
进行增加的各词汇。
24.上述方案中,可通过结巴分词的方式对校验工作单位名称进行分词,如此将可以得到校验工作单位名称对应的各第一分词以及各第一分词各自具有的词性。其中,本技术在考虑到结巴分词在分词性能上具有普适性,但不具有针对性,因此通过结合本技术的研究对象为工作单位名称的事实,本技术中将对结巴分词对应的分词库进行扩充,比如可在结巴分词对应的分词库中增加与工作单位名称相关的多个词汇,如此在使用有所扩充的结巴分词对工作单位名称进行分词时,将可以提升分词的准确性,这对于后续准确确定用户主动输入的校验工作单位名称是否就是为标准工作单位名称将具有重要意义。
25.在一种可能实现的方法中,所述通过结巴分词的方式,对校验对象的校验工作单位名称进行分词得到各第一分词之后,所述针对所述各第一分词各自具有的词性,确定所述各第一分词在工作单位名称的各构成要素下的第一分类信息之前,所述方法还包括:若经结巴分词处理后的各第一分词中存在连续的单字的各第一分词,则将连续的单字的合并为一个第一分词。
26.上述方案中,在使用结巴分词对工作单位名称进行分词后,容易出现分词为单个字的问题。针对该问题,本技术中提出可将各第一分词中连续存在的单个字的各第一分词合并为一个分词,通过合并单个字的分词,如此才能更加准确地表达出工作单位名称的实际含义,即使得工作单位名称的词义完整,这对于后续确定工作单位名称的简称、计算工作单位名称的相似度具有十分重要的意义。
27.在一种可能实现的方法中,所述各构成要素各自包含的词汇的词性不同,包括:所述第一构成要素包含的词汇的词性为地区词性,所述第二构成要素包含的词汇的词性为行业词性,所述第三构成要素包含的词汇的词性为方位词词性、名词词性、形容词词性、动副词词性、未知词性,所述第四构成要素包含的词汇的词性为后缀词性。
28.上述方案中,具体描述了对于工作单位名称经过分词处理后得到的各分词、该如何依据各分词的词性,而将工作单位名称转换为以工作单位名称的构成要素进行表达的样式,主要可通过建立不同的构成要素与分词词性之间的对应关系,比如通过建立地区词性的词汇与第一构成要素的映射关系,如此在遇到工作单位名称中一地区词性的分词时,将可以将该分词转换为第一构成要素对应的标识,又比如通过建立行业词性的词汇与第二构成要素的映射关系,如此在遇到工作单位名称中以行业词性的分词时,将可以将该分词转换为第二构成要素对应的标识,再比如通过建立方位词词性、名词词性、形容词词性、动副词词性和未知词性的词汇与第三构成要素的映射关系,以及比如通过建立后缀词性的词汇与第四构成要素的映射关系,如此在遇到后缀词性的分词时,将可以将该分词转换为第四构成要素对应的标识,从而可实现关于一工作单位名称而得到它的命名结构式,该命名结构式对于后续准确确定校验工作单位名称是否就是为标准工作单位名称具有重要的意义。
29.在一种可能实现的方法中,所述命名结构式的简称规则是通过样本工作单位名称与样本工作单位简称确定的,包括:针对任一样本工作单位名称,对所述样本工作单位名称进行规范化处理;所述规范化处理至少包括去除所述工作单位名称中的特殊字符、数字和小写字母;针对规范化处理后的所述样本工作单位名称,对所述样本工作单位名称进行分词,得到所述样本工作单位名称对应的各第三分词和各第三分词各自具有的词性;基于所述各构成要素分别对应的标识,针对所述各第三分词,根据所述各第三分词各自具有的词
性,确定所述样本工作单位名称的命名结构式;针对所述样本工作单位名称,确定所述样本工作单位名称的各简称以及各简称的命名结构式;针对所述各简称中的任一个简称,根据所述简称的命名结构式,标记所述简称在所述样本工作单位名称的命名结构式中的位置信息;建立所述样本工作单位名称与所述各简称各自在所述样本工作单位名称的命名结构式中的位置信息间的对应关系,并作为命名结构式的简称规则。
30.上述方案中,具体描述了该如何得到命名结构式的简称规则,包括首先对一样本工作单位名称进行规范化处理,然后针对经过规范化处理的样本工作单位名称进行分词,从而可基于各分词的词性而确定该样本工作单位名称的命名结构式,同时另一方面还可以为该样本工作单位名称确定对应于它的各简称以及各简称对应的命名结构式,紧接着,针对任一个简称,根据该简称的命名结构式将可以标注出该简称在该样本工作单位名称的命名结构式的位置信息,最后通过建立该样本工作单位名称与各简称各自在该样本工作单位名称的命名结构式中的位置信息间的对应关系,该对应关系即为基于该样本工作单位名称的命名结构式的简称规则,如此后续在校验工作单位名称的过程中,若校验对象的校验工作单位名称或者标准工作单位名称表现为该样本工作单位名称,那么通过提取该样本工作单位名称中位于首位的子名称,并基于该首位的子名称对应的命名结构式查找已经预先建立好的对应关系,从而在查找到基于该位于首位的子名称对应的命名结构式的简称规则后,将可以知道该位于首位的子名称所在的样本工作单位名称的简称的生成方式,如此将可以快速生成该样本工作单位名称的各个简称。
31.第二方面,本技术实施例提供一种工作单位名称校验装置,该装置包括:分词单元,用于对校验对象的校验工作单位名称进行分词得到各第一分词,并对所述校验对象的标准工作单位名称进行分词得到各第二分词;分类信息确定单元,用于针对所述各第一分词各自具有的词性,确定所述各第一分词在工作单位名称的各构成要素下的第一分类信息,以及针对所述各第二分词各自具有的词性,确定所述各第二分词在所述各构成要素下的第二分类信息;其中,所述各构成要素各自包含的词汇的词性不同,所述各构成要素包括指示工作单位所属地区的第一构成要素、指示工作单位所属行业的第二构成要素、指示工作单位名称中关键词的第三构成要素和指示工作单位名称的后缀信息的第四构成要素;命名结构式确定单元,用于基于所述各构成要素分别对应的标识和所述第一分类信息确定所述校验工作单位名称对应的第一命名结构式,以及基于所述各构成要素分别对应的标识和所述第二分类信息确定所述标准工作单位名称对应的第二命名结构式;相似度确定单元,用于至少基于所述第一命名结构式和所述第二命名结构式中相同的构成要素,确定所述校验工作单位名称与所述标准工作单位名称间的相似度。
32.第三方面,本技术实施例提供了一种计算设备,包括:
33.存储器,用于存储程序指令;
34.处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行如第一方面任一实现方法。
35.第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面任一实现方法。
附图说明
36.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
37.图1为本技术实施例提供的一种工作单位名称校验方法的示意图;
38.图2为本技术实施例提供的一种工作单位名称校验装置的示意图;
39.图3为本技术实施例提供的一种计算设备的示意图。
具体实施方式
40.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
41.针对目前产品方在确认用户主动输入的其自身的工作单位名称与通过正规渠道所获取到的该用户的真实工作单位名称是否一致时,如在产品方基于模糊查询的方式进行确认的过程中,容易出现查询结果不可靠的问题,进而为一些不法分子带去可乘之机,这极大损害了产品方的利益。
42.针对上述技术问题,本技术可提供一种工作单位名称校验方法。如图1所示,为本技术实施例提供的一种工作单位名称校验方法的示意图,该方法包括如下步骤:
43.步骤101,对校验对象的校验工作单位名称进行分词得到各第一分词,并对所述校验对象的标准工作单位名称进行分词得到各第二分词。
44.在本步骤中,校验对象可以为一个个的用户。以校验对象对是用户1为例,则校验对象的校验工作单位名称为用户1主动输入的其自身的工作单位名称,校验对象的标准工作单位名称为通过正规渠道所获取的关于用户1的真实、可信的工作单位名称。也即,本技术中通过确定用户1的校验工作单位名称与标准工作单位名称间的相似度,从而可确定用户1主动输入的校验工作单位名称的真假。
45.说明的是,本技术中的对工作单位名称校验方法在执行过程中所需数据的话获取、存储、使用、处理等均符合国家法律法规的规定。
46.在本步骤中,通过对校验对象的校验工作单位名称进行分词,可得到各分词以及各分词各自具有的词性,也即得到各第一分词以及各第一分词各自具有的词性;通过对校验对象的标准工作单位名称进行分词,可得到各分词以及各分词各自具有的词性,也即得到各第二分词以及各第二分词各自具有的词性。
47.例如,以一工作单位名称为“深圳前海wb银行股份有限公司”为例,说明如何得到该工作单位名称的各分词以及各分词各自具有的词性。说明的是,“深圳前海wb银行股份有限公司”可以为校验对象的校验工作单位名称,也可以为校验对象的标准工作单位名称,本技术对此不做限定。
48.在本技术的某些实施中,所述对校验对象的校验工作单位名称进行分词得到各第一分词,包括:通过结巴分词的方式,对校验对象的校验工作单位名称进行分词得到各第一
分词和各第一分词各自具有的词性;所述结巴分词对应的分词库包括基于工作单位名称进行增加的各词汇。
49.具体的,在使用结巴分词工具对工作单位名称进行分词时,在实现分词的过程中,对于所切分而成的各个分词将可以同时带有相应的词性。
50.如,对于“深圳前海wb银行股份有限公司”这一工作单位名称,通过使用结巴分词工具对该工作单位名称进行分词,可得到如下的分词信息:
51.[[深圳,0,2,ns],[前海,2,4,f],[wb,4,6,i],[银行,6,8,csx],,[股份有限公司,8,14,csx]]
[0052]
其中,对于以上的分词信息,将表示通过结巴分词工具对“深圳前海wb银行股份有限公司”这一工作单位名称进行分词处理后,共得到了5个分词,该5个分词的信息如下:
[0053]
对于第一个分词“深圳”,其中的(0,2)表示“深圳”一词在当前工作单位名称中的位置信息,即“深圳”一词位于当前工作单位名称中的第0位和第1位上,“ns”表示“深圳”一词的词性为地域词词性;
[0054]
对于第二个分词“前海”,其中的(2,4)表示“前海”一词在当前工作单位名称中的位置信息,即“前海”一词位于当前工作单位名称中的第2位和第3位上,“f”表示“前海”一词的词性为方位词词性;
[0055]
对于第三个分词“wb”,其中的(4,6)表示“wb”一词在当前工作单位名称中的位置信息,即“wb”一词位于当前工作单位名称中的第4位和第5位上,“i”表示“wb”一词的词性为未知词性;
[0056]
对于第四个分词“银行”,其中的(6,8)表示“银行”一词在当前工作单位名称中的位置信息,即“银行”一词位于当前工作单位名称中的第6位和第7位上,“csx”表示“银行”一词的词性为后缀词词性;
[0057]
对于第五个分词“股份有限公司”,其中的(8,14)表示“股份有限公司”一词在当前工作单位名称中的位置信息,即“股份有限公司”一词位于当前工作单位名称中的第8位和第13位上,“csx”表示“股份有限公司”一词的词性为后缀词词性。
[0058]
此外,由于目前在用的结巴分词工具尚未为具体的场景而设计相关的分词,而本技术中又主要是需要对工作单位名称进行分词,因此当前的结巴分词工具在对工作单位名称进行分词时并不十分有针对性,这样的话,如继续使用当前版本的结巴分词工具对工作单位名称进行分词,那么所切分而成的各个分词容易存在准确性的问题,即当前版本的结巴分词工具在工作单位名称分词方面表现欠佳。对此,本技术中在使用结巴分词工具对工作单位名称进行分词之前,可先对结巴分词工具对应的分词词库进行补充,如本技术中可在结巴分词工具对应的分词词库中预先补充入与工作单位名称相关的词语,并指定结尾词。其中,结尾词例如为银行、股份有限公司、公司、医院、公安局等,从而本技术通过使用有改进的结巴分词工具对工作单位名称进行分词,将可以使得分词的准确性得到极大提升,这对于后续校验工作单位名称的真假具有重要意义。
[0059]
具体的:
[0060]
a、聚合多词性为关键词。
[0061]
结巴分词词性很多、很细,例如,对于动词(v,vd,vn等)、形容词(a,ad,ag等)、副词(d,dg等)、量词、数词等,本技术中统一将其聚合为关键词,例如:
[0062]
一颦一笑(动词):v:4
[0063]
紧接(形容词):ad:2
[0064]
辆数(数词):m:2
[0065]
b、添加地区名词。
[0066]
例如,可在结巴分词对应的分词词库中添加如下地区名词:
[0067]
广东省:ns:3
[0068]
深圳:ns:2
[0069]
南山区:ns:3
[0070]
东莞市:ns:3
[0071]
桃源村:ns:3
[0072]
c、添加行业名词。
[0073]
例如,可在结巴分词对应的分词词库中添加如下行业名词:
[0074]
货运:idu:4
[0075]
木业:idu:4
[0076]
天然气:idu:4
[0077]
航天:idu:4
[0078]
航空:idu:4
[0079]
d、添加后缀名词。
[0080]
例如,可在结巴分词对应的分词词库中添加如下后缀名词:
[0081]
销售部:csx:4
[0082]
分公司:csx:4
[0083]
分行:csx:4
[0084]
合作社:csx:4
[0085]
有限公司:csx:4
[0086]
有限合伙:csx:4
[0087]
有限责任公司:csx:4
[0088]
服务中心:csx
[0089]
步骤102,针对所述各第一分词各自具有的词性,确定所述各第一分词在工作单位名称的各构成要素下的第一分类信息,以及针对所述各第二分词各自具有的词性,确定所述各第二分词在所述各构成要素下的第二分类信息。
[0090]
其中,所述各构成要素各自包含的词汇的词性不同,所述各构成要素包括指示工作单位所属地区的第一构成要素、指示工作单位所属行业的第二构成要素、指示工作单位名称中关键词的第三构成要素和指示工作单位名称的后缀信息的第四构成要素。
[0091]
在本技术的某些实施中,所述各构成要素各自包含的词汇的词性不同,包括:所述第一构成要素包含的词汇的词性为地区词性,所述第二构成要素包含的词汇的词性为行业词性,所述第三构成要素包含的词汇的词性为方位词词性、名词词性、形容词词性、动副词词性、未知词性,所述第四构成要素包含的词汇的词性为后缀词性。
[0092]
例如,根据对工作单位特征的分析,工作单位在命名时,除了一些个体户类型的工作单位以及其他少数工作单位在命名不具有可归纳的特征外,一般而言,像企业,机关、事
业单位在命名时将具有一定的特征,即在命名工作单位时将包括如下四方面的构成要素:
[0093]
指示工作单位所属地区的构成要素、指示工作单位所属行业的构成要素、指示工作单位名称中关键词的构成要素和指示工作单位名称的后缀信息的构成要素。
[0094]
比如,“中国”、“安徽”、“合肥”等地域词性的词汇属于工作单位所属地区这一构成要素的具体例子,因此在遇到地域词性的词汇时,将可以将地域词性的词汇划分至工作单位所属地区这一构成要素的分类中;“计算机”、“新材料”、“餐饮”等行业词性的词汇属于工作单位所属行业这一构成要素的具体例子,因此在遇到行业词性的词汇时,将可以将行业词性的词汇划分至工作单位所属行业这一构成要素的分类中;“银行”、“股份有限公司”、“医院”等后缀词性的词汇属于工作单位名称的后缀信息这一构成要素的具体例子,因此在遇到后缀词性的词汇时,将可以将后缀词性的词汇划分至工作单位名称中的后缀信息这一构成要素的分类中;而对于一个工作单位名称经分词而得到的各分词,如果当中的一分词并非为上述工作单位所属地区这一构成要素、工作单位所属行业这一构成要素和工作单位的后缀信息这一构成要素中的一种时,如“前海”(方位词性)、“wb”(未知词性)、“电子设备”(名词词性)、“公益的”(形容词词性)等词性的词汇将可以纳入关键词词性的词汇的分类中,也即上述的“前海”、“微众”、“电子设备”、“公益的”等词汇属于工作单位名称中关键词这一构成要素的具体例子,因此在遇到关键词词性的词汇时,将可以将关键词词性的词汇划分至工作单位名称中的关键词这一构成要素的分类中。
[0095]
步骤103,基于所述各构成要素分别对应的标识和所述第一分类信息确定所述校验工作单位名称对应的第一命名结构式,以及基于所述各构成要素分别对应的标识和所述第二分类信息确定所述标准工作单位名称对应的第二命名结构式。
[0096]
基于上述步骤102,针对校验工作单位名称进行分词后的各第一分词,根据各第一分词的词性,将可以获取到各第一分词在工作单位名称的各构成要素下的分类信息,即第一分类信息,同理,针对标准工作单位名称进行分词后的各第二分词,根据各第二分词的词性,将可以获取到各第二分词在工作单位名称的各构成要素下的分类信息,即第二分类信息;又由于,对于工作单位名称的各构成要素,可以通过不同的标识来表示不同的构成要素,如可使用“r”这一字符表示工作单位所属地区这一构成要素,使用“i”这一字符表示工作单位所属行业这一构成要素,使用“x”这一字符标识工作单位名称中关键词这一构成要素,以及使用“o”这一字符标识工作单位名称中后缀信息这一构成要素,如此的话,可以将校验工作单位名称由文字形式转换为仅由“r”、“i”、“x”和“o”这四个字符进行表示的样式,即得到校验工作单位名称对应的命名结构式,即第一命名结构式,同理,可以将标准工作单位名称由文字形式转换为仅由“r”、“i”、“x”和“o”这四个字符进行表示的样式,即得到标准工作单位名称对应的命名结构式,即第二命名结构式。
[0097]
如表1所示,为本技术实施例提供的一种词汇词性与构成要素对应的标识间的关系映射表:
[0098][0099]
表1
[0100]
例如,针对前述例子中的“深圳前海wb银行股份有限公司”这一工作单位名称,由于“深圳”一词的词性为ns,也即“深圳”一词属于工作单位所属地区这一构成要素,因此可使用“r”、“i”、“x”和“o”这四个字符中的“r”字符来表示“深圳”这一分词;根据相同的逻辑,“前海”、“wb”、“银行”、“股份有限公司”依次可使用“x”、“x”、“o”、“o”进行表示,如此,“深圳前海wb银行股份有限公司”这一工作单位名称可以转换为“rxxoo”进行表示。
[0101]
此外,为了便于理解工作单位名称从文字表达式到字符表达式的过程,如下表2所示,为本技术实施例提供的一种工作单位名称的转换关系列表,其中表2中列举了对4个工作单位名称进行转换的例子。
[0102]
按照从上往下的阅读顺序,以表2中的第1条记录为例,其中对于“财付通支付科技有限公司”这一工作单位名称,其经过分词处理后,将可以得到依次得到“财付通(i)”、“支付(vd)”、“科技(idu)”、“有限公司(csx)”共4个分词,从而根据各个分词的词性在工作单位名称的构成要素下的分类,故可以将“财付通支付科技有限公司”这一工作单位名称转换为“xxio”这一命名结构式进行表示。
[0103]
说明的是,本技术不再赘述表2中的其他工作单位名称的转换过程。
[0104][0105]
表2
[0106]
步骤104,至少基于所述第一命名结构式和所述第二命名结构式中相同的构成要素,确定所述校验工作单位名称与所述标准工作单位名称间的相似度。
[0107]
基于前述步骤,通过确定校验工作单位名称对应的第一命名结构式和标准工作单位名称对应的第二命名结构式,本步骤中将可以基于该两个命名结构式中相同的构成要素,确定校验工作单位名称与标准工作单位名称间的相似度。比如,针对第一命名结构式和第二命名结构式,可以确定两命名结构式在工作单位所属地区这一构成要素下的重合度,如第一命名结构式中若存在两个r,而第二命名结构式中仅存在一个r,则确定第一命名结构式与第二命名结构式在工作单位名称所属地区这一构成要素下的重合度为1,同理可以计算第一命名结构式和第二命名结构式在其他三个构成要素下的重合度,并最终基于四个重合度,确定校验工作单位名称与标准工作单位名称间的相似度。
[0108]
上述方案中,通过考虑工作单位名称的各构成要素,包括指示工作单位所属地区的构成要素、指示工作单位所属行业的构成要素、指示工作单位名称中关键词的构成要素和指示工作单位名称的后缀信息的构成要素,不同的构成要素能够包含的词汇的词性并不相同,因此通过对一工作单位名称进行分词处理,那么根据分词处理后得到的分词的词性,将可以将该工作单位名称转换为以工作单位名称的构成要素进行表达的样式,即命名结构式,从而后续在确定一校验对象的校验工作单位名称的可信度时,将可以基于该校验工作单位名称对应的命名结构式与该校验工作单位名称对应的标准工作单位名称对应的命名结构式中相同的构成要素而确定该两个工作单位名称间的相似度,该相似度可以用于表征校验工作单位名称是否为真实可信的工作单位名称。该方式中由于可基于工作单位名称中各分词的词性而将工作单位名称转换为以工作单位名称的构成要素进行表达的样式,如此后续在确定一校验工作单位名称是否为真实值时,将可以快速、准确地基于该校验工作单位名称与标准工作单位名称间相同的构成要素而得到该两个工作单位名称间的相似度,从而提升了确定用户输入的工作单位名称真假的效率及准确率。
[0109]
以下将结合示例分别对上述一些步骤进行详细说明。
[0110]
在上述步骤104的一个实施中,所述至少基于所述第一命名结构式和所述第二命名结构式中相同的要素结构,确定所述校验工作单位名称与所述标准工作单位名称间的相似度,包括:基于所述第一命名结构式中的各第四构成要素,确定所述校验工作单位名称中的各校验子名称;基于所述第二命名结构式中的各第四构成要素,确定所述标准工作单位名称中的各标准子名称;通过所述各校验子名称中位于首位的第一校验子名称,确定所述校验工作单位名称的校验简称;通过所述各标准子名称中位于首位的第一标准子名称,确定所述标准工作单位名称的标准简称;至少基于所述第一命名结构式和所述第二命名结构式中相同的构成要素的要素相似度,和,所述校验简称与所述标准简称之间的简称相似度,确定所述校验工作单位名称与所述标准工作单位名称间的相似度。
[0111]
例如,由于用户在输入自己的工作单位名称时,还可能直接写入的是其工作单位名称的简称,因此本技术中为了可以进一步提升用户输入的校验工作单位名称的真假性在识别时候的准确度,故在考虑同一校验对象的校验工作单位名称与标准工作单位名称分别对应的命名结构式中的相同的构成要素的要素相似度之余,通过进一步考虑该两个工作单位名称的简称间的相似度,显然这对于准确确定校验工作单位名称是否就是标准工作单位名称具有重要意义。
[0112]
具体的,以前述表2中的第3条记录为例,对于“招商银行武汉分行”这一工作单位名称,其基于工作单位名称的各构成要素而形成的命名结构式为“xoro”,其中,以“o”为划
分节点,将可以得到“招商银行武汉分行”这一工作单位名称对应的两个子名称,具体为“招商银行”这一子名称和“武汉分行”这一子名称;又由于,考虑到用户在写自己所在工作单位的简称时,将习惯写一个更大层面的简称,如此既可体现出自己所在的单位同时又可以节省书写时间,如对于“招商银行武汉支行”这一工作单位名称而言,用户会更倾向于“招商银行”而书写其简称,而很少甚至不会基于“武汉分行”而书写其简称,基于此,本技术中可以基于工作单位名称对应的各子名称中、位于首位的子名称而确定该工作单位名称对应的各简称,对于“招商银行武汉分行”这一工作单位名称所具有的“招商银行(xo)”和“武汉分行(ro)”这两个子名称而言,本技术中将可以基于“招商银行(xo)”这一子名称确定“招商银行武汉分行”这一工作单位名称所对应的各简称,最后,在考虑要素相似度之余,进一步考虑校验工作单位名称与标准工作单位名称在简称角度的简称相似度,通过融合该两方面的相似度所得到的最终的相似度将可以很好、很准确地用于评判校验工作单位名称是否就是为标准工作单位名称。
[0113]
在本技术的某些实施中,所述通过所述各校验子名称中位于首位的第一校验子名称,确定所述校验工作单位名称的校验简称,包括:确定所述各校验子名称中位于首位的第一校验子名称对应的校验命名结构式;对所述校验命名结构式应用命名结构式的简称规则,从而确定所述第一校验子名称对应的各简称,并将所述第一校验子名称对应的各简称作为所述校验工作单位名称的校验简称;所述命名结构式的简称规则是通过样本工作单位名称与样本工作单位简称确定的。
[0114]
其中,本技术在描述如何通过各校验子名称中位于首位的第一校验子名称而确定校验工作单位名称的校验简称之前,将先描述命名结构式的简称规则;从而在举例阐述命名结构式的简称规则后,再描述确定校验工作单位名称的校验简称的过程。其中:
[0115]
在本技术的某些实施中,所述命名结构式的简称规则是通过样本工作单位名称与样本工作单位简称确定的,包括:针对任一样本工作单位名称,对所述样本工作单位名称进行规范化处理;所述规范化处理至少包括去除所述工作单位名称中的特殊字符、数字和小写字母;针对规范化处理后的所述样本工作单位名称,对所述样本工作单位名称进行分词,得到所述样本工作单位名称对应的各第三分词和各第三分词各自具有的词性;基于所述各构成要素分别对应的标识,针对所述各第三分词,根据所述各第三分词各自具有的词性,确定所述样本工作单位名称的命名结构式;针对所述样本工作单位名称,确定所述样本工作单位名称的各简称以及各简称的命名结构式;针对所述各简称中的任一个简称,根据所述简称的命名结构式,标记所述简称在所述样本工作单位名称的命名结构式中的位置信息;建立所述样本工作单位名称与所述各简称各自在所述样本工作单位名称的命名结构式中的位置信息间的对应关系,并作为命名结构式的简称规则。
[0116]
例如,如表3所示,为本技术实施例提供的一种命名结构式的简称规则列表,其中本技术中仅以表3中的第1条记录进行说明,并不再列举表3中的其他记录进行说明:
[0117][0118]
表3
[0119]
第一方面:
[0120]
首先,对于“中国移动有限责任公司”这一工作单位名称而言,首先可对该工作单位名称进行规范化处理,其中规范化处理至少包括去除工作单位名称中的特殊字符、数字和小写字母。说明的是,由于“中国移动有限责任公司”这一工作单位名称中并不存在特殊字符、数字和小写字母的情况,故可跳过该规范化处理工作单位名称的步骤。
[0121]
接着,对经过规范化处理的工作单位名称进行分词处理,如“中国移动有限责任公司”经过分词处理,依次可以得到“中国(ns)”、“移动(vd)”和“有限责任公司(csx)”。
[0122]
再接着,根据“中国移动有限责任公司”经分词处理后得到的各分词的词性,可确定“中国移动有限责任公司”这一工作单位名称基于工作单位名称的各构成要素而形成的命名结构式为“rxo”。
[0123]
第二方面:
[0124]
可由本领域技术人员对“中国移动有限责任公司”所有可能的简称进行枚举,如其简称可以为“中移动”和“中国移动”。
[0125]
第三方面:
[0126]
基于上述第一方面,对于“中国移动有限责任公司”,其命名结构式将为“rxo”,基于上述第二方面,“中国移动有限责任公司”,其简称可以为“中移动”和“中国移动”,那么:
[0127]
1、对于简称“中移动”,其中的“中”字位于“中国”这一分词中的第1位上,简称中的“移动”一词即为“移动”这一分词,故对于“中移动”这一简称而言,可确定其命名结构式的简称规则为r[1]x。具体的,对于简称规则r[1]x中的中括号中的数字“1”,将表示仅取“r”这一构成要素指示的“中国”这一分词中第一位上的“中”字,x后面并未使用中括号加数字的形式,则表示取“x”这一构成要素指示的“移动”这一完整分词。
[0128]
2、对于简称“中国移动”,其中的“中国”一词即为“中国”这一分词,简称中的“移动”一词即为“移动”这一分词,故对于“中国移动”这一简称而言,可确定其命名结构式的简称规则为rx。
[0129]
根据上述对“中国移动有限责任公司”这一工作单位名称确定它的命名结构式的
简称规则的描述,可以知道:后续若一校验对象的校验工作单位名称或者标准工作单位名称中位于首位的子名称为“中国移动有限责任公司”,如一校验对象的校验工作单位名称为“中国移动有限责任公司上海分公司”,那么可确定其位于首位的子名称为“中国移动有限责任公司”,该位于首位的子名称的命名结构式为“rxo”,那么通过查找表3所示的“结构”到“简称”的映射关系,可确定在命名结构式为“rxo”时,其简称构造规则为“r[1]x”和“rx”,如此将可以确定“中国移动有限责任公司”可以对应的简称有“中移动”和“中国移动”。
[0130]
在本技术的某些实施中,所述通过结巴分词的方式,对校验对象的校验工作单位名称进行分词得到各第一分词之后,所述针对所述各第一分词各自具有的词性,确定所述各第一分词在工作单位名称的各构成要素下的第一分类信息之前,所述方法还包括:若经结巴分词处理后的各第一分词中存在连续的单字的各第一分词,则将连续的单字的合并为一个第一分词。
[0131]
说明的是,上述例子中描述的可以基于命名结构式中的“o”来划分工作单位名称对应的各子名称,是一种从宏观角度来确定工作单位名称的各子名称的方式;对该问题,本技术中还可以通过下述描述的方式、从微观(即计算机执行的角度)角度来确定一工作单位名称中所能够透露出来的各种信息,如确定工作单位所属地区、工作单位所属行业、工作单位名称的各关键词、工作单位名称对应的各子名称。
[0132]
例如,对于一工作单位名称对应的命名结构式,截取第一次以o结尾的分词拼接为firstname(即第一个名称),第二次以o结尾的分词到第一个o的位置分词拼接为secondname(第二个名称),然后对于firstname应用命名结构式的简称规则,从而确定该工作单位名称对应的各简称、并形成简称列表;以及根据各分词的各自具有的词性,得到行业词汇列表industrylist和关键词词汇汇列表keywordlist。具体实施如下:
[0133]
为了方便描述,可先预设6个变量,如下:
[0134]
(1)、第一个名称:firstname
[0135]
(2)、第二个名称:secondname
[0136]
(3)、关键词列表:keywordlist
[0137]
(4)、单个字使用的变量singleword=
””
[0138]
说明的是,本技术中之所以使用变量(4),是因为即使丰富了结巴分词对应的分词词库,也不能保证100%完全囊括所有词汇,或者一些口语化的词语并未被汉语词典收录。因此为了避免本应该合并起来分成一个词语的,实际却被分成了一个个孤立的汉字的情况的发生,本技术中通过设置变量singleword=
””
,将可以避免上述不利情形的出现。
[0139]
(5)、存储命名结构式的变量namestruct=
””
[0140]
(6)、行业列表industrylist
[0141]
基于上述预设的6个变量,通过对一工作单位名称(具体指该工作单位名称对应的各分词)执行下述的步骤e.1至步骤e.5,将可以得到该工作单位名称指示的工作单位所属行业的信息、该工作单位名称的各关键词信息、该工作单位名称的对应的各子名称、该工作单位名称对应的各简称。其中:
[0142]
步骤e.1:针对工作单位名称经分词处理后的结巴分词列表tokenlist,遍历该tokenlist,并假设当前所遍历的分词为token[i],其中,0《=i《length(tokenlist)。
[0143]
步骤e.2:如果token[i]的长度等于1,则singleword=singleword+token[i],变
量singleword=
””
用于多个连续的单个字拼接成一个词语,继续遍历转步骤e.1,否则转步骤e.3。
[0144]
步骤e.3:如果singleword的长度大等于1,说明已经存在拼接好的词语,该词语可当作关键词namestruct=namestruct+”x”,将singleword加入keywordlist,singleword清空,然后转步骤e.4,否则直接进入步骤e.4。
[0145]
步骤e.4:判断当前遍历的分词token[i]的词性,其中:
[0146]
如果是ns(地区),则namestruct=namestruct+”r”;
[0147]
如果是idu(行业),则namestruct=namestruct+”i”,加入行业列表industrylist;
[0148]
如果是公司后缀(csx),则namestruct=namestruct+”o”,记录o在名称中出现的位置index,可以用于分公司,支行这样的名称使用;
[0149]
如果是x(关键词),则namestruct=namestruct+”x”,加入关键词列表keywordlist。
[0150]
步骤e.5:如果index》0,说明后缀在名称中间出现了,那么需要分第一名称和第二名称;将从0到index的字符串作为firstname,index到end的字符串作为secondname,对0到index处的字符串进行截取,并最终作为名称结构赋值给namestruct。
[0151]
例如,设在步骤e.5之前,namestruct=rxioxo,那么经过步骤e.5的更新操作,namestruct=rxio。
[0152]
对于上述描述的可为一工作单位名称确定对应于它的第一个名称、第二个名称、关键词列表、行业词列表的过程,设根据该方式,在对
“の
(
⊙o⊙
)
…
4招商银行股份有限公司深圳威盛大厦支行www”这一工作单位名称进行处理后,得到的内容如下:
[0153][0154]
其中:
[0155]
job表示对
“の
(
⊙o⊙
)
…
4招商银行股份有限公司深圳威盛大厦支行www”这一工
作单位名称进行处理后得到的所有内容的总称;
[0156]
job中的abbrelist表示简称列表,其中abbrelist=[招行,招商],是根据job中的最后一项的namestruct=xo而获取出“招商银行股份有限公司”这一位于首位的子名称,并应用xo这一命名结构式所对应的简称规则,如简称规则为x[1]o[2]和x,从而可以得到“招商银行股份有限公司”这一子名称对应的简称为“招行”以及“招商”,进一步的,“招商银行股份有限公司”这一子名称对应的简称为“招行”以及“招商”也即为
“の
(
⊙o⊙
)
…
4招商银行股份有限公司深圳威盛大厦支行www”这一工作单位名称对应的各简称;
[0157]
job中的jobtype表示工作单位的类型,主要可通过对
“の
(
⊙o⊙
)
…
4招商银行股份有限公司深圳威盛大厦支行www”这一工作单位名称进行正则表达式的匹配,从而确定其工作单位的类型为company;
[0158]
job中的oriname表示用户主动输入的工作单位名称,如在oriname='
の
(
⊙o⊙
)
…
4招商银行股份有限公司深圳威盛大厦支行www'时,那么对于该工作单位名称中的
“の
(
⊙o⊙
)
…”
这一特殊字符、数字“4”、小写字母“www”都将被删除,从而本技术中将基于“招商银行股份有限公司深圳威盛大厦支行”进行分词处理;
[0159]
job中的firstname表示工作单位名称中位于首位的子名称,如在工作单位名称为
“の
(
⊙o⊙
)
…
4招商银行股份有限公司深圳威盛大厦支行www”时,其firstname='招商银行股份有限公司';
[0160]
job中的secondname表示工作单位名称中位于第二位的子名称,如在工作单位名称为
“の
(
⊙o⊙
)
…
4招商银行股份有限公司深圳威盛大厦支行www”时,其secondname='深圳威盛大厦支行';
[0161]
job中的region表示工作单位名称指示的工作单位所属的地区,如在工作单位名称为
“の
(
⊙o⊙
)
…
4招商银行股份有限公司深圳威盛大厦支行www”时,其region='广东省深圳市';
[0162]
job中的regionid表示工作单位所属地区的编码方式,如在工作单位名称为
“の
(
⊙o⊙
)
…
4招商银行股份有限公司深圳威盛大厦支行www”时,其regionid='440300000000';
[0163]
job中的industrylist表示工作单位所属行业的行业词列表,用于存储各行业词,如在工作单位名称为
“の
(
⊙o⊙
)
…
4招商银行股份有限公司深圳威盛大厦支行www”时,其industrylist=[支行];
[0164]
job中的keywordlist表示工作单位名称的关键词列表,用于存储工作单位名称中的各关键词,如在工作单位名称为
“の
(
⊙o⊙
)
…
4招商银行股份有限公司深圳威盛大厦支行www”时,其keywordlist=[招商,威盛,大厦]。
[0165]
如表4所示,为本技术实施例提供的一种工作单位所属工作类型的列表,其中第一列表示工作单位所属工作类型,如从上往下,依次有education、medical、scientific、administration、army、company、court、police、bank、factory、hotel_food、express、individual和other共14个工作类型,其中第二列是对第一列的各工作类型的中文解释,从上往下依次为教育类、医疗卫生类、科研类、行政机构、军队、公司、法律类工作、公安局、银行、工厂、酒店餐饮、快递、个体工商户和其他,其中本技术中定义表4所示的列表中从上往下的前12个工作类型符合rxo策略,即第一计算策略,列表中最后2个工作类型符合str策
略,即第二计算策略。
[0166][0167][0168]
表4
[0169]
基于表4所示的工作单位所能隶属的工作类型,则对于一工作单位名称,通过对该工作单位名称进行正则表达式的匹配,将可以确定出该工作单位名称指向的工作单位的类型。
[0170]
因此,对于校验对象的校验工作单位名称和标准工作单位名称的分别进行正则表达式的匹配后,可以分别确定出校验工作单位名称指示的工作单位的类型和标准工作单位名称指示的工作单位的类型,其中所确定出的工作单位的类型可以反馈到job中的jobtype字段上,从而,通过对校验工作单位名称指示的工作单位的类型和标准工作单位名称指示的工作单位的类型的分析,可以确定计算校验工作单位名称与标准工作单位名称间相似度的方式,包括如下几种情况:
[0171]
情况1:在通过正则表达式分别确定校验对象的校验工作单位名称指示的工作单位和标准工作单位名称指示的工作单位所属的工作类型时,确定存在至少一个工作单位名称无法对应到rxo策略中的任一工作类型,或者,确定存在至少一个工作单位名称无法对应到str策略中的任一工作类型,则可以确定校验工作单位名称与标准工作单位名称间相似度为0。
[0172]
情况2:若校验工作单位名称指示的工作单位的类型和标准工作单位名称指示的工作单位的类型为rxo策略下的非同一种工作类型,则可以确定校验工作单位名称与标准
工作单位名称间相似度为0。
[0173]
情况3:若校验工作单位名称指示的工作单位的类型和标准工作单位名称指示的工作单位的类型为rxo策略下的同一种工作类型,则可以采用下述方式计算校验工作单位名称与标准工作单位名称间相似度,包括:
[0174]
在本技术的某些实施中,所述至少基于所述第一命名结构式和所述第二命名结构式中相同的构成要素的要素相似度,和,所述校验简称与所述标准简称之间的简称相似度,确定所述校验工作单位名称与所述标准工作单位名称间的相似度,包括:确定所述校验工作单位名称中第二构成要素对应各行业信息与所述标准工作单位名称中第二构成要素对应各行业信息之间的第一要素相似度;确定所述校验工作单位名称中第三构成要素对应各关键词与所述标准工作单位名称中第三构成要素对应各关键词之间的第二要素相似度;确定所述校验简称与所述标准简称之间的简称相似度;确定所述各校验子名称中设定的校验子名称和所述各标准子名称中相应的标准子名称之间的子名称相似度;根据所述第一要素相似度、所述第二要素相似度、所述简称相似度和所述子名称相似度,确定所述校验工作单位名称与所述标准工作单位名称间的相似度。
[0175]
在本技术的某些实施中,所述根据所述第一要素相似度、所述第二要素相似度、所述简称相似度和所述子名称相似度,确定所述校验工作单位名称与所述标准工作单位名称间的相似度,包括:根据所述第一要素相似度和第一预设权重,所述第二要素相似度和第二预设权重,所述简称相似度和第三预设权重,所述子名称相似度和第四预设权重,确定所述校验工作单位名称与所述标准工作单位名称间的相似度;其中,所述简称相似度和所述子名称相似度通过最短编辑距离的方式确定。
[0176]
对于一校验对象的校验工作单位名称与标准工作单位名称,分别经过分词处理以及job信息的生成操作,假设校验工作单位名称对应的job信息令为job1,标准工作单位名称对应的job信息令为job2,那么校验工作单位名称与标准工作单位名称间的相似度是由job1和job2的firstname、secondname、abbrelist、industrylist、keywordlist的相似度然后乘以对应的预设权重得到的,具体计算方式如下:
[0177]
similar=sum(score
firstname
*rate
firstname
+score
secondname
*rate
secondname
[0178]
+score
abbrname
*rate
abbrname
+score
iduname
*rate
iduname
[0179]
+score
keyword
*rate
keyword
)
[0180]
其中,similar表示校验对象的校验工作单位名称与标准工作单位名称间的相似度,sum表示加和,score
firstname
表示两工作单位名称在第一个名称下的相似度,rate
firstname
表示第四预设权重,score
secondname
表示两工作单位名称在第二个名称下的相似度,rate
secondname
表示第四预设权重,score
abbrname
表示两工作单位名称在简称下的相似度,rate
abbrname
表示第三预设权重,score
iduname
表示两工作单位名称在工作单位所属行业下的相似度,rate
iduname
表示第一预设权重,score
keyword
表示两工作单位名称在工作单位名称具有的关键词下的相似度,rate
keyword
表示第二预设权重;
[0181]
其中:
[0182]
score
firstname
=minedit(firstname
job1
,firstname
job2
)
[0183]
score
secondname
=minedit(secondname
job1
,secondname
job2
)
[0184]i←
0,len(abbrlist
job1
)
[0185]j←
0,len(abbrlist
job2
)
[0186]
score
abbrname
=max[minedit(abbrlist
job1
[i],abbrlist
job2
[j])],minedit是最短编辑距离;
[0187]
score
idu
为industrylist
job1
和industrylist
job2
中相同的词数量。
[0188]
score
keyword
为keywordlist
job1
和keywordlist
job2
中相同的词数量。
[0189]
通过设定阈值,如果similar达到预设阈值,则认为两个工作单名称是相似的,否则不是。
[0190]
情况4:若校验工作单位名称指示的工作单位的类型和标准工作单位名称指示的工作单位的类型为str策略下的同一种工作类型或者非同一种工作类型,则可以采用字符串匹配的方式确定校验工作单位名称与标准工作单位名称间的相似度,其中字符串匹配的方式可以为kmp算法。
[0191]
情况5:若校验工作单位名称指示的工作单位的类型为rxo策略中的某一工作类型以及标准工作单位名称指示的工作单位名称的类型为str策略下的某一工作类型,则需要确定标准工作单位名称对应的job中是否有第一个名称、第二个名称、行业词汇、关键词词汇和简称,若确定有,则可以基于与情况3相同的算法确定校验工作单位名称与标准工作单位名称间的相似度;否则,将确定校验工作单位名称与标准工作单位名称间相似度为0。
[0192]
基于同样的构思,本技术实施例提供一种工作单位名称校验装置,如图2所示,为本技术实施例提供的一种工作单位名称校验装置的示意图,该装置包括分词单元201、分类信息确定单元202、命名结构式确定单元203和相似度确定单元204;
[0193]
分词单元201,用于对校验对象的校验工作单位名称进行分词得到各第一分词,并对所述校验对象的标准工作单位名称进行分词得到各第二分词;
[0194]
分类信息确定单元202,用于针对所述各第一分词各自具有的词性,确定所述各第一分词在工作单位名称的各构成要素下的第一分类信息,以及针对所述各第二分词各自具有的词性,确定所述各第二分词在所述各构成要素下的第二分类信息;其中,所述各构成要素各自包含的词汇的词性不同,所述各构成要素包括指示工作单位所属地区的第一构成要素、指示工作单位所属行业的第二构成要素、指示工作单位名称中关键词的第三构成要素和指示工作单位名称的后缀信息的第四构成要素;
[0195]
命名结构式确定单元203,用于基于所述各构成要素分别对应的标识和所述第一分类信息确定所述校验工作单位名称对应的第一命名结构式,以及基于所述各构成要素分别对应的标识和所述第二分类信息确定所述标准工作单位名称对应的第二命名结构式;
[0196]
相似度确定单元204,用于至少基于所述第一命名结构式和所述第二命名结构式中相同的构成要素,确定所述校验工作单位名称与所述标准工作单位名称间的相似度。
[0197]
进一步的,对于该装置,相似度确定单元204,具体用于:基于所述第一命名结构式中的各第四构成要素,确定所述校验工作单位名称中的各校验子名称;基于所述第二命名结构式中的各第四构成要素,确定所述标准工作单位名称中的各标准子名称;通过所述各校验子名称中位于首位的第一校验子名称,确定所述校验工作单位名称的校验简称;通过所述各标准子名称中位于首位的第一标准子名称,确定所述标准工作单位名称的标准简称;至少基于所述第一命名结构式和所述第二命名结构式中相同的构成要素的要素相似度,和,所述校验简称与所述标准简称之间的简称相似度,确定所述校验工作单位名称与所
述标准工作单位名称间的相似度。
[0198]
进一步的,对于该装置,相似度确定单元204,具体用于:确定所述各校验子名称中位于首位的第一校验子名称对应的校验命名结构式;对所述校验命名结构式应用命名结构式的简称规则,从而确定所述第一校验子名称对应的各简称,并将所述第一校验子名称对应的各简称作为所述校验工作单位名称的校验简称;所述命名结构式的简称规则是通过样本工作单位名称与样本工作单位简称确定的。
[0199]
进一步的,对于该装置,相似度确定单元204,具体用于:确定所述校验工作单位名称中第二构成要素对应各行业信息与所述标准工作单位名称中第二构成要素对应各行业信息之间的第一要素相似度;确定所述校验工作单位名称中第三构成要素对应各关键词与所述标准工作单位名称中第三构成要素对应各关键词之间的第二要素相似度;确定所述校验简称与所述标准简称之间的简称相似度;确定所述各校验子名称中设定的校验子名称和所述各标准子名称中相应的标准子名称之间的子名称相似度;根据所述第一要素相似度、所述第二要素相似度、所述简称相似度和所述子名称相似度,确定所述校验工作单位名称与所述标准工作单位名称间的相似度。
[0200]
进一步的,对于该装置,分词单元201,还用于:根据预设的正则表达式,确定所述校验工作单位名称和所述标准工作单位名称均存在对应的工作单位类型,且,确定所述校验工作单位名称和所述标准工作单位名称隶不属于第一计算策略中不同的工作单位类型;其中,所述预设的正则表达式用于基于工作单位名称确定所述工作单位名称指示的工作单位隶属的工作单位类型,所述第一计算策略中包括多个工作单位类型,所述多个工作单位类型中的任一个工作单位类型下的各工作单位的工作单位名称在命名时包含工作单位名称的各构成要素。
[0201]
进一步的,对于该装置,分词单元201,还用于:根据所述预设的正则表达式,确定所述校验工作单位名称和所述标准工作单位名称隶属于所述第一计算策略中同一工作单位类型;相似度确定单元204,具体用于:根据所述第一要素相似度和第一预设权重,所述第二要素相似度和第二预设权重,所述简称相似度和第三预设权重,所述子名称相似度和第四预设权重,确定所述校验工作单位名称与所述标准工作单位名称间的相似度;其中,所述简称相似度和所述子名称相似度通过最短编辑距离的方式确定。
[0202]
进一步的,对于该装置,分词单元201,具体用于:通过结巴分词的方式,对校验对象的校验工作单位名称进行分词得到各第一分词和各第一分词各自具有的词性;所述结巴分词对应的分词库包括基于工作单位名称进行增加的各词汇。
[0203]
进一步的,对于该装置,分词单元201,还用于:若经结巴分词处理后的各第一分词中存在连续的单字的各第一分词,则将连续的单字的合并为一个第一分词。
[0204]
进一步的,对于该装置,所述各构成要素各自包含的词汇的词性不同,包括:所述第一构成要素包含的词汇的词性为地区词性,所述第二构成要素包含的词汇的词性为行业词性,所述第三构成要素包含的词汇的词性为方位词词性、名词词性、形容词词性、动副词词性、未知词性,所述第四构成要素包含的词汇的词性为后缀词性。
[0205]
进一步的,对于该装置,还包括命名结构式的简称规则生成单元205,用于:针对任一样本工作单位名称,对所述样本工作单位名称进行规范化处理;所述规范化处理至少包括去除所述工作单位名称中的特殊字符、数字和小写字母;针对规范化处理后的所述样本
工作单位名称,对所述样本工作单位名称进行分词,得到所述样本工作单位名称对应的各第三分词和各第三分词各自具有的词性;基于所述各构成要素分别对应的标识,针对所述各第三分词,根据所述各第三分词各自具有的词性,确定所述样本工作单位名称的命名结构式;针对所述样本工作单位名称,确定所述样本工作单位名称的各简称以及各简称的命名结构式;针对所述各简称中的任一个简称,根据所述简称的命名结构式,标记所述简称在所述样本工作单位名称的命名结构式中的位置信息;建立所述样本工作单位名称与所述各简称各自在所述样本工作单位名称的命名结构式中的位置信息间的对应关系,并作为命名结构式的简称规则。
[0206]
本技术实施例还提供了一种计算设备,该计算设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(personal digital assistant,pda)等。该计算设备可以包括中央处理器(center processing unit,cpu)、存储器、输入/输出设备等,输入设备可以包括键盘、鼠标、触摸屏等,输出设备可以包括显示设备,如液晶显示器(liquid crystal display,lcd)、阴极射线管(cathode ray tube,crt)等。
[0207]
存储器,可以包括只读存储器(rom)和随机存取存储器(ram),并向处理器提供存储器中存储的程序指令和数据。在本技术实施例中,存储器可以用于存储工作单位名称校验方法的程序指令;
[0208]
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行工作单位名称校验方法。
[0209]
如图3所示,为本技术实施例提供的一种计算设备的示意图,该计算设备包括:
[0210]
处理器301、存储器302、收发器303、总线接口304;其中,处理器301、存储器302与收发器303之间通过总线305连接;
[0211]
所述处理器301,用于读取所述存储器302中的程序,执行上述工作单位名称校验方法;
[0212]
处理器301可以是中央处理器(central processing unit,简称cpu),网络处理器(network processor,简称np)或者cpu和np的组合。还可以是硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,简称asic),可编程逻辑器件(programmable logic device,简称pld)或其组合。上述pld可以是复杂可编程逻辑器件(complex programmable logic device,简称cpld),现场可编程逻辑门阵列(field-programmable gate array,简称fpga),通用阵列逻辑(generic array logic,简称gal)或其任意组合。
[0213]
所述存储器302,用于存储一个或多个可执行程序,可以存储所述处理器301在执行操作时所使用的数据。
[0214]
具体地,程序可以包括程序代码,程序代码包括计算机操作指令。存储器302可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,简称ram);存储器302也可以包括非易失性存储器(non-volatile memory),例如快闪存储器(flash memory),硬盘(hard disk drive,简称hdd)或固态硬盘(solid-state drive,简称ssd);存储器302还可以包括上述种类的存储器的组合。
[0215]
存储器302存储了如下的元素,可执行模块或者数据结构,或者它们的子集,或者它们的扩展集:
[0216]
操作指令:包括各种操作指令,用于实现各种操作。
[0217]
操作系统:包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
[0218]
总线305可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0219]
总线接口304可以为有线通信接入口,无线总线接口或其组合,其中,有线总线接口例如可以为以太网接口。以太网接口可以是光接口,电接口或其组合。无线总线接口可以为wlan接口。
[0220]
本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行工作单位名称校验方法。
[0221]
本领域内的技术人员应明白,本技术的实施例可提供为方法、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0222]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0223]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0224]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0225]
尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
[0226]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
技术特征:1.一种工作单位名称校验方法,其特征在于,包括:对校验对象的校验工作单位名称进行分词得到各第一分词,并对所述校验对象的标准工作单位名称进行分词得到各第二分词;针对所述各第一分词各自具有的词性,确定所述各第一分词在工作单位名称的各构成要素下的第一分类信息,以及针对所述各第二分词各自具有的词性,确定所述各第二分词在所述各构成要素下的第二分类信息;其中,所述各构成要素各自包含的词汇的词性不同,所述各构成要素包括指示工作单位所属地区的第一构成要素、指示工作单位所属行业的第二构成要素、指示工作单位名称中关键词的第三构成要素和指示工作单位名称的后缀信息的第四构成要素;基于所述各构成要素分别对应的标识和所述第一分类信息确定所述校验工作单位名称对应的第一命名结构式,以及基于所述各构成要素分别对应的标识和所述第二分类信息确定所述标准工作单位名称对应的第二命名结构式;至少基于所述第一命名结构式和所述第二命名结构式中相同的构成要素,确定所述校验工作单位名称与所述标准工作单位名称间的相似度。2.如权利要求1所述的方法,其特征在于,所述至少基于所述第一命名结构式和所述第二命名结构式中相同的要素结构,确定所述校验工作单位名称与所述标准工作单位名称间的相似度,包括:基于所述第一命名结构式中的各第四构成要素,确定所述校验工作单位名称中的各校验子名称;基于所述第二命名结构式中的各第四构成要素,确定所述标准工作单位名称中的各标准子名称;通过所述各校验子名称中位于首位的第一校验子名称,确定所述校验工作单位名称的校验简称;通过所述各标准子名称中位于首位的第一标准子名称,确定所述标准工作单位名称的标准简称;至少基于所述第一命名结构式和所述第二命名结构式中相同的构成要素的要素相似度,和,所述校验简称与所述标准简称之间的简称相似度,确定所述校验工作单位名称与所述标准工作单位名称间的相似度。3.如权利要求2所述的方法,其特征在于,所述通过所述各校验子名称中位于首位的第一校验子名称,确定所述校验工作单位名称的校验简称,包括:确定所述各校验子名称中位于首位的第一校验子名称对应的校验命名结构式;对所述校验命名结构式应用命名结构式的简称规则,从而确定所述第一校验子名称对应的各简称,并将所述第一校验子名称对应的各简称作为所述校验工作单位名称的校验简称;所述命名结构式的简称规则是通过样本工作单位名称与样本工作单位简称确定的。4.如权利要求2所述的方法,其特征在于,所述至少基于所述第一命名结构式和所述第二命名结构式中相同的构成要素的要素相似度,和,所述校验简称与所述标准简称之间的简称相似度,确定所述校验工作单位名称与所述标准工作单位名称间的相似度,包括:
确定所述校验工作单位名称中第二构成要素对应各行业信息与所述标准工作单位名称中第二构成要素对应各行业信息之间的第一要素相似度;确定所述校验工作单位名称中第三构成要素对应各关键词与所述标准工作单位名称中第三构成要素对应各关键词之间的第二要素相似度;确定所述校验简称与所述标准简称之间的简称相似度;确定所述各校验子名称中设定的校验子名称和所述各标准子名称中相应的标准子名称之间的子名称相似度;根据所述第一要素相似度、所述第二要素相似度、所述简称相似度和所述子名称相似度,确定所述校验工作单位名称与所述标准工作单位名称间的相似度。5.如权利要求1所述的方法,其特征在于,所述对校验对象的校验工作单位名称进行分词得到各第一分词,并对所述校验对象的标准工作单位名称进行分词得到各第二分词之前,所述方法还包括:根据预设的正则表达式,确定所述校验工作单位名称和所述标准工作单位名称均存在对应的工作单位类型,且,确定所述校验工作单位名称和所述标准工作单位名称隶不属于第一计算策略中不同的工作单位类型;其中,所述预设的正则表达式用于基于工作单位名称确定所述工作单位名称指示的工作单位隶属的工作单位类型,所述第一计算策略中包括多个工作单位类型,所述多个工作单位类型中的任一个工作单位类型下的各工作单位的工作单位名称在命名时包含工作单位名称的各构成要素。6.如权利要求5所述的方法,其特征在于,所述对校验对象的校验工作单位名称进行分词得到各第一分词,并对所述校验对象的标准工作单位名称进行分词得到各第二分词之后,所述方法还包括:根据所述预设的正则表达式,确定所述校验工作单位名称和所述标准工作单位名称隶属于所述第一计算策略中同一工作单位类型;所述根据所述第一要素相似度、所述第二要素相似度、所述简称相似度和所述子名称相似度,确定所述校验工作单位名称与所述标准工作单位名称间的相似度,包括:根据所述第一要素相似度和第一预设权重,所述第二要素相似度和第二预设权重,所述简称相似度和第三预设权重,所述子名称相似度和第四预设权重,确定所述校验工作单位名称与所述标准工作单位名称间的相似度;其中,所述简称相似度和所述子名称相似度通过最短编辑距离的方式确定。7.如权利要求1-6任一项所述的方法,其特征在于,所述对校验对象的校验工作单位名称进行分词得到各第一分词,包括:通过结巴分词的方式,对校验对象的校验工作单位名称进行分词得到各第一分词和各第一分词各自具有的词性;所述结巴分词对应的分词库包括基于工作单位名称进行增加的各词汇。8.如权利要求7所述的方法,其特征在于,所述通过结巴分词的方式,对校验对象的校验工作单位名称进行分词得到各第一分词之后,所述针对所述各第一分词各自具有的词性,确定所述各第一分词在工作单位名称的各构成要素下的第一分类信息之前,所述方法还包括:若经结巴分词处理后的各第一分词中存在连续的单字的各第一分词,则将连续的单字
的合并为一个第一分词。9.如权利要求1-6任一项所述的方法,其特征在于,所述各构成要素各自包含的词汇的词性不同,包括:所述第一构成要素包含的词汇的词性为地区词性,所述第二构成要素包含的词汇的词性为行业词性,所述第三构成要素包含的词汇的词性为方位词词性、名词词性、形容词词性、动副词词性、未知词性,所述第四构成要素包含的词汇的词性为后缀词性。10.如权利要求3所述的方法,其特征在于,所述命名结构式的简称规则是通过样本工作单位名称与样本工作单位简称确定的,包括:针对任一样本工作单位名称,对所述样本工作单位名称进行规范化处理;所述规范化处理至少包括去除所述工作单位名称中的特殊字符、数字和小写字母;针对规范化处理后的所述样本工作单位名称,对所述样本工作单位名称进行分词,得到所述样本工作单位名称对应的各第三分词和各第三分词各自具有的词性;基于所述各构成要素分别对应的标识,针对所述各第三分词,根据所述各第三分词各自具有的词性,确定所述样本工作单位名称的命名结构式;针对所述样本工作单位名称,确定所述样本工作单位名称的各简称以及各简称的命名结构式;针对所述各简称中的任一个简称,根据所述简称的命名结构式,标记所述简称在所述样本工作单位名称的命名结构式中的位置信息;建立所述样本工作单位名称与所述各简称各自在所述样本工作单位名称的命名结构式中的位置信息间的对应关系,并作为命名结构式的简称规则。11.一种工作单位名称校验装置,其特征在于,包括:分词单元,用于对校验对象的校验工作单位名称进行分词得到各第一分词,并对所述校验对象的标准工作单位名称进行分词得到各第二分词;分类信息确定单元,用于针对所述各第一分词各自具有的词性,确定所述各第一分词在工作单位名称的各构成要素下的第一分类信息,以及针对所述各第二分词各自具有的词性,确定所述各第二分词在所述各构成要素下的第二分类信息;其中,所述各构成要素各自包含的词汇的词性不同,所述各构成要素包括指示工作单位所属地区的第一构成要素、指示工作单位所属行业的第二构成要素、指示工作单位名称中关键词的第三构成要素和指示工作单位名称的后缀信息的第四构成要素;命名结构式确定单元,用于基于所述各构成要素分别对应的标识和所述第一分类信息确定所述校验工作单位名称对应的第一命名结构式,以及基于所述各构成要素分别对应的标识和所述第二分类信息确定所述标准工作单位名称对应的第二命名结构式;相似度确定单元,用于至少基于所述第一命名结构式和所述第二命名结构式中相同的构成要素,确定所述校验工作单位名称与所述标准工作单位名称间的相似度。12.一种计算机设备,其特征在于,包括:存储器,用于存储计算机程序;处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行如权利要求1-10任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1-10任一项所述的方法。
技术总结本申请涉及金融科技(Fintech)领域,公开一种工作单位名称校验方法及装置,对校验工作单位名称和标准工作单位名称分词得到各第一分词和各第二分词;针对各第一分词和各第二分词各自的词性,确定各第一分词在工作单位名称的各构成要素下的第一分类信息及各第二分词在各构成要素下的第二分类信息;基于各构成要素分别对应的标识和第一分类信息确定校验工作单位名称的第一命名结构式,基于各构成要素分别对应的标识和第二分类信息确定标准工作单位名称的第二命名结构式;至少基于第一命名结构式和第二命名结构式中相同的构成要素,确定校验工作单位名称与标准工作单位名称的相似度,由此提升确定用户输入的工作单位名称真假的效率及准确率。假的效率及准确率。假的效率及准确率。
技术研发人员:张慢丽 黄国财 陈政
受保护的技术使用者:深圳前海微众银行股份有限公司
技术研发日:2022.03.17
技术公布日:2022/7/5