[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN103473373A - 基于阈值匹配模型的相似度分析系统和方法 - Google Patents

基于阈值匹配模型的相似度分析系统和方法 Download PDF

Info

Publication number
CN103473373A
CN103473373A CN2013104560633A CN201310456063A CN103473373A CN 103473373 A CN103473373 A CN 103473373A CN 2013104560633 A CN2013104560633 A CN 2013104560633A CN 201310456063 A CN201310456063 A CN 201310456063A CN 103473373 A CN103473373 A CN 103473373A
Authority
CN
China
Prior art keywords
records
similarity
threshold
probability
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013104560633A
Other languages
English (en)
Inventor
李登高
张应才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Medical Information Technology Co Ltd Of Beijing University
Original Assignee
Founder International Co Ltd
Founder International Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Founder International Co Ltd, Founder International Beijing Co Ltd filed Critical Founder International Co Ltd
Priority to CN2013104560633A priority Critical patent/CN103473373A/zh
Publication of CN103473373A publication Critical patent/CN103473373A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于阈值匹配模型的相似度分析系统和基于阈值匹配模型的相似度分析方法,其中,基于阈值匹配模型的相似度分析系统包括:获取单元,用于获取匹配对,所述匹配对包含两个记录;处理单元,按照预设规则计算出所述两个记录的相似度;关系确定单元,用于比较所述两个记录的相似度和设定的相似度阈值的大小,根据比较结果确定所述两个记录的关系。根据本发明的技术方案,在大数据量中获取相匹配的记录,并且可确定记录之间的关系,为判断系统分析结果的正确性和可靠性提供依据。

Description

基于阈值匹配模型的相似度分析系统和方法
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种基于阈值匹配模型的相似度分析系统和方法。
背景技术
目前我国医疗信息化是多形态并存并逐步完善,最终的目标达到医疗信息社会化。医疗系统中各系统相互独立,例如门急诊系统、住院、体检系统、影像中心等,部分系统的患者信息数据要求低,录入不完整。各业务系统标准不一致、业务字段不一致、或语言表达差异,从而导致患者信息没有关联,系统间信息独立。患者数据只有部分字段有效,并不能对患者进行唯一性确认,缺失标识。也没有很好的处理方式来确定记录之间的关系,不能确定不同的记录是不是表达同一个对象,即便相同的部分较多,也不能确定是否是同一个对象。
因此,需要一种相似度分析方案,来确定不同的记录是不是表达同一个对象,为判断系统分析结果的正确性和可靠性提供依据。
发明内容
本发明正是基于上述技术问题,提出了一种相似度分析方案,来确定不同的记录是不是表达同一个对象,为判断系统分析结果的正确性和可靠性提供依据。
有鉴于此,根据本发明的一个方面,提出了一种基于阈值匹配模型的相似度分析系统,包括:获取单元,用于获取匹配对,所述匹配对包含两个记录;处理单元,按照预设规则计算出所述两个记录的相似度;关系确定单元,用于比较所述两个记录的相似度和设定的相似度阈值的大小,根据比较结果确定所述两个记录的关系。
在该技术方案中,首先在大数据量中获取初步确定的匹配对,该匹配对具有相似的字段值。在获取匹配对后,需要进一步确定匹配对中两个记录的相似度,根据两个记录的相似度与相似度阈值的大小来确定两个记录的关系。
在上述技术方案中,优选的,每个记录包含一个或多个字段,所述处理单元进一步用于针对所述两个记录的相同字段,计算所述两个记录的相同字段的相似值,根据所述相同字段的相似值确定所述相似度。
由于每个记录可能包含多个字段,因此需要针对每个字段进行比较,计算出两个记录的相同字段对应的字段值之间的相似值,从而根据字段值的相似值来确定记录之间的相似度。
在上述技术方案中,优选的,还可以包括:存储器,保存设置的所述记录的每一字段的匹配概率,所述匹配概率包括正向概率、逆向概率、正向权重和/或逆向权重,所述正向概率是若两个字段匹配,则表示同一个对象的概率,所述逆向概率是若两个字段不匹配,则表示不是一个对象的概率。
预先设置自动的匹配概率,例如若记录的字段包括姓名字段、身份证字段、家庭地址字段,可以设置身份证字段的匹配概率较大,而家庭地址字段的匹配概率较小,这样针对不同的字段,其对应的相似值在记录的最终相似度中所占的比重是不一样的,可提高相似度的准确性。
在上述技术方案中,优选的,所述处理单元进一步用于基于所述匹配概率计算出所述相同字段的相似值,在所述两个记录具有多个相同字段时,将各相同字段的对应相似值之和作为所述两个记录的相似度。
在计算出不同字段的相似值之后,可将所有字段的相似值相加得到两个记录之间最终的相似度值。当然也可以是其他处理方式例如相乘得到最终的相似度值。
在上述任一技术方案中,优选的,所述相似度阈值包括第一阈值和第二阈值,所述第一阈值大于所述第二阈值;所述关系确定单元进一步用于在所述两个记录的相似度大于等于所述第一阈值时,确定所述两个记录的关系为匹配关系并生成用于关联所述两个记录的唯一标识,在所述两个记录的相似度小于所述第一阈值且大于所述第二阈值时,确定所述两个记录的关系为疑似关系,以及在所述两个记录的相似度小于等于所述第二阈值时,确定所述两个记录的关系为不匹配关系。
为相似度设置两个界限,第一阈值即高界限,第二阈值即低界限。若计算出的相似度高于第一阈值,说明这两个记录表示同一个对象的可能性非常大,那么可确定这两个记录是匹配关系;若计算出的相似度在高界限与低界限之间,那么说明这两个记录可能表示同一个对象,可能性不是很大,需要进行人工确定这两个记录是否表示同一个对象;若计算出的相似度在低于低界限,那么说明这两个记录不可能表示同一个对象,可确定这两个记录不是匹配关系。
根据本发明的另一方面,还提供了一种基于阈值匹配模型的相似度分析方法,包括:获取匹配对,所述匹配对包含两个记录;按照预设规则计算出所述两个记录的相似度;比较所述两个记录的相似度和设定的相似度阈值的大小,根据比较结果确定所述两个记录的关系。
在该技术方案中,首先在大数据量中获取初步确定的匹配对,该匹配对具有相似的字段值。在获取匹配对后,需要进一步确定匹配对中两个记录的相似度,根据两个记录的相似度与相似度阈值的大小来确定两个记录的关系。
在上述技术方案中,优选的,按照预设规则计算出所述两个记录的相似度的步骤具体包括:每个记录包含一个或多个字段,针对所述两个记录的相同字段,计算所述两个记录的相同字段的相似值,根据所述相同字段的相似值确定所述相似度。
由于每个记录可能包含多个字段,因此需要针对每个字段进行比较,计算出两个记录的相同字段对应的字段值之间的相似值,从而根据字段值的相似值来确定记录之间的相似度。
在上述技术方案中,优选的,还可以包括:保存设置的所述记录的每一字段的匹配概率,所述匹配概率包括正向概率、逆向概率、正向权重和/或逆向权重,所述正向概率是若两个字段匹配,则表示同一个对象的概率,所述逆向概率是若两个字段不匹配,则表示不是一个对象的概率。
预先设置自动的匹配概率,例如若记录的字段包括姓名字段、身份证字段、家庭地址字段,可以设置身份证字段的匹配概率较大,而家庭地址字段的匹配概率较小,这样针对不同的字段,其对应的相似值在记录的最终相似度中所占的比重是不一样的,可提高相似度的准确性。
在上述技术方案中,优选的,基于所述匹配概率计算出所述相同字段的相似值;在所述两个记录具有多个相同字段时,将各相同字段的对应相似值之和作为所述两个记录的相似度。
在计算出不同字段的相似值之后,可将所有字段的相似值相加得到两个记录之间最终的相似度值。当然也可以是其他处理方式例如相乘得到最终的相似度值。
在上述任一技术方案中,优选的,所述相似度阈值包括第一阈值和第二阈值,所述第一阈值大于所述第二阈值;在所述两个记录的相似度大于等于所述第一阈值时,确定所述两个记录的关系为匹配关系并生成用于关联所述两个记录的唯一标识,在所述两个记录的相似度小于所述第一阈值且大于所述第二阈值时,确定所述两个记录的关系为疑似关系,以及在所述两个记录的相似度小于等于所述第二阈值时,确定所述两个记录的关系为不匹配关系。
为相似度设置两个界限,第一阈值即高界限,第二阈值即低界限。若计算出的相似度高于第一阈值,说明这两个记录表示同一个对象的可能性非常大,那么可确定这两个记录是匹配关系;若计算出的相似度在高界限与低界限之间,那么说明这两个记录可能表示同一个对象,可能性不是很大,需要进行人工确定这两个记录是否表示同一个对象;若计算出的相似度在低于低界限,那么说明这两个记录不可能表示同一个对象,可确定这两个记录不是匹配关系。
附图说明
图1示出了根据本发明的实施例的基于阈值匹配模型的相似度分析系统的框图;
图2示出了根据本发明的实施例的基于阈值匹配模型的相似度分析方法的流程图;
图3示出了根据本发明的实施例的基于相似度确定记录之间的关系的示意图;
图4示出了根据本发明的实施例的基于阈值匹配模型的相似度分析方法的流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的基于阈值匹配模型的相似度分析系统的框图。
如图1所示,根据本发明的实施例的基于阈值匹配模型的相似度分析系统100,包括:获取单元102,用于获取匹配对,所述匹配对包含两个记录;处理单元104,按照预设规则计算出所述两个记录的相似度;关系确定单元106,用于比较所述两个记录的相似度和设定的相似度阈值的大小,根据比较结果确定所述两个记录的关系。
在该技术方案中,首先在大数据量中获取初步确定的匹配对,该匹配对具有相似的字段值。在获取匹配对后,需要进一步确定匹配对中两个记录的相似度,根据两个记录的相似度与相似度阈值的大小来确定两个记录的关系。
在上述技术方案中,优选的,每个记录包含一个或多个字段,所述处理单元进一步用于针对所述两个记录的相同字段,计算所述两个记录的相同字段的相似值,根据所述相同字段的相似值确定所述相似度。
由于每个记录可能包含多个字段,因此需要针对每个字段进行比较,计算出两个记录的相同字段对应的字段值之间的相似值,从而根据字段值的相似值来确定记录之间的相似度。
在上述技术方案中,优选的,还可以包括:存储器108,保存设置的所述记录的每一字段的匹配概率,所述匹配概率包括正向概率、逆向概率、正向权重和/或逆向权重,所述正向概率是若两个字段匹配,则表示同一个对象的概率,所述逆向概率是若两个字段不匹配,则表示不是一个对象的概率。
预先设置自动的匹配概率,例如若记录的字段包括姓名字段、身份证字段、家庭地址字段,可以设置身份证字段的匹配概率较大,而家庭地址字段的匹配概率较小,这样针对不同的字段,其对应的相似值在记录的最终相似度中所占的比重是不一样的,可提高相似度的准确性。
在上述技术方案中,优选的,所述处理单元104进一步用于基于所述匹配概率计算出所述相同字段的相似值,在所述两个记录具有多个相同字段时,将各相同字段的对应相似值之和作为所述两个记录的相似度。
在计算出不同字段的相似值之后,可将所有字段的相似值相加得到两个记录之间最终的相似度值。当然也可以是其他处理方式例如相乘得到最终的相似度值。
举例:假设一匹配对信息如表1所示,
ID 性别 B C D
1 a1 b1 c1 d1
2 a2 b2 c2 d2
表1
正向概率即,两个字段匹配的情况下,匹配对是匹配的概率;
逆向概率即,两个字段不匹配的情况下,匹配对不匹配的概率;
以性别为例,性别的正向概率权重即:性别相同的情况下是同一个人的概率,一般比较低如0.2;
性别的逆向概率权重即,性别不相同的情况下匹配对不是一人的概率,一般比较高,如0.87
计算过程中,如果性别判定为相似则性别字段匹配分值为X*0.2,如果性别判定为不匹配,则性别字段的匹配分值为-X*0.87;
正向概率与逆向概率的目的是放大字段匹配振幅。
在上述任一技术方案中,优选的,所述相似度阈值包括第一阈值和第二阈值,所述第一阈值大于所述第二阈值;所述关系确定单元106进一步用于在所述两个记录的相似度大于等于所述第一阈值时,确定所述两个记录的关系为匹配关系并生成用于关联所述两个记录的唯一标识,在所述两个记录的相似度小于所述第一阈值且大于所述第二阈值时,确定所述两个记录的关系为疑似关系,以及在所述两个记录的相似度小于等于所述第二阈值时,确定所述两个记录的关系为不匹配关系。
为相似度设置两个界限,第一阈值即高界限,第二阈值即低界限。若计算出的相似度高于第一阈值,说明这两个记录表示同一个对象的可能性非常大,那么可确定这两个记录是匹配关系;若计算出的相似度在高界限与低界限之间,那么说明这两个记录可能表示同一个对象,可能性不是很大,需要进行人工确定这两个记录是否表示同一个对象;若计算出的相似度在低于低界限,那么说明这两个记录不可能表示同一个对象,可确定这两个记录不是匹配关系。
图2示出了根据本发明的实施例的基于阈值匹配模型的相似度分析方法的流程图。
如图2所示,根据本发明的实施例的基于阈值匹配模型的相似度分析方法,可以包括以下步骤:步骤202,获取匹配对,所述匹配对包含两个记录;步骤204,按照预设规则计算出所述两个记录的相似度;步骤206,比较所述两个记录的相似度和设定的相似度阈值的大小,根据比较结果确定所述两个记录的关系。
在该技术方案中,首先在大数据量中获取初步确定的匹配对,该匹配对具有相似的字段值。在获取匹配对后,需要进一步确定匹配对中两个记录的相似度,根据两个记录的相似度与相似度阈值的大小来确定两个记录的关系。
在上述技术方案中,优选的,按照预设规则计算出所述两个记录的相似度的步骤具体包括:每个记录包含一个或多个字段,针对所述两个记录的相同字段,计算所述两个记录的相同字段的相似值,根据所述相同字段的相似值确定所述相似度。
由于每个记录可能包含多个字段,因此需要针对每个字段进行比较,计算出两个记录的相同字段对应的字段值之间的相似值,从而根据字段值的相似值来确定记录之间的相似度。
在上述技术方案中,优选的,还可以包括:保存设置的所述记录的每一字段的匹配概率,所述匹配概率包括正向概率、逆向概率、正向权重和/或逆向权重,所述正向概率是若两个字段匹配,则表示同一个对象的概率,所述逆向概率是若两个字段不匹配,则表示不是一个对象的概率。
预先设置自动的匹配概率,例如若记录的字段包括姓名字段、身份证字段、家庭地址字段,可以设置身份证字段的匹配概率较大,而家庭地址字段的匹配概率较小,这样针对不同的字段,其对应的相似值在记录的最终相似度中所占的比重是不一样的,可提高相似度的准确性。
在上述技术方案中,优选的,基于所述匹配概率计算出所述相同字段的相似值;在所述两个记录具有多个相同字段时,将各相同字段的对应相似值之和作为所述两个记录的相似度。
在计算出不同字段的相似值之后,可将所有字段的相似值相加得到两个记录之间最终的相似度值。当然也可以是其他处理方式例如相乘得到最终的相似度值。
在上述任一技术方案中,优选的,所述相似度阈值包括第一阈值和第二阈值,所述第一阈值大于所述第二阈值;在所述两个记录的相似度大于等于所述第一阈值时,确定所述两个记录的关系为匹配关系并生成用于关联所述两个记录的唯一标识,在所述两个记录的相似度小于所述第一阈值且大于所述第二阈值时,确定所述两个记录的关系为疑似关系,以及在所述两个记录的相似度小于等于所述第二阈值时,确定所述两个记录的关系为不匹配关系。
为相似度设置两个界限,第一阈值即高界限,第二阈值即低界限。若计算出的相似度高于第一阈值,说明这两个记录表示同一个对象的可能性非常大,那么可确定这两个记录是匹配关系;若计算出的相似度在高界限与低界限之间,那么说明这两个记录可能表示同一个对象,可能性不是很大,需要进行人工确定这两个记录是否表示同一个对象;若计算出的相似度在低于低界限,那么说明这两个记录不可能表示同一个对象,可确定这两个记录不是匹配关系。
下面结合图3来详细说明根据本发明的相似度分析方法。
在本示例中,记录1和记录2是一个匹配对,记录1和记录2均包括姓名字段和身份证字段,需要计算出记录1和记录2的相似度,基于相似度确定记录1和记录2是否匹配,即确定记录1与记录2的关系,这两个记录是否是同一人的信息。
预设姓名字段的正向概率为0.8,正向权重是1.1,名字字段的逆向概率是0.2,逆向权重是0.3,预设身份证字段的正向概率是0.92,正向权重是2.1,逆向概率是0.08,逆向权重是0.1。预设相似度阈值m和n,其中m是高界限,n是低界限。
按照相似计算公式和设置相应字段的概率值计算出姓名字段的相似值A,以及身份证的相似值B,将名字字段的相似值与身份证的字段相似值相加,得到记录1和记录2的最终相似度。
判断计算出的两个记录的相似度与两个相似度阈值的大小,根据判断结果确定两个记录的关系,若相似度大于m,则确定两个记录的关系为匹配关系,若相似度处于m和n之间,则确定两个记录的关系为疑似关系,若相似度小于n,则确定两个记录的关系为不匹配关系。
在两个记录的关系为疑似关系时,需要人工判断这两个记录是否是同一个人,不匹配关系则不作处理。
接下来结合图4详细说明根据本发明的相似度分析方法的步骤。
如图4所示,在步骤402,设置字段比较的算法,设置相似度阈值,以及相应字段的匹配概率,匹配概率包括正向概率,正向权重,逆向概率,逆向权重。正向概率表示,如果两个字段匹配,是一个人的概率,逆向概率表示,如果两个字段不匹配,是一个人的概率。
在步骤404,在记录匹配相似计算中,先根据预设公式计算字段是否相似,若相似,则相似值为正值,若不相似,则相似值为负值。
通过记录匹配公式计算有字段得出的两条记录的相似度,例如将所有字段的相似值相加得到。
在步骤406,根据设定的相似度阈值判断两条记录的关系。
若相似度大于高界限,则确定两个记录的关系为匹配关系,若相似度处于高界限和低界限之间,则确定两个记录的关系为疑似关系,若相似度小于低界限,则确定两个记录的关系为不匹配关系。若匹配,则为这两条记录生成唯一标识,对这两条记录进行关联;若疑似,则进入疑似表中待人工判断,不匹配则不作处理。
以上结合附图详细说明了本发明的技术方案,在大量数据中初步获取匹配对,根据相应字段的匹配概率计算出匹配对中两条记录的相似度,根据设置的相似度阈值,判断这两条记录的匹配关系,从而确定两条记录是否表达同一对象。可通过业务场景和实际测量分析进行阈值或匹配概率的调整,从而获取预期结果和管理服务器的主数据库的配置值,更加客观地调整配置值与预期结果的关系,也为判断系统分析结果的正确性和可靠性提供依据。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于阈值匹配模型的相似度分析系统,其特征在于,包括:
获取单元,用于获取匹配对,所述匹配对包含两个记录;
处理单元,按照预设规则计算出所述两个记录的相似度;
关系确定单元,用于比较所述两个记录的相似度和设定的相似度阈值的大小,根据比较结果确定所述两个记录的关系。
2.根据权利要求1所述的基于阈值匹配模型的相似度分析系统,其特征在于,每个记录包含一个或多个字段,所述处理单元进一步用于针对所述两个记录的相同字段,计算所述两个记录的相同字段的相似值,根据所述相同字段的相似值确定所述相似度。
3.根据权利要求2所述的基于阈值匹配模型的相似度分析系统,其特征在于,还包括:存储器,保存设置的所述记录的每一字段的匹配概率,所述匹配概率包括正向概率、逆向概率、正向权重和/或逆向权重,所述正向概率是若两个字段匹配,则表示同一个对象的概率,所述逆向概率是若两个字段不匹配,则表示不是一个对象的概率。
4.根据权利要求3所述的基于阈值匹配模型的相似度分析系统,其特征在于,所述处理单元进一步用于基于所述匹配概率计算出所述相同字段的相似值,在所述两个记录具有多个相同字段时,将各相同字段的对应相似值之和作为所述两个记录的相似度。
5.根据权利要求1至4中任一项所述的基于阈值匹配模型的相似度分析系统,其特征在于,所述相似度阈值包括第一阈值和第二阈值,所述第一阈值大于所述第二阈值;
所述关系确定单元进一步用于在所述两个记录的相似度大于等于所述第一阈值时,确定所述两个记录的关系为匹配关系并生成用于关联所述两个记录的唯一标识,在所述两个记录的相似度小于所述第一阈值且大于所述第二阈值时,确定所述两个记录的关系为疑似关系,以及在所述两个记录的相似度小于等于所述第二阈值时,确定所述两个记录的关系为不匹配关系。
6.一种基于阈值匹配模型的相似度分析方法,其特征在于,包括:
获取匹配对,所述匹配对包含两个记录;
按照预设规则计算出所述两个记录的相似度;
比较所述两个记录的相似度和设定的相似度阈值的大小,根据比较结果确定所述两个记录的关系。
7.根据权利要求6所述的基于阈值匹配模型的相似度分析方法,其特征在于,按照预设规则计算出所述两个记录的相似度的步骤具体包括:每个记录包含一个或多个字段,针对所述两个记录的相同字段,计算所述两个记录的相同字段的相似值,根据所述相同字段的相似值确定所述相似度。
8.根据权利要求7所述的基于阈值匹配模型的相似度分析方法,其特征在于,还包括:保存设置的所述记录的每一字段的匹配概率,所述匹配概率包括正向概率、逆向概率、正向权重和/或逆向权重,所述正向概率是若两个字段匹配,则表示同一个对象的概率,所述逆向概率是若两个字段不匹配,则表示不是一个对象的概率。
9.根据权利要求8所述的基于阈值匹配模型的相似度分析方法,其特征在于,基于所述匹配概率计算出所述相同字段的相似值;
在所述两个记录具有多个相同字段时,将各相同字段的对应相似值之和作为所述两个记录的相似度。
10.根据权利要求6至8中任一项所述的基于阈值匹配模型的相似度分析方法,其特征在于,所述相似度阈值包括第一阈值和第二阈值,所述第一阈值大于所述第二阈值;
在所述两个记录的相似度大于等于所述第一阈值时,确定所述两个记录的关系为匹配关系并生成用于关联所述两个记录的唯一标识,在所述两个记录的相似度小于所述第一阈值且大于所述第二阈值时,确定所述两个记录的关系为疑似关系,以及在所述两个记录的相似度小于等于所述第二阈值时,确定所述两个记录的关系为不匹配关系。
CN2013104560633A 2013-09-29 2013-09-29 基于阈值匹配模型的相似度分析系统和方法 Pending CN103473373A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013104560633A CN103473373A (zh) 2013-09-29 2013-09-29 基于阈值匹配模型的相似度分析系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013104560633A CN103473373A (zh) 2013-09-29 2013-09-29 基于阈值匹配模型的相似度分析系统和方法

Publications (1)

Publication Number Publication Date
CN103473373A true CN103473373A (zh) 2013-12-25

Family

ID=49798221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013104560633A Pending CN103473373A (zh) 2013-09-29 2013-09-29 基于阈值匹配模型的相似度分析系统和方法

Country Status (1)

Country Link
CN (1) CN103473373A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809141A (zh) * 2014-01-29 2015-07-29 携程计算机技术(上海)有限公司 酒店数据的匹配系统及方法
CN106327426A (zh) * 2016-08-19 2017-01-11 携程计算机技术(上海)有限公司 图像去重方法及系统
CN106464706A (zh) * 2014-04-18 2017-02-22 意大利电信股份公司 用于通过可从电信网络获得的数据识别显著地点的方法和系统
CN106681524A (zh) * 2015-11-10 2017-05-17 阿里巴巴集团控股有限公司 一种信息处理的方法及装置
WO2017113886A1 (zh) * 2015-12-30 2017-07-06 华为技术有限公司 数据清理方法及装置
CN107103048A (zh) * 2017-03-31 2017-08-29 苏州艾隆信息技术有限公司 药品信息匹配方法及系统
CN107193860A (zh) * 2017-03-31 2017-09-22 苏州艾隆信息技术有限公司 药品信息多维识别方法及系统
CN107203686A (zh) * 2017-03-31 2017-09-26 苏州艾隆信息技术有限公司 药品信息差异处理方法及系统
CN107391980A (zh) * 2017-07-17 2017-11-24 上海众人网络安全技术有限公司 一种基于设备数据的登录验证方法、装置、设备及存储介质
CN107807996A (zh) * 2017-11-08 2018-03-16 江苏国泰新点软件有限公司 多数据源多维度数据匹配的方法、装置、设备和存储介质
WO2019013998A1 (en) * 2017-07-10 2019-01-17 General Electric Company METHOD AND SYSTEM FOR DEEP LEARNING WITH AUTOMATIC POWER SUPPLY
CN111191430A (zh) * 2019-12-27 2020-05-22 中国平安财产保险股份有限公司 自动建表方法、装置、计算机设备和存储介质
CN113406125A (zh) * 2021-05-08 2021-09-17 瑞浦能源有限公司 超声波焊接检验工艺方法及系统
CN113434584A (zh) * 2021-06-28 2021-09-24 国网北京市电力公司 电力设备数据处理方法、装置及电子设备
CN116757189A (zh) * 2023-08-11 2023-09-15 四川互慧软件有限公司 一种基于汉字特征的患者姓名消歧方法
US20230317220A1 (en) * 2022-03-31 2023-10-05 Change Healthcare Holdings, Llc Systems and methods for using person controlled identifiers

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5778363A (en) * 1996-12-30 1998-07-07 Intel Corporation Method for measuring thresholded relevance of a document to a specified topic
CN101739414A (zh) * 2008-11-25 2010-06-16 华中师范大学 一种本体概念映射方法
CN103257961A (zh) * 2012-02-15 2013-08-21 北大方正集团有限公司 书目消重的方法、装置及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5778363A (en) * 1996-12-30 1998-07-07 Intel Corporation Method for measuring thresholded relevance of a document to a specified topic
CN101739414A (zh) * 2008-11-25 2010-06-16 华中师范大学 一种本体概念映射方法
CN103257961A (zh) * 2012-02-15 2013-08-21 北大方正集团有限公司 书目消重的方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
洪圆 等: "一种使用双阈值的数据仓库环境下重复记录消除算法", 《计算机工程与应用》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809141A (zh) * 2014-01-29 2015-07-29 携程计算机技术(上海)有限公司 酒店数据的匹配系统及方法
CN106464706A (zh) * 2014-04-18 2017-02-22 意大利电信股份公司 用于通过可从电信网络获得的数据识别显著地点的方法和系统
CN106464706B (zh) * 2014-04-18 2019-08-20 意大利电信股份公司 用于通过可从电信网络获得的数据识别显著地点的方法和系统
CN106681524A (zh) * 2015-11-10 2017-05-17 阿里巴巴集团控股有限公司 一种信息处理的方法及装置
CN106933863B (zh) * 2015-12-30 2019-04-19 华为技术有限公司 数据清理方法及装置
WO2017113886A1 (zh) * 2015-12-30 2017-07-06 华为技术有限公司 数据清理方法及装置
CN106933863A (zh) * 2015-12-30 2017-07-07 华为技术有限公司 数据清理方法及装置
CN106327426A (zh) * 2016-08-19 2017-01-11 携程计算机技术(上海)有限公司 图像去重方法及系统
CN107103048A (zh) * 2017-03-31 2017-08-29 苏州艾隆信息技术有限公司 药品信息匹配方法及系统
CN107193860B (zh) * 2017-03-31 2021-03-02 苏州艾隆信息技术有限公司 药品信息多维识别方法及系统
CN107103048B (zh) * 2017-03-31 2021-04-20 苏州艾隆信息技术有限公司 药品信息匹配方法及系统
CN107193860A (zh) * 2017-03-31 2017-09-22 苏州艾隆信息技术有限公司 药品信息多维识别方法及系统
CN107203686A (zh) * 2017-03-31 2017-09-26 苏州艾隆信息技术有限公司 药品信息差异处理方法及系统
CN110869942B (zh) * 2017-07-10 2023-05-09 通用电气公司 自馈深度学习方法和系统
CN110869942A (zh) * 2017-07-10 2020-03-06 通用电气公司 自馈深度学习方法和系统
US11657316B2 (en) 2017-07-10 2023-05-23 General Electric Company Self-feeding deep learning method and system
WO2019013998A1 (en) * 2017-07-10 2019-01-17 General Electric Company METHOD AND SYSTEM FOR DEEP LEARNING WITH AUTOMATIC POWER SUPPLY
CN107391980B (zh) * 2017-07-17 2020-09-29 上海众人网络安全技术有限公司 一种基于设备数据的登录验证方法、装置、设备及存储介质
CN107391980A (zh) * 2017-07-17 2017-11-24 上海众人网络安全技术有限公司 一种基于设备数据的登录验证方法、装置、设备及存储介质
CN107807996A (zh) * 2017-11-08 2018-03-16 江苏国泰新点软件有限公司 多数据源多维度数据匹配的方法、装置、设备和存储介质
CN111191430A (zh) * 2019-12-27 2020-05-22 中国平安财产保险股份有限公司 自动建表方法、装置、计算机设备和存储介质
CN113406125A (zh) * 2021-05-08 2021-09-17 瑞浦能源有限公司 超声波焊接检验工艺方法及系统
CN113434584A (zh) * 2021-06-28 2021-09-24 国网北京市电力公司 电力设备数据处理方法、装置及电子设备
CN113434584B (zh) * 2021-06-28 2022-10-14 国网北京市电力公司 电力设备数据处理方法、装置及电子设备
US20230317220A1 (en) * 2022-03-31 2023-10-05 Change Healthcare Holdings, Llc Systems and methods for using person controlled identifiers
CN116757189A (zh) * 2023-08-11 2023-09-15 四川互慧软件有限公司 一种基于汉字特征的患者姓名消歧方法
CN116757189B (zh) * 2023-08-11 2023-10-31 四川互慧软件有限公司 一种基于汉字特征的患者姓名消歧方法

Similar Documents

Publication Publication Date Title
CN103473373A (zh) 基于阈值匹配模型的相似度分析系统和方法
CN103530334B (zh) 基于比较模板的数据匹配系统和方法
JP5923307B2 (ja) 分散化された自律的医療環境におけるアサーションベースレコードリンケージ
Ridgeon et al. Effect sizes in ongoing randomized controlled critical care trials
CN103473375A (zh) 数据清洗系统和数据清洗方法
CN109446844B (zh) 一种面向大数据发布的隐私保护方法及系统
KR20190113924A (ko) 채점 모델을 구축하고 사용자 신용을 평가하기 위한 방법 및 디바이스
US10820296B2 (en) Generating wireless network access point models using clustering techniques
WO2019042196A1 (zh) 一种人体目标轨迹确定方法及装置
CN101727535A (zh) 一种跨系统患者交叉索引方法及其系统
CN109524065B (zh) 医疗数据查询方法、医疗数据平台及相关装置
CN105654201B (zh) 一种广告流量预测方法及装置
CN107203686B (zh) 药品信息差异处理方法及系统
CN112883157A (zh) 一种多源异构医疗数据的标准化方法及装置
CN112634246B (zh) 一种口腔图像识别方法及相关设备
CN113111063A (zh) 一种应用于多数据源的医疗患者主索引发现方法
CN111640517B (zh) 病历编码方法、装置、存储介质及电子设备
CN106980749B (zh) 疾病的快速辅助定位方法
CN105808735B (zh) 一种数据处理的方法及装置
CN110008972B (zh) 用于数据增强的方法和装置
US10621155B2 (en) Method and apparatus for data integration
CN112347088B (zh) 一种数据可信度优化方法、存储介质和设备
EP3114596B1 (en) Electronic methods and systems for microorganism characterization
TW201928739A (zh) 氣味與行為的關聯方法、氣味社交方法及裝置
CN111209284B (zh) 基于元数据的分表方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Free format text: FORMER OWNER: FOUNDER INTERNATIONAL (BEIJING) CO., LTD.

Effective date: 20150203

Owner name: PKU HEALTHCARE IT CO., LTD.

Free format text: FORMER OWNER: FOUNDER INTERNATIONAL CO., LTD.

Effective date: 20150203

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 215123 SUZHOU, JIANGSU PROVINCE TO: 100080 HAIDIAN, BEIJING

TA01 Transfer of patent application right

Effective date of registration: 20150203

Address after: 100080, No. 19, No. 52 West Fourth Ring Road, Beijing, Haidian District

Applicant after: Medical information Technology Co., Ltd. of Beijing University

Address before: Suzhou City, Jiangsu Province, Suzhou Industrial Park 215123 Xinghu Street No. 328 Creative Industry Park founder International Building

Applicant before: Founder International Co., Ltd.

Applicant before: Founder international software (Beijing) Co., Ltd.

RJ01 Rejection of invention patent application after publication

Application publication date: 20131225

RJ01 Rejection of invention patent application after publication