CN118116611A

CN118116611A - 基于多源医养大数据融合集成的数据库构建方法

Info

Publication number: CN118116611A
Application number: CN202410532668.4A
Authority: CN
Inventors: 王喆; 邴兆振; 周华; 王晔; 安晶; 隋俊华
Original assignee: Qingdao Guochuang Intelligent Home Appliance Research Institute Co ltd
Current assignee: Qingdao Guochuang Intelligent Home Appliance Research Institute Co ltd
Priority date: 2024-04-30
Filing date: 2024-04-30
Publication date: 2024-05-31
Anticipated expiration: 2044-04-30
Also published as: CN118116611B

Abstract

本发明涉及基于多源医养大数据融合集成的数据库构建方法，包括：获取不同医养数据源中对应同一患者的源数据；使用抽取模板提取源数据中满足预设类别的数据，得到子数据；基于子数据进行分类以及冗余消除，得到第一数据集；对第一数据集进行预处理，得到第二数据集；将第二数据集进行语义分析并基于语义分析结果对第二数据集进行标签标注，得到第一标签集合，其中第一标签集合是至少由两个不同的实体标签组成；基于第一标签集合中的至少部分实体标签，得到唯一标识符集合，其中第一标签集合中的每一个标签均在唯一标识符集合中有相对应的唯一标识符；基于不同数据源对应的唯一标识符集合以及唯一标识符集合对应的第二数据集，得到数据库。

Description

基于多源医养大数据融合集成的数据库构建方法

技术领域

本发明涉及数据库构建技术领域，具体提供一种基于多源医养大数据融合集成的数据库构建方法。

背景技术

随着医疗和养老（简称医养）行业的快速发展，对不同医养机构之间的数据做到互通整合的愿望越来越强烈。

但是现有技术中，由于各医养机构采用不同的信息系统来管理病历和其他相关医疗数据。这导致了不同系统之间的医养数据存在大量的异构性，难以进行有效的数据整合。

相应地，本领域需要一种新的数据库构建方案来解决上述问题。

发明内容

为了克服上述缺陷，提出了本发明，以提供解决或至少部分地解决现有技术中的医养数据整合之中存在大量的异构性的医养数据，难以进行整合的技术问题。

在第一方面，本发明提供一种基于多源医养大数据融合集成的数据库构建方法，所述方法包括：获取不同医养数据源中对应同一患者的源数据；使用抽取模板提取源数据中满足预设类别的数据，得到子数据；基于所述子数据进行分类以及冗余消除，得到第一数据集；对第一数据集进行预处理，得到第二数据集；将所述第二数据集进行语义分析并基于语义分析结果对第二数据集进行标签标注，得到第一标签集合，其中所述第一标签集合是至少由两个不同的实体标签组成；基于所述第一标签集合中的至少部分实体标签，得到唯一标识符集合，其中第一标签集合中的每一个标签均在唯一标识符集合中有相对应的唯一标识符；基于不同数据源对应的唯一标识符集合以及唯一标识符集合对应的第二数据集，得到数据库。

作为以上方案的替代或补充，在根据本发明一实施例的方法中，

作为以上方案的替代或补充，在根据本发明一实施例的方法中，所述，其中所述预设类别包括多个第一类别，“基于所述子数据进行分类以及冗余消除，得到第一数据集”，包括：将所述子数据输入至已训练完毕的抽取神经网络中，得到对应子数据的第二类别，其中所述第二类别为第一类别中的子类；以第二类别的分类对子数据进行聚类，得到多个聚类中心，其中所述聚类中心至少包括一个子数据；将满足预设移除条件的至少一个位于聚类中心处的子数据进行移除，得到第一数据集。

作为以上方案的替代或补充，在根据本发明一实施例的方法中，所述“将至少一个位于聚类中心处的数据点进行移除，得到第一数据集”，包括：至少获取一个聚类中心中两个子数据之间的第一相似度；若所述第一相似度大于预设的第一相似度阈值，则删除两个子数据之中的其中一个子数据。

作为以上方案的替代或补充，在根据本发明一实施例的方法中，所述“将所述第二数据集进行语义分析并基于语义分析结果对第二数据集进行标签标注，得到第一标签集合”，包括：使用自然语义处理技术对所述第二数据集进行语义分析，得到语义分析结果；基于语义分析结果生成对应预设实体标签集中的实体标签；基于所述实体标签，得到第一标签集合。

作为以上方案的替代或补充，在根据本发明一实施例的方法中，所述“对第一数据集进行预处理，得到第二数据集”，包括：从所述第一数据集中提取第二类别下不同子数据的数据结构信息，基于数据结构信息以及相似度匹配算法，得到至少两个数据结构信息之间的第二相似度；若所述第二相似度小于等于预设的第二相似度阈值，则使用提取转换加载工具或者使用数据映射的方式将所述两个数据结构信息对应的子数据进行统一化，使得不同子数据之间的数据结构信息相同。

作为以上方案的替代或补充，在根据本发明一实施例的方法中，所述“基于不同医养数据源的唯一标识符集合，得到数据库”，包括：分别获取不同医养数据源的唯一标识符集合；将所述唯一标识符集合中相同的唯一标识符进行提取，并将相同的唯一标识符对应的在不同源数据之间的实体标签进行关联。

作为以上方案的替代或补充，在根据本发明一实施例的方法中，所述“基于所述第一标签集合中的至少部分实体标签，得到唯一标识符集合”，包括：将所述第一标签集合中的每一个标签进行哈希化，得到对应每一个标签的唯一标识符；基于所述唯一标识符，得到唯一标识符集合。

在第二方面，提供一种控制装置，该控制装置包括处理器和存储装置，所述存储装置适于存储多条计算机程序，所述计算机程序适于由所述处理器加载并运行以执行上述基于多源医养大数据融合集成的数据库构建方法的技术方案中任一项技术方案所述的基于多源医养大数据融合集成的数据库构建方法。

在第三方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条计算机程序，所述计算机程序适于由处理器加载并运行以执行上述基于多源医养大数据融合集成的数据库构建方法的技术方案中任一项技术方案所述的基于多源医养大数据融合集成的数据库构建方法。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

在实施本发明的技术方案中，通过使用抽取模板提取各医养数据源中的关键信息，并进行分类与冗余消除，形成高度优化的第一数据集。并且通过对第一数据集执行深入的语义分析和标签标注，有效地提升了数据的可读性和易处理性。最终，利用生成的唯一标识符集合整合各个医养数据源中的源数据，创建出一个结构化、标准化的数据库。这样的技术效果不仅提高了数据整合的效率和准确性，还增强了不同医养系统之间数据的互联互通能力。

附图说明

参照附图，本发明的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本发明的保护范围组成限制。此外，图中类似的数字用以表示类似的部件，其中：

图1是根据本发明的一个实施例的基于多源医养大数据融合集成的数据库构建方法的主要步骤流程示意图；

图2是根据本发明的一个实施例的基于多源医养大数据融合集成的数据库构建方法的第一类别与第二类别关系的示意图；

图3是根据本发明的一个实施例的基于多源医养大数据融合集成的数据库构建方法的得到同一患者的源数据的示意图；

图4是根据本发明的一个实施例的基于多源医养大数据融合集成的数据库构建方法的得到第一数据集的步骤流程示意图；

图5是根据本发明的一个实施例的基于多源医养大数据融合集成的数据库构建方法的得到第一标签集合的步骤流程示意图。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如计算机程序，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储计算机程序的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

实施例1：

参阅附图1，图1是根据本发明的一个实施例的基于多源医养大数据融合集成的数据库构建方法的主要步骤流程示意图。如图1所示，本发明实施例中的基于多源医养大数据融合集成的数据库构建方法主要包括下列步骤S10-步骤S70。

步骤S10：获取不同医养数据源中对应同一患者的源数据。

一个实施方式中，医养数据源医指集成了医疗和养老（或称护理）服务数据的综合性数据库系统或平台，如图3所示，包括但不限于电子健康记录（EHR）系统、医疗保健机构的数据库、临床试验数据库、公共卫生信息系统等。

源数据则指原始收集的数据。在医养领域中，源数据可能包括患者的个人信息、体检结果、实验室测试结果、病理报告、手术和治疗记录等。这些数据通常存储在不同的医养数据源中，并可能采用不同的格式和标准。在本实施方式中，获取同一患者的源数据。

需要说明的是，不同医养数据源中数据共享性差是有多方面的原因构成的，这些原因同样的阻碍了不同医养数据源中数据的互通，例如各个医养数据源采用的数据记录标准、格式和粒度不同等，这些都会影响不同医养数据源之间数据的共享。为了更好的理解本实施例，此处进行举例说明：

以不同的两家医院，医院A和医院B进行举例说明，两家医院使用不同的电子健康记录系统来记录和管理患者数据，此处不同的电子健康记录系统构成了不同的医养数据源。

表1：某患者分别在医院A和医院B源数据中的部分内容

上述表1为张三（虚拟名称）分别在医院A和医院B的源数据中的部分内容，可以看出。两个医养数据源中对同一病症的称呼不同，一个记为心脏病发作，一个记为心肌梗塞。两个医养数据源中对日期格式上不同，一个采用的是MM/DD/YYYY 格式，一个采用的是，YYYY-MM-DD格式。另外的，可以发现，两个医养数据源中对治疗方案和药物描述的精细度不同。

由上述例子可以直观的理解到，不同的医养数据源中的源数据其数据结构的不同，这些不同会对数据库的构建产生不利的影响。

步骤S20：使用抽取模板提取源数据中满足预设类别的数据，得到子数据。

在本实施例中，抽取模板用于从复杂的数据源中系统地识别和抽取特定信息。

一个实施方式中，抽取模板可以通过算法来实现，在本实施方式中，抽取模板基于预设的数据类别来定义应该提取的数据字段。这些预设类别包括多个第一类别，其中第一类别可能为个人信息、医疗信息、预防保健信息、护理信息或心理健康信息其中的一个。

一个实施方式中，抽取模板包括预处理模块以及抽取机器学习模块。

一个实施方式中，步骤S20包括：

将源数据输入至预处理模块，得到分割数据。

将分割数据输入至抽取机器学习模块中，得到识别结果，其中识别结果中包括属于预设分类以及不属于预设分类。

将源数据中不属于预设分类的分割数据剔除，得到子数据。

其中预处理模块将源数据，例如为一篇病例，进行第一标准化处理，其中第一标准化处理包括根据段落和表格对源数据进行分割，得到分割数据。将分割数据输入至已训练好的抽取机器学习模块中，得到机器学习模块的输出，机器学习的输出分别对应属于预设类别以及不属于预设类别，可以分别表示1和0。那么最后属于预设类别的分割数据将作为子数据，其中一个子数据对应一个分割数据。

一个实施方式中，抽取机器学习模块可以是神经网络模型，抽取机器学习模块的训练需要根据预设类别的标注数据作为正样本，同时也需要负样本，并以此进行训练，从而使抽取机器学习模块能够识别分割数据是不是属于预设类别。

在本实施方式中，通过抽取模板去抽取源数据中满足预设类别的数据。后续中还会对子数据进行分类，打上对应的第二类别。由于第二类别是预设类别中第一类别的子类。所以在使用抽取模板抽取中，其由于分类的数量小于后续进行第二类别分类时的数量，所以使用的算力会大大减少。这也是分为两次去识别分割数据类别的原因。通过这种阶梯式的，先识别是否是预设类别中的第一类别，先一步进行删选数据，之后再识别属于哪一类的第二类别，再进一步的除去冗余数据，这样的方式，不单单对数据进行了精简，同时还减少了对不同医养数据源中的数据进行处理时的压力。

通过这种方法，步骤S20有效地从源数据中提取了有效信息，减少了数据的冗余，为后续处理奠定了基础的同时，减少了后续处理的复杂性。

步骤S30：基于所述子数据进行分类以及冗余消除，得到第一数据集。

在本实施例中，分类是对子数据进行组织和分配的过程，其目的是将子数据按照一定的标准或属性分组，从而便于对每个类别进行特定的数据处理操作。在本实施例中，分类为冗余消除和数据分析提供结构化的框架。

在本实施例中，冗余消除则是指识别和删除数据中的重复项，主要用于避免数据冗余带来的存储浪费和数据处理低效问题。由于源数据的特殊性，相同的患者信息可能因为在一次医疗诊断中访问不同的科室或者其他原因而被重复记录多次。通过有效的冗余消除，可以减少数据存储需求，提高数据处理速度，且使数据分析结果更为准确可靠。

为了理解本实施例，此处举例说明，例如患者张三的某一次就医记录，可能被医院存储了多次。例如其中一份是以患者角度的患者报告书，一份是医生视角的患者诊断书。这两份内容有高度重叠之处，但是也并不是完全相同。但是这两份的就医记录中的重复内容无疑增加了后续在处理中的复杂度。

另一个例子中，同样是同一患者，同一天内在不同医院就诊，由于来自不同医院的病历记录可能在格式和细节描述上有所不同，导致相同的医疗事件也可能被记录多次。

在本实施方式中，尽管在步骤S20中已对源数据进行了基于预设类别的初步筛选和清理，这主要是为了从庞大的数据源中提取出与特定医疗任务相关的数据片段。然而，这一筛选通常只基于广泛的类别标准，并不能处理数据中的重复内容。因此，步骤S30的实施是为了对这些已分类的子数据进行更深入的清理，因为医养数据源中的数据量极其庞大，不同来源的数据在合并为单一数据库时，其复杂性和体量会进一步增加。

一个实施方式中，通过步骤S301-S303，得到第一数据集，如图4所示，具体如下：

步骤S301：将所述子数据输入至已训练完毕的抽取神经网络中，得到对应子数据的第二类别。

在本实施例中，其中所述第二类别为第一类别中的子类。

一个实施方式中，抽取神经网络使用基于文本的卷积神经网络（Text-CNN）。一个实施方式中，抽取神经网络包括嵌入层、卷积层、最大池化层、至少两层全连接层和一个输出层。

其中嵌入层的主要作用是将子数据转换为向量，这些向量能够在多维空间中捕捉和表示单词的语义和语法属性。一个实施方式中，使用预训练的词向量如Word2Vec或GloVe来初始化，以便利用这些模型已经学到的丰富语义。

卷积层使用多个不同大小的过滤器扫描嵌入的词向量，捕捉局部特征，如短语或句子中的特定模式。其中过滤器能够在某种程度上识别文本中的特定信息，这些信息可能是关于情感、句法结构或语义内容的。接着池化层对卷积层的输出进行下采样，通常选择每个特征图中的最大值，以保留最突出的特征，并且减少数据的维度。这一过程有助于减少后续计算的复杂性，并且提高模型的泛化能力。

在通过卷积和池化层处理之后，数据被传递到全连接层。一个实施方式中，使用两个全连接层，两个全连接层负责对前面层（如卷积层和池化层）提取的特征进行进一步的非线性变换和组合。通过两个全连接层的设置，可以增强抽取神经网络的学习能力，增强特征组合并且增加了模型的深度。

最终，输出层根据前面层的处理结果，输出每个子数据属于第二类别的概率。

在本实施方式中，抽取神经网络的应用不仅进行了精确分类，而且为后续步骤中的聚类算法提供了基础。通过精确的分类，聚类算法能够更有效地识别并处理属于同一类别的数据，进而优化数据集的结构和质量。

需要说明的是，第二类别为第一类别中的子类，如图2所示，此处进行举例说明，例如第一类别是个人信息，第二类别可能包括：姓名、年龄、性别、民族、联系方式等。

在本实施例中，第一类别是为了筛选出源数据中的有用信息，第二类别是为了更好的聚类以及进行冗余信息的消除。

步骤S302：以第二类别的分类对子数据进行聚类，得到多个聚类中心。

在本实施例中，聚类中心至少包括一个子数据。

一个实施方式中，通过聚类算法将每个第二类别下的子数据聚集在一起，从而形成多个聚类中心，每个聚类中心至少包括一个子数据。

一个实施方式中，通过第二类别将具有高度相似性的数据点聚集在一起，形成一个个的“聚类中心”。其中一个聚类中心对应了一个第二类别。

在本实施方式中，选择以第二类别为基础进行聚类的理由在于，第二类别是对第一类别的进一步细化。例如，在第一类别为“医疗信息”的基础上，第二类别可能包括“心血管疾病”、“糖尿病”等更具体的医疗条件分类。通过对这些更细化的类别进行聚类，可以确保聚类过程针对性强，并且此时进行冗余信息的消除会更加的准确。

在本实施方式中，聚类有助于后续的数据处理和分析流程更加针对性和高效。

步骤S303：将满足预设移除条件的至少一个位于聚类中心处的子数据进行移除，得到第一数据集。

一个实施方式中，预设移除条件是预设的用于判断是否对子数据进行移除的条件。移除表示删除对应的子数据，但是在移除的过程中需保证一个聚类中心至少保留一个子数据。

一个实施方式中，将移除之后的聚类中心中还保留的子数据进行保留，得到第一数据集。

一个实施方式中，通过步骤S303-1~S303-3进行子数据的移除，具体如下：

步骤S303-1：至少获取一个聚类中心中两个子数据之间的第一相似度。

一个实施方式中，相似度的测定可以采用诸如余弦相似度、欧几里得距离或杰卡德相似度等度量标准。通过计算这些度量标准，可以量化同一个聚类中心中每对子数据之间的相似性，从而为后续的移除决策提供依据。例如，如果使用余弦相似度，该度量将评估一个聚类中心汇总两个数据点在特征空间中的方向相似度，从而确定它们的内容是否足够相似以视为冗余。

步骤S303-2：若所述第一相似度大于预设的第一相似度阈值，则删除两个子数据之中的其中一个子数据。

一个实施方式中，对于步骤S303-1中计算出的第一相似度，将其与预设的相似度阈值进行比较。如果某对子数据的第一相似度超过了这一阈值，表明这两个数据点在内容或特征上高度相似，因此可以认为它们是冗余的。在这种情况下，可以安全地移除其中一个子数据，以减少数据集中的重复信息。此步骤的实施是为了确保数据集的精炼和高效，避免在后续处理中重复分析相同或非常相似的数据，从而减少后续任务的处理复杂度。

步骤S303-3：基于聚类中心中还保留的子数据，得到第一数据集。

一个实施方式中，将保留下来的子数据聚合起来形成第一数据集。这一数据集将包括从每个聚类中心选出的子数据。通过这种方式，每个聚类中心的最典型的数据得以保留，同时去除了过度重复的部分，从而使数据集不仅更加精炼，也更具分析价值。

通过以上步骤，S303确保了通过精确的聚类和经过考量的数据移除，第一数据集能够在保持必要信息的同时，去除不必要的重复，为数据分析和决策提供清晰、可靠的数据基础。

步骤S40：对第一数据集进行预处理，得到第二数据集。

一个实施方式中，通过步骤S401-S403得到第二数据集，具体如下：

步骤S401：从所述第一数据集中提取第二类别下不同子数据的数据结构信息。

一个实施方式中，数据结构信息至少包括：数据的格式、字段类型、字段长度或其他元数据其中的一种，数据结构信息描述了数据的组织和表现形式。例如，如果数据涉及患者信息，其数据结构信息可能包括以及出生日期字段的日期格式（如YYYY-MM-DD或MM/DD/YYYY）。这些信息是理解和操作数据的基础，尤其是在需要跨系统集成或数据迁移时。

在本实施方式中，提取特定于第二类别下的子数据的数据结构信息用于使不同医养数据源中的数据保持一致性。

在本实施方式中，之所以是提取在同一第二类别下的子数据，是因为这些同样为第二类别的子数据通常应该遵循统一的数据结构规范，从而便于后续数据库的建立。例如，在处理医疗信息类别中的子数据时，所有相关的子数据集应该有相同的日期格式和诊断代码格式，这样才能确保在后续的数据处理和分析中能够正确读取和解释这些信息。若数据结构不一致，如日期格式在不同子数据集中不同，则可能导致数据解析错误或数据质量问题。

步骤S402：基于数据结构信息以及相似度匹配算法，得到至少两个数据结构信息之间的第二相似度。

一个实施方式中，第二相似度的计算通常使用一种相似度匹配算法，如余弦相似度、欧几里得距离或杰卡德指数等，目的是量化数据结构的一致性。

在本实施方式中，通过计算第二相似度，可以确定哪些子数据的数据结构需要通过进一步的处理来实现结构上的一致性。

步骤S403：若所述第二相似度小于等于预设的第二相似度阈值，则使用提取转换加载工具或者使用数据映射的方式将所述两个数据结构信息对应的子数据进行统一化，使得不同子数据之间的数据结构信息相同。

一个实施方式中，统一化的目标是使来自不同医养数据源的相同第二类别下子数据拥有相同的数据结构信息，以便于进一步的处理和分析。统一化将子数据从不同格式、标度或范围转换为一致格式，确保所有数据元素对于数据处理和分析系统是一致的。

若第二相似度小于等于预设的阈值，表明这些数据结构差距超过预期，需通过调整来实现完全的一致性。这里使用的工具和技术包括提取转换加载工具或数据映射技术。

一个实施方式中，通过提取转换加载工具完成子数据的统一化，其中提取转换加载（Extract, Transform, Load，ETL）工具，是一种用于数据仓库和数据库管理系统中的工具和技术。ETL工具的核心功能是从多个数据源提取数据，对数据进行必要的清洗和转换处理，然后加载到目标系统中。

在本实施方式中，统一化包括：数据标准化、字段映射以及数据类型转化。其中数据标准化指的是将不同格式的日期、数字或任何其他数据类型转换为统一的格式，例如，将所有日期格式统一为YYYY-MM-DD。字段映射指的是将数据中的字段名称统一化，例如，将“birthdate”和“birth_date”统一为“Date_of_Birth”。字段映射可以将如“心肌梗塞”映射为“心脏病发作”，从而实现名称的统一。数据类型转化确保所有相同的数据类型都遵循同一标准，比如将所有整数字段统一为相同的长度，或者将文本字段的编码统一化。

另一个实施方式中，通过数据映射完成子数据的统一化。其中数据映射创建了数据元素之间的映射关系，这些关系定义了如何从一个数据模型转换到另一个数据模型。在数据映射过程中，子数据如何对应到目标数据模型的字段，包括需要进行哪些转换处理，如计算表达式、连接操作或条件分支等。

具体的，可以通过自定义数据映射工具或编程语言定义映射规则或映射表来实现，将不同结构的子数据映射到统一的标准结构中。

进一步的，本步骤还包括：异常值检测与逻辑规则检测。

在本实施方式中，异常值检测利用统计学方法和机器学习算法来识别数据中的异常值或离群值。一个实施方式中，箱线图提供了一种视觉识别异常值的方法，箱线图通过四分位数和异常值的界限来判定数据点是否为异常。一个实施方式中，Z分数方法则通过计算数据点与平均值的标准差距离来识别异常。一个实施方式中，孤立森林算法通过隔离异常点的特性来检测异常。上述技术不仅帮助识别数据中的异常，还能够指导如何处理这些异常值，无论是通过删除还是通过其他方式调整以确保数据的一致性和可靠性。

在本实施方式中，逻辑规则检测通过定义一系列基于医学规则的逻辑检查来确保数据的合理性。例如，患者的出生日期不应晚于其首次就诊日期，血压值应在生理可能的范围内。这些逻辑规则帮助识别数据集中的不合理数据，并进行必要的校正或剔除。逻辑规则的应用不仅提高了数据的准确性，还确保了数据的医学合理性，对于依赖精确医疗记录的临床研究和患者管理至关重要。

步骤S50：将所述第二数据集进行语义分析并基于语义分析结果对第二数据集进行标签标注，得到第一标签集合。

在本实施例中，第一标签集合是至少由两个不同的实体标签组成。

一个实施方式中，通过提取数据中的关键语义信息来给第二数据集打上标签，并且增强了数据的可访问性和可理解性，从而支持更有效的数据管理和分析。

一个实施方式中，通过步骤S501-S503来得到第一标签集合，如图5所示，具体如下：

步骤S501：使用自然语义处理技术对所述第二数据集进行语义分析，得到语义分析结果。

一个实施方式中，自然语义处理技术包括自然语言处理（NLP）方法。一个实施方式中，使用自然语言处理方法来解析文本数据，识别其中的关键实体、概念及它们之间的关系。在本实施方式中，通过如命名实体识别（NER）、依存语法分析、语义角色标注等，得到语义分析结果。

例如，命名实体识别用于从文本中检测和分类具体的实体，如人名、地点名、医疗术语等。依存语法分析揭示文本中单词之间的依存关系，帮助理解句子结构，而语义角色标注则进一步分析句子中各个实体的行为和相互作用，如谁是行动的发起者，行动的对象是什么，以及相关的时间和地点等。

步骤S502：基于语义分析结果生成对应预设实体标签集中的实体标签。

在本实施例中，预设实体标签集是为第二数据集设置的标签。

一个实施方式中，预先定义的实体标签集可能包括但不限于如“患者姓名”、“治疗方案”、“诊断结果”等。

一个实施方式中，例如，如果语义分析识别出一个句子中提到了“张三”，并确定这是一个患者名字的实体，系统将为这个实体生成一个“患者姓名”标签。同样地，如果识别出“心脏病发作”，并分析其为疾病诊断，相应的标签将是“诊断结果”。这样的处理不仅增加了第二数据集的可读性和可用性，也为后续的数据搜索、排序和分析提供了便利。

在本实施方式中，将原始的文本数据转化为结构化的标签形式，不仅使得数据易于管理和查询，还为使用数据进行机器学习模型训练、数据挖掘和复杂查询提供了基础。

步骤S503：基于所述实体标签，得到第一标签集合。

步骤S60：基于所述第一标签集合中的至少部分实体标签，得到唯一标识符集合。

在本实施例中，其中第一标签集合中的至少部分实体标签在唯一标识符集合中有相对应的唯一标识符。

一个实施方式中，将所述第一标签集合中的预先选择的实体标签进行哈希化，得到对应实体标签的唯一标识符；基于所述唯一标识符，得到唯一标识符集合。

在本实施方式中，通过将第一标签集合中的实体标签转换为唯一的标识符来进一步提升数据的标准化和可追踪性。

在本实施方式中，应用哈希函数完成实体标签的哈希化，哈希函数接收输入（在本例中为实体标签）并返回一个固定长度的字符串，这个字符串即为哈希值。哈希函数的设计确保了即使是微小的输入变化也会产生完全不同的哈希值，而从哈希值不能逆向推导出原始输入，增强了数据的安全性。在医疗数据管理中，使用哈希化来生成唯一标识符能够增强数据的唯一性。

例如，实体标签“患者姓名-John Smith”可以通过哈希函数转化为一个独一无二的代码，如“1a2b3c4d5e”。但是有一部分实体标签如“治疗方案”或“诊断结果”不会被转换成相应的唯一标识符。这样，第一标签集合中的至少部分实体标签都会有一个对应的唯一标识符，这些标识符汇总成唯一标识符集合。其中的至少部分实体标签有哪些是预先设置的。

通过这种方式，第一标签集合中的至少部分实体标签都被赋予了一个唯一标识符，这不仅使得数据集更加安全，还方便了数据的存储、检索和跨系统共享。在数据集成和交换的过程中，唯一标识符起到了桥梁的作用，使不同医养数据源中的相同实体可以被准确识别和关联，大大提高了数据处理的效率和准确性。

步骤S70：基于不同数据源对应的唯一标识符集合以及唯一标识符集合对应的第二数据集，得到数据库。

一个实施方式中，将基于唯一标识符集合及其对应的第二数据集整合，从而形成数据库。

一个实施方式中，唯一标识符不仅反映了数据的来源，也包含了指向具体数据内容的索引，使得数据集之间能够进行整合。例如，如果一个数据源包含患者的医疗记录，而另一个源包含相同患者的实验室测试结果，通过匹配这些数据源中共同的唯一标识符（如患者ID），可以将这些信息整合到单一的数据库记录中。

最终，这个整合后的数据库不仅包括了全面的数据集，还通过唯一标识符提供了一个高度组织的数据访问方式。

进一步的，另一个实施方式中，将第二数据集整合进一个分布式的NoSQL数据库，在本实施方式中，通过数字字典对照和数据管理策略的实施。这些策略确保数据在整个系统中保持一致性，同时提高数据的可访问性和系统性能。

在本实施方式中，数字字典在分布式数据库构建中定义了所有实体数据的意义和格式。该字典将第二数据集中的实体标签映射到特定的术语和定义上。例如，数字字典会明确“患者姓名”、“诊断信息”等标签的具体含义和数据格式，确保在整个数据库中使用这些术语的一致性。

之后，对于第二数据集中的每一个实体，通过查询数字字典，确认每个实体标签对应的标准术语，随后将实体标签映射到这些术语上。

进一步的，第二数据集的实体数据分布于一个由多个物理节点组成的分布式存储系统中。从而使得从任一节点读取或写入数据，并确保在进行读取操作时至少从三个的节点进行数据校验，以保证数据的准确性和一致性。

在本实施方式中，根据数据实体的重要性和访问频率，数据被划分为不同的级别，每个级别具有不同的存储和访问策略。这种分级帮助系统提高对频繁访问数据的访问效率，同时优化系统性能。

数据分区策略允许将大型的数据实体分解为更小、更易管理的单元。每个分区可以在不同的物理或虚拟节点上独立存储和查询，增强了系统的并行处理能力和扩展性。

另一个实施方式中，通过步骤S701-S702得到数据库。

步骤S701：分别获取不同医养数据源的唯一标识符集合。

一个实施方式中，唯一标识符用于标识和追踪源自不同系统的数据实体。

步骤S702：将所述唯一标识符集合中相同的唯一标识符进行提取，并将相同的唯一标识符对应的在不同源数据之间的实体标签进行关联。

一个实施方式中，系统首先筛选出在多个数据源中重复出现的唯一标识符。接着，对于每个重复的唯一标识符，系统将搜集并关联这些标识符对应的实体标签。在本实施方式中，通过将来自不同医养数据源的相同的唯一标识符进行匹配和链接。

例如，如果某个患者在不同的医院进行了治疗，而每个医院的系统都为此患者生成了包含不同详情（如诊断信息、治疗方案等）的记录，系统就会使用患者ID这一唯一标识符来关联这些记录。这样，不仅患者的完整医疗历史能够被整合在一起，还能确保数据的一致性和完整性。

通过这种方式，不仅增强了数据的连贯性和完整性，而且提高了数据处理的效率。数据源之间的实体标签的成功关联使得从不同源融合的数据可以为更广泛的医疗研究和分析提供丰富、多维的信息，支持更复杂的数据查询和分析任务，如患者治疗效果的长期跟踪和评估。这一步骤的执行对于构建一个全面、可靠且具有操作效率的医疗数据库是至关重要的。

进一步的，另一个实施方式中，在步骤S50中对第一标签集合中的实体标签基于语义分析结果，得到对应实体标签的语义网络。其中所述语义网络中以实体标签为节点。数据库中的数据以语义网络的形式进行存储。

在本实施方式中，使用自然语言处理技术来识别实体标签对应子数据的关键信息，并基于这些信息构建节点和边。节点代表实体标签，如患者、医生、症状等，而边则代表节点之间的各种语义关系，如“治疗”、“诊断”或“属于”。

在本实施方式中，通过构建的语义网络允许数据库以非传统的、图形化的方式存储信息，可以增强的查询效率。传统数据库通过标准查询语句访问数据，而基于语义网络的数据库允许使用图查询，在本实施方式中可以直接通过节点和边的关系来快速定位和提取相关数据。同时，相比与传统的数据库使数据关联性得到增强，语义网络自然地表示数据间的连接，使得从一个实体到另一个相关实体的跳转更加直观和简便，极大地增强了数据的内在关联性。并且能够更好的支持复杂分析，因为语义网络的结构适合执行复杂的分析，如路径分析、网络中心性分析等，这些分析在传统数据库结构中难以实现或效率较低。

综上所述，将数据以语义网络的形式进行存储，为数据的管理和应用提供了更高效、更直观和更功能强大的方法。

本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序，所述计算机程序可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机计算机程序的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

进一步，本发明还提供了一种控制装置。在根据本发明的一个控制装置实施例中，控制装置包括处理器和存储装置，存储装置可以被配置成存储执行上述方法实施例的基于多源医养大数据融合集成的数据库构建方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的基于多源医养大数据融合集成的数据库构建方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备。

进一步，本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的基于多源医养大数据融合集成的数据库构建方法的程序，该程序可以由处理器加载并运行以实现上述基于多源医养大数据融合集成的数据库构建方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本发明的装置的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。

本领域技术人员能够理解的是，可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理，因此，拆分或合并之后的技术方案都将落入本发明的保护范围内。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于多源医养大数据融合集成的数据库构建方法，其特征在于，包括：

获取不同医养数据源中对应同一患者的源数据；

使用抽取模板提取所述源数据中满足预设类别的数据，得到子数据；

基于所述子数据进行分类以及冗余消除，得到第一数据集；

对所述第一数据集进行预处理，得到第二数据集；

将所述第二数据集进行语义分析并基于语义分析结果对第二数据集进行标签标注，得到第一标签集合，其中所述第一标签集合是至少由两个不同的实体标签组成；

基于所述第一标签集合中的至少部分实体标签，得到唯一标识符集合，其中所述第一标签集合中的至少部分实体标签在唯一标识符集合中有相对应的唯一标识符；

基于不同数据源对应的所述唯一标识符集合以及所述唯一标识符集合对应的第二数据集，得到数据库。

2.根据权利要求1所述的基于多源医养大数据融合集成的数据库构建方法，其特征在于，所述，其中所述预设类别包括多个第一类别，基于所述子数据进行分类以及冗余消除，得到第一数据集，包括：

将所述子数据输入至已训练完毕的抽取神经网络中，得到对应子数据的第二类别，其中所述第二类别为第一类别中的子类；

以第二类别的分类对子数据进行聚类，得到多个聚类中心，其中所述聚类中心至少包括一个子数据；

将满足预设移除条件的至少一个位于聚类中心处的子数据进行移除，得到第一数据集。

3.根据权利要求2所述的基于多源医养大数据融合集成的数据库构建方法，其特征在于，所述将满足预设移除条件的至少一个位于聚类中心处的子数据进行移除，包括：

至少获取一个聚类中心中两个子数据之间的第一相似度；

若所述第一相似度大于预设的第一相似度阈值，则删除两个子数据之中的其中一个子数据。

4.根据权利要求1-3中任意一项所述的基于多源医养大数据融合集成的数据库构建方法，其特征在于，所述将所述第二数据集进行语义分析并基于语义分析结果对第二数据集进行标签标注，得到第一标签集合，包括：

使用自然语义处理技术对所述第二数据集进行语义分析，得到语义分析结果；

基于所述语义分析结果生成对应预设实体标签集中的实体标签；

基于所述实体标签，得到第一标签集合。

5.根据权利要求2所述的基于多源医养大数据融合集成的数据库构建方法，其特征在于，所述对所述第一数据集进行预处理，得到第二数据集，包括：

从所述第一数据集中提取第二类别下不同子数据的数据结构信息；

基于数据结构信息以及相似度匹配算法，得到至少两个数据结构信息之间的第二相似度；

若所述第二相似度小于等于预设的第二相似度阈值，则将所述两个数据结构信息对应的子数据进行统一化，使得不同子数据之间的数据结构信息相同。

6.根据权利要求1所述的基于多源医养大数据融合集成的数据库构建方法，其特征在于，所述基于不同数据源对应的所述唯一标识符集合以及所述唯一标识符集合对应的第二数据集，得到数据库，包括：

分别获取不同医养数据源的唯一标识符集合；

将所述唯一标识符集合中相同的唯一标识符进行提取，并将相同的唯一标识符对应的在不同源数据之间的实体标签进行关联。

7.根据权利要求1-3中任意一项所述的基于多源医养大数据融合集成的数据库构建方法，其特征在于，所述基于所述第一标签集合中的至少部分实体标签，得到唯一标识符集合，包括：

将所述第一标签集合中的至少部分实体标签进行哈希化，得到对应至少部分实体标签的唯一标识符；

基于所述唯一标识符，得到唯一标识符集合。

8.根据权利要求4所述的基于多源医养大数据融合集成的数据库构建方法，其特征在于，所述方法还包括：

对第一标签集合中的实体标签基于语义分析结果，得到对应实体标签的语义网络，其中所述语义网络中以实体标签为节点。

9.一种控制装置，包括处理器和存储装置，所述存储装置适于存储多条计算机程序，其特征在于，所述计算机程序适于由所述处理器加载并运行以执行权利要求1至8中任一项所述的基于多源医养大数据融合集成的数据库构建方法。

10.一种计算机可读存储介质，其中存储有多条计算机程序，其特征在于，所述计算机程序适于由处理器加载并运行以执行权利要求1至8中任一项所述的基于多源医养大数据融合集成的数据库构建方法。