CN118133231B

CN118133231B - 一种多模态数据处理方法和处理系统

Info

Publication number: CN118133231B
Application number: CN202410571536.2A
Authority: CN
Inventors: 李万豪; 李万灿; 刘佳; 巫家敏; 李万博; 窦军华; 杨瞿瑞; 王胡兵; 张永刚; 袁小龙
Original assignee: Chengdu Fanchen Technology Co ltd
Current assignee: Chengdu Fanchen Technology Co ltd
Priority date: 2024-05-10
Filing date: 2024-05-10
Publication date: 2024-07-16
Anticipated expiration: 2044-05-10
Also published as: CN118133231A

Abstract

本发明提供一种多模态数据处理方法和处理系统，属于数据处理技术领域，通过获取待处理数据，并对待处理数据进行模态分类，得到至少一种模态类别的模态数据；基于各模态数据的模态类别，将各模态数据对应输入预设的处理层进行特征提取，得到特征表示；利用预设的融合层合并各模态数据的特征表示，得到融合特征；将融合特征输入到预先训练好的分类器进行分类，输出待处理数据的确定性标签，本发明将多模态数据分为不同的层次，每个层次上的处理模型都是独立训练的，多模态数据不会在不同的层次间直接共享，减少了数据泄露的风险，不同层次的特征表示被合并，形成融合特征，既保留了各模态数据的特性，又充分利用了它们之间的内在联系。

Description

一种多模态数据处理方法和处理系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种多模态数据处理方法和处理系统。

背景技术

随着信息技术的飞速发展，多模态数据处理技术已成为人工智能领域的研究热点。多模态数据，如文本、图像、音频和视频等，广泛存在于我们的日常生活中，并且能够提供丰富的信息。

传统的多模态数据处理方法往往采用简单的特征拼接或加权融合的方式，这种方法忽略了不同模态数据之间的内在联系和差异性，导致处理效果不佳。此外，传统的方法还存在数据泄露的风险，因为不同层次的数据直接共享可能导致信息泄露，从而影响数据的安全性和隐私性。

因此，有必要提供一种多模态数据处理方法和处理系统解决上述技术问题。

发明内容

为解决上述技术问题，本发明提供一种多模态数据处理方法和处理系统，不仅能够有效地融合不同模态的数据，提高信息处理的准确性和效率，还能够保护数据的安全性和隐私性，具有重要的实际应用价值。

本发明提供的一种多模态数据处理方法，处理方法包括以下步骤：

获取待处理数据，并对所述待处理数据进行模态分类，得到至少一种模态类别的模态数据；

基于各模态数据的模态类别，将各模态数据对应输入预设的处理层进行特征提取，得到与各模态数据对应的特征表示，其中，每个所述处理层预定义有匹配于模态类别的处理模型；

利用预设的融合层合并各模态数据的特征表示，得到融合特征，其中，所述融合层预定义有通过设定方法训练的神经网络融合模型；

将所述融合特征输入到预先训练好的分类器进行分类，输出所述待处理数据的确定性标签，其中，所述分类器预定义有从融合特征到确定性标签之间的映射关系。

优选的，所述获取待处理数据，并对所述待处理数据进行模态分类，得到至少一种模态类别的模态数据，具体为：

利用预设的规则库对所述待处理数据进行模态分类，其中，所述规则库的分类依据包括文件属性规则、内容特征规则和标签映射规则中的一种或者多种组合。

优选的，所述基于各模态数据的模态类别，将各模态数据对应输入预设的处理层进行特征提取，得到与各模态数据对应的特征表示，其中，每个所述处理层预定义有匹配于模态类别的处理模型，包括：

根据各模态数据的模态类别，选定具有匹配的处理模型的处理层；

使用选定的所述处理层匹配的处理模型对各模态数据进行特征提取，得到局部特征和全局特征；

将各模态数据的所述局部特征投影到由所述全局特征定义的向量空间中；

计算各模态数据的局部特征与其在全局特征上投影的差值，得到正交分量；

对所有的正交分量与全局特征进行聚合处理，得到各模态数据的特征表示。

优选的，所述模态类别包括文本数据、音频数据、视频数据和图像数据。

优选的，所述处理层包括文本处理层、音频处理层、视频处理层和图片处理层，

对应于所述文本处理层、音频处理层、视频处理层和图片处理层的处理模型分别为NLP模型、RNN模型、3D- CNN模型和CNN模型。

优选的，所述利用预设的融合层合并各模态数据的特征表示，得到融合特征，其中，所述融合层预定义有通过设定方法训练的神经网络融合模型，包括：

构建预定义神经网络融合模型的融合层；

利用神经网络融合模型处理各模态数据对应的特征表示，得到预测结果以及置信度；

将置信度作为权重，对各模态数据的预测结果进行加权处理；

将所有加权后的预测结果合成，得到融合特征。

优选的，所述构建预定义神经网络融合模型的融合层为：

构建基于中期融合策略的初始融合层；

利用多模态数据集对构建的初始神经网络融合模型进行训练，得到神经网络融合模型；

将神经网络融合模型加载至初始融合层，得到融合层。

优选的，所述将所述融合特征输入到预先训练好的分类器进行分类，输出待处理数据的确定性标签，其中，所述分类器预定义有从融合特征到确定性标签之间的映射关系，包括：

构建基于机器学习的分类器，并使用分类数据集训练所述分类器，使之学习从融合特征到确定性标签之间的映射关系；

将所述融合特征作为输入，传递给基于机器学习的分类器进行分类，得到至少一个类别标签；

从至少一个类别标签中判定一个确定性标签。

本发明还提供了一种多模态数据处理系统，应用于一种多模态数据处理方法，处理系统包括：

模态类别获取模块，用于获取待处理数据，并对所述待处理数据进行模态分类，得到至少一种模态类别的模态数据；

特征提取模块，用于基于各模态数据的模态类别，将各模态数据对应输入预设的处理层进行特征提取，得到与各模态数据对应的特征表示，其中，每个所述处理层预定义有匹配于模态类别的处理模型；

融合模块，用于利用预设的融合层合并各模态数据的特征表示，得到融合特征，其中，所述融合层预定义有通过设定方法训练的神经网络融合模型；

分类模块，用于将所述融合特征输入到预先训练好的分类器进行分类，输出所述待处理数据的确定性标签，其中，所述分类器预定义有从融合特征到确定性标签之间的映射关系。

与相关技术相比较，本发明提供的一种多模态数据处理方法和处理系统具有如下有益效果：

本发明通过获取待处理数据，并对所述待处理数据进行模态分类，得到至少一种模态类别的模态数据；基于各模态数据的模态类别，将各模态数据对应输入预设的处理层进行特征提取，得到与各模态数据对应的特征表示，其中，每个所述处理层预定义有匹配于模态类别的处理模型；利用预设的融合层合并各模态数据的特征表示，得到融合特征，其中，所述融合层预定义有通过设定方法训练的神经网络融合模型；将所述融合特征输入到预先训练好的分类器进行分类，输出所述待处理数据的确定性标签，其中，所述分类器预定义有从融合特征到确定性标签之间的映射关系，本发明将多模态数据分为不同的层次，每个层次上的处理模型都是独立训练的，多模态数据不会在不同的层次间直接共享，从而减少了数据泄露的风险，不同层次的特征表示被合并，形成融合特征，既保留了各模态数据的特性，又充分利用了它们之间的内在联系。

附图说明

图1为本发明提供的一种多模态数据处理方法的流程图；

图2为本发明提供的一种多模态数据处理方法的S2流程图；

图3为本发明提供的一种多模态数据处理方法的S3流程图；

图4为本发明提供的一种多模态数据处理方法的S301流程图；

图5为本发明提供的一种多模态数据处理方法的S4流程图；

图6为本发明提供的一种多模态数据处理系统的模块结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以互相组合。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作（或步骤）描述成顺序地处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

本发明提供的一种多模态数据处理方法，参考图1所示，处理方法包括以下步骤：

S1：获取待处理数据，并对所述待处理数据进行模态分类，得到至少一种模态类别的模态数据。

在本实施例中，为了有效地处理多模态数据，首先需要对获取的待处理数据进行模态分类，以确定数据的模态类别，如文本、图像、音频或者视频，这有助于后续步骤中为每种模态数据选择适当的处理模型和特征提取方法。

在步骤S1中，首先获取待处理的多模态数据，然后，通过对待处理的多模态数据进行分析和识别，将数据分为不同的模态类别，每种模态类别的数据将被分别处理，以便在后续步骤中进行特征提取和融合。

示例性的，假设有一个包含文本描述和相关图片的数据集，用于情感分析任务，在S1步骤中，将对该数据进行模态分类，将文本和图片分为两个不同的模态类别。

S2：基于各模态数据的模态类别，将各模态数据对应输入预设的处理层进行特征提取，得到与各模态数据对应的特征表示，其中，每个所述处理层预定义有匹配于模态类别的处理模型。

在本实施例中，不同模态的数据具有不同的特点和结构，因此需要采用不同的处理模型来提取它们的特征，通过为每种模态数据选择适当的处理模型，可以有效地提取出有用的特征表示；同时不同模态的数据被分为不同的层次，每个层次上的处理模型独立训练，这意味着数据不会在不同的层次间直接共享，从而减少了数据泄露的风险。

工作过程中，根据模态类别将每种模态数据输入到相应的处理层，每个处理层都预先定义了匹配于该模态类别的处理模型，用于提取特征表示，通过针对性地处理模型来处理每种模态数据，可以更好地捕捉到不同模态数据的特征，从而提高整体的处理性能和准确性。

示例性的，继续上述情感分析任务的例子，在S2步骤中，将文本数据输入到一个自然语言处理模型NLP模型，以提取文本的语义特征；同时，将图片数据输入到一个CNN模型，以提取图片的视觉特征；但不仅仅是文本数据和图片数据，还可以是音频数据和视频数据，则可以将音频数据输入到一个RNN模型，以提取音频的声学特征和时序特征，将视频数据输入到一个3D- CNN模型，以提取视频的视觉运动的动态特征，这种分离确保了数据的独立性，使得即使数据被泄露，也仅限于某一特定层次的信息，而不是整个数据集。

S3：利用预设的融合层合并各模态数据的特征表示，得到融合特征，其中，所述融合层预定义有通过设定方法训练的神经网络融合模型。

在本实施例中，为了充分利用多模态数据的互补信息，需要将不同模态的特征表示进行融合，通过设计一个融合层，可以将来自不同模态的特征表示合并成一个统一的融合特征。

在工作过程中，将提取的不同模态的特征表示输入到预设的融合层中，融合层是一个预先训练好的神经网络模型，用于将不同模态的特征表示进行合并，继而通过融合不同模态的特征表示，可以充分利用多模态数据的互补信息，从而提高模型的性能和鲁棒性。

示例性的：在情感分析任务中，将之前提取的文本特征和图像特征输入到融合层中，融合层将这些特征表示合并成一个融合特征，用于后续的分类任务；若还包括音频的声学特征和时序特征，以及视频的视觉运动的动态特征的，则是将所有的特征均输入到融合层。

S4：将所述融合特征输入到预先训练好的分类器进行分类，输出所述待处理数据的确定性标签，其中，所述分类器预定义有从融合特征到确定性标签之间的映射关系。

在本实施例中，为了得到最终的分类结果，需要将融合特征输入到一个分类器中进行分类，分类器能够根据融合特征确定待处理数据的标签。

在工作过程中，将融合特征输入到预先训练好的分类器中，分类器根据融合特征和预定义的映射关系，输出待处理数据的确定性标签，继而通过使用预先训练好的分类器，可以根据融合特征准确地对待处理数据进行分类，从而得到最终的分类结果。

示例性的：在情感分析任务中，将之前得到的融合特征输入到一个预先训练好的分类器中，分类器根据融合特征和预定义的映射关系，输出待处理数据的情感标签（正面、负面或中性）。

在本实施例中，在步骤S1中：

在本实施例中，待处理数据可能包含多种不同的数据类型，如文本、图像、音频或视频等，为了更好地利用这些不同模态的数据并提高整体的处理性能，需要对这些数据进行模态分类，而预设的规则库提供了一种对数据进行自动分类的方法，其中包含了文件属性规则、内容特征规则和标签映射规则等多种分类依据。通过使用这些规则，可以有效地将数据分为不同的模态类别，从而为后续的步骤提供更好的输入数据。

具体地，在获取包含多种模态的数据类型的待处理数据后，利用预设的规则库对待处理数据进行模态分类。根据规则库中的分类依据，可以采用文件属性规则、内容特征规则和标签映射规则中的一种或多种组合来对待处理数据进行分类。

其中，文件属性规则主要基于待处理数据的元数据信息进行分类，元数据通常包括文件的创建时间、修改时间、大小、格式等属性，这些属性可以反映数据的某些特性。

示例性的，对于一个小于一定字节数的文件，可以初步判断其为文本文件；对于具有特定扩展名的文件，如.jpg或.png，可以确定其为图像文件，继而通过设定一系列基于文件属性的规则，可以将待处理数据初步划分为不同的模态类别。

内容特征规则是基于待处理数据的内容特征进行分类，这通常涉及对数据的深度分析和特征提取，对于文本数据，可以通过分析词汇、句子结构、语义等特征来识别其模态；对于图像数据，可以通过分析像素分布、颜色、纹理等特征来判断其类别；对于音频数据，可以通过分析音频波形、频率等特征来分类。

示例性的，对于包含大量文本描述的数据，可以判断其为文本模态；对于包含明显图像特征的数据，可以判断其为图像模态。

标签映射规则是基于已有的标签信息对待处理数据进行分类。在某些情况下，待处理数据可能已经带有标签，这些标签可以是由人工标注的，也可以是通过其他方法自动生成的，标签映射规则是将这些标签与模态类别进行对应，从而实现数据的分类。

示例性的，待处理数据是一组带有标签的图像，根据标签信息将图像分为不同的类别，如风景、人物、动物等，然后，根据这些类别进一步划分模态，例如将所有风景图像归为同一模态。

在本实施例中，参考图2所示，步骤S2具体包括：

S201：根据各模态数据的模态类别，选定具有匹配的处理模型的处理层。

在本实施例中，不同模态的数据具有不同的特点和结构，需要采用不同的处理模型来提取它们的特征，通过为每种模态数据选择适当的处理模型，可以有效地提取出有用的特征表示。

在工作过程中，根据模态类别将每种模态数据输入到相应的处理层，每个处理层都预先定义了匹配于该模态类别的处理模型，用于提取特征表示，继而通过针对性的处理模型来处理每种模态数据，可以更好地捕捉到不同模态数据的特征，从而提高整体的处理性能和准确性。

同时，模态类别包括文本数据、音频数据、视频数据和图像数据，相应地，处理层包括文本处理层、音频处理层、视频处理层和图片处理层，对应于所述文本处理层、音频处理层、视频处理层和图片处理层的处理模型分别为NLP模型、RNN模型、3D- CNN模型和CNN模型。

S202：使用选定的所述处理层匹配的处理模型对各模态数据进行特征提取，得到局部特征和全局特征。

在本实施例中，首先将每种模态数据输入到相应的处理层，然后使用预定义的匹配于该模态类别的处理模型对数据进行特征提取，这样可以得到每个模态数据的局部特征和全局特征，其中局部特征表示数据的具体特征，全局特征表示整个数据集的公共特征。

示例性的，继续上述情感分析任务的例子，在S202步骤中，将文本数据输入到一个自然语言处理模型NLP模型，以提取文本的语义特征；同时，将图片数据输入到一个CNN模型，以提取图片的视觉特征；将音频数据输入到一个RNN模型，以提取音频的声学特征和时序特征。这种分离确保了数据的独立性，使得即使数据被泄露，也仅限于某一特定层次的信息，而不是整个数据集。

S203：将各模态数据的所述局部特征投影到由所述全局特征定义的向量空间中。

在本实施例中，为了将不同模态的数据映射到一个统一的特征空间中，方便后续的融合和比较，工作过程中，将各模态数据的局部特征投影到由全局特征定义的向量空间中，以便进行后续操作。

S204：计算各模态数据的局部特征与其在全局特征上投影的差值，得到正交分量。

在本实施例中，为了找到各模态数据之间的差异性特征，从而更好地利用这些差异性特征进行融合和分类，工作过程中，计算各模态数据的局部特征与其在全局特征上投影的差值，得到正交分量。

S205：对所有的正交分量与全局特征进行聚合处理，得到各模态数据的特征表示。

在本实施例中，为了将不同模态的特征信息融合在一起，形成一个统一的特征表示，工作过程中，对所有正交分量与全局特征进行聚合处理，得到各模态数据的特征表示。

参考图3所示，步骤S3具体包括：

S301：构建预定义有神经网络融合模型的融合层。

在本实施例中，为了实现不同模态数据特征的有效融合，设计一个融合层，且融合层预定义有一个神经网络融合模型，该模型能够处理不同模态数据的特征表示，并将它们融合为一个统一的特征表达，这样则可以充分利用多模态数据的互补性，提高模型的性能和鲁棒性。

在工作过程中，首先将不同模态数据的特征表示输入到融合层中，然后，融合层中的神经网络融合模型对这些特征表示进行处理，得到预测结果以及置信度，这样可以有效地融合不同模态数据的特征，充分利用它们的互补信息，从而提高模型的性能和鲁棒性。

S302：利用神经网络融合模型处理各模态数据对应的特征表示，得到预测结果以及置信度。

在本实施例中，为了进一步提高模型的性能，对每一种模态数据的预测结果进行加权处理，且权重是根据神经网络融合模型输出的置信度来确定的。

在工作过程中，神经网络融合模型会对每一种模态数据的特征表示进行处理，得到预测结果和对应的置信度，通过这种方式，可以确保每一种模态数据的预测结果在最终的融合特征中占据合适的比重，从而提高模型的性能和鲁棒性。

S303：将置信度作为权重，对各模态数据的预测结果进行加权处理。

在本实施例中，为了确保每一种模态数据的预测结果在最终的融合特征中占据合适的比重，根据神经网络融合模型输出的置信度来对预测结果进行加权处理。

在工作过程中，将每一种模态数据的预测结果乘以对应的置信度，得到加权后的预测结果，通过这种方式，可以确保每一种模态数据的预测结果在最终的融合特征中占据合适的比重，从而提高模型的性能和鲁棒性。

S304：将所有加权后的预测结果合成，得到融合特征。

在本实施例中，为了得到最终的融合特征，需要将所有加权后的预测结果合成。

在工作过程中，将所有加权后的预测结果进行合成，得到融合特征，继而可以得到一个统一的特征表达，这个特征表达充分利用了多模态数据的互补信息，从而提高模型的性能和鲁棒性。

在本实施例中，参考图4所示，步骤S301具体包括：

S3011：构建基于中期融合策略的初始融合层。

在本实施例中，为了实现不同模态数据特征的有效融合，并考虑到在模型训练过程中的信息交换，采用中期融合策略来构建初始融合层，中期融合策略允许在神经网络的不同层之间进行特征融合，有助于模型捕捉到跨模态的复杂关联。

在工作过程中，首先根据中期融合策略设计初始融合层的结构，确保该结构能够支持多模态数据的并行处理以及中间层的融合，通过这种方式，可以促进不同模态之间的信息交流，使网络能够学习到更加丰富的跨模态特征表示，从而提高模型的性能和鲁棒性。

S3012：利用多模态数据集对构建的初始神经网络融合模型进行训练，得到神经网络融合模型。

在本实施例中，为了使得融合层中的神经网络融合模型能够有效地处理不同模态的数据，需要使用多模态数据集对其进行训练，以便模型能够学习到如何从不同模态中提取和融合有用的信息。

在工作过程中，使用多模态数据集对初始的神经网络融合模型进行训练。这通常涉及前向传播、损失计算和反向传播等过程，以优化模型参数，通过训练，神经网络融合模型能够调整其权重和偏差，以更好地适应多模态数据的特征，最终提高模型的准确性和泛化能力。

S3013：将神经网络融合模型加载至初始融合层，得到融合层。

在本实施例中，经过训练的神经网络融合模型需要被加载到融合层中，以便于在实际的数据处理中使用。这样做可以确保融合层具有处理新输入数据的能力。

在工作过程中，将训练好的神经网络融合模型的参数加载到初始融合层中，这样，融合层就能够使用这些参数来处理新的多模态数据，加载了训练好的模型参数后，融合层可以有效地执行多模态数据的特征融合任务，生成准确的融合特征用于后续的任务，如分类或回归。

在本实施例中，参考图5所示，步骤S4具体包括：

S401：构建基于机器学习的分类器，并使用分类数据集训练所述分类器，使之学习从融合特征到确定性标签之间的映射关系。

在本实施例中，为了确保能够准确地对待处理数据进行分类，需要利用已标记的分类数据集对分类器进行训练，从而使其学习到如何根据融合特征来预测出正确的标签。

工作过程中，首先，选择一个适当的机器学习分类器，包括但不限于支持向量机（SVM）、决策树、随机森林，然后，使用已有的标注好的分类数据集对分类器进行训练，在这个过程中，分类器会通过优化算法调整自身的参数，以最小化预测标签和真实标签之间的差异，从而学习到从融合特征到确定性标签之间的映射关系，经过训练的分类器能够有效地捕捉融合特征与标签之间的复杂关系，从而提高了模型的准确性和泛化能力。

S402：将所述融合特征作为输入，传递给基于机器学习的分类器进行分类，得到至少一个类别标签。

在本实施例中，在完成分类器的训练后，将其应用于实际的待处理数据上，以预测其对应的类别标签。

在工作过程中，将融合特征作为输入，传递给已训练好的机器学习分类器，分类器会根据已学习到的映射关系，对输入的融合特征进行处理，输出至少一个可能的类别标签，通过对融合特征进行分类，可以得到待处理数据的初步分类结果，为最终的确定性标签提供了依据。

S403：从至少一个类别标签中判定一个确定性标签。

在实际应用中，往往需要一个明确且确定的分类结果，而不是多个可能的类别标签，因此，需要从初步的分类结果中判定一个最具代表性的确定性标签。

在工作过程中，可以采用不同的策略来从多个类别标签中选择一个确定性标签，其中，策略包括但不限于概率机制、投票机制，最终，输出待处理数据的确定性标签，通过从多个类别标签中选择一个确定性标签，使得分类结果更加明确和可靠，便于后续的应用和分析。

本发明提供的一种多模态数据处理方法的工作原理如下：本发明通过获取待处理数据，并对所述待处理数据进行模态分类，得到至少一种模态类别的模态数据；基于各模态数据的模态类别，将各模态数据对应输入预设的处理层进行特征提取，得到与各模态数据对应的特征表示，其中，每个所述处理层预定义有匹配于模态类别的处理模型；利用预设的融合层合并各模态数据的特征表示，得到融合特征，其中，所述融合层预定义有通过设定方法训练的神经网络融合模型；将所述融合特征输入到预先训练好的分类器进行分类，输出所述待处理数据的确定性标签，其中，所述分类器预定义有从融合特征到确定性标签之间的映射关系，本发明将多模态数据分为不同的层次，每个层次上的处理模型都是独立训练的，多模态数据不会在不同的层次间直接共享，从而减少了数据泄露的风险，不同层次的特征表示被合并，形成融合特征，既保留了各模态数据的特性，又充分利用了它们之间的内在联系。

实施例二

本发明还提供了一种多模态数据处理系统，参考图6所示，应用于一种多模态数据处理方法，处理系统包括：

模态类别获取模块100，用于获取待处理数据，并对所述待处理数据进行模态分类，得到至少一种模态类别的模态数据.

特征提取模块200，用于基于各模态数据的模态类别，将各模态数据对应输入预设的处理层进行特征提取，得到与各模态数据对应的特征表示，其中，每个所述处理层预定义有匹配于模态类别的处理模型。

融合模块300，用于利用预设的融合层合并各模态数据的特征表示，得到融合特征，其中，所述融合层预定义有通过设定方法训练的神经网络融合模型。

分类模块400，用于将所述融合特征输入到预先训练好的分类器进行分类，输出所述待处理数据的确定性标签，其中，所述分类器预定义有从融合特征到确定性标签之间的映射关系。

本申请是参照根据本申请实施例的方法、设备（系统）和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框，以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一种计算机可读存储介质中，存储介质包括只读存储器（Read-Only Memory，ROM）、随机存储器（Random Access Memory，RAM）、可编程只读存储器（Programmable Read-only Memory，PROM）、可擦除可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、一次可编程只读存储器（One-time Programmable Read-Only Memory，OTPROM）、电子抹除式可复写只读存储器（Electrically-Erasable Programmable Read-Only Memory，EEPROM）、只读光盘（CompactDisc Read-Only Memory，CD-ROM）或其他光盘存储器、磁盘存储器、磁带存储器，或者能够用于携带或存储数据的计算机可读的任何其他介质。

还需要说明的是，术语“包括”“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者还是包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

Claims

1.一种多模态数据处理方法，其特征在于，处理方法包括以下步骤：

具体的，利用预设的规则库对所述待处理数据进行模态分类，其中，所述规则库的分类依据包括文件属性规则、内容特征规则和标签映射规则中的一种或者多种组合；

基于各模态数据的模态类别，将各模态数据对应输入预设的处理层进行特征提取，得到与各模态数据对应的特征表示，其中，每个所述处理层预定义有匹配于模态类别的处理模型，具体包括：

对所有的正交分量与全局特征进行聚合处理，得到各模态数据的特征表示；

利用预设的融合层合并各模态数据的特征表示，得到融合特征，其中，所述融合层预定义有通过设定方法训练的神经网络融合模型，具体包括：

构建预定义神经网络融合模型的融合层；

将所有加权后的预测结果合成，得到融合特征；

将所述融合特征输入到预先训练好的分类器进行分类，输出所述待处理数据的确定性标签，其中，所述分类器预定义有从融合特征到确定性标签之间的映射关系，具体包括：

依据预设的标签选择策略从至少一个类别标签中判定一个确定性标签，其中，所述标签选择策略包括概率机制和投票机制。

2.根据权利要求1所述的一种多模态数据处理方法，其特征在于，所述模态类别包括文本数据、音频数据、视频数据和图像数据。

3.根据权利要求2所述的一种多模态数据处理方法，其特征在于，所述处理层包括文本处理层、音频处理层、视频处理层和图片处理层，

4.根据权利要求3所述的一种多模态数据处理方法，其特征在于，所述构建预定义神经网络融合模型的融合层为：

构建基于中期融合策略的初始融合层；

将神经网络融合模型加载至初始融合层，得到融合层。

5.一种多模态数据处理系统，应用于上述权利要求1至4任意一项所述的一种多模态数据处理方法，其特征在于，处理系统包括：