CN114663338A

CN114663338A - 图像数据处理方法、装置、系统、电子设备及存储介质

Info

Publication number: CN114663338A
Application number: CN202011539806.XA
Authority: CN
Inventors: 周璐璐
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2022-06-24

Abstract

本申请实施例提供了图像数据处理方法、装置、系统、电子设备及存储介质，实现了目标信息、场景信息及事件信息等结构化信息的提取及描述，使用深度学习技术完成视频结构化信息提取，并根据视频的特点，使用多层结构将结构化信息描述为智能元数据流，然后打包在视频码流中。在视频管理时，只需解码码流中的私有信息，即可快速获得结构化信息，增加了图像数据的易用性，可满足后续的视频检索定位、视频分段、视频解读等的智能应用需求。

Description

图像数据处理方法、装置、系统、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及图像数据处理方法、装置、系统、电子设备及存储介质。

背景技术

内窥镜(Endoscopes)是一种常用的医疗器械，由导光束结构及一组镜头组成。内窥镜经人体的天然孔道或经小切口进入人体内，通过设备外部成像用于人体器官或组织的检查及手术治疗。内窥镜手术相对于开放性手术，具有创口小、恢复快的优势，在临床上受到患者和医生的青睐。

为了获得更清晰的手术图像，内窥镜设备的成像分辨率，从标清到高清，再从高清到4K，在“看得清”的方向上不断发展着。在满足医生“看得清”的需求后，开始在易用性方面提出需求，如何提高内窥镜设备采集的图像数据的易用性成为亟待解决的问题。

发明内容

本申请实施例的目的在于提供一种图像数据处理方法、装置、系统、电子设备及存储介质，以实现提高图像数据的易用性。具体技术方案如下：

第一方面，本申请实施例提供了一种图像数据处理方法，所述方法包括：获取待处理的图像数据；利用预先训练的深度学习模型对所述图像数据进行处理，得到所述图像数据的描述信息，所述描述信息包括目标信息、场景信息及事件信息中的至少一种；根据所述描述信息，生成多层结构的智能元数据流；

对所述智能元数据流进行编码，对所述图像数据进行编码；将编码后的智能元数据流封装至编码后的图像数据中，得到处理后的图像数据。

在一种可能的实施方式中，所述智能元数据流包括至少一个智能元数据，一个所述智能元数据中包括至少一个元数据组件，一个所述元数据组件中包括时间空间属性、状态类属性及行为属性中的至少一种。

在一种可能的实施方式中，所述时间空间属性包括属性头、标识信息、时间信息及空间信息；所述状态类属性包括属性头、类别信息及形态信息；所述行为属性包括属性头及事件类型。

在一种可能的实施方式中，所述图像数据为内窥镜图像数据，所述目标信息包括组织器官信息及非组织器官信息，所述事件信息包括主动行为信息及被动触发事件信息；所述利用预先训练的深度学习模块对所述图像数据进行处理，得到所述图像数据的描述信息，至少包括如下步骤之一：利用预先训练的深度学习模块对所述内窥镜图像数据进行目标检测，得到所述内窥镜图像数据的组织器官信息及非组织器官信息；利用预先训练的深度学习模块对所述内窥镜图像数据进行场景分类，得到所述内窥镜图像数据的场景信息；利用预先训练的深度学习模块对所述内窥镜图像数据进行事件检测，得到所述内窥镜图像数据的主动行为信息及被动触发事件信息。

在一种可能的实施方式中，所述利用预先训练的深度学习模块对所述内窥镜图像数据进行目标检测，得到所述内窥镜图像数据的组织器官信息及非组织器官信息，包括：利用预先训练的深度学习模块中的目标检测模型的卷积层及池化层，对单帧所述内窥镜图像数据进行卷积及池化操作，得到所述内窥镜图像数据的第一图像特征信息；利用所述目标检测模型的候选区域生成网络，对所述第一图像特征信息进行候选区域检测，得到候选区域；利用所述目标检测模型的池化层，对所述候选区域进行池化操作，得到池化后的特征；利用所述目标检测模型的回归层对所述池化后的特征进行回归，得到所述内窥镜图像数据中的组织器官信息及非组织器官信息，其中，所述组织器官信息包括组织器官目标的类型、位置和面积，所述非组织器官信息包括非组织器官目标的类型、位置和面积；所述利用预先训练的深度学习模块对所述内窥镜图像数据进行场景分类，得到所述内窥镜图像数据的场景信息，包括：利用预先训练的深度学习模块中的场景分类模型的卷积层及池化层，对单帧所述内窥镜图像数据进行卷积及池化操作，得到所述内窥镜图像数据的第二图像特征信息；根据所述组织器官目标位置、非组织器官目标的位置，利用所述场景分类模型的全连接层对所述第二图像特征信息进行分类，得到所述内窥镜图像数据的场景信息。

在一种可能的实施方式中，所述利用预先训练的深度学习模块对所述内窥镜图像数据进行事件检测，得到所述内窥镜图像数据的主动行为信息及被动触发事件信息，包括：利用预先训练的深度学习模块中的事件检测模型的卷积神经网络对多帧所述内窥镜图像数据进行特征提取，得到多维行为特征向量；利用所述事件检测模型的全连接层对所述多维行为特征向量进行分类，得到所述内窥镜图像数据的主动行为信息及被动触发事件信息，其中，所述主动行为信息包括主动行为事件的类型及位置，所述被动触发事件信息包括被动触发事件的类型及位置。

第二方面，本申请实施例提供了一种图像数据处理装置，所述装置包括：图像数据获取模块，用于获取待处理的图像数据；结构化信息获取模块，用于利用预先训练的深度学习模型对所述图像数据进行处理，得到所述图像数据的描述信息，所述描述信息包括目标信息、场景信息及事件信息中的至少一种；智能元数据流生成模块，用于根据所述描述信息，生成多层结构的智能元数据流；智能元数据流编码模块，用于对所述智能元数据流进行编码；图像数据编码模块，用于对所述图像数据进行编码；数据封装模块，用于将编码后的智能元数据流封装至编码后的图像数据中，得到处理后的图像数据。

在一种可能的实施方式中，所述图像数据为内窥镜图像数据，所述目标信息包括组织器官信息及非组织器官信息，所述事件信息包括主动行为信息及被动触发事件信息；所述结构化信息获取模块，包括目标检测子模块、场景分类子模块、事件检测子模块中的至少一个：所述目标检测子模块，用于利用预先训练的深度学习模块对所述内窥镜图像数据进行目标检测，得到所述内窥镜图像数据的组织器官信息及非组织器官信息；所述场景分类子模块，用于利用预先训练的深度学习模块对所述内窥镜图像数据进行场景分类，得到所述内窥镜图像数据的场景信息；所述事件检测子模块，用于利用预先训练的深度学习模块对所述内窥镜图像数据进行事件检测，得到所述内窥镜图像数据的主动行为信息及被动触发事件信息。

在一种可能的实施方式中，所述目标检测子模块，具体用于：利用预先训练的深度学习模块中的目标检测模型的卷积层及池化层，对单帧所述内窥镜图像数据进行卷积及池化操作，得到所述内窥镜图像数据的第一图像特征信息；利用所述目标检测模型的候选区域生成网络，对所述第一图像特征信息进行候选区域检测，得到候选区域；利用所述目标检测模型的池化层，对所述候选区域进行池化操作，得到池化后的特征；利用所述目标检测模型的回归层对所述池化后的特征进行回归，得到所述内窥镜图像数据中的组织器官信息及非组织器官信息，其中，所述组织器官信息包括组织器官目标的类型、位置和面积，所述非组织器官信息包括非组织器官目标的类型、位置和面积；所述所述场景分类子模块，具体用于：利用预先训练的深度学习模块中的场景分类模型的卷积层及池化层，对单帧所述内窥镜图像数据进行卷积及池化操作，得到所述内窥镜图像数据的第二图像特征信息；根据所述组织器官目标位置、非组织器官目标的位置，利用所述场景分类模型的全连接层对所述第二图像特征信息进行分类，得到所述内窥镜图像数据的场景信息。

在一种可能的实施方式中，所述事件检测子模块，具体用于：利用预先训练的深度学习模块中的事件检测模型的卷积神经网络对多帧所述内窥镜图像数据进行特征提取，得到多维行为特征向量；利用所述事件检测模型的全连接层对所述多维行为特征向量进行分类，得到所述内窥镜图像数据的主动行为信息及被动触发事件信息，其中，所述主动行为信息包括主动行为事件的类型及位置，所述被动触发事件信息包括被动触发事件的类型及位置。

第三方面，本申请实施例提供了一种内窥镜系统，所述内窥镜系统包括：内窥镜、光源设备及摄像系统主机；所述内窥镜用于采集被检体的图像数据；

所述光源设备用于为所述内窥镜提供拍摄光源；所述摄像系统主机用于在运行时实现本申请中任一所述的图像数据处理方法。

在一种可能的实施方式中，所述内窥镜系统还包括：显示设备及存储设备；所述摄像系统主机还用于将所述内窥镜采集的图像数据发送给所述显示设备，将所述处理后的图像数据存储到所述存储设备中；所述显示设备用于显示所述图像数据；所述存储设备用于存储所述处理后的图像数据。

第四方面，本申请实施例提供了一种电子设备，包括处理器及存储器；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的程序时，实现本申请中任一所述的图像数据处理方法。

第五方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本申请中任一所述的图像数据处理方法。

本申请实施例有益效果：

本申请实施例提供的图像数据处理方法、装置、系统、电子设备及存储介质，实现了目标信息、场景信息及事件信息等结构化信息的提取及描述，使用深度学习技术完成视频结构化信息提取，并根据视频的特点，使用多层结构将结构化信息描述为智能元数据流，然后打包在视频码流中。在视频管理时，只需解码码流中的私有信息，即可快速获得结构化信息，增加了图像数据的易用性，可满足后续的视频检索定位、视频分段、视频解读等的智能应用需求。当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的内窥镜视频处理系统的一种示意图；

图2为本申请实施例的结构化信息的提取过程的一种示意图；

图3为本申请实施例的比特信息数据流的生成过程的一种示意图；

图4为本申请实施例的比特信息数据流的解码过程的一种示意图；

图5为本申请实施例的目标检测模型的一种示意图；

图6为本申请实施例的场景分类模型的一种示意图；

图7为本申请实施例的事件检测模型的一种示意图；

图8为本申请实施例的模型训练过程的一种示意图；

图9为本申请实施例的多层结构的智能元数据流的第一种示意图；

图10为本申请实施例的多层结构的智能元数据流的第二种示意图

图11为本申请实施例的图像数据处理方法的第一种示意图；

图12为本申请实施例的图像数据处理方法的第二种示意图；

图13为本申请实施例的图像数据处理装置的一种示意图；

图14为本申请实施例的电子设备的一种示意图；

图15为本申请实施例的内窥镜系统的第一种示意图；

图16a为本申请实施例的内窥镜系统的第二种示意图；

图16b为本申请实施例的内窥镜系统的第三种示意图；

图17为本申请实施例的内窥镜系统的第四种示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

内窥镜在满足“看得清”的需求后，开始在易用性方面提出需求，其中降低手术视频管理成本就是其中一项，具体来说：

(1)在后期手术事故追溯中，能够快速定位到放置纱布/夹子及取出纱布/夹子的动作以追踪纱布/夹子遗留问题。

(2)在消化道内镜检查视频中，能够快速定位到某个部位的检查视频以进行复检等。

(3)能够自动统计腹腔镜手术各个阶段(例如分离、切除、缝合、冲洗、放置导流管等)的时间、胃镜诊断中各个部位(例如胃、十二指肠、幽门、贲门等)的检查时间等用于手术质量评估。

(4)对关键手术动作增加字幕提示以形成规培视频等。

因此，在内窥镜视频系统中，存在对视频进行结构化描述以便于进行视频检索定位、视频分段、视频解读等需求。

有鉴于此，本申请实施例提供了一种内窥镜视频处理系统，参见图1，包括：

信息提取模块11、智能元数据生成模块12、数据流编码模块13、数据流封装模块14及数据流解码模块15。

信息提取模块11，用于针对采集得到的内窥镜视频，进行目标检测、场景分类、事件检测以获得结构化信息，其中，目标检测所使用的目标检测模型、场景分类所使用的场景分类模型、事件检测所使用的事件检测模型均可以为预先训练的深度神经网络模块。结构化信息的提取过程可以如图2所示。

智能元数据生成模块12，用于将结构化信息封装为智能元数据流。

数据流编码模块13，用于对智能元数据流进行编码。数据流编码模块对智能元数据流进行编码。实际应用中，编码采用的协议可以是任一种现有的编码协议，例如H.264等。

数据流封装模块14，用于将编码后的智能元数据流封装至对应的内窥镜视频编码的码流中，得到包括智能元数据流及视频编码码流的比特信息数据流。其中，比特信息数据流的生成过程可以如图3所示。数据封装模块将编码后的智能元数据流封装至内窥镜视频编码得到的码流中。实际应用中，封装采用的协议可以是任一种现有的封装协议，例如RTP(Real-time Transport Protocol，实时传输协议)等。

数据流解码模块15，用于对比特信息数据流进行解码，得到的智能元数据，即可获得结构化信息，在术后视频管理时，可用于后续视频检索、分段等智能应用。其中，比特信息数据流解码过程可以如图4所示。数据流解码模块，将封装有智能元数据流的码流通过网络进行传输，实际应用中，通过网络传输的码流可以到达后端应用平台(例如内窥镜视频管理系统)，应用平台等解码端可以基于从码流中解码得到的智能元数据实现例如视频检索定位、视频分段、视频解读等智能应用。

一种实施方式中，结构化信息可以包括：

(1)目标信息：以组织器官(例如，器官、器官边缘、动脉、胆管、病灶等)和非组织器官(例如，手术器械、纱布、夹子、导管、缝合针、缝合线等)为描述对象，描述的信息包括属性、位置和面积等。

(2)场景信息：主要描述图像、视频的全局特征(例如，拍摄部位、成像效果)，包括图像中器械、纱布、动脉等组织器官或非组织器官等目标的有/无及类别信息。

(3)事件信息：以人的主动行为(包括但不限于分离、切除、缝合、冲洗、放置导流管等)及被动触发事件(包括但不限于出血、起雾等)为描述对象，描述信息包括事件类别、事件位置等。

一种实施方式中，信息提取模块11可以包括：目标检测子模块、场景分类子模块、事件检测子模块。

目标检测子模块：基于深度学习，例如，YOLO(You Only Look Once，你只看一次)、SSD(Single Shot MultiBox Detector，单发多盒探测器)、Fast-RCNN(RegionConvolutional Neural Networks，区域卷积神经网络)、Faster-RCNN等的目标检测技术进行目标检测。以Faster-RCNN为例，算法流程可以如图5所示。首先，对单帧图像进行一系列的卷积、池化操作，得到该图像的特征信息，然后将该图像的特征信息输入RPN(RegionProposal Networks，候选区域生成网络)，提取包含有待检测目标的候选区域，最后对提取的候选区域进行池化操作：Roi-pooling，利用池化操作后的特征进行进一步的目标分类和目标位置回归，得到待检测目标的类别和位置信息。目标检测子模块可实现例如器官位置、类别，以及手术器械的位置、类别的检测，可为每种目标训练一个单独的网络，也可训练一个网络同时对所有目标进行位置定位和目标分类。

场景分类子模块：基于深度学习的场景分类技术进行分类，算法流程可以如图6所示。首先，对单帧图像进行一系列的卷积、池化操作，得到该图像的特征信息，然后将该图像的特征信息输入全连接层，得到每个类别的概率，概率最大的场景类别对应的即为当前图像的类别。场景分类子模块可实现例如器官位置、类别，以及手术器械的位置、类别的检测，可为每种分类任务训练一个单独的网络，也可训练一个网络同时完成多种分类任务。目标检测子模块的输出结果为目标区域，例如，器官或手术器械等目标的区域；将目标检测子模块检测出来的区域送入到场景分类子模块进行检测判断该区域是否含有器官或手术器械及他们各自的类别，从而可减少误判的情况。

事件检测子模块：将包括多帧视频图像的视频段输入神经网络，通过神经网络对视频帧图像进行特征抽取，生成多维的行为特征向量；将特征向量输入全连接层进行逻辑分类，得到每个事件类别的概率，概率最大的事件类别对应的即为当前视频段的事件类别。事件检测子模块中所使用的神经网络包括但不限于DNN(Deep Neural Networks，深度神经网络)、CNN(Convolutional Neural Networks，卷积神经网络)、RNN(Recurrent NeuralNetwork，循环神经网络)、LSTM(Long Short-Term Memory，长短期记忆)神经网络等。

一种可能的事件类别的检测过程可以如图7所示。将一视频段的5帧视频帧图像作为1个输入，使用3D卷积进行特征编码，然后使用LSTM神经网络对特征编码后的帧特征进行处理，其中，h(x)表示LSTM神经网络的隐含状态，S(t)表示输出的结果向量，S(t-5)表示过程向量。对特征向量S(t)采用逻辑分类，输出大于预设阈值的类别，采用sigmoid函数对特征向量S(t)进行最终的类别输出。具体地，采用sigmoid函数对特征向量S(t)进行类别输出，sigmoid函数由以下公式定义：

其中，x为各个事件通过神经网络特征提取后产生的多维特征向量S(t)中的一维，每个所输出的类别f(x)也都对应着特征向量上的一维。将f(x)与预设阈值(例如出血/未出血、起雾/非起雾的区别判断标准对应的预设阈值)相比较，大于相应的预设阈值，则判断发生事件(例如，发生出血或起雾)，得到事件检测结果。

信息提取模块11中的目标检测模型、场景分类模型及事件检测模型均可以为预先训练的深度神经网络模块，一种实施方式中，目标检测模型、场景分类模型、事件检测模型均可以由预训练模块生成，以下针对目标检测模型、场景分类模型、事件检测模型的训练进行说明。

目标检测模型、场景分类模型、事件检测模型对应的神经网络的参数集需要通过预训练获得，其训练过程如图8所示。

以目标检测模型为例，其主要的可学习部分为卷积神经网络CN，一般情况下，CN的与网络结构相关的参数，如卷积层数、卷积层的连接方式、每一层卷积层的卷积滤波器数量及其卷积核大小等参数是固定的，仅卷积滤波器的权重参数W_CN和偏移参数B_CN需要通过预训练获得。但本申请中并不对需要预训练获得参数类型进行限定，卷积神经网络中的各参数均可以训练得到，甚至卷积层滤波器的个数也可以通过训练获得。

具体的训练的过程可以包括：

步骤(1)：获取内窥镜的样本图像，对样本图像中的目标物体的位置、类别进行标签标定，样本图像以及其标签(对应的位置、类别)形成一个训练样本，所有训练样本组成训练集Ω。

步骤(2)：初始化卷积神经网络CN的网络参数为Θ₀，对训练相关的高层参数如学习率、梯度下降算法等进行设置。

步骤(3)：对训练集Ω进行当前网络参数的卷积神经网络CN的前向计算，获取卷积神经网络的输出F(Y)，设计损失函数，得到损失值L(Θ_i)，损失值由F(Y)及步骤(1)中所属标签信息计算得到。

步骤(4)：利用反向传播算法对网络参数进行调整，获得Θ_i。

步骤(5)：重复步骤(3)至步骤(4)，直至网络收敛，输出网络参数为Θ_final，即得到目标检测模型。

场景分类模型、事件检测模型的训练方式可以参见上述目标检测模型的训练方式，或相关技术中的场景分类模型、事件检测模型的训练方式，此处不再赘述。

智能元数据生成模块12可以采用多层结构来描述智能信息，得到智能元数据流。智能元数据流可以由内窥镜视频处理设备产生、并包含至少一个智能元数据。其中，智能元数据流中的每个智能元数据可以对应一个目标群(Object Group)，此种情况下智能元数据流表示的是一种以目标群为基本单位的数据流格式。或者也可以认为智能元数据流表示的是设备层面的智能元数据的交换方式。例如图9所示，智能元数据流中可以带有头部，该头部中可以带有产生该智能元数据流的拍摄设备的设备信息，智能元数据则顺序排列在该头部之后。智能元数据可以包含多个元数据组件，每个元数据组件表示了内窥镜视频的多种属性信息。智能元数据实例化为目标群，元数据组件实例化为目标组件。

实际应用中，可以根据实际需求来划分组成目标群的目标组件，例如，可以根据对象是否为器官组织/外来手术器械进行目标群划分，可以以主动行为还是被动触发事件为标准进行目标群划分。相应地，随着划分规则的变化，已生成的多个智能元数据可以被拆分为元数据组件、并重新组合形成新的智能元数据，也就是说，由元数据组件组成的智能元数据不是固定不变的，是可以被拆分重组的，凡事在本申请的思想范围内的任何划分方式，均在本申请的保护范围内。

元数据组件由信息提取模块生成。实际应用中，由信息提取模块生成元数据组件的方式可以为：信息提取模块生成的原始数据即可以作为元数据组件，或者信息提取模块生成的原始数据经编辑或处理后再作为元数据组件。此外，元数据组件可以包含组件头，该组件头中记录了元数据组件所包含的属性信息的种类和数量。

属性信息可以包括时间空间属性、状态类属性、行为属性等中的一种或多种。属性信息表示目标组件的具体目标信息。属性信息中可以包括属性头，该属性头中可以记录属性信息所属的种类及属性信息中所包含的描述信息项类型和数量。其中，时间空间属性是基本属性，可以包括标识号、时间、位置信息等；状态类属性是静态属性，可以包括类别、面积、颜色等；行为属性是动态属性，可以包括被动触发事件和主动行为事件。

为了更加清楚的说明多层数据结构，下面进行举例说明：某个腹腔镜手术场景中，包括器械、器官、器官边缘、主动脉等对象，器械正在对器官进行切除，并发生了出血事件。可以将器械、器官、器官边缘、主动脉打包为一个目标群，该目标群不仅包括上述对象的位置信息、面积信息，还可以包括对象之间的交互事件，例如器械对器官进行切除，器官在被切除过程中主动脉破裂形成出血事件。

具体的，例如图10所示，可以将器官作为目标组件1，其时间空间信息可以包括时间、位置坐标，状态类属性可以包括其类别(胆囊、卵巢等)、面积等，行为属性可以包括其被触发的事件和主动行为，这里可以为缺省状态。血管作为目标组件2，其时间空间信息可以包括时间、位置坐标，状态类属性可以包括其类别(静脉、动脉、筋膜等)、面积等，行为属性可以包括其被触发的事件(出血、破裂等)。器械作为目标组件3，其时间空间信息可以包括时间、位置坐标，状态类属性可以包括其类别(器械、器械头、缝合针、缝合线、纱布等)、面积等，行为属性可以包括其主动实施的行为(切割、冲洗、引流等)。

本申请实施例中，实现了内窥镜视频结构化信息提取及描述，使用深度学习技术完成内窥镜视频结构化信息提取，并根据内窥镜视频的特点，使用多层结构将结构化信息描述为智能元数据，然后打包在内窥镜视频码流中。在手术视频管理时，只需解码码流中的私有信息，即可快速获得结构化信息，增加了图像数据的易用性，可满足后续的视频检索定位、视频分段、视频解读等的智能应用需求。

本申请实施例还提供了一种图像数据处理方法，参见图11，该方法包括：

S101，获取待处理的图像数据。

本申请实施例的图像数据处理方法可以通过电子设备实现，具体的，该电子设备可以为内窥镜设备、智能摄像机或硬盘录像机等。待处理的图像数据为需要编码的图像数据可以为视频也可以为单张图片，均在本申请的保护范围内。

S102，利用预先训练的深度学习模型对上述图像数据进行处理，得到上述图像数据的描述信息，上述描述信息包括目标信息、场景信息及事件信息中的至少一种。

利用预先训练的深度学习模型对图像数据进行目标检测、场景检测及事件检测中的至少一种检测，得到图像数据的目标信息、场景信息及事件信息中的至少一种作为图像数据的描述信息。

S103，根据上述描述信息，生成多层结构的智能元数据流。

智能元数据流为多层结构，即智能元数据流是由一个或多个父级数据组成的，一个父级数据中包括一个或多个子级数据，同样的，一个子级数据中还可以包括一个或多个子级数据。在一种可能的实施方式中，上述智能元数据流包括至少一个智能元数据，一个上述智能元数据中包括至少一个元数据组件，一个上述元数据组件中包括时间空间属性、状态类属性及行为属性中的至少一种。

属性信息中可以包括属性头及描述信息。其中，属性头中可以记录属性信息所属的种类及属性信息中所包含的描述信息类型和数量；描述信息用于表示具体的事件。一种可能的实施方式中，上述时间空间属性包括属性头、标识信息、时间信息及空间信息；上述状态类属性包括属性头、类别信息及形态信息；上述行为属性包括属性头及事件类型。事件类型的具体内容可以根据实际情况自定义划分，一个例子中，事件类型包括主动事件及被动事件。

S104，对上述智能元数据流进行编码，对上述图像数据进行编码。

智能元数据流与图像数据的编码方式可以相同也可以不同，可以采用任意相关编码的协议对智能元数据流及图像数据进行编码，均在本申请的保护范围内。

S105，将编码后的智能元数据流封装至编码后的图像数据中，得到处理后的图像数据。

将编码后的智能元数据流封装至对应的图像数据编码的码流中，得到包括智能元数据流及图像数据码流的比特信息数据流，即处理后的图像数据。封装采用的协议可以是任意相关的封装协议，均在本申请的保护范围内。

在一种可能的实施方式中，上述方法还包括：解码处理后的图像数据得到智能元数据流及图像数据。

对处理后的图像数据进行解码，得到的智能元数据流及图像数据，即可获得结构化信息，可用于后续视频检索、分段等智能应用。

本申请实施例中，实现了目标信息、场景信息及事件信息等结构化信息的提取及描述，使用深度学习技术完成视频结构化信息提取，并根据视频的特点，使用多层结构将结构化信息描述为智能元数据流，然后打包在视频码流中。在视频管理时，只需解码码流中的私有信息，即可快速获得结构化信息，增加了图像数据的易用性，可满足后续的视频检索定位、视频分段、视频解读等的智能应用需求。

下面以图像数据为内窥镜图像数据为例进行具体说明，本申请实施例的图像数据处理方法还可以如图12所示，包括：

S201，获取待处理的内窥镜图像数据。

S202，利用预先训练的目标检测模型对上述内窥镜图像数据进行目标检测，得到上述内窥镜图像数据的组织器官信息及非组织器官信息。

组织器官信息及非组织器官信息统称为目标信息。组织器官信息为用于描述组织器官的信息，一种实施方式中，组织器官信息包括组织器官的属性、位置和面积。组织器官的属性可以包括组织器官的类型、状态等信息中的至少一种。组织器官包括但不限于器官、器官边缘、动脉、胆管、病灶等。

非组织器官信息为用于描述医疗物品的信息，一种实施方式中，非组织器官信息包括非组织器官的属性、位置和面积。非组织器官的属性可以包括非组织器官的类型、状态等信息中的至少一种。非组织器官包括但不限于手术器械、纱布、夹子、导管、缝合针、缝合线等。

S203，利用预先训练的场景分类模型对上述内窥镜图像数据进行场景分类，得到上述内窥镜图像数据的场景信息。

场景信主要描述内窥镜图像数据的全局特征，例如，拍摄部位、成像效果等，包括有/无及类别信息。

S204，利用预先训练的事件检测模型对上述内窥镜图像数据进行事件检测，得到上述内窥镜图像数据的主动行为信息及被动触发事件信息。

主动行为信息及被动触发事件信息统称为事件信息。主动行为信息是以指人的主动行为(包括但不限于分离、切除、缝合、冲洗、放置导流管等)为描述对象的信息；被动触发事件信息是指以被动触发事件(包括但不限于出血、起雾等)为描述对象的信息；主动行为信息及被动触发事件信息均可以包括事件类别及事件位置。

目标检测模型、场景分类模型、事件检测模型的具体描述可以参见上述实施例中的相关内容，此处不再赘述。

S205，根据上述组织器官信息、上述非组织器官信息、上述场景信息、上述主动行为信息及上述被动触发事件信息，生成多层结构的智能元数据流。

智能元数据流中的每个智能元数据可以对应一个Object Group(目标群)，此种情况下智能元数据流表示的是一种以目标群为基本单位的数据流格式。或者也可以认为智能元数据流表示的是设备层面的智能元数据的交换方式。例如图9所示，智能元数据流中可以带有头部，该头部中可以带有产生该智能元数据流的拍摄设备的设备信息，智能元数据则顺序排列在该头部之后。智能元数据可以包含多个元数据组件，每个元数据组件表示了内窥镜视频的多种属性信息。智能元数据实例化为目标群，元数据组件实例化为目标组件。

属性信息中可以包括属性头及描述信息。其中，属性头中可以记录属性信息所属的种类及属性信息中所包含的描述信息类型和数量；描述信息用于表示具体的事件。一种可能的实施方式中，上述时间空间属性包括属性头、标识信息、时间信息及空间信息；上述状态类属性包括属性头、类别信息及形态信息；上述行为属性包括属性头、主动事件及被动事件。

S206，对上述智能元数据流进行编码，对上述内窥镜图像数据进行编码。

智能元数据流与内窥镜图像数据的编码方式可以相同也可以不同，可以采用任意相关编码的协议对智能元数据流及内窥镜图像数据进行编码，均在本申请的保护范围内。

S207，将编码后的智能元数据流封装至编码后的内窥镜图像数据中，得到处理后的内窥镜图像数据。

将编码后的智能元数据流封装至对应的内窥镜图像数据编码的码流中，得到包括智能元数据流及内窥镜图像数据码流的比特信息数据流，即处理后的内窥镜图像数据。封装采用的协议可以是任意相关的封装协议，均在本申请的保护范围内。

在一种可能的实施方式中，上述方法还包括：解码处理后的内窥镜图像数据，得到智能元数据流及内窥镜图像数据。

对处理后的内窥镜图像数据进行解码，得到的智能元数据，即可获得结构化信息，在术后视频管理时，可用于后续视频检索、分段等智能应用。可以将将理后的内窥镜图像数据通过网络进行传输，实际应用中，通过网络传输的数据可以到达后端应用平台(例如内窥镜视频管理系统)，应用平台等解码端可以基于解码得到的智能元数据流实现例如视频检索定位、视频分段、视频解读等智能应用。

在一种可能的实施方式中，上述利用预先训练的深度学习模块对上述内窥镜图像数据进行目标检测，得到上述内窥镜图像数据的组织器官信息及非组织器官信息，包括：

步骤A，利用预先训练的深度学习模块中的目标检测模型的卷积层及池化层，对单帧上述内窥镜图像数据进行卷积及池化操作，得到上述内窥镜图像数据的第一图像特征信息。

步骤B，利用上述目标检测模型的候选区域生成网络，对上述第一图像特征信息进行候选区域检测，得到候选区域。

步骤C，利用上述目标检测模型的池化层，对上述候选区域进行池化操作，得到池化后的特征。

步骤D，利用上述目标检测模型的回归层对上述池化后的特征进行回归，得到上述内窥镜图像数据中的组织器官信息及非组织器官信息，其中，上述组织器官信息包括组织器官目标的类型、位置和面积，上述非组织器官信息包括非组织器官目标的类型、位置和面积。

上述利用预先训练的深度学习模块对上述内窥镜图像数据进行场景分类，得到上述内窥镜图像数据的场景信息，包括：

步骤E，利用预先训练的深度学习模块中的场景分类模型的卷积层及池化层，对单帧上述内窥镜图像数据进行卷积及池化操作，得到上述内窥镜图像数据的第二图像特征信息。

步骤F，根据上述组织器官目标位置、非组织器官目标的位置，利用上述场景分类模型的全连接层对上述第二图像特征信息进行分类，得到上述内窥镜图像数据的场景信息。

深度学习模块利用样本内窥镜图像数据及样本内窥镜图像数据中组织器官信息的真值数据及非组织器官信息的真值数据训练得到。

在本申请实施例中，将目标检测模型得到的组织器官信息及非组织器官信息作为场景分类模型的输入，能够减少场景分类模型的复杂度，同时提高场景分类模型的准确度。

在一种可能的实施方式中，上述利用预先训练的深度学习模块对上述内窥镜图像数据进行事件检测，得到上述内窥镜图像数据的主动行为信息及被动触发事件信息，包括：

步骤一，利用预先训练的深度学习模块中的事件检测模型的卷积神经网络对多帧上述内窥镜图像数据进行特征提取，得到多维行为特征向量。

一个例子中，可以利用预先训练的深度学习模块中的事件检测模型的3D卷积层神经网络，对多帧所述内窥镜图像数据进行特征编码，得到编码后的帧特征；利用所述事件检测模型的LSTM(Long Short-Term Memory，长短期记忆)神经网络对编码后的帧特征进行处理，得到多维行为特征向量。

一种可能的事件类别的检测过程可以如图7所示。将一视频段的5帧视频帧图像作为1个输入，使用3D卷积进行特征编码，然后使用长短期记忆LSTM神经网络对特征编码后的帧特征进行处理，其中，h(x)表示LSTM神经网络的隐含状态，S(t)表示输出的结果向量，S(t-5)表示过程向量。对特征向量S(t)采用逻辑分类，输出大于预设阈值的类别，采用sigmoid函数对特征向量S(t)进行最终的类别输出。具体地，采用sigmoid函数对特征向量S(t)进行类别输出，sigmoid函数由以下公式定义：

步骤二，利用上述事件检测模型的全连接层对上述多维行为特征向量进行分类，得到上述内窥镜图像数据的主动行为信息及被动触发事件信息，其中，上述主动行为信息包括主动行为事件的类型及位置，上述被动触发事件信息包括被动触发事件的类型及位置。

本申请实施例还提供了一种图像数据处理装置，参见图13，该装置包括：

图像数据获取模块21，用于获取待处理的图像数据。

结构化信息获取模块22，用于利用预先训练的深度学习模型对上述图像数据进行处理，得到上述图像数据的描述信息，上述描述信息包括目标信息、场景信息及事件信息中的至少一种。

智能元数据流生成模块23，用于根据上述描述信息，生成多层结构的智能元数据流。

智能元数据流编码模块24，用于对上述智能元数据流进行编码。

图像数据编码模块25，用于对上述图像数据进行编码。

数据封装模块26，用于将编码后的智能元数据流封装至编码后的图像数据中，得到处理后的图像数据。

本申请实施例中的结构化信息获取模块22相当于上述内窥镜视频处理系统中的信息提取模块11；本申请实施例中的智能元数据流生成模块23相当于上述内窥镜视频处理系统中的智能元数据生成模块12；本申请实施例中的智能元数据流编码模块24相当于上述内窥镜视频处理系统中的数据流编码模块13；本申请实施例中的数据封装模块26相当于上述内窥镜视频处理系统中的数据流封装模块14。

在一种可能的实施方式中，上述智能元数据流包括至少一个智能元数据，一个上述智能元数据中包括至少一个元数据组件，一个上述元数据组件中包括时间空间属性、状态类属性及行为属性中的至少一种。

在一种可能的实施方式中，上述时间空间属性包括属性头、标识信息、时间信息及空间信息；上述状态类属性包括属性头、类别信息及形态信息；上述行为属性包括属性头及事件类型。

在一种可能的实施方式中，上述图像数据为内窥镜图像数据，上述目标信息包括组织器官信息及非组织器官信息，上述事件信息包括主动行为信息及被动触发事件信息；

上述结构化信息获取模块，包括目标检测子模块、场景分类子模块、事件检测子模块中的至少一个：

上述目标检测子模块，用于利用预先训练的深度学习模块对上述内窥镜图像数据进行目标检测，得到上述内窥镜图像数据的组织器官信息及非组织器官信息；

上述场景分类子模块，用于利用预先训练的深度学习模块对上述内窥镜图像数据进行场景分类，得到上述内窥镜图像数据的场景信息；

上述事件检测子模块，用于利用预先训练的深度学习模块对上述内窥镜图像数据进行事件检测，得到上述内窥镜图像数据的主动行为信息及被动触发事件信息。

在一种可能的实施方式中，上述目标检测子模块，具体用于：利用预先训练的深度学习模块中的目标检测模型的卷积层及池化层，对单帧上述内窥镜图像数据进行卷积及池化操作，得到上述内窥镜图像数据的第一图像特征信息；利用上述目标检测模型的候选区域生成网络，对上述第一图像特征信息进行候选区域检测，得到候选区域；利用上述目标检测模型的池化层，对上述候选区域进行池化操作，得到池化后的特征；利用上述目标检测模型的回归层对上述池化后的特征进行回归，得到上述内窥镜图像数据中的组织器官信息及非组织器官信息，其中，上述组织器官信息包括组织器官目标的类型、位置和面积，上述非组织器官信息包括非组织器官目标的类型、位置和面积；

上述上述场景分类子模块，具体用于：利用预先训练的深度学习模块中的场景分类模型的卷积层及池化层，对单帧上述内窥镜图像数据进行卷积及池化操作，得到上述内窥镜图像数据的第二图像特征信息；根据上述组织器官目标位置、非组织器官目标的位置，利用上述场景分类模型的全连接层对上述第二图像特征信息进行分类，得到上述内窥镜图像数据的场景信息。

在一种可能的实施方式中，上述事件检测子模块，具体用于：利用预先训练的深度学习模块中的事件检测模型的卷积神经网络对多帧上述内窥镜图像数据进行特征提取，得到多维行为特征向量；利用上述事件检测模型的全连接层对上述多维行为特征向量进行分类，得到上述内窥镜图像数据的主动行为信息及被动触发事件信息，其中，上述主动行为信息包括主动行为事件的类型及位置，上述被动触发事件信息包括被动触发事件的类型及位置。

本申请实施例还提供了一种电子设备，包括：处理器及存储器；

上述存储器，用于存放计算机程序；

上述处理器用于执行上述存储器存放的计算机程序时，实现上述任一图像数据处理方法。

可选的，参见图14，除了存储器33及处理器31外，本申请实施例的电子设备还包括通信接口32和通信总线34，其中，处理器31，通信接口32，存储器33通过通信总线34完成相互间的通信。

上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种内窥镜系统，参见图15，该内窥镜系统包括：内窥镜41、光源设备42及摄像系统主机43；上述内窥镜41用于采集被检体的图像数据；上述光源设备42用于为上述内窥镜41提供拍摄光源；上述摄像系统主机43用于在运行时实现上述任一上述的图像数据处理方法。

在一种可能的实施方式中，参见图16a及图16b，上述内窥镜系统还包括：显示设备44及存储设备45；上述摄像系统主机43还用于将上述内窥镜41采集的图像数据发送给上述显示设备44，将上述处理后的图像数据存储到上述存储设备45中；上述显示设备44用于显示上述图像数据；上述存储设备45用于存储上述处理后的图像数据。

内窥镜系统包括内窥镜、光源设备、摄像系统主机、显示设备和存储设备。内窥镜系统中的内窥镜能够插入患者等检体来拍摄被检体的体内，将拍摄的体内图像输出到外部的显示装置和存储装置。使用者通过观察由显示装置显示的体内图像，来检查作为检测对象部位的出血部位、肿瘤部位和异常部位的有无，并提供手术治疗的实时影像。使用者可以通过访问存储装置中的视频数据，进行术后回顾和手术培训。内窥镜通过插入被检体来拍摄被检体的观察部位并生成图像数据。光源设备提供从内窥镜前端射出的照明光。摄像系统主机对内窥镜采集的图像数据实施上述图像数据处理方法，并且统一控制内窥镜系统整体的动作。显示设备显示与内窥镜系统主机的图像数据对应的图像。存储设备存储内窥镜系统主机处理后的图像数据。

在一种可能的实施方式中，参见图17，内窥镜包括摄像光学单元、处理单元、成像单元及第一操作单元，光源设备包括照明控制单元及照明单元，摄像系统主机包括控制单元、第二操作单元、图像输入单元、图像处理单元、智能处理单元、视频编码单元。

内窥镜具有摄像光学单元、成像单元、处理单元和第一操作单元。摄像光学单元对来自观察部位的光进行聚光。摄像光学单元可以使用一个或多个透镜构成。成像单元对各像素接收到的光进行光电转换来生成图像数据。成像单元可以由CMOS(互补金属氧化物半导体)或CCD(电荷耦合器件)等图像传感器组成。处理单元将成像单元生成的图像数据转换成数字信号，并将转换后的信号发送到摄像系统主机。第一操作单元受理切换内窥镜的动作的指示信号和用于使光源设备进行照明光的切换动作的指示信号灯的输入，并将指示信号输出到摄像系统主机。第一操作单元包括但不限于开关、按钮和触摸面板。

光源设备包含照明控制单元和照明单元。照明控制单元接收摄像系统主机的指示信号，以控制照明单元向内窥镜提供照明光。

摄像系统主机对从内窥镜接收到的图像数据进行处理并传输给显示设备和存储设备。显示设备和存储设备可以为外置设备。摄像系统主机包括图像输入单元、图像处理单元、智能处理单元、视频编码单元、控制单元和第二操作单元。图像输入单元接收内窥镜发送过来的信号，并将接受到的信号传输给图像处理单元。图像处理单元对图像输入单元的图像进行ISP(Image Signal Processor，图像信号处理)操作，包括但不限于亮度变换、锐化、去摩尔纹、缩放等。图像处理单元将ISP操作后的图像传输给智能处理单元、视频编码单元或显示装置。智能处理单元对图像处理单元ISP操作后的图像进行智能分析，包括但不限于基于深度学习的场景分类、器械器械头检测、纱布检测、摩尔纹分类和浓雾分类。智能处理单元处理后的图像传输给图像处理单元或视频编码单元。图像处理单元对智能处理单元处理后的图像的处理方式包括但不限于亮度变换、去摩尔纹、叠框和缩放。视频编码单元将图像处理单元或智能处理单元处理后的图像进行编码压缩，并传输给存储装置。控制单元控制内窥镜系统的各个部分，包括但不限于光源的照明方式、图像处理方式、智能处理方式和视频编码方式。第二操作单元包括但不限于开光、按钮和触摸面板，受理外部指示信号，将受理的指示信号输出到控制单元。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质内存储有计算机程序，上述计算机程序被处理器执行时实现上述任一图像数据处理方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一图像数据处理方法。。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

需要说明的是，在本文中，各个可选方案中的技术特征只要不矛盾均可组合来形成方案，这些方案均在本申请公开的范围内。诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种图像数据处理方法，其特征在于，所述方法包括：

获取待处理的图像数据；

利用预先训练的深度学习模型对所述图像数据进行处理，得到所述图像数据的描述信息，所述描述信息包括目标信息、场景信息及事件信息中的至少一种；

根据所述描述信息，生成多层结构的智能元数据流；

对所述智能元数据流进行编码，对所述图像数据进行编码；

将编码后的智能元数据流封装至编码后的图像数据中，得到处理后的图像数据。

2.根据权利要求1所述的方法，其特征在于，所述智能元数据流包括至少一个智能元数据，一个所述智能元数据中包括至少一个元数据组件，一个所述元数据组件中包括时间空间属性、状态类属性及行为属性中的至少一种。

3.根据权利要求2所述的方法，其特征在于，所述时间空间属性包括属性头、标识信息、时间信息及空间信息；所述状态类属性包括属性头、类别信息及形态信息；所述行为属性包括属性头及事件类型。

4.根据权利要求1所述的方法，其特征在于，所述图像数据为内窥镜图像数据，所述目标信息包括组织器官信息及非组织器官信息，所述事件信息包括主动行为信息及被动触发事件信息；

所述利用预先训练的深度学习模块对所述图像数据进行处理，得到所述图像数据的描述信息，至少包括如下步骤之一：

利用预先训练的深度学习模块对所述内窥镜图像数据进行目标检测，得到所述内窥镜图像数据的组织器官信息及非组织器官信息；

利用预先训练的深度学习模块对所述内窥镜图像数据进行场景分类，得到所述内窥镜图像数据的场景信息；

利用预先训练的深度学习模块对所述内窥镜图像数据进行事件检测，得到所述内窥镜图像数据的主动行为信息及被动触发事件信息。

5.根据权利要求4所述的方法，其特征在于，所述利用预先训练的深度学习模块对所述内窥镜图像数据进行目标检测，得到所述内窥镜图像数据的组织器官信息及非组织器官信息，包括：

利用预先训练的深度学习模块中的目标检测模型的卷积层及池化层，对单帧所述内窥镜图像数据进行卷积及池化操作，得到所述内窥镜图像数据的第一图像特征信息；

利用所述目标检测模型的候选区域生成网络，对所述第一图像特征信息进行候选区域检测，得到候选区域；

利用所述目标检测模型的池化层，对所述候选区域进行池化操作，得到池化后的特征；

利用所述目标检测模型的回归层对所述池化后的特征进行回归，得到所述内窥镜图像数据中的组织器官信息及非组织器官信息，其中，所述组织器官信息包括组织器官目标的类型、位置和面积，所述非组织器官信息包括非组织器官目标的类型、位置和面积；

所述利用预先训练的深度学习模块对所述内窥镜图像数据进行场景分类，得到所述内窥镜图像数据的场景信息，包括：

利用预先训练的深度学习模块中的场景分类模型的卷积层及池化层，对单帧所述内窥镜图像数据进行卷积及池化操作，得到所述内窥镜图像数据的第二图像特征信息；

根据所述组织器官目标位置、非组织器官目标的位置，利用所述场景分类模型的全连接层对所述第二图像特征信息进行分类，得到所述内窥镜图像数据的场景信息。

6.根据权利要求4所述的方法，其特征在于，所述利用预先训练的深度学习模块对所述内窥镜图像数据进行事件检测，得到所述内窥镜图像数据的主动行为信息及被动触发事件信息，包括：

利用预先训练的深度学习模块中的事件检测模型的卷积神经网络对多帧所述内窥镜图像数据进行特征提取，得到多维行为特征向量；

利用所述事件检测模型的全连接层对所述多维行为特征向量进行分类，得到所述内窥镜图像数据的主动行为信息及被动触发事件信息，其中，所述主动行为信息包括主动行为事件的类型及位置，所述被动触发事件信息包括被动触发事件的类型及位置。

7.一种内窥镜系统，其特征在于，所述内窥镜系统包括：

内窥镜、光源设备及摄像系统主机；

所述内窥镜用于采集被检体的图像数据；

所述光源设备用于为所述内窥镜提供拍摄光源；

所述摄像系统主机用于在运行时实现上述权利要求1-6任一所述的图像数据处理方法。

8.根据权利要求7所述的系统，其特征在于，所述内窥镜系统还包括：显示设备及存储设备；

所述摄像系统主机还用于将所述内窥镜采集的图像数据发送给所述显示设备，将所述处理后的图像数据存储到所述存储设备中；

所述显示设备用于显示所述图像数据；

所述存储设备用于存储所述处理后的图像数据。

9.一种图像数据处理装置，其特征在于，所述装置包括：

图像数据获取模块，用于获取待处理的图像数据；

结构化信息获取模块，用于利用预先训练的深度学习模型对所述图像数据进行处理，得到所述图像数据的描述信息，所述描述信息包括目标信息、场景信息及事件信息中的至少一种；

智能元数据流生成模块，用于根据所述描述信息，生成多层结构的智能元数据流；

智能元数据流编码模块，用于对所述智能元数据流进行编码；

图像数据编码模块，用于对所述图像数据进行编码；

数据封装模块，用于将编码后的智能元数据流封装至编码后的图像数据中，得到处理后的图像数据。

10.根据权利要求9所述的装置，其特征在于，所述智能元数据流包括至少一个智能元数据，一个所述智能元数据中包括至少一个元数据组件，一个所述元数据组件中包括时间空间属性、状态类属性及行为属性中的至少一种。

11.根据权利要求10所述的装置，其特征在于，所述时间空间属性包括属性头、标识信息、时间信息及空间信息；所述状态类属性包括属性头、类别信息及形态信息；所述行为属性包括属性头及事件类型。

12.根据权利要求9所述的装置，其特征在于，所述图像数据为内窥镜图像数据，所述目标信息包括组织器官信息及非组织器官信息，所述事件信息包括主动行为信息及被动触发事件信息；

所述结构化信息获取模块，包括目标检测子模块、场景分类子模块、事件检测子模块中的至少一个：

所述目标检测子模块，用于利用预先训练的深度学习模块对所述内窥镜图像数据进行目标检测，得到所述内窥镜图像数据的组织器官信息及非组织器官信息；

所述场景分类子模块，用于利用预先训练的深度学习模块对所述内窥镜图像数据进行场景分类，得到所述内窥镜图像数据的场景信息；

所述事件检测子模块，用于利用预先训练的深度学习模块对所述内窥镜图像数据进行事件检测，得到所述内窥镜图像数据的主动行为信息及被动触发事件信息。

13.根据权利要求12所述的装置，其特征在于，所述目标检测子模块，具体用于：利用预先训练的深度学习模块中的目标检测模型的卷积层及池化层，对单帧所述内窥镜图像数据进行卷积及池化操作，得到所述内窥镜图像数据的第一图像特征信息；利用所述目标检测模型的候选区域生成网络，对所述第一图像特征信息进行候选区域检测，得到候选区域；利用所述目标检测模型的池化层，对所述候选区域进行池化操作，得到池化后的特征；利用所述目标检测模型的回归层对所述池化后的特征进行回归，得到所述内窥镜图像数据中的组织器官信息及非组织器官信息，其中，所述组织器官信息包括组织器官目标的类型、位置和面积，所述非组织器官信息包括非组织器官目标的类型、位置和面积；

所述所述场景分类子模块，具体用于：利用预先训练的深度学习模块中的场景分类模型的卷积层及池化层，对单帧所述内窥镜图像数据进行卷积及池化操作，得到所述内窥镜图像数据的第二图像特征信息；根据所述组织器官目标位置、非组织器官目标的位置，利用所述场景分类模型的全连接层对所述第二图像特征信息进行分类，得到所述内窥镜图像数据的场景信息。

14.根据权利要求12所述的装置，其特征在于，所述事件检测子模块，具体用于：利用预先训练的深度学习模块中的事件检测模型的卷积神经网络对多帧所述内窥镜图像数据进行特征提取，得到多维行为特征向量；利用所述事件检测模型的全连接层对所述多维行为特征向量进行分类，得到所述内窥镜图像数据的主动行为信息及被动触发事件信息，其中，所述主动行为信息包括主动行为事件的类型及位置，所述被动触发事件信息包括被动触发事件的类型及位置。

15.一种电子设备，其特征在于，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-6任一所述的图像数据处理方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的图像数据处理方法。