WO2023113500A1 - 의료영상의 깊이영상 예측 시스템 및 방법 - Google Patents
의료영상의 깊이영상 예측 시스템 및 방법 Download PDFInfo
- Publication number
- WO2023113500A1 WO2023113500A1 PCT/KR2022/020457 KR2022020457W WO2023113500A1 WO 2023113500 A1 WO2023113500 A1 WO 2023113500A1 KR 2022020457 W KR2022020457 W KR 2022020457W WO 2023113500 A1 WO2023113500 A1 WO 2023113500A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- medical image
- depth
- virtual
- depth image
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 230000003190 augmentative effect Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 3
- 230000003902 lesion Effects 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 13
- 230000004913 activation Effects 0.000 description 6
- 238000003745 diagnosis Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 4
- 210000001835 viscera Anatomy 0.000 description 3
- 210000004204 blood vessel Anatomy 0.000 description 2
- 238000002052 colonoscopy Methods 0.000 description 2
- 238000001839 endoscopy Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000000968 intestinal effect Effects 0.000 description 2
- 210000002429 large intestine Anatomy 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000002583 angiography Methods 0.000 description 1
- 238000002399 angioplasty Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 230000008984 colonic lesion Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000013154 diagnostic monitoring Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 238000002575 gastroscopy Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 210000000936 intestine Anatomy 0.000 description 1
- 229960005336 magnesium citrate Drugs 0.000 description 1
- 235000002538 magnesium citrate Nutrition 0.000 description 1
- 239000004337 magnesium citrate Substances 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002271 resection Methods 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- PLSARIKBYIPYPF-UHFFFAOYSA-H trimagnesium dicitrate Chemical compound [Mg+2].[Mg+2].[Mg+2].[O-]C(=O)CC(O)(CC([O-])=O)C([O-])=O.[O-]C(=O)CC(O)(CC([O-])=O)C([O-])=O PLSARIKBYIPYPF-UHFFFAOYSA-H 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/04—Texture mapping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
Definitions
- the present invention relates to a system and method for predicting a depth image of a medical image, and more particularly, by taking at least one collected medical image as an input, outputting a similar medical image of another domain or other modality and a corresponding depth image, and outputting the output
- a pair of similar medical images and depth images are stored as an input image and an answer image, respectively, to generate learning data, and a neural network equipped with a neural network that uses the input similar medical image as an input and trains a neural network that uses a depth image as an output to predict a depth image. It's about technology.
- Gastrointestinal and colonic lesions are caused by mutations in mucosal cells, and the larger the size, the greater the possibility of growing into malignant cells, leading to cancer. Endoscopy is the only method for examining these lesions.
- the depth image quantified as the correct answer image based on supervised learning can be extracted, there is a problem in that the quality of the depth image extracted from the endoscopic image including various external factors such as reflected light, bubbles, and blood vessels is degraded.
- the present applicant takes at least one collected medical image as an input and outputs a similar medical image of another domain or other modality and a corresponding depth image, and stores the output similar medical image and depth image pair as an input image and an answer image, respectively.
- To generate learning data and to propose a method for predicting depth images by training a neural network equipped with a neural network and using similar medical images as inputs and depth images as outputs.
- the technical problem to be achieved by the present invention is to output a similar medical image of another domain or another modality and a corresponding depth image by taking at least one collected medical image as an input, and input the output similar medical image and depth image pair, respectively.
- learning data is created by saving images and correct answer images, training a neural network with similar medical images as input and depth images as output, and outputting depth images with medical images collected by the trained neural network as input, high resolution It is to be able to easily derive the lesion location and diagnosis with the depth image of the depth image, thereby increasing the lesion diagnosis rate.
- At least one collected medical image is simulated as an input, and a similar medical image of a domain different from the input medical image or a different modality and a corresponding depth image are output, and the output similar medical image and depth image pair are input images, respectively.
- a data generating device for generating learning data by storing the correct answer image;
- a depth image prediction device provided as a neural network and training a neural network that uses the similar medical image as an input and outputs a depth image as an output;
- the depth image prediction unit calculates the depth image prediction unit, calculates the depth image prediction unit, and calculates
- It is characterized in that it is provided to output a depth image by taking medical images collected by the trained neural network as an input.
- the learning device Preferably, the learning device,
- the learning device The learning device,
- a 3D model generating unit that segments a plurality of medical images and then generates a 3D volume-shaped medical image
- a virtual medical image conversion unit for outputting a 2D virtual medical image and a depth image of the virtual medical image by taking the 3D model as an input;
- a similar medical image converter converting the virtual medical image into a similar medical image
- a learning model construction unit configured to construct learning data by storing the generated similar medical image and depth image as an input image and an answer image, respectively.
- the virtual medical image conversion unit Preferably, the virtual medical image conversion unit,
- the 3D model is projected into real space, virtual space, or augmented space, converted into a 2D virtual medical image at a specific location in space, and a depth image corresponding to the 2D virtual medical image is calculated in real space, virtual space, or augmented space. It may be provided to output.
- the similar medical image conversion unit Preferably, the similar medical image conversion unit,
- a neural network for converting the virtual medical image into a similar medical image similar to the actual medical image by training the texture and color of the real medical image using the generated virtual medical image as an input.
- At least one collected medical image is simulated as an input, and a similar medical image of a domain different from the input medical image or a different modality and a corresponding depth image are output, and the output similar medical image and depth image pair are input images, respectively. and a data generation step of generating learning data by storing the image as a correct answer; and
- It is characterized in that it includes a depth image prediction step of predicting a depth image by training a neural network provided as a neural network and using the input similar medical image as an input and a depth image as an output.
- the virtual medical image Preferably, the virtual medical image,
- the 3D model is projected into real space, virtual space, or augmented space, converted into a 2D virtual medical image viewed from a specific position in the space, and a depth image corresponding to the 2D virtual medical image is calculated in real space, virtual space, or augmented space. and can be provided to output.
- a similar medical image of another domain or another modality and a corresponding depth image are output by taking at least one collected medical image as an input, and the output similar medical image and depth image pair are input image and answer image, respectively.
- train a neural network that takes a similar medical image as an input and outputs a depth image, and outputs a depth image with the medical image collected by the trained neural network as an input, resulting in a high-resolution depth image.
- the location and diagnosis of the lesion can be easily derived, thereby increasing the diagnosis rate of the lesion.
- FIG. 1 is a configuration diagram of a system for predicting a depth image of a medical image according to an embodiment.
- FIG. 2 is a detailed configuration diagram of the depth image prediction system of FIG. 1 .
- FIG. 3 is a detailed configuration diagram of the data generating device of FIG. 1;
- FIG. 4 is a diagram showing a processing algorithm of the data generating device of FIG. 3;
- 5 is exemplary diagrams showing 3D medical images applied to an embodiment.
- FIG. 6 is exemplary diagrams showing the virtual medical image and depth image of FIG. 2 .
- FIG. 7 is an overall configuration diagram of the neural network of the learning model building unit of FIG. 3 .
- FIG. 8 is a detailed configuration diagram of a convolution module of the neural network of FIG. 7 .
- FIG. 9 is exemplary diagrams showing output images of the neural network of FIG. 7 .
- FIG. 10 is an overall configuration diagram of the 7 neural network of FIG. 7 .
- FIG. 11 is a block diagram of each convolution module of the encoder and decoder of the neural network of FIG. 10 .
- FIG. 12 is an exemplary view showing an output image of each unit according to an exemplary embodiment.
- first or second may be used to describe various components, such terms should only be construed for the purpose of distinguishing one component from another.
- a first element may be termed a second element, and similarly, a second element may be termed a first element.
- a medical image refers to an image acquired by an angioplasty or gastroscopy through CT or MRI, and the terms medical image or endoscopic image will be used interchangeably.
- FIG. 1 is a configuration diagram of a depth image prediction system for medical images according to an embodiment
- FIG. 2 is a detailed configuration diagram of the depth image prediction system of FIG. 1
- FIG. 3 is a detailed configuration diagram of the data generating device of FIG. 1
- FIG. 4 is a diagram showing a processing algorithm of the data generating device of FIG. 3
- FIG. 5 is an example diagram showing a 3D medical image applied to an embodiment
- FIG. 6 is an example diagram showing a virtual medical image and a depth image of FIG.
- Figure 7 is an overall configuration diagram of the neural network of the learning model building unit of Figure 3
- Figure 8 is a detailed configuration diagram of the convolution module of the neural network of Figure 7
- Figure 9 is an example diagram showing the output image of the neural network of Figure 7 10 is an overall configuration diagram of the 7 neural network of FIG. 7
- FIG. 11 is a configuration diagram of each convolution module of the encoder and decoder of the neural network of FIG. 10
- FIG. 12 is an exemplary diagram showing output images of each unit in one embodiment.
- a system for predicting a depth image of a medical image includes a data generating device 1 and a depth image predicting device 2, wherein the data generating device 1 is configured to collect at least With one medical image as an input, similar medical images of other domains or other modalities and corresponding depth images are output, and the output similar medical image and depth image pairs are stored as an input image and an answer image, respectively, to generate learning data.
- the data generating device 1 includes a 3D model generating unit 11, a virtual medical image converting unit 12, a similar medical transforming unit 13, and a learning model building unit 14. ).
- the 3D model generation unit 11 and the virtual medical image conversion unit 12 are provided with the aforementioned simulation tool.
- the 3D model generating unit 11 generates a 3D medical image by converting pixel values output from segments of a plurality of collected medical images into a 3D volume shape.
- the segment removes the air part included in the collected medical image, removes the remaining medical images except for the largest medical image, and then removes the inside of the medical image through a margin technique.
- a medical image of a colonoscopy taken by colonography CT has a pixel value as low as air, and therefore, a colonoscopy image has a minimum value of 1 Segmented via Slicer set to /3.
- an endoscopic image in the form of a CT volume of the CT Colonography open data set taken by angiography is shown in FIG. 5 .
- the virtual medical image conversion unit 12 generates a 2D virtual medical image and a depth image corresponding to the 2D virtual medical image through simulation using the Unity engine for the input 3D medical image.
- the Unity engine expresses a virtual medical image with an image resolution of 256 ⁇ 256 pixels in the same field of view and position inside the 3D medical image through an RGB camera and a depth camera, and expresses the virtual depth image as a grayscale image.
- the depth image may indicate a depth of at least 0.01 cm to a maximum of 20 cm.
- the Unity engine can add elements that can appear on the camera in the actual endoscope environment, such as camera movement, motion blur, endoscope light source, and depth effect according to distance, in order to convert a virtual medical image that has a high similarity to the input medical image. there is.
- the process of generating virtual medical images and depth images using the Unity engine is the same as or similar to the process of generating virtual images in virtual space using a virtual camera using a general Unity game engine.
- the real large intestine has different textures depending on its location, and there are blood vessels and foreign substances in the intestinal wall, and the characteristics of the tube caused by reflection by the liquid of the intestinal wall are shown in the endoscopic image, but in the virtual medical image, the texture of the intestine, foreign substances or liquid reflection cannot be implemented, and as a result, as shown in FIG. 6, it is a clean and monotonous image.
- the data generating device 1 converts the virtual medical image into a similar medical image similar to the real medical image through domain conversion to represent the texture and color of the real medical image in the virtual medical image generated through the similar medical image conversion unit 13. It further performs the function of converting to video.
- the similar medical image conversion unit 13 performs image domain conversion on a virtual medical image through a neural network (Cycle Consistent Adversarial Network: hereinafter abbreviated as Cycle GAN).
- Cycle GAN Network Consistent Adversarial Network
- the generator model shown in (a) is built using the Unet neural network including an encoder and a decoder, and the discriminator model shown in (b) has the same structure as the encoder of the generator model and has a 16 ⁇ 1 Through the convolution of the output, real (G) and fake (F) are discriminated.
- the discriminator model is a patch discriminator, the final output of the input image is discriminated whether it is real or fake based on 16 patches, and thus more precise judgment results can be generated.
- the similar medical image conversion unit 13 using the generator model and the discriminator model has the minimum average value of the difference between the input virtual medical image of the virtual medical image conversion unit 12 and the actual medical image.
- the weights of the neural network are derived based on a predetermined loss function, and the domain conversion of the virtual medical image is performed by training the texture and color of the domain-converted virtual medical image with the neural network reflecting the derived weights, and the similar medical image is output.
- the cycle GAN shown in (c) includes a producer model that converts a virtual medical image into a real medical image and a producer model that converts a real image into a virtual endoscopic image, and a discriminator model that discriminates a real medical image and a virtual medical image It includes a discriminator model that discriminates.
- a total of four neural networks are used.
- Each neural network of each producer and discriminator model is provided with a plurality of convolution modules 130, and each convolution module 130 includes a two-dimensional convolution layer 1311, an active layer ( 1312), and an instance normalization layer 1313, where the resolution of the 2D convolution layer 1311 is reduced by a factor of 2 by a stride 2.
- the activation layer 1312 is provided with an activation function of Leaky ReLu, and parameters of the activation function may be set to 0.2 and a negative number of -0.2.
- the instance normalization layer 1313 normalizes the channel using the mean and standard deviation in the channel direction.
- cycle GAN since cycle GAN is a bi-directional domain transform for images, it trains on images without distinguishing between input and output images. Therefore, the domain-converted virtual medical image of the cycle GAN has increased diversity and improved performance compared to images normalized in the existing arrangement direction.
- X and Y are data of each domain to be transformed
- G and F are generators used for image domain conversion
- D x and D y are cycle GAN including discriminators for distinguishing real and fake images of each domain.
- Equation 1 y through the constructor F and is determined by D x , through the constructor G
- Cyclic GAN is the loss function Search for the minimum average value of the error between the actual medical image input as the solution and the domain-converted virtual medical image, and train the virtual medical image of RGB input as a cycle GAN in which the weight derived from the searched average minimum value is reflected.
- Output virtual medical images That is, as shown in FIG. 9, the similar medical image conversion unit 13 transforms the input virtual medical image into a virtual medical image in which the texture and color characteristics of the actual medical image are reflected without a separate correct answer image. derive Then, the domain-converted virtual medical image is transmitted to the learning model building unit 14.
- the learning model builder 14 derives the virtual medical image domain-converted based on the generator technique into a virtual medical image of a predetermined batch size, and then uses the aggregation technique to invert the read batch size virtual medical image up and down , performing preprocessing such as horizontal inversion, random brightness control, random contrast control, and random color change.
- the learning model builder 14 trains the preprocessed virtual medical image based on the neural network, outputs a depth image, and stores the output depth image and domain-converted virtual medical image pair as an answer image.
- the neural network of the learning model construction unit 14 may be provided with various neural networks such as a depth estimation neural network using a combination structure of Unet and Unet provided as an encoder and a decoder, but one embodiment is depth prediction
- a neural network (DepthNet) is described as an example, but is not limited thereto.
- the neural network of the learning model builder 14 has a structure in which an encoder is coupled to a decoder and may preserve structural information about an input medical image.
- the convolution module 141 of the encoder is composed of a 2D convolution layer 1411, a batch normalization layer 1412, and an activation layer 1413 of a ReLu activation function, as shown in FIG.
- the convolution module 142 of the decoder includes an upsampling layer 1421 for upsampling the output of the 2D convolution 141 of the encoder, a 2D convolution layer 1422, a batch normalization layer 1423, and a ReLu activation function. It is provided as an active layer 1424 of. Therefore, as the 2D convolution is performed after upsampling, the grid phenomenon that may appear in the conventional transformed convolution can be minimized.
- the depth prediction neural network (DepthNet) is implemented as an assistant loss structure that is not coupled to the next decoder. Accordingly, since the depth prediction neural network (DepthNet) of the assistant loss structure can perform a process of comparing low-resolution feature information with the correct image in the backpropagation process, the number of parameters can be reduced.
- the neural network of the learning model builder 14 trains the domain-converted virtual medical image as an input, outputs a predicted depth image, and calculates the error between the predicted depth image and the virtual depth image of the virtual medical image converter 12 and Weights of the neural network are derived with a predetermined loss function, and a depth image is output by training the domain-converted virtual medical image based on the neural network in which the derived weights are reflected.
- the depth image prediction device 2 trains the input similar medical image based on a pre-constructed neural network to output a predicted depth image, and the error between the predicted depth image and the depth image of the learning model builder 14 and deriving the weights of the neural network with a predetermined loss function, and outputting a depth image by training the domain-converted similar medical image based on the neural network in which the derived weights are reflected.
- the neural network is provided with the aforementioned depth prediction neural network (DepthNet).
- a high resolution depth image (translation) can be obtained for an input similar medical image based on the depth imaging system according to an embodiment.
- At least one collected medical image is used as an input to output a similar medical image of another domain or other modality and a corresponding depth image, and the output similar medical image and depth image pair are stored as an input image and an answer image, respectively, to obtain training data.
- training a neural network that takes similar medical images as inputs and outputs depth images, and outputs depth images with medical images collected by the trained neural network as inputs, based on the learning model for the input medical images.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Computer Graphics (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Geometry (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
본 기술은 의료영상의 깊이영상 예측 시스템 및 이의 제어방법이 개시된다. 이러한 본 기술에 대한 구체적인 구현 예는 수집된 의료영상을 세그먼트한 다음 3차원 볼륨 형태의 3차원 의료영상을 생성하고, 생성된 3차원 의료영상을 현실공간 또는 실감공간 상의 가상의료영상으로 변환한 다음 변환된 가상의료영상의 깊이영상과 가상의료영상을 각각 도출하며, 도출된 가상의료영상의 텍스쳐 및 색감에 대해 신경망을 통해 훈련하여 영상 도메인 변환하며, 도메인 변환된 가상의료영상을 신경망을 기반으로 훈련하여 깊이영상을 출력한 후 출력된 깊이영상 및 가상의료영상 쌍을 정답 영상으로 저장하여 학습모델을 구축함에 따라, 입력된 의료영상에 대해 학습모델에 의거한 신경망을 기반으로 깊이영상을 예측할 수 있고, 고해상도의 깊이영상으로 병변 위치를 정확하게 도출할 수 있으며, 이에 병변 진단율을 높일 수 있다.
Description
본 발명은 의료영상의 깊이영상 예측 시스템 및 방법에 관한 것으로서, 더욱 상세하게는 수집된 적어도 하나의 의료영상을 입력으로 하여 다른 도메인 또는 다른 모달리티의 유사의료영상과 해당하는 깊이영상을 출력하고 출력된 유사의료영상과 깊이영상 쌍을 각각 입력 영상과 정답 영상으로 저장하여 학습 데이터를 생성하고, 신경망으로 구비되고 입력된 유사의료영상을 입력으로 하고 깊이 영상을 출력으로 하는 신경망을 훈련하여 깊이영상을 예측할 수 있는 기술에 관한 것이다.
위장 및 대장의 병변은 점막 세포의 돌연변이로 인해 발생되는 것으로 크기가 클수록 악성 세포로 성장할 가능성이 커져 암으로 발전한다. 이러한 병변을 검사하기 위한 유일한 방법은 내시경 검사이다.
이러한 내시경 검사 시 절제도구를 이용하여 작은 크기의 용종 제거는 가능하나 큰 용종은 여러 번 추적검사를 통해 제거되거나 수술을 통해 제거된다. 이러한 용종 제거를 위해 병변의 위치는 매우 중요한 요소이다.
이에 인공지능 등을 이용하고 병변의 위치를 추적하고 있으며 이를 위해 위장 및 대장 등의 장기 내부의 지도가 필요하고 이러한 장기 내부의 지도는 2차원의 거리센서를 이용한 위치정보 및 깊이정보를 포함하여야 한다. 그러나 장기 내부의 물리적인 크기가 제한되므로 깊이영상을 획득하는 센서의 삽입은 불가능하다.
이에 카메라 이동 및 깊이 영상 간의 상관 관계를 이용하여 딥러닝의 비지도 학습 기반으로 추출된 깊이 영상에서 깊이정보의 추정은 가능하나, 장기의 움직임이 발생하는 경우 오차가 커지는 한계에 도달하였다.
또한 지도 학습 기반의 정답영상으로 정량화된 깊이 영상은 추출할 수 있으나, 반사광, 거품, 및 혈관 등의 다양한 외부 요인을 포함하는 내시경 영상에서 추출된 깊이 영상의 품질이 저하되는 문제점이 있었다.
이에 본 출원인은 수집된 적어도 하나의 의료영상을 입력으로 하여 다른 도메인 또는 다른 모달리티의 유사의료영상과 해당하는 깊이영상을 출력하고 출력된 유사의료영상과 깊이영상 쌍을 각각 입력 영상과 정답 영상으로 저장하여 학습 데이터를 생성하고, 신경망으로 구비되고 입력된 유사의료영상을 입력으로 하고 깊이 영상을 출력으로 하는 신경망을 훈련하여 깊이영상을 예측할 수 있는 방안을 제안하고자 한다.
따라서, 본 발명이 이루고자 하는 기술적 과제는 수집된 적어도 하나의 의료영상을 입력으로 하여 다른 도메인 또는 다른 모달리티의 유사의료영상과 해당하는 깊이영상을 출력하고 출력된 유사의료영상과 깊이영상 쌍을 각각 입력 영상과 정답 영상으로 저장하여 학습 데이터를 생성하고, 유사의료영상을 입력으로 하고 깊이 영상을 출력으로 하는 신경망을 훈련하고 훈련된 신경망으로 수집된 의료영상을 입력으로 하여 깊이 영상을 출력함에 따라, 고해상도의 깊이영상으로 병변 위치 및 진단을 용이하게 도출할 수 있고 이에 병변 진단율을 높이기 위한 것이다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 청구범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
본 발명의 한 실시예에 따른 의료영상의 깊이영상 예측 시스템은,
수집된 적어도 하나의 의료영상을 입력으로 하여 시뮬레이션하여 입력된 의료영상의 도메인과 다른 도메인 또는 다른 모달리티의 유사의료영상과 해당하는 깊이영상을 출력하고 출력된 유사의료영상과 깊이영상 쌍을 각각 입력 영상과 정답 영상으로 저장하여 학습 데이터를 생성하는 데이터 생성장치; 및
신경망으로 구비되고 상기 유사의료영상을 입력으로 깊이 영상을 출력으로 하는 신경망을 훈련하는 깊이영상 예측장치를 구비하고,
상기 깊이영상 예측부는,
훈련된 신경망으로 수집된 의료영상을 입력으로 하여 깊이 영상을 출력하도록 구비되는 것을 일 특징으로 한다.
바람직하게 상기 학습장치는,
상기 학습장치는,
복수의 의료영상을 세그먼트한 다음 3차원 볼륨 형태의 의료영상을 생성하는 3D 모델 생성부;
상기 3D 모델을 입력으로 하여 2D의 가상의료영상과 가상의료영상의 깊이 영상을 출력하는 가상의료영상 변환부;
상기 가상의료영상을 유사의료영상으로 변환하는 유사의료영상 변환부; 및
상기 생성된 유사의료영상과 깊이 영상을 각각 입력영상과 정답영상으로 저장하여 학습데이터를 구축하는 학습모델 구축부를 포함할 수 있다.
바람직하게 상기 가상의료영상 변환부는,
상기 3D 모델을 현실공간 또는 가상공간 또는 증강공간으로 투영하여 공간상의 특정 위치에서 2D의 가상의료영상으로 변환하고 2D의 가상의료영상에 대응하는 깊이영상을 현실공간 또는 가상공간 또는 증강공간 상에서 연산하여 출력하도록 구비될 수 있다.
바람직하게 상기 유사의료영상 변환부는,
상기 생성된 가상의료영상을 입력으로 실제의료영상의 텍스쳐 및 색감을 훈련하여 상기 가상의료영상을 실제의료영상과 유사한 유사의료영상으로 변환하는 신경망을 포함할 수 있다.
본 발명의 한 실시예에 따른 의료영상의 깊이영상 예측 방법은,
수집된 적어도 하나의 의료영상을 입력으로 하여 시뮬레이션하여 입력된 의료영상의 도메인과 다른 도메인 또는 다른 모달리티의 유사의료영상과 해당하는 깊이영상을 출력하고 출력된 유사의료영상과 깊이영상 쌍을 각각 입력 영상과 정답 영상으로 저장하여 학습 데이터를 생성하는 데이터 생성단계; 및
신경망으로 구비되고 입력된 유사의료영상을 입력으로 하고 깊이 영상을 출력으로 하는 신경망을 훈련하여 깊이영상을 예측하는 깊이영상 예측단계를 포함하는 것을 일 특징으로 한다.
바람직하게 상기 가상의료영상은,
상기 3D 모델을 현실공간 또는 가상공간 또는 증강공간으로 투영하여 공간상의 특정 위치에서 바라본 2D의 가상의료영상으로 변환하고 2D의 가상의료영상에 대응하는 깊이영상을 현실공간 또는 가상공간 또는 증강공간 상에서 연산하여 출력하도록 구비될 수 있다.
바람직하게 상기 유사의료영상은
상기 유사의료영상은,
상기 생성된 가상의료영상을 입력으로 실제의료영상의 텍스쳐 및 색감을 훈련하여 상기 가상의료영상을 실제의료영상에 유사한 유사의료영상으로 변환하도록 구비될 수 있다.
일 실시 예에 따르면, 수집된 적어도 하나의 의료영상을 입력으로 하여 다른 도메인 또는 다른 모달리티의 유사의료영상과 해당하는 깊이영상을 출력하고 출력된 유사의료영상과 깊이영상 쌍을 각각 입력 영상과 정답 영상으로 저장하여 학습 데이터를 생성하고, 유사의료영상을 입력으로 하고 깊이 영상을 출력으로 하는 신경망을 훈련하고 훈련된 신경망으로 수집된 의료영상을 입력으로 하여 깊이 영상을 출력함에 따라, 고해상도의 깊이영상으로 병변 위치 및 진단을 용이하게 도출할 수 있고 이에 병변 진단율을 높일 수 있다.
본 명세서에서 첨부되는 다음의 도면들은 본 발명의 바람직한 실시 예를 예시하는 것이며, 후술하는 발명의 상세한 설명과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니된다.
도 1은 일 실시예의 의료영상의 깊이영상 예측 시스템의 구성도이다.
도 2는 도 1의 깊이영상 예측 시스템의 세부 구성도이다.
도 3은 도 1의 데이터 생성장치의 세부 구성도이다.
도 4는 도 3의 데이터생성장치의 처리 알고리즘을 보인 도이다.
도 5는 일 실시예에 적용되는 3D 의료영상을 보인 예시도들이다.
도 6은 도 2의 가상의료영상 및 깊이영상을 보인 예시도들이다.
도 7은 도 3의 학습모델구축부의 신경망의 전체 구성도이다.
도 8은 도 7의 신경망의 컨볼루션 모듈의 세부 구성도이다.
도 9는 도 7의 신경망의 출력 영상을 보인 예시도들이다.
도 10은 도 7의 7신경망의 전체 구성도이다.
도 11은 도 10의 신경망의 인코더 및 디코더 각 컨볼루션 모듈의 구성도이다.
도 12는 일 실시예의 각 부의 출력 영상을 보인 예시도이다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
본 명세서에 대한 설명에 앞서, 본 명세서에서 사용되는 몇 가지 용어들에 대하여 명확하게 하기로 한다. 예를 들어, 본 명세서에서 의료영상은 CT 또는 MRI 등을 통해 혈관 내시경, 위 대장 내시경으로 획득된 영상을 의미하며, 이에 의료영상 또는 내시경영상 등을 혼용하여 기재하기로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 설명함으로써, 본 발명을 상세히 설명한다.
도 1은 일 실시예의 의료영상의 깊이영상 예측 시스템의 구성도이고, 도 2는 도 1의 깊이영상 예측 시스템의 세부 구성도이며, 도 3은 도 1의 데이터 생성장치의 세부 구성도이고, 도 4는 도 3의 데이터생성장치의 처리 알고리즘을 보인 도이며, 도 5는 일 실시예에 적용되는 3D 의료영상을 보인 예시도들이고, 도 6은 도 2의 가상의료영상 및 깊이영상을 보인 예시도들이며, 도 7은 도 3의 학습모델구축부의 신경망의 전체 구성도이고, 도 8은 도 7의 신경망의 컨볼루션 모듈의 세부 구성도이며, 도 9는 도 7의 신경망의 출력 영상을 보인 예시도들이고, 도 10은 도 7의 7신경망의 전체 구성도이며, 도 11은 도 10의 신경망의 인코더 및 디코더 각 컨볼루션 모듈의 구성도이고, 도 12는 일 실시예의 각 부의 출력 영상을 보인 예시도이다
도 1 내지 도 12를 참조하면, 일 실시예의 의료영상의 깊이영상 예측 시스템은, 데이터 생성장치(1)와 깊이영상 예측장치(2)를 포함하고, 여기서 데이터 생성장치(1)는 수집된 적어도 하나의 의료영상을 입력으로 하여 다른 도메인 또는 다른 모달리티의 유사의료영상과 해당하는 깊이영상을 출력하고 출력된 유사의료영상과 깊이영상 쌍을 각각 입력 영상과 정답 영상으로 저장하여 학습 데이터를 생성한다.
즉, 데이터 생성장치(1)는 도 2 내지 도 6를 참조하면, 3D 모델 생성부(11), 가상의료영상 변환부(12), 유사의료 변환부(13), 및 학습모델 구축부(14)를 포함한다. 여기서, 3D 모델 생성부(11) 및 가상의료영상 변환부(12)는 전술한 시뮬레이션 툴로 구비된다.
3D 모델 생성부(11)는 복수의 수집된 의료영상을 세그먼트하여 출력된 픽셀값을 3차원 볼륨(Volume) 형태로 변환하여 3차원 의료영상을 생성한다.
여기서 세그먼트는 수집된 의료영상에 포함된 공기부분을 제거한 다음 가장 큰 의료영상을 제외한 나머지 의료영상을 제거한 후 팽창(Margin) 기법을 통해 의료영상의 내부를 제거한다.
예를 들어, 대장은 구연 마그네슘과 같은 전처치 용액으로 장내의 수분이 모두 제거되므로 대장 조영술 CT로 촬영된 대장 내시경의 의료영상은 공기와 같은 낮은 픽셀값을 가지며, 이에 대장 내시경영상은 최솟값의 1/3로 설정된 슬라이서(Slicer)를 통해 세그먼트된다.
이에 조영술로 촬영한 CT Colonography 오픈 데이터 셋의 CT 볼륨(Volume) 형태의 내시경영상은 도 5에 도시된 바와 같다.
가상의료영상 변환부(12)는 도 5에 도시된 바와 같이, 입력된 3D 의료영상에 대해 Unity 엔진을 이용한 시뮬레이션을 통해 2D의 가상의료영상과 2D 가상의료영상에 대응되는 깊이영상을 생성한다. 일 례로, Unity 엔진은 RGB 카메라와 깊이 카메라를 통해 3D 의료영상의 내부의 동일한 시야와 위치에서 가상의료영상을 256×256 픽셀의 영상 해상도로 표현하고, 가상깊이영상을 회색조 영상으로 표현한다. 이때 깊이영상은 최소 0.01cm에서 최대 20cm의 깊이를 나타낼 수 있다.
또한 Unity 엔진은 입력된 의료영상과 유사도가 높은 가상의료영상을 변환하기 위해, 카메라 이동가능, 모션 블러, 내시경 광원, 거리에 따른 심도 효과 등 실제 내시경 환경에서 카메라에 나타날 수 있는 요소들을 추가할 수 있다.
일 실시예에서, Unity 엔진을 이용하여 가상의료영상 및 깊이영상을 생성하는 과정은 일반적인 Unity 게임 엔진을 이용하여 가상의 카메라로 가상공간 상의 가상 영상을 생성하는 과정과 동일 또는 유사하며, 이에 본 명세서 상에서 구체적으로 명시하지 아니하였으나 당업자 수준에서 이해되어야 할 것이다.
한편, 실제 대장은 위치에 따라 질감의 차이가 나고 장벽의 혈관 및 이물질이 존재하며, 장벽의 액체에 의한 반사로 생긴 관원의 특징이 내시경영상에는 나타내지만 가상의료영상은 장의 질감, 이물질이나 액체에 의한 반사 등을 구현할 수 없고 이에 도 6에 도시된 바와 같이, 깨끗하고 단조로운 영상이다.
이에 데이터 생성장치(1)는 유사의료영상 변환부(13)를 통해 생성된 가상의료영상에 실제 의료영상의 텍스쳐 및 색감을 나타내기 위해 도메인 변환을 통해 가상의료영상을 실제의료영상과 유사한 유사의료영상으로 변환하는 기능을 더 수행한다.
여기서 유사의료영상 변환부(13)는 신경망(Cycle GAN: Cycle Consistent Adversarial Network: 이하 사이클 GAN으로 약칭함)을 통해 가상의료영상에 대해 영상 도메인 변환을 수행한다.
도 7을 참조하면, (a)에 도시된 생성자 모델은 인코더와 디코더를 포함하는 Unet 신경망을 이용하여 구축되며, (b)에 도시된 판별자 모델은 생성자 모델의 인코더와 동일한 구조로 16×1 출력의 컨볼루션을 통해 진짜(G)와 가짜(F)를 판별한다. 여기서 판별자 모델은 패치(Patch) 판별자이므로 입력 영상에 대해 최종 출력은 16개의 패치 기반으로 진짜 또는 가짜가 판별되고, 이에 보다 정밀한 판단 결과가 생성될 수 있다.
이러한 생성자 모델과 판별자 모델을 이용한 유사의료영상 변환부(13)는 (c)에 도시된 바와 같이, 입력된 가상의료영상 변환부(12)의 가상의료영상과 실제 의료영상의 차의 평균 최솟값을 기 정해진 손실함수에 의거 신경망의 가중치를 도출하고 도출된 가중치가 반영된 신경망으로 도메인 변환된 가상의료영상의 텍스쳐 및 색감을 훈련하여 가상의료영상의 도메인 변환을 수행하고 이에 유사의료영상을 출력한다.
즉, (a)에 도시된 생성자 모델 및 (b)에 도시된 판별자 모델에 대한 적대적 훈련 과정을 통해 수행되고, 도 9에 도시된 바와 같이, 양방향 도메인 변환으로 기존의 GAN의 출력 영상 보다 선명하고 동시에 실제 내시경영상과의 유사도가 높은 영상이 출력됨을 알 수 있다.
(c)에 도시된 사이클 GAN은 가상의료영상에서 실제 의료영상으로 변환하는 생산자 모델과 실제 영상에서 가상 내시경 영상으로 변환하는 생산자 모델을 포함하고, 실제 의료영상을 판별하는 판별자 모델과 가상의료영상을 판별하는 판별자 모델을 포함한다. 이에 총 4개의 신경망이 사용된다. 각 생산자 및 판별자 모델 각각의 신경망은 복수의 컨볼루션 모듈(130)로 구비되고, 각 콘볼루션 모듈(130)은 도 8에 도시된 바와 같이, 2차원 컨볼루션 레이어(1311), 활성레이어(1312), 및 인스턴스(instance) 정규화 레이어(1313)를 포함하고, 여기서, 2차원 컨볼루션 레이어(1311)는 스트레이드(stride) 2에 의해 해상도가 2배씩 감소된다. 활성 레이어(1312)는 Leaky ReLu의 활성함수로 구비되고, 활성함수의 파라미터는 0.2으로 설정되고 -0.2의 음수로 설정될 수 있다.
또한 인스턴스 정규화 레이어(1313)는 채널 방향으로 평균과 표준편차를 이용하여 채널을 정규화한다. 이때 사이클 GAN은 영상에 대한 양방향 도메인 변환이므로 입력 영상 또는 출력 영상을 구분하지 아니하고 영상에 대해 훈련한다. 따라서 사이클 GAN의 도메인 변환된 가상의료영상은 기존의 배치 방향으로 정규화된 영상 보다 다양성이 증가되고 성능이 향상된다.
즉, X, Y는 변환하고자 하는 각 도메인의 데이터이고, G, F는 영상 도메인 변환에 사용하는 생성자이며, Dx, Dy는 각 도메인 영상의 진짜, 가짜를 구별하는 판별자를 포함하는 사이클 GAN에 있어, X 도메인의 샘플 x는 생성자 G를 통해 로 변환되고 Dy에 의해 판별된다. 는 다시 생성자 F를 통해 로 돌아오며 최초의 입력 샘플인 x와 손실함수 가 도출된다.
그리고, y는 생성자 F를 통해 로 변환되고 Dx에 의해 판별되고, 는 생성자 G를 통해 로 돌아오며 입력 샘플이었던 y와 손실함수 가 도출된다. 손실함수 , , 및 총 손실함수 는 하기 식 1으로 나타낼 수 있다.
[식 1]
사이클 GAN은 손실함수 의 해로 입력된 실제 의료영상과 도메인 변환된 가상의료영상 간의 오차에 대한 평균 최솟값을 검색하고 검색된 평균 최솟값으로 도출된 가중치가 반영된 사이클 GAN으로 입력된 RGB의 가상의료영상을 훈련하여 도메인 변환된 RGB의 가상의료영상을 출력한다. 즉, 유사의료영상 변환부(13)는 도 9에 도시된 바와 같이, 입력된 가상의료영상을 별도의 정답 영상 없이 실제 의료영상의 텍스쳐(Texture)와 색감(Color)의 특징이 반영된 가상의료영상을 도출한다. 그리고, 도메인 변환된 가상의료영상은 학습모델 구축부(14)로 전달된다.
학습모델 구축부(14)는, 제너레이터 기법에 의거 도메인 변환된 가상의료영상을 기 정해진 배치 크기의 가상의료영상으로 도출한 다음 어그멘테이션 기법을 사용하여 독출된 배치 크기의 가상의료영상을 상하 반전, 좌우 반전, 무작위 밝기 조절, 무작위 대비 조절, 및 부작위 색상 변화 등의 전처리를 수행한다.
그리고, 학습모델 구축부(14)는 전처리된 가상의료영상을 신경망을 기반으로 훈련하여 깊이영상을 출력하고 출력된 깊이영상과 도메인 변환된 가상의료영상 쌍을 정답 영상으로 저장한다.
여기서, 학습모델 구축부(14)의 신경망은 인코더와 디코더로 구비된 Unet와 Unet의 결합 구조를 사용한 깊이 예측 신경망(Depth Estimation Network) 등의 다양한 신경망으로 구비될 수 있으나, 일 실시예는 깊이예측 신경망(DepthNet)을 일 례로 설명하고 있으며, 이에 한정하지 아니한다.
도 10을 참조하면, 학습모델 구축부(14)의 신경망은 인코더에서 디코더로 결합되는 구조로 입력된 의료영상에 대한 구조적인 정보를 보존할 수 있다. 여기서, 인코더의 컨볼루션 모듈(141)은 도 11에 도시된 바와 같이, 2D 컨볼루션 레이어(1411), 배치 정규화 레이어(1412), 및 ReLu 활성함수의 활성 레이어(1413)로 구성된다. 또한 디코더의 컨볼루션 모듈(142)은 인코더의 2D 컨볼루션(141)의 출력을 업샘플링하는 업샘플링 레이어(1421), 2D 컨볼루션 레이어(1422), 배치 정규화 레이어(1423), 및 ReLu 활성함수의 활성 레이어(1424)로 구비된다. 이에 업샘플링 후 2차원 컨볼루션을 수행함에 따라, 기존의 변환된 컨볼루션에서 나타날 수 있는 그리드 현상이 최소화될 수 있다.
또한 깊이 예측 신경망(DepthNet)은 다음 디코더로 결합하지 아니한 보조자 손실 구조로 구현된다. 이에 보조자 손실 구조의 깊이 예측 신경망(DepthNet)은 낮은 해상도의 특징 정보를 정답 영상과 비교하는 과정을 역전파 과정에서 수행할 수 있으므로, 파라미터의 수는 감소될 수 있다.
따라서, 학습모델 구축부(14)의 신경망은 도메인 변환된 가상의료영상을 입력으로 훈련하여 예측된 깊이영상을 출력하고 예측된 깊이영상과 가상의료영상 변환부(12)의 가상깊이영상의 오차 및 기 정해진 손실함수로 신경망의 가중치를 도출하며 도출된 가중치가 반영된 신경망을 기반으로 도메인 변환된 가상의료영상을 훈련하여 깊이영상을 출력한다.
한편, 깊이영상 예측장치(2)는 입력된 유사의료영상을 기 구축된 신경망을 기반으로 훈련하여 예측된 깊이영상을 출력하고, 예측된 깊이영상과 학습모델 구축부(14)의 깊이영상의 오차 및 기 정해진 손실함수로 신경망의 가중치를 도출하며, 도출된 가중치가 반영된 신경망을 기반으로 도메인 변환된 유사의료영상을 훈련하여 깊이영상을 출력한다. 여기서, 신경망은 전술한 깊이예측 신경망(DepthNet)으로 구비된다.
이에 도 12를 참조하면, 일 실시예에 따른 깊이영상 시스템에 의거 입력된 유사의료영상(input image)에 대해 고해상도의 깊이영상(translation)을 획득할 수 있음을 알 수 있다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
수집된 적어도 하나의 의료영상을 입력으로 하여 다른 도메인 또는 다른 모달리티의 유사의료영상과 해당하는 깊이영상을 출력하고 출력된 유사의료영상과 깊이영상 쌍을 각각 입력 영상과 정답 영상으로 저장하여 학습 데이터를 생성하고, 유사의료영상을 입력으로 하고 깊이 영상을 출력으로 하는 신경망을 훈련하고 훈련된 신경망으로 수집된 의료영상을 입력으로 하여 깊이 영상을 출력함에 따라, 입력된 의료영상에 대해 학습모델에 의거한 신경망을 기반으로 깊이영상을 예측할 수 있고, 고해상도의 깊이영상으로 병변 위치를 정확하게 도출할 수 있으며, 이에 병변 진단율을 높일 수 있는 의료영상의 깊이영상 예측 시스템 및 방법에 대한 운용의 정확성 및 신뢰도 측면, 더 나아가 성능 효율 면에 매우 큰 진보를 가져올 수 있으며, 다양한 분야에서의 적용할 수 있고, 신경망 기반의 의료영상의 핵심 기술을 확보함에 따라 관련 산업분야의 진단 모니터링을 적극적으로 활용할 수 있고, 의료영상 진단 시스템의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.
[부호의 설명]
1 : 데이터 생성장치
11 : 3D 모델 생성부
12 : 가상의료영상 변환부
13 : 유사의료영상 변환부
14 : 학습모델 구축부
2 : 깊이영상 예측장치
Claims (7)
- 수집된 적어도 하나의 의료영상을 입력으로 하여 다른 도메인 또는 다른 모달리티의 유사의료영상과 해당하는 깊이영상을 출력하고 출력된 유사의료영상과 깊이영상 쌍을 각각 입력 영상과 정답 영상으로 저장하여 학습 데이터를 생성하는 데이터 생성장치; 및신경망으로 구비되고 상기 유사의료영상을 입력으로 깊이 영상을 출력으로 하는 신경망을 훈련하는 깊이영상 예측장치를 포함하고,상기 깊이영상 예측장치는훈련된 신경망으로 수집된 의료영상을 입력으로 하여 깊이영상을 출력하도록 구비되는 것을 특징으로 하는 의료영상의 깊이영상 예측 시스템.
- 제1항에 있어서, 상기 데이터 생성장치는,복수의 의료영상을 세그먼트한 다음 3차원 볼륨 형태의 의료영상을 생성하는 3D 모델 생성부;상기 3D 모델을 입력으로 하여 2D의 가상의료영상과 가상의료영상의 깊이 영상을 출력하는 가상의료영상 변환부;상기 가상의료영상을 유사의료영상으로 변환하는 유사의료영상 변환부; 및상기 생성된 유사의료영상과 깊이 영상을 각각 입력영상과 정답영상으로 저장하여 학습데이터를 구축하는 학습모델 구축부를 포함하는 것을 특징으로 하는 의료영상의 깊이영상 예측 시스템.
- 제2항에 있어서, 상기 가상의료영상 변환부는,상기 3D 모델을 현실공간 또는 가상공간 또는 증강공간으로 투영하여 공간상의 특정 위치에서 2D의 가상의료영상으로 변환하고 2D의 가상의료영상에 대응하는 깊이영상을 현실공간 또는 가상공간 또는 증강공간 상에서 연산하여 출력하는 것을 특징으로 하는 의료영상의 깊이영상 예측 시스템.
- 제2항에 있어서, 상기 유사의료영상 변환부는,상기 생성된 가상의료영상을 입력으로 실제의료영상의 텍스쳐 및 색감을 훈련하여 상기 가상의료영상을 실제의료영상과 유사한 유사의료영상으로 변환하는 신경망을 포함하는 것을 특징으로 하는 의료영상의 깊이영상 예측 시스템.
- 제1항의 의료영상의 깊이영상 예측 시스템에 의거 수행되는 깊이영상 예측 방법에 있어서,수집된 적어도 하나의 의료영상을 입력으로 하여 다른 도메인 또는 다른 모달리티의 유사의료영상과 해당하는 깊이영상을 출력하고 출력된 유사의료영상과 깊이영상 쌍을 각각 입력 영상과 정답 영상으로 저장하여 학습 데이터를 생성하는 데이터 생성단계; 및신경망으로 구비되고 입력된 유사의료영상을 입력으로 하고 깊이 영상을 출력으로 하는 신경망을 훈련하는 깊이영상 예측단계를 포함하고,상기 깊이영상 예측단계는,훈련된 신경망으로 수집된 의료영상을 입력으로 하여 깊이 영상을 출력하도록 구비되는 것을 특징으로 하는 의료영상의 깊이영상 예측 방법.
- 제5항에 있어서, 상기 가상의료영상은,상기 3D 모델을 현실공간 또는 가상공간 또는 증강공간으로 투영하여 공간상의 특정 위치에서의 2D의 가상의료영상으로 변환하고 2D의 가상의료영상에 대응하는 깊이영상을 현실공간 또는 가상공간 또는 증강공간 상에서 연산하여 출력하는 것을 특징으로 하는 의료영상의 깊이영상 예측 방법.
- 제5항에 있어서, 상기 유사의료영상은,상기 생성된 가상의료영상을 입력으로 실제의료영상의 텍스쳐 및 색감을 훈련하여 상기 가상의료영상을 실제의료영상에 유사한 유사의료영상으로 변환하도록 구비되는 것을 특징으로 하는 의료영상의 깊이영상 예측 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2021-0182123 | 2021-12-17 | ||
KR1020210182123A KR102723904B1 (ko) | 2021-12-17 | 의료영상의 깊이영상 예측 시스템 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023113500A1 true WO2023113500A1 (ko) | 2023-06-22 |
Family
ID=86773125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2022/020457 WO2023113500A1 (ko) | 2021-12-17 | 2022-12-15 | 의료영상의 깊이영상 예측 시스템 및 방법 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023113500A1 (ko) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150094080A (ko) * | 2014-02-10 | 2015-08-19 | 동명대학교산학협력단 | 의료용 영상 진단 장치 |
KR101608848B1 (ko) * | 2008-05-23 | 2016-04-04 | 삼성전자주식회사 | 다차원 영상 생성 방법 및 시스템 |
KR101959438B1 (ko) * | 2018-08-06 | 2019-03-18 | 전북대학교 산학협력단 | 다중 모달리티 영상 생성 기법을 이용한 의료영상진단시스템 |
KR102245220B1 (ko) * | 2020-11-09 | 2021-04-27 | 주식회사 엔닷라이트 | 딥러닝 기반으로 2차원 이미지로부터 3차원 모델을 복원하는 장치 및 그 방법 |
JP6931425B2 (ja) * | 2018-07-20 | 2021-09-01 | 富士フイルム株式会社 | 医用画像学習装置、医用画像学習方法、及びプログラム |
-
2022
- 2022-12-15 WO PCT/KR2022/020457 patent/WO2023113500A1/ko unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101608848B1 (ko) * | 2008-05-23 | 2016-04-04 | 삼성전자주식회사 | 다차원 영상 생성 방법 및 시스템 |
KR20150094080A (ko) * | 2014-02-10 | 2015-08-19 | 동명대학교산학협력단 | 의료용 영상 진단 장치 |
JP6931425B2 (ja) * | 2018-07-20 | 2021-09-01 | 富士フイルム株式会社 | 医用画像学習装置、医用画像学習方法、及びプログラム |
KR101959438B1 (ko) * | 2018-08-06 | 2019-03-18 | 전북대학교 산학협력단 | 다중 모달리티 영상 생성 기법을 이용한 의료영상진단시스템 |
KR102245220B1 (ko) * | 2020-11-09 | 2021-04-27 | 주식회사 엔닷라이트 | 딥러닝 기반으로 2차원 이미지로부터 3차원 모델을 복원하는 장치 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20230093127A (ko) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021519663A (ja) | 内視鏡画像の処理方法、システム、コンピュータデバイス及びコンピュータプログラム | |
KR20190103937A (ko) | 뉴럴 네트워크를 이용하여 캡슐 내시경 영상으로부터 병변 판독 방법 및 장치 | |
CN112766416B (zh) | 一种消化内镜导航方法和系统 | |
CN111179252B (zh) | 基于云平台的消化道病灶辅助识别与正反馈系统 | |
Wang et al. | Convolutional‐capsule network for gastrointestinal endoscopy image classification | |
Szczypiński et al. | A model of deformable rings for interpretation of wireless capsule endoscopic videos | |
Zhang et al. | Dual encoder fusion u-net (defu-net) for cross-manufacturer chest x-ray segmentation | |
Wei et al. | Stereo dense scene reconstruction and accurate localization for learning-based navigation of laparoscope in minimally invasive surgery | |
CN114663575A (zh) | 图像处理的方法、设备和计算机可读存储介质 | |
WO2021141253A1 (ko) | 캡슐 내시경의 위치정보를 기반으로 캡슐 내시경의 위치를 파악하는 시스템 및 방법 | |
WO2022231329A1 (ko) | 생체 이미지 조직 표시 방법 및 장치 | |
WO2023113500A1 (ko) | 의료영상의 깊이영상 예측 시스템 및 방법 | |
Yang et al. | 3D reconstruction from endoscopy images: A survey | |
WO2024049208A1 (ko) | 복부 내 공기 분포를 측정하는 장치 및 방법 | |
Jin et al. | A Self-supervised Approach for Detecting the Edges of Haustral Folds in Colonoscopy Video | |
JP7297334B2 (ja) | 実時間生体イメージ認識方法及び装置 | |
KR102723904B1 (ko) | 의료영상의 깊이영상 예측 시스템 및 방법 | |
WO2022177044A1 (ko) | 주목 메커니즘 기반의 멀티 스케일 조건부 적대적 생성 신경망을 활용한 고해상도 흉부 x선 영상 생성 장치 및 방법 | |
Yin et al. | Endoscopy artefact detection by deep transfer learning of baseline models | |
Al-Bander et al. | Real-time lumen detection for autonomous colonoscopy | |
WO2019168280A1 (ko) | 뉴럴 네트워크를 이용하여 캡슐 내시경 영상으로부터 병변 판독 방법 및 장치 | |
Figueiredo et al. | Dissimilarity measure of consecutive frames in wireless capsule endoscopy videos: a way of searching for abnormalities | |
WO2023085910A1 (ko) | 적대적 생성 신경망을 이용한 영상 학습 방법, 장치, 프로그램 및 기록매체 | |
WO2023210893A1 (ko) | 초음파 이미지 분석 장치 및 방법 | |
Khryashchev et al. | Deep Learning Architecture for Real-Time Polyps Detection on Endoscopic Video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22907967 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |