KR20220010171A

KR20220010171A - 영상 분석 시스템 및 이의 동작 방법

Info

Publication number: KR20220010171A
Application number: KR1020200088732A
Authority: KR
Inventors: 차미영; 한성원; 박성원; 김선동; 박성규
Original assignee: 기초과학연구원
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2022-01-25
Also published as: US20220019846A1; US12164602B2

Abstract

본 발명은 영상 분석 시스템 및 이의 동작 방법에 관한 것이다. 본 발명의 실시예에 따른 영상 분석 시스템은 제1 분석기 및 제2 분석기를 포함한다. 제1 분석기는 제1 모델로 이미지들을 인코딩하여 제1 특징들을 생성하고, 제1 특징들에 기초하여 제1 모델의 가중치를 조절한다. 제2 분석기는 제1 특징들에 기초하여, 제2 모델로 이미지들을 인코딩하여 제2 특징들을 생성하고, 제2 특징들 각각을 클래스들로 분류하고, 제2 특징들 중 원본 이미지 그룹에 대응되는 특징들이 분류된 클래스와 제2 특징들 중 원본 이미지 그룹의 확장 그룹에 대응되는 특징들이 분류된 클래스 사이의 상호 정보 및 상관 관계에 기초하여 제2 모델의 가중치를 조절한다.

Description

영상 분석 시스템 및 이의 동작 방법{IMAGE ANALYSIS SYSTEM AND OPERATING METHOD OF THE SAME}

본 발명은 영상 분석 시스템 및 이의 동작 방법에 관한 것으로, 좀 더 구체적으로 딥 러닝 방식의 영상 분석 시스템 및 이의 동작 방법에 관한 것이다.

딥 러닝 기반의 알고리즘들은 다양한 컴퓨터 비전(vision) 작업들에서 주목할만한 발전을 가져왔다. 그러나, 딥 러닝 모델들은 양질의 라벨(label)들의 적극적인 지도(supervision)를 요구할 수 있다. 비지도 학습(unsupervised learning) 방식은 이와 달리, 라벨들의 수집에 많은 비용을 요구하지 않아, 확장성(scalability)을 가질 수 있다.

클러스터링은 비지도 학습에 대한 가장 핵심적인 작업들 중 하나이다. 클러스터링의 목표는 동일한 속성을 공유하는 클래스로 데이터를 분류하는 것이다. 영상 클러스터링을 위한 영상 데이터는 높은 차원을 가지므로, 데이터를 더 작은 차원으로 축소하는 작업 (즉, 임베딩)은 클러스터 그룹의 경계를 식별하는 것만큼 중요할 수 있다. 영상 분석 시스템은 영상 클러스터링을 통하여, 객체를 분류할 수 있다. 이러한 영상 데이터의 분석 정확도를 개선하는 방안이 요구된다.

본 발명은 객체 분류의 정확도를 개선할 수 있는 영상 분석 시스템 및 이의 동작 방법을 제공할 수 있다.

본 발명의 실시예에 따른 영상 분석 시스템은 제1 분석기 및 제2 분석기를 포함한다. 제1 분석기는 제1 모델로 이미지들을 인코딩하여 제1 특징들을 생성하고, 제1 특징들에 기초하여 제1 모델의 가중치를 조절한다. 제2 분석기는 제1 특징들에 기초하여, 제2 모델로 이미지들을 인코딩하여 제2 특징들을 생성하고, 제2 특징들 각각을 클래스들로 분류하고, 제2 특징들 중 원본 이미지 그룹에 대응되는 특징들이 분류된 클래스와 제2 특징들 중 원본 이미지 그룹의 확장 그룹에 대응되는 특징들이 분류된 클래스 사이의 상호 정보 및 상관 관계에 기초하여 제2 모델의 가중치를 조절한다.

일례로, 제1 분석기는 가중치가 조절된 제1 모델에 기초하여, 제1 특징들 중 타겟 특징과 가장 이웃한 값을 갖는 특징을 그룹화할 수 있다. 제1 분석기는 타겟 특징과 가장 이웃한 값을 갖는 특징을 임베딩 공간에서 타겟 특징과 가까운 거리를 갖도록 변환할 수 있다. 일례로, 제1 분석기는 이미지들로부터 특징들을 추출하고, 특징들의 차원을 기설정된 차원으로 축소하고, 임베딩 공간에 차원 축소된 특징들을 정규화함으로써, 제1 특징들을 생성할 수 있다.

일례로, 제1 분석기는 상기 제1 특징들 중 상기 원본 이미지 그룹에 대응되는 특징들 및 상기 제1 특징들 중 상기 확장 그룹에 대응되는 특징들 사이의 유사도에 기초하여, 제1 특징들 중 타겟 특징과 가장 이웃한 특징이 서브 클래스로 그룹화되는 제1 확률 및 타겟 특징이 서브 클래스에 존재하지 않는 제2 확률을 계산하고, 제1 확률 및 제2 확률에 기초하여 제1 모델의 가중치를 조절할 수 있다.

일례로, 제2 분석기는 가중치가 조절된 제2 모델에 기초하여, 제2 특징들 중 타겟 특징과 가장 이웃한 값을 갖는 특징을 임베딩 공간에서 타겟 특징과 가까운 거리를 갖도록 변환하고, 변환된 제2 특징들을 클래스들로 분류할 수 있다. 일례로, 제2 분석기는 제1 특징들에 기초하여, 제2 특징들을 계산하기 위한 초기 값을 결정할 수 있다. 일례로, 제2 분석기는 이미지들로부터 특징들을 추출하고, 특징들의 차원을 기설정된 차원으로 축소하고, 제1 특징들에 기초하여 임베딩 공간에 차원 축소된 특징들을 정규화함으로써, 제2 특징들을 생성할 수 있다.

일례로, 제2 분석기는 원본 이미지 그룹에 대응되는 특징들 각각이 분류되는 클래스의 제1 확률 변수와 확장 그룹에 대응되는 특징들 각각이 분류되는 클래스의 제2 확률 변수를 계산하고, 제1 및 제2 확률 변수들 사이의 결합 확률 분포에 기초하여 클러스터링 손실을 계산하고, 클러스터링 손실에 기초하여, 상호 정보가 증가하도록 제2 모델의 상기 가중치를 조절할 수 있다. 일례로, 제2 분석기는 확장 그룹에 대응되는 특징들 중 타겟 특징이 타겟 클래스로 분류되는 제1 확률 및 원본 이미지 그룹에 대응되는 특징들 중 타겟 특징에 대응되는 특징이 타겟 클래스로 분류되지 않는 제2 확률을 계산하고, 제1 확률 및 제2 확률에 기초하여 제2 모델의 상기 가중치를 조절할 수 있다. 일례로, 제2 분석기는 상호 정보에 기초하여 제1 손실을 계산하고, 상관 관계에 기초하여 제2 손실을 계산하고, 제1 손실 및 가중치가 부여된 제2 손실의 합이 감소하도록, 제2 모델의 상기 가중치를 조절할 수 있다.

일례로, 이미지들에 라벨이 부여되지 않을 수 있다.

본 발명의 실시예에 따른 영상 분석 시스템의 동작 방법은, 제1 모델로 원본 이미지들을 인코딩하여 제1 특징들을 생성하는 단계, 제1 모델로 원본 이미지들의 확장 이미지들을 인코딩하여 제2 특징들을 생성하는 단계, 제1 특징들 및 제2 특징들에 기초하여, 제1 모델의 가중치를 조절하는 단계, 제1 특징들에 기초하여 제2 모델로 원본 이미지들을 인코딩하여 제3 특징들을 생성하는 단계, 제2 특징들에 기초하여 제2 모델로 확장 이미지들을 인코딩하여 제4 특징들을 생성하는 단계, 제3 및 제4 특징들을 클러스터링하는 단계, 및 클러스터링된 제3 및 제4 특징들 사이의 상호 정보 및 상관 관계에 기초하여 제2 모델의 가중치를 조절하는 단계를 포함한다.

본 발명의 실시예에 따른 영상 분석 시스템 및 이의 동작 방법은 임베딩을 수행하는 제1 단계와 임베딩 및 클러스터링을 수행하는 제2 단계를 통하여, 객체 분류의 정확성을 개선할 수 있다.

도 1은 본 발명의 실시예에 따른 영상 분석 시스템의 블록도이다.
도 2는 도 1의 제1 분석기의 예시적인 도면이다.
도 3은 도 2의 제1 분석기에 의하여, 임베딩 공간에서 특징들이 인접하게 배치되는 사전훈련 과정을 설명하기 위한 도면이다.
도 4는 도 1의 제2 분석기의 예시적인 도면이다.
도 5는 도 4의 제2 분석기에 의하여, 임베딩 공간에서 특징들이 클러스터링되는 과정을 설명하기 위한 도면이다.
도 6은 영상 분석 시스템이 순차적으로 인코딩 및 클러스터링을 수행하는 경우의 결과를 설명하기 위한 도면이다.
도 7은 영상 분석 시스템이 인코딩과 함께 클러스터링을 수행하는 경우의 결과를 설명하기 위한 도면이다.
도 8은 도 1의 영상 분석 시스템에 의한 클러스터링 결과를 설명하기 위한 도면이다.
도 9는 도 1의 영상 분석 시스템의 예시적인 블록도이다.

아래에서는, 본 발명의 기술 분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있을 정도로, 본 발명의 실시 예들이 명확하고 상세하게 기재된다.

도 1은 본 발명의 실시예에 따른 영상 분석 시스템의 블록도이다. 도 1을 참조하면, 영상 분석 시스템(100)은 제1 분석기(110) 및 제2 분석기(120)를 포함한다. 영상 분석 시스템(100)은 이미지들(IM)을 분석하여, 이미지들(IM)에 포함된 객체들의 분류 결과(PR)를 생성할 수 있다.

제1 분석기(110)는 이미지들(IM)에 대한 사전훈련(pretraining)을 수행하여, 이미지 분류를 위한 초기화 정보인 인코딩된 정보(EI)를 생성할 수 있다. 제1 분석기(110)는 이미지들(IM)로부터 특징들을 추출하고, 임베딩을 통하여 특징들에 대한 인코딩된 정보(EI)를 생성한다. 제1 분석기(110)는 사용자에 의하여 주석이 달린 라벨을 사용하지 않고, 비지도(unsupervised) 방식으로 이미지들(IM)로부터 특징들을 추출할 수 있다. 제1 분석기(110)는 임베딩 공간에서 유사한 특징들이 인접하게 배치되도록, 특징들의 인코딩된 정보(EI)를 생성할 수 있다. 제1 분석기(110)는 이미지들(IM)로부터 인코딩된 정보(EI)를 생성하기 위한 제1 모델을 학습시킬 수 있고, 학습된 제1 모델에 기초하여 인코딩된 정보(EI)를 생성할 수 있다. 구체적인 제1 분석기(110)에 대한 내용은 후술된다.

제2 분석기(120)는 인코딩된 정보(EI)에 대한 임베딩 및 클러스터링을 수행하여, 특징들의 분류 결과(PR)를 생성한다. 제2 분석기(120)는 인코딩된 정보(EI)를 초기화 정보로 간주하여 임베딩 및 클러스터링을 함께 수행할 수 있다. 제2 분석기(120)는 특징들의 임베딩을 통하여 임베딩 공간에서 유사한 특징들이 더 인접하게 배치되도록 하고, 이러한 특징들을 비지도 방식으로 분류할 수 있다. 제2 분석기(120)는 인코딩된 정보(EI)의 임베딩 및 클러스터링을 함께 수행하기 위한 제2 모델을 학습시킬 수 있고, 학습된 제2 모델에 기초하여 분류 결과(PR)를 생성할 수 있다. 구체적인 제2 분석기(120)에 대한 내용은 후술된다.

다만, 본 개시는 이에 한정되지 않는다. 예를 들어, 제 1 분석기(110) 및 제 2 분석기(120)는, 적은 수의 라벨들을 사용하여 이미지들(IM)로부터 특징들을 추출하여 분류하고자 하는 경우, 반지도(semi-supervised) 방식으로 사전학습(pre-trained)된 모델을 사용할 수 있다. 그 결과, 분류 성능이 향상될 수 있다.

도 2는 도 1의 제1 분석기의 예시적인 도면이다. 도 2를 참조하면, 제1 분석기(110)는 제1 컨볼루션 뉴럴 네트워크(CNN) (111), 필터(112), 제2 CNN(113), 병합기(114), 완전 연결(Fully-Connected, FC) 레이어(115), 및 정규화기(116)로 구현될 수 있다. 도 2에 도시된 각 구성들은 Super-AND(Anchor Neighbourhood Discovery) 방식의 제1 모델로 구현될 수 있다. 다만, 이에 제한되지 않고, 도 2에서 설명되는 Super-AND 방식과 다른 임베딩 방식 (일례로, AND 방식)으로 제1 분석기(110)는 이미지들(IM)에 대한 선행학습을 수행할 수 있다. 즉, 도 2의 제1 분석기(110)는 사전훈련 단계를 수행하여, 초기화 정보를 생성하는 예시적인 구성으로 이해될 것이다.

제1 CNN(111)은 이미지들(IM)을 분석하여, 특징들을 추출할 수 있다. 여기에서, 이미지들(IM)은 원본 이미지들의 그룹 및 원본 이미지들의 확장(Augmentation) 그룹을 포함할 수 있다. 확장은 원본 이미지들의 좌우 (또는 상하) 반전, 회전, 쉬프팅, 스케일링 등을 통하여 생성된 추가적인 이미지들로 이해될 것이다. 이러한 확장을 통하여, 분석을 위한 데이터 양이 증가하고, 학습 성능 및 분석 성능이 향상될 수 있다.

필터(112)는 이미지들(IM)의 컬러 성분을 제거하고, 객체의 바운더리를 명확하게 나타낼 수 있다. 이를 위하여, 필터(112)는 소벨(Sobel) 필터를 포함할 수 있다. 제2 CNN(113)은 소벨 처리된 이미지들을 분석하여, 특징들을 추출할 수 있다. 병합기(114)는 제1 CNN(111)의 분석 결과 및 제2 CNN(113)의 분석 결과를 연결(concatenate)할 수 있다. 병합기(114)는 연결된 특징들을 완전 연결 레이어(115)로 출력할 수 있다.

완전 연결 레이어(115)는 연결된 특징들의 차원을 기설정된 차원을 갖도록 변환할 수 있다. 일례로, 기설정된 차원은 128차원일 수 있다. 정규화기(116)는 차원 변환된 특징들을 임베딩하여, 유사한 특징들이 인접하게 배치되도록, 차원 변환된 특징들을 임베딩 공간에 투영(project)할 수 있다. 일례로, 임베딩 공간은 정규화된 구형 공간일 수 있다.

제1 모델의 학습 시에, 차원 변환된 특징들은 개별 클래스로 간주되어 임베딩 공간에 분리될 수 있다. 제1 분석기(110)는 임베딩 공간에서 앵커(Anchor)에 대응되는 특징으로부터 가장 인접한 이웃(들)을 발견하여 서브 클래스로 그룹화하고, 서브 클래스에 특징들을 점진적으로 더 포함시킬 수 있다. 여기에서, 서브 클래스 정보는 지도 학습에 사용될 수 있다. 일례로, 제1 분석기(110)는 AND(Anchor Neighbourhood Discovery) 손실, 확장 손실, 및 엔트로피 손실을 고려하여 제1 모델의 구성들 각각의 가중치를 조정할 수 있고, 조정된 가중치에 따라 유사한 이미지들이 임베딩 공간에서 인접하게 배치될 수 있다.

AND 손실은 이웃 쌍들을 서로 구분함에 따른 손실로 정의된다. AND 손실(LA)은 수학식 1과 같이 계산될 수 있다.

수학식 1을 참조하면, Pi^j는 이미지 i와 이미지 j 사이의 유사도를 나타낸다. Nk(xi)는 이웃한 것으로 발견된 이미지 i로 정의된다. N은 해당 서브-클래스로 선택된 이미지(들)를 나타낸다. 이에 따르면, 우항의 제1 부분은 이웃한 것으로 발견된 이미지가 동일한 서브-클래스로 분류되는 확률과 관련된다. 우항의 제2 부분은 서브-클래스로 인식되는 이미지가 해당 서브-클래스에 존재하지 않는 확률과 관련된다.

확장 손실은 확장 그룹에 대한 특징들이 올바른 서브-클래스로 선택되나, 원본 이미지의 그룹에 대한 특징들이 다른 서브-클래스로 잘못 선택됨을 나타내는 손실로 정의될 수 있다. 엔트로피 손실은 이미지들 사이의 유사도를 나타내는 확률 벡터의 엔트로피를 나타내는 손실로 정의될 수 있다. 엔트로피 손실에서, 이미지 i와 이미지 i(자신) 사이의 유사도는 고려되지 않는다.

제1 분석기(110)는 AND 손실, 확장 손실, 및 가중치가 부여된 엔트로피 손실을 합하여 최종 손실을 계산할 수 있다. 제1 분석기(110)는 최종 손실이 최소화되도록, 제1 모델의 구성들 각각의 가중치를 조정할 수 있다. 이러한 학습 결과 생성된 제1 모델은 이미지들(IM)의 인코딩, 즉 사전훈련에 사용될 수 있다. 제1 모델은 제2 분석기(120)에 의한 이미지 분류를 위한 초기화 정보인 인코딩된 정보(EI)를 생성하는데 사용될 수 있다.

도 3은 도 2의 제1 분석기에 의하여, 임베딩 공간에서 특징들이 인접하게 배치되는 사전훈련 과정을 설명하기 위한 도면이다. 도 3을 참조하면, 제1 분석기(110)에 의한 인코딩 전에 이미지들(IM)에 대응되는 특징들을 임베딩 공간에 배치한 제1 결과(SIM) 및 인코딩에 의하여 처리된 인코딩된 정보(EI)에 대응되는 특징들을 임베딩 공간에 배치한 제2 결과(SEI)가 예시적으로 도시된다. 설명의 편의상, 3개의 서로 다른 객체들(O1, O2, O3)이 이미지들(IM)에 제공된 것으로 가정한다.

예시적으로 도 2와 같은 사전훈련 과정으로 이미지들(IM)을 처리하는 제1 분석기(110)에 의하여, 차원 변환된 특징들은 개별 클래스로 간주되어 임베딩 공간에 제1 결과(SIM)와 같이 분리될 수 있다. 제1 분석기(110)는 도 2의 정규화기(116)에 의하여 정의되는 임베딩 공간에서 앵커에 대응되는 특징으로부터 가장 인접한 이웃을 발견하여, 서브 클래스로 그룹화할 수 있다. 이러한 그룹화 과정은 반복적으로 수행되어, 특정 서브 클래스에 포함되는 특징들의 개수가 증가할 수 있다. 일례로, 특징들 중 적어도 하나가 앵커로 선택되고, 선택된 앵커를 기준으로 가장 인접한 특징이 그룹화될 수 있다.

제1 분석기(110)의 학습에 따라, AND 손실, 확장 손실, 및 엔트로피 손실의 가중 합 결과가 최소화되도록, 제1 모델의 가중치가 결정될 수 있다. 이러한 손실들을 최소화한 결과, 제1 내지 제3 객체들(O1, O2, O3) 각각에 대응되는 특징들이 임베딩 공간에서 제2 결과(SEI)와 같이 모일 수 있다.

도 4는 도 1의 제2 분석기의 예시적인 도면이다. 도 4를 참조하면, 제2 분석기(120)는 인코더(121) 및 분류기(122)로 구현될 수 있다. 도 4에 도시된 각 구성들은 도 2에서 설명된 인코딩 및 상호 정보 기반의 클러스터링을 함께 수행하는 제2 모델로 구현될 수 있다.

인코더(121)는 도 1 및 도 2의 제1 분석기(110)와 같이 특징들을 추출하고, 임베딩을 통하여 특징들에 대한 인코딩된 정보를 생성할 수 있다. 인코더(121)는 제1 분석기(110)로부터 출력된 제1 인코딩된 정보(EI1)에 기초하여, 이미지들(일례로, 도 1의 이미지들(IM))을 분석할 수 있다. 인코더(121)는 제1 인코딩된 정보(EI1)에 기초하여, 임베딩 공간에서 특징들을 분류하고, 분류된 특징들의 임베딩을 통하여 제2 인코딩된 정보(EI2)를 생성할 수 있다. 인코더(121)는 임베딩 공간에서 유사한 특징들이 인접하게 배치되도록 제2 인코딩된 정보(EI2)를 생성할 수 있다.

인코더(121)는 도 2의 제1 분석기(110)와 같이, 제1 컨볼루션 뉴럴 네트워크(CNN) (111), 필터(112), 제2 CNN(113), 병합기(114), 완전 연결 레이어(115), 및 정규화기(116)로 구현될 수 있다. 인코더(121)는 제1 분석기(110)에 의하여 생성된 제1 인코딩된 정보(EI1)에 기초하여, 초기화될 수 있다. 이에 따라, 인코더(121)에서 특징들은 초기에 도 3의 제2 결과(SEI)와 같이 임베딩 공간에 분리될 수 있다. 인코더(121)는 제1 분석기(110)에 의하여 임베딩 공간에서 분리된 특징들로부터 가장 인접한 이웃을 그룹화함으로써, 동일한 객체에 대응되는 특징들을 더 효율적으로 모을 수 있다.

분류기(122)는 상호 정보 기반의 클러스터링을 통하여, 제2 인코딩된 정보(E2)를 클러스터링할 수 있다. 이를 위하여, 분류기(122)는 복수의 완전 연결 레이어들(123_1, 123_2) 및 복수의 Softmax 레이어들(124_1, 124_2)로 구현될 수 있다. 복수의 완전 연결 레이어들(123_1, 123_2) 및 복수의 Softmax 레이어들(124_1, 124_2) 각각은 특정 객체를 다른 객체와 구별하도록 제공될 수 있다.

복수의 완전 연결 레이어들(123_1, 123_2) 각각은 제2 인코딩된 정보(E2)에서 원본 이미지들의 그룹에 대응되는 정보와 확장 그룹에 대응되는 정보 사이의 상호 정보(Mutual information)가 최대이도록 클러스터링을 수행할 수 있다. 여기에서, 상호 정보는 2개의 확률 변수들의 결합 분포와 확률 변수들 각각의 주변 분포의 곱 사이의 KL-발산(Kullback-Leibler Divergence)으로 정의된다. 그리고, 2개의 확률 변수들은 각각 원본 그룹에 대응되는 확률 변수 및 확장 그룹에 대응되는 확률 변수이다. 이러한 확률 변수들은 제2 인코딩된 정보(E2)에 포함되는 원본 그룹에 대한 결과 및 확장 그룹에 대한 결과로부터 나타난다.

복수의 Softmax 레이어들(124_1, 124_2) 각각은 복수의 완전 연결 레이어들(123_1, 123_2) 중 대응되는 완전 연결 레이어로부터 수신된 결과에 Softmax 함수를 적용하여, 출력된 결과들의 합이 1이 되도록 할 수 있다. 복수의 Softmax 레이어들(124_1, 124_2)은 클러스터링된 객체에 대응되는 분류 결과들(PR1, PR2)을 출력한다. 일례로, 제1 분류 결과(PR1)는 제1 객체로 판단된 결과를 나타내고, 제2 분류 결과(PR2)는 제2 객체로 판단된 결과를 나타낼 수 있다.

상호 정보 기반의 클러스터링 방식의 제2 모델의 학습 시에, 제2 분석기(120)는 상호 정보 기반의 클러스터링 손실 및 일관성 보존(Consistency Preserving) 손실을 고려하여 제2 모델의 구성들 각각의 가중치를 조정할 수 있다. 제2 분석기(120)는 조정된 가중치에 따라, 클러스터링을 수행할 수 있다.

클러스터링 손실은 원본 그룹의 확률 변수와 확장 그룹의 확률 변수 사이의 결합 확률 분포에 기초하여 계산될 수 있다. 클러스터링 손실(LC)은 수학식 2와 같이 계산될 수 있다.

수학식 2를 참조하면, c는 원본 그룹의 클래스를 나타내고, c'는 확장 그룹의 클래스를 나타낸다. P는 원본 그룹의 확률 변수와 확장 그룹의 확률 변수 사이의 결합 확률 분포를 나타내는 행렬로 정의된다. P_cc'는 원본 그룹의 클래스가 c인 확률 변수와 확장 그룹의 클래스가 c'인 확률 변수 사이의 결합 확률 분포를 나타낸다. P_c는 원본 그룹의 클래스가 c인 주변 분포를 나타내고, P_c'는 확장 그룹의 클래스가 c'인 주변 분포를 나타낸다. 클러스터링 손실이 감소되도록 제2 모델이 학습됨에 따라, 제2 분석기(120)는 상호 정보가 최대이도록 클러스터링을 수행할 수 있다.

일관성 보존 손실은 확장 그룹에 대한 특징들이 올바른 클래스로 선택되나, 원본 그룹에 대한 특징들이 다른 클래스로 잘못 선택됨을 나타내는 손실로 정의될 수 있다. 일관성 보존 손실(LR)은 수학식 3과 같이 계산될 수 있다.

수학식 3을 참조하면, Pciⁱ는 i 클래스로 올바르게 분류된 확장 그룹의 특징의 확률로 정의된다. Pci^j는 j 클래스로 잘못 분류된 원본 그룹의 특징의 확률로 정의된다.

제2 분석기(120)는 클러스터링 손실 및 가중치가 부여된 일관성 보존 손실을 합하여 최종 손실을 계산할 수 있다. 제2 분석기(120)는 최종 손실이 최소화되도록, 제2 모델의 구성들 각각의 가중치를 조정할 수 있다. 이러한 학습 결과 생성된 제2 모델은 클러스터링에 사용될 수 있다.

도 5는 도 4의 제2 분석기에 의하여, 임베딩 공간에서 특징들이 클러스터링되는 과정을 설명하기 위한 도면이다. 도 5를 참조하면, 제1 분석기(110)에 의하여 처리된 제1 인코딩된 정보(EI1)에 대응되는 특징들을 임베딩 공간에 배치한 제1 결과(SEI) 및 제2 분석기에 의하여 처리된 제2 인코딩된 정보(EI2)에 대응되는 특징들을 임베딩 공간에 배치하고 클러스터링한 제2 결과(SPR)가 예시적으로 도시된다. 설명의 편의상, 3개의 서로 다른 객체들(O1, O2, O3)이 이미지들(IM)에 제공된 것으로 가정한다.

제1 결과(SEI)는 도 3의 제2 결과(SEI)와 같을 수 있다. 제1 분석기(110)의 인코딩에 의하여, 특징들은 제1 결과(SEI)와 같이 분리될 수 있다. 제2 분석기(120)는 도 4의 인코더(121)에 의하여, 앵커로부터 인접한 이웃을 발견하고 그룹화할 수 있다. 제2 분석기(120)의 학습에 따라, 클러스터링 손실 및 일관성 보존 손실의 가중 합 결과가 최소화되도록, 제2 모델의 가중치가 결정될 수 있다. 그 결과, 제1 내지 제3 객체들(O1, O2, O3) 각각에 대응되는 특징들이 임베딩 공간에서 제2 결과(SPR)와 같이 모일 수 있다. 이에 따라, 클러스터링된 결과의 정확성이 개선될 수 있다.

도 6은 영상 분석 시스템이 순차적으로 인코딩 및 클러스터링을 수행하는 경우의 결과를 설명하기 위한 도면이다. 도 6을 참조하면, 인코딩 전에 이미지들(IM)에 대응되는 특징들을 임베딩 공간에 배치한 제1 결과(SIM), 인코딩에 의하여 처리된 특징들을 임베딩 공간에 배치한 제2 결과(S1), 및 제2 결과(S1)를 클러스터링한 제3 결과(S2)가 예시적으로 도시된다. 설명의 편의상, 3개의 서로 다른 객체들(O1, O2, O3)이 이미지들(IM)에 제공된 것으로 가정한다.

도 6을 참조하면, 이미지들에 대한 한번의 인코딩이 수행된 후에, 클러스터링이 수행될 수 있다. 도 5와 달리, 제2 결과(S1) 및 제3 결과(S2)에서, 동일한 특징들이 충분하게 모이지 않게 된다. 그 결과, 클래스들 각각에 포함되는 특징들 중 적어도 일부가 실제 객체와 다를 수 있다.

도 7은 영상 분석 시스템이 인코딩과 함께 클러스터링을 수행하는 경우의 결과를 설명하기 위한 도면이다. 도 7을 참조하면, 인코딩 전에 이미지들(IM)에 대응되는 특징들을 임베딩 공간에 배치한 제1 결과(SIM) 및 인코딩에 의하여 처리된 특징들을 임베딩 공간에 배치하고 클러스터링한 제2 결과(S3)가 예시적으로 도시된다. 설명의 편의상, 3개의 서로 다른 객체들(O1, O2, O3)이 이미지들(IM)에 제공된 것으로 가정한다.

도 7을 참조하면, 도 1의 제2 분석기(120)와 같이, 이미지들에 대한 클러스터링과 함께 인코딩이 수행될 수 있다. 도 5와 달리, 제2 결과(S3)에서, 동일한 특징들이 충분하게 모이지 않게 된다. 그 결과, 클래스들 각각에 포함되는 특징들 중 적어도 일부가 실제 객체와 다를 수 있다.

본 발명의 실시예에 따른, 영상 분석 시스템(100)은 순차적으로 인코딩(제1 분석기(110)) 및 클러스터링(제2 분석기(120))을 수행하되, 클러스터링과 함께 인코딩이 한번 더 수행될 수 있다. 이에 따라, 영상 분석 시스템(100)의 클러스터링 정확도가 더 개선될 수 있다.

도 8은 도 1의 영상 분석 시스템에 의한 클러스터링 결과를 설명하기 위한 도면이다. 도 8을 참조하면, 에포치(epoch, EP)가 증가함에 따른 임베딩 공간에서의 특징들의 분포가 도시된다. 1회의 에포치(EP)마다, 제1 분석기(110)는 입력된 이미지들(IM)에 대응되는 AND 손실, 확장 손실, 및 엔트로피 손실을 계산하고, 최종 손실이 감소하도록 제1 모델의 가중치를 조절할 수 있다. 1회의 에포치(EP)마다, 제2 분석기(120)는 입력된 이미지들(IM)에 대응되는 클러스터링 손실 및 일관성 보존 손실을 계산하고, 최종 손실이 감소하도록 제2 모델의 가중치를 조절할 수 있다.

도 8을 참조하면, 에포치(EP)가 증가함에 따라, 임베딩 공간에서, 클러스터링 정교화(Refinement)가 진행된다. 일례로, 도 8은 에포치(EP)가 증가함에 따라, 10개의 꼭지점들로 특징들이 모이게 될 수 있다. 영상 분석 시스템(100)은 라벨이 부여되지 않은 비지도 방식으로 이미지들(IM)로부터 10개의 객체들을 분리하고 있는 것으로 이해될 것이다. 본 발명의 영상 분석 시스템(100)은 제1 분석기(110)의 초기화 정보를 생성하기 위한 사전 훈련, 및 제2 분석기(120)의 인코딩과 함께 수행되는 상호 정보 기반 클러스터링을 통하여, 클래스의 누락 없이, 클러스터링의 정확도를 개선할 수 있다.

도 9는 도 1의 영상 분석 시스템의 예시적인 블록도이다. 도 9를 참조하면, 영상 분석 시스템(1000)은 네트워크 인터페이스(1100), 프로세서(1200), 워킹 메모리(1300), 스토리지(1400), 및 버스(1500)를 포함할 수 있다.

네트워크 인터페이스(1100)는 외부 전자 장치들과 통신하도록 구성된다. 네트워크 인터페이스(1100)는 이미지 센서 등으로부터 생성된 이미지들을 수신하고, 수신된 이미지들을 버스(1500)를 통하여 프로세서(1200), 워킹 메모리(1300) 또는 스토리지(1400)에 제공할 수 있다. 네트워크 인터페이스(1100)는 이미지들을 분석하여 생성된 객체들의 분류 결과를 외부 장치로 송신할 수 있다.

프로세서(1200)는 영상 분석 시스템(1000)의 중앙 처리 장치로의 기능을 수행할 수 있다. 프로세서(1200)는 영상 분석 시스템(1000)의 데이터 관리, 학습, 및 예측을 위하여 요구되는 제어 동작 및 연산 동작을 수행할 수 있다. 예를 들어, 프로세서(1200)의 제어에 따라, 네트워크 인터페이스(1100)는 이미지들을 수신할 수 있다. 프로세서(1200)의 제어에 따라, 상술된 제1 및 제2 모델들이 학습될 수 있고, 학습된 제1 및 제2 모델들을 이용하여 객체들의 분류 결과가 계산될 수 있다. 프로세서(1200)는 워킹 메모리(1300)의 연산 공간을 활용하여 동작할 수 있고, 스토리지(1400)로부터 운영체제를 구동하기 위한 파일들 및 어플리케이션의 실행 파일들을 읽을 수 있다. 프로세서(1200)는 운영 체제 및 다양한 어플리케이션들을 실행할 수 있다.

워킹 메모리(1300)는 프로세서(1200)에 의하여 처리되거나 처리될 예정인 데이터 및 프로세스 코드들을 저장할 수 있다. 예를 들어, 워킹 메모리(1300)는 이미지들, 분석 모델을 학습하기 위한 정보들, 이미지들을 인코딩하기 위한 정보들, 클러스터링을 수행하기 위한 정보들, 및 분석 모델을 구축하기 위한 정보들을 저장할 수 있다. 워킹 메모리(1300)는 영상 분석 시스템(1000)의 주기억 장치로 이용될 수 있다. 워킹 메모리(1300)는 DRAM (Dynamic RAM), SRAM (Static RAM), PRAM (Phase-change RAM), MRAM (Magnetic RAM), FeRAM (Ferroelectric RAM), RRAM (Resistive RAM) 등을 포함할 수 있다.

학습기(1310) 및 예측기(1320)는 워킹 메모리(1300)에 로딩되어 실행될 수 있다. 학습기(1310) 및 예측기(1320)는 워킹 메모리(1300)의 연산 공간의 일부일 수 있다. 이 경우, 학습기(1310) 및 예측기(1320)는 펌웨어 또는 소프트웨어로 구현될 수 있다. 예를 들어, 펌웨어는 스토리지(1400)에 저장되고, 펌웨어를 실행 시에 워킹 메모리(1300)에 로딩될 수 있다. 프로세서(1200)는 워킹 메모리(1300)에 로딩된 펌웨어를 실행할 수 있다.

학습기(1310)는 제1 분석기(110)의 사전훈련(인코딩)을 위한 제1 모델 및 제2 분석기(120)의 인코딩과 함께 클러스터링을 수행하기 위한 제2 모델을 학습시킬 수 있다. 학습기(1310)는 제1 모델의 이미지 분석에 따라 AND 손실, 확장 손실, 및 엔트로피 손실을 계산할 수 있다. 학습기(1310)는 AND 손실, 확장 손실, 및 가중치가 부여된 엔트로피 손실을 합한 최종 손실이 감소하도록, 제1 모델의 가중치를 조절할 수 있다. 학습기(1310)는 제2 모델의 이미지 분석에 따라 클러스터링 손실 및 일관성 보존 손실을 계산할 수 있다. 학습기(1310)는 클러스터링 손실 및 가중치가 부여된 일관성 보존 손실을 합한 최종 손실이 감소하도록, 제2 모델의 가중치를 조절할 수 있다.

예측기(1320)는 학습기(1310)로부터 학습된 제1 모델 및 제2 모델에 기초하여, 이미지들에 대한 분류 결과를 생성할 수 있다. 일례로, 예측기(1320)는 제1 모델을 사용하여 입력된 이미지들에 대한 SUPER-AND 방식과 같은 사전훈련(인코딩)을 수행할 수 있다. 예측기(1320)는 제2 모델을 사용하여, 이미지들에 대한 인코딩과 함께 상호 정보 기반의 클러스터링을 수행할 수 있다.

스토리지(1400)는 운영 체제 또는 어플리케이션들에 의해 장기적인 저장을 목적으로 생성되는 데이터, 운영 체제를 구동하기 위한 파일, 또는 어플리케이션들의 실행 파일 등을 저장할 수 있다. 예를 들어, 스토리지(1400)는 학습기(1310) 및 예측기(1320)의 실행을 위한 파일들을 저장할 수 있다. 스토리지(1400)는 영상 분석 시스템(1000)의 보조 기억 장치로 이용될 수 있다. 스토리지(1400)는 플래시 메모리, PRAM (Phase-change RAM), MRAM (Magnetic RAM), FeRAM (Ferroelectric RAM), RRAM (Resistive RAM) 등을 포함할 수 있다.

버스(1500)는 영상 분석 시스템(1000)의 구성 요소들 사이에서 통신 경로를 제공할 수 있다. 네트워크 인터페이스(1100), 프로세서(1200), 워킹 메모리(1300), 및 스토리지(1400)는 버스(1500)를 통해 서로 데이터를 교환할 수 있다. 버스(1500)는 영상 분석 시스템(1000)에서 이용되는 다양한 유형의 통신 포맷을 지원하도록 구성될 수 있다.

위에서 설명한 내용은 본 발명을 실시하기 위한 구체적인 예들이다. 본 발명에는 위에서 설명한 실시 예들뿐만 아니라, 단순하게 설계 변경하거나 용이하게 변경할 수 있는 실시 예들도 포함될 것이다. 또한, 본 발명에는 상술한 실시 예들을 이용하여 앞으로 용이하게 변형하여 실시할 수 있는 기술들도 포함될 것이다.

100, 1000: 영상 분석 시스템
110: 제1 분석기
120: 제2 분석기
1310: 학습기
1320: 예측기

Claims

제1 모델로 이미지들을 인코딩하여 제1 특징들을 생성하고, 상기 제1 특징들에 기초하여 상기 제1 모델의 가중치를 조절하는 제1 분석기; 및
상기 제1 특징들에 기초하여, 제2 모델로 상기 이미지들을 인코딩하여 제2 특징들을 생성하고, 상기 제2 특징들 각각을 클래스들로 분류하고, 상기 제2 특징들 중 원본 이미지 그룹에 대응되는 특징들이 분류된 클래스와 상기 제2 특징들 중 상기 원본 이미지 그룹의 확장(augmentation) 그룹에 대응되는 특징들이 분류된 클래스 사이의 상호 정보(mutual information) 및 상관 관계에 기초하여 상기 제2 모델의 가중치를 조절하는 제2 분석기를 포함하는 영상 분석 시스템.
제1 항에 있어서,
상기 제1 분석기는,
상기 가중치가 조절된 제1 모델에 기초하여, 상기 제1 특징들 중 타겟 특징과 가장 이웃한 값을 갖는 특징을 그룹화하는 영상 분석 시스템.
제2 항에 있어서,
상기 제1 분석기는,
상기 타겟 특징과 가장 이웃한 값을 갖는 상기 특징을 임베딩 공간에서 상기 타겟 특징과 가까운 거리를 갖도록 변환하는 영상 분석 시스템.
제1 항에 있어서,
상기 제1 분석기는,
상기 이미지들로부터 특징들을 추출하고, 상기 특징들의 차원을 기설정된 차원으로 축소하고, 임베딩 공간에 상기 차원 축소된 특징들을 정규화함으로써, 상기 제1 특징들을 생성하는 영상 분석 시스템.
제1 항에 있어서,
상기 제1 분석기는,
상기 제1 특징들 중 상기 원본 이미지 그룹에 대응되는 특징들 및 상기 제1 특징들 중 상기 확장 그룹에 대응되는 특징들 사이의 유사도에 기초하여, 상기 제1 특징들 중 타겟 특징과 가장 이웃한 특징이 서브 클래스로 그룹화되는 제1 확률 및 상기 타겟 특징이 상기 서브 클래스에 존재하지 않는 제2 확률을 계산하고, 상기 제1 확률 및 상기 제2 확률에 기초하여 상기 제1 모델의 상기 가중치를 조절하는 영상 분석 시스템.
제1 항에 있어서,
상기 제2 분석기는,
상기 가중치가 조절된 제2 모델에 기초하여, 상기 제2 특징들 중 타겟 특징과 가장 이웃한 값을 갖는 특징을 임베딩 공간에서 상기 타겟 특징과 가까운 거리를 갖도록 변환하고, 상기 변환된 제2 특징들을 상기 클래스들로 분류하는 영상 분석 시스템.
제1 항에 있어서,
상기 제2 분석기는,
상기 제1 특징들에 기초하여, 상기 제2 특징들을 계산하기 위한 초기 값을 결정하는 영상 분석 시스템.
제1 항에 있어서,
상기 제2 분석기는,
상기 이미지들로부터 특징들을 추출하고, 상기 특징들의 차원을 기설정된 차원으로 축소하고, 상기 제1 특징들에 기초하여 임베딩 공간에 상기 차원 축소된 특징들을 정규화함으로써, 상기 제2 특징들을 생성하는 영상 분석 시스템.
제1 항에 있어서,
상기 제2 분석기는,
상기 원본 이미지 그룹에 대응되는 상기 특징들 각각이 분류되는 클래스의 제1 확률 변수와 상기 확장 그룹에 대응되는 상기 특징들 각각이 분류되는 클래스의 제2 확률 변수를 계산하고, 상기 제1 및 제2 확률 변수들 사이의 결합 확률 분포에 기초하여 클러스터링 손실을 계산하고, 상기 클러스터링 손실에 기초하여, 상기 상호 정보가 증가하도록 상기 제2 모델의 상기 가중치를 조절하는 영상 분석 시스템.
제1 항에 있어서,
상기 제2 분석기는,
상기 확장 그룹에 대응되는 상기 특징들 중 타겟 특징이 타겟 클래스로 분류되는 제1 확률 및 상기 원본 이미지 그룹에 대응되는 상기 특징들 중 상기 타겟 특징에 대응되는 특징이 상기 타겟 클래스로 분류되지 않는 제2 확률을 계산하고, 상기 제1 확률 및 상기 제2 확률에 기초하여 상기 제2 모델의 상기 가중치를 조절하는 영상 분석 시스템.
제1 항에 있어서,
상기 제2 분석기는,
상기 상호 정보에 기초하여 제1 손실을 계산하고, 상기 상관 관계에 기초하여 제2 손실을 계산하고, 상기 제1 손실 및 가중치가 부여된 상기 제2 손실의 합이 감소하도록, 상기 제2 모델의 상기 가중치를 조절하는 영상 분석 시스템.
제1 항에 있어서,
상기 이미지들에 라벨이 부여되지 않은 영상 분석 시스템.
영상 분석 시스템의 동작 방법에 있어서,
제1 모델로 원본 이미지들을 인코딩하여 제1 특징들을 생성하는 단계;
상기 제1 모델로 상기 원본 이미지들의 확장 이미지들을 인코딩하여 제2 특징들을 생성하는 단계;
상기 제1 특징들 및 상기 제2 특징들에 기초하여, 상기 제1 모델의 가중치를 조절하는 단계;
상기 제1 특징들에 기초하여 제2 모델로 상기 원본 이미지들을 인코딩하여 제3 특징들을 생성하는 단계;
상기 제2 특징들에 기초하여 상기 제2 모델로 상기 확장 이미지들을 인코딩하여 제4 특징들을 생성하는 단계;
상기 제3 및 제4 특징들을 클러스터링하는 단계; 및
상기 클러스터링된 제3 및 제4 특징들 사이의 상호 정보 및 상관 관계에 기초하여 상기 제2 모델의 가중치를 조절하는 단계를 포함하는 방법.
제13 항에 있어서,
상기 제1 모델의 가중치를 조절하는 단계는,
상기 제1 특징들 및 상기 제2 특징들에 기초하여, 상기 제3 특징들 및 상기 제4 특징들을 생성하기 위한 초기 값을 결정하는 단계를 포함하는 방법.
제13 항에 있어서,
상기 제1 특징들을 생성하는 단계 또는 상기 제2 특징들을 생성하는 단계는,
상기 원본 이미지들 또는 상기 확장 이미지들로부터 특징들을 추출하는 단계;
상기 추출된 특징들의 차원을 기설정된 차원으로 축소하는 단계; 및
임베딩 공간에 상기 차원 축소된 특징들을 정규화하는 단계를 포함하는 방법.
제13 항에 있어서,
상기 제3 특징들을 생성하는 단계 또는 상기 제4 특징들을 생성하는 단계는,
상기 원본 이미지들 또는 상기 확장 이미지들로부터 특징들을 추출하는 단계;
상기 추출된 특징들의 차원을 기설정된 차원으로 축소하는 단계; 및
상기 제1 및 제2 특징들에 기초하여 임베딩 공간에 상기 차원 축소된 특징들을 정규화하는 단계를 포함하는 방법.
제13 항에 있어서,
상기 제2 모델의 가중치를 조절하는 단계는,
상기 제3 특징들 각각이 분류되는 클래스의 제1 확률 변수와 상기 제4 특징들 각각이 분류되는 클래스의 제2 확률 변수 사이의 결합 확률 분포에 기초하여 제1 손실을 계산하는 단계;
클러스터링된 상기 제3 및 제4 특징들 사이의 상기 상관 관계에 기초하여 상기 제3 특징들과 상기 제4 특징들 중 서로 대응되는 제3 특징 및 제4 특징이 서로 다른 클래스로 분류됨에 따른 제2 손실을 계산하는 단계; 및
상기 제1 손실 및 상기 제2 손실의 가중 합이 감소하도록 상기 제2 모델의 상기 가중치를 조절하는 단계를 포함하는 방법.