[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR102429272B1 - 딥러닝에 기반한 객체 검출 장치 및 그 방법 - Google Patents

딥러닝에 기반한 객체 검출 장치 및 그 방법 Download PDF

Info

Publication number
KR102429272B1
KR102429272B1 KR1020200072281A KR20200072281A KR102429272B1 KR 102429272 B1 KR102429272 B1 KR 102429272B1 KR 1020200072281 A KR1020200072281 A KR 1020200072281A KR 20200072281 A KR20200072281 A KR 20200072281A KR 102429272 B1 KR102429272 B1 KR 102429272B1
Authority
KR
South Korea
Prior art keywords
anchor
image
object detection
actual physical
physical position
Prior art date
Application number
KR1020200072281A
Other languages
English (en)
Other versions
KR20210155142A (ko
Inventor
김형준
김지훈
오창석
류우섭
차진혁
김문현
Original Assignee
주식회사 베이리스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 베이리스 filed Critical 주식회사 베이리스
Priority to KR1020200072281A priority Critical patent/KR102429272B1/ko
Publication of KR20210155142A publication Critical patent/KR20210155142A/ko
Application granted granted Critical
Publication of KR102429272B1 publication Critical patent/KR102429272B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

딥러닝에 기반한 객체 검출 방법은, (a) 입력된 이미지의 특징맵을 추출하는 단계; 및 (b) 상기 (a) 단계로부터 추출된 특징맵을 입력받아 영역 제안 네트워크(Region Proposal Network)을 이용하여, 상기 영역 제안 네트워크에 포함된 앵커별로 해당 앵커에 객체가 포함되었는 지 여부, 앵커별로 해당 이미지에 포함된 객체의 이미지 상의 존재 영역 및 앵커별로 해당 이미지에 포함된 객체의 실제 물리적 위치값을 산출하는 단계;를 포함한다.

Description

딥러닝에 기반한 객체 검출 장치 및 그 방법{OBJECT DETECTION APPARATUS BASED ON DEEP LEARNING AND METHOD THEREFOR}
본 발명은 딥러닝에 기반한 객체 검출 장치 및 그 방법에 관한 것이다.
딥러닝에서 물체를 검출하는 알고리즘 분야를 객체 검출(Object Detection)분야라고 한다. 이 분야에서 특히 유명한 알고리즘으로 Faster R-CNN과 Faster R-CNN에 기반한 파생 알고리즘이 존재한다. 다만, Faster R-CNN과 Faster R-CNN에 기반한 파생 알고리즘으로 실생활에서 쌓여진 물품을 분류하는 시도는 현재 많이 이루어져 있으나, 정확도 및 여러 제약으로 실제 제품으로 구현되기는 힘들다.
종래의 Faster R-CNN의 기법이 정확도가 높음에도 실제 제품의 검출에 적용되지 않게 되는 가장 큰 이유로는 논문상에서 정확도 측정에 사용되는 데이터셋과 실제 제품의 배치에 차이가 나기 때문이다. 특히 물품이 잔뜩 배치된 냉장고와 같은 환경은 기존 딥러닝 기반의 객체 검출에 사용되는 데이터셋에서는 보기 힘든 환경이다. 즉, 대량의 물품 검출이라는 측면에 특화되어 진행된 연구는 찾아보기 힘들다.
예를 들면, 일반적으로 많이 쓰이는 COCO 데이터셋의 경우 제한된 제품 환경이 아닌 일상적인 환경에서 다양한 형태, 다양한 배경에 대한 데이터셋으로 구성이 되어 있는 상황인 까닭에, 10 내지 20개 정도가 많은 객체가 많이 존재하는 이미지에 속한다.
도 1은 진열대의 이미지의 예시도를 나타낸다.
도 1로부터 알 수 있는 바와 같이, 냉장고, 마켓의 일반적인 진열대 등의 환경은 기본적으로 하나의 선반에 50 내지 100개씩 쌓여있는게 일반적인 상황이다. 즉, 데이터의 기반이 되는 환경이 진열대와 COCO 데이터셋은 너무 다르다. 이러한 서로 다른 환경 때문에 데이터 기반에 따라서 성능이 직접적으로 영향받는 딥러닝의 특성상 기존 알고리즘이 제한적일 수 밖에 없다.
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks(arXiv:1506.01497v3[cs.CV], 2015.06.04. 제출, 2016.06.06. 개정).
본 발명은 전술한 바와 같은 기술적 과제를 해결하는 데 목적이 있는 발명으로서, Faster R-CNN을 이용하되 객체의 실제 물리적 위치 정보를 추가하는 것에 의해 정확도를 높일 수 있을 뿐만 아니라, 연산량도 감소시킬 수 있는 딥러닝에 기반한 객체 검출 장치 및 그 방법을 제공하는 것에 그 목적이 있다.
본 발명의 딥러닝에 기반한 객체 검출 방법은, (a) 입력된 이미지의 특징맵을 추출하는 단계; (b) 상기 (a) 단계로부터 추출된 특징맵을 입력받아 영역 제안 네트워크(Region Proposal Network)를 이용하여, 상기 영역 제안 네트워크에 포함된 앵커별로 해당 앵커에 객체가 포함되었는 지 여부, 앵커별로 해당 이미지에 포함된 객체의 이미지 상의 존재 영역 및 앵커별로 해당 이미지에 포함된 객체의 실제 물리적 위치값을 산출하는 단계; (c) 상기 영역 제안 네트워크를 이용하여, 상기 (b) 단계에서 산출된 객체의 실제 물리적 위치값 각각에 대해, 하나의 물리적 위치값에 하나의 앵커가 대응하도록 앵커를 선택하는 단계; 및 (d) 상기 (c) 단계에서 선택된 하나의 앵커를 이용하여, 해당 물리적 위치값에 위치하는 객체의 종류를 특정하는 단계;를 포함한다.
아울러, 상기 영역 제안 네트워크는, 로스(Loss) 함수를 이용하여 학습하고, 상기 로스 함수는, 해당 이미지에 포함된 객체의 실제 물리적 위치값과 관련된 제 3 로스항을 포함하는 것을 특징으로 한다.
또한, 상기 제 3 로스항은, 바이너리 크로스 엔트로피(Binary Cross Entropy)를 이용하는 것이 바람직하다.
구체적으로, 상기 객체의 실제 물리적 위치값은, 해당 이미지에 포함된 다수의 객체가 위치할 수 있는 수납면을, a행과 b열의 그리드로 나타낼 경우, 해당 그리드의 행과 열의 정보인 것을 특징으로 한다.
본 발명의 딥러닝에 기반한 객체 검출 장치는, 입력된 이미지의 특징맵을 추출하고, 추출된 특징맵을 입력받아 영역 제안 네트워크(Region Proposal Network)를 이용하여, 상기 영역 제안 네트워크에 포함된 앵커별로 해당 앵커에 객체가 포함되었는 지 여부, 앵커별로 해당 이미지에 포함된 객체의 이미지 상의 존재 영역 및 앵커별로 해당 이미지에 포함된 객체의 실제 물리적 위치값을 산출하는 것을 특징으로 한다.
아울러, 본 발명의 객체 검출 장치는, 산출된 객체의 실제 물리적 위치값 각각에 대해, 하나의 물리적 위치값에 하나의 앵커가 대응하도록 앵커를 선택하는 것이 바람직하다.
또한, 본 발명의 객체 검출 장치는, 상기 선택된 하나의 앵커를 이용하여, 해당 물리적 위치값에 위치하는 객체의 종류를 특정한다.
구체적으로, 상기 영역 제안 네트워크는, 로스(Loss) 함수를 이용하여 학습하고, 상기 로스 함수는, 해당 이미지에 포함된 객체의 실제 물리적 위치값과 관련된 제 3 로스항을 포함하는 것이 바람직하다.
아울러, 상기 제 3 로스항은, 바이너리 크로스 엔트로피(Binary Cross Entropy)를 이용하는 것을 특징으로 한다.
또한, 상기 객체의 실제 물리적 위치값은, 해당 이미지에 포함된 다수의 객체가 위치할 수 있는 수납면을, a행과 b열의 그리드로 나타낼 경우, 해당 그리드의 행과 열의 정보인 것을 특징으로 한다.
본 발명의 딥러닝에 기반한 객체 검출 장치 및 그 방법에 따르면, Faster R-CNN을 이용하되 객체의 실제 물리적 위치 정보를 추가하는 것에 의해 정확도를 높일 수 있을 뿐만 아니라, 연산량도 감소시킬 수 있다.
도 1은 진열대의 이미지의 예시도.
도 2는 본 발명의 바람직한 일실시예에 따른 딥러닝에 기반한 객체 검출 장치의 구성도.
도 3은 객체의 실제 물리적 위치값에 대한 설명도.
도 4는 종래의 Faster R-CNN을 이용할 경우의 객체를 검출하는 방법에 대한 설명도.
도 5는 본 발명의 바람직한 일실시예에 따른 딥러닝에 기반한 객체 검출 방법의 흐름도.
이하, 첨부된 도면을 참조하면서 본 발명의 실시예에 따른 딥러닝에 기반한 객체 검출 장치 및 그 방법에 대해 상세히 설명하기로 한다. 본 발명의 하기의 실시예는 본 발명을 구체화하기 위한 것일 뿐 본 발명의 권리 범위를 제한하거나 한정하는 것이 아님은 물론이다. 본 발명의 상세한 설명 및 실시예로부터 본 발명이 속하는 기술 분야의 전문가가 용이하게 유추할 수 있는 것은 본 발명의 권리 범위에 속하는 것으로 해석된다.
먼저, 도 2는 본 발명의 바람직한 일실시예에 따른 딥러닝에 기반한 객체 검출 장치(100)의 구성도를 나타낸다.
도 2로부터 알 수 있는 바와 같이, 본 발명의 바람직한 일실시예에 따른 딥러닝에 기반한 객체 검출 장치(100)는, 특징맵 추출기(10), 산출기(20) 및 객체 특정기(30)를 포함하여 구성된다. 본 발명의 바람직한 일실시예에 따른 딥러닝에 기반한 객체 검출 장치(100)는, 프로세서를 포함하는 전자 장치를 이용할 수 있다. 아울러, 특징맵 추출기(10), 산출기(20) 및 객체 특정기(30)는, 프로세서의 적어도 일부를 이용하여 구현될 수 있다.
본 발명의 딥러닝에 기반한 객체 검출 장치(100)는, Faster R-CNN을 응용하여 구성된다.
특징맵 추출기(10)는, 합성곱 신경망(Convolutional Neural Network)을 이용하여, 입력된 이미지의 특징맵(Feature Maps)을 추출하는 역할을 한다.
합성곱 신경망은 일반적으로 백본(Backbone)이라고 하며, 전이 학습(Transfer Learning)을 주로 사용한다. 보통 Faster R-CNN에서는 백본으로 ResNet 또는 ResNext를 주로 사용한다.
산출기(20)는, 영역 제안 네트워크(Region Proposal Network, RPN)를 이용한다. 구체적으로 산출기(20)는, 특징맵 추출기(10)로부터 출력된 특징맵을 입력받아, 영역 제안 네트워크에 포함된 앵커별로 해당 앵커에 객체가 포함되었는 지 여부, 앵커별로 해당 이미지에 포함된 객체의 이미지 상의 존재 영역 및 앵커별로 해당 이미지에 포함된 객체의 실제 물리적 위치값을 산출하는 역할을 한다.
앵커는 미리 정의된 형태를 가진 객체가 있을 만한 영역을 의미한다.
본 발명에서의 객체는, 냉장고, 진열대 등에 진열되는 우유, 음료수 등의 물품을 예로 들 수 있다.
종래의 Faster R-CNN과 달리 본 발명의 산출기(20)는, 해당 이미지에 포함된 객체의 실제 물리적 위치값의 산출을 추가적으로 실시하는 것에 그 특징이 있다.
참고로, 해당 앵커에 객체가 포함되었는 지 여부는 종래의 Faster R-CNN에서 클래스(Class)에 해당하며, 해당 이미지에 포함된 객체의 이미지 상의 존재 영역은 종래의 Faster R-CNN에서 경계 박스(Bounding box, Bbox)에 해당한다.
즉, 영역 제안 네트워크는 객체가 있을 만한 영역을 찾기 위해서 사용되며, 영역 제안 네트워크에는 앵커라는 개념이 들어간다. 앵커는 각각의 객체가 있을만한 영역을 나타내며, 여러개의 앵커를 선택한 뒤에 각각의 앵커를 학습하게 된다. 이런 앵커에서 얻어지는 출력값은 클래스(이 값이 객체인지 아닌지를 나타내는 값) 및 경계 박스라는 객체의 영역 정보(이미지 상에서의 중심 x 좌표, 중심 y 좌표, 가로 길이, 세로 길이)로 나타난다.
아울러, 본 발명에서는 앵커가 객체의 실제 물리적 위치값을 추가적으로 출력한다. 즉, 본 발명에서는 해당 이미지에 포함된 객체의 이미지 상의 위치인 경계 박스 뿐만 아니라, 실제 진열대 등의 수납면에서의 물리적 위치인 좌표값도 이용하는 것에 그 특징이 있다.
도 3은 객체의 실제 물리적 위치값에 대한 설명도이다.
도 3으로부터 알 수 있는 바와 같이, 본 발명에서는 객체가 실제로 위치할 냉장고, 진열대 등의 수납면을 그리드(Grid) 형태로 구획하였다. 즉, 객체의 실제 물리적 위치값은, 해당 이미지에 포함된 다수의 객체가 위치할 수 있는 수납면을, a행과 b열의 그리드로 나타낼 경우, 해당 그리드의 행과 열의 정보인 것을 특징으로 한다. 참고로, 도 3에서는 a 및 b는 모두 '8'로 나타내었다.
즉, 객체의 실제 물리적 위치값 정보는 가로와 세로의 a×b맵으로 나타낼 수 있다.
예를 들면, 도 3에서 우유는, 2행과 3열의 물리적 위치값을 가지게 된다. 참고로, 본 발명에서는 하나의 객체는, 하나의 행과 하나의 열의 내부에만 위치한다고 가정한다.
영역 제안 네트워크는, 종래의 Faster R-CNN에서와 마찬가지로 로스(Loss) 함수를 이용하여 학습한다. 다만, 본 발명에서의 로스 함수는, 다음의 [수학식 1]과 같이, 해당 앵커에 객체가 포함되었는 지 여부와 관련된 제 1 로스항제 1 로스항 해당 이미지에 포함된 객체의 이미지 상의 존재 영역과 관련된 제 2 로스항(L2)을 포함할 뿐만 아니라, 해당 이미지에 포함된 객체의 실제 물리적 위치값과 관련된 제 3 로스항(L3)을 포함하는 것을 특징으로 한다.
Figure 112020061218015-pat00001
즉, 본 발명에서는 영역 제안 네트워크에 포함된 앵커의 출력으로 객체의 실제 물리적 위치값 정보를 추가적으로 얻어내기 때문에, 이러한 객체의 실제 물리적 위치값에 대응하는 로스(Loss)를 별도로 산출하여, 객체의 실제 물리적 위치값 연산에 들어가는 가중치를 조절함으로써 학습이 진행되어야 한다. 이 부분이 제 3 로스항(L3)이 된다.
객체의 실제 물리적 위치값 정보는 가로와 세로의 a×b맵으로 나타나게 된다. 즉, 하나의 객체가 위치할 수 있는 물리적 위치값은 하나만 존재할 수 있다. a×b맵에서 객체가 존재하는 물리적 위치값에 해당하는 맵의 부분을 '1'로 두면, 나머지는 '0'으로 수렴하도록 학습이 진행되어야 한다. 즉, 도 3에서 우유는 2행과 3열, 즉 (2, 3)에서는 '1'이라는 값을 갖지만, 맵의 나머지 부분에서는 '0'이라는 값을 가지게 된다.
이러한 형태의 맵을 히트맵(Heatmap)이라고 하며, '0'과 '1'로 이루어진 바이너리 형태의 맵이기 때문에 바이너리 크로스 엔트로스 로스(Binary Cross Entropy Loss)로 계산이 들어간다.
즉, 제 3 로스항(L3)은, 바이너리 크로스 엔트로피를 이용하는 것을 특징으로 한다.
구체적으로, 제 3 로스항(L3)은, 다음의 [수학식 2]와 같이 나타낼 수 있다.
Figure 112020061218015-pat00002
[수학식 2]에서 N은 한번의 학습에 사용되는 앵커의 갯수, k는 각각의 앵커, p 및 q는 물리적 위치값, h는 히트맵, y는 실제 그라운드 트루수(Ground Truth)에서의 해당 물리적 위치값에서의 객체 존재 여부를 나타낸다.
산출된 로스 함수는, Faster R-CNN의 백프로퍼게이션(Backpropagation)을 통해 각각 가중치(Weight)를 조절하는데 사용된다.
산출기(20)는, 산출된 객체의 실제 물리적 위치값 각각에 대해, 하나의 물리적 위치값에 하나의 앵커가 대응하도록 선택하여 출력하는 것이 바람직하다. 구체적으로, 산출기(20)는 가장 클래스의 스코어(Score)가 높은 앵커를 선택하는 것을 특징으로 한다. 따라서, 산출기(20)는 해당 앵커가 포지티브 앵커(Positive Anchor)인 경우에만, 해당 앵커의 물리적 위치값과 해당 경계 박스 정보를 객체 특정기(30)로 출력하는 것이 바람직하다.
객체 특정기(30)는, 산출기(20)에서 선택된 하나의 앵커를 이용하여, 해당 물리적 위치값에 위치하는 객체의 종류를 특정하는 역할을 한다. 즉, 객체 특정기(30)는, 해당 객체의 종류를 분류하는 역할을 한다. 구체적으로, 객체 특정기(30)는 산출기(20)로부터 해당 앵커가 포지티브 앵커(Positive Anchor)인 경우에만, 해당 앵커의 물리적 위치값과 해당 경계 박스 정보를 제안받는다.
예를 들면, 도 3과 같은 경우, 객체 특정기(30)는, 2행과 3열의 물리적 위치값에 위치한 객체를 '우유'라고 특정하게 된다.
구체적으로 객체 특정기(30)는, 특징맵 추출기(10)로부터 출력된 특징맵을 입력받고, 산출기(20)에서 선택된 하나의 앵커를 입력받아, ROI Pooling을 하고, 동일한 물리적 위치값에 대해 선택된 하나의 앵커에 대해 객체를 분류한다. 아울러, 객체 특정기(30)는, 산출기(20)의 해당 이미지에 포함된 객체의 이미지 상의 존재 영역인 경계 박스를 조정하여, 객체의 이미지 상의 존재 영역을 정확화하는 역할도 한다.
참고로, 이 객체 특정은 종래의 Faster R-CNN에서 클래시피케이션(Classification)에 해당한다.
객체 특정기(30)는, 산출기(20)와는 별도의 학습이 요구된다.
도 4는 종래의 Faster R-CNN을 이용할 경우의 객체를 검출하는 방법에 대한 설명도이다.
도 4로부터 알 수 있는 바와 같이 종래의 Faster R-CNN을 이용할 경우, Faster R-CNN의 후단에서 겹치는 객체를 확인하고, NMS(Non-Max Suppression) 방법을 이용하여, 겹치는 객체를 보정할 필요가 있다.
즉, 종래의 Faster R-CNN을 이용할 경우, 객체가 존재할 만한 앵커(Positive Anchor)를 가져와서, 가져온 모든 앵커에 대해 ROI Pooling에 의해 객체 특정을 하고, 각 앵커별로 검출되는 객체를 확인한다. 여기서 앵커의 갯수가 실제 배치된 객체 갯수보다 많으며, 같은 객체에서도 위치가 조금씩 다르게 중복 검출되는(겹치는) 경우가 발생하게 된다. 즉, 그러한 여러 박스 중에서도 최적의 박스만 남겨야 하는데 이때 쓰이는 방식이 NMS(Non-maxmum suppression)라고 한다. 즉, NMS로 겹치는 객체를 보정한다. 구체적으로, NMS에서는 불필요한 물체를 스코어(Score)를 비교해서 가장 높은 하나만 남기고 전부 제거한다.
다만, 본 발명의 딥러닝에 기반한 객체 검출 장치(100)에서는, 산출기(20)는 앵커들 중에서 실제 물리적 위치값 정보를 확인해서 동일한 객체이면 클래스 스코어(Class Score)가 가장 높은 하나만 남기고, 나머지는 모두 제거하여 출력하게 된다. 이에 따라, 객체 특정기(30)가 물리적 위치값별로 하나씩만 앵커를 가져오기 때문에 특정해야 하는 앵커 갯수 자체도 1/10 정도로 줄게 되고, 후처리로 NMS같은 것도 할 필요가 없어져서 좀 더 간단해진다.
도 5는 본 발명의 바람직한 일실시예에 따른 딥러닝에 기반한 객체 검출 방법의 흐름도를 나타낸다.
본 발명의 바람직한 일실시예에 따른 딥러닝에 기반한 객체 검출 방법은, 상술한 본 발명의 딥러닝에 기반한 객체 검출 장치(100)를 이용하므로, 별도의 설명이 없더라도 딥러닝에 기반한 객체 검출 장치(100)의 모든 특징을 포함하고 있음은 물론이다.
아울러, 본 발명의 바람직한 일실시예에 따른 딥러닝에 기반한 객체 검출 방법은, 프로세서에 의해 실시되는 컴프터 프로그램의 형태로 구현될 수 있다.
도 5로부터 알 수 있는 바와 같이, 본 발명의 바람직한 일실시예에 따른 딥러닝에 기반한 객체 검출 방법은, 입력된 이미지의 특징맵을 추출하는 단계(S10); S10 단계로부터 출력된 특징맵을 입력받아, 영역 제안 네트워크(Region Proposal Network, RPN)를 이용하여 영역 제안 네트워크에 포함된 앵커별로 해당 앵커에 객체가 포함되었는 지 여부, 앵커별로 해당 이미지에 포함된 객체의 이미지 상의 존재 영역 및 앵커별로 해당 이미지에 포함된 객체의 실제 물리적 위치값을 산출하는 단계(S20); 영역 제안 네트워크를 이용하여, S20 단계에서 산출된 객체의 실제 물리적 위치값 각각에 대해, 하나의 물리적 위치값에 하나의 앵커가 대응하도록 선택하는 단계(S30); 및 S30 단계에서 선택된 하나의 앵커를 이용하여, 해당 물리적 위치값에 위치하는 객체의 종류를 특정하는 단계(S40);를 포함한다.
아울러, 본 발명의 바람직한 일실시예에 따른 딥러닝에 기반한 객체 검출 방법은, S20 단계에서 산출된 해당 이미지에 포함된 객체의 이미지 상의 존재 영역을 조정하는 단계;를 더 포함하는 것이 바람직하다.
영역 제안 네트워크는, 로스 함수를 이용하여 학습한다. 아울러, 로스 함수는, 해당 이미지에 포함된 객체의 실제 물리적 위치값과 관련된 제 3 로스항을 포함하는 것이 바람직하다.
구체적으로, 제 3 로스항은, 바이너리 크로스 엔트로피를 이용하는 것을 특징으로 한다.
아울러, 객체의 실제 물리적 위치값은, 해당 이미지에 포함된 다수의 객체가 위치할 수 있는 수납면을, a행과 b열의 그리드로 나타낼 경우, 해당 그리드의 행과 열의 정보를 의미한다.
상술한 바와 같이, 본 발명의 딥러닝에 기반한 객체 검출 장치(100) 및 그 방법에 따르면, Faster R-CNN을 이용하되 객체의 실제 물리적 위치 정보를 추가하는 것에 의해 정확도를 높일 수 있을 뿐만 아니라, 연산량도 감소시킬 수 있음을 알 수 있다.
100 : 객체 검출 장치
10 : 특징맵 추출기
20 : 산출기
30 : 객체 특정기

Claims (12)

  1. 딥러닝에 기반한 객체 검출 방법에 있어서,
    (a) 입력된 이미지의 특징맵을 추출하는 단계;
    (b) 상기 (a) 단계로부터 추출된 특징맵을 입력받아 영역 제안 네트워크(Region Proposal Network)를 이용하여, 상기 영역 제안 네트워크에 포함된 앵커별로 해당 앵커에 객체가 포함되었는 지 여부, 앵커별로 해당 이미지에 포함된 객체의 이미지 상의 존재 영역 및 앵커별로 해당 이미지에 포함된 객체의 실제 물리적 위치값을 산출하는 단계; 및
    (c) 상기 영역 제안 네트워크를 이용하여, 상기 (b) 단계에서 산출된 객체의 실제 물리적 위치값 각각에 대해, 하나의 물리적 위치값에 하나의 앵커가 대응하도록 앵커를 선택하는 단계;를 포함하되,
    상기 영역 제안 네트워크는, 로스(Loss) 함수를 이용하여 학습하고,
    상기 로스 함수는, 해당 이미지에 포함된 객체의 실제 물리적 위치값과 관련된 제 3 로스항을 포함하는 것을 특징으로 하는 객체 검출 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 객체 검출 방법은,
    (d) 상기 (c) 단계에서 선택된 하나의 앵커를 이용하여, 해당 물리적 위치값에 위치하는 객체의 종류를 특정하는 단계;를 더 포함하는 것을 특징으로 하는 객체 검출 방법.
  4. 삭제
  5. 제1항에 있어서,
    상기 제 3 로스항은,
    바이너리 크로스 엔트로피(Binary Cross Entropy)를 이용하는 것을 특징으로 하는 객체 검출 방법.
  6. 제1항에 있어서,
    상기 객체의 실제 물리적 위치값은,
    해당 이미지에 포함된 다수의 객체가 위치할 수 있는 수납면을, a행과 b열의 그리드로 나타낼 경우, 해당 그리드의 행과 열의 정보인 것을 특징으로 하는 객체 검출 방법.
  7. 딥러닝에 기반한 객체 검출 장치에 있어서,
    상기 객체 검출 장치는,
    입력된 이미지의 특징맵을 추출하고,
    추출된 특징맵을 입력받아 영역 제안 네트워크(Region Proposal Network)를 이용하여, 상기 영역 제안 네트워크에 포함된 앵커별로 해당 앵커에 객체가 포함되었는 지 여부, 앵커별로 해당 이미지에 포함된 객체의 이미지 상의 존재 영역 및 앵커별로 해당 이미지에 포함된 객체의 실제 물리적 위치값을 산출하고,
    산출된 객체의 실제 물리적 위치값 각각에 대해, 하나의 물리적 위치값에 하나의 앵커가 대응하도록 앵커를 선택하되,
    상기 영역 제안 네트워크는, 로스(Loss) 함수를 이용하여 학습하고,
    상기 로스 함수는, 해당 이미지에 포함된 객체의 실제 물리적 위치값과 관련된 제 3 로스항을 포함하는 것을 특징으로 하는 객체 검출 장치.
  8. 삭제
  9. 제7항에 있어서,
    상기 객체 검출 장치는,
    상기 선택된 하나의 앵커를 이용하여, 해당 물리적 위치값에 위치하는 객체의 종류를 특정하는 것을 특징으로 하는 객체 검출 장치.
  10. 삭제
  11. 제7항에 있어서,
    상기 제 3 로스항은,
    바이너리 크로스 엔트로피(Binary Cross Entropy)를 이용하는 것을 특징으로 하는 객체 검출 장치.
  12. 제7항에 있어서,
    상기 객체의 실제 물리적 위치값은,
    해당 이미지에 포함된 다수의 객체가 위치할 수 있는 수납면을, a행과 b열의 그리드로 나타낼 경우, 해당 그리드의 행과 열의 정보인 것을 특징으로 하는 객체 검출 장치.
KR1020200072281A 2020-06-15 2020-06-15 딥러닝에 기반한 객체 검출 장치 및 그 방법 KR102429272B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200072281A KR102429272B1 (ko) 2020-06-15 2020-06-15 딥러닝에 기반한 객체 검출 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200072281A KR102429272B1 (ko) 2020-06-15 2020-06-15 딥러닝에 기반한 객체 검출 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20210155142A KR20210155142A (ko) 2021-12-22
KR102429272B1 true KR102429272B1 (ko) 2022-08-04

Family

ID=79164146

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200072281A KR102429272B1 (ko) 2020-06-15 2020-06-15 딥러닝에 기반한 객체 검출 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR102429272B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10430691B1 (en) 2019-01-22 2019-10-01 StradVision, Inc. Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring
JP2019536154A (ja) 2016-11-15 2019-12-12 マジック リープ, インコーポレイテッドMagic Leap,Inc. 直方体検出のための深層機械学習システム
KR102095685B1 (ko) 2019-12-02 2020-04-01 주식회사 넥스파시스템 차량 식별 방법 및 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102615196B1 (ko) * 2018-08-21 2023-12-18 삼성전자주식회사 객체 검출 모델 트레이닝 장치 및 방법
US10303981B1 (en) * 2018-10-04 2019-05-28 StradVision, Inc. Learning method and testing method for R-CNN based object detector, and learning device and testing device using the same

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019536154A (ja) 2016-11-15 2019-12-12 マジック リープ, インコーポレイテッドMagic Leap,Inc. 直方体検出のための深層機械学習システム
US10430691B1 (en) 2019-01-22 2019-10-01 StradVision, Inc. Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring
KR102095685B1 (ko) 2019-12-02 2020-04-01 주식회사 넥스파시스템 차량 식별 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Xin Lu 등, Grid R-CNN, arXiv:1811.12030v1.(2018.11.29.)

Also Published As

Publication number Publication date
KR20210155142A (ko) 2021-12-22

Similar Documents

Publication Publication Date Title
Shen et al. Detection of stored-grain insects using deep learning
CN110084236B (zh) 一种图像的矫正方法及装置
US8582887B2 (en) Image processing system, learning device and method, and program
US20210343026A1 (en) Information processing apparatus, control method, and program
CN107239777B (zh) 一种基于多视角图模型的餐具检测和识别方法
CN111640089A (zh) 一种基于特征图中心点的缺陷检测方法及装置
Mai et al. Comparing salient object detection results without ground truth
CN108416347A (zh) 基于边界先验和迭代优化的显著目标检测算法
US20230306717A1 (en) Object recognition device, object recognition method, learning device, learning method, and recording medium
CN115619791B (zh) 一种物品陈列检测方法、装置、设备及可读存储介质
CN109255792A (zh) 一种视频图像的分割方法、装置、终端设备及存储介质
KR102429272B1 (ko) 딥러닝에 기반한 객체 검출 장치 및 그 방법
KR20200066125A (ko) 영상의 유사도 예측 방법 및 장치
US20220343112A1 (en) Learning data generation device, learning data generation method, and learning data generation program
CN112632313B (zh) 一种基于深度学习的蕾丝花边检索方法
TWI689723B (zh) 提取物件表面凹印的方法
Fauzi et al. Estimation of volume and weight of apple by using 2D contactless computer vision measuring method
CN108596048A (zh) 一种基于相关滤波器的目标跟踪检测方法
CN114463860B (zh) 检测模型的训练方法、活体检测方法及相关装置
JP2018156544A (ja) 情報処理装置及びプログラム
Wimalasiri et al. Vision-Based Approach for Food Weight Estimation from 2D Images
JP7347539B2 (ja) 前景抽出装置、前景抽出方法、及び、プログラム
US20240126806A1 (en) Image processing apparatus, and image processing method
Maeda et al. An object recognition method using RGB-D sensor
US20220076438A1 (en) A Method for predicting a three-dimensional (3D) representation, apparatus, system and computer program therefor

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant