KR20220124490A - 동작 유사도 평가 장치 및 동작 유사도 평가 방법 - Google Patents
동작 유사도 평가 장치 및 동작 유사도 평가 방법 Download PDFInfo
- Publication number
- KR20220124490A KR20220124490A KR1020210028190A KR20210028190A KR20220124490A KR 20220124490 A KR20220124490 A KR 20220124490A KR 1020210028190 A KR1020210028190 A KR 1020210028190A KR 20210028190 A KR20210028190 A KR 20210028190A KR 20220124490 A KR20220124490 A KR 20220124490A
- Authority
- KR
- South Korea
- Prior art keywords
- information
- motion
- skeleton information
- similarity
- skeleton
- Prior art date
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 336
- 238000000034 method Methods 0.000 title claims description 27
- 238000011156 evaluation Methods 0.000 claims abstract description 272
- 238000013528 artificial neural network Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 21
- 210000001503 joint Anatomy 0.000 description 18
- 238000013527 convolutional neural network Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 210000003857 wrist joint Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G06K9/6201—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
- G06V2201/033—Recognition of patterns in medical or anatomical images of skeletal patterns
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
일실시예에 따르면, 동작 유사도 평가 장치에 있어서, 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 동영상의 프레임 각각에서 상기 동영상에 포함된 동작에 대한 2D 골격 정보를 획득하고, 상기 2D 골격 정보와 기준 3D 골격 정보를 기초로 상기 기준 3D 골격 정보에서 기준 2D 골격 정보를 획득하고, 상기 2D 골격 정보와 상기 기준 2D 골격 정보를 기초로 유사도를 평가한다.
Description
아래의 실시예들은 동작 유사도 평가 장치 및 동작 유사도 평가 방법에 관한 것이다.
머신 러닝(machine learning)은 인공 지능의 한 분야로, 패턴인식과 컴퓨터 학습 이론의 연구로부터 진화한 분야이며, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야를 말한다.
머신 러닝의 핵심은 표현(representation)과 일반화(generalization)에 있다. 표현이란 데이터의 평가이며, 일반화란 아직 알 수 없는 데이터에 대한 처리이다. 이는 전산 학습 이론 분야이기도 하다.
딥 러닝(deep learning)은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계학습(machine learning) 알고리즘의 집합으로 정의되며, 큰 틀에서 사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야라고 이야기할 수 있다.
합성곱 신경망(Convolutional neural network, CNN)은 시각적 영상을 분석하는 데 사용되는 다층의 피드-포워드적인 인공신경망의 한 종류이다. 딥 러닝에서 심층 신경망으로 분류되며, 시각적 영상 분석에 주로 적용된다.
일실시예에 따르면, 2D 골격 정보와 기준 3D 골격 정보를 기초로 기준 3D 골격 정보에서 기준 2D 골격 정보를 획득할 수 있는 동작 유사도 평가 장치 및 동작 유사도 평가 방법을 제공할 수 있다.
또한, 다른 실시예에 따르면, 2D 골격 정보와 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득할 수 있는 동작 유사도 평가 장치 및 동작 유사도 평가 방법을 제공할 수 있다.
또한, 또 다른 실시예에 따르면, 적어도 하나의 파라미터를 기초로 기준 3D 골격 정보를 2차원으로 투영하여 기준 2D 골격 정보를 획득할 수 있는 동작 유사도 평가 장치 및 동작 유사도 평가 방법을 제공할 수 있다.
또한, 또 다른 실시예에 따르면, 2D 골격 정보에 포함된 관절의 각도 정보와 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도를 평가할 수 있는 동작 유사도 평가 장치 및 동작 유사도 평가 방법을 제공할 수 있다.
또한, 또 다른 실시예에 따르면, 2D 골격 정보 및 기준 3D 골격 정보를 미리 설정된 골격 정보로 리타겟팅 할 수 있는 동작 유사도 평가 장치 및 동작 유사도 평가 방법을 제공할 수 있다.
또한, 또 다른 실시예에 따르면, 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보를 기초로 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도를 평가할 수 있는 동작 유사도 평가 장치 및 동작 유사도 평가 방법을 제공할 수 있다.
일실시예에 따르면, 동작 유사도 평가 장치에 있어서, 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 동영상의 프레임 각각에서 상기 동영상에 포함된 동작에 대한 2D 골격 정보를 획득하고, 상기 2D 골격 정보와 기준 3D 골격 정보를 기초로 상기 기준 3D 골격 정보에서 기준 2D 골격 정보를 획득하고, 상기 2D 골격 정보와 상기 기준 2D 골격 정보를 기초로 유사도를 평가한다.
또한, 상기 적어도 하나의 프로세서는, 상기 2D 골격 정보와 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하고, 상기 획득한 적어도 하나의 파라미터를 기초로 상기 기준 3D 골격 정보를 2차원으로 투영하여 상기 기준 2D 골격 정보를 획득할 수 있다.
또한, 상기 적어도 하나의 프로세서는, 상기 2D 골격 정보에 포함된 관절의 각도 정보와 상기 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가할 수 있다.
또한, 상기 적어도 하나의 프로세서는, 상기 2D 골격 정보와 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하고, 상기 2D 골격 정보 및 상기 기준 3D 골격 정보를 미리 설정된 골격 정보로 리타겟팅 하고, 상기 획득한 적어도 하나의 파라미터를 기초로 상기 리타겟팅 한 기준 3D 골격 정보를 2차원으로 투영하여 리타겟팅 한 기준 2D 골격 정보를 획득할 수 있다.
또한, 상기 적어도 하나의 프로세서는, 상기 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 상기 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보를 기초로 유사도를 평가할 수 있다.
또한, 상기 적어도 하나의 프로세서는, 상기 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 상기 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가할 수 있다.
또한, 상기 적어도 하나의 프로세서는, 상기 동영상의 미리 설정된 프레임에서 획득한 상기 2D 골격 정보와 상기 동영상의 미리 설정된 프레임에 대응하는 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득할 수 있다.
다른 실시예에 따르면, 동영상의 프레임 각각에서 상기 동영상에 포함된 동작에 대한 2D 골격 정보를 획득하는 동작, 상기 2D 골격 정보와 기준 3D 골격 정보를 기초로 상기 기준 3D 골격 정보에서 기준 2D 골격 정보를 획득하는 동작 및 상기 2D 골격 정보와 상기 기준 2D 골격 정보를 기초로 유사도를 평가하는 동작을 포함한다.
또한, 상기 기준 2D 골격 정보를 획득하는 동작은, 상기 2D 골격 정보와 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하는 동작 및 상기 획득한 적어도 하나의 파라미터를 기초로 상기 기준 3D 골격 정보를 2차원으로 투영하여 상기 기준 2D 골격 정보를 획득하는 동작을 포함할 수 있다.
또한, 상기 유사도를 평가하는 동작은, 상기 2D 골격 정보에 포함된 관절의 각도 정보와 상기 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가하는 동작을 포함할 수 있다.
또한, 상기 기준 2D 골격 정보를 획득하는 동작은, 상기 2D 골격 정보와 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하는 동작, 상기 2D 골격 정보 및 상기 기준 3D 골격 정보를 미리 설정된 골격 정보로 리타겟팅 하는 동작 및 상기 획득한 적어도 하나의 파라미터를 기초로 상기 리타겟팅 한 기준 3D 골격 정보를 2차원으로 투영하여 리타겟팅 한 기준 2D 골격 정보를 획득하는 동작을 포함할 수 있다.
또한, 상기 유사도를 평가하는 동작은, 상기 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 상기 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보를 기초로 유사도를 평가하는 동작을 포함할 수 있다.
또한, 상기 유사도를 평가하는 동작은, 상기 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 상기 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가하는 동작을 포함할 수 있다.
또한, 상기 2D 골격 정보와 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하는 동작은, 상기 동영상의 미리 설정된 프레임에서 획득한 상기 2D 골격 정보와 상기 동영상의 미리 설정된 프레임에 대응하는 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하는 동작을 포함할 수 있다.
일실시예에 따르면, 2D 골격 정보와 기준 3D 골격 정보를 기초로 기준 3D 골격 정보에서 기준 2D 골격 정보를 획득할 수 있는 효과가 있다.
또한, 2D 골격 정보와 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득할 수 있는 효과가 있다.
또한, 적어도 하나의 파라미터를 기초로 기준 3D 골격 정보를 2차원으로 투영하여 기준 2D 골격 정보를 획득할 수 있는 효과가 있다.
또한, 2D 골격 정보에 포함된 관절의 각도 정보와 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도를 평가할 수 있는 효과가 있다.
또한, 2D 골격 정보 및 기준 3D 골격 정보를 미리 설정된 골격 정보로 리타겟팅 할 수 있는 효과가 있다.
또한, 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보를 기초로 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도를 평가할 수 있는 효과가 있다.
도 1은 일실시예에 따라 동작 유사도 평가 장치가 유사도 평가 결과를 생성하는 모습을 나타내는 도면이다.
도 2는 일실시예에 따른 동작 유사도 평가 장치의 구성을 나타내는 도면이다.
도 3은 일실시예에 따라 동작 유사도 평가 장치가 동작을 포함하는 동영상의 프레임 각각에서 동작에 대한 2D 골격 정보를 획득하는 모습을 나타내는 도면이다.
도 4는 일실시예에 따라 동작 유사도 평가 장치가 2D 골격 정보와 기준 3D 골격 정보를 기초로 기준 3D 골격 정보에서 기준 2D 골격 정보를 획득하는 모습을 나타내는 도면이다.
도 5는 일실시예에 따라 동작 유사도 평가 장치가 관절의 각도 정보를 기초로 유사도를 평가하는 모습을 나타내는 도면이다.
도 6은 일실시예에 따라 동작 유사도 평가 장치가 관절의 위치 정보를 기초로 유사도를 평가하는 모습을 나타내는 도면이다.
도 7은 일실시예에 따라 동작 유사도 평가 장치가 실제 유사도를 평가하는 모습을 나타내는 도면이다.
도 8은 일실시예에 따른 동작 유사도 평가 방법을 나타내는 플로우 차트이다.
도 9는 다른 실시예에 따른 동작 유사도 평가 방법을 나타내는 플로우 차트이다.
도 10은 또 다른 실시예에 따른 동작 유사도 평가 방법을 나타내는 플로우 차트이다.
도 2는 일실시예에 따른 동작 유사도 평가 장치의 구성을 나타내는 도면이다.
도 3은 일실시예에 따라 동작 유사도 평가 장치가 동작을 포함하는 동영상의 프레임 각각에서 동작에 대한 2D 골격 정보를 획득하는 모습을 나타내는 도면이다.
도 4는 일실시예에 따라 동작 유사도 평가 장치가 2D 골격 정보와 기준 3D 골격 정보를 기초로 기준 3D 골격 정보에서 기준 2D 골격 정보를 획득하는 모습을 나타내는 도면이다.
도 5는 일실시예에 따라 동작 유사도 평가 장치가 관절의 각도 정보를 기초로 유사도를 평가하는 모습을 나타내는 도면이다.
도 6은 일실시예에 따라 동작 유사도 평가 장치가 관절의 위치 정보를 기초로 유사도를 평가하는 모습을 나타내는 도면이다.
도 7은 일실시예에 따라 동작 유사도 평가 장치가 실제 유사도를 평가하는 모습을 나타내는 도면이다.
도 8은 일실시예에 따른 동작 유사도 평가 방법을 나타내는 플로우 차트이다.
도 9는 다른 실시예에 따른 동작 유사도 평가 방법을 나타내는 플로우 차트이다.
도 10은 또 다른 실시예에 따른 동작 유사도 평가 방법을 나타내는 플로우 차트이다.
본 명세서에 개시되어 있는 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 실시예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다.
실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 실시예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 실시예들의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 실시예들에 따른 권리 범위로부터 이탈되지 않은 채, 제1구성요소는 제2구성요소로 명명될 수 있고, 유사하게 제2구성요소는 제1구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다.
일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하의 설명에서 동일한 식별 기호는 동일한 구성을 의미하며, 불필요한 중복적인 설명 및 공지 기술에 대한 설명은 생략하기로 한다.
이하, 첨부한 도면을 참조하여 바람직한 실시예를 설명함으로써, 상세히 설명한다.
도 1은 일실시예에 따라 동작 유사도 평가 장치가 유사도 평가 결과를 생성하는 모습을 나타내는 도면이다.
도 1을 참조하면, 일실시예에 따라, 동작 유사도 평가 장치(100)는 동영상(200)을 획득할 수 있다. 이때, 동영상(200)은 동작을 포함할 수 있다. 또한, 동작은 댄스(dance) 동작 일 수 있으나, 동작이 이에 한정되는 것은 아니다.
일실시예에 따라, 동작 유사도 평가 장치(100)는 동영상(200)에 포함된 동작을 인식할 수 있다.
일실시예에 따라, 동작 유사도 평가 장치(100)는 기준(Reference, 이하 '기준'이라 한다) 3D 골격 정보(210)를 획득할 수 있다. 이때, 기준 3D 골격 정보(210)는 동영상(200)에 포함된 동작에 대한 기준 3D 골격 정보일 수 있으나, 기준 3D 골격 정보(210)가 이에 한정되는 것은 아니다. 또한, 기준 3D 골격 정보(210)는 동영상(200)에 포함된 동작(예컨대, 댄스 동작 등)에 대한 모션 캡쳐 정보일 수 있으나, 기준 3D 골격 정보(210)가 이에 한정되는 것은 아니다.
일실시예에 따라, 동작 유사도 평가 장치(100)는 동영상(200) 및 기준 3D 골격 정보(210)를 기초로 유사도 평가 결과(220)를 생성할 수 있다. 이때, 유사도 평가 결과(220)는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과(220)의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 동작 유사도 평가 장치(100)는 동영상(200)의 프레임 각각에 포함된 사람을 인식할 수 있다.
일실시에 따라, 동작 유사도 평가 장치(100)는 동영상(200)의 프레임 각각에서 인식한 사람이 포함된 영역에 대한 바운딩 박스(bounding box)를 동영상(200)의 프레임 각각에서 획득할 수 있다.
일실시에 따라, 동작 유사도 평가 장치(100)는 미리 설정된 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 획득한 각각의 바운딩 박스(bounding box)에서 골격을 구성하는 각 관절의 위치 히트 맵(Heat map)을 획득할 수 있다. 이때, 미리 설정된 딥 뉴럴 네트워크(Deep Neural Network)는 학습이 완료된 합성곱 신경망(Convolution Neural Network, CNN)일 수 있으나, 미리 설정된 딥 뉴럴 네트워크(Deep Neural Networks)가 이에 한정되는 것은 아니다.
일실시에 따라, 동작 유사도 평가 장치(100)는 획득한 각 관절의 위치 히트 맵(Heat map)을 기초로 각각의 바운딩 박스(bounding box)와 대응하는 2D 골격 정보를 획득할 수 있다.
일실시에 따라, 동작 유사도 평가 장치(100)는 동영상의 프레임 각각에서 획득한 2D 골격 정보와 기준 3D 골격 정보(210)를 정렬하여 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 획득할 수 있다.
ⅰ) 2D 골격 정보와 기준 2D 골격 정보를 기초로 유사도를 평가
일실시에 따라, 동작 유사도 평가 장치(100)는 획득한 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 기초로 기준 3D 골격 정보(210)를 2차원으로 투영하여 기준 2D 골격 정보를 획득할 수 있다.
일실시에 따라, 동작 유사도 평가 장치(100)는 획득한 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 기초로 기준 3D 골격 정보(210)를 2차원으로 투영하여 동영상(200)의 프레임 각각에 대응하는 기준 2D 골격 정보를 획득할 수 있다. 이때, 동영상의 프레임은 동영상에 포함된 동작이 포함된 프레임일 수 있으나, 동영상의 프레임이 이에 한정되는 것은 아니다.
일실시에 따라, 동작 유사도 평가 장치(100)는 2D 골격 정보와 기준 2D 골격 정보를 기초로 유사도를 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 동작 유사도 평가 장치(100)는 동영상의 프레임 각각에서 획득한 2D 골격 정보에 포함된 관절의 각도 정보와 동영상의 프레임 각각에 대응하는 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가할 수 있다. 이때, 동영상의 프레임은 동영상에 포함된 동작이 포함된 프레임일 수 있으나, 동영상의 프레임이 이에 한정되는 것은 아니다. 또한, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보(210)의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 동작 유사도 평가 장치(100)는 2D 골격 정보에 포함된 관절의 각도 정보와 2D 골격 정보에 포함된 관절의 각도 정보와 대응하는 기준 2D 골격 정보에 포함된 관절의 각도 정보 사이의 각도 편차를 각 프레임 마다 계산할 수 있다.
일실시에 따라, 동작 유사도 평가 장치(100)는 계산한 각도 편차를 기초로 유사도를 각 프레임 별로 평가할 수 있다. 이때, 유사도는 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 동작 유사도 평가 장치(100)는 계산한 각도 편차가 작을수록 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)가 유사하다고 평가할 수 있다.
일실시에 따라, 동작 유사도 평가 장치(100)는 계산한 각도 편차가 클수록 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)가 비유사하다고 평가할 수 있다.
일실시에 따라, 동작 유사도 평가 장치(100)는 각 프레임 별로 평가한 유사도 평가 결과(220)를 생성할 수 있다. 이때, 유사도 평가 결과(220)는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과(220)의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 동작 유사도 평가 장치(100)는 동영상 전체로 평가한 유사도 평가 결과(220)를 생성할 수 있다. 이때, 유사도 평가 결과(220)는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과(220)의 대상이 이에 한정되는 것은 아니다.
ⅱ) 리타겟팅 한 2D 골격 정보와 리타겟팅 한 기준 2D 골격 정보를 기초로 유사도를 평가
일실시에 따라, 동작 유사도 평가 장치(100)는 골격 정보를 정규화(Normalization) 시키기 위하여 2D 골격 정보 및 기준 3D 골격 정보(210)를 미리 설정된 골격(예컨대, 정규화 된 표준 체형의 골격) 정보로 리타겟팅 할 수 있다.
일실시에 따라, 동작 유사도 평가 장치(100)는 골격 정보를 정규화(Normalization) 시키기 위하여 2D 골격 정보 및 기준 3D 골격 정보(210)를 미리 설정된 골격 정보(예컨대, 정규화 된 표준 체형의 골격 정보, 대한민국 남성 평균 키에 해당하는 골격 정보, 대한민국 여성 평균 키에 해당하는 골격 정보 등)로 리타겟팅 할 수 있다.
일실시에 따라, 동작 유사도 평가 장치(100)는 골격 정보를 정규화(Normalization) 시키기 위하여 2D 골격 정보를 기준 3D 골격 정보(210)로 리타겟팅 할 수 있다.
일실시에 따라, 동작 유사도 평가 장치(100)는 골격 정보를 정규화(Normalization) 시키기 위하여 기준 3D 골격 정보(210)를 2D 골격 정보로 리타겟팅 할 수 있다.
일실시에 따라, 동작 유사도 평가 장치(100)는 획득한 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 기초로 리타겟팅 한 기준 3D 골격 정보를 2차원으로 투영하여 리타겟팅 한 기준 2D 골격 정보를 획득할 수 있다.
일실시에 따라, 동작 유사도 평가 장치(100)는 획득한 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 기초로 리타겟팅 한 기준 3D 골격 정보를 2차원으로 투영하여 동영상의 프레임 각각에 대응하는 리타겟팅 한 기준 2D 골격 정보를 획득할 수 있다. 이때, 동영상의 프레임은 동영상에 포함된 동작이 포함된 프레임일 수 있으나, 동영상의 프레임이 이에 한정되는 것은 아니다.
일실시에 따라, 동작 유사도 평가 장치(100)는 리타겟팅 한 2D 골격 정보와 리타겟팅 한 기준 2D 골격 정보를 기초로 유사도를 평가할 수 있다. 이때, 유사도는 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 동작 유사도 평가 장치(100)는 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보를 기초로 유사도를 평가할 수 있다. 이때, 유사도는 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 동작 유사도 평가 장치(100)는 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 대응하는 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보 사이의 관절의 위치 차이를 각 프레임 마다 계산할 수 있다.
일실시에 따라, 동작 유사도 평가 장치(100)는 계산한 관절의 위치 차이를 기초로 유사도를 각 프레임 별로 평가할 수 있다. 이때, 유사도는 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 동작 유사도 평가 장치(100)는 계산한 관절의 위치 차이가 작을수록 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)가 유사하다고 평가할 수 있다.
일실시에 따라, 동작 유사도 평가 장치(100)는 계산한 관절의 위치 차이가 클수록 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)가 비유사하다고 평가할 수 있다.
일실시에 따라, 동작 유사도 평가 장치(100)는 각 프레임 별로 평가한 유사도 평가 결과(220)를 생성할 수 있다. 이때, 유사도 평가 결과(220)는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과(220)의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 동작 유사도 평가 장치(100)는 동영상 전체로 평가한 유사도 평가 결과(220)를 생성할 수 있다. 이때, 유사도 평가 결과(220)는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과(220)의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 동작 유사도 평가 장치(100)는 리타겟팅 한 2D 골격 정보와 리타겟팅 한 기준 2D 골격 정보를 기초로 유사도를 평가할 수 있다. 이때, 유사도는 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 동작 유사도 평가 장치(100)는 동영상의 프레임 각각에서 획득한 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 동영상의 프레임 각각에 대응하는 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가할 수 있다. 이때, 동영상의 프레임은 동영상에 포함된 동작이 포함된 프레임일 수 있으나, 동영상의 프레임이 이에 한정되는 것은 아니다. 또한, 유사도는 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 동작 유사도 평가 장치(100)는 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 대응하는 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 각도 정보 사이의 각도 편차를 각 프레임 마다 계산할 수 있다.
일실시에 따라, 동작 유사도 평가 장치(100)는 계산한 각도 편차를 기초로 유사도를 각 프레임 별로 평가할 수 있다. 이때, 유사도는 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 동작 유사도 평가 장치(100)는 계산한 각도 편차가 작을수록 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)가 유사하다고 평가할 수 있다.
일실시에 따라, 동작 유사도 평가 장치(100)는 계산한 각도 편차가 클수록 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)가 비유사하다고 평가할 수 있다.
일실시에 따라, 동작 유사도 평가 장치(100)는 각 프레임 별로 평가한 유사도 평가 결과(220)를 생성할 수 있다. 이때, 유사도 평가 결과(220)는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과(220)의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 동작 유사도 평가 장치(100)는 동영상 전체로 평가한 유사도 평가 결과(220)를 생성할 수 있다. 이때, 유사도 평가 결과(220)는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과(220)의 대상이 이에 한정되는 것은 아니다.
도 2는 일실시예에 따른 동작 유사도 평가 장치의 구성을 나타내는 도면이다.
도 2를 참조하면, 동작 유사도 평가 장치(100)는 프로세서(110), 입출력 인터페이스 모듈(120) 및 메모리(130)를 포함한다.
일실시예에 따라, 동작 유사도 평가 장치(100)에 포함된 프로세서(110), 입출력 인터페이스 모듈(120) 및 메모리(130)는 상호 연결되어 있으며, 상호 데이터를 전송하는 것이 가능하다.
일실시예에 따라, 프로세서(110)는 메모리(130)에 저장된 프로그램들 또는 명령들을 실행시킬 수 있다. 이때, 메모리(130)에는 동작 유사도 평가 장치(100)를 동작시키기 위한 동작프로그램(예컨대, OS)이 저장될 수 있다.
일실시예에 따라, 프로세서(110)는 동작 유사도 평가 장치(100)에 대한 정보를 관리하기 위한 프로그램을 실행시킬 수 있다.
일실시예에 따라, 프로세서(110)는 동작 유사도 평가 장치(100)의 동작을 관리하기 위한 프로그램을 실행시킬 수 있다.
일실시예에 따라, 프로세서(110)는 입출력 인터페이스 모듈(120)의 동작을 관리하기 위한 프로그램을 실행시킬 수 있다.
일실시예에 따라, 프로세서(110)는 입출력 인터페이스 모듈(120)을 통해 동영상을 획득할 수 있다. 이때, 동영상은 동작을 포함할 수 있다. 또한, 동작은 댄스(dance) 동작 일 수 있으나, 동작이 이에 한정되는 것은 아니다.
일실시예에 따라, 프로세서(110)는 동영상에 포함된 동작을 인식할 수 있다.
일실시예에 따라, 프로세서(110)는 입출력 인터페이스 모듈(120)을 통해 기준 3D 골격 정보를 획득할 수 있다. 이때, 기준 3D 골격 정보는 동영상에 포함된 동작에 대한 기준 3D 골격 정보일 수 있으나, 기준 3D 골격 정보가 이에 한정되는 것은 아니다. 또한, 기준 3D 골격 정보는 동영상에 포함된 동작(예컨대, 댄스 동작 등)에 대한 모션 캡쳐 정보일 수 있으나, 기준 3D 골격 정보가 이에 한정되는 것은 아니다.
일실시예에 따라, 프로세서(110)는 동영상 및 기준 3D 골격 정보를 기초로 유사도 평가 결과를 생성할 수 있다. 이때, 유사도 평가 결과는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과의 대상이 이에 한정되는 것은 아니다.
일실시예에 따라, 프로세서(110)는 동영상의 프레임 각각에 포함된 사람을 인식할 수 있다.
일실시예에 따라, 프로세서(110)는 동영상의 프레임 각각에서 인식한 사람이 포함된 영역에 대한 바운딩 박스(bounding box)를 동영상의 프레임 각각에서 획득할 수 있다.
일실시예에 따라, 프로세서(110)는 미리 설정된 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 획득한 각각의 바운딩 박스(bounding box)에서 골격을 구성하는 각 관절의 위치 히트 맵(Heat map)을 획득할 수 있다. 이때, 미리 설정된 딥 뉴럴 네트워크(Deep Neural Network)는 학습이 완료된 합성곱 신경망(Convolution Neural Network, CNN)일 수 있으나, 미리 설정된 딥 뉴럴 네트워크(Deep Neural Networks)가 이에 한정되는 것은 아니다.
일실시예에 따라, 프로세서(110)는 획득한 각 관절의 위치 히트 맵(Heat map)을 기초로 각각의 바운딩 박스(bounding box)와 대응하는 2D 골격 정보를 획득할 수 있다.
일실시예에 따라, 프로세서(110)는 [수학식 1]을 이용하여 동영상의 프레임 각각에서 획득한 2D 골격 정보와 기준 3D 골격 정보를 정렬하여 기준 3D 골격 정보에서 생성한 2D 골격 정보와 동영상에 포함된 동작에 대한 2D 골격 정보의 관절(Joint)간 거리 함수가 최소화되도록 3차원 회전과 관련된 파라미터와 스케일과 관련된 파라미터를 획득할 수 있다.
여기서, 는 투영 함수이고, 는 기준 3D 골격 정보이고, 는 3차원 회전과 관련된 파라미터이고, 는 스케일과 관련된 파라미터이고, 는 동영상에 포함된 동작에 대한 관절(Joint)과 관련된 2D 골격 정보이다.
일실시예에 따라, 프로세서(110)는 [수학식 1]을 이용하여 동영상에 포함된 동작이 시작되는 프레임과 동영상에 포함된 동작이 시작되는 프레임과 대응하는 기준 3D 골격 정보의 프레임을 1회 정렬하여 기준 3D 골격 정보에서 생성한 2D 골격 정보와 동영상에 포함된 동작에 대한 2D 골격 정보의 관절(Joint)간 거리 함수가 최소화되도록 3차원 회전과 관련된 파라미터와 스케일과 관련된 파라미터를 획득할 수 있다.
일실시예에 따라, 프로세서(110)는 [수학식 1]을 이용하여 동영상에 포함된 동작과 관련된 프레임 각각과 동영상에 포함된 동작과 관련된 프레임 각각과 대응하는 기준 3D 골격 정보의 프레임 각각을 정렬하여 기준 3D 골격 정보에서 생성한 2D 골격 정보와 동영상에 포함된 동작에 대한 2D 골격 정보의 관절(Joint)간 거리 함수가 최소화되도록 3차원 회전과 관련된 파라미터와 스케일과 관련된 파라미터를 획득할 수 있다.
일실시예에 따라, 프로세서(110)는 동영상에 포함된 동작과 관련된 프레임 전부를 샷(shot, 이하 '샷'이라 한다) 단위로 분할할 수 있다. 이때, 샷의 의미는 동작의 동선이 유사한 프레임의 그룹일 수 있으나, 샷의 의미가 이에 한정되는 것은 아니다.
일실시예에 따라, 프로세서(110)는 [수학식 1]을 이용하여 각각의 샷의 시작 프레임과 각각의 샷의 시작 프레임에 대응하는 기준 3D 골격 정보의 각각의 프레임을 정렬하여 기준 3D 골격 정보에서 생성한 2D 골격 정보와 동영상에 포함된 동작에 대한 2D 골격 정보의 관절(Joint)간 거리 함수가 최소화되도록 3차원 회전과 관련된 파라미터와 스케일과 관련된 파라미터를 획득할 수 있다.
일실시예에 따라, 프로세서(110)는 [수학식 2]를 이용하여 동영상의 프레임 각각에서 획득한 2D 골격 정보와 기준 3D 골격 정보를 정렬하여 기준 3D 골격 정보에서 생성한 2D 골격 정보와 동영상에 포함된 동작에 대한 2D 골격 정보의 관절(Joint)간 거리 함수가 최소화되도록 3차원 회전과 관련된 파라미터와 스케일과 관련된 파라미터를 획득할 수 있다.
여기서, 는 투영 함수이고, 는 기준 3D 골격 정보이고, 는 3차원 회전과 관련된 파라미터이고, 는 스케일과 관련된 파라미터이고, 는 동영상에 포함된 동작에 대한 프레임(Frame) 및 관절(Joint)과 관련된 2D 골격 정보이다.
일실시예에 따라, 프로세서(110)는 [수학식 2]를 이용하여 동영상에 포함된 동작과 관련된 프레임 전부와 동영상에 포함된 동작과 관련된 프레임 전부와 대응하는 기준 3D 골격 정보의 프레임 전부를 정렬하여 기준 3D 골격 정보에서 생성한 2D 골격 정보와 동영상에 포함된 동작에 대한 2D 골격 정보의 관절(Joint)간 거리 함수가 최소화되도록 3차원 회전과 관련된 파라미터와 스케일과 관련된 파라미터를 획득할 수 있다.
일실시예에 따라, 프로세서(110)는 동영상에 포함된 동작과 관련된 프레임 전부를 샷(shot, 이하 '샷'이라 한다) 단위로 분할할 수 있다. 이때, 샷의 의미는 동작의 동선이 유사한 프레임의 그룹일 수 있으나, 샷의 의미가 이에 한정되는 것은 아니다.
일실시예에 따라, 프로세서(110)는 [수학식 2]를 이용하여 각각의 샷의 전체 프레임과 각각의 샷의 전체 프레임에 대응하는 기준 3D 골격 정보의 각각의 프레임들을 정렬하여 기준 3D 골격 정보에서 생성한 2D 골격 정보와 동영상에 포함된 동작에 대한 2D 골격 정보의 관절(Joint)간 거리 함수가 최소화되도록 3차원 회전과 관련된 파라미터와 스케일과 관련된 파라미터를 획득할 수 있다.
ⅲ) 2D 골격 정보와 기준 2D 골격 정보를 기초로 유사도를 평가
일실시에 따라, 프로세서(110)는 획득한 3차원 회전과 관련된 파라미터와 스케일과 관련된 파라미터를 기초로 기준 3D 골격 정보를 2차원으로 투영하여 기준 2D 골격 정보를 획득할 수 있다.
일실시에 따라, 프로세서(110)는 획득한 3차원 회전과 관련된 파라미터와 스케일과 관련된 파라미터를 기초로 기준 3D 골격 정보를 2차원으로 투영하여 동영상의 프레임 각각에 대응하는 기준 2D 골격 정보를 획득할 수 있다. 이때, 동영상의 프레임은 동영상에 포함된 동작이 포함된 프레임일 수 있으나, 동영상의 프레임이 이에 한정되는 것은 아니다.
일실시에 따라, 프로세서(110)는 2D 골격 정보와 기준 2D 골격 정보를 기초로 유사도를 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 프로세서(110)는 동영상의 프레임 각각에서 획득한 2D 골격 정보에 포함된 관절의 각도 정보와 동영상의 프레임 각각에 대응하는 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가할 수 있다. 이때, 동영상의 프레임은 동영상에 포함된 동작이 포함된 프레임일 수 있으나, 동영상의 프레임이 이에 한정되는 것은 아니다. 또한, 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 동작 프로세서(110)는 2D 골격 정보에 포함된 관절의 각도 정보와 2D 골격 정보에 포함된 관절의 각도 정보와 대응하는 기준 2D 골격 정보에 포함된 관절의 각도 정보 사이의 각도 편차를 각 프레임 마다 계산할 수 있다.
일실시에 따라, 프로세서(110)는 계산한 각도 편차를 기초로 유사도를 각 프레임 별로 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 프로세서(110)는 계산한 각도 편차가 작을수록 동영상에 포함된 동작과 기준 3D 골격 정보가 유사하다고 평가할 수 있다.
일실시에 따라, 프로세서(110)는 계산한 각도 편차가 클수록 동영상에 포함된 동작과 기준 3D 골격 정보가 비유사하다고 평가할 수 있다.
일실시에 따라, 프로세서(110)는 계산한 각도 편차를 시각화 할 수 있다.
일실시에 따라, 계산한 각도 편차가 작은 경우, 프로세서(110)는 2D 골격 정보 중 각도 편차가 발생한 관절을 제1 색(예컨대, 파란색) 계열로 시각화 할 수 있다.
일실시에 따라, 계산한 각도 편차가 큰 경우, 프로세서(110)는 2D 골격 정보 중 각도 편차가 발생한 관절을 제2 색(예컨대, 빨간색) 계열로 시각화 할 수 있다.
일실시에 따라, 프로세서(110)는 각 프레임 별로 평가한 유사도 평가 결과를 생성할 수 있다. 이때, 유사도 평가 결과는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 프로세서(110)는 동영상 전체로 평가한 유사도 평가 결과를 생성할 수 있다. 이때, 유사도 평가 결과는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과의 대상이 이에 한정되는 것은 아니다.
ⅳ) 리타겟팅 한 2D 골격 정보와 리타겟팅 한 기준 2D 골격 정보를 기초로 유사도를 평가
일실시에 따라, 프로세서(110)는 골격 정보를 정규화(Normalization) 시키기 위하여 2D 골격 정보 및 기준 3D 골격 정보를 미리 설정된 골격(예컨대, 정규화 된 표준 체형의 골격) 정보로 리타겟팅 할 수 있다.
일실시에 따라, 프로세서(110)는 골격 정보를 정규화(Normalization) 시키기 위하여 2D 골격 정보 및 기준 3D 골격 정보를 미리 설정된 골격 정보(예컨대, 예컨대, 정규화 된 표준 체형의 골격 정보, 대한민국 남성 평균 키에 해당하는 골격 정보, 대한민국 여성 평균 키에 해당하는 골격 정보 등)로 리타겟팅 할 수 있다.
일실시에 따라, 프로세서(110)는 골격 정보를 정규화(Normalization) 시키기 위하여 2D 골격 정보를 기준 3D 골격 정보로 리타겟팅 할 수 있다.
일실시에 따라, 프로세서(110)는 골격 정보를 정규화(Normalization) 시키기 위하여 기준 3D 골격 정보를 2D 골격 정보로 리타겟팅 할 수 있다.
일실시에 따라, 프로세서(110)는 획득한 3차원 회전과 관련된 파라미터와 스케일과 관련된 파라미터를 기초로 리타겟팅 한 기준 3D 골격 정보를 2차원으로 투영하여 기준 2D 골격 정보를 획득할 수 있다.
일실시에 따라, 프로세서(110)는 획득한 3차원 회전과 관련된 파라미터와 스케일과 관련된 파라미터를 기초로 리타겟팅 한 기준 3D 골격 정보를 2차원으로 투영하여 동영상의 프레임 각각에 대응하는 리타겟팅 한 기준 2D 골격 정보를 획득할 수 있다. 이때, 동영상의 프레임은 동영상에 포함된 동작이 포함된 프레임일 수 있으나, 동영상의 프레임이 이에 한정되는 것은 아니다.
일실시에 따라, 프로세서(110)는 리타겟팅 한 2D 골격 정보와 리타겟팅 한 기준 2D 골격 정보를 기초로 유사도를 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 프로세서(110)는 동영상의 프레임 각각에서 획득한 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 동영상의 프레임 각각에 대응하는 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보를 기초로 유사도를 평가할 수 있다. 이때, 동영상의 프레임은 동영상에 포함된 동작이 포함된 프레임일 수 있으나, 동영상의 프레임이 이에 한정되는 것은 아니다. 또한, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 프로세서(110)는 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 대응하는 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보 사이의 관절의 위치 차이를 각 프레임 마다 계산할 수 있다.
일실시에 따라, 프로세서(110)는 계산한 관절의 위치 차이를 기초로 유사도를 각 프레임 별로 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 프로세서(110)는 계산한 관절의 위치 차이가 작을수록 동영상에 포함된 동작과 기준 3D 골격 정보가 유사하다고 평가할 수 있다.
일실시에 따라, 프로세서(110)는 계산한 관절의 위치 차이가 클수록 동영상에 포함된 동작과 기준 3D 골격 정보가 비유사하다고 평가할 수 있다.
일실시에 따라, 프로세서(110)는 계산한 관절의 위치 차이를 시각화 할 수 있다.
일실시에 따라, 계산한 관절의 위치 차이가 작은 경우, 프로세서(110)는 2D 골격 정보 중 관절의 위치 차이가 발생한 관절을 제1 색(예컨대, 파란색) 계열로 시각화 할 수 있다.
일실시에 따라, 계산한 관절의 위치 차이가 큰 경우, 프로세서(110)는 2D 골격 정보 중 관절의 위치 차이가 발생한 관절을 제2 색(예컨대, 빨간색) 계열로 시각화 할 수 있다.
일실시에 따라, 프로세서(110)는 각 프레임 별로 유사도 평가 결과를 생성할 수 있다. 이때, 유사도 평가 결과는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 프로세서(110)는 동영상 전체로 평가한 유사도 평가 결과를 생성할 수 있다. 이때, 유사도 평가 결과는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 프로세서(110)는 리타겟팅 한 2D 골격 정보와 리타겟팅 한 기준 2D 골격 정보를 기초로 유사도를 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 프로세서(110)는 동영상의 프레임 각각에서 획득한 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 동영상의 프레임 각각에 대응하는 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가할 수 있다. 이때, 동영상의 프레임은 동영상에 포함된 동작이 포함된 프레임일 수 있으나, 동영상의 프레임이 이에 한정되는 것은 아니다. 또한, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 프로세서(110)는 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 대응하는 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 각도 정보 사이의 각도 편차를 각 프레임 마다 계산할 수 있다.
일실시에 따라, 프로세서(110)는 계산한 각도 편차를 기초로 유사도를 각 프레임 별로 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 프로세서(110)는 계산한 각도 편차가 작을수록 동영상에 포함된 동작과 기준 3D 골격 정보가 유사하다고 평가할 수 있다.
일실시에 따라, 프로세서(110)는 계산한 각도 편차가 클수록 동영상에 포함된 동작과 기준 3D 골격 정보가 비유사하다고 평가할 수 있다.
일실시에 따라, 프로세서(110)는 계산한 각도 편차를 시각화 할 수 있다.
일실시에 따라, 동작 유사도 평가 장치(100)는 계산한 각도 편차가 작은 경우, 각도 편차를 제1 색(예컨대, 파란색) 계열로 시각화 할 수 있다.
일실시에 따라, 프로세서(110)는 계산한 각도 편차가 큰 경우, 각도 편차를 제2 색(예컨대, 빨간색) 계열로 시각화 할 수 있다.
일실시에 따라, 프로세서(110)는 각 프레임 별로 평가한 유사도 평가 결과를 생성할 수 있다. 이때, 유사도 평가 결과는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 동작 유사도 평가 장치는 동영상 전체로 평가한 유사도 평가 결과를 생성할 수 있다. 이때, 유사도 평가 결과는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과의 대상이 이에 한정되는 것은 아니다.
일실시예에 따라, 입출력 인터페이스 모듈(120)은 네트워크를 통하여 외부 장치(예컨대, 단말, 동영상 저장 장치, 서버 등) 통신적으로 연결될 수 있다.
일실시예에 따라, 입출력 인터페이스 모듈(120)은 네트워크를 통하여 외부 장치(예컨대, 단말, 동영상 저장 장치, 서버 등)로 데이터를 전송할 수 있다.
일실시예에 따라, 입출력 인터페이스 모듈(120)은 네트워크를 통하여 외부 장치(예컨대, 단말, 동영상 저장 장치, 서버 등)가 전송한 데이터를 수신할 수 있다.
일실시예에 따라, 입출력 인터페이스 모듈(120)은 프로세서(110)가 시각화 한 각도 편차를 출력할 수 있다.
일실시예에 따라, 입출력 인터페이스 모듈(120)은 프로세서(110)가 시각화 한 관절의 위치 차이를 출력할 수 있다.
일실시예에 따라, 입출력 인터페이스 모듈(120)은 프로세서(110)가 생성한 유사도 평가 결과를 출력할 수 있다.
일실시예에 따라, 입출력 인터페이스 모듈(120)은 동작 유사도 평가 장치(100)와 일체형으로 제공될 수 있다.
일실시예에 따라, 입출력 인터페이스 모듈(120)은 동작 유사도 평가 장치(100)에서 분리되어 제공될 수 있다.
일실시예에 따라, 입출력 인터페이스 모듈(120)은 동작 유사도 평가 장치(100)와 통신적으로 연결된 별도의 장치일 수 있다.
일실시예에 따라, 입출력 인터페이스 모듈(120)은 외부 장치와 연결되기 위한 포트(예컨대, USB 포트)를 포함할 수 있다.
일실시예에 따라, 입출력 인터페이스 모듈(120)은 모니터, 터치스크린, 마우스, 전자펜, 마이크로폰, 키보드, 스피커, 이어폰, 헤드폰 또는 터치패드를 포함할 수 있다.
일실시예에 따라, 메모리(130)는 입출력 인터페이스 모듈(120)이 수신한 데이터를 저장할 수 있다.
일실시예에 따라, 메모리(130)는 입출력 인터페이스 모듈(120)이 전송한 데이터를 저장할 수 있다.
일실시예에 따라, 메모리(130)는 프로세서(110)가 획득한 파라미터를 저장할 수 있다.
일실시예에 따라, 메모리(130)는 프로세서(110)가 획득한 기준 2D 골격 정보를 저장할 수 있다.
일실시예에 따라, 메모리(130)는 프로세서(110)가 리타겟팅 한 2D 골격 정보를 저장할 수 있다.
일실시예에 따라, 메모리(130)는 프로세서(110)가 리타겟팅 한 기준 3D 골격 정보를 저장할 수 있다.
일실시예에 따라, 메모리(130)는 프로세서(110)가 리타겟팅 한 기준 2D 골격 정보를 저장할 수 있다.
일실시예에 따라, 메모리(130)는 프로세서(110)가 계산한 각도 편차를 저장할 수 있다.
일실시예에 따라, 메모리(130)는 프로세서(110)가 계산한 관절의 위치 차이를 저장할 수 있다.
일실시예에 따라, 메모리(130)는 프로세서(110)가 생성한 유사도 평가 결과를 저장할 수 있다.
여기서 사용된 '모듈'이라는 용어는 논리적인 구성 단위를 나타내는 것으로서, 반드시 물리적으로 구분되는 구성 요소가 아니라는 점은 본 발명이 속하는 기술분야의 당업자에게 자명한 사항이다.
도 3은 일실시예에 따라 동작 유사도 평가 장치가 동작을 포함하는 동영상의 프레임 각각에서 동작에 대한 2D 골격 정보를 획득하는 모습을 나타내는 도면이다.
도 3을 참조하면, 도 3(a)는 동영상의 프레임에서 사람이 포함된 영역에 바운딩 박스를 표시한 모습을 나타내는 도면이고, 도 3(b)는 각 관절의 위치 히트 맵(Heat map)을 획득하는 모습을 나타내는 도면이고, 도 3(c)는 획득한 각 관절의 위치 히트 맵(Heat map)의 모습을 나타내는 도면이고, 도 3(d)는 2D 골격 정보를 나타내는 도면이다.
도 3(a)를 참조하면, 일실시예에 따라, 동작 유사도 평가 장치는 동작(예컨대, 피겨 스케이팅 등)을 포함하는 동영상을 획득할 수 있다.
일실시예에 따라, 동작 유사도 평가 장치는 동작(예컨대, 피겨 스케이팅 등)을 포함하는 동영상의 프레임(300) 각각에 포함된 사람을 인식할 수 있다.
일실시예에 따라, 동작 유사도 평가 장치는 동작(예컨대, 피겨 스케이팅 등)을 포함하는 동영상의 프레임(300) 각각에서 인식한 사람이 포함된 영역에 대한 바운딩 박스(bounding box)(301)를 동영상의 프레임 각각에서 획득할 수 있다.
도 3(b)를 참조하면, 일실시예에 따라, 동작 유사도 평가 장치는 미리 설정된 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 획득한 각각의 바운딩 박스(bounding box)(310)에서 골격을 구성하는 각 관절의 위치 히트 맵(Heat map)(320)을 획득할 수 있다. 이때, 미리 설정된 딥 뉴럴 네트워크(Deep Neural Network)는 학습이 완료된 합성곱 신경망(Convolution Neural Network, CNN)일 수 있으나, 미리 설정된 딥 뉴럴 네트워크(Deep Neural Networks)가 이에 한정되는 것은 아니다.
도 3(c)를 참조하면, 히트 맵(Heat map)(330)은 미리 설정된 개수(예컨대, 17개)의 관절 위치에 대한 확률분포를 시각화 한 것일 수 있다.
일실시예에 따라, 히트 맵(Heat map)(330)에서 관절이 위치할 확률이 높은 위치는 제1색(예컨대, 붉은 색)으로 표현될 수 있다.
일실시예에 따라, 히트 맵(Heat map)(330)에서 관절이 위치할 확률이 낮은 위치는 제2색(예컨대, 푸른색)으로 표현될 수 있다.
도 3(d)를 참조하면, 일실시예에 따라, 동작 유사도 평가 장치는 획득한 각 관절의 위치 히트 맵(Heat map)을 기초로 각각의 바운딩 박스(bounding box)와 대응하는 2D 골격 정보(340)를 획득할 수 있다.
일실시예에 따라, 동작 유사도 평가 장치는 획득한 2D 골격 정보(340)를 동작(예컨대, 피겨 스케이팅 등)을 포함하는 동영상의 프레임(350)에 오버레이 하여 표시할 수 있다.
도 4는 일실시예에 따라 동작 유사도 평가 장치가 2D 골격 정보와 기준 3D 골격 정보를 기초로 기준 3D 골격 정보에서 기준 2D 골격 정보를 획득하는 모습을 나타내는 도면이다.
도 4를 참조하면, 도 4(a)는 동영상의 프레임 중 어느 하나의 프레임에 대응하는 기준 3D 골격 정보에서 2D 골격 정보를 생성하는 모습을 나타내는 모습이고, 도 4(b)는 기준 3D 골격 정보를 2차원으로 투영하는 모습을 나타내는 도면이다.
도 4(a)를 참조하면, 일실시예에 따라, 동작 유사도 평가 장치는 동영상의 프레임 중 어느 하나의 프레임에 대응하는 기준 3D 골격 정보(400)에서 3차원 회전과 스케일이 상이한 복수개의 투영(Projection) 된 2차원 골격 정보(410)를 생성할 수 있다.
일실시예에 따라, 동작 유사도 평가 장치는 복수개의 투영(Projection) 된 2차원 골격 정보(410)와 동영상에 포함된 동작에 대한 2D 골격 정보(420)를 정렬하여 적어도 하나의 파라미터를 획득할 수 있다. 이때, 적어도 하나의 파라미터는 3차원 회전과 관련된 파라미터 또는 스케일과 관련된 파라미터일 수 있으나, 적어도 하나의 파라미터가 이에 한정되는 것은 아니다.
도 4(b)를 참조하면, 일실시예에 따라, 동작 유사도 평가 장치는 복수개의 투영(Projection) 된 2차원 골격 정보(410)와 동영상에 포함된 동작에 대한 2D 골격 정보(420)를 정렬하여 획득한 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 기초로 기준 3D 골격 정보를 2차원 이미지 평면(image plane)에 투영하여 기준 2D 골격 정보(430)를 획득할 수 있다.
일실시예에 따라, 동작 유사도 평가 장치는 기준 3D 골격 정보를 2차원 이미지 평면(image plane)에 투영하기 위하여 깊이(depth)와 관련된 카메라 파라미터, 회전과 관련된 로테이팅(rotating) 파라미터 및 위치와 관련된 트랜스레이션(translation) 파라미터를 고려할 수 있으나, 동작 유사도 평가 장치가 기준 3D 골격 정보를 이미지 평면(image plane)에 투영하기 위하여 고려할 수 있는 파라미터가 이에 한정되는 것은 아니다.
도 5는 일실시예에 따라 동작 유사도 평가 장치가 관절의 각도 정보를 기초로 유사도를 평가하는 모습을 나타내는 도면이다.
도 5를 참조하면, 일실시예에 따라, 기준 3D 골격 정보에서 획득한 기준 2D 골격 정보(500)는 머리 관절의 각도 정보, 목 관절의 각도 정보, 좌_어깨 관절의 각도 정보, 좌_팔꿈치 관절의 각도 정보, 좌_손목 관절의 각도 정보, 우_어깨 관절의 각도 정보, 우_팔꿈치 관절의 각도 정보 및 우_손목 관절의 각도 정보를 포함할 수 있다.
일실시예에 따라, 동영상의 프레임에서 획득한 2D 골격 정보(510)는 머리 관절의 각도 정보, 목 관절의 각도 정보, 좌_어깨 관절의 각도 정보, 좌_팔꿈치 관절의 각도 정보, 좌_손목 관절의 각도 정보, 우_어깨 관절의 각도 정보, 우_팔꿈치 관절의 각도 정보 및 우_손목 관절의 각도 정보를 포함할 수 있다.
일실시예에 따라, 동작 유사도 평가 장치는 기준 3D 골격 정보에서 획득한 기준 2D 골격 정보(500)에 포함된 관절의 각도 정보와 동영상의 프레임에서 획득한 2D 골격 정보(510)에 포함된 관절의 각도 정보 사이의 각도 편차(520)를 계산할 수 있다.
일실시예에 따라, 동작 유사도 평가 장치는 계산한 각도 편차(520)가 작을수록 유사도가 높다고 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시예에 따라, 동작 유사도 평가 장치는 계산한 각도 편차(520)가 클수록 유사도가 낮다고 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시예에 따라, 동작 유사도 평가 장치는 계산한 각도 편차(520)를 시각화 할 수 있다.
일실시에 따라, 계산한 각도 편차(520)가 작은 경우, 동작 유사도 평가 장치는 동영상의 프레임에서 획득한 2D 비교 대상 골격 정보(510) 중 각도 편차(520)가 발생한 관절(530)(예컨대, 우_손목 관절)을 제1 색(예컨대, 푸른색) 계열로 시각화 할 수 있다.
일실시에 따라, 계산한 각도 편차(520)가 큰 경우, 동작 유사도 평가 장치는 동영상의 프레임에서 획득한 2D 비교 대상 골격 정보(510) 중 각도 편차(520)가 발생한 관절(530)(예컨대, 우_손목 관절)을 제2 색(예컨대, 빨간색) 계열로 시각화 할 수 있다.
도 6은 일실시예에 따라 동작 유사도 평가 장치가 관절의 위치 정보를 기초로 유사도를 평가하는 모습을 나타내는 도면이다.
도 6을 참조하면, 도 6 (a)는 유사도를 평가하기 위하여 리타겟팅 하기 전의 2D 골격 정보와 리타겟팅 하기 전의 기준 2D 골격 정보를 비교하는 모습을 나타내는 도면이고, 도 6(b)는 유사도를 평가하기 위하여 리타겟팅 한 2D 골격 정보와 리타겟팅 한 기준 2D 골격 정보를 비교하는 모습을 나타내는 도면이다.
도 6(a)를 참조하면, 일실시에 따라, 동작 유사도 평가 장치는 동작을 포함하는 동영상의 프레임 각각에서 동작에 대한 2D 골격 정보(610)를 획득할 수 있다.
일실시에 따라, 동작 유사도 평가 장치는 동영상의 프레임 각각에서 획득한 2D 골격 정보(610)와 동영상의 프레임 각각에 대응하는 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 획득할 수 있다.
일실시에 따라, 동작 유사도 평가 장치는 획득한 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 기초로 기준 3D 골격 정보를 2차원으로 투영하여 동영상의 프레임 각각에 대응하는 기준 2D 골격 정보(600)를 획득할 수 있다.
일실시에 따라, 동작 유사도 평가 장치는 유사도를 평가하기 위하여 리타겟팅 하기 전의 2D 골격 정보(610)에 포함된 관절의 위치 정보와 리타겟팅 하기 전의 기준 2D 골격 정보(600)에 포함된 관절의 위치 정보를 비교할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 동작 유사도 평가 장치는 리타겟팅 하기 전의 2D 골격 정보(610)에 포함된 관절의 위치 정보와 리타겟팅 하기 전의 기준 2D 골격 정보(600)에 포함된 관절의 위치 정보를 비교할 때, 리타겟팅 하기 전의 2D 골격 정보(610)를 생성한 사람의 신체 조건(예컨대, 신장 등)과 리타겟팅 하기 전의 기준 2D 골격 정보(600)를 생성한 사람의 신체 조건(예컨대, 신장 등)을 고려하지 않기 때문에 동영상에 포함된 동작과 기준 3D 골격 정보가 매우 유사한 경우에도 리타겟팅 하기 전의 2D 골격 정보(610)를 생성한 사람과 리타겟팅 하기 전의 기준 2D 골격 정보(600)를 생성한 사람의 신체 조건(예컨대, 신장 등)이 차이가 많이 나는 경우(예컨대, 신장 차이가 30Cm 이상인 경우 등) 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도가 매우 낮게 평가될 수 있다.
도 6 (b)를 참조하면, 일실시에 따라, 동작 유사도 평가 장치는 동작을 포함하는 동영상의 프레임 각각에서 동작에 대한 2D 골격 정보를 획득할 수 있다.
일실시에 따라, 동작 유사도 평가 장치는 동영상의 프레임 각각에서 획득한 2D 골격 정보와 동영상의 프레임 각각에 대응하는 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 획득할 수 있다.
일실시에 따라, 동작 유사도 평가 장치는 골격 정보를 정규화(Normalization) 시키기 위하여 2D 골격 정보 및 기준 3D 골격 정보를 미리 설정된 골격 정보(예컨대, 예컨대, 정규화 된 표준 체형의 골격, 대한민국 남성 평균 키에 해당하는 골격 정보, 대한민국 여성 평균 키에 해당하는 골격 정보 등)로 리타겟팅 할 수 있다.
일실시에 따라, 동작 유사도 평가 장치는 리타겟팅 한 2D 골격 정보(630)를 생성할 수 있다.
일실시에 따라, 동작 유사도 평가 장치는 리타겟팅 한 기준 3D 대상 골격 정보를 생성할 수 있다.
일실시에 따라, 동작 유사도 평가 장치는 획득한 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 기초로 리타겟팅 한 기준 3D 골격 정보를 2차원으로 투영하여 동영상의 프레임 각각에 대응하는 리타겟팅 한 기준 2D 골격 정보(620)를 획득할 수 있다.
일실시에 따라, 동작 유사도 평가 장치는 유사도를 평가하기 위하여 리타겟팅 한 2D 골격 정보(630)에 포함된 관절의 위치 정보와 리타겟팅 한 기준 2D 골격 정보(620)에 포함된 관절의 위치 정보를 비교할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시에 따라, 동작 유사도 평가 장치는 리타겟팅 하기 전 2D 골격 정보를 생성한 사람의 신체 조건(예컨대, 신장 등)과 리타겟팅 하기 전의 기준 2D 골격 정보를 생성한 사람의 신체 조건(예컨대, 신장 등)을 고려하여 2D 골격 정보와 기준 3D 골격 정보를 미리 설정된 골격 정보로 리타겟팅 하기 때문에 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도를 평가할 때, 2D 골격 정보를 생성한 사람의 신체 조건(예컨대, 신장 등)과 기준 2D 골격 정보를 생성한 사람의 신체 조건(예컨대, 신장 등)이 고려될 수 있다. 따라서, 2D 골격 정보를 생성한 사람의 신체 조건(예컨대, 신장 등)과 기준 2D 골격 정보를 생성한 사람의 신체 조건(예컨대, 신장 등)의 차이가 많이 나는 경우(예컨대, 신장 차이가 30Cm 이상인 경우 등)에도 동작 유사도 평가 장치는 리타겟팅 한 2D 골격 정보(630)에 포함된 관절의 위치 정보와 리타겟팅 한 기준 2D 골격 정보(620)에 포함된 관절의 위치 정보를 비교하여 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도를 정확하게 평가할 수 있다.
도 7은 일실시예에 따라 동작 유사도 평가 장치가 실제 유사도를 평가하는 모습을 나타내는 도면이다.
도 7을 참조하면, 도 7 (a)는 동작을 포함하는 동영상의 프레임에서 동작에 대한 2D 골격 정보를 획득한 모습을 나타낸 도면이고, 도 7(b)는 정답(Ground Truth)인 기준 2D 골격 정보를 나타내는 도면이다.
일실시예에 따라, 동작 유사도 평가 장치는 동영상의 프레임에서 획득한 2D 골격 정보와 동영상의 프레임에 대응하는 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하고, 획득한 적어도 하나의 파라미터를 기초로 기준 3D 골격 정보에서 동영상의 프레임에 대응하는 정답(Ground Truth)인 기준 2D 골격 정보를 획득할 수 있다.
도 7 (a) 및 (b)를 참조하면, 일실시예에 따라, 동작 유사도 평가 장치는 동영상의 프레임에서 획득한 2D 골격 정보와 동영상의 프레임에 대응하는 기준 3D 골격 정보를 정렬하여 획득한 적어도 하나의 파라미터를 기초로 정답(Ground Truth)인 기준 2D 골격 정보를 획득할 수 있기 때문에, 동작을 포함하는 동영상을 촬영한 카메라의 3차원 구도와 기준 3D 골격 정보를 생성한 카메라의 3차원 구도가 상이한 경우에도 동작 유사도 평가 장치는 카메라의 3차원 구도를 고려하여 유사도를 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
일실시예에 따라, 카메라의 3차원 구도가 상이하나, 동영상에 포함된 동작과 기준 3D 골격 정보가 유사한 경우, 동작 유사도 평가 장치는 동작을 포함하는 동영상의 프레임에서 동작에 대한 2D 골격 정보(700)와 기준 3D 골격 정보에서 동영상의 프레임에 대응하는 정답(Ground Truth)인 기준 2D 골격 정보(710)를 기초로 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도가 높다고 평가할 수 있다.
도 8은 일실시예에 따른 동작 유사도 평가 방법을 나타내는 플로우 차트이다.
도 8을 참조하면, 일실시예에 따른 동작 유사도 평가 장치가 동영상의 프레임 각각에서 상기 동영상에 포함된 동작에 대한 2D 골격 정보를 획득한다(800).
이때, 동작은 댄스 동작일 수 있으나, 동작이 이에 한정되는 것은 아니다.
또한, 동작 유사도 평가 장치는 동영상의 프레임 각각에 포함된 사람을 인식할 수 있다.
또한, 동작 유사도 평가 장치는 동영상의 프레임 각각에서 인식한 사람이 포함된 영역에 대한 바운딩 박스(bounding box)를 동영상의 프레임 각각에서 획득할 수 있다.
또한, 동작 유사도 평가 장치는 미리 설정된 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 획득한 각각의 바운딩 박스(bounding box)에서 골격을 구성하는 각 관절의 위치 히트 맵(Heat map)을 획득할 수 있다. 이때, 미리 설정된 딥 뉴럴 네트워크(Deep Neural Network)는 학습이 완료된 합성곱 신경망(Convolution Neural Network, CNN)일 수 있으나, 미리 설정된 딥 뉴럴 네트워크(Deep Neural Networks)가 이에 한정되는 것은 아니다.
또한, 동작 유사도 평가 장치는 획득한 각 관절의 위치 히트 맵(Heat map)을 기초로 각각의 바운딩 박스(bounding box)와 대응하는 2D 골격 정보를 획득할 수 있다.
동작 유사도 평가 장치가 2D 골격 정보와 기준 3D 골격 정보를 기초로 기준 3D 골격 정보에서 기준 2D 골격 정보를 획득한다(810).
이때, 동작 유사도 평가 장치는 동영상의 프레임 각각에서 획득한 2D 골격 정보와 동영상의 프레임 각각에 대응하는 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 획득할 수 있다.
또한, 동작 유사도 평가 장치는 획득한 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 기초로 기준 3D 골격 정보를 2차원으로 투영하여 동영상의 프레임 각각에 대응하는 기준 2D 골격 정보를 획득할 수 있다.
동작 유사도 평가 장치가 상기 2D 골격 정보에 포함된 관절의 각도 정보와 상기 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가한다(820).
이때, 동작 유사도 평가 장치는 2D 골격 정보에 포함된 관절의 각도 정보와 2D 골격 정보에 포함된 관절의 각도 정보와 대응하는 기준 2D 골격 정보에 포함된 관절의 각도 정보 사이의 각도 편차를 각 프레임 마다 계산할 수 있다.
또한, 동작 유사도 평가 장치는 계산한 각도 편차를 기초로 유사도를 각 프레임 별로 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
또한, 동작 유사도 평가 장치는 계산한 각도 편차가 작을수록 동영상에 포함된 동작과 기준 3D 골격 정보가 유사하다고 평가할 수 있다.
또한, 동작 유사도 평가 장치는 계산한 각도 편차가 클수록 동영상에 포함된 동작과 기준 3D 골격 정보가 비유사하다고 평가할 수 있다.
또한, 동작 유사도 평가 장치는 각 프레임 별로 평가한 유사도 평가 결과를 생성할 수 있다. 이때, 유사도 평가 결과는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과의 대상이 이에 한정되는 것은 아니다.
또한, 동작 유사도 평가 장치는 동영상 전체로 평가한 유사도 평가 결과를 생성할 수 있다. 이때, 유사도 평가 결과는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과의 대상이 이에 한정되는 것은 아니다.
도 9는 다른 실시예에 따른 동작 유사도 평가 방법을 나타내는 플로우 차트이다.
도 9를 참조하면, 일실시예에 따른 동작 유사도 평가 장치가 동영상의 프레임 각각에서 상기 동영상에 포함된 동작에 대한 2D 골격 정보를 획득한다(900).
이때, 댄스 동작일 수 있으나, 동작이 이에 한정되는 것은 아니다.
또한, 동작 유사도 평가 장치는 동영상의 프레임 각각에 포함된 사람을 인식할 수 있다.
또한, 동작 유사도 평가 장치는 동영상의 프레임 각각에서 인식한 사람이 포함된 영역에 대한 바운딩 박스(bounding box)를 동영상의 프레임 각각에서 획득할 수 있다.
또한, 동작 유사도 평가 장치는 미리 설정된 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 획득한 각각의 바운딩 박스(bounding box)에서 골격을 구성하는 각 관절의 위치 히트 맵(Heat map)을 획득할 수 있다. 이때, 미리 설정된 딥 뉴럴 네트워크(Deep Neural Network)는 학습이 완료된 합성곱 신경망(Convolution Neural Network, CNN)일 수 있으나, 미리 설정된 딥 뉴럴 네트워크(Deep Neural Networks)가 이에 한정되는 것은 아니다.
또한, 동작 유사도 평가 장치는 획득한 각 관절의 위치 히트 맵(Heat map)을 기초로 각각의 바운딩 박스(bounding box)와 대응하는 2D 골격 정보를 획득할 수 있다.
동작 유사도 평가 장치가 2D 골격 정보 및 기준 3D 골격 정보를 미리 설정된 골격 정보로 리타겟팅 한다(910).
이때, 동작 유사도 평가 장치는 동영상의 프레임 각각에서 획득한 2D 골격 정보와 동영상의 프레임 각각에 대응하는 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 획득할 수 있다.
또한, 동작 유사도 평가 장치는 골격 정보를 정규화(Normalization) 시키기 위하여 2D 골격 정보 및 기준 3D 골격 정보를 미리 설정된 골격 정보(예컨대, 예컨대, 정규화 된 표준 체형의 골격, 대한민국 남성 평균 키에 해당하는 골격 정보, 대한민국 여성 평균 키에 해당하는 골격 정보 등)로 리타겟팅 할 수 있다.
또한, 동작 유사도 평가 장치는 리타겟팅 한 2D 골격 정보를 획득할 수 있다.
또한, 동작 유사도 평가 장치는 리타겟팅 한 기준 3D 골격 정보를 획득할 수 있다.
동작 유사도 평가 장치가 리타겟팅 한 기준 3D 골격 정보에서 상기 동영상의 프레임 각각에 대응하는 리타겟팅 한 기준 2D 골격 정보를 획득한다(920).
이때, 동작 유사도 평가 장치는 획득한 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 기초로 리타겟팅 한 기준 3D 골격 정보를 2차원으로 투영하여 동영상의 프레임 각각에 대응하는 리타겟팅 한 기준 2D 골격 정보를 획득할 수 있다.
동작 유사도 평가 장치가 상기 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 상기 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보를 기초로 유사도를 평가한다(930).
이때, 동작 유사도 평가 장치는 동영상의 프레임 각각에서 획득한 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 동영상의 프레임 각각에 대응하는 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보를 기초로 유사도를 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
또한, 동작 유사도 평가 장치는 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 대응하는 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보 사이의 관절의 위치 차이를 각 프레임 마다 계산할 수 있다.
또한, 동작 유사도 평가 장치는 계산한 관절의 위치 차이를 기초로 유사도를 각 프레임 별로 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
또한, 동작 유사도 평가 장치는 계산한 관절의 위치 차이가 작을수록 동영상에 포함된 동작과 기준 3D 골격 정보가 유사하다고 평가할 수 있다.
또한, 동작 유사도 평가 장치는 계산한 관절의 위치 차이가 클수록 동영상에 포함된 동작과 기준 3D 골격 정보가 비유사하다고 평가할 수 있다.
또한, 동작 유사도 평가 장치는 각 프레임 별로 평가한 유사도 평가 결과를 생성할 수 있다. 이때, 유사도 평가 결과는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과의 대상이 이에 한정되는 것은 아니다.
또한, 동작 유사도 평가 장치는 동영상 전체로 평가한 유사도 평가 결과를 생성할 수 있다. 이때, 유사도 평가 결과는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과의 대상이 이에 한정되는 것은 아니다.
도 10은 또 다른 실시예에 따른 동작 유사도 평가 방법을 나타내는 플로우 차트이다.
도 10을 참조하면, 일실시예에 따른 동작 유사도 평가 장치가 동영상의 프레임 각각에서 상기 동영상에 포함된 동작에 대한 2D 골격 정보를 획득한다(1000).
이때, 동작은 댄스 동작일 수 있으나, 동작이 이에 한정되는 것은 아니다.
또한, 동작 유사도 평가 장치는 동영상의 프레임 각각에 포함된 사람을 인식할 수 있다.
또한, 동작 유사도 평가 장치는 동영상의 프레임 각각에서 인식한 사람이 포함된 영역에 대한 바운딩 박스(bounding box)를 동영상의 프레임 각각에서 획득할 수 있다.
또한, 동작 유사도 평가 장치는 미리 설정된 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 획득한 각각의 바운딩 박스(bounding box)에서 골격을 구성하는 각 관절의 위치 히트 맵(Heat map)을 획득할 수 있다. 이때, 미리 설정된 딥 뉴럴 네트워크(Deep Neural Network)는 학습이 완료된 합성곱 신경망(Convolution Neural Network, CNN)일 수 있으나, 미리 설정된 딥 뉴럴 네트워크(Deep Neural Networks)가 이에 한정되는 것은 아니다.
또한, 동작 유사도 평가 장치는 획득한 각 관절의 위치 히트 맵(Heat map)을 기초로 각각의 바운딩 박스(bounding box)와 대응하는 2D 골격 정보를 획득할 수 있다.
동작 유사도 평가 장치가 2D 골격 정보 및 기준 3D 골격 정보를 미리 설정된 골격 정보로 리타겟팅 한다(1010).
이때, 동작 유사도 평가 장치는 동영상의 프레임 각각에서 획득한 2D 골격 정보와 동영상의 프레임 각각에 대응하는 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 획득할 수 있다.
또한, 동작 유사도 평가 장치는 골격 정보를 정규화(Normalization) 시키기 위하여 2D 골격 정보 및 기준 3D 골격 정보를 미리 설정된 골격 정보(예컨대, 예컨대, 정규화 된 표준 체형의 골격, 대한민국 남성 평균 키에 해당하는 골격 정보, 대한민국 여성 평균 키에 해당하는 골격 정보 등)로 리타겟팅 할 수 있다.
또한, 동작 유사도 평가 장치는 리타겟팅 한 2D 골격 정보를 획득할 수 있다.
또한, 동작 유사도 평가 장치는 리타겟팅 한 기준 3D 골격 정보를 획득할 수 있다.
동작 유사도 평가 장치가 리타겟팅 한 기준 3D 골격 정보에서 동영상의 프레임 각각에 대응하는 리타겟팅 한 기준 2D 골격 정보를 획득한다(1020).
이때, 동작 유사도 평가 장치는 획득한 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 기초로 리타겟팅 한 기준 3D 골격 정보를 2차원으로 투영하여 동영상의 프레임 각각에 대응하는 리타겟팅 한 기준 2D 골격 정보를 획득할 수 있다.
동작 유사도 평가 장치가 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가한다(1030).
이때, 동작 유사도 평가 장치는 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 대응하는 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 각도 정보 사이의 각도 편차를 각 프레임 마다 계산할 수 있다.
또한, 동작 유사도 평가 장치는 계산한 각도 편차를 기초로 유사도를 각 프레임 별로 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.
또한, 동작 유사도 평가 장치는 계산한 각도 편차가 작을수록 동영상에 포함된 동작과 기준 3D 골격 정보가 유사하다고 평가할 수 있다.
또한, 동작 유사도 평가 장치는 계산한 각도 편차가 클수록 동영상에 포함된 동작과 기준 3D 골격 정보가 비유사하다고 평가할 수 있다.
또한, 동작 유사도 평가 장치는 각 프레임 별로 평가한 유사도 평가 결과를 생성할 수 있다. 이때, 유사도 평가 결과는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과의 대상이 이에 한정되는 것은 아니다.
또한, 동작 유사도 평가 장치는 동영상 전체로 평가한 유사도 평가 결과를 생성할 수 있다. 이때, 유사도 평가 결과는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과의 대상이 이에 한정되는 것은 아니다.
이상에서, 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 실시예들의 목적 범위 안에서라면, 그 모든 구성 요소들이 적어도 하나로 선택적으로 결합하여 동작할 수도 있다.
또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다.
이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 저장매체로서는 자기 기록매체, 광 기록매체, 등이 포함될 수 있다.
또한, 이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재될 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다.
기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥 상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
본 발명에서 개시된 방법들은 상술된 방법을 달성하기 위한 하나 이상의 동작들 또는 단계들을 포함한다. 방법 동작들 및/또는 단계들은 청구항들의 범위를 벗어나지 않으면서 서로 상호 교환될 수도 있다. 다시 말해, 동작들 또는 단계들에 대한 특정 순서가 명시되지 않는 한, 특정 동작들 및/또는 단계들의 순서 및/또는 이용은 청구항들의 범위로부터 벗어남이 없이 수정될 수도 있다.
본 발명에서 이용되는 바와 같이, 아이템들의 리스트 중 "그 중 적어도 하나" 를 지칭하는 구절은 단일 멤버들을 포함하여, 이들 아이템들의 임의의 조합을 지칭한다. 일 예로서, "a, b, 또는 c: 중의 적어도 하나" 는 a, b, c, a-b, a-c, b-c, 및 a-b-c 뿐만 아니라 동일한 엘리먼트의 다수의 것들과의 임의의 조합 (예를 들어, a-a, a-a-a, a-a-b, a-a-c, a-b-b, a-c-c, b-b, b-b-b, b-b-c, c-c, 및 c-c-c 또는 a, b, 및 c 의 다른 임의의 순서 화한 것) 을 포함하도록 의도된다.
본 발명에서 이용되는 바와 같이, 용어 "결정하는"는 매우 다양한 동작들을 망라한다. 예를 들어, "결정하는"는 계산하는, 컴퓨팅, 프로세싱, 도출하는, 조사하는, 룩업하는 (예를 들어, 테이블, 데이터베이스, 또는 다른 데이터 구조에서 룩업하는), 확인하는 등을 포함할 수도 있다. 또한, "결정하는"은 수신하는 (예를 들면, 정보를 수신하는), 액세스하는 (메모리의 데이터에 액세스하는) 등을 포함할 수 있다. 또한, "결정하는"은 해결하는, 선택하는, 고르는, 확립하는 등을 포함할 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.
따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100... 동작 유사도 평가 장치
200... 동영상 210... 기준 3D 골격 정보
220?? 유사도 평가 결과
300... 동영상의 프레임
301... 사람이 포함된 영역에 대한 바운딩 박스
310... 바운딩 박스 320... 히트 맵
330... 히트 맵 340... 2D 골격 정보
350... 동영상의 프레임
400... 기준 3D 골격 정보 410... 투영된 2차원 골격 정보
420... 2D 골격 정보 430... 기준 2D 골격 정보
500... 기준 2D 골격 정보 510... 2D 골격 정보
520... 각도 편차 530... 각도 편차가 발생한 관절
600... 기준 2D 골격 정보 610... 2D 골격 정보
620... 리타겟팅 한 기준 2D 골격 정보 630... 리타겟팅 한 2D 골격 정보
700... 2D 골격 정보 710... 기준 2D 골격 정보
200... 동영상 210... 기준 3D 골격 정보
220?? 유사도 평가 결과
300... 동영상의 프레임
301... 사람이 포함된 영역에 대한 바운딩 박스
310... 바운딩 박스 320... 히트 맵
330... 히트 맵 340... 2D 골격 정보
350... 동영상의 프레임
400... 기준 3D 골격 정보 410... 투영된 2차원 골격 정보
420... 2D 골격 정보 430... 기준 2D 골격 정보
500... 기준 2D 골격 정보 510... 2D 골격 정보
520... 각도 편차 530... 각도 편차가 발생한 관절
600... 기준 2D 골격 정보 610... 2D 골격 정보
620... 리타겟팅 한 기준 2D 골격 정보 630... 리타겟팅 한 2D 골격 정보
700... 2D 골격 정보 710... 기준 2D 골격 정보
Claims (15)
- 동작 유사도 평가 장치에 있어서,
적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는,
동영상의 프레임 각각에서 상기 동영상에 포함된 동작에 대한 2D 골격 정보를 획득하고,
상기 2D 골격 정보와 기준 3D 골격 정보를 기초로 상기 기준 3D 골격 정보에서 기준 2D 골격 정보를 획득하고,
상기 2D 골격 정보와 상기 기준 2D 골격 정보를 기초로 유사도를 평가하는 동작 유사도 평가 장치. - 제1항에 있어서,
상기 적어도 하나의 프로세서는,
상기 2D 골격 정보와 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하고,
상기 획득한 적어도 하나의 파라미터를 기초로 상기 기준 3D 골격 정보를 2차원으로 투영하여 상기 기준 2D 골격 정보를 획득하는 동작 유사도 평가 장치. - 제1항에 있어서,
상기 적어도 하나의 프로세서는,
상기 2D 골격 정보에 포함된 관절의 각도 정보와 상기 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가하는 동작 유사도 평가 장치. - 제1항에 있어서,
상기 적어도 하나의 프로세서는,
상기 2D 골격 정보와 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하고,
상기 2D 골격 정보 및 상기 기준 3D 골격 정보를 미리 설정된 골격 정보로 리타겟팅 하고,
상기 획득한 적어도 하나의 파라미터를 기초로 상기 리타겟팅 한 기준 3D 골격 정보를 2차원으로 투영하여 리타겟팅 한 기준 2D 골격 정보를 획득하는 동작 유사도 평가 장치. - 제4항에 있어서,
상기 적어도 하나의 프로세서는,
상기 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 상기 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보를 기초로 유사도를 평가하는 동작 유사도 평가 장치. - 제4항에 있어서,
상기 적어도 하나의 프로세서는,
상기 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 상기 리타겟팅 한 상기 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가하는 동작 유사도 평가 장치. - 제2항 또는 제4항 중 어느 한 항에 있어서,
상기 적어도 하나의 프로세서는,
상기 동영상의 미리 설정된 프레임에서 획득한 상기 2D 골격 정보와 상기 동영상의 미리 설정된 프레임에 대응하는 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하는 동작 유사도 평가 장치. - 동영상의 프레임 각각에서 상기 동영상에 포함된 동작에 대한 2D 골격 정보를 획득하는 동작;
상기 2D 골격 정보와 기준 3D 골격 정보를 기초로 상기 기준 3D 골격 정보에서 기준 2D 골격 정보를 획득하는 동작; 및
상기 2D 골격 정보와 상기 기준 2D 골격 정보를 기초로 유사도를 평가하는 동작
을 포함하는 동작 유사도 평가 방법. - 제8항에 있어서,
상기 기준 2D 골격 정보를 획득하는 동작은,
상기 2D 골격 정보와 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하는 동작; 및
상기 획득한 적어도 하나의 파라미터를 기초로 상기 기준 3D 골격 정보를 2차원으로 투영하여 상기 기준 2D 골격 정보를 획득하는 동작
을 포함하는 동작 유사도 평가 방법. - 제8항에 있어서,
상기 유사도를 평가하는 동작은,
상기 골격 정보에 포함된 관절의 각도 정보와 상기 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가하는 동작
을 포함하는 동작 유사도 평가 방법. - 제8항에 있어서,
상기 기준 2D 골격 정보를 획득하는 동작은,
상기 2D 골격 정보와 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하는 동작;
상기 2D 골격 정보 및 상기 기준 3D 골격 정보를 미리 설정된 골격 정보로 리타겟팅 하는 동작; 및
상기 획득한 적어도 하나의 파라미터를 기초로 상기 리타겟팅 한 기준 3D 골격 정보를 2차원으로 투영하여 리타겟팅 한 기준 2D 골격 정보를 획득하는 동작
을 포함하는 동작 유사도 평가 방법. - 제11항에 있어서,
상기 유사도를 평가하는 동작은,
상기 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 상기 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보를 기초로 유사도를 평가하는 동작
을 포함하는 동작 유사도 평가 방법. - 제11항에 있어서,
상기 유사도를 평가하는 동작은,
상기 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 상기 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가하는 동작
을 포함하는 동작 유사도 평가 방법. - 제9항 또는 제11항 중 어느 한 항에 있어서,
상기 2D 골격 정보와 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하는 동작은,
상기 동영상의 미리 설정된 프레임에서 획득한 상기 2D 골격 정보와 상기 동영상의 미리 설정된 프레임에 대응하는 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하는 동작
을 포함하는 동작 유사도 평가 방법. - 제8항 내지 제14항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210028190A KR20220124490A (ko) | 2021-03-03 | 2021-03-03 | 동작 유사도 평가 장치 및 동작 유사도 평가 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210028190A KR20220124490A (ko) | 2021-03-03 | 2021-03-03 | 동작 유사도 평가 장치 및 동작 유사도 평가 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220124490A true KR20220124490A (ko) | 2022-09-14 |
Family
ID=83279066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210028190A KR20220124490A (ko) | 2021-03-03 | 2021-03-03 | 동작 유사도 평가 장치 및 동작 유사도 평가 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20220124490A (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102696408B1 (ko) | 2023-06-14 | 2024-08-20 | 주식회사 핏츠 | 심층학습 기반의 접합 관절의 각도 추출 및 코사인 유사도를 이용하는 댄스 유사도 측정을 위한 장치 및 방법 |
-
2021
- 2021-03-03 KR KR1020210028190A patent/KR20220124490A/ko active Search and Examination
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102696408B1 (ko) | 2023-06-14 | 2024-08-20 | 주식회사 핏츠 | 심층학습 기반의 접합 관절의 각도 추출 및 코사인 유사도를 이용하는 댄스 유사도 측정을 위한 장치 및 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Whelan et al. | ElasticFusion: Real-time dense SLAM and light source estimation | |
US20210019215A1 (en) | System and Method for Error Detection and Correction in Virtual Reality and Augmented Reality Environments | |
JP7476428B2 (ja) | 画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
Cartucho et al. | VisionBlender: a tool to efficiently generate computer vision datasets for robotic surgery | |
Laraba et al. | 3D skeleton‐based action recognition by representing motion capture sequences as 2D‐RGB images | |
JP7452016B2 (ja) | 学習データ生成プログラム、及び学習データ生成方法 | |
Sengan et al. | Cost-effective and efficient 3D human model creation and re-identification application for human digital twins | |
Ding et al. | Point cloud saliency detection by local and global feature fusion | |
Núnez et al. | Real-time human body tracking based on data fusion from multiple RGB-D sensors | |
US20170365084A1 (en) | Image generating apparatus and image generating method | |
Yu et al. | A video-based facial motion tracking and expression recognition system | |
Shi et al. | I understand you: Blind 3d human attention inference from the perspective of third-person | |
Guzov et al. | Visually plausible human-object interaction capture from wearable sensors | |
KR20220124490A (ko) | 동작 유사도 평가 장치 및 동작 유사도 평가 방법 | |
Hori et al. | Silhouette-Based 3D Human Pose Estimation Using a Single Wrist-Mounted 360° Camera | |
Díaz Barros et al. | Real-time head pose estimation by tracking and detection of keypoints and facial landmarks | |
Doula et al. | VR-Surv: A VR-Based Privacy Preserving Surveillance System | |
Cohen et al. | Detecting mutual awareness events | |
Felea et al. | Head pose estimation using deep architectures | |
Zhu et al. | Occlusion registration in video-based augmented reality | |
Liu et al. | A study of chained stochastic tracking in RGB and depth sensing | |
Jian et al. | Realistic face animation generation from videos | |
Anwar | Real time facial expression recognition and eye gaze estimation system | |
US11854224B2 (en) | Three-dimensional skeleton mapping | |
Yoon | Metaverse in the Wild: Modeling, Adapting, and Rendering of 3D Human Avatars from a Single Camera |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination |