KR20230089322A

KR20230089322A - 동작 추정과 c3d가 결합된 앙상블 기법이 적용된 아동 비대면 학습 집중도 측정 장치 및 방법

Info

Publication number: KR20230089322A
Application number: KR1020210177857A
Authority: KR
Inventors: 박윤하; 김대수; 김종일; 윤창섭
Original assignee: 주식회사우경정보기술
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2023-06-20
Also published as: WO2023113182A1

Abstract

측정 장치가 제공된다. 상기 측정 장치는 비대면 학습을 수행 중인 사용자가 촬영된 영상 정보를 획득하는 획득부; 상기 영상 정보에 포함된 사용자의 동작 분석을 통하여 상기 비대면 학습에 대한 상기 사용자의 집중도를 분류하는 제1 분류부;를 포함할 수 있다.

Description

동작 추정과 C3D가 결합된 앙상블 기법이 적용된 아동 비대면 학습 집중도 측정 장치 및 방법{Apparatus and method for measuring children's concentration on non-face-to-face learning with ensemble technique combined with motion estimation and Convolution 3D}

본 발명은 비대면 학습에 대한 아동의 집중도를 측정하는 장치 및 방법에 관한 것이다.

현재 COVID-19의 출현 이후로 많은 국가에서 바이러스를 억제를 위해 대면 수업 중단을 결정했으며, 수백만 명의 어린이와 청소년의 학습에 큰 영향을 주었다. 이에 대응하여 여러 국가의 교육부는 모든 학교 수준에서 온라인 학습을 구현하도록 권장하거나 의무화를 시행하고 있다.

학교가 교과 과정에 온라인 학습을 적용하기 시작하면서 시간적, 공간적 제약이 사라지고 디지털 기술을 사용한 가상 교육 환경인 Zoom, Google Meet, Microsoft Teams 등과 같은 응용 프로그램을 사용하여 자신만의 학습 주기를 관리할 수 있으며, 다채로운 학습 콘텐츠 편성이 기능해졌다.

하지만, 전통적인 교실의 문제는 여전히 온라인 환경에서도 발생한다. 예를 들어 학생에게 제공되는 학습 자료 및 수업내용은 일반적으로 1시간을 넘는 경우가 많은데 감독되지 않는 비대면 환경에서 사람의 집중력은 대체로 1시간을 넘지 못한다. 특히 아동의 경우 연령별 집중도를 살펴보면 2세의 경우 5~7분, 3세는 9~10분, 4세는 12~15분, 5세는 15~20분 정도이며, 초등학교 저학년은 30분 정도가 한계이다. 또한, 인터넷을 사용하여 온라인 수업을 진행하기 때문에 학생들은 게임, 채팅, 유튜브 등에 노출되기 쉽다. 이러한 상황에서 한 명의 교사가 다수의 학생을 감독하는 것은 한계가 있다.

한국공개특허공보 제2017-0110350호에는 학습, 검사 등에서 집중 여부와 관련된 측정 대상자 개인의 성향이나 패턴을 추가적으로 반영하여 집중도를 측정하는 기술이 개시되고 있다.

한국공개특허공보 제2017-0110350호

본 발명은 복수의 기계 학습 모델이 결합된 앙상블 기법을 이용하여 아동의 비대면 학습에 대한 사용자의 집중도를 정확하게 측정, 분류, 예측하는 측정 장치 및 방법을 제공하기 위한 것이다.

본 발명의 측정 장치는 비대면 학습을 수행 중인 사용자가 촬영된 영상 정보를 획득하는 획득부; 상기 영상 정보에 포함된 사용자의 동작 분석을 통하여 상기 비대면 학습에 대한 상기 사용자의 집중도를 분류하는 제1 분류부;를 포함할 수 있다.

본 발명의 측정 방법은 비대면 학습을 수행 중인 사용자가 촬영된 영상 정보를 획득하는 획득 단계; 기계 학습된 동작 추정 모델을 이용하여, 상기 영상 정보를 구성하는 프레임에 포함된 상기 사용자의 관절 변화량을 추출하는 제2 분류 단계; 기계 학습된 분류 모델을 이용하여, 상기 프레임 간 사용자 움직임의 분석에 따라 상기 비대면 학습에 대한 상기 사용자의 집중도를 분류하는 제1 분류 단계;를 포함하고, 상기 동작 추정 모델의 마지막 레이어가 상기 분류 모델의 초기 레이어에 결합될 수 있다.

본 발명은 사용자 특히, 아동의 집중도 측정이 가능한 비대면 교육 환경을 구축하기 위해 시계열 분석 모델의 일종인 C3D(Convolution 3D)를 기반으로 동작하고, 동작 추정 모델이 결합된 딥러닝 앙상블 학습 방법론을 제안할 수 있다.

도 1은 본 발명의 측정 장치를 나타낸 개략도이다.
도 2는 비교 실시예의 집중도 측정기를 나타낸 개략도이다.
도 3은 측정 장치의 동작을 나타낸 개략도이다.
도 4는 실험 결과를 나타낸 도표이다.
도 5는 본 발명의 측정 방법을 나타낸 흐름도이다.
도 6은 본 발명의 실시예에 따른, 컴퓨팅 장치를 나타내는 도면이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 명세서에서, 동일한 구성요소에 대해서 중복된 설명은 생략한다.

또한 본 명세서에서, 어떤 구성요소가 다른 구성요소에 '연결되어' 있다거나 '접속되어' 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에 본 명세서에서, 어떤 구성요소가 다른 구성요소에 '직접 연결되어' 있다거나 '직접 접속되어' 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

또한, 본 명세서에서 사용되는 용어는 단지 특정한 실시예를 설명하기 위해 사용되는 것으로써, 본 발명을 한정하려는 의도로 사용되는 것이 아니다.

또한 본 명세서에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.

또한 본 명세서에서, '포함하다' 또는 '가지다' 등의 용어는 명세서에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품, 또는 이들을 조합한 것이 존재함을 지정하려는 것일 뿐, 하나 또는 그 이상의 다른 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 할 것이다.

또한 본 명세서에서, '및/또는' 이라는 용어는 복수의 기재된 항목들의 조합 또는 복수의 기재된 항목들 중의 어느 항목을 포함한다. 본 명세서에서, 'A 또는 B'는, 'A', 'B', 또는 'A와 B 모두'를 포함할 수 있다.

또한 본 명세서에서, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략될 것이다.

기계 학습을 통하여 비대면 학습에 대한 사용자의 집중도를 측정하는 비교 실시예가 존재할 수 있다.

일 예로, 딥러닝 기반의 얼굴 랜드마크 탐지를 사용하여 사용자의 눈의 개폐 여부를 판단하는 비교 실시예가 가능하다.

또는, YOLO(You Only Look Once)를 이용하여 사용자의 정수리를 인식하는 비교 실시예가 가능하다.

이상의 비교 실시예는 사용자의 얼굴이 항상 카메라(90) 촬영 영상에 등장한다는 전제 하에 가능한 방법이다. 비교 실시예에 따르면, 사용자가 학습 진도에 맞춰 비대면 학습 콘텐츠가 출력되는 디스플레이가 아닌 책을 보는 경우, 필기를 하는 경우도 집중도가 낮은 상태로 판별되는 오류를 나타낼 수 있다. 사용자가 아동인 경우, 5분 이상 카메라(90) 또는 디스플레이를 응시하지 못하기 때문에 해당 방법을 적용하는 데에 한계가 있다.

이러한 문제를 해결하기 위해, 본 발명의 측정 장치(100) 및 측정 방법은 두 개의 서로 다른 분류기가 순차적으로 학습하고, 이를 통해 집중도의 최종 예측 결과를 결정하는 부스팅 앙상블 학습을 이용할 수 있다. 집중도의 예측은 집중하는 경우와 집중하는 못하는 경우, 2가지로 분류될 수 있다. 따라서, 집중도의 예측은 집중도의 분류 또는 집중도의 결정 또는 집중도의 판단 등으로 지칭되어도 무방하다.

예를 들어, 제1 분류부(110)는 공간적 특징과 시간적 특징을 같이 인식할 수 있는 C3D(Convolution 3D)를 이용해 촬영 영상을 구성하는 각 프레임 간 사용자의 움직임 벡터값을 추출할 수 있다.

제2 분류부(120)는 동작 추정 모델을 이용하여 각 프레임 내에 등장하는 사용자의 관절 움직임 벡터값을 추출할 수 있다.

본 발명의 측정 장치(100)에 따르면, C3D를 통해 영상의 전반적인 특징을 추출하고 특정 관절의 움직임을 더 정밀하게 분석하기 위해 동작 추정으로 한 번 더 예측을 수행하는 셈이 된다. 이처럼 C3D 모델에 동작 추정 모델을 결합한 앙상블 기법을 적용할 경우 특정 객체, 예를 들어 특정 사용자 또는 특정 관절만을 분석할 수 있으므로 정확한 비대면 학습에 대한 사용자, 특히 아동의 집중도 측정이 가능하다.

도 2는 비교 실시예의 집중도 측정기(10)를 나타낸 개략도이다.

비교 실시예의 측정기(10)는 딥러닝 기반의 랜드마크 탐지를 이용하여 추출된 얼굴 특징점 중에 눈에 해당하는 특징값만을 사용하여 눈의 개폐 여부를 확인한다.

측정기(10)는 YOLO 기반의 정수리 탐지 모델을 이용하여 고개 숙임 정도를 확인한다.

전체적인 시스템의 구조는 도 2와 같이, 먼저 눈의 개폐 여부를 인식하고(S 1), 눈이 탐지되지 않은 상태가 20초 이상 지속될(S 2) 경우 정수리 인식을 시도한다(S 3). 만약, 타이머가 동작하는 동안 한 번이라도 눈이 탐지될 경우 다시 프레임 입력단으로 돌아간다. 두 객체(눈과 정수리)가 모두 미인식되면, 집중도가 미집중 상태로 분류되는 이벤트가 발생될 수 있다(S 4).

비교 실시예의 측정기(10)는 두 가지 탐지 모델을 사용하여 집중도 측정의 정확도를 높였으나, 영상에서 사람의 얼굴이 등장해야만 측정 가능하다. 따라서, 학습 시간 동안 가만히 있는 경우가 적은 아동의 경우에는 비교 실시예를 적용하기 어려운 문제가 있다. 집중도가 뛰어난 성인의 경우라 하더라도, 학습의 연장인 필기 등을 위해 고개를 숙이는 상태가 미집중 상태로 판단되는 오류가 나타날 수 있다. 결과적으로, 비교 실시예에 따르면, 비대면 학습에 대한 사용자의 집중도 측정이 부정확한 문제가 있다.

도 1은 본 발명의 측정 장치(100)를 나타낸 개략도이다. 도 3은 측정 장치(100)의 동작을 나타낸 개략도이다.

본 발명의 측정 장치(100)는 사용자가 촬영된 영상에 사용자의 정수리, 눈 등의 특정 부위가 포함된 여부에 따라 집중도를 판별하는 비교 실시예와 다르게 동작할 수 있다.

예를 들어, 본 발명의 측정 장치(100)는 특정 부위의 포함 여부에 상관없이 사용자의 동작, 움직임을 분석하고, 분석 결과에 따라 비대면 학습에 대한 사용자의 집중도를 측정, 분류, 예측, 판별할 수 있다. 사용자의 동작을 보고 학습에 대한 집중도를 분류하는 모습은 교사가 직접 학생의 집중도를 판별하는 모습과 흡사할 수 있다. 이는 곧, 본 발명의 측정 장치(100)를 이용할 경우 비대면 학습에 대한 사용자의 집중도가 정확하게 측정될 수 있음을 의미할 수 있다.

본 발명의 측정 장치(100)는 영상 정보에 포함된 사용자의 동작, 움직임을 정확하게 파악할 수 있는 딥러닝 모델, 예를 들어 Convolution 3D(C3D)를 이용하여 기계 학습된 분류 모델을 생성할 수 있다. 또는, 측정 장치(100)는 별도의 학습부 등을 통해 생성된 분류 모델을 이용하여 사용자의 집중도를 분류할 수 있다.

도 1에 도시된 측정 장치(100)는 획득부(190), 제1 분류부(110), 제2 분류부(120)를 포함할 수 있다.

획득부(190)는 비대면 학습을 수행 중인 사용자가 촬영된 영상 정보를 획득할 수 있다.

획득부(190)는 사용자를 촬영하는 카메라(90)를 포함할 수 있다. 또는, 획득부(190)는 카메라(90)와 통신하고, 카메라(90)로부터 영상 정보를 유무선으로 수신하는 통신 모듈을 포함할 수 있다.

제1 분류부(110)는 영상 정보에 포함된 사용자의 동작을 분석할 수 있다. 제1 분류부(110)는 사용자의 동작 분석을 통하여 비대면 학습에 대한 사용자의 집중도를 분류, 예측, 측정, 결정할 수 있다.

제2 분류부(120)는 제1 분류부(110)에서 분석된 제1 요소와 구분되는 사용자의 제2 요소를 분석할 수 있다.

서로 다른 제1 분류부(110)와 제2 분류부(120)가 순차적으로 학습하여 집중도의 최종 예측 결과를 결정하는 부스팅 앙상블 학습이 적용될 수 있다. 부스팅 앙상블 학습이 적용된 제1 분류부(110)와 제2 분류부(120) 중 어느 하나에 영상 정보가 입력되면 해당 분류부로부터 영상 정보의 처리 결과가 출력되고, 해당 처리 결과는 나머지 분류부로 입력될 수 있다. 그리고, 나머지 분류부의 처리 결과가 집중도의 분류 결과에 해당될 수 있다. 일 예로, 제2 분류부(120)에 영상 정보가 입력되면, 제2 분류부(120)는 영상 정보에 포함된 제2 특징을 출력할 수 있다. 제2 특징은 영상 정보와 함께 제1 분류부(110)로 입력될 수 있다. 제1 분류부(110)는 영상 정보 및 제2 특징을 이용하여 사용자의 동작을 분석하고, 동작 분석을 통해 사용자의 집중도를 분류할 수 있다.

제1 분류부(110)는 Convolution 3D를 이용하여 영상 정보를 구성하는 프레임 간 사용자 움직임을 나타내는 제1 벡터값을 추출할 수 있다. 예를 들어, 사용자가 주먹을 좌우로 흔들 때, 주먹을 좌우로 흔들 때의 신체 전체의 움직임 또는 말단에 해당하는 주먹의 움직임이 제1 분류부(110)에 의해 제1 벡터값으로 표현될 수 있다.

제2 분류부(120)는 동작 추정 모델을 이용하여 프레임 내 사용자의 관절 움직임을 나타내는 제2 벡터값을 추출할 수 있다. 예를 들어, 사용자가 주먹을 좌우로 흔들 때, 팔꿈치를 기준으로 하는 팔목의 회동 운동, 또는 관절에 해당하는 손목의 움직임이 제2 분류부(120)에 의해 제2 벡터값으로 표현될 수 있다.

제1 분류부(110)는 제1 벡터값에 따라 집중도를 예측할 수 있다. 제2 분류부(120)는 제2 벡터값에 따라 집중도를 추가로 예측할 수 있다.

제1 분류부(110)에서 예측된 제1 집중도, 제2 분류부(120)에서 예측된 제2 집중도가 정의될 수 있다. 이때, 제1 분류부(110)는 제1 벡터값과 제2 집중도를 이용하여 제1 집중도를 예측할 수 있다.

제1 분류부(110)에는 영상 정보가 입력되면 집중도의 분류 결과를 출력하도록 기계 학습된 분류 모델이 탑재될 수 있다.

분류 모델은 영상 정보에 포함된 사용자의 동작 분석을 통하여 집중도를 분류할 수 있다. 분류 모델은 Convolution 3D를 이용하여 딥러닝된 것일 수 있다.

공간적 특징과 시간적 특징을 같이 인식할 수 있는 C3D를 이용할 경우, 사용자의 동작이 정확하게 추출될 수 있다. C3D를 이용하여 생성된 모델의 성능은 그 크기에 비례하는 경향을 가질 수 있다. 비교 실시예와 같이 특정 부위의 등장 여부의 판단에서 더 나아가 사용자의 전체 동작을 분석하기 위해, 요구되는 모델의 크기가 급격하게 증가될 수 있다. 이로 인해, 다양한 문제점이 등장할 수 있다. 예를 들어, C3D는 공간축과 시간축이 결합된 레이어를 사용하는 모델로, 기본 CNN보다 많은 매개변수를 사용할 수 있다. 따라서, 과적합(overfitting)이 발생하기 쉽고, 학습 속도가 느린 문제가 발생될 수 있다. 이와 같은 문제를 해소하기 위해 모델 압축(Model Compression)이 적용될 수 있다.

모델 압축은 딥러닝 모델의 성능을 유지하면서 크기(데이터량 등)를 줄이는 기법을 의미할 수 있다. 예를 들어, 양자화(Quantization) 기법이 적용될 수 있다.

모델 압축과 유사하게, 분류 모델에는 과적합을 방지하면서 학습 속도를 증가시키는 가중치 정규화(regularization) 기법이 적용될 수 있다. 일 예로, 가중치 정규화 기법에는 양자화(Quantization)와 드랍아웃(dropout)이 포함될 수 있다.

양자화(Quantization)는 부동 소수점 값을 잘라내서 더 적은 비트만을 사용하는 방식을 의미할 수 있다.

드랍아웃(dropout)은 사용되는 노드(node)중 일부를 없애는 것, 다시 말해, 전체 학습 데이터 중 일부(dropout rate로 비율 설정)를 배제(dropout)하고 학습시키는 것을 의미할 수 있다. 특히, 드랍아웃을 적용하면, 미니 배츠(mini batch)에서 배츠(batch)의 드랍아웃(dropout) 데이터를 다르게 설정하면, 일부 특징(feature)이 과적합(overfitting)되는 문제를 막는 앙상블(ensemble) 효과가 획득될 수 있다. 결과를 추론할 때는 전체 입력 데이터를 사용하되 드랍아웃 레이트(dropout rate)가 적용될 수 있다.

일 예로, 제1 분류부(110)에 의해, 드랍아웃 레이트 또는 확률값으로 0.6이 각 노드의 가중치로 곱해지는 형태로 해당 노드의 동작 확률이 계산될 수 있다. 제1 분류부(110)는 동작 확률값이 0.1 이하일 경우 해당 노드를 제거할 수 있다. 양자화와 관련하여, 제1 분류부(110)는 INT 8을 적용하여 32비트의 가중치 매개변수를 8비트의 값으로 변환하여 모델을 축소시킬 수 있다.

제1 분류 모델 또는 도 3의 C3D 단계에 적용된 드랍아웃과 양자화는 복잡한 모델을 단순한 모델로 변환하여 과적합을 방지하고, 학습 속도를 증진시킬 수 있다.

하지만, 특징점 정보가 축소되어 정확도가 떨어질 우려가 있다. 이를 보완하기 위해 제2 분류부(120)는 영상 정보를 구성하는 프레임 내의 특정 정보를 제1 분류부(110)에 제공할 수 있다

일 예로, 제2 분류부(120)는 동작 추정 모델을 통하여, 특정 프레임에 포함된 사용자의 키포인트값을 기반으로 사용자의 관절의 변화량을 산출하거나 추출할 수 있다. 관절 변화량은 움직임이 많은 어깨, 팔꿈치, 골반, 무릎 부위, 목 중 적어도 하나를 대상으로 할 수 있다. 관절 변화량은 C3D에서 해당 프레임을 학습할 때 추가 매개변수 값으로 사용될 수 있다. 다시 말해, 제1 분류부(110)는 분류 모델이 특정 프레임을 학습하거나 분류할 때, 분류 모델에 영상 정보를 입력하는 동시에 관절의 변화량을 추가로 입력할 수 있다.

예를 들어, 분류 모델은 영상 정보를 구성하는 프레임 간 사용자의 동작을 분석하도록 Convolution 3D를 이용하여 딥러닝된 것일 수 있다. 제2 분류부(120)에는 특정 프레임에 포함된 사용자의 관절 변화량을 추출하는 동작 추정 모델이 탑재될 수 있다. 이때, 도 3에 도시된 바와 같이, 동작 추정 모델의 마지막 레이어가 Convolution 3D의 초기 레이어에 결합될 수 있다.

이상의 측정 장치(100)에 따르면, 동작 추정의 마지막 레이어가 C3D의 초기 레이어에 결합하여 순차적으로 학습하는 부스팅 앙상블 모델이 제공될 수 있다. 축소된 분류 모델의 부족한 정보량에 대하여 동작 추정 모델의 가중치가 추가되어 빠르고 정확한 학습이 가능하고, 학습이 완료된 후에는 빠르고 정확한 정확도의 분류, 예측이 가능하다.

도 4는 실험 결과를 나타낸 도표이다.

실험에 사용된 데이터셋은 경북ICT융합산업진흥협회에서 자체 수집한 10개의 아동 온라인 교육 영상을 사용하였다. 원본 영상에서 여러 명의 캠영상을 각각 따로 분류하여 새로운 영상으로 생성하였다. 한 수업당 5명의 아동이 참여하므로 전체 데이터는 총 50개이다. 레이블은 집중하고 있는 영상과 집중하지 않은 영상 두 개로 분류하여 실험하였다.

집중도 측정 정확도 평가를 위해 비대면 수업 영상을 관찰자(교사)가 판단하여 집중하지 못한 영역의 시작 시각(St)과 종료 시각(Et)을 측정하고 딥러닝 모델을 이용하여 집중하지 못한 영역의 시작 시각(Sm)과 종료 시각(Em)을 측정한다. 측정된 각 시각은 수식1을 활용하여 집중도 지표(FI)를 계산한다.

...수식1

도 4는 본 발명의 측정 장치(100)와 비교 실시예의 집중도 지표를 비교한 것이다.

수업에 참여한 3명의 아동을 대상으로 비교한 결과 첫 번째 아동은 47%, 두 번째 아동은 3% 그리고 마지막 아동은 38%의 집중도 지표 차이를 보였다. 두 번째 아동의 영상은 집중하지 못한 구간에서 얼굴이 보이는 경우가 있어 비교 실시예의 YOLO 기반의 모델과 제안한 모델의 차이가 작으나, 나머지 두 영상에서는 얼굴이 보이지 않는 경우가 많아 확연한 차이가 보인다.

이상의 측정 장치(100)에 의해 비대면 학습 동안 아동의 집중도 분석을 위해 C3D 기반의 동작 추정을 결합한 부스팅 앙상블 모델이 제안될 수 있다. 행위와 시간 축의 정보량을 앙상블 학습하는 기법으로 비교 실시예의 YOLO 기반의 학습 기법보다 집중도 측정 지표가 평균 42% 높은 성능을 보였으며, 향후 다양한 수업의 데이터셋을 추가하여 많은 행위에 대한 정보를 추가 학습할 경우 성능은 더 높아질 수 있다.

도 5는 본 발명의 측정 방법을 나타낸 흐름도이다.

도 5의 측정 방법은 도 1에 도시된 측정 장치(100)에 의해 수행될 수 있다.

측정 장치(100)는 획득 단계(S 510), 제2 분류 단계(S 520), 제3 분류 단계(S 530)를 포함할 수 있다.

획득 단계(S 510)는 비대면 학습을 수행 중인 사용자가 촬영된 영상 정보를 획득할 수 있다. 획득 단계(S 510)는 획득부(190)에 의해 수행될 수 있다.

제2 분류 단계(S 520)는 기계 학습된 동작 추정 모델을 이용하여, 영상 정보를 구성하는 프레임에 포함된 사용자의 관절 변화량을 추출할 수 있다. 제2 분류 단계(S 520)는 제2 분류부(120)에 의해 수행될 수 있다.

제1 분류 단계(S 530)는 기계 학습된 분류 모델을 이용하여, 프레임 간 사용자 움직임의 분석에 따라 비대면 학습에 대한 사용자의 집중도를 분류할 수 있다. 제1 분류 단계(S 530)는 제1 분류부(110)에 의해 수행될 수 있다.

이때, 동작 추정 모델의 마지막 레이어가 상기 분류 모델의 초기 레이어에 결합될 수 있다. 기본적으로, 제1 분류부(110)에는 제2 분류부(120)에 입력된 영상 정보와 동일한 정보가 입력될 수 있다. 여기에 더하여, 동작 추정 모델에서 추출된 관절 변화량이 추가로 제1 분류부(110)로 입력될 수 있다. 추가 입력된 관절 변화량에 의해 정확도가 보상된 만큼, 정확도를 희생하면서 분류 모델의 크기를 줄이고 학습 속도를 증진시키는 양자화, 드랍아웃이 적용될 수 있다. 결과적으로, 본 발명의 측정 장치(100) 및 측정 방법에 따르면, 영상 분석을 통한 사용자의 집중도 예측에 C3D를 현실적으로 적용할 수 있는 방안이 제공될 수 있다.

도 6은 본 발명의 실시예에 따른, 컴퓨팅 장치를 나타내는 도면이다. 도 6의 컴퓨팅 장치(TN100)는 본 명세서에서 기술된 장치(예, 측정 장치(100) 등) 일 수 있다.

도 6의 실시예에서, 컴퓨팅 장치(TN100)는 적어도 하나의 프로세서(TN110), 송수신 장치(TN120), 및 메모리(TN130)를 포함할 수 있다. 또한, 컴퓨팅 장치(TN100)는 저장 장치(TN140), 입력 인터페이스 장치(TN150), 출력 인터페이스 장치(TN160) 등을 더 포함할 수 있다. 컴퓨팅 장치(TN100)에 포함된 구성 요소들은 버스(bus)(TN170)에 의해 연결되어 서로 통신을 수행할 수 있다.

프로세서(TN110)는 메모리(TN130) 및 저장 장치(TN140) 중에서 적어도 하나에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(TN110)는 중앙 처리 장치(CPU: central processing unit), 그래픽 처리 장치(GPU: graphics processing unit), 또는 본 발명의 실시예에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 프로세서(TN110)는 본 발명의 실시예와 관련하여 기술된 절차, 기능, 및 방법 등을 구현하도록 구성될 수 있다. 프로세서(TN110)는 컴퓨팅 장치(TN100)의 각 구성 요소를 제어할 수 있다.

메모리(TN130) 및 저장 장치(TN140) 각각은 프로세서(TN110)의 동작과 관련된 다양한 정보를 저장할 수 있다. 메모리(TN130) 및 저장 장치(TN140) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(TN130)는 읽기 전용 메모리(ROM: read only memory) 및 랜덤 액세스 메모리(RAM: random access memory) 중에서 적어도 하나로 구성될 수 있다.

송수신 장치(TN120)는 유선 신호 또는 무선 신호를 송신 또는 수신할 수 있다. 송수신 장치(TN120)는 네트워크에 연결되어 통신을 수행할 수 있다.

한편, 본 발명의 실시예는 지금까지 설명한 장치 및/또는 방법을 통해서만 구현되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있으며, 이러한 구현은 상술한 실시예의 기재로부터 본 발명이 속하는 기술 분야의 통상의 기술자라면 쉽게 구현할 수 있는 것이다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 통상의 기술자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

10...측정기 90...카메라
100...측정 장치 110...제1 분류부
120...제2 분류부 190...획득부

Claims

비대면 학습을 수행 중인 사용자가 촬영된 영상 정보를 획득하는 획득부;
상기 영상 정보에 포함된 사용자의 동작 분석을 통하여 상기 비대면 학습에 대한 상기 사용자의 집중도를 분류하는 제1 분류부;
를 포함하는 측정 장치.
제1항에 있어서,
상기 제1 분류부에서 분석된 제1 요소와 구분되는 상기 사용자의 제2 요소를 분석하는 제2 분류부가 마련되고,
서로 다른 상기 제1 분류부와 상기 제2 분류부가 순차적으로 학습하여 상기 집중도의 최종 예측 결과를 결정하는 부스팅 앙상블 학습이 적용된 측정 장치.
제1항에 있어서,
상기 제1 분류부는 Convolution 3D를 이용하여 상기 영상 정보를 구성하는 프레임 간 사용자 움직임을 나타내는 제1 벡터값을 추출하고,
동작 추정 모델을 이용하여 상기 프레임 내 사용자의 관절 움직임을 나타내는 제2 벡터값을 추출하는 제2 분류부가 마련되고,
상기 제1 분류부는 상기 제1 벡터값에 따라 상기 집중도를 예측하고,
상기 제2 분류부는 상기 제2 벡터값에 따라 상기 집중도를 추가로 예측하는 측정 장치.
제3항에 있어서,
상기 제1 분류부에서 예측된 제1 집중도, 상기 제2 분류부에서 예측된 제2 집중도가 정의될 때,
상기 제1 분류부는 상기 제1 벡터값과 상기 제2 집중도를 이용하여 상기 제1 집중도를 예측하는 측정 장치.
제1항에 있어서,
상기 제1 분류부에는 상기 영상 정보가 입력되면 상기 집중도의 분류 결과를 출력하도록 기계 학습된 분류 모델이 탑재되며,
상기 분류 모델은 상기 영상 정보에 포함된 상기 사용자의 동작 분석을 통해 상기 집중도를 분류하는 측정 장치.
제5항에 있어서,
상기 분류 모델은 Convolution 3D를 이용하여 딥러닝된 것인 측정 장치.
제5항에 있어서,
상기 분류 모델에는 과적합을 방지하면서 학습 속도를 증가시키는 가중치 정규화 기법이 적용되는 측정 장치.
제5항에 있어서,
상기 분류 모델에는 드랍아웃(dropout)과 양자화(Quantization)가 적용되고,
상기 영상 정보를 구성하는 프레임 내의 특정 정보를 상기 제1 분류부에 제공하는 제2 분류부가 마련되며,
상기 제2 분류부는 특정 프레임에 포함된 상기 사용자의 관절의 변화량을 추출하고,
상기 제1 분류부는 상기 분류 모델이 상기 특정 프레임을 학습하거나 분류할 때, 상기 분류 모델에 상기 관절의 변화량을 추가로 입력하는 측정 장치.
제5항에 있어서,
상기 분류 모델은 상기 영상 정보를 구성하는 프레임 간 상기 사용자의 동작을 분석하도록 Convolution 3D를 이용하여 딥러닝된 것이고,
특정 프레임에 포함된 상기 사용자의 관절 변화량을 추출하는 동작 추정 모델이 탑재된 제2 분류부가 마련되며,
상기 동작 추정 모델의 마지막 레이어가 상기 Convolution 3D의 초기 레이어에 결합된 측정 장치.
측정 장치에 의해 수행되는 측정 방법에 있어서,
비대면 학습을 수행 중인 사용자가 촬영된 영상 정보를 획득하는 획득 단계;
기계 학습된 동작 추정 모델을 이용하여, 상기 영상 정보를 구성하는 프레임에 포함된 상기 사용자의 관절 변화량을 추출하는 제2 분류 단계;
기계 학습된 분류 모델을 이용하여, 상기 프레임 간 사용자 움직임의 분석에 따라 상기 비대면 학습에 대한 상기 사용자의 집중도를 분류하는 제1 분류 단계;를 포함하고,
상기 동작 추정 모델의 마지막 레이어가 상기 분류 모델의 초기 레이어에 결합되는 측정 방법.