KR102364993B1 - 제스처 인식 방법, 장치 및 디바이스 - Google Patents
제스처 인식 방법, 장치 및 디바이스 Download PDFInfo
- Publication number
- KR102364993B1 KR102364993B1 KR1020207005925A KR20207005925A KR102364993B1 KR 102364993 B1 KR102364993 B1 KR 102364993B1 KR 1020207005925 A KR1020207005925 A KR 1020207005925A KR 20207005925 A KR20207005925 A KR 20207005925A KR 102364993 B1 KR102364993 B1 KR 102364993B1
- Authority
- KR
- South Korea
- Prior art keywords
- image
- images
- gesture recognition
- video segment
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 230000009471 action Effects 0.000 claims abstract description 59
- 238000013135 deep learning Methods 0.000 claims abstract description 47
- 230000033001 locomotion Effects 0.000 claims abstract description 22
- 230000003287 optical effect Effects 0.000 claims description 137
- 238000010801 machine learning Methods 0.000 claims description 51
- 238000004364 calculation method Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 26
- 238000012706 support-vector machine Methods 0.000 claims description 17
- 238000003062 neural network model Methods 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 7
- 210000002569 neuron Anatomy 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 13
- 230000003993 interaction Effects 0.000 abstract description 5
- 230000011218 segmentation Effects 0.000 abstract description 3
- 230000004927 fusion Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 17
- 238000013136 deep learning model Methods 0.000 description 15
- 238000012549 training Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 239000000284 extract Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
Description
도 2는 도 1에 도시된 실시 예에서의 제스처 인식의 개략도이다.
도 3은 본 출원의 일 실시 예에 따른 제스처 인식 방법의 방법 흐름도이다.
도 4는 도 3에 도시된 실시 예에서의 2 개의 시간 윈도우 스팬(span)의 개략도이다.
도 5는 도 3에 도시된 실시 예에서의 인식 결과 결합의 개략도이다.
도 6은 도 3에 도시된 실시 예에서의 제스처 인식의 개략 흐름도이다. 삼;
도 7은 본 출원의 일 실시 예의 일 예에 따른 제스처 인식 디바이스의 개략 구조도이다.
도 8은 본 출원의 일 실시 예의 일 예에 따른 제스처 인식 장치의 구조 블록도이다.
Claims (30)
- 제스처 인식 디바이스로서,
상기 제스처 인식 디바이스는 프로세서 및 메모리를 포함하고;
상기 프로세서는 M 개의 이미지를 획득하도록 구성되고 - 상기 M 개의 이미지는 비디오 스트림의 제1 비디오 세그먼트로부터 추출되고, 상기 제1 비디오 세그먼트는 상기 비디오 스트림 중 임의의 비디오 세그먼트이고, M은 2 이상의 정수임 -;
상기 프로세서는, 딥 러닝 알고리즘을 이용하여 상기 M 개의 이미지에 대해 제스처 인식을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 제스처 인식 결과를 획득하도록 구성되고;
상기 프로세서는, 상기 제1 비디오 세그먼트를 포함하는 상기 비디오 스트림에서 N 개의 연속된 비디오 세그먼트의 제스처 인식 결과를 획득한 후, 상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 결합하여, 결합된 제스처 인식 결과를 획득하도록 구성되고 - N은 2 이상의 정수임 -,
상기 딥 러닝 알고리즘을 이용하여 상기 M 개의 이미지에 대해 제스처 인식을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 상기 제스처 인식 결과를 획득하는 경우, 상기 프로세서는,
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 광학 흐름 정보 이미지를 획득하고 - 상기 광학 흐름 정보 이미지는, 상기 M 개의 이미지 중 제1 이미지와 상기 제1 이미지 이전의 p 번째 이미지 사이의 광학 흐름 정보를 포함하고, 상기 제1 이미지는 상기 M 개의 이미지 중 어느 하나이고, 상기 광학 흐름 정보는 상기 이미지 내의 픽셀에 대한 순간 속도 벡터 정보를 포함함 -, 제1 딥 러닝 알고리즘을 이용하여 상기 광학 흐름 정보 이미지에 대해 제스처 인식을 수행하여, 제1 인식 결과를 획득하고 - p는 1 이상의 정수임 -;
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지를 획득하고 - 상기 컬러 정보 이미지는 상기 M 개의 이미지의 컬러 정보를 포함하고, 상기 컬러 정보는 상기 이미지 내의 각 픽셀에 대한 컬러 값을 포함함 -, 제2 딥 러닝 알고리즘을 이용하여 상기 컬러 정보 이미지에 대해 제스처 인식을 수행하여, 제2 인식 결과를 획득하고;
상기 제1 인식 결과 및 상기 제2 인식 결과를 결합하여, 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하도록 구성되는,
제스처 인식 디바이스. - 제1항에 있어서,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 결합하여, 상기 결합된 제스처 인식 결과를 획득하는 경우, 상기 프로세서는,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 사전 훈련된 제1 머신 러닝 모델에 입력하여, 상기 결합된 제스처 인식 결과를 획득하도록 구성되는 - 상기 제1 머신 러닝 모델은, 상기 입력된 N 개의 연속된 제스처 인식 결과로 구성된 전체 제스처 모션 트렌드(gesture motion trend)를 결정하고, 상기 전체 제스처 모션 트렌드에 대응하는 제스처를 상기 결합된 제스처 인식 결과로서 출력하기 위해 사용됨 -, 제스처 인식 디바이스. - 제2항에 있어서,
상기 제1 머신 러닝 모델은 뉴럴 네트워크 모델이고, 상기 뉴럴 네트워크 모델은 N 개의 뉴런을 가지거나; 또는
상기 제1 머신 러닝 모델은 서포트 벡터 머신(support vector machine, SVM) 모델인, 제스처 인식 디바이스. - 제1항에 있어서,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 결합하여, 상기 결합된 제스처 인식 결과를 획득하는 경우, 상기 프로세서는,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과에 각각 대응하는 미리 설정된 가중 계수를 획득하고;
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과에 각각 대응하는 상기 가중 계수에 기초하여 상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과에 대해 가중화된 평균화을 수행하여, 상기 결합된 제스처 인식 결과를 획득하도록 구성되는, 제스처 인식 디바이스. - 삭제
- 제1항에 있어서,
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 상기 광학 흐름 정보 이미지를 획득하는 경우, 상기 프로세서는,
상기 제1 이미지에 대해, 미리 설정된 규칙에 기초하여, 상기 비디오 스트림에서 상기 제1 이미지 이전의 상기 p 번째 이미지를 획득하고, 상기 제1 이미지와 상기 p 번째 이미지 사이의 상기 광학 흐름 정보를 계산하고, 상기 제1 이미지와 상기 p 번째 이미지 사이의 상기 광학 흐름 정보를 포함하는 상기 광학 흐름 정보 이미지를 생성하거나 - 상기 제1 이미지와 상기 p 번째 이미지 사이의 시간 간격은 상기 제1 딥 러닝 알고리즘의 순방향 계산 시간(forward calculation time) 또는 상기 광학 흐름 정보 이미지를 계산하기 위해 필요한 시간 이상임 -;
상기 제1 이미지에 대해, 미리 설정된 규칙에 기초하여, 상기 비디오 스트림에서 상기 제1 이미지 이전의 모든 p 개의 이미지를 획득하고, 상기 제1 이미지와 상기 p 개의 이미지에서 모든 2 개의 인접한 이미지 사이의 광학 흐름 정보를 계산하고, 모든 2 개의 인접한 이미지 사이의 상기 광학 흐름 정보를 축적한 후, 축적된 광학 흐름 정보를 포함하는 광학 흐름 정보 이미지를 생성하도록 구성되는 - 상기 제1 이미지와 상기 제1 이미지 이전의 상기 p 번째 이미지 사이의 시간 간격은 상기 제1 딥 러닝 알고리즘의 순방향 계산 시간 또는 상기 광학 흐름 정보 이미지를 계산하기 위해 필요한 시간 이상임 -, 제스처 인식 디바이스. - 제1항에 있어서,
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 상기 컬러 정보 이미지를 획득하는 경우, 상기 프로세서는,
상기 M 개의 이미지에서 m 개의 이미지에 대한 컬러 정보를 추출하고, 상기 추출된 컬러 정보에 기초하여, 상기 m 개의 이미지에 각각 대응하는 컬러 정보 이미지를 생성하고, 상기 m 개의 이미지에 각각 대응하는 상기 컬러 정보 이미지를 상기 제1 비디오 세그먼트에 대응하는 상기 컬러 정보 이미지로서 획득하거나 - 상기 m 개의 이미지는 상기 M 개의 이미지에서 m 개의 랜덤 이미지이거나, 상기 m 개의 이미지는 상기 M 개의 이미지에 존재하며, 각각은 상기 비디오 스트림의 이전 이미지에 대해 가장 큰 변화를 갖는 m 개의 이미지이고, m은 1 이상의 정수임 -;
시간에 따라 이미지 내용이 변하는 상기 M 개의 이미지에서 픽셀 위치를 검출하고, 인식된 픽셀 위치에 대응하는 상기 M 개의 이미지에서 컬러 정보의 평균 값을 계산하여, 상기 인식된 픽셀 위치에서의 새로운 컬러 정보를 획득하고, 상기 인식된 픽셀 위치에서의 상기 새로운 컬러 정보에 기초하여, 상기 제1 비디오 세그먼트에 대응하는 상기 컬러 정보 이미지를 생성하도록 구성되는, 제스처 인식 디바이스. - 제1항에 있어서,
상기 M 개의 이미지를 획득하기 전에, 상기 프로세서는,
상기 비디오 스트림에서 미리 설정된 시간 길이를 갖는 시간 윈도우를 결정하고 - 상기 시간 윈도우의 종료 모멘트는 상기 제1 비디오 세그먼트에 대응하는 시간 구간 내에 있음 -;
상기 시간 윈도우 내의 적어도 하나의 참조 이미지 및 마지막 이미지에 기초하여, 상기 제1 비디오 세그먼트에서 액션이 수행되는지 여부를 판정하고 - 상기 참조 이미지는, 상기 시간 윈도우에서 상기 마지막 이미지 이외의 임의의 이미지임 -;
판정 결과가 상기 제1 비디오 세그먼트에서 액션이 수행되는 것이면, M 개의 이미지를 획득하도록 추가로 구성된, 제스처 인식 디바이스. - 제8항에 있어서,
상기 시간 윈도우 내의 상기 적어도 하나의 참조 이미지 및 상기 마지막 이미지에 기초하여, 상기 제1 비디오 세그먼트에서 액션이 수행되는지 여부를 판정하는 경우, 상기 프로세서는,
상기 적어도 하나의 참조 이미지 각각에 대해, 상기 마지막 이미지의 편미분 이미지를 계산하고 - 상기 편미분 이미지 내의 각 픽셀의 값은, 상기 참조 이미지에서의 대응하는 픽셀의 값에 대한 값에 대한 상기 마지막 이미지에서의 대응하는 픽셀의 값에 대한 편미분임 -;
상기 편미분 이미지에서 상기 각 픽셀의 값을 정규화하여, 정규화된 편미분 이미지를 획득하고;
미리 설정된 이진화 임계 값에 기초하여 상기 정규화된 편미분 이미지를 이진화하여, 상기 편미분 이미지에 대한 이진화된 이미지를 획득하고 - 상기 이진화된 이미지 내의 각 픽셀의 값은 0 또는 1임 -;
상기 이진화된 이미지에서 픽셀의 그레이 스케일 값의 합을 계산하고;
상기 그레이 스케일 값의 상기 합이 0 보다 큰 경우, 상기 제1 비디오 세그먼트에서 액션이 수행되는 것으로 판정하도록 구성되는, 제스처 인식 디바이스. - 제1항에 있어서,
상기 제1 인식 결과와 상기 제2 인식 결과를 결합하여, 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하는 경우, 상기 프로세서는,
상기 제1 인식 결과 및 상기 제2 인식 결과에 대한 평균 값 계산을 수행하여, 상기 평균 값 계산의 계산 결과에 기초하는 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하거나;
상기 제1 인식 결과 및 상기 제2 인식 결과를 사전 훈련된 제2 머신 러닝 모델에 입력하여, 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하도록 구성되는, 제스처 인식 디바이스. - 제스처 인식 장치로서,
상기 제스처 인식 장치는,
M 개의 이미지를 획득하도록 구성된 이미지 획득 유닛 - 상기 M 개의 이미지는 비디오 스트림의 제1 비디오 세그먼트로부터 추출되고, 상기 제1 비디오 세그먼트는 상기 비디오 스트림 중 임의의 비디오 세그먼트이고, M은 2 이상의 정수임 -;
딥 러닝 알고리즘을 이용하여 상기 M 개의 이미지에 대해 제스처 인식을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 제스처 인식 결과를 획득하도록 구성된 인식 유닛; 및
상기 제1 비디오 세그먼트를 포함하는 상기 비디오 스트림에서 N 개의 연속된 비디오 세그먼트의 제스처 인식 결과가 획득된 후, 상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 결합하여, 결합된 제스처 인식 결과를 획득하도록 구성된 결합 유닛 - N≥2 이고 N은 정수임 - 을 포함하고,
상기 인식 유닛은,
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 광학 흐름 정보 이미지를 획득하고 - 상기 광학 흐름 정보 이미지는, 상기 M 개의 이미지 중 제1 이미지와 상기 제1 이미지 이전의 p 번째 이미지 사이의 광학 흐름 정보를 포함하고, 상기 제1 이미지는 상기 M 개의 이미지 중 어느 하나이고, 상기 광학 흐름 정보는 상기 이미지 내의 픽셀에 대한 순간 속도 벡터 정보를 포함함 -, 제1 딥 러닝 알고리즘을 이용하여 상기 광학 흐름 정보 이미지에 대해 제스처 인식을 수행하여, 제1 인식 결과를 획득하고 - p는 1 이상의 정수임 -;
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지를 획득하고 - 상기 컬러 정보 이미지는 상기 M 개의 이미지의 컬러 정보를 포함하고, 상기 컬러 정보는 상기 이미지 내의 각 픽셀에 대한 컬러 값을 포함함 -, 제2 딥 러닝 알고리즘을 이용하여 상기 컬러 정보 이미지에 대해 제스처 인식을 수행하여, 제2 인식 결과를 획득하고;
상기 제1 인식 결과 및 상기 제2 인식 결과를 결합하여, 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하도록 구성되는,
제스처 인식 장치. - 제11항에 있어서,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 결합하여, 상기 결합된 제스처 인식 결과를 획득하는 경우, 상기 결합 유닛은,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 사전 훈련된 제1 머신 러닝 모델에 입력하여, 상기 결합된 제스처 인식 결과를 획득하도록 구성되는 - 상기 제1 머신 러닝 모델은, 상기 입력된 N 개의 연속된 제스처 인식 결과로 구성된 전체 제스처 모션 트렌드를 결정하고, 상기 전체 제스처 모션 트렌드에 대응하는 제스처를 상기 결합된 제스처 인식 결과로서 출력하기 위해 사용됨 -, 제스처 인식 장치. - 제12항에 있어서,
상기 제1 머신 러닝 모델은 뉴럴 네트워크 모델이고, 상기 뉴럴 네트워크 모델은 N 개의 뉴런을 가지거나; 또는
상기 제1 머신 러닝 모델은 서포트 벡터 머신(SVM) 모델인, 제스처 인식 장치. - 제11항에 있어서,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 결합하여, 상기 결합된 제스처 인식 결과를 획득하는 경우, 상기 결합 유닛은,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과에 각각 대응하는 미리 설정된 가중 계수를 획득하고;
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과에 각각 대응하는 상기 가중 계수에 기초하여 상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과에 대해 가중화된 평균화을 수행하여, 상기 결합된 제스처 인식 결과를 획득하도록 구성되는, 제스처 인식 장치. - 삭제
- 제11항에 있어서,
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 상기 광학 흐름 정보 이미지를 획득하는 경우, 상기 인식 유닛은,
상기 제1 이미지에 대해, 미리 설정된 규칙에 기초하여, 상기 비디오 스트림에서 상기 제1 이미지 이전의 상기 p 번째 이미지를 획득하고, 상기 제1 이미지와 상기 p 번째 이미지 사이의 상기 광학 흐름 정보를 계산하고, 상기 제1 이미지와 상기 p 번째 이미지 사이의 상기 광학 흐름 정보를 포함하는 상기 광학 흐름 정보 이미지를 생성하거나 - 상기 제1 이미지와 상기 p 번째 이미지 사이의 시간 간격은 상기 제1 딥 러닝 알고리즘의 순방향 계산 시간 또는 상기 광학 흐름 정보 이미지를 계산하기 위해 필요한 시간 이상임 -;
상기 제1 이미지에 대해, 미리 설정된 규칙에 기초하여, 상기 비디오 스트림에서 상기 제1 이미지 이전의 모든 p 개의 이미지를 획득하고, 상기 제1 이미지와 상기 p 개의 이미지에서 모든 2 개의 인접한 이미지 사이의 광학 흐름 정보를 계산하고, 모든 2 개의 인접한 이미지 사이의 상기 광학 흐름 정보를 축적한 후, 상기 축적된 광학 흐름 정보를 포함하는 광학 흐름 정보 이미지를 생성하도록 구성되는 - 상기 제1 이미지와 상기 제1 이미지 이전의 상기 p 번째 이미지 사이의 시간 간격은 상기 제1 딥 러닝 알고리즘의 순방향 계산 시간 또는 상기 광학 흐름 정보 이미지를 계산하기 위해 필요한 시간 이상임 -, 제스처 인식 장치. - 제11항에 있어서,
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 상기 컬러 정보 이미지를 획득하는 경우, 상기 인식 유닛은,
상기 M 개의 이미지에서 m 개의 이미지에 대한 컬러 정보를 추출하고, 상기 추출된 컬러 정보에 기초하여, 상기 m 개의 이미지에 각각 대응하는 컬러 정보 이미지를 생성하고, 상기 m 개의 이미지에 각각 대응하는 상기 컬러 정보 이미지를 상기 제1 비디오 세그먼트에 대응하는 상기 컬러 정보 이미지로서 획득하거나 - 상기 m 개의 이미지는 상기 M 개의 이미지에서 m 개의 랜덤 이미지이거나, 상기 m 개의 이미지는 상기 M 개의 이미지에 존재하며, 각각은 상기 비디오 스트림의 이전 이미지에 대해 가장 큰 변화를 갖는 m 개의 이미지이고, m은 1 이상의 정수임 -;
시간에 따라 이미지 내용이 변하는 상기 M 개의 이미지에서 픽셀 위치를 검출하고, 인식된 픽셀 위치에 대응하는 상기 M 개의 이미지에서 컬러 정보의 평균 값을 계산하여, 상기 인식된 픽셀 위치에서의 새로운 컬러 정보를 획득하고, 상기 인식된 픽셀 위치에서의 상기 새로운 컬러 정보에 기초하여, 상기 제1 비디오 세그먼트에 대응하는 상기 컬러 정보 이미지를 생성하도록 구성되는, 제스처 인식 장치. - 제11항에 있어서,
상기 제스처 인식 장치는,
상기 이미지 획득 유닛이 상기 M 개의 이미지를 획득하기 전에, 상기 비디오 스트림에서 미리 설정된 시간 길이를 갖는 시간 윈도우를 결정하도록 구성된 시간 윈도우 결정 유닛 - 상기 시간 윈도우의 종료 모멘트는 상기 제1 비디오 세그먼트에 대응하는 시간 구간 내에 있음 -; 및
상기 시간 윈도우 내의 적어도 하나의 참조 이미지 및 마지막 이미지에 기초하여, 상기 제1 비디오 세그먼트에서 액션이 수행되는지 여부를 판정하도록 구성된 판정 유닛 - 상기 적어도 하나의 참조 이미지는, 상기 시간 윈도우에서 상기 마지막 이미지 이외의 임의의 이미지임 - 을 더 포함하고,
상기 이미지 획득 유닛은, 판정 결과가 상기 제1 비디오 세그먼트에서 상기 액션이 수행되는 것이면, M 개의 이미지를 획득하도록 구성된, 제스처 인식 장치. - 제18항에 있어서,
상기 판정 유닛은,
상기 적어도 하나의 참조 이미지 각각에 대해, 상기 마지막 이미지의 편미분 이미지를 계산하고 - 상기 편미분 이미지 내의 각 픽셀의 값은, 상기 참조 이미지에서의 대응하는 픽셀의 값에 대한 값에 대한 상기 마지막 이미지에서의 대응하는 픽셀의 값에 대한 편미분임 -;
상기 편미분 이미지에서 상기 각 픽셀의 값을 정규화하여, 정규화된 편미분 이미지를 획득하고;
미리 설정된 이진화 임계 값에 기초하여 상기 정규화된 편미분 이미지를 이진화하여, 상기 편미분 이미지에 대한 이진화된 이미지를 획득하고 - 상기 이진화된 이미지 내의 각 픽셀의 값은 0 또는 1임 -;
상기 이진화된 이미지에서 픽셀의 그레이 스케일 값의 합을 계산하고;
상기 그레이 스케일 값의 상기 합이 0 보다 큰 경우, 상기 제1 비디오 세그먼트에서 액션이 수행되는 것으로 판정하도록 구성되는, 제스처 인식 장치. - 제11항에 있어서,
상기 제1 인식 결과와 상기 제2 인식 결과를 결합하여, 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하는 경우, 상기 인식 유닛은,
상기 제1 인식 결과 및 상기 제2 인식 결과에 대한 평균 값 계산을 수행하여, 상기 평균 값 계산의 계산 결과에 기초하는 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하거나;
상기 제1 인식 결과 및 상기 제2 인식 결과를 사전 훈련된 제2 머신 러닝 모델에 입력하여, 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하도록 구성되는, 제스처 인식 장치. - 제스처 인식 방법으로서,
상기 제스처 인식 방법은,
M 개의 이미지를 획득하는 단계 - 상기 M 개의 이미지는 비디오 스트림의 제1 비디오 세그먼트로부터 추출되고, 상기 제1 비디오 세그먼트는 상기 비디오 스트림 중 임의의 비디오 세그먼트이고, M은 2 이상의 정수임 -;
딥 러닝 알고리즘을 이용하여 상기 M 개의 이미지에 대해 제스처 인식을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 제스처 인식 결과를 획득하는 단계; 및
상기 제1 비디오 세그먼트를 포함하는 상기 비디오 스트림에서 N 개의 연속된 비디오 세그먼트의 제스처 인식 결과가 획득된 후, 상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 결합하여, 결합된 제스처 인식 결과를 획득하는 단계 - N≥2 이고 N은 정수임 - 를 포함하고,
상기 딥 러닝 알고리즘을 이용하여 상기 M 개의 이미지에 대해 제스처 인식을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 제스처 인식 결과를 획득하는 단계는,
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 광학 흐름 정보 이미지를 획득하고 - 상기 광학 흐름 정보 이미지는, 상기 M 개의 이미지 중 제1 이미지와 상기 제1 이미지 이전의 p 번째 이미지 사이의 광학 흐름 정보를 포함하고, 상기 제1 이미지는 상기 M 개의 이미지 중 어느 하나이고, 상기 광학 흐름 정보는 상기 이미지 내의 픽셀에 대한 순간 속도 벡터 정보를 포함함 -, 제1 딥 러닝 알고리즘을 이용하여 상기 광학 흐름 정보 이미지에 대해 제스처 인식을 수행하여, 제1 인식 결과를 획득하는 단계 - p는 1 이상의 정수임 -;
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지를 획득하고 - 상기 컬러 정보 이미지는 상기 M 개의 이미지의 컬러 정보를 포함하고, 상기 컬러 정보는 상기 이미지 내의 각 픽셀에 대한 컬러 값을 포함함 -, 제2 딥 러닝 알고리즘을 이용하여 상기 컬러 정보 이미지에 대해 제스처 인식을 수행하여, 제2 인식 결과를 획득하는 단계; 및
상기 제1 인식 결과 및 상기 제2 인식 결과를 결합하여, 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하는 단계를 포함하는,
제스처 인식 방법. - 제21항에 있어서,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 결합하여, 상기 결합된 제스처 인식 결과를 획득하는 단계는,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 사전 훈련된 제1 머신 러닝 모델에 입력하여, 상기 결합된 제스처 인식 결과를 획득하는 단계 - 상기 제1 머신 러닝 모델은, 상기 입력된 N 개의 연속된 제스처 인식 결과로 구성된 전체 제스처 모션 트렌드(gesture motion trend)를 결정하고, 상기 전체 제스처 모션 트렌드에 대응하는 제스처를 상기 결합된 제스처 인식 결과로서 출력하기 위해 사용됨 - 를 포함하는, 제스처 인식 방법. - 제22항에 있어서,
상기 제1 머신 러닝 모델은 뉴럴 네트워크 모델이고, 상기 뉴럴 네트워크 모델은 N 개의 뉴런을 가지거나; 또는
상기 제1 머신 러닝 모델은 서포트 벡터 머신(SVM) 모델인, 제스처 인식 방법. - 제21항에 있어서,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 결합하여, 결합된 제스처 인식 결과를 획득하는 단계는,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과에 각각 대응하는 미리 설정된 가중 계수를 획득하는 단계; 및
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과에 각각 대응하는 상기 가중 계수에 기초하여 상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과에 대해 가중화된 평균화을 수행하여, 상기 결합된 제스처 인식 결과를 획득하는 단계를 포함하는, 제스처 인식 방법. - 삭제
- 제21항에 있어서,
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 광학 흐름 정보 이미지를 획득하는 단계는,
상기 제1 이미지에 대해, 미리 설정된 규칙에 기초하여, 상기 비디오 스트림에서 상기 제1 이미지 이전의 상기 p 번째 이미지를 획득하고, 상기 제1 이미지와 상기 p 번째 이미지 사이의 상기 광학 흐름 정보를 계산하고, 상기 제1 이미지와 상기 p 번째 이미지 사이의 상기 광학 흐름 정보를 포함하는 상기 광학 흐름 정보 이미지를 생성하는 단계 - 상기 제1 이미지와 상기 p 번째 이미지 사이의 시간 간격은 상기 제1 딥 러닝 알고리즘의 순방향 계산 시간 또는 상기 광학 흐름 정보 이미지를 계산하기 위해 필요한 시간 이상임 -; 또는
상기 제1 이미지에 대해, 미리 설정된 규칙에 기초하여, 상기 비디오 스트림에서 상기 제1 이미지 이전의 모든 p 개의 이미지를 획득하고, 상기 제1 이미지와 상기 p 개의 이미지에서 모든 2 개의 인접한 이미지 사이의 광학 흐름 정보를 계산하고, 모든 2 개의 인접한 이미지 사이의 상기 광학 흐름 정보가 축적된 후, 상기 축적된 광학 흐름 정보를 포함하는 광학 흐름 정보 이미지를 생성하는 단계 - 상기 제1 이미지와 상기 제1 이미지 이전의 상기 p 번째 이미지 사이의 시간 간격은 상기 제1 딥 러닝 알고리즘의 순방향 계산 시간 또는 상기 광학 흐름 정보 이미지를 계산하기 위해 필요한 시간 이상임 - 를 포함하는, 제스처 인식 방법. - 제21항에 있어서,
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지를 획득하는 단계는,
상기 M 개의 이미지에서 m 개의 이미지에 대한 컬러 정보를 추출하고, 상기 추출된 컬러 정보에 기초하여, 상기 m 개의 이미지에 각각 대응하는 컬러 정보 이미지를 생성하고, 상기 m 개의 이미지에 각각 대응하는 상기 컬러 정보 이미지를 상기 제1 비디오 세그먼트에 대응하는 상기 컬러 정보 이미지로서 획득하는 단계 - 상기 m 개의 이미지는 상기 M 개의 이미지에서 m 개의 랜덤 이미지이거나, 상기 m 개의 이미지는 상기 M 개의 이미지에 존재하며, 각각은 상기 비디오 스트림의 이전 이미지에 대해 가장 큰 변화를 갖는 m 개의 이미지이고, m은 1 이상의 정수임 -; 또는
시간에 따라 이미지 내용이 변하는 상기 M 개의 이미지에서 픽셀 위치를 검출하고, 인식된 픽셀 위치에 대응하는 상기 M 개의 이미지에서 컬러 정보의 평균 값을 계산하여, 상기 인식된 픽셀 위치에서의 새로운 컬러 정보를 획득하고, 상기 인식된 픽셀 위치에서의 상기 새로운 컬러 정보에 기초하여, 상기 제1 비디오 세그먼트에 대응하는 상기 컬러 정보 이미지를 생성하는 단계를 포함하는, 제스처 인식 방법. - 제21항에 있어서,
상기 M 개의 이미지를 획득하는 단계 전에, 상기 제스처 인식 방법은,
상기 비디오 스트림에서 미리 설정된 시간 길이를 갖는 시간 윈도우를 결정하는 단계 - 상기 시간 윈도우의 종료 모멘트는 상기 제1 비디오 세그먼트에 대응하는 시간 구간 내에 있음 -;
상기 시간 윈도우 내의 적어도 하나의 참조 이미지 및 마지막 이미지에 기초하여, 상기 제1 비디오 세그먼트에서 액션이 수행되는지 여부를 판정하는 단계 - 상기 적어도 하나의 참조 이미지는, 상기 시간 윈도우에서 상기 마지막 이미지 이외의 임의의 이미지임 -; 및
판정 결과가 상기 제1 비디오 세그먼트에서 액션이 수행되는 것이면, M 개의 이미지를 획득하는 단계를 더 포함하는 제스처 인식 방법. - 제28항에 있어서,
상기 시간 윈도우 내의 적어도 하나의 참조 이미지 및 마지막 이미지에 기초하여, 상기 제1 비디오 세그먼트에서 액션이 수행되는지 여부를 판정하는 단계는,
상기 적어도 하나의 참조 이미지 각각에 대해, 상기 마지막 이미지의 편미분 이미지를 계산하는 단계 - 상기 편미분 이미지 내의 각 픽셀의 값은, 상기 참조 이미지에서의 대응하는 픽셀의 값에 대한 값에 대한 상기 마지막 이미지에서의 대응하는 픽셀의 값에 대한 편미분임 -;
상기 편미분 이미지에서 상기 각 픽셀의 값을 정규화하여, 정규화된 편미분 이미지를 획득하는 단계;
미리 설정된 이진화 임계 값에 기초하여 상기 정규화된 편미분 이미지를 이진화하여, 상기 편미분 이미지에 대한 이진화된 이미지를 획득하는 단계 - 상기 이진화된 이미지 내의 각 픽셀의 값은 0 또는 1임 -;
상기 이진화된 이미지에서 픽셀의 그레이 스케일 값의 합을 계산하는 단계; 및
상기 그레이 스케일 값의 상기 합이 0 보다 큰 경우, 상기 제1 비디오 세그먼트에서 액션이 수행되는 것으로 판정하는 단계를 포함하는, 제스처 인식 방법. - 제21항에 있어서,
상기 제1 인식 결과와 상기 제2 인식 결과를 결합하여, 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하는 단계는,
상기 제1 인식 결과 및 상기 제2 인식 결과에 대한 평균 값 계산을 수행하여, 상기 평균 값 계산의 계산 결과에 기초하는 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하는 단계; 또는
상기 제1 인식 결과 및 상기 제2 인식 결과를 사전 훈련된 제2 머신 러닝 모델에 입력하여, 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하는 단계를 포함하는, 제스처 인식 방법.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2017/095388 WO2019023921A1 (zh) | 2017-08-01 | 2017-08-01 | 一种手势识别方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200036002A KR20200036002A (ko) | 2020-04-06 |
KR102364993B1 true KR102364993B1 (ko) | 2022-02-17 |
Family
ID=65232224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020207005925A Active KR102364993B1 (ko) | 2017-08-01 | 2017-08-01 | 제스처 인식 방법, 장치 및 디바이스 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11450146B2 (ko) |
EP (1) | EP3651055A4 (ko) |
KR (1) | KR102364993B1 (ko) |
CN (1) | CN110959160B (ko) |
WO (1) | WO2019023921A1 (ko) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10678244B2 (en) | 2017-03-23 | 2020-06-09 | Tesla, Inc. | Data synthesis for autonomous control systems |
US11157441B2 (en) | 2017-07-24 | 2021-10-26 | Tesla, Inc. | Computational array microprocessor system using non-consecutive data formatting |
US10671349B2 (en) | 2017-07-24 | 2020-06-02 | Tesla, Inc. | Accelerated mathematical engine |
US11893393B2 (en) | 2017-07-24 | 2024-02-06 | Tesla, Inc. | Computational array microprocessor system with hardware arbiter managing memory requests |
US11409692B2 (en) | 2017-07-24 | 2022-08-09 | Tesla, Inc. | Vector computational unit |
US12307350B2 (en) | 2018-01-04 | 2025-05-20 | Tesla, Inc. | Systems and methods for hardware-based pooling |
US11561791B2 (en) | 2018-02-01 | 2023-01-24 | Tesla, Inc. | Vector computational unit receiving data elements in parallel from a last row of a computational array |
US11215999B2 (en) | 2018-06-20 | 2022-01-04 | Tesla, Inc. | Data pipeline and deep learning system for autonomous driving |
US11361457B2 (en) | 2018-07-20 | 2022-06-14 | Tesla, Inc. | Annotation cross-labeling for autonomous control systems |
US11636333B2 (en) | 2018-07-26 | 2023-04-25 | Tesla, Inc. | Optimizing neural network structures for embedded systems |
US11562231B2 (en) | 2018-09-03 | 2023-01-24 | Tesla, Inc. | Neural networks for embedded devices |
CA3115784A1 (en) | 2018-10-11 | 2020-04-16 | Matthew John COOPER | Systems and methods for training machine models with augmented data |
US11196678B2 (en) | 2018-10-25 | 2021-12-07 | Tesla, Inc. | QOS manager for system on a chip communications |
US11816585B2 (en) | 2018-12-03 | 2023-11-14 | Tesla, Inc. | Machine learning models operating at different frequencies for autonomous vehicles |
US11537811B2 (en) | 2018-12-04 | 2022-12-27 | Tesla, Inc. | Enhanced object detection for autonomous vehicles based on field view |
US11610117B2 (en) | 2018-12-27 | 2023-03-21 | Tesla, Inc. | System and method for adapting a neural network model on a hardware platform |
US10997461B2 (en) | 2019-02-01 | 2021-05-04 | Tesla, Inc. | Generating ground truth for machine learning from time series elements |
US11150664B2 (en) | 2019-02-01 | 2021-10-19 | Tesla, Inc. | Predicting three-dimensional features for autonomous driving |
US11567514B2 (en) | 2019-02-11 | 2023-01-31 | Tesla, Inc. | Autonomous and user controlled vehicle summon to a target |
US10956755B2 (en) | 2019-02-19 | 2021-03-23 | Tesla, Inc. | Estimating object properties using visual image data |
WO2020251385A1 (en) * | 2019-06-14 | 2020-12-17 | Ringcentral, Inc., (A Delaware Corporation) | System and method for capturing presentation gestures |
CN110458015B (zh) * | 2019-07-05 | 2024-05-03 | 平安科技(深圳)有限公司 | 基于图像识别的防自杀预警方法、装置、设备及存储介质 |
CN110728209B (zh) * | 2019-09-24 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 一种姿态识别方法、装置、电子设备及存储介质 |
CN115104190A (zh) * | 2020-02-18 | 2022-09-23 | 密歇根大学董事会 | 微米尺度的发光二极管 |
CN111368770B (zh) * | 2020-03-11 | 2022-06-07 | 桂林理工大学 | 基于骨骼点检测与跟踪的手势识别方法 |
KR20220144889A (ko) | 2020-03-20 | 2022-10-27 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 디바이스의 손 제스처 기반 제어를 위한 방법 및 시스템 |
KR20220156601A (ko) | 2020-03-23 | 2022-11-25 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 디바이스의 손 제스처 기반 제어를 위한 방법 및 시스템 |
CN112115801B (zh) * | 2020-08-25 | 2023-11-24 | 深圳市优必选科技股份有限公司 | 动态手势识别方法、装置、存储介质及终端设备 |
US11481039B2 (en) * | 2020-08-28 | 2022-10-25 | Electronics And Telecommunications Research Institute | System for recognizing user hand gesture and providing virtual reality content based on deep learning using transfer learning |
US12014574B2 (en) * | 2020-10-26 | 2024-06-18 | The Boeing Company | Human gesture recognition for autonomous aircraft operation |
CN113597614B (zh) * | 2020-12-31 | 2024-07-19 | 商汤国际私人有限公司 | 图像处理方法和装置、电子设备及存储介质 |
US12249147B2 (en) * | 2021-03-11 | 2025-03-11 | International Business Machines Corporation | Adaptive selection of data modalities for efficient video recognition |
CN117321604A (zh) * | 2021-04-09 | 2023-12-29 | 谷歌有限责任公司 | 在周围计算机环境中使用机器学习模块进行基于雷达的手势检测 |
CN114564104B (zh) * | 2022-02-17 | 2024-07-16 | 西安电子科技大学 | 一种基于视频中动态手势控制的会议演示系统 |
CN115192003A (zh) * | 2022-06-23 | 2022-10-18 | 东软集团股份有限公司 | 一种镇静水平的自动评估方法及相关产品 |
CN115809006B (zh) * | 2022-12-05 | 2023-08-08 | 北京拙河科技有限公司 | 一种画面控制人工指令的方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009205282A (ja) * | 2008-02-26 | 2009-09-10 | Gifu Auto Body Industry Co Ltd | 動作解析方法及び動作解析装置並びにその動作解析装置を利用した動作評価装置 |
JP2012088881A (ja) * | 2010-10-19 | 2012-05-10 | Nippon Hoso Kyokai <Nhk> | 人物動作検出装置およびそのプログラム |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120027295A1 (en) * | 2009-04-14 | 2012-02-02 | Koninklijke Philips Electronics N.V. | Key frames extraction for video content analysis |
US20120056846A1 (en) * | 2010-03-01 | 2012-03-08 | Lester F. Ludwig | Touch-based user interfaces employing artificial neural networks for hdtp parameter and symbol derivation |
CN102155933B (zh) * | 2011-03-08 | 2013-04-24 | 西安工程大学 | 一种基于视频差异分析的输电线路导线舞动测量方法 |
CN102270348B (zh) * | 2011-08-23 | 2013-08-07 | 中国科学院自动化研究所 | 基于视频流的对变形手势进行跟踪的方法 |
CN102854983B (zh) | 2012-09-10 | 2015-12-02 | 中国电子科技集团公司第二十八研究所 | 一种基于手势识别的人机交互方法 |
US9829984B2 (en) * | 2013-05-23 | 2017-11-28 | Fastvdo Llc | Motion-assisted visual language for human computer interfaces |
US20140354540A1 (en) * | 2013-06-03 | 2014-12-04 | Khaled Barazi | Systems and methods for gesture recognition |
CN103514608B (zh) * | 2013-06-24 | 2016-12-28 | 西安理工大学 | 基于运动注意力融合模型的运动目标检测与提取方法 |
KR102214922B1 (ko) * | 2014-01-23 | 2021-02-15 | 삼성전자주식회사 | 행동 인식을 위한 특징 벡터 생성 방법, 히스토그램 생성 방법, 및 분류기 학습 방법 |
CN103984937A (zh) * | 2014-05-30 | 2014-08-13 | 无锡慧眼电子科技有限公司 | 基于光流法的行人计数方法 |
CN104182772B (zh) * | 2014-08-19 | 2017-10-24 | 大连理工大学 | 一种基于深度学习的手势识别方法 |
US20160092726A1 (en) * | 2014-09-30 | 2016-03-31 | Xerox Corporation | Using gestures to train hand detection in ego-centric video |
CN104992171A (zh) * | 2015-08-04 | 2015-10-21 | 易视腾科技有限公司 | 一种基于2d视频序列的手势识别及人机交互方法和系统 |
CN105550699B (zh) * | 2015-12-08 | 2019-02-12 | 北京工业大学 | 一种基于cnn融合时空显著信息的视频识别分类方法 |
US10157309B2 (en) * | 2016-01-14 | 2018-12-18 | Nvidia Corporation | Online detection and classification of dynamic gestures with recurrent convolutional neural networks |
CN105787458B (zh) * | 2016-03-11 | 2019-01-04 | 重庆邮电大学 | 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法 |
CN105893959B (zh) * | 2016-03-30 | 2019-04-12 | 北京奇艺世纪科技有限公司 | 一种手势识别方法及装置 |
CN106295531A (zh) * | 2016-08-01 | 2017-01-04 | 乐视控股(北京)有限公司 | 一种手势识别方法和装置以及虚拟现实终端 |
CN106991372B (zh) * | 2017-03-02 | 2020-08-28 | 北京工业大学 | 一种基于混合深度学习模型的动态手势识别方法 |
-
2017
- 2017-08-01 KR KR1020207005925A patent/KR102364993B1/ko active Active
- 2017-08-01 CN CN201780093539.8A patent/CN110959160B/zh active Active
- 2017-08-01 WO PCT/CN2017/095388 patent/WO2019023921A1/zh unknown
- 2017-08-01 EP EP17920578.6A patent/EP3651055A4/en active Pending
-
2020
- 2020-01-29 US US16/776,282 patent/US11450146B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009205282A (ja) * | 2008-02-26 | 2009-09-10 | Gifu Auto Body Industry Co Ltd | 動作解析方法及び動作解析装置並びにその動作解析装置を利用した動作評価装置 |
JP2012088881A (ja) * | 2010-10-19 | 2012-05-10 | Nippon Hoso Kyokai <Nhk> | 人物動作検出装置およびそのプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3651055A1 (en) | 2020-05-13 |
BR112020001729A8 (pt) | 2023-04-11 |
EP3651055A4 (en) | 2020-10-21 |
BR112020001729A2 (pt) | 2020-07-21 |
US11450146B2 (en) | 2022-09-20 |
US20200167554A1 (en) | 2020-05-28 |
KR20200036002A (ko) | 2020-04-06 |
WO2019023921A1 (zh) | 2019-02-07 |
CN110959160A (zh) | 2020-04-03 |
CN110959160B (zh) | 2024-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102364993B1 (ko) | 제스처 인식 방법, 장치 및 디바이스 | |
US10769480B2 (en) | Object detection method and system | |
JP5554984B2 (ja) | パターン認識方法およびパターン認識装置 | |
US20210073953A1 (en) | Method for applying bokeh effect to image and recording medium | |
CN109389086B (zh) | 检测无人机影像目标的方法和系统 | |
US10891473B2 (en) | Method and device for use in hand gesture recognition | |
US20180088679A1 (en) | Motion-Assisted Visual Language for Human Computer Interfaces | |
CN109934846B (zh) | 基于时间和空间网络的深度集成目标跟踪方法 | |
JPWO2019220622A1 (ja) | 画像処理装置、システム、方法及びプログラム | |
JP6555906B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN111062263B (zh) | 手部姿态估计的方法、设备、计算机设备和存储介质 | |
US20160300100A1 (en) | Image capturing apparatus and method | |
CN106648078B (zh) | 应用于智能机器人的多模态交互方法及系统 | |
CN107851192B (zh) | 用于检测人脸部分及人脸的设备和方法 | |
WO2008020598A1 (fr) | Dispositif et procédé de détection d'un nombre d'objets | |
CN111178161A (zh) | 一种基于fcos的车辆追踪方法及系统 | |
KR20110074107A (ko) | 카메라를 이용한 오브젝트 검출 방법 | |
CN103793056A (zh) | 基于距离向量的空中手势漫游控制方法 | |
CN105912126A (zh) | 一种手势运动映射到界面的增益自适应调整方法 | |
KR102434397B1 (ko) | 전역적 움직임 기반의 실시간 다중 객체 추적 장치 및 방법 | |
US12217496B2 (en) | Hand gesture detection method involves acquiring initial depth image using backbone and apparatus, and non-transitory computer-readable storage medium | |
CN114613006A (zh) | 一种远距离手势识别方法及装置 | |
KR101909326B1 (ko) | 얼굴 모션 변화에 따른 삼각 매쉬 모델을 활용하는 사용자 인터페이스 제어 방법 및 시스템 | |
JP6836985B2 (ja) | 撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法 | |
KR101146417B1 (ko) | 무인 감시 로봇에서 중요 얼굴 추적 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0105 | International application |
Patent event date: 20200228 Patent event code: PA01051R01D Comment text: International Patent Application |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20210622 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20211224 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20220215 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20220215 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20250106 Start annual number: 4 End annual number: 4 |