WO2022108001A1 - 카메라 시야(fov) 가장자리에서 움직임을 인식하여 전자 장치를 제어하는 방법 및 그 전자 장치 - Google Patents
카메라 시야(fov) 가장자리에서 움직임을 인식하여 전자 장치를 제어하는 방법 및 그 전자 장치 Download PDFInfo
- Publication number
- WO2022108001A1 WO2022108001A1 PCT/KR2021/001359 KR2021001359W WO2022108001A1 WO 2022108001 A1 WO2022108001 A1 WO 2022108001A1 KR 2021001359 W KR2021001359 W KR 2021001359W WO 2022108001 A1 WO2022108001 A1 WO 2022108001A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- movement
- electronic device
- feature point
- camera
- Prior art date
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 326
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000005516 engineering process Methods 0.000 description 29
- 238000013528 artificial neural network Methods 0.000 description 23
- 238000001514 detection method Methods 0.000 description 23
- 238000013473 artificial intelligence Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 15
- 238000012706 support-vector machine Methods 0.000 description 13
- 239000011521 glass Substances 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 11
- 230000000306 recurrent effect Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 230000003190 augmentative effect Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 230000004927 fusion Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 210000003128 head Anatomy 0.000 description 5
- 239000004973 liquid crystal related substance Substances 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 210000001747 pupil Anatomy 0.000 description 2
- 229910052710 silicon Inorganic materials 0.000 description 2
- 239000010703 silicon Substances 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000001678 irradiating effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000012780 transparent material Substances 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/038—Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/62—Control of parameters via user interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/80—Camera processing pipelines; Components thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
Definitions
- the present disclosure relates to a method for controlling an electronic device by recognizing motion at the edge of a camera field of view (FOV), and an electronic device thereof.
- FOV camera field of view
- Gesture recognition technology is a technology for autonomously analyzing and recognizing human behavior by a computer or robot, and may include touch gesture technology and spatial gesture technology.
- the touch gesture technology is a technology that can select an item using an input device such as a touch screen, and its use is increasing with the spread of smart phones.
- the spatial gesture technology is a technology that analyzes how the motion of the tracking target changes over time using an input device such as a camera, and interprets the change as an abstract meaning. In such a gesture recognition technology, it may be a key factor to more quickly and accurately recognize a user's intention.
- An embodiment of the present disclosure uses 'feature point extraction and tracking', so that the image of at least a part of the object is not obtained even at the edge of the field of view (FOV) of the object.
- An electronic device and method capable of accurately recognizing a movement may be provided.
- An embodiment of the present disclosure provides different control according to the position of the object in the field of view by allocating different control signals to each movement based on the shape of the movement and the position within the field of view of the camera of the object that is the subject of the movement
- An electronic device and method capable of controlling an electronic device through a signal and efficiently using a viewing area of a camera can be provided.
- a method for controlling an electronic device by recognizing a motion of an object includes: acquiring at least one image including the object; centering on the acquired at least one image Separating the region into an edge region, detecting at least one feature point of an object included in the edge region, and recognizing a motion of the object based on the detected at least one feature point and controlling the electronic device based on the recognized movement.
- a method for controlling an electronic device by recognizing multi-movement includes: acquiring at least one image; Separating into an edge region, recognizing a motion of a first object included in the center region, recognizing a motion of a second object included in the edge region, movement of the first object and the second
- An electronic device for acquiring a control signal by recognizing a motion of an object disclosed as a technical means for achieving the above-described technical problem, a camera for acquiring an image, and a storage unit for storing a program including at least one instruction , and at least one processor executing at least one instruction stored in the storage unit.
- the at least one processor acquires at least one image by controlling the camera, divides the acquired at least one image into a center region and an edge region, and at least one feature point of an object included in the edge region ( feature point), recognize a motion of the object based on the detected at least one feature point, and obtain a control signal based on the recognized motion.
- An electronic device for acquiring a control signal by recognizing multi-movement includes a camera and a storage unit for storing a program including at least one instruction , and at least one processor executing at least one instruction stored in the storage unit.
- the at least one processor acquires at least one image by controlling the camera, divides the acquired at least one image into a central region and an edge region, and recognizes the movement of a first object included in the central region and recognizing the motion of the second object included in the edge region, and obtaining a control signal corresponding to the motion of the first object and the motion of the second object.
- the processor executes the one or more instructions, detects at least one feature point of the second object, and recognizes a motion of the second object based on the detected at least one feature point can do.
- the computer-readable recording medium may store a program for executing at least one of the embodiments of the disclosed method in a computer.
- FIG. 1 is a schematic diagram of a method for an electronic device to recognize a movement in a peripheral zone (PZ) of a field of view (FOV) of a camera according to an embodiment of the present disclosure
- FIG. 2 is a block diagram of an electronic device according to an embodiment of the present disclosure.
- 3A is a flowchart of a method of controlling an electronic device by recognizing a motion of an object according to an embodiment of the present disclosure
- 3B is a flowchart of a method of controlling an electronic device by recognizing a motion of an object according to an embodiment of the present disclosure.
- FIG. 4 is a view for explaining a field of view (FOV) of a camera and a screen of a corresponding display according to an embodiment of the present disclosure.
- FOV field of view
- FIG. 5 is a diagram for explaining a position of an object image on a display screen according to a position of an object within a field of view (FOV) of a camera according to an embodiment of the present disclosure.
- FOV field of view
- FIG. 6 is a view for explaining a position of an object image on a display screen according to a position of an object within a field of view (FOV) of a camera according to an embodiment of the present disclosure.
- FOV field of view
- FIG. 7 is a view for explaining an operation of dividing an image frame into a center image and an edge part image according to an embodiment of the present disclosure
- FIG. 8 is a view for explaining an operation of removing noise irrelevant to motion from an edge part image according to an embodiment of the present disclosure.
- FIG. 9 is a diagram for describing an operation of detecting at least one feature point from an image of an object according to an embodiment of the present disclosure.
- 10A to 10J are diagrams for explaining a control signal corresponding to a motion of an object disposed in an edge region of a camera view according to various embodiments of the present disclosure
- FIG. 11 is a diagram for explaining a multi-motion recognition method according to an embodiment of the present disclosure.
- FIG. 12 is a flowchart of a method for controlling an electronic device by recognizing multi-movement within a camera field of view according to an embodiment of the present disclosure.
- FIG. 13 is a diagram for describing an operation of recognizing a motion of an object disposed in a central area of a camera view in a multi-motion recognition method according to an embodiment of the present disclosure.
- FIG. 14 is a diagram for describing a control signal corresponding to multiple motions according to an embodiment of the present disclosure.
- a method of controlling an electronic device by recognizing a movement of an object includes the steps of acquiring at least one image including an object, separating the acquired at least one image into a central region and an edge region, and detecting at least one feature point of the object included in the edge region. and recognizing the motion of the object based on the detected at least one feature point, and controlling the electronic device based on the recognized motion.
- the acquiring at least one image including the object includes acquiring an image sequence including a plurality of image frames, and dividing the acquired at least one image into a center region and an edge region
- the performing may include dividing a plurality of image frames included in the obtained image sequence into a center region and an edge region, respectively.
- separating the at least one acquired image into a center region and an edge region may include separating the at least one image in the form of a rectangular grid.
- the central region may include at least one middle image
- the edge region may include at least one edge image
- the detecting of the at least one feature point of the object included in the edge region includes: acquiring an image of the object that is the subject of movement from the edge part image included in the edge region, and the obtained image of the object It may include detecting at least one feature point from
- the obtaining of the image of the object that is the subject of movement from the edge portion image includes: obtaining a first object image from the edge portion image; obtaining a second object image from the center image;
- the method may include verifying a first object image using the object image, and determining the verified first object image as an image of an object that is a subject of movement.
- the object that is the subject of the movement includes a hand of a user who uses the electronic device
- the step of obtaining an image of the object that is the subject of the movement from the edge part image may include a skin color model based algorithm (skin color model). based algorithm) to obtain an image of the object from the edge portion image.
- the detecting of the at least one feature point from the image of the obtained object includes: removing noise irrelevant to motion in the edge portion image based on the image of the object; and from the noise-removed edge portion image.
- the method may include detecting at least one feature point.
- noise may be removed using a binarization mask.
- the step of recognizing the motion of the object based on the detected at least one feature point may include: determining the motion of each feature point by tracking the detected at least one feature point; It may include classifying the movement pattern of the feature points, and recognizing the movement of the object from the classified movement pattern.
- the movement pattern may be classified through a support vector machine (SVM) or a recurrent neural network (RNN).
- SVM support vector machine
- RNN recurrent neural network
- controlling the electronic device based on the recognized motion may include acquiring a control signal corresponding to the recognized motion, and controlling the electronic device based on the acquired control signal. have.
- a method for controlling an electronic device by recognizing multi-movement includes the steps of acquiring at least one image, dividing the acquired at least one image into a central region and an edge region, recognizing a motion of a first object included in the central region, and a second included in the edge region.
- the method may include recognizing a motion of the second object, and controlling the electronic device based on the motion of the first object and the motion of the second object. Recognizing the motion of the second object may include detecting at least one feature point of the second object, and recognizing the motion of the second object based on the detected at least one feature point.
- controlling the electronic device based on the movement of the first object and the movement of the second object may include combining the movement of the first object and the movement of the second object, and based on the combined movement It may include controlling the electronic device.
- an electronic device for acquiring a control signal by recognizing a motion of an object.
- the electronic device may include a camera that acquires an image, a storage that stores a program including at least one instruction, and at least one processor that executes the at least one instruction stored in the storage.
- the at least one processor acquires at least one image by controlling the camera, divides the acquired at least one image into a center region and an edge region, and determines at least one feature point of an object included in the edge region. Detect, recognize a motion of the object based on at least one detected feature point, and obtain a control signal based on the recognized motion.
- the central region may include at least one middle image
- the edge region may include at least one edge image
- the processor may execute at least one instruction to remove motion-independent noise from the edge portion image based on the image of the object, and detect at least one feature point from the noise-free edge portion image. have.
- the processor may execute at least one instruction to remove motion-independent noise from the edge portion image using a binarization mask.
- the processor executes at least one instruction to determine a movement of each feature point by tracking the detected at least one feature point, and classifies a movement pattern of each feature point from the determined movement And, by recognizing the movement of the object from the classified movement pattern, the movement of the object may be recognized based on at least one detected feature point.
- an electronic device that acquires a control signal by recognizing multi-movement may be provided.
- the electronic device may include a camera, a storage unit that stores a program including at least one instruction, and at least one processor that executes the at least one instruction stored in the storage unit.
- the at least one processor acquires at least one image by controlling the camera, separates the obtained at least one image into a central region and an edge region, recognizes a motion of a first object included in the central region, and an edge region It is possible to recognize the motion of the second object included in the , and obtain a control signal corresponding to the motion of the first object and the motion of the second object.
- the processor may execute at least one instruction to detect at least one feature point of the second object, and recognize a motion of the second object based on the detected at least one feature point.
- a processor configured (or configured to perform) A, B, and C refers to a dedicated processor (eg, an embedded processor) for performing those operations, or by executing one or more software programs stored in memory; It may refer to a generic-purpose processor (eg, a CPU or an application processor) capable of performing corresponding operations.
- the processor may consist of one or a plurality of processors.
- one or more processors may be a general-purpose processor such as a CPU, an AP, a digital signal processor (DSP), or the like, a graphics-only processor such as a GPU, a VPU (Vision Processing Unit), or an artificial intelligence-only processor such as an NPU.
- DSP digital signal processor
- One or a plurality of processors control to process input data according to a predefined operation rule or artificial intelligence model stored in the memory.
- the AI-only processor may be designed with a hardware structure specialized for processing a specific AI model.
- a predefined action rule or artificial intelligence model is characterized in that it is created through learning.
- being made through learning means that a basic artificial intelligence model is learned using a plurality of learning data by a learning algorithm, so that a predefined action rule or artificial intelligence model set to perform a desired characteristic (or purpose) is created means burden.
- Such learning may be performed in the device itself on which artificial intelligence according to the present disclosure is performed, or may be performed through a separate server and/or system.
- Examples of the learning algorithm include, but are not limited to, supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning.
- the artificial intelligence model may be composed of a plurality of neural network layers.
- Each of the plurality of neural network layers has a plurality of weight values, and a neural network operation is performed through an operation between the operation result of a previous layer and the plurality of weights.
- the plurality of weights of the plurality of neural network layers may be optimized by the learning result of the artificial intelligence model. For example, a plurality of weights may be updated so that a loss value or a cost value obtained from the artificial intelligence model during the learning process is reduced or minimized.
- the artificial neural network may include a deep neural network (DNN), for example, a Convolutional Neural Network (CNN), a Deep Neural Network (DNN), a Recurrent Neural Network (RNN), a Restricted Boltzmann Machine (RBM), There may be a Deep Belief Network (DBN), a Bidirectional Recurrent Deep Neural Network (BRDNN), or a Deep Q-Networks, but is not limited thereto.
- DNN Deep Neural Network
- DNN Deep Belief Network
- BBDNN Bidirectional Recurrent Deep Neural Network
- Deep Q-Networks Deep Q-Networks
- the 'field of view (FOV)' of the camera refers to the area of an image or video captured by the camera.
- Field of view may also be referred to as a field of view (FOV degree).
- the image or image area captured by the camera may indicate an image or image area displayed within a display screen area.
- 'video' or 'image sequence' may mean a moving image or moving picture.
- An image or image sequence may include a series of still images having a temporal precedence.
- a 'video frame' or 'image' may mean a sheet of still images output to a display. That is, in an image in which a moving image is generated by displaying consecutive scenes at short time intervals, it may mean a sheet of each scene.
- a 'monocular camera' means a camera that acquires a single image as a single part that receives light to take an image or video.
- An image or video captured using a monocular camera may be two-dimensional.
- a 'binocular camera' refers to a camera having two parts for receiving light to take an image or video, and means a camera for acquiring two images.
- An image or video captured using a binocular camera may be two-dimensional or three-dimensional.
- the distance from the two acquired images to the object can be calculated, so that a three-dimensional image can be obtained.
- a 'keypoint (feature point)' means a point in an image or image that is easily identified while being distinguished from the surrounding background.
- the feature point can be used when tracking or recognizing an object in an image.
- a point that can be easily identified even when the shape, size, or position of an object is changed, or a point that can be easily identified even when a viewpoint or lighting of a camera changes may be set as a feature point.
- a corner point of an object image or points located on a boundary line of an object may be a feature point.
- a 'gesture' means a movement of an object such as a body part such as a hand or a foot or a specific object.
- FIG. 1 is a schematic diagram of a method for an electronic device 1000 to recognize a movement in a camera field of view (FOV) edge region PZ according to an embodiment of the present disclosure.
- FOV field of view
- the electronic device 1000 may be a device that acquires an image or an image sequence and outputs an output image or an output image sequence.
- the electronic device 1000 may include, for example, a smart phone, a tablet personal computer, a mobile phone, a video phone, an e-book reader, or a desktop personal computer (PC). ), laptop personal computer, netbook computer, workstation, server, PDA (personal digital assistant), PMP (portable multimedia player), MP3 player, mobile medical device, camera (camera) , a wearable device, an augmented reality device, home appliances, and other mobile or non-mobile computing devices.
- the augmented reality device is a device capable of expressing augmented reality (AR), and generally includes augmented reality glasses in the form of glasses worn on the face by a user, and a head mounted display device worn on the head.
- mounted display HMD
- VRH virtual reality headset
- augmented reality helmet In the case of a head-mounted device, by arranging the display in front of the user's eyes, an extra-large screen may be provided to the user, and a realistic virtual world may be provided because the screen moves according to the user's movement.
- the electronic device 1000 is not limited to the above example, and the electronic device 1000 may include all types of devices that obtain an image sequence such as an image, process it according to a control signal, and output the same.
- the electronic device 1000 may acquire an image or image sequence through a built-in camera 1100 , and may acquire a control signal from the acquired image or image sequence.
- the electronic device 1000 uses an input device such as a camera 1100 to analyze how an operation of a tracking target object (O) changes over time, and detects the change.
- a control signal can be obtained through That is, spatial gesture technology or computer vision technology may be applied to the electronic device 1000 according to an embodiment.
- Computer vision technology refers to realizing human vision through a computer.
- computer vision can relate to artificial intelligence systems that extract information from images.
- the operation of extracting information from an image is, for example, a technology that finds out three-dimensional spatial information such as the type, size, direction and location of an object in the image in real time, a technology that identifies objects like humans and recognizes the motion of each object. It may include technology, or a technology for recognizing its location by a machine, and the like.
- Computer vision also combines cameras, edge-based or cloud-based computing, software, and artificial intelligence (AI) to enable systems to see and identify things.
- AI artificial intelligence
- 'hand skeleton detection and tracking' can be used for the recognition of hand movements.
- the hand skeleton structure is analyzed from the 'hand image (OI)' included in the image captured by the camera 1100 and the hand skeleton structure is compared with a database to recognize hand movement, that is, a gesture.
- OI 'hand image
- gesture (movement) recognition through 'hand skeleton detection and tracking' can be easily applied to a case in which the entire hand is photographed through the camera 1100 . That is, when the hand O of the user U is located in the edge region PZ of the field of view FOV of the camera 1100 as shown in FIG. 1 , only a part of the hand O through the camera 1100 is In this case, since the entire hand skeleton is not expressed in the captured object image (OI), the accuracy of gesture (movement) recognition through 'hand skeleton detection and tracking' is very low.
- the hand (O) camera 1100 for accuracy of recognition ), but it may be inefficient to always extend the hand O away from the camera 1100 until the electronic device 1000 is controlled through a relatively simple control signal.
- the field of view FOV of the camera 1100 is divided into a central region MZ and an edge region PZ, and in the central region MZ, the hand A gesture (movement) is recognized through a skeleton detection and tracking technology, and a gesture (movement) can be recognized using a feature point detection method in the edge region (PZ).
- a relatively simple control signal may be set to correspond to a gesture (movement) recognized in the edge region PZ.
- the field of view (FOV) of the camera 1100 is a central zone (Middle Zone, MZ) and a peripheral zone disposed outside of the central zone (MZ). , PZ) may be included.
- An image or an image acquired through the camera 1100 may be output through the display 1710 included in the electronic device 1000 .
- an image acquired in the edge region PZ of the field of view (FOV) of the camera 1100 may be displayed as an edge part image EI disposed outside the screen range of the display 1710, and the camera 1100 ), the image acquired in the central region MZ of the field of view FOV may be displayed as a central image MI disposed in the central portion of the screen range of the display 1710 .
- the edge portion image EI displayed on the screen range of the display 1710 may be referred to as a corresponding edge area PZ
- the center image MI may be referred to as a corresponding center area MZ.
- the photographed hand image (object image, object image, OI) is The display 1710 may output the edge portion image EI.
- the electronic device 1000 uses a feature point detection method from an image OI of a hand captured in a field of view (FOV) edge region PZ of a camera 1100 using a gesture (motion) may be recognized, and a relatively simple control signal corresponding to the recognized gesture (movement) may be obtained.
- FIG. 2 is a block diagram of an electronic device 1000 according to an embodiment of the present disclosure.
- the electronic device 1000 may include a camera 1100 , a processor 1300 , a storage unit 1500 , and an output unit 1700 . Not all of the components shown in FIG. 2 are essential components of the electronic device 1000 .
- the electronic device 1000 may be implemented by more components than those illustrated in FIG. 2 , or the electronic device 1000 may be implemented by fewer components than those illustrated in FIG. 2 .
- the camera 1100 may acquire an image, an image, or an image sequence.
- the camera 1100 may include a recorder for acquiring a visual image and a recorder for acquiring an auditory sound.
- the camera 1100 may have a single structure that is not physically separated into a recording unit and a recording unit.
- the camera 1100 may include, for example, at least one of a monocular camera, a binocular camera, or an infrared camera.
- the output unit 1700 may output an output image to the outside.
- the output unit 1700 may include a display 1710 and an audio output unit 1720 .
- the display 1710 may output a visual image by externally displaying it.
- the display 1710 may output an image sequence to the outside.
- the display 1710 may include a panel.
- the display 1710 may be, for example, a liquid crystal display, a digital mirror divice, a liquid crystal on silicon, or a thin film transistor-liquid crystal display. ), an organic light-emitting diode, a micro LED, a flexible display, a three-dimensional display, and an electrophoretic display.
- the electronic device 1000 may be an electronic device that provides virtual reality.
- the display 1710 when the display 1710 is formed of one of a liquid crystal display device, a digital mirror display device, or a silicon liquid crystal display device, the electronic device 1000 may further include a light source for irradiating light to a screen output area of the display.
- the display when the display is capable of generating light by itself, for example, when it is made of one of an organic light emitting diode or a micro LED, the electronic device 1000 provides good quality to the user even if it does not include a separate light source.
- a virtual realm can be provided.
- the electronic device 1000 may be reduced in weight.
- the audio output unit 1720 may reproduce and output an auditory sound to the outside.
- the audio output unit 1720 may include a speaker.
- the audio output unit 1720 may include, for example, a single speaker, two or more speakers, a mono speaker, a stereo speaker, a surround speaker, a headset, an earphone ( earphone).
- the display 1710 and the audio output unit 1720 of the output unit 1700 may have a single structure that is not physically separated.
- the storage 1500 may store a program to be executed by the processor 1300 to be described later in order to control the operation of the electronic device 1000 .
- the storage 1500 may store a program including at least one instruction for controlling the operation of the electronic device 1000 .
- the storage unit 1500 may store instructions and program codes readable by the processor 1300 .
- the processor 1300 may be implemented to execute instructions or codes of a program stored in the storage 1500 .
- the storage 1500 may store data input to or output from the electronic device 1000 .
- the storage unit 1500 is, for example, a flash memory, a hard disk, a multimedia card micro type, or a card type storage unit (eg, SD or XD storage). ), RAM (Random Access Memory), SRAM (Static Random Access Memory), ROM (Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory) , a magnetic storage unit, a magnetic disk, and an optical disk may include at least one type of storage medium.
- Programs stored in the storage 1500 may be classified into a plurality of modules according to their functions.
- the storage unit 1500 may include an image separation module 1510 , an object image acquisition module 1520 , a noise removal module 1530 , a feature point detection module 1540 , a feature point tracking module 1550 , and a movement pattern classification It may include a module 1560 , and a motion recognition module 1570 .
- the storage unit 1500 may further include an artificial intelligence model 1580 , a recurrent neural network (RNN) 1585 , and a database 1590 .
- RNN recurrent neural network
- the processor 1300 may control the overall operation of the electronic device 1000 .
- the processor 1300 executes the programs stored in the storage unit 1500, and thereby an output unit 1700 including a camera 1100, a display 1710, and an audio output unit 1720, and a storage unit ( 1500), etc. can be controlled in general.
- the processor 1300 may be composed of hardware components that perform arithmetic, logic, input/output operations and signal processing.
- the processor 1300 is, for example, a central processing unit (Central Processing Unit), a microprocessor (microprocessor), a graphic processor (Graphic Processing Unit), ASICs (Application Specific Integrated Circuits), DSPs (Digital Signal Processors), DSPDs (Digital Signal Processing Devices), PLDs (Programmable Logic Devices), and FPGAs (Field Programmable Gate Arrays) may be configured as at least one, but is not limited thereto.
- a central processing unit Central Processing Unit
- microprocessor microprocessor
- a graphic processor Graphic Processing Unit
- ASICs Application Specific Integrated Circuits
- DSPs Digital Signal Processors
- DSPDs Digital Signal Processing Devices
- PLDs Programmable Logic Devices
- FPGAs Field Programmable Gate Arrays
- the processor 1300 executes at least one instruction stored in the storage unit 1500 to obtain at least one image including an object through the camera 1100, or an image sequence including an image or a plurality of image frames. (image sequence) can be obtained.
- the image may include an image that is visual data and a sound that is auditory data.
- the processor 1300 divides or acquires at least one image obtained by executing at least one instruction constituting the image separation module 1510 among the programs stored in the storage unit 1500 into a center region and an edge region.
- the plurality of image frames included in the image sequence may be divided into at least one middle image and at least one edge image, respectively.
- the central region or the object included in the central image may be positioned within a field of view (FOV) range of the camera 1100 as a whole, so that the image of the object may be completely displayed on the display 1710 .
- FOV field of view
- the criterion for separating the image into the central region and the edge region or the criterion for separating the central image and the edge region is whether the image of the object is included in the display 1710 completely or as a whole to be considered included. can be whether
- the image of the object is included in the central area and It can be seen that it corresponds to the central image.
- the image of the object is displayed in the edge area. It can be seen that it is included and corresponds to the edge part image.
- the determination may be made based on the display form of the object on the display 1710 .
- the processor 1300 executes at least one instruction constituting the object image acquisition module 1520 among programs stored in the storage 1500 to acquire an image of an object that is a subject of movement from the separated edge part image can do.
- An image may be composed of one continuous screen that is not divided. In such a continuous screen, a body part such as a user's hand or foot or an object of each object may be separated. Each separated object can be a subject of movement.
- at least one object image may be acquired from the image using an artificial intelligence model 1580 or a database 1590 in which image files are accumulated.
- the object that is the subject of movement may include the hand of a user who uses the electronic device 1000 .
- the processor 1300 may acquire the user's hand image, which is the subject of movement, from the separated edge part image using a skin color model based algorithm.
- the processor 1300 acquires the first object image from the edge part image by executing at least one instruction constituting the object image acquisition module 1520 among the programs stored in the storage 1500 and , a second object image may be obtained from the central image. Furthermore, the processor 1300 may verify the first object image using the second object image by executing at least one instruction among the programs stored in the storage 1500 .
- the image of a specific object may be included in the edge part image in one image among a series of images included in the image sequence, and may be included in the center image in the other image. That is, the image of the specific object may be the second object image at a specific time point, and may be the first object image at another time point.
- the processor 1300 may obtain the first object image and the second object image at two viewpoints, and verify the first object image using the second object image in which the image of the object is fully displayed.
- At least one object image may be included in the center image, and at least another object image may be included in the edge part image.
- the object image included in the edge part image may be the first object image
- the object image included in the center image may be the second object image.
- the image of one hand included in the center image may be the second object image
- the image of the other hand included in the edge image may be the first object image.
- the processor 1300 may verify the first object image by using color information of the second object image.
- the processor 1300 executes at least one instruction constituting the noise removal module 1530 among the programs stored in the storage 1500, thereby determining movement and Unrelated noise can be removed.
- a binarization mask may be used as shown in FIG. 8, which will be described later.
- a model for removing motion-independent noise from the edge part image may be preset and stored in a database.
- the processor 1300 detects at least one feature point of an object included in the edge region by executing at least one instruction constituting the feature point detection module 1540 among the programs stored in the storage 1500 , or the edge part At least one feature point (feature point, key point, key feature) may be detected from an image of an object included in the image.
- the feature point may be determined as a point that is easily identified while being distinguished from the surrounding background, that is, an edge portion of the object.
- the pixel of the feature point is easily distinguished from the surrounding background, a difference between the pixel value and the surrounding pixels may be large.
- At least one feature point may be detected from the edge part image by using this characteristic.
- the method of detecting at least one feature point from the image of the object included in the edge portion image is not limited to the above-described method, and SIFT (Scale Invariant Feature Transform) method, Shi-Tomasi feature point detection method, Harris Corner method, FAST ( Features from Accelerated Segment Test) technique, etc., can all be applied to various feature point detection techniques in image processing.
- the processor 1300 executes at least one instruction constituting the keypoint tracking module 1550 among the programs stored in the storage 1500 to track the detected at least one keypoint in the image sequence, It is possible to determine the movement of the feature points of In an image including a moving image, the moving object image may change over time.
- the feature point tracking module 1550 analyzes the edge portion image (screen), analyzes the direction, speed, and position of each feature point moving, and obtains a motion profile for the feature points. can In an embodiment, the obtained motion profile may be used to classify motion patterns of feature points and recognize motion of an object in a subsequent step.
- the processor 1300 classifies (classifying) is possible. In an embodiment, whether the movement of a specific feature point is a part of the motion or noise may be classified using the type of the feature point and the motion of each feature point. For example, when a body part (eg, a part of a hand) of the user is detected in the field of view (FOV) edge region PZ of the camera 1100, the body part is captured from the angle, movement speed, direction, etc. Whether the corresponding motion is incorrectly recognized (noise) or whether it corresponds to a motion for generating a control signal may be classified.
- FOV field of view
- the processor 1300 may classify the movement pattern of each feature point from the determined movement through a support vector machine (SVM) or a recurrent neural network (RNN).
- SVM support vector machine
- RNN recurrent neural network
- a support vector machine is one of the machine learning fields, and is a supervised learning model for pattern recognition and data analysis. Support vector machines can be mainly used for classification and regression analysis.
- the SVM algorithm Given a set of data belonging to either of the two categories, the SVM algorithm can generate a non-stochastic binary linear classification model that determines which category the new data belongs to based on the given data set.
- the generated classification model can be expressed as a boundary in the space where data is mapped, and the SVM algorithm is an algorithm that finds the boundary having the largest width among them.
- the processor 1300 may classify the movement pattern of each feature point by using the SVM.
- the processor 1300 executes at least one instruction constituting the motion recognition module 1570 among programs stored in the storage unit 1500 to detect the movement of an object based on at least one feature point. It is also possible to recognize or recognize the movement of an object from the classified movement pattern.
- the motion may correspond to a control signal, and the processor 1300 may select one of the camera 1100 , the output unit 1700 , or the storage unit 1500 based on the control signal corresponding to the recognized motion. At least one can be controlled.
- a recurrent neural network (RNN) 1585 stored in the storage 1500 is a type of artificial neural network, and may have a characteristic that connections between units have a cyclic structure. This cyclic structure allows the state to be stored inside the neural network to model time-varying dynamic features. Unlike acyclic neural networks, recurrent neural networks can process input in the form of sequences using memory. Accordingly, the recurrent artificial neural network may be used to process data having time-varying characteristics, such as movement pattern classification or movement recognition according to an embodiment of the present disclosure.
- the database 1590 stored in the storage 1500 may be composed of a set of a vast amount of data.
- the database 1590 may include control signal information corresponding to a specific movement.
- database 1590 may be used to obtain control signals from recognized movements.
- the processor 1300 executes at least one instruction stored in the storage unit 1500 , and based on a control signal corresponding to the recognized movement, the camera 1100 , the output unit 1700 , or the storage unit 1500 . at least one of them can be controlled.
- the movement recognized from the edge part image is 'next/backward', 'up/down', 'zoom in/zoom out (zoom)' out)', 'skip/select (click)', or 'cancel' may correspond to a simple control signal.
- the processor 1300 may control the electronic device 1000 based on a rather complex control signal corresponding to the movement recognized from the center image and a rather simple control signal corresponding to the movement recognized from the edge portion image. can
- 3A is a flowchart of a method of controlling an electronic device by recognizing a motion of an object according to an embodiment of the present disclosure
- At least one image including an object may be acquired.
- An image may mean a visual representation drawn on a two-dimensional plane.
- the image may be acquired via a camera.
- acquiring at least one image including an object may include acquiring an image sequence including a plurality of image frames.
- the at least one acquired image may be divided into a center region and an edge region.
- the operation of dividing the at least one acquired image into a center region and an edge region may include dividing a plurality of image frames included in the obtained image sequence into a center region and an edge region, respectively.
- the operation of dividing the at least one obtained image into a center area and an edge area may include an operation of dividing the at least one image in the form of a rectangular grid.
- the central region may include at least one middle image
- the edge region may include at least one edge image.
- the detecting of at least one feature point of the object included in the edge region includes acquiring an image of an object that is a subject of movement from an edge part image included in the edge region, and The method may include detecting at least one feature point from the image.
- the operation of acquiring an image of an object that is a subject of movement from the edge part image includes acquiring a first object image from an edge part image, acquiring a second object image from a center image, and a second The method may include verifying the first object image using the object image, and determining the verified first object image as an image of an object that is a subject of movement.
- model-based algorithm may include an operation of acquiring an image of an object from an edge part image.
- the detecting of the at least one feature point from the obtained image of the object may include removing noise irrelevant to motion from the edge image based on the image of the object, and removing at least one from the noise-removed edge image. It may include an operation of detecting a feature point of . In this case, a binarization mask may be used for noise removal.
- the movement of the object may be recognized based on at least one detected feature point.
- the operation of recognizing the motion of the object based on the detected at least one feature point includes determining the motion of each feature point by tracking the detected at least one feature point, and a movement pattern of each feature point may include an operation of classifying and recognizing the movement of an object.
- a support vector machine (SVM) or a recurrent neural network (RNN) may be used to classify the movement pattern.
- the electronic device may be controlled based on the recognized movement.
- a control signal corresponding to the recognized movement may be obtained, and the electronic device may be controlled based on the obtained control signal.
- 3B is a flowchart of a method of controlling an electronic device by recognizing a motion of an object according to an embodiment of the present disclosure.
- an image sequence including a plurality of image frames for example, an image may be acquired.
- the image sequence may mean an audiovisual representation drawn on a two-dimensional plane.
- the image sequence may mean a moving video.
- the image sequence may be acquired via a camera.
- the camera may comprise at least one of a monocular camera, a binocular camera, or an infrared camera.
- the plurality of image frames may be divided into at least one center image and at least one edge image, respectively.
- the criterion for separating the center image and the edge image may be whether the object is included within the camera's field of view (FOV), wholly, or as included as the whole. In an embodiment, when 80% or more of the corresponding object is included within the field of view of the camera, it may be determined that the object is included as a whole. In another embodiment, when 90% or 95% or more of the corresponding object is included within the field of view of the camera, it may be determined that the object is included as a whole.
- the image of the hand may be determined as the center image.
- the image of the hand may be determined as an edge portion image.
- the operation of dividing the plurality of image frames included in the obtained image sequence into at least one center image and at least one edge portion image, respectively may include dividing the plurality of image frames into a rectangular grid shape, respectively. Separation may be included.
- an image of an object that is a subject of movement may be obtained from the edge portion image.
- the object that is the subject of movement may be the user's hand.
- the operation of acquiring an image of an object that is a subject of movement from the separated edge part image includes acquiring a first object image from the edge part image, acquiring a second object image from the center image, and The method may include verifying the first object image by using the second object image.
- At least one feature point may be detected from the acquired image of the object. For example, from an image composed of continuous visual data, objects that may be the subject of movement may be separated.
- the feature point may be determined as a point that is easily identified while being distinguished from the surrounding background, that is, an edge portion of an object, but is not limited thereto.
- various feature point detection techniques such as a scale invariant feature transform (SIFT) technique, a Shi-Tomasi feature point detection method, a Harris Corner technique, and a features from accelerated segment test (FAST) technique, may all be applied.
- SIFT scale invariant feature transform
- FAST features from accelerated segment test
- the detecting of the at least one feature point from the obtained image of the object may include removing noise irrelevant to motion from the edge image based on the image of the object, and removing at least one from the noise-removed edge image. It may include an operation of detecting a feature point of . In this case, in the operation of removing the noise, a binarization mask may be used.
- At least one feature point may be tracked to determine a movement of each feature point.
- the movement of the feature point may be calculated and tracked through a change of the object image on the screen. For example, by analyzing the edge part image (screen), changes in the direction, speed, and position of each detected feature point may be analyzed, and a motion profile for each feature point may be acquired.
- a movement pattern of each feature point may be classified from the determined movement.
- whether the movement of a specific feature point is a part of the motion or noise may be classified using the type of the feature point and the motion of each feature point. For example, when an image corresponding to a plurality of objects is included in the edge portion image, which object each feature point corresponds to, or a feature point having a small state change may be classified as noise.
- a movement pattern classified as noise may be excluded from a subsequent operation of recognizing the movement.
- the operation of classifying the movement pattern of each feature point from the determined movement may use a support vector machine (SVM) or a recurrent neural network (RNN).
- SVM support vector machine
- RNN recurrent neural network
- step S375 the movement of the object may be recognized from the classified movement pattern.
- the movement may be singular or plural.
- step S385 it is possible to obtain a control signal corresponding to the recognized movement.
- the plurality of movements may correspond to one control signal or may correspond to a plurality of control signals.
- a relatively simple control signal may correspond to a movement recognized from an image of an object obtained from an edge portion image.
- a simple control signal is, for example, 'next/backward', 'up/down', 'zoom in/zoom out', ' It may be a signal for controlling the electronic device, such as 'skip/click' or 'cancel'.
- the electronic device may be controlled based on the control signal. For example, based on a control signal corresponding to the recognized movement, at least one of a camera, a display, an audio output unit, and a storage unit included in the electronic device may be controlled.
- FIG 4 is a view for explaining a field of view (FOV) of the camera 1100 and a screen of the corresponding display 1710 according to an embodiment of the present disclosure.
- FOV field of view
- the field of view (FOV) of the camera 1100 refers to an area covered by the field of view.
- the field of view (FOV) may be expressed as a degree of FOV (DFOV).
- the viewing angle DFOV may consist of a horizontal viewing angle HFOV and a vertical viewing angle VFOV.
- the horizontal viewing angle HFOV may be an angle from the left end to the right end of a screen that can be photographed in a fixed state by the camera 1100 .
- the vertical viewing angle (VFOV) may be an angle from an upper end to a lower end of a screen that can be photographed in a state in which the camera 1100 is fixed.
- the viewing angle DFOV may mean an angle from the upper left end to the lower right end of the screen on which the camera 1100 can photograph in a fixed state.
- the camera 1100 having a field of view (DFOV) of 90 degrees may photograph a front area of 90 degrees as an image.
- An image or an image captured by the camera 1100 may be displayed on the screen of the display 1710 .
- an image captured in the edge region PZ of the field of view (FOV) of the camera 1100 may be displayed in the edge region PZ of the screen of the display 1710, and the field of view (FOV) of the camera 1100
- An image captured in the central region MZ of may be displayed in the central region MZ of the screen of the display 1710 .
- the viewing angle DFOV of the camera 1100 may have a constant value. Accordingly, the area that the camera 1100 can photograph may increase as the distance from the camera 1100 increases, and may decrease as the distance from the camera 1100 increases. Accordingly, an object located close to the camera 1100 may be displayed on the screen of the display 1710 in a large size, and an object located far from the camera 1100 may be displayed on the screen of the display 1710 in a small size. For example, when the user takes a picture of his or her hand through the camera 1100 or the HMD mounted on the head, it is necessary to place the hand away from the camera 1100 or the HMD by a certain distance or more in order to capture all the appearance of the hand. have.
- the camera 1100 may perform a zoom in or zoom out operation.
- the zoom-in operation may correspond to an operation of narrowing the viewing angle DFOV of the camera 1100
- the zoom-out operation may correspond to an operation of widening the viewing angle DFOV of the camera 1100 .
- the zoom in and out of the camera may be performed within a range of a minimum field of view (DFOV) to a maximum field of view (DFOV).
- FIG. 5 is a view for explaining a position of an object image on a display screen according to a position of an object within a field of view (FOV) of a camera according to an embodiment of the present disclosure.
- FOV field of view
- the users U51 and U52 may photograph their hands O51 and O52 through a camera included in the electronic device 1000 .
- the object may be the hands O51 and O52 of the users U51 and U52.
- An object photographed through a camera included in the electronic device 1000 may be displayed in real time through a display included in the electronic device 1000 .
- the hand O51 of the user U51 may be located in the central region MZ of the field of view FOV of the camera. At this time, the hand O51 of the user U51 may be included within the FOV range of the camera, and the image of the hand O51 of the user U51 taken through the camera is completely displayed on the corresponding display screen. can be In this case, the image of the hand O51 may be viewed as being located in the central region MZ of the display screen, and may be the central image.
- the hand O52 of the user U52 may be located in the edge region PZ of the field of view FOV of the camera.
- at least a part of the hand O52 of the user U52 may be located outside the field of view (FOV) range of the camera. That is, the hand O52 of the user U52 may not be included within the field of view (FOV) range of the camera as a whole.
- the portion of the hand O52 that is located outside the field of view (FOV) range of the camera is not displayed on the corresponding display screen. Accordingly, only a part of the hand O52 of the user U52 may be displayed on the display screen.
- the image of the hand O52 may be viewed as being located in the edge region PZ of the display screen, and may be an edge portion image.
- the users U51 and U52 may hold the electronic device 1000 including a camera in one hand and photograph the other hands O51 and O52.
- the area that the camera can capture increases as it moves away from the camera, and the image of an object becomes smaller as it moves away from the camera. Accordingly, when the other hand O51 and O52 is photographed while the hand holding the electronic device 1000 including the camera is fixed, as the other hand O51 and O52 is extended further from the camera, the corresponding hand O51 , O52) is more likely to fall within the camera's field of view (FOV) range.
- FOV field of view
- FIG. 6 is a view for explaining a position of an object image on a display screen according to a position of an object within a field of view (FOV) of a camera according to an embodiment of the present disclosure.
- FOV field of view
- the users U61 and U62 may photograph their hands O61, O62, O63, and O64 through a camera included in the electronic device 1000 .
- the object may be the hands O61, O62, O63, and O64 of the users U61 and U62.
- An object photographed through a camera included in the electronic device 1000 may be displayed in real time through a display included in the electronic device 1000 .
- the electronic device 1000 may include a virtual reality (VR) device that is worn on the heads of the users U61 and U62 and provides an image related to an augmented reality service to the user.
- the electronic device 1000 may provide an augmented reality service that outputs at least one virtual object to be superimposed on an area determined as a user field of view (uFOV) of the users U61 and U62. have.
- the region determined as the field of view of the users U61 and U62 is an area determined to be recognizable by the users U61 and U62 wearing the electronic device 1000 through the electronic device 1000 . It may be an area including all or at least a part of the display of 1000 .
- the electronic device 1000 may include a plurality of glasses corresponding to each of both eyes of the user.
- the electronic device 1000 may be configured in the form of at least one of glasses, goggles, a helmet, and a hat, but is not limited thereto.
- the electronic device 1000 may include a display, a camera, an audio output unit, and a support unit.
- the camera may capture an image corresponding to the field of view of the users U61 and U62 or measure the distance to the object.
- the camera may further include an 'eye tracking (ET) camera' in addition to a camera used for detecting an image corresponding to the field of view of the users U61 and U62, that is, a motion of the user's hand or space recognition.
- ET 'eye tracking
- the ET camera may be used for detecting and tracking the pupils of the users U61 and U62.
- the ET camera may be used to adjust the center of the virtual image to be positioned according to the direction in which the pupils of the users U61 and U62 gaze.
- the virtual object output through the display includes information related to an application program executed in the electronic device 1000 or information related to an external object located in a real space corresponding to an area determined by the user's U61 and U62 view.
- the electronic device 1000 may identify an external object included in at least a portion corresponding to an area determined by the field of view of the users U61 and U62 among image information related to the real space acquired through the camera.
- the electronic device 1000 may output at least a part of the confirmed virtual object related to the external object through an area determined as the field of view of the users U61 and U62 among the display areas of the electronic device 1000 .
- the external object may include an object existing in the real space.
- the display may include a condensing lens or transparent waveguide in the glass.
- the waveguide or waveguide may transmit the light generated by the light source of the display to the eyes of the users U61 and U62.
- the transparent waveguide may be positioned at least partially in a portion of the glass.
- the light emitted from the display may be incident to one end of the glass, and the incident light may be transmitted to the users U61 and U62 through a waveguide or waveguide formed in the glass.
- the waveguide may be made of glass, plastic, or polymer, and may include a nano-pattern formed on an inner or outer surface, for example, a polygonal or curved grating structure.
- the incident light may be propagated or reflected inside the waveguide by the nanopattern and provided to the users U61 and U62 .
- the waveguide may include at least one of at least one diffractive element (eg, a diffractive optical element (DOE), a holographic optical element (HOE)) or a reflective element (eg, a mirror).
- DOE diffractive optical element
- HOE holographic optical element
- the waveguide may guide the display light emitted from the light source unit to the eyes of the users U61 and U62 using at least one diffractive element or a reflective element.
- the display may include a display panel or lens (eg, glass).
- the display panel may include a transparent material such as glass or plastic.
- the display may be configured as a transparent element, and the users U61 and U62 may pass through the display to perceive the actual space behind the display.
- the display may display the virtual object on at least a portion of the transparent element so that the user U61 or U62 sees the virtual object as being added to at least a portion of the real space.
- the support includes a printed circuit board (PCB) for transmitting an electrical signal to each component of the electronic device 1000, a speaker for outputting an audio signal, or a battery for supplying power may include
- the speaker may include a first speaker for transmitting an audio signal to the left ear of the users U61 and U62 and a second speaker for transmitting the audio signal to the right ear of the user U61 and U62.
- the speaker may be included in the audio output unit 1720 of FIG. 2 .
- the hands O61 and O62 of the user U61 may be located in the central region MZ of the field of view FOV of the camera.
- the hands O61 and O62 of the user U61 may all be included within the field of view (FOV) range of the camera, and the images of the hands O61 and O62 of the user U61 taken through the camera are displayed on the corresponding display. It can be fully displayed on the screen.
- the images of the hands O61 and O62 may be viewed as being located in the central region MZ of the display screen, and may be the central images.
- the hands O63 and O64 of the user U62 may be located in the edge region PZ of the field of view FOV of the camera. At this time, at least some of the hands O63, O64 of the user U62 may be located outside the field of view (FOV) range of the camera, that is, the hands O63, O64 of the user U62 as a whole are the field of view of the camera. (FOV) may not be included. Each part of the hands O63 and O64 positioned outside the field of view (FOV) range of the camera is not displayed on the corresponding display screen. Accordingly, only a portion of each of the hands O63 and O64 of the user U62 may be displayed on the display screen. In this case, the images of the hands O63 and O64 may be viewed as being located in the edge region PZ of the display screen, and may be edge portion images.
- the users U61 and U62 may photograph their hands O61, O62, O63, and O64 while wearing the electronic device 1000 including the camera on their head.
- the area that the camera can capture increases as it moves away from the camera, and the image of an object becomes smaller as it moves away from the camera. Therefore, when both hands O61, O62, O63, and O64 are photographed through the electronic device 1000 including a camera worn on the head, the more the hands O61, O62, O63, and O64 are extended from the camera, the corresponding Hands O61 , O62 , O63 , O64 are more likely to be included within the camera's field of view (FOV) range.
- FOV field of view
- FIG. 7 is a view for explaining an operation of dividing an image frame into a center image MI and an edge part image EI according to an embodiment of the present disclosure.
- each region separated in a rectangular grid form may be classified into a center image MI and an edge image EI.
- regions in which at least one edge of each region separated in a grid form contacts the outer edge of the screen of the display 1710 may be the edge portion image EI.
- an image of an object may be displayed through a grid in contact with the outer screen of the display 1710 and a central grid.
- whether the grids including the image of the object belong to the center image MI or the edge part image EI may be determined according to whether the image of the object is completely displayed.
- the object is a hand
- the image of the hand may include all hand skeletons.
- the hand image may be a central image
- all grids including the hand image may be determined as the central image MI.
- the image of the hand may not include at least a portion of a hand skeleton.
- the hand may be located in the edge region PZ of the field of view (FOV) of the camera, and all grids including the image of the cut hand may be determined as the edge portion image EI.
- FOV field of view
- the operation of dividing the image frame into the center image MI and the edge image EI is not limited to the above-described exemplary embodiment.
- FIG. 8 is a view for explaining an operation of removing noise irrelevant to motion from an edge part image according to an embodiment of the present disclosure.
- the detecting of the at least one feature point from the image of the object includes, before detecting the feature point, noise independent of motion in the edge part image included in the edge region of the image, based on the image of the object. It may further include an operation of removing.
- the determined edge portion image EI may further include a background image as well as the object image OI. Referring to FIG. 8 , the edge portion image of the edge region PZ may further include an object image O8 and an image other than the object image O8 .
- the feature point detection for the background image is not required for motion recognition of an object, and the accuracy of motion recognition may be lowered due to the feature point tracking for the background image. Accordingly, in an embodiment, the operation of removing a background image irrelevant to motion as noise may be further included prior to detecting the feature point.
- the operation of removing noise may use a binarization mask BM.
- Image binarization refers to an image in which all pixels of an image are expressed only in black and white (0 and 1).
- the binarization operation refers to an operation of changing a pixel having a value lower than a preset threshold value to black (0) and a pixel having a value higher than a preset threshold value to white (1). Accordingly, the binarization mask BM to which the binarization operation is applied may be used to detect an object included in the image.
- a threshold value corresponding to the object image O8 is set, a binarization mask BM having a set threshold value is generated, and the generated binarization mask is applied to the edge part image.
- noise that does not correspond to the object image O8 may be removed.
- the operation of removing noise from the edge part image is not limited to the method using the above-described binarization mask BM.
- FIG. 9 is a diagram for explaining an operation of detecting at least one feature point FP from an image O9 of an object according to an embodiment of the present disclosure.
- the feature point FP may refer to a point in the image O9 of the object that is easily identified while being distinguished from the surrounding background, or a point where it is easy to track the image O9 of the object.
- various feature point detection techniques in image processing such as the Scale Invariant Feature Transform (SIFT) technique, the Shi-Tomasi feature point detection method, the Harris Corner technique, and the Features from Accelerated Segment Test (FAST) technique, may be applied.
- SIFT Scale Invariant Feature Transform
- FAST Features from Accelerated Segment Test
- the feature point FP detected in the image O9 of the object may be located at a point that is easy to track, such as a finger edge region, a nail border, or a point or a wrinkle in the finger.
- the detected feature points FP may be used in an operation of tracking a change over time of an object in an image sequence.
- hand feature point detection is possible only with a part of an image of the hand, and thus an entire image of the hand is not required.
- 10A to 10J are diagrams for explaining a control signal corresponding to a gesture (movement) of an object disposed in an edge region PZ of a camera field of view (FOV) according to various embodiments of the present disclosure
- the gesture (movement) recognized from the motion of the object included in the edge part image may correspond to a control signal for controlling the electronic device.
- the object included in the edge part image may be displayed as an image corresponding to a part rather than a complete shape. Accordingly, the motion recognized from the edge part image may correspond to a slightly simpler control signal compared to the motion recognized from the center image.
- the movement recognized from the edge part image is, for example, 'next/backward', 'up/down', 'zoom in' It may correspond to a simple control signal such as '/zoom out', 'skip/select (click)', or 'cancel'.
- a 'tap gesture' may be recognized from the object image OA included in the edge part image.
- a 'tap gesture' may be an action that appears and disappears quickly on the screen, or an action that appears and then stops quickly.
- the 'tap gesture' may correspond to a click or enter control signal.
- a 'prior gesture' moving to the right side from the object image OB included in the edge part image may be recognized.
- the 'previous gesture' may be a movement from left to right within the screen.
- the 'previous gesture' may correspond to a prior or move right control signal.
- a 'next gesture' moving to the left from the object image OC included in the edge part image may be recognized.
- the 'next gesture' may be a movement from right to left within the screen.
- the 'next gesture' may correspond to a next or move left control signal.
- a 'scroll up gesture' moving upward from the object image OD included in the edge part image may be recognized.
- the 'scroll-up gesture' may be an operation of moving from the lower side to the upper side within the screen.
- the 'scroll up gesture' may correspond to a next, scroll up, or move up control signal.
- a 'scroll down gesture' moving downward from the object image OE included in the edge part image may be recognized.
- the 'scroll down gesture' may be an operation of moving from the top to the bottom within the screen.
- the 'scroll down gesture' may correspond to a prior, scroll down, or move down control signal.
- a 'zoon in gesture' of extending a finger from the object image OF included in the edge part image may be recognized.
- the 'zoom-in gesture' may be an action in which two fingers move away from each other within the screen.
- the 'zoom in gesture' may correspond to a zoom in or send control signal.
- a 'zoom out gesture' of pinching a finger may be recognized from the object image OG included in the edge part image.
- the 'zoom out gesture' may be an operation in which two fingers move in a direction toward each other within the screen.
- the 'zoom out gesture' may correspond to a zoom out, mute, bring, select, or click control signal.
- it may correspond to different control signals according to the speed of movement. For example, if the speed of the zoom out gesture is faster than a preset value, it may be set to correspond to a click, selection, or mute control signal. If the speed of the zoom out gesture is slower than a preset value, zoom out or bring It may be set to correspond to the control signal.
- a 'delete gesture' moving in the horizontal direction may be recognized from the object image OH included in the edge part image.
- the 'delete gesture' may be an operation of moving alternately from right to left and from left to right within the screen.
- the 'delete gesture' may correspond to an erase or delete control signal.
- a 'delete gesture' moving in the vertical direction from the object image OJ included in the edge part image may be recognized.
- the 'delete gesture' may be an operation that alternately moves from bottom to top and from top to bottom within the screen.
- the 'delete gesture' may correspond to an erase or delete control signal.
- a 'rotate gesture' may be recognized from object images OK1 and OK2 included in the edge part image.
- the 'rotation gesture' may be recognized from two object images OK1 and OK2 included in the screen.
- the first object image OK1 moves from the bottom to the top in the left edge region PZ of the screen, and the second object image OK2 moves upward in the right edge region PZ of the screen. It can be recognized when moving downward from
- the 'rotate gesture' may correspond to a screen rotation control signal.
- FIG. 11 is a diagram for describing a method for recognizing a multi-movement according to an embodiment of the present disclosure.
- the case in which multiple motions are included means a case in which multiple motions due to multiple objects are included in an image or image sequence.
- the case where multiple movements are included may occur when the user's two hands are free, such as when using a virtual reality providing device of glasses or HMD, or when using an electronic device fixed on a cradle.
- a plurality of objects O1 and O2 may exist in one image of an image sequence, and each of the objects O1 and O2 may have different motions. In this case, the motions of the respective objects O1 and O2 may be different gestures.
- At least one object image may be included in the center image, and at least another object image may be included in the edge part image.
- the image of the object included in the central image may be the image of the first object O1
- the image of the object included in the edge image may be the image of the second object O2.
- the first object O1 when both hands of the user are objects, one hand becomes the first object O1 whose image is included in the central image, and the other hand becomes the first object whose image is included in the edge part image. 2 It can be an object (O2).
- the gesture of the first object O1 may be a first movement
- the gesture of the second object O2 may be a second movement.
- the at least one first movement and the at least one second movement and the control signal of the electronic device may be matched one-to-one, many-to-one, or many-to-many, respectively.
- the first movement of the first object O1 and the second movement of the second object O2 may correspond to one control signal
- the first movement and the second movement are Each may correspond to a different control signal.
- FIG. 12 is a flowchart of a method for controlling an electronic device by recognizing multi-movement within a camera field of view according to an embodiment of the present disclosure.
- a method of controlling an electronic device by recognizing multi-movement includes: acquiring at least one image; dividing the acquired at least one image into a center region and an edge region step, recognizing a motion of a first object included in the central region, recognizing a motion of a second object included in an edge region, and controlling the electronic device based on the motion of the first object and the motion of the second object may include the step of In this case, the step of recognizing the motion of the second object may include detecting at least one feature point of the second object, and recognizing the motion of the second object based on the detected at least one feature point. may include
- controlling of the electronic device based on the motion of the first object and the motion of the second object includes combining the motion of the first object and the motion of the second object and the combined motion. It may include controlling the electronic device based on the.
- Steps S1200, S1210, S1222, S1232, S1242, S1252, S1262, S1280, and S1290 of FIG. 12 are similar to steps S315, S325, S335, S345, S355, S365, S375, S385, and S395 of FIG. 3B, respectively, described above. It can be done by action.
- the operation of acquiring at least one image may include acquiring an image sequence including a plurality of image frames.
- the operation of dividing the at least one acquired image into a center region and an edge region may include dividing a plurality of image frames included in the obtained image sequence into a central region and an edge region, respectively.
- the central region may include at least one middle image
- the edge region may include at least one edge image.
- steps S1200 and S1210 similar to steps S315 and S325 of FIG. 3B , an image sequence including a plurality of image frames is obtained, and the plurality of image frames are respectively converted into at least one center image and at least one edge portion image. can be separated
- the operation of recognizing the motion of the first object included in the central region and the motion of the second object included in the edge region may include, for example, at least one first motion from at least one central image. and recognizing at least one second motion from at least one edge part image.
- the operation of recognizing the at least one first motion from the at least one center image may be performed through steps S1221, S1241, and S1261.
- the operation of recognizing the at least one second motion from the at least one edge part image may be performed through steps S1222, S1232, S1242, S1252, and S1262.
- the operation of recognizing the at least one first movement from the central image is the first movement from the separated central image.
- the method may include obtaining an image of a first object as a subject, determining a movement of the first object, and recognizing the first movement from the determined movement of the first object.
- an image of the first object that is the subject of the first movement may be obtained from the central image.
- the operation of acquiring the image of the first object may use an artificial neural network (NN) or a database (DB).
- the movement of the first object may be determined.
- an artificial intelligence model AI model
- RNN recurrent neural network
- DB database
- AI model an artificial intelligence model
- RNN recurrent neural network
- DB database
- a 'hand skeleton detection and tracking' technology may be used for determining the movement of the first object.
- the hand skeleton detection and tracking technology is a technology that detects a moving joint in a human hand image, and divides and projects a predetermined skeleton structure.
- the hand skeleton detection and tracking technology is used to determine the movement of the first object, it is required to accurately determine the skeleton structure through accurate detection of the skeleton.
- the image of the first object included in the central image is a case in which the image of the object is completely displayed, and may include all skeletal structures, and thus the accuracy of posture recognition may be high.
- the first movement may be recognized from the determined movement of the first object.
- an image-learned database may be used for recognition of the first movement.
- the operation of recognizing the at least one second motion from the edge part image includes the separated edge part. Obtaining an image of a second object that is the subject of the second movement from the image, detecting at least one feature point from the image of the second object, tracking the at least one feature point to determine the movement of each feature point, and the determined movement classifying a movement pattern of each feature point from the , and recognizing a second movement of the second object from the classified movement pattern. Since the operation of recognizing the at least one second motion from the edge part image has been described in detail with reference to FIG. 3B, a detailed description thereof will be omitted.
- the electronic device may be controlled based on the recognized movement of the first object and the movement of the second object.
- the movement of the first object may be the first movement
- the movement of the second object may be the second movement.
- At least one first movement and at least one second movement may be combined.
- a single fusion motion may be generated by fusing the at least one first motion and the at least one second motion, or a motion group including a plurality of motions may be generated without fusion.
- the operation of combining the at least one first motion and the at least one second motion may use a rule based solution or multimodal fusion.
- a rule-based solution is a kind of artificial intelligence model
- multimodal fusion is a cognitive-based method that interprets and encodes information about natural human behaviors such as human gestures, gaze, hand movements, behavior patterns, voice, and physical location. It could mean technology. That is, when multimodal fusion is used, a plurality of objects on an image may correspond to a plurality of modalities, and the plurality of objects may operate through different channels for applying different control signals to the electronic device.
- a control signal corresponding to the recognized movement may be obtained.
- a corresponding one control signal may be obtained from a fusion motion fused to the corresponding motions.
- a plurality of corresponding control signals may be obtained from a motion group including the corresponding motions.
- the electronic device may be controlled based on the acquired control signal.
- at least one of a camera, an output unit, a storage unit, and a processor of the electronic device may be controlled based on the control signal.
- FIG. 13 is a diagram for explaining an operation of recognizing a motion of a first object O1 disposed in a central region MZ of a camera field of view (FOV) in a multi-motion recognition method according to an embodiment of the present disclosure.
- the first object O1 may be disposed in the central region MZ of the camera field of view FOV.
- all of the first object O1 may be included in the camera field of view (FOV), and all images of the first object O1 may be included within the image range of the display screen. Accordingly, an image of the first object O1 that is the subject of the first movement may be acquired from the central image.
- FOV camera field of view
- a hand skeleton detection and tracking technique may be used.
- a hand landmark (HL) may include 22 structure points respectively corresponding to the tip of a finger, a joint, and a palm part.
- a joint part moving on the image of the first object O1 may be detected and matched with the hand skeletal structure HL. Thereafter, the movement of the first object O1 may be determined by tracking the structure points of the hand skeleton structure HL matched on the image of the first object O1 .
- the first movement may be recognized from the determined movement of the first object O1 .
- FIG. 14 is a diagram for describing a control signal corresponding to multiple motions according to an embodiment of the present disclosure.
- the electronic device 1000 may display a virtual object related to an augmented reality service together based on image information related to a real space acquired through a camera. For example, referring to FIG. 14 , the electronic device 1000 displays a virtual object such as a 'pop-up screen' together based on image information related to real space (both hands O1 and O2 of the user and a background image). can do.
- the first object O1 included in the center image and the second object O2 included in the edge part image may be displayed on the display 1710 .
- the first motion may be recognized from the image of the first object O1
- the second motion may be recognized from the image of the second object O2 .
- a rather complex control signal may correspond to the first movement recognized from the center image.
- a control signal for adjusting the size, position, angle, etc. of the 'information display area' may correspond to the first movement, which is the movement of the first object O1 .
- a rather simple control signal may correspond to the second movement recognized from the edge portion image.
- the control signal corresponding to the second movement may be a simple control signal such as turning a page of an 'information display area' controlled through the first movement.
- the movement of an object is accurately recognized even at the edge of the field of view (FOV) of the camera where an image of at least a portion of the object is not acquired. can do.
- different control signals are used according to the position of the object in the field of view.
- the electronic device may be controlled, and a field of view (FOV) area of the camera may be efficiently used.
- Computer-readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. Additionally, computer-readable media may include computer storage media and communication media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data. Communication media may typically include computer readable instructions, data structures, or other data in a modulated data signal such as program modules.
- the computer-readable storage medium may be provided in the form of a non-transitory storage medium.
- 'non-transitory storage medium' is a tangible device and only means that it does not contain a signal (eg, electromagnetic wave). It does not distinguish the case where it is stored as
- the 'non-transitory storage medium' may include a buffer in which data is temporarily stored.
- the method according to various embodiments disclosed in this document may be included and provided in a computer program product.
- Computer program products may be traded between sellers and buyers as commodities.
- the computer program product is distributed in the form of a device-readable storage medium (eg compact disc read only memory (CD-ROM)), or through an application store (eg Play StoreTM) or on two user devices (eg, It can be distributed (eg downloaded or uploaded) directly or online between smartphones (eg: smartphones).
- a portion of the computer program product eg, a downloadable app
- a machine-readable storage medium such as a memory of a manufacturer's server, a server of an application store, or a relay server. It may be temporarily stored or temporarily created.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
객체의 움직임을 인식하여 전자 장치를 제어하는 방법이 제공된다. 방법은, 객체(object)가 포함된 적어도 하나의 이미지를 획득하는 단계, 획득된 적어도 하나의 이미지를 중심 영역과 가장자리 영역으로 분리하는 단계, 가장자리 영역에 포함된 객체의 적어도 하나의 특징점(feature point)을 검출하는 단계, 검출된 적어도 하나의 특징점에 기초하여 객체의 움직임을 인식하는 단계, 및 인식된 움직임에 기초하여 전자 장치를 제어하는 단계를 포함할 수 있다.
Description
본 개시는 카메라 시야(FOV) 가장자리에서 움직임을 인식하여 전자 장치를 제어하는 방법 및 그 전자 장치에 관한 것이다.
최근 들어, 컴퓨터를 이용한 영상 처리 기술 및 화상 인식 기술의 발달에 따라 이를 이용한 다양한 응용 분야가 발전하고 있다. 이러한 다양한 응용 분야 중 제스처 인식 기술(gesture recognizing technology)은 정보 전달 수단의 하나의 방법으로써, 꾸준한 기술 개발이 진행되고 있다. 제스처 인식 기술은 컴퓨터 또는 로봇이 자율적으로 인간의 행동을 분석하고 인지하는 기술로서, 터치 제스처 기술 및 공간 제스처 기술을 포함할 수 있다. 구체적으로, 터치 제스처 기술은 터치 스크린과 같은 입력장치를 이용하여 항목을 선택할 수 있는 기술로서, 스마트 폰의 보급화와 더불어 그 사용이 증가하고 있다. 또한, 공간 제스처 기술은 카메라와 같은 입력 장치를 이용하여 트래킹 대상의 동작이 시간의 경과에 따라 어떻게 변화하는가를 분석하고, 그 변화를 추상적인 의미로 해석하는 기술이다. 이러한 제스처 인식 기술은 사용자의 의도를 보다 신속하고 정확하게 인식하는 것이 핵심적인 요소일 수 있다.
본 개시의 일 실시예는, '특징점 검출 및 추적 기법(feature point extraction and tracking)'을 이용함으로써, 객체의 적어도 일부분의 이미지가 획득되지 않는 카메라의 시야(Field of View, FOV) 가장자리에서도 객체의 움직임을 정확하게 인식할 수 있는 전자 장치 및 방법을 제공할 수 있다.
본 개시의 일 실시예는, 움직임의 형태 및 움직임의 주체가 되는 객체의 카메라의 시야 내의 위치에 기반하여, 서로 다른 제어 신호를 각각의 움직임에 할당함으로써, 객체의 시야 내 위치에 따라 서로 다른 제어 신호를 통해 전자 장치를 제어할 수 있고, 카메라의 시야 영역을 효율적으로 이용할 수 있는 전자 장치 및 방법을 제공할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서 개시된, 객체의 움직임을 인식하여 전자 장치를 제어하는 방법은, 상기 객체가 포함된 적어도 하나의 이미지를 획득하는 단계, 상기 획득된 적어도 하나의 이미지를 중심 영역과 가장자리 영역으로 분리하는 단계, 상기 가장자리 영역에 포함된 객체(object)의 적어도 하나의 특징점(feature point)을 검출하는 단계, 상기 검출된 적어도 하나의 특징점에 기초하여 상기 객체의 움직임을 인식하는 단계, 및 상기 인식된 움직임에 기초하여 상기 전자 장치를 제어하는 단계를 포함할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서 개시된, 다중 움직임(multi-movement)을 인식하여 전자 장치를 제어하는 방법은, 적어도 하나의 이미지를 획득하는 단계, 상기 획득된 적어도 하나의 이미지를 중심 영역과 가장자리 영역으로 분리하는 단계, 상기 중심 영역에 포함된 제1 객체의 움직임을 인식하는 단계, 상기 가장자리 영역에 포함된 제2 객체의 움직임을 인식하는 단계, 상기 제1 객체의 움직임 및 상기 제2 객체의 움직임에 기초하여 상기 전자 장치를 제어하는 단계를 포함할 수 있다. 상기 제2 객체의 움직임을 인식하는 단계는, 상기 제2 객체의 적어도 하나의 특징점(feature point)을 검출하는 단계, 및 상기 검출된 적어도 하나의 특징점에 기초하여 상기 제2 객체의 움직임을 인식하는 단계를 포함할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서 개시된, 객체의 움직임을 인식하여 제어 신호를 획득하는 전자 장치는, 이미지를 획득하는 카메라, 적어도 하나의 명령어(instruction)를 포함하는 프로그램을 저장하는 저장부, 및 상기 저장부에 저장된 적어도 하나의 명령어를 실행하는 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는, 상기 카메라를 제어함으로써 적어도 하나의 이미지를 획득하고, 상기 획득된 적어도 하나의 이미지를 중심 영역 및 가장자리 영역으로 분리하고, 상기 가장자리 영역에 포함된 객체의 적어도 하나의 특징점(feature point)을 검출하고, 상기 검출된 적어도 하나의 특징점에 기초하여 상기 객체의 움직임을 인식하고, 상기 인식된 움직임에 기초하여 제어 신호를 획득할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서 개시된, 다중 움직임(multi-movement)을 인식하여 제어 신호를 획득하는 전자 장치는, 카메라, 적어도 하나의 명령어(instruction)를 포함하는 프로그램을 저장하는 저장부, 및 상기 저장부에 저장된 적어도 하나의 명령어를 실행하는 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는, 상기 카메라를 제어함으로써 적어도 하나의 이미지를 획득하고, 상기 획득된 적어도 하나의 이미지를 중심 영역과 가장자리 영역으로 분리하고, 상기 중심 영역에 포함된 제1 객체의 움직임을 인식하고, 상기 가장자리 영역에 포함된 제2 객체의 움직임을 인식하고, 상기 제1 객체의 움직임 및 제2 객체의 움직임에 대응되는 제어 신호를 획득할 수 있다. 상기 프로세서는 상기 적어도 하나의 명령어들을 실행하여, 상기 제2 객체(object)의 적어도 하나의 특징점(feature point)을 검출하고, 상기 검출된 적어도 하나의 특징점에 기초하여 상기 제2 객체의 움직임을 인식할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 컴퓨터로 읽을 수 있는 기록매체는, 개시된 방법의 실시예들 중에서 적어도 하나를 컴퓨터에서 실행시키기 위한 프로그램이 저장된 것일 수 있다.
도 1은 본 개시의 일 실시예에 따른 전자 장치가 카메라 시야(Field of View, FOV) 가장자리 영역(Peripheral Zone, PZ)에서 움직임(movement)을 인식하는 방법의 개요도이다.
도 2는 본 개시의 일 실시예에 따른 전자 장치의 블록도이다.
도 3a는 본 개시의 일 실시예에 따른 객체의 움직임을 인식하여 전자 장치를 제어하는 방법의 흐름도이다.
도 3b는 본 개시의 일 실시예에 따른 객체의 움직임을 인식하여 전자 장치를 제어하는 방법의 흐름도이다.
도 4는 본 개시의 일 실시예에 따른 카메라의 시야(FOV) 및 대응되는 디스플레이의 화면을 설명하기 위한 도면이다.
도 5는 본 개시의 일 실시예에 따른 카메라의 시야(FOV) 내의 객체의 위치에 따른 디스플레이 화면상 객체 이미지의 위치를 설명하기 위한 도면이다.
도 6은 본 개시의 일 실시예에 따른 카메라의 시야(FOV) 내의 객체의 위치에 따른 디스플레이 화면상 객체 이미지의 위치를 설명하기 위한 도면이다.
도 7은 본 개시의 일 실시예에 따른 이미지 프레임을 중심부 이미지 및 에지부 이미지로 분리하는 동작을 설명하기 위한 도면이다.
도 8은 본 개시의 일 실시예에 따른 에지부 이미지로부터 움직임과 무관한 노이즈를 제거하는 동작을 설명하기 위한 도면이다.
도 9는 본 개시의 일 실시예에 따른 객체의 이미지로부터 적어도 하나의 특징점을 검출하는 동작을 설명하기 위한 도면이다.
도 10a 내지 10j는 본 개시의 다양한 실시예들에 따른 카메라 시야 가장자리 영역에 배치된 객체의 움직임에 대응되는 제어 신호를 설명하기 위한 도면이다.
도 11은 본 개시의 일 실시예에 따른 다중 움직임 인식 방법을 설명하기 위한 도면이다.
도 12는 본 개시의 일 실시예에 따른 카메라 시야 내의 다중 움직임(multi-movement)을 인식하여 전자 장치를 제어하는 방법의 흐름도이다.
도 13은 본 개시의 일 실시예에 따른 다중 움직임 인식 방법에서, 카메라 시야 중심 영역에 배치된 객체의 움직임을 인식하는 동작을 설명하기 위한 도면이다.
도 14는 본 개시의 일 실시예에 따른 다중 움직임에 대응되는 제어 신호를 설명하기 위한 도면이다.
본 개시의 일 실시예에서, 객체(object)의 움직임을 인식하여 전자 장치를 제어하는 방법이 제공될 수 있다. 방법은, 객체가 포함된 적어도 하나의 이미지를 획득하는 단계, 획득된 적어도 하나의 이미지를 중심 영역과 가장자리 영역으로 분리하는 단계, 가장자리 영역에 포함된 객체의 적어도 하나의 특징점(feature point)을 검출하는 단계, 검출된 적어도 하나의 특징점에 기초하여 객체의 움직임을 인식하는 단계, 및 인식된 움직임에 기초하여 전자 장치를 제어하는 단계를 포함할 수 있다.
일 실시예에서, 객체가 포함된 적어도 하나의 이미지를 획득하는 단계는, 복수의 이미지 프레임을 포함하는 이미지 시퀀스를 획득하는 단계를 포함하고, 획득된 적어도 하나의 이미지를 중심 영역과 가장자리 영역으로 분리하는 단계는, 획득된 이미지 시퀀스에 포함된 복수의 이미지 프레임을 각각 중심 영역과 가장자리 영역으로 분리하는 단계를 포함할 수 있다.
일 실시예에서, 획득된 적어도 하나의 이미지를 중심 영역과 가장자리 영역으로 분리하는 단계는, 적어도 하나의 이미지를 직사각형 그리드(rectangular grid) 형태로 분리하는 단계를 포함할 수 있다.
일 실시예에서, 중심 영역은 적어도 하나의 중심부 이미지(middle image)를 포함하고, 가장자리 영역은 적어도 하나의 에지부 이미지(edge image)를 포함할 수 있다.
일 실시예에서, 가장자리 영역에 포함된 객체의 적어도 하나의 특징점을 검출하는 단계는, 가장자리 영역에 포함된 에지부 이미지로부터 움직임의 주체가 되는 객체의 이미지를 획득하는 단계, 및 획득된 객체의 이미지로부터 적어도 하나의 특징점을 검출하는 단계를 포함할 수 있다.
일 실시예에서, 에지부 이미지로부터 움직임의 주체가 되는 객체의 이미지를 획득하는 단계는, 에지부 이미지로부터 제1 객체 이미지를 획득하는 단계, 중심부 이미지로부터 제2 객체 이미지를 획득하는 단계, 제2 객체 이미지를 이용하여 제1 객체 이미지를 검증하는 단계, 및 검증된 제1 객체 이미지를 움직임의 주체가 되는 객체의 이미지로 결정하는 단계를 포함할 수 있다.
일 실시예에서, 움직임의 주체가 되는 객체는 전자 장치를 사용하는 사용자의 손을 포함하고, 에지부 이미지로부터 움직임의 주체가 되는 객체의 이미지를 획득하는 단계는, 피부색 모델 기반 알고리즘(skin color model based algorithm)을 이용하여 에지부 이미지로부터 객체의 이미지를 획득하는 단계를 포함할 수 있다.
일 실시예에서, 획득된 객체의 이미지로부터 적어도 하나의 특징점을 검출하는 단계는, 객체의 이미지에 기초하여 에지부 이미지에서 움직임과 무관한 노이즈를 제거하는 단계, 및 노이즈가 제거된 에지부 이미지로부터 적어도 하나의 특징점을 검출하는 단계를 포함할 수 있다.
일 실시예에서, 이진화(binarization) 마스크를 이용해 노이즈를 제거할 수 있다.
일 실시예에서, 검출된 적어도 하나의 특징점에 기초하여 객체의 움직임을 인식하는 단계는, 검출된 적어도 하나의 특징점을 추적(tracking)하여 각각의 특징점들의 움직임을 결정하는 단계, 결정된 움직임으로부터 각각의 특징점들의 움직임 패턴을 분류(classifying)하는 단계, 및 분류된 움직임 패턴으로부터 객체의 움직임을 인식하는 단계를 포함할 수 있다.
일 실시예에서, 서포트 벡터 머신(support vector machine, SVM) 또는 순환 신경망(recurrent neural network, RNN)을 통해 움직임 패턴을 분류할 수 있다.
일 실시예에서, 인식된 움직임에 기초하여 전자 장치를 제어하는 단계는, 인식된 움직임에 대응되는 제어 신호를 획득하는 단계, 및 획득된 제어 신호에 기초하여 전자 장치를 제어하는 단계를 포함할 수 있다.
본 개시의 일 실시예에서, 다중 움직임(multi-movement)을 인식하여 전자 장치를 제어하는 방법이 제공될 수 있다. 방법은, 적어도 하나의 이미지를 획득하는 단계, 획득된 적어도 하나의 이미지를 중심 영역과 가장자리 영역으로 분리하는 단계, 중심 영역에 포함된 제1 객체의 움직임을 인식하는 단계, 가장자리 영역에 포함된 제2 객체의 움직임을 인식하는 단계, 및 제1 객체의 움직임 및 제2 객체의 움직임에 기초하여 전자 장치를 제어하는 단계를 포함할 수 있다. 제2 객체의 움직임을 인식하는 단계는, 제2 객체의 적어도 하나의 특징점(feature point)을 검출하는 단계, 및 검출된 적어도 하나의 특징점에 기초하여 제2 객체의 움직임을 인식하는 단계를 포함할 수 있다.
일 실시예에서, 제1 객체의 움직임 및 제2 객체의 움직임에 기초하여 전자 장치를 제어하는 단계는, 제1 객체의 움직임 및 제2 객체의 움직임을 조합하는 단계, 및 조합된 움직임에 기초하여 전자 장치를 제어하는 단계를 포함할 수 있다.
본 개시의 일 실시예에서, 객체(object)의 움직임을 인식하여 제어 신호를 획득하는 전자 장치가 제공될 수 있다. 전자 장치는, 이미지를 획득하는 카메라, 적어도 하나의 명령어(instruction)를 포함하는 프로그램을 저장하는 저장부, 및 저장부에 저장된 적어도 하나의 명령어를 실행하는 적어도 하나의 프로세서를 포함할 수 있다. 적어도 하나의 프로세서는, 카메라를 제어함으로써 적어도 하나의 이미지를 획득하고, 획득된 적어도 하나의 이미지를 중심 영역 및 가장자리 영역으로 분리하고, 가장자리 영역에 포함된 객체의 적어도 하나의 특징점(feature point)을 검출하고, 검출된 적어도 하나의 특징점에 기초하여 객체의 움직임을 인식하고, 인식된 움직임에 기초하여 제어 신호를 획득할 수 있다.
일 실시예에서, 중심 영역은 적어도 하나의 중심부 이미지(middle image)를 포함하고, 가장자리 영역은 적어도 하나의 에지부 이미지(edge image)를 포함할 수 있다.
일 실시예에서, 프로세서는 적어도 하나의 명령어들을 실행하여, 객체의 이미지에 기초하여 에지부 이미지에서 움직임과 무관한 노이즈를 제거하고, 노이즈가 제거된 에지부 이미지로부터 적어도 하나의 특징점을 검출할 수 있다.
일 실시예에서, 프로세서는 적어도 하나의 명령어들을 실행하여, 이진화(binarization) 마스크를 이용해, 에지부 이미지에서 움직임과 무관한 노이즈를 제거할 수 있다.
일 실시예에서, 프로세서는 적어도 하나의 명령어들을 실행하여, 검출된 적어도 하나의 특징점을 추적(tracking)하여 각각의 특징점들의 움직임을 결정하고, 결정된 움직임으로부터 각각의 특징점들의 움직임 패턴을 분류(classifying)하고, 분류된 움직임 패턴으로부터 객체의 움직임을 인식함으로써, 검출된 적어도 하나의 특징점에 기초하여 객체의 움직임을 인식할 수 있다.
본 개시의 일 실시예에서, 다중 움직임(multi-movement)을 인식하여 제어 신호를 획득하는 전자 장치가 제공될 수 있다. 전자 장치는, 카메라, 적어도 하나의 명령어(instruction)를 포함하는 프로그램을 저장하는 저장부, 및 저장부에 저장된 적어도 하나의 명령어를 실행하는 적어도 하나의 프로세서를 포함할 수 있다. 적어도 하나의 프로세서는, 카메라를 제어함으로써 적어도 하나의 이미지를 획득하고, 획득된 적어도 하나의 이미지를 중심 영역과 가장자리 영역으로 분리하고, 중심 영역에 포함된 제1 객체의 움직임을 인식하고, 가장자리 영역에 포함된 제2 객체의 움직임을 인식하고, 제1 객체의 움직임 및 제2 객체의 움직임에 대응되는 제어 신호를 획득할 수 있다. 프로세서는 적어도 하나의 명령어들을 실행하여, 제2 객체의 적어도 하나의 특징점(feature point)을 검출하고, 검출된 적어도 하나의 특징점에 기초하여 제2 객체의 움직임을 인식할 수 있다.
아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시의 실시예들에서 사용되는 용어는 본 개시의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 명세서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다.
본 개시 전체에서 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 본 명세서에 기재된 “...부”, “...모듈” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 명세서에서 사용된 표현 “~하도록 구성된(또는 설정된)(configured to)”은 상황에 따라, 예를 들면, “~에 적합한(suitable for)”, “~하는 능력을 가지는(having the capacity to)”, “~하도록 설계된(designed to)”, “~하도록 변경된(adapted to)”, “~하도록 만들어진(made to)”, 또는 “~를 할 수 있는(capable of)”과 바꾸어 사용될 수 있다. 용어 “~하도록 구성된(또는 설정된)”은 하드웨어적으로 “특별히 설계된(specifically designed to)” 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, “~하도록 구성된 시스템”이라는 표현은, 그 시스템이 다른 장치 또는 부품들과 함께 “~할 수 있는” 것을 의미할 수 있다. 예를 들면, 문구 “A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서”는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
본 개시에 따른 인공지능과 관련된 기능은 프로세서와 메모리를 통해 동작된다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.
기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.
인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.
본 개시에서 카메라의 ‘시야(Field of View, FOV)’는 카메라를 통해 촬영된 이미지 또는 영상의 영역을 의미한다. 시야는 시야각(FOV degree)으로 지칭될 수도 있다. 카메라를 통해 촬영된 이미지 또는 영상의 영역은, 곧 디스플레이 화면 범위(screen area) 내에 표시되는 이미지 또는 영상의 영역을 나타낼 수도 있다.
본 개시에서 ‘영상(video)’ 또는 ‘이미지 시퀀스(image sequence)’는 움직이는 화상 또는 동영상을 의미할 수 있다. 영상 또는 이미지 시퀀스는 시간적 선후관계를 가지는 일련의 정지 화상들을 포함할 수 있다.
본 개시에서 ‘영상의 프레임(video frame)’ 또는 ‘이미지(image)’는 디스플레이에 출력되는 정지 이미지의 낱장을 의미할 수 있다. 즉, 연속된 장면을 짧은 시간 간격으로 표시하여 움직이는 화상을 만들어내는 영상에 있어서, 각각의 장면의 낱장을 의미할 수 있다.
본 개시에서 ‘단안 카메라(monocular camera)’는 이미지 또는 영상을 촬영하기 위해 빛을 수신하는 부분이 단일한 카메라로써, 단일한 상을 획득하는 카메라를 의미한다. 단안 카메라를 이용해 촬영한 이미지 또는 영상은 2차원일 수 있다.
본 개시에서 ‘쌍안 카메라(binocular camera)’는 이미지 또는 영상을 촬영하기 위해 빛을 수신하는 부분이 2개인 카메라로써, 두 개의 상을 획득하는 카메라를 의미한다. 쌍안 카메라를 이용해 촬영한 이미지 또는 영상은 2차원 또는 3차원일 수 있다. 쌍안 카메라를 이용할 경우, 획득한 두 개의 상으로부터 객체까지의 거리를 계산할 수 있어, 3차원 영상을 획득할 수 있다.
본 개시에서 ‘특징점(keypoint, feature point)’은 영상 또는 이미지 내에서 주위 배경과 구분되면서 식별이 용이한 지점을 의미한다. 특징점은 영상에서 물체를 추적하거나 인식 할 때 이용될 수 있다. 예를 들어, 물체의 형태나 크기나 위치가 변해도 쉽게 식별이 가능한 점(point), 또는 카메라의 시점이나 조명이 변해도 쉽게 식별이 가능한 점(point)을 특징점으로 설정할 수 있다. 예를 들어, 객체 이미지의 코너점(comer point)이나 객체의 경계선 상에 위치하는 점들이 특징점이 될 수 있다.
본 개시에서 ‘제스처(gesture)’는 손, 발 등의 신체 일부 또는 특정한 물건과 같은 객체(object)의 움직임을 의미한다.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
도 1은 본 개시의 일 실시예에 따른 전자 장치(1000)가 카메라 시야(FOV) 가장자리 영역(PZ)에서 움직임(movement)을 인식하는 방법의 개요도이다.
전자 장치(1000)는 영상 또는 이미지 시퀀스를 획득하고, 출력 영상 또는 출력 이미지 시퀀스를 출력하는 장치일 수 있다. 전자 장치(1000)는 예를 들어, 스마트 폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 영상 전화기, 전자책 리더기(e-book reader), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), 워크스테이션(workstation), 서버, PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라(camera), 웨어러블 장치(wearable device), 증강 현실 장치(augmented reality device), 가전기기 및 기타 모바일 또는 비모바일 컴퓨팅 장치 중 적어도 하나로 구성될 수 있다.
증강 현실 장치는 증강 현실(augmented reality, AR)을 표현할 수 있는 장치로서, 일반적으로 사용자가 안면부에 착용하는 안경 형상의 증강 현실 안경 장치(augmented reality glasses), 두부에 착용하는 헤드 마운트 디스플레이 장치(head mounted display, HMD), 가상 현실 헤드셋(virtual reality headset, VRH), 또는 증강 현실 헬멧(augmented reality helmet) 등을 포함할 수 있다. 헤드 마운트형 장치의 경우, 사용자의 눈 앞에 디스플레이를 배치함으로써, 사용자에게 초대형 화면을 제공할 수 있고, 사용자의 움직임에 따라 화면이 움직이므로 사실적인 가상 세계를 제공할 수 있다.
한편, 전자 장치(1000)가 전술한 예시로 한정되는 것은 아니며, 전자 장치(1000)는 영상 등의 이미지 시퀀스를 획득하고 제어 신호에 따라 처리하여 출력하는 모든 종류의 기기를 포함할 수 있다.
도 1을 참조하면, 전자 장치(1000)는 내장된 카메라(1100)를 통해 영상 또는 이미지 시퀀스를 획득할 수 있고, 획득한 영상 또는 이미지 시퀀스로부터 제어 신호를 획득할 수 있다. 본 개시의 일 실시예에 따른 전자 장치(1000)는 카메라(1100)와 같은 입력 장치를 이용하여 추적 대상 객체(object, O)의 동작이 시간의 경과에 따라 어떻게 변화하는지를 분석하고, 그 변화를 통해 제어 신호를 획득할 수 있다. 즉, 일 실시예에 따른 전자 장치(1000)에는 공간 제스처 기술 또는 컴퓨터 비전 기술이 적용될 수 있다.
컴퓨터 비전(Computer vision) 기술이란 컴퓨터를 통해 인간의 시각을 구현하는 것을 의미한다. 즉, 컴퓨터 비전은 이미지로부터 정보를 추출하는 인공 지능 시스템에 관련될 수 있다. 이미지로부터 정보를 추출하는 동작은 예를 들어, 이미지 내의 물체의 종류, 크기, 방향 위치 등 3차원적 공간 정보를 실시간으로 알아내는 기술, 인간과 같이 사물을 판별하고 각각의 사물의 동작을 인식하는 기술, 또는 기계가 자신의 위치를 인식하는 기술 등을 포함할 수 있다. 또한, 컴퓨터 비전은 카메라, 에지 기반 또는 클라우드 기반 컴퓨팅, 소프트웨어, 및 인공지능(AI)을 결합하여 시스템이 사물을 확인하고 식별할 수 있도록 한다.
컴퓨터 비전 기술에서는 예를 들어, 손 동작의 인식을 위해 ‘손 골격 감지 및 추적(hand skeleton detection and tracking)’을 이용할 수 있다. 이 경우, 카메라(1100)로 촬영된 영상에 포함된 ‘손 이미지(OI)’로부터 손 골격 구조를 분석하고, 손 골격 구조를 데이터베이스와 비교하여 손의 움직임 즉, 제스처를 인식할 수 있다.
한편, ‘손 골격 감지 및 추적’을 통한 제스처(움직임) 인식은, 카메라(1100)를 통해 손의 온전한 모습이 촬영되는 경우에 용이하게 적용될 수 있다. 즉, 도 1과 같이 사용자(U)의 손(O)이 카메라(1100)의 시야(FOV)의 가장자리 영역(PZ)에 위치할 경우, 카메라(1100)를 통해 손(O)의 일부분만이 촬영될 수 있고, 이 경우, 촬영된 객체 이미지(OI)에 손의 골격이 전부 표현되지 않으므로, ‘손 골격 감지 및 추적’을 통한 제스처(움직임) 인식은 정확도가 매우 낮아진다.
제스처(움직임) 인식의 정확도를 높이기 위해서는, 우선 손(O)이 전부 카메라(1100)의 시야(FOV) 내에 들어오도록, 손(O)을 위치시키는 방법이 있다. 이는, 제스처(움직임)의 객체가 되는 손(O)을 카메라(1100)로부터 멀리 배치함으로써 달성될 수 있다. 한편, 제스처(움직임) 인식을 위해 손(O)을 카메라(1100)로부터 멀리 뻗는 경우, 사용자(U)는 그만큼의 에너지를 사용하게 되며, 팔의 근육이 쉽게 피로해 질 수 있는 문제가 있다.
예를 들어, 손 골격의 정교한 구조를 인식할 필요가 있는 경우, 즉, 복잡한 제어 신호에 대응되는 제스처(움직임)를 인식할 필요가 있는 경우에는, 인식의 정확성을 위해 손(O) 카메라(1100)로부터 멀리 배치하기 위해 에너지를 소비하여도 좋지만, 비교적 간단한 제어 신호를 통해 전자 장치(1000)를 제어할 경우에까지 항상 손(O)을 카메라(1100)로부터 멀리 뻗어야 하는 것은 비 효율적일 수 있다.
이에 따라, 본 개시의 일 실시예에 따른 전자 장치(1000)에서는, 카메라(1100)의 시야(FOV)를 중심 영역(MZ)과 가장자리 영역(PZ)으로 분리하여, 중심 영역(MZ)에서는 손 골격 감지 및 추적 기술을 통해 제스처(움직임)를 인식하고, 가장자리 영역(PZ)에서는 특징점(feature point) 검출 방법을 이용하여 제스처(움직임)를 인식할 수 있도록 한다. 일 실시예에서, 가장자리 영역(PZ)에서 인식된 제스처(움직임)에는 비교적 간단한 제어 신호가 대응되도록 설정할 수 있다.
다시 도 1을 참조하면, 일 실시예에서, 카메라(1100)의 시야(Field of View, FOV)는 중심 영역(Middle Zone, MZ) 및 중심 영역(MZ)의 외곽으로 배치된 가장자리 영역(Peripheral Zone, PZ)을 포함할 수 있다. 카메라(1100)를 통해 획득된 영상 또는 이미지는 전자 장치(1000)에 포함된 디스플레이(1710)를 통해 출력될 수 있다. 예를 들어, 카메라(1100)의 시야(FOV)의 가장자리 영역(PZ)에서 획득된 영상은 디스플레이(1710) 화면 범위의 외곽에 배치된 에지부 이미지(EI)로 표시될 수 있고, 카메라(1100)의 시야(FOV)의 중심 영역(MZ)에서 획득된 영상은 디스플레이(1710) 화면 범위의 중심 부분에 배치된 중심부 이미지(MI)로 표시될 수 있다. 이하, 디스플레이(1710) 화면 범위에 표시된 에지부 이미지(EI)는 대응되는 가장자리 영역(PZ)으로, 중심부 이미지(MI)는 대응되는 중심 영역(MZ)으로 지칭될 수도 있다.
일 실시예에서, 카메라(1100)의 시야(FOV) 가장자리 영역(PZ)에 위치하는 사용자(U)의 손(O)을 촬영할 경우, 촬영된 손의 이미지(객체 이미지, object image, OI)는 디스플레이(1710)에서, 에지부 이미지(EI)로 출력될 수 있다. 본 개시의 일 실시예에 따른 전자 장치(1000)는, 카메라(1100)의 시야(FOV) 가장자리 영역(PZ)에서 촬영된 손의 이미지(OI)로부터 특징점(feature point) 검출 방법을 이용하여 제스처(움직임)를 인식할 수 있고, 인식된 제스처(움직임)에 대응되는 비교적 간단한 제어 신호를 획득할 수 있다.
도 2는 본 개시의 일 실시예에 따른 전자 장치(1000)의 블록도이다.
도 2를 참조하면, 전자 장치(1000)는 카메라(1100), 프로세서(1300), 저장부(1500), 및 출력부(1700)를 포함할 수 있다. 도 2에 도시된 구성 요소 모두가 전자 장치(1000)의 필수 구성 요소인 것은 아니다. 도 2에 도시된 구성 요소보다 많은 구성 요소들에 의해 전자 장치(1000)가 구현될 수도 있고, 도 2에 도시된 구성 요소보다 적은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있다.
카메라(1100)는 영상, 이미지, 또는 이미지 시퀀스를 획득할 수 있다. 일 실시예에서, 카메라(1100)는 시각적 이미지를 획득하는 녹화부 및 청각적 음향을 획득하는 녹음부를 포함할 수 있다. 일 실시예에서, 카메라(1100)는 녹화부 및 녹음부로 물리적으로 분리되지 않는 단일한 구성일 수도 있다. 카메라(1100)는, 예를 들어, 단안(monocular) 카메라, 쌍안(binocular) 카메라, 또는 적외선 카메라 중 적어도 하나를 포함할 수 있다.
출력부(1700)는 출력 영상을 외부로 출력할 수 있다. 출력부(1700)는 디스플레이(1710) 및 오디오 출력부(1720)를 포함할 수 있다.
디스플레이(1710)는 시각적 이미지를 외부로 표시하여 출력할 수 있다. 예를 들어, 디스플레이(1710)는 이미지 시퀀스를 외부로 출력할 수 있다. 일 실시예에서, 디스플레이(1710)는 패널(panel)을 포함할 수 있다. 디스플레이(1710)는 예를 들어, 액정 디스플레이(liquid crystal display), 디지털 미러 표시 장치(digital mirror divice), 실리콘 액정 표시 장치(liquid crystal on silicon), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 마이크로 LED(micro LED), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나로 구성될 수 있다.
일 실시예에서, 전자 장치(1000)는 가상 현실을 제공하는 전자 장치일 수 있다. 이 때, 디스플레이(1710)가 액정 표시 장치, 디지털 미러 표시 장치 또는 실리콘 액정 표시 장치 중 하나로 이루어지는 경우, 전자 장치(1000)는 디스플레이의 화면 출력 영역으로 빛을 조사하는 광원을 더 포함할 수 있다. 일 실시예에서, 디스플레이가 자체적으로 빛을 발생시킬 수 있는 경우, 예를 들어, 유기 발광 다이오드 또는 마이크로 LED 중 하나로 이루어지는 경우, 전자 장치(1000)는 별도의 광원을 포함하지 않더라도 사용자에게 양호한 품질의 가상 영역을 제공할 수 있다. 디스플레이가 별도의 광원을 포함하지 않는 경우, 전자 장치(1000)는 경량화 될 수 있다.
오디오 출력부(1720)는 청각적 음향을 외부로 재생하여 출력할 수 있다. 일 실시예에서, 오디오 출력부(1720)는 스피커(speaker)를 포함할 수 있다. 오디오 출력부(1720)는 예를 들어, 단일한 스피커, 두 개 이상의 복수의 스피커, 모노 스피커(mono speaker), 스테레오 스피커(stereo speaker), 서라운드 스피커(surround speaker), 헤드셋(headset), 이어폰(earphone) 중에서 적어도 하나로 구성될 수 있다.
일 실시예에서, 출력부(1700)의 디스플레이(1710) 및 오디오 출력부(1720)는 물리적으로 분리되지 않는 단일한 구성일 수도 있다.
저장부(1500)는 전자 장치(1000)의 동작을 제어하기 위해 후술할 프로세서(1300)에 의해 실행될 프로그램을 저장할 수 있다. 저장부(1500)는 전자 장치(1000)의 동작을 제어하기 위한 적어도 하나의 명령어들(instructions)을 포함하는 프로그램을 저장할 수 있다. 저장부(1500)에는 프로세서(1300)가 판독할 수 있는 명령어들 및 프로그램 코드(program code)가 저장될 수 있다. 일 실시예에서, 프로세서(1300)는 저장부(1500)에 저장된 프로그램의 명령어들 또는 코드들을 실행하도록 구현될 수 있다. 저장부(1500)는 전자 장치(1000)로 입력되거나 전자 장치(1000)로부터 출력되는 데이터를 저장할 수 있다.
저장부(1500)는 예를 들어, 플래시 저장부(flash memory), 하드디스크(hard disk), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 저장부(예를 들어, SD 또는 XD 저장부 등), 램(RAM, Random Access Memory), SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 저장부, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장 매체를 포함할 수 있다.
저장부(1500)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있다. 예를 들어, 저장부(1500)는, 이미지 분리 모듈(1510), 객체 이미지 획득 모듈(1520), 노이즈 제거 모듈(1530), 특징점 검출 모듈(1540), 특징점 추적 모듈(1550), 움직임 패턴 분류 모듈(1560), 및 움직임 인식 모듈(1570)을 포함할 수 있다. 또한, 저장부(1500)는 인공지능 모델(1580), RNN(순환 신경망)(1585), 및 데이터베이스(1590)를 더 포함할 수 있다.
프로세서(1300)는, 전자 장치(1000)의 전반적인 동작을 제어할 수 있다. 예를 들어, 프로세서(1300)는 저장부(1500)에 저장된 프로그램들을 실행함으로써, 카메라(1100), 디스플레이(1710) 및 오디오 출력부(1720)를 포함하는 출력부(1700), 및 저장부(1500) 등을 전반적으로 제어할 수 있다.
프로세서(1300)는 산술, 로직 및 입출력 연산과 시그널 프로세싱을 수행하는 하드웨어 구성 요소로 구성될 수 있다. 프로세서(1300)는 예를 들어, 중앙 처리 장치(Central Processing Unit), 마이크로 프로세서(microprocessor), 그래픽 프로세서(Graphic Processing Unit), ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), 및 FPGAs(Field Programmable Gate Arrays) 중 적어도 하나로 구성될 수 있으나, 이에 제한되는 것은 아니다.
프로세서(1300)는, 저장부(1500)에 저장된 적어도 하나의 명령어들을 실행함으로써, 카메라(1100)를 통해 객체가 포함된 적어도 하나의 이미지를 획득하거나, 영상 또는 복수의 이미지 프레임을 포함하는 이미지 시퀀스(image sequence)를 획득할 수 있다. 영상은 시각적 데이터인 이미지 및 청각적 데이터인 음향을 포함할 수 있다.
프로세서(1300)는, 저장부(1500)에 저장된 프로그램들 중 이미지 분리 모듈(1510)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 획득된 적어도 하나의 이미지를 중심 영역과 가장자리 영역으로 분리하거나, 획득된 이미지 시퀀스에 포함된 복수의 이미지 프레임을 각각 적어도 하나의 중심부 이미지(middle image) 및 적어도 하나의 에지부 이미지(edge image)로 분리할 수 있다. 일 실시예에서, 중심 영역 또는 중심부 이미지에 포함된 객체는 전체로서 카메라(1100)의 시야(FOV) 범위 내에 위치하여, 디스플레이(1710) 상 객체의 이미지가 온전히 표시될 수 있다. 일 실시예에서, 가장자리 영역 또는 에지부 이미지에 포함된 객체는 일부만이 카메라(1100)의 시야(FOV) 범위 내에 위치하여, 디스플레이(1710) 상 객체의 이미지가 온전히 표시되지 않을 수 있다(일부만이 표시될 수 있다). 일 실시예에서, 중심 영역과 가장자리 영역으로 이미지를 분리하는 기준이나 중심부 이미지 및 에지부 이미지를 분리하는 기준은, 해당 객체의 이미지가 디스플레이(1710) 상 온전히, 또는 전체로서 포함되었다고 볼만큼 포함되는지 여부가 될 수 있다.
예를 들어, 특정 객체가 물리적으로 카메라(1100) 시야(FOV) 범위의 외곽에 위치하는 경우에도, 객체의 이미지가 온전히 디스플레이(1710) 상 표시되는 경우에는 해당 객체의 이미지는 중심 영역에 포함되고 중심부 이미지에 해당한다고 볼 수 있다. 또한, 예를 들어 특정 객체가 물리적으로 카메라(1100) 시야(FOV) 범위의 중심에 위치하는 경우에도, 객체의 이미지가 일부만이 디스플레이(1710) 상 표시되는 경우에는 해당 객체의 이미지는 가장자리 영역에 포함되고 에지부 이미지에 해당한다고 볼 수 있다. 이와 같이, 특정 객체 이미지의 물리적인 위치를 기준으로 에지부 이미지 또는 중심부 이미지를 판별하기 보다는, 해당 객체의 디스플레이(1710) 상 표시 형태를 기준으로 판별할 수 있다.
프로세서(1300)는, 저장부(1500)에 저장된 프로그램들 중 객체 이미지 획득 모듈(1520)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 분리된 에지부 이미지로부터 움직임의 주체가 되는 객체의 이미지를 획득할 수 있다. 이미지는 구분되지 않은 하나의 연속적인 화면으로 구성될 수 있다. 이러한 연속적인 화면에서 사용자의 손, 발 등의 신체 일부 또는 물건 각각의 오브젝트(object)를 분리할 수 있다. 분리된 각각의 오브젝트는 움직임의 주체가 될 수 있다. 일 실시예에서, 인공지능 모델(artificial intelligence model)(1580) 또는 이미지 파일들이 축적된 데이터베이스(1590)를 이용해 이미지로부터 적어도 하나의 객체 이미지를 획득할 수 있다.
일 실시예에서, 움직임의 주체가 되는 객체는, 전자 장치(1000)를 사용하는 사용자의 손을 포함할 수 있다. 이 경우, 프로세서(1300)는 피부색 모델 기반 알고리즘(skin color model based algorithm)을 이용하여 분리된 에지부 이미지로부터 움직임의 주체가 되는 사용자의 손 이미지를 획득할 수 있다.
일 실시예에서, 프로세서(1300)는, 저장부(1500)에 저장된 프로그램들 중 객체 이미지 획득 모듈(1520)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 에지부 이미지로부터 제1 객체 이미지를 획득하고, 중심부 이미지로부터 제2 객체 이미지를 획득할 수 있다. 나아가, 프로세서(1300)는, 저장부(1500)에 저장된 프로그램들 중 적어도 하나의 명령어들을 실행함으로써, 제2 객체 이미지를 이용하여 제1 객체 이미지를 검증할 수 있다.
예를 들어, 특정 객체의 이미지는, 이미지 시퀀스에 포함된 일련의 이미지 중 하나의 이미지에서는 에지부 이미지에 포함될 수 있고, 다른 하나의 이미지에서는 중심부 이미지에 포함될 수도 있다. 즉, 특정 객체의 이미지는, 특정 시점에서는 제2 객체 이미지가 될 수 있고, 다른 시점에서는 제1 객체 이미지가 될 수 있다. 이 경우, 프로세서(1300)는 두 시점에서 제1 객체 이미지 및 제2 객체 이미지를 획득하고, 객체의 이미지가 온전히 표시된 제2 객체 이미지를 이용하여, 제1 객체 이미지를 검증할 수 있다.
예를 들어, 하나의 이미지 내에 복수의 객체가 존재하는 경우, 적어도 하나의 객체 이미지는 중심부 이미지에 포함될 수 있고, 적어도 다른 하나의 객체 이미지는 에지부 이미지에 포함될 수 있다. 이 때, 하나의 이미지 내에서, 에지부 이미지에 포함된 객체 이미지는 제1 객체 이미지가 될 수 있고, 중심부 이미지에 포함된 객체 이미지는 제2 객체 이미지가 될 수 있다. 예를 들어, 사용자의 양 손이 객체가 되는 경우, 한 손은 중심부 이미지에 포함되고, 다른 한 손은 에지부 이미지에 포함될 수 있다. 이러한 경우, 중심부 이미지에 포함된 한 손의 이미지는 제2 객체 이미지가 되고, 에지부 이미지에 포함된 다른 한 손의 이미지는 제1 객체 이미지가 될 수 있다. 프로세서(1300)는 제2 객체 이미지의 색상 정보 등을 이용하여 제1 객체 이미지를 검증할 수 있다.
프로세서(1300)는, 저장부(1500)에 저장된 프로그램들 중 노이즈 제거 모듈(1530)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 객체의 이미지에 기초하여 가장자리 영역에 포함된 에지부 이미지에서 움직임과 무관한 노이즈를 제거할 수 있다. 에지부 이미지로부터 특징점을 검출하는 동작 이전에, 노이즈를 제거함으로써, 연산의 로드(load)를 줄이고, 움직임 인식의 정확도를 높일 수 있다. 일 실시예에서, 노이즈를 제거하는 동작에서는, 후술할 도 8에서와 같이 이진화(binarization) 마스크를 이용할 수 있다. 일 실시예에서, 에지부 이미지에서 움직임과 무관한 노이즈를 제거하기 위한 모델은 기 설정되어 데이터베이스에 저장되어 있을 수도 있다.
프로세서(1300)는, 저장부(1500)에 저장된 프로그램들 중 특징점 검출 모듈(1540)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 가장자리 영역에 포함된 객체의 적어도 하나의 특징점을 검출하거나, 에지부 이미지에 포함된 객체의 이미지로부터 적어도 하나의 특징점(feature point, key point, key feature)을 검출할 수 있다.
예를 들어, 특징점은 주위 배경과 구분되면서 식별이 용이한 지점(point), 즉, 객체의 테두리 부분으로 결정될 수 있다. 이 경우, 특징점의 픽셀은 주위 배경과 용이하게 구분되는 특성상, 주변 픽셀들과 픽셀 값의 차이가 클 수 있다. 이러한 특성을 이용하여, 에지부 이미지로부터 적어도 하나의 특징점을 검출할 수 있다. 한편, 에지부 이미지에 포함된 객체의 이미지로부터 적어도 하나의 특징점을 검출하는 방법은 전술한 방법에 제한되지 않으며, SIFT(Scale Invariant Feature Transform) 기법, Shi-Tomasi 특징점 검출법, Harris Corner 기법, FAST(Features from Accelerated Segment Test) 기법 등, 이미지 처리에서의 다양한 특징점 검출 기법들이 모두 적용될 수 있다.
프로세서(1300)는, 저장부(1500)에 저장된 프로그램들 중 특징점 추적 모듈(1550)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 이미지 시퀀스 상에서, 검출된 적어도 하나의 특징점을 추적(tracking)하여 각각의 특징점들의 움직임을 결정할 수 있다. 움직이는 이미지를 포함하는 영상에서, 움직임의 객체 이미지는 시간의 경과에 따라 변화할 수 있다. 일 실시예에서, 특징점 추적 모듈(1550)은 에지부 이미지(화면)를 분석하여, 각각의 특징점들이 움직이는 방향, 속도, 위치의 변화 등을 분석하고 특징점들에 대한 움직임 프로파일(profile)을 획득할 수 있다. 일 실시예에서, 획득한 움직임 프로파일은 후속 단계에서 특징점들의 움직임 패턴을 분류하고, 객체의 움직임을 인식하는 것에 이용될 수 있다.
프로세서(1300)는, 저장부(1500)에 저장된 프로그램들 중 움직임 패턴 분류 모듈(1560)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 추적된 각각의 특징점들로부터 결정된 움직임에 따라 움직임 패턴을 분류(classifying)할 수 있다. 일 실시예에서, 특징점의 종류 및 각각의 특징점의 움직임을 이용하여, 특정한 특징점의 움직임이 움직임의 일부인지 노이즈인지 분류할 수 있다. 예를 들어, 사용자의 신체 일부(예를 들어, 손의 일부)가 카메라(1100)의 시야(FOV) 가장자리 영역(PZ)에서 감지된 경우, 신체 일부가 촬영된 각도, 움직이는 속도, 방향 등으로부터 해당 움직임이 잘못 인식된 것인지(노이즈), 제어 신호를 발생시키기 위한 움직임에 해당하는지 분류할 수 있다.
일 실시예에서, 프로세서(1300)는, 서포트 벡터 머신(support vector machine, SVM) 또는 순환 신경망(recurrent neural network, RNN)을 통해, 결정된 움직임으로부터 각각의 특징점들의 움직임 패턴을 분류할 수 있다. 서포트 벡터 머신은 기계 학습 분야 중 하나로서, 패턴 인식, 자료 분석 등을 위한 지도 학습 모델이다. 서포트 벡터 머신은 주로 분류와 회귀 분석을 위해 사용될 수 있다. 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, SVM 알고리즘은 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할 지 판단하는 비 확률적 이진 선형 분류 모델을 생성할 수 있다. 생성된 분류 모델은 데이터가 사상된 공간에서 경계로 표현될 수 있고, SVM 알고리즘은 그 중 가장 큰 폭을 갖는 경계를 찾는 알고리즘이다. 프로세서(1300)는 이러한 SVM을 이용하여 각각의 특징점들의 움직임 패턴을 분류할 수 있다.
일 실시예에서, 프로세서(1300)는 저장부(1500)에 저장된 프로그램들 중 움직임 인식 모듈(1570)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 검출된 적어도 하나의 특징점에 기초하여 객체의 움직임을 인식하거나, 분류된 움직임 패턴으로부터 객체의 움직임을 인식할 수도 있다. 일 실시예에서, 움직임은 제어 신호에 대응될 수 있고, 프로세서(1300)는 인식된 움직임에 대응되는 제어 신호에 기초하여, 카메라(1100), 출력부(1700), 또는 저장부(1500) 중 적어도 하나를 제어할 수 있다.
저장부(1500)에 저장된 순환 신경망(Recurrent Neural Network, RNN)(1585)은 인공 신경망의 한 종류로서, 유닛 간의 연결이 순환적 구조를 갖는 특징을 가질 수 있다. 이러한 순환적 구조는 시변적 동적 특징을 모델링할 수 있도록 신경망 내부에 상태를 저장할 수 있게 해준다. 비순환 신경망과 달리, 순환 인공 신경망은 메모리를 이용해 시퀀스 형태의 입력을 처리할 수 있다. 따라서 순환 인공 신경망은 본 개시의 일 실시예의 움직임 패턴 분류나 움직임 인식과 같이 시변적 특징을 가지는 데이터를 처리하는데 이용될 수 있다.
저장부(1500)에 저장된 데이터베이스(1590)는 방대한 양의 데이터의 집합으로 구성될 수 있다. 일 실시예에서, 데이터베이스(1590)는 특정 움직임에 대응되는 제어 신호 정보를 포함할 수 있다. 일 실시예에서 데이터베이스(1590)는 인식된 움직임으로부터 제어 신호를 획득하는데 이용될 수 있다.
프로세서(1300)는, 저장부(1500)에 저장된 적어도 하나의 명령어들을 실행함으로써, 인식된 움직임에 대응되는 제어 신호에 기초하여, 카메라(1100), 출력부(1700), 또는 저장부(1500) 중 적어도 하나를 제어할 수 있다. 일 실시예에서, 에지부 이미지로부터 인식된 움직임은 ‘앞으로(next)/뒤로(prior)’, ‘위로(up)/아래로(down)’, ‘줌 인(zoom in)/줌 아웃(zoom out)’, ‘건너뛰기(skip)/선택(click)’, 또는 ‘취소(cancel)’와 같이 간단한 제어 신호에 대응될 수 있다. 일 실시예에서, 프로세서(1300)는, 중심부 이미지로부터 인식된 움직임에 대응되는 다소 복잡한 제어 신호 및 에지부 이미지로부터 인식된 움직임에 대응되는 다소 간단한 제어 신호에 기초하여 전자 장치(1000)를 제어할 수 있다.
도 3a는 본 개시의 일 실시예에 따른 객체의 움직임을 인식하여 전자 장치를 제어하는 방법의 흐름도이다.
단계 S310에서, 객체가 포함된 적어도 하나의 이미지를 획득할 수 있다. 이미지는 2차원 평면 위에 그려진 시각적 표현물을 의미할 수 있다. 일 실시예에서, 이미지는 카메라를 통해 획득할 수 있다. 예를 들어, 객체가 포함된 적어도 하나의 이미지를 획득하는 동작은, 복수의 이미지 프레임을 포함하는 이미지 시퀀스를 획득하는 동작을 포함할 수 있다.
단계 S320에서, 획득된 적어도 하나의 이미지를 중심 영역과 가장자리 영역으로 분리할 수 있다. 일 실시예에서, 획득된 적어도 하나의 이미지를 중심 영역과 가장자리 영역으로 분리하는 동작은 획득된 이미지 시퀀스에 포함된 복수의 이미지 프레임을 각각 중심 영역과 가장자리 영역으로 분리하는 동작을 포함할 수 있다. 일 실시예에서, 획득된 적어도 하나의 이미지를 중심 영역과 가장자리 영역으로 분리하는 동작은, 적어도 하나의 이미지를 직사각형 그리드(rectangular grid) 형태로 분리하는 동작을 포함할 수 있다. 예를 들어, 중심 영역은 적어도 하나의 중심부 이미지(middle image)를 포함하고, 가장자리 영역은 적어도 하나의 에지부 이미지(edge image)를 포함할 수 있다.
단계 S330에서, 가장자리 영역에 포함된 객체의 적어도 하나의 특징점을 검출할 수 있다. 일 실시예에서, 가장자리 영역에 포함된 객체의 적어도 하나의 특징점을 검출하는 동작은, 가장자리 영역에 포함된 에지부 이미지로부터 움직임의 주체가 되는 객체(object)의 이미지를 획득하고, 획득된 객체의 이미지로부터 적어도 하나의 특징점을 검출하는 동작을 포함할 수 있다. 이 때, 예를 들어, 에지부 이미지로부터 움직임의 주체가 되는 객체의 이미지를 획득하는 동작은, 에지부 이미지로부터 제1 객체 이미지를 획득하고, 중심부 이미지로부터 제2 객체 이미지를 획득하고, 제2 객체 이미지를 이용하여 제1 객체 이미지를 검증하고, 검증된 제1 객체 이미지를 움직임의 주체가 되는 객체의 이미지로 결정하는 동작을 포함할 수도 있다. 또한, 예를 들어, 움직임의 주체가 되는 객체가 전자 장치를 사용하는 사용자의 손을 포함하는 경우, 에지부 이미지로부터 움직임의 주체가 되는 객체의 이미지를 획득하는 동작은 피부색 모델 기반 알고리즘(skin color model based algorithm)을 이용하여 에지부 이미지로부터 객체의 이미지를 획득하는 동작을 포함할 수 있다. 일 실시예에서, 획득된 객체의 이미지로부터 적어도 하나의 특징점을 검출하는 동작은, 객체의 이미지에 기초하여 에지부 이미지에서 움직임과 무관한 노이즈를 제거하고, 노이즈가 제거된 에지부 이미지로부터 적어도 하나의 특징점을 검출하는 동작을 포함할 수 있다. 이 때, 노이즈 제거에는 이진화(binarization) 마스크가 이용될 수 있다.
단계 S340에서, 검출된 적어도 하나의 특징점에 기초하여 객체의 움직임을 인식할 수 있다. 일 실시예에서, 검출된 적어도 하나의 특징점에 기초하여 객체의 움직임을 인식하는 동작은, 검출된 적어도 하나의 특징점을 추적(tracking)하여 각각의 특징점들의 움직임을 결정하고, 각각의 특징점들의 움직임 패턴을 분류(classifying)하고, 객체의 움직임을 인식하는 동작을 포함할 수 있다. 이 때, 움직임 패턴의 분류에는 서포트 벡터 머신(support vector machine, SVM) 또는 순환 신경망(recurrent neural network, RNN)이 이용될 수 있다.
단계 S350에서, 인식된 움직임에 기초하여 전자 장치를 제어할 수 있다. 일 실시예에서, 인식된 움직임에 대응되는 제어 신호를 획득하고, 획득된 제어 신호에 기초하여 전자 장치를 제어할 수 있다.
도 3b는 본 개시의 일 실시예에 따른 객체의 움직임을 인식하여 전자 장치를 제어하는 방법의 흐름도이다.
단계 S315에서, 복수의 이미지 프레임을 포함하는 이미지 시퀀스, 예를 들어 영상을 획득할 수 있다. 이미지 시퀀스는 2차원 평면 위에 그려진 시청각적 표현물을 의미할 수 있다. 이미지 시퀀스는 움직이는 동영상을 의미할 수 있다. 일 실시예에서, 이미지 시퀀스는 카메라를 통해 획득할 수 있다. 일 실시예에서, 카메라는 단안(monocular) 카메라, 쌍안(binocular) 카메라, 또는 적외선 카메라 중 적어도 하나를 포함할 수 있다.
단계 S325에서, 복수의 이미지 프레임을 각각 적어도 하나의 중심부 이미지 및 적어도 하나의 에지부 이미지로 분리할 수 있다. 예를 들어, 중심부 이미지 및 에지부 이미지를 분리하는 기준은, 해당 객체가 카메라의 시야(FOV) 내에, 온전히, 또는 전체로서 포함되었다고 볼만큼 포함되었는지 여부가 될 수 있다. 일 실시예에서, 해당 객체가 카메라의 시야 내에 80% 이상이 포함되는 경우, 전체로서 포함되었다고 판단할 수 있다. 또 다른 실시예에서는, 해당 객체가 카메라의 시야 내에 90% 또는 95% 이상이 포함되는 경우 전체로서 포함되었다고 판단할 수 있다. 예를 들어, 객체가 사람의 손인 경우, 이미지 내에 손의 골격 구조(hand skeleton)가 전부 포함되어 손의 자세(posture)를 판단할 수 있는 경우, 그 손의 이미지는 중심부 이미지로 결정될 수 있다. 또한, 예를 들어, 이미지 내에 손의 골격 구조의 적어도 일부가 포함되지 않아 손의 자세를 판단할 수 없는 경우, 그 손의 이미지는 에지부 이미지로 결정될 수 있다.
일 실시예에서, 획득된 이미지 시퀀스에 포함된 복수의 이미지 프레임을 각각 적어도 하나의 중심부 이미지 및 적어도 하나의 에지부 이미지로 분리하는 동작은, 복수의 이미지 프레임을 각각 직사각형 그리드(rectangular grid) 형태로 분리하는 동작을 포함할 수 있다.
단계 S335에서, 에지부 이미지로부터 움직임의 주체가 되는 객체의 이미지를 획득할 수 있다. 예를 들어, 움직임의 주체가 되는 객체는, 사용자의 손일 수 있다. 이 경우, 피부색 모델 기반 알고리즘(skin color model based algorithm)을 이용하여, 에지부 이미지로부터 움직임의 주체가 되는 손 이미지를 획득할 수 있다. 일 실시예에서, 분리된 에지부 이미지로부터 움직임의 주체가 되는 객체의 이미지를 획득하는 동작은, 에지부 이미지로부터 제1 객체 이미지를 획득하고, 중심부 이미지로부터 제2 객체 이미지를 획득하고, 획득된 제2 객체 이미지를 이용하여 제1 객체 이미지를 검증하는 동작을 포함할 수 있다.
단계 S345에서, 획득된 객체의 이미지로부터 적어도 하나의 특징점을 검출할 수 있다. 예를 들어, 연속적인 시각적 데이터로 구성된 이미지로부터, 움직임의 주체가 될 수 있는 오브젝트(object)들을 분리할 수 있다. 일 실시예에서, 특징점은 주위 배경과 구분되면서 식별이 용이한 지점(point), 즉, 객체의 테두리 부분으로 결정될 수 있으나 이에 한정되는 것은 아니다. 특징점 검출에는, SIFT(Scale Invariant Feature Transform) 기법, Shi-Tomasi 특징점 검출법, Harris Corner 기법, FAST(Features from Accelerated Segment Test) 기법 등, 다양한 특징점 검출 기법들이 모두 적용될 수 있다.
일 실시예에서, 획득된 객체의 이미지로부터 적어도 하나의 특징점을 검출하는 동작은, 객체의 이미지에 기초하여 에지부 이미지에서 움직임과 무관한 노이즈를 제거하고, 노이즈가 제거된 에지부 이미지로부터 적어도 하나의 특징점을 검출하는 동작을 포함할 수 있다. 이 때, 노이즈를 제거하는 동작에서는, 이진화(binarization) 마스크를 이용할 수 있다.
단계 S355에서, 적어도 하나의 특징점을 추적하여 각각의 특징점들의 움직임을 결정할 수 있다. 일 실시예에서, 특징점의 움직임은, 객체 이미지의 화면 상에서의 변화를 통해 계산되고 추적될 수 있다. 예를 들어, 에지부 이미지(화면)를 분석하여, 검출된 각각의 특징점들이 움직이는 방향, 속도, 위치의 변화 등을 분석하고, 각각의 특징점들에 대한 움직임 프로파일(profile)을 획득할 수 있다.
단계 S365에서, 결정된 움직임으로부터 각각의 특징점들의 움직임 패턴을 분류할 수 있다. 일 실시예에서, 특징점의 종류 및 각각의 특징점의 움직임을 이용하여, 특정한 특징점의 움직임이 움직임의 일부인지 노이즈인지 분류할 수 있다. 예를 들어, 에지부 이미지에 복수의 객체에 대응하는 이미지가 포함된 경우, 각각의 특징점이 어떠한 객체에 대응되는지 분류하거나, 상태 변화가 크지 않은 특징점을 노이즈로 분류할 수 있다. 노이즈로 분류된 움직임 패턴은 움직임을 인식하는 후속 동작에서 제외될 수 있다. 일 실시예에서, 결정된 움직임으로부터 각각의 특징점들의 움직임 패턴을 분류하는 동작은, 서포트 벡터 머신(support vector machine, SVM) 또는 순환 신경망(recurrent neural network, RNN)을 이용할 수 있다.
단계 S375에서, 분류된 움직임 패턴으로부터 객체의 움직임을 인식할 수 있다. 일 실시예에서, 움직임은 단일할 수도 있고 복수일 수도 있다.
단계 S385에서, 인식된 움직임에 대응되는 제어 신호를 획득할 수 있다. 일 실시예에서, 복수의 움직임은 하나의 제어 신호에 대응될 수도 있고, 복수의 제어 신호에 대응될 수도 있다. 일 실시예에서, 에지부 이미지에서 획득된 객체의 이미지로부터 인식된 움직임에는 비교적 간단한 제어 신호가 대응될 수 있다. 간단한 제어 신호는 예를 들어, ‘앞으로(next)/뒤로(prior)’, ‘위로(up)/아래로(down)’, ‘줌 인(zoom in)/줌 아웃(zoom out)’, ‘건너뛰기(skip)/선택(click)’, 또는 ‘취소(cancel)’와 같은 전자 장치를 제어하는 신호일 수 있다.
단계 S395에서, 제어 신호에 기초하여 전자 장치를 제어할 수 있다. 예를 들어, 인식된 움직임에 대응되는 제어 신호에 기초하여, 전자 장치에 포함된 카메라, 디스플레이, 오디오 출력부, 또는 저장부 중 적어도 하나를 제어할 수 있다.
도 4는 본 개시의 일 실시예에 따른 카메라(1100)의 시야(FOV) 및 대응되는 디스플레이(1710)의 화면을 설명하기 위한 도면이다.
카메라(1100)의 시야(FOV)는 ‘시야가 닿는 영역’을 의미한다. 시야(FOV)는 시야각(degree of FOV, DFOV)으로 표현될 수 있다. 시야각(DFOV)은 수평 시야각(HFOV) 및 수직 시야각(VFOV)으로 구성될 수 있다. 수평 시야각(HFOV)은 카메라(1100)가 고정된 상태로 촬영할 수 있는 화면의 좌측 끝에서 우측 끝까지의 각도일 수 있다. 수직 시야각(VFOV)은 카메라(1100)가 고정된 상태로 촬영할 수 있는 화면의 위 끝에서 아래 끝까지의 각도일 수 있다. 시야각(DFOV)은 카메라(1100)가 고정된 상태로 촬영할 수 있는 화면의 상단 좌측 끝에서, 하단 우측 끝까지의 각도를 의미할 수 있다. 예를 들어, 시야각(DFOV)이 90도인 카메라(1100)는 전방 90도 영역을 이미지로 촬영할 수 있다.
카메라(1100)를 통해 촬영된 이미지 또는 영상은, 디스플레이(1710) 화면을 통해 표시될 수 있다. 예를 들어, 카메라(1100)의 시야(FOV)의 가장자리 영역(PZ)에서 촬영된 영상은 디스플레이(1710) 화면의 가장자리 영역(PZ)에서 표시될 수 있고, 카메라(1100)의 시야(FOV)의 중심 영역(MZ)에서 촬영된 영상은 디스플레이(1710) 화면의 중심 영역(MZ)에서 표시될 수 있다.
카메라(1100)의 시야각(DFOV)은 일정한 수치를 가질 수 있다. 따라서, 카메라(1100)가 촬영 가능한 면적은, 카메라(1100)로부터 거리가 멀수록 증가할 수 있고, 카메라(1100)로부터 거리가 가까울수록 감소할 수 있다. 따라서 카메라(1100)로부터 가까이 위치하는 물체는 디스플레이(1710) 화면 상 크게 표시될 수 있고, 카메라(1100)로부터 멀리 위치하는 물체는 디스플레이(1710) 화면 상 작게 표시될 수 있다. 예를 들어, 사용자가 카메라(1100) 또는 머리에 장착한 HMD를 통해 자신의 손을 촬영할 경우, 손의 모습이 전부 촬영되기 위해서는 카메라(1100) 또는 HMD로부터 손을 일정 간격 이상 멀리 배치할 필요가 있다.
한편, 카메라(1100)는 줌 인(zoom in) 또는 줌 아웃(zoom out) 동작을 수행할 수 있다. 줌 인 동작의 경우 카메라(1100)의 시야각(DFOV)을 좁히는 동작에 해당하고, 줌 아웃 동작의 경우 카메라(1100)의 시야각(DFOV)을 넓히는 동작에 해당할 수 있다. 카메라의 줌 인 및 줌 아웃은 최소 시야각(DFOV) 내지 최대 시야각(DFOV)의 범위 내에서 이루어질 수 있다.
도 5는 본 개시의 일 실시예에 따른 카메라의 시야(FOV) 내의 객체의 위치에 따른, 디스플레이 화면상 객체 이미지의 위치를 설명하기 위한 도면이다.
일 실시예에서, 사용자(U51, U52)는 자신의 손(O51, O52)을 전자 장치(1000)에 포함된 카메라를 통해 촬영할 수 있다. 이 때, 객체는 사용자(U51, U52)의 손(O51, O52)이 될 수 있다. 전자 장치(1000)에 포함된 카메라를 통해 촬영된 객체는 전자 장치(1000)에 포함된 디스플레이를 통해 실시간(realtime)으로 표시될 수 있다.
일 실시예에서, 사용자(U51)의 손(O51)은 카메라의 시야(FOV)의 중심 영역(MZ)에 위치할 수 있다. 이 때, 사용자(U51)의 손(O51)은 카메라의 시야(FOV) 범위 내에 모두 포함될 수 있으며, 카메라를 통해 촬영된 사용자(U51)의 손(O51)의 이미지는 대응되는 디스플레이 화면 상에서 온전히 표시될 수 있다. 이 경우, 손(O51)의 이미지는, 디스플레이 화면의 중심 영역(MZ)에 위치한다고 볼 수 있고, 중심부 이미지가 될 수 있다.
다른 실시예에서, 사용자(U52)의 손(O52)은 카메라의 시야(FOV)의 가장자리 영역(PZ)에 위치할 수 있다. 이 때, 사용자(U52)의 손(O52)의 적어도 일부는 카메라의 시야(FOV) 범위 밖에 위치할 수 있다. 즉, 사용자(U52)의 손(O52)이 전체로서 카메라의 시야(FOV) 범위 내에 포함되지 않을 수 있다. 카메라의 시야(FOV) 범위 밖에 위치하는 손(O52)의 부분은, 대응되는 디스플레이 화면 상에 표시되지 않는다. 따라서, 디스플레이 화면 상에 사용자(U52)의 손(O52)의 일부분만이 표시될 수 있다. 이 경우, 손(O52)의 이미지는, 디스플레이 화면의 가장자리 영역(PZ)에 위치한다고 볼 수 있고, 에지부 이미지가 될 수 있다.
한편, 일 실시예에서, 사용자(U51, U52)가 한 손에는 카메라를 포함하는 전자 장치(1000)를 들고, 다른 한 손(O51, O52)을 촬영할 수 있다. 앞서 도 4에서 설명한 바와 같이, 카메라가 촬영할 수 있는 면적은 카메라로부터 멀어질수록 넓어지고, 객체의 이미지는 카메라로부터 멀어질수록 작아진다. 따라서, 카메라를 포함하는 전자 장치(1000)를 들고 있는 손을 고정시킨 채로, 다른 한 손(O51, O52)을 촬영할 때, 다른 한 손(O51, O52)을 카메라로부터 멀리 뻗을수록 해당 손(O51, O52)이 카메라의 시야(FOV) 범위 내에 포함될 확률이 높아진다. 도 5를 참조하면, 사용자(U52)가 오른 손(O52)을 허리 옆에 붙일 경우 손(O52)의 일부분은 카메라의 시야(FOV)를 벗어나며, 사용자(U51)가 오른 손(O51)을 몸에서 멀어지는 방향으로 뻗을 경우 손(O51)의 전부가 카메라의 시야(FOV) 범위 내에 위치할 수 있다. 따라서, 손(O51)을 카메라의 시야(FOV) 중심 영역(MZ)에 위치시키는 것이 손(O52)을 카메라의 시야(FOV) 가장자리 영역(PZ)에 위치시키는 것에 비해 에너지가 많이 들 수 있다.
도 6은 본 개시의 일 실시예에 따른 카메라의 시야(FOV) 내의 객체의 위치에 따른 디스플레이 화면상 객체 이미지의 위치를 설명하기 위한 도면이다.
일 실시예에서, 사용자(U61, U62)는 자신의 손(O61, O62, O63, O64)을 전자 장치(1000)에 포함된 카메라를 통해 촬영할 수 있다. 이 때, 객체는 사용자(U61, U62)의 손(O61, O62, O63, O64)이 될 수 있다. 전자 장치(1000)에 포함된 카메라를 통해 촬영된 객체는 전자 장치(1000)에 포함된 디스플레이를 통해 실시간(realtime)으로 표시될 수 있다.
일 실시예에서, 전자 장치(1000)는 사용자(U61, U62)의 머리 부분에 착용되어, 사용자에게 증강 현실 서비스와 관련된 영상을 제공하는 VR(virtual reality) 장치를 포함할 수 있다. 일 실시예에서, 전자 장치(1000)는 사용자(U61, U62)의 시야(user field of view, uFOV)로 판단되는 영역에 적어도 하나의 가상 객체가 겹쳐 보이도록 출력하는 증강 현실 서비스를 제공할 수 있다. 예를 들어, 사용자(U61, U62)의 시야로 판단되는 영역은 전자 장치(1000)를 착용한 사용자(U61, U62)가 전자 장치(1000)를 통해 인지할 수 있다고 판단되는 영역으로, 전자 장치(1000)의 디스플레이의 전체 또는 적어도 일부를 포함하는 영역일 수 있다. 일 실시예에서, 전자 장치(1000)는 사용자의 양안 각각에 대응하는 복수개의 글라스를 포함할 수 있다. 예를 들어, 전자 장치(1000)는 안경(glass), 고글(goggles), 헬멧(helmet), 또는 모자 중 적어도 하나의 형태로 구성될 수 있으나, 이에 한정되는 것은 아니다.
일 실시예에서, 전자 장치(1000)는 디스플레이, 카메라, 오디오 출력부, 및 지지부를 포함할 수 있다.
카메라는 사용자(U61, U62)의 시야에 대응되는 영상을 촬영하거나 객체와의 거리를 측정할 수 있다. 일 실시예에서, 카메라는 사용자(U61, U62)의 시야에 대응되는 영상, 즉 사용자의 손의 움직임을 검출하거나, 공간 인식을 위해 사용되는 카메라 이외에 ‘ET(eye tracking) 카메라’를 더 포함할 수도 있다. 일 실시예에서, ET 카메라는 사용자(U61, U62)의 눈동자를 검출하고 추적하는 용도로 사용될 수 있다. ET 카메라는 가상 영상의 중심이 사용자(U61, U62)의 눈동자가 응시하는 방향에 따라 위치하도록 조절하기 위한 용도로 사용될 수 있다.
일 실시예에서 디스플레이를 통해 출력되는 가상 객체는 전자 장치(1000)에서 실행되는 애플리케이션 프로그램과 관련된 정보 또는 사용자(U61, U62)의 시야로 판단되는 영역에 대응하는 실제 공간에 위치한 외부 객체와 관련된 정보를 포함할 수 있다. 예를 들어, 전자 장치(1000)는 카메라를 통해 획득한 실제 공간과 관련된 영상 정보 중 사용자(U61, U62)의 시야로 판단되는 영역에 대응하는 적어도 일부에 포함되는 외부 객체를 확인할 수 잇다. 전자 장치(1000)는 적어도 일부에서 확인한 외부 객체와 관련된 가상 객체를 전자 장치(1000)의 표시 영역 중 사용자(U61, U62)의 시야로 판단되는 영역을 통해 출력할 수 있다. 외부 객체는 실제 공간에 존재하는 사물을 포함할 수 있다.
일 실시예에서, 디스플레이는 글라스에 집광 렌즈 또는 투명 도파관을 포함할 수 있다. 도파관 또는 도파로는 디스플레이의 광원에서 생성된 빛을 사용자(U61, U62)의 눈으로 전달할 수 있다. 예를 들어, 투명 도파관은 글라스의 일부에 적어도 부분적으로 위치할 수 있다. 일 실시예에 따르면, 디스플레이에서 방출된 광은 글라스의 일단으로 입광될 수 있고, 입광된 광이 글라스 내에 형성된 도파관 또는 도파로(waveguide)를 통해 사용자(U61, U62)에게 전달될 수 있다. 도파관은 유리, 플라스틱, 또는 폴리머로 제작될 수 있으며, 내부 또는 외부의 일 표면에 형성된 나노 패턴, 예를 들어, 다각형 또는 곡면 형상의 격자 구조(grating structure)를 포함할 수 있다. 일 실시예에서, 입광된 광은 나노 패턴에 의해 도파관 내부에서 전파 또는 반사되어 사용자(U61, U62)에게 제공될 수 있다. 일 실시예에서, 도파로(waveguide)는 적어도 하나의 회절요소(예를 들어, DOE(diffractive optical element), HOE(holographic optical element)) 또는 반사요소(예를 들어, 거울) 중 적어도 하나를 포함할 수 있다. 일 실시예에서, 도파로는 적어도 하나의 회절요소 또는 반사요소를 이용하여 광원부로부터 방출된 디스플레이 광을 사용자(U61, U62)의 눈으로 유도할 수 있다.
일 실시예에서, 디스플레이는 디스플레이 패널 또는 렌즈(예를 들어, 글라스)를 포함할 수 있다. 예를 들어, 디스플레이 패널은 유리 또는 플라스틱과 같은 투명한 재질을 포함할 수 있다. 일 실시예에서, 디스플레이는 투명 소자로 구성될 수 있고, 사용자(U61, U62)가 디스플레이를 투과하여, 디스플레이 후면의 실제 공간을 인지할 수도 있다. 디스플레이는 사용자(U61, U62)에게 실제 공간의 적어도 일부에 가상 객체가 덧붙여진 것으로 보여지도록 투명 소자의 적어도 일부 영역에 가상 객체를 표시할 수 있다.
일 실시예에서, 지지부는 전자 장치(1000)의 각 구성요소에 전기적 신호를 전달하기 위한 인쇄 회로 기판(printed circuit board, PCB), 오디오 신호를 출력하기 위한 스피커, 또는 전력을 공급하기 위한 배터리를 포함할 수 있다. 스피커는 사용자(U61, U62)의 좌측 귀에 오디오 신호를 전달하기 위한 제1 스피커 및 사용자(U61, U62)의 우측 귀에 오디오 신호를 전달하기 위한 제2 스피커를 포함할 수 있다. 일 실시예에서, 스피커는 도 2의 오디오 출력부(1720)에 포함될 수도 있다.
일 실시예에서, 사용자(U61)의 손들(O61, O62)은 카메라의 시야(FOV)의 중심 영역(MZ)에 위치할 수 있다. 이 때, 사용자(U61)의 손들(O61, O62)은 카메라의 시야(FOV) 범위 내에 모두 포함될 수 있으며, 카메라를 통해 촬영된 사용자(U61)의 손들(O61, O62)의 이미지는 대응되는 디스플레이 화면 상에서 온전히 표시될 수 있다. 이 경우, 손들(O61, O62)의 이미지는, 디스플레이 화면의 중심 영역(MZ)에 위치한다고 볼 수 있고, 중심부 이미지가 될 수 있다.
다른 실시예에서, 사용자(U62)의 손들(O63, O64)은 카메라의 시야(FOV)의 가장자리 영역(PZ)에 위치할 수 있다. 이 때, 사용자(U62)의 손들(O63, O64)의 적어도 일부는 카메라의 시야(FOV) 범위 밖에 위치할 수 있고, 즉, 사용자(U62)의 손들(O63, O64)이 전체로서 카메라의 시야(FOV) 범위 내에 포함되지 않을 수 있다. 카메라의 시야(FOV) 범위 밖에 위치하는 손들(O63, O64)의 각각 일부분은, 대응되는 디스플레이 화면 상에 표시되지 않는다. 따라서, 디스플레이 화면 상에 사용자(U62)의 손들(O63, O64) 각각의 일부분만이 표시될 수 있다. 이 경우, 손들(O63, O64)의 이미지는, 디스플레이 화면의 가장자리 영역(PZ)에 위치한다고 볼 수 있고, 에지부 이미지가 될 수 있다.
한편, 일 실시예에서, 사용자(U61, U62)가 머리에 카메라를 포함하는 전자 장치(1000)를 착용하고 자신의 양 손(O61, O62, O63, O64)을 촬영할 수 있다. 앞서 도 4에서 설명한 바와 같이, 카메라가 촬영할 수 있는 면적은 카메라로부터 멀어질수록 넓어지고, 객체의 이미지는 카메라로부터 멀어질수록 작아진다. 따라서, 머리에 착용한 카메라를 포함하는 전자 장치(1000)를 통해 양 손(O61, O62, O63, O64)을 촬영할 때, 양 손(O61, O62, O63, O64)을 카메라로부터 멀리 뻗을수록 해당 손들(O61, O62, O63, O64)이 카메라의 시야(FOV) 범위 내에 포함될 확률이 높아진다. 도 6을 참조하면, 사용자(U62)가 양 손(O63, O64)을 허리 옆에 편안히 붙일 경우 양 손(O63, O64) 각각의 일부분은 카메라의 시야(FOV)를 벗어나며, 사용자(U61)가 양 손(O61, O62)을 몸에서 멀어지는 방향으로 뻗을 경우 양 손(O61, O62)의 전부가 카메라의 시야(FOV) 범위 내에 위치할 수 있다. 따라서, 양 손(O61, O62)을 카메라의 시야(FOV) 중심 영역(MZ)에 위치시키는 것이 양 손(O63, O64)을 카메라의 시야(FOV) 가장자리 영역(PZ)에 위치시키는 것에 비해 에너지가 많이 들 수 있다.
도 7은 본 개시의 일 실시예에 따른 이미지 프레임을 중심부 이미지(MI) 및 에지부 이미지(EI)로 분리하는 동작을 설명하기 위한 도면이다.
일 실시예에서, 이미지를 중심 영역과 가장자리 영역으로 분리하거나, 이미지 시퀀스에 포함된 복수의 이미지 프레임을 각각 적어도 하나의 중심부 이미지(MI) 및 적어도 하나의 에지부 이미지(EI)로 분리하는 동작은, 적어도 하나의 이미지 또는 복수의 이미지 프레임을 각각 직사각형 그리드(rectangular grid) 형태로 분리하는 동작을 포함할 수 있다. 도 7을 참조하면, 직사각형 그리드 형태로 분리된 각각의 영역은, 중심부 이미지(MI) 및 에지부 이미지(EI)로 분류될 수 있다. 예를 들어, 그리드 형태로 분리된 각각의 영역들 중 적어도 하나의 모서리가 디스플레이(1710) 화면의 외곽에 접하는 영역들은 에지부 이미지(EI)가 될 수 있다.
도 7을 참조하면, 객체의 이미지가 디스플레이(1710) 화면 외곽과 접하는 그리드 및 중심부 그리드에 거쳐 표시될 수 있다. 이 경우, 객체의 이미지가 온전히 표시되었는지 여부에 따라, 객체의 이미지를 포함하는 그리드들이 중심부 이미지(MI)에 속하는지 에지부 이미지(EI)에 속하는지 여부를 결정할 수 있다.
예를 들어, 도 7을 참조하면 객체는 손이고, 손의 이미지가 손 골격(hand skeleton)을 모두 포함할 수 있다. 이 때, 손 이미지는 중심부 이미지가 될 수 있고, 손 이미지를 포함하는 모든 그리드는 중심부 이미지(MI)로 결정될 수 있다.
일 실시예에서, 손의 이미지가 손 골격(hand skeleton)의 적어도 일부를 포함하지 않을 수 있다. 이 때, 손은 카메라의 시야(FOV) 가장자리 영역(PZ)에 위치할 수 있고, 잘린 손의 이미지를 포함하는 모든 그리드는 에지부 이미지(EI)로 결정될 수도 있다.
한편, 이미지 프레임을 중심부 이미지(MI) 및 에지부 이미지(EI)로 분리하는 동작은 전술한 실시예에 한정되지 않는다.
도 8은 본 개시의 일 실시예에 따른 에지부 이미지로부터 움직임과 무관한 노이즈를 제거하는 동작을 설명하기 위한 도면이다.
일 실시예에서, 객체의 이미지로부터 적어도 하나의 특징점을 검출하는 동작은, 특징점을 검출하기에 앞서, 객체의 이미지에 기초하여, 이미지의 가장자리 영역에 포함된 에지부 이미지에서 움직임과 무관한 노이즈를 제거하는 동작을 더 포함할 수 있다. 일 실시예에서, 결정된 에지부 이미지(EI)는 객체 이미지(OI)뿐만 아니라, 배경 이미지를 더 포함할 수 있다. 도 8을 참조하면, 가장자리 영역(PZ)의 에지부 이미지는 객체 이미지(O8) 및 객체 이미지(O8) 이외의 이미지를 더 포함할 수 있다.
배경 이미지에 대한 특징점 검출은 객체의 움직임 인식에 필요하지 않을 뿐만 아니라, 배경 이미지에 대한 특징점 추적으로 인해 움직임 인식의 정확도가 낮아질 수도 있다. 따라서, 일 실시예에서, 특징점 검출에 앞서, 움직임과 무관한 배경 이미지를 노이즈로서 제거하는 동작을 더 포함할 수 있다.
일 실시예에서, 노이즈를 제거하는 동작은, 이진화(binarization) 마스크(BM)를 이용할 수 있다. 이미지 이진화(image binarization)는 이미지의 모든 픽셀을 흑과 백(0과 1)으로만 표현하는 영상을 의미한다. 이진화 동작은, 기 설정된 임계 값보다 낮은 값을 가지는 픽셀은 흑(0)으로, 기 설정된 임계 값보다 높은 값을 가지는 픽셀은 백(1)으로 변경하는 동작을 의미한다. 따라서, 이진화 동작이 적용된 이진화 마스크(BM)는 이미지 내에 포함된 물체를 검출하는데 이용될 수 있다.
도 8을 참조하면, 일 실시예에서, 객체 이미지(O8)에 대응되는 임계 값을 설정하고, 설정된 임계 값을 갖는 이진화 마스크(BM)를 생성하고, 생성된 이진화 마스크를 에지부 이미지에 적용함으로써, 객체 이미지(O8)에 해당하지 않는 노이즈를 제거할 수 있다. 한편, 에지부 이미지에서 노이즈를 제거하는 동작은, 전술한 이진화 마스크(BM)를 이용한 방법에 제한되는 것은 아니다.
도 9는 본 개시의 일 실시예에 따른 객체의 이미지(O9)로부터 적어도 하나의 특징점(FP)을 검출하는 동작을 설명하기 위한 도면이다.
특징점(FP)은 객체의 이미지(O9) 내에서 주위 배경과 구분되면서 식별이 용이한 지점이나, 객체의 이미지(O9)를 추적하기 용이한 지점을 의미할 수 있다. 특징점을 검출하는 방법은, SIFT(Scale Invariant Feature Transform) 기법, Shi-Tomasi 특징점 검출법, Harris Corner 기법, FAST(Features from Accelerated Segment Test) 기법 등, 이미지 처리에서의 다양한 특징점 검출 기법들이 적용될 수 있다. 도 9를 참조하면, 객체의 이미지(O9) 내에서 검출된 특징점(FP)은 손가락의 테두리 영역, 손톱의 경계선, 또는 손가락 내의 점이나 주름 등 추적이 용이한 지점에 위치할 수 있다. 검출된 특징점(FP)들은 이미지 시퀀스 내에서 객체의 시간에 따른 변화를 추적하는 동작에 이용될 수 있다. 예를 들어, 손의 특징점 검출은, 손 골격(hand skeleton) 검출과 달리, 손의 이미지의 일부만으로도 가능하여, 손의 전체적인 이미지가 요구되지 않는다.
도 10a 내지 10j는 본 개시의 다양한 실시예들에 따른 카메라 시야(FOV) 가장자리 영역(PZ)에 배치된 객체의 제스처(움직임)에 대응되는 제어 신호를 설명하기 위한 도면이다.
일 실시예에서, 에지부 이미지에 포함된 객체의 움직임으로부터 인식된 제스처(움직임)는, 전자 장치를 제어하는 제어 신호에 대응될 수 있다. 에지부 이미지에 포함된 객체는, 온전한 모습이 아닌 일부분에 대응되는 이미지로 표시될 수 있다. 따라서, 에지부 이미지로부터 인식된 움직임은, 중심부 이미지로부터 인식된 움직임에 비해 다소 간단한 제어 신호에 대응될 수 있다. 일 실시예에서, 에지부 이미지로부터 인식된 움직임은, 예를 들어, ‘앞으로(next)/뒤로(prior)’, ‘위로(up)/아래로(down)’, ‘줌 인(zoom in)/줌 아웃(zoom out)’, ‘건너뛰기(skip)/선택(click)’, 또는 ‘취소(cancel)’와 같이 간단한 제어 신호에 대응될 수 있다.
도 10a를 참조하면, 에지부 이미지에 포함된 객체 이미지(OA)로부터 ‘탭(tap) 제스처’가 인식될 수 있다. 예를 들어, ‘탭 제스처’는 화면 내에서 빠르게 나타났다가 사라지는 동작이거나, 빠르게 나타난 후 정지하는 동작일 수 있다. 일 실시예에서 ‘탭 제스처’는 클릭(click) 또는 엔터(enter) 제어 신호에 대응될 수 있다.
도 10b를 참조하면, 에지부 이미지에 포함된 객체 이미지(OB)로부터 오른쪽 일방으로 움직이는 ‘이전(prior) 제스처’가 인식될 수 있다. 예를 들어, ‘이전 제스처’는 화면 내에서 좌측에서 우측으로 이동하는 동작일 수 있다. 일 실시예에서 ‘이전 제스처’는 이전(prior) 또는 우측으로 넘기기(move right) 제어 신호에 대응될 수 있다.
도 10c를 참조하면, 에지부 이미지에 포함된 객체 이미지(OC)로부터 왼쪽 일방으로 움직이는 ‘다음(next) 제스처’가 인식될 수 있다. 예를 들어, ‘다음 제스처’는 화면 내에서 우측에서 좌측으로 이동하는 동작일 수 있다. 일 실시예에서 ‘다음 제스처’는 다음(next) 또는 좌측으로 넘기기(move left) 제어 신호에 대응될 수 있다.
도 10d를 참조하면, 에지부 이미지에 포함된 객체 이미지(OD)로부터 위쪽 일방으로 움직이는 ‘스크롤 업(scroll up) 제스처’가 인식될 수 있다. 예를 들어, ‘스크롤 업 제스처’는 화면 내에서 하측에서 상측으로 이동하는 동작일 수 있다. 일 실시예에서 ‘스크롤 업 제스처’는 다음(next), 스크롤 업(scroll up), 또는 상측으로 넘기기(move up) 제어 신호에 대응될 수 있다.
도 10e를 참조하면, 에지부 이미지에 포함된 객체 이미지(OE)로부터 아래쪽 일방으로 움직이는 ‘스크롤 다운(scroll down) 제스처’가 인식될 수 있다. 예를 들어, ‘스크롤 다운 제스처’는 화면 내에서 상측에서 하측으로 이동하는 동작일 수 있다. 일 실시예에서 ‘스크롤 다운 제스처’는 이전(prior), 스크롤 다운(scroll down), 또는 하측으로 넘기기(move down) 제어 신호에 대응될 수 있다.
도 10f를 참조하면, 에지부 이미지에 포함된 객체 이미지(OF)로부터 손가락을 펴는 ‘줌 인(zoon in) 제스처’가 인식될 수 있다. 예를 들어, ‘줌 인 제스처’는 화면 내에서 두 개의 손가락이 서로 멀어지는 방향으로 이동하는 동작일 수 있다. 일 실시예에서 ‘줌 인 제스처’는 줌 인(zoom in), 또는 보내기(send) 제어 신호에 대응될 수 있다.
도 10g를 참조하면, 에지부 이미지에 포함된 객체 이미지(OG)로부터 손가락을 오므리는 ‘줌 아웃(zoom out) 제스처’가 인식될 수 있다. 예를 들어, ‘줌 아웃 제스처’는 화면 내에서 두 개의 손가락이 서로 가까워지는 방향으로 이동하는 동작일 수 있다. 일 실시예에서 ‘줌 아웃 제스처’는 줌 아웃(zoom out), 음소거(mute), 가져오기(bring), 선택(select), 또는 클릭(click) 제어 신호에 대응될 수 있다. 일 실시예에서, 움직임의 속도에 따라 서로 다른 제어 신호에 대응될 수도 있다. 예를 들어, 줌 아웃 제스처의 속도가 기 설정된 값보다 빠른 경우, 클릭, 선택, 또는 음소거 제어 신호에 대응되도록 설정될 수 있으며, 줌 아웃 제스처의 속도가 기 설정된 값보다 느린 경우 줌 아웃 또는 가져오기 제어 신호에 대응되도록 설정될 수 있다.
도 10h를 참조하면, 에지부 이미지에 포함된 객체 이미지(OH)로부터 수평방향으로 움직이는 ‘삭제(delete) 제스처’가 인식될 수 있다. 예를 들어, ‘삭제 제스처’는 화면 내에서 우측에서 좌측으로, 좌측에서 우측으로 번갈아 이동하는 동작일 수 있다. 일 실시예에서 ‘삭제 제스처’는 지우기(erase), 또는 삭제(delete) 제어 신호에 대응될 수 있다.
도 10i를 참조하면, 에지부 이미지에 포함된 객체 이미지(OJ)로부터 수직방향으로 움직이는 ‘삭제(delete) 제스처’가 인식될 수 있다. 예를 들어, ‘삭제 제스처’는 화면 내에서 하측에서 상측으로, 상측에서 하측으로 번갈아 이동하는 동작일 수 있다. 일 실시예에서 ‘삭제 제스처’는 지우기(erase), 또는 삭제(delete) 제어 신호에 대응될 수 있다.
도 10j를 참조하면, 에지부 이미지에 포함된 객체 이미지들(OK1, OK2)로부터 ‘회전(rotate) 제스처’가 인식될 수 있다. 예를 들어, ‘회전 제스처’는 화면 내에 포함된 두 개의 객체 이미지들(OK1, OK2)로부터 인식될 수 있다. 예를 들어, ‘회전 제스처’는, 제1 객체 이미지(OK1)가 화면 좌측 가장자리 영역(PZ)에서 하측에서 상측으로 이동하고, 제2 객체 이미지(OK2)가 화면 우측 가장자리 영역(PZ)에서 상측에서 하측으로 이동하는 경우 인식될 수 있다. 일 실시예에서 ‘회전 제스처’는 화면 회전(rotate) 제어 신호에 대응될 수 있다.
도 11은 본 개시의 일 실시예에 따른 다중 움직임(multi-movement) 인식 방법을 설명하기 위한 도면이다.
다중 움직임이 포함된 경우란, 이미지 또는 이미지 시퀀스 내에 복수의 객체로 인한 복수의 움직임이 포함된 경우를 의미한다. 다중 움직임이 포함된 경우는, 안경 또는 HMD의 가상 현실 제공 장치를 이용하는 경우나, 전자 장치를 거치대에 고정시켜 놓은 상태로 사용하는 경우 등, 사용자의 두 손이 자유로운 경우에 발생할 수 있으나, 이러한 예시에 제한되는 것은 아니다. 다중 움직임이 포함된 경우에는, 예를 들어, 이미지 시퀀스의 하나의 이미지 내에 복수의 객체(O1, O2)가 존재하고, 각각의 객체(O1, O2)가 서로 다른 움직임을 가질 수 있다. 이 때, 각각의 객체(O1, O2)의 움직임이 서로 다른 제스처가 될 수 있다.
일 실시예에서, 적어도 하나의 객체 이미지가 중심부 이미지에 포함될 수 있고, 적어도 다른 하나의 객체 이미지가 에지부 이미지에 포함될 수 있다. 이 때, 하나의 이미지 내에서, 중심부 이미지에 포함된 객체의 이미지는 제1 객체(O1)의 이미지일 수 있고, 에지부 이미지에 포함된 객체의 이미지는 제2 객체(O2)의 이미지가 될 수 있다.
도 11을 참조하면, 사용자의 양 손이 객체가 되는 경우, 한 손은 그 이미지가 중심부 이미지에 포함된 제1 객체(O1)가 되고, 다른 한 손은 그 이미지가 에지부 이미지에 포함된 제2 객체(O2)가 될 수 있다. 제1 객체(O1)의 제스처는 제1 움직임이 될 수 있고, 제2 객체(O2)의 제스처는 제2 움직임이 될 수 있다. 일 실시예에서, 적어도 하나의 제1 움직임 및 적어도 하나의 제2 움직임과, 전자 장치의 제어 신호는 각각 일대일, 다대일, 또는 다대다 매칭될 수 있다. 예를 들어, 도 11을 참조하면, 제1 객체(O1)의 제1 움직임 및 제2 객체(O2)의 제2 움직임은 하나의 제어 신호에 대응될 수도 있고, 제1 움직임 및 제2 움직임은 각각 서로 다른 제어 신호에 대응될 수도 있다.
도 12는 본 개시의 일 실시예에 따른 카메라 시야 내의 다중 움직임(multi-movement)을 인식하여 전자 장치를 제어하는 방법의 흐름도이다.
본 개시의 일 실시예에 따른 다중 움직임(multi-movement)을 인식하여 전자 장치를 제어하는 방법은, 적어도 하나의 이미지를 획득하는 단계, 획득된 적어도 하나의 이미지를 중심 영역과 가장자리 영역으로 분리하는 단계, 중심 영역에 포함된 제1 객체의 움직임을 인식하는 단계, 가장자리 영역에 포함된 제2 객체의 움직임을 인식하는 단계, 제1 객체의 움직임 및 제2 객체의 움직임에 기초하여 전자 장치를 제어하는 단계를 포함할 수 있다. 이 때, 제2 객체의 움직임을 인식하는 단계는, 제2 객체의 적어도 하나의 특징점(feature point)을 검출하는 단계, 및 검출된 적어도 하나의 특징점에 기초하여 제2 객체의 움직임을 인식하는 단계를 포함할 수 있다.
일 실시예에서, 제1 객체의 움직임 및 제2 객체의 움직임에 기초하여 전자 장치를 제어하는 단계는, 제1 객체의 움직임 및 제2 객체의 움직임을 조합(combine)하는 단계 및 조합된 움직임에 기초하여 전자 장치를 제어하는 단계를 포함할 수 있다.
도 12의 단계 S1200, S1210, S1222, S1232, S1242, S1252, S1262, S1280, 및 S1290은 각각 전술한 도 3b의 단계 S315, S325, S335, S345, S355, S365, S375, S385, 및 S395와 유사한 동작으로 수행될 수 있다.
일 실시예에서, 적어도 하나의 이미지를 획득하는 동작은, 복수의 이미지 프레임을 포함하는 이미지 시퀀스를 획득하는 동작을 포함할 수 있다. 일 실시예에서, 획득된 적어도 하나의 이미지를 중심 영역과 가장자리 영역으로 분리하는 동작은, 획득된 이미지 시퀀스에 포함된 복수의 이미지 프레임을 각각 중심 영역과 가장자리 영역으로 분리하는 동작을 포함할 수 있다. 예를 들어, 중심 영역은 적어도 하나의 중심부 이미지(middle image)를 포함하고, 가장자리 영역은 적어도 하나의 에지부 이미지(edge image)를 포함할 수 있다.
단계 S1200 및 단계 S1210에서는, 도 3b의 단계 S315 및 단계 S325와 유사하게 복수의 이미지 프레임을 포함하는 이미지 시퀀스를 획득하고, 복수의 이미지 프레임을 각각 적어도 하나의 중심부 이미지 및 적어도 하나의 에지부 이미지로 분리할 수 있다.
일 실시예에서, 중심 영역에 포함된 제1 객체의 움직임을 인식하고 가장자리 영역에 포함된 제2 객체의 움직임을 인식하는 동작은, 예를 들어, 적어도 하나의 중심부 이미지로부터 적어도 하나의 제1 움직임을 인식하고, 적어도 하나의 에지부 이미지로부터 적어도 하나의 제2 움직임을 인식하는 동작을 포함할 수 있다. 적어도 하나의 중심부 이미지로부터 적어도 하나의 제1 움직임을 인식하는 동작은, 단계 S1221, S1241, 및 S1261을 통해 수행될 수 있다. 적어도 하나의 에지부 이미지로부터 적어도 하나의 제2 움직임을 인식하는 동작은 단계 S1222, S1232, S1242, S1252, 및 S1262을 통해 수행될 수 있다.
단계 S1221, S1241, 및 S1261에서, 중심부 이미지로부터 적어도 하나의 제1 움직임을 인식하는 동작, 즉, 중심 영역에 포함된 제1 객체의 움직임을 인식하는 동작은, 분리된 중심부 이미지로부터 제1 움직임의 주체가 되는 제1 객체의 이미지를 획득하고, 제1 객체의 움직임을 결정하고, 결정된 제1 객체의 움직임으로부터 제1 움직임을 인식하는 동작을 포함할 수 있다.
단계 S1221에서, 중심부 이미지로부터 제1 움직임의 주체가 되는 제1 객체의 이미지를 획득할 수 있다. 일 실시예에서, 제1 객체의 이미지를 획득하는 동작은 인공 신경망(neural network, NN), 또는 데이터베이스(database, DB)를 이용할 수 있다.
단계 S1241에서, 제1 객체의 움직임을 결정할 수 있다. 일 실시예에서, 제1 객체의 움직임을 결정하는 동작에는 인공지능 모델(AI model), 순환 신경망(RNN), 또는 데이터베이스(DB)가 이용될 수 있다. 예를 들어, 제1 객체가 사람의 손에 해당하는 경우, 제1 객체의 움직임을 결정하는 동작에 ‘손 골격 감지 및 추적(hand skeleton detection and tracking)’기술을 이용할 수 있다.
손 골격 감지 및 추적 기술은, 사람의 손 이미지 상에서 움직이는 관절 부위를 탐지하여, 미리 정해진 골격(skeleton) 구조를 분할해서 투영해 주는 기술이다. 일 실시예에서, 사람의 손의 골격 구조는 각 손가락의 끝점(5개), 각 손가락의 관절점(5*3=15개), 및 손바닥 점(1개)을 포함할 수 있으나, 이에 한정되는 것은 아니다. 제1 객체의 움직임을 결정하기 위해 손 골격 감지 및 추적 기술을 이용하는 경우, 정확한 골격의 감지를 통해 정확한 골격 구조를 판단하는 것이 요구된다. 중심부 이미지에 포함되는 제1 객체의 이미지는, 객체의 이미지가 온전히 표시되는 경우로서, 골격 구조를 모두 포함할 수 있고, 따라서 자세(posture) 인식의 정확도가 높을 수 있다.
단계 S1261에서, 결정된 제1 객체의 움직임으로부터 제1 움직임을 인식할 수 있다. 일 실시예에서, 제1 움직임의 인식에는 이미지 학습된 데이터베이스가 이용될 수 있다.
단계 S1222, S1232, S1242, S1252, 및 S1262에서, 에지부 이미지로부터 적어도 하나의 제2 움직임을 인식하는 동작, 즉, 가장자리 영역에 포함된 제2 객체의 움직임을 인식하는 동작은, 분리된 에지부 이미지로부터 제2 움직임의 주체가 되는 제2 객체의 이미지를 획득하고, 제2 객체의 이미지로부터 적어도 하나의 특징점을 검출하고, 적어도 하나의 특징점을 추적하여 각각의 특징점들의 움직임을 결정하고, 결정된 움직임으로부터 각각의 특징점들의 움직임 패턴을 분류하고, 분류된 움직임 패턴으로부터 제2 객체의 제2 움직임을 인식하는 동작을 포함할 수 있다. 에지부 이미지로부터 적어도 하나의 제2 움직임을 인식하는 동작은 전술한 도 3b에서 구체적으로 설명하였으므로 상세한 설명은 생략하기로 한다.
단계 S1270, S1280, 및 S1290을 통해, 인식된 제1 객체의 움직임 및 제2 객체의 움직임에 기초하여 전자 장치를 제어할 수 있다. 예를 들어, 제1 객체의 움직임은 제1 움직임일 수 있고, 제2 객체의 움직임은 제2 움직임일 수 있다.
단계 S1270에서, 적어도 하나의 제1 움직임 및 적어도 하나의 제2 움직임을 조합할 수 있다. 일 실시예에서, 적어도 하나의 제1 움직임 및 적어도 하나의 제2 움직임들을 융합하여 단일한 융합 움직임을 생성하거나, 융합하지 않고 복수의 움직임을 포함하는 움직임 그룹을 생성할 수 있다.
일 실시예에서, 적어도 하나의 제1 움직임 및 적어도 하나의 제2 움직임을 조합하는 동작은, 규칙 기반 솔루션(rule based solution) 또는 멀티모달 융합(multimodal fusion)을 이용할 수 있다. 규칙 기반 솔루션은 인공지능 모델의 일종이며, 멀티모달 융합은 인간의 제스처, 시선, 손의 움직임, 행동의 패턴, 음성, 물리적인 위치 등 인간의 자연스러운 행동들에 대한 정보를 해석하고 부호화하는 인지 기반 기술을 의미할 수 있다. 즉, 멀티모달 융합을 이용할 경우, 이미지 상의 복수의 객체를 복수의 모달리티(modality)에 대응시킬 수 있고, 복수의 객체는 서로 다른 제어 신호를 전자 장치에 인가하는 서로 다른 채널로 동작할 수 있다.
단계 1280에서, 인식된 움직임에 대응되는 제어 신호를 획득할 수 있다. 일 실시예에서, 적어도 하나의 제1 움직임 및 적어도 하나의 제2 움직임이 하나의 제어 신호에 대응될 경우, 해당 움직임들을 융합한 융합 움직임으로부터 대응되는 하나의 제어 신호를 획득할 수 있다. 일 실시예에서, 적어도 하나의 제1 움직임 및 적어도 하나의 제2 움직임이 각각 서로 다른 제어 신호들에 대응될 경우, 해당 움직임들을 포함하는 움직임 그룹으로부터 대응되는 복수의 제어 신호를 획득할 수 있다.
단계 S1290에서, 획득한 제어 신호에 기초하여 전자 장치를 제어할 수 있다. 일 실시예에서, 제어 신호에 기초하여 전자 장치의 카메라, 출력부, 저장부, 또는 프로세서 중 적어도 하나를 제어할 수 있다.
도 13은 본 개시의 일 실시예에 따른 다중 움직임 인식 방법에서, 카메라 시야(FOV) 중심 영역(MZ)에 배치된 제1 객체(O1)의 움직임을 인식하는 동작을 설명하기 위한 도면이다.
도 13을 참조하면, 일 실시예에서, 제1 객체(O1)는 카메라 시야(FOV)의 중심 영역(MZ)에 배치될 수 있다. 이 때, 제1 객체(O1)는 카메라 시야(FOV)에 모두 포함될 수 있으며, 디스플레이 화면의 이미지 범위 내에서 제1 객체(O1)의 이미지가 모두 포함될 수 있다. 따라서, 중심부 이미지로부터 제1 움직임의 주체가 되는 제1 객체(O1)의 이미지를 획득할 수 있다.
사람의 손에 해당하는 제1 객체(O1)의 움직임을 결정하기 위해서, 손 골격 감지 및 추적 기술이 이용될 수 있다. 도 13을 참조하면, 손 골격 구조(hand landmark, HL)는 손가락의 끝, 관절, 및 손바닥 부분에 각각 대응되는 22개의 구조점들을 포함할 수 있다. 일 실시예에서, 제1 객체(O1)의 움직임을 결정하기 위해, 제1 객체(O1)의 이미지 상에서 움직이는 관절 부위를 탐지하여 손 골격 구조(HL)와 매칭시킬 수 있다. 이후, 제1 객체(O1)의 이미지 상에서 매칭된 손 골격 구조(HL)의 구조점들을 추적함으로써, 제1 객체(O1)의 움직임을 결정할 수 있다. 일 실시예에서, 결정된 제1 객체(O1)의 움직임으로부터, 제1 움직임을 인식할 수 있다.
도 14는 본 개시의 일 실시예에 따른 다중 움직임에 대응되는 제어 신호를 설명하기 위한 도면이다.
일 실시예에서, 전자 장치(1000)는 카메라를 통해 획득한 실제 공간과 관련된 영상 정보에 기반하여 증강 현실 서비스와 관련된 가상 객체를 함께 표시할 수 있다. 예를 들어, 도 14를 참조하면, 전자 장치(1000)는 실제 공간과 관련된 영상 정보(사용자의 양 손(O1, O2) 및 배경 이미지)에 기반하여 ‘팝업 스크린’과 같은 가상 객체를 함께 표시할 수 있다.
일 실시예에서, 디스플레이(1710) 상에 중심부 이미지에 포함되는 제1 객체(O1) 및 에지부 이미지에 포함되는 제2 객체(O2)가 표시될 수 있다. 이 경우, 제1 객체(O1)의 이미지로부터 제1 움직임이 인식될 수 있고, 제2 객체(O2)의 이미지로부터 제2 움직임이 인식될 수 있다. 일 실시예에서, 중심부 이미지로부터 인식된 제1 움직임에는 다소 복잡한 제어 신호가 대응될 수 있다. 예를 들어, 도 14를 참조하면, 제1 객체(O1)의 움직임인 제1 움직임에는, ‘정보가 표시되는 영역’의 크기, 위치, 각도 등을 조절하는 제어 신호가 대응될 수 있다.
일 실시예에서, 에지부 이미지로부터 인식된 제2 움직임에는 다소 간단한 제어 신호가 대응될 수 있다. 예를 들어, 도 14를 참조하면, 제2 객체(O2)는 디스플레이(1710) 화면 영역에서 잘린 일부분만이 표시될 수 있고, 제2 객체(O2)의 움직임은 제2 움직임이 될 수 있다. 제2 움직임에 대응되는 제어 신호는, 제1 움직임을 통해 제어되는 ‘정보가 표시되는 영역’의 페이지를 넘기는 등의 간단한 제어 신호일 수 있다.
본 개시의 일 실시예에서는, ‘특징점 검출 및 추적 기법(feature point extraction and tracking)’을 이용함으로써, 객체의 적어도 일부분의 이미지가 획득되지 않는 카메라의 시야(FOV) 가장자리에서도 객체의 움직임을 정확하게 인식할 수 있다. 또한, 움직임의 형태 및 움직임의 주체가 되는 객체의 카메라의 시야(FOV) 내의 위치에 기반하여, 서로 다른 제어 신호를 각각의 움직임에 할당함으로써, 객체의 시야 내 위치에 따라 서로 다른 제어 신호를 통해 전자 장치를 제어할 수 있고, 카메라의 시야(FOV) 영역을 효율적으로 이용할 수 있다.
본 개시의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 또는 프로그램 모듈과 같은 변조된 데이터 신호의 기타 데이터를 포함할 수 있다.
또한, 컴퓨터에 의해 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.
Claims (15)
- 객체(object)의 움직임을 인식하여 전자 장치를 제어하는 방법에 있어서,상기 객체가 포함된 적어도 하나의 이미지를 획득하는 단계;상기 획득된 적어도 하나의 이미지를 중심 영역과 가장자리 영역으로 분리하는 단계;상기 가장자리 영역에 포함된 객체의 적어도 하나의 특징점(feature point)을 검출하는 단계;상기 검출된 적어도 하나의 특징점에 기초하여 상기 객체의 움직임을 인식하는 단계; 및상기 인식된 움직임에 기초하여 상기 전자 장치를 제어하는 단계;를 포함하는, 방법.
- 제1항에 있어서,상기 중심 영역은 적어도 하나의 중심부 이미지(middle image)를 포함하고, 상기 가장자리 영역은 적어도 하나의 에지부 이미지(edge image)를 포함하는, 방법.
- 제2항에 있어서,상기 가장자리 영역에 포함된 객체의 적어도 하나의 특징점을 검출하는 단계는,상기 가장자리 영역에 포함된 상기 에지부 이미지로부터 움직임의 주체가 되는 객체의 이미지를 획득하는 단계; 및상기 획득된 객체의 이미지로부터 적어도 하나의 특징점을 검출하는 단계를 포함하는, 방법.
- 제3항에 있어서, 상기 에지부 이미지로부터 움직임의 주체가 되는 객체의 이미지를 획득하는 단계는,상기 에지부 이미지로부터 제1 객체 이미지를 획득하는 단계;상기 중심부 이미지로부터 제2 객체 이미지를 획득하는 단계;상기 제2 객체 이미지를 이용하여, 상기 제1 객체 이미지를 검증하는 단계; 및상기 검증된 제1 객체 이미지를 움직임의 주체가 되는 객체의 이미지로 결정하는 단계를 포함하는, 방법.
- 제3항에 있어서, 상기 획득된 객체의 이미지로부터 적어도 하나의 특징점을 검출하는 단계는,상기 객체의 이미지에 기초하여, 에지부 이미지에서 움직임과 무관한 노이즈를 제거하는 단계; 및노이즈가 제거된 에지부 이미지로부터 상기 적어도 하나의 특징점을 검출하는 단계를 포함하는, 방법.
- 제5항에 있어서,이진화(binarization) 마스크를 이용해 상기 노이즈를 제거하는, 방법.
- 제1항에 있어서, 상기 검출된 적어도 하나의 특징점에 기초하여 상기 객체의 움직임을 인식하는 단계는,상기 검출된 적어도 하나의 특징점을 추적(tracking)하여 각각의 특징점들의 움직임을 결정하는 단계;상기 결정된 움직임으로부터 각각의 특징점들의 움직임 패턴을 분류(classifying)하는 단계; 및상기 분류된 움직임 패턴으로부터 상기 객체의 움직임을 인식하는 단계를 포함하는, 방법.
- 제1항에 있어서, 상기 인식된 움직임에 기초하여 상기 전자 장치를 제어하는 단계는,상기 인식된 움직임에 대응되는 제어 신호를 획득하는 단계; 및상기 획득된 제어 신호에 기초하여 상기 전자 장치를 제어하는 단계를 포함하는, 방법.
- 다중 움직임(multi-movement)을 인식하여 전자 장치를 제어하는 방법에 있어서,적어도 하나의 이미지를 획득하는 단계;상기 획득된 적어도 하나의 이미지를 중심 영역과 가장자리 영역으로 분리하는 단계;상기 중심 영역에 포함된 제1 객체의 움직임을 인식하는 단계;상기 가장자리 영역에 포함된 제2 객체의 움직임을 인식하는 단계; 및상기 제1 객체의 움직임 및 상기 제2 객체의 움직임에 기초하여 상기 전자 장치를 제어하는 단계를 포함하고,상기 제2 객체의 움직임을 인식하는 단계는,상기 제2 객체의 적어도 하나의 특징점(feature point)을 검출하는 단계; 및상기 검출된 적어도 하나의 특징점에 기초하여 상기 제2 객체의 움직임을 인식하는 단계;를 포함하는, 방법.
- 제9항에 있어서,상기 제1 객체의 움직임 및 상기 제2 객체의 움직임에 기초하여 상기 전자 장치를 제어하는 단계는,상기 제1 객체의 움직임 및 상기 제2 객체의 움직임을 조합하는 단계;상기 조합된 움직임에 기초하여 상기 전자 장치를 제어하는 단계를 포함하는, 방법.
- 객체(object)의 움직임을 인식하여 제어 신호를 획득하는 전자 장치에 있어서,이미지를 획득하는 카메라;적어도 하나의 명령어(instruction)를 포함하는 프로그램을 저장하는 저장부; 및상기 저장부에 저장된 적어도 하나의 명령어를 실행하는 적어도 하나의 프로세서를 포함하고,상기 적어도 하나의 프로세서는,상기 카메라를 제어함으로써 적어도 하나의 이미지를 획득하고,상기 획득된 적어도 하나의 이미지를 중심 영역 및 가장자리 영역으로 분리하고,상기 가장자리 영역에 포함된 객체의 적어도 하나의 특징점(feature point)을 검출하고,상기 검출된 적어도 하나의 특징점에 기초하여 상기 객체의 움직임을 인식하고,상기 인식된 움직임에 기초하여 제어 신호를 획득하는, 전자 장치.
- 제11항에 있어서,상기 중심 영역은 적어도 하나의 중심부 이미지(middle image)를 포함하고, 상기 가장자리 영역은 적어도 하나의 에지부 이미지(edge image)를 포함하는, 전자 장치.
- 제12항에 있어서,상기 프로세서는 상기 적어도 하나의 명령어들을 실행하여,상기 객체의 이미지에 기초하여, 에지부 이미지에서 움직임과 무관한 노이즈를 제거하고,노이즈가 제거된 에지부 이미지로부터 적어도 하나의 특징점을 검출하는, 전자 장치.
- 제13항에 있어서,상기 프로세서는 상기 적어도 하나의 명령어들을 실행하여,이진화(binarization) 마스크를 이용해, 상기 에지부 이미지에서 움직임과 무관한 상기 노이즈를 제거하는, 전자 장치.
- 제11항에 있어서,상기 프로세서는 상기 적어도 하나의 명령어들을 실행하여,상기 검출된 적어도 하나의 특징점을 추적(tracking)하여 각각의 특징점들의 움직임을 결정하고,상기 결정된 움직임으로부터 각각의 특징점들의 움직임 패턴을 분류(classifying)하고,상기 분류된 움직임 패턴으로부터 상기 객체의 움직임을 인식함으로써, 상기 검출된 적어도 하나의 특징점에 기초하여 상기 객체의 움직임을 인식하는, 전자 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/494,440 US20220159174A1 (en) | 2020-11-18 | 2021-10-05 | Method of controlling electronic device by recognizing movement in peripheral zone of field of view of camera, and electronic device therefor |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2020-0154796 | 2020-11-18 | ||
KR1020200154796A KR20220067964A (ko) | 2020-11-18 | 2020-11-18 | 카메라 시야(fov) 가장자리에서 움직임을 인식하여 전자 장치를 제어하는 방법 및 그 전자 장치 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US17/494,440 Continuation US20220159174A1 (en) | 2020-11-18 | 2021-10-05 | Method of controlling electronic device by recognizing movement in peripheral zone of field of view of camera, and electronic device therefor |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022108001A1 true WO2022108001A1 (ko) | 2022-05-27 |
Family
ID=81709255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2021/001359 WO2022108001A1 (ko) | 2020-11-18 | 2021-02-02 | 카메라 시야(fov) 가장자리에서 움직임을 인식하여 전자 장치를 제어하는 방법 및 그 전자 장치 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR20220067964A (ko) |
WO (1) | WO2022108001A1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024076202A1 (ko) * | 2022-10-07 | 2024-04-11 | 이철우 | 복수의 프레임 간 비교에 기반하여 반응형 영상을 생성하는 전자 장치 및 그 방법 |
KR20240117867A (ko) * | 2023-01-26 | 2024-08-02 | 삼성전자주식회사 | 카메라의 노출을 제어하는 전자 장치 및 그 방법 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060070280A (ko) * | 2004-12-20 | 2006-06-23 | 한국전자통신연구원 | 손 제스처 인식을 이용한 사용자 인터페이스 장치 및 그방법 |
KR20080029730A (ko) * | 2006-09-29 | 2008-04-03 | 김철우 | 손의 움직임 인식을 이용한 사용자인터페이스 장치 및 방법 |
KR101189633B1 (ko) * | 2011-08-22 | 2012-10-10 | 성균관대학교산학협력단 | 손가락 움직임에 따른 포인터 제어명령어 인식 방법 및 손가락 움직임에 따라 포인터를 제어하는 모바일 단말 |
US20180088677A1 (en) * | 2016-09-29 | 2018-03-29 | Alibaba Group Holding Limited | Performing operations based on gestures |
US20190072579A1 (en) * | 2017-09-06 | 2019-03-07 | Pixart Imaging Inc. | Optical sensing apparatuses, method, and optical detecting module capable of estimating multi-degree-of-freedom motion |
KR20200028771A (ko) * | 2018-09-07 | 2020-03-17 | 삼성전자주식회사 | 사용자 의도 기반 제스처 인식 방법 및 장치 |
-
2020
- 2020-11-18 KR KR1020200154796A patent/KR20220067964A/ko active Search and Examination
-
2021
- 2021-02-02 WO PCT/KR2021/001359 patent/WO2022108001A1/ko active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060070280A (ko) * | 2004-12-20 | 2006-06-23 | 한국전자통신연구원 | 손 제스처 인식을 이용한 사용자 인터페이스 장치 및 그방법 |
KR20080029730A (ko) * | 2006-09-29 | 2008-04-03 | 김철우 | 손의 움직임 인식을 이용한 사용자인터페이스 장치 및 방법 |
KR101189633B1 (ko) * | 2011-08-22 | 2012-10-10 | 성균관대학교산학협력단 | 손가락 움직임에 따른 포인터 제어명령어 인식 방법 및 손가락 움직임에 따라 포인터를 제어하는 모바일 단말 |
US20180088677A1 (en) * | 2016-09-29 | 2018-03-29 | Alibaba Group Holding Limited | Performing operations based on gestures |
US20190072579A1 (en) * | 2017-09-06 | 2019-03-07 | Pixart Imaging Inc. | Optical sensing apparatuses, method, and optical detecting module capable of estimating multi-degree-of-freedom motion |
KR20200028771A (ko) * | 2018-09-07 | 2020-03-17 | 삼성전자주식회사 | 사용자 의도 기반 제스처 인식 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR20220067964A (ko) | 2022-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020085694A1 (ko) | 이미지 획득 장치 및 그의 제어 방법 | |
WO2022065722A1 (ko) | 외부 물체에 대한 알림을 디스플레이하는 전자 장치 및 그 방법 | |
WO2022108001A1 (ko) | 카메라 시야(fov) 가장자리에서 움직임을 인식하여 전자 장치를 제어하는 방법 및 그 전자 장치 | |
WO2020256325A1 (en) | Electronic device and method for providing function by using corneal image in electronic device | |
WO2021020940A1 (en) | Electronic device and method for generating augmented reality object | |
WO2021025509A1 (en) | Apparatus and method for displaying graphic elements according to object | |
EP3707678A1 (en) | Method and device for processing image | |
WO2022164094A1 (ko) | Hmd(head mounted display)의 영상 처리 방법 및 이 방법을 실행하는 hmd | |
WO2019190142A1 (en) | Method and device for processing image | |
WO2022059968A1 (ko) | 증강 현실 콘텐츠를 제공하는 전자 장치 및 그의 동작 방법 | |
WO2021221436A1 (ko) | 카메라를 이용하여 공간의 깊이를 획득하는 디바이스 및 방법 | |
WO2023128446A1 (ko) | 손의 관절에 관한 위치 정보를 획득하는 증강 현실 디바이스 및 그 동작 방법 | |
WO2022146018A1 (ko) | 전자 장치 및 그의 제어 방법 | |
WO2023239072A1 (ko) | 부호화 이미지로부터 특징점을 획득하는 전자 장치 및 그 동작 방법 | |
WO2024147486A1 (ko) | 손 관절의 3차원 위치 정보를 획득하는 증강 현실 디바이스 및 그 동작 방법 | |
WO2023153611A1 (ko) | 객체의 영상을 획득하는 방법 및 장치 | |
WO2024075947A1 (ko) | 객체 검색을 위한 이미지 쿼리를 생성하는 전자 장치 및 전자 장치의 동작 방법 | |
WO2024039073A1 (ko) | 이미지에 효과를 적용하는 전자 장치 및 그 제어 방법 | |
WO2023080419A1 (ko) | 비전 정보를 이용하여 전자기기를 제어하는 웨어러블 전자 장치 및 방법 | |
WO2024117515A1 (ko) | 시나리오 컨텍스트에 따른 렌더링 이미지를 생성하기 위한 전자 장치 및 방법 | |
WO2024063253A1 (ko) | 카메라로부터 획득한 이미지 내에 포함된 복수의 영역들 각각의 해상도들을 제어하기 위한 전자 장치 및 그 방법 | |
WO2024019293A1 (ko) | 렌즈리스 카메라를 포함하는 웨어러블 전자 장치 및 이를 이용한 이미지 처리 방법 | |
WO2024155001A1 (ko) | 시선의 방향 또는 제스쳐 중 적어도 하나에 기반하여 미디어 콘텐트를 스크롤링하기 위한 웨어러블 장치 및 그 방법 | |
WO2024219934A1 (ko) | Ar 장치 및 ar 서비스 이미지의 눈부심 방지 방법 | |
WO2024117649A1 (ko) | 외부 객체에 대한 그립 형태에 기반하여 미디어 콘텐트를 표시하기 위한 웨어러블 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21894780 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21894780 Country of ref document: EP Kind code of ref document: A1 |