KR101597286B1

KR101597286B1 - 아바타 영상 메시지를 생성하는 장치 및 방법

Info

Publication number: KR101597286B1
Application number: KR1020090039786A
Authority: KR
Inventors: 한익상; 조정미
Original assignee: 삼성전자주식회사
Priority date: 2009-05-07
Filing date: 2009-05-07
Publication date: 2016-02-25
Also published as: US8566101B2; KR20100120917A; US20100286987A1

Abstract

사용자 음성을 이용하여 아바타 영상 메시지를 생성하는 장치 및 방법이 개시된다. 일 양상에 따른 아바타 영상 메시지 생성 장치는 입력된 사용자 음성을 효과적으로 편집할 수 있도록 편집 가능 위치 정보 및 텍스트 정보를 표시할 수 있다. 아바타 영상 메시지 생성 장치는 표시된 정보를 참조하여 입력되는 사용자 입력 신호에 따라 입력된 음성을 편집하고, 편집된 음성에 따른 아바타 애니메이션을 생성하고, 편집된 음성과 아바타 애니메이션을 이용하여 아바타 영상 메시지를 생성하도록 구성된다.

아바타, 영상 메시지, 음성 편집, 싱크 정보, 단어열

Description

아바타 영상 메시지를 생성하는 장치 및 방법{Apparatus for generating avatar image message and method thereof}

하나 이상의 양상은 메시지 제공 시스템에 관한 것으로, 더욱 상세하게는 음성 기반 메시지 생성 장치 및 방법에 관한 것이다.

가상 공간에 개성있게 아바타를 꾸미기도 하고 네트워크상의 커뮤니티 내에서 음성 채팅을 하는 등 가상세계에서도 익명성 외에 개인의 개성을 표현할 수 있는 서비스가 제공되고 있다. 예를 들어, 사용자는 이러한 서비스를 이용하여 휴대 단말이나 개인용 컴퓨터를 이용하여 메시지를 전달할 때, 단순히 텍스트 형태에서 벗어나 사용자 음성을 녹음한 음성 메시지를 전달하거나 자신의 아바타와 함께 전달할 수 있다. 그러나, 음성 메시지를 이용하는 경우 사용자가 사용자 음성을 편집하는 것은 텍스트를 편집하는 것에 비하여 어려운 점이 있다.

사용자의 음성을 편집하여 아바타 영상 메시지를 효율적으로 생성할 수 있는 아바타 영상 메시지 생성 장치 및 방법을 제공한다.

일 양상에 따른 아바타 영상 메시지 생성 장치는 사용자 음성을 입력받고, 사용자 음성을 편집하는데 이용되는 편집 정보를 생성하고, 생성된 편집 정보를 이용하여 음성을 편집하도록 구성될 수 있다.

아바타 영상 메시지 생성 장치는 오디오 입력부, 사용자 입력부, 표시부 및 제어부를 포함할 수 있다. 오디오 입력부는 사용자 음성을 수신하고, 사용자 입력부는 사용자 입력을 수신하고, 표시부는 표시 정보를 출력한다. 제어부는 사용자 음성에 대한 음성 인식을 수행하여 편집 정보를 생성하고, 편집 정보를 이용하여 음성을 편집하고, 편집된 음성에 따른 아바타 애니메이션을 생성하고, 편집된 음성과 아바타 애니메이션을 이용하여 아바타 영상 메시지를 생성하도록 구성될 수 있다. 여기에서, 편집 정보는 음성으로부터 변환된 단어열 및 단어열에 포함된 단어 각각에 대응하는 음성 구간에 대한 싱크 정보를 포함할 수 있다.

제어부는 단어열에서 편집 가능한 위치를 결정하여 편집 가능한 위치를 나타내는 정보를 표시부로 출력하도록 구성될 수 있다. 여기에서, 편집 가능한 위치를 나타내는 정보는 단어열을 편집 가능한 단위로 구분하여 표시하기 위한 시각적 표시 정보를 포함할 수 있다. 또한, 제어부는 사용자 입력 신호에 따라 편집 가능한 위치에서 단어열을 편집하도록 구성될 수 있다.

제어부는 편집 가능한 위치를 단어열에 포함된 단어들에 대응하는 음성 구간 사이의 경계들 중 에너지가 소정 임계값 이하인 위치로 결정할 수 있다. 또한, 제어부는 단어열에 포함된 적어도 2개의 단어에 대하여 연음으로 인식되는 정도를 나 타내는 연음 스코어 및 비연음으로 인식되는 정도를 나타내는 비연음 스코어를 계산하고, 연음 스코어로부터 비연음 스코어를 차감한 차이값이 임계값 이하인 경우 적어도 2개의 단어가 비연음으로 발성된 것으로 결정하고, 적어도 2개의 단어 사이의 경계로 편집 가능한 위치를 결정할 수 있다.

단어열을 편집하는 동작은 단어열에 포함된 적어도 하나의 단어를 삭제하는 동작, 단어열에 포함된 적어도 하나의 단어를 새로운 단어로 수정하는 동작 및 단어열에 새로운 단어를 삽입하는 동작 중 적어도 하나를 포함한다. 또한, 제어부는 단어열에 포함된 적어도 하나의 단어를 삭제하거나 단어열에 새로운 단어를 삽입하기 위하여 새로운 음성이 입력되는 경우, 새로운 음성에 포함된 묵음 부분을 단축하는 묵음 길이 보정부를 포함하도록 구성될 수 있다.

다른 양상에 따른 아바타 영상 메시지 생성 방법은 입력되는 음성에 대한 음성 인식을 수행하는 동작과, 음성 인식 수행 결과 편집 정보를 생성하는 동작과, 편집 정보를 이용하여 음성을 편집하는 동작과, 편집된 음성에 따른 아바타 애니메이션을 생성하는 동작과, 편집된 음성과 아바타 애니메이션을 이용하여 아바타 영상 메시지를 생성하는 동작을 포함하여 수행될 수 있다.

일 실시예에 따르면, 사용자 음성을 이용하여 아바타 영상 메시지를 생성할 수 있다. 또한, 사용자 음성 입력에 대한 인식 결과 및 편집 가능 위치를 사용자에게 표시하여 제공함으로써, 사용자는 이전에 입력하였던 음성을 손쉽게 편집할 수 있으므로 아바타 영상 메시지를 손쉽게 제작할 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 일 실시예에 따른 사용자 음성을 이용하여 아바타 영상 메시지를 생성하는 장치의 구성을 나타내는 블록도이다.

일 실시예에 따른 아바타 영상 메시지 생성 장치(100)는 제어부(110), 오디오 입력부(120), 사용자 입력부(130), 오디오 출력부(140), 표시부(150), 저장부(160) 및 통신부(170)를 포함한다.

제어부(110)는 아바타 영상 메시지 생성 장치(100) 동작의 전반을 제어하는 데이터 프로세서 및 데이터 처리를 위해 데이터 임시 저장을 위한 메모리를 포함할 수 있다. 오디오 입력부(120)는 사용자 음성 입력을 수신하는 마이크로폰으로 구성될 수 있다. 사용자 입력부(130)는 사용자 입력 신호를 수신하기 위한 키패드, 터치패드과 같은 각종 사용자 입력 장치를 포함하여 구성될 수 있다. 오디오 출력부(140)는 아바타 영상 메시지 생성 장치(100)가 생성된 아바타 영상 메시지를 출력하는 기능을 포함하는 경우, 아바타 영상 메시지와 함께 출력되는 사용자 음성을 출력한다. 표시부(150)는 제어부(110)에서 처리된 데이터를 표시 정보로 출력하기 위한 디스플레이 장치로 구성될 수 있다. 저장부(160)는 아바타 영상 메시지 생성 장치(100)의 동작에 필요한 운영체제, 애플리케이션 및 아바타 영상 메시지 생성을 위하여 필요한 데이터를 저장한다. 통신부(170)는 아바타 영상 메시지 생성 장치(100)가 생성한 아바타 영상 메시지를 네트워크를 통하여 다른 전자 장치로 전송한다.

아바타 영상 메시지 생성 장치(100)는 개인용 컴퓨터, 서버 컴퓨터, 휴대용 단말, 셋탑 박스 등 어떤 형태의 장치 또는 시스템으로도 구현될 수 있다. 아바타 영상 메시지 생성 장치(100)는 휴대폰으로 구현되는 경우, 생성된 아바타 영상 메시지를 이용하여 동영상 메일 서비스가 제공될 수 있다. 또한, 아바타 영상 메시지를 이용하여 네트워크상의 가상 세계에서 영상 메일 서비스가 제공될 수 있다. 또한, 아바타 영상 메시지 생성 장치(100)가 텔레비젼과 같은 디스플레이 장치로 구현되는 경우, 다양한 공간에서 구성원들 간에 손쉽게 아바타 영상 메시지를 제작하여 메시지를 공유할 수 있다.

도 2는 도 1의 아바타 영상 메시지를 생성하는 장치의 제어부의 구성을 나타내는 도면이다.

제어부(110)는 음성 인식부(210), 음성 편집부(220), 아바타 애니메이션 생성부(230) 및 아바타 영상 메시지 생성부(240)를 포함한다. 음성 인식부(210)는 오디오 입력부(120)로부터 입력되는 오디오 입력을 디지털화하고, 디지털화된 음성을 소정 기간으로 샘플링하고, 샘플링된 음성에 대하여 특징을 추출하여 음성 인식을 수행할 수 있다. 음성 인식부(210)는 음성 인식 수행을 통하여 오디오 입력을 단어열(word sequence)로 생성한다. 또한, 음성 인식부(210)는 오디오 입력을 단어열로 변환하는 동작과 함께 음성과 단어열에 포함된 각 단어 사이의 동기화를 위한 싱크 정보를 생성한다. 싱크 정보는 시간 정보일 수 있으며, 예를 들어, 오디오 입력 시작 시간을 기준으로 각 단어에 대응하는 음성 구간의 시작 및 끝을 나타내는 시간 정보일 수 있다.

입력된 음성, 음성이 변환된 단어열 및 각 단어별 싱크 정보는 음성 편집을 위해 이용되는 편집 정보라 부른다. 편집 정보는 저장부(160)에 저장될 수 있다. 입력된 음성의 단어 구간별로 음성 데이터, 구간별 음성 데이터에 대응하는 단어(또는 텍스트) 및 각 단어에 대응하는 음성 구간별 싱크 정보가 서로 연관되도록 저장될 수 있다.

음성 편집부(220)는 음성 인식부(210)로부터 변환된 단어열 및 복수 개의 싱크 정보를 이용하여 대응하는 음성 정보를 편집한다. 음성 정보 편집 동작은 단어열에 포함된 일부 단어를 삭제하는 삭제 동작, 일부 단어를 새로운 다른 단어로 변경하는 수정 동작 및 현재 단어열에 다른 단어를 추가하는 삽입 동작 중 적어도 하나를 포함할 수 있다. 음성 편집부(220)는 음성 데이터 편집에 따라 음성 정보의 각 단어 및 각 단어에 대응하는 음성 정보의 싱크 정보를 수정할 수 있다. 음성 편집부(220)는 사용자 입력 신호에 의해 선택된 위치에서 음성 정보 편집을 수행할 수 있다. 음성 편집부(220)의 상세 구성 및 동작에 대해서는 도 3을 참조하여 후술한다.

아바타 애니메이션 생성부(230)는 음성 인식부(210)로부터 입력되는 단어열 및 싱크 정보 또는 음성 편집부(220)로부터 입력되는 편집된 단어열 및 편집에 따라 수정된 싱크 정보를 이용하여 아바타 애니메이션을 생성한다. 아바타 애니메이션 생성부(230)는 입력된 단어열 및 싱크 정보를 이용하여 아바타의 립싱크, 표정, 제스처 등의 애니메이션을 생성할 수 있다.

아바타 영상 메시지 생성부(240)는 싱크 정보를 이용하여 음성과 동기화되어 움직이는 아바타 애니메이션 및 음성 정보를 포함하는 아바타 영상 메시지를 생성한다. 생성된 아바타 영상 메시지는 오디오 출력부(140) 및 표시부(150)를 통하여 출력되는 음성과 함께 아바타 애니메이션 영상으로 제공될 수 있다. 사용자는 생성된 영상 메시지를 확인할 수 있다. 수정이 필요한 경우, 사용자 입력부(130)를 통하여 편집에 필요한 정보를 입력함으로써 아바타 영상 메시지 생성 장치(100)는 음성 편집부터 아바타 영상 메시지 생성 동작을 다시 수행할 수 있으며, 이러한 과정은 사용자가 최종적으로 더 이상 음성 편집이 필요없다고 판단할 때까지 반복 수행될 수 있다.

도 3은 도 2의 제어부에 포함된 음성 편집부의 구성을 나타내는 도면이다.

음성 편집부(220)는 편집 위치 검색부(310), 연음 정보 저장부(320), 비연음 정보 저장부(330), 및 편집부(340)를 포함한다.

단어열의 특정 부분에서 삭제, 수정, 또는 삽입 편집 명령이 발생했을 경우 편집된 음성 세그먼트의 앞뒤 음성이 자연스럽게 이어져야 한다. 즉, 단어열의 임의의 위치에서 음성 편집을 허용하면 편집된 음성 정보가 부자연스럽게 출력될 수 있다. 일 실시예에 따르면, 음성 편집부(220)는 편집이 가능한 위치를 결정하고, 결정된 편집 가능한 위치에 대한 정보를 사용자가 확인할 수 있도록 표시부(150)로 출력하여 사용자에게 표시함으로써, 사용자가 임의의 위치가 아닌 편집 가능한 부분에서만 편집하도록 안내할 수 있다.

편집 위치 검색부(310)는 입력된 음성으로부터 변환되 단어열에서 편집 가능한 위치를 결정할 수 있다. 편집 가능한 위치는 표시부(150)를 통해 시각적으로 사용자에게 제공될 수 있다. 또한, 편집 가능한 위치를 나타내는 정보는 단어열에 포함된 각각의 단어를 서로 구별되도록 표시하기 위한 시각적 표시 정보를 포함할 수 있다. 예를 들어, 시각적 표시 정보로서 사용자 입력 신호에 따라 움직이는 커서(cursor)가 단어열에 포함된 편집 가능한 블록 단위로 움직이도록 표시될 수 있다.

편집 위치 검색부(310)는 편집 가능한 위치를 단어열에 포함된 단어들 각각에 대응하는 음성 구간 사이의 경계들 중 에너지가 소정 임계값 이하인 위치로 결정할 수 있다.

도 4는 일 실시예에 따른 편집 가능한 단위를 검색하기 위한 단어열의 에너지 측정 결과를 나타내는 도면이다. 도 4는 "냉장고 안에 도넛 도넛츠 있으니 우유량 먹어"의 음성 입력에 따른 에너지 측정 결과를 나타낸다.

도 4에 도시된 바와 같이 단어들의 경계(401, 403, 405, 405, 407, 409, 411, 413 및 415) 중에서 편집 위치 검색부(310)는 "냉장고 안에"의 경우 2개의 단어지만 단어들 경계의 에너지가 임계값 이상인 것으로 결정하여 경계(403)로 "냉장고 안에"를 편집 가능한 위치에서 제외하고, 경계(401, 405, 407, 409, 411, 413 및 415)를 편집 가능한 위치로 결정할 수 있다. 따라서, 사용자가 "냉장고" 및 "안에" 사이의 경계에서 편집을 수행하는 것을 제한할 수 있다.

다시 도 3을 참조하면, 편집 위치 검색부(310)는 적어도 2개의 단어가 발음될 때 단어들 사이에 연음이 발생되는 위치는 편집 가능한 위치에서 제외할 수 있다. 편집 위치 검색부(310)는 연음 정보 저장부(320) 및 비연음 정보 저장부(330)에 저장된 정보를 이용하여 편집 가능한 위치를 결정할 수 있다.

연음 정보 저장부(320)는 단어 사이가 연음으로 발음되는 경우의 복수 개의 단어 발음 정보를 포함하고 있다. 비연음 정보 저장부(330)는 단어 사이가 연음으로 발음되지 않은 경우의 복수 개의 단어 발음 정보를 포함하고 있다. 연음 정보 저장부(320) 및 비연음 정보 저장부(330)는 저장부(160) 또는 음성 편집부(220)의 소정의 저장 공간에 저장될 수 있다.

편집 위치 검색부(310)는 연음이 되었는지를 확인하기 위하여 단어열에 포함된 적어도 2개의 단어에 대하여 연음으로 인식되는 정도를 나타내는 연음 스코어 및 비연음으로 인식되는 정도를 나타내는 비연음 스코어를 계산하고, 연음 스코어로부터 비연음 스코어를 차감한 차이값이 임계값 이하인 경우 적어도 2개의 단어가 비연음으로 발성된 것으로 결정하고, 적어도 2개의 단어 사이의 경계를 편집 가능한 위치로 결정할 수 있다. 연음 스코어는 연음 정보 저장부(320)에 저장된 정보를 참조하여 고립 단어 인식 방법에 의하여 계산될 수 있으며, 비연음 스코어는 비연음 정보 저장부(330)에 저장된 정보를 참조하여 고립 단어 인식 방법에 의해 계산될 수 있다.

예를 들어, "음성 편집 이용 방법"이라는 단어열에서, "편집 이용" 부분이 연음으로 즉, "편지 비용"으로 발성될 수도 있고, 비연음으로 "편집 이용"으로발성될 수 있는 부분이다.

예를 들어, 각 발성 방식에 대해 음성 인식 스코어를 측정한 뒤 연음 스코어에서 비연음 스코어를 뺀 스코어 차이가 특정 임계치를 넘으면 연음으로 발성했다고 볼 수 있다. 따라서, 이경우, "편집"과 "이용"이라는 단어는 "편집 이용"이라는 단어로 합쳐진 상태에서만 편집이 수행되도록 한다.

단어열이 편집 가능한 단위로 표시되면 사용자가 표시된 편집 가능한 위치를 보고 그 중 적어도 하나의 편집 가능한 위치 및 편집 명령을 입력하면, 편집부(340)는 사용자 입력 신호에 따라 편집 가능한 위치의 단어열을 편집할 수 있다. 편집부(340)는 편집 동작 중 수정 명령이나 삽입 명령이 입력된 경우 새로운 음성을 녹음하고 음성 인식을 거쳐 단어열과 싱크 정보를 생성한다.

편집 가능한 위치를 결정한 전술한 2가지 방법은 선택적으로 이용될 수 있다. 또는, 적어도 2개의 단어를 포함하는 단어열에서 순차적으로 2가지 방법에서 모두 편집 가능한 위치로 결정되는 경우에 최종적으로 편집 가능한 위치로 결정되어 편집 가능한 위치 정보가 사용자에게 제공될 수 있다.

한편, 삽입이나 수정을 위해 녹음을 할 때 녹음 내용의 시작과 끝 부분에 긴 묵음이 발생하는 경우 묵음이 길면 전체 녹음 내용을 이어서 들을 경우 편집 부분이 필요 이상으로 긴 묵음 구간으로 인하여 어색하게 들릴 수 있다. 편집부(340)는 수정된 음성 데이터의 출력에 따라 사용자가 음성을 들을 때 자연스럽게 들리도 록 묵음 길이 보정을 수행하여 묵음의 길이를 적정하게 만든다.

편집부(340)는 단어열에 포함된 적어도 하나의 단어를 삭제하거나 단어열에 새로운 단어를 삽입하기 위하여 새로운 음성이 입력되는 경우, 새로운 음성에 포함된 묵음 부분을 단축하는 묵음 길이 보정부(342)를 포함하여 구성될 수 있다. 예를 들어, 묵음 길이 보정부(342)는 묵음의 길이는 편집된 부분의 시작과 끝 각각에서 최대 50㎳가 넘지 않도록 묵음 길이를 단축시킬 수 있다. 묵음의 길이를 제어하기 위해서 묵음 구간의 처음과 끝 부분의 싱크 정보를 단어열의 싱크 정보와 마찬가지로 얻어야 한다. 삽입이나 수정 명령을 위한 녹음시에도 음성 인식 과정을 거치므로 묵음도 단어처럼 취급하여 발성의 앞뒤에 묵음이 올 수 있도록 허용을 하면 단어열 정보 뿐만 아니라 묵음에 대한 싱크 정보도 추가로 얻어낼 수 있다. 묵음 길이 보정을 거쳐 기존 단어열 및 싱크 정보를 수정하면 편집이 완료된다.

도 5는 일 실시예에 따른 편집 가능한 단위의 결정 결과에 따라 생성되는 단어열 테이블을 나타내는 도면이다.

음성인식을 이용하면 테이블(510)에 도시된 바와 같이 음성에 해당하는 단어열 정보뿐만 아니라 단어열에 포함된 각 단어에 대응하는 음성 데이터의 시작과 끝 시간 즉, 싱크 정보를 작성할 수 있다. 편집부(340)가 도 4를 참조하여 설명한 바와 같이, "냉장고 안에"를 하나의 묶음으로 처리한 경우, 구 단어열 및 싱크 정보 테이블(510)는 새 단어열 및 싱크 정보 테이블(520)로 변환되어 저장부(160)에 저장될 수 있다.

도 6은 일 실시예에 따른 삭제 동작에 따른 음성 편집 화면을 나타내는 도면 이다.

인식된 단어열이 블록(610)에 도시된 바와 같이 "냉장고 안에 도넛 도넛츠 있으니 우유랑 먹어"로 표시부(150)에 표시될 수 있다. 사용자는 인식된 단어열이 표시되므로, "도넛" 부분이 잘못 발성된 것으로 판단할 수 있다.

또한, 도 4를 참조하여 설명한 바와 같이, 경계(401, 405, 407, 409, 411, 413 및 415)가 편집 가능 위치로 결정되면, 블록(610)에 도시된 바와 같이, 편집 가능 단위로 인식된 단어열이 사용자에게 표시될 수 있다. 예를 들어, 도 6에 도시된 바와 같이 편집 가능 단위별로 밑줄이 표시되어 사용자는 편집 가능 단위를 손쉽게 확인할 수 있다. 사용자가 커서를 "도넛" 블록(610) 앞에 위치시키면 "도넛"이라는 단어가 하이라이트 처리되어 표시될 수 있다.

또한, 단어열 정보(610)와 함께 음성 편집 타입을 나타내는 아이콘(도시되지 않음)이 함께 제공될 수 있다. 예를 들어, 삭제 아이콘의 선택을 통하여 삭제 명령을 내리면 "도넛"이라는 잘못 발성된 부분이 단어열에서 삭제되는데 이때 제어부(110)는 내부적으로 단어열과 음성의 싱크 정보를 이용하여 "도넛"에 해당하는 음성 부분을 단어열 정보(610)에 대응하는 음성을 저장하는 음성 파일에서 삭제할 수 있다. 이와 같은 음성 편집 결과로서, 단어열 정보(620)와 같이 "도넛"(601)이 삭제되어 표시될 수 있다.

도 7은 일 실시예에 따른 수정 동작에 따른 음성 편집 화면을 나타내는 도면이다.

도 7은 "먹어"를 "먹고 있어"로 수정하는 예를 나타낸다. 인식된 단어열이 블록(710)에 도시된 바와 같이 "냉장고 안에 도넛츠 있으니 우유랑 먹어"로 표시부(150)에 표시될 수 있다.

사용자가 사용자 입력부(130)를 통하여 "먹어"이라는 단어를 선택하면, 선택된 단어가 하이라이트 처리되어 표시될 수 있다. 또한, 사용자가 수정 아이콘 선택을 통하여 수정 명령을 내리면 "먹어"이라는 부분을 대체할 단어열 입력을 수신하기 위하여 제어부(110)는 새로운 음성 입력을 수신하기 위한 대기 동작을 할 수 있다.

오디오 입력부(120)를 통해서 새로운 음성이 입력되어 단어열 "먹고 있어"로 변환되면, 제어부(110)는 "먹어"라는 음성 부분을 삭제하고, 삭제된 음성 위치에 "먹고 있어"로 대체할 수 있다. 이때, 제어부(110)는 "먹어"를 "먹고 있어"로 대체한 결과를 반영하기 위하여 단어열과 싱크 정보를 수정한다. 이와 같은 음성 편집에 따라 "먹고 있어"(703)를 포함하는 편집된 단어열(720)이 표시될 수 있다.

제어부(110)는 블록(710)에 표시된 단어열 다음에 다른 문장이 이어지는 경우, 다른 문장에 해당하는 단어열에 대한 싱크 정보도 함께 수정을 한다. 예를 들어, 제어부(110)는 새로 녹음한 내용이 기존의 음성 길이 "먹어"에 해당하는 음성보다 짧으면, "먹어" 다음의 문장의 시작 단어의 싱크 정보를 앞당길 수 있다.

도 8은 일 실시예에 따른 삽입 동작에 따른 음성 편집 화면을 나타내는 도면이다.

도 8은 "먹고 있어" 앞에 "천천히"를 삽입하는 편집 예를 나타낸다. 인식된 단어열이 블록(810)에 도시된 바와 같이 "냉장고 안에 도넛츠 있으니 우유랑 먹고 있어"로 표시부(150)에 표시될 수 있다. 사용자가 우선 "먹고"(801) 바로 앞을 편집 가능한 위치로 선택하고 삽입 아이콘의 선택과 같은 방법을 이용하여 "삽입" 명령을 내린다.

그러면, 제어부(110)는 새로운 음성 입력을 수신하기 위한 대기 동작을 할 수 있다. 오디오 입력부(120)를 통해서 새로운 음성 예를 들어, 단어 "천천히"가 입력되어 단어열 "천천히"로 변환되면, "천천히"라는 음성을 녹음되고, 음성인식을 통해 단어열과 싱크 정보가 생성된다. 제어부(110)는"먹고 있어" 앞에 "천천히" 라는 음성을 삽입하고 단어열과 단어열에 대응하는 복수 개의 싱크 정보 또한 새로운 삽입된 내용에 맞춰서 수정하여, "삽입" 편집 명령에 따른 동작이 완료될 수 있다. 이와 같은 "천천히"(803)가 삽입된 음성 편집된 단어열 블록(820)이 표시될 수 있다.

도 9는 일 실시예에 따른 묵음 보정 동작에 따른 음성 파형을 나타내는 도면이다.

도 7에 도시된 예와 같이 "먹고"에 대응하는 음성 부분을 "먹고 있어"로 수정하는 경우, 제어부(110)는 "먹고 있어"에 해당하는 음성 부분(920)에서 묵음 구간을 검출할 수 있다. 제어부(110)는 묵음 구간이 임계 길이 보다 긴 경우, 묵음 구간을 임계 길이 이하로 단축시킬 수 있다. 예를 들어, 음성 부분(920)의 음성 인식 결과 묵음 구간이 360㎳인 경우, 제어부(110)는 묵음 구간이 50㎳이하가 되도록 단축할 수 있다. 그런 다음, 제어부(110)는 현재 음성 데이터(910)에서 음성 부분(920)을 묵음 길이가 단축된 음성 부분(930)으로 대체하여 참조 부호 940과 같 은 음성 편집 결과를 생성하여 저장할 수 있다.

도 10은 도 1의 아바타 애니메이션 생성부의 구성의 일예를 나타내는 도면이다.

아바타 애니메이션 생성부(230)는 립싱크 엔진(1010), 아바타 저장부(1020), 제스처 엔진(1030), 제스처 정보 저장부(1040) 및 아바타 합성부(1050)를 포함할 수 있다.

립싱크 엔진(1010)는 단어열이 입력되면, 해당 단어열에 맞추어 아바타 입 모양의 변화를 구현한다. 아바타 저장부(1020)는 적어도 하나의 아바타 종류 각각에 대하여 발음에 따라 대응하는 입모양을 가지는 입모양이 다른 복수 개의 아바타를 저장한다. 립싱크 엔진(1010)은 아바타 저장부(1020)에 저장된 정보를 이용하여 단어열에 포함된 각 단어의 발음 모양에 따라 입모양이 변화되는 아바타 애니메이션을 출력할 수 있다.

립싱크 엔진(1010)은 특히 단어열에 포함된 모음과 순음의 시간 싱크 정보에 맞추어서 그에 해당하는 입 모양을 생성할 수 있다. 립싱크에 꼭 필요한 모음은 다음과 같이 3종류 즉, '오' 또는 '우'와 같이 입을 오무리는 모음, '이' 또는 '에'처럼 입을 옆으로 벌리는 모음, '아'처럼 입을 크게 벌리는 모음으로 분류될 수 있다. 순음('ㅁ, ㅂ, ㅍ, 또는 ㅃ')은 입술을 닫으면서 발음을 하므로 립싱크 엔진(1010)은 립싱크시 중요하게 고려하여 동작할 수 있다. 예를 들어, 립싱크 엔진(1010)은 단어열에 나타난 순음과 싱크를 맞춰 입술을 닫아주어 자연스러운 립싱크가 표현되도록 할 수 있다.

제스처 엔진(1030)은 입력되는 단어열에 맞추어 팔과 다리와 같은 제스처를 나타내는 신체 부위의 변화를 구현할 수 있다. 제스처 정보 저장부(1040)는 발음, 상황이나, 감정별로 아바타의 신체부위 영상을 저장할 수 있다.

제스처 엔진(1030)은 제스처 정보 저장부(1040)에 저장된 정보를 이용하여 단어열을 의미적으로 분석하여 자동으로 가장 적당한 제스처 시퀀스를 생성할 수 있다. 또는 제스처 엔진(1030)은 사용자 입력 신호에 따라 제스처가 선택되는 경우, 선택된 제스처에 따라 제스처 시퀀스를 생성할 수 있다.

아바타 합성부(1050)는 립싱크 생성 엔진(1010)의 출력 결과와 제스처 엔진(1030)의 출력 결과를 합성하여 완성된 아바타 애니메이션을 생성한다.

도 11은 일 실시예에 따른 사용자 음성을 이용하여 아바타 영상 메시지를 생성하는 방법을 나타내는 도면이다.

사용자 음성이 입력되면, 아바타 영상 메시지 생성 장치(100)는 입력된 음성에 대하여 음성 인식을 수행하여 단어열로 변환한다(1110). 여기에서, 단어열에 포함된 각 단어별 싱크 정보가 결정된다. 또한, 변환된 단어열 및 편집 가능 위치를 나타내는 정보가 제공될 수 있다.

영상 편집을 위한 사용자 입력 신호가 입력되면(1120), 아바타 영상 메시지 생성 장치(100)는 사용자 입력에 따라 입력된 음성을 편집하고(1130), 사용자 입력 신호가 입력되지 않으면(1120) 아바타 애니메이션 생성 동작(1140)의 단계로 진행한다.

아바타 영상 메시지 생성 장치(100)은 편집된 음성에 따라 아바타 애니메이 션을 생성하고(1140), 편집된 음성 및 아바타 애니메이션을 포함하는 아바타 영상 메시지를 생성한다(1150). 생성된 아바타 영상 메시지를 본 사용자가 수정이 필요하다고 결정한 경우, 음성 편집을 위한 사용자 입력 신호가 수신될 수 있으며(1160), 아바타 영상 메시지 생성 장치(100)는 음성 편집 동작(1130)으로 되돌아갈 수 있다. 음성 편집 동작(1130), 아바타 애니메이션 생성 동작(1140) 및 아바타 영상 메시지 생성 동작(1150)은 사용자가 음성 편집을 위한 입력을 중단할 때까지 반복 수행될 수 있다.

음성 편집 동작(1130)은 아바타 애니메이션 생성 동작(1140) 이전에 수행되어야 하는 것은 아니다. 즉, 아바타 영상 메시지 생성 장치(100)는 음성 편집을 거치기 전에 미리 현재 인식된 단어열과 싱크 정보를 이용해 아바타 애니메이션 생성 동작(1140)과 아바타 영상 메시지 생성 동작(1150)을 수행할 수 있다. 생성된 아바타 영상 메시지를 제공한 후, 음성 편집을 위한 사용자 입력 신호가 수신되면, 아바타 영상 메시지 생성 장치(100)는 사용자 입력 신호에 따라 음성 편집을 수행하고, 음성 편집 결과를 이용하여 아바타 애니메이션 생성 동작(1140)과 아바타 영상 메시지 생성 동작(1150)을 다시 수행할 수 있다.

본 발명의 일 양상은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 상기의 프로그램을 구현하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 디스크 등을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드로 저장되고 실행될 수 있다.

이상의 설명은 본 발명의 일 실시예에 불과할 뿐, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 본질적 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.

도 1은 일 실시예에 따른 사용자 음성을 이용하여 아바타 영상 메시지를 생성하는 장치의 구성을 나타내는 도면이다.

도 4는 일 실시예에 따른 편집 가능한 단위를 검색하기 위한 단어열의 에너지 측정 결과를 나타내는 도면이다.

도 6은 일 실시예에 따른 삭제 동작에 따른 음성 편집 화면을 나타내는 도면이다.

Claims

사용자 음성을 수신하는 오디오 입력부;

사용자 입력을 수신하는 사용자 입력부;

표시 정보를 출력하는 표시부; 및

상기 사용자 음성에 대한 음성 인식을 수행하여 편집 정보를 생성하고, 상기 편집 정보를 이용하여 상기 음성을 편집하고, 상기 편집된 음성에 따른 아바타 애니메이션을 생성하고, 상기 편집된 음성과 상기 아바타 애니메이션을 이용하여 아바타 영상 메시지를 생성하는 제어부;를 포함하며,

상기 편집 정보는 상기 음성으로부터 변환된 단어열 및 상기 단어열에 포함된 단어 각각에 대응하는 음성 구간에 대한 싱크 정보를 포함하고,

상기 제어부는 상기 단어열에 포함된 적어도 2개의 단어에 대하여 연음으로 인식되는 정도를 나타내는 연음 스코어 및 비연음으로 인식되는 정도를 나타내는 비연음 스코어를 계산하고, 상기 연음 스코어로부터 상기 비연음 스코어를 차감한 차이값이 임계값 이하인 경우 상기 적어도 2개의 단어가 비연음으로 발성된 것으로 결정하고, 상기 비연음으로 발성된 것으로 결정된 적어도 2개의 단어 사이의 경계로 상기 편집 가능한 위치를 결정하는 아바타 영상 메시지 생성 장치.
삭제
제1항에 있어서,

상기 제어부는 상기 단어열에서 편집 가능한 위치를 결정하여 상기 편집 가능한 위치를 나타내는 정보를 상기 표시부로 출력하는 아바타 영상 메시지 생성 장치.
제3항에 있어서,

상기 편집 가능한 위치를 나타내는 정보는 상기 단어열을 편집 가능한 단위로 구분하여 표시하기 위한 시각적 표시 정보를 포함하는 아바타 영상 메시지 생성 장치.
제4항에 있어서,

상기 제어부는 상기 시각적 표시 정보로서 상기 단어열에서 편집 가능한 단위로 움직이는 커서가 제공되도록 상기 표시부를 제어하는 아바타 영상 메시지 생성 장치.
제3항에 있어서,

상기 제어부는 상기 사용자 입력 신호에 따라 상기 편집 가능한 위치에서 상기 단어열을 편집하는 아바타 영상 메시지 생성 장치.
제3항에 있어서,

상기 제어부는 상기 편집 가능한 위치를 상기 단어열에 포함된 단어들에 대응하는 음성 구간 사이의 경계들 중 에너지가 소정 임계값 이하인 위치로 결정하는 아바타 영상 메시지 생성 장치.
삭제
제1항에 있어서,

상기 제어부는 음성에 대응하는 단어열에 포함된 적어도 하나의 단어를 삭제하는 동작, 상기 단어열에 포함된 적어도 하나의 단어를 새로운 단어로 수정하는 동작 및 상기 단어열에 새로운 단어를 삽입하는 동작 중 적어도 하나의 동작을 이용하여 음성을 편집하는 아바타 영상 메시지 생성 장치.
제1항에 있어서,

상기 제어부는 음성에 대응하는 단어열에 포함된 적어도 하나의 단어를 수정하거나, 상기 단어열에 새로운 단어를 삽입하기 위하여 새로운 음성이 입력되는 경우, 상기 새로운 음성에 포함된 묵음 부분을 단축하는 묵음 길이 보정부를 포함하는 아바타 영상 메시지 생성 장치.
입력되는 음성에 대한 음성 인식을 수행하는 단계;

음성 인식 수행에 따라 편집 정보를 생성하는 단계;

상기 편집 정보를 이용하여 상기 음성을 편집하는 단계;

상기 편집된 음성에 따른 아바타 애니메이션을 생성하는 단계; 및

상기 편집된 음성과 상기 아바타 애니메이션을 이용하여 아바타 영상 메시지를 생성하는 단계를 포함하며,

상기 편집 정보는 상기 음성으로부터 변환된 단어열 및 상기 단어열에 포함된 단어 각각에 대응하는 음성 구간에 대한 싱크 정보를 포함하고,

상기 편집 가능한 위치는 상기 단어열에 포함된 적어도 2개의 단어가 발음될 때 연음으로 인식되는 정도를 나타내는 연음 스코어로부터 비연음으로 인식되는 정도를 나타내는 비연음 스코어를 차감한 차이값이 임계값 이하인 경우, 상기 적어도 2개의 단어의 경계의 위치로 결정되는 아바타 영상 메시지 생성 방법.
삭제
제11항에 있어서,

상기 음성을 편집하는 단계는,

상기 단어열에서 편집 가능한 위치를 결정하여 상기 편집 가능한 위치를 나타내는 정보를 표시하는 단계; 및

사용자 입력 신호에 따라 선택된 편집 가능한 위치에서 상기 단어열을 편집하는 단계를 포함하는 아바타 영상 메시지 생성 방법.
제13항에 있어서,

상기 편집 가능한 위치를 나타내는 정보는 상기 단어열을 편집 가능한 단위 로 구분하여 표시하기 위한 시각적 표시 정보를 포함하는 아바타 영상 메시지 생성 방법.
제13항에 있어서,

상기 편집 가능한 위치는 상기 단어열에 포함된 단어들에 대응하는 음성 구간 사이의 경계들 중 에너지가 소정 임계값 이하인 위치로 결정되는 아바타 영상 메시지 생성 방법.
삭제
제11항에 있어서,

상기 음성을 편집하는 단계에서,

상기 음성에 대응하는 단어열에 포함된 적어도 하나의 단어를 삭제하는 동작, 상기 단어열에 포함된 적어도 하나의 단어를 새로운 단어로 수정하는 동작, 및 상기 단어열에 새로운 단어를 삽입하는 동작 중 적어도 하나의 동작이 수행되는 아바타 영상 메시지 생성 방법.
제11항에 있어서,

상기 음성을 편집하는 단계에서, 상기 음성에 대응하는 단어열에 포함된 적어도 하나의 단어를 수정하거나 상기 단어열에 새로운 단어를 삽입하기 위하여 새로운 음성이 입력되는 경우, 상기 새로운 음성에 포함된 묵음 부분을 단축하는 아바타 영상 메시지 생성 방법.