KR100240637B1

KR100240637B1 - 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치

Info

Publication number: KR100240637B1
Application number: KR1019970017615A
Authority: KR
Inventors: 이정철; 한민수; 이항섭
Original assignee: 정선종; 한국전자통신연구원
Priority date: 1997-05-08
Filing date: 1997-05-08
Publication date: 2000-01-15
Also published as: US6088673A; DE19753454C2; JP4344658B2; JP3599549B2; JP2004361965A; KR19980082608A; DE19753454A1; JPH10320170A; USRE42647E1

Abstract

본 발명은 다중매체 환경에서 텍스트/음성변환기(text-to-speech conversion system; TTS) 연동방법에 있어서 텍스트/음성변환기용 입력데이터 구현 방법 및 그 장치에 관한 것이다.

기존의 합성기는 입력된 텍스트로부터 음성을 합성하는 용도로만 고려되고 있는 상황이다. 그런데 텍스트/음성변환기를 이용하여 동영상에 더빙을 하고자 할 때나, 애니메이션과 같은 다중매체와 합성음 간의 자연스러운 연동을 구현하기 위해서 필요한 동기화 정보는 단지 텍스트로부터 추정하기가 불가능하며, 합성음의 자연성 향상을 위한 부가 데이터 사용, 그리고 이들 데이타의 구조화에 대한 연구결과는 거의 없는 실정이다.

따라서, 본 발명은 텍스트/음성변환기에서 텍스트 이외에 부가적 운율정보, 다중매체와의 연동에 필요한 정보, 그리고 이들 정보와 텍스트/음성변환기 간의 인터페이스를 정의하여 합성음 생성에 사용함으로써 합성음의 자연성 향상과 다중매체와 TTS간의 동기화 구현을 그 목적으로 한다.

상술한 목적을 달성하기 위한 본 발명은 기존 TTS의 언어처리부, 운율처리부, 신호처리부, 합성단위를 포함하되, 텍스트, 운율, 동화상과의 동기화 정보, 입술모양, 개인성 등의 정보를 구조화 시킨 다중매체 입력정보, 다중매체 입력정보를 매체별 정보로 분리하는 분배기, 그리고 동기 정보를 이용하여 음소의 지속시간을 조정하는 동기 조정기, 영상정보를 화면에 출력하는 영상 출력장치를 구비하고 있다.

본 발명은 실제 음성 데이타와 동영상의 입술모양을 분석하여 추정된 운율정보, 입술모양 정보와 텍스트 정보의 구조화 및 합성기 응용을 통해 합성음의 자연성과 동영상과의 동기화를 구현함으로써 외화 등에 한국어 더빙, 통신 서비스, 사무 자동화, 교육 등의 여러 분야에 응용할 수 있는 효과가 있다.

Description

다중매체와의 연동을 위한 텍스트/음성변환 구현 방법 및 그 장치{Syntax for TTS input data to synchronize with multimedia}

본 발명은 다중매체와 연동을 위한 텍스트/음성변환기(text-to-speech conversion system; 이하 TTS라 칭함)연동 방법에 있어서, TTS용 입력데이터 구현 방법 및 그 장치에 관한 것이다.

음성합성기의 기능은 컴퓨터가 사용자인 인간에게 다양한 형태의 정보를 음성으로 제공하는데 있다. 이를 위해서 음성합성기는 사용자에게 주어진 텍스트로부터 고품질의 음성 합성 서비스를 제공할 수 있어야 한다. 뿐만 아니라 동영상이나 애니메이션 등의 다중매체 환경에서 제작된 데이타 베이스나 대화 상대로부터 제공되는 다양한 미디어와 연동되기 위해서는 이들 미디어와 동기화 되도록 합성음을 생성할 수 있어야 한다. 특히 다중매체와 TTS간의 동기화는 사용자에게 고품질의 서비스를 제공하기 위해 필수적이다.

기존의 TTS는 도 1에 도시된 바와 같이 입력된 텍스트로부터 합성음을 생성하기까지 일반적으로 3 단계의 과정을 거치게 된다.

1 단계인 언어 처리부(1)에서는 텍스트를 음소열로 변환하고, 운율 정보를 추정하여 이를 심볼화 한다. 운율 정보의 심볼은 구문구조 분석결과를 이용한 구.절 경계, 단어내 엑센트 위치, 문형 등으로부터 추정된다.

2 단계인 운율 처리부(2)는 심볼화된 운율 정보로부터 규칙 및 테이블을 이용하여 운율 제어 파라미터의 값을 계산한다. 운율 제어 파라미터로는 음소의 지속시간, 피치 형태(contour), 에너지 형태(contour), 쉼 구간 정보가 있다.

3 단계인 신호처리부(3)는 합성 단위 데이터 베이스(4)와 운율 제어 파라미터를 이용하여 합성음을 생성한다. 즉 기존의 합성기는 언어 처리부(1)와 운율 처리부(2)에서 자연성, 발성 속도와 관련된 정보를 단지 입력 텍스트 만으로 추정을 해야 함을 의미한다.

또한, 기존의 TTS는 문장 단위로 입력된 데이타를 합성음으로 출력하는 단순한 기능을 가지고 있다. 그러므로 파일내 저장된 문장, 혹은 통신망을 통해 입력된 문장들을 연속해서 합성음으로 출력하기 위해서는 입력 데이타에서 문장을 읽어서 TTS의 입력으로 전달하는 주 제어 프로그램이 필요하다. 이러한 주 제어 프로그램 중에는 입력된 데이타로부터 텍스트를 분리하여 단순히 처음부터 끝까지 1회 합성음을 출력하는 방법, 텍스트 편집기와 연동하여 합성음을 생성하는 방법, 그래픽 인터페이스를 이용하여 문장을 검색하고 합성음을 생성하는 방법 등이 있지만 그 대상은 텍스트로 제한되어 있다.

현재 TTS에 대한 연구가 세계 여러 나라에서 자국어를 대상으로 많이 진행되어 일부 상용화가 이루어졌다. 그러나, 아직 입력된 텍스트로부터 음성을 합성하는 용도로만 고려되고 있는 상황이다. 그런데 TTS를 이용하여 동영상에 더빙을 하고자 할 때나, 애니메이션과 같은 다중매체와 합성음 간의 자연스러운 연동을 구현하기 위해서 필요한 동기화 정보는 단지 텍스트로부터 추정하기는 불가능하므로 현재의 구조로는 이들 기능을 구현할 수 있는 방법이 없다. 또한, 합성음의 자연성 향상을 위한 부가 데이타 사용, 그리고 이들 데이타의 구조화에 대한 연구결과는 없는 실정이다.

따라서, 본 발명은 TTS 에서 텍스트 이외에 부가적 운율정보, 다중매체와의 연동에 필요한 정보, 그리고 이들 정보와 TTS 간의 인터페이스를 정의하여 합성음 생성에 사용함으로써, 합성음의 자연성 향상과 다중매체와 TTS 간의 동기화 할 수 있는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법 및 그 장치를 제공하는 데 그 목적이 있다.

상술한 목적을 달성하기 위한 본 발명은 기존 TTS의 언어처리부, 운율처리부, 합성단위를 포함하되, 텍스트, 운율, 동화상과의 동기화 정보, 입술모양 및 개인성 등의 정보를 구조화시킨 다중매체 입력정보, 상기 다중매체 입력정보를 매체별 정보로 분리하는 분배기, 그리고 동기정보를 이용하여 음소의 지속시간을 조정하는 동기 조정기, 영상정보를 화면에 출력하는 영상 출력장치를 구비하고 있다.

도 1은 종래의 텍스트/음성변환기의 구성도.

도 2는 본 발명이 적용되는 하드웨어의 구성도.

도 3은 본 발명에 따른 한국어 텍스트/음성변환기의 일실시예의 흐름도.

＜도면의 주요 부분에 대한 부호의 설명＞

1: 언어 처리부 2: 운율 처리부

3: 신호 처리부 4: 합성 단위 데이터 베이스

5: 데이터 입력 장치 6: 중앙 처리 장치

7: 합성 데이터 베이스 8: D/A 변환 장치

9: 영상 출력 장치 10: 다중 매체 입력 정보

11: 매체별 데이터 분배기 12: 언어 처리부

13: 운율 처리부 14: 동기 조정기

15: 신호 처리부 16: 합성 단위 데이터 베이스

17: 영상 출력 장치

이하, 첨부된 도면을 참조하여 본 발명을 상세히 설명하기로 한다.

도 2는 본 발명이 적용되는 하드웨어의 구성도로서, 도면부호 5는 다중 데이터 입력 장치, 6은 중앙 처리 장치, 7은 합성 데이터 베이스, 8은 디지탈/아날로그(D/A) 변환 장치, 9는 영상 출력 장치를 각각 나타낸다.

다중 데이터 입력 장치(5)는 영상, 텍스트 등의 다중 매체로 구성된 데이터를 입력받아 중앙 처리 장치(6)로 출력한다.

중앙 처리 장치(6)는 본 발명의 다중 데이터 입력을 분배하고 동기를 조정하며 합성음을 생성하는 알고리즘이 탑재되어 수행된다.

합성 데이터베이스(7)는 합성 알고리즘에 사용되는 합성 데이터 베이스로서 기억장치에 저장되어 있으며 상기 중앙 처리 장치(6)로 필요한 데이터를 전송한다.

디지탈/아날로그(D/A) 변환장치(8)는 합성이 끝난 디지탈 데이터를 아날로그 신호로 변환하여 외부로 출력한다.

영상 출력 장치(9)는 입력된 영상정보를 화면에 출력한다.

표 1 및 표 2는 본 발명에 적용되는 구조화된 다중 매체 입력 정보 상태를 나타내는 알고리즘으로서, 텍스트, 운율, 동화상과의 동기화 정보, 입술모양, 개인성 정보로 이루어져 있다.

Syntax

TTS_Sequence() {TTS_Sequence_Start_CodeTTS_Sentence_IDLanguage_CodeProsody_EnableVideo_EnableLip_Shape_EnableTrick_Mode_Enabledo{TTS_Sentence()}while(next_bits()==TTS_Sentence_Start_Code}

여기서, TTS_Sequence_Start_Code는 Hexadecimal 'XXXXX'로 표시된 bit string으로서 TTS 데이터 열의 시작을 의미한다.

TTS_Sentence_ID는 10-bit ID로서 각 TTS 데이터 열의 고유번호를 나타낸다.

Language_Code는 한국어, 영어, 독어, 일어, 프랑스어 등과 같이 합성하고자 하는 대상 언어를 나타낸다.

Prosody_Enable은 1-bit flag로서 원음의 운율 대이터가 구조화 데이터에 포함되면 1의 값을 갖는다.

Video_Enable은 1-bit flag로서 TTS가 동영상과 연동될 때 1의 값을 가진다.

Lip_Shape_Enable은 1-bit flag로서 입술모양 데이터가 구조화 데이터에 포함되면 1의 값을 가진다.

Trick_Mode_Enable은 1-bit flag로서 stop, restart, forward, backward와 같은 trick mode를 지원하도록 데이터가 구조화 되면 1의 값을 가진다.

Syntax

TTS_Sentence() {TTS_Sentence_Start_CodeTTS_Sentence_IDSilenceif(Silence) {Silence_Duration}else {GenderAgeif(!Video_Enable) {Speech_Rate}Length_of_TextTTS_Text()if(Prosody_Enable) {Dur_EnableF0_Contour_EnableEnergy_Contour_EnableMumber_of_Phonemesfor(j=0 ; j＜Number_of_phonemes ; j++) {Symbol_each_phonemeif(Dur_Enable) {Dur_each_phoneme}if(F0_Contour_Enable) {F0_contour_each_phoneme}if(Energy_Contour_Enable) {Energy_contour_each_phoneme}}}if(Video_Enable) {Sentence_DurationPosition_in_Sentenceoffset}if(Lip_Shape_Enable) {Number_of_Lip_Eventfor(j=0 ; j＜Number_of_Lip_Event ; j++) {Lip_in_SentenceLip_shape}}}}

여기서, TTS_Sentence_Start_Code는 Hexadecimal 'XXXXX'로 표시된 bit string으로서 TTS 문장의 시작을 의미한다. 10-bit ID로서 각 TTS 데이터 열의 고유번호를 나타낸다.

TTS_Sentence_ID는 10-bit ID로서 TTS 열내 각 TTS 문장의 고유번호를 나타낸다.

Silence는 1-bit flag 현재 입력 프레임이 무음구간일 때 '1'이 된다.

Silence_Duration은 현 무음구간의 지속 시간을 milliseconds로 나타낸다.

Gender는 1-bit로 합성음의 남녀 성별을 구분한다.

Age는 합성음의 나이를 유아, 청소년, 중년, 노년으로 구분한다.

Speech_Rate는 합성음의 발성 속도를 나타낸다.

Length_of_Text는 입력 텍스트의 문장의 길이를 byte로 나타낸다.

TTS_Text는 임의의 길이 문장 텍스트를 나타낸다.

Dur_Enable은 1-bit flag로서 각 음소의 지속시간 정보가 구조화 데이터에 포함될 때 '1'이 된다.

F0_Contour_Enable은 1-bit flag로서 각 음소의 피치 정보가 구조화 데이터에 포함될 때 '1'이 된다.

Energy_Contour_Enable은 1-bit flag로서 각 음소의 에너지 정보가 구조화 데이터에 포함될 때 '1'이 된다.

Number_of_Phonemes는 문장의 합성에 필요한 음소의 수를 나타낸다.

Symbol_each_phoneme은 IPA와 같은 각 음소를 나타내는 심볼을 나타낸다.

Dur_each_phoneme은 음소의 지속시간을 표시한다.

F0_contour_each_phoneme은 음소의 피치 패턴을 나타내는 것으로 음소의 시작점, 중간, 끝점에서의 피치값으로 표시한다.

Energy_contour_each_phoneme은 음소의 에너지 패턴을 나타내는 것으로 음소의 시작점, 중간, 끝점에서의 에너지 값을 dB로 표시한다.

Sentence_Duration은 문장에 대한 합성음의 전체 지속시간을 나타낸다.

Position_in_Sentence는 현재 프레임의 문장내 위치를 나타낸다.

offset은 동영상과 연동되는 경우, GOP(Group Of Pictures) 내에 문장의 시작점이 있을 때 GOP 시작점으로부터 문장의 시작점까지의 지연시간을 나타낸다.

Number_of_Lip_Event는 문장내 입술모양 변화점들의 개수를 나타낸다.

Lip_in_Sentence는 문장내 입술모양 변화점의 위치를 나타낸다.

Lip_shape는 문장내 입술모양 변화점에서 입술모양을 나타낸다.

텍스트 정보는 사용언어에 대한 분류코드, 문장 텍스트를 포함한다. 운율정보에는 문장내 음소의 수, 음소열 정보, 음소별 지속시간, 음소의 피치 패턴, 음소의 에너지 패턴이 있으며 합성음의 자연성을 향상시키는데 사용한다. 동화상과 합성음의 동기화 정보는 더빙의 개념으로 살펴볼 때, 그 구현 방식에 따라 3가지 경우로 나눌 수 있다.

첫째로는 문장단위로 동화상과 합성음을 동기화 시키는 방법으로서 문장의 시작점, 지속시간, 시작점 지연시간 정보를 이용하여 합성음의 지속시간을 조절한다. 각 문장의 시작점은 동영상내에서 각 문장에 대한 합성음의 출력이 시작되어야 할 장면들의 위치를 나타내며, 문장의 지속시간은 각 문장에 대한 합성음이 지속되는 장면 수를 표시한다. 그리고, 그룹영상(Group of Picture: GOP) 개념이 이용되는 MPEG-2, MPEG-4 영상압축 방식의 동화상은 재생시 임의의 장면에서부터 시작할 수 없고 반드시 그룹영상내 시작 장면에서부터 재생하계 되어 있다. 그러므로 시작점 지연시간은 그룹영상과 TTS가 동기를 맞추기 위해 필요한 정보이고, 그룹영상내 시작 장면과 발성 시작점 간의 지연시간을 나타낸다. 이 방법은 구현이 쉽고 부가적 노력이 최소화되는 장점이 있지만, 자연스러운 동기화와는 거리가 멀다.

두번째 방법으로는 동영상에서 음성신호와 관련된 구간에서는 매 음소마다 시작점, 끝점 정보와 음소 정보를 표기하여 이 정보를 합성음 생성에 이용하는 방법이다. 이 방법은 음소단위로 동화상과 합성음의 동기를 맞출 수 있으므로 정확도가 높은 장점이 있지만 동화상의 음성구간에서 음소단위로 지속시간 정보를 검출하여 기록하기 위한 부가적 노력이 아주 많은 단점이 있다.

세번째 방법으로는 음성의 시작점, 끝점, 입술의 모양, 입술모양의 변화시점을 기준으로 하여 동기화 정보를 기록하는 방법이다. 입술모양은 입술 상하간의 거리 (열림 정도), 입술 좌우 끝점간의 거리 (벌림 정도), 입술의 내밈 정도로 수치화하며, 변별적 특성이 높은 패턴을 기준으로 음소의 조음위치, 조음방법에 따라 입술 모양을 정량화, 정규화된 패턴으로 정의한다. 이 방법은 동기화를 위한 정보 제작의 부가적 노력을 최소화하면서 동기화 효율을 높이는 방법이다.

본 발명에 적용되는 구조화된 다중 매체 입력 정보는 이상의 3가지 동기화 방식을 정보제공자가 임의로 선택하여 구현할 수 있게 해준다.

또한, 입술 애니메이션을 구현하는 방법에도 구조화된 입력정보를 이용한다. 입력된 텍스트로부터 TTS에서 작성한 음소열과 음소별 지속시간, 혹은 입력정보에서 분배된 음소열과 음소별 지속시간을 이용하여 입술 애니메이션을 구현할 수도 있고, 입력정보에 포함된 입술모양 정보를 이용하여 입술 애니메이션을 구현할 수도 있다.

개인성 정보는 사용자가 합성음의 성별, 연령, 합성음 발성속도의 변화 등을 가능하계 한다. 성별에는 남,여가 있고 연령별에는 6-7세, 18세, 40세, 65세 정도의 4가지로 분류한다. 발성속도의 변화는 표준속도의 0.7배에서 1.6배의 10단계로 변화를 줄 수 있다. 이들 정보를 이용하여 합성음의 음질을 다양화한다.

도 3은 본 발명에 따른 한국어 텍스트/음성변환기의 일실시예의 흐름도로서, 다중 매체 정보 입력부(10), 매체별 데이터 분배기(11), 표준화된 언어 처리부(12), 운율 처리부(13), 동기 조정기(14), 신호처리부(15), 합성 단위 데이터 베이스(16) 및 영상 출력 장치(17)로 구성된다.

다중 매체 정보 입력부(10)는 표 1 및 표 2의 형식으로 구성되어 있는데 텍스트, 운율정보, 동화상과의 동기화 정보, 입술모양 정보로 이루어져 있다. 이중 필수 정보는 텍스트이고, 기타 정보는 개인성과 자연성 향상과 다중매체와의 동기화를 위한 선택 사항으로서 정보제공자가 선택적으로 제공할 수 있으며, 필요시 TTS 사용자가 문자입력장치나 마우스를 이용하여 수정이 가능하다. 이들 정보는 다중 매체 분배기(11)에 전달된다.

다중 매체 분배기(11)는 다중 매체 정보를 전달받아서 영상 정보는 영상 출력 장치(17)로 전달하고, 텍스트는 언어 처리부(12)로 전달하며, 동기화 정보는 동기 조정기(14) 에서 사용할 수 있는 데이터 구조로 변환하여 전달한다. 입력된 다중 매체 정보내에 운율정보가 있으면 신호처리부에서 사용할 수 있는 데이터 구조로 변환하여 운율 처리부와 동기 조정기(14)로 전달하며, 개인성 정보가 있으면 TTS 내에 합성단위 데이터 베이스와 운율 처리부에서 사용할 수 있는 데이터 구조로 변환하여 전달한다.

언어 처리부(12)는 텍스트를 음소열로 변환하고, 운율 정보를 추정하여 이를 심볼화 한 뒤 운율 처리부(13)에 보낸다. 운율 정보의 심볼은 구문구조 분석결과를 이용한 구.절 경계, 단어내 엑센트 위치, 문형 등으로부터 추정된다.

운율 처리부(13)는 상기 언어 처리부(12)의 처리 결과를 받아서 다중 매체 정보에 포함되어 있는 운율제어 파라미터 이외의 운율 제어 파라미터의 값을 계산한다. 운율 제어 파라미터로는 음소의 지속시간, 피치 contour, 에너지 contour, 쉼 위치 및 길이가 있다. 계산된 결과는 동기 조정기(15)로 전달된다.

동기 조정기(14)는 상기 운율 처리부(13)의 처리 결과를 받아서 영상신호와의 동기를 맞추기 위해 음소별 지속시간을 조정한다. 음소별 지속시간의 조정은 매체별 데이터 분배기(11)에서 보내온 동기화 정보를 이용한다. 먼저 각 음소별 조음장소, 조음방법에 따라 입술모양을 각 음소에 할당하고 이를 토대로 동기화 정보에 있는 입술모양과 비교하여 음소열을 동기화 정보에 기록된 입술모양 갯수만큼 소 그룹으로 분리한다. 그리고 소 그룹내의 음소 지속시간은 동기화 정보에 포함되어 있는 입술모양의 지속시간 정보를 이용하여 다시 계산한다. 조정된 지속시간 정보를 운율 처리부의 결과에 포함시켜 신호처리부(15)로 전달한다.

신호처리부(15)는 다중 매체 분배기(11)로부터 운율정보를 받거나 상기 동기 조정기(14)의 처리결과를 받아서 합성 단위 데이터 베이스(16)를 이용하여 합성음을 생성하여 출력한다.

합성 단위 데이터 베이스(16)는 다중 매체 분배기(11)로부터 개인성 정보를 받아서 성, 연령에 적합한 합성 단위들을 선정한 뒤 신호처리부(15)의 요구를 받아서 합성에 필요한 데이터를 신호처리부(15)로 전송한다.

상술한 바와 같이 본 발명은 실제 음성데이터를 분석하여 추정된 개인성, 운율 정보를 텍스트 정보와 함께 다단계 정보로 구성하고, 합성음 생성에 직접 이용함으로써, 합성음의 개인성을 구현하고 자연성을 향상시키며, 실제 음성데이터와 동영상의 입술모양을 분석하여 추정된 입술모양 정보와 텍스트 정보를 합성음 생성에 직접 이용하는 방식을 통해 합성음과 동영상과의 동기화를 구현함으로써, 외화 등에 한국어 더빙을 가능하계 하고, 다중 매체 환경에서 영상정보와 TTS의 동기화를 가능하계 함으로써, 통신 서비스, 사무 자동화, 교육 등의 여러 분야에 응용할 수 있는 탁월한 효과가 있다.

Claims

동영상, 에니메이션, 정지영상, 음성신호 등의 다중매체와 연동되는 음성합성 구현 방법에 있어서,

다중매체와 합성음의 동기화를 위한 부가적 정보가 포함되어 있을 때 입력된 동기화 부가정보를 이용하여 음성합성기에서 생성하는 합성음과 다중매체를 시간적으로 동기화 시키는 동기화 과정과,

합성음의 운율제어를 위한 부가적 운율정보가 포함되어 있을 때 입력된 운율 부가정보를 이용하여 운율이 제어된 합성음을 생성하는 과정과,

합성음의 개인성 선택을 위한 부가적 정보가 포함되어 있을 때 입력된 개인성 부가정보를 이용하여 음색 및 운율의 개인성이 구현되는 합성음을 생성하는 과정을 포함하여 이루어진 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
제 1 항에 있어서, 상기 입력정보의 구성에 따라 합성음 생성방식과 합성음의 음질이 가변되는 방식으로서, 다단계 정보에 텍스트 정보만 있으면 기존의 텍스트/음성변환기의 합성방식으로 합성음을 생성하고, 텍스트와 운율 정보가 있으면 텍스트/음성변환기의 운율 계산 과정을 생략하고 입력된 운율 정보를 이용해 합성음을 생성하여 합성음의 품질을 순서대로 향상시키는 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
제 1 항에 있어서, 상기 다중 매체와 합성음의 동기화를 위한 부가적 동기화 정보를 다중매체 재생시 합성음과 연동이 시작되는 위치, 합성음의 지속시간으로 구성하며 음성합성기는 입력된 텍스트의 지속시간을 입력된 지속시간에 맞춰 합성음을 생성하고 지정된 시점에서 합성음을 출력하여 다중매체와 동기화를 구현하는 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
제 3 항에 있어서, 상기 다중매체 재생기 합성음과 연동이 시작되는 위치는 동영상내에서 각 문장에 대한 합성음의 출력이 시작되어야 할 장면들의 위치를 나타내며, 합성음의 지속시간은 각 문장에 대한 합성음이 지속되는 장면 수로 표시하고, 시작점 지연시간은 그룹영상과 합성음이 동기를 맞추기 위해 필요한 정보로서 그룹영상내 시작 장면과 합성음 시작점 간의 지연시간으로 표현하는 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
제 1 항에 있어서, 상기 다중매체와 합성음의 동기화를 위한 부가적 동기화 정보를 동영상내 입술 움직임과의 동기화를 위한 입술모양, 입술모양의 변화 시점으로 구성하며 음성합성기는 입력된 텍스트의 음소별 조음 위치, 조음 방법 특성을 이용하여 음소별 입술모양을 예측하고 이들 예측된 입술모양과 입력된 입술모양, 입술모양의 변화시점과 비교하여 텍스트내 각 음소, 음절, 단어의 최적 시작시간을 계산한 뒤 입력된 지속시간에 맞춰 합성음을 생성하고 지정된 시점에서 합성음을 출력하여 다중매체와 동기화를 구현하는 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
제 5 항에 있어서, 상기 입술모양을 입술 상하간의 거리(열림 정도), 입술 좌우 끝 점간의 거리(벌림 정도), 입술의 내밈 정도로 수치화하며, 변별적 특성이 높은 패턴을 기준으로 음소의 조음위치, 조음 방법에 따라 입술모양을 정량화, 정규화된 패턴으로 정의하는 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
제 1 항에 있어서, 상기 운율 부가정보를 문장내 음소의 수, 음소열 정보로 구성된 음소 정보, 음소별 피치 패턴 정보, 음소별 에너지 패턴 정보로 구성하며 이들 정보들을 이용하여 운율이 제어된 합성음을 생성하는 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
제 7 항에 있어서, 상기 운율 부가정보들 중 일부만 합성기에 입력할 수 있으며 입력된 운율부가 정보 이외에 운율정보 텍스트/음성변환기에서 추정, 계산하여 합성음을 생성하는 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
제 7 항에 있어서, 상기 음소의 피치 패턴은 음소내 시작점, 중간점, 끝점에서의 피치값으로 표시하고 합성음 생성시에 음소의 피치패턴을 이용하여 각 음소별 피치 컨투어를 제어하는 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
제 7 항에 있어서, 상기 음소의 에너지 패턴은 음소내 시작점, 중간점, 끝점에서의 데시벨 값으로 표시된 에너지 값으로 나타내거나 음소내 시작점, 중간점, 끝점 부근에서의 정규화된 최대 진폭값으로 표시하고 합성음 생성시에 음소의 에너지 패턴을 이용하여 각 음소별 에너지 컨투어를 제어하는 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
제 1 항에 있어서, 상기 개인성 선택을 위한 부가적 정보를 성별, 나이 정보로 구성하며 입력된 개인성 부가정보를 이용하여 성별, 나이에 적합한 음색을 선택하고 운율을 제어하여 개인성이 구현되는 합성음을 생성하는 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
텍스트, 운율, 동화상과의 동기화 정보, 입술모양 및 개인성 등의 정보를 구조화 시키는 다중 매체 정보 입력부와,

상기 다중 매체 정보 입력부의 정보를 매체별 정보로 분리하는 매체별 데이터 분배기와,

상기 매체별 데이터 분배기로부터 분배된 텍스트를 음소열로 변환하고, 운율정보를 추정하여 이를 심볼화 하는 언어 처리부와,

상기 심볼화 된 운율 정보로부터 규칙 및 테이블을 이용하여 운율 제어 파라미터의 갑을 계산하는 운율 처리부와,

상기 매체별 데이터 분배기로부터 분배된 동기화 정보를 이용하여 음소의 지속시간을 조정하는 동기 조정기와,

상기 운율제어 파라미터와 합성 단위 데이터 베이스 내의 데이터를 이용하여 합성음을 생성하는 신호처리부와,

상기 매체별 데이터 분배기로부터 분배된 영상 정보를 화면에 출력하는 영상 출력 장치를 포함하여 구성된 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 장치.