[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR100240637B1 - 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치 - Google Patents

다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치 Download PDF

Info

Publication number
KR100240637B1
KR100240637B1 KR1019970017615A KR19970017615A KR100240637B1 KR 100240637 B1 KR100240637 B1 KR 100240637B1 KR 1019970017615 A KR1019970017615 A KR 1019970017615A KR 19970017615 A KR19970017615 A KR 19970017615A KR 100240637 B1 KR100240637 B1 KR 100240637B1
Authority
KR
South Korea
Prior art keywords
information
text
synthesized sound
rhyme
phoneme
Prior art date
Application number
KR1019970017615A
Other languages
English (en)
Other versions
KR19980082608A (ko
Inventor
이정철
한민수
이항섭
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR1019970017615A priority Critical patent/KR100240637B1/ko
Priority to DE19753454A priority patent/DE19753454C2/de
Priority to JP35042797A priority patent/JP3599549B2/ja
Priority to US09/020,712 priority patent/US6088673A/en
Publication of KR19980082608A publication Critical patent/KR19980082608A/ko
Application granted granted Critical
Publication of KR100240637B1 publication Critical patent/KR100240637B1/ko
Priority to US10/193,594 priority patent/USRE42647E1/en
Priority to JP2004198918A priority patent/JP4344658B2/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 다중매체 환경에서 텍스트/음성변환기(text-to-speech conversion system; TTS) 연동방법에 있어서 텍스트/음성변환기용 입력데이터 구현 방법 및 그 장치에 관한 것이다.
기존의 합성기는 입력된 텍스트로부터 음성을 합성하는 용도로만 고려되고 있는 상황이다. 그런데 텍스트/음성변환기를 이용하여 동영상에 더빙을 하고자 할 때나, 애니메이션과 같은 다중매체와 합성음 간의 자연스러운 연동을 구현하기 위해서 필요한 동기화 정보는 단지 텍스트로부터 추정하기가 불가능하며, 합성음의 자연성 향상을 위한 부가 데이터 사용, 그리고 이들 데이타의 구조화에 대한 연구결과는 거의 없는 실정이다.
따라서, 본 발명은 텍스트/음성변환기에서 텍스트 이외에 부가적 운율정보, 다중매체와의 연동에 필요한 정보, 그리고 이들 정보와 텍스트/음성변환기 간의 인터페이스를 정의하여 합성음 생성에 사용함으로써 합성음의 자연성 향상과 다중매체와 TTS간의 동기화 구현을 그 목적으로 한다.
상술한 목적을 달성하기 위한 본 발명은 기존 TTS의 언어처리부, 운율처리부, 신호처리부, 합성단위를 포함하되, 텍스트, 운율, 동화상과의 동기화 정보, 입술모양, 개인성 등의 정보를 구조화 시킨 다중매체 입력정보, 다중매체 입력정보를 매체별 정보로 분리하는 분배기, 그리고 동기 정보를 이용하여 음소의 지속시간을 조정하는 동기 조정기, 영상정보를 화면에 출력하는 영상 출력장치를 구비하고 있다.
본 발명은 실제 음성 데이타와 동영상의 입술모양을 분석하여 추정된 운율정보, 입술모양 정보와 텍스트 정보의 구조화 및 합성기 응용을 통해 합성음의 자연성과 동영상과의 동기화를 구현함으로써 외화 등에 한국어 더빙, 통신 서비스, 사무 자동화, 교육 등의 여러 분야에 응용할 수 있는 효과가 있다.

Description

다중매체와의 연동을 위한 텍스트/음성변환 구현 방법 및 그 장치{Syntax for TTS input data to synchronize with multimedia}
본 발명은 다중매체와 연동을 위한 텍스트/음성변환기(text-to-speech conversion system; 이하 TTS라 칭함)연동 방법에 있어서, TTS용 입력데이터 구현 방법 및 그 장치에 관한 것이다.
음성합성기의 기능은 컴퓨터가 사용자인 인간에게 다양한 형태의 정보를 음성으로 제공하는데 있다. 이를 위해서 음성합성기는 사용자에게 주어진 텍스트로부터 고품질의 음성 합성 서비스를 제공할 수 있어야 한다. 뿐만 아니라 동영상이나 애니메이션 등의 다중매체 환경에서 제작된 데이타 베이스나 대화 상대로부터 제공되는 다양한 미디어와 연동되기 위해서는 이들 미디어와 동기화 되도록 합성음을 생성할 수 있어야 한다. 특히 다중매체와 TTS간의 동기화는 사용자에게 고품질의 서비스를 제공하기 위해 필수적이다.
기존의 TTS는 도 1에 도시된 바와 같이 입력된 텍스트로부터 합성음을 생성하기까지 일반적으로 3 단계의 과정을 거치게 된다.
1 단계인 언어 처리부(1)에서는 텍스트를 음소열로 변환하고, 운율 정보를 추정하여 이를 심볼화 한다. 운율 정보의 심볼은 구문구조 분석결과를 이용한 구.절 경계, 단어내 엑센트 위치, 문형 등으로부터 추정된다.
2 단계인 운율 처리부(2)는 심볼화된 운율 정보로부터 규칙 및 테이블을 이용하여 운율 제어 파라미터의 값을 계산한다. 운율 제어 파라미터로는 음소의 지속시간, 피치 형태(contour), 에너지 형태(contour), 쉼 구간 정보가 있다.
3 단계인 신호처리부(3)는 합성 단위 데이터 베이스(4)와 운율 제어 파라미터를 이용하여 합성음을 생성한다. 즉 기존의 합성기는 언어 처리부(1)와 운율 처리부(2)에서 자연성, 발성 속도와 관련된 정보를 단지 입력 텍스트 만으로 추정을 해야 함을 의미한다.
또한, 기존의 TTS는 문장 단위로 입력된 데이타를 합성음으로 출력하는 단순한 기능을 가지고 있다. 그러므로 파일내 저장된 문장, 혹은 통신망을 통해 입력된 문장들을 연속해서 합성음으로 출력하기 위해서는 입력 데이타에서 문장을 읽어서 TTS의 입력으로 전달하는 주 제어 프로그램이 필요하다. 이러한 주 제어 프로그램 중에는 입력된 데이타로부터 텍스트를 분리하여 단순히 처음부터 끝까지 1회 합성음을 출력하는 방법, 텍스트 편집기와 연동하여 합성음을 생성하는 방법, 그래픽 인터페이스를 이용하여 문장을 검색하고 합성음을 생성하는 방법 등이 있지만 그 대상은 텍스트로 제한되어 있다.
현재 TTS에 대한 연구가 세계 여러 나라에서 자국어를 대상으로 많이 진행되어 일부 상용화가 이루어졌다. 그러나, 아직 입력된 텍스트로부터 음성을 합성하는 용도로만 고려되고 있는 상황이다. 그런데 TTS를 이용하여 동영상에 더빙을 하고자 할 때나, 애니메이션과 같은 다중매체와 합성음 간의 자연스러운 연동을 구현하기 위해서 필요한 동기화 정보는 단지 텍스트로부터 추정하기는 불가능하므로 현재의 구조로는 이들 기능을 구현할 수 있는 방법이 없다. 또한, 합성음의 자연성 향상을 위한 부가 데이타 사용, 그리고 이들 데이타의 구조화에 대한 연구결과는 없는 실정이다.
따라서, 본 발명은 TTS 에서 텍스트 이외에 부가적 운율정보, 다중매체와의 연동에 필요한 정보, 그리고 이들 정보와 TTS 간의 인터페이스를 정의하여 합성음 생성에 사용함으로써, 합성음의 자연성 향상과 다중매체와 TTS 간의 동기화 할 수 있는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법 및 그 장치를 제공하는 데 그 목적이 있다.
상술한 목적을 달성하기 위한 본 발명은 기존 TTS의 언어처리부, 운율처리부, 합성단위를 포함하되, 텍스트, 운율, 동화상과의 동기화 정보, 입술모양 및 개인성 등의 정보를 구조화시킨 다중매체 입력정보, 상기 다중매체 입력정보를 매체별 정보로 분리하는 분배기, 그리고 동기정보를 이용하여 음소의 지속시간을 조정하는 동기 조정기, 영상정보를 화면에 출력하는 영상 출력장치를 구비하고 있다.
도 1은 종래의 텍스트/음성변환기의 구성도.
도 2는 본 발명이 적용되는 하드웨어의 구성도.
도 3은 본 발명에 따른 한국어 텍스트/음성변환기의 일실시예의 흐름도.
<도면의 주요 부분에 대한 부호의 설명>
1: 언어 처리부 2: 운율 처리부
3: 신호 처리부 4: 합성 단위 데이터 베이스
5: 데이터 입력 장치 6: 중앙 처리 장치
7: 합성 데이터 베이스 8: D/A 변환 장치
9: 영상 출력 장치 10: 다중 매체 입력 정보
11: 매체별 데이터 분배기 12: 언어 처리부
13: 운율 처리부 14: 동기 조정기
15: 신호 처리부 16: 합성 단위 데이터 베이스
17: 영상 출력 장치
이하, 첨부된 도면을 참조하여 본 발명을 상세히 설명하기로 한다.
도 2는 본 발명이 적용되는 하드웨어의 구성도로서, 도면부호 5는 다중 데이터 입력 장치, 6은 중앙 처리 장치, 7은 합성 데이터 베이스, 8은 디지탈/아날로그(D/A) 변환 장치, 9는 영상 출력 장치를 각각 나타낸다.
다중 데이터 입력 장치(5)는 영상, 텍스트 등의 다중 매체로 구성된 데이터를 입력받아 중앙 처리 장치(6)로 출력한다.
중앙 처리 장치(6)는 본 발명의 다중 데이터 입력을 분배하고 동기를 조정하며 합성음을 생성하는 알고리즘이 탑재되어 수행된다.
합성 데이터베이스(7)는 합성 알고리즘에 사용되는 합성 데이터 베이스로서 기억장치에 저장되어 있으며 상기 중앙 처리 장치(6)로 필요한 데이터를 전송한다.
디지탈/아날로그(D/A) 변환장치(8)는 합성이 끝난 디지탈 데이터를 아날로그 신호로 변환하여 외부로 출력한다.
영상 출력 장치(9)는 입력된 영상정보를 화면에 출력한다.
표 1 및 표 2는 본 발명에 적용되는 구조화된 다중 매체 입력 정보 상태를 나타내는 알고리즘으로서, 텍스트, 운율, 동화상과의 동기화 정보, 입술모양, 개인성 정보로 이루어져 있다.
Syntax
TTS_Sequence() {TTS_Sequence_Start_CodeTTS_Sentence_IDLanguage_CodeProsody_EnableVideo_EnableLip_Shape_EnableTrick_Mode_Enabledo{TTS_Sentence()}while(next_bits()==TTS_Sentence_Start_Code}
여기서, TTS_Sequence_Start_Code는 Hexadecimal 'XXXXX'로 표시된 bit string으로서 TTS 데이터 열의 시작을 의미한다.
TTS_Sentence_ID는 10-bit ID로서 각 TTS 데이터 열의 고유번호를 나타낸다.
Language_Code는 한국어, 영어, 독어, 일어, 프랑스어 등과 같이 합성하고자 하는 대상 언어를 나타낸다.
Prosody_Enable은 1-bit flag로서 원음의 운율 대이터가 구조화 데이터에 포함되면 1의 값을 갖는다.
Video_Enable은 1-bit flag로서 TTS가 동영상과 연동될 때 1의 값을 가진다.
Lip_Shape_Enable은 1-bit flag로서 입술모양 데이터가 구조화 데이터에 포함되면 1의 값을 가진다.
Trick_Mode_Enable은 1-bit flag로서 stop, restart, forward, backward와 같은 trick mode를 지원하도록 데이터가 구조화 되면 1의 값을 가진다.
Syntax
TTS_Sentence() {TTS_Sentence_Start_CodeTTS_Sentence_IDSilenceif(Silence) {Silence_Duration}else {GenderAgeif(!Video_Enable) {Speech_Rate}Length_of_TextTTS_Text()if(Prosody_Enable) {Dur_EnableF0_Contour_EnableEnergy_Contour_EnableMumber_of_Phonemesfor(j=0 ; j<Number_of_phonemes ; j++) {Symbol_each_phonemeif(Dur_Enable) {Dur_each_phoneme}if(F0_Contour_Enable) {F0_contour_each_phoneme}if(Energy_Contour_Enable) {Energy_contour_each_phoneme}}}if(Video_Enable) {Sentence_DurationPosition_in_Sentenceoffset}if(Lip_Shape_Enable) {Number_of_Lip_Eventfor(j=0 ; j<Number_of_Lip_Event ; j++) {Lip_in_SentenceLip_shape}}}}
여기서, TTS_Sentence_Start_Code는 Hexadecimal 'XXXXX'로 표시된 bit string으로서 TTS 문장의 시작을 의미한다. 10-bit ID로서 각 TTS 데이터 열의 고유번호를 나타낸다.
TTS_Sentence_ID는 10-bit ID로서 TTS 열내 각 TTS 문장의 고유번호를 나타낸다.
Silence는 1-bit flag 현재 입력 프레임이 무음구간일 때 '1'이 된다.
Silence_Duration은 현 무음구간의 지속 시간을 milliseconds로 나타낸다.
Gender는 1-bit로 합성음의 남녀 성별을 구분한다.
Age는 합성음의 나이를 유아, 청소년, 중년, 노년으로 구분한다.
Speech_Rate는 합성음의 발성 속도를 나타낸다.
Length_of_Text는 입력 텍스트의 문장의 길이를 byte로 나타낸다.
TTS_Text는 임의의 길이 문장 텍스트를 나타낸다.
Dur_Enable은 1-bit flag로서 각 음소의 지속시간 정보가 구조화 데이터에 포함될 때 '1'이 된다.
F0_Contour_Enable은 1-bit flag로서 각 음소의 피치 정보가 구조화 데이터에 포함될 때 '1'이 된다.
Energy_Contour_Enable은 1-bit flag로서 각 음소의 에너지 정보가 구조화 데이터에 포함될 때 '1'이 된다.
Number_of_Phonemes는 문장의 합성에 필요한 음소의 수를 나타낸다.
Symbol_each_phoneme은 IPA와 같은 각 음소를 나타내는 심볼을 나타낸다.
Dur_each_phoneme은 음소의 지속시간을 표시한다.
F0_contour_each_phoneme은 음소의 피치 패턴을 나타내는 것으로 음소의 시작점, 중간, 끝점에서의 피치값으로 표시한다.
Energy_contour_each_phoneme은 음소의 에너지 패턴을 나타내는 것으로 음소의 시작점, 중간, 끝점에서의 에너지 값을 dB로 표시한다.
Sentence_Duration은 문장에 대한 합성음의 전체 지속시간을 나타낸다.
Position_in_Sentence는 현재 프레임의 문장내 위치를 나타낸다.
offset은 동영상과 연동되는 경우, GOP(Group Of Pictures) 내에 문장의 시작점이 있을 때 GOP 시작점으로부터 문장의 시작점까지의 지연시간을 나타낸다.
Number_of_Lip_Event는 문장내 입술모양 변화점들의 개수를 나타낸다.
Lip_in_Sentence는 문장내 입술모양 변화점의 위치를 나타낸다.
Lip_shape는 문장내 입술모양 변화점에서 입술모양을 나타낸다.
텍스트 정보는 사용언어에 대한 분류코드, 문장 텍스트를 포함한다. 운율정보에는 문장내 음소의 수, 음소열 정보, 음소별 지속시간, 음소의 피치 패턴, 음소의 에너지 패턴이 있으며 합성음의 자연성을 향상시키는데 사용한다. 동화상과 합성음의 동기화 정보는 더빙의 개념으로 살펴볼 때, 그 구현 방식에 따라 3가지 경우로 나눌 수 있다.
첫째로는 문장단위로 동화상과 합성음을 동기화 시키는 방법으로서 문장의 시작점, 지속시간, 시작점 지연시간 정보를 이용하여 합성음의 지속시간을 조절한다. 각 문장의 시작점은 동영상내에서 각 문장에 대한 합성음의 출력이 시작되어야 할 장면들의 위치를 나타내며, 문장의 지속시간은 각 문장에 대한 합성음이 지속되는 장면 수를 표시한다. 그리고, 그룹영상(Group of Picture: GOP) 개념이 이용되는 MPEG-2, MPEG-4 영상압축 방식의 동화상은 재생시 임의의 장면에서부터 시작할 수 없고 반드시 그룹영상내 시작 장면에서부터 재생하계 되어 있다. 그러므로 시작점 지연시간은 그룹영상과 TTS가 동기를 맞추기 위해 필요한 정보이고, 그룹영상내 시작 장면과 발성 시작점 간의 지연시간을 나타낸다. 이 방법은 구현이 쉽고 부가적 노력이 최소화되는 장점이 있지만, 자연스러운 동기화와는 거리가 멀다.
두번째 방법으로는 동영상에서 음성신호와 관련된 구간에서는 매 음소마다 시작점, 끝점 정보와 음소 정보를 표기하여 이 정보를 합성음 생성에 이용하는 방법이다. 이 방법은 음소단위로 동화상과 합성음의 동기를 맞출 수 있으므로 정확도가 높은 장점이 있지만 동화상의 음성구간에서 음소단위로 지속시간 정보를 검출하여 기록하기 위한 부가적 노력이 아주 많은 단점이 있다.
세번째 방법으로는 음성의 시작점, 끝점, 입술의 모양, 입술모양의 변화시점을 기준으로 하여 동기화 정보를 기록하는 방법이다. 입술모양은 입술 상하간의 거리 (열림 정도), 입술 좌우 끝점간의 거리 (벌림 정도), 입술의 내밈 정도로 수치화하며, 변별적 특성이 높은 패턴을 기준으로 음소의 조음위치, 조음방법에 따라 입술 모양을 정량화, 정규화된 패턴으로 정의한다. 이 방법은 동기화를 위한 정보 제작의 부가적 노력을 최소화하면서 동기화 효율을 높이는 방법이다.
본 발명에 적용되는 구조화된 다중 매체 입력 정보는 이상의 3가지 동기화 방식을 정보제공자가 임의로 선택하여 구현할 수 있게 해준다.
또한, 입술 애니메이션을 구현하는 방법에도 구조화된 입력정보를 이용한다. 입력된 텍스트로부터 TTS에서 작성한 음소열과 음소별 지속시간, 혹은 입력정보에서 분배된 음소열과 음소별 지속시간을 이용하여 입술 애니메이션을 구현할 수도 있고, 입력정보에 포함된 입술모양 정보를 이용하여 입술 애니메이션을 구현할 수도 있다.
개인성 정보는 사용자가 합성음의 성별, 연령, 합성음 발성속도의 변화 등을 가능하계 한다. 성별에는 남,여가 있고 연령별에는 6-7세, 18세, 40세, 65세 정도의 4가지로 분류한다. 발성속도의 변화는 표준속도의 0.7배에서 1.6배의 10단계로 변화를 줄 수 있다. 이들 정보를 이용하여 합성음의 음질을 다양화한다.
도 3은 본 발명에 따른 한국어 텍스트/음성변환기의 일실시예의 흐름도로서, 다중 매체 정보 입력부(10), 매체별 데이터 분배기(11), 표준화된 언어 처리부(12), 운율 처리부(13), 동기 조정기(14), 신호처리부(15), 합성 단위 데이터 베이스(16) 및 영상 출력 장치(17)로 구성된다.
다중 매체 정보 입력부(10)는 표 1 및 표 2의 형식으로 구성되어 있는데 텍스트, 운율정보, 동화상과의 동기화 정보, 입술모양 정보로 이루어져 있다. 이중 필수 정보는 텍스트이고, 기타 정보는 개인성과 자연성 향상과 다중매체와의 동기화를 위한 선택 사항으로서 정보제공자가 선택적으로 제공할 수 있으며, 필요시 TTS 사용자가 문자입력장치나 마우스를 이용하여 수정이 가능하다. 이들 정보는 다중 매체 분배기(11)에 전달된다.
다중 매체 분배기(11)는 다중 매체 정보를 전달받아서 영상 정보는 영상 출력 장치(17)로 전달하고, 텍스트는 언어 처리부(12)로 전달하며, 동기화 정보는 동기 조정기(14) 에서 사용할 수 있는 데이터 구조로 변환하여 전달한다. 입력된 다중 매체 정보내에 운율정보가 있으면 신호처리부에서 사용할 수 있는 데이터 구조로 변환하여 운율 처리부와 동기 조정기(14)로 전달하며, 개인성 정보가 있으면 TTS 내에 합성단위 데이터 베이스와 운율 처리부에서 사용할 수 있는 데이터 구조로 변환하여 전달한다.
언어 처리부(12)는 텍스트를 음소열로 변환하고, 운율 정보를 추정하여 이를 심볼화 한 뒤 운율 처리부(13)에 보낸다. 운율 정보의 심볼은 구문구조 분석결과를 이용한 구.절 경계, 단어내 엑센트 위치, 문형 등으로부터 추정된다.
운율 처리부(13)는 상기 언어 처리부(12)의 처리 결과를 받아서 다중 매체 정보에 포함되어 있는 운율제어 파라미터 이외의 운율 제어 파라미터의 값을 계산한다. 운율 제어 파라미터로는 음소의 지속시간, 피치 contour, 에너지 contour, 쉼 위치 및 길이가 있다. 계산된 결과는 동기 조정기(15)로 전달된다.
동기 조정기(14)는 상기 운율 처리부(13)의 처리 결과를 받아서 영상신호와의 동기를 맞추기 위해 음소별 지속시간을 조정한다. 음소별 지속시간의 조정은 매체별 데이터 분배기(11)에서 보내온 동기화 정보를 이용한다. 먼저 각 음소별 조음장소, 조음방법에 따라 입술모양을 각 음소에 할당하고 이를 토대로 동기화 정보에 있는 입술모양과 비교하여 음소열을 동기화 정보에 기록된 입술모양 갯수만큼 소 그룹으로 분리한다. 그리고 소 그룹내의 음소 지속시간은 동기화 정보에 포함되어 있는 입술모양의 지속시간 정보를 이용하여 다시 계산한다. 조정된 지속시간 정보를 운율 처리부의 결과에 포함시켜 신호처리부(15)로 전달한다.
신호처리부(15)는 다중 매체 분배기(11)로부터 운율정보를 받거나 상기 동기 조정기(14)의 처리결과를 받아서 합성 단위 데이터 베이스(16)를 이용하여 합성음을 생성하여 출력한다.
합성 단위 데이터 베이스(16)는 다중 매체 분배기(11)로부터 개인성 정보를 받아서 성, 연령에 적합한 합성 단위들을 선정한 뒤 신호처리부(15)의 요구를 받아서 합성에 필요한 데이터를 신호처리부(15)로 전송한다.
상술한 바와 같이 본 발명은 실제 음성데이터를 분석하여 추정된 개인성, 운율 정보를 텍스트 정보와 함께 다단계 정보로 구성하고, 합성음 생성에 직접 이용함으로써, 합성음의 개인성을 구현하고 자연성을 향상시키며, 실제 음성데이터와 동영상의 입술모양을 분석하여 추정된 입술모양 정보와 텍스트 정보를 합성음 생성에 직접 이용하는 방식을 통해 합성음과 동영상과의 동기화를 구현함으로써, 외화 등에 한국어 더빙을 가능하계 하고, 다중 매체 환경에서 영상정보와 TTS의 동기화를 가능하계 함으로써, 통신 서비스, 사무 자동화, 교육 등의 여러 분야에 응용할 수 있는 탁월한 효과가 있다.

Claims (12)

  1. 동영상, 에니메이션, 정지영상, 음성신호 등의 다중매체와 연동되는 음성합성 구현 방법에 있어서,
    다중매체와 합성음의 동기화를 위한 부가적 정보가 포함되어 있을 때 입력된 동기화 부가정보를 이용하여 음성합성기에서 생성하는 합성음과 다중매체를 시간적으로 동기화 시키는 동기화 과정과,
    합성음의 운율제어를 위한 부가적 운율정보가 포함되어 있을 때 입력된 운율 부가정보를 이용하여 운율이 제어된 합성음을 생성하는 과정과,
    합성음의 개인성 선택을 위한 부가적 정보가 포함되어 있을 때 입력된 개인성 부가정보를 이용하여 음색 및 운율의 개인성이 구현되는 합성음을 생성하는 과정을 포함하여 이루어진 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
  2. 제 1 항에 있어서, 상기 입력정보의 구성에 따라 합성음 생성방식과 합성음의 음질이 가변되는 방식으로서, 다단계 정보에 텍스트 정보만 있으면 기존의 텍스트/음성변환기의 합성방식으로 합성음을 생성하고, 텍스트와 운율 정보가 있으면 텍스트/음성변환기의 운율 계산 과정을 생략하고 입력된 운율 정보를 이용해 합성음을 생성하여 합성음의 품질을 순서대로 향상시키는 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
  3. 제 1 항에 있어서, 상기 다중 매체와 합성음의 동기화를 위한 부가적 동기화 정보를 다중매체 재생시 합성음과 연동이 시작되는 위치, 합성음의 지속시간으로 구성하며 음성합성기는 입력된 텍스트의 지속시간을 입력된 지속시간에 맞춰 합성음을 생성하고 지정된 시점에서 합성음을 출력하여 다중매체와 동기화를 구현하는 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
  4. 제 3 항에 있어서, 상기 다중매체 재생기 합성음과 연동이 시작되는 위치는 동영상내에서 각 문장에 대한 합성음의 출력이 시작되어야 할 장면들의 위치를 나타내며, 합성음의 지속시간은 각 문장에 대한 합성음이 지속되는 장면 수로 표시하고, 시작점 지연시간은 그룹영상과 합성음이 동기를 맞추기 위해 필요한 정보로서 그룹영상내 시작 장면과 합성음 시작점 간의 지연시간으로 표현하는 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
  5. 제 1 항에 있어서, 상기 다중매체와 합성음의 동기화를 위한 부가적 동기화 정보를 동영상내 입술 움직임과의 동기화를 위한 입술모양, 입술모양의 변화 시점으로 구성하며 음성합성기는 입력된 텍스트의 음소별 조음 위치, 조음 방법 특성을 이용하여 음소별 입술모양을 예측하고 이들 예측된 입술모양과 입력된 입술모양, 입술모양의 변화시점과 비교하여 텍스트내 각 음소, 음절, 단어의 최적 시작시간을 계산한 뒤 입력된 지속시간에 맞춰 합성음을 생성하고 지정된 시점에서 합성음을 출력하여 다중매체와 동기화를 구현하는 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
  6. 제 5 항에 있어서, 상기 입술모양을 입술 상하간의 거리(열림 정도), 입술 좌우 끝 점간의 거리(벌림 정도), 입술의 내밈 정도로 수치화하며, 변별적 특성이 높은 패턴을 기준으로 음소의 조음위치, 조음 방법에 따라 입술모양을 정량화, 정규화된 패턴으로 정의하는 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
  7. 제 1 항에 있어서, 상기 운율 부가정보를 문장내 음소의 수, 음소열 정보로 구성된 음소 정보, 음소별 피치 패턴 정보, 음소별 에너지 패턴 정보로 구성하며 이들 정보들을 이용하여 운율이 제어된 합성음을 생성하는 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
  8. 제 7 항에 있어서, 상기 운율 부가정보들 중 일부만 합성기에 입력할 수 있으며 입력된 운율부가 정보 이외에 운율정보 텍스트/음성변환기에서 추정, 계산하여 합성음을 생성하는 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
  9. 제 7 항에 있어서, 상기 음소의 피치 패턴은 음소내 시작점, 중간점, 끝점에서의 피치값으로 표시하고 합성음 생성시에 음소의 피치패턴을 이용하여 각 음소별 피치 컨투어를 제어하는 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
  10. 제 7 항에 있어서, 상기 음소의 에너지 패턴은 음소내 시작점, 중간점, 끝점에서의 데시벨 값으로 표시된 에너지 값으로 나타내거나 음소내 시작점, 중간점, 끝점 부근에서의 정규화된 최대 진폭값으로 표시하고 합성음 생성시에 음소의 에너지 패턴을 이용하여 각 음소별 에너지 컨투어를 제어하는 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
  11. 제 1 항에 있어서, 상기 개인성 선택을 위한 부가적 정보를 성별, 나이 정보로 구성하며 입력된 개인성 부가정보를 이용하여 성별, 나이에 적합한 음색을 선택하고 운율을 제어하여 개인성이 구현되는 합성음을 생성하는 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 구현 방법.
  12. 텍스트, 운율, 동화상과의 동기화 정보, 입술모양 및 개인성 등의 정보를 구조화 시키는 다중 매체 정보 입력부와,
    상기 다중 매체 정보 입력부의 정보를 매체별 정보로 분리하는 매체별 데이터 분배기와,
    상기 매체별 데이터 분배기로부터 분배된 텍스트를 음소열로 변환하고, 운율정보를 추정하여 이를 심볼화 하는 언어 처리부와,
    상기 심볼화 된 운율 정보로부터 규칙 및 테이블을 이용하여 운율 제어 파라미터의 갑을 계산하는 운율 처리부와,
    상기 매체별 데이터 분배기로부터 분배된 동기화 정보를 이용하여 음소의 지속시간을 조정하는 동기 조정기와,
    상기 운율제어 파라미터와 합성 단위 데이터 베이스 내의 데이터를 이용하여 합성음을 생성하는 신호처리부와,
    상기 매체별 데이터 분배기로부터 분배된 영상 정보를 화면에 출력하는 영상 출력 장치를 포함하여 구성된 것을 특징으로 하는 다중매체와의 연동을 위한 텍스트/음성변환 장치.
KR1019970017615A 1997-05-08 1997-05-08 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치 KR100240637B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1019970017615A KR100240637B1 (ko) 1997-05-08 1997-05-08 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치
DE19753454A DE19753454C2 (de) 1997-05-08 1997-12-02 Text/Sprache-Umsetzungssystem zur Synchronisierung synthetisierter Sprache mit einem Film in einer Multimediaumgebung und Verfahren für eine derartige Synchronisierung
JP35042797A JP3599549B2 (ja) 1997-05-08 1997-12-19 動映像と合成音を同期化するテキスト/音声変換器、および、動映像と合成音を同期化する方法
US09/020,712 US6088673A (en) 1997-05-08 1998-02-09 Text-to-speech conversion system for interlocking with multimedia and a method for organizing input data of the same
US10/193,594 USRE42647E1 (en) 1997-05-08 2002-09-30 Text-to speech conversion system for synchronizing between synthesized speech and a moving picture in a multimedia environment and a method of the same
JP2004198918A JP4344658B2 (ja) 1997-05-08 2004-07-06 音声合成機

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970017615A KR100240637B1 (ko) 1997-05-08 1997-05-08 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR19980082608A KR19980082608A (ko) 1998-12-05
KR100240637B1 true KR100240637B1 (ko) 2000-01-15

Family

ID=19505142

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970017615A KR100240637B1 (ko) 1997-05-08 1997-05-08 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치

Country Status (4)

Country Link
US (2) US6088673A (ko)
JP (2) JP3599549B2 (ko)
KR (1) KR100240637B1 (ko)
DE (1) DE19753454C2 (ko)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7076426B1 (en) * 1998-01-30 2006-07-11 At&T Corp. Advance TTS for facial animation
KR100395491B1 (ko) * 1999-08-16 2003-08-25 한국전자통신연구원 아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법
JP4320487B2 (ja) * 1999-09-03 2009-08-26 ソニー株式会社 情報処理装置および方法、並びにプログラム格納媒体
USRE42904E1 (en) * 1999-09-29 2011-11-08 Frederick Monocacy Llc System and apparatus for dynamically generating audible notices from an information network
US6557026B1 (en) * 1999-09-29 2003-04-29 Morphism, L.L.C. System and apparatus for dynamically generating audible notices from an information network
JP4032273B2 (ja) * 1999-12-28 2008-01-16 ソニー株式会社 同期制御装置および方法、並びに記録媒体
JP4465768B2 (ja) * 1999-12-28 2010-05-19 ソニー株式会社 音声合成装置および方法、並びに記録媒体
US6529586B1 (en) 2000-08-31 2003-03-04 Oracle Cable, Inc. System and method for gathering, personalized rendering, and secure telephonic transmission of audio data
US6975988B1 (en) * 2000-11-10 2005-12-13 Adam Roth Electronic mail method and system using associated audio and visual techniques
KR100379995B1 (ko) * 2000-12-08 2003-04-11 야무솔루션스(주) 텍스트/음성 변환 기능을 갖는 멀티코덱 플레이어
US20030009342A1 (en) * 2001-07-06 2003-01-09 Haley Mark R. Software that converts text-to-speech in any language and shows related multimedia
US7487092B2 (en) * 2003-10-17 2009-02-03 International Business Machines Corporation Interactive debugging and tuning method for CTTS voice building
US8121841B2 (en) * 2003-12-16 2012-02-21 Loquendo S.P.A. Text-to-speech method and system, computer program product therefor
US20050187772A1 (en) * 2004-02-25 2005-08-25 Fuji Xerox Co., Ltd. Systems and methods for synthesizing speech using discourse function level prosodic features
US20060136215A1 (en) * 2004-12-21 2006-06-22 Jong Jin Kim Method of speaking rate conversion in text-to-speech system
CN1918628A (zh) * 2004-12-28 2007-02-21 松下电器产业株式会社 声音合成方法和信息提供装置
KR100710600B1 (ko) * 2005-01-25 2007-04-24 우종식 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동동기 생성/재생 방법 및 그 장치
US9087049B2 (en) * 2005-10-26 2015-07-21 Cortica, Ltd. System and method for context translation of natural language
TWI341956B (en) * 2007-05-30 2011-05-11 Delta Electronics Inc Projection apparatus with function of speech indication and control method thereof for use in the apparatus
US8374873B2 (en) 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
US8731931B2 (en) * 2010-06-18 2014-05-20 At&T Intellectual Property I, L.P. System and method for unit selection text-to-speech using a modified Viterbi approach
CA2818004C (en) 2010-12-02 2020-07-14 Accessible Publishing Systems Pty Ltd Text conversion and representation system
JP2012150363A (ja) * 2011-01-20 2012-08-09 Kddi Corp メッセージ映像編集プログラムおよびメッセージ映像編集装置
KR101358999B1 (ko) * 2011-11-21 2014-02-07 (주) 퓨처로봇 캐릭터의 다국어 발화 시스템 및 방법
WO2014141054A1 (en) * 2013-03-11 2014-09-18 Video Dubber Ltd. Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
EP3921770A4 (en) * 2019-02-05 2022-11-09 Igentify Ltd. SYSTEM AND METHOD FOR MODULATION OF DYNAMIC GAPS IN SPEECH
EP4052254B1 (en) * 2019-11-18 2024-10-16 Google LLC Rescoring automatic speech recognition hypotheses using audio-visual matching
KR20220147276A (ko) * 2021-04-27 2022-11-03 삼성전자주식회사 전자 장치 및 전자 장치의 프로소디 제어를 위한 tts 모델 생성 방법
WO2023166527A1 (en) * 2022-03-01 2023-09-07 Gan Studio Inc. Voiced-over multimedia track generation

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT72083B (de) 1912-12-18 1916-07-10 S J Arnheim Befestigung für leicht auswechselbare Schlösser.
US4260229A (en) * 1978-01-23 1981-04-07 Bloomstein Richard W Creating visual images of lip movements
US4305131A (en) * 1979-02-05 1981-12-08 Best Robert M Dialog between TV movies and human viewers
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
GB8528143D0 (en) 1985-11-14 1985-12-18 British Telecomm Image encoding & synthesis
JP2518683B2 (ja) 1989-03-08 1996-07-24 国際電信電話株式会社 画像合成方法及びその装置
EP0390048B1 (en) * 1989-03-28 1996-10-23 Matsushita Electric Industrial Co., Ltd. Apparatus and method for data edition
US5111409A (en) * 1989-07-21 1992-05-05 Elon Gasper Authoring and use systems for sound synchronized animation
JPH03241399A (ja) 1990-02-20 1991-10-28 Canon Inc 音声送受信装置
DE4101022A1 (de) * 1991-01-16 1992-07-23 Medav Digitale Signalverarbeit Verfahren zur geschwindigkeitsvariablen wiedergabe von audiosignalen ohne spektrale veraenderung der signale
US5613056A (en) 1991-02-19 1997-03-18 Bright Star Technology, Inc. Advanced tools for speech synchronized animation
JPH04285769A (ja) 1991-03-14 1992-10-09 Nec Home Electron Ltd マルチメディアデータの編集方法
JP3070136B2 (ja) 1991-06-06 2000-07-24 ソニー株式会社 音声信号に基づく画像の変形方法
US5313522A (en) * 1991-08-23 1994-05-17 Slager Robert P Apparatus for generating from an audio signal a moving visual lip image from which a speech content of the signal can be comprehended by a lipreader
JP3135308B2 (ja) 1991-09-03 2001-02-13 株式会社日立製作所 ディジタルビデオ・オーディオ信号伝送方法及びディジタルオーディオ信号再生方法
JPH05188985A (ja) 1992-01-13 1993-07-30 Hitachi Ltd 音声圧縮方式、及び通信方式、並びに無線通信装置
JPH05313686A (ja) 1992-04-02 1993-11-26 Sony Corp 表示制御装置
JP3083640B2 (ja) * 1992-05-28 2000-09-04 株式会社東芝 音声合成方法および装置
JP2973726B2 (ja) * 1992-08-31 1999-11-08 株式会社日立製作所 情報処理装置
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
US5500919A (en) * 1992-11-18 1996-03-19 Canon Information Systems, Inc. Graphics user interface for controlling text-to-speech conversion
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
JP2734335B2 (ja) 1993-05-12 1998-03-30 松下電器産業株式会社 データ伝送方法
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
JP3059022B2 (ja) 1993-06-07 2000-07-04 シャープ株式会社 動画像表示装置
JP3364281B2 (ja) 1993-07-16 2003-01-08 パイオニア株式会社 時分割ビデオ及びオーディオ信号の同期方式
US5608839A (en) 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
JP2611728B2 (ja) * 1993-11-02 1997-05-21 日本電気株式会社 動画像符号化復号化方式
JPH07306692A (ja) 1994-05-13 1995-11-21 Matsushita Electric Ind Co Ltd 音声認識装置及び音声入力装置
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
GB2291571A (en) * 1994-07-19 1996-01-24 Ibm Text to speech system; acoustic processor requests linguistic processor output
IT1266943B1 (it) 1994-09-29 1997-01-21 Cselt Centro Studi Lab Telecom Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda.
US5677739A (en) 1995-03-02 1997-10-14 National Captioning Institute System and method for providing described television services
JP3507176B2 (ja) * 1995-03-20 2004-03-15 富士通株式会社 マルチメディアシステム動的連動方式
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
KR100236974B1 (ko) * 1996-12-13 2000-02-01 정선종 동화상과 텍스트/음성변환기 간의 동기화 시스템
JP4359299B2 (ja) 2006-09-13 2009-11-04 Tdk株式会社 積層型セラミック電子部品の製造方法

Also Published As

Publication number Publication date
US6088673A (en) 2000-07-11
DE19753454C2 (de) 2003-06-18
JP4344658B2 (ja) 2009-10-14
JP3599549B2 (ja) 2004-12-08
JP2004361965A (ja) 2004-12-24
KR19980082608A (ko) 1998-12-05
DE19753454A1 (de) 1998-11-12
JPH10320170A (ja) 1998-12-04
USRE42647E1 (en) 2011-08-23

Similar Documents

Publication Publication Date Title
KR100240637B1 (ko) 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치
KR100236974B1 (ko) 동화상과 텍스트/음성변환기 간의 동기화 시스템
US5943648A (en) Speech signal distribution system providing supplemental parameter associated data
KR101274961B1 (ko) 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템
US7145606B2 (en) Post-synchronizing an information stream including lip objects replacement
JP4539537B2 (ja) 音声合成装置,音声合成方法,およびコンピュータプログラム
JP6665446B2 (ja) 情報処理装置、プログラム及び音声合成方法
US20080275700A1 (en) Method of and System for Modifying Messages
CN108259965A (zh) 一种视频剪辑方法和剪辑系统
JP5045519B2 (ja) 動作生成装置、ロボット及び動作生成方法
WO2023276539A1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
JP2011055483A (ja) 番組画像配信システム、番組画像配信方法及びプログラム
JP2982697B2 (ja) テロップ表示装置
KR100710600B1 (ko) 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동동기 생성/재생 방법 및 그 장치
JP6486582B2 (ja) 電子機器、音声制御方法、およびプログラム
JP2002300434A (ja) 番組送出システム及びこれに用いる番組送出装置
JP3426957B2 (ja) 映像中への音声録音支援表示方法及び装置及びこの方法を記録した記録媒体
WO2021255831A1 (ja) 送信装置、コミュニケーション方法、及びプログラム
JP2001242890A (ja) 音声データのデータ構造、生成方法、再生方法、記録方法、記録媒体、配信方法、及びマルチメディアの再生方法
JP2004071013A (ja) 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム
JP2007108450A (ja) 音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム
KR20110121255A (ko) 멀티미디어 자료 제공 시스템
JP2004294795A (ja) 楽音合成制御データ、該データを記録した記録媒体、データ作成装置、プログラム及び楽音合成装置
KR20010028688A (ko) 음성 인식 시스템의 안내 음성 생성 장치 및 방법
JP2001056695A (ja) 音声合成方法及び音声合成プログラムを記憶した記憶媒体

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20070919

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee