KR0146549B1

KR0146549B1 - 한국어 텍스트/음성 변환 방법

Info

Publication number: KR0146549B1
Application number: KR1019950014828A
Authority: KR
Inventors: 이정철; 최운천; 김상훈
Original assignee: 양승택; 한국전자통신연구원; 조백제; 한국전기통신공사
Priority date: 1995-06-05
Filing date: 1995-06-05
Publication date: 1998-09-15
Also published as: KR970002706A

Abstract

본 발명은 한국어 텍스트/ 음성 변환 방법에 관한 것으로, 규칙을 이용한 언어 처리 모듈, 운율 처리 모듈을 통하여 합성음의 자연성을 높이고, 합성음 생성 모듈에서는 TD-PSOLA 합성기를 이용하여 합성음의 명료도를 높인 한국어 텍스트/ 음성 변환 방법을 제공하기 위하여, 한국어의 음운 구조 형태와 음소 연결의 제약을 분석하여 합성단위를 분류하는 제 1 단계; 음소 단위로 합성단위를 쉽게 억세스하고, 음소의 지속 시간 변경 및 피치 제어를 실시간에 처리하기 위한 구조로 합성단위 데이타베이스를 작성하는 제 2 단계; 상기 합성단위 데이타베이스에서 음절의 각 세그먼트에 필요한 데이타를 음소, 반음절 형태소로 가져오는 제 3 단계; 및 텍스트 문장에 대하여 전처리를 수행한 후에 어절 분석을 하고 파싱 과정을 수행한 다음에 글자/음운 변환을 수행하고, 문장 구조에 따라 적합한 운율 규칙을 적용하고, 발음 기호와 운율 정보를 합성단위 DB에서 검색하여 합성단위들을 제 4 단계를 포함하여 합성음의 자연성의 유창성의 향상을 높이고, 구현이 용이하고 합성음의 명료도를 크게 향상시킬 수 있는 효과가 있다.

Description

한국어 텍스트/ 음성 변환 방법

제1도는 본 발명이 적용되는 하드웨어의 구성도

제2도는 본 발명에 사용되는 합성단위 데이타베이스의 구성도

제3도는 본 발명에 사용되는 CDU의 유형별 결합 흐름도

제4도는 본 발명에 따른 흐름도

제5도는 본 발명에 따른 파싱 과정의 흐름도

제6도는 본 발명에 따른 운율 처리 과정의 흐름도

제7도는 본 발명에 따른 어절, 음절 및 음소 지속 시간 계산의 흐름도

* 도면의 주요부분에 대한 부호의 설명

11 : 문자 입력 장치 12 : 중앙 처리 장치

13 : 합성단위 데이타베이스 14 : D/A 변환 장치

21 : 합성단위 DB 중 dbdic 파일의 구조

22 : 합성단위 DB 중 dbptch 파일의 구조

23 : 합성단위 DB 중 dbsp 파일의 구조

본 발명은 규칙을 이용한 언어 처리 모듈, 운율 처리 모듈을 통하여 합성음의 자연성을 높이고, 합성음 생성에서는 TD-PSOLA(time domain pitch synchronous overlap and add) 합성기를 이용하여 합성음의 명료도를 높인 한국어 텍스트/ 음성 변환(text-to-speech conversion: 이하, TTS 라 함)방법에 관한 것이다.

음성 합성의 기능은 컴퓨터가 사용자인 인간에게 다양한 형태의 정보를 음성으로 제공하는 것으로, 사용자는 음성 합성을 이용하여 기존의 텍스트 데이타나 대화 상대로부터 제공되는 텍스트 정보를 음성으로 출력할 수 있다. 물론 사용자에게 고품질의 음성 합성 서비스를 제공하기 위해서는 합성음의 명료도와 자연성이 높고 발성 속도 및 적절한 의미적 강조가 이루어지도록 유창해야 하며 하드웨어와 소프트웨어측면에서 쉽게 구현할 수 있어야 한다.

현재 이용되고 있는 합성단위로는 문장, 어절, 음절의 조합 방식, 또는 더 작은 단위로 이음절, 이음소, 음소 등이 있다. 이러한 합성단위의 선정, 합성단위 DB의 작성 및 합성 단위간의 결합 방법은 합성음의 음질과 음색에 직접적으로 영향을 주는 중요한 요인이다.

운율은 음의 높이, 세기, 길이의 3가지 형태로 나타난다. 이중 음의 높낮이 변화는 억양을, 음의 세기는 의미적 강세를, 음의 길이는 조음점, 조음 방법, 조음 결합에 따른 변별적 지속 시간 차이와 운율 경계 정보를 내포하고 있다. 그러므로 실제의 운율 패턴의 구별 가능한 패턴의 종류와 그 의미, 그리고 텍스트 문장의 형태, 구문 구조, 문맥에 따른 운율 패턴의 관련성을 찾아 운율 구현 규칙을 작성하는 것이 합성음의 명료도 및 자연성 구현에 필수적이다. 따라서, 텍스트 문장의 분석 방식, 운율 구현 모델, 운율 패턴 구현 방식은 합성음의 명료도 및 자연성을 결정짓는 중요 원천 기술이 된다.

합성기로는 LPC(Linear Predictive Coding), LSP(Line Spectral Pairs),포먼트(Formant) 등의 분석/합성기와 TD-PSOLA와 같은 시간 영역 처리 합성기가 연구되고 있다. 이들 합성기는 합성음의 명료도, 음색과 밀접한 관계가 있는 것으로서 합성기의 선정은 자연성,유창도, 복잡도를 고려하여 결정된다.

그러나, 인간에 가까운 자연스러운 합성음의 생성에는 많은 어려움이 있어 아직도 실제 상용화된 제품은 거의 없고, 특히 무제한 어휘를 인간에 가까운 음성으로 변환하기 위한 규칙 합성 방식은 명료도 확보를 위한 합성단위의 선정과 결합 방법, 자연성 구현을 위한 운율 구현 방법 및 합성음 생성을 위한 합성 방식 등의 기술이 아직도 미흡하여 이에 대한 새로운 기술의 창출이 요구되고 있다.

이에 따라 안출된 본 발명은 합성단위로는 음소, 반음절, 음절의 혼합형을 사용하고, 합성단위 DB의 작성은 한국어 음운 환경을 모두 포함하면서 최소 개수가 되는 CDU(context dependent unit)1204개로 작성하였으며, 합성단위간의 결합 방법은 CDU 작성 원리에 따라 작성하고, 운율 구현을 위해 먼저 한국어의 언어학적 분석 요소(속성)를 정의하여 입력 텍스트에서 문장의 형태, 구문 구조 분석 방법, 합성음의 억양, 발성음의 길이 및 강조 처리의 제어 방법을 개발함으로써 합성음의 자연성과 유창성의 향상을 높이고, 또한 효율적인 파형 편집 방식의 하나인 TD-PSOLA 합성기를 사용함으로서 구현이 용이하고 합성음의 명료도를 크게 향상시킨 한국어 텍스트/ 음성 변환 방법을 제공하는데 그 목적이 있다.

상기 목적을 달성하기 위하여 본 발명은, 한국어 문자를 입력받는 문자 입력 수단; 상기 문자 입력 수단으로 부터 한국어 문자를 입력받아 실장된 본 발명의 알고리즘에 따라 각 구성 요소를 제어하는 중앙 제어 수단; 합성 알고리즘에 사용되는 CDU 합성단위 DB로서 기억 장치에 저장되어 있으며, 상기 중앙 처리 수단으로 필요한 데이타를 전송하는 합성단위 데이타베이스; 및 합성이 끝난 디지탈 데이타를 아날로그 신호로 변환하여 외부로 출력하는 디지탈/아날로그 변환 수단을 구비하는 장치에 적용되는 방법에 있어서, 한국어의 음운 구조 형태와 음소 연결의 제약을 분석하여 합성단위를 분류하는 제 1 단계; 음소 단위로 합성단위를 쉽게 억세스(access)하고, 음소의 지속 시간 변경 및 피치(pitch)제어를 실시간에 처리하기 위한 구조로 합성단위 데이타베이스를 작성하는 제 2 단계; 상기 합성단위 데이타베이스에서 음절의 각 세그먼트에 필요한 데이타를 음소,반음절 형태소로 가져오는 제 3 단계; 및 언어 처리 모듈에서는 입력된 텍스트 문장에 대하여 전처리를 수행한 후에 어절 분석을 하고 파싱 과정을 수행한 다음에 글자/음운 변환을 수행하고, 운율 처리 모듈에서는 상기 언어 처리 모듈의 처리 결과를 받아서 문장 구조에 따라 적합한 운율 규칙을 적용하고, 합성음 생성 모듈에서는 상기 언어 처리 모듈과 운율 처리 모듈의 처리결과를 받아서 발음기호와 운율 정보를 합성단위 DB에서 검색하여 합성단위들을 합성하는 제 4 단계를 포함하는 것을 특징으로 한다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 일실시예를 상세히 설명한다.

제 1 도는 본 발명이 적용되는 하드웨어의 구성도로서, 11은 문자 입력 장치, 12는 중앙처리 장치, 13은 합성단위 데이타베이스, 14는 D/A변환 장치를 각각 나타낸다.

그 동작을 살펴보면, 문자 입력 장치(11)는 KS5601 완성형 및 2 바이트 조합형으로 표현이 가능한 한국어 문자를 입력받아 중앙처리 장치(12)로 넘겨주는 역할을 담당한다. 중앙 처리 장치(12)는 상기 문자 입력 장치(11)로 부터 한국어 문자를 입력받아 실장된 본 발명의 알고리즘에 따라 각 구성 요소를 제어한다. 합성단위 데이타베이스 (13)는 합성 알고리즘에 사용되는 CDU 합성단위 DB로서 기억 장치에 저장되어 있으며, 상기 중앙처리 장치(12)로 필요한 데이타를 전송하는 역할을 담당한다. D/A 변환 장치(14)는 합성이 끝난 디지탈 데이타를 아날로그 신호로 변환하여 외부로 출력하는 장치이다.

아래의 표 1은 본 발명에 사용되는 CDU의 유형별 분류표로서, 음성을 합성하기 위해서 각각의 음절에 대해서 선행 음절과 후행 음절을 참고로 하여 분류한다.

고품질의 한국어 TTS 시스템을 위한 합성단위의 작성은 한국어의 음운 및 운율 환경을 분석하여 합성에 필요한 합성단위를 선정하며, 사용음절내에서 환경에 따라 실제 사용될 세부 사용부를 결정하고, 합성단위 음성 파형에 사용부를 분절 및 표기하여 음운 환경의 변화에 따른 합성단위를 구성한다.한국어의 음운 구조 형태와 음소 연결의 제약을 분석하여 작성된 합성단위는 모두 1204개이다. 생성된 CDU는 합성단위 데이타베이스로부터 데이타를 가져오는데 사용되며, 합성단위간의 결합시에 사용된다.

제 2 도는 본 발명에 사용되는 합성단위 데이타베이스의 구성도로서, 음소 단위로 합성단위를 쉽게 억세스(access)하고, 음소의 지속 시간 변경 및 피치(pitch) 제어를 실시간에 처리하기 위한 구조로 작성되어 있다.

합성단위 DB는 합성단위 주소 데이타 화일(21), 피치 마크 화일(22) 및 음성 데이타 화일(23)을 구비한다. 음성 데이타 화일(23)은 합성단위의 PCM(Pulse Code Modulation) 데이타를 순서대로 저장하고 있다.

피치 마크 화일(22)은 상기 음성 데이타 화일(23)에 저장된 음성 신호인 피치 마크(pitch mark)들의 위치와 각 피치값을 샘플수의 형태로 저장하고 있다.

합성단위 주소 데이타 화일(21)은 각각의 합성단위에 대하여 합성단위 번호, 상기 음성 데이타 화일(23) 내에서의 시작점/끝점, 세그먼트 개수, 각 세그먼트의 피치 마크 화일(22) 내에서의 시작점, 피치 마크 개수 정보를 저장하고 있다.

이들 데이타베이스 구조를 이용하여 '가'의 'ㅏ' 시작점으로부터 피치값이 n인 피치 구간의 음성 신호를 불러내는 과정은 다음과 같다.

먼저 '가'에 해당하는 DB 억세스 번호 nl에 따라 합성단위 주소 데이타 화일(21)에서 해당 정보를 읽어들인다. 모음 'ㅏ'는 nl CDU내의 2번째 세그먼트이므로 2번째 세그먼트에 해당하는 피치 마크 화일(22)내의 시작점 정보 n2와 해당 세그먼트의 피치 마크 개수 n3을 읽는다. 피치 마크 화일(22)내의 시작점 정보 n2를 이용하여 시작점을 찾은 순서대로 각 피치 마크의 음성 데이타 화일(23)내 시작점 n4와 샘플 개수 정보 n5를 읽어들여 샘플수와 피치값 n이 일치하는가를 확인한다. 일치하면 음성 데이타 화일(23)내의 시작점 n4로부터 샘플 개수 n5개를 읽어들인다.

제 3 도는 본 발명에 사용되는 CDU의 유형별 결합 흐름도이다.

문장내의 각 음절은 초성 C1, 모음 전반부 V1, 모음 후반부 V2, 종성C2, C3의 5개 단위로 분리되어 각각에 적합한 데이타를 합성단위 DB로부터 음소, 반음절 형태소로 가져오게 된다. 합성단위 DB 내에서의 데이타 선정은 선행 음절의 모든 Vp, 종성 Cp, 대상 음절의 초성 C1, 모음V, 종성 C2, 후속 음절의 초성 Cn, 모음 Vn의 조건에 따라 결정된다. 결합 유형은 다음과 같다.

1. C1 유형

·어절의 첫음절일 때 : C1 = CV

·Cp = C1 = 'ㄹ'일 때 : C1 = e1LV

·기타 : C1 = eCV

2. V1 유형

·초성이 있을 때 : V1 = C1

·모음으로 시작되는 어절의 첫음절일 때

- 단음절이거나 받침없는 이중모음 : V1 = V

- 이중모음에 종성이 'ㅇ' 일 때 : V1 = V

- 기타 : V1 = -1(다음과정에서 결정)

·선행 음절에 종성이 있을 때 : V1 = eCV

·선행 음절이 단모음으로 끝날 때 : V1 = VV

·선행 음절이 'j'계열 모음으로 끝날 때 : V1 = ejV

·선행 음절이 'w'계열 모음으로 끝날 때 : V1 = ewV

3. V2 유형

·종성이 없을 때

- 어절의 끝일 때 : V2 = V1

- 후속 음절에 초성이 있을 때 : V2 = VCe

- 후속 음절이 단모음일 때 : V2 = VV

- 후속 음절이 'j'계열모음일 때 : V2 = Vje

- 후속 음절이 'w'계열모음일 때 : V2 = Vwe

·종성이 있을 때

- 어절의 끝일 때 : V2 = VC

- 폐쇄받침일 때 : V2 = VC

- Cp =ㄹ, C1 =ㄹ 일 때 : V2 = VL1e

- 후속 음절이 모음으로 시작할 때 : V2 : VCe

- 유성 종성과 후속 음절의 초성이 있을 때 : V2 = VCDa

4. C2 유형

·종성이 있을 때 : C2 = V2

5. C3 유형

·유성 종성과 후속 음절의 초성이 있을 때 : C3 = aCCw

6. 최종적으로 V1 = -1일 때 : V1 = V2

제 4 도는 본 발명에 따른 흐름도로서, 각 모듈의 기능은 아래와 같다.

언어 처리 모듈에서는 먼저 입력된 텍스트 문장(41)을 약어, 문장 기호, 특정 용어에 대해 한국어로 해석하는 전처리 과정를 수행한다(42). 다음 과정에서는 어휘 사전에 60여개 그룹으로 분류, 등록된 한국어의 조사, 활용형 어미, 부사, 접속사 등을 이용하여 입력 문장의 각 어절에 문법적 기능을 추정, 할당하는 어절 분석을 한다(43). 그리고, 한국어 문법을 이용하여 입력 문장의 구문 구조를 추정하는 파싱 과정을 수행한다(44). 이후, 예외 발음 사전을 검색하여 등록된 단어는 예외 발음 사전에 따라 처리하고 예외 발음 사전에 등록되지 않은 단어는 단어 사전 검색과 한국어 발음 규칙에 따라 입력 문장을 소리나는대로 바꾼다(45).

운율 처리 모듈에서는 언어 처리 모듈의 처리 결과를 받아서 문장 구조에 따라 적합한 운율 규칙을 적용함으로써 합성음의 빠르기, 억양, 뛰어 읽기 등의 자연성 및 유창함과 관계된 정보를 생성한다(46).

합성음 생성 모듈에서는 위의 처리 과정을 거쳐 구한 발음 기호와 운율 정보를 합성단위 DB에서 검색하여 합성단위들을 TD-PSOLA 방식으로 조절, 가공 및 결합한다(47). 마지막으로 합성음을 생성하여 사용자에게 음성으로 출력한다(48).

제 5 도는 본 발명에 따른 파싱 과정의 흐름도이다.

기능어를 이용한 구문 분석의 목적은 입력된 문장으로부터 순차적으로 스페이스를 기준으로 하여 어절을 분리하고 형태소 사전을 사용하여 각 어절에 문법적 속성을 부여하는 것이다(51). 속성의 정의는 후술하는 표 2와 같다. 추정된 구문 구조 정보는 합성음의 운율 처리를 위한 제어 정보를 생성하는데 사용된다. 본 발명에서는 형태소 사전에서 정의된 문법적 정보를 바탕으로 문장의 언어학적 분석 요소를 설정하고 음성에서의 운율적 특성은 문형, 절, 구, 어절의 형태로 분류하였다(52,53,54,55).

-문형으로 평서문(긍정/부정), 의문문(의문사 유/무, 도치), 감탄문이 있다.

-절의 분류로는 위치(문의 앞/중간/뒤),대등 관계, 수식 관계(수식되는 단어의 품사 의존도)가 있다.

-구는 문법적인 격(주부/술부), 구의 종류(명사구,동사구), 문장내의 위치 및 특정구와의 상대적인 위치 관계로 분류된다.

-어절의 분석 요소로는 형태소 특히 기능어의 결합 관계로 정의한다.

제 6 도는 본 발명에 따른 운율 처리 과정의 흐름도로서,상기 파싱 과정에서 생성된 구문 분석 결과를 이용하여 후술하는 제 7 도의 지속시간 제어와 표 3의 억양 생성 모델의 선정 및 변수값을 계산하고 이를 이용하여 합성음의 빠르기와 피치 조절을 수행한다.

지속 시간 계산은 어절의 지속 시간, 음절의 지속 시간, 음소의 지속 시간 순서로 계산되며(56,57,58) 그 방식은 후술하는 제 7 도와 같다. 피치 제어 규칙은 문형에 따른 피치의 기본 패턴, 구문 구조와 관련된 변화 정도(완만/급격), 변화의 시작점과 영향이 미치는 영역 분석, 기능적 분류 및 분석에 따라 작성된다(64,65,66).

기본주파수의 계산은 먼저 문장, 절, 구 순서로 기본 패턴을 생성한 뒤, 단어내의 음운 환경을 고려한 지엽적인 계산을 하는 순서로 진행한다.

-구문 정보를 이용하여 기본 역양 패턴을 생성하고 절경계에서의 이탈정도와 상승 정도를 계산하여 품사 정보를 이용하여 상대적인 피크(peak)의 크기를 구한다.

-음운 정보는 조음 장소, 조음 방법에 따른 지엽적인 피크(peak)와 밸리(valley)를 생동감있는 억양을 만드는데 사용한다.

표 2는 조사, 어미의 활용형, 보조용언, 부사, 접속어를 이용하여 각 어절의 문법적 기능(속성)을 부여하는데 사용되는 속성 분류표이다.

제 7 도는 본 발명에 따른 어절, 음절 및 음소 지속 시간 계산의 흐름도로서, 절, 구 경계에서는 음절이 길어지며, 단어나 구 내에서는 단음화 다음절어일 경우 지속 시간 변화등이 있다. 먼저, 어절의 지속 시간 WDdur을 구한다(71).

여기서, RFdur은 단음절의 평균 지속 시간, a는 비례 상수, j는 어절 내 음절을 각각 나타낸다.

다음에 어절내 각 음절의 지속 시간 SYLdur을 구한다(72).

그리고, 문장, 절, 구 경계점 이전 음절의 지속 시간 신축을 조절한다(73), 이후, 각 음절의 초기 신축률 PRCNTO을 구하는데 이는 이후 음운 환경에 따른 각 음소의 신축률 계산의 초기값으로 사용한다(74).

여기서, INHdur_i는 음절을 구성하는 음소들의 고유 지속 시간을 나타낸다.

이후, 음운 환경에 따른 음소 지속 시간의 신축률 PRCNT 계산은 각 음소에 대하여 해당되는 규칙을 순차적으로 적용하고, 각 규칙에 할당된 지속 시간 변화율 PRcnt_i를 이용하여 구한다(75).

최종적으로 구한 음소의 지속 시간 변화율과 그음소의 고유 지속 시간 INHdur, 최소 지속 시간 MINdur을 이용하여 음소의 지속 시간 PHONdur을 계산한다(76).

표 3은 억양 생성 모델 분류표로서, 기본 피치 컨투어(contour)로는 평서문, 의문문, 감탄문, 구/어절 4가지가 있다. 종결부 피치 모델로는 평서문 종결부, 의문문 종결부, 감탄문 종결부, 구/어절 종결부 4가지가 있다. 그리고, 특정 음절에 대한 모델로는 특정 음절의 국지적 피치 특성과 특정 음절 종결부의 국지적 피치 특성의 2가지가 있다.

여기서, t는 문장, 구, 어절 단위로 각각 정규화된 시간을 나타낸다.

상기와 같은 본 발명은 합성단위로는 음소, 반음절, 음절의 혼합형을 사용하고, 합성단위 DB의 작성은 한국어 음운 환경을 모두 포함하면서 최소 개수가 되는 CDU(context dependent unit)1204개로 작성하였으며, 합성단위간의 결합방법은 CDU 작성 원리에 따라 작성하고, 운율 구현을 위해 먼저 한국어의 언어학적 분석 요소(속성)를 정의하여 입력 텍스트에서 문장의 형태, 구문 구조 분석 방법, 합성음의 억양, 발성음의 길이 및 강조 처리의 제어 방법을 개발함으로써 합성음의 자연성과 유창성의 향상을 높이고, 또한 효율적인 파형 편집 방식의 하나인 TD-PSOLA 합성기를 사용함으로서 구현이 용이하고 합성음의 명료도를 크게 향상시킬 수 있는 효과가 있다.

Claims

한국어 문자를 입력받는 문자 입력 수단(11); 상기 문자 입력 수단(11)으로 부터 한국어 문자를 입력받아 실장된 본 발명의 알고리즘에 따라 각 구성 요소를 제어하는 중앙 제어 수단(12); 합성 알고리즘에 사용되느 CDU 합성단위 DB로서 기억 장치에 저장되어 있으며, 상기 중앙 처리 수단(12)으로 필요한 데이타를 전송하는 합성단위 데이타베이스(13); 및 합성이 끝난 디지탈 데이타를 아날로그 신호로 변환하여 외부로 출력하는 디지탈/아날로그 변환 수단(14)을 구비하는 장치에 적용되는 방법에 있어서, 한국어의 음운 구조 형태와 음소 연결의 제약을 분석하여 합성단위를 분류하는 제 1 단계; 음소 단위로 합성단위를 쉽게 억세스(access)하고, 음소의 지속 시간 변경 및 피치(pitch)제어를 실시간에 처리하기 위한 구조로 합성단위 데이타베이스를 작성하는 제 2 단계; 상기 합성단위 데이타베이스에서 음절의 각 세그먼트에 필요한 데이타베이스를 음소, 반음절 형태소로 가져오는 제 3 단계; 및 언어 처리 모듈에서는 입력된 텍스트 문장에 대하여 전처리를 수행한 후에 어절 분석을 하고 파싱 과정을 수행한 다음에 글자/음운 변환을 수행하고, 운율 처리 모듈에서는 상기 언어 처리 모듈의 처리 결과를 받아서 문장 구조에 따라 적합한 운율 규칙을 적용하고, 합성음 생성 모듈에서는 상기 언어 처리 모듈과 운율 처리 모듈의 처리 결과를 받아서 발음 기호와 운율 정보를 합성 단위 DB에서 검색하여 합성단위들을 합성하는 제 4 단계(41 내지 48)를 포함하는 것을 특징으로 하는 한국어 텍스트/ 음성 변환 방법.
제 1 항에 있어서, 상기 제 1 단계에서 분류 합성단위는, 1204개인 것을 특징으로 하는 한국어 텍스트/ 음성 변환 방법.
제 1 항에 있어서, 상기 제 2 단계의 합성단위 데이타베이스(DB)는, 합성단위의 PCM(Pulse Code Modulation) 데이타를 순서대로 저장하고 있는 음성 데이타 화일(23); 상기 음성 데이타 화일(23)에 저장된 음성 신호인 피치 마크(pitch mark)들의 위치와 각 피치값을 샘플수의 형태로 저장하고 있는 피치 마크 화일(22); 및 각각의 합성단위에 대하여 합성단위 번호, 상기 음성 데이타 화일(23) 내에서의 시작점/끝점, 세그먼트 개수, 각 세그먼트의 상기 피치 마크 화일(22) 내에서의 시작점, 피치 마크 개수 정보를 저장하고 있는 합성단위 주소 데이타화일(21)을 구비하는 것을 특징으로 하는 한국어 텍스트/ 음성 변환 방법.
제 1 항에 있어서, 상기 제 3 단계는, 각 음절을 초성 C1, 모음 전반부 V1, 모음 후반부 V2, 종성 C2, C3의 5개의 단위로 분리하여 각각에 적합한 데이타를 합성단위 DB로부터 음소, 반음절 형태소로 가져오는 것을 특징으로 하는 한국어 텍스트/ 음성 변환 방법.
제 4 항에 있어서, 합성단위 DB 내에서의 데이타 선정은, 선행 음절의 모음 Vp, 종성 Cp, 대상 음절의 초성 C1, 모음 V, 종성 C2, 후속 음절의 초성 Cn, 모음 Vn의 조건, 즉, C1 유형이면 어절의 첫음절일때는 C1 = CV이고, Cp = C1 = 'ㄹ' 일때는 C1 = e1LV이고, 기타는 C1 = eCV이며 , V1 유형이면 초성이 있을때는 V1 = C1이고 ,모음으로 시작되는 어절의 첫음절일때는 단음절이거나 받침없는 이중모음은 V1 = V, 이중모음에 종성이 'ㅇ'일 때는 V1 = V, 기타는 V1 = -1(다음과정에서 결정)이고, 선행 음절에 종성이 있을 때는 V1= eCV이고, 선행 음절이 단모음으로 끝날 때는 V1 = VV이고, 선행 음절이 'j' 계열 모음으로 끝날때는 V1 = ejV이고 , 선행 음절이 'w' 계열 모음으로 끝날때는 V1 = ewV이며, V2 유형이면 종성이 없고 어절의 끝일 때는 V2 = V1이고 , 종성이 없고 후속 음절에 초성이 있을때는 V2 = VCe이고, 종성이 없고 후속 음절이 단모음일 때는 V2 = VV이고, 종성이 없고 후속 음절이 'j' 계열모음일 때는 V2 =Vje이고, 종성이 없고 후속 음절이 'w' 계열모음일때는 V2 = Vwe이며, 종성이 있고, 어절의 끝일 때는 V2 = VC이고, 종성이 있고 폐쇄받침일 때는 V2=VC이고, 종성이 있고, Cp =ㄹ, C1 =ㄹ일때는 V2 = VL1e이고, 종성이 있고 후속 음절이 모음으로 시작할때는 V2 : VCe이고, 종성이 있고 유성 종성과 후속 음절의 초성이 있을때는 V2 = VCDa이며, C2 유형이면 종성이 있을때는 C2 = V2이며, C3 유형이면 유성 종성과 후속 음절의 초성이 있을때는 C3 =aCCw이며, 최종적으로 V1 =-1일때는 V1 = V2가 되도록 구성한 것을 특징으로 하는 한국어 텍스트/ 음성 변환 방법.
제 1 항에 있어서, 상기 제 4 단계(41 내지 48)는, 언어 처리 모듈에서는 먼저 입력된 텍스트 문장을 약어, 문장 기호, 특정 용어에 대해 한국어로 해석하는 전처리 과정을 수행한 후에 어휘 사전에 그룹으로 분류, 등록된 한국어의 조사, 활용형 어미, 부사, 접속사 등을 이용하여 입력 문장의 각 어절에 문법적 기능을 추정, 할당하는 어절 분석을 한 다음에 한국어 문법을 이용하여 입력 문장의 구문 구조를 추정하는 파싱 과정을 수행하고 예외 발음 사전을 검색하여 등록된 단어는 상기 예외 발음 사전에 따라 처리하고 상기 예외 발음 사전에 등록되지 않은 단어 사전 검색과 한국어 발음 규칙에 따라 입력 문장을 소리나는 대로 바꾸는 글자/음운 변환 과정을 수행하는 제 5 단계(41 내지 45); 운율 처리 모듈에서는 언어 처리 모듈의 처리 결과를 받아서 문장 구조에 따라 적합한 운율 규칙을 적용함으로써 합성음의 빠르기, 억양, 뛰어 읽기 등의 자연성 및 유창함과 관계된 정보를 생성하는 제 6 단계(46); 및 합성음 생성 모듈에서는 위의 처리 과정을 거쳐 구한 발음 기호와 운율 정보를 합성단위 DB에서 검색하여 합성 단위들을 TD-PSOLA 방식으로 조절, 가공 및 결합하여 합성음을 생성하여 사용자에게 음성으로 출력하는 제 7 단계(47,48)를 포함하는 것을 특징으로 하는 한국어 텍스트/ 음성 변환 방법.
제 6 항에 있어서, 상기 제 6 단계(46)는, 지속 시간을 어절의 지속 시간, 음절의 지속 시간, 음소의 지속시간 순서로 계산하는 제 8 단계(61 내지 63); 및 문형에 따른 피치의 기본 패턴 구문 구조와 관련된 변화 정도(완만/ 급격), 변화의 시작점과 영향이 미치는 영역 분석, 기능적 분류 및 분석에 따라 피치 제어 규칙을 작성하는 제 9 단계(64,65,66)를 포함하는 것을 특징으로 하는 한국어 텍스트/ 음성 변환 방법.
제 7 항에 있어서, 상기 제 8 단계(61 내지 63)는, 어절의 지속 시간 WDdur을 구한 후에 어절내 각 음절의 지속 시간 SYLdur을 구하는 제 10 단계(71,72); 문장, 절, 구 경계점 이전 음절의 지속 시간 신축을 조절한 후에 각 음절의 초기 신축률 PRCNTO을 구하는 제 11 단계(73,74); 및 각 음소에 대하여 해당하는 규칙을 순차적으로 적용하고, 각 규칙에 할당된 지속 시간 변화율 PRcnt_i를 이용하여 음운 환경에 따른 음소 지속 시간의 신축률 PRCNT를 구한 후에 음소의 지속 시간 변화율과 그 음소의 고유 지속 시간 INHdur, 최소 지속 시간 MINdur을 이용하여 음소의 지속시간 PHONdur을 계산하는 제 12 단계(75,76)를 포함하는 것을 특징으로 하는 한국어 텍스트/ 음성 변환 방법.