[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JPS5913040B2 - speech synthesizer - Google Patents

speech synthesizer

Info

Publication number
JPS5913040B2
JPS5913040B2 JP49060736A JP6073674A JPS5913040B2 JP S5913040 B2 JPS5913040 B2 JP S5913040B2 JP 49060736 A JP49060736 A JP 49060736A JP 6073674 A JP6073674 A JP 6073674A JP S5913040 B2 JPS5913040 B2 JP S5913040B2
Authority
JP
Japan
Prior art keywords
accent
type
word
information
accent type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP49060736A
Other languages
Japanese (ja)
Other versions
JPS50153806A (en
Inventor
あきら 市川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP49060736A priority Critical patent/JPS5913040B2/en
Publication of JPS50153806A publication Critical patent/JPS50153806A/ja
Publication of JPS5913040B2 publication Critical patent/JPS5913040B2/en
Expired legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は音声合成装置の制御情報の作成装置、特にアク
セント情報の作成装置に関するものである。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a control information creation device for a speech synthesis device, and particularly to an accent information creation device.

10音声応答の実用化につれて、従来の録音編集方式の
欠点として、応答できる語数(単語の種類、普通これを
語葉という)が少ないことが指摘されはじめた。
10 As voice responses have been put into practical use, it has begun to be pointed out that a shortcoming of conventional recording and editing methods is that the number of words (types of words, usually referred to as words) that can be responded to is small.

この要求されている実例を分析してみると、大多数の場
合は、全く任意にどんな内容で15も応答できることが
要求されているのではなくて、応答すべき内容のわく組
みは比較的少数の文形に限定され、そのわく組内の一部
にでてくる単語、とくに情報を伝えるべき単語、たとえ
ば個有名詞である人名・地名・会社名や日付・金額とい
つたものを任意に入れ換えて応答できればよいというこ
とがわかつた。すなわち実用上音声サービスに支障をき
たさないようにするためには、任意の単語、それも主と
して人名・地名・会社名などの名詞(固有名詞)句を合
成できることが必要である。
Analyzing this required example, we find that in the vast majority of cases, it is not required to be able to respond with 15 completely arbitrary contents, but rather that there are only a relatively small number of possible responses. It is limited to the sentence form, and words that appear in a part of the group, especially words that convey information, such as individual nouns such as person's name, place name, company name, date, and amount, can be arbitrarily selected. I found out that all I had to do was switch them and respond. In other words, in order to prevent practical problems with voice services, it is necessary to be able to synthesize arbitrary words, primarily noun (proper noun) phrases such as people's names, place names, and company names.

ところで任意の単語を合成できるようにするためには、
単語の数がほぼ無限であるから、合成するための制御情
報を、情報圧縮して記憶しておくという方式をとること
はできず、入力情報(たとえばカナ文字表記)から、一
般的な変換装置によつて、制御情報を作り出す必要があ
る。
By the way, in order to be able to compose arbitrary words,
Since the number of words is almost infinite, it is not possible to compress and store the control information for synthesis, and it is not possible to compress and store the control information for synthesis. It is necessary to create control information depending on the

この装置をさらに詳しく分解すると日本語の場合一般的
にいつて次の(1)〜(4)の手段に分けられる。
When this device is broken down in more detail, it can generally be divided into the following means (1) to (4) in the case of Japanese.

(1)入力として与えられた単語の文字的な表記15(
たとえばカナ文字またはローマ字表記など)から、その
単語のアクセント型を決定する手段。(2)入力として
与えられた単語の表記を、その合・ウ成の単位として使
用する音声的な単位(たとえば、音素・単音節・音韻連
鎖など)に区分し、決定されたアクセント型から、その
各単位毎の時間長(持続時間)を決定する手段。
(1) Literal representation of the word given as input 15 (
A means of determining the accent type of a word from its kana or romaji (for example, kana or romanization). (2) Divide the spelling of the word given as input into phonetic units (e.g., phonemes, monosyllables, phonological chains, etc.) that are used as units of combination and formation, and based on the determined accent type, A means of determining the length of time (duration) for each unit.

(3)決定された持続時間とアクセント型から、単語の
アクセントを物理的に決定するピツチ周期パタンを求め
る手段。
(3) A means for determining a pitch periodic pattern that physically determines the accent of a word from the determined duration and accent type.

(4)上記の音声的な諸情報を、それぞれの合成方式に
適した形の完全な制御情報に変換する手段。
(4) Means for converting the above audio information into complete control information in a form suitable for each synthesis method.

本発明は上記1)における単語のアクセント型、特に東
京方言のアクセント型を決定するアクセント情報の作成
装置を提供するものである。以下、本装置に使われる原
理について説明する。
The present invention provides an accent information creation device that determines the accent type of a word in 1) above, particularly the accent type of a Tokyo dialect. The principle used in this device will be explained below.

ただし、合成の単位としては、小さい方から列挙して、
(a)音素(各種子音と各種母音)(b)単音節(子音
+母音もしくは母音のみという構造(普通これをCとV
とかく)をもつもので、概略カナ文字一字の表記に対応
する)(c)音韻連鎖(母音十子音+母音もしくは母音
+母音という構造(普通これをVlCV2とVlV2と
かく)をもつもの)、などが考えられるが、以下の説明
では、合成された音声の品質と必要とする音声素片の記
憶容量とのかねあい、および日本語の特徴からいつて、
実用上もつとも有用な単音節を単位として以下の具体的
な説明をすすめてゆく。さて、東京方言においては、N
音節(正確にはN拍と言うが以下一般的慣用に従つてN
音節と言う)の単語にはN+1種類のアクセント型があ
りうる。
However, as a unit of synthesis, enumerate from the smallest to
(a) Phonemes (each seed sound and various vowels) (b) Monosyllabic (consonant + vowel or vowel only structure (usually called C and V)
(c) Phonological chains (those with the structure of vowel ten consonants + vowel or vowel + vowel (usually written as VlCV2 and VlV2)), etc. However, in the following explanation, based on the balance between the quality of the synthesized speech and the required storage capacity of speech segments, and the characteristics of Japanese,
We will provide a detailed explanation below using monosyllables as units, which are most useful in practice. Now, in the Tokyo dialect, N
Syllables (to be exact, they are called N beats, but below, according to common usage, they are called N beats)
A word (called a syllable) can have N+1 types of accent types.

日本語のアクセントは声の高低の変化であられされる。
アクセント型Mは声が高い所から低い所へ主観的に変化
する位置(アクセント核という)であられす。位置は核
の直前の音節が語頭から何番目かで表現する方法と語尾
から何番目かで表現する方法がある。以下では後者によ
り表現するものとする。M=1はその単語の後に助詞「
ガ」「ノ」が付いた時にその助詞の前に核の来る型、M
=0は「ガ」「ノ」がついても核のあられれない型であ
る。またM−0を平板型、M\0を起伏型と言い、さら
に起伏型でM=Nのものを頭高型と言う。東京方言では
、頭から1番目と2番目で声の高低が必らず変り、また
、高から低への変化は一つの単語の中では最大1つしか
ない。そこで頭高型では語頭から二音節目以降はすべて
低となる。また頭高型以外は語頭の一音節は必らず低で
、二音節目から核の来る直前の音節まではすべて高、核
の後はすべて低となる。従つてアクセント核の位置がわ
かれば各音節のアクセントレベルはすべて自動的に指定
される性質がある。アクセントとそれに対応するピツチ
周期の変化のパタンは音声を一つのまとまつたパタンと
して聞きやすくすることが第一の効果であり、東京方言
においては意味の区別は二義的になつている。
Japanese accents are defined by changes in the pitch of the voice.
Accent type M is the position where the voice subjectively changes from high to low (called the accent core). There are two ways to express the position: one is the number from the beginning of the syllable just before the nucleus, and the other is the number from the end of the syllable. In the following, the latter will be used. M=1 means that after the word there is a particle ``
The type in which the nucleus comes before the particle when ``ga'' and ``ノ'' are added, M
=0 is a type that does not have a nuclear hail even if it has "ga" or "no". Also, M-0 is called a flat plate type, M\0 is called an undulating type, and the undulating type with M=N is called a high-head type. In the Tokyo dialect, the pitch of the voice always changes between the first and second words, and there is only one change from high to low within a word. Therefore, in the high-initial type, all syllables after the second syllable from the beginning of the word are low. In addition, except for the high-initial type, the first syllable of a word is always low, everything from the second syllable to the syllable just before the nucleus is high, and everything after the nucleus is low. Therefore, if the position of the accent nucleus is known, the accent level of each syllable can be automatically specified. The primary effect of the accent and the corresponding pattern of changes in the pitch period is to make it easier to hear the speech as a single unified pattern, and in the Tokyo dialect, the distinction of meaning has become secondary.

アクセントとそれに対応するピツチによつて制御されな
い合成音声は一音節毎に「ひろい聞き」することが必要
であり、非常に聞きづらい。そこで、任意の単語を良品
質に合成するためには、良好なピツチパタン情報が必要
であり、ピツチパタン情報を作り出すにはその単語のつ
づりからアクセント型の決定が必要である。そこで、実
用的見地からアクセント型を決める手順を知るために、
数千個のサンプルについて分析検討を行なつた。
Synthesized speech that is not controlled by accents and corresponding pitches requires ``wide listening'' for each syllable, and is extremely difficult to hear. Therefore, in order to synthesize an arbitrary word with good quality, good pitch pattern information is required, and in order to create pitch pattern information, it is necessary to determine the accent type from the spelling of the word. Therefore, in order to know the procedure for deciding the accent type from a practical point of view,
Analytical studies were conducted on several thousand samples.

以下の説明では比較的使用頻度の高い固有名詞、特に企
業名と人名についての例を取り上げて分析の手順と結果
を説明する。先ず、たとえば企業名におけるアクセント
型の実態を分析するために、職業別電話帳より無作為に
企業名を数千個取り出す。次にこの企業名をその構成語
に分割し(たとえば「日立製作所]ならば「日立」と「
製作所」)、全体(以下複合語と呼ぶ。前例では「日立
製作所」)と各構成語すべてについてアクセント型を主
感的に判断し、音節単位の表記法(カナ文字にほぼ対応
する表記で、「ギア」などは一つの単位と見なす)とし
てローマ字で表記した複合語と構成語の各々にそのアク
セント型および音節数とをつけてデータとする。人名の
場合も同様であるが、構成語としては姓と名の二つの種
類がある。次に、これらのデータより、企業名と人名別
に各々複合語と構成語別に(人名では姓と名は別々に)
音節数とアクセント型の関係を調べる。
In the following explanation, we will explain the analysis procedure and results using examples of relatively frequently used proper nouns, especially company names and personal names. First, in order to analyze the actual state of accent patterns in company names, for example, several thousand company names are randomly selected from an occupational telephone directory. Next, divide this company name into its component words (for example, "Hitachi" and "Hitachi" and "
Seisakusho''), the entire word (hereinafter referred to as a compound word; in the example, ``Hitachi Seisakusho''), and the accent type of each component word are judged subjectively, and the syllable-based notation (a notation that roughly corresponds to kana characters) is used. The accent type and number of syllables are added to each compound word and constituent word written in Roman letters (such as ``gear'' is regarded as one unit), and the data is created. The same is true for personal names, but there are two types of constituent words: surname and first name. Next, from these data, we divided compound words and constituent words for company names and personal names (for personal names, surnames and first names are separated).
Examine the relationship between syllable number and accent type.

この表より、企業名では複合語では3型(M−3)と4
型(M−4)が多いが人名ではよりバラツキが多いとい
うように、名詞の種類によりそのアクセント型の性質が
異なることがわかる。すなわち企業名型の名詞では構成
語間の結合が強く構成語のもつアクセント型が消えやす
く、構成語のアクセント型に関係なく複合語としてのア
クセント型が決まりやすい傾向があるのに対し、人名型
の名詞では、構成語のアクセント型により複合語のアク
セント型が異なる弱い結合をすることが予想される。そ
こで人名型の名詞では構成語と複合語のアクセント型の
関係を表にまとめ観測することにより結合の法則を見い
出すことができる。人名では、(イ)姓が頭高型(はじ
めの音節の後に核がある)のものは複合語は頭高型であ
る、(口)名が平板型(アクセント核がないもの)では
姓のアクセント)核の位置が保たれる、(ハ)姓が頭高
型以外の起伏型で、名も起伏型(アクセント核のあるも
の)では名の核の位置が保たれる、という法則が見出さ
れた。さて、東京方言では、アクセント核の位置が撥音
「ン」や促音「ツ」の直後には来ないということが知ら
れている。このような音韻上の構成とアクセント核の位
置を知るために、アクセント核の前一音節、後二音節の
組み合せと核の位置の関係の一覧表を作り、ありえない
組み合せや例外的に割合の少ない組み合せをさがし、音
韻構造の影響法則を求める。すなわち音韻構造による変
型規則である。この結果、前述の撥音「ン」と促音「ツ
」の他に長母音([ア一」など)や二重母音([アイ」
など)の後にも核が来ない(核の位置が一音節分一つ前
にずれる)ことがわかつた。この規則を逆に当てはめ、
もとのデータのアクセント型でこれらの規則により変形
されたものと考えられるアクセント型を元の型にもどし
、再び音節数とアクセント型の分布表を作りなおす。こ
の表より企業型の名詞で3型が圧倒的に多いことがわか
る。そこで、企業型の名詞の場合は3型以外の型となる
ものの型の決定手順と、人名型の名詞の場合には構成語
の型の決定手順の推定が必要となる。そこで次に「意味
」の要素を分析する。実用的見地からできるだけ型式的
に意味を処理できるように、先ず各構成語をさらに細か
く分割する。たとえば、[製作所」は「製作」と「所」
に、「花子」は「花」と「子」のように分ける。これら
を要素語と呼ぶことにする。要素語の種類をすべて調べ
、出現回数の多いものから、それが語頭に来る場合、語
中に来る場合および語尾に来る場合について各各アクセ
ント型の分布を調べる。この結果特定のいくつかの要素
語は、それが語尾に来るときにその属している語のアク
セント型を特定のものにしやすいものがあることがわか
つた。語尾に来る要素語を語尾と呼ぶこととする。たと
えば「組」が語尾である会社名は「0」型となるし、「
社」が語尾につく会社名は「2」型になる。人名の例で
はその構成語の音節数と語尾からその構成語のアクセン
ト型が定まる。たとえば名前で「ヘイ」や「ペイ」の語
尾をもつものは3音節名では頭高型だが4音節以上の名
前では「O」型となる。以上に述べた分析手順とその結
果より、固有名詞のアクセント型を推定するためには実
用上は次の手続きをふんで行けばよい。(1)単語の種
類(たとえば人名か企業名か)によつて構成語間の結合
の度合を定める。
From this table, compound words in company names are type 3 (M-3) and type 4.
It can be seen that the nature of the accent type differs depending on the type of noun, as in the case of type (M-4), which is more common, but with personal names, there is more variation. In other words, in the case of company name type nouns, the bond between the constituent words is strong and the accent type of the constituent words tends to disappear, and the accent type as a compound word tends to be determined regardless of the accent type of the constituent words. For nouns, it is expected that there will be weak combinations in which the accent type of the compound word differs depending on the accent type of the constituent words. Therefore, for personal name-type nouns, we can discover the rules of combination by tabulating and observing the relationship between the accent types of constituent words and compound words. In the case of personal names, (a) if the surname is a head-high type (with a nucleus after the first syllable), the compound word is a head-high type; (Accent) The position of the nucleus is maintained, and (c) If the surname is an undulating type other than the head-height type, and the given name is also an undulating type (those with an accent nucleus), the position of the nucleus of the given name is maintained. Served. Now, it is known that in the Tokyo dialect, the accent nucleus does not come immediately after the ``n'' or the consonant ``tsu''. In order to know the phonological structure and the position of the accent nucleus, we created a list of the relationships between the combinations of one syllable before the accent nucleus and two syllables after the accent nucleus and the position of the nucleus, and identified impossible combinations and exceptionally low proportions. Search for combinations and determine the influence law of phonological structure. In other words, it is a transformation rule based on phonological structure. As a result, in addition to the above-mentioned positive sound ``n'' and consonant sound ``tsu'', long vowels (such as ``aichi'') and diphthongs (such as ``ai'')
It was found that the nucleus does not come even after (such as) (the position of the nucleus shifts forward by one syllable). Applying this rule in reverse,
The accent types of the original data that are thought to have been transformed by these rules are returned to their original forms, and the distribution table of syllable counts and accent types is again created. From this table, it can be seen that type 3 is overwhelmingly common among corporate type nouns. Therefore, in the case of corporate type nouns, it is necessary to estimate the type determination procedure for types other than type 3, and in the case of personal name type nouns, it is necessary to estimate the determination procedure for the types of constituent words. Therefore, next we will analyze the elements of "meaning". In order to process the meaning as formally as possible from a practical standpoint, we first divide each constituent word into smaller parts. For example, [manufacturing place] means "manufacturing" and "dokoro".
In other words, ``Hanako'' is divided into ``Hana'' and ``Child''. These will be called element words. All kinds of element words are examined, and the distribution of each accent type is examined in descending order of the number of occurrences: when it appears at the beginning of a word, when it appears in the middle of a word, and when it appears at the end of a word. As a result, it was found that some specific element words tend to have a specific accent type when they come at the end of words. An element word that comes at the end of a word is called a word ending. For example, a company name that ends with "gumi" is type "0", and "
Company names that end with ``sha'' are in the ``2'' type. In the example of a person's name, the accent type of the constituent word is determined from the number of syllables and the ending of the constituent word. For example, names with the endings of ``hey'' or ``pay'' have three syllables with a head-height shape, but names with four or more syllables have an "O" shape. Based on the analysis procedure and results described above, the following procedure can be practically used to estimate the accent type of a proper noun. (1) Determine the degree of bonding between constituent words depending on the type of word (for example, person's name or company name).

(2)結合が強い場合は語尾が例外的なものかどうかを
調べ例外のものであるときは表引きにより型を推定し、
それ以外のときは3型と推定する。
(2) If the combination is strong, check whether the word ending is an exception, and if it is an exception, estimate the type by table lookup,
In other cases, it is assumed to be type 3.

(3)結合が弱い場合は、構成語について語尾より型を
各々推定後結合規醜イ)〜(ハ)のうち適合する条件の
ものをあてはめ複合語の型を推定する。(4)音韻構造
による変形規則をあてはめる。このような手続を行なう
手段を音声合成装置の制御部にもたせることによつて、
このような手段を持たない音声合成装置では得られない
聞きやすい音声を得ることができる。すなわち、このよ
うな手段を持たない音声合成装置により作り出された音
声は、一つの意味をもつたまとまりである単語を形成し
ているという情報をもつていないため、どこからどこま
でが一つのまとまりかを一音一音聞きながら判断して行
かなければならず非常に聞きづらい。いわば句読点やス
ペースの全くないカタカナ書きの文章を読む場合と同じ
ような状態になる。これに比ベアグセット型を推定する
手段をもつ装置では句読点やスペースがついた漢字カナ
まじり文を読むことに対応するような聞きやすい音声と
なる。このような音声合成装置を提供しようというのが
本発明の目的である。本発明の一実施例である装置の概
略を第1図にプロツク図として示す。
(3) If the combination is weak, the type of the compound word is estimated by estimating the type of each constituent word from the ending, and then applying the matching conditions among the combination rules (A) to (C). (4) Apply transformation rules based on phonological structure. By providing the control unit of the speech synthesis device with a means for performing such procedures,
It is possible to obtain easy-to-listen speech that cannot be obtained with a speech synthesizer that does not have such a means. In other words, since the speech produced by a speech synthesizer without such a means does not have information that it forms words that are a group of words with one meaning, it is difficult to tell from where to where the word is a group of words. It's very difficult to listen to because you have to make decisions while listening to each syllable. The situation is similar to reading a sentence written in katakana with no punctuation or spaces. On the other hand, a device that has a means for estimating the comparison set type produces an easy-to-listen sound that corresponds to reading a sentence with punctuation marks and spaces mixed with Kanji and Kana. It is an object of the present invention to provide such a speech synthesis device. A schematic diagram of an apparatus according to an embodiment of the present invention is shown in FIG.

音節に対応するコード列であられされた合成しようとす
る名詞とその種類をあられすコードからなる入力指令4
が音声合成装置の制御情報作成部11に加えられる。メ
モリ12には名詞の種類毎に語尾とその語尾の持つアク
セント型上の特徴を記述した表が入つている。制御情報
作成部11は入力指令4のつづりの語尾を調ベメモリ1
2中の語尾と一致するものがあるときは、その語尾の持
つアクセント型上の特徴と入力指令とよりその入力指令
4の合成しようとしている単語アクセント型を推定し、
音韻により変形規則を適用してアクセント型を決定する
。さらに制御情報作成部11はこのアクセント型と入力
のつづりよりその単語の各音節の時間長を定め、この時
間長とアクセント型よりピツチ制御情報を作り出し、つ
づりと各音節の時間長とピッチ制御情報の3種を制御情
報として音声合成部3を制御し音声5を出力する。第2
図は本発明をさらに詳しく説明するための図で、アクセ
ント型をもとに作られるピツチ情報6と時間情報7およ
び音韻情報アドレス8を用いて音声を合成する装置のプ
ロツク図である。
Input command 4 consisting of a code indicating the noun to be synthesized and its type, which is composed of a code string corresponding to a syllable.
is added to the control information creation section 11 of the speech synthesizer. The memory 12 contains a table that describes the endings of each type of noun and the accent type characteristics of the endings. The control information creation unit 11 checks the ending of the spelling of the input command 4 and stores it in the memory 1.
If there is a word ending that matches the word ending in 2, the word accent type that the input command 4 is to be synthesized is estimated based on the accent type characteristics of that ending and the input command, and
The accent type is determined by applying transformation rules depending on the phoneme. Furthermore, the control information creation unit 11 determines the time length of each syllable of the word from this accent type and the input spelling, creates pitch control information from this time length and accent type, and creates pitch control information using the spelling, time length of each syllable, and pitch control information. The speech synthesis section 3 is controlled using the three types of control information as the control information, and the speech 5 is output. Second
The figure is a diagram for explaining the present invention in more detail, and is a block diagram of an apparatus for synthesizing speech using pitch information 6, time information 7, and phoneme information address 8, which are created based on accent types.

合成すべき入力指令4がシステム制御部1に入力され、
システム制御部1内の制御情報作成部11のアクセント
情報作成部11−aにより作り出されたアクセント情報
9をもとに制御情報作成部11−b〜dで各々作られる
ピツチ情報6、時間情報7および音韻情報アドレス8が
音声合成部3に与えられる。音声合成部3は与えられた
諸情報群に従つて音韻情報メモリ2中に収録されている
音声素片をつなぎあわせて音声を合成して行く。音韻情
報メモリ2内には音声素片が音節毎にまとめられて入つ
ており、先頭のアドレスが指定されるとその音節に属し
ている素片が頭より順次読み出される。すべての素片は
一定長になつており、一定番地ずつ加えて行けば次の素
片のアドレスが定まる。ピツチ情報6は合成される音声
の素片の長さを指定する情報で素片毎に与える。時間情
報7は音節の持続時間を指定する情報で、その音節の持
続時間が終ると次の時間情報と音韻情報アドレスを要求
し次の音節の合成に移る。次に本発明の主体であるアク
セント情報9とピツチ情報6の作成手順についてより詳
しく述べる。
Input commands 4 to be synthesized are input to the system control unit 1,
Pitch information 6 and time information 7 respectively created by control information creation units 11-b to 11-d based on accent information 9 created by accent information creation unit 11-a of control information creation unit 11 in system control unit 1 and the phoneme information address 8 are given to the speech synthesis section 3. The speech synthesis section 3 synthesizes speech by connecting the speech segments recorded in the phoneme information memory 2 according to the various information groups provided. In the phoneme information memory 2, speech segments are stored grouped for each syllable, and when a starting address is designated, the segments belonging to that syllable are read out sequentially from the beginning. All fragments have a fixed length, and adding one address at a time determines the address of the next fragment. Pitch information 6 is information specifying the length of a speech segment to be synthesized and is given for each segment. The time information 7 is information specifying the duration of a syllable, and when the duration of that syllable ends, the next time information and phoneme information address are requested and the next syllable is synthesized. Next, the procedure for creating accent information 9 and pitch information 6, which is the main subject of the present invention, will be described in more detail.

なお、第2図では説明をわかりやすくするためにアクセ
ント情報9は制御情報作成部11−aから11−bへ送
られるように表現してあるが、実際は記憶部12を経由
してうけわたされることは以下の説明に述べる通りであ
る。第2図のシステム制御部1をより詳しく書いたもの
が第3図である。
In addition, although in FIG. 2, the accent information 9 is shown as being sent from the control information creation section 11-a to the control information creation section 11-b in order to make the explanation easier to understand, it is actually sent via the storage section 12. This is as described in the following explanation. FIG. 3 shows the system control unit 1 shown in FIG. 2 in more detail.

第3図において各種の処理部16〜26と制御部10は
マイクロプロセツサよりなり、相互にデータバス14と
割込線2本13−1と13−2により結びついている。
相互の呼び出しは割込みと各処理部に決められたデータ
バス上のデイバイス番号によりなされ各処理部は専用の
メモリを持ち処理手順が用意されている。また、メモリ
12は共通のメモリとなつている。入力処理部16は中
央から音声を合成出力する要請があると制御部10に問
い合わせ、処理可能であれば入出力制御部16を受付け
可能の状態にし、合成すべき内容を受け付けメモリ12
−aの所定の位置に記録する。内容は種類Sとカナ文字
に対応するコード列L,,・・・・・・・・・,LNで
表現されており、入力コード数をカウントすることによ
り、合成すべき単語の音節数Nも知ることができ、その
結果もメモリ12−aに記録される。入力が終ると入力
処理部16は受信終了を制御部10に知らせる。制御部
10は合成すべき単語の種類Sが人名か会社名を示して
いるかにより人名主処理部17か会社名主処理部18を
起動する。種類Sが会社名を示している場合、そのSの
情報を語尾検出処理部19にわたし語尾検出処理部19
を起動する。語尾検出処理部19は会社用語尾表を検索
し、一致したものがある時は、その語尾の要求するアク
セント型Mを表より知り、メモリ12−aに出力し、ま
た一致する語尾がない場合は3型をアクセント型Mとし
て再び会社名主処理部18に制御がわたされる。会社名
処理部18は、次に音韻変形処理部20を起動する。音
韻変形処理部20はメモリ12−a中のつづ?Ll,・
・・・・・・・・,LNとアクセント型とから、アクセ
ント核の直前の音節が促音や撥音、長母音の二番目の母
音かを判断し、その場合はMを1つ増しM+1を新たに
アクセント型Mとしてメモリ12−aに記録する。種類
Sが人名を示している場合は、人名主処理部17はコー
ド列Ll,・・・・・・・・・,LNより姓と名を分け
、それぞれのつづりと姓か名かの情報を語尾検出処理部
19にわたし語尾検出処理部19を起動する。語尾検出
処理部19は姓用および各用語尾表を検索し、一致した
ものがあるときは、その表に従つてアクセント型を定め
、ない場合は3型として人名主処理部17に制御をわた
す。人名主処理部17は姓または名の語尾検出によるア
クセント型推定が各々終ると、音韻変形処理部20を起
動し、音韻情報による変形を行なう。人名主処理部17
は姓と名のアクセント型の推定が終了すると前述の結合
規則(イ)〜(ハ)に従つて人名全体を一つの単語とみ
なしたときのアクセント型を推定する。会社名主処理部
18または人名主処理部17はアクセント型の推定が終
了すると制御部10に制御をわたす。このとき最終的に
推定されたアクセント型Mはメモリ12−a中にコード
列Ll,・・・・・・・・・,LNとコード数Nと共に
記録されている。ピツチ情報6はコード数Nとアクセン
ト型Mに組み合せ毎にあらかじめ表の型でメモリ12b
に記録されており、制御部10はピツチ情報処理部21
を起動し、ピツチ情報処理部21はアクセント型Mとコ
ード数Nとより索表により必要なピツチ情報の位置Pを
知りその結果をメモリ12−bの所定の位置に格納し、
制御部10に制御をわたす。ピツチ情報送出処理部22
は、合成器3からのピツチ情報送出要求を受けると制御
部10に対し送出可能かどうかを問い合わせ、可能な場
合はメモI月2−b中のピツチ情報の位置Pを手掛りに
ピツチ情報をメモリ12−bより読み出し送出する。一
方時間情報処理部23と音韻情報アドレス処理部25は
人名主処理部17または会社名主処理部18でのアクセ
ント型の判定が終了するとメモI月2−a中のピツチ情
報処理部21と同時に起動され、コード列Ll,・・・
・・・・・・,LNに対応する音節時間長をメモl月2
−c中の表より索表により定め同じくメモリ12−c中
の所定の位置に格納する。音韻情報アドレス処理部25
はメモリ12−a中のコード列Ll,・・・・・・・・
・,LNに対応する音韻情報アドレスをメモリ12−d
中の表より索表により定め、同じくメモl月2−d中の
所定の位置に格納する。
In FIG. 3, the various processing sections 16 to 26 and the control section 10 are composed of microprocessors, and are connected to each other by a data bus 14 and two interrupt lines 13-1 and 13-2.
Mutual calls are made by interrupts and device numbers on the data bus determined for each processing section, and each processing section has its own dedicated memory and processing procedures. Furthermore, the memory 12 is a common memory. The input processing unit 16 inquires of the control unit 10 when there is a request from the center to synthesize and output audio, and if it is possible to process it, puts the input/output control unit 16 into a state where it can accept the content, and receives the content to be synthesized and sends it to the memory 12.
- Record at a predetermined position in a. The content is expressed as a code string L, ......, LN corresponding to the type S and kana characters, and by counting the number of input codes, the number N of syllables of the word to be synthesized can be calculated. The result is also recorded in the memory 12-a. When the input is completed, the input processing section 16 notifies the control section 10 of the end of reception. The control unit 10 activates the person name main processing unit 17 or the company name main processing unit 18 depending on whether the type S of the word to be synthesized indicates a person's name or a company name. If the type S indicates a company name, the information of that S is sent to the ending detection processing unit 19.
Start. The word ending detection processing unit 19 searches the company terminology ending table, and if there is a match, it learns the accent type M required by that ending from the table and outputs it to the memory 12-a, and if there is no matching ending, then control is again passed to the company name processing unit 18 with type 3 as accent type M. The company name processing unit 18 then activates the phoneme transformation processing unit 20. The phoneme modification processing unit 20 stores the constellation in the memory 12-a. Ll,・
・・・・・・・・・ From LN and accent type, judge whether the syllable immediately before the accent nucleus is a consonant, a consonant, or the second vowel of a long vowel, and in that case, increase M by 1 and create a new M+1. is recorded in the memory 12-a as accent type M. If the type S indicates a person's name, the person name main processing unit 17 separates the surname and first name from the code strings Ll, . The word ending detection processing section 19 is activated. The word ending detection processing unit 19 searches the surname and each term ending table, and if there is a match, it determines the accent type according to the table, and if there is no match, it passes control to the person name main processing unit 17 as type 3. . When the person name main processing section 17 finishes estimating the accent type by detecting the end of the last name or given name, it activates the phoneme modification processing section 20 to perform modification based on phoneme information. Person name processing unit 17
After estimating the accent type of the surname and first name, the system estimates the accent type when the entire person's name is considered as one word according to the above-mentioned combination rules (a) to (c). When the company name processing section 18 or the person name processing section 17 finishes estimating the accent type, it passes control to the control section 10. At this time, the accent type M finally estimated is recorded in the memory 12-a together with the code string Ll, . . . , LN and the number N of codes. Pitch information 6 is stored in the memory 12b in advance in a table format for each combination of chord number N and accent type M.
The control unit 10 is recorded in the pitch information processing unit 21.
, the pitch information processing unit 21 learns the position P of necessary pitch information from the accent type M and the number N of chords by looking up the table, and stores the result in a predetermined position in the memory 12-b.
Control is passed to the control section 10. Pitch information transmission processing section 22
When receiving a request to send pitch information from the synthesizer 3, it inquires of the control unit 10 whether it is possible to send the pitch information, and if possible, stores the pitch information in the memory using the position P of the pitch information in the memo I month 2-b as a clue. 12-b and sends it out. On the other hand, the time information processing section 23 and the phonetic information address processing section 25 are activated at the same time as the pitch information processing section 21 in the memo I month 2-a when the accent type determination in the person name processing section 17 or the company name processing section 18 is completed. It is activated and the code string Ll,...
......, memorize the syllable duration corresponding to LN l month 2
-c is determined by a lookup table and stored in a predetermined position in the memory 12-c. Phonological information address processing section 25
is the code string Ll in the memory 12-a,...
・The phoneme information address corresponding to LN is stored in the memory 12-d.
It is determined by a lookup table from the table inside, and is also stored at a predetermined position in the memo 2-d.

制御部10はピツチ情報処理部21と時間情報処理部2
3および音韻情報アドレス処理部25での処理がすべて
終了していることが確認されている状態でのみ合成部3
からの各々の情報の送出要求に応じる。この場合には合
成部3からの要求に従いピツチ情報に関してはピツチ情
報送出部22から、時間情報に関しては時間情報送出部
24から、音韻情報アドレスに関しては音韻情報アドレ
ス送出部26より各々制御情報を送り出す。音韻の持続
時間長の値を図4に示す。
The control unit 10 includes a pitch information processing unit 21 and a time information processing unit 2.
Synthesizing unit 3 only when it is confirmed that all processes in 3 and phoneme information address processing unit 25 have been completed.
Respond to requests for information from each person. In this case, according to the request from the synthesis section 3, pitch information is sent out from the pitch information sending section 22, time information is sent out from the time information sending section 24, and phonological information address is sent out from the phonological information address sending section 26. . Figure 4 shows the values of phoneme duration length.

以上の実施例に説明したように、本発明により、任意の
固有名詞の音声を、その名詞のつづりから合成すること
が可能となつた。
As explained in the above embodiments, the present invention makes it possible to synthesize the speech of any proper noun based on the spelling of the noun.

我々の実験によれば、本発明により約9割の名詞が正し
いアクセントにより音声合成される。また残りの1割も
十分に使用に耐えるアクセント感が与えられ、聞きやす
い任意の固有名詞を含む音声による応答が可能となつた
。以上に説明した例は、説明の便宜上1つの合成部の制
御法について述べたが、各処理部は常に働いているわけ
ではない。
According to our experiments, approximately 90% of nouns can be synthesized into speech with the correct accent using the present invention. In addition, the remaining 10% was given a sufficient accent to withstand use, and it became possible to respond with a voice that included any proper noun that was easy to hear. In the example described above, for convenience of explanation, a method of controlling one synthesis section has been described, but each processing section does not always work.

従つてある合成部用の情報について処理を行なつていな
い間は他の合成部用の情報の処理が可能であり、多数の
合成部を制御する多重制御も可能であることは言うまで
もない
Therefore, while information for one synthesis section is not being processed, it is possible to process information for other synthesis sections, and it goes without saying that multiple control for controlling a large number of synthesis sections is also possible.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の一実施例のプロツク図、第2図は第1
図をさらに詳しく説明した音声合成装置のプロツク図、
第3図は第2図の一部をより詳しく説明するための図、
第4図は音韻の持続時間長の値を示すための図である。 1・・・・・・システム制御部、2・・・・・・音韻情
報メモリ、3・・・・・・音声合成部、4・・・・・・
入力指令、5・・・・・・出力音声、6・・・・・・ピ
ツチ情報、7・・・・・・時間情報、8・・・・・・音
韻情報アドレス、9・・・・・・アクセント情報、10
・・・・・・制御部、11・・・・・・制御晴報作成部
、11a・・・・・・アクセント情報作成部、11−b
・・・・・・ピッチ情報作成部、11−c・−・・・時
間情報作成部、11−d・・・・・・音韻情報アドレス
作成部、12・・・・・・メモリ、12−a・・・・・
・アクセント情報作成用メモリ、12−a−2・・・・
・・語尾表メモリ、12−b・・・・・・ピツチ情報作
成用メモリ、12−c・・・・・・時間情報作成用メモ
リ、12−d・・・・・・音韻情報アドレス作成用メモ
リ、13・・・・・・割込線、13−1・・・・・・制
御部への割込線、13−1・・・・・・各処理部への割
込線、14・・・・・・データバス、15・・・・・・
入出力制御部、16・・・・・・入力処理部、17・・
・・・・人名主処理部、18・・・・・・会社名主処理
部、19・・・・・・語尾検出処理部、20・・・・・
・音韻変形処理部、21・・・・・・ピツチ情報処理部
、22・・・・・・ピツチ情報送出処理部、23・・・
・・・時間情報処理部、24・・・・・・時間情報送出
部、25・・・・・・音韻情報アドレス処理部、26・
・・・・・音韻情報アドレス送出部。
Fig. 1 is a block diagram of one embodiment of the present invention, and Fig. 2 is a block diagram of an embodiment of the present invention.
A block diagram of a speech synthesizer that explains the diagram in more detail,
Figure 3 is a diagram for explaining a part of Figure 2 in more detail;
FIG. 4 is a diagram showing the value of the duration length of a phoneme. 1...System control unit, 2...Phonological information memory, 3...Speech synthesis unit, 4...
Input command, 5... Output voice, 6... Pitch information, 7... Time information, 8... Phonological information address, 9...・Accent information, 10
...Control unit, 11...Control report creation unit, 11a...Accent information creation unit, 11-b
...Pitch information creation unit, 11-c...Time information creation unit, 11-d...Phonological information address creation unit, 12...Memory, 12- a...
・Memory for creating accent information, 12-a-2...
... Word ending table memory, 12-b... Memory for creating pitch information, 12-c... Memory for creating time information, 12-d... Memory for creating phonological information addresses. Memory, 13...Interrupt line, 13-1...Interrupt line to the control unit, 13-1...Interrupt line to each processing unit, 14. ...Data bus, 15...
Input/output control section, 16... Input processing section, 17...
...Person name head processing unit, 18...Company name head processing unit, 19...Word ending detection processing unit, 20...
- Phonological transformation processing unit, 21... Pitch information processing unit, 22... Pitch information transmission processing unit, 23...
... Time information processing section, 24 ... Time information sending section, 25 ... Phonological information address processing section, 26.
...Phonological information address sending unit.

Claims (1)

【特許請求の範囲】[Claims] 1 文字コード列化した単語を入力する手段と、前記入
力された文字コード列化した単語により音声合成に必要
な情報を作成する音声情報作成手段と、前記音声情報作
成手段の出力に基づいて音声を合成する手段とを有する
音声合成装置において、前記音声情報作成手段は、(1
)文字コード列化した単語の語尾に対応したアクセント
型を記憶しておく記憶手段と、(2)前記入力された文
字コード列化した単語の語尾と前記記憶手段に記憶され
ている文字コード列化した単語の語尾とを比較し、前記
入力された文字コード列化した単語の語尾が記憶されて
いる文字コード列化した単語の語尾と一致すれば対応す
るアクセント型を指定し、一致しなければ所定のアクセ
ント型を指定する信号を出力するアクセント型指定手段
と、(3)前記アクセント型指定手段の出力により定ま
る前記入力された文字コード列化した単語のアクセント
核の位置の直前の文字コードが、所定のものであれば前
記指定されたアクセント型を所定値に変換出力し、所定
のものでなければ前記指定されたアクセント型をそのま
ま出力するアクセント型修正手段と、を有することを特
徴とする音声合成装置。
1. Means for inputting words converted into character code strings, voice information creation means for creating information necessary for speech synthesis from the input words converted into character code strings, and voice information creation means based on the output of the voice information creation means. In the speech synthesis device having means for synthesizing (1), the speech information generating means (1)
) a storage means for storing an accent type corresponding to the ending of the word converted into a string of character codes, and (2) the ending of the word inputted into the string of character codes and the character code string stored in the storage means. If the ending of the input character code string matches the ending of the word that is stored as a character code string, the corresponding accent type is specified and a match is made. (3) an accent type specifying means for outputting a signal specifying a predetermined accent type; and (3) a character code immediately before the position of the accent nucleus of the word inputted as a character code string, which is determined by the output of the accent type specifying means. is characterized in that it has an accent type correction means that converts and outputs the specified accent type to a predetermined value if it is a predetermined value, and outputs the specified accent type as it is if it is not a predetermined value. Speech synthesis device.
JP49060736A 1974-05-31 1974-05-31 speech synthesizer Expired JPS5913040B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP49060736A JPS5913040B2 (en) 1974-05-31 1974-05-31 speech synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP49060736A JPS5913040B2 (en) 1974-05-31 1974-05-31 speech synthesizer

Publications (2)

Publication Number Publication Date
JPS50153806A JPS50153806A (en) 1975-12-11
JPS5913040B2 true JPS5913040B2 (en) 1984-03-27

Family

ID=13150832

Family Applications (1)

Application Number Title Priority Date Filing Date
JP49060736A Expired JPS5913040B2 (en) 1974-05-31 1974-05-31 speech synthesizer

Country Status (1)

Country Link
JP (1) JPS5913040B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5688200A (en) * 1979-12-20 1981-07-17 Nippon Electric Co Accent pattern generator
JPS58134697A (en) * 1982-02-05 1983-08-10 日本電気株式会社 Waveform editting type voice synthesizer

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4843205A (en) * 1971-09-30 1973-06-22

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4843205A (en) * 1971-09-30 1973-06-22

Also Published As

Publication number Publication date
JPS50153806A (en) 1975-12-11

Similar Documents

Publication Publication Date Title
US7177795B1 (en) Methods and apparatus for semantic unit based automatic indexing and searching in data archive systems
EP1267326B1 (en) Artificial language generation
US5850629A (en) User interface controller for text-to-speech synthesizer
US6876967B2 (en) Speech complementing apparatus, method and recording medium
Pitt et al. Design of speech-based devices: a practical guide
JP2003005789A (en) Method and device for character processing
Haugen et al. Facts and phonemics
JPS5913040B2 (en) speech synthesizer
JPS6050600A (en) Rule synthesization system
JP5098932B2 (en) Lyric data display device, lyrics data display method, and lyrics data display program
JP3201329B2 (en) Speech synthesizer
JPH09325787A (en) Voice synthesizing method, voice synthesizing device, method and device for incorporating voice command in sentence
Williams Word stress assignment in a text-to-speech synthesis system for British English
JPH0962286A (en) Voice synthesizer and the method thereof
Amrouche et al. BAC TTS Corpus: Rich Arabic Database for Speech Synthesis
JP3414326B2 (en) Speech synthesis dictionary registration apparatus and method
JP2580566B2 (en) Speech synthesizer
JP2003005776A (en) Voice synthesizing device
JPS6160167A (en) Japanese word processor
JPS6024630A (en) Forming system of "kana" character string provided with control information
Hain A hybrid approach for grapheme-to-phoneme conversion based on a combination of partial string matching and a neural network
JPH04162098A (en) Regular voice synthesizing device
JPH0562356B2 (en)
Heggtveit et al. Intonation Modelling with a Lexicon of Natural F0 Contours
JP2000010579A (en) Speech synthesizer and computer readable recording medium