JPS63501603A - スピ−チ処理装置および方法 - Google Patents
スピ−チ処理装置および方法Info
- Publication number
- JPS63501603A JPS63501603A JP61505889A JP50588986A JPS63501603A JP S63501603 A JPS63501603 A JP S63501603A JP 61505889 A JP61505889 A JP 61505889A JP 50588986 A JP50588986 A JP 50588986A JP S63501603 A JPS63501603 A JP S63501603A
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- value
- values
- speech
- digital
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims description 88
- 238000000034 method Methods 0.000 title claims description 49
- 238000001228 spectrum Methods 0.000 claims description 169
- 230000015654 memory Effects 0.000 claims description 86
- 230000001953 sensory effect Effects 0.000 claims description 80
- 230000003595 spectral effect Effects 0.000 claims description 59
- 230000006870 function Effects 0.000 claims description 45
- 230000001133 acceleration Effects 0.000 claims description 34
- 230000007935 neutral effect Effects 0.000 claims description 29
- 230000014509 gene expression Effects 0.000 claims description 19
- 230000001755 vocal effect Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000000737 periodic effect Effects 0.000 claims description 8
- 230000007423 decrease Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 240000005809 Prunus persica Species 0.000 claims description 3
- 235000006040 Prunus persica var persica Nutrition 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 210000004704 glottis Anatomy 0.000 claims description 2
- 235000012907 honey Nutrition 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 31
- 238000004458 analytical method Methods 0.000 description 18
- 239000013598 vector Substances 0.000 description 14
- 239000011295 pitch Substances 0.000 description 13
- VJLLLMIZEJJZTE-BUDJNAOESA-N n-[(e,3r)-3-hydroxy-1-[(2s,3r,4s,5r,6r)-3,4,5-trihydroxy-6-(hydroxymethyl)oxan-2-yl]oxyoctadec-4-en-2-yl]hexadecanamide Chemical compound CCCCCCCCCCCCCCCC(=O)NC([C@H](O)\C=C\CCCCCCCCCCCCC)CO[C@H]1O[C@H](CO)[C@H](O)[C@H](O)[C@H]1O VJLLLMIZEJJZTE-BUDJNAOESA-N 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 230000005484 gravity Effects 0.000 description 9
- 230000008447 perception Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 208000022976 Liberfarb syndrome Diseases 0.000 description 7
- 239000013256 coordination polymer Substances 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000033001 locomotion Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013178 mathematical model Methods 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013016 damping Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 210000003254 palate Anatomy 0.000 description 2
- 230000037361 pathway Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 235000016068 Berberis vulgaris Nutrition 0.000 description 1
- 241000335053 Beta vulgaris Species 0.000 description 1
- 101100328887 Caenorhabditis elegans col-34 gene Proteins 0.000 description 1
- 102100031584 Cell division cycle-associated 7-like protein Human genes 0.000 description 1
- 241000282994 Cervidae Species 0.000 description 1
- 238000003775 Density Functional Theory Methods 0.000 description 1
- 241000257465 Echinoidea Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101000777638 Homo sapiens Cell division cycle-associated 7-like protein Proteins 0.000 description 1
- 206010048865 Hypoacusis Diseases 0.000 description 1
- 241000683481 Oedostethus Species 0.000 description 1
- -1 RAM3 Proteins 0.000 description 1
- 101150065817 ROM2 gene Proteins 0.000 description 1
- 239000004809 Teflon Substances 0.000 description 1
- 229920006362 Teflon® Polymers 0.000 description 1
- 101100524639 Toxoplasma gondii ROM3 gene Proteins 0.000 description 1
- 101100524644 Toxoplasma gondii ROM4 gene Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 description 1
- 229910052782 aluminium Inorganic materials 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000002775 capsule Substances 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 208000021833 sensation perception Diseases 0.000 description 1
- 235000019578 sensation perception Nutrition 0.000 description 1
- 230000009155 sensory pathway Effects 0.000 description 1
- 210000001584 soft palate Anatomy 0.000 description 1
- 235000015096 spirit Nutrition 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 235000021419 vinegar Nutrition 0.000 description 1
- 239000000052 vinegar Substances 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。
Description
【発明の詳細な説明】
スピーチ処理装置および方法
〈発明の背景〉
この発明は、スピーチ処理装置および方法に関するものである。さらに詳しく言
えば、この発明は自動スピーチ認識への適用および研究て使用する装置および方
法に関する。
感知されるスピーチは、セグメントあるいはスピーチ音から成り立っていると考
えることかできる。これらは話し言葉の音素すなわちホーニーム(音韻)で、こ
れらは国際音声学協会(International Phonetic As
5ocia−tion)の記号のような1組の記号によって表わすことができる
。
これらのセグメントは言語単位で、感知されまた話されるスピーチ中にそれらの
基礎をもっている。言語のすべての音節(シラブル)および語(ワード)は比較
的少数の音素から成っている。例えば英語の場合、音声学のテキストには僅か2
5個の子音と12個の母音の合計37個のホーニームがリストアツブされている
にすぎない、もしより細かい音声学的識別が含まれていると、識別可能なスピー
チあるいは音は50あるいは60の高さにまで伸ばされる。
話し言葉のホーニームは、約12個の少数の組の明確な特徴によって理解するこ
とがてきるということが提案されている。これらの特徴は、発声的、知覚的、お
よび言語学的解析をその基礎とするものである。このような特徴による方法は、
音およびホーニームが発音の場所および発音のし方の形で説明されている音声学
の教科書中でしばしば使用される。
聴取者がスピーチの入力音響波形をどのように処理し、この波形をホーニームや
語のような一連の言語素子に変換するかという点に関する幾つかの理論がある。
スピーチの感知に含まれる正確なメカニズムおよび処理は未だ充分には解明され
ていない。音、ホーニームおよび推測される特徴についての簡単て信頼性のある
音響的聴覚の相関関係を発見することはとらえどころがないことであるというこ
とが判った。
言語の感知に関する研究発表の説明は、音響的聴覚パターンとホーニームの感知
との間の関係についての複雑て高度に条件付けられたものになっているが、それ
でもその説明は依然としてしばしば狭い範囲に制限された上ての一般論というこ
とになっている0例えば、聴取者がどのようにして音響入力を言語学的感知に関
連するセグメントに分けることができるかという問題は解明されていない、この
セグメント化についての解決が得られたと □しても、ホーニームあるいは特徴
についての聴覚的音響表現は、音声学的関係、特定の話者、スピーチの速さに依
存するように思われる。
これらの問題の結果、言語感知についての幾つかの実行可能な理論がある。現在
のすべての理論は一般的な3段階のモデルに集約され、音響入力は上昇形(ボト
ム・アップ)シーケンスで3段階の処理を受ける。第1段階は入力音響波形の聴
覚的解析であり、それによって信号が聴覚的な関係をもって表わされる。第2段
階で聴覚−知覚変換が行なわれ、それによって第1段階段階のスペクトル出力は
音響学的認識に関連する知覚形式に変換される。ここでスペクトル表現は知覚に
より一層直接関連するディメンジョンに変換される。例えば、各種の理論におい
て、知覚的形態はスピーチ生成、あるいは聴覚的特徴、あるいはパターン・シー
ケンスの発声の相関関係に関連する可能性がある。最後の第3段階において、第
2段階の感知ディメンジョンは発声−言語変換によって一連のホーニーム、音節
、あるいは語に変換される。第2段階および第3段階はトップダウン処理による
影響を受ける。この場合言語や事象、言語と同様に他の感覚からの入力を含む最
新の入力に関する知識も使用されるようになる。
自動スピーチ認識におけるある仕事には、時間窓処理されたスピーチ波形に関し
て実行される狭帯域スペクトル解析が含まれる。「アイ・イー・イー・イー・ス
ペクトラム」の1983年11月号、第84頁乃至第87頁のレディ氏(R,R
eddy)他の論文“連続的スピーチの認識には未だゴールが不明である(Re
cognizing continuous speech−remains
an elusive goal)”に述べられている方式では、入力デジタル
化信号は100分の1秒のスライスに分割され、スペクトル的に解析される。各
スライス音の原形の集合と比較され、各スライスに最も近い原形はシーケンスに
入る。次に原形シーケンスは語の初期音を大ざっばに分類するために使用され、
次いてこれは語の推定を行なうために使用される。それから各語は確率マトリッ
クスを作り出すことによって試験され、動作サイクルは全センテンスが識別され
るまで次の語に対してくり返される。
〈発明の概要〉
とりわけ、この発明の目的は、異なる速さて生ずるスピーチを処理する改良され
たスピーチ処理装置および方法を提供すること、異なる話し手からのスピーチを
有効に処理する改良されたスピーチ処理装置および方法を提供すること、スピー
チ内の音素を識別するためにスピーチをセグメントに分ける改良されたスピーチ
処理装置3よび方法を提供すること、音の明らかな聴覚的重畳が存在するスピー
チ音生の音素を認識する改良されたスピーチ処理装置および方法を提供すること
、無音(サイレンス)や変移のようなキューを集積する改良されたスピーチ処理
装置および方法を提供すること、破裂および閉鎖音素を識別する改良されたスピ
ーチ処理装置および方法を提供すること、通常ホーニームに付帯するスピーチ音
が実際に生じない時にあたかもそれか生じたかのようにホーニームを認識するた
めにホーニーム的回復を行なうことのできる改良されたスピーチ処理装置および
方法を提供すること、異なる方言、言語の話者のスピーチ中の音素を認識する改
良されたスピーチ処理装置および方法を提供すること、スピーチを記憶および表
示用の記号に変換するための改良されたスピーチ処理装置および方法を提供する
こと、およびスピーチに対応する書かれたテキスト材料を発生するのに使用する
ために、スピーチを一連の音素に変換する改良されたスピーチ処理装置および方
法を提供することにある。
他の目的、特徴は以下でその一部が明らかにされ、またその一部が指摘されてい
る。
この発明の一形式では、スピーチ処理装置は、メモリ中の各々のアドレス群に対
応する異なる発声表現(Rho−netic representations
)を表わす予め記憶された情報を保持するメモリ手段と、各々連続する時間間隔
で生ずるスピーチの周波数スペクトルから数学的空間中の径路中の点の一連の座
標値を電気的に引出し、加速度の大きさのピークの径路に沿う少なくとも1つの
位置を近似する座標値を識別し1位置の座標値の関数としてメモリ・アドレスを
発生し、そのメモリ・アドレスに予め記憶された発生表現情報を上記メモリ手段
から得る回路とを含んでいる。
この発明の他の形式では、スピーチ処理装置はスピーチのアナログ波形のサンプ
ルを生成し、そのサンプルをデジタル形式に変換する回路を含んでいる。また、
デジタル形式のサンプルからスピーチの周波数スペクトルを表わすデジタル値の
群を引出し、各デジタル値の群から決定される数学的空間中の一連のポインタ値
を発生し。
この一連のポインタ値から、どの聴覚状態コードか発生されるかに依存して決定
される複数の異なる計算処理のうちの1つによって、数学的空間の径路上の点の
一連の座標値を計算するための回路が含まれている。他の回路が径路上の点の計
算された座標値をデジタル形式て一時的に記憶する。
この発明の方法では、スピーチ処理方法は、各々連続する時間間隔で生じるスピ
ーチの周波数スペクトルから数学的空間の点の座標値であって、その数学的空間
の点の径路を特定する一連の座標値を電気的に引出し、加速度の大きさてピーク
の径路に沿う少なくとも1つの位置を近似する座標値を電気的に識別し、上記通
路上の位置の座標値の関数としてメモリ・アドレスを発生し、メモリの各アドレ
ス群に相当する異なる発生表現を表わす予め記憶された情報を有するメモリ手段
から、そのメモリ・アドレスに予め記憶された上記発生表現情報を得る段階を含
んでいる。
この発明の他の形式ては、スピーチ処理装置はメモリ回路と、スピーチのアナロ
グ波形のサンプルを発生し、このサンプルをデジタル形式に変換するための回路
網を含んでいる。さらに他の回路は、デジタル形式のサンプルからスピーチの周
波数スペクトルを表わすデジタル値群を引出し、メモリの個々の位置にスペクト
ル中の1あるいはそれ以上のピークの周波数の値を選択的に記憶させ、周波数の
記憶された値およびこの周波数の記憶された値の個々の位置の双方に依存する数
学的空間中の座標値に対応する1組のデジタル値を発生する。この場合、所定の
ピークの周波数が記憶され選択されたlあるいはそれ以上の個々のメモリ位置は
、そのピークが周波数の第1の予め定められた帯域にあるか、および任意の他の
ピークが第1の帯域とこの第1の帯域とオーバーラツプする第2の帯域の双方に
あるか否か依存している。
〈図面の簡単な説明〉
第1図はこの発明のスピーチ処理装置のブロック図、第2図は代表的なスピーチ
波形の電圧対時間の関係を示すグラフを示す図、
第3図は第1図のCPUIユニットの割込みルーチンの動作を示すフローチャー
ト図、
第4図はこの発明の方法による第1図のCP旧の主ルーチンの動作を示すフロー
チャート図、
第5図は第2図のスピーチ波形の周波数スペクトルを示す10ミリ秒サンプルの
振幅対対数で表わされた周波数のグラフを示す図。
第5A図は基本周波数の倍数Kに相当する1組のスペクトル値を保持するCPU
Iに対するメモリ中の表の概略図。
第6.7.8.9図はスピーチの種々の周波数スペクトルを解析するためのこの
発明の詳細な説明するデシベのグラフを示す図、
第10図は数量で呼ばれるスピーチの良さがどのようにスペクトルの形に依存す
るかを示すデシベル対対数で表わされた周波数における3つのスペクトル包結線
を示す図、
第11図はこの発明の方法によりこの発明の装置の動作を説明するためのスペク
トルにおけるスピーチの良さと1あるいはそれ以上のピークの幅との関係のグラ
フを示す図、
第12図はこの発明の方法により、この発明の動作によって生成される数量で呼
ばれるスピーチの大きさ対デシベル和の関係をグラフで示す図、
第13A図および第13B図はこの発明の装置によってスペクトルを解析するた
めのこの発明の方法による第4図の主ルーチン中の動作をさらに詳細に説明する
ための2つのフローチャート図、
第14図はスペクトル基準値を発生するためのこの発明の方法による動作のフロ
ーチャート図。
第15図は感覚ポインタの座標値から知覚上の重要度をもワた径路上の座標値に
変換するための第1図のCPU2ユニツトにおけるこの発明の方法による動作を
示すフローチャート図、
第15A図は第15図の動作におけるCPU2によって使用される表を示す図。
第16図は感覚ポインタ座標から3次元数学的空間中の知覚ポインタの座標x、
、y、、z、に変換する数学的モデルを示す図、
第17図は2つの音素に対するターゲット領域を示し、また数学的空間中の知覚
ポインタによって描かれた軌道あるいは通路を示す第16図の数学的空間の簡略
化された図、
第18図は数学的空間におけるx、y、z座標系およびX’、Y’、Z’座標系
を示す図。
第19図および第20図は第18図のx’、y’、z’座標系に関連する数学的
空間で、第19図てはX′軸に沿って、第20図ては2′軸に沿って見た数学的
空間における母音に対するターゲット帯域をもった母音数の2つの異なる観測状
態を示す図、
第21図は第18図のY軸に沿って見たときの無声閉鎖音に対する数学的空間の
ターゲット帯域を示す図、第22図は第18図のY軸に沿って見たときの有声閉
鎖音、非気息音無声閉鎖音、および鼻子音に対する数学的空間におけるターゲッ
ト帯域を示す図、第23図は第18図のY軸に沿って見たときのアメリカ英語の
無声摩擦音に対する数学的空間におけるターゲット帯域を示す図、
第24図は第18図のx’ 、y′、z’座標系のZ′軸に沿って見たときの有
声摩擦音と音声学的近似に対する数、学的空間におけるターゲット帯域を示す図
、第25図は第18図のx’ 、y’ 、z’座標系のX′軸に沿って見たとき
の第24図の有声摩擦音と音声学的近似に対する数学的空間におけるターゲット
帯域を示す図。
第26図は音声学的に重要な事象が生じたときに数学的空間における径路を解析
し、音素を得るためのこの発明による装置の第1図のCPU3のこの発明の詳細
な説明するフローチャート図、
第27図は第26図の動作で使用するための表を示す図である。
幾つかの図面を通じて、同じ対応参照文字は対応する部分を示している。
〈好ましい実施例の詳細な説明〉
第1図において、この発明のスピーチ処理装置1は、スピーチによる音響波形の
音圧変化を線路13上の電気的信号に変換するマイクロホン11を有している。
装置1は、数ミリ秒ごとに入力スピーチのスペクトルの形および聴覚状態を表わ
すことのできるスピーチ波形に関する短期間の解析を行なう、この感覚上の処理
はより高レベルの知覚的電子装設部分への入力として作用する。知覚的電子装置
部分は、聴覚的情報を時間について積分し、聴覚的知覚事象(すなわちサウンド
)を識別し、聴覚的入力を人間の言語の音素に相当する一連の記号あるいは分類
コードに変換する。
線路13上の電気信号はアンチェリアシング低減通過フィルタ15によって濾波
され、サンプル・ホールド(S/)I)回路17に供給される。S/日回路17
は発振器19によって、例えば20 KHzのサンプリング周波数て付勢され、
アナログ電気信号のサンプルをアナログ・デジタル変換器(ADC)21に供給
し、ここてサンプルは発振器19に応答して並列デジタル形式に変換され、これ
を第1の中央処理ユニ・ントCPUIのデータ入力にm統された1組のデジタル
線路23上に送り出す、 CPUIは50マイクロ秒毎に割込みピンIRQにお
ける発振器19によって割込みか行なわれたときにデジタル形式の最後のサンプ
ルを読込む。
CPUIは第1図における4個の中央処理ユニットCPUI。
CPU2、CPU3およびCPU4のうちの1つで、各々はプログラム可能読出
し専用メモ’J (RO1+!1. ROM2、ROM3、ROM4)、ランダ
ム・アクセス・メモリ(RAMI、RAM2、RAM3、RAM4)、およびビ
デオ端末キーボードユニット(TERMKBDI、TERMKBD2. TER
MKBD3、TERMKBD4 )を具備している。 CPUIはデータ・バッ
ファ25によってバッファ作用を受けるCPU2に対するデータを発生する。C
PU2はデータ・バッファ27によってバッファ作用を受けるCPU3に対する
データを発生する。 CPU3は約2メガバイトの容量を具えたメモリ31を有
し、該メモリ31はメモリ中の各アドレス群に対応する異なった発生表現を表わ
す予め記憶された情報を保持する。 CPU3にはプリンタ33か設けられてお
り、このプリンタによりメモリ31から得られた順序て音素情報を記録する。
CPU4は語粂素アクセス・プロセッサで、音素情報を元の平常文に変換し、ま
た自動書取りを行なうためにプリンタ35上にそれをプリントする。
第2図はスピーチの電気的波形51の一部を示す、波形51は一般に約10ミリ
秒の時間間隔、すなわち窓全体にわたって幾つかのピークと谷間、およびより高
い周波数成分を持っている。CPUIは毎秒2000回割込みを受け、それによ
りて各10ミリ秒の時間間隔毎にADC21から200の組のサンプルが得られ
る。
第3図において、CP旧の割込みルーチン70の動作は“開始71”でビンIR
Qの割込みが開始され、ステップ73に進んてRAMIにおけるNl(例えば8
0)のアドレスのセクションにあるアドレス位置に最新のサンプルを読込む。
次にステップ75においてアドレスおよびサンプル計数Nは1づつ増加する0判
定段階77において、計数Nは数値N1と比較されて、最新のサンプルの組が完
全であるか否かを決定する。もし完全であれば、ステップ79においてサンプル
計数Nは0にリターンし、最新のサンプル組か完了した信号としてフラッグFL
Gはlにセットされる。
また1次のサンプルに対するアドレス位置はNlアドレスのセクションの開始時
に予め定められた位置ADROにリセットされ、ここてリターン81に到達する
。もし、最新のサンプルの組が完了していないと、ステップ77からリターン8
1へ動作が分岐し1割込みが生じた動作で主プログラムがCPUIで再開する。
この主プログラムによるCPUIの動作は第4図に示されており、スタート10
1て開始し、ステップ103で入カー出カバウスキーピングと初期化が行なわれ
る。また、ステップ103でサンプル組のサイズN1は80にセットされ。
サンプル・フラッグFLGおよび可変FILは0にセットされる。感覚上の基準
周波数SRおよび可変GMTPOは共に人間が話すときの声の相乗平均座高(ピ
ッチ)に近い一定値168 Hzに初期化される。変数N2は100にセットさ
れる0次にステップ105で、1組の周波数値5FIL、 5FIH。
SF2 、 SF3と同様にここでは聴覚状態コードと称される1組の変数すな
わち数量はすべて0に初期化される。この発明の実施例による聴覚的状態コード
の変数は、破裂−摩擦音8F、声門原音GS、鼻音NS、破裂−摩擦音および声
門原音にそれぞれ対応する大きさ指数LIBFおよびLIGS、破裂−摩擦音お
よび声門原音にそれぞれ対応するスピーチの良さの値GBF 、 GGSである
。他の実施例では、他の変数は鼻音、有声音化、摩擦音、気合、ささやき、大き
さおよび良さの各種の音声源の特徴の全部または幾つかに対する聴覚的状態コー
ド中に含まれる。
次のステップ107において、Nlサンプルのすべての組が利用できるかどうか
を確認するためにフラッグFLGがチェックされる。第4図の動作が実行される
とき、第3図の割込み動作で次のNlサンプルの組を集めつつある。
装置lが丁度ターンオンされると、CPLIIは第1の組のサンプルが得られ、
FLGが割込みルーチン中で1にセットされるまで待機する。この待機はステッ
プ107からそれ自身への分岐によって行なわれる。 FLGか1になると、サ
ンプルのすべての組が存在し、FLGはステップ109中でOにリセットされる
0次のステップ111て、ADC21からの最新のN1サンプルに対応する周波
数スペクトルを表わす1組のデジタル値が離散フーリエ変換(DFT)処理に従
って計算される。換言すれば、このような各デジタル値の組は各連続するlOミ
リ秒におけるスピーチの周波数スペクトルを表わす。
周波数スペクトルの例が第5図の縦線113によって示されている6周波数スペ
クトルは次のようにして計算される。サンプルのデジタル値は5(N)て表わさ
れる。ここでNは0からN1−1まで変化する。これらのDFTは次のここでe
は自然対数の底てあり、jは−1の平方根であり、πは円の円周と直径との比で
ある。fは1組のN1サンプルを集めるに必要とする時間の逆数に等しい基本周
波数(時間が10ミリ秒であれば、fは100 )1z)に等しく、kfはスペ
クトル中の線113に1つか計算される周波数の整数倍である。C01l 1は
周波数逓倍技術では周知の高速フーリエ変換算法によって1から数値MまてのK
の値についてDFTを計算する。数値Mはサンプリング率の2分の1に1組のN
1サンプルを集めるのに必要とする時間を掛けたもの(2000HzX O,5
X O,01秒= 100)である。
D(kf)の値は第5A図に示すように、Kの各値に対応する連続するアドレス
において、RAM中のスペクトル表に記憶される。
スピーチ波形のスペクトル包絡線を引出すための他の方法ては、スピーチの波形
は5乃至40ミリ秒の持続時間を持ち、1.0乃至2.5ミリ秒のステップでシ
フトされた時間窓重み付は関係によって逓倍される。従って、窓を特定する連続
する時間間隔はオーバーラツプすることもあれば区別されることもある。破裂音
、変移、および比較的定常状態のセグメントに関連する窓持続時間およびステッ
プの大きさは最高の性能が得られるように調整される。短期間スペクトルは各セ
グメントについてDFTあるいは線形予測解析(LPA)のいずれかによって計
算され。
DFTは勿論窓の長さの逆数の整数倍に成分をもった線スペクトルを発生し、一
方LPAは選択されたLPパラメータの数に依存する細部をもった平滑化スペク
トル包絡線(変換関数)を発生する。いずれのスペクトルも大きさ、周波数が共
に対数のディメンションで表わされている。動作は次のようにして行なわれる、
または近似される。スペクトルは対数周波数領域で窓通過処理を受け、それによ
って振幅は感覚レベルあるいは大きさのレベルて表わされる。スペクトルは平滑
化フィルタによる処理を受ける。そのフィルタの1つは臨界帯域に類似したもの
である。他はわずられしい小スペクトル・ピークを減少させる。最後にスペクト
ル包絡線は対数周波数単位で高域通過濾波な受け、スペクトル・チルトを減少さ
せる。得られたスペクトルは殆ど一様な高さの形のピークを持ち、チルトは除か
れ、また平滑フィルタによって小さな不規則性は除去される。a音波は、弱めら
れた広帯域化された第1のホーマットを捜すことによって、あるいは対数周波数
単位の適当な範囲内て処理されたスペクトル包結線を窓通過処理し、鼻音波を捜
しているそのセグメントを帯域通過処理することによって、あるいは相関信号処
理技術を使用することによって、スピーチ・スペクトルの下側半分中て検出する
ことができる。
さらに他の実施例では、CPUIに対するスペクトルを生成するために、リアル
タイム・フィルタ積層回路が使用される。このような積層回路によればCPUI
が必要とする計算を減少する効果があり、またこのような実施例では、スペクト
ル表はリアルタイム・フィルタ積層体からlθミリ秒毎、あるいはさらに短い周
期、例えばl乃至2.5ミリ秒毎の規則正しい間隔で更新される。また、スペク
トルを安価に且つ急速に計算するための信号処理チップとして例えばテキサス・
インストルメンツ(TexasInstruments) 7MS320を使用
することができる。
第5図で、スペクトルは周波数が高くなるにつれて高さが減少、すなわち“チル
ト”する幾つかのピーク1】5.116 、117をもっている。第5図では図
を判り易くするために包絡線119の包絡線は同じピーク115 、116゜1
17をもっている。包Mml19は第6図に再度点線て示されており、第6図で
は図を判り易くするためにスペクトル線は抑圧されていることを理解すべきであ
る。第4図のステップ121におけるCPUIはスペクトルを次の(2)式に従
って感覚レベルのデシベル(dB)に変換する。
D(kf)da = 2(L IOg+o D(kf/ref) (2)ここて
、D(kf)は周波数kfにおける各スペクトル値、refはその周波数に対す
る音圧の正常な人間のE偵である。
スペクトル対数周波数あるいは座高状軸に沿ワて臨界帯域状重み付は関数をスラ
イドすることに平滑化され、スペクトル・チルトあるいは“コーミング(<シす
き)″もまた対数周波数あるいは座高状領域て特定された高域通過リフタを平滑
化されたスペクトルを通過させることにより除去される。得られた平滑包絡線は
、最高スペクトル・ピーク以下の幾つかの一定デジベルの振れおよび聴取の閾値
以下の振れを含む低レベルの振れを。
これらは音声知覚には関係がないことから除去するために、整流(しわを伸ばす
ように調整)される。
処理されたスペクトル包結線は鼻音波の存在、位置、強度を知るために試験され
る。幾つかの実施例ては、さらにスペクトル処理することによって除去すること
のてきる鼻音化の決定後、スペクトル包絡線は高周波数および低周波数のカット
オフについて、および重要なスペクトルについて検査される。
ステップ123ては、第6図の点線125によって示されたチルトは1周波数か
10倍高くなる毎にCdBの割合て周、波数と共に増大するスペクトルに値を加
えることによって上記のスペクトルから除去することがてきる。定数Cの値はス
ペクトルの直線回帰解析を使用することによって決定される。スペクトルからチ
ルトを除去することによって、比較的平坦な形が得られる。この場合、エネルギ
の特徴はほぼ同じ振幅をもっているということである。チルトを除去するための
高域通通りフタに対する値は次の(3)式から決定される。
DI = Cx log K (3)
具体的に言えば、チルトを除去するために、デシベルで表わされたスペクトルの
各Mの値(Mは例えば40)は、1からMの各Kに対して(3)式に従って計算
された対応する値に加算される。これによって得られたスペクトルが第6図の包
絡線127によって示されており1周波数が増加する方向の順序で3つのピーク
P1、P2. P3をもっている。
時間窓処理されたスピーチ波形の上述の短期間スペクトル解析により、スピーチ
波形中の音色成分の振幅と周波数を識別し、同時にスピーチ波形中のすべての重
要な非周期性エネルギあるいは他の未解決の高周波成分を生成する。この情報は
、非周期性1周期性および混合されたセグメントを区別し、また周期性および混
合されたセグメントの有効低周波数FOあるいは低座高を設定するために使用さ
れる。この同し短期間スペクトル情報はさらに処理されて、感覚上の刺激パター
ン、聴覚−感覚スペクトル、あるいは聴覚スペクトル包絡線と呼ばれる聴覚スペ
クトル・パターンを発生する。有声座高はa(ア)、e(1)、i(イ)、0(
オ)、U(つ)のような母音の有声音声セグメントを識別する役割を果たす、ス
ピーチの非周期的エネルギの検出は、h、P、に、tのような気合の認識、s、
f等の摩擦音の認識に極めて重要である。 z、 zh、 vのような有声摩擦
音は1周期的エネルギと非周期的エネルギの混合であり、声門音源と破裂−摩擦
音スペクトルの双方の組合せである。
第7図、第8図、第9図は異なる形式のスピーチ源に関連する異なる形式のスペ
クトルを示す包結線を示す。
これらのスペクトルは第6図の包絡線127と比べた場合、異なる周波数で、異
なる数の形の特徴、すなわちピークを持っている。異なる組のスピーチ・サンプ
ルがCPUIによって処理されると、第4図のステップ111゜121 、12
3によって得られたスペクトルは明らかに広範囲にわたって変化する。
比較的少数の変数でこれらのスペクトルを特徴ずけるために、各最新のスペクト
ルはステップ131で解析される。このステップて、これらのスペクトル周波数
SFI、SF2 、 SF3が計算される。スペクトル周波数SFI 、 SF
2、SF3は幾つかの場合は第6図におけるPI、 P2、P3のようなピーク
が生ずる周波数で、これらを決定する方法については特に第13A図、13B図
によって後程さらに詳しく説明する。明確なより低い値SFI lとより高い値
5FIHは鼻音が存在するときにSFIに対して計算される。スペクトル周波数
の基準SRもまたスピーチの全体の一般的な音の高低(音質)を表わすために計
算され、それによって高い音のズ子(音質)をもった声と低い音の調子(音質)
をもった声は装置lによって容易に処理される。ステップ131ではまた聴覚の
状態コートの数量BF、 GS、 NS。
LIGS、 LIBF、 GGS 、 GBFがスペクトルから決定される。
次の判定ステップ133では、スピーチの良さの値GGSおよびGBFが試験さ
れ、また大きさ指数値LIGSおよびLIBFが試験され、もし正の値がなけれ
ば動作はステップ135に分岐する。ステップ135ては、CPUI中の1組の
レジスタ(感覚上のポインタ座標X、、Y、およびZ、と称される1組の3座標
に対応する)は座標が限定されていないことを示すコード“*”てローディング
される。
次のステップ137において、x、、y、、z、に対するレジスタの内容は第1
図のバファ25を通ってCPt12に送られる。判定ステップ133において、
もしスピーチの良さが正であれば、感覚ポインタの座標値X、がSF3 、 S
F2の比の対数値に等しくセットされ、ポインタ値Y、が5FILとSRの比の
対数値に等しくセットされ、ポインタの値Z、がSF2と5FIHの比の対数値
に等しくセットされるステップ143へ動作か進み、それからステップ137へ
到達する。有声摩擦音におけるように声門音源と破裂−摩擦音スペクトルが同時
に存在するときを除いてステップ143の式は1回計算され、そして上記の場合
はステップ143は声門音源スペクトルに対するポインタの座標X□、Yll、
Z□、および破裂−摩擦音スペクトルに対するX br、 Y br、 Z b
yを計算するためにステップ143は2回計算される。
ステップ137において、感覚ポインタ座標値X1、Y、およびZ、がCPU2
に送られた後、聴覚状態コード数量BF、 GS、 NS、 LIGS、 LI
BF、 GGSおよびGBFまたはステップ145においてバッファ25を経て
CPU2に送られる。ステップ147において、オン−オフ・スイッチがオン状
態にあるか否かの判定が行なわれ、もしオンでなければ終了149において動作
は終了する0通常の状態におけるようにもしスイッチがオンであると、動作はス
テップ105に戻り、次のスペクトルを得てそれを解析し、前述のように情報を
CPU2に送る。このようにして、CPUIはリアルタイムで到達するスピーチ
のサンプルについてのスペクトル情報を得るために連続的に動作を実行する。
第5図に示すように、何時いかなる時でも聴覚的スペクトル・パターンは対数周
波数に対するdB(音あるいは感覚レベル、あるいはそれに相当する)の形て聴
覚包絡線によって与えられる。この包kPImを適当に処理した後、SR,SF
I 、 SF2 、 SF3の周波数値はスピーチの母音の部分に対して見出さ
れる。母音の部分は1通常は声門における音響源から得られたセグメントあるい
はスペクトル成分て、外界への伝送路として鼻声管を伴なうかあるいは伴なうこ
となく声帯管をもっている。従って、周期的スペクトルを持った有声音スピーチ
、および非周期的スペクトルを持ったささやきあるいは気合はスピーチの母音成
分てあり、ここでは声門音源(CS)スペクトルと呼ばれるスペクトルをもって
いる。母音セグメントの存在の1つのサインは有声管の第1の共振に関連するこ
とのてきる低周波数成分(Pl)である。
スピーチの母音部分の感覚ポインタは第4図のステップ143内で計算された数
学的空間内、あるいは発声学的に関連する聴覚−知覚空間内の位置をもっている
。このポインタは声門音源感費ポインタ(cssp)と呼ばれている6通常SF
I 、 SF2 、3F3は第6図の聴覚スペクトル包絡線127内の最初の3
つのスペクトル成分の中心周波数である。しかしながら、時には、ピークP2と
P3か軟ロ蓋音セグメント期間中に合併し、あるいはP3が存在しないときSR
全全体わたる一定の対数距離として扱われる場合のように、SF3がはっきりと
したピークP3が観察されない時のスペクトル包結線の上側端縁として解釈され
ることがある。一般にスペクトル周波数SFIは声道の第1の重要な共振の中心
周波数に対応している。しかしながら、鼻音化期間中は2つのピークあるいは1
つの広帯域化ビークが第9図および第8図にそれぞれ示すように第1の重要な共
振の近くで現われる。第4図のこのようなスペクトル変化ステップ131および
143を注意することは、鼻音化スペクトルに対して他のスペクトルとは異った
感覚ポインタ位置を計算するのに充分に柔軟性をもたせることがてきる。
第912Iの包結線によって示されるスペクトルの他の重要な階級のものには、
第6図のピークP1の領域に重要な成分がない、換言すれば、第6図の3つの成
分の後の2つはこの階級のスペクトル中の第1の成分なしに生ずる可能性がある
。このようなスペクトルは破裂音および持続摩擦音に伴っており、話者か声門上
部の音源で発声するものである。これには例えば舌が軟口蓋、口蓋、あるいは歯
に接触するかこれらに接近して発声される場合や歯と唇自身て発声される場合が
ある。これらのスペクトルはここては破裂−摩擦音(BF)スペクトルを称す、
BFスペクトルはcpuiによって68スペクトルとは相違して解析されてス
ペクトル周波数値SFI 、 SF2およびSF3 、感覚基準値SRが生成さ
れ、また、第4図のステップ143て計算された得られた感覚ポインタ値の位置
は一般にX、、Z、面内にある。これらのポインタ値は、csspとは区別され
る破裂−摩擦音感覚ポインタ(BFSP)と称されるポインタの位置を特定する
ものと考えられる。
入力スピーチ第4図のステップ131で解析されると。
声門音源スペクトルが聴覚閾値以上にあるときは常に聴覚状態コード中で1にセ
ットされる。 SR,SFI 、 SF2およびSF3の値が変化したとき、c
sspは数学的空間、あるいは聴覚−知覚空間を通して動くと考えられる。 c
sspの径路は無音によって、および破裂−摩擦音スペクトルによりて中断され
る0次いて、聴覚状態コードでGS値は0にセットされ、BF値は1にセットさ
れる。このような場合、G55PはBFSPに置換えられる。声門音源スペクト
ルが形を変えたとき、 csspは数学的空間を通って動くと考えることがてき
、時にはこのような動きは、例えば“Where were you a ye
ar ago ? (1午前貴方は何処にいましたか)”という文章の場合、殆
ど連続的に存在する。この場合、唯一の中断は“Ago”中の“g″の摩擦−破
裂音中に生ずる。換言すれば、聴覚状態コード中の数値GSは、各種のスピーチ
の多くのスペクトルを通じてlの値に留まっているが、lにセットされた聴覚状
態コート中の数値BFは通常極めて単時間後に0にリセットされる。というのは
、破裂−摩擦音形式てはないスペクトルがすぐ後に生ずるからである。数学的空
間に関しては、破裂−摩擦音感覚ポインタBFSPは、一般に摩擦音がスピーチ
系中に挿入された短時間後に現われ、消滅する。破裂−摩擦音スペクトルが安定
していないとき、BFSPはかなり大きなジッタを呈し、通常は数学的空間内で
滑らかな且つ連続した形態では動かない。
数値GSが0のときは聴覚状態コートの数値BFはしばしばlであり、逆もまた
真である。しかしながら有声摩擦音の場合には、 BFおよびGSは共に同時に
1になる。数学的空間に関しては、感覚ポインタの双方が同時に存在し、一方は
有声摩擦スピーチ音の有声部分の声門音源に関連しており、他方は音の摩擦部分
の破裂−摩擦スペクトルに関連している。
CPUIはGSおよびBFスペクトルに対する聴覚状態コード中の良さの値およ
び大きさの値を計算する。スピーチの良さは、最新のスペクトルによって表わさ
れる音がスピーチの音に似ている程度の測定された値であり、また所定のスピー
チ音に対する理想的なスペクトルとその音の最新の実際のスペクトルとの間の相
互相関と見做すことがてきる。相互相関それ自体の計算はコンピュータに対して
大きな負荷をかけるので、良さの値は好ましい実施例ては!+!1算される。
第1θ図に示すように、実際のスペクトルか非常に狭いピーク171 、173
および175として現われる2〜3の音色からなるときスピーチの良さは低い、
またスペクトルが包絡線177におけるように小さなこぶ状ピークをもった非常
に広い帯域のものであるときも良さの値は低い。
これに対して、はっきりとしてしかも適当に広い成分181 、18:l 、
185を有し、これら成分相互間にはっきりとした谷間のある高忠実度の注意深
く生成された自然なスピーチに対しては良さの値は高い。
F2に示すように、例えば、周波数スペクトル中の少なくとも1個のピークの幅
が何時予め定められた範囲内にあるかを決定することによって良さの値か概算さ
れる。
上記の幅は、デシベルで表わされるDFT値かピークの最大デシベル値よりも低
い少なくとも予め定められたデシベル値(例えば1sdB)にあるピークの中心
周波数よりも低い周波数と高い周波数の最も接近した2つの周波数の、差として
定義される。計算に1以上のピークか用いられるときは、平均あるいは重みの付
けられた平均ピーク幅が適当に決定される。
従って、第11図に示すように、幅が範囲外にあると良さの値は0にセ・ントさ
れる0幅が範囲内にあるときの良さの値は、3角形の関数191になり、最良の
幅の値におけるピーク値はlであり、図示のように最良の値の両側に直線的に減
少して、0の幅てその値が0.25になり、範囲の上限でOの値になっている。
良さの指数は、少なくとも1つ(好ましくは全部)の特徴すなわちピーク幅内の
スペクトルの線のデシベル値の合計(すなわち全パワー)から概算される。この
場合、幅は上のバラグラフで述べたように定義される。第12図のグラフに示す
ように、このデシベル和は聴取りの閾値を表わす偵Tと比較されて、もし和がT
以下であれば大きさ指数りは0である。デシベル和は毎日の通常のスピーチに関
して充分な大きさを表わす値Uと比較されて、もし和がUを越えると、大きさの
指数りは1になる。レベルTとUとの間てデシベル和は次の関数によって大きさ
の指数りに変換される。
L −(dB S、、 −T)/(U −T) (4)第4図のステップ131
中の各スペクトルを解析するに当ってCPUて実行される動作を第13A図、第
13B図を参照して順次説明する。
“開始201″後、ステップ203でCPUはスペクトルの最大値MAX 、す
なわち最も高いピークを発見する。これは例えば予め定められた閾値デシベル・
レベルよりも小さいすべてのスペクトル値を最初0にセットすることによって行
なわれ、そのため、低音レベル、ノイズおよび無音の期間は明らかなピークをも
たない、もし存在すれば、非0値のままにあるものをチェックして、値MAXを
発見するためにそれらの間の最大値を見つける。
ステップ205で大きさしは第12図に関して前に説明したように計算される0
次にステップ207において、最大値MAXから15dBの値を減算して基準レ
ベルREFを生成する0次のステップ209において、レベルREFはDFTス
ペクトル中のMの値のすべてから減算され、得られたすべての負の値はスペクト
ルを規格化するためにOにセットされ、それによって基準線はOdBになって、
基準値以下に低下するスペクトル値はすべてOdBにセットされる。
動作のこの点におけるスペクトルの値は規格化されたスペクトル値を称され、第
6図のRFEと示された水平の点線より上にある包絡線127の部分によって表
わされている。
ステップ209に統〈ステップ211において、基本周波数が座高抽出算法にに
よって見出され、この基本周波数はスペクトル周波数SFOとして記憶される。
上記の算法は、[ジャーナル アコウスティック ソサイエテイアメリカ(Jo
urnal Acoustic 5ociety America)J 74゜
1976−25 (第6図)に示されているシエファース、エム・エイ・エム(
Scheffers、M4−M) (1983)の論文「座高の聴覚的解析のシ
ミュレーション、 OWS声高座高タの生成(Simulation of a
uditory analysis of pitch; Anelabora
tion of the DWS pitch meter) Jに示されてい
る。次にもしスペクトルが第8図の下に示すように声門音源スペクトルであると
、そのスペクトルは3つの周波数帯B1. B2、B3の各々で解析され、そう
でなければ第9図の下に示すように異なる数値限界をもって2つの周波数帯B2
およびB3て解析される。これらの周波数帯はPI。
P2、P3のピークを弁別するための方法として使用され、各帯域を特定するた
めに選択された周波数値は各種の話し声によって最良の結果が得られるように調
整される。
判定ステップ213において、cpuiは、 O,aOより小さいか、あるいは
これに等しいIOg+o (f/ SR)より小さいか、あるいはこれに等しい
0と定義される正の規格化されたスペクトル値か帯域Bl内にあるか否かを判定
する。
ここで、SRはスペクトル基準てあり、fはHzで表わされる周波数である。も
しこのような正の規格化されたスペクトル値が存在しなければ、スペクトルは破
裂−摩擦音スペクトル(これはまた無音の期間であるかも知れないが)であると
結論づけられ、ステップ215に分岐し、ここでBFは聴覚状態コードの1にセ
ットされ、より高いスペクトル値およびより高いスペクトル値5FIL、 5F
IHは共にSRに等しくセットされる。破裂−摩擦音の太き、さ指数LIBFは
ステップ205で計算された大きさしに等し・くセットされる。(無音期間中は
、大きさは0で、1に等iしいBFをもっている場合に次の動作に障害はない)
0周波数帯B2は、1.45より小さいかこれに等しい10g+o (f/ S
R)より小さいか、あるいはこれに等しい0.6として4設定9され2周波数帯
B3は1.65より小さいかこれに等し□い“LO,’g、+ 、。
(f/SR)より小さいか、あるいはこれに等しい1.0として設定される。
一方、ステップ213において、帯域B1で正の規格化されたスペクトル値が存
在すれば、動作はステップ217に進み、そこで最初に規格化されたスペクトル
値が発見され、それにKの次に高い値における低い規格化されたスペクトル値が
後続するまでCPUIは周波数の倍数Kに対応するアドレスの値が増加する順序
で規格化されたスペクトル値を走査する。最初の修正されたスペクトル値は周波
数帯Blにおける最も低い周波数のピークと考えられ、スペクトル周波数値SF
I 、 5FILはこのピークの周波数を表わすKに等しい値にセットされる。
またステップ217において声門音源の数値GSは聴覚状態コードで1にセット
される。声門音源の大きさ指数LIGSはステップ205で計算された大きさし
に等しい値にセットされる0周波数帯B2は1.18より小さいかこれに等しい
log、。(f/ SR)より小さいか、あるいはこれに等しい0.6として設
定され、周波数帯B3は1.30より小さいかこれに等しい10g1゜(f/S
R)より小さいか、あるいはこれに等しい1.0として設定される。
ステップ217に続く判定ステップ219において1周波数81における5FI
Lより高い周波数で第2のピークがあるか否かを判定する。もし存在すれば動作
はステップ2211に分岐し、ここで鼻音性NSは聴覚コード1にセットされ、
さらにステ・ツブ223に進み、ここで第2のピークの周波数が決定されて位置
5FIHに記憶される。
判定ステップ219で、帯域Bl中で第2のピークが発見されなければ、動作は
他の判定ステップ225に進み、ここてピークの幅は予め定められたWt(例え
ば10dB低下で3001(z )と比較され、そのピークがもし鼻音性がない
とした場合の代表的なGSのピークより広いかどうかを判定する。もし予め定め
られた幅を超過すると、ステップ 227に分岐し、ここで鼻音性NSが1にセ
ットされる。またステップ227において、鼻音によって広くされたP1ピーク
の端縁はより低い周波数5FLLをSFOにセットし、より高い周波数5FIH
をP1ビークの上側端における周波数にセットすることによって特定され、ここ
て規格化されたスペクトル値は再びにOになる。しかしながら、ステップ225
において予め定められた幅W1を超過しなければ、動作はステップ229に進み
、ここて値5FI)lは5FILに等しくセットされる。なぜならP1ピークの
みか存在し、鼻音性は存在しないからである。
CPUI(7)動作は第13A図ノステップ215 、223 、227あるい
は229のいずれかから点Xを通って第13B図の判定ステップ231に進む、
ステップ231において、CPUIは規格化されたスペクトル値を試験して、値
5FIHを持つピークより上の帯域Hz中にピークP2があるかどうかを判定す
る。帯域B2はスペクトルBFあるいはGSの性質に調和するように既に設定さ
れている。 5FII(か帯域B2中にあれば、値5FIH以上の試験か開始さ
れ、捜し出されたピークが先に発見されたピークと混同するのを防止する。もし
ピークP2か存在すれば、動作はステップ233に進み、ここて、第2のスペク
トル周波数値SF2は、帯域B2中の周波数5FIHより上の第1のピークの周
波数にの値にセットされる。そして判定ステップ237に到達する。ステップ2
31てピークが発見されなければ、動作はステップ231から判定ステップ23
8に分岐し、ここて5FIHの値が試験されて、それが帯域B2内にあるかどう
かを判定する。もし存在しなければ、動作はステップ239に分岐し、ここで値
SF2は5FIHに等しくセットされ、5FIHは影響を受けない、ここて動作
はステップ237に到達する0判定ステップ238において5FIHの値が帯域
B2内にあると、動作はステップ240に進み、ここで値SF2は5FIHに等
しくセットされる。また、ステップ240で5FIHは値5FILに等しくセッ
トされ、また結局のところ鼻音性が存在するとは認められないことから、鼻音性
NSは0にリセットされる。
ここで動作はステップ240からステップ237へ戻る。
このようにデジタル形式のサンプルからスピーチの周波数スペクトルを表わす1
組のデジタル値を引出す手段が設けられており、スペクトル中の1あるいはそれ
以上の周波数のピークの周波数の値をメモリの別々の位置に選択的に記憶させる
。この場合、所定のピークの周波数の値が記憶されるlあるいはそれ以上の選択
された個々のメモリ位置は、ピークが周波数の第1の予め定められた帯域にある
か否か、および他の任意のピークが第1の帯域とこの第1の帯域と重畳する第2
の帯域の双方に存在するか否かに基いており、周波数の記憶された値および周波
数の記憶された値の個々の位置の双方に依存する数学的空間の座標値に相当する
1組のデジタル値を発生する。
さらに第2の帯域とこの第2の帯域とオーバーラツプする第3の帯域の双方の帯
域に対する端部周波数を選択するための手段が設けられており、この選択された
値はピークが第1の予め定められた周波数帯域にあるか否かに依存している。さ
らに、この方法では第2の帯域とこの第2の帯域とオーバーラツプする第3の帯
域の双方に対する端部周波数の値を判定し、ピークの1つが第3帯域中にあるピ
ークのみか、また第2帯域と第3帯域の双方にあるか否かを決定し、もしそうで
あれば上記1つのピークの上側周波数帯に対応する他の周波数の値を各別の位置
の1つに記憶させる手段が設けられている。他の特徴として、ピークの1つが一
般に第2の帯域よりも高く、しかもこの第2の帯域とオーバーラツプする一般に
より高い周波数の第3帯域にあるか否かを判定し、各別の位置の1つに他の周波
数値を記憶させる手段が設けられている。他の周波数値は第3の帯域にあり、ス
ペクトルの少なくとも2つから決定された基準周波数値の関数となる。
また、より低い第1の周波数として予め定められた第1の周波数奇中の任意の最
も低い周波数を記憶し、より高い第1の周波数として第1の帯域中の任意の次に
高い周波数ビークの周波数の値を記憶し、また第2の周波数として、もしより高
い第1の周波数がまた第2の帯域にあれば上記より高い第1の周波数よりも高い
第2の周波数帯域中の任意のピークの周波数の値を記憶させ、さらにそれか第2
の帯域にあるときより高い第1の周波数よりも高い周波数の第2の周波数帯にピ
ークがなければ。
第2の周波数として最初より高い第1の周波数として記憶された周波数の値を記
憶させ、より高い第1の周波数としてより低い第1の周波数として記憶された周
波数の値を記憶させる手段が設けられている。また少なくとも1つの鼻声性の発
生時に広域化されあるいは分割されたピークを表わすより低いおよび高い第1の
周波数を識別し、鼻声性の発生を表わす信号を生成するための手段が設けられて
いる。
ステップ237ては、CP旧は増加する周波数にの値にわたって規格化されたス
ペクトル値を試験し、帯域B3中の値SF2を有する任意のピークより上のピー
クP3が存在するか否かを判定する。帯域B3は既にスペクトルのBFまたはG
Sの特性に一致するように設定されている。 SF2が帯]B3中にあれば、値
SF2以上て試験か開始され、探索されたピークか先に発見された任意のピーク
P2と混同するのを防止している。ピークP3が発見されると、動作はステップ
241に進み、第3スペクトルの周波数値SF3が帯域B3中の周波数SF2以
上の第1のピークの周波数にの値にセットされる。次にステップ243において
、上に述べた方法で第11図の関数を使ってピークP2およびP3の双方の幅の
重み付けられた平均に基いてステップ234からのスピーチの良さが計算され、
SRに対する計算ステップ245に達する。
ステップ237でP3ピークが発見されなければ、動作はステップ247に分岐
して、そこでスペクトル周波数SF2が帯域B3にあるかどうかを判定するため
に上記スペクトル周波数SF2が試験される。もし帯域B3にあれば、動作はス
テップ249に進み、そこてSF3はスペクトル包結線の上側端にセットされ、
次いでステップ243に達する。
もしSF2が帯域B3になければ、動作はステップ251に分岐し、そこて値S
F3は基準値SRに10’・16を乗じた値に等しい値にセットされ1次いでス
テップ243に達する。
ステップ245で、もしスペクトルがGSスペクトルであり、SFOが0より大
きければ、スペクトル基準値SRは例えばステップ211で決定された第1の非
Oスペクトル値SFOの周波数に等しくセットされる。ステップ245に対する
値SRのさらに精巧な別の計算法を第14図を参照してさらに詳細に説明する。
ステップ245の後、動作は“復帰(リターン)257”に進む。
第14図て、CP旧はスペクトル基準値SRを自動的に計算する(第13B図の
ステップ245 ) 、値SRは、成人集団全体にわたるSFOの相乗平均(約
168 )1z)によって、現在の話者の声高の相乗平均によって、また声高の
偏差に付帯する変化のようなゆっくりとした声高の変化を除去し且つ音声のオン
セットおよびオフセット時の極めて急速な変化を除去するように濾波された現在
の話者の声高の抑揚によって影響されるように特定される。特に、SR−(Kl
) (GMTFO/Kl)”◆FIL(SFOi) (5)ここで、 Klは約
168の定数、GMTPOは現在の話者の声高の相乗平均値、aは約1/3に等
しい定数、 FIL(SFOi)はGSスペクトルに対する話者のSFOの濾波
された抑揚の瞬時値である。これらのパラメータは話者全体についてのY、=
log、。(5FIL/SR)定数の平均値をとるように選択されており、これ
によって話者相互間の差を除去し。
また感覚ポインタの位置に影響を与え、音声学的な重要度を持つと信じられてい
る上記SFOの抑揚を許容するように選択されている。約1.5 Hzと50H
zとの間の座高抑揚のみがソフトウェア帯域通過フィルタによって通過させられ
る。さらに正確に言えば、声高の偏差のゆワ〈りとした変化および声高のオンセ
ットおよびオフセット時の極めて急速な変化が効果的に除去されるようにフィル
タの帯域幅の値が選択されている。
第14図で動作“開始301″で開始され、判定ステップ309に進む。この判
定ステップでスペクトルが周期性成分を含むか否かを判定するために上記スペク
トルが試験される。この試験は、例えば[アイ・イー・イー・イートランザクシ
ョンズ アコウスティック スピーチシグナル プロセシング(IEEE Tr
ansactions AcousticSpeecb Signal Pro
cessing) J 、 1982. As5p−30、第451乃至第46
0頁に掲載されたシーゲル氏(L、J。
Siegel)他の論文「スピーチの有声/無声/混合刺激の分類(Voice
d / unvoiced/ m1xed excitation class
i−fication of 5peech) Jに示されているスペクトル解
析のような任意の適当な処理によって実行される。もし周期性成分がなければ、
動作はステップ309から直接“リターン311”に進む、もしGSが1である
と、ステップ315て次の式に従ワてSHの値の再計算が開始される。
GMTFO= EXP ((In SFO十N2 In GMTFO)/(82
+1)> (Ei^)SR−168(GM丁FO/ 158)l/’ (6B)
ここでEXPは指数関数eXてあり、1nは自然対数関数である。簡単に言えば
、GMTFOはSFOの最後のN2の値に基づくものであり、168 Hzのそ
の初期値から話者の声高へ徐々に適合させる。基準値SR(声高の抑揚に対して
未だ調整されていない)が更新された相乗平均GMTPOからの実験式(6B)
によって計算される。動作はステップ315からステップ319へ進む。
ステップ319では、座高抑揚に対するソフトウェア帯域通過フィルタは、例え
ば声門音源形式の周期性スペクトルの値SFOの表を維持することによって構成
されている。この表は、1.5 Hz乃至5OHzの間の周波数範囲の識別てき
る任意の座高抑揚に対して解析される。最初0に初期化された値FILは座高抑
揚ソフトウェア・フィルタの出力から決定された座高抑揚の大きさに伴って更新
される。第4図の動作を通る各通路がステップ245をアクセスし、それによっ
て声門音源スピーチ音が進行中であるとき、表は規則的に加算された記載事項を
もっている。
ステップ319の後、SRの値はFILの値によってステップ321て増加する
6次いで、リターン311に到達する。
このようにしてCPHは、少なくとも2個のスペクトルから決定された周波数値
(例えばSFOの値)の関数である基準周波数値の関数として、第1の指定され
た座標値(例えば感覚ポインタの値)の組における値の少なくとも1つで計算す
るための手段を構成している。 cpuiはまた時間全体にわたって少なくとも
幾つかの声門音源スペクトルから決定された周波数値の相乗平均の関数である基
準周波数値の関数として第1の指定された座標値の組の少なくとも1つの値で計
算するための手段を構成している。 CPUIはさらに(A)スピーチの座高抑
揚の周波数と、(B)時間全体にわたるスピーチのスペクトルの少なくとも幾つ
かから決定された周波数の平均の関数である基準周波数の関数としての第1の指
定された座標値の組の値の少なくとも1つで計算するための手段を構成している
。
CPLIIを構成するために使用されるハードウェアにより、lあるいはそれ以
上のプロセッサがCPHについて説明した動作を実行するのに必要となる。動作
を実行するのに単一のプロセッサで充分である場合は、第1図のCPHと示され
たブロックが単一のプロセッサを表わすものと考えられる。当業者か遅い形式の
プロセッサを使用する場合は、このような幾つかのプロセッサを、同時に幾つか
のスペクトルを計算し、スピーチ波形のリアルタイム解析を実行するために得ら
れたスペクトルを解析するための多処理(マルチプロセシング)構成で使用する
と考えられる。このような構成では、第1図のADC21からの線路23に対し
て幾つかのプロセッサが多重化されており、それによってこれらのマイクロプロ
セッサは例えばオーバーラツプされた態様てN1サンプルのうちの最後の組を代
わるがわる入力する。9個のマイクロプロセッサを使用すると、各マイクロプロ
セッサはN1サンプルのうちの各P番目の組のスペクトルのみの入力と計算を必
要とする0次いでスペクトルはlあるいはそれ以上の付加プロセッサに供給され
、聴覚状態コードおよび感覚ポインタ値X、、Y、およびZ、を解析し、出力す
る。
第15図で、感覚座標から知覚座標へ変換するためのCPUI2の動作の流れが
詳細に示されている。この処理において、ベクトル差分方程式、あるいはそれぞ
れの座標に対する3つの差分方程式の組は、ループを連続して実行することによ
って点ごとにCPt12によって解かれる。差分方程式は以下に述べる3つの微
分式の数値計算の形のものである。
差分方程式を解くことは、感覚−知覚変換、あるいは統合的予測関数として感覚
座標から知覚座標への変換と考えることかてきる。感覚−知覚変換の基本概念は
、第15図に示すような感覚ポインタcsspおよびBFSPが3次元数学的空
間内て、あるいは互いに直角な3軸x、y、zによって指定される座標系を有す
る聴覚−知覚空間て知覚ポインタPPを吸引し、知覚ポインタを聴覚−知覚空間
を通って移動させ、また知覚径路を描かせることである。知覚ポインタPPは座
標値x、、y、、z、をもっている。知覚ポインタPPは殆ど瞬間的であり、す
なわち数ミリ秒内てあり、感覚ポインタcsspおよびBFSPの加算された大
きさを呈する。しかしながら、感覚ポインタがなくなると、知覚ポインタの大き
さは100乃至200ミリ秒の周期にわたってゆっくりと減衰する。このように
して、知覚的応答は音響入力の短期間の無声期間中維持される。
感覚ポインタと同様に知覚ポインタは何時ても聴覚状態を持つと考えられ、これ
について知覚的聴覚状態コートが計算される。知覚ポインタの聴覚状態コートは
、ある長さの時間が状態の切換えのために必要とされることを除けば感覚ポイン
タの状態コードと整合している0例えば、もし感覚ポインタと知覚ポインタの双
方が摩擦音状8(BF)にあれば、感覚ポインタは突然に有声、鼻音状g(cs
−1、NS = 0)に切換わり、知覚ポインタが新しい状態に切換わる前に
ある時間を必要とする。
また、中立点NPGSおよびNPBFと称される固定されたポインタは感覚ポイ
ンタの不存在時に知覚ポインタPPの動きに影響を与える。少なくとも1個の中
心点を使用すると、長期間の無音状態が生じたときに知覚ポインタに対するホー
ム位置を与えるという効果がある。このような無音の期間中、中立点NPGSか
らの吸引力により知覚ポインタPPをその中立点に向けて移動させる。さらに、
少なくとも1個の中立点を使用すると、人間のスピーチの感知と同じ態様て音声
学的に適切な方法て、装置がはっきりと同じ無音期間を分析できるようにする0
例えば、話者か“S”を発音し、それに続いて短期間の無音と。
それに統〈“lit”を発音したとき、多くの聴者は5plit”を聴取る。
第16図で、BFが既にOであると、 GSが聴覚状態コードてlから0に変化
すると直ちに中立点NPGSは知覚ポインタを吸引する。NPGSによる吸引は
、無音期間が統〈限り続き、中立点NPBFはポインタPPを全く吸引しない。
一方、GSがすてにOで、聴覚状態コートでBFが1で、モして0に変化すると
、上記BFが1からOに変化すると直ちに中立点NPBFは知覚ポインタを吸引
する。NPBFによる吸引は約120ミリ秒続き、120ミリ秒・の終了時に、
GSあるいはBFのいずれかが再びlになるまでの無音期間の残りの期間中継続
する中立点NPGSからの吸引と置換される。
感覚ポインタcsspおよびBFSPは、質量と慣性を持つと考えられる知覚ポ
インタPPにスプリングによって吸引されていると考えられる。スプリングの強
さはその関連する感覚ポインタの良さの値と大きさの値に依存している。このよ
うにして、スピーチに殆ど似ていない近間値スペクトルは知覚的応答に殆ど影響
を与えないか、適度の大きさのスピーチに類似したスペクトルは知覚的応答に強
い影響を与える。感覚ポインタあるいは中立ポインタの吸引力は知覚ポインタP
Pからの距離の増加と共に大きくなることから、スプリングとの類似性が使用さ
れる。しかしながら物理的な系と違って感覚ポインタあるいは中立点の位置はス
プリングによる影響を受けず、すべての力は知覚ポインタPP上に作用する。さ
らに、聴覚−知覚空間は粘性媒体であると考えられ、また知覚ポインタは速度に
伴なう変化のみならず顕著な方法で知覚ポインタの位置と共に変化する抵抗を受
ける。感覚−知覚変換について特定の数学的モデルを説明したが、聴覚的感知処
理についての別の実験的情報が得られるときは当業者はこの発明の実施に当って
上記の数学的モデルを変更することがてきる。
上述の概念は、感覚−知覚変換を行なうためにCPU2によって解かれる差分方
程式による数学的な形で説明したものである。別の見方ては、差分方程式を、指
数化した座標値である変数の項で表わすことができる。第16図の感覚ポインタ
は、第4図のステップ143で周波数比の対数関数の形て表わされる座標をもっ
ているのて、第16図の数学的空間をここでは対数空間と呼ぶことにする。座標
か差分方程式で指数化されるので、周波数比のみか残り、“死空間”の表現はこ
こては差分方程式が表現される領域を表わすために使用されている。幾つかの実
施例ては、比自体を回復するためにCPUZ中て引続いて指数化するのを避ける
ために、第4図のステップ143ては非対数が計算される。しかしながら、CP
U3による後続する解析は対数空間で行なわれる。
次のチャートは死空間と対数空間における変数に対する用語の一覧表を示す。
対数空間から死空間への変換式
%式%
知覚ポインタ座標
XRP −10×pX、 X、= PF3/PF2YRP −10Y11Y、
Y、= PFIL/PRZRP −10ZpZ、 Z、= PE2/PFIHこ
こで、0.1あるいは2の適用可能な数値サフィックスは、異なる時間における
同じ変数に対する値を示すためにXRP 、 YRP 、 ZRP 、 X、
、 Y、およびz、に付される。
破裂−摩擦音感覚ポインタBFSP座標XR3BF −10””’ X−Br
YR3BF = 10”″” YIIBFZR3BF = 10”” Z−sr
声門音源ポインタG55P座標
XR3G5 = 10”” X、cs
YR8GS = 10”GSY、as
ZR3GS −10”ll+sZ、as破裂−摩擦音中立点(NPBF)座標
XRNBF = 10×”’ Lar XNar ” 0.5YRNBF =
10YN” Y、、ar YN!IF −0ZRNBF = 102”’ ZN
BF ZNBF −0,6声門音源中立点(GSSP)座標
XRNGS−10”” Las XNG5−0.4YRNGS = 10YNa
SYNas Yxas ” 0.4ZRNGS = 102”5ZNGS Lc
s −0,4CP旧およびCPU2は一緒にそれぞれ連続する時間間隔で生ずる
スピーチの周波数スペクトルから数学的空間での径路上の点の一連の座標値を電
気的に引出す。
第15図において、CPU2の動作は“開始401”で馴始し、ステップ403
に進んで比重間における座標の組XRP、YRP 、 ZRP (7)組に対し
て2個の3組の初期値XRPO1YRPO1ZRPO1XRP1. YRPl、
ZRPIをもッテ第1SA図の表405を初期化する0表405において、行
の0(変数のサフィックス0)は時間的に最も早いと考えられ、行の1は時間的
に次で、行の2は時間的に最も遅いと考えられ、解決されるべきものである。初
期位置の座標は行0て、 10を中立点ポインタNPGSの各座標の値て幕乗し
たもの、すなわち10°4である。比重間および対数空間の双方て初期速度はO
であると仮定され、そのため初期位置に変化はないから行1のすべての入力もま
た1o04である。
次ぎのステップ407で、 CPU2はBF感覚ポインタ、あるいはGS感覚ポ
インタのいずれか、あるいはその双方に対する感覚ポインタ値X、、Y、、Z、
、およびcP旧から聴覚状態コート値BF、 GS、 LIBF、 LIGS、
GBF 、 GGS gJ:びNSを読取る。次いで計算ステップ413が開
始し、ここて比重間における感覚ポインタ値を含む差分方程式を解いて、数学的
空間における径路上の次の一連の座標値x、、y、、z、を得る。さらに詳しく
言えば、差分方程式は表405の行2に対する入力に対して解かれて1次いで行
2における入力の対数が計算され、対数空間における知覚ポインタ座標x、、y
p、zpが得られる。知覚ポインタ座標x、、y、、z、は、径路が知覚的な意
義をもった第16図の数学的空間における径路を追跡する。
次にステップ413で解かれる差分方程式について説明する。
知覚ポインタPPの位置ベクトル(XRP、 YRP 、 ZRP)の各比重間
成分についての微分方程式はポインタの質量にその加速度(比重間位置の2次導
関数)を乗じたものと、速度(比重間位置の1次導関数)の関数としての粘性抵
抗と、スプリングを通して作用する感覚ポインタと中立点による力との和が0で
あると書くことができる。
CPU2によって差分方程式を数値的に解くには、表405の行0と1とによっ
て表わされる2個のすぐ先行する時間間隔からの座標XRP 、 YRP 、
ZRPの値と比重間における聴覚状態コードおよび感覚ポインタ座標からの数値
とを使用する。第15A図の表の行2は、差分方程式を解くことによって得られ
る比重間における知覚ポインタの径路上の未知の最新の座標値を表わしている0
表405の行lは一般にCPU2によって第15121の計算ループをすぐ先行
する通路中で発見された知覚ポインタのすぐ先行する座標値を表わしている0行
0は一般にCPU2によって第15図の計算ループを2番目に先行する径路中で
発見された知覚ポインタの2番目の先行する座標値を表わしている。
XRPの導関数は次の(7)式によって表わされる。
XRP
丁−H(XRP2− XRPI) (7)ここて、Hはスペクトル相互間の時間
間隔の逆数て1例えば1/2ミリ秒すなわち500 Hzである。 XRP2は
解かれるべき比重間における最新のX座標値を表わし、XRPIはすぐに先行す
るこのようなX座標値を表わしている。このような座標値は周波数的に発生され
るスペクトルからCPUIによって引出され、それによって計数Hは(7)式中
に含まれている。
X、の2次導関数は次の(8)式によって表わされる。
(8)式中のHの値は(7)式中のそれと同じである。XRP2(表405の行
2、列XRP )は解かれるべき最新のX座標値であり、 XRPI C表40
5 ノ行l1列X)IP ) ハす<” 先行するX座標値である。XRPO(
表405 )行0、列XRP )は2番目に先行するX座標値である。2次導関
数は1次導関数の導関数であるから、(8)式中に係数Hの2乗H2が現われて
いる。
前の概念的な説明に基いて、また(7)式、(8)式の関係を使用してCPU2
によって解かれる1組の差分方程式を次に示す。
0− H’(XRP2−2XRP1 +XRPO)$ 、H(XRP2− XR
PI) /3AR5iXRP2−XIINGSI+ 1JGsxGGs xKG
S(XRP2− XR3GS)+ LIBFXGBF XKBF(XRP2−
XR3BF)+ NFx ((1−GS)x(1−BF)) xKNGSx(X
RP2−XRNGS)^” (1−NF) (1−GS) (1−BF) X
KNBF X (XRP2−XRNBF)^−−−−− (9A)Oj )I2
(YRP2−2YRP1 +YRPO)+ rH(YRP2− YRPI) /
B””YR”YR””+ LIGSxGGS xKGS(YRP2− YR3G
S)十LIBFXGBF XKBF(YRP2− YR5BF)十NFX ((
1−GS)X(1−BF)) XKNGSX(YRP2−YRNGS)^+ (
1−NF)(1−GS)(]−BF)X KNBFX (YR12−YRNBF
)A・・・・・(9B)0− H”(ZRP2−22RP1 + ZRPO)+
、H(ZRP2− ZRPI) /3ABS(ZRP2−21′I)iGsl十
LIGSxGGS xKGS(ZRP2− ZR3GS)+L!BFXGBF
XKBF(ZRP2−2R8BF)◆NFx ((1−GS)x(1−BF))
xKNGSx(ZRP2−ZRNGS)^+ (1−NF)(+−GS)(1
−BP)XKNBFX(ZRP2−2RNBF)^−−−−− (9C)CPU
I2は、数学的空間における知覚ポインタPPの最新の座標値、XRP2. Y
RP2、ZRP2ニツいテノ3つノ式(9A)、(9B)、(9C)を解くため
の反覆あるいは他の適当な計算法を実行するようにプログラムされている。絶対
値関数はABSによって表わされる。座標値XRP1. YRPI、ZRPIお
よびXRPOlYRPOlZRPOは先に式(9A)、 (9B)、 (9C)
カラ計算され、第15A図の表405で使用される。定数の値は例えば次に示す
通りである。
定 数 値
r 465
KGS 3000
KBF 6000
KNGS 3[100
KNBF 30口0
粘性抵抗項は式(9B)ては、項
rl(YRp2−1/)Jpl) /3ABS(YRP2−YRNに51によっ
て代表され、これは速度に、/BAIIf(YRP2−YIINGS)を乗じた
大きさになる。Bは指数に対する底であり、粘性抵抗係数は、Bに対する指数値
が0であることから中立点NPGS (比重量てYRNGSのY座標をもってい
る)の定数rにほぼ等しい、Bの値は、知覚ポインタPPが対数空間で面Y=O
に移動すると、粘性抵抗係数が幾分か、例えば定数rのほぼ1/2に低下するよ
うに選択される。
YRP2か10°=1のとき、分母はBABS(1−10’°4)すなわちほぼ
B2に低下する。
変数LIGS、 GGS 、 GS、 LIBF、 GBF 、 BFはCPU
Iによって供給される聴覚状態コートにある。これらの変数は感覚ポインタある
いは中立点のどちらが知覚ポインタPPに吸引力を及ぼしているかによって式(
9A)、 (9B)、(9C)中の適当な項を付勢あるいは消勢(状態スイッチ
)する、破裂−摩擦音フラッグBFおよび声門音源フラッグGSが各々0かlの
いずれかであり、良さは無音期間中0であるのて、式(9A)、(9B)、(9
C)の適当な項は解析の計算で計算に入れられ、また周囲の要求によって無視さ
れる場合もある。
中立フラッグNFは中立点項(各差分方程式中の最後の2項)中に含まれている
。中立フラッグNFは、聴覚状態コード中のBFとGSの状態をモニタするCP
UZ中のタイマによって制御される。もしBFあるいはGSのいずれかが1であ
ると、フラッグNFは0である。もしBFが0であると、GSは1から0に変化
し、フラッグNFはGSあるいはBFのいずれかが1になるまて1になる。もし
BFがlてGSが0であると、BFはステップ407によって検出されると1か
ら0に変化し、C1’t12中の120ミリ秒のタイマが付勢されて120ミリ
秒か経過するまでフラッグNFをOに維持し、次いでフラッグNFは1にセット
される。このようにして、各差分方程式中の中立点NPBFに対する最後の項か
120ミリ秒間付勢されて、各差分方程式中の中立点NPGSに対する最後から
第2項の項に置換される。感覚ポインタあるいは中立・点に対する各項は、知覚
ポインタPPの位置に寄与するものと考えられる。
この方法では、デジタル形式のサンプルからスピーチの周波数スペクトルを表わ
すデジタル値の組を引出し。
デジタル値の組の各々に対する複数の聴覚状態コートのうちの1つを発生し、数
学的空間における少なくとも2組の座標値を供給し、どの聴覚状態コードか発生
されるかによって最初に指定された座標値の1あるいはそれ以上の組から選択さ
れた貢献要素をもって、径路を特定する点の他の一連の座標値を計算する手段が
設けられている。
CPIIIはまた有声摩擦音あるいは他のスピーチ音の同じスペクトルの声門音
源および破裂−摩擦音部分に特有の個々の大きさおよび良さの計算動作を実行す
るようにプログラムされており、それらの値LIBF、 LIGS、 GGSお
よびGBFかCPUIからCPU2へ転送され、2組の感覚ポインタ値X*as
+ Y*as+ Z*as、 Lmr、YtBF、ZtBFが、1つの3組であ
るx、、y、、z、の代りに声門音源ポインタG55P、破裂−摩擦音ポインタ
BFSPのためにおくられる。
この方法では、聴覚状態コードが声門音源聴覚状態を表わすときデジタル値を表
わすスペクトルの組の1つから2組の最初に指定された座標値の最初のものを発
生し、聴覚状態コートが同時に破裂−摩擦音聴覚状態を表わすとき同じ1組のデ
ジタル値から2組の最初に指定された座標値の第2のものを発生する手段か設け
られている。
C,PO2中て少なくとも1個の感覚ポインタと同様に少なくとも1個の中立点
を使用することにより、スペクトルを表わすデジタル値の組から2組の最初に指
定された座標値の最初のものを発生する手段を与え、このときは最初に指定され
た座標値の第2の組(例えば中立点の値)はスペクトルを表わすデジタル値の組
には無関係である。
式(9A)、 (9B)、(9C)において、値Aは指数で、例えば0であり、
中立点が距離と共に変化しない力でもって知覚ポインタPPを吸引することを示
す。実験による観察により、力が距離と共にその大きくなるべきであることを示
すと、Aの値はより正になり、力が距離と共に減少すべきであるなら、Aは負に
される。目下のところはAの最適値はOであると信じられている。
説明の都合上、式(9A)、 (9B)、(9C)は全体として知覚ポインタP
Pのベクトル位置に対する1つのベクトル差分方程式を表わすと考えられる。好
都合なことには、破裂音、変化、定常状態、音声を含む第1図のマイクロホン1
1へのすべての感覚的入力は、感覚−知覚変換によって単一の知覚的応答に積分
される。さらに有利な点は、知覚ポインタPPの位置は感覚ポインタの位置のみ
ならずそれらの変動にも依存する0式か不足制動(アンダーダンプ)系に対応し
ておれば、感覚ポインタは急速にターゲット位置に接近しまた方向を転じて離れ
、さらに知覚ポインタにオーバーシュートを誘起させ、さらに数学的空間におけ
るその所望の位置に到達する。差分方程式を解くときのCPL12の動作は、オ
ーバーシュートの性質、特に閉鎖子音および非常に速いスピーチの場合に類似す
るように構成されている。
第15図のステップ415で、式(9A)、 (9B)、 (9C)を解いて得
られた最初の値XRP2、YRP2、ZRP2は第1SA図の表405の行2に
記憶される0次いてステップ417て、これらの最新の値の共通対数値はx、、
y、、z、としてCPU3に送られる。動作は判定ステップ419に進み、CP
U3がオンのままにあるかどうかを決定する。もしオンであれば、ステップ40
7に戻ってループが作られる。感覚ポインタの座標値と聴覚状態コート情報の新
しい組がステップ407に供給される。表405は計算ステップ413を通って
次の径路への準備をする循環形態のままにあり、それによッテ表405テ、それ
ぞれXRPl、 YRPl、 ZRPI、およびXRPOlYRPO,ZRPO
のために行2の値はすぐ先行する値になり1行lの値は2番目に先行する値にな
る0式(9A)、 (9B)、(9C)はステップ413テ再び解かれて、CP
U3が判定ステップ4】9てオンてなくなるまて動作は第15図のループ中て継
続する。そして終了421で動作は終了する。
CPU3の動作は最初第17図によって概略的に説明する。
知覚ポインタPPの作用がある規準に合致すると、聴覚的−知覚的事象、あるい
は感知された音が生ずる。これらは(a)知覚ポインタが低速の期間に会うと聴
覚的−知覚的事象か生じ、(b)知覚ポインタが鋭い減速に会うと聴覚的−知覚
的事象が生じ、(C)知覚ポインタが大きな曲線を持っていると聴覚的−知覚的
事象が生ずる。 CPU3はこのような事象を決定するように適当にプログラム
されている。計算は任意の1あるいはそれ以上に規準を含むことがてき、また速
度が予め定められたミリ秒の間維持・されねばならないように、また径路あるい
はある軌跡および曲率がある時間制限内て横切られなければならないように時間
的制限を加えることがてきる。
これらの色々な場合に、聴覚的−知覚的事象は知覚ポインタPPの加速度の大き
さのピーク(好ましい実施例てはここでは対数空間で決定され、比重量では決定
されない)の対数空間における径路に沿う位置に関連すると考えられる。対数空
間における知覚ポインタPPの位置は座標値x、、yp、z、によって特定され
るベクトルである。その速度は規準のx、y、zフレームに関連する特定の方向
の速さに等しいベクトル量である。速度は。
x、、y、、z、の時間導関数である成分dX、/ dt、dY、/dt、dZ
、/dtをもっている。速さは任意の所定時間における速度ベクトルの大きさ、
すなわち長さで、速度成分dX、/dt、dY、/dt、dZ、/dtノ2乗の
和ノ平方根に等しい。一般に、任意のベクトルの大きさ、あるいは長さは、その
成分の2乗の和の平方根に等しい、加速度は、速さあるいは方向のいずれか、あ
るいはその双方と考えられるこのような変化の速度あるいは割合の変化を表わす
ベクトルである。加速度の成分は速度ベクトルのそれぞれの成分の時間導関数で
ある。数学的には、加速度は成分 d2X、/dt、d2Y、/dt、d2Z、
/diと表わされ、これらはdX、/dt、dY、/dt、dZ、/dt(7)
時間導関数である。
聴覚的−知覚的事象に減速度が含まれているときても、低速の期間は加速度の大
きさのピークに等しい減速度から得られるのて、その事象は知覚ポインタPPの
加速度の大きさのピークの径路に沿う位置に関連している。
また、減速度は負の加速度て、2乗の和を含む大きさに影響を与えないので、鋭
い減速度は加速度のピ一つてある。知覚ポインタの径路か曲率なもっているとき
、加速度は大きさのピークを示し、径路から中心を指すベクトルである。
CPU3は次に示すA乃至りの少なくとも1つあるいはそれ以上の手段として作
用する。すなわち、A)加速度の大きさのピークの径路に沿う少なくとも1つの
位置に近似する座標値を識別し、位置の座標値の関数としてメモリのアドレスを
発生し、そのメモリアドレスに予め記憶された発声表現情報をそのメモリ手段か
ら得る手段。
B)径路の曲率な近似するパラメータを計算し、パラメータが径路上の点の予め
定められた大きさを超過するとき、加速度の大きさのピークの位置に近似するそ
の点の座標値を識別する手段。
C)径路に沿う速さを計算し、速さか予め定められた時間内で少なくとも予め定
められた大きさたけ減少位置の座標値を識別して、加速度の大きさのピークの位
置の近似値をめる手段。
D)径路に沿う速さを計算し、予め定められた時間内て前後に速さの増加がある
それらの間て速さの減少が生ずる位置の座標値を識別し、加速度の大きさのピー
クの位置の近似値をめる手段。
各聴覚的−知覚的事象は時間内て減衰する痕跡あるいはチック・マーク(tic
k mark(v’))を残すと言われている。チックの大群か生したとき、す
なわち低密度の領域によって囲まれた高密度のチックの領域が形成されたとき、
例えばスピーチ音かしばしばくり返されるような場合、人間の場合、神経系がチ
ック・マークの大群の周囲に自動的に包絡線を形成し、中立シンボルあるいは分
類コードを与えることのてきるターゲット領域を作り出すと仮定する。大抵の場
合、このようなターゲット領域は一時的なもので、時間と共に消失する。母国語
および方言の音に対するターゲット領域のような他のターゲット領域は、ある場
合には幼児および子供の頃に形成され、そのためそれらは殆ど永久的で修正する
ことが困難である。
ターゲット領域の概念は知覚である。好ましい実施例てはターゲット空間の記憶
用の大きなメモリ31は、メモリ中のアドレスの各組に対する別々の発声表現を
表わす予め記憶された情報を保持するためのメモリ手段である。CPU1. C
PU2およびCPU3は全体て各連続する時間間隔て生ずるスピーチの周波数ス
ペクトルから数学的空間における径路上の点の一連の座標値を電気的に引出し、
加速度の大きさのピークの径路に沿う少なくとも1つの位置を近似する座標値を
識別し、位δの座標値の関数としてメモリ・アドレスを発生し、そのメモリ手段
からそのメモリ・アドレスに予め記憶された発声表現情報を得る手段を構成して
いる。
/b/ 、 /d/ 、 /g/ 、 /に/ 、 /p/ 、 /l/のよう
な閉鎖音ホーニームにたいするターゲット領域は、感覚−知覚変換における不足
制動のために、感覚ポインタ値X1、Y、、Z、によって入力されないか、座標
値Xp、Yp、Z、によって入力することのてきる数学的空間の領域に相当する
メモリ中の各アドレス群に関連している。
CP113で加速度の大きさのピークが発見される。最新のピークか生ずる径路
上の加速度は、各軸x、y、zに沿う整数値に変換される。第4図のステップ1
43に起因すると予測することのできる感覚ポインタに対する座標値に関して、
ターゲット領域はO乃至2の間のX、−〇、5乃至1.5の間のY、O乃至2の
間のZ内にある。好ましい実施例では、例えば各軸は正のY軸に沿う150の区
分と、負のY軸に沿う50の区分とを含む200の区分を有すると考えられてい
る。このようにして、各ターゲット領域は極めて正確に特定できる。従って、最
新のピークが生ずるXp 、Yp 、Zpの値は100倍され、関数INTによ
って最も近い整数にまるめられる。ピークはその範囲内の任意の場所で生ずるの
て、200の3乗すなわち8メガバイトに等しい数のメモリ・アドレスが使用さ
れる。
換言すれば、223は約800万であるので、2進値の各メモリ・アドレスを表
わすために23ビツトが使用される。
座標は次式によってメモリ・アドレスに変換される。
ADH=INT(100X)+200x INT (100Y+SO)+400
0x INT(1002)・・・・・(10)
換言すれば、速度解析、曲率解析、あるいは加速度解析によってCPU3が加速
度の大きさのピークを発見すると、上記の式あるいは等両式に従ってメモリ・ア
ドレスADHを発生し、そのアドレスに予め記憶された発声表現情報をそのメモ
リ31から得る。一般に各ホーニームあるいは音素を表わす言語の2進コードは
メモリ中の1組のアドレスの各々に記憶される。バイト中の8ビツトは所定の人
間の言葉における異なるホーニームに対する個々の明確な2進表現を与えるのに
充分な柔軟性を与える。CPU3かメモリ・アドレスADHを決定すると、メモ
リ31はそのアドレスに記憶された2進コートを供給する。CPU3は2進コー
トなホーニームを表わす文字あるいは他の符号に変換し、それをその端末のビデ
オ・スクリーン上に表示させ、またそれをプリンタ33にプリントさせる。
非サスティン・スピーチ音に対するターゲットは正のx、y、zの八分円の外側
に配置されている。第17図て、感覚ポインタBFSPは、“P′のような音声
に対するターゲット領域にのみ近づくことかでき、また知覚ポインタか実際に負
のY領域中のターゲット領域に到達するような適当な動きをもって近づかなけれ
ばならない。例えば1話者か単語“5top”を丁度言い終ったと仮定する。知
覚ポインタは、今は存在しない声門音源感覚ポインタG55Pの影響のもとて、
“5top”中の母音に対するターゲット領域453を通過する間に鋭い湾曲を
形成し、そして突然に破裂−摩擦音感覚ポインタBFSPか現われる。
鋭い湾曲のために、ポインタ455の座標のためのメモリのルックアップか生じ
、例えば“father”中の/a/の音素はメモリ31から得られる。“P”
音はBFSPに向かう知覚ポインタPPを吸引するのて、破裂−摩擦音感覚ポイ
ンタBFSPはX−2面内に現われる。知覚ポインタPPはBFSPが生ずる面
Y=Oをオーバーシュートし、“P″に対するターゲット領域に到達する。BF
SPとそれに順次に続く中立点NPBFとNPGSの吸引力によって知覚ポイン
タPPはターゲット領域451中の点457においてその動きの方向を反転し、
加速度の大きさの他のピークが生ずる。今度は点457の座標に対するメモリ・
クックアップが再び生し、メモリ31から“P”に対する音素が得られる。この
ようにして、ある場合には、知覚ポインタPPをより遠い知覚ターゲット領域に
到達させるようなやり方で、感覚ポインタがその領域に近づくにすぎない。しか
しながら、母音に対する453のようなターゲット領域には、感覚ボ、インク、
知覚ポインタの双方か入り込むことがてきる。知覚的応答は約50ミリ秒の中立
点NPGSから開始するとき母音ターゲットに達する。
第18図は数学的空間に対する座標系の軸x、y、zを示す。母音に対するター
ゲット領域を説明するに当って、x、y、z系の第1の八分円の点て文運し、軸
X。
Y、Zに関して傾けられた別の軸x’、y’、z’を特定するのが有効である。
x’ 、y′、z’座標を特定する式は次の通りである。
X、’ = 0.70711’(Y−X ’) (IIA)Y’ = 0.81
62”Z −0,4081”(X−Y ) (IIB)Z’ = 0.5772
”(X+Y+Z) (IIC)第19図は母音に対するターゲット領域を保持す
るために発見されたx’、y’、z’座標中のほぼ平板状の厚板465を示す、
第19図はX′軸に沿って見たときの厚板465の端部な示す。中立点NPGS
は母音厚板のほぼ中心にある。母音の厚板が薄いときても、同番は母音を厚板の
後方へ移動させ、一方“r”気味の音を発するときのように舌を後へ反らせると
その位置を原点に向けてさらに後退させ、それによって母音単独の場合でも3次
元を使用することは有効である。子音は母音厚板の中あるいは近くに位置し、あ
るいは母音厚板に直交する他の厚板中に位置し、これも3次元空間を使用するこ
とを支持している。しかしながら、この発明のある実施例ては、2次元空間を使
用する場合のように厚板を折り返したり、折り畳んだり出来ないと考えられてい
る。また、厚板は。
利用可能なメモリ容量がその厚板に対してのみ有効に使用されるような態様てメ
モリ31のアドレスに書込まれると考えられている。
第20図は、X’ 、Y’ 、Z’座標系におけるz’軸に沿って対面して見た
ときの厚板465を示す図である。母音のターゲット領域に対する輪郭が示され
ており、それからアドレスの輪郭群が第1図のメモリ31中の母音符号の各々を
表わす符号を予め記憶するために引出される。
するアドレスの各々に対してそれらの符号を手動で入力することによって予め記
録される。また、この符号はコネチカット州バーノン(Vernon Conn
ecticut)にあるマイクロ コントロール システム インコーボレーテ
ット(Micro Control System、 Inc、)から市販され
ているバーセプタ(知覚)ユニットのような3次元位置捕捉装置467を使用す
ることによって予め記憶することがてきる。そのユニットはテフロン被覆された
機械的に精密なアルミニウム基準板をもち、その上に精密に機械加工されたデジ
タル化アームが設けられている。電気的データの捕捉機能を実行する回路は、そ
の基準板の下に収容されている。2重R3−232ボートはそのユニットにより
データを転送させる。そのデジタル化アームは、そのアームを動かす予め装荷さ
れた5個のボールベアリング支持ジヨイントを有する。そのジヨイント内に設け
られたポテンショメータはそのアームの各セグメントの回転角に関する電気的情
報を伝送する。次いでユニット中のZ −80Aマイクロプロセツサはアームの
ポインタ先端の位置のx、y、z座標を計算する。このようにして、ターゲット
領域の形は、第1図のメモリ31を自動的にプログラムするに当って使用するた
めに比較的急速に記録される。
第21図は第18図のY軸に沿って見たときの無声閉鎖音に対する数学的空間に
おけるターゲット領域を示す。この図中の記号は後程表1に示されている。第2
1図によって特定されるターゲット領域の形状はx−2面上に投影されているか
、それらは実際には31 =−0,01とy−−0,04との間の負のY領域を
占めるにすぎない。
第22図は第18図のY軸に沿って見たときの有声閉鎖音、非帯気−無声閉鎖音
、および鼻声子音に対する数学的空間のターゲット領域を示す、この図中の記号
は表2中に示されている。第22図の上側の部分に示された4個の有声閉鎖音お
よび非帯気無声閉鎖音に対するターゲット領域の形状はx−2面上に投影されて
いるか、それらは実際にはy−−0,04とy−−0,02との間の負のY領域
を占めるにすぎない。同様に第22図の下側の部分に特定された3個の鼻声子音
に対するターゲット領域の形状はX−2面上に投影されているが、それらは実際
にはy−◆0.05とy−+0.34との間の正のY領域を占めるにすぎない。
第23図は第18図のY軸に沿って見たときのアメリカ英語の無声摩擦音に対す
る数学的空間のターゲット領域を示す、この図中の記号は表3に示されている。
第21図によって特定されてし・るターゲット領域の形状はx−2面上に投影さ
れるが、それらは実際にはy−−0,02とy−◆0.02との間のY領域を占
める。
第24図は、第18図のx’ 、y’ 、z’座標系のZ′軸に沿って見たとき
の有声摩擦音および音声学的近似に対する数学的空間のターゲット領域を示す。
第25図は、第18図のX’、Y’、Z’座標系のX′軸に沿って見たときの第
24図の有声破裂音および音声学的近似に対する数学的空間に3けるターゲット
領域を示す。第24図および第25図中の記号は表4に示されている。これらの
ターゲット領域は一般に母音中あるいは母音の近くでは並置されており、そのた
めx’ 、y” 、z’座標系か使用される。第24図および第25図はターゲ
ット領域の3次元形状を特定するために正射影投影の態様て示されている。第2
0図と第24図の見かけ上の比較により、第24図の/C「/および/r/につ
いてのターゲット領域は第20図の母音の幾つかのターゲット領域とかち合って
いるように見えるが、それは事実ではない。第25図は/er/および/r/は
対数空間における母音の背後に入ることを明確にしている。一般にはターゲット
領域はオーバーラツプしていない。第19図および第20図の記号は表5に示さ
れている。
表 1
無声(帯気)閉鎖音(破裂音)
kv=/kh/−軟口蓋音
に、is/kh/−口蓋音
P ミ/ph/
表 2
有声破裂音(閉鎖音)および非帯気
無声破裂音(閉鎖音)
g1ミ/g/−軟口蓋音
g2ミ/g/−口蓋音
注:これらはアメリカ英語の非帯気合に、t、dを含んている。
鼻声子音
m ミ/m/
n 二/ n /
71 =/T)/ −sing中のng表 3
無声摩擦音(アメリカ英語)
wh=/呂/
表 4
有声摩擦音および近似
表 5
母 音
beet中の i =/i/
bit中の I E/I/
bet中の ε ミ/ε/
bat中の ae =/;le/
but中の 人 =/人/
father中の a =/a/
bought中の 3 =/D/
book中の U e/U/
boot中の u=/u/
boat中の Ow ミ10/
boy中の Oy ミ10/
好ましい実施例を構成するに当って、メモリ31をローディングするために、熟
練した技術者は第19図乃至第25図に含まれている形状および座標情報を使用
する。
第26図において、第1図のCPU3の動作は“開始501″で始まり、ステッ
プ503に進む。ステップ503で数学的空間における径路上の最新の点におけ
る座標値X2゜Y、、Z、はCPU2から入力されて第27図の表504に記憶
される。次のステップ505において、軌道の重要なパラメータは計算され、そ
れによって続いてステップ507て何時重要なスピーチ事象が生ずるかを決定す
ることができる。座標値は等しい時間間隔で第1図のS/H17によってスペク
トルをサンプリングし、上記の数値Hで示されるくり返し率で上記スペクトルを
解析することによって得られる。従って、加速度の大きさは、最新の座標値と表
504から得られる座標値の2個の先行する3組から計算される。下付文字0.
1.2は最新の3組、すぐ先行する3組、その前の3組を表わすために使用され
る。加速度の大きさは例えば次式によって計算される。
MAGACCEL = H”5QRT ((Xps −2Xp+ 十X−z)”
+(Y9゜−2Y、I +YP2)”
+(Zpo −21−+ +Zp2)2) (12)ある実施例ては、湾曲CU
RVはまた上記のMAGACCELおよび次式による速度の2乗の大きさから計
算される。
CURV −MAGACCEL / VEl、SQココテ、VELSQ −(X
po −Xps)2+(y、o −y、+)2◆(zpo −zp+)2・・・
・・(13)
加速度MAGACCELの大きさの各最新値は、ステップ505の期間中にそれ
とMAGACCELの4個の先行する値を保持する表504に記憶される。湾曲
CURVについての同様な表解析か湾曲が使用される場所に適用される。平方根
5QRT関係の論法はまた加速度の大きさに関連するパラメータとして使用する
のに充分である。数学的空間における知覚ポインタの径路についての等価解析を
行なうために重要な軌跡パラメータを計算する多くの方法かあることを強調して
おく。
次のステップ507て、MAGACCELの5個の値を保持する表504は、重
要なピークが表わされるか否かを決定する。表がその中に予め定められたレベル
を超過する入力された試験値をもち、しかもその表504中に上記試験値よりも
小さい値が先行し且つ後続すると、ピークが生じたとするのが適当な試験法であ
る。もしこの試験がステップ507から判定ステップ509への動作通路を通過
しなければ、CPU3はそれが継続すべきか否かを決定するために0N10FF
スイツチをチェックし、またステップ507から判定ステップ509への動作径
路を通過すれば動作はステップ503に戻るループを形成する。最終的に音声学
的に重要な事象がステップ507て生ずると、動作はステップ511に進み、上
述のADR式(10)に従ってアドレスADHを発生する。
次いてステップ513てアドレスADHがCPU3によって第1図のメモリ31
に挿入され、重要なx、、y、、zp座標値が存在するターゲット領域の音素を
特定する予め記憶された音素コートPHEバイトを得る。ステップ515てこの
PHEは、このPHE値を保持するメモリ・スペースにそれが得られた順次て記
憶される。ステップ517で、PHE値すなわちバイトは、対応する音声学的符
号あるいは言語音に対応する類別コードを第1図のプリンタ33に書込むための
命令を与える表中でルックアップされる。
次のステップ519で、得られた順序で記憶されたすべてのPHEは第1図のC
PU4に送られる。 CPU4は、PHEを選ばれた言語に従って綴られた一連
の語に変換する語変アクセス・プロセッサである。
ステップ519が完了すると、動作はオン決定ステップ509に進み、CPU3
かもはやONてはないと決定するとループはステップ503に戻り、動作は“終
了521”で終了する。話し手のスピーチの例から装置lをリファインするため
にターゲット領域をステディする装置(図示せず)か数学的空間の3次元表示中
のターゲット領域を表示し、解析する。このような装置は、エバンズ アントサ
ザーラントP8300グラフィック システム(Evans andSuthe
rland PS 300 Graphic System)、VAX−750
またはuVAX −Uコンピュータ、および線図を3次元で見ることのてきる適
当な周辺装置をもっている。表示の特徴には、ズーム用のつまみ制御、装置の軸
に対する回転あるいは変換のつまみ制御が含まれている。
数学的空間あるいは聴覚−知覚空間は軸と共に表示される。3次元のターゲット
領域は装置中でプログラムで作り出される。ターゲット領域は特定の色、位置、
寸法、さらに必要に応じてその近くに配置される音声記号と共に空間中に配置し
てもよい。
感覚ポインタの径路を表示させるために、各時間tの間、4つの組の値FO5F
1. F2、F3か入力され、その時点で基本および初めの3つのスペクトルの
突出部が現在のスピーチ解析技術を使用して概算される。これら4つの組はファ
イルを構成している。次に定数aの値が選択されて、4つの組t、 log(F
3/F2)、log(Fl/R)、log(F2/Fl)が形成される。これら
は基準である。これらはホルマント此の対数であり、第2のファイルを構成する
Flが特定されていないと、log(Fl/R)は随意に0にセットされる。次
にコンピュータによって線形補間か実行されて。
5乃至lOミリ秒の間隔て4つの組のファイルか供給される。各座標の群を接続
するセグメントは使用者の選択により表示される。このような各セグメントの先
端上には、適当に配置されたピラミッドが感覚ポインタを表わすために表示され
る。線セグメントおよびピラミッドは第3のファイルに記憶される。数学的空間
はターゲット領域の適当な選択に伴フて表示される。使用者は、感覚通路、例え
ば特定の話者か発した例えば音節“dud”を選択する。そこで、リアルタイム
の5倍のような表示の速さが選択され、動作が開始される。表示装置は数学的空
間を通って移動する感覚ポインタを示し、その通路はセグメントによって示され
る。
補間された対数比ファイルは、感覚−知覚変換を感覚座標に施すことによって知
覚座標を表わす表に変換される。n−共振器(2次)は変換器として作用する。
このようにして、スベク1〜ル変化のある周波数は強調され、他は減衰される。
これらは4番目のファイルに記憶される。知覚径路は感覚径路と同様に表示され
る。
感覚ポインタあるいは知覚ポインタのいずれかが空間を通って移動すると、別の
プログラムか速度V、加速度a、曲率にの大きさをスタディすることかてきる。
適当な倍率の表示装置は、時間の関数としてx、y、x、v、a、kを表示させ
、また時間の関数として同様にlog(F3) 、 log(F2) 、 lo
g(Fl) 、 log(FD) 、 v、a、kを表示させる。このようにし
て、ホーニームおよび音節の相互関係を発見するために感覚および知覚径路をス
タディすることかできる。カーソルの制御つまみによって、興味のある点のマー
キング、およびその座標の値の決定、それらの点における動的パラメータの決定
が可能になる。 5SHzの中心周波数、ダンピング係数0.6をもった単一の
2次共振器として感覚−知覚変換−器を作ることにより、実験的な補強を行なう
ことができるが、通常の且つ分相応な知覚通路が得られる。
次にトップ−タウン処理を含む別の特徴について説明する。極めて多数の聴取状
態でのトップ−タウン処理は極めて重要て、また音声処理における知覚と感覚と
を分離することによりCPU2. CPU3およびまたはCPU4によるトップ
−ダウン処理を行なうことかてきるという利点かある。例えば、パターン認識装
置、予め記憶する装置、あるいは他の手段によって装置から取出される情報は、
知覚パターンを特定のターゲット領域に向けて引きつける式(9A)、(9B)
、(9C)中に他の貢献要素を生じさせるのに有利に使用される。このようにし
て、知覚ポインタは感覚ポインタおよび前述の他の要素によってのみならず、言
語についての文脈や知識等によって制御される装置によって引出される他の情報
によっても引出される。トップ−ダウン処理の他の形式には、知覚ポインタに吸
引力あるいは反発力を生じさせる他の感覚からの可視キュー(合図)や情報のよ
うな他の情報も含まれる。例えば口の動きはパターン認識装置によって観察され
、知覚ポインタPPを各種の知覚ポインタPPに引付けて音声知覚に影響を与え
る力を付加するために使用される。さらに複雑な形式のトップ−ダウン処理も考
えられる。例えば、外国アクセント、難聴スピーチ等の話者のスピーチの特徴に
基づいてターゲット領域の寸法や形状か変えられる。
さらに他の種類のトップ−ダウン処理か、語や意味の識別のために要求される付
加処理を受ける聴覚−知覚空間の出力として導入される。例えば、このような実
施例におけるCPU3のメモリ31において、メモリに予め記憶されたPHE情
報は、0と1との間の信頼度を表わす信頼度レベル情報ビットに伴って生ずる。
ターゲット領域の内側深くにある音量要素に対するPIF情報は高い信頼度があ
り、またターゲット・領域の表面近くの音量要素に対するPHE情報の信頼度は
低い。加速度の大きさのピークが生じたときにターゲット領域から引出された信
頼度情報はパターン認識装置から引出された信頼度情報と比較され、そのスピー
チについての最も可能性のある解釈についての決定がなされる。語および意味を
識別するためのCPU4による語変アクセス・レベルにおいて、同様な解析がこ
の発明の実施例において実行される。
この発明の他の実施例ては、CPU3はメモリ31中のターゲット領域を自動的
に形成し且つリファインする。スピ−チの流れは装置1に供給され、音声学的に
重要な事象がメモリ31中のアドレスを指定する。 CPU3はメモリの領域中
の事象の周波数を表にし、個々の2進類別コードを事象の集団を有する領域に割
り当てる。類別コードは表にリストして示されており、熟練した技術者は通常の
音声符号をその装置によって発生された表に作られた類別コードに割り当て、そ
れによって装置に音素レベルて綴ることを指示するのと同様な方法で、装置はこ
の装置によって発生された類別コードを人間が解釈するのに必要とする通常の符
号として印刷するようになる。
上述の点から明らかなようにこの発明の幾つかの目的が達成され、他の効果が得
られる。
この発明の範囲内て上述の構成を種々変形することかできる0図示され、この図
を参照して行った上述の説明に含まれるすべては単なる一例として解されるべき
ものて、この発明の範囲をそれに制限するものてはない。
(:”PU/のり“j込とルーナン
Fl(3,10
F I G、 +5△ FIC7,27FIG、I6
FIG、2+
XもILoy卆ノ
FIG、22
X=iogρりfり2
FIG、23
X;ノーぴCそ妨f4
FIG、24
Y′
FIG、25
Claims (47)
- (1)メモリ中のアドレスの各組に対応する各別の発声表現を表わす予め記憶さ れた情報を保持するメモリ手段と、 連続する時間間隔でそれぞれ生ずるスピーチの周波数スペクトルから数学的空間 における径路を上の点の一連の座標値を電気的に引出し、加速度の大きさのピー クの径路に沿う少なくとも1つの位置を近似する座標値を識別し、位置の座標値 の関数としてメモリ・アドレスを発生し、上記メモリからそのメモリ・アドレス に予め記憶された発声表現情報を得る手段と、からなるスピーチ処理装置。
- (2)一連の座標値を電気的に引出す手段は、上記径路の湾曲を近似するパラメ ータを計算し、そのパラメータが上記径路上の点における予め定められた大きさ を超過すると、加速度の大きさのピークの位置を近似するためにその点の座標値 を識別する手段を含む、請求の範囲(1)記載のスピーチ処理装置。
- (3)一連の座標値を電気的に引出す手段は、上記径路に沿う速さを計算し、予 め定められた時間内に速さが少なくとも予め定められた量だけ低下する位置の座 標値を識別して加速度の大きさのピークの位置を近似する手段を含む、請求の範 囲(1)記載のスピーチ処理装置。
- (4)一連の座標値を電気的に引出す手段は、上記径路に沿う速さを計算し、予 め定められた時間内で速さの上昇が後続して生ずる速さの低下が生ずる位置の座 標値を識別して加速度の大きさのピークの位置を近似する手段を含む、請求の範 囲(1)記載のスピーチ処理装置。
- (5)一連の座標値を電気的に引出す手段は、スピーチの周波数スペクトルを表 わすデジタル値の組を生成し、上記デジタル値の組の各々に対する複数の聴覚状 態コードの1つを発生し、数学的空間における少なくとも2組の座標値を供給し 、どの聴覚状態コードが発生されるかに基づいて上記座標値の組の1あるいはそ れ以上のものから選択された貢献要素でもって上記径路を特定する点の一連の引 出された座標値を計算する手段を含む、請求の範囲(1)記載のスピーチ処理装 置。
- (6)一連の座標値を電気的に引出す手段は、スピーチの周波数スペクトルを表 わすデジタル値の組を生成し、デジタル値の各組から決定され、数学的空間内に おける感覚ポインタの値の組を生成し、感覚ポインタ値の組から径路を特定する 点の一連の引出された座標値を計算する手段を含む、請求の範囲(1)記載のス ピーチ処理装置。
- (7)上記メモリ手段は、感覚ポインタ値の組によって入力することのできない 数学的空間の領域に対応するアドレスにおける少なくとも1個の閉鎖音ホーニー ムを表わす予め記憶された情報を保持するための手段を含む、請求の範囲(1) 記載のスピーチ処理装置。
- (8)メモリ中のアドレスの各祖に対応する各別の発声表現を表わす予め記憶さ れた情報を保持するメモリ手段と、 連続する時間間隔でそれぞれ発生するスピーチの周波数スペクトルから数学的空 間内における点の径路を特定する各点の一連の座標値を電気的に引出し、径路の 湾曲を近似するパラメータを電気的に計算し、パラメータが径路上の点における 予め定められた大きさを超過すると、径路上のその点の座標値の関数としてメモ リ・アドレスを発生し、上記メモリ手段からそのメモリ・アドレスに予め記憶さ れた発声表現情報を得る手段と、からなるスピーチ処理装置。
- (9)上記一連の座標値を電気的に引出す手段に接続されていて、連続する時間 間隔で生ずるスピーチの周波数スペクトルを発生する手段をさらに含む、請求の 範囲(8)記載のスピーチ処理装置。
- (10)上記スペクトル発生手段で使用するためにスピーチの音響波形を電気的 な形に変換するためのマイクロホンをさらに含む、請求の範囲(9)記載のスピ ーチ処理装置。
- (11)少なくとも1つの周波数スペクトルは複数のスペクトル・ピークを有し 、上記一連の座標値を電気的に引出す手段はスペクトルのピークの周波数の値か ら数学的空間における径路上の点の一連の座標値を計算するための手段を含む、 請求の範囲(9)記載のスピーチ処理装置。
- (12)上記一連の座標値を電気的に引出す手段に接続されていて、メモリ手段 から得られた順序で発声表現情報を記録する手段をさらに含む、請求の範囲(8 )記載のスピーチ処理装置。
- (13)スピーチのアナログ波形のサンプルを生成し、そのサンプルをデジタル 形式に変換する手段と、デジタル形式のサンプルからスピーチの周波数スペクト ルを表わすデジタル値の組を引出し、デジタル値の組の各々に対する複数の聴覚 状態コードのうちの1つを発生し、数学的空間における座標値の少なくとも2つ の組を供給し、どの聴覚状態コードが発生されるかに基づいて第1の指定された 座標値の1あるいはそれ以上の組からの選択された貢献要素によって、径路を特 定する一連の他の座標値を計算する手段と、 径路上の点の計算された座標値をデジタルの形で一時的に記憶する手段と、から なるスピーチ処理装置。
- (14)上記デジタル値の組を引出す手段は、スペクトルを表わすデジタル値の 組から2組の第1の指定された座標値の第1の組を発生する手段を含み、上記第 1の指定された座標値の第2の組はスペクトルを表わすデジタル値の組とは無関 係である、請求の範囲(13)記載のスピーチ処理装置。
- (15)上記デジタル値の組を引出す手段は、聴覚状態コードが声門音源聴覚状 態を表わすとき、スペクトルを表わすデジタル値の組の1つから2組の第1の指 定された座標値の第1のものを生成し、聴覚状態コードが同時に破裂−摩擦音聴 覚状態を表わすとき、上記と同じ組のデジタル値から2組の第1の指定された座 標値の第2のものを生成する手段を含む、請求の範囲(13)記載のスピーチ処 理装置。
- (16)周波数スペクトルの1つは周波数が高くなる順序で第1、第2および第 3の周波数をもった1組の3つのスペクトル突起を有し、上記デジタル値の組を 引出す手段は、上記1つのスペクトルに対する声門音源状態を表わす聴覚状態コ ードを発生し、第3周波数対策2周波数の比、第1周波数対基準周波数の比、第 2周波数対第1周波数の比を含む各値を持つように2組の座標値の第1のものを 発生する手段を含む、請求の範囲(13)記載のスピーチ処理装置。
- (17)周波数スペクトルの1つは周波数が高くなる順序で第1、第2、第3の 周波数をもった1組の3つのスペクトル突起を有し、他の周波数スペクトルは3 つのスペクトル突起の第1のものを欠いており、上記デジタル値を引出す手段は 、他の周波数スペクトルに対する破裂−摩擦音状態を表わす聴覚状態コードを発 生し、また第3の周波数対策2の周波数の比を含む第1の値、実質的に一定の第 2の値、第2の周波数対基準周波数の比を含む第3の値をもった2組の座標値の 1つを発生する手段を含む、スピーチ処理装置。
- (18)周波数スペクトルはピークを有し、上記デジタル値を引出す手段は、ピ ークの少なくとも1つの幅がスピーチの良さを表わす予め定められた範囲内にあ るとき少なくとも1つの貢献要素を増加する手段を含む、請求の範囲(13)記 載のスピーチ処理装置。
- (19)周波数スペクトルはピークを有し、上記デジタル値を引出す手段は上記 ピークの少なくとも1つの全パワーの関数として貢献要素の少なくとも1つを変 化させる手段を含み、上記全パワーはスピーチの大きさを表わすものである請求 の範囲(13)記載のスピーチ処理装置。
- (20)上記デジタル値を引出す手段は、少なくとも2つのスペクトルから決定 された周波数値の関数である基準周波数の関数として第1の指定された座標値の 組の少なくとも1つの値を計算する手段を含む、請求の範囲(13)記載のスピ ーチ処理装置。
- (21)上記デジタル値を引出す手段は、時間を通じて少なくとも幾つかの周期 的声門音源スペクトルから決定された周波数値の相乗平均の関数である基準周波 数の関数として、第1の指定された座標値の組の少なくとも1つの値を計算する 手段を含む、請求の範囲(13)記載のスピーチ処理装置。
- (22)上記デジタル値を引出す手段は、A)スピーチの声高変調の周波数と、 B)時間を通じてスピーチのスペクトルの少なくとも幾つかから決定された周波 数値の平均の関数である基準周波数の関数として第1の指定された座標値の組の 値の少なくとも1つを計算する手段を含む、請求の範囲(13)記載のスピーチ 処理装置。
- (23)上記デジタル値を引出す手段は、径路を特定する点の座標値を計算する 手段を含み、それによって少なくとも1つの破裂音の発生時に、上記径路は上記 2組の座標値が入り込むことのできない数学的空間の領域を通過する、請求の範 囲(13)記載のスピーチ処理装置。
- (24)上記デジタル値を引出す手段は、上記2組の座標値を含む1組の差分方 程式をデジタル的に解いて、径路を特定する点の他の一連の座標値を得る手段を 含む、請求の範囲(13)記載のスピーチ処理装置。
- (25)デジタル形式のスピーチのサンプルからスピーチの周波数スペクトルを 表わすデジタル値の組を引出し、デジタル値の組の各々に対する複数の聴覚状態 コードの1つを発生し、デジタル値の各組から決定される声門音源感覚ポインタ 値と破裂−摩擦音感覚ポインタ値を生成する手段と、 声門音源感覚ポインタ値、破裂−摩擦音感覚ポインタ値、およびスペクトルには 無関係な中立点の座標値から、どの聴覚状態コードが発生されたかに依存する選 択された貢献要素を含む1組の差分方程式をデジタル的に解くことによって数学 的空間における知覚ポインタの通路を特定する一連の座標値を、声門音源ポイン タ値と破裂−摩擦音感覚ポインタ値とから計算する手段と、メモリ中のアドレス の各組に対応する各別の発声表現を表わす予め記憶された情報を保持する手段と 、加速度の大きさが顕著になる径路に沿う少なくとも1つの位置を近似する座標 値を識別し、識別された位置の座標の関数としてメモリ・アドレスを発生し、上 記メモリ手段から、そのメモリ・アドレスに予め記憶された発声表現情報を得る 手段と、 からなるスピーチ処理装置。
- (26)周波数スペクトルの1つは、周波数が高くなる順序で第1、第2、第3 の周波数をもつ1組の3つの突出点を有し、他の周波数スペクトルは上記3つの 突出点のうちの第1のものを欠いており、上記デジタル値を引出す手段は、他の スペクトルに対する破裂−摩擦音状態を表わす聴覚状態コードを発生し、第3の 周波数対策2の局波数の比を含む第1の値、実質的に一定の第2の値、第2の周 波数対基準周波数値の比を含む第3の値をもつように破裂−摩擦音感覚ポインタ を生成する手段を含む、請求の範囲(25)記載のスピーチ処理装置。
- (27)基準周波数は、時間を通じて声門音源スペクトルの少なくとも幾つかか ら上記デジタル値を引出す手段によって決定された周波数値の相乗平均の関数で ある、請求の範囲(26)記載のスピーチ処理装置。
- (28)周波数スペクトルの第1のものは周波数が高くなる順序で第1、第2、 第3の周波数をもつ1組の3つの突出点を有し、周波数スペクトルの第2のもの は上記3つの突出点のうちの第1のものを欠き、上記デジタル値を引出す手段は 、上記第1の周波数スペクトルに対する声門音源状態と第2の周波数スペクトル に対する破裂−摩擦音状態とを表わす聴覚状態コードを発生する手段を含む、請 求の範囲(25)記載のスピーチ処理装置。
- (29)上記の計算を行なう手段は、知覚ポインタの座標値を計算する手段を含 み、それによって少なくとも1つの破裂音の発生時に、上記知覚ポインタは、声 門音源感覚ポインタ値と破裂−摩擦音感覚ポインタ値が入り込まない数学的空間 の領域を通過する、請求の範囲(25)記載のスピーチ処理装置。
- (30)連続する時間間隔においてそれぞれ生ずるスピーチの周波数スペクトル から、数学的空間中の点の径路を特定する当該数学的空間中の点の一連の座標値 を電気的に引出す段階と、 加速度の大きさのピークの径路に沿う少なくとも1つの位置を近似する座標値を 時間的に識別し、その径路の位置の関数としてメモリ・アドレスを発生し、メモ リ中の各アドレス群に相当する各別の発声表現を表わす予め記憶された情報を有 する上記メモリ手段からそのメモリ・アドレスに予め記憶された発声表現情報を 得る段階と、からなるスピーチ処理方法。
- (31)デジタル形式のスピーチのサンプルからそのスピーチの周波数スペクト ルを表わすデジタル値の組を引出す段階と、 上記デジタル値の組の各々に対する複数の聴覚状態コードの1つを発生し、数学 的空間における少なくとも2組の座標値を供給する段階と、 どの聴覚状態コードが発生されるかに依存して第1の指定された座標値の1ある いはそれ以上の組からの選択された貢献要素でもって径路を特定する一連の他の 座標値を電気的に計算する段階と、からなるスピーチ処理方法。
- (32)メモリ手段と、 スピーチのアナログ波形のサンプルを生成し、そのサンプルをデジタル形式に変 換する手段と、デジタル形式のサンプルからスピーチの周波数スペクトルを表わ す1組のデジタル値を引出し、メモリの個々の位置にスペクトル中の1あるいは それ以上の周波数のピークの値を選択的に記憶させ、周波数の記憶された値およ び周波数の記憶された値の個々の位置の双方に依存する数学的空間の座標値に対 応する1組のデジタル値を発生する手段と、からなり、上記所定のピークの周波 数値が記憶される選択された1あるいはそれ以上の個々のメモリ位置は、第1の 所定周波数帯にピークが存在するかどうか、および他のいずれかのピークが上記 第1の周波数帯とこの第1の周波数帯とオーバーラップする第2の周波数帯の双 方に存在するか否かに基づいている、スピーチ処理装置。
- (33)上記デジタル値を引出す手段は、より低い第1の周波数として予め定め られた第1の周波数帯におけるすべての最も低い周波数ピークの周波数の値を記 憶し、第2の周波数として、もしより高い第1の周波数がまた第2の周波数帯に あれば、上記より高い第1の周波数よりも高い第2の周波数帯におけるすべての ピークの周波数の値を記憶し、またピークが第2の周波数帯にあるときに、より 高い第1の周波数よりも高い第2の周波数帯中にピークが存在しなければ、第2 の周波数として、最初、より高い第1の周波数として記憶された周波数の値を記 憶し、より高い第1の周波数としてまた最初、より低い第1の周波数として記憶 された周波数の値を記憶する手段を含む、請求の範囲(32)記載のスピーチ処 理装置。
- (34)上記デジタル値を引出す手段は、スピーチの周波数スペクトル(この場 合、周波数スペクトルの1つは、周波数が高くなる順序で第1、第2、および第 3の周波数をもつ1組の3つのスペクトル突出点を有する)を表わすデジタル値 の組を連続的に引出し、上記1つのスペクトルに対する声門音源状態を表わす聴 覚状態コードを発生し、第3の周波数と第2の周波数の比、第1の周波数と基準 周波数値の比、および第2の周波数と第1の周波数の比を含む各値をもつように 座標値の組を生成する手段を含む、請求の範囲(32)記載のスピーチ処理装置 。
- (35)上記デジタル値を引出す手段は、少なくとも1つの鼻音の発生時に広げ られあるいは分割されるピークを表わすより低いおよびより高い第1の周波数を 識別し、また鼻音の発生を表わす信号を発生する手段を含む、請求の範囲(32 )記載のスピーチ処理装置。
- (36)上記デジタル値を引出す手段は、スピーチの周波数スペクトル(この場 合、周波数スペクトルの1つは周波数が高くなる順序で第1、第2、および第3 の周波数をもつ1組の3つのスペクトル突出点を有し、周波数スペクトルの他の ものは上記3つの突出点のうちの1つを欠いている)を表わすデジタル値の組を 連続的に引出し、また他の周波数スペクトルに対する破裂−摩擦音状態を表わす 聴覚状態コードを発生し、第3の周波数と第2の周波数の比を含む第1の値、実 質的に一定の第2の値、および、第2の周波数と基準周波数値の比を含む第3の 値をもつ座標値の組を生成する手段を含む、請求の範囲(32)記載のスピーチ 処理装置。
- (37)上記デジタル値を引出す手段は、スピーチの周波数スペクトルを表わす デジタル値の組を連続的に引出し、少なくとも2つのスペクトルから決定された 周波数の値の関数である基準周波数値の関数として、座標値の組における値の少 なくとも1つを計算する手段を含む、請求の範囲(32)記載のスピーチ処理装 置。
- (38)上記デジタル値を引出す手段は、スピーチの周波数スペクトルを表わす デジタル値の組を連続的に引出し、時間を通じて少なくとも幾つかの周期的声門 音源スペクトルから決定された周波数値の相乗平均の関数として、座標値の組に おける少なくとも1つの値を計算する手段を含む、請求の範囲(32)記載のス ピーチ処理装置。
- (39)上記デジタル値を引出す手段は、A)スピーチの声高変調の周波数と、 B)時間を通じてスピーチから決定された周波数値の平均の関数である座標値の 組の中の少なくとも1つの値を計算するための手段を含む、請求の範囲(32) 記載のスピーチ処理装置。
- (40)上記デジタル値を引出す手段は、第2周波数帯に対する端部周波数の値 を選択するための手段を含み、選択された値はピークが予め定められた第1の周 波数帯に存在するか否かに依存する、請求の範囲(32)記載のスピーチ処理装 置。
- (41)上記デジタル値を引出す手段は、第2の周波数帯とこの第2の周波数帯 とオーバーラップする第3の周波数帯の双方に対する端部周波数の値を選択する ための手段を含み、選択された値は第1の予め定められた周波数帯にピークが存 在するか否かに依存する、請求の範囲(32)記載のスピーチ処理装置。
- (42)上記デジタル値を引出す手段は、第2の周波数帯とこの第2の周波数帯 とオーバーラップする第3のより高い周波数帯の双方に対する端部周波数の値を 選択し、ピークの1つが第3の周波数帯における唯一のピークであって、しかも 第2の周波数帯と第3の周波数帯の双方の中にあるか否かを決定し、もしそこに あれば個々の位置の1つに1個のピークの上側の周波数端に相当する他の周波数 値を記憶させる手段を含む、請求の範囲(32)記載のスピーチ処理装置。
- (43)上記デジタル値を引出す手段は、スピーチの周波数スペクトルを表わす デジタル値の組を連続的に引出し、少なくとも2つのスペクトルから決定された 基準周波数値の関数として第2の周波数帯に対する端部周波数の値を選択する手 段を含む、請求の範囲(32)記載のスピーチ処理装置。
- (44)上記デジタル値を引出す手段は、スピーチの周波数スペクトルを表わす デジタル値の組を連続的に引出し、ピークの1つが一般に第2の周波数帯よりも 高くしかもこの第2の周波数帯とオーバーラップする周波数帯である第3の周波 数帯にあるか否かを決定し、もし第3の周波数帯中にピークが存在しなければ、 各別の位置の1つに他の周波数値を記憶させる手段を含み、上記他の周波数値は 第3の周波数帯中にあり且つ少なくとも2つのスペクトルから決定された基準周 波数の関数である、請求の範囲(32)記載のスピーチ処理装置。
- (45)上記デジタル値を引出す手段は、スピーチが時間を通じて継続するとき 数学的空間における座標値に対応するデジタル値の別の組を連続的に発生する手 段を含み、 さらに、第2のメモリにおけるアドレスの各組に対応する各別の発声表現を表わ す予め記憶された情報を保持する上記第2のメモリ手段と、 第1の指定された座標値から数学的空間における径路上の点の一連の第2の座標 値を電気的に発生し、加速度の大きさのピークの径路に沿う少なくとも1つの位 置を近似するこれらの第2の座標値を識別し、位置の座標値の関数としてメモリ ・アドレスを発生し、上記メモリ手段からそのメモリ・アドレスに予め記憶され た発声表現を得る手段と、を具備した請求の範囲(32)記載のスピーチ処理装 置。
- (46)上記デジタル値を引出す手段は、スピーチが時間を通じて継続するとき 数学的空間における座標値に対応するデジタル値の別の組を連続的に発生し、デ ジタル値の上記組の各々に対する複数の聴覚状態コードのうちの1つを発生し、 どの聴覚状態コードが発生されたかに基づいてデジタル座標値の上記第1の指定 された組の1あるいはそれ以上のものから選択された貢献要素でもって、数学的 空間における径路を特定する点の一連の第2の座標値を計算する手段を含む、請 求の範囲(32)記載のスピーチ処理装置。
- (47)上記デジタル値を引出す手段は、スピーチが時間を通じて継続するとき 数学的空間における座標値に対応するデジタル値の別の組を連続的に発生し、デ ジタル値の上記組の各々に対する複数の聴覚状態コードのうちの1つを発生する 手段を含み、 さらに、第2のメモリにおけるアドレスの各組に対応する各別の発声表現を表わ す予め記憶された情報を保持する上記第2のメモリ手段と、 どの聴覚状態コードが発生されたかに基づいてデジタル座標値の上記第1の指定 された組の1あるいはそれ以上のものから選択された貢献要素でもって、数学的 空間における径路上の点の一連の第2の座標値を電気的に発生し、加速度の大き さのピークの径路に沿う少なくとも1つの位置を近似するこれら第2の座標値を 識別し、位置の座標値の関数としてメモリ・アドレスを発生し、上記メモリ手段 からそのメモリ・アドレスに記憶された発声表現情報を得る手段と、を具備する スピーチ処理装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US79296585A | 1985-10-30 | 1985-10-30 | |
US792965 | 1991-11-15 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS63501603A true JPS63501603A (ja) | 1988-06-16 |
Family
ID=25158640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61505889A Pending JPS63501603A (ja) | 1985-10-30 | 1986-10-29 | スピ−チ処理装置および方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US4813076A (ja) |
EP (1) | EP0243479A4 (ja) |
JP (1) | JPS63501603A (ja) |
WO (1) | WO1987002816A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009210593A (ja) * | 2008-02-29 | 2009-09-17 | Toshiba Corp | 特徴量抽出装置、方法及びプログラム |
Families Citing this family (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1988010413A1 (en) * | 1987-06-09 | 1988-12-29 | Central Institute For The Deaf | Speech processing apparatus and methods |
US5012518A (en) * | 1989-07-26 | 1991-04-30 | Itt Corporation | Low-bit-rate speech coder using LPC data reduction processing |
US5768613A (en) * | 1990-07-06 | 1998-06-16 | Advanced Micro Devices, Inc. | Computing apparatus configured for partitioned processing |
US6230255B1 (en) | 1990-07-06 | 2001-05-08 | Advanced Micro Devices, Inc. | Communications processor for voice band telecommunications |
US5313531A (en) * | 1990-11-05 | 1994-05-17 | International Business Machines Corporation | Method and apparatus for speech analysis and speech recognition |
DE4111995A1 (de) * | 1991-04-12 | 1992-10-15 | Philips Patentverwaltung | Schaltungsanordnung zur spracherkennung |
US5621857A (en) * | 1991-12-20 | 1997-04-15 | Oregon Graduate Institute Of Science And Technology | Method and system for identifying and recognizing speech |
US5463715A (en) * | 1992-12-30 | 1995-10-31 | Innovation Technologies | Method and apparatus for speech generation from phonetic codes |
US5623609A (en) * | 1993-06-14 | 1997-04-22 | Hal Trust, L.L.C. | Computer system and computer-implemented process for phonology-based automatic speech recognition |
US5675705A (en) * | 1993-09-27 | 1997-10-07 | Singhal; Tara Chand | Spectrogram-feature-based speech syllable and word recognition using syllabic language dictionary |
JP3321971B2 (ja) * | 1994-03-10 | 2002-09-09 | ソニー株式会社 | 音声信号処理方法 |
US5751907A (en) * | 1995-08-16 | 1998-05-12 | Lucent Technologies Inc. | Speech synthesizer having an acoustic element database |
US5657424A (en) * | 1995-10-31 | 1997-08-12 | Dictaphone Corporation | Isolated word recognition using decision tree classifiers and time-indexed feature vectors |
US6047254A (en) * | 1996-05-15 | 2000-04-04 | Advanced Micro Devices, Inc. | System and method for determining a first formant analysis filter and prefiltering a speech signal for improved pitch estimation |
US5870704A (en) * | 1996-11-07 | 1999-02-09 | Creative Technology Ltd. | Frequency-domain spectral envelope estimation for monophonic and polyphonic signals |
US5864820A (en) * | 1996-12-20 | 1999-01-26 | U S West, Inc. | Method, system and product for mixing of encoded audio signals |
US6782365B1 (en) | 1996-12-20 | 2004-08-24 | Qwest Communications International Inc. | Graphic interface system and product for editing encoded audio data |
US5845251A (en) * | 1996-12-20 | 1998-12-01 | U S West, Inc. | Method, system and product for modifying the bandwidth of subband encoded audio data |
US5864813A (en) * | 1996-12-20 | 1999-01-26 | U S West, Inc. | Method, system and product for harmonic enhancement of encoded audio signals |
US6463405B1 (en) | 1996-12-20 | 2002-10-08 | Eliot M. Case | Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband |
US6516299B1 (en) | 1996-12-20 | 2003-02-04 | Qwest Communication International, Inc. | Method, system and product for modifying the dynamic range of encoded audio signals |
US6122613A (en) * | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
EP0878790A1 (en) * | 1997-05-15 | 1998-11-18 | Hewlett-Packard Company | Voice coding system and method |
EP0911826A3 (en) * | 1997-10-22 | 2001-11-28 | Victor Company Of Japan, Limited | Audio information processing method, audio information processing apparatus, andmethod of recording audio information on recording medium |
US6073099A (en) * | 1997-11-04 | 2000-06-06 | Nortel Networks Corporation | Predicting auditory confusions using a weighted Levinstein distance |
US5927988A (en) * | 1997-12-17 | 1999-07-27 | Jenkins; William M. | Method and apparatus for training of sensory and perceptual systems in LLI subjects |
US6019607A (en) * | 1997-12-17 | 2000-02-01 | Jenkins; William M. | Method and apparatus for training of sensory and perceptual systems in LLI systems |
US6159014A (en) * | 1997-12-17 | 2000-12-12 | Scientific Learning Corp. | Method and apparatus for training of cognitive and memory systems in humans |
US6182042B1 (en) | 1998-07-07 | 2001-01-30 | Creative Technology Ltd. | Sound modification employing spectral warping techniques |
US6292571B1 (en) | 1999-06-02 | 2001-09-18 | Sarnoff Corporation | Hearing aid digital filter |
EP1096470B1 (en) * | 1999-10-29 | 2005-04-06 | Matsushita Electric Industrial Co., Ltd. | Normalizing voice pitch for voice recognition |
DE10031832C2 (de) * | 2000-06-30 | 2003-04-30 | Cochlear Ltd | Hörgerät zur Rehabilitation einer Hörstörung |
KR100708101B1 (ko) * | 2000-09-05 | 2007-04-16 | 삼성전자주식회사 | 비디오신호 처리 ic의 엔벨로프 검출 회로 배치 설계 방법 및 이를 이용한 ic |
US6388512B1 (en) * | 2000-11-03 | 2002-05-14 | The United States Of America As Represented By The Administrator Of National Aeronautics And Space Administration | Process for a high efficiency Class D microwave power amplifier operating in the S-Band |
JP2004534274A (ja) * | 2001-03-23 | 2004-11-11 | インスティチュート・フォー・インフォコム・リサーチ | 内容ベースのマルチメディア情報検索で使用するためデジタル表示で音楽情報を表示する方法およびシステム |
US6975994B2 (en) * | 2001-09-12 | 2005-12-13 | Technology Innovations, Llc | Device for providing speech driven control of a media presentation |
US7013430B2 (en) * | 2002-01-25 | 2006-03-14 | Agilent Technologies, Inc. | Rapid graphical analysis of waveforms using a pointing device |
US7319959B1 (en) * | 2002-05-14 | 2008-01-15 | Audience, Inc. | Multi-source phoneme classification for noise-robust automatic speech recognition |
US7275032B2 (en) | 2003-04-25 | 2007-09-25 | Bvoice Corporation | Telephone call handling center where operators utilize synthesized voices generated or modified to exhibit or omit prescribed speech characteristics |
US20060073452A1 (en) * | 2004-01-13 | 2006-04-06 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US20070020595A1 (en) * | 2004-01-13 | 2007-01-25 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US20070111173A1 (en) * | 2004-01-13 | 2007-05-17 | Posit Science Corporation | Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training |
US20050175972A1 (en) * | 2004-01-13 | 2005-08-11 | Neuroscience Solutions Corporation | Method for enhancing memory and cognition in aging adults |
US20060051727A1 (en) * | 2004-01-13 | 2006-03-09 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US8210851B2 (en) * | 2004-01-13 | 2012-07-03 | Posit Science Corporation | Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training |
US20060105307A1 (en) * | 2004-01-13 | 2006-05-18 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US20050153267A1 (en) * | 2004-01-13 | 2005-07-14 | Neuroscience Solutions Corporation | Rewards method and apparatus for improved neurological training |
US20070065789A1 (en) * | 2004-01-13 | 2007-03-22 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US7664642B2 (en) * | 2004-03-17 | 2010-02-16 | University Of Maryland | System and method for automatic speech recognition from phonetic features and acoustic landmarks |
JP3827317B2 (ja) * | 2004-06-03 | 2006-09-27 | 任天堂株式会社 | コマンド処理装置 |
US10223934B2 (en) | 2004-09-16 | 2019-03-05 | Lena Foundation | Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback |
US9240188B2 (en) | 2004-09-16 | 2016-01-19 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US8938390B2 (en) * | 2007-01-23 | 2015-01-20 | Lena Foundation | System and method for expressive language and developmental disorder assessment |
US9355651B2 (en) | 2004-09-16 | 2016-05-31 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US8280730B2 (en) * | 2005-05-25 | 2012-10-02 | Motorola Mobility Llc | Method and apparatus of increasing speech intelligibility in noisy environments |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US20070134635A1 (en) * | 2005-12-13 | 2007-06-14 | Posit Science Corporation | Cognitive training using formant frequency sweeps |
US20090018824A1 (en) * | 2006-01-31 | 2009-01-15 | Matsushita Electric Industrial Co., Ltd. | Audio encoding device, audio decoding device, audio encoding system, audio encoding method, and audio decoding method |
EP2126901B1 (en) * | 2007-01-23 | 2015-07-01 | Infoture, Inc. | System for analysis of speech |
CN101578659B (zh) * | 2007-05-14 | 2012-01-18 | 松下电器产业株式会社 | 音质转换装置及音质转换方法 |
US8185881B2 (en) * | 2007-06-19 | 2012-05-22 | International Business Machines Corporation | Procedure summaries for pointer analysis |
US8457965B2 (en) * | 2009-10-06 | 2013-06-04 | Rothenberg Enterprises | Method for the correction of measured values of vowel nasalance |
US8311812B2 (en) * | 2009-12-01 | 2012-11-13 | Eliza Corporation | Fast and accurate extraction of formants for speech recognition using a plurality of complex filters in parallel |
US8718290B2 (en) | 2010-01-26 | 2014-05-06 | Audience, Inc. | Adaptive noise reduction using level cues |
US9378754B1 (en) | 2010-04-28 | 2016-06-28 | Knowles Electronics, Llc | Adaptive spatial classifier for multi-microphone systems |
US20120078625A1 (en) * | 2010-09-23 | 2012-03-29 | Waveform Communications, Llc | Waveform analysis of speech |
US9818416B1 (en) | 2011-04-19 | 2017-11-14 | Deka Products Limited Partnership | System and method for identifying and processing audio signals |
US9308446B1 (en) | 2013-03-07 | 2016-04-12 | Posit Science Corporation | Neuroplasticity games for social cognition disorders |
US9508345B1 (en) | 2013-09-24 | 2016-11-29 | Knowles Electronics, Llc | Continuous voice sensing |
US9953634B1 (en) | 2013-12-17 | 2018-04-24 | Knowles Electronics, Llc | Passive training for automatic speech recognition |
US20150179167A1 (en) * | 2013-12-19 | 2015-06-25 | Kirill Chekhter | Phoneme signature candidates for speech recognition |
US9437188B1 (en) | 2014-03-28 | 2016-09-06 | Knowles Electronics, Llc | Buffered reprocessing for multi-microphone automatic speech recognition assist |
US10529357B2 (en) | 2017-12-07 | 2020-01-07 | Lena Foundation | Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3076932A (en) * | 1963-02-05 | Amplifier | ||
US3172954A (en) * | 1965-03-09 | Acoustic apparatus | ||
JPS5028132B1 (ja) * | 1969-06-20 | 1975-09-12 | ||
US3619509A (en) * | 1969-07-30 | 1971-11-09 | Rca Corp | Broad slope determining network |
US3679830A (en) * | 1970-05-11 | 1972-07-25 | Malcolm R Uffelman | Cohesive zone boundary detector |
DE2240557A1 (de) * | 1971-08-18 | 1973-02-22 | Jean Albert Dreyfus | Spracherkennungsvorrichtung zum steuern von maschinen |
US3812291A (en) * | 1972-06-19 | 1974-05-21 | Scope Inc | Signal pattern encoder and classifier |
US3881097A (en) * | 1973-05-14 | 1975-04-29 | Weston Instruments Inc | Fully digital spectrum analyzer using time compression and discrete fourier transform techniques |
DE2448908C3 (de) * | 1974-10-15 | 1979-07-05 | Olympia Werke Ag, 2940 Wilhelmshaven | Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung |
US4059725A (en) * | 1975-03-12 | 1977-11-22 | Nippon Electric Company, Ltd. | Automatic continuous speech recognition system employing dynamic programming |
GB1542843A (en) * | 1975-04-03 | 1979-03-28 | Solartron Electronic Group | Signal processor |
US4060716A (en) * | 1975-05-19 | 1977-11-29 | Rockwell International Corporation | Method and apparatus for automatic abnormal events monitor in operating plants |
JPS5220705A (en) * | 1975-08-09 | 1977-02-16 | Fuji Xerox Co Ltd | Identification discriminating system by peak point value envelope curv e of voice waveform |
US4087632A (en) * | 1976-11-26 | 1978-05-02 | Bell Telephone Laboratories, Incorporated | Speech recognition system |
US4092493A (en) * | 1976-11-30 | 1978-05-30 | Bell Telephone Laboratories, Incorporated | Speech recognition system |
US4087630A (en) * | 1977-05-12 | 1978-05-02 | Centigram Corporation | Continuous speech recognition apparatus |
US4184049A (en) * | 1978-08-25 | 1980-01-15 | Bell Telephone Laboratories, Incorporated | Transform speech signal coding with pitch controlled adaptive quantizing |
JPS57136000A (en) * | 1981-02-17 | 1982-08-21 | Nippon Electric Co | Pattern matching apparatus |
JPS57147781A (en) * | 1981-03-06 | 1982-09-11 | Nec Corp | Pattern matching device |
US4661915A (en) * | 1981-08-03 | 1987-04-28 | Texas Instruments Incorporated | Allophone vocoder |
US4435617A (en) * | 1981-08-13 | 1984-03-06 | Griggs David T | Speech-controlled phonetic typewriter or display device using two-tier approach |
US4489434A (en) * | 1981-10-05 | 1984-12-18 | Exxon Corporation | Speech recognition method and apparatus |
US4489435A (en) * | 1981-10-05 | 1984-12-18 | Exxon Corporation | Method and apparatus for continuous word string recognition |
US4592086A (en) * | 1981-12-09 | 1986-05-27 | Nippon Electric Co., Ltd. | Continuous speech recognition system |
US4570232A (en) * | 1981-12-21 | 1986-02-11 | Nippon Telegraph & Telephone Public Corporation | Speech recognition apparatus |
US4608708A (en) * | 1981-12-24 | 1986-08-26 | Nippon Electric Co., Ltd. | Pattern matching system |
JPS58132298A (ja) * | 1982-02-01 | 1983-08-06 | 日本電気株式会社 | 窓制限付パタンマツチング装置 |
JPS58211792A (ja) * | 1982-06-04 | 1983-12-09 | 日産自動車株式会社 | 車両用音声認識装置 |
US4509187A (en) * | 1982-06-14 | 1985-04-02 | At&T Bell Laboratories | Time warp signal recognition processor using recirculating and/or reduced array of processor cells |
JPS59226400A (ja) * | 1983-06-07 | 1984-12-19 | 松下電器産業株式会社 | 音声認識装置 |
-
1986
- 1986-10-29 JP JP61505889A patent/JPS63501603A/ja active Pending
- 1986-10-29 WO PCT/US1986/002313 patent/WO1987002816A1/en not_active Application Discontinuation
- 1986-10-29 EP EP19860906693 patent/EP0243479A4/en not_active Ceased
-
1987
- 1987-06-09 US US07/060,397 patent/US4813076A/en not_active Expired - Fee Related
- 1987-10-08 US US07/107,488 patent/US4809332A/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009210593A (ja) * | 2008-02-29 | 2009-09-17 | Toshiba Corp | 特徴量抽出装置、方法及びプログラム |
JP4599420B2 (ja) * | 2008-02-29 | 2010-12-15 | 株式会社東芝 | 特徴量抽出装置 |
Also Published As
Publication number | Publication date |
---|---|
US4809332A (en) | 1989-02-28 |
EP0243479A1 (en) | 1987-11-04 |
WO1987002816A1 (en) | 1987-05-07 |
US4813076A (en) | 1989-03-14 |
EP0243479A4 (en) | 1989-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS63501603A (ja) | スピ−チ処理装置および方法 | |
US4820059A (en) | Speech processing apparatus and methods | |
d'Alessandro et al. | Automatic pitch contour stylization using a model of tonal perception | |
Bezoui et al. | Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC) | |
JP2015068897A (ja) | 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム | |
Cole et al. | Feature-based speaker-independent recognition of isolated English letters | |
Kain et al. | Formant re-synthesis of dysarthric speech | |
Narendra et al. | Robust voicing detection and F 0 estimation for HMM-based speech synthesis | |
Etman et al. | American dialect identification using phonotactic and prosodic features | |
CA2483607C (en) | Syllabic nuclei extracting apparatus and program product thereof | |
KR20060066483A (ko) | 음성 인식을 위한 특징 벡터 추출 방법 | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
Sultana et al. | A survey on Bengali speech-to-text recognition techniques | |
Markey | Acoustic-based syllabic representation and articulatory gesture detection: prerequisites for early childhood phonetic and articulatory development | |
KR101560833B1 (ko) | 음성 신호를 이용한 감정 인식 장치 및 방법 | |
Anwar et al. | Automatic Arabic speech segmentation system | |
Yavuz et al. | A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model. | |
Smits et al. | Evaluation of various sets of acoustic cues for the perception of prevocalic stop consonants. II. Modeling and evaluation | |
WO1997007499A2 (en) | A method and device for preparing and using diphones for multilingual text-to-speech generating | |
Mertens et al. | Comparing approaches to pitch contour stylization for speech synthesis | |
Do et al. | Vietnamese Text-To-Speech system with precise tone generation | |
Singh et al. | Speech recognition system for north-east Indian accent | |
RU2589851C2 (ru) | Система и способ перевода речевого сигнала в транскрипционное представление с метаданными | |
WO1988010413A1 (en) | Speech processing apparatus and methods | |
Van Son et al. | A comparison between the acoustics of vowel and consonant reduction |