JP4669988B2

JP4669988B2 - 言語学習装置

Info

Publication number: JP4669988B2
Application number: JP2005021734A
Authority: JP
Inventors: 隆弘足立; 玲子山田
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-01-28
Filing date: 2005-01-28
Publication date: 2011-04-13
Anticipated expiration: 2025-01-28
Also published as: JP2006208806A

Description

本発明は、言語学習を行うための言語学習装置の構成に関する。

近年、コンピュータで実現される文字または音声の入出力システムや、リレーショナルデータベースシステム、音声認識システムを外国語の学習に利用する試みが盛んに行われている。すなわち、このような外国語学習装置においては、学習者は、コンピュータが出題する問題に応じて、キーボード操作やマウス操作または音声により回答をパーソナルコンピュータに入力する。そして、上記パーソナルコンピュータに搭載された当該外国語に対応したデータベースシステムや音声認識システムが、学習者の理解度や発音の正しさを判定し、その結果を学習者へのフィードバックとして表示するという方式である。

また、学習者に自分の発音した文章について、各単語毎に評価点を示し、学習者の発音した外国語の文章に対する発音の評価結果を、学習者の外国語発音練習に対して効率的にフィードバックするための外国語学習装置も提案されている（たとえば、特許文献１を参照）。

ところで、これまで、効果的な学習を可能にすることを目的とし、学習用刺激として用いる音声を操作し、音響的特徴の強調や話速の操作などを行う学習実験が数多く行われてきたものの、その結果として芳しい結果が得られたとはいい難い状況である。

その一方、音声刺激を高音質の音声（ＣＤクォリティ）、ストリーミング放送品質音声（インターネットラジオ等）、携帯電話品質音声にそれぞれ変換し、まずこれらの明瞭性を日本語母語話者、米語母語話者で測定した後に、次に日本語母語話者を被験者とし、これら音声を用いて学習実験を行った結果、米語母語話者にとって明瞭性の高い音声形式（および音韻）を学習刺激として使用した群は訓練効果が認められたが、明瞭性の低い音声形式で学習を行った群では訓練効果が低い、または認められなかったことが報告されている（たとえば、非特許文献１、非特許文献２を参照）。

これらのことを合わせて検討すると、従来行われていた刺激の操作では、何らかの音響的操作を行っているものの、その結果として明瞭性の操作は行えていない可能性が高く、その結果、訓練効果に対しても有意な差が出ていない可能性が考えられる。
特開２００１−２６５２１１号公報明細書足立、山田、「圧縮音声の第二言語音声学習利用に関する妥当性の検討」，日本音響学会講演論文集，３−５−１９，ｐｐ．５０３−５０４（２００３．３）足立、山田、「第二言語の音韻知覚学習に及ぼす音声品質の影響――ＱＣＥＬＰ形式とＰＣＭ形式の比較」，２００４年春季研究発表会（ＡＳＪ）講演論文集，ｐｐ．４３７−４３８

さらに、音韻対立によって、音響的差異、聴取時の手掛かりが一般には共に異なる。そのため、たとえば、／ｒ／と／ｌ／（以下ＲＬと略す）、／ｂ／と／ｖ／（以下ＢＶと略す）、／ｓ／と／θ／（以下ＳＴＨと略す）は、日本語母語話者にとって知覚困難な音韻だが、雑音付加の影響がそれぞれ異なる可能性がある。このように、ある母語を有する話者にとって、知覚弁別に困難がある音韻対を「音韻対立のある音韻対」と呼ぶことにする。

このため、たとえば、雑音が同じ強度で音響的特徴をマスクした場合でも、音韻知覚を行う際に使用している音響的特徴が被験者の母語によって異なるため、学習者にとっての明瞭性が異なる可能性もある。したがって、このような音韻対立のある音韻対は、まさに、学習者が聞き取り学習の対象とするべきものであるものの、学習者の母語によって、また、対立する音韻の種類によって、音響的操作を動的に変更する必要性がある可能性があることになる。

しかしながら、従来は、外国語の学習において、学習者に対し、どのように音響的特徴が操作された学習用の刺激音を呈示するかについて、その方法が必ずしも明らかでない、という問題があった。

本発明は、上記のような問題を解決するためになされたものであって、その目的は、音響的特徴が操作された学習用の刺激音を効果的に学習者に呈示することが可能な言語学習装置を提供することである。

このような目的を達成するために、本発明の言語学習装置は、言語のモデル音声を記憶するとともに、学習者の到達度と当該モデル音声に含まれる音響的特徴部分の強調率とを対応付けて記憶するための記憶手段と、モデル音声について、指定された強調率で当該モデル音声の音響的特徴部分を選択的に強調した刺激音声を合成するための刺激音合成手段とを備え、刺激音合成手段は、記憶手段から入力されたモデル音声の各々において、音響的特徴部分が存在する時間軸上の位置を特定するための検出手段を含み、刺激音合成手段は、特定された位置に応じて、音響的特徴部分を選択的に強調し、刺激音声を課題として学習者に与えるための音声信号を当該刺激音声を再生する音声出力装置に対して出力し、当該学習者からの回答を受付けるためのインタフェース手段と、強調率を指定して課題として与えられた刺激音声に対する当該学習者の正答率を算出して、刺激音合成手段を制御し、学習者に対して刺激音声を与えた場合の正答率が、到達度に応じて予め定められるレベルアップ条件を満たすことに応じて、刺激音合成手段に対して指定する強調率を減少させるように更新する学習制御手段とをさらに備える。
好ましくは、記憶手段は、モデル音声と関連付けて、モデル音声の時間軸上のいずれの位置に当該モデル音声についての音響的特徴を有する音韻の成分が存在するかを示す位置情報を格納しており、検出手段は、位置情報に基づいて、音響的特徴部分が存在する時間軸上の位置を特定する。
好ましくは、刺激音合成手段は、モデル音声に対して周波数分析を行って、当該モデル音声中の音韻の音響的特徴をパラメータ化する周波数分析手段をさらに含み、検出手段は、周波数分析手段の分析結果に基づいて、音響的特徴部分が存在する時間軸上の位置を特定する。

好ましくは、学習制御手段は、学習者に対して刺激音声を与えた場合の正答率が、到達度に応じて予め定められるレベルダウン条件を満たすことに応じて、増幅率を増加させるように更新する。

好ましくは、音響的特徴部分は、対立音韻部分に対応し、記憶手段は、到達度を対立音韻ごとに分類して格納しており、学習制御手段は、刺激音合成手段に、指定された対立音韻ごとに、記憶手段に格納された到達度を参照して刺激音声を生成させ、インタフェース手段は、生成された刺激音声を学習者に対して呈示するための音声信号を出力する。

以下、図面を参照して本発明の実施の形態について説明する。

なお、以下では、本発明を説明するにあたり、日本語を母語とする学習者が、英語を学習する場合を例にとって説明する。ただし、本発明は、日本語以外を母語とする学習者が、母語以外の言語を学習する場合にも適用できるものであり、より一般に、外国語学習装置に適用可能なものである。

また、本発明は、母語の聴取が未熟な学習者が自身の母語について学習する場合に、さらに一般的な言語学習装置としても適用可能なものである。この場合は、以下の説明において、学習者にとっての外国語の母語話者には、学習者の母語の母語習熟者が相当するものとすればよい。

後に説明するように、英単語音声に対して複数の性質の異なる雑音を付加し、日本語母語話者と米語母語話者に対して呈示した場合、雑音の種類や強度が明瞭性に及ぼす影響（正答率という絶対値ではなく、その相対的な傾向）は両者で異なることが実験により明らかになった。このことは、雑音が同じ強度で音響的特徴をマスクした場合でも、音韻知覚を行う際に使用している音響的特徴が被験者の母語によって異なるため、明瞭性が異なることを示唆している。たとえば、破裂音に関しては、破裂音成分の選択的強調や音量の操作により、明瞭性を操作することが可能であることが実験の結果で示唆された。

本発明の外国語学習装置は、このような知見を用いて、初等学習者に対しては明瞭性の高い音声を呈示して訓練効果を高め、一定の能力が身に付いた後に音響的特徴を操作することにより明瞭性を低下させ、次第により困難な課題を学習させ、最終的に母語話者に近い能力を習得させるという方法を用いるものである。

（本発明のシステム構成）
図１は、本発明の外国語学習装置を用いたシステム１０００の一例を示す概念図である。

図１を参照して、システム１０００は、学習者２に対してある難易度のステップの学習課題を順次提示して、学習者からの課題に対する回答に基づいて、学習者に当該ステップに対する訓練を与えるか、または次のステップの学習課題をさらに学習者に提示していくという処理を実行するためのコンピュータ１００を備える。

このコンピュータ１００は、ＣＤ−ＲＯＭ（Compact Disc Read-Only Memory ）などの記録媒体上の情報を読込むためのディスクドライブ１０８およびフレキシブルディスク（Flexible Disk、以下ＦＤ）１１６に情報を読み書きするためのＦＤドライブ１０６を備えたコンピュータ本体１０２と、コンピュータ本体１０２に接続された表示装置としてのディスプレイ１０４と、同じくコンピュータ本体１０２に接続された入力装置としてのキーボード１１０およびマウス１１２と、音声入力装置としてのマイク１３２と、音声出力装置としてのスピーカ１３４とを含む。

なお、マイク１３２やスピーカ１３４は、ヘッドセットによりユーザ２が装着するヘッドフォンとマイクとすることもできる。

システム１０００は、さらに、学習者２に対して与える課題を呈示するためのサーバコンピュータ３００と、サーバコンピュータ３００とコンピュータ１００とを接続するためのネットワーク４００とを備える。ネットワークとしては、たとえば、インターネット等を用いることができる。すなわち、以下の説明では、コンピュータ１０２本体はクライアント機としての機能するものとして説明する。ただし、サーバ３００での問題呈示の機能をコンピュータ１００自体が保持していてもよい。

したがって、本発明において、主要な部分は、問題呈示機能を有する外国語学習問題呈示装置であるサーバコンピュータ３００である。

図２は、このサーバコンピュータ３００のハードウェア構成をブロック図形式で示す図である。

サーバコンピュータ３００は、コンピュータ本体３０２と、コンピュータ本体３０２に接続された表示装置としてのディスプレイ３０４と、同じくコンピュータ本体３０２に接続された入力装置としてのキーボード３１０およびマウス３１２とを含む。

図２に示されるように、コンピュータ本体３０２は、ディスクドライブ３０８およびＦＤドライブ３０６に加えて、それぞれバスＢＳに接続されたＣＰＵ（Central Processing Unit ）３２０と、ＲＯＭ（Read Only Memory)およびＲＡＭ（Random Access Memory）を含むメモリ３２２と、直接アクセスメモリ装置、たとえば、ハードディスク３２４と、ネットワーク４００と通信を行うためのインタフェース３２８とを含んでいる。ディスクドライブ１０８には、たとえば、ＣＤ−ＲＯＭ３１８が装着される。ＦＤドライブ３０６にはＦＤ３１６が装着される。

後に説明するように、本発明の外国語学習装置が動作するにあたっては、その動作の基礎となる情報を格納するデータベースは、ハードディスク３２４に格納されるものとして説明を行う。

なお、ＣＤ−ＲＯＭ１１８は、コンピュータ本体に対してインストールされるプログラム等の情報を記録可能な媒体であれば、他の媒体、たとえば、ＤＶＤ−ＲＯＭ（Digital Versatile Disc）やメモリカードなどでもよく、その場合は、コンピュータ本体３０２には、これらの媒体を読取ることが可能なドライブ装置が設けられる。

本発明の外国語学習装置の主要部は、コンピュータハードウェアと、ＣＰＵ３２０により実行されるソフトウェアとにより構成される。一般的にこうしたソフトウェアはＣＤ−ＲＯＭ３１８、ＦＤ３１６等の記憶媒体に格納されて流通し、ディスクドライブ３０８またはＦＤドライブ３０６等により記憶媒体から読取られてハードディスク３２４に一旦格納される。または、当該装置がネットワーク４００に接続されている場合には、ネットワーク上の他のサーバから一旦ハードディスク３２４にコピーされる。そうしてさらにハードディスク３２４からメモリ３２２中のＲＡＭに読出されてＣＰＵ３２０により実行される。なお、ネットワーク接続されている場合には、ハードディスク３２４に格納することなくＲＡＭに直接ロードして実行するようにしてもよい。

図１および図２に示したコンピュータのハードウェア自体およびその動作原理は一般的なものである。したがって、本発明の最も本質的な部分は、ＦＤ３１６、ＣＤ−ＲＯＭ３１８、ハードディスク３２４等の記憶媒体に記憶されたソフトウェアである。

図１に示したように、コンピュータ１００がネットワーク４００を介してサーバ３００に接続している場合において、動作の基礎となる情報を格納するデータベースが、サーバ３００内のハードディスク３２４等の記憶装置に格納されているときは、コンピュータ１００はクライアント機として動作し、以下に説明するような学習者に与える課題のデータをサーバ３００から受け取りこれを表示または出力し、回答のデータをサーバに返すという処理を行う。

図３は、本発明の外国語学習装置の構成を機能ブロックで示す図である。

図３に示すとおり、ＣＰＵ３２０内には、機能ブロックとして、音声処理プログラムに基づいて、周波数分析を実行する周波数分析部３２０２と、音声の明瞭化処理を行う明瞭化処理部３２０４と、外国語学習プログラムに基づいて、後に説明するような問題呈示フローを制御する学習制御部３２２０が含まれる。

なお、以下の説明では、音声の明瞭化処理において、「音韻の強調」は、当該音韻部分を選択的に増幅することにより行うものとして説明する。ただし、当該音韻以外の不要部分を選択的に減衰させることによっても当該音韻について「音韻の強調」を行うことができる。

また、ＣＰＵ１２０とバスＢＳにより接続されるハードディスク３２４内には、学習者２に提示するためのモデル音声であって無響室などで録音された英語を母国語とする話者によるオリジナル音声データを格納したオリジナル音声データベース３２４２と、予め用意された正答率と到達レベルとの対応関係を学習する音韻ごとに示す対応テーブルを格納する到達レベルデータベース３２４４と、予め用意された到達レベルと音響的特徴部分に対する増幅量の対応テーブルを格納する増幅度データベース３２４６と、対立音韻等の音響的な特徴部分の存在を検出する際に用いられる音韻音響モデルを記録した音韻音響モデルデータベース３２４８とが、記録されているものとする。音韻音響モデルとしては、特に限定されないが、たとえば、隠れマルコフモデルを用いることができる。

ここで、学習者２に提示する刺激音（学習用のモデル音声）は、オリジナル音声データベース３２４２内のデータに、後に説明するように明瞭化処理部３２０４で音響的特徴部分に対する選択的な増幅を行うことで生成される。

また、到達レベルデータベース３２４４に格納されるデータは、たとえば、正答率１０％区切りにすることが考えられる他、７０％までは１０％区切り、それ以上は５％区切りのように難易度に関する詳細な設定も可能とする。なお、到達レベルは学習音韻毎に予め設定されているものとする。このとき、到達レベルの区分は、学習対象となる音韻（音響的特徴部分、たとえば、対立音韻部分）ごとに、異なる区分わけとしていてもよい。

（音響的特徴の強調）
図４は、図３で説明した周波数分析部３２０２や、明瞭化処理部３２０４の動作をより詳しく説明するためのブロック図である。

図４を参照して、周波数分析部３２０２は、デジタル量子化されているオリジナル音声データを受け取って、ＦＦＴ（Fast Fourier Transform）もしくはウェーブレット（wavelet）変換などのアルゴリズムを用いて変換して周波数分析をし、音声信号中に含まれる
各周波数成分の強度を時系列で分割して解析し、当該音韻の音響的特徴をパラメータ化する。この部分は、このように学習時に逐次演算を行う方法以外にも、たとえば、予め演算済みのデータを格納しておくこととしてもよい。

続いて、対立音韻検出部３２０６は、以下のようにして、音響的特徴を検出して、特徴部分を選択的に増幅処理部３２０８に送る。すなわち、知覚に用いられる音響的特徴は音韻によって異なり、また、複数の特徴を併用していると言われている。本装置では複数存在する音響的特徴のうち、代表的な物を強調する。以下はその例である。

１）／ｒ／−／ｌ／対立の場合、第三フォルマントの遷移が弁別に用いられると考えられていることから、周波数分析を行った後にフォルマントトラッキングを行い、／ｒ／または／ｌ／音韻が発話されている領域の第三フォルマントとして検出された周波数帯の周波数成分については増幅処理部３２０８で増幅する。

２）／ｂ／−／ｖ／対立の場合、／ｂ／に存在するバズバーと呼ばれるパルス状の音響成分などが弁別に使用されていると考えられる。そこで、破裂音の存在する部分とその周辺の全周波数成分については増幅処理部３２０８で増幅する。

３）／ｓ／−／ｔｈ／は、摩擦音成分が表れる周波数帯域（上限、下限、幅など）によって弁別が行われると考えられる。そこで、摩擦音成分が存在する領域の全周波数成分については増幅処理部３２０８で増幅する。

まず、前提として、オリジナル音声データベース３２４２には、オリジナル音声のデジタルデータと関連付けて、各オリジナル音声データにおいて、時間軸上でどこに上述したような音響的特徴を有する音韻の成分が存在しているかというデータも格納しているものとする。

つまり、対立音韻検出部３２０６は、オリジナル音声データベース３２４２から、音韻成分の位置情報を受け取って、オリジナル音声データにおいていずれの音響的特徴成分も存在しない位置の場合、増幅処理部３２０８に対して増幅処理を行わなずそのまま出力することを指示する。これに対して、対立音韻検出部３２０６は、オリジナル音声データにおいていずれかの音響的特徴成分が存在する位置の場合、増幅処理部３２０８に対して、指定する範囲内（時間）の信号の増幅を行うように指示を出す。増幅処理部１２０８での増幅の強度は、算出された増幅量に応じた増幅率で行うが、オリジナル音声の音量は音声ファイル毎に異なるため、全ての単語音声の平均音圧と現在呈示しようとしている単語音声の音圧の差によって増幅量を重み付けし、計算によって求まった増幅率で増幅を行う。

出力された音声データについては、さらに、必要に応じて、音声品質を犠牲にしない範囲で所定の圧縮処理を行ってもよい。

コンピュータ１０２の側では、音声再生のためにデジタルアナログ変換装置を行ってスピーカ１３４から再生させる。

図５は、オリジナル音声データベースに格納される音声データを再生した場合の音声波形の一例を示す図である。

図５では、英語を母国語とした米国人が発話した「ＬＡＢ」という英単語音声を波形で示している。

図６（ａ）は、図５の波形を周波数分析した結果を示す図である。

すなわち、図５に示した波形を周波数分析すると，図６（ａ）のような声紋パターンが得られる。図６（ａ）の５００ｍｓ前後の縦に薄く出ている部分が「バズバー」と呼ばれる音響成分である。このようにパワーが弱い（図中ではパワーの強度を黒色の濃さで示している）と、”Ｂ”と知覚されず、”Ｖ”と知覚されてしまう可能性がある。

図６（ｂ）は、破裂音成分を検出し、破裂音成分の部分のみを増幅した音声の声紋パターンを示す図である。

なお、図６（ｂ）において、増幅の強度は先行する音声に合わせて適度に増幅し、また、前後の音声との繋がりを良くするため，エンベロープをかけて増幅している。すなわち、破裂音部分に近づくにつれて、次第に増幅率を大きくし、最大の増幅率の後は次第に増幅率を下げている。

図６（ｂ）において、”ＬＡ”の部分は増幅していないほか、エンベロープをかけて増幅することにより、全体として音量が大きくなり、耳障りなほど大きく聞こえたりすることはない。しかし，破裂音成分は大きく増幅されているため、聞き取る側では、”Ｂ”と知覚しやすくなり、単語として”ＬＡＢ”との判断が容易となる。

図７は、図３に示した学習制御部３２２０が行う処理を説明するためのフローチャートである。

図７を参照して、まず、学習制御部３２２０は、学習者に対し、たとえば、学習者２が指定した対立音韻について、オリジナル音声を用いてテストを行い、学習者の到達度（熟達度/能力）を確認する（ステップＳ１００）。

続いて、学習制御部３２２０は、到達レベルデータベース３２４４を参照して、テストの結果（正答率）から、学習者が学習を行う上で適切だと考えられる特徴強調増幅量を導出する（Ｓ１０２）。

学習制御部３２０２は、オリジナル音声データベース３２４２内の音声データ（自然発話音声）に対し、音響的特徴を上記増幅量だけ増幅した学習用刺激を動的に生成する（Ｓ１０４）。

このような訓練用音声刺激を用いて学習者２に訓練を行い、その際の平均正答率を求める（Ｓ１０６）。

学習制御部３２０２は、上記平均正答率がレベルアップ条件を満たしていれば（Ｓ１０８）、特徴強調増幅量を、たとえば所定のレベル分だけ減少させる（Ｓ１１０）。一方、学習制御部３２０２は、平均正答率がレベルダウン条件を満たしていれば（Ｓ１１２）、特徴強調増幅量を、たとえば所定のレベル分だけ増加させる（Ｓ１１４）。

学習制御部３２０２は、オリジナル音声の刺激で充分な成績を収めたと判断した時点で（Ｓ１１６）、学習を終了する。

ここで、「レベルアップ条件」とは、たとえば、学習者２の現在の到達度について、音韻ごとに定められた目標の正答率を続けて所定回超える等の条件であり、「レベルダウン条件」とは、たとえば、学習者２の現在の到達度について、音韻ごとに定められた規定の正答率を続けて所定回下回る等の条件である。所定回は、１回でもよいし、到達度に応じて、所定回が異なるように設定しておいてもよい。

ここで、ステップＳ１０２の特徴強調増幅量の導出方法について、さらに詳しく説明する。

上述のとおり、オリジナル音声、もしくは適度な増幅量で音響的特徴を強調した音声を用いて聴取テストを行った後、増幅度データベース３２４６中の予め用意された正答率と到達レベルの対応テーブルに上記テスト結果をマッピングし、学習者の到達レベルを特定する。なお、到達レベルは学習音韻毎に算出する。その上で、到達レベルデータベース３２４４中の予め用意された到達レベルと増幅量の対応テーブルに当てはめ、学習者に対して適切な増幅量を算出する。

以上のような学習課題の与え方によって、音響的特徴を強調された学習用の刺激音を効果的に学習効果を上げられるように学習者に呈示することが可能となる。

以下では、上述したような音韻対立のある単語等について、音響的特徴の強調が聞き取り結果に与える影響を示唆する実験条件および実験結果についてさらに詳しく説明する。

［実験結果］
音韻対立によって、音響的差異、聴取時の手掛かりが、母国語の異なる聞き手の間では一般に異なる。そのため、例えば／ｂ／と／ｖ／（以下ＢＶと略）、／ｓ／と／θ／（以下ＳＴＨと略）も日本語母語話者にとって知覚困難な音韻だが、雑音付加の影響がＲＬの場合と異なる可能性がある。

そこで、以下の実験では、日本語母語話者（以下ＪＡと略）、米語母語話者（以下ＡＥと略）を対象とし、ＲL、ＢＶ、ＳＴＨで対立する米単語音声に対して性質の異なる雑音を付加し、明瞭性を測定する実験を行った。また、米語母語話者を対象として行った予備実験の結果、音韻によって呈示音圧の影響を受けることが確認されたため、これも併せて検証を行った。

（１実験方法）
（１．１刺激）
ＲL対（ｒｉｇｈｔ−１ｉｇｈｔ等）、ＢＶ対（ｂａｓｅ−ｖａｓｅ等）、ＳＴＨ対（ｍｏｕｓｅ−ｍｏｕｔｈ等）の３種類の音韻で対立する音韻最小対の英単語対を使用して実験を行った。各対立毎に５０、３０、３０対（合計１１０対）の合計２２０語を米語母語話者２名（男性１名、女性１名）が発話したものを刺激音声とした。無響室で収録された音声は単語毎に４４．１ｋＨｚ、１６ｂｉｔの精度でＰＣＭ（Pulse Code Modulation）形式のファイルとして保存された。

雑音付加実鹸用の刺激として、各単語をヘッドホンを通じて出力したときの音圧レベル（Ａ特性）のピーク値の単語間の平均が、ＲＬ対立およびＳＴＨ対立では５９ｄＢ、ＢＶ対立では同６５ｄＢとなるように振幅を調整した。

ノイズジェネレータで生成したホワイトノイズおよびピンクノイズを、ヘッドホンを通じて出力したときの音圧レベル（Ａ特性）のピーク値を各条件のＳＮ仕になるように振幅を調整し、本実験に用いる音声に付加した。雑音は、音声よりも前後２００ｍｓずつ長い持続時間のものを重ね合わせた。

図８は、実験条件として用いたＳＮ比を示す図である。

また、明瞭性に対する呈示音圧の影響を測定するための刺激として、各単語をヘッドホンを通じて出力したときの音圧レベル（Ａ特性）ピークの平均が、各音韻対立で３９ｄＢから６９ｄＢとなるように５ｄＢステップで振幅を調整した。

（１．２実験参加者）
ＪＡ実験では、日本語を母語とし、３ケ月以上の外国滞在経験のない大学生１１人が実験に参加した。ＡＥ実験では、２３才から４３才までの米語母語話者３人が実験に参加した。全員が正常な聴力を持つことを確認した。

（１．３手続き）
実鹸は３日間に分けて防音室内で行った。コンピュータ画面上に音韻最小対をなす英単語２語を視覚呈示し、同時にどちらか一方の単語をヘッドホンより両耳呈示した。実験参加者は、きこえた単語が画面上の単語対のどちらであったかを判断し、選択した。

（雑音付加音声セッション）
付加した雑音の種類別に２日間に分けて行った。それぞれ話音別の２つのセクションから構成され、話者の順序は一定であった。各セクションは全ＳＮ仕の音声を含んだ音韻対立毎のブロックからなり、ＲＬ、ＢＶ、ＳＴＨ対立の順で提示した。各ブロック内で全音声刺激をランダムな順序で呈示し、回答の正誤に関するフイードバックは行わなかった。

（音圧変動セッション）
雑音付加音声セッション終了後に音圧変動セッションを実施した。刺激が異なる以外は、構成および方法は雑音付加音声セッションと同じものを用いた。

（２結果）
（ＪＡ実験）
図９は、ＪＡ実験における雑音付加音声セッションの結果を示す図である。

いずれの音韻対立においても、ＳＮ比が低下した際に、正答率が低下する傾向があることが示された。

雑音の種類およびＳＮ比を被験者内要因とし、正答率を逆正弦変換した値を従属変数とした２要因分散分析を各音韻対立毎に行った。なお、ＢＶ対立においては、ホワイトノイズ条件の−９ｄＢ条件を分析から除いた。その結果、何れの音韻対立においても、ＳＮ比要因の主効果が有意である（ＲＬ、ＢＶ、ＳＴＨ音韻対立でそれぞれ［Ｆ（６，６０）＝２４．９５０，ｐ＜０．０１］、［Ｆ（７，７０）＝１８．６４１，Ｐ＜０．０１］，［Ｆ（６，６０）＝３２．１５２，Ｐ＜０．０１］）が、雑音の種類の要因の主効果、交互作用共に有意ではなかった。

次に、図１０は、ＪＡ実験における音圧変動セッションの結果を示す図である。

音韻対立および呈示音圧を被験者内要因とし、正答率を逆正弦変換した値を従属変数とした２要因分散分析を行った。その結果、呈示音圧要因の主効果が有意であった［Ｆ（６，６０）＝１０．５０３，Ｐ＜０．０１］。音韻対立要因の主効果、交互作用共に有意でなかったものの、３９ｄＢ条件と６３ｄＢ条件の２点の正答率を比較した場合、ＢＶ対立で他音韻対立よりも大きな正答率の変化が見られた。

（ＡＥ実験）
図１１は、ＡＥ実験における各音韻対立における雑音付加音声セッションの結果を示す図である。いずれの音韻対立においても、ＳＮ比の低下に伴って正答率が低下する傾向があることが示された。

次に、図１２は、ＡＥ実験における音圧変動セッションの結果を示す図である。ＲＬおよびＳＴＨ対立では、実験に使用した呈示音圧範囲における変化は殆んど見られないが、ＢＶ対立では、正答率が呈示音圧の影響を受けやすいことが示された。

以上の解析結果をまとめると、日本語母語話者、米語母語話者共に全ての音韻対立においてＳＮ比の低下に伴って正答率が低下した。さらに、母語、音韻対、呈示音圧に対する雑音付加の影響の関係について、以下のような関係が明らかになった。

（母語と非母語）
米語母語話者では、ＢＶ以外の音韻対において、雑音付加の影響を受けにくいＳＮ比のレンジが存在するのに対し、日本語母語話者では、僅かな雑音付加で正答率が低下する傾向が示された。

また、雑音の種類の影響が、実験参加者の母語により異なる場合があった（例：ＲＬ対立のＡＥ−１５ｄＢ条件とＪＡ−９ｄＢ条件間の比較）。これは、母語により知覚に使用する音響的特徴が異なっていたことを示唆する。

（音韻対）
音韻対により雑音の影響が異なった。ＲＬ対立は本実鹸で使用した雑音に対する耐性が比較的高かったが、ＢＶ対立は僅かな雑音付加によっても大きく影響を受け、ＳＴＨ対立ではほぼ一定の割合で正答率が低下した。これは、音韻対によって弁別に使用される音響的特徴が異なり、同じ雑音を付加した場合においても、異なる影響を及ぼしていることを示している。

（呈示音圧）
日本語母語話者、米語母語話者いずれの場合でも、ＢＶ対立では呈示音圧が低い場合に正答率が大きく低下した。ＢＶ音の知覚は呈示音圧の影響を大きく受けることを示している。

（明瞭化処理部３２０４の構成の変形例）
明瞭化処理部３２０４の構成については、図４において説明したが、以下に説明するような他の構成を有していてもよい。

図１３は、このような明瞭化処理部３２０４の構成の変形例を示す図である。

すなわち、図４では、特徴音韻成分の位置情報をオリジナル音声データベース３２４２から受け取る構成としていたが、以下に説明するようにオリジナル音声データについて特徴音韻成分を随時検出しつつ、選択的に増幅することとしてもよい。

つまり、図１３に示す対立音韻検出部３２０６は、いずれの音響的特徴成分が検出されなかった場合、そのまま何も処理を行わず、後段の処理を行う信号選択部１２１０にデータを送る。これに対して、対立音韻検出部３２０６は、音響的特徴成分が検出された場合、信号を増幅処理部３２０８に送り、増幅処理部３２０８は、検出された範囲内（時間）の信号の増幅を行って、後段の処理を行う信号選択部３２１０にデータを送る。図１３の例でも、増幅処理部１２０８での増幅の強度は、算出された増幅量に応じた増幅率で行うが、オリジナル音声の音量は音声ファイル毎に異なるため、全ての単語音声の平均音圧と現在呈示しようとしている単語音声の音圧の差によって増幅量を重み付けし、計算によって求まった増幅率で増幅を行うものとしてもよい。

信号選択部３２１０では、対立音韻検出部３２０６から送出される増幅を行っていないデータおよび増幅処理部１２０８からの増幅されたデータを選択的に合成して、特徴が強調された音声データとして出力する。出力された音声データについては、さらに、図１３の例でも、必要に応じて、音製品質を犠牲にしない範囲で所定の圧縮処理を行ってもよい。

このような構成でも図４に示したのと同様の処理を行うことができる。

以上説明したように、本発明の言語学習装置または外国語学習装置では、音声の明瞭性を評価基準とした音響的操作を加えることにより、初等学習者には知覚容易な課題を呈示し、充分に習熟した学習者に対しては知覚困難な課題を動的に生成、または予め作成して呈示するので、効果的な学習課題の呈示が可能となる。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本発明の外国語学習装置を用いたシステム１０００の一例を示す概念図である。サーバコンピュータ３００のハードウェア構成をブロック図形式で示す図である。本発明の外国語学習装置の構成を機能ブロックで示す図である。図３で説明した周波数分析部３２０２や、明瞭化処理部３２０４の動作をより詳しく説明するためのブロック図である。オリジナル音声データベースに格納される音声データを再生した場合の音声波形の一例を示す図である。波形を周波数分析した結果および選択的な増幅をした結果を示す図である。図３に示した学習制御部３２０２が行う処理を説明するためのフローチャートである。実験条件として用いたＳＮ比を示す図である。ＪＡ実験における雑音付加音声セッションの結果を示す図である。ＪＡ実験における音圧変動セッションの結果を示す図である。ＡＥ実験における各音韻対立における雑音付加音声セッションの結果を示す図である。ＡＥ実験における音圧変動セッションの結果を示す図である。明瞭化処理部３２０４の構成の変形例を示す図である。

符号の説明

１００コンピュータ、１０２コンピュータ本体、１０４ディスプレイ、１０６ＦＤドライブ、１０８ディスクドライブ、１１０キーボード、１１２マウス、１１８ＣＤ−ＲＯＭ、１３２マイク、１３４スピーカ、３００サーバコンピュータ、３０２コンピュータ本体、３０４ディスプレイ、３０６ＦＤドライブ、３０８ディスクドライブ、３１０キーボード、３１２マウス、３１８ＣＤ−ＲＯＭ、３２０ＣＰＵ、３２２メモリ、３２４ハードディスク、３２８インタフェース、１０００システム、３２０２周波数分析部、３２０４明瞭化処理部、３２２０学習制御部、３２４２オリジナル音声データベース、３２４４到達レベルデータベース、３２４６増幅度データベース、３２４８音韻音響モデルデータベース。

Claims

言語学習装置であって、
モデル音声を記憶するとともに、学習者の到達度と当該モデル音声に含まれる音響的特徴部分の強調率とを対応付けて記憶するための記憶手段と、
前記モデル音声について、指定された強調率で当該モデル音声の前記音響的特徴部分を選択的に強調した刺激音声を合成するための刺激音合成手段とを備え、
前記刺激音合成手段は、前記記憶手段から入力された前記モデル音声の各々において、前記音響的特徴部分が存在する時間軸上の位置を特定するための検出手段を含み、前記刺激音合成手段は、特定された前記位置に応じて、前記音響的特徴部分を選択的に強調し、
前記刺激音声を課題として前記学習者に与えるための音声信号を当該刺激音声を再生する音声出力装置に対して出力し、当該学習者からの回答を受付けるためのインタフェース手段と、
前記強調率を指定して前記課題として与えられた前記刺激音声に対する当該学習者の正答率を算出して、前記刺激音合成手段を制御し、前記学習者に対して前記刺激音声を与えた場合の正答率が、前記到達度に応じて予め定められるレベルアップ条件を満たすことに応じて、前記刺激音合成手段に対して指定する前記強調率を減少させるように更新する学習制御手段とをさらに備える、言語学習装置。
前記記憶手段は、前記モデル音声と関連付けて、前記モデル音声の時間軸上のいずれの位置に当該モデル音声についての前記音響的特徴を有する音韻の成分が存在するかを示す位置情報を格納しており、
前記検出手段は、前記位置情報に基づいて、前記音響的特徴部分が存在する時間軸上の位置を特定する、請求項１記載の言語学習装置。
前記刺激音合成手段は、前記モデル音声に対して周波数分析を行って、当該モデル音声中の音韻の音響的特徴をパラメータ化する周波数分析手段をさらに含み、
前記検出手段は、前記周波数分析手段の分析結果に基づいて、前記音響的特徴部分が存在する時間軸上の位置を特定する、請求項１記載の言語学習装置。
前記学習制御手段は、前記学習者に対して前記刺激音声を与えた場合の前記正答率が、前記到達度に応じて予め定められるレベルダウン条件を満たすことに応じて、前記強調率を増加させるように更新する、請求項２または３に記載の言語学習装置。
前記音響的特徴部分は、対立音韻部分に対応し、
前記記憶手段は、前記到達度を前記対立音韻ごとに分類して格納しており、
前記学習制御手段は、前記刺激音合成手段に、指定された前記対立音韻ごとに、前記記憶手段に格納された前記到達度を参照して前記刺激音声を生成させ、
前記インタフェース手段は、生成された前記刺激音声を前記学習者に対して呈示するための前記音声信号を出力する、請求項２または３に記載の言語学習装置。