JP5050698B2

JP5050698B2 - 音声処理装置およびプログラム

Info

Publication number: JP5050698B2
Application number: JP2007184874A
Authority: JP
Inventors: 靖雄吉岡
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2007-07-13
Filing date: 2007-07-13
Publication date: 2012-10-17
Anticipated expiration: 2027-07-13
Also published as: JP2009020460A

Description

本発明は、音声信号を時間軸上で複数の区間に区分する技術に関する。

音声信号を時間軸に沿って複数の区間に区分する各種の技術が従来から提案されている。例えば特許文献１や特許文献２には、音声信号のＳＮ比と所定の閾値との比較の結果に応じて音声信号を発音区間と非発音区間とに区分する技術が開示されている。
特開昭５９−９９４９７号公報国際公開第２００７／０１７９９３号パンフレット

しかし、特許文献１や特許文献２のようにＳＮ比に応じて発音区間と非発音区間とに選別する技術においては、音声信号の収録時における雑音（空調設備の作動音やドアの開閉音）の存在する区間が発音区間に選別される場合がある。そして、例えば人間による発声音など本来の目的となる音声以外の音声が発音区間に混在すると、発音区間を対象とした音声信号の処理（例えば各区間の分類）の精度が低下するという問題がある。以上の事情を背景として、本発明は、音声信号のうち目的音が存在する区間と目的音が存在しない区間とを区別するという課題の解決を目的としている。

前述の課題を解決するために、本発明に係る音声処理装置は、人間の発声音の特徴量の分布を示す音響モデルを記憶する記憶手段と、音声信号を時間軸上で発音区間と非発音区間とに区分し、音声信号の波形の包絡線における谷部を境界として各発音区間を時間軸上で区分する音声区分手段と、音響モデルと各発音区間内の音声信号の特徴量との相関の有無を発音区間ごとに判定する相関判定手段と、複数の発音区間のうち音響モデルに相関すると判定された発音区間を有効区間に選定し、音響モデルに相関しないと判定された発音区間を棄却区間に選定する区間選別手段とを具備する。以上の構成によれば、目的音の音響モデルと各区間内の音声信号の特徴量との相関の有無に応じて各区間を有効区間と棄却区間とに選別することが可能である。したがって、例えば有効区間のみを選択的に利用することで、各区間の音声信号に対する音声処理（例えば発声者ごとの分類や音声認識）の精度を高めることができる。

本発明の好適な態様の音声処理装置は、各発音区間の直前の非発音区間内の音声信号の特性に応じて第１閾値を可変に設定する第１閾値設定手段を具備し、相関判定手段は、音響モデルと各発音区間内の音声信号の特徴量との相関の指標値を、第１閾値設定手段が当該発音区間について設定した第１閾値と比較することで、音響モデルと各発音区間内の音声信号の特徴量との相関の有無を発音区間ごとに判定する。以上の構成によれば、非発音区間内の音声信号の特性に応じて第１閾値が可変に設定されるから、第１閾値が固定された構成と比較して、相関判定手段による判定の正確性を高めることができる。
他の態様の音声処理装置は、各発音区間の直前の非発音区間内の音声信号の特性に応じて第２閾値を可変に設定する第２閾値設定手段と、各発音区間におけるフレームの総数に対する当該発音区間内の有声音のフレームの個数の割合が、第２閾値設定手段が当該発音区間について設定した第２閾値を上回るか否かを発音区間ごとに判定する有声判定手段とを具備し、区間選別手段は、音響モデルに相関すると相関判定手段が判定し、かつ、有声音のフレームの個数の割合が第２閾値を上回ると有声判定手段が判定した発音区間を有効区間に選定し、音響モデルに相関しないと相関判定手段が判定し、または、有声音のフレームの個数の割合が第２閾値を上回らないと有声判定手段が判定した発音区間を棄却区間に選定する。以上の構成によれば、有声音のフレームの個数の割合が第２閾値を上回る区間が有効区間に選定されるから、目的音に類似する雑音の区間を棄却区間に選別することが可能である。

さらに好適な態様において、相関判定手段は、複数の区間の各々における有声音のフレームの特徴量のみを音響モデルと対比する。例えば人間による発声音などの目的音と雑音との相違は有声音の特性に関して特に顕著となるから、有声音のフレームの特徴量のみが音響モデルと対比される本態様によれば、相関判定手段による判定の正確性が向上するという利点がある。

本発明の具体的な態様に係る音声処理装置は、複数の区間のうち区間選別手段が有効区間に選定した複数の区間を、当該区間内の音声信号の特徴量に基づいて発声者ごとに分類する音声分類手段を具備する。本態様によれば、有効区間は目的音を含む可能性が高いから、有効区間の音声信号からは目的音の特性を忠実に反映した特徴量が抽出される。したがって、有効区間のみを分類の対象とする本態様によれば、各区間を音声信号の特性に応じて高い精度で分類できる。

本発明に係る音声処理装置は、音声の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、人間の発声音の特徴量の分布を示す音響モデルを記憶する記憶手段を具備するコンピュータに、音声信号を時間軸上で発音区間と非発音区間とに区分し、音声信号の波形の包絡線における谷部を境界として各発音区間を時間軸上で区分する音声区分処理と、音響モデルと各発音区間内の音声信号の特徴量との相関の有無を発音区間ごとに判定する相関判定処理（例えば図３のステップＳ5）と、複数の発音区間のうち音響モデルに相関すると判定された発音区間を有効区間に選定し、音響モデルに相関しないと判定された発音区間を棄却区間に選定する区間選別処理（例えば図３のステップＳ6やステップＳ10）とをコンピュータに実行させる。以上のプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

また、本発明の別の態様に係る音声処理装置は、音声信号を時間軸上で複数の区間に区分する音声区分手段と、前記複数の区間の各々におけるフレームの総数に対する当該区間内の有声音のフレームの個数の割合が閾値を上回るか否かを前記区間ごとに判定する有声判定手段と、前記有声音のフレームの個数の割合が閾値を上回る区間を有効区間に選定し、前記有声音のフレームの個数の割合が閾値を下回る区間を棄却区間に選定する区間選別手段とを具備する。以上の態様によれば、各区間内の有声音のフレームの割合に応じて各区間が有効区間と棄却区間とに選別される。したがって、例えば有効区間のみを選択的に利用することで、各区間の音声信号に対する音声処理（例えば発声者ごとの分類や音声認識）の精度を高めることができる。

＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る音声処理装置の構成を示すブロック図である。同図に示すように、音声処理装置１００は、制御装置１０と記憶装置２０とを具備するコンピュータシステムである。制御装置１０は、プログラムを実行する演算処理装置である。記憶装置２０は、制御装置１０が実行するプログラムや制御装置１０が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置２０として任意に採用される。制御装置１０には出力装置３０が接続される。本形態の出力装置３０は、制御装置１０による制御のもとに各種の画像を表示する表示機器である。

記憶装置２０は、音声の時間軸上における波形を表す音声信号Ｓを記憶する。本形態の音声信号Ｓが表す音声は、複数の参加者が随時に発言する会議において収音機器を利用して収録された音声である。図２の部分(A)には、音声信号Ｓの時間軸上の波形が例示されている。制御装置１０は、記憶装置２０に格納されたプログラムを実行することで音声信号Ｓから会議の議事録を生成する。議事録は、複数の参加者の各々の発言の内容（文字）を時系列に配列した会議の記録である。

さらに、記憶装置２０は、音声処理装置１００による処理の目的となる音声（以下「目的音」という）の音響的な特性を表す音響モデルを記憶する。本形態では人間による発声音が目的音とされる。すなわち、発声音から音響的な特徴量（例えばＭＦＣＣ（Mel Frequency Cepstral Coefficient））を抽出する処理を多数の発声者と多様な内容の発話とについて実行し、抽出された多数の特徴量を統計的に処理することで、人間による発声音の概括的（平均的）な特性を示す音響モデルが生成される。制御装置１０が音響モデルを生成してもよいし外部装置の生成した音響モデルを記憶装置２０に格納してもよい。

本形態の音響モデルは、例えば、試料となる多数かつ多様な発声音から抽出された特徴量（ＭＦＣＣのベクトル）の分布をＭ個の確率分布の加重和としてモデル化する混合モデルλである（Ｍは２以上の自然数）。混合モデルλの生成には、ＥＭ（Expectation-Maximization）アルゴリズムなど公知の技術が任意に採用される。本形態の混合モデルλは、Ｍ個の正規分布の加重和として以下の式(1)で表現されるガウス混合モデルである。
λ＝｛ｐi，μi，Σi｝（ｉ＝１〜Ｍ） ……(1)
式(1)のｐiは、第ｉ番目の正規分布の加重値（重み値）である。加重値ｐ1〜ｐMの総和は１である。式(1)のμiは第ｉ番目の正規分布の平均ベクトルであり、Σiは第ｉ番目の正規分布の共分散行列である。なお、式(1)のμiのように、実際にはベクトルを意味する記号であっても、当該記号がベクトルを意味することを例えば「平均ベクトル」という表現で明示したうえで、本明細書ではベクトルの記号（文字上の右向き矢印）を省略する。

制御装置１０は、図１に示すように、音声区分部１２と選別処理部１３と音声分類部１４と音声認識部１６として機能する。なお、図１の制御装置１０の各機能は、音声の処理に専用されるＤＳＰなどの電子回路によっても実現される。また、制御装置１０は、複数の集積回路として実装されてもよい。

音声区分部１２は、図２の部分(D)に示すように、記憶装置２０に記憶された音声信号Ｓを、時間軸に沿って複数の発音区間ＰAと複数の非発音区間ＰBとに区分する。発音区間ＰAは、音声（目的音や雑音）が存在する区間であり、非発音区間ＰBは、音声が存在しない区間または音量が充分に小さい区間である。

音声区分部１２は、第１処理と第２処理とを実行する。第１処理は、図２の部分(B)に示すように、音声信号ＳのうちＳＮ比や音量（振幅）が閾値を上回る区間を発音区間ＰAとして検出する処理である。発音区間ＰA以外の区間は非発音区間ＰBとなる。

複数の発声者による発声が間隔をあけずに連続する場合や部分的に重複する場合、第１処理だけでは音声信号Ｓを発声者ごとに区分することが困難である。そこで、音声区分部１２は、図２の部分(C)および部分(D)に示すように、音声信号Ｓの波形の包絡線（エンベロープ）Ｅに現れる複数の谷部Ｄの各々を境界として発音区間ＰAを区分する第２処理を実行する。人間による一連の発話には、一般的に、発話の開始点から音量が徐々に増加するとともに中途の時点から発話の終了点にかけて音量が徐々に減少するという傾向がある。したがって、谷部Ｄを境界として発音区間ＰAを区分する構成によれば、複数の発話が連続または重複する場合であっても、各発声者による発声は別個の発音区間ＰAに区分される。音声区分部１２による区分後の発音区間ＰAの総数を以下ではＪ個（Ｊは２以上の整数）とする。なお、発音区間ＰAや非発音区間ＰBの検出には、以上の例示の他にも公知の技術が任意に採用される。

ところで、以上のようにＳＮ比や音量が閾値を上回る区間を発音区間ＰAとして検出した場合、音声信号Ｓのうち目的音以外の音声（例えば電話機の呼出音）が存在する区間が発音区間ＰAとして検出される可能性はある。そこで、選別処理部１３は、図２の部分(E)に示すように、音声区分部１２が画定した複数の発音区間ＰAを、目的音の存在する可能性が高い区間（以下「有効区間」という）ＰA1と目的音の存在する可能性が低い区間（以下「棄却区間」という）ＰA2とに選別する。すなわち、複数の発音区間ＰAのうち目的音の存在しない区間は棄却区間ＰA2として除去される。なお、選別処理部１３の具体的な動作は後述する。

図１の音声分類部１４は、複数の発音区間ＰAのうち選別処理部１３が選別した各有効区間ＰA1の音声信号Ｓを発声者ごとに分類する。音声区分部１２が画定した非発音区間ＰBや選別処理部１３が選別した棄却区間ＰA2は分類の対象から除外される。各有効区間ＰA1の分類には公知のクラスタリング技術が任意に採用される。

例えば、音声分類部１４は、各有効区間ＰA1内の音声信号Ｓに対してＦＦＴ（Fast Fourier Transform）処理を含む周波数分析を実行することで当該有効区間ＰA1内の音声信号Ｓの音響的な特徴量（例えばＭＦＣＣ）を抽出し、特徴量の類似する各有効区間ＰA1が共通のクラスタに所属するように複数の有効区間ＰA1を各クラスタに分類する。したがって、音声信号Ｓのうち同じ発声者が発声した可能性が高い有効区間ＰA1は共通のクラスタに分類される。そして、音声分類部１４は、複数の発声者の各々の識別符号と、当該発声者のクラスタに分類された各有効区間ＰA1の始点および終点の時刻と、当該各有効区間ＰA1内の音声信号Ｓとを対応させて記憶装置２０に格納する。なお、会議の参加者の人数を利用者が既知数として指定する構成においては、複数の有効区間ＰA1を、当該人数に相当する個数のクラスタに分類する構成が好適に採用される。

音声認識部１６は、各クラスタに分類された各有効区間ＰA1の音声信号Ｓから発声者ごとの発言の内容を文字として特定する。各有効区間ＰA1の音声信号Ｓから文字を認識する処理には公知の音声認識技術が任意に採用される。例えば、音声認識部１６は、第１に、ひとつのクラスタに分類された各有効区間ＰA1の音声信号Ｓの音響的な特徴量に応じて初期的な音響モデルを更新（話者適応）することで、当該クラスタに対応した発声者の音声の特徴を固有に反映した音響モデルを生成し、第２に、話者適応後の音響モデルとクラスタ内の各有効区間ＰA1の音声信号Ｓから抽出された特徴量とを対比することで発言の文字を識別する。

制御装置１０は、音声認識部１６による処理の結果を出力装置３０に出力する。出力装置３０は、発言の時刻と、発声者の識別符号（例えば発声者の氏名）と、当該発声の内容について音声認識部１６が特定した文字とを時系列に配列した議事録の画像を表示する。

次に、図３を参照して、選別処理部１３による処理の具体例を説明する。図３の処理は、音声区分部１２による処理が完了することを契機として開始される。同図に示すように、選別処理部１３は、Ｊ個の発音区間ＰAの各々について音声信号Ｓの特徴量を抽出する（ステップＳ1）。さらに詳述すると、選別処理部１３は、各発音区間ＰAを区分した複数のフレームＦ（図２の部分(A)参照）の各々について周波数分析を実行することで、当該発音区間ＰA内の各フレームＦにおけるＭＦＣＣのベクトル（以下「特徴ベクトル」という）の時系列を特徴量として抽出する。もっとも、ステップＳ1にて抽出される特徴量はＭＦＣＣに限定されない。

次いで、選別処理部１３は、Ｊ個の発音区間ＰAのなかから未選択で最先（最も古い）の発音区間ＰAを選択する（ステップＳ2）。次いで、選別処理部１３は、ステップＳ2にて選択した発音区間ＰA（以下では特に「選択区間ＰA_S」という）の開始前にある直近の非発音区間ＰBの音声信号Ｓに応じて閾値ＴＨ1を設定する（ステップＳ3）。非発音区間ＰBは基本的に雑音（環境音）のみが存在する区間であるから、ステップＳ3の処理は、音声信号Ｓの収録時の雑音に応じて閾値ＴＨ1を設定する処理に相当する。具体的には、選別処理部１３は、選択区間ＰA_Sの直前にある非発音区間ＰB内の音声信号Ｓの平均的な強度（以下「雑音レベル」という）を算定し、雑音レベルが高いほど閾値ＴＨ1が小さくなるように閾値ＴＨ1を可変に制御する。

次に、選別処理部１３は、記憶装置２０に記憶された混合モデルλと選択区間ＰA_S内の音声信号Ｓの特徴ベクトルｘとの相関の程度を示す相関指標値を算定する（ステップＳ4）。さらに詳述すると、選別処理部１３は、混合モデルλから選択区間ＰA_Sの各特徴ベクトルｘが出現する確率（尤度）を選択区間ＰA_S内の総ての特徴ベクトルｘについて平均化した数値（以下「平均尤度」という）Ｌを相関指標値として算定する。

ひとつの特徴ベクトルｘをＤ次元のベクトルとすると、混合モデルλから特徴ベクトルｘが出現する尤度ｐ（ｘ｜λ）は以下の式(2)で算定される。

選別処理部１３は、ステップＳ4において、選択区間ＰA_S内のＫ個の特徴ベクトルｘ（ｘ1〜ｘK）を式(3)に代入することで平均尤度Ｌを算定する。式(3)から理解されるように、音響モデルが表す音声の特徴と選択区間ＰA_S内の音声信号Ｓの特徴とが類似するほど平均尤度Ｌは大きくなる。

次いで、選別処理部１３は、選択区間ＰA_Sの平均尤度Ｌが閾値ＴＨ1を下回るか否かを判定する（ステップＳ5）。混合モデルλには人間の多様な発声音が包括的に反映されるから、平均尤度Ｌが閾値ＴＨ1を下回る選択区間ＰA_Sの音声は人間の発声音である可能性が低い。そこで、選別処理部１３は、ステップＳ5の結果が肯定である場合（Ｌ＜ＴＨ1）、現段階における選択区間ＰA_Sを棄却区間ＰA2に選別する（ステップＳ6）。以上のように、ステップＳ5の処理は、選択区間ＰA_S内の音声が人間の発声音である可能性があるか否かを音声信号Ｓと混合モデルλとの相関の有無に応じて判定する処理である。

ステップＳ1にて抽出される特徴ベクトルｘは音声信号Ｓ内の雑音の影響を受けるから、閾値ＴＨ1が固定値であるとすれば、音声信号Ｓの雑音レベルが高いほど、実際には目的音を含む発音区間ＰAであるにも拘わらずステップＳ5の結果が肯定となる可能性は高まる。本形態においては音声信号Ｓの雑音レベルが高いほど閾値ＴＨ1が小さい数値に設定される（すなわちステップＳ5の結果が肯定となる割合が低くなる）から、目的音を含む選択区間ＰA_Sが棄却区間ＰA2と誤判定される可能性を低減できる。

ところで、実際には目的音が選択区間ＰA_Sに含まれない場合であっても、人間の発声音に類似する雑音が選択区間ＰA_Sに含まれる場合には、ステップＳ5の結果は否定となる（すなわち棄却区間ＰA2とは判定されない）。そこで、ステップＳ5の結果が否定である場合、選別処理部１３は、混合モデルλを使用しない方法で選択区間ＰA_Sを有効区間ＰA1または棄却区間ＰA2に選別する（ステップＳ7からステップＳ9）。

人間が自然に発声した場合（例えば意図的に無声音のみを継続的に発声しない限り）、発声が継続する区間のうち所定の割合を上回る時間長にわたって有声音が存在するという傾向がある。そこで、本形態においては、選択区間ＰA_Sのうち有声音の区間の割合に応じて選択区間ＰA_Sを有効区間ＰA1（有声音が豊富な発音区間ＰA）および棄却区間ＰA2（無声音が豊富な発音区間ＰA）とに選別する。

ステップＳ7において、選別処理部１３は、選択区間ＰA_S内の複数のフレームＦの各々について、音声信号Ｓの示す音声が有声音であるか無声音であるかを判定する。有声/無声の判断には公知の技術が任意に採用される。例えば、選別処理部１３は、音声信号Ｓの周期性の指標となる自己相関関数の最大値（以下「自己相関値」という）値を各フレームＦについて算定し、自己相関値が所定値を上回るフレームＦ（すなわち音声信号Ｓの周期性が高いフレームＦ）を有声音と判定するとともに自己相関値が所定値を下回るフレームＦを無声音と判定する。また、音声信号Ｓから明確なピッチ（基本周波数）が検出されるフレームＦのみを有声音と判定する構成も好適に採用される。

次いで、選別処理部１３は、選択区間ＰA_S内のフレームＦの総数のうちステップＳ7にて有声音と判定されたフレームＦの個数の割合Ｒを算定し（ステップＳ8）、割合Ｒが所定の閾値ＴＨ2を上回るか否かを判定する（ステップＳ9）。ステップＳ9の判定が否定である場合（すなわち選択区間ＰA_Sにおいて無声音のフレームＦの割合が高い場合）、選別処理部１３は、現段階における選択区間ＰA_Sを棄却区間ＰA2に選別する（ステップＳ6）。一方、ステップＳ9の判定が肯定である場合（すなわち選択区間ＰA_Sにおいて有声音のフレームＦの割合が高い場合）、選別処理部１３は、選択区間ＰA_Sを有効区間ＰA1に選別する（ステップＳ10）。

ステップＳ6またはステップＳ10を実行すると、選別処理部１３は、音声信号Ｓの総ての発音区間ＰAを選別したか否かを判定する（ステップＳ11）。ステップＳ11の結果が否定である場合、選別処理部１３は、現段階の選択区間ＰA_Sの直後の発音区間ＰAをステップＳ2にて新たな選択区間ＰA_Sとして選択したうえでステップＳ3以後の処理を実行する。総ての発音区間ＰAの選別が完了すると（ステップＳ11：YES）、選別処理部１３は図３の処理を終了する。

以上に説明したように、本形態においては、目的音の有無に応じて発音区間ＰAが有効区間ＰA1および棄却区間ＰA2に区別されるから、目的音を含まない棄却区間ＰA2を音声分類部１４や音声認識部１６による処理の対象から除外することで雑音の影響を有効に低減することができる。例えば、雑音の影響を低減することで各発声者の発声音の特性を忠実に反映した特徴量の抽出が可能となるから、音声分類部１４による各発音区間ＰA（有効区間ＰA1）の分類や音声認識部１６による話者適応および音声認識など特徴量を利用した音声処理の精度が高められる。したがって、音声信号Ｓから正確な議事録を作成することができる。

ところで、以上の形態においては、音声信号Ｓが人間の発声音の音響モデル（混合モデルλ）に相関するか否かに応じて発音区間ＰAを有効区間ＰA1および棄却区間ＰA2に選別する構成を例示した。これに対し、例えば、音声信号Ｓの収録時に発生し得る雑音の音響モデル（以下「雑音モデル」という）を使用する構成（以下「対比例」という）も想定される。対比例においては、音声信号Ｓと雑音モデルとの相関が高い場合に発音区間ＰAが棄却区間ＰA2に選別され、音声信号Ｓと雑音モデルとの相関が低い場合に発音区間ＰAが有効区間ＰA1に選別される。

しかし、雑音の特性は人間の発声音の特性と比較して極めて多様である。したがって、特定の雑音を想定して雑音モデルを作成したとしても、雑音モデルが網羅し切れない雑音が音声信号Ｓに含まれる可能性は高い。すなわち、対比例の構成においては、目的音を含まない発音区間ＰAを充分に除去できないという問題がある。これに対して本形態においては、人間の発声音の音響モデルが使用されるから、音声信号Ｓに多様な雑音が含まれる場合であっても、目的音を含まない発音区間ＰAを有効に除去できるという利点がある。

＜Ｂ：第２実施形態＞
次に、本発明の第２実施形態について説明する。本形態においては、第１実施形態における平均尤度Ｌに代えて、ＶＱ（Vector Quantization）歪を音響モデルと音声信号Ｓとの相関指標値として採用する。なお、以下の各形態において機能や作用が第１実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。

記憶装置２０に事前に格納される音響モデルは、試料となる多数かつ多様な発声音から抽出された多数の特徴量（ＭＦＣＣ）のベクトルから生成されたコードブック（符号帳）Ｃ^Aである。コードブックの生成には、k-means法やＬＢＧアルゴリズムなど公知の技術が任意に採用される。

図３のステップＳ4において、選別処理部１３は、記憶装置２０に格納されたコードブックＣ^Aと、選択区間ＰA_Sの音声信号ＳからステップＳ1で抽出した複数の特徴ベクトルｘ（例えばＭＦＣＣ）とに基づいてＶＱ歪Ｄを算定する。ＶＱ歪Ｄは、例えば以下の式(4)で算定される。

式(4)の|Ｃ^A|は、コードブックＣ^Aのサイズであり、Ｃ^A(i)は、コードブックＣ^Aにおける第ｉ番目のコードベクトル（セントロイドベクトル）である。また、ｘjは、選択区間ＰA_Sから抽出されたｎ_B個（選択区間ＰA_S内のフレームＦの個数）の特徴ベクトルｘ1〜ｘn_Bのなかの第ｊ番目（ｊ＝１〜ｎ_B）を意味する。ｄ（X,Y）は、ベクトルＸとベクトルＹとのユークリッド距離である。すなわち、ＶＱ歪Ｄは、音響モデルであるコードブックＣ^A内の|Ｃ^A|個のセントロイドベクトルと選択区間ＰA_Sの特徴ベクトルｘとの最小値（min）をｎ_B個の特徴ベクトルｘ1〜ｘn_Bにわたって平均化した数値である。

以上の説明から理解されるように、選択区間ＰA_S内の音声が人間の発声音に類似するほどＶＱ歪Ｄは小さくなる。したがって、図３のステップＳ4において、選別処理部１３は、選択区間ＰA_Sの直前の非発音区間ＰBにおける雑音レベルが高いほど閾値ＴＨ1が大きくなるように閾値ＴＨ1を可変に制御する。また、図３のステップＳ5において、選別処理部１３は、ＶＱ歪Ｄが閾値ＴＨ1を上回るか否かを判定し、閾値ＴＨ1を上回る場合には選択区間ＰA_Sを棄却区間ＰA2に選別する一方（ステップＳ5：YES）、閾値ＴＨ1を下回る場合にはステップＳ7に処理を移行する（ステップＳ5：NO）。他の動作は第１実施形態と同様である。本形態においても第１実施形態と同様の効果が奏される。

＜Ｃ：変形例＞
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から２以上の態様を任意に選択して組合わせてもよい。

（１）変形例１
以上の各形態においては、発音区間ＰAの各フレームＦから抽出された特徴量（特徴ベクトルｘ）を有声音および無声音の何れであるかに拘わらず音響モデルと対比したが、発音区間ＰAのうち有声音のフレームＦから抽出された特徴量のみを音響モデルと対比する構成も採用される。記憶装置２０に格納される音響モデルは、試料となる音声から無声音の区間や無音の区間を除外した有声音の区間内の特徴量に基づいて生成される。選別処理部１３は、選択区間ＰA_S内の複数のフレームＦのうち有声音のフレームＦから抽出された特徴量のみを利用して図３のステップＳ4にて平均尤度Ｌ（第２実施形態ではＶＱ歪Ｄ）を算定し、音響モデルと選択区間ＰA_S内の音声信号Ｓとの相関の有無をステップＳ5にて判定する。雑音と目的音とは有声音の特性に関して特に相違が顕著であるから、以上の変形例のように発音区間Ｐのうち有声音のフレームＦのみを音響モデルとの対比に使用する構成によれば、ステップＳ5における判定の正確性を高めることができる。

（２）変形例２
以上の形態においては、選択区間ＰA_Sの直前の非発音区間ＰBにおける雑音レベルに基づいて閾値ＴＨ1を設定したが（ステップＳ3）、閾値ＴＨ1の設定の基準は適宜に変更される。例えば、音声信号Ｓのうち先頭の非発音区間ＰBにおける雑音レベルに基づいて閾値ＴＨ1を設定し、各発音区間ＰAを選別するステップＳ5にて当該閾値ＴＨ1を共通に適用する構成も採用される。もっとも、選択区間ＰA_Sの直前にある非発音区間ＰBの雑音レベルを当該選択区間ＰA_Sの選別に適用する第１実施形態の構成によれば、音声信号Ｓの途中の時点で雑音レベルが変化した場合であっても、変化後の雑音レベルに応じて閾値ＴＨ1が更新されるから、ステップＳ5における選別の精度が低下する可能性は低減される。

また、以上の各形態においてはステップＳ9における閾値ＴＨ2を固定値としたが、閾値ＴＨ1と同様の方法（第１実施形態や本変形例に例示した方法）で閾値ＴＨ2を可変に制御する構成も採用される。音声信号Ｓの雑音レベルが高いほど、ステップＳ8で算定される割合Ｒの誤差は増大するから、閾値ＴＨ2を固定値とした形態においては、目的音を含む選択区間ＰA_Sが棄却区間ＰA2と誤判定される可能性が高まる。そこで、選別処理部１３は、選択区間ＰA_Sの直前の非発音区間ＰB（または音声信号Ｓの最初の非発音区間ＰB）における雑音レベルが高いほど閾値ＴＨ2が小さくなるように閾値ＴＨ2を設定する。以上の構成によれば、目的音を含む選択区間ＰA_Sが棄却区間ＰA2と誤判定される可能性を低減できる。

（３）変形例３
以上の各形態においてはひとつの音響モデルを利用したが、複数の音響モデルを選択的に利用して発音区間ＰAを有効区間ＰA1と棄却区間ＰA2とに選別してもよい。例えば、平均ピッチが相違する複数種の音声から生成された複数の音響モデルを事前に作成して記憶装置２０に格納する。図３のステップＳ4において、選別処理部１３は、選択区間ＰA_S内の音声信号Ｓのピッチ（平均ピッチ）を検出し、複数の音響モデルのうち当該ピッチに対応した音響モデルを使用して平均尤度Ｌ（第２実施形態ではＶＱ歪Ｄ）を算定する。以上の構成によれば、男性の発声音と女性の発声音とが混在する場合のように音声信号Ｓが多様なピッチの音声を含む場合であっても、発音区間ＰAを正確に有効区間ＰA1と棄却区間ＰA2とに選別することが可能である。

（４）変形例４
音声区分部１２が音声信号Ｓを区分する方法は以上の例示に限定されない。例えば、音声信号ＳのＳＮ比や音量に応じて音声信号Ｓを発音区間ＰAおよび非発音区間ＰBに区分する第１処理と、包絡線Ｅの谷部Ｄを境界として音声信号Ｓを区分する第２処理との一方のみを実行してもよい。また、音声信号Ｓの特性とは無関係に設定された固定または可変の時間長の区間ごとに音声信号Ｓを区分する構成も採用される。すなわち、発音区間ＰAと非発音区間ＰBとの区分は本発明の形態において必須ではない。

（５）変形例５
以上の各形態においては、音響モデルに対する相関指標値（平均尤度ＬやＶＱ歪Ｄ）を利用したステップＳ5の判定と、有声音のフレームＦの割合Ｒを利用したステップＳ9の判定とを実行した。しかし、ステップＳ5の判定の結果のみに基づいて各発音区間ＰAを有効区間ＰA1と棄却区間ＰA2とに選別する構成（すなわち図３のステップＳ7からステップＳ9を省略した構成）も採用される。また、ステップＳ9の判定のみに基づいて各発音区間ＰAを有効区間ＰA1と棄却区間ＰA2とに選別する構成（すなわち図３のステップＳ3からステップＳ5を省略した構成）も採用される。

（６）変形例６
音声処理装置１００が作成した議事録を印刷する印刷装置を出力装置３０として採用してもよい。もっとも、音声処理装置１００による処理の結果が議事録（文字）の形式で出力される必要はなく、例えば音声分類部１４による分類の結果を出力することも可能である。例えば、音声分類部１４が分類した複数の有効区間ＰA1のうち利用者が指定した時刻を含む有効区間ＰA1内の音声信号Ｓを放音装置（例えばスピーカ）から音波として出力する構成によれば、利用者が各発声者の発言を選択的に聴取して適宜に確認しながら会議の議事録を作成するといった作業を有効に支援することが可能である。また、選別処理部１３が発音区間ＰAを有効区間ＰA1と棄却区間ＰA2とに選別した結果を音声処理装置１００から外部装置に出力する構成も採用される。外部装置においては、音声処理装置１００からの出力に対して図１の音声分類部１４と同様の処理や他の適切な処理が実行される。例えば、複数の発音区間ＰAのうち選別処理部１３が選別した有効区間ＰA1のみを選択的に外部装置に出力し、各有効区間ＰA1を対象として所定の処理（発声者ごとの分類や音声認識）が外部装置にて実行される。以上のように、音声分類部１４や音声認識部１６は音声処理装置１００にとって必須の要素ではない。

（７）変形例７
以上の各形態においては記憶装置２０に予め記憶された音声信号Ｓを処理の対象としたが、収音装置（マイクロホン）から供給される音声信号Ｓや通信網を経由して順次に供給される音声信号Ｓを対象として実時間的に処理を実行してもよい。また、音声信号Ｓが表す音響の種類は本発明において任意である。例えば、特定の楽器の演奏音を目的音とする音響モデルが記憶装置２０に格納された構成によれば、当該楽器の演奏会にて収録された音声区間Ｓから目的音以外の音声（例えば拍手音の区間）の区間を棄却区間ＰA2として除外することが可能である。

本発明の第１実施形態に係る音声処理装置の構成を示すブロック図である。音声処理装置の動作を説明するための概念図である。選別処理部の動作を示すフローチャートである。

符号の説明

１００……音声処理装置、１０……制御装置、１２……音声区分部、１３……選別処理部、１４……音声分類部、１６……音声認識部、２０……記憶装置、３０……出力装置、ＰA……発音区間、ＰB……非発音区間、Ｓ……音声信号。

Claims

人間の発声音の特徴量の分布を示す音響モデルを記憶する記憶手段と、
音声信号を時間軸上で発音区間と非発音区間とに区分し、前記音声信号の波形の包絡線における谷部を境界として各発音区間を時間軸上で区分する音声区分手段と、
前記音響モデルと前記各発音区間内の音声信号の特徴量との相関の有無を発音区間ごとに判定する相関判定手段と、
前記複数の発音区間のうち前記音響モデルに相関すると判定された発音区間を有効区間に選定し、前記音響モデルに相関しないと判定された発音区間を棄却区間に選定する区間選別手段と
を具備する音声処理装置。
前記各発音区間の直前の前記非発音区間内の音声信号の特性に応じて第１閾値を可変に設定する第１閾値設定手段を具備し、
前記相関判定手段は、前記音響モデルと前記各発音区間内の音声信号の特徴量との相関の指標値を、前記第１閾値設定手段が当該発音区間について設定した前記第１閾値と比較することで、前記音響モデルと前記各発音区間内の音声信号の特徴量との相関の有無を発音区間ごとに判定する
請求項１の音声処理装置。
前記各発音区間の直前の非発音区間内の音声信号の特性に応じて第２閾値を可変に設定する第２閾値設定手段と、
前記各発音区間におけるフレームの総数に対する当該発音区間内の有声音のフレームの個数の割合が、前記第２閾値設定手段が当該発音区間について設定した前記第２閾値を上回るか否かを前記発音区間ごとに判定する有声判定手段とを具備し、
前記区間選別手段は、前記音響モデルに相関すると前記相関判定手段が判定し、かつ、有声音のフレームの個数の割合が前記第２閾値を上回ると前記有声判定手段が判定した発音区間を有効区間に選定し、前記音響モデルに相関しないと前記相関判定手段が判定し、または、有声音のフレームの個数の割合が前記第２閾値を上回らないと前記有声判定手段が判定した発音区間を棄却区間に選定する
請求項１の音声処理装置。
人間の発声音の特徴量の分布を示す音響モデルを記憶する記憶手段を具備するコンピュータに、
音声信号を時間軸上で発音区間と非発音区間とに区分し、前記音声信号の波形の包絡線における谷部を境界として各発音区間を時間軸上で区分する音声区分処理と、
前記音響モデルと前記各発音区間内の音声信号の特徴量との相関の有無を発音区間ごとに判定する相関判定処理と、
前記複数の発音区間のうち前記音響モデルに相関すると判定された発音区間を有効区間に選定し、前記音響モデルに相関しないと判定された発音区間を棄却区間に選定する区間選別処理と
を実行させるプログラム。