[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5050698B2 - 音声処理装置およびプログラム - Google Patents

音声処理装置およびプログラム Download PDF

Info

Publication number
JP5050698B2
JP5050698B2 JP2007184874A JP2007184874A JP5050698B2 JP 5050698 B2 JP5050698 B2 JP 5050698B2 JP 2007184874 A JP2007184874 A JP 2007184874A JP 2007184874 A JP2007184874 A JP 2007184874A JP 5050698 B2 JP5050698 B2 JP 5050698B2
Authority
JP
Japan
Prior art keywords
section
sound
sounding
acoustic model
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007184874A
Other languages
English (en)
Other versions
JP2009020460A (ja
Inventor
靖雄 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007184874A priority Critical patent/JP5050698B2/ja
Publication of JP2009020460A publication Critical patent/JP2009020460A/ja
Application granted granted Critical
Publication of JP5050698B2 publication Critical patent/JP5050698B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Description

本発明は、音声信号を時間軸上で複数の区間に区分する技術に関する。
音声信号を時間軸に沿って複数の区間に区分する各種の技術が従来から提案されている。例えば特許文献1や特許文献2には、音声信号のSN比と所定の閾値との比較の結果に応じて音声信号を発音区間と非発音区間とに区分する技術が開示されている。
特開昭59−99497号公報 国際公開第2007/017993号パンフレット
しかし、特許文献1や特許文献2のようにSN比に応じて発音区間と非発音区間とに選別する技術においては、音声信号の収録時における雑音(空調設備の作動音やドアの開閉音)の存在する区間が発音区間に選別される場合がある。そして、例えば人間による発声音など本来の目的となる音声以外の音声が発音区間に混在すると、発音区間を対象とした音声信号の処理(例えば各区間の分類)の精度が低下するという問題がある。以上の事情を背景として、本発明は、音声信号のうち目的音が存在する区間と目的音が存在しない区間とを区別するという課題の解決を目的としている。
前述の課題を解決するために、本発明に係る音声処理装置は、人間の発声音の特徴量の分布を示す音響モデルを記憶する記憶手段と、音声信号を時間軸上で発音区間と非発音区間とに区分し、音声信号の波形の包絡線における谷部を境界として各発音区間を時間軸上で区分する音声区分手段と、音響モデルと各発音区間内の音声信号の特徴量との相関の有無を発音区間ごとに判定する相関判定手段と、複数の発音区間のうち音響モデルに相関すると判定された発音区間を有効区間に選定し、音響モデルに相関しないと判定された発音区間を棄却区間に選定する区間選別手段とを具備する。以上の構成によれば、目的音の音響モデルと各区間内の音声信号の特徴量との相関の有無に応じて各区間を有効区間と棄却区間とに選別することが可能である。したがって、例えば有効区間のみを選択的に利用することで、各区間の音声信号に対する音声処理(例えば発声者ごとの分類や音声認識)の精度を高めることができる。
本発明の好適な態様の音声処理装置は、各発音区間の直前の非発音区間内の音声信号の特性に応じて第1閾値を可変に設定する第1閾値設定手段を具備し、相関判定手段は、音響モデルと各発音区間内の音声信号の特徴量との相関の指標値を、第1閾値設定手段が当該発音区間について設定した第1閾値と比較することで、音響モデルと各発音区間内の音声信号の特徴量との相関の有無を発音区間ごとに判定する。以上の構成によれば、非発音区間内の音声信号の特性に応じて第1閾値が可変に設定されるから、第1閾値が固定された構成と比較して、相関判定手段による判定の正確性を高めることができる。
他の態様の音声処理装置は、各発音区間の直前の非発音区間内の音声信号の特性に応じて第2閾値を可変に設定する第2閾値設定手段と、各発音区間におけるフレームの総数に対する当該発音区間内の有声音のフレームの個数の割合が、第2閾値設定手段が当該発音区間について設定した第2閾値を上回るか否かを発音区間ごとに判定する有声判定手段とを具備し、区間選別手段は、音響モデルに相関すると相関判定手段が判定し、かつ、有声音のフレームの個数の割合が第2閾値を上回ると有声判定手段が判定した発音区間を有効区間に選定し、音響モデルに相関しないと相関判定手段が判定し、または、有声音のフレームの個数の割合が第2閾値を上回らないと有声判定手段が判定した発音区間を棄却区間に選定する。以上の構成によれば、有声音のフレームの個数の割合が第2閾値を上回る区間が有効区間に選定されるから、目的音に類似する雑音の区間を棄却区間に選別することが可能である。
さらに好適な態様において、相関判定手段は、複数の区間の各々における有声音のフレームの特徴量のみを音響モデルと対比する。例えば人間による発声音などの目的音と雑音との相違は有声音の特性に関して特に顕著となるから、有声音のフレームの特徴量のみが音響モデルと対比される本態様によれば、相関判定手段による判定の正確性が向上するという利点がある。
本発明の具体的な態様に係る音声処理装置は、複数の区間のうち区間選別手段が有効区間に選定した複数の区間を、当該区間内の音声信号の特徴量に基づいて発声者ごとに分類する音声分類手段を具備する。本態様によれば、有効区間は目的音を含む可能性が高いから、有効区間の音声信号からは目的音の特性を忠実に反映した特徴量が抽出される。したがって、有効区間のみを分類の対象とする本態様によれば、各区間を音声信号の特性に応じて高い精度で分類できる。
本発明に係る音声処理装置は、音声の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、人間の発声音の特徴量の分布を示す音響モデルを記憶する記憶手段を具備するコンピュータに、音声信号を時間軸上で発音区間と非発音区間とに区分し、音声信号の波形の包絡線における谷部を境界として各発音区間を時間軸上で区分する音声区分処理と、音響モデルと各発音区間内の音声信号の特徴量との相関の有無を発音区間ごとに判定する相関判定処理(例えば図3のステップS5)と、複数の発音区間のうち音響モデルに相関すると判定された発音区間を有効区間に選定し、音響モデルに相関しないと判定された発音区間を棄却区間に選定する区間選別処理(例えば図3のステップS6やステップS10)とをコンピュータに実行させる。以上のプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
また、本発明の別の態様に係る音声処理装置は、音声信号を時間軸上で複数の区間に区分する音声区分手段と、前記複数の区間の各々におけるフレームの総数に対する当該区間内の有声音のフレームの個数の割合が閾値を上回るか否かを前記区間ごとに判定する有声判定手段と、前記有声音のフレームの個数の割合が閾値を上回る区間を有効区間に選定し、前記有声音のフレームの個数の割合が閾値を下回る区間を棄却区間に選定する区間選別手段とを具備する。以上の態様によれば、各区間内の有声音のフレームの割合に応じて各区間が有効区間と棄却区間とに選別される。したがって、例えば有効区間のみを選択的に利用することで、各区間の音声信号に対する音声処理(例えば発声者ごとの分類や音声認識)の精度を高めることができる。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。同図に示すように、音声処理装置100は、制御装置10と記憶装置20とを具備するコンピュータシステムである。制御装置10は、プログラムを実行する演算処理装置である。記憶装置20は、制御装置10が実行するプログラムや制御装置10が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置20として任意に採用される。制御装置10には出力装置30が接続される。本形態の出力装置30は、制御装置10による制御のもとに各種の画像を表示する表示機器である。
記憶装置20は、音声の時間軸上における波形を表す音声信号Sを記憶する。本形態の音声信号Sが表す音声は、複数の参加者が随時に発言する会議において収音機器を利用して収録された音声である。図2の部分(A)には、音声信号Sの時間軸上の波形が例示されている。制御装置10は、記憶装置20に格納されたプログラムを実行することで音声信号Sから会議の議事録を生成する。議事録は、複数の参加者の各々の発言の内容(文字)を時系列に配列した会議の記録である。
さらに、記憶装置20は、音声処理装置100による処理の目的となる音声(以下「目的音」という)の音響的な特性を表す音響モデルを記憶する。本形態では人間による発声音が目的音とされる。すなわち、発声音から音響的な特徴量(例えばMFCC(Mel Frequency Cepstral Coefficient))を抽出する処理を多数の発声者と多様な内容の発話とについて実行し、抽出された多数の特徴量を統計的に処理することで、人間による発声音の概括的(平均的)な特性を示す音響モデルが生成される。制御装置10が音響モデルを生成してもよいし外部装置の生成した音響モデルを記憶装置20に格納してもよい。
本形態の音響モデルは、例えば、試料となる多数かつ多様な発声音から抽出された特徴量(MFCCのベクトル)の分布をM個の確率分布の加重和としてモデル化する混合モデルλである(Mは2以上の自然数)。混合モデルλの生成には、EM(Expectation-Maximization)アルゴリズムなど公知の技術が任意に採用される。本形態の混合モデルλは、M個の正規分布の加重和として以下の式(1)で表現されるガウス混合モデルである。
λ={pi,μi,Σi} (i=1〜M) ……(1)
式(1)のpiは、第i番目の正規分布の加重値(重み値)である。加重値p1〜pMの総和は1である。式(1)のμiは第i番目の正規分布の平均ベクトルであり、Σiは第i番目の正規分布の共分散行列である。なお、式(1)のμiのように、実際にはベクトルを意味する記号であっても、当該記号がベクトルを意味することを例えば「平均ベクトル」という表現で明示したうえで、本明細書ではベクトルの記号(文字上の右向き矢印)を省略する。
制御装置10は、図1に示すように、音声区分部12と選別処理部13と音声分類部14と音声認識部16として機能する。なお、図1の制御装置10の各機能は、音声の処理に専用されるDSPなどの電子回路によっても実現される。また、制御装置10は、複数の集積回路として実装されてもよい。
音声区分部12は、図2の部分(D)に示すように、記憶装置20に記憶された音声信号Sを、時間軸に沿って複数の発音区間PAと複数の非発音区間PBとに区分する。発音区間PAは、音声(目的音や雑音)が存在する区間であり、非発音区間PBは、音声が存在しない区間または音量が充分に小さい区間である。
音声区分部12は、第1処理と第2処理とを実行する。第1処理は、図2の部分(B)に示すように、音声信号SのうちSN比や音量(振幅)が閾値を上回る区間を発音区間PAとして検出する処理である。発音区間PA以外の区間は非発音区間PBとなる。
複数の発声者による発声が間隔をあけずに連続する場合や部分的に重複する場合、第1処理だけでは音声信号Sを発声者ごとに区分することが困難である。そこで、音声区分部12は、図2の部分(C)および部分(D)に示すように、音声信号Sの波形の包絡線(エンベロープ)Eに現れる複数の谷部Dの各々を境界として発音区間PAを区分する第2処理を実行する。人間による一連の発話には、一般的に、発話の開始点から音量が徐々に増加するとともに中途の時点から発話の終了点にかけて音量が徐々に減少するという傾向がある。したがって、谷部Dを境界として発音区間PAを区分する構成によれば、複数の発話が連続または重複する場合であっても、各発声者による発声は別個の発音区間PAに区分される。音声区分部12による区分後の発音区間PAの総数を以下ではJ個(Jは2以上の整数)とする。なお、発音区間PAや非発音区間PBの検出には、以上の例示の他にも公知の技術が任意に採用される。
ところで、以上のようにSN比や音量が閾値を上回る区間を発音区間PAとして検出した場合、音声信号Sのうち目的音以外の音声(例えば電話機の呼出音)が存在する区間が発音区間PAとして検出される可能性はある。そこで、選別処理部13は、図2の部分(E)に示すように、音声区分部12が画定した複数の発音区間PAを、目的音の存在する可能性が高い区間(以下「有効区間」という)PA1と目的音の存在する可能性が低い区間(以下「棄却区間」という)PA2とに選別する。すなわち、複数の発音区間PAのうち目的音の存在しない区間は棄却区間PA2として除去される。なお、選別処理部13の具体的な動作は後述する。
図1の音声分類部14は、複数の発音区間PAのうち選別処理部13が選別した各有効区間PA1の音声信号Sを発声者ごとに分類する。音声区分部12が画定した非発音区間PBや選別処理部13が選別した棄却区間PA2は分類の対象から除外される。各有効区間PA1の分類には公知のクラスタリング技術が任意に採用される。
例えば、音声分類部14は、各有効区間PA1内の音声信号Sに対してFFT(Fast Fourier Transform)処理を含む周波数分析を実行することで当該有効区間PA1内の音声信号Sの音響的な特徴量(例えばMFCC)を抽出し、特徴量の類似する各有効区間PA1が共通のクラスタに所属するように複数の有効区間PA1を各クラスタに分類する。したがって、音声信号Sのうち同じ発声者が発声した可能性が高い有効区間PA1は共通のクラスタに分類される。そして、音声分類部14は、複数の発声者の各々の識別符号と、当該発声者のクラスタに分類された各有効区間PA1の始点および終点の時刻と、当該各有効区間PA1内の音声信号Sとを対応させて記憶装置20に格納する。なお、会議の参加者の人数を利用者が既知数として指定する構成においては、複数の有効区間PA1を、当該人数に相当する個数のクラスタに分類する構成が好適に採用される。
音声認識部16は、各クラスタに分類された各有効区間PA1の音声信号Sから発声者ごとの発言の内容を文字として特定する。各有効区間PA1の音声信号Sから文字を認識する処理には公知の音声認識技術が任意に採用される。例えば、音声認識部16は、第1に、ひとつのクラスタに分類された各有効区間PA1の音声信号Sの音響的な特徴量に応じて初期的な音響モデルを更新(話者適応)することで、当該クラスタに対応した発声者の音声の特徴を固有に反映した音響モデルを生成し、第2に、話者適応後の音響モデルとクラスタ内の各有効区間PA1の音声信号Sから抽出された特徴量とを対比することで発言の文字を識別する。
制御装置10は、音声認識部16による処理の結果を出力装置30に出力する。出力装置30は、発言の時刻と、発声者の識別符号(例えば発声者の氏名)と、当該発声の内容について音声認識部16が特定した文字とを時系列に配列した議事録の画像を表示する。
次に、図3を参照して、選別処理部13による処理の具体例を説明する。図3の処理は、音声区分部12による処理が完了することを契機として開始される。同図に示すように、選別処理部13は、J個の発音区間PAの各々について音声信号Sの特徴量を抽出する(ステップS1)。さらに詳述すると、選別処理部13は、各発音区間PAを区分した複数のフレームF(図2の部分(A)参照)の各々について周波数分析を実行することで、当該発音区間PA内の各フレームFにおけるMFCCのベクトル(以下「特徴ベクトル」という)の時系列を特徴量として抽出する。もっとも、ステップS1にて抽出される特徴量はMFCCに限定されない。
次いで、選別処理部13は、J個の発音区間PAのなかから未選択で最先(最も古い)の発音区間PAを選択する(ステップS2)。次いで、選別処理部13は、ステップS2にて選択した発音区間PA(以下では特に「選択区間PA_S」という)の開始前にある直近の非発音区間PBの音声信号Sに応じて閾値TH1を設定する(ステップS3)。非発音区間PBは基本的に雑音(環境音)のみが存在する区間であるから、ステップS3の処理は、音声信号Sの収録時の雑音に応じて閾値TH1を設定する処理に相当する。具体的には、選別処理部13は、選択区間PA_Sの直前にある非発音区間PB内の音声信号Sの平均的な強度(以下「雑音レベル」という)を算定し、雑音レベルが高いほど閾値TH1が小さくなるように閾値TH1を可変に制御する。
次に、選別処理部13は、記憶装置20に記憶された混合モデルλと選択区間PA_S内の音声信号Sの特徴ベクトルxとの相関の程度を示す相関指標値を算定する(ステップS4)。さらに詳述すると、選別処理部13は、混合モデルλから選択区間PA_Sの各特徴ベクトルxが出現する確率(尤度)を選択区間PA_S内の総ての特徴ベクトルxについて平均化した数値(以下「平均尤度」という)Lを相関指標値として算定する。
ひとつの特徴ベクトルxをD次元のベクトルとすると、混合モデルλから特徴ベクトルxが出現する尤度p(x|λ)は以下の式(2)で算定される。
Figure 0005050698
選別処理部13は、ステップS4において、選択区間PA_S内のK個の特徴ベクトルx(x1〜xK)を式(3)に代入することで平均尤度Lを算定する。式(3)から理解されるように、音響モデルが表す音声の特徴と選択区間PA_S内の音声信号Sの特徴とが類似するほど平均尤度Lは大きくなる。
Figure 0005050698
次いで、選別処理部13は、選択区間PA_Sの平均尤度Lが閾値TH1を下回るか否かを判定する(ステップS5)。混合モデルλには人間の多様な発声音が包括的に反映されるから、平均尤度Lが閾値TH1を下回る選択区間PA_Sの音声は人間の発声音である可能性が低い。そこで、選別処理部13は、ステップS5の結果が肯定である場合(L<TH1)、現段階における選択区間PA_Sを棄却区間PA2に選別する(ステップS6)。以上のように、ステップS5の処理は、選択区間PA_S内の音声が人間の発声音である可能性があるか否かを音声信号Sと混合モデルλとの相関の有無に応じて判定する処理である。
ステップS1にて抽出される特徴ベクトルxは音声信号S内の雑音の影響を受けるから、閾値TH1が固定値であるとすれば、音声信号Sの雑音レベルが高いほど、実際には目的音を含む発音区間PAであるにも拘わらずステップS5の結果が肯定となる可能性は高まる。本形態においては音声信号Sの雑音レベルが高いほど閾値TH1が小さい数値に設定される(すなわちステップS5の結果が肯定となる割合が低くなる)から、目的音を含む選択区間PA_Sが棄却区間PA2と誤判定される可能性を低減できる。
ところで、実際には目的音が選択区間PA_Sに含まれない場合であっても、人間の発声音に類似する雑音が選択区間PA_Sに含まれる場合には、ステップS5の結果は否定となる(すなわち棄却区間PA2とは判定されない)。そこで、ステップS5の結果が否定である場合、選別処理部13は、混合モデルλを使用しない方法で選択区間PA_Sを有効区間PA1または棄却区間PA2に選別する(ステップS7からステップS9)。
人間が自然に発声した場合(例えば意図的に無声音のみを継続的に発声しない限り)、発声が継続する区間のうち所定の割合を上回る時間長にわたって有声音が存在するという傾向がある。そこで、本形態においては、選択区間PA_Sのうち有声音の区間の割合に応じて選択区間PA_Sを有効区間PA1(有声音が豊富な発音区間PA)および棄却区間PA2(無声音が豊富な発音区間PA)とに選別する。
ステップS7において、選別処理部13は、選択区間PA_S内の複数のフレームFの各々について、音声信号Sの示す音声が有声音であるか無声音であるかを判定する。有声/無声の判断には公知の技術が任意に採用される。例えば、選別処理部13は、音声信号Sの周期性の指標となる自己相関関数の最大値(以下「自己相関値」という)値を各フレームFについて算定し、自己相関値が所定値を上回るフレームF(すなわち音声信号Sの周期性が高いフレームF)を有声音と判定するとともに自己相関値が所定値を下回るフレームFを無声音と判定する。また、音声信号Sから明確なピッチ(基本周波数)が検出されるフレームFのみを有声音と判定する構成も好適に採用される。
次いで、選別処理部13は、選択区間PA_S内のフレームFの総数のうちステップS7にて有声音と判定されたフレームFの個数の割合Rを算定し(ステップS8)、割合Rが所定の閾値TH2を上回るか否かを判定する(ステップS9)。ステップS9の判定が否定である場合(すなわち選択区間PA_Sにおいて無声音のフレームFの割合が高い場合)、選別処理部13は、現段階における選択区間PA_Sを棄却区間PA2に選別する(ステップS6)。一方、ステップS9の判定が肯定である場合(すなわち選択区間PA_Sにおいて有声音のフレームFの割合が高い場合)、選別処理部13は、選択区間PA_Sを有効区間PA1に選別する(ステップS10)。
ステップS6またはステップS10を実行すると、選別処理部13は、音声信号Sの総ての発音区間PAを選別したか否かを判定する(ステップS11)。ステップS11の結果が否定である場合、選別処理部13は、現段階の選択区間PA_Sの直後の発音区間PAをステップS2にて新たな選択区間PA_Sとして選択したうえでステップS3以後の処理を実行する。総ての発音区間PAの選別が完了すると(ステップS11:YES)、選別処理部13は図3の処理を終了する。
以上に説明したように、本形態においては、目的音の有無に応じて発音区間PAが有効区間PA1および棄却区間PA2に区別されるから、目的音を含まない棄却区間PA2を音声分類部14や音声認識部16による処理の対象から除外することで雑音の影響を有効に低減することができる。例えば、雑音の影響を低減することで各発声者の発声音の特性を忠実に反映した特徴量の抽出が可能となるから、音声分類部14による各発音区間PA(有効区間PA1)の分類や音声認識部16による話者適応および音声認識など特徴量を利用した音声処理の精度が高められる。したがって、音声信号Sから正確な議事録を作成することができる。
ところで、以上の形態においては、音声信号Sが人間の発声音の音響モデル(混合モデルλ)に相関するか否かに応じて発音区間PAを有効区間PA1および棄却区間PA2に選別する構成を例示した。これに対し、例えば、音声信号Sの収録時に発生し得る雑音の音響モデル(以下「雑音モデル」という)を使用する構成(以下「対比例」という)も想定される。対比例においては、音声信号Sと雑音モデルとの相関が高い場合に発音区間PAが棄却区間PA2に選別され、音声信号Sと雑音モデルとの相関が低い場合に発音区間PAが有効区間PA1に選別される。
しかし、雑音の特性は人間の発声音の特性と比較して極めて多様である。したがって、特定の雑音を想定して雑音モデルを作成したとしても、雑音モデルが網羅し切れない雑音が音声信号Sに含まれる可能性は高い。すなわち、対比例の構成においては、目的音を含まない発音区間PAを充分に除去できないという問題がある。これに対して本形態においては、人間の発声音の音響モデルが使用されるから、音声信号Sに多様な雑音が含まれる場合であっても、目的音を含まない発音区間PAを有効に除去できるという利点がある。
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。本形態においては、第1実施形態における平均尤度Lに代えて、VQ(Vector Quantization)歪を音響モデルと音声信号Sとの相関指標値として採用する。なお、以下の各形態において機能や作用が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
記憶装置20に事前に格納される音響モデルは、試料となる多数かつ多様な発声音から抽出された多数の特徴量(MFCC)のベクトルから生成されたコードブック(符号帳)CAである。コードブックの生成には、k-means法やLBGアルゴリズムなど公知の技術が任意に採用される。
図3のステップS4において、選別処理部13は、記憶装置20に格納されたコードブックCAと、選択区間PA_Sの音声信号SからステップS1で抽出した複数の特徴ベクトルx(例えばMFCC)とに基づいてVQ歪Dを算定する。VQ歪Dは、例えば以下の式(4)で算定される。
Figure 0005050698
式(4)の|CA|は、コードブックCAのサイズであり、CA(i)は、コードブックCAにおける第i番目のコードベクトル(セントロイドベクトル)である。また、xjは、選択区間PA_Sから抽出されたnB個(選択区間PA_S内のフレームFの個数)の特徴ベクトルx1〜xnBのなかの第j番目(j=1〜nB)を意味する。d(X,Y)は、ベクトルXとベクトルYとのユークリッド距離である。すなわち、VQ歪Dは、音響モデルであるコードブックCA内の|CA|個のセントロイドベクトルと選択区間PA_Sの特徴ベクトルxとの最小値(min)をnB個の特徴ベクトルx1〜xnBにわたって平均化した数値である。
以上の説明から理解されるように、選択区間PA_S内の音声が人間の発声音に類似するほどVQ歪Dは小さくなる。したがって、図3のステップS4において、選別処理部13は、選択区間PA_Sの直前の非発音区間PBにおける雑音レベルが高いほど閾値TH1が大きくなるように閾値TH1を可変に制御する。また、図3のステップS5において、選別処理部13は、VQ歪Dが閾値TH1を上回るか否かを判定し、閾値TH1を上回る場合には選択区間PA_Sを棄却区間PA2に選別する一方(ステップS5:YES)、閾値TH1を下回る場合にはステップS7に処理を移行する(ステップS5:NO)。他の動作は第1実施形態と同様である。本形態においても第1実施形態と同様の効果が奏される。
<C:変形例>
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
(1)変形例1
以上の各形態においては、発音区間PAの各フレームFから抽出された特徴量(特徴ベクトルx)を有声音および無声音の何れであるかに拘わらず音響モデルと対比したが、発音区間PAのうち有声音のフレームFから抽出された特徴量のみを音響モデルと対比する構成も採用される。記憶装置20に格納される音響モデルは、試料となる音声から無声音の区間や無音の区間を除外した有声音の区間内の特徴量に基づいて生成される。選別処理部13は、選択区間PA_S内の複数のフレームFのうち有声音のフレームFから抽出された特徴量のみを利用して図3のステップS4にて平均尤度L(第2実施形態ではVQ歪D)を算定し、音響モデルと選択区間PA_S内の音声信号Sとの相関の有無をステップS5にて判定する。雑音と目的音とは有声音の特性に関して特に相違が顕著であるから、以上の変形例のように発音区間Pのうち有声音のフレームFのみを音響モデルとの対比に使用する構成によれば、ステップS5における判定の正確性を高めることができる。
(2)変形例2
以上の形態においては、選択区間PA_Sの直前の非発音区間PBにおける雑音レベルに基づいて閾値TH1を設定したが(ステップS3)、閾値TH1の設定の基準は適宜に変更される。例えば、音声信号Sのうち先頭の非発音区間PBにおける雑音レベルに基づいて閾値TH1を設定し、各発音区間PAを選別するステップS5にて当該閾値TH1を共通に適用する構成も採用される。もっとも、選択区間PA_Sの直前にある非発音区間PBの雑音レベルを当該選択区間PA_Sの選別に適用する第1実施形態の構成によれば、音声信号Sの途中の時点で雑音レベルが変化した場合であっても、変化後の雑音レベルに応じて閾値TH1が更新されるから、ステップS5における選別の精度が低下する可能性は低減される。
また、以上の各形態においてはステップS9における閾値TH2を固定値としたが、閾値TH1と同様の方法(第1実施形態や本変形例に例示した方法)で閾値TH2を可変に制御する構成も採用される。音声信号Sの雑音レベルが高いほど、ステップS8で算定される割合Rの誤差は増大するから、閾値TH2を固定値とした形態においては、目的音を含む選択区間PA_Sが棄却区間PA2と誤判定される可能性が高まる。そこで、選別処理部13は、選択区間PA_Sの直前の非発音区間PB(または音声信号Sの最初の非発音区間PB)における雑音レベルが高いほど閾値TH2が小さくなるように閾値TH2を設定する。以上の構成によれば、目的音を含む選択区間PA_Sが棄却区間PA2と誤判定される可能性を低減できる。
(3)変形例3
以上の各形態においてはひとつの音響モデルを利用したが、複数の音響モデルを選択的に利用して発音区間PAを有効区間PA1と棄却区間PA2とに選別してもよい。例えば、平均ピッチが相違する複数種の音声から生成された複数の音響モデルを事前に作成して記憶装置20に格納する。図3のステップS4において、選別処理部13は、選択区間PA_S内の音声信号Sのピッチ(平均ピッチ)を検出し、複数の音響モデルのうち当該ピッチに対応した音響モデルを使用して平均尤度L(第2実施形態ではVQ歪D)を算定する。以上の構成によれば、男性の発声音と女性の発声音とが混在する場合のように音声信号Sが多様なピッチの音声を含む場合であっても、発音区間PAを正確に有効区間PA1と棄却区間PA2とに選別することが可能である。
(4)変形例4
音声区分部12が音声信号Sを区分する方法は以上の例示に限定されない。例えば、音声信号SのSN比や音量に応じて音声信号Sを発音区間PAおよび非発音区間PBに区分する第1処理と、包絡線Eの谷部Dを境界として音声信号Sを区分する第2処理との一方のみを実行してもよい。また、音声信号Sの特性とは無関係に設定された固定または可変の時間長の区間ごとに音声信号Sを区分する構成も採用される。すなわち、発音区間PAと非発音区間PBとの区分は本発明の形態において必須ではない。
(5)変形例5
以上の各形態においては、音響モデルに対する相関指標値(平均尤度LやVQ歪D)を利用したステップS5の判定と、有声音のフレームFの割合Rを利用したステップS9の判定とを実行した。しかし、ステップS5の判定の結果のみに基づいて各発音区間PAを有効区間PA1と棄却区間PA2とに選別する構成(すなわち図3のステップS7からステップS9を省略した構成)も採用される。また、ステップS9の判定のみに基づいて各発音区間PAを有効区間PA1と棄却区間PA2とに選別する構成(すなわち図3のステップS3からステップS5を省略した構成)も採用される。
(6)変形例6
音声処理装置100が作成した議事録を印刷する印刷装置を出力装置30として採用してもよい。もっとも、音声処理装置100による処理の結果が議事録(文字)の形式で出力される必要はなく、例えば音声分類部14による分類の結果を出力することも可能である。例えば、音声分類部14が分類した複数の有効区間PA1のうち利用者が指定した時刻を含む有効区間PA1内の音声信号Sを放音装置(例えばスピーカ)から音波として出力する構成によれば、利用者が各発声者の発言を選択的に聴取して適宜に確認しながら会議の議事録を作成するといった作業を有効に支援することが可能である。また、選別処理部13が発音区間PAを有効区間PA1と棄却区間PA2とに選別した結果を音声処理装置100から外部装置に出力する構成も採用される。外部装置においては、音声処理装置100からの出力に対して図1の音声分類部14と同様の処理や他の適切な処理が実行される。例えば、複数の発音区間PAのうち選別処理部13が選別した有効区間PA1のみを選択的に外部装置に出力し、各有効区間PA1を対象として所定の処理(発声者ごとの分類や音声認識)が外部装置にて実行される。以上のように、音声分類部14や音声認識部16は音声処理装置100にとって必須の要素ではない。
(7)変形例7
以上の各形態においては記憶装置20に予め記憶された音声信号Sを処理の対象としたが、収音装置(マイクロホン)から供給される音声信号Sや通信網を経由して順次に供給される音声信号Sを対象として実時間的に処理を実行してもよい。また、音声信号Sが表す音響の種類は本発明において任意である。例えば、特定の楽器の演奏音を目的音とする音響モデルが記憶装置20に格納された構成によれば、当該楽器の演奏会にて収録された音声区間Sから目的音以外の音声(例えば拍手音の区間)の区間を棄却区間PA2として除外することが可能である。
本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。 音声処理装置の動作を説明するための概念図である。 選別処理部の動作を示すフローチャートである。
符号の説明
100……音声処理装置、10……制御装置、12……音声区分部、13……選別処理部、14……音声分類部、16……音声認識部、20……記憶装置、30……出力装置、PA……発音区間、PB……非発音区間、S……音声信号。

Claims (4)

  1. 人間の発声音の特徴量の分布を示す音響モデルを記憶する記憶手段と、
    音声信号を時間軸上で発音区間と非発音区間とに区分し、前記音声信号の波形の包絡線における谷部を境界として各発音区間を時間軸上で区分する音声区分手段と、
    前記音響モデルと前記各発音区間内の音声信号の特徴量との相関の有無を発音区間ごとに判定する相関判定手段と、
    前記複数の発音区間のうち前記音響モデルに相関すると判定された発音区間を有効区間に選定し、前記音響モデルに相関しないと判定された発音区間を棄却区間に選定する区間選別手段と
    を具備する音声処理装置。
  2. 前記各発音区間の直前の前記非発音区間内の音声信号の特性に応じて第1閾値を可変に設定する第1閾値設定手段を具備し、
    前記相関判定手段は、前記音響モデルと前記各発音区間内の音声信号の特徴量との相関の指標値を、前記第1閾値設定手段が当該発音区間について設定した前記第1閾値と比較することで、前記音響モデルと前記各発音区間内の音声信号の特徴量との相関の有無を発音区間ごとに判定する
    請求項の音声処理装置。
  3. 前記各発音区間の直前の非発音区間内の音声信号の特性に応じて第2閾値を可変に設定する第2閾値設定手段と、
    前記各発音区間におけるフレームの総数に対する当該発音区間内の有声音のフレームの個数の割合が、前記第2閾値設定手段が当該発音区間について設定した前記第2閾値を上回るか否かを前記発音区間ごとに判定する有声判定手段とを具備し、
    前記区間選別手段は、前記音響モデルに相関すると前記相関判定手段が判定し、かつ、有声音のフレームの個数の割合が前記第2閾値を上回ると前記有声判定手段が判定した発音区間を有効区間に選定し、前記音響モデルに相関しないと前記相関判定手段が判定し、または、有声音のフレームの個数の割合が前記第2閾値を上回らないと前記有声判定手段が判定した発音区間を棄却区間に選定する
    請求項の音声処理装置。
  4. 人間の発声音の特徴量の分布を示す音響モデルを記憶する記憶手段を具備するコンピュータに、
    音声信号を時間軸上で発音区間と非発音区間とに区分し、前記音声信号の波形の包絡線における谷部を境界として各発音区間を時間軸上で区分する音声区分処理と、
    前記音響モデルと前記各発音区間内の音声信号の特徴量との相関の有無を発音区間ごとに判定する相関判定処理と、
    前記複数の発音区間のうち前記音響モデルに相関すると判定された発音区間を有効区間に選定し、前記音響モデルに相関しないと判定された発音区間を棄却区間に選定する区間選別処理と
    を実行させるプログラム。
JP2007184874A 2007-07-13 2007-07-13 音声処理装置およびプログラム Expired - Fee Related JP5050698B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007184874A JP5050698B2 (ja) 2007-07-13 2007-07-13 音声処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007184874A JP5050698B2 (ja) 2007-07-13 2007-07-13 音声処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009020460A JP2009020460A (ja) 2009-01-29
JP5050698B2 true JP5050698B2 (ja) 2012-10-17

Family

ID=40360112

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007184874A Expired - Fee Related JP5050698B2 (ja) 2007-07-13 2007-07-13 音声処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5050698B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4967928B2 (ja) * 2007-08-27 2012-07-04 ヤマハ株式会社 音声処理装置およびプログラム
JP5605574B2 (ja) * 2009-02-13 2014-10-15 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム
JP5385876B2 (ja) * 2010-08-30 2014-01-08 日本電信電話株式会社 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
JP5614261B2 (ja) 2010-11-25 2014-10-29 富士通株式会社 雑音抑制装置、雑音抑制方法、及びプログラム
JP6794925B2 (ja) * 2017-05-29 2020-12-02 京セラドキュメントソリューションズ株式会社 情報処理システム
JP7331523B2 (ja) * 2019-07-24 2023-08-23 富士通株式会社 検出プログラム、検出方法、検出装置
JP7333878B2 (ja) * 2021-02-05 2023-08-25 三菱電機株式会社 信号処理装置、信号処理方法、及び信号処理プログラム
CN114242116B (zh) * 2022-01-05 2024-08-02 成都锦江电子系统工程有限公司 一种语音的话音与非话音的综合判决方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61138299A (ja) * 1984-12-10 1986-06-25 日本電信電話株式会社 音声区間検出方式
JPH0754435B2 (ja) * 1987-08-27 1995-06-07 松下電器産業株式会社 音声認識方法
JPH04369695A (ja) * 1991-06-19 1992-12-22 Matsushita Electric Ind Co Ltd 音声判別装置
JP2797861B2 (ja) * 1992-09-30 1998-09-17 松下電器産業株式会社 音声検出方法および音声検出装置
JP3109978B2 (ja) * 1995-04-28 2000-11-20 松下電器産業株式会社 音声区間検出装置
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
JP4162604B2 (ja) * 2004-01-08 2008-10-08 株式会社東芝 雑音抑圧装置及び雑音抑圧方法
JP2006133284A (ja) * 2004-11-02 2006-05-25 Kddi Corp 音声情報抽出装置

Also Published As

Publication number Publication date
JP2009020460A (ja) 2009-01-29

Similar Documents

Publication Publication Date Title
CN108305615B (zh) 一种对象识别方法及其设备、存储介质、终端
EP1210711B1 (en) Sound source classification
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
EP0625774B1 (en) A method and an apparatus for speech detection
JP5050698B2 (ja) 音声処理装置およびプログラム
Kos et al. Acoustic classification and segmentation using modified spectral roll-off and variance-based features
US8036884B2 (en) Identification of the presence of speech in digital audio data
JP4220449B2 (ja) インデキシング装置、インデキシング方法およびインデキシングプログラム
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
EP2083417B1 (en) Sound processing device and program
JP2008175955A (ja) インデキシング装置、方法及びプログラム
JP5647455B2 (ja) 音声に含まれる吸気音を検出する装置、方法、及びプログラム
WO2018163279A1 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
JP4973352B2 (ja) 音声処理装置およびプログラム
JP5083951B2 (ja) 音声処理装置およびプログラム
JP4877114B2 (ja) 音声処理装置およびプログラム
JP5109050B2 (ja) 音声処理装置およびプログラム
JPH06110488A (ja) 音声検出方法および音声検出装置
JP7159655B2 (ja) 感情推定システムおよびプログラム
Grewal et al. Isolated word recognition system for English language
Zeng et al. Adaptive context recognition based on audio signal
US20240079027A1 (en) Synthetic voice detection method based on biological sound, recording medium and apparatus for performing the same
Gelling Bird song recognition using gmms and hmms
Balasubramaniyam et al. Feature based Speaker Embedding on conversational speeches
JP2006071956A (ja) 音声信号処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120626

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120709

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150803

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees