[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5083951B2 - 音声処理装置およびプログラム - Google Patents

音声処理装置およびプログラム Download PDF

Info

Publication number
JP5083951B2
JP5083951B2 JP2007184872A JP2007184872A JP5083951B2 JP 5083951 B2 JP5083951 B2 JP 5083951B2 JP 2007184872 A JP2007184872 A JP 2007184872A JP 2007184872 A JP2007184872 A JP 2007184872A JP 5083951 B2 JP5083951 B2 JP 5083951B2
Authority
JP
Japan
Prior art keywords
sections
section
cross
correlation value
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007184872A
Other languages
English (en)
Other versions
JP2009020458A (ja
Inventor
三樹夫 東山
道子 風間
靖雄 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Waseda University
Yamaha Corp
Original Assignee
Waseda University
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Waseda University, Yamaha Corp filed Critical Waseda University
Priority to JP2007184872A priority Critical patent/JP5083951B2/ja
Publication of JP2009020458A publication Critical patent/JP2009020458A/ja
Application granted granted Critical
Publication of JP5083951B2 publication Critical patent/JP5083951B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声信号を時間軸上で区分した複数の区間を発声者ごとに分類(クラスタリング)する技術に関する。
複数の発声者が随時に発声する環境(例えば会議)で収録された音声信号を発声者ごとに区分および分類できれば、例えば会議の議事録の作成などに利用できて便利である。特許文献1には、音声信号を時間軸上で区分した複数の区間の各々について音響的な特徴量を抽出し、特徴量の照合度(類似度)が閾値を上回る複数の区間を同じ発声者の音声信号として分類する技術が開示されている。
特開2005−321530号公報
しかし、特許文献1の技術においては、照合度を対比する閾値が固定値であるため、発声時の条件(例えば発声の長さやS/N比など)によっては各区間の音声信号を正確に分類できない場合がある。発声時の条件に応じて閾値を可変に制御することも考えられるが、発声時の多様な条件に応じて最適な閾値を設定することは困難である。以上の事情に鑑みて、本発明は、音声信号を区分した複数の区間を発声者ごとに正確に分類するという課題の解決を目的としている。
以上の課題を解決するために、本発明に係る音声処理装置は、音声信号を時間軸上で区分した複数の区間の各々について特徴量を抽出する特徴抽出手段と、複数の区間のなかから2個の区間を選択する複数の組合せについて、2個の区間における特徴量の相互相関値を算定し、複数の区間の各々(以下「選択区間」という)について、当該選択区間以外の各区間を、選択区間との相互相関値が大きい順番にソートする指標算定手段と、複数の区間の各々と当該区間に対するソート後の順位が最上位に位置する区間とが同じ集合に属するように、各区間の相互相関値に基づいて複数の区間を複数の集合に分類する音声分類手段とを具備する。以上の構成によれば、複数の区間の各々と当該区間に特徴量が最も類似する区間とが同じ集合に分類されるから、相互相関値と所定の閾値との比較は原理的には不要である。したがって、発声時の条件(例えば音声や雑音の音量)が分類の精度に与える影響を低減して複数の区間を正確に分類することが可能となる。
本発明の好適な態様において、指標算定手段は、2個の区間の特徴量の相互相関値を類否指標値として算定する。本態様によれば、類否指標値を算定する処理の負荷が低減されるという利点がある。もっとも、類否指標値は特徴量の相互相関値に限定されない。例えば、特徴抽出手段が、複数の区間の各々について音声信号の特徴ベクトルの時系列を特徴量として抽出する態様においては、2個の区間のうち一方の区間の特徴ベクトルの分布を複数の確率分布でモデル化した混合モデルから他方の区間の各特徴ベクトルが出現する尤度の平均値を指標算定手段が類否指標値として算定する構成や、2個の区間のうち一方の区間の特徴ベクトルの時系列をベクトル量子化したコードブックと他方の区間の各特徴ベクトルとのベクトル量子化歪の平均値を指標算定手段が類否指標値として算定する構成が採用される。
本発明の好適な態様において、音声分類手段は、複数の区間のうち、他の総ての区間の各々に対する類否指標値が非類似を示す区間(例えば、類似度の順位が所定値を下回る区間や類似度が他の各区間について最下位にある区間)を、他の総ての区間とは別個の集合に分類する。本態様によれば、例えばひとりの発声者がひとつの区間のみで発声したような場合であっても、当該発声の区間を他の区間とは別の集合に分類することが可能である。
本発明の好適な態様に係る音声処理装置は、音声信号の波形の包絡線における各谷部を境界として音声信号を複数の区間に区分する音声区分手段を具備する。本態様によれば、音声信号の包絡線の各谷部を境界として音声信号が複数の区間に区分されるから、例えば複数の発声者が殆ど間隔をあけずに順次に発声した場合であっても、各発声者による発声を別個の区間に区分することが可能である。したがって、音声分類部による分類の精度を高めることができる。
本発明に係る音声処理装置は、音声の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音声信号を時間軸上で区分した複数の区間の各々について特徴量を抽出する特徴抽出処理(例えば図3のステップS2)と、複数の区間のなかから2個の区間を選択する複数の組合せについて、2個の区間における特徴量の相互相関値を算定し、複数の区間の各々(以下「選択区間」という)について、当該選択区間以外の各区間を、選択区間との相互相関値が大きい順番にソートする指標算定処理(例えば図3のステップS5およびステップS6)と、複数の区間の各々と当該区間に対する前記ソート後の順位が最上位に位置する区間とが同じ集合に属するように、各区間の相互相関値に基づいて複数の区間を複数の集合に分類する音声分類処理(例えば図3のステップS8)とをコンピュータに実行させる。以上のプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
本発明は、音声を処理する方法としても特定される。本発明のひとつの態様に係る音声処理方法は、音声信号を時間軸上で区分した複数の区間の各々について特徴量を抽出する特徴抽出手順と、複数の区間のなかから2個の区間を選択する複数の組合せについて、2個の区間における特徴量の類否を示す類否指標値を算定する指標算定手順と、複数の区間の各々と当該区間に特徴量が最も類似する区間とが同じ集合に属するように、各区間の類否指標値に基づいて複数の区間を複数の集合に分類する音声分類手順とを含む。以上の方法によれば、本発明に係る音声処理装置と同様の作用および効果が奏される。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。同図に示すように、音声処理装置100は、制御装置10と記憶装置20とを具備するコンピュータシステムである。制御装置10は、プログラムを実行する演算処理装置である。記憶装置20は、制御装置10が実行するプログラムや制御装置10が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置20として任意に採用される。制御装置10には出力装置30が接続される。本形態の出力装置30は、制御装置10による制御のもとに各種の画像を表示する表示機器である。
記憶装置20は、音声の時間軸上における波形を表す音声信号Sを記憶する。本形態の音声信号Sが表す音声は、複数の参加者が随時に発言する会議において収音機器を利用して採取された音声である。図2には、音声信号Sの時間軸上の波形が例示されている。
図1の制御装置10は、記憶装置20に格納されたプログラムを実行することで音声信号Sから会議の議事録を作成する。議事録は、各参加者の発言の内容を参加者ごとに時系列で配列した会議の記録である。図1に示すように、制御装置10は、音声区分部12と分類処理部14と音声認識部16として機能する。なお、図1の制御装置10の各機能は、音声の処理に専用されるDSPなどの電子回路によっても実現される。また、制御装置10は、複数の集積回路に分散して実装されてもよい。
音声区分部12は、図2に示すように、時間軸に沿って音声信号Sを複数の区間Bに区分する。ひとつの区間Bは、ひとりの発声者が連続して発言した可能性が高いと推定される期間である。人間による一連の発話(特に会議における発言)には、一般的に、発話の開始点から音量が徐々に増加するとともに中途の時点から発話の終了点にかけて音量が徐々に減少するという傾向がある。以上の傾向を考慮して、本形態の音声区分部12は、図2に示すように、音声信号Sの波形の包絡線(エンベロープ)Eに現れる複数の谷部Dの各々を境界として音声信号Sを複数の区間Bに区分する。
以上の構成によれば、例えばひとりの発声者の発声の最後の部分と別の発声者の発声の最初の部分とが重複する場合や、複数の発声者が間隔をあけずに順次に発声した場合であっても、各発声者による発声を別個の区間Bに区分することが可能である。なお、以下では音声信号SがN個(Nは自然数)の区間Bに区分された場合を想定する。N個の区間Bの各々には固有の識別子(番号)が付与される。
図1の分類処理部14は、音声区分部12が音声信号Sを区分したN個の区間Bを発声者(会議の参加者)ごとに分類するための手段である。すなわち、音声信号Sのうち同じ発声者が発声した可能性の高い区間Bは共通の集合(クラスタ)に分類される。分類処理部14は、分類の結果を記憶装置20に格納する。すなわち、分類処理部14は、複数の発声者の各々の識別符号と、当該発声者のクラスタに分類された各区間Bの始点および終点の時刻と、当該各区間Bの音声信号Sとを対応させて記憶装置20に格納する。
図1の音声認識部16は、各クラスタに分類された音声信号Sの各区間Bに基づいて発声者ごとの発言の内容を文字として特定する。各区間Bの音声信号Sから文字を認識する処理には、公知の音声認識技術が任意に採用される。例えば、音声認識部16は、第1に、ひとつのクラスタに分類された各区間Bの音声信号Sの音響的な特徴量に応じて初期的な音響モデルを更新(話者適応)することで、当該クラスタに対応した発声者の特徴を固有に反映した音響モデルを生成し、第2に、話者適応後の音響モデルとクラスタ内の各区間Bの音声信号Sから抽出された特徴量とを対比することで、発声者が発言した文字を特定する。
制御装置10は、音声認識部16による処理の結果を出力装置30に出力する。出力装置30は、発言の時刻と、発声者の識別符号(例えば発声者の氏名)と、当該発声の内容について音声認識部16が特定した文字とが時系列に配列された議事録の画像を表示する。
次に、分類処理部14について詳述する。図1に示すように、分類処理部14は、特徴抽出部41と指標算定部43と音声分類部45とを含む。特徴抽出部41は、N個の区間Bの各々について音声信号Sの平均的なパワースペクトル(以下「平均パワースペクトル」という)を音響的な特徴量として抽出する。指標算定部43は、N個の区間Bから2個の区間Bを選択する総ての組合せ(N2通り)について、当該2個の区間Bにおける平均パワースペクトルの相互相関値Corを算定する。相互相関値Corは、2種類の平均パワースペクトルの形状の類否の指標となる数値(類否指標値)である。音声分類部45は、平均パワースペクトルが相互に類似する各区間Bが同じクラスタに属するように、各区間Bの相互相関値Corに基づいてN個の区間Bを複数のクラスタに分類(クラスタリング)する。
図3は、分類処理部14の具体的な動作を示すフローチャートである。議事録の作成の指示を契機として音声区分部12が音声信号SをN個の区間Bに区分すると図3の処理が開始される。特徴抽出部41はステップS1からステップS3を実行し、指標算定部43はステップS4からステップS7を実行し、音声分類部45はステップS8およびステップS9を実行する。
図3に示すように、特徴抽出部41は、N個のなかからひとつの区間Bを選択するとともに当該区間B内の音声信号Sを記憶装置20から取得する(ステップS1)。そして、特徴抽出部41は、ステップS1で選択した区間Bの平均パワースペクトルを特徴量として抽出する(ステップS2)。すなわち、特徴抽出部41は、区間Bを分割した複数のフレームの各々の音声信号SにFFT(Fast Fourier Transform)処理を含む周波数分析を実行することで各フレームのパワースペクトルを算定し、当該区間B内の総てのフレームについてパワースペクトルを平均化することで平均パワースペクトルを算定する。ステップS2で算定される平均パワースペクトルのうち特定の周波数における強度は、区間B内の各フレームのパワースペクトルにおける当該周波数での強度の平均値である。ステップS1およびステップS2の処理はN個の区間Bの各々について反復される(ステップS3)。以上の処理によってN個の区間Bの総てについて平均パワースペクトル(N種類)が算定されると、処理はステップS4に移行する。
ステップS4において、指標算定部43は、N個の区間Bのなかからひとつの区間B(以下では特に「選択区間B」という)を選択する。そして、指標算定部43は、選択区間Bの平均パワースペクトルと選択区間B以外の総て((N−1)個)の区間B(以下では選択区間Bと区別するために特に「対比区間B」と表記する場合がある)の各々の平均パワースペクトルとの相互相関値Corを類否指標値として算定する(ステップS5)。選択区間Bの平均パワースペクトルSPaとひとつの対比区間Bの平均パワースペクトルSPbとの相互相関値Corは、例えば以下の式(1)で算定される。
Figure 0005083951
式(1)におけるSPa(i)は、複数の周波数(または周波数帯域)のうち変数i(F1≦i≦F2)で指定される周波数における平均パワースペクトルSPaの強度であり、SPa_AVEは、周波数F1から周波数F2までの帯域における平均パワースペクトルSPaの強度の平均値である。同様に、SPb(i)は、変数iに対応した周波数における平均パワースペクトルSPbの強度であり、SPb_AVEは、周波数F1から周波数F2までの帯域における平均パワースペクトルSPbの強度の平均値である。平均パワースペクトルSPaと平均パワースペクトルSPbとが完全に合致する場合に相互相関値Corは最大値「1」となり、両者の相違が増大するほど相互相関値Corは減少していく。なお、周波数F1および周波数F2は、平均パワースペクトルにおいて発声者ごとの相違が顕著となり易い周波数帯域の下限値(F1)および上限値(F2)となるように統計的または実験的に設定される。
次いで、指標算定部43は、(N−1)個の対比区間Bの各々の識別子を、選択区間Bとの相互相関値Corが大きい順番(すなわち類似度が高い順番)にソートする(ステップS6)。例えば、識別子「1」の選択区間Bに対して識別子「13」の区間Bの相互相関値Corが最大値であって識別子「16」の区間Bの相互相関値Corが最小値であるとすれば、図4に示すように、識別子「1」の選択区間Bについては識別子「13」が最上位で識別子「16」が最下位となるように(N−1)個の識別子が配列される。
ステップS7において、指標算定部43は、N個の区間BについてステップS4からステップS6の処理を完了したか否かを判定する。ステップS7の結果が否定である場合、指標算定部43は、現段階とは別の区間Bを新たな選択区間Bとして選択したうえで(ステップS4)、(N−1)個の対比区間Bとの相互相関値Corの算定(ステップS5)と各対比区間Bの識別子の並べ替え(ステップS6)とを実行する。したがって、ステップS7の結果が肯定となる段階(すなわちN個の区間BについてステップS4からステップS6の処理が完了した段階)では、図4に示すように、N個(図4ではN=16)の区間Bの各々について、他の(N−1)個の区間Bの識別子を相互相関値Corの大きい順番に配列したテーブル(以下「類似度マップ」という)Mが完成する。
類似度マップMが作成されると、音声分類部45は、N個の区間Bの各々と当該区間Bに対する相互相関値Cor(類否指標値)が最大となる区間Bとが同じクラスタに属するように、類似度マップMを参照してN個の区間Bを複数のクラスタに分類する(ステップS8)。すなわち、音声分類部45は、ひとつの区間Bと、類似度マップMにて当該区間Bに対して最上位に位置する識別子の区間Bとを同じクラスタに含ませる。例えば、図4に例示した類似度マップMにおいて、識別子「1」の区間Bに対しては識別子「13」が最上位に位置し(すなわち識別子「1」の区間Bの平均パワースペクトルには識別子「13」の区間Bの平均パワースペクトルが最も類似する)、識別子「9」の区間Bに対しては識別子「13」が最上位に位置し、識別子「13」の区間Bに対しては識別子「9」が最上位に位置する。したがって、音声分類部45は、識別子「1」,「9」および「13」の3個の区間Bを同じクラスタG1に分類する。同様に、識別子「2」,「3」,「4」および「14」の4個の区間BはクラスタG2に分類され、識別子「5」および「10」の2個の区間BはクラスタG3に分類される。
ところで、ステップS8においては各区間Bに対する相互相関値Corが最大となる区間Bを同じクラスタに分類するから、例えばひとりの発声者がひとつの区間Bのみで発声した場合であっても、当該区間Bは、相互相関値Corが最大となる他の区間B(別の発声者が発声した区間B)と同じクラスタに分類される。そこで、音声分類部45は、N個の区間Bのうち自身以外の(N−1)個の区間Bに対する類似度が所定値を下回る順位にある区間B(他の区間との類似度が低い区間B)については、ステップS8にて分類されたクラスタから除外して単独でひとつのクラスタに分類する(ステップS9)。
例えば、図4の場合において、識別子「16」の区間Bに対しては識別子「12」が最上位にある(すなわち、N個の区間Bのなかでは識別子「12」の区間Bの平均パワースペクトルが識別子「16」の区間Bの平均パワースペクトルに類似する)から、ステップS8の段階では識別子「16」の区間Bは識別子「12」と同じクラスタG4に分類される。しかし、識別子「16」は、他の総ての識別子「1」〜「15」の区間Bに対して類似度マップMの最下位に設定されている。すなわち、識別子「16」の区間Bの平均パワースペクトルは、他の何れの区間Bの平均パワースペクトルに対しても相関が低い。したがって、音声分類部45は、識別子「16」の区間Bを、ステップS8にて分類されたクラスタG4から除外して独立のクラスタG6に分類する。以上の構成によれば、特定の発声者が発声した唯一の区間B(識別子「16」)を他の発声者のクラスタと混合することなく適切に分類することが可能である。
以上に説明したように、平均パワースペクトルの相互相関値Corが最大となる各区間Bは同じクラスタに分類されるから、相互相関値Corと所定の閾値との比較は不要である。したがって、発声時の条件に拘わらず各区間Bの音声信号Sを発声者ごとに正確に分類することが可能となり、会議における各発言が参加者ごとに忠実に区別された適切な議事録を作成することができる。
また、各選択区間Bとの相互相関値Corが最大となる区間Bが特定されるだけではなく、各区間Bに対する類似度の順位を示す類似度マップMが作成される。したがって、他の区間Bに対する類似度の順位が下位である区間B(例えば図4の識別子「16」の区間B)を図3のステップS9にてクラスタから除外するといった具合に、類似度マップMを参照することで各区間Bの分類の精度を高めることが可能となる。
なお、第1実施形態において相互相関値Corを算定する方法は適宜に変更される。例えば、平均パワースペクトルを周波数軸上で区分した複数の周波数帯域の各々における相互相関値の加算値(または加重和)を相互相関値Corとして算定してもよい。すなわち、指標算定部43は、平均パワースペクトル(SPa,SPb)における特定の帯域を対象として相互相関値Cor_aを算定するとともに別の帯域を対象として相互相関値Cor_bを算定し、両者の加算値や加重和を相互相関値Cor(Cor=α・Cor_a+β・Cor_b:αおよびβは定数)として演算する。以上の構成によれば、平均パワースペクトルのうち発声者ごとの相違が特に顕著に現れる帯域の特性を相互相関値Corに対して仔細かつ有効に反映させることが可能となる。
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。第1実施形態においては各区間Bの類否指標値として平均パワースペクトルの相互相関値Corを例示した。これに対して本形態においては、各区間Bの音声信号Sを表現する混合モデルと他の各区間Bの特徴量とを照合した結果(平均尤度)を類否指標値として採用する。なお、以下の各形態において作用や機能が第1実施形態と同様である要素については、図1と同じ符号を付して各々の詳細な説明を適宜に省略する。
特徴抽出部41は、図3のステップS2において、ステップS1で選択した区間Bの音声信号Sについて周波数分析を実行し、当該区間B内の各フレームにおけるMFCC(Mel Frequency Cepstral Coefficient)のベクトル(以下「特徴ベクトル」という)xの時系列を特徴量として抽出する。さらに、特徴抽出部41は、ステップS2において、区間B内の複数の特徴ベクトルxの分布をM個の正規分布の加重和としてモデル化する混合モデルλを生成する(Mは自然数)。混合モデルλの生成には、EM(Expectation-Maximization)アルゴリズムなど公知の技術が任意に採用される。以上の処理がN回にわたって反復されることで、音声区分部12が画定したN個の区間Bの各々について特徴ベクトルxの時系列と混合モデルλとが特定される。
混合モデルλは、例えば以下の式(2)で表現される。
λ={pi,μi,Σi} (i=1〜M) ……(2)
式(2)のpiは、第i番目の正規分布の加重値(重み値)である。加重値p1〜pMの総和は1である。式(2)のμiは第i番目の正規分布の平均ベクトルであり、Σiは第i番目の正規分布の共分散行列である。なお、式(2)のμiのように、実際にはベクトルを意味する記号であっても、当該記号がベクトルを意味することを例えば「平均ベクトル」という表現で明示したうえで、本明細書ではベクトルの記号(文字上の右向き矢印)を省略する。
図3のステップS5において、指標算定部43は、ステップS4で選択した選択区間Bの混合モデルλと、(N−1)個の各対比区間Bから抽出された特徴ベクトルxの時系列とに基づいて、(N−1)個の対比区間Bの各々について平均尤度Lを類否指標値として算定する。平均尤度Lは、以下に詳述するように、選択区間Bの混合モデルλから他の対比区間B内の特徴ベクトルxが出現する確率(尤度)を当該対比区間B内の複数の特徴ベクトルxについて平均した数値である。
いま、ひとつの特徴ベクトルxをD次元のベクトルとすると、混合モデルλから特徴ベクトルxが出現する尤度は以下の式(3)で算定される。
Figure 0005083951
指標算定部43は、選択区間B以外のひとつの対比区間Bについて特徴抽出部41が抽出したK個の特徴ベクトルx(x1〜xK)を式(4)に代入することで平均尤度L(対比区間Bの特徴ベクトルx1〜xKが選択区間Bの混合モデルλから出現する確率の平均値)を算定する。
Figure 0005083951
以上の説明から理解されるように、選択区間Bの音声信号Sと対比区間Bの音声信号Sとで特徴ベクトルxが類似するほど平均尤度Lは大きくなる。したがって、第1実施形態と同様に、指標算定部43は、図3のステップS6において、(N−1)個の対比区間Bの各々の識別子を、平均尤度Lが大きい順番(すなわち類似度が高い順番)にソートする。平均尤度Lの算定(ステップS5)と識別子のソート(ステップS6)とがN回にわたって反復されることで、第1実施形態と同様の類似度マップMが完成する。音声分類部45の動作(ステップS8およびステップS9)は第1実施形態と同様である。本形態においても第1実施形態と同様の効果が奏される。
<C:第3実施形態>
本発明の第3実施形態について説明する。本形態においては、各区間Bの音声信号Sをベクトル量子化したときのコードブックと他の各区間Bの特徴量とを対比した結果(VQ(Vector Quantization)歪)を類否指標値として採用する。
特徴抽出部41は、図3のステップS2において、ステップS1で選択した区間Bの音声信号Sについて第2実施形態と同様の方法で特徴ベクトルx(例えばMFCC)の時系列を特徴量として抽出し、当該区間B内の複数の特徴ベクトルxの時系列からコードブックCAを作成する。特徴ベクトルxのベクトル量子化には、k-means法やLBGアルゴリズムなど公知の技術が任意に採用される。ステップS2がN回にわたって反復されることで、音声区分部12が画定したN個の区間Bの各々について特徴ベクトルxの時系列とコードブックCAとが特定される。
図3のステップS5において、指標算定部43は、ステップS4で選択した選択区間BのコードブックCAと、(N−1)個の各対比区間Bの特徴ベクトルxとに基づいて、(N−1)個の対比区間Bの各々についてVQ歪Dを類否指標値として算定する。VQ歪Dは、例えば以下の式(5)で算定される。
Figure 0005083951
式(5)における|CA|は、選択区間BのコードブックCAのサイズであり、CA(i)は、コードブックCAにおける第i番目のコードベクトル(セントロイドベクトル)である。また、xjは、対比区間Bから抽出されたnB個(対比区間B内のフレーム数)の特徴ベクトルx1〜xnBのなかの第j番目(j=1〜nB)を意味する。d(X,Y)は、ベクトルXとベクトルYとのユークリッド距離である。すなわち、VQ歪Dは、選択区間BのコードブックCA内の|CA|個のセントロイドベクトルと対比区間Bの特徴ベクトルxとの最小値(min)をnB個の特徴ベクトルx1〜xnBにわたって平均化した数値である。したがって、選択区間Bの音声信号Sと対比区間Bの音声信号Sとで特徴ベクトルxが類似するほどVQ歪Dは小さくなる。
指標算定部43は、図3のステップS6において、(N−1)個の対比区間Bの各々の識別子を、VQ歪Dが小さい順番(すなわち類似度が高い順番)にソートする。VQ歪Dの算定(ステップS5)と識別子のソート(ステップS6)とがN回にわたって反復されることで第1実施形態と同様の類似度マップMが完成する。音声分類部45の動作は第1実施形態と同様である。本形態においても第1実施形態と同様の効果が奏される。
<D:変形例>
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
(1)変形例1
以上の各形態においては音声信号Sを区分したN個の区間Bの全部を分類の対象としたが、N個の区間Nを発音区間と非発音区間(音声を収録する環境内の雑音のみが存在する区間)とに選別し、発音区間のみを分類の対象としてもよい。音声区分部12は、例えば、N個の区間Bのうちピーク値が閾値を下回る区間Bを非発音区間として分類の対象から除外する。
(2)変形例2
以上の各形態によって区間Bの分類に閾値の使用が不要になるとは言っても、区間Bの分類に閾値を使用する構成を本発明の範囲から除外する趣旨ではない。例えば、ひとつの区間Bに最も類似する区間B(類似度マップMにおいて識別子が最上位に位置する区間B)を図3のステップS8にて選択すると、音声分類部45は、両者間の類否指標値が閾値を上回る場合(類似度が高い場合)に限って両区間Bを同じクラスタに分類し、類否指標値が閾値を下回る場合には同じクラスタに分類しない。本変形例においても、類否指標値と閾値とを比較した結果のみに基づいて各区間Bを分類する従来の構成と比較すると、音声信号Sの収録時の条件(例えば雑音の大小)が各区間Bの分類の精度に与える影響は低減される。
(3)変形例3
特徴抽出部41が抽出する特徴量は以上の例示に限定されない。例えば、第1実施形態において、特徴抽出部41は、区間B内の各フレームから抽出されたMFCCの当該区間Bにおける平均を、平均パワースペクトルの代わりに特徴量として抽出してもよい。また、第2実施形態や第3実施形態において、区間B内における音声信号Sの強度の平均値や最大値や基本周波数を特徴量として算定してもよい。
(4)変形例4
以上の各形態において、図3のステップS8に先立ってステップS9を実行してもよい。すなわち、音声分類部45は、N個の区間Bのうち自身以外の(N−1)個の区間Bに対する類似度が所定値を下回る順位にある区間Bを単独でひとつのクラスタに分類し(ステップS9)、当該区間B以外の区間B(すなわち他の何れかの区間Bとの類似度が所定の順位を上回る区間B)を対象としてステップS8の分類を実行する。
(5)変形例5
音声処理装置100が作成した議事録を印刷する印刷装置を出力装置30として採用してもよい。もっとも、音声処理装置100による処理の結果が議事録(文字)の形式で出力される必要はなく、例えば分類処理部14による分類の結果を出力することも可能である。例えば、音声区分部12が区分した複数の区間Bのうち利用者が指定した時刻を含む区間B内の音声信号Sを放音装置(例えばスピーカ)から音波として出力する構成によれば、利用者が各発声者の発言を選択的に聴取して適宜に確認しながら会議の議事録を作成するといった作業を有効に支援することが可能である。また、以上の形態においては音声区分部12が音声信号Sを複数の区間Bに区分する構成を例示したが、音声信号Sが複数の区間Bに事前に区分された状態で記憶装置20に格納されてもよい。以上のように、音声区分部12や音声認識部16は音声処理装置100にとって必須の要素ではない。
(6)変形例6
以上の各形態においては記憶装置20に予め記憶された音声信号Sを処理の対象としたが、収音装置(マイクロホン)から供給される音声信号Sや通信網を経由して順次に供給される音声信号Sを対象として実時間的に処理を実行してもよい。
本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。 音声区分部の動作の内容を示す概念図である。 音声分類部の動作の内容を示すフローチャートである。 類似度マップの内容を示す概念図である。
符号の説明
100……音声処理装置、10……制御装置、12……音声区分部、14……分類処理部、41……特徴抽出部、43……指標算定部、45……音声分類部、16……音声認識部、20……記憶装置、30……出力装置、S……音声信号、B……区間。

Claims (5)

  1. 音声信号を時間軸上で区分した複数の区間の各々について特徴量を抽出する特徴抽出手段と、
    前記複数の区間のなかから2個の区間を選択する複数の組合せについて、前記2個の区間における前記特徴量の相互相関値を算定し、複数の区間の各々(以下「選択区間」という)について、当該選択区間以外の各区間を、前記選択区間との相互相関値が大きい順番にソートする指標算定手段と、
    前記複数の区間の各々と当該区間に対する前記ソート後の順位が最上位に位置する区間とが同じ集合に属するように、前記各区間の相互相関値に基づいて前記複数の区間を複数の集合に分類する音声分類手段と
    を具備する音声処理装置。
  2. 前記音声分類手段は、前記複数の区間のうち、自身以外の各区間に対する相互相関値が所定値を下回る順位にある区間を、単独でひとつの集合に分類する
    請求項1の音声処理装置。
  3. 前記音声分類手段は、前記複数の区間のうち、自身以外の各区間に対する相互相関値が最下位である区間を、単独でひとつの集合に分類する
    請求項2の音声処理装置。
  4. 前記音声信号の波形の包絡線における各谷部を境界として前記音声信号を前記複数の区間に区分する音声区分手段
    を具備する請求項1から請求項3の何れかの音声処理装置。
  5. コンピュータに、
    音声信号を時間軸上で区分した複数の区間の各々について特徴量を抽出する特徴抽出処理と、
    前記複数の区間のなかから2個の区間を選択する複数の組合せについて、前記2個の区間における前記特徴量の相互相関値を算定し、複数の区間の各々(以下「選択区間」という)について、当該選択区間以外の各区間を、前記選択区間との相互相関値が大きい順番にソートする指標算定処理と、
    前記複数の区間の各々と当該区間に対する前記ソート後の順位が最上位に位置する区間とが同じ集合に属するように、前記各区間の相互相関値に基づいて前記複数の区間を複数の集合に分類する音声分類処理と
    を実行させるプログラム。
JP2007184872A 2007-07-13 2007-07-13 音声処理装置およびプログラム Expired - Fee Related JP5083951B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007184872A JP5083951B2 (ja) 2007-07-13 2007-07-13 音声処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007184872A JP5083951B2 (ja) 2007-07-13 2007-07-13 音声処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009020458A JP2009020458A (ja) 2009-01-29
JP5083951B2 true JP5083951B2 (ja) 2012-11-28

Family

ID=40360110

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007184872A Expired - Fee Related JP5083951B2 (ja) 2007-07-13 2007-07-13 音声処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5083951B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4967928B2 (ja) * 2007-08-27 2012-07-04 ヤマハ株式会社 音声処理装置およびプログラム
JP5347808B2 (ja) * 2009-07-30 2013-11-20 カシオ計算機株式会社 類似音声リスト生成装置、類似音声リスト生成方法及び類似音声リスト生成プログラム
JP6758890B2 (ja) * 2016-04-07 2020-09-23 キヤノン株式会社 音声判別装置、音声判別方法、コンピュータプログラム
CN113806354B (zh) * 2020-06-12 2023-12-22 第四范式(北京)技术有限公司 实现时序特征抽取的方法及装置
CN112185418B (zh) * 2020-11-12 2022-05-17 度小满科技(北京)有限公司 音频处理方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000298496A (ja) * 1999-04-14 2000-10-24 Hitachi Ltd パターン認識処理における認識結果棄却方法およびそれを実装したパターン認識装置
US20030236663A1 (en) * 2002-06-19 2003-12-25 Koninklijke Philips Electronics N.V. Mega speaker identification (ID) system and corresponding methods therefor
JP2005321530A (ja) * 2004-05-07 2005-11-17 Sony Corp 発話識別装置および発話識別方法
DE102004047068A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Gruppieren von zeitlichen Segmenten eines Musikstücks

Also Published As

Publication number Publication date
JP2009020458A (ja) 2009-01-29

Similar Documents

Publication Publication Date Title
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP6171544B2 (ja) 音声処理装置、音声処理方法及びプログラム
Wang et al. A gender mixture detection approach to unsupervised single-channel speech separation based on deep neural networks
JP2002014692A (ja) 音響モデル作成装置及びその方法
JP5050698B2 (ja) 音声処理装置およびプログラム
JPH1083194A (ja) 話し手照合システムのための2段階群選択方法
JP6501259B2 (ja) 音声処理装置及び音声処理方法
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
JP5083951B2 (ja) 音声処理装置およびプログラム
Nanavare et al. Recognition of human emotions from speech processing
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
JP4973352B2 (ja) 音声処理装置およびプログラム
JP4627154B2 (ja) 人間の感情状態に応じた音楽出力装置及び音楽出力方法
JP4877114B2 (ja) 音声処理装置およびプログラム
JP5091202B2 (ja) サンプルを用いずあらゆる言語を識別可能な識別方法
JP2011081324A (ja) ピッチ・クラスター・マップを用いた音声認識方法
JP5109050B2 (ja) 音声処理装置およびプログラム
Abushariah et al. Voice based automatic person identification system using vector quantization
JP2002062892A (ja) 音響分類装置
US7454337B1 (en) Method of modeling single data class from multi-class data
Sas et al. Gender recognition using neural networks and ASR techniques
Zeng et al. Adaptive context recognition based on audio signal
JPWO2020049687A1 (ja) 音声処理装置、音声処理方法、およびプログラム
JP2991288B2 (ja) 話者認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100610

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120831

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150914

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees