JP5050698B2 - 音声処理装置およびプログラム - Google Patents
音声処理装置およびプログラム Download PDFInfo
- Publication number
- JP5050698B2 JP5050698B2 JP2007184874A JP2007184874A JP5050698B2 JP 5050698 B2 JP5050698 B2 JP 5050698B2 JP 2007184874 A JP2007184874 A JP 2007184874A JP 2007184874 A JP2007184874 A JP 2007184874A JP 5050698 B2 JP5050698 B2 JP 5050698B2
- Authority
- JP
- Japan
- Prior art keywords
- section
- sound
- sounding
- acoustic model
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Description
他の態様の音声処理装置は、各発音区間の直前の非発音区間内の音声信号の特性に応じて第2閾値を可変に設定する第2閾値設定手段と、各発音区間におけるフレームの総数に対する当該発音区間内の有声音のフレームの個数の割合が、第2閾値設定手段が当該発音区間について設定した第2閾値を上回るか否かを発音区間ごとに判定する有声判定手段とを具備し、区間選別手段は、音響モデルに相関すると相関判定手段が判定し、かつ、有声音のフレームの個数の割合が第2閾値を上回ると有声判定手段が判定した発音区間を有効区間に選定し、音響モデルに相関しないと相関判定手段が判定し、または、有声音のフレームの個数の割合が第2閾値を上回らないと有声判定手段が判定した発音区間を棄却区間に選定する。以上の構成によれば、有声音のフレームの個数の割合が第2閾値を上回る区間が有効区間に選定されるから、目的音に類似する雑音の区間を棄却区間に選別することが可能である。
図1は、本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。同図に示すように、音声処理装置100は、制御装置10と記憶装置20とを具備するコンピュータシステムである。制御装置10は、プログラムを実行する演算処理装置である。記憶装置20は、制御装置10が実行するプログラムや制御装置10が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置20として任意に採用される。制御装置10には出力装置30が接続される。本形態の出力装置30は、制御装置10による制御のもとに各種の画像を表示する表示機器である。
λ={pi,μi,Σi} (i=1〜M) ……(1)
式(1)のpiは、第i番目の正規分布の加重値(重み値)である。加重値p1〜pMの総和は1である。式(1)のμiは第i番目の正規分布の平均ベクトルであり、Σiは第i番目の正規分布の共分散行列である。なお、式(1)のμiのように、実際にはベクトルを意味する記号であっても、当該記号がベクトルを意味することを例えば「平均ベクトル」という表現で明示したうえで、本明細書ではベクトルの記号(文字上の右向き矢印)を省略する。
次に、本発明の第2実施形態について説明する。本形態においては、第1実施形態における平均尤度Lに代えて、VQ(Vector Quantization)歪を音響モデルと音声信号Sとの相関指標値として採用する。なお、以下の各形態において機能や作用が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
以上の各形態においては、発音区間PAの各フレームFから抽出された特徴量(特徴ベクトルx)を有声音および無声音の何れであるかに拘わらず音響モデルと対比したが、発音区間PAのうち有声音のフレームFから抽出された特徴量のみを音響モデルと対比する構成も採用される。記憶装置20に格納される音響モデルは、試料となる音声から無声音の区間や無音の区間を除外した有声音の区間内の特徴量に基づいて生成される。選別処理部13は、選択区間PA_S内の複数のフレームFのうち有声音のフレームFから抽出された特徴量のみを利用して図3のステップS4にて平均尤度L(第2実施形態ではVQ歪D)を算定し、音響モデルと選択区間PA_S内の音声信号Sとの相関の有無をステップS5にて判定する。雑音と目的音とは有声音の特性に関して特に相違が顕著であるから、以上の変形例のように発音区間Pのうち有声音のフレームFのみを音響モデルとの対比に使用する構成によれば、ステップS5における判定の正確性を高めることができる。
以上の形態においては、選択区間PA_Sの直前の非発音区間PBにおける雑音レベルに基づいて閾値TH1を設定したが(ステップS3)、閾値TH1の設定の基準は適宜に変更される。例えば、音声信号Sのうち先頭の非発音区間PBにおける雑音レベルに基づいて閾値TH1を設定し、各発音区間PAを選別するステップS5にて当該閾値TH1を共通に適用する構成も採用される。もっとも、選択区間PA_Sの直前にある非発音区間PBの雑音レベルを当該選択区間PA_Sの選別に適用する第1実施形態の構成によれば、音声信号Sの途中の時点で雑音レベルが変化した場合であっても、変化後の雑音レベルに応じて閾値TH1が更新されるから、ステップS5における選別の精度が低下する可能性は低減される。
以上の各形態においてはひとつの音響モデルを利用したが、複数の音響モデルを選択的に利用して発音区間PAを有効区間PA1と棄却区間PA2とに選別してもよい。例えば、平均ピッチが相違する複数種の音声から生成された複数の音響モデルを事前に作成して記憶装置20に格納する。図3のステップS4において、選別処理部13は、選択区間PA_S内の音声信号Sのピッチ(平均ピッチ)を検出し、複数の音響モデルのうち当該ピッチに対応した音響モデルを使用して平均尤度L(第2実施形態ではVQ歪D)を算定する。以上の構成によれば、男性の発声音と女性の発声音とが混在する場合のように音声信号Sが多様なピッチの音声を含む場合であっても、発音区間PAを正確に有効区間PA1と棄却区間PA2とに選別することが可能である。
音声区分部12が音声信号Sを区分する方法は以上の例示に限定されない。例えば、音声信号SのSN比や音量に応じて音声信号Sを発音区間PAおよび非発音区間PBに区分する第1処理と、包絡線Eの谷部Dを境界として音声信号Sを区分する第2処理との一方のみを実行してもよい。また、音声信号Sの特性とは無関係に設定された固定または可変の時間長の区間ごとに音声信号Sを区分する構成も採用される。すなわち、発音区間PAと非発音区間PBとの区分は本発明の形態において必須ではない。
以上の各形態においては、音響モデルに対する相関指標値(平均尤度LやVQ歪D)を利用したステップS5の判定と、有声音のフレームFの割合Rを利用したステップS9の判定とを実行した。しかし、ステップS5の判定の結果のみに基づいて各発音区間PAを有効区間PA1と棄却区間PA2とに選別する構成(すなわち図3のステップS7からステップS9を省略した構成)も採用される。また、ステップS9の判定のみに基づいて各発音区間PAを有効区間PA1と棄却区間PA2とに選別する構成(すなわち図3のステップS3からステップS5を省略した構成)も採用される。
音声処理装置100が作成した議事録を印刷する印刷装置を出力装置30として採用してもよい。もっとも、音声処理装置100による処理の結果が議事録(文字)の形式で出力される必要はなく、例えば音声分類部14による分類の結果を出力することも可能である。例えば、音声分類部14が分類した複数の有効区間PA1のうち利用者が指定した時刻を含む有効区間PA1内の音声信号Sを放音装置(例えばスピーカ)から音波として出力する構成によれば、利用者が各発声者の発言を選択的に聴取して適宜に確認しながら会議の議事録を作成するといった作業を有効に支援することが可能である。また、選別処理部13が発音区間PAを有効区間PA1と棄却区間PA2とに選別した結果を音声処理装置100から外部装置に出力する構成も採用される。外部装置においては、音声処理装置100からの出力に対して図1の音声分類部14と同様の処理や他の適切な処理が実行される。例えば、複数の発音区間PAのうち選別処理部13が選別した有効区間PA1のみを選択的に外部装置に出力し、各有効区間PA1を対象として所定の処理(発声者ごとの分類や音声認識)が外部装置にて実行される。以上のように、音声分類部14や音声認識部16は音声処理装置100にとって必須の要素ではない。
以上の各形態においては記憶装置20に予め記憶された音声信号Sを処理の対象としたが、収音装置(マイクロホン)から供給される音声信号Sや通信網を経由して順次に供給される音声信号Sを対象として実時間的に処理を実行してもよい。また、音声信号Sが表す音響の種類は本発明において任意である。例えば、特定の楽器の演奏音を目的音とする音響モデルが記憶装置20に格納された構成によれば、当該楽器の演奏会にて収録された音声区間Sから目的音以外の音声(例えば拍手音の区間)の区間を棄却区間PA2として除外することが可能である。
Claims (4)
- 人間の発声音の特徴量の分布を示す音響モデルを記憶する記憶手段と、
音声信号を時間軸上で発音区間と非発音区間とに区分し、前記音声信号の波形の包絡線における谷部を境界として各発音区間を時間軸上で区分する音声区分手段と、
前記音響モデルと前記各発音区間内の音声信号の特徴量との相関の有無を発音区間ごとに判定する相関判定手段と、
前記複数の発音区間のうち前記音響モデルに相関すると判定された発音区間を有効区間に選定し、前記音響モデルに相関しないと判定された発音区間を棄却区間に選定する区間選別手段と
を具備する音声処理装置。 - 前記各発音区間の直前の前記非発音区間内の音声信号の特性に応じて第1閾値を可変に設定する第1閾値設定手段を具備し、
前記相関判定手段は、前記音響モデルと前記各発音区間内の音声信号の特徴量との相関の指標値を、前記第1閾値設定手段が当該発音区間について設定した前記第1閾値と比較することで、前記音響モデルと前記各発音区間内の音声信号の特徴量との相関の有無を発音区間ごとに判定する
請求項1の音声処理装置。 - 前記各発音区間の直前の非発音区間内の音声信号の特性に応じて第2閾値を可変に設定する第2閾値設定手段と、
前記各発音区間におけるフレームの総数に対する当該発音区間内の有声音のフレームの個数の割合が、前記第2閾値設定手段が当該発音区間について設定した前記第2閾値を上回るか否かを前記発音区間ごとに判定する有声判定手段とを具備し、
前記区間選別手段は、前記音響モデルに相関すると前記相関判定手段が判定し、かつ、有声音のフレームの個数の割合が前記第2閾値を上回ると前記有声判定手段が判定した発音区間を有効区間に選定し、前記音響モデルに相関しないと前記相関判定手段が判定し、または、有声音のフレームの個数の割合が前記第2閾値を上回らないと前記有声判定手段が判定した発音区間を棄却区間に選定する
請求項1の音声処理装置。 - 人間の発声音の特徴量の分布を示す音響モデルを記憶する記憶手段を具備するコンピュータに、
音声信号を時間軸上で発音区間と非発音区間とに区分し、前記音声信号の波形の包絡線における谷部を境界として各発音区間を時間軸上で区分する音声区分処理と、
前記音響モデルと前記各発音区間内の音声信号の特徴量との相関の有無を発音区間ごとに判定する相関判定処理と、
前記複数の発音区間のうち前記音響モデルに相関すると判定された発音区間を有効区間に選定し、前記音響モデルに相関しないと判定された発音区間を棄却区間に選定する区間選別処理と
を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007184874A JP5050698B2 (ja) | 2007-07-13 | 2007-07-13 | 音声処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007184874A JP5050698B2 (ja) | 2007-07-13 | 2007-07-13 | 音声処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009020460A JP2009020460A (ja) | 2009-01-29 |
JP5050698B2 true JP5050698B2 (ja) | 2012-10-17 |
Family
ID=40360112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007184874A Expired - Fee Related JP5050698B2 (ja) | 2007-07-13 | 2007-07-13 | 音声処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5050698B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4967928B2 (ja) * | 2007-08-27 | 2012-07-04 | ヤマハ株式会社 | 音声処理装置およびプログラム |
JP5605574B2 (ja) * | 2009-02-13 | 2014-10-15 | 日本電気株式会社 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
JP5385876B2 (ja) * | 2010-08-30 | 2014-01-08 | 日本電信電話株式会社 | 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体 |
JP5614261B2 (ja) | 2010-11-25 | 2014-10-29 | 富士通株式会社 | 雑音抑制装置、雑音抑制方法、及びプログラム |
JP6794925B2 (ja) * | 2017-05-29 | 2020-12-02 | 京セラドキュメントソリューションズ株式会社 | 情報処理システム |
JP7331523B2 (ja) * | 2019-07-24 | 2023-08-23 | 富士通株式会社 | 検出プログラム、検出方法、検出装置 |
JP7333878B2 (ja) * | 2021-02-05 | 2023-08-25 | 三菱電機株式会社 | 信号処理装置、信号処理方法、及び信号処理プログラム |
CN114242116B (zh) * | 2022-01-05 | 2024-08-02 | 成都锦江电子系统工程有限公司 | 一种语音的话音与非话音的综合判决方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61138299A (ja) * | 1984-12-10 | 1986-06-25 | 日本電信電話株式会社 | 音声区間検出方式 |
JPH0754435B2 (ja) * | 1987-08-27 | 1995-06-07 | 松下電器産業株式会社 | 音声認識方法 |
JPH04369695A (ja) * | 1991-06-19 | 1992-12-22 | Matsushita Electric Ind Co Ltd | 音声判別装置 |
JP2797861B2 (ja) * | 1992-09-30 | 1998-09-17 | 松下電器産業株式会社 | 音声検出方法および音声検出装置 |
JP3109978B2 (ja) * | 1995-04-28 | 2000-11-20 | 松下電器産業株式会社 | 音声区間検出装置 |
JP4308345B2 (ja) * | 1998-08-21 | 2009-08-05 | パナソニック株式会社 | マルチモード音声符号化装置及び復号化装置 |
JP4162604B2 (ja) * | 2004-01-08 | 2008-10-08 | 株式会社東芝 | 雑音抑圧装置及び雑音抑圧方法 |
JP2006133284A (ja) * | 2004-11-02 | 2006-05-25 | Kddi Corp | 音声情報抽出装置 |
-
2007
- 2007-07-13 JP JP2007184874A patent/JP5050698B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009020460A (ja) | 2009-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305615B (zh) | 一种对象识别方法及其设备、存储介质、终端 | |
EP1210711B1 (en) | Sound source classification | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
EP0625774B1 (en) | A method and an apparatus for speech detection | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
Kos et al. | Acoustic classification and segmentation using modified spectral roll-off and variance-based features | |
US8036884B2 (en) | Identification of the presence of speech in digital audio data | |
JP4220449B2 (ja) | インデキシング装置、インデキシング方法およびインデキシングプログラム | |
JP7342915B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
EP2083417B1 (en) | Sound processing device and program | |
JP2008175955A (ja) | インデキシング装置、方法及びプログラム | |
JP5647455B2 (ja) | 音声に含まれる吸気音を検出する装置、方法、及びプログラム | |
WO2018163279A1 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
JP4973352B2 (ja) | 音声処理装置およびプログラム | |
JP5083951B2 (ja) | 音声処理装置およびプログラム | |
JP4877114B2 (ja) | 音声処理装置およびプログラム | |
JP5109050B2 (ja) | 音声処理装置およびプログラム | |
JPH06110488A (ja) | 音声検出方法および音声検出装置 | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
Grewal et al. | Isolated word recognition system for English language | |
Zeng et al. | Adaptive context recognition based on audio signal | |
US20240079027A1 (en) | Synthetic voice detection method based on biological sound, recording medium and apparatus for performing the same | |
Gelling | Bird song recognition using gmms and hmms | |
Balasubramaniyam et al. | Feature based Speaker Embedding on conversational speeches | |
JP2006071956A (ja) | 音声信号処理装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100520 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110822 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120626 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120709 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150803 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |