JP5083951B2 - 音声処理装置およびプログラム - Google Patents
音声処理装置およびプログラム Download PDFInfo
- Publication number
- JP5083951B2 JP5083951B2 JP2007184872A JP2007184872A JP5083951B2 JP 5083951 B2 JP5083951 B2 JP 5083951B2 JP 2007184872 A JP2007184872 A JP 2007184872A JP 2007184872 A JP2007184872 A JP 2007184872A JP 5083951 B2 JP5083951 B2 JP 5083951B2
- Authority
- JP
- Japan
- Prior art keywords
- sections
- section
- cross
- correlation value
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
図1は、本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。同図に示すように、音声処理装置100は、制御装置10と記憶装置20とを具備するコンピュータシステムである。制御装置10は、プログラムを実行する演算処理装置である。記憶装置20は、制御装置10が実行するプログラムや制御装置10が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置20として任意に採用される。制御装置10には出力装置30が接続される。本形態の出力装置30は、制御装置10による制御のもとに各種の画像を表示する表示機器である。
次に、本発明の第2実施形態について説明する。第1実施形態においては各区間Bの類否指標値として平均パワースペクトルの相互相関値Corを例示した。これに対して本形態においては、各区間Bの音声信号Sを表現する混合モデルと他の各区間Bの特徴量とを照合した結果(平均尤度)を類否指標値として採用する。なお、以下の各形態において作用や機能が第1実施形態と同様である要素については、図1と同じ符号を付して各々の詳細な説明を適宜に省略する。
λ={pi,μi,Σi} (i=1〜M) ……(2)
式(2)のpiは、第i番目の正規分布の加重値(重み値)である。加重値p1〜pMの総和は1である。式(2)のμiは第i番目の正規分布の平均ベクトルであり、Σiは第i番目の正規分布の共分散行列である。なお、式(2)のμiのように、実際にはベクトルを意味する記号であっても、当該記号がベクトルを意味することを例えば「平均ベクトル」という表現で明示したうえで、本明細書ではベクトルの記号(文字上の右向き矢印)を省略する。
本発明の第3実施形態について説明する。本形態においては、各区間Bの音声信号Sをベクトル量子化したときのコードブックと他の各区間Bの特徴量とを対比した結果(VQ(Vector Quantization)歪)を類否指標値として採用する。
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
以上の各形態においては音声信号Sを区分したN個の区間Bの全部を分類の対象としたが、N個の区間Nを発音区間と非発音区間(音声を収録する環境内の雑音のみが存在する区間)とに選別し、発音区間のみを分類の対象としてもよい。音声区分部12は、例えば、N個の区間Bのうちピーク値が閾値を下回る区間Bを非発音区間として分類の対象から除外する。
以上の各形態によって区間Bの分類に閾値の使用が不要になるとは言っても、区間Bの分類に閾値を使用する構成を本発明の範囲から除外する趣旨ではない。例えば、ひとつの区間Bに最も類似する区間B(類似度マップMにおいて識別子が最上位に位置する区間B)を図3のステップS8にて選択すると、音声分類部45は、両者間の類否指標値が閾値を上回る場合(類似度が高い場合)に限って両区間Bを同じクラスタに分類し、類否指標値が閾値を下回る場合には同じクラスタに分類しない。本変形例においても、類否指標値と閾値とを比較した結果のみに基づいて各区間Bを分類する従来の構成と比較すると、音声信号Sの収録時の条件(例えば雑音の大小)が各区間Bの分類の精度に与える影響は低減される。
特徴抽出部41が抽出する特徴量は以上の例示に限定されない。例えば、第1実施形態において、特徴抽出部41は、区間B内の各フレームから抽出されたMFCCの当該区間Bにおける平均を、平均パワースペクトルの代わりに特徴量として抽出してもよい。また、第2実施形態や第3実施形態において、区間B内における音声信号Sの強度の平均値や最大値や基本周波数を特徴量として算定してもよい。
以上の各形態において、図3のステップS8に先立ってステップS9を実行してもよい。すなわち、音声分類部45は、N個の区間Bのうち自身以外の(N−1)個の区間Bに対する類似度が所定値を下回る順位にある区間Bを単独でひとつのクラスタに分類し(ステップS9)、当該区間B以外の区間B(すなわち他の何れかの区間Bとの類似度が所定の順位を上回る区間B)を対象としてステップS8の分類を実行する。
音声処理装置100が作成した議事録を印刷する印刷装置を出力装置30として採用してもよい。もっとも、音声処理装置100による処理の結果が議事録(文字)の形式で出力される必要はなく、例えば分類処理部14による分類の結果を出力することも可能である。例えば、音声区分部12が区分した複数の区間Bのうち利用者が指定した時刻を含む区間B内の音声信号Sを放音装置(例えばスピーカ)から音波として出力する構成によれば、利用者が各発声者の発言を選択的に聴取して適宜に確認しながら会議の議事録を作成するといった作業を有効に支援することが可能である。また、以上の形態においては音声区分部12が音声信号Sを複数の区間Bに区分する構成を例示したが、音声信号Sが複数の区間Bに事前に区分された状態で記憶装置20に格納されてもよい。以上のように、音声区分部12や音声認識部16は音声処理装置100にとって必須の要素ではない。
以上の各形態においては記憶装置20に予め記憶された音声信号Sを処理の対象としたが、収音装置(マイクロホン)から供給される音声信号Sや通信網を経由して順次に供給される音声信号Sを対象として実時間的に処理を実行してもよい。
Claims (5)
- 音声信号を時間軸上で区分した複数の区間の各々について特徴量を抽出する特徴抽出手段と、
前記複数の区間のなかから2個の区間を選択する複数の組合せについて、前記2個の区間における前記特徴量の相互相関値を算定し、複数の区間の各々(以下「選択区間」という)について、当該選択区間以外の各区間を、前記選択区間との相互相関値が大きい順番にソートする指標算定手段と、
前記複数の区間の各々と当該区間に対する前記ソート後の順位が最上位に位置する区間とが同じ集合に属するように、前記各区間の相互相関値に基づいて前記複数の区間を複数の集合に分類する音声分類手段と
を具備する音声処理装置。 - 前記音声分類手段は、前記複数の区間のうち、自身以外の各区間に対する相互相関値が所定値を下回る順位にある区間を、単独でひとつの集合に分類する
請求項1の音声処理装置。 - 前記音声分類手段は、前記複数の区間のうち、自身以外の各区間に対する相互相関値が最下位である区間を、単独でひとつの集合に分類する
請求項2の音声処理装置。 - 前記音声信号の波形の包絡線における各谷部を境界として前記音声信号を前記複数の区間に区分する音声区分手段
を具備する請求項1から請求項3の何れかの音声処理装置。 - コンピュータに、
音声信号を時間軸上で区分した複数の区間の各々について特徴量を抽出する特徴抽出処理と、
前記複数の区間のなかから2個の区間を選択する複数の組合せについて、前記2個の区間における前記特徴量の相互相関値を算定し、複数の区間の各々(以下「選択区間」という)について、当該選択区間以外の各区間を、前記選択区間との相互相関値が大きい順番にソートする指標算定処理と、
前記複数の区間の各々と当該区間に対する前記ソート後の順位が最上位に位置する区間とが同じ集合に属するように、前記各区間の相互相関値に基づいて前記複数の区間を複数の集合に分類する音声分類処理と
を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007184872A JP5083951B2 (ja) | 2007-07-13 | 2007-07-13 | 音声処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007184872A JP5083951B2 (ja) | 2007-07-13 | 2007-07-13 | 音声処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009020458A JP2009020458A (ja) | 2009-01-29 |
JP5083951B2 true JP5083951B2 (ja) | 2012-11-28 |
Family
ID=40360110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007184872A Expired - Fee Related JP5083951B2 (ja) | 2007-07-13 | 2007-07-13 | 音声処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5083951B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4967928B2 (ja) * | 2007-08-27 | 2012-07-04 | ヤマハ株式会社 | 音声処理装置およびプログラム |
JP5347808B2 (ja) * | 2009-07-30 | 2013-11-20 | カシオ計算機株式会社 | 類似音声リスト生成装置、類似音声リスト生成方法及び類似音声リスト生成プログラム |
JP6758890B2 (ja) * | 2016-04-07 | 2020-09-23 | キヤノン株式会社 | 音声判別装置、音声判別方法、コンピュータプログラム |
CN113806354B (zh) * | 2020-06-12 | 2023-12-22 | 第四范式(北京)技术有限公司 | 实现时序特征抽取的方法及装置 |
CN112185418B (zh) * | 2020-11-12 | 2022-05-17 | 度小满科技(北京)有限公司 | 音频处理方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000298496A (ja) * | 1999-04-14 | 2000-10-24 | Hitachi Ltd | パターン認識処理における認識結果棄却方法およびそれを実装したパターン認識装置 |
US20030236663A1 (en) * | 2002-06-19 | 2003-12-25 | Koninklijke Philips Electronics N.V. | Mega speaker identification (ID) system and corresponding methods therefor |
JP2005321530A (ja) * | 2004-05-07 | 2005-11-17 | Sony Corp | 発話識別装置および発話識別方法 |
DE102004047068A1 (de) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Gruppieren von zeitlichen Segmenten eines Musikstücks |
-
2007
- 2007-07-13 JP JP2007184872A patent/JP5083951B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009020458A (ja) | 2009-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
JP7342915B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP6171544B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
Wang et al. | A gender mixture detection approach to unsupervised single-channel speech separation based on deep neural networks | |
JP2002014692A (ja) | 音響モデル作成装置及びその方法 | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
JPH1083194A (ja) | 話し手照合システムのための2段階群選択方法 | |
JP6501259B2 (ja) | 音声処理装置及び音声処理方法 | |
Das et al. | Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model | |
JP5083951B2 (ja) | 音声処理装置およびプログラム | |
Nanavare et al. | Recognition of human emotions from speech processing | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
JP4973352B2 (ja) | 音声処理装置およびプログラム | |
JP4627154B2 (ja) | 人間の感情状態に応じた音楽出力装置及び音楽出力方法 | |
JP4877114B2 (ja) | 音声処理装置およびプログラム | |
JP5091202B2 (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 | |
JP2011081324A (ja) | ピッチ・クラスター・マップを用いた音声認識方法 | |
JP5109050B2 (ja) | 音声処理装置およびプログラム | |
Abushariah et al. | Voice based automatic person identification system using vector quantization | |
JP2002062892A (ja) | 音響分類装置 | |
US7454337B1 (en) | Method of modeling single data class from multi-class data | |
Sas et al. | Gender recognition using neural networks and ASR techniques | |
Zeng et al. | Adaptive context recognition based on audio signal | |
JPWO2020049687A1 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP2991288B2 (ja) | 話者認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100610 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100611 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120223 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120828 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120831 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150914 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |