JP2000163098A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP2000163098A JP2000163098A JP10334201A JP33420198A JP2000163098A JP 2000163098 A JP2000163098 A JP 2000163098A JP 10334201 A JP10334201 A JP 10334201A JP 33420198 A JP33420198 A JP 33420198A JP 2000163098 A JP2000163098 A JP 2000163098A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- noise
- word
- power
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 従来の音声認識装置では、高騒音環境下では
音声区間を正しく検出できず、認識率が低下する等の問
題があった。また、音声入力時にトリガボタン等の操作
を要し、操作が面倒であった。 【解決手段】 非音声区間から推定した騒音スペクトル
を用いて混入する騒音成分を除去し、音声パワーとして
音声帯域のみのパワーを使用して音声区間を検出する。
さらに、尤度算出結果の最上位単語と次候補単語との尤
度差を用いて最終的な認識結果を出力する。
音声区間を正しく検出できず、認識率が低下する等の問
題があった。また、音声入力時にトリガボタン等の操作
を要し、操作が面倒であった。 【解決手段】 非音声区間から推定した騒音スペクトル
を用いて混入する騒音成分を除去し、音声パワーとして
音声帯域のみのパワーを使用して音声区間を検出する。
さらに、尤度算出結果の最上位単語と次候補単語との尤
度差を用いて最終的な認識結果を出力する。
Description
【0001】
【発明の属する技術分野】この発明は、工事現場や災害
地等で使用される車両や防衛用車両のように主として不
整地で使用される車両のように、高騒音かつ揺動の大き
な環境下で電子機器を操作するのに利用する音声認識装
置に関するものである。
地等で使用される車両や防衛用車両のように主として不
整地で使用される車両のように、高騒音かつ揺動の大き
な環境下で電子機器を操作するのに利用する音声認識装
置に関するものである。
【0002】
【従来の技術】工事現場や災害地等で使用される車両や
防衛用車両のように主として不整地で使用される車両で
は、一般にエンジン音等の騒音が大きく一般乗用車に比
べ車内の静寂性は劣っている。また、災害地や演習場等
の不整地の使用では大きな揺動をともない、体を支える
ため両手が自由にならないことが多い。そのような状況
では、ボタン、スイッチ等を有する機器の操作に不自由
することがある。近年、カーエレクトロニクスの技術の
発達によりカーナビゲーションシステムの普及も著し
く、そのような車両においてもカーナビゲーションシス
テムや情報表示装置の様なシステムの搭載が要望されて
いる。しかしながら、前述のように災害地派遣車両や防
衛用車両等の過酷な使用環境においては、手による複雑
なボタン、スイッチ操作は困難である。そこで、手を使
わずに音声でさまざまな電子機器が操作できれば便利で
ある。したがって、高騒音かつ揺動の大きな過酷な環境
下で使用される車両においても利用可能な音声認識装置
が要望されている。図10は一般車両に設置された音声
認識装置の設置状況を示しており、30は音声認識装
置、40は音声認識装置で操作するカーナビ等のコント
ローラ、50はカーナビ等のモニタを示している。ここ
で、30の音声認識装置を図9に詳しく示している。図
9において、1aは音声を入力するマイク、1bは環境
騒音を拾うマイク、11は音声を入力する際に操作する
トリガボタン、2は入力信号から入力パワー等を算出す
る音響分析手段、4は騒音データから騒音スペクトルを
推定する騒音スペクトル推定手段、5は推定した騒音ス
ペクトルを用いて入力信号から騒音成分を除去する騒音
除去手段、3は騒音成分を除去した入力パワーを用いて
音声区間を検出する音声区間検出手段、6は除去された
音声データから特徴ベクトルを抽出する単語特徴ベクト
ル抽出手段、7は認識される登録単語の特徴ベクトルを
記憶した登録単語辞書、8は抽出した特徴ベクトルを登
録単語と比較してその尤度を算出し最上位単語を認識結
果として出力する音声認識手段である。
防衛用車両のように主として不整地で使用される車両で
は、一般にエンジン音等の騒音が大きく一般乗用車に比
べ車内の静寂性は劣っている。また、災害地や演習場等
の不整地の使用では大きな揺動をともない、体を支える
ため両手が自由にならないことが多い。そのような状況
では、ボタン、スイッチ等を有する機器の操作に不自由
することがある。近年、カーエレクトロニクスの技術の
発達によりカーナビゲーションシステムの普及も著し
く、そのような車両においてもカーナビゲーションシス
テムや情報表示装置の様なシステムの搭載が要望されて
いる。しかしながら、前述のように災害地派遣車両や防
衛用車両等の過酷な使用環境においては、手による複雑
なボタン、スイッチ操作は困難である。そこで、手を使
わずに音声でさまざまな電子機器が操作できれば便利で
ある。したがって、高騒音かつ揺動の大きな過酷な環境
下で使用される車両においても利用可能な音声認識装置
が要望されている。図10は一般車両に設置された音声
認識装置の設置状況を示しており、30は音声認識装
置、40は音声認識装置で操作するカーナビ等のコント
ローラ、50はカーナビ等のモニタを示している。ここ
で、30の音声認識装置を図9に詳しく示している。図
9において、1aは音声を入力するマイク、1bは環境
騒音を拾うマイク、11は音声を入力する際に操作する
トリガボタン、2は入力信号から入力パワー等を算出す
る音響分析手段、4は騒音データから騒音スペクトルを
推定する騒音スペクトル推定手段、5は推定した騒音ス
ペクトルを用いて入力信号から騒音成分を除去する騒音
除去手段、3は騒音成分を除去した入力パワーを用いて
音声区間を検出する音声区間検出手段、6は除去された
音声データから特徴ベクトルを抽出する単語特徴ベクト
ル抽出手段、7は認識される登録単語の特徴ベクトルを
記憶した登録単語辞書、8は抽出した特徴ベクトルを登
録単語と比較してその尤度を算出し最上位単語を認識結
果として出力する音声認識手段である。
【0003】従来、高騒音下における音声認識では、環
境騒音と入力音声を区別するために音声を入力する際に
トリガボタン11を押して音声を入力する。この時、マ
イク1aで音声、マイク1bで騒音を取得し、音響分析
手段2においてそれぞれの入力パワー、パワースペクト
ル等を算出する。騒音スペクトル推定手段4ではパワー
スペクトルの周波数成分ごとにパワーを予測して騒音ス
ペクトルを推定する。騒音除去手段5では推定した騒音
スペクトルを用いてマイク1aで取得した入力信号のパ
ワースペクトルから騒音成分を除去して音声スペクトル
を算出する。また、音声スペクトルからパワーを積算し
て音声パワーを算出する。算出した音声パワーを用いて
音声区間検出手段3において音声区間を検出する。単語
特徴ベクトル抽出手段6において検出した音声区間デー
タから単語特徴ベクトルを抽出する。登録単語辞書7に
は登録単語の特徴ベクトルが記憶されており、音声区間
が決定されると認識処理手段8において抽出した単語特
徴ベクトルと登録単語の特徴ベクトルとの尤度を算出す
る。算出した尤度の最上位単語を認識結果として出力す
る。
境騒音と入力音声を区別するために音声を入力する際に
トリガボタン11を押して音声を入力する。この時、マ
イク1aで音声、マイク1bで騒音を取得し、音響分析
手段2においてそれぞれの入力パワー、パワースペクト
ル等を算出する。騒音スペクトル推定手段4ではパワー
スペクトルの周波数成分ごとにパワーを予測して騒音ス
ペクトルを推定する。騒音除去手段5では推定した騒音
スペクトルを用いてマイク1aで取得した入力信号のパ
ワースペクトルから騒音成分を除去して音声スペクトル
を算出する。また、音声スペクトルからパワーを積算し
て音声パワーを算出する。算出した音声パワーを用いて
音声区間検出手段3において音声区間を検出する。単語
特徴ベクトル抽出手段6において検出した音声区間デー
タから単語特徴ベクトルを抽出する。登録単語辞書7に
は登録単語の特徴ベクトルが記憶されており、音声区間
が決定されると認識処理手段8において抽出した単語特
徴ベクトルと登録単語の特徴ベクトルとの尤度を算出す
る。算出した尤度の最上位単語を認識結果として出力す
る。
【0004】
【発明が解決しようとする課題】従来の音声認識装置で
は騒音成分を除去するのに環境騒音のみを取得するマイ
クと音声と環境騒音を同時に取得する2本のマイクが必
要である。両方のマイクが同相の環境騒音を取得できな
い場合、逆に音声信号に雑音を加える結果になり、認識
率が大きく低下する等の問題があるため、マイクの配置
には十分な注意が必要であった。また、騒音下では音声
と騒音とを区別するためにトリガボタン等を操作して音
声を入力する必要があり、操作が面倒である等の欠点が
あった。
は騒音成分を除去するのに環境騒音のみを取得するマイ
クと音声と環境騒音を同時に取得する2本のマイクが必
要である。両方のマイクが同相の環境騒音を取得できな
い場合、逆に音声信号に雑音を加える結果になり、認識
率が大きく低下する等の問題があるため、マイクの配置
には十分な注意が必要であった。また、騒音下では音声
と騒音とを区別するためにトリガボタン等を操作して音
声を入力する必要があり、操作が面倒である等の欠点が
あった。
【0005】この発明はかかる問題を解決するために為
されたものであり、騒音下でも安定した認識が可能な音
声認識装置を得ることを目的としている。
されたものであり、騒音下でも安定した認識が可能な音
声認識装置を得ることを目的としている。
【0006】
【課題を解決するための手段】第1の発明による音声認
識装置は、音声を入力するマイクと、入力信号からパワ
ースペクトルを算出し音声帯域の合計パワーを出力する
音響分析手段と、音声帯域パワーを用いて音声区間を検
出する音声区間検出手段と、非音声区間のデータから騒
音スペクトルを推定する騒音スペクトル推定手段と、音
声区間のデータから騒音成分を除去する騒音除去手段と
除去された音声データから特徴ベクトルを抽出する単語
特徴ベクトル抽出手段と、認識させる登録単語の特徴ベ
クトルを記憶した登録単語辞書と、抽出した特徴ベクト
ルを登録単語と比較してその尤度を算出し最上位単語と
次候補との尤度差が設定したしきい値以上のとき認識結
果として出力する音声認識手段とを設けたものである。
識装置は、音声を入力するマイクと、入力信号からパワ
ースペクトルを算出し音声帯域の合計パワーを出力する
音響分析手段と、音声帯域パワーを用いて音声区間を検
出する音声区間検出手段と、非音声区間のデータから騒
音スペクトルを推定する騒音スペクトル推定手段と、音
声区間のデータから騒音成分を除去する騒音除去手段と
除去された音声データから特徴ベクトルを抽出する単語
特徴ベクトル抽出手段と、認識させる登録単語の特徴ベ
クトルを記憶した登録単語辞書と、抽出した特徴ベクト
ルを登録単語と比較してその尤度を算出し最上位単語と
次候補との尤度差が設定したしきい値以上のとき認識結
果として出力する音声認識手段とを設けたものである。
【0007】また、第2の発明による音声認識装置は、
音声を入力するマイクと、入力信号からパワースペクト
ルを算出し音声帯域の合計パワーを出力する音響分析手
段と、音声帯域パワーを用いて音声区間を検出する音声
区間検出手段と、非音声区間のデータから騒音スペクト
ルを推定する騒音スペクトル推定手段と、音声区間のデ
ータから騒音成分を除去する騒音除去手段と、除去され
た音声データから特徴ベクトルを抽出する単語特徴ベク
トル抽出手段と、認識させる登録単語の特徴ベクトルを
記憶した登録単語辞書と、抽出した特徴ベクトルを登録
単語辞書と比較してその尤度を算出し上位数単語を認識
結果として出力する音声認識手段と、出力された上位数
単語の並びから音声スイッチのキーワードを判定するキ
ーワード判定手段とを設けたものである。
音声を入力するマイクと、入力信号からパワースペクト
ルを算出し音声帯域の合計パワーを出力する音響分析手
段と、音声帯域パワーを用いて音声区間を検出する音声
区間検出手段と、非音声区間のデータから騒音スペクト
ルを推定する騒音スペクトル推定手段と、音声区間のデ
ータから騒音成分を除去する騒音除去手段と、除去され
た音声データから特徴ベクトルを抽出する単語特徴ベク
トル抽出手段と、認識させる登録単語の特徴ベクトルを
記憶した登録単語辞書と、抽出した特徴ベクトルを登録
単語辞書と比較してその尤度を算出し上位数単語を認識
結果として出力する音声認識手段と、出力された上位数
単語の並びから音声スイッチのキーワードを判定するキ
ーワード判定手段とを設けたものである。
【0008】また、第3の発明による音声認識装置は、
第1または第2の発明に示す音声認識装置で、音声区間
検出手段で検出した音声区間フレームの平均パワーと騒
音フレームの平均パワーからSN比に応じて認識処理を
制御するSNR判定手段を設けたものである。
第1または第2の発明に示す音声認識装置で、音声区間
検出手段で検出した音声区間フレームの平均パワーと騒
音フレームの平均パワーからSN比に応じて認識処理を
制御するSNR判定手段を設けたものである。
【0009】また、第4の発明による音声認識装置は、
第1または第2の発明に示す音声認識装置で音声区間を
検出するのに利用するパワーとして、推定した騒音スペ
クトルから主周波数を算出し入力データのパワースペク
トルのうち騒音の主周波数成分近辺を除いたパワーの合
計を用いて音声区間を検出する手段を設けたものであ
る。
第1または第2の発明に示す音声認識装置で音声区間を
検出するのに利用するパワーとして、推定した騒音スペ
クトルから主周波数を算出し入力データのパワースペク
トルのうち騒音の主周波数成分近辺を除いたパワーの合
計を用いて音声区間を検出する手段を設けたものであ
る。
【0010】また、第5の発明による音声認識装置は、
第1または第2の発明に示す音声認識装置で入力データ
のパワースペクトルと推定した騒音のパワースペクトル
の差から求めたパワースペクトルのうち音声帯域のパワ
ーの合計を用いて音声区間を検出する手段を設けたもの
である。
第1または第2の発明に示す音声認識装置で入力データ
のパワースペクトルと推定した騒音のパワースペクトル
の差から求めたパワースペクトルのうち音声帯域のパワ
ーの合計を用いて音声区間を検出する手段を設けたもの
である。
【0011】
【発明の実施の形態】実施の形態1.図1はこの発明の
実施の形態1を示すものである。1は音声を入力するマ
イク、2は入力信号からパワースペクトルを算出し音声
帯域の合計パワーを出力する音響分析手段、3は音声帯
域パワーを用いて音声区間を検出する音声区間検出手
段、4は非音声区間のデータから騒音スペクトルを推定
する騒音スペクトル推定手段、5は音声区間のデータか
ら騒音成分を除去する騒音除去手段、6は除去された音
声データから特徴ベクトルを抽出する単語特徴ベクトル
抽出手段、7は認識させる登録単語の特徴ベクトルを記
憶した登録単語辞書、8は抽出した特徴ベクトルを登録
単語と比較してその尤度を算出し最上位単語を認識結果
として出力する音声認識手段である。また図2は、音声
認識装置の設置状況を示しており、1はヘッドセットに
装着されたマイク、30はこの発明による音声認識装
置、40は音声認識装置で操作するカーナビ等コントロ
ーラ、50はカーナビ等のモニタを示している。
実施の形態1を示すものである。1は音声を入力するマ
イク、2は入力信号からパワースペクトルを算出し音声
帯域の合計パワーを出力する音響分析手段、3は音声帯
域パワーを用いて音声区間を検出する音声区間検出手
段、4は非音声区間のデータから騒音スペクトルを推定
する騒音スペクトル推定手段、5は音声区間のデータか
ら騒音成分を除去する騒音除去手段、6は除去された音
声データから特徴ベクトルを抽出する単語特徴ベクトル
抽出手段、7は認識させる登録単語の特徴ベクトルを記
憶した登録単語辞書、8は抽出した特徴ベクトルを登録
単語と比較してその尤度を算出し最上位単語を認識結果
として出力する音声認識手段である。また図2は、音声
認識装置の設置状況を示しており、1はヘッドセットに
装着されたマイク、30はこの発明による音声認識装
置、40は音声認識装置で操作するカーナビ等コントロ
ーラ、50はカーナビ等のモニタを示している。
【0012】図3は音響分析手段2の処理の流れを示す
ものである。前処理21で入力信号の窓掛け処理等を行
い、パワースペクトル算出22で入力信号のパワースペ
クトルを算出する。算出した入力信号のパワースペクト
ルのうち低域部、中域部、高域部に分けた音声帯域の合
計パワーを積算する。
ものである。前処理21で入力信号の窓掛け処理等を行
い、パワースペクトル算出22で入力信号のパワースペ
クトルを算出する。算出した入力信号のパワースペクト
ルのうち低域部、中域部、高域部に分けた音声帯域の合
計パワーを積算する。
【0013】入力信号は音響分析手段2において音声帯
域のみのパワーだけを積算することにより騒音パワーが
抑えられ、高騒音下においても音声区間を検出しやすく
なる。図4は「さっぽろ」と発生したときの例で音声区
間検出手段3における音声区間検出の判定方法を示す。
音声区間検出手段3には音響分析手段2で算出した音声
帯域パワーが入力パワーとして入力される。非音声区間
と判定された区間では逐次雑音レベルを更新し、入力パ
ワーがしきい値1より大きくなると仮の始端T1を検出
する。T1が検出されると最後に更新した雑音レベル値
で雑音レベルを固定する。T1検出後さらに、数フレー
ムの間に入力パワーがしきい値2より大きくなった場
合、T1を始端Tsとする。始端Tsを検出した後入力
パワーがしきい値3より小さくなりさらにしきい値4よ
り小さくなると仮の終端T2を検出する。T2検出後あ
る一定時間(Tp)、入力パワーがしきい値4を越えな
い場合T2を終端Teとして音声区間を検出する。この
とき、Tp以内に入力パワーが再びしきい値4を越える
と仮の終端T2をリセットし、再度仮の終端を検出する
ようにする。
域のみのパワーだけを積算することにより騒音パワーが
抑えられ、高騒音下においても音声区間を検出しやすく
なる。図4は「さっぽろ」と発生したときの例で音声区
間検出手段3における音声区間検出の判定方法を示す。
音声区間検出手段3には音響分析手段2で算出した音声
帯域パワーが入力パワーとして入力される。非音声区間
と判定された区間では逐次雑音レベルを更新し、入力パ
ワーがしきい値1より大きくなると仮の始端T1を検出
する。T1が検出されると最後に更新した雑音レベル値
で雑音レベルを固定する。T1検出後さらに、数フレー
ムの間に入力パワーがしきい値2より大きくなった場
合、T1を始端Tsとする。始端Tsを検出した後入力
パワーがしきい値3より小さくなりさらにしきい値4よ
り小さくなると仮の終端T2を検出する。T2検出後あ
る一定時間(Tp)、入力パワーがしきい値4を越えな
い場合T2を終端Teとして音声区間を検出する。この
とき、Tp以内に入力パワーが再びしきい値4を越える
と仮の終端T2をリセットし、再度仮の終端を検出する
ようにする。
【0014】音声区間検出手段3で非音声区間と判定さ
れた場合、入力信号のパワースペクトルは騒音スペクト
ル推定手段4へ与えられる。騒音スペクトル推定手段4
では、各周波数成分毎にパワー値を推定し逐次更新す
る。推定方法としては線形予測、最小自乗線形予測等を
利用することができる。音声区間検出手段3で仮の始端
T1が検出されると騒音除去手段5において入力信号パ
ワースペクトルから騒音スペクトル推定手段4で推定し
た騒音スペクトルを除去し、これにより入力信号に含ま
れる騒音成分を抑圧する。次に単語特徴ベクトル抽出手
段5において騒音除去手段5で騒音スペクトルを除去し
たパワースペクトルデータから単語特徴ベクトルを抽出
する。登録単語辞書7には登録単語の特徴ベクトルが記
憶されている。音声区間が決定されると認識処理手段8
において抽出した単語特徴ベクトルと登録単語の特徴ベ
クトルとの尤度を算出する。ここで、最上位単語と次単
語との尤度差がしきい値R1未満の場合、認識結果とし
て聞き直しを促す信号を出力する。また、最上位単語と
次単語との尤度差がしきい値R2以上の場合、最上位単
語を認識結果として出力する。
れた場合、入力信号のパワースペクトルは騒音スペクト
ル推定手段4へ与えられる。騒音スペクトル推定手段4
では、各周波数成分毎にパワー値を推定し逐次更新す
る。推定方法としては線形予測、最小自乗線形予測等を
利用することができる。音声区間検出手段3で仮の始端
T1が検出されると騒音除去手段5において入力信号パ
ワースペクトルから騒音スペクトル推定手段4で推定し
た騒音スペクトルを除去し、これにより入力信号に含ま
れる騒音成分を抑圧する。次に単語特徴ベクトル抽出手
段5において騒音除去手段5で騒音スペクトルを除去し
たパワースペクトルデータから単語特徴ベクトルを抽出
する。登録単語辞書7には登録単語の特徴ベクトルが記
憶されている。音声区間が決定されると認識処理手段8
において抽出した単語特徴ベクトルと登録単語の特徴ベ
クトルとの尤度を算出する。ここで、最上位単語と次単
語との尤度差がしきい値R1未満の場合、認識結果とし
て聞き直しを促す信号を出力する。また、最上位単語と
次単語との尤度差がしきい値R2以上の場合、最上位単
語を認識結果として出力する。
【0015】実施の形態2.図5はこの発明の実施の形
態2を示すものである。2は入力信号からパワースペク
トルを算出し音声帯域の合計パワーを出力する音響分析
手段、3は音声帯域パワーを用いて音声区間を検出する
音声区間検出手段、4は非音声区間のデータから騒音ス
ペクトルを推定する騒音スペクトル推定手段、5は音声
区間のデータから騒音成分を除去する騒音除去手段、6
は除去された音声データから特徴ベクトルを抽出する単
語特徴ベクトル抽出手段、7は認識させる登録単語の特
徴ベクトルを記憶した登録単語辞書、8は抽出した特徴
ベクトルを登録単語と比較してその尤度を算出し上位数
単語を認識結果として出力する音声認識手段、9は出力
された上位数単語から音声スイッチのキーワードを判定
するキーワード判定手段である。ここで、キーワードに
は例えば「ナビ」等の愛称を設定しておけば良い。
態2を示すものである。2は入力信号からパワースペク
トルを算出し音声帯域の合計パワーを出力する音響分析
手段、3は音声帯域パワーを用いて音声区間を検出する
音声区間検出手段、4は非音声区間のデータから騒音ス
ペクトルを推定する騒音スペクトル推定手段、5は音声
区間のデータから騒音成分を除去する騒音除去手段、6
は除去された音声データから特徴ベクトルを抽出する単
語特徴ベクトル抽出手段、7は認識させる登録単語の特
徴ベクトルを記憶した登録単語辞書、8は抽出した特徴
ベクトルを登録単語と比較してその尤度を算出し上位数
単語を認識結果として出力する音声認識手段、9は出力
された上位数単語から音声スイッチのキーワードを判定
するキーワード判定手段である。ここで、キーワードに
は例えば「ナビ」等の愛称を設定しておけば良い。
【0016】キーワード判定手段9は音声スイッチを実
現するものであり、音声認識手段8から出力される上位
数単語のうち最上位単語がキーワードでかつ次単語が特
定の単語である場合、キーワードであると判定する。音
声認識手段8から出力される上位数単語の中にキーワー
ドが含まれていない場合、入力された単語を破棄する。
また、最上位単語がキーワードでかつ次単語が特定の単
語でない場合、認識結果として聞き直しを促す信号を出
力する。ここで、キーワードであると判定されるとキー
ワード判定手段9はスイッチONの状態となり、認識結
果としてキーワードを出力する。さらに、次に入力され
る音声に対して認識結果を出力する。また、数秒以上音
声入力がない場合、スイッチOFFの状態となり再度キ
ーワード判定を行う。つまり、キーワード判定をした後
次に入力される音声コマンドの認識を行うように動作
し、ある時間無声部分が生じると再度キーワード判定を
行うように動作する。
現するものであり、音声認識手段8から出力される上位
数単語のうち最上位単語がキーワードでかつ次単語が特
定の単語である場合、キーワードであると判定する。音
声認識手段8から出力される上位数単語の中にキーワー
ドが含まれていない場合、入力された単語を破棄する。
また、最上位単語がキーワードでかつ次単語が特定の単
語でない場合、認識結果として聞き直しを促す信号を出
力する。ここで、キーワードであると判定されるとキー
ワード判定手段9はスイッチONの状態となり、認識結
果としてキーワードを出力する。さらに、次に入力され
る音声に対して認識結果を出力する。また、数秒以上音
声入力がない場合、スイッチOFFの状態となり再度キ
ーワード判定を行う。つまり、キーワード判定をした後
次に入力される音声コマンドの認識を行うように動作
し、ある時間無声部分が生じると再度キーワード判定を
行うように動作する。
【0017】実施の形態3.図6はこの発明の実施の形
態3を示すものである。2は入力信号からパワースペク
トルを算出し音声帯域の合計パワーを出力する音響分析
手段、3は音声帯域パワーを用いて音声区間を検出する
音声区間検出手段、4は非音声区間のデータから騒音ス
ペクトルを推定する騒音スペクトル推定手段、5は音声
区間のデータから騒音成分を除去する騒音除去手段、6
は除去された音声データから特徴ベクトルを抽出する単
語特徴ベクトル抽出手段、7は認識させる登録単語の特
徴ベクトルを記憶した登録単語辞書、8は抽出した特徴
ベクトルを登録単語と比較してその尤度を算出し上位数
単語を認識結果として出力する音声認識手段、10は音
声区間検出手段で検出した音声区間フレームの平均パワ
ーと騒音フレームの平均パワーからSN比に応じて認識
処理を制御するSNR判定手段である。
態3を示すものである。2は入力信号からパワースペク
トルを算出し音声帯域の合計パワーを出力する音響分析
手段、3は音声帯域パワーを用いて音声区間を検出する
音声区間検出手段、4は非音声区間のデータから騒音ス
ペクトルを推定する騒音スペクトル推定手段、5は音声
区間のデータから騒音成分を除去する騒音除去手段、6
は除去された音声データから特徴ベクトルを抽出する単
語特徴ベクトル抽出手段、7は認識させる登録単語の特
徴ベクトルを記憶した登録単語辞書、8は抽出した特徴
ベクトルを登録単語と比較してその尤度を算出し上位数
単語を認識結果として出力する音声認識手段、10は音
声区間検出手段で検出した音声区間フレームの平均パワ
ーと騒音フレームの平均パワーからSN比に応じて認識
処理を制御するSNR判定手段である。
【0018】音声区間検出手段3で音声区間を検出する
とSNR判定手段10では音声区間全フレームのパワー
平均を算出する。次に、騒音スペクトル推定手段3で推
定された非音声区間における騒音パワーとの比を求めて
ある設定しきい値以上の場合、雑音除去以降の処理を実
行する。ある設定しきい値未満の場合、SNR判定結果
として入力音声は不明瞭であると出力し、入力信号を破
棄する。
とSNR判定手段10では音声区間全フレームのパワー
平均を算出する。次に、騒音スペクトル推定手段3で推
定された非音声区間における騒音パワーとの比を求めて
ある設定しきい値以上の場合、雑音除去以降の処理を実
行する。ある設定しきい値未満の場合、SNR判定結果
として入力音声は不明瞭であると出力し、入力信号を破
棄する。
【0019】SNR判定手段10は、当然実施の形態2
に示す音声認識装置にも付加することができる。
に示す音声認識装置にも付加することができる。
【0020】実施の形態4.図7はこの発明の実施の形
態4を示すものである。上記実施の形態1および実施の
形態2では音声区間を検出するのに音声帯域パワーを用
いているが、実施の形態4では騒音スペクトル推定手段
4で取得した騒音スペクトルから主周波数検出24によ
り騒音スペクトルのパワーの大きな主周波数成分を検出
する。音声帯域パワー算出23では検出した騒音の主周
波数付近のパワーを除いて音声帯域パワーを算出する。
態4を示すものである。上記実施の形態1および実施の
形態2では音声区間を検出するのに音声帯域パワーを用
いているが、実施の形態4では騒音スペクトル推定手段
4で取得した騒音スペクトルから主周波数検出24によ
り騒音スペクトルのパワーの大きな主周波数成分を検出
する。音声帯域パワー算出23では検出した騒音の主周
波数付近のパワーを除いて音声帯域パワーを算出する。
【0021】実施の形態5.図8はこの発明の実施の形
態5を示すものである。実施の形態5では騒音除去処理
25において入力信号のパワースペクトルから騒音スペ
クトル推定手段3で取得した騒音スペクトルを差し引い
たパワースペクトルを算出する。算出したパワースペク
トルから音声帯域パワーを算出する。
態5を示すものである。実施の形態5では騒音除去処理
25において入力信号のパワースペクトルから騒音スペ
クトル推定手段3で取得した騒音スペクトルを差し引い
たパワースペクトルを算出する。算出したパワースペク
トルから音声帯域パワーを算出する。
【0022】
【発明の効果】第1の発明によれば、1つのマイクのみ
を使用して音声帯域パワーにおける騒音レベルを音声区
間検出における基準とし、非音声区間において逐次騒音
レベルを更新しているため環境騒音が変化しても音声区
間を正しく検出することができる。また、非音声区間で
混入する環境騒音信号から騒音スペクトルを推定し、検
出した音声区間の入力信号から推定した騒音スペクトル
を差し引くことにより騒音成分を除去するように構成し
ているため環境騒音が大きく低S/N環境下でも安定し
た音声認識が可能である。
を使用して音声帯域パワーにおける騒音レベルを音声区
間検出における基準とし、非音声区間において逐次騒音
レベルを更新しているため環境騒音が変化しても音声区
間を正しく検出することができる。また、非音声区間で
混入する環境騒音信号から騒音スペクトルを推定し、検
出した音声区間の入力信号から推定した騒音スペクトル
を差し引くことにより騒音成分を除去するように構成し
ているため環境騒音が大きく低S/N環境下でも安定し
た音声認識が可能である。
【0023】また、第2の発明によれば、音声スイッチ
となるキーワードを上位数単語の認識単語を利用して判
定するようにしているため誤認識、誤動作を抑制してお
り音声入力のためのスイッチ操作を必要としないため操
作性の向上が図れる。
となるキーワードを上位数単語の認識単語を利用して判
定するようにしているため誤認識、誤動作を抑制してお
り音声入力のためのスイッチ操作を必要としないため操
作性の向上が図れる。
【0024】また、第3の発明によれば、入力音声のS
N比が低すぎる場合は認識処理を実行せずに入力をリジ
ェクトしているため、誤認識を抑制する効果がある。
N比が低すぎる場合は認識処理を実行せずに入力をリジ
ェクトしているため、誤認識を抑制する効果がある。
【0025】また、第4および第5の発明によれば、環
境騒音の影響を受けにくいように構成しており音声区間
検出のための高いSN比を確保し、正しく音声区間を検
出できる効果がある。
境騒音の影響を受けにくいように構成しており音声区間
検出のための高いSN比を確保し、正しく音声区間を検
出できる効果がある。
【図1】 この発明による音声認識装置の実施の形態1
を示す図である。
を示す図である。
【図2】 この発明による音声認識装置の設置状況を示
す図である。
す図である。
【図3】 この発明による音声認識装置の音響分析手段
を示す図である。
を示す図である。
【図4】 この発明による音声認識装置の音声区間検出
手段を示す図である。
手段を示す図である。
【図5】 この発明による音声認識装置の実施の形態2
を示す図である。
を示す図である。
【図6】 この発明による音声認識装置の実施の形態3
を示す図である。
を示す図である。
【図7】 この発明による音声認識装置の実施の形態4
を示す図である。
を示す図である。
【図8】 この発明による音声認識装置の実施の形態5
を示す図である。
を示す図である。
【図9】 従来の音声認識装置の構成を示す図である。
【図10】 従来の音声認識装置の設置状況を示す図で
ある。
ある。
1 音声用マイク、1b 騒音用マイク、2 音響分析
手段、3 音声区間検出手段、4 騒音スペクトル推定
手段、5 騒音除去手段、6 単語特徴ベクトル抽出手
段、7 単語登録辞書、8 音声認識手段、9 キーワ
ード判定手段、10 SNR判定手段、11 トリガボ
タン、21 前処理、22 パワースペクトル算出、2
3 音声帯域パワー算出、24 主周波数検出、25
騒音除去処理、30 音声認識装置、40 カーナビ等
コントローラ、50 カーナビ等のモニタ。
手段、3 音声区間検出手段、4 騒音スペクトル推定
手段、5 騒音除去手段、6 単語特徴ベクトル抽出手
段、7 単語登録辞書、8 音声認識手段、9 キーワ
ード判定手段、10 SNR判定手段、11 トリガボ
タン、21 前処理、22 パワースペクトル算出、2
3 音声帯域パワー算出、24 主周波数検出、25
騒音除去処理、30 音声認識装置、40 カーナビ等
コントローラ、50 カーナビ等のモニタ。
Claims (5)
- 【請求項1】 音声を入力するマイクと、入力信号から
パワースペクトルを算出し音声帯域の合計パワーを出力
する音響分析手段と、音声帯域パワーを用いて音声区間
を検出する音声区間検出手段と、非音声区間のデータか
ら騒音スペクトルを推定する騒音スペクトル推定手段
と、音声区間のデータから騒音成分を除去する騒音除去
手段と、除去された音声データから特徴ベクトルを抽出
する単語特徴ベクトル抽出手段と、認識させる登録単語
の特徴ベクトルを記憶した登録単語辞書と、抽出した特
徴ベクトルを登録単語と比較してその尤度を算出し最上
位単語と次候補との尤度差が設定したしきい値以上のと
き認識結果として出力する音声認識手段とで構成したこ
とを特徴とする音声認識装置。 - 【請求項2】 音声を入力するマイクと、入力信号から
パワースペクトルを算出し音声帯域の合計パワーを出力
する音響分析手段と、音声帯域パワーを用いて音声区間
を検出する音声区間検出手段と、非音声区間のデータか
ら騒音スペクトルを推定する騒音スペクトル推定手段
と、音声区間のデータから騒音成分を除去する騒音除去
手段と、除去された音声データから特徴ベクトルを抽出
する単語特徴ベクトル抽出手段と、認識させる登録単語
の特徴ベクトルを記憶した登録単語辞書と、抽出した特
徴ベクトルを登録単語辞書と比較してその尤度を算出し
上位数単語を認識結果として出力する音声認識手段と、
音声スイッチのキーワードを認識結果の上位数単語の並
びを用いて判定するキーワード判定手段で構成したこと
を特徴とする音声認識装置。 - 【請求項3】 音声区間検出手段で検出した音声区間フ
レームの平均パワーと騒音フレームの平均パワーからS
N比に応じて認識処理を制御するSNR判定手段を付加
したことを特徴とする請求項1または2に記載の音声認
識装置。 - 【請求項4】 推定した騒音スペクトルから主周波数を
算出し入力データのパワースペクトルのうち騒音の主周
波数成分近辺を除いたパワーの合計を用いて音声区間を
検出することを特徴とする請求項1または2に記載の音
声認識装置。 - 【請求項5】 入力データのパワースペクトルと推定し
た騒音のパワースペクトルの差から求めたパワースペク
トルのうち音声帯域のパワーの合計を用いて音声区間を
検出することを特徴とする請求項1または2に記載の音
声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10334201A JP2000163098A (ja) | 1998-11-25 | 1998-11-25 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10334201A JP2000163098A (ja) | 1998-11-25 | 1998-11-25 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000163098A true JP2000163098A (ja) | 2000-06-16 |
Family
ID=18274682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10334201A Pending JP2000163098A (ja) | 1998-11-25 | 1998-11-25 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000163098A (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005300958A (ja) * | 2004-04-13 | 2005-10-27 | Mitsubishi Electric Corp | 話者照合装置 |
JP2006050067A (ja) * | 2004-08-02 | 2006-02-16 | Sony Corp | ノイズ低減回路、電子機器、ノイズ低減方法 |
WO2007017993A1 (ja) * | 2005-07-15 | 2007-02-15 | Yamaha Corporation | 発音期間を特定する音信号処理装置および音信号処理方法 |
JP2008009120A (ja) * | 2006-06-29 | 2008-01-17 | Mitsubishi Electric Corp | リモートコントローラ並びに家電機器 |
JP2008170806A (ja) * | 2007-01-12 | 2008-07-24 | Yamaha Corp | 発音期間を特定する音信号処理装置およびプログラム |
JP2009175179A (ja) * | 2008-01-21 | 2009-08-06 | Denso Corp | 音声認識装置、プログラム、及び発話信号抽出方法 |
WO2009150894A1 (ja) * | 2008-06-10 | 2009-12-17 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識用プログラムが格納された記憶媒体 |
US7840308B2 (en) | 2004-09-10 | 2010-11-23 | Honda Motor Co., Ltd. | Robot device control based on environment and position of a movable robot |
US8060047B2 (en) | 2006-05-30 | 2011-11-15 | Ntt Docomo, Inc. | Signal frequency band detection device |
KR101455710B1 (ko) * | 2012-02-22 | 2014-10-28 | 에이치티씨 코퍼레이션 | 오디오 명료도를 향상시키는 방법 및 장치, 그리고 컴퓨팅 장치 |
CN109671434A (zh) * | 2019-02-18 | 2019-04-23 | 成都启英泰伦科技有限公司 | 一种语音设备及自学习语音识别方法 |
-
1998
- 1998-11-25 JP JP10334201A patent/JP2000163098A/ja active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005300958A (ja) * | 2004-04-13 | 2005-10-27 | Mitsubishi Electric Corp | 話者照合装置 |
JP2006050067A (ja) * | 2004-08-02 | 2006-02-16 | Sony Corp | ノイズ低減回路、電子機器、ノイズ低減方法 |
US7840308B2 (en) | 2004-09-10 | 2010-11-23 | Honda Motor Co., Ltd. | Robot device control based on environment and position of a movable robot |
WO2007017993A1 (ja) * | 2005-07-15 | 2007-02-15 | Yamaha Corporation | 発音期間を特定する音信号処理装置および音信号処理方法 |
US8300834B2 (en) | 2005-07-15 | 2012-10-30 | Yamaha Corporation | Audio signal processing device and audio signal processing method for specifying sound generating period |
US8060047B2 (en) | 2006-05-30 | 2011-11-15 | Ntt Docomo, Inc. | Signal frequency band detection device |
JP2008009120A (ja) * | 2006-06-29 | 2008-01-17 | Mitsubishi Electric Corp | リモートコントローラ並びに家電機器 |
JP4675840B2 (ja) * | 2006-06-29 | 2011-04-27 | 三菱電機株式会社 | リモートコントローラ並びに家電機器 |
JP2008170806A (ja) * | 2007-01-12 | 2008-07-24 | Yamaha Corp | 発音期間を特定する音信号処理装置およびプログラム |
JP2009175179A (ja) * | 2008-01-21 | 2009-08-06 | Denso Corp | 音声認識装置、プログラム、及び発話信号抽出方法 |
WO2009150894A1 (ja) * | 2008-06-10 | 2009-12-17 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識用プログラムが格納された記憶媒体 |
US8886527B2 (en) | 2008-06-10 | 2014-11-11 | Nec Corporation | Speech recognition system to evaluate speech signals, method thereof, and storage medium storing the program for speech recognition to evaluate speech signals |
KR101455710B1 (ko) * | 2012-02-22 | 2014-10-28 | 에이치티씨 코퍼레이션 | 오디오 명료도를 향상시키는 방법 및 장치, 그리고 컴퓨팅 장치 |
US9064497B2 (en) | 2012-02-22 | 2015-06-23 | Htc Corporation | Method and apparatus for audio intelligibility enhancement and computing apparatus |
CN109671434A (zh) * | 2019-02-18 | 2019-04-23 | 成都启英泰伦科技有限公司 | 一种语音设备及自学习语音识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9230538B2 (en) | Voice recognition device and navigation device | |
EP1159732B1 (en) | Endpointing of speech in a noisy signal | |
KR100870889B1 (ko) | 음신호 처리 방법, 음신호 처리 장치 및 기록 매체 | |
JP3423906B2 (ja) | 音声の動作特性検出装置および検出方法 | |
JP3604393B2 (ja) | 音声検出装置 | |
JP4965036B2 (ja) | 特に自動車内で、音声信号を介して装置を制御する方法 | |
US8407051B2 (en) | Speech recognizing apparatus | |
JP2002091466A (ja) | 音声認識装置 | |
JP2000163098A (ja) | 音声認識装置 | |
JP3654045B2 (ja) | 音声認識装置 | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JPH11231896A (ja) | 音声起動システム | |
JP2004341033A (ja) | 音声媒介起動装置およびその方法 | |
JP2003345391A (ja) | 端末、音声認識サーバ、音声認識システムおよびコンピュータプログラム | |
JP3900691B2 (ja) | 雑音抑圧装置及び当該装置を用いた音声認識システム | |
JP2000310993A (ja) | 音声検出装置 | |
JP4026198B2 (ja) | 音声認識装置 | |
JP2018116206A (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
JP3106543B2 (ja) | 音声信号処理装置 | |
JPH023520B2 (ja) | ||
KR100574883B1 (ko) | 비음성 제거에 의한 음성 추출 방법 | |
JPH11327593A (ja) | 音声認識システム | |
JP7172120B2 (ja) | 音声認識装置及び音声認識方法 | |
CN113936649A (zh) | 语音处理方法、装置及计算机设备 | |
KR100280873B1 (ko) | 음성인식 시스템 |