JPWO2012001730A1 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JPWO2012001730A1 JPWO2012001730A1 JP2012522346A JP2012522346A JPWO2012001730A1 JP WO2012001730 A1 JPWO2012001730 A1 JP WO2012001730A1 JP 2012522346 A JP2012522346 A JP 2012522346A JP 2012522346 A JP2012522346 A JP 2012522346A JP WO2012001730 A1 JPWO2012001730 A1 JP WO2012001730A1
- Authority
- JP
- Japan
- Prior art keywords
- unit
- voice
- speech
- voice data
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013500 data storage Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims description 52
- 238000010586 diagram Methods 0.000 description 24
- 230000003595 spectral effect Effects 0.000 description 16
- 238000011410 subtraction method Methods 0.000 description 12
- 238000011946 reduction process Methods 0.000 description 4
- 101001139126 Homo sapiens Krueppel-like factor 6 Proteins 0.000 description 2
- 230000005534 acoustic noise Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000008929 regeneration Effects 0.000 description 2
- 238000011069 regeneration method Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
実施の形態1.
図1は、実施の形態1による音声認識装置の構成を示すブロック図である。
実施の形態1の音声認識装置1は、音声入力部2、音声認識部3、音声認識辞書4、音声録音部5、応答用音声データ格納部6、対話制御部7、再生用騒音低減部8、出力振幅調整部(振幅調整部)9および音声再生部10で構成されている。
古井貞煕「音声情報処理」第5章
S.F,Boll.“Suppression of acoustic noise in speech using spectral subtraction,”IEEE Trans.Acoust.Speech Signal Process.,vol.ASSP-27,no.2,pp.113-120,1979.)
ユーザによる発話が行われると、音声入力部2が音声を取得して音声データとして出力する(ステップST11)。音声認識部3は、ステップST11において音声入力部2から入力される音声データを認識し、認識した語に対応するIDを音声認識辞書4から取得し、取得したIDを対話制御部7に出力する(ステップST12)。音声認識は、例えばHidden Markov Modelを用いて行う。
図7は、実施の形態2による音声認識装置の構成を示すブロック図である。
この実施の形態2の音声認識装置1Aは、実施の形態1において示した音声認識装置1に認識用騒音低減部11を追加して設けている。以下では、実施の形態1に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
ステップST11として音声入力部2が取得した音声データを出力すると、認識用騒音低減部11はスペクトルサブトラクション法などの騒音除去方式などに基づき、当該音声データに音声認識に適切な音声となるような騒音除去処理を行い、音声認識部3に出力する(ステップST23)。音声認識部3は、ステップST23において入力された騒音が除去された音声データを認識し、認識した語に対応するIDを音声認識辞書4から取得し、取得したIDを対話制御部7に出力する(ステップST24)。音声認識は、例えばHidden Markov Modelを用いて行う。以降の処理は実施の形態1と同様である。
図10は、実施の形態3による音声認識装置の構成を示すブロック図である。この実施の形態3では、実施の形態1の音声認識装置1の再生用騒音低減部8を音声入力部2と音声録音部5との間に配置している。実施の形態1の音声認識装置の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
図12は、実施の形態4による音声認識装置の構成を示すブロック図である。
この実施の形態4の音声認識装置1Cは、実施の形態2おいて示した音声認識装置1Aの再生用騒音低減部8を音声入力部2と音声録音部5との間に配置している。実施の形態4の音声認識装置1Cの構成要素は実施の形態2と同一であり、説明を省略する。
また、この実施の形態4の音声認識装置1Cの動作は、音声データを音声認識辞書4に登録する処理は実施の形態2と同様であり、音声データを応答用音声データ格納部6に登録する処理およびユーザの発話に基づき録音音声データの呼び出しを行う処理は実施の形態3と同様である。
さらに、認識用騒音低減部11を音声入力部2と音声認識部3との間に設け、騒音低減処理が施された音声データを音声認識辞書4に登録するように構成したので、音声データに対する認識率の向上を図ることができる。
実施の形態1.
図1は、実施の形態1による音声認識装置の構成を示すブロック図である。
実施の形態1の音声認識装置1は、音声入力部2、音声認識部3、音声認識辞書4、音声録音部5、応答用音声データ格納部6、対話制御部7、再生用騒音低減部8、出力振幅調整部(振幅調整部)9および音声再生部10で構成されている。
古井貞煕「音声情報処理」第5章
S.F,Boll.“Suppression of acoustic noise in speech using spectral subtraction,”IEEE Trans.Acoust.Speech Signal Process.,vol.ASSP-27,no.2,pp.113-120,1979.)
ユーザによる発話が行われると、音声入力部2が音声を取得して音声データとして出力する(ステップST11)。音声認識部3は、ステップST11において音声入力部2から入力される音声データを認識し、認識した語に対応するIDを音声認識辞書4から取得し、取得したIDを対話制御部7に出力する(ステップST12)。音声認識は、例えばHidden Markov Modelを用いて行う。
図7は、実施の形態2による音声認識装置の構成を示すブロック図である。
この実施の形態2の音声認識装置1Aは、実施の形態1において示した音声認識装置1に認識用騒音低減部11を追加して設けている。以下では、実施の形態1に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
ステップST11として音声入力部2が取得した音声データを出力すると、認識用騒音低減部11はスペクトルサブトラクション法などの騒音除去方式などに基づき、当該音声データに音声認識に適切な音声となるような騒音除去処理を行い、音声認識部3に出力する(ステップST23)。音声認識部3は、ステップST23において入力された騒音が除去された音声データを認識し、認識した語に対応するIDを音声認識辞書4から取得し、取得したIDを対話制御部7に出力する(ステップST24)。音声認識は、例えばHidden Markov Modelを用いて行う。以降の処理は実施の形態1と同様である。
図10は、実施の形態3による音声認識装置の構成を示すブロック図である。この実施の形態3では、実施の形態1の音声認識装置1の再生用騒音低減部8を音声入力部2と音声録音部5との間に配置している。実施の形態1の音声認識装置の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
図12は、実施の形態4による音声認識装置の構成を示すブロック図である。
この実施の形態4の音声認識装置1Cは、実施の形態2おいて示した音声認識装置1Aの再生用騒音低減部8を音声入力部2と音声録音部5との間に配置している。実施の形態4の音声認識装置1Cの構成要素は実施の形態2と同一であり、説明を省略する。
また、この実施の形態4の音声認識装置1Cの動作は、音声データを音声認識辞書4に登録する処理は実施の形態2と同様であり、音声データを応答用音声データ格納部6に登録する処理およびユーザの発話に基づき録音音声データの呼び出しを行う処理は実施の形態3と同様である。
さらに、認識用騒音低減部11を音声入力部2と音声認識部3との間に設け、騒音低減処理が施された音声データを音声認識辞書4に登録するように構成したので、音声データに対する認識率の向上を図ることができる。
Claims (4)
- 入力音声を音声認識する音声認識部と、
入力音声を音声認識した語が登録される音声認識辞書と、
前記音声認識辞書に登録された語の録音音声データを格納する応答用音声データ格納部と、
前記音声認識部が前記音声認識辞書に登録された語を音声認識すると、前記応答用音声データ格納部から当該語に対応する録音音声データを取得する対話制御部と、
前記対話制御部によって前記応答用音声データ格納部から取得された録音音声データに含まれる騒音を低減する処理を行う再生用騒音低減部と、
前記再生用騒音低減部によって騒音が低減された前記録音音声データの振幅を所定の音声レベルの振幅に調整する振幅調整部と、
前記振幅調整部が出力する再生対象の録音音声データを再生する音声再生部とを備えた音声認識装置。 - 前記音声認識部に入力される入力音声に含まれる騒音を低減する処理を行う認識用騒音低減部を備えたことを特徴とする請求項1記載の音声認識装置。
- 入力音声を音声認識する音声認識部と、
入力音声を音声認識した語が登録される音声認識辞書と、
前記音声認識辞書に登録された語の録音音声データを格納する応答用音声データ格納部と、
前記音声認識部が前記音声認識辞書に登録された語を音声認識すると、前記応答用音声データ格納部から当該語に対応する録音音声データを取得する対話制御部と、
前記応答用音声データ格納部に前記録音音声データとして格納される入力音声に含まれる騒音を低減する処理を行う再生用騒音低減部と、
前記対話制御部によって前記応答用音声データ格納部から取得された前記録音音声データの振幅を所定の音声レベルの振幅に調整する振幅調整部と、
前記振幅調整部が出力する再生対象の録音音声データを再生する音声再生部とを備えた音声認識装置。 - 前記音声認識部に入力される入力音声に含まれる騒音を低減する処理を行う認識用騒音低減部を備えたことを特徴とする請求項3記載の音声認識装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2010/004269 WO2012001730A1 (ja) | 2010-06-28 | 2010-06-28 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2012001730A1 true JPWO2012001730A1 (ja) | 2013-08-22 |
JP5301037B2 JP5301037B2 (ja) | 2013-09-25 |
Family
ID=45401495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012522346A Active JP5301037B2 (ja) | 2010-06-28 | 2010-06-28 | 音声認識装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8990092B2 (ja) |
JP (1) | JP5301037B2 (ja) |
CN (1) | CN102959618B (ja) |
DE (1) | DE112010005706B4 (ja) |
WO (1) | WO2012001730A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102008041104A1 (de) | 2008-08-07 | 2010-02-11 | Maschinenfabrik Gustav Eirich Gmbh & Co. Kg | Mischvorrichtung mit Induktionsheizung |
CN104064185B (zh) * | 2013-03-18 | 2017-06-27 | 联想(北京)有限公司 | 信息处理方法及系统、电子设备 |
DE112014007287B4 (de) * | 2014-12-24 | 2019-10-31 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung und Spracherkennungsverfahren |
JP6060989B2 (ja) * | 2015-02-25 | 2017-01-18 | カシオ計算機株式会社 | 音声録音装置、音声録音方法、及びプログラム |
CN107172255A (zh) * | 2017-07-21 | 2017-09-15 | 广东欧珀移动通信有限公司 | 语音信号自适应调整方法、装置、移动终端及存储介质 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5222146A (en) * | 1991-10-23 | 1993-06-22 | International Business Machines Corporation | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks |
DE69232407T2 (de) * | 1991-11-18 | 2002-09-12 | Kabushiki Kaisha Toshiba, Kawasaki | Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung |
JPH05219176A (ja) | 1992-02-07 | 1993-08-27 | Matsushita Electric Ind Co Ltd | 音声認識電話機 |
JPH0764594A (ja) | 1993-08-27 | 1995-03-10 | Ricoh Co Ltd | 音声認識装置 |
JP3360398B2 (ja) | 1994-03-16 | 2002-12-24 | 日産自動車株式会社 | 車載用ナビゲーション装置 |
JP3968133B2 (ja) * | 1995-06-22 | 2007-08-29 | セイコーエプソン株式会社 | 音声認識対話処理方法および音声認識対話装置 |
US5842168A (en) * | 1995-08-21 | 1998-11-24 | Seiko Epson Corporation | Cartridge-based, interactive speech recognition device with response-creation capability |
JPH10240283A (ja) | 1997-02-27 | 1998-09-11 | Sanyo Electric Co Ltd | 音声処理装置及び電話装置 |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
JP3307875B2 (ja) | 1998-03-16 | 2002-07-24 | 松下電送システム株式会社 | 符号化音声再生装置および符号化音声再生方法 |
JP4439740B2 (ja) | 1999-02-16 | 2010-03-24 | 有限会社ジーエムアンドエム | 音声変換装置及び方法 |
JP3670180B2 (ja) * | 1999-02-16 | 2005-07-13 | 有限会社ジーエムアンドエム | 補聴器 |
JP3849841B2 (ja) * | 2000-03-15 | 2006-11-22 | オムロン株式会社 | 話者認識装置 |
EP1229518A1 (en) * | 2001-01-31 | 2002-08-07 | Alcatel | Speech recognition system, and terminal, and system unit, and method |
US20040054528A1 (en) * | 2002-05-01 | 2004-03-18 | Tetsuya Hoya | Noise removing system and noise removing method |
JP2005122042A (ja) | 2003-10-20 | 2005-05-12 | Toyota Motor Corp | 音声認識装置、音声認識方法、音声合成装置、音声合成方法、音声認識システム、音声合成システム、音声認識合成装置、およびナビゲーションシステム、ならびに移動体 |
GB2416874B (en) * | 2004-08-02 | 2006-07-26 | Louis Augustus George Atteck | A translation and transmission system |
US20080154591A1 (en) | 2005-02-04 | 2008-06-26 | Toshihiro Kujirai | Audio Recognition System For Generating Response Audio by Using Audio Data Extracted |
JP2006330170A (ja) | 2005-05-24 | 2006-12-07 | Nhk Engineering Services Inc | 記録文書作成支援システム |
JP5037041B2 (ja) | 2006-06-23 | 2012-09-26 | アルパイン株式会社 | 車載用音声認識装置及び音声コマンド登録方法 |
JP2008256802A (ja) | 2007-04-02 | 2008-10-23 | Fujitsu Ten Ltd | 音声認識装置および音声認識方法 |
JP2009104047A (ja) | 2007-10-25 | 2009-05-14 | Canon Inc | 情報処理方法及び情報処理装置 |
-
2010
- 2010-06-28 JP JP2012522346A patent/JP5301037B2/ja active Active
- 2010-06-28 CN CN201080067715.9A patent/CN102959618B/zh not_active Expired - Fee Related
- 2010-06-28 WO PCT/JP2010/004269 patent/WO2012001730A1/ja active Application Filing
- 2010-06-28 DE DE112010005706.0T patent/DE112010005706B4/de active Active
- 2010-06-28 US US13/582,950 patent/US8990092B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN102959618A (zh) | 2013-03-06 |
US8990092B2 (en) | 2015-03-24 |
DE112010005706T5 (de) | 2013-04-25 |
US20120330655A1 (en) | 2012-12-27 |
DE112010005706B4 (de) | 2018-11-08 |
CN102959618B (zh) | 2015-08-05 |
JP5301037B2 (ja) | 2013-09-25 |
WO2012001730A1 (ja) | 2012-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20070213987A1 (en) | Codebook-less speech conversion method and system | |
US8768701B2 (en) | Prosodic mimic method and apparatus | |
JP2005084102A (ja) | 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム | |
JP6305955B2 (ja) | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム | |
JP5301037B2 (ja) | 音声認識装置 | |
WO2011151956A1 (ja) | 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム | |
JPWO2006083020A1 (ja) | 抽出された音声データを用いて応答音声を生成する音声認識システム | |
CN111739536A (zh) | 一种音频处理的方法和装置 | |
JPH11175082A (ja) | 音声対話装置及び音声対話用音声合成方法 | |
JP2012163692A (ja) | 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム | |
JP2000347681A (ja) | テキスト・ベースの音声合成を利用した音声制御システム用の再生方法 | |
JP5354485B2 (ja) | 発声支援方法 | |
JP2002215198A (ja) | 声質変換装置および声質変換方法およびプログラム記憶媒体 | |
JP2005338454A (ja) | 音声対話装置 | |
JP2006330170A (ja) | 記録文書作成支援システム | |
JP2007206603A (ja) | 音響モデルの作成方法 | |
US7092884B2 (en) | Method of nonvisual enrollment for speech recognition | |
JP2016186516A (ja) | 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム | |
JP4778402B2 (ja) | 休止時間長算出装置及びそのプログラム、並びに音声合成装置 | |
JPH05307395A (ja) | 音声合成装置 | |
JP4143487B2 (ja) | 時系列情報制御システム及びその方法並びに時系列情報制御プログラム | |
JP2013033103A (ja) | 声質変換装置および声質変換方法 | |
JP2005321539A (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
JP5519126B2 (ja) | 音声認識装置及び音声認識方法 | |
JPH1115495A (ja) | 音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130618 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5301037 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |