JP6721365B2 - 音声辞書生成方法、音声辞書生成装置及び音声辞書生成プログラム - Google Patents
音声辞書生成方法、音声辞書生成装置及び音声辞書生成プログラム Download PDFInfo
- Publication number
- JP6721365B2 JP6721365B2 JP2016048243A JP2016048243A JP6721365B2 JP 6721365 B2 JP6721365 B2 JP 6721365B2 JP 2016048243 A JP2016048243 A JP 2016048243A JP 2016048243 A JP2016048243 A JP 2016048243A JP 6721365 B2 JP6721365 B2 JP 6721365B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- speaker
- voice
- unspecified
- voice dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 82
- 230000006870 function Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 34
- 238000004088 simulation Methods 0.000 description 12
- 238000011156 evaluation Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000556 factor analysis Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Description
上記のように、従来、話者を識別する話者識別装置において、入力された話者の音声に雑音が含まれている場合、正しく話者を識別することが困難であった。そこで、例えば特許文献1では、ニューラルネットワークを用いた話者認識システムにおいて、学習パターンに雑音を重畳し、擬似的にパターンの数を増やすことにより認識率の向上を図っている。
図1は、本実施の形態1における話者識別装置の構成を示す図である。話者識別装置は、例えば、テレビ、スマートホン又はカーナビゲーション装置などに内蔵される。
図10は、本実施の形態2における話者識別装置の構成を示す図である。話者識別装置は、例えば、テレビ、スマートホン又はカーナビゲーション装置などに内蔵される。
図13は、本実施の形態3における話者識別装置の構成を示す図である。話者識別装置は、例えば、テレビ、スマートホン又はカーナビゲーション装置などに内蔵される。
図15は、本実施の形態4における話者識別装置の構成を示す図である。話者識別装置は、例えば、テレビ、スマートホン又はカーナビゲーション装置などに内蔵される。
2 学習処理部
3 話者識別処理部
11 不特定話者音声格納部
12 雑音格納部
13 雑音重畳部
14 UBM生成部
15 UBM格納部
16 音声入力部
17 個人モデル生成部
18 個人モデル格納部
19 話者識別部
20 音圧調整部
21 雑音入力部
Claims (9)
- 識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書を生成する音声辞書生成方法であって、
コンピュータが、
複数の不特定話者の音声を取得し、
所定の場所における雑音を取得し、
前記複数の不特定話者の音声に前記雑音を重畳し、
前記雑音を重畳した前記複数の不特定話者の音声の特徴量から前記不特定話者音声辞書を生成する、
音声辞書生成方法。 - 前記複数の不特定話者の音声の音圧に基づいて前記雑音の音圧を調整し、
音圧を調整した前記雑音を前記複数の不特定話者の音声に重畳する、
請求項1記載の音声辞書生成方法。 - 前記複数の不特定話者の音声の平均音圧と前記雑音の音圧との音圧差が所定の値となるように前記雑音の音圧を調整する、
請求項2記載の音声辞書生成方法。 - 前記個人用音声辞書を学習する処理において、前記識別対象話者の音声を取得し、
取得した前記識別対象話者の音声と、生成した前記不特定話者音声辞書とを用いて前記個人用音声辞書を生成し、
前記識別対象話者を識別する処理において、前記識別対象話者の音声を取得し、
生成した前記個人用音声辞書と、取得した前記識別対象話者の音声とを用いて、前記識別対象話者を識別し、
前記識別対象話者の識別に失敗した場合、前記所定の値が大きくなるように変更する、
請求項3記載の音声辞書生成方法。 - 前記複数の不特定話者の音声を予め格納する不特定話者音声格納部から前記複数の不特定話者の音声を取得し、
前記雑音を予め格納する雑音格納部から前記雑音を取得する、
請求項1〜4のいずれか1項に記載の音声辞書生成方法。 - 前記識別対象話者を識別する場所の周囲環境の雑音を収集し、収集した前記雑音を前記雑音格納部に格納する、
請求項5記載の音声辞書生成方法。 - 周波数特性がそれぞれ異なる複数の雑音を取得し、
前記複数の不特定話者の音声に前記複数の雑音を重畳する、
請求項1〜4のいずれか1項に記載の音声辞書生成方法。 - 識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書を生成する音声辞書生成装置であって、
複数の不特定話者の音声を取得するとともに、所定の場所における雑音を取得し、前記複数の不特定話者の音声に前記雑音を重畳する重畳部と、
前記雑音が重畳された前記複数の不特定話者の音声の特徴量から前記不特定話者音声辞書を生成する生成部と、
を備える音声辞書生成装置。 - 識別対象話者を識別するための個人用音声辞書を生成するために用いられる不特定話者音声辞書を生成する音声辞書生成プログラムであって、
複数の不特定話者の音声を取得するとともに、所定の場所における雑音を取得し、前記複数の不特定話者の音声に前記雑音を重畳する重畳部と、
前記雑音が重畳された前記複数の不特定話者の音声の特徴量から前記不特定話者音声辞書を生成する生成部としてコンピュータを機能させる、
音声辞書生成プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016048243A JP6721365B2 (ja) | 2016-03-11 | 2016-03-11 | 音声辞書生成方法、音声辞書生成装置及び音声辞書生成プログラム |
US15/418,230 US9959873B2 (en) | 2016-03-11 | 2017-01-27 | Method for generating unspecified speaker voice dictionary that is used in generating personal voice dictionary for identifying speaker to be identified |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016048243A JP6721365B2 (ja) | 2016-03-11 | 2016-03-11 | 音声辞書生成方法、音声辞書生成装置及び音声辞書生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017161825A JP2017161825A (ja) | 2017-09-14 |
JP6721365B2 true JP6721365B2 (ja) | 2020-07-15 |
Family
ID=59788005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016048243A Active JP6721365B2 (ja) | 2016-03-11 | 2016-03-11 | 音声辞書生成方法、音声辞書生成装置及び音声辞書生成プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9959873B2 (ja) |
JP (1) | JP6721365B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3033675C (en) * | 2016-07-11 | 2022-11-15 | FTR Labs Pty Ltd | Method and system for automatically diarising a sound recording |
JP7166780B2 (ja) | 2017-08-03 | 2022-11-08 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 車両制御装置、車両制御方法及びプログラム |
CN108737872A (zh) * | 2018-06-08 | 2018-11-02 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
FR3104797B1 (fr) * | 2019-12-17 | 2022-01-07 | Renault Sas | Procede d’identification d’au moins une personne a bord d’un vehicule automobile par analyse vocale |
US20220148600A1 (en) * | 2020-11-11 | 2022-05-12 | Rovi Guides, Inc. | Systems and methods for detecting a mimicked voice input signal |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05143094A (ja) | 1991-11-26 | 1993-06-11 | Sekisui Chem Co Ltd | 話者認識システム |
US6990446B1 (en) * | 2000-10-10 | 2006-01-24 | Microsoft Corporation | Method and apparatus using spectral addition for speaker recognition |
US7451085B2 (en) * | 2000-10-13 | 2008-11-11 | At&T Intellectual Property Ii, L.P. | System and method for providing a compensated speech recognition model for speech recognition |
US20030033143A1 (en) * | 2001-08-13 | 2003-02-13 | Hagai Aronowitz | Decreasing noise sensitivity in speech processing under adverse conditions |
US9275638B2 (en) * | 2013-03-12 | 2016-03-01 | Google Technology Holdings LLC | Method and apparatus for training a voice recognition model database |
-
2016
- 2016-03-11 JP JP2016048243A patent/JP6721365B2/ja active Active
-
2017
- 2017-01-27 US US15/418,230 patent/US9959873B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017161825A (ja) | 2017-09-14 |
US9959873B2 (en) | 2018-05-01 |
US20170263257A1 (en) | 2017-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
JP6721365B2 (ja) | 音声辞書生成方法、音声辞書生成装置及び音声辞書生成プログラム | |
JP6596376B2 (ja) | 話者識別方法及び話者識別装置 | |
CN108305615B (zh) | 一种对象识别方法及其设备、存储介质、终端 | |
EP2783365B1 (en) | Method and system for adapting grammars in hybrid speech recognition engines for enhancing local speech recognition performance | |
US7454340B2 (en) | Voice recognition performance estimation apparatus, method and program allowing insertion of an unnecessary word | |
CN111465982B (zh) | 信号处理设备和方法、训练设备和方法以及程序 | |
CN112424860A (zh) | 重放攻击的检测 | |
CN104079247A (zh) | 均衡器控制器和控制方法 | |
CN104080024A (zh) | 音量校平器控制器和控制方法 | |
CN104078050A (zh) | 用于音频分类和音频处理的设备和方法 | |
Tao et al. | Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection. | |
US20120237042A1 (en) | Signal clustering apparatus | |
CN110400565A (zh) | 说话人识别方法、系统及计算机可读存储介质 | |
CN113126951A (zh) | 音频播放方法、装置、计算机可读存储介质及电子设备 | |
Poorjam et al. | A parametric approach for classification of distortions in pathological voices | |
KR20140035164A (ko) | 음성인식시스템의 동작방법 | |
KR20150107520A (ko) | 음성인식 방법 및 장치 | |
WO2021024869A1 (ja) | 音声処理装置、音声処理方法、および記録媒体 | |
JP2011013383A (ja) | オーディオ信号補正装置及びオーディオ信号補正方法 | |
US20230317085A1 (en) | Audio processing device, audio processing method, recording medium, and audio authentication system | |
KR101732399B1 (ko) | 스테레오 채널을 이용한 음향 검출 방법 | |
JP6571587B2 (ja) | 音声入力装置、その方法、及びプログラム | |
US12142279B2 (en) | Speech processing device, speech processing method, and recording medium | |
JP5272141B2 (ja) | 音声処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200204 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200324 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200609 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200618 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6721365 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |