JP2021033260A - Training method, speaker identification method, and recording medium - Google Patents
Training method, speaker identification method, and recording medium Download PDFInfo
- Publication number
- JP2021033260A JP2021033260A JP2020077113A JP2020077113A JP2021033260A JP 2021033260 A JP2021033260 A JP 2021033260A JP 2020077113 A JP2020077113 A JP 2020077113A JP 2020077113 A JP2020077113 A JP 2020077113A JP 2021033260 A JP2021033260 A JP 2021033260A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice data
- voice
- speaker identification
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 121
- 238000012549 training Methods 0.000 title abstract description 13
- 238000006243 chemical reaction Methods 0.000 claims abstract description 73
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 description 30
- 239000013598 vector Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本開示は、話者を識別する技術に関する。 The present disclosure relates to techniques for identifying speakers.
従来、話者識別モデルを用いて話者を識別する技術が知られている(例えば、非特許文献1参照)。 Conventionally, a technique for identifying a speaker using a speaker identification model is known (see, for example, Non-Patent Document 1).
精度よく話者を識別したい。 I want to identify the speaker accurately.
本開示の一態様に係る学習方法は、音声データを入力すると、前記音声データに含まれる発話の話者を識別する話者識別情報を出力する話者識別モデルの学習方法であって、第1の話者の第1の音声データに対して声質変換処理を行うことで、第2の話者の第2の音声データを生成し、前記第1の音声データと前記第2の音声データとを学習データとして前記話者識別モデルの学習処理を行う。 The learning method according to one aspect of the present disclosure is a learning method of a speaker identification model that outputs speaker identification information for identifying a speaker of a speech included in the voice data when voice data is input. By performing voice quality conversion processing on the first voice data of the speaker, the second voice data of the second speaker is generated, and the first voice data and the second voice data are combined. The speaker identification model is trained as training data.
本開示の一態様に係る話者識別方法は、上記学習方法により予め学習処理を行った前記話者識別モデルに音声データを入力して、前記話者識別モデルに前記話者識別情報を出力させる。 In the speaker identification method according to one aspect of the present disclosure, voice data is input to the speaker identification model that has been previously trained by the learning method, and the speaker identification model outputs the speaker identification information. ..
本開示の一態様に係るプログラムは、コンピュータに、音声データを入力すると、前記音声データに含まれる発話の話者を識別する話者識別情報を出力する話者識別モデルの学習を行う処理を実行させるためのプログラムであって、前記処理は、第1の話者の第1の音声データに対して声質変換処理を行うことで、第2の話者の第2の音声データを生成する第1のステップと、前記第1の音声データと前記第2の音声データとを学習データとして前記話者識別モデルの学習処理を行う第2のステップと、を含む。 The program according to one aspect of the present disclosure executes a process of learning a speaker identification model that outputs speaker identification information for identifying a speaker of a speech included in the voice data when voice data is input to the computer. The first program is to generate the second voice data of the second speaker by performing the voice quality conversion process on the first voice data of the first speaker. And a second step of performing the learning process of the speaker identification model using the first voice data and the second voice data as training data.
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。 It should be noted that these general or specific embodiments may be implemented in a system, method, integrated circuit, computer program or computer-readable recording medium such as a CD-ROM, system, method, integrated circuit, computer. It may be realized by any combination of a program and a recording medium.
本開示に係る学習方法等によると、精度よく話者を識別することができる。 According to the learning method and the like according to the present disclosure, the speaker can be identified with high accuracy.
(本開示の一態様を得るに至った経緯)
話者を識別する識別情報に紐付けされた音声データを学習データとして予め学習処理を行った話者識別モデルを用いて話者を識別する話者識別技術が知られている。
(History of obtaining one aspect of the present disclosure)
There is known a speaker identification technique for identifying a speaker by using a speaker identification model in which learning processing is performed in advance using voice data associated with the identification information for identifying the speaker as learning data.
従来、学習データの数を増やす(以下、「学習データの数を増やす」ことを「学習データの拡張」とも称する。)ために、オリジナルの学習用音声データに対して、ノイズ付与、残響付与等が行われている。しかしながら、上記従来のノイズ付与、残響付与等による学習データの拡張では、一の話者における発話内容、言語(日本語、英語等)を増やすことはできない。このため、話者識別モデルの学習処理における、発話内容、言語による影響を十分に低減できないことがある。 Conventionally, in order to increase the number of learning data (hereinafter, "increasing the number of learning data" is also referred to as "extension of learning data"), noise addition, reverberation, etc. are added to the original learning audio data. Is being done. However, it is not possible to increase the utterance content and language (Japanese, English, etc.) of one speaker by expanding the learning data by adding noise, reverberation, etc. as described above. Therefore, it may not be possible to sufficiently reduce the influence of the utterance content and language in the learning process of the speaker identification model.
そこで、発明者らは、話者識別モデルを用いて行う話者の識別において、精度よく話者を識別すべく、鋭意検討、実験を重ねた。その結果、発明者らは、下記学習方法等に想到した。 Therefore, the inventors have conducted diligent studies and experiments in order to accurately identify the speaker in the speaker identification performed by using the speaker identification model. As a result, the inventors came up with the following learning methods and the like.
本開示の一態様に係る学習方法は、音声データを入力すると、前記音声データに含まれる発話の話者を識別する話者識別情報を出力する話者識別モデルの学習方法であって、第1の話者の第1の音声データに対して声質変換処理を行うことで、第2の話者の第2の音声データを生成し、前記第1の音声データと前記第2の音声データとを学習データとして前記話者識別モデルの学習処理を行う。 The learning method according to one aspect of the present disclosure is a learning method of a speaker identification model that outputs speaker identification information for identifying a speaker of a speech included in the voice data when voice data is input. By performing voice quality conversion processing on the first voice data of the speaker, the second voice data of the second speaker is generated, and the first voice data and the second voice data are combined. The speaker identification model is trained as training data.
上記学習方法によると、話者識別モデルの学習処理における学習データの拡張において、第2の話者の音声データの数を、発話内容、言語により制限されることなく増やすことができる。このため、話者識別モデルによる話者の識別の精度を向上することができる。 According to the above learning method, in the extension of the learning data in the learning process of the speaker identification model, the number of voice data of the second speaker can be increased without being limited by the utterance content and the language. Therefore, the accuracy of speaker identification by the speaker identification model can be improved.
従って、上記学習方法によると、精度よく話者を識別することができる。 Therefore, according to the above learning method, the speaker can be identified with high accuracy.
また、前記声質変換処理は、前記第1の話者の音声データと前記第2の話者の音声データとに基づく処理であるとしてもよい。 Further, the voice quality conversion process may be a process based on the voice data of the first speaker and the voice data of the second speaker.
また、前記声質変換処理は、前記第1の話者の音声データを入力すると、前記第2の話者の音声データを出力するように予め学習処理を行った声質変換モデルに、前記第1の音声データを入力することで、前記声質変換モデルから前記第2の音声データを出力する処理を含むとしてもよい。 Further, in the voice quality conversion process, the first speaker is applied to a voice quality conversion model that has been previously trained so as to output the voice data of the second speaker when the voice data of the first speaker is input. By inputting the voice data, the process of outputting the second voice data from the voice quality conversion model may be included.
また、前記声質変換モデルは、WAVフォーマットの音声データを入力とし、WAVフォーマットの音声データを出力とする深層ニューラルネットワークを含むとしてもよい。 Further, the voice quality conversion model may include a deep neural network that inputs WAV format audio data and outputs WAV format audio data.
また、前記声質変換処理は、前記第1の話者の音声データと第3の話者の音声データとに基づく処理であるとしてもよい。 Further, the voice quality conversion process may be a process based on the voice data of the first speaker and the voice data of the third speaker.
また、前記話者識別モデルは、音声データに含まれる発話の特徴を示す発話特徴量を入力とし、話者の特徴を示す話者性特徴量を出力する深層ニューラルネットワークを含むとしてもよい。 Further, the speaker identification model may include a deep neural network that receives an utterance feature amount indicating the utterance feature included in the voice data as an input and outputs a speaker characteristic amount indicating the speaker characteristic.
本開示の一態様に係る話者識別方法は、上記学習方法により予め学習処理を行った前記話者識別モデルに音声データを入力して、前記話者識別モデルに前記話者識別情報を出力させる。 In the speaker identification method according to one aspect of the present disclosure, voice data is input to the speaker identification model that has been previously trained by the learning method, and the speaker identification model outputs the speaker identification information. ..
上記話者識別方法によると、話者識別モデルの学習処理における学習データの拡張において、第2の話者の音声データの数を、発話内容、言語により制限されることなく増やすことができる。このため、話者識別モデルによる話者の識別の精度を向上することができる。 According to the speaker identification method, the number of voice data of the second speaker can be increased without being limited by the utterance content and the language in the extension of the learning data in the learning process of the speaker identification model. Therefore, the accuracy of speaker identification by the speaker identification model can be improved.
従って、上記話者識別方法によると、精度よく話者を識別することができる。 Therefore, according to the speaker identification method described above, the speaker can be identified with high accuracy.
本開示の一態様に係るプログラムは、コンピュータに、音声データを入力すると、前記音声データに含まれる発話の話者を識別する話者識別情報を出力する話者識別モデルの学習を行う処理を実行させるためのプログラムであって、前記処理は、第1の話者の第1の音声データに対して声質変換処理を行うことで、第2の話者の第2の音声データを生成する第1のステップと、前記第1の音声データと前記第2の音声データとを学習データとして前記話者識別モデルの学習処理を行う第2のステップと、を含む。 The program according to one aspect of the present disclosure executes a process of learning a speaker identification model that outputs speaker identification information for identifying a speaker of a speech included in the voice data when voice data is input to the computer. The first program is to generate the second voice data of the second speaker by performing the voice quality conversion process on the first voice data of the first speaker. And a second step of performing the learning process of the speaker identification model using the first voice data and the second voice data as training data.
上記プログラムによると、話者識別モデルの学習処理における学習データの拡張において、第2の話者の音声データの数を、発話内容、言語により制限されることなく増やすことができる。このため、話者識別モデルによる話者の識別の精度を向上することができる。 According to the above program, in the extension of the learning data in the learning process of the speaker identification model, the number of voice data of the second speaker can be increased without being limited by the utterance content and the language. Therefore, the accuracy of speaker identification by the speaker identification model can be improved.
従って、上記プログラムによると、精度よく話者を識別することができる。 Therefore, according to the above program, the speaker can be identified with high accuracy.
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。 It should be noted that these comprehensive or specific embodiments may be implemented in a system, method, integrated circuit, computer program or computer-readable recording medium such as a CD-ROM, system, method, integrated circuit, computer. It may be realized by any combination of a program and a recording medium.
以下、本開示の実施の形態について、図面を参照しながら説明する。以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、全ての実施の形態において、各々の内容を組み合わせることもできる。 Hereinafter, embodiments of the present disclosure will be described with reference to the drawings. Each of the embodiments described below is a specific example of the present disclosure. The numerical values, shapes, components, steps, order of steps, etc. shown in the following embodiments are examples, and are not intended to limit the present disclosure. Moreover, in all the embodiments, each content can be combined.
(実施の形態)
以下、実施の形態に係る話者識別装置について説明する。この話者識別装置は、音声データを取得して、その音声データに含まれる発話の話者を識別する識別情報を出力する。
(Embodiment)
Hereinafter, the speaker identification device according to the embodiment will be described. This speaker identification device acquires voice data and outputs identification information for identifying the speaker of the utterance included in the voice data.
<構成>
図1は、実施の形態に係る話者識別装置1の構成例を示すブロック図である。
<Structure>
FIG. 1 is a block diagram showing a configuration example of the
図1に示すように、話者識別装置1は、音声データ拡張部10と、話者識別モデル20と、学習部30と、識別対象音声データ取得部40とを備える。
As shown in FIG. 1, the
音声データ拡張部10は、話者識別モデル20の学習処理を行うための学習データを拡張する(すなわち、学習データの数を増やす)。音声データ拡張部10は、例えば、マイクロプロセッサ、メモリ、通信インターフェース等を備えるコンピュータにより実現されてもよい。この場合、音声データ拡張部10の各種機能は、マイクロプロセッサが、メモリに記憶されるプログラムを実行することで実現される。また、音声データ拡張部10は、例えば、互いに通信する複数のコンピュータによる、分散コンピューティング又はクラウドコンピューティングによって実現されてもよい。
The voice
図1に示すように、音声データ拡張部10は、音声データ保持部11と、第1音声データ取得部12と、声質変換部13と、ノイズ残響付与部14と、第1特徴量算出部15と、比較部16と、音声データ保存部17と、拡張音声データ保持部18とを有する。
As shown in FIG. 1, the voice
学習部30は、音声データ拡張部10により拡張された学習データを用いて、話者識別モデル20の学習処理を行う。学習部30は、例えば、マイクロプロセッサ、メモリ、通信インターフェース等を備えるコンピュータにより実現されてもよい。この場合、学習部30の各種機能は、マイクロプロセッサが、メモリに記憶されるプログラムを実行することで実現される。また、学習部30は、例えば、互いに通信する複数のコンピュータによる、分散コンピューティング又はクラウドコンピューティングによって実現されてもよい。
The
図1に示すように、学習部30は、第2音声データ取得部31と、第2特徴量算出部32と、第1学習部33とを有する。
As shown in FIG. 1, the
話者識別モデル20は、音声データを入力すると、その音声データに含まれる発話の話者を識別する話者識別情報を出力する。話者識別モデル20は、例えば、マイクロプロセッサ、メモリ、通信インターフェース等を備えるコンピュータにより実現されてもよい。この場合、話者識別モデル20の各種機能は、マイクロプロセッサが、メモリに記憶されるプログラムを実行することで実現される。また、話者識別モデル20は、例えば、互いに通信する複数のコンピュータによる、分散コンピューティング又はクラウドコンピューティングによって実現されてもよい。
When the
図1に示すように、話者識別モデル20は、第3特徴量算出部21と、深層ニューラルネットワーク(DNN:Deep Neural Network)22と、判定部23とを有する。
As shown in FIG. 1, the
識別対象音声データ取得部40は、話者識別モデル20が行う話者の識別における識別の対象とする音声データを取得する。識別対象音声データ取得部40は、例えば、外部装置と通信する通信インターフェースを有し、通信インターフェースを介して外部装置から音声データを取得してもよい。また、識別対象音声データ取得部40は、例えば、入出力ポート(例えば、USBポート)を有し、入出力ポートに接続された外部記憶装置(例えばUSBメモリ)から音声データを取得してもよい。また、識別対象音声データ取得部40は、例えば、マイクロフォンを有し、マイクロフォンに入力された音声を電気信号に変換することで音声データを取得してもよい。
The identification target voice
以下、音声データ拡張部10を構成する各構成要素について説明する。
Hereinafter, each component constituting the voice
音声データ保持部11は、音声データと、その音声データに紐付けされた、その音声データに含まれる発話の話者を識別する話者識別情報とを、互いに対応付けて記憶する。
The voice
図2は、音声データ保持部11が、音声データと話者識別情報とを互いに対応付けて記憶する様子の一例を示す模式図である。
FIG. 2 is a schematic diagram showing an example of how the voice
図2に示すように、音声データ保持部11は、互いに異なる複数の話者識別情報に紐付けされた複数の音声データを記憶する。音声データ保持部11が記憶する音声データ及び話者識別情報は、話者識別モデル20の学習処理を行うための学習データとして利用される。
As shown in FIG. 2, the voice
再び図1に戻って、話者識別装置1の説明を続ける。
Returning to FIG. 1 again, the description of the
音声データ保持部11は、例えば、外部装置と通信する通信インターフェースを有し、通信インターフェースを介して外部装置から取得した音声データ及びその音声データに紐付けされた話者識別情報を記憶するとしてもよい。また、音声データ保持部11は、例えば、入出力ポート(例えば、USBポート)を有し、入出力ポートに接続された外部記憶装置(例えばUSBメモリ)から取得した音声データ及びその音声データに紐付けされた話者識別情報を記憶するとしてもよい。
Even if the voice
ここでは、音声データは、WAVフォーマットであるとして説明する。しかしながら、音声データは、必ずしもWAVフォーマットに限定される必要はなく、例えば、AIFFフォーマット、AACフォーマット等であっても構わない。 Here, the audio data will be described as being in WAV format. However, the audio data does not necessarily have to be limited to the WAV format, and may be, for example, an AIFF format, an AAC format, or the like.
第1音声データ取得部12は、音声データ保持部11から、音声データと、その音声データに紐付けされた話者識別情報とを取得する。
The first voice
声質変換部13は、第1音声データ取得部12により取得された音声データを、その音声データに紐付けされた話者識別情報により識別される話者以外の話者(以下、「他の話者」とも称する)により発話された音声データに変換して出力する。より具体的には、声質変換部13は、音声データに含まれる発話の周波数成分を変更することで、他の話者により発話された音声データを生成して出力する。
The voice
声質変換部13は、一の話者の音声データを、複数の他の話者の音声データに変換して出力することで、互いに話者が異なる一方で同一の発話内容となる複数の音声データを出力することができる。また、声質変換部13は、一の話者の音声データが日本語による発話を含む音声データである場合には、必ずしも日本語を話すことができない他の話者の日本語による発話を含む音声データに変換することができる。すなわち、声質変換部13は、変換前の音声データの発話内容、言語に制限されることなく、一の話者の音声データを、複数の他の話者の音声データに変換して出力することができる。
The voice
図3は、声質変換部13が、一の話者の音声データを、複数の他の話者の音声データに変換して出力する様子を示す模式図である。
FIG. 3 is a schematic diagram showing how the voice
図3に示すように、声質変換部13は、話者識別モデル20の学習処理を行うための学習データとして利用される音声データの数を、発話内容、言語により制限されることなく増やすことができる。
As shown in FIG. 3, the voice
再び図1に戻って、話者識別装置1の説明を続ける。
Returning to FIG. 1 again, the description of the
声質変換部13は、例えば、広く入手可能な従来型の声質変換器により実現されてもよい。また、声質変換部13は、例えば、第1の話者の音声データを入力すると、第2の話者の音声データを出力するように予め学習処理を行った声質変換モデルを利用することにより実現されてもよい。ここでは、声質変換部13は、第1の話者の音声データを入力すると、第2の話者の音声データを出力するように予め学習処理を行った声質変換モデルを利用することにより実現されるとして説明する。
The
図4は、声質変換部13の構成例を示すブロック図である。
FIG. 4 is a block diagram showing a configuration example of the voice
図4に示すように、声質変換部13は、声質変換学習用データ保持部131と、第2学習部132と、声質変換モデル133とを有する。
As shown in FIG. 4, the voice
声質変換モデル133は、複数の話者ペアのそれぞれについて、話者ペアの一方の話者である第1の話者の音声データを入力すると、話者ペアの他方の話者である第2の話者の音声データを出力するように、及び、第2の話者の音声データを入力すると、第1の話者の音声データを出力するように予め学習処理を行った深層ニューラルネットワーク(DNN:Deep Neural Network)である。ここでは、一例として、声質変換モデル133は、複数の話者ペアのそれぞれについて、第1の話者のWAVフォーマットの音声データを入力すると、第2の話者のWAVフォーマットの音声データを出力するように、及び、第2の話者のWAVフォーマットの音声データを入力すると、第1の話者のWAVフォーマットの音声データを出力するように予め学習処理を行ったcycleVAEであるとして説明する。しかしながら、声質変換モデル133は、複数の話者ペアのそれぞれについて、第1の話者の音声データを入力すると、第2の話者の音声データを出力するように、及び、第2の話者の音声データを入力すると、第1の話者の音声データを出力するように予め学習処理を行ったDNNであれば、必ずしも上記cycleVAEに限定される必要はない。
When the voice data of the first speaker, which is one speaker of the speaker pair, is input for each of the plurality of speaker pairs, the voice
声質変換学習用データ保持部131は、声質変換モデル133の学習処理を行うための学習データを記憶する。より具体的には、声質変換学習用データ保持部131は、声質変換モデル133が対象とする複数の話者それぞれの音声データ(ここでは、WAVフォーマットの音声データ)を記憶する。
The voice quality conversion learning
第2学習部132は、声質変換学習用データ保持部131に記憶される学習用データを用いて、複数の話者ペアのそれぞれについて、話者ペアの一方の話者である第1の話者の音声データを入力すると、話者ペアの他方の話者である第2の話者の音声データを出力するように、及び、第2の話者の音声データを入力すると、第1の話者の音声データを出力するように声質変換モデル133の学習処理を行う。
The
再び図1に戻って、話者識別装置1の説明を続ける。
Returning to FIG. 1 again, the description of the
ノイズ残響付与部14は、声質変換部13から出力される音声データのそれぞれに対して、ノイズ付与(例えば4種類)及び残響付与(例えば1種類)を行い、ノイズ付与後の音声データ及びノイズ付与後の音声データを出力する。これにより、ノイズ残響付与部14は、音声データの数を更に増やすことができる。
The
第1特徴量算出部15は、声質変換部13から出力される音声データと、ノイズ残響付与部14から出力される音声データとのそれぞれから、その音声データに含まれる発話の特徴を示す発話特徴量を算出する。ここでは、一例として、第1特徴量算出部15は、発話特徴量として、話者の声道特性を示すMFCC(Mel−Freuyency Cepstrum Coefficients)を算出するとして説明する。しかしながら、第1特徴量算出部15は、話者の特徴を示す発話特徴量を算出することができれば、必ずしもMFCCを算出する例に限定される必要はない。第1特徴量算出部15は、例えば、発話の音声信号にメルフィルタバンクをかけたものを発話特徴量として算出するとしてもよいし、例えば、発話の音声信号のスペクトログラムを発話特徴量として算出するとしてもよい。
The first feature
比較部16は、第1特徴量算出部15から出力される話者特徴量(以下、「第1の話者特徴量」とも称する)のそれぞれについて、第1の話者特徴量と、その第1の話者特徴量の算出元となる音声データに含まれる発話の話者の話者特徴量(以下、「第2の話者特徴量」とも称する)とを比較する。
The
比較部16は、比較の結果、(1)第1の話者特徴量と第2の話者特徴量との類似度が所定の範囲内である場合には、第1の話者特徴量の算出元となる音声データに、その音声データに含まれる発話の話者を識別する話者識別情報を紐付ける。これにより、比較部16は、一の話者識別情報に紐付けされた音声データの数を増やすことができる。そして、比較部16は、音声データと、その音声データに紐付けされた話者識別情報とを出力する。
As a result of comparison, the
比較部16は、比較の結果、(2)第1の話者特徴量と第2の話者特徴量との類似度が所定の範囲内でない場合には、第1の話者特徴量の算出元となる音声データに、その音声データに含まれる発話の話者とは異なる第三者を識別する識別情報を紐付ける。これにより、比較部16は、音声データに紐付けされた話者識別情報の数を増やすことができる。すなわち、比較部16は、話者識別モデル20の学習処理を行うための学習データにおける話者の数を増やすことができる。話者の数を増やすことで、後述する話者識別モデル20の学習処理における過学習を抑制することができる。これにより、話者識別モデル20の汎化性能を向上させることができる。そして、比較部16は、音声データと、その音声データに紐付けされた話者識別情報とを出力する。
As a result of comparison, the
拡張音声データ保持部18は、音声データ保持部11と同様に、音声データと、その音声データに紐付けされた、その音声データに含まれる発話の話者を識別する話者識別情報とを、互いに対応付けて記憶する。
Similar to the voice
音声データ保存部17は、比較部16から出力される、音声データ及びその音声データに紐付けされた話者識別情報のそれぞれについて、音声データとその音声データに紐付けされた話者識別情報とを互いに対応付けて、拡張音声データ保持部18に記憶させる。また、音声データ保存部17は、第1音声データ取得部12により取得される、音声データ及びその音声データに紐付けされた話者識別情報のそれぞれについて、音声データとその音声データに紐付けされた話者識別情報とを互いに対応付けて、拡張音声データ保持部18に記憶させる。これにより、拡張音声データ保持部18は、音声データ保持部11が話者識別モデル20の学習処理を行うための学習データとして記憶する音声データに加えて、比較部16から出力された音声データをも、話者識別モデルの学習処理を行うための学習データとして記憶する。
The voice
以下、話者識別モデル20を構成する各構成要素について説明する。
Hereinafter, each component constituting the
第3特徴量算出部21は、識別対象音声データ取得部40により取得された音声データから、その音声データに含まれる発話の特徴を示す発話特徴量を算出する。ここでは、一例として、第3特徴量算出部21は、発話特徴量として、話者の声道特性を示すMFCCを算出するとして説明する。しかしながら、第3特徴量算出部21は、話者の特徴を示す発話特徴量を算出することができれば、必ずしもMFCCを算出する例に限定される必要はない。第3特徴量算出部21は、例えば、発話の音声信号にメルフィルタバンクをかけたものを発話特徴量として算出するとしてもよいし、例えば、発話の音声信号のスペクトログラムを発話特徴量として算出するとしてもよい。
The third feature
深層ニューラルネットワーク22は、第3特徴量算出部21により算出される発話特徴量を入力すると、その発話特徴量の算出元となる音声データに含まれる発話の話者の特徴を示す話者性特徴量を出力するように予め学習処理を行った深層ニューラルネットワーク(DNN)である。ここでは、一例として、深層ニューラルネットワーク22は、話者の声道特性を示すMFCCを入力すると、可変長の発話を固定次元埋め込みにマッピングした発話の音響特徴量であるx−Vectorを話者性特徴量として出力するように予め学習処理を行ったKaldiであるとして説明する。しかしながら、深層ニューラルネットワーク22は、第3特徴量算出部21により算出される発話特徴量を入力すると、話者の特徴を示す話者性特徴量を出力するように予め学習処理を行ったDNNであれば、必ずしも上記Kaldiに限定される必要はない。なお、x−Vectorの算出方法等の詳細は、非特許文献1に開示されているため、ここでの詳述を省略する。
When the utterance feature amount calculated by the third feature
判定部23は、深層ニューラルネットワーク22から出力される話者性特徴量に基づいて、識別対象音声データ取得部40により取得された音声データに含まれる発話の話者を判定する。より具体的には、判定部23は、複数の話者のx−Vectorを記憶し、記憶する複数のx−Vectorのうち、深層ニューラルネットワーク22から出力されるx−Vectorに最も類似するx−Vectorを特定し、特定したx−Vectorの話者を、識別対象音声データ取得部40により取得された音声データに含まれる発話の話者と判定する。そして、判定部23は、判定した話者を識別する話者識別情報を出力する。
The
以下、学習部30を構成する各構成要素について説明する。
Hereinafter, each component constituting the
第2音声データ取得部31は、拡張音声データ保持部18から、音声データと、その音声データに紐付けされた話者識別情報とを取得する。
The second voice
第2特徴量算出部32は、第2音声データ取得部31により取得された音声データから、その音声データに含まれる発話の特徴を示す発話特徴量を算出する。ここでは、一例として、第2特徴量算出部32は、発話特徴量として、話者の声道特性を示すMFCCを算出するとして説明する。しかしながら、第2特徴量算出部32は、話者の特徴を示す発話特徴量を算出することができれば、必ずしもMFCCを算出する例に限定される必要はない。第2特徴量算出部32は、例えば、発話の音声信号にメルフィルタバンクをかけたものを発話特徴量として算出するとしてもよいし、例えば、発話の音声信号のスペクトログラムを発話特徴量として算出するとしてもよい。
The second feature
第1学習部33は、第2特徴量算出部32により算出された発話特徴量と、その発話特徴量の算出元となる音声データに含まれる発話の話者を識別する話者識別情報とを学習データとして、音声データを入力すると、その音声データに含まれる発話の話者を識別する話者識別情報を出力するように話者識別モデル20の学習処理を行う。
The
より具体的には、第1学習部33は、第2特徴量算出部32により算出されたMFCCと、そのMFCCに対応する話者識別情報とを学習データとして、MFCCを入力すると、そのMFCC算出元となる音声データに含まれる発話の話者の特徴を示すx−Vectorを出力するように深層ニューラルネットワーク22の学習処理を行う。
More specifically, when the
<動作>
上記構成の話者識別装置1は、話者識別モデル学習処理と、声質変換モデル学習処理と、話者識別処理とを行う。
<Operation>
The
以下、これらの処理について、図面を参照しながら順に説明する。 Hereinafter, these processes will be described in order with reference to the drawings.
図5は、話者識別モデル学習処理のフローチャートである。 FIG. 5 is a flowchart of the speaker identification model learning process.
話者識別モデル学習処理は、話者識別モデル20の学習処理を行う処理である。
The speaker identification model learning process is a process for performing the learning process of the
話者識別モデル学習処理は、例えば、話者識別装置1を利用するユーザが、話者識別装置1に対して、話者識別モデル学習処理を開始する旨の操作を行うことで開始される。
The speaker identification model learning process is started by, for example, a user using the
話者識別モデル学習処理が開始されると、第1音声データ取得部12は、音声データ保持部11から、一の音声データと、その一の音声データに紐付けされた一の話者識別情報とを取得する(ステップS100)。
When the speaker identification model learning process is started, the first voice
一の音声データと一の話者識別情報とが取得されると、音声データ保存部17は、その一の音声データとその一の話者識別情報とを互いに対応付けて、拡張音声データ保持部18に記憶させる(ステップS110)。
When one voice data and one speaker identification information are acquired, the voice
一方で、声質変換部13は、その一の話者識別情報により識別される話者以外の話者である他の話者の中から一の話者を選択する(ステップS120)。そして、声質変換部13は、一の音声データを、その一の話者により発話された音声データに変換して(ステップS130)出力する。
On the other hand, the voice
声質変換部13から音声データが出力されると、ノイズ残響付与部14は、声質変換部13から出力された音声データに対して、ノイズ付与及び残響付与を行い(ステップS140)、1以上の音声データを出力する。
When the voice data is output from the voice
ノイズ残響付与部14から1以上の音声データが出力されると、第1特徴量算出部15は、声質変換部13から出力された音声データと、ノイズ残響付与部14から出力された1以上の音声データとのそれぞれから、発話特徴量を算出する(ステップS150)。
When one or more voice data is output from the
発話特徴量が算出されると、比較部16は、算出された発話特徴量のそれぞれについて、選択した一の話者の発話特徴量と比較して、算出された発話特徴量と一の話者の発話特徴量との類似度が所定の範囲内であるか否かを判定する(ステップS160)。
When the utterance feature amount is calculated, the
比較部16は、ステップS160の処理において肯定的に判定した場合に(ステップS160:Yes)、肯定的に判定した発話特徴量の算出元となる音声データに、選択した一の話者を識別する話者識別情報を紐付けする(ステップS170)。そして、比較部16は、その音声データと、その音声データに紐付けされた話者識別情報とを出力する。
When a positive determination is made in the process of step S160 (step S160: Yes), the
比較部16は、ステップS160の処理において否定的に判定した場合に(ステップS160:No)、否定的に判定した発話特徴量の算出元となる音声データに、選択した一の話者とは異なる第三者を識別する識別情報を紐付けする(ステップS180)。そして、比較部16は、その音声データと、その音声データに紐付けされた話者識別情報とを出力する。
When a negative determination is made in the process of step S160 (step S160: No), the
ステップS160の処理において比較対象となった全ての発話特徴量に対して、比較部16によりステップS170の処理又はステップS180の処理が実行されると、音声データ保存部17は、比較部16から出力された、音声データと、その音声データに紐付けされた話者識別情報とのそれぞれについて、その音声データとその話者識別情報とを互いに対応付けて、拡張音声データ保持部18に記憶させる(ステップS190)。
When the processing of step S170 or the processing of step S180 is executed by the
ステップS190の処理が終了すると、声質変換部13は、他の話者の中に、ステップS120の処理において選択されていない一の話者(以下、「未選択の話者」とも称する)があるか否かを判定する(ステップS200)。
When the process of step S190 is completed, the voice
ステップS200の処理において、未選択の話者があると判定された場合に(ステップS200:Yes)、声質変換部13は、未選択の話者の中から一の話者を選択し(ステップS210)、ステップS130の処理に進む。
When it is determined in the process of step S200 that there is an unselected speaker (step S200: Yes), the voice
ステップS200の処理において、未選択の話者がないと判定された場合に(ステップS200:No)、第1音声データ取得部12は、音声データ保持部11が記憶する音声データのうち、未だ取得していない未取得の音声データがあるか否かを判定する(ステップS220)。
When it is determined in the process of step S200 that there is no unselected speaker (step S200: No), the first voice
ステップS220の処理において、未取得の音声データがあると判定された場合に(ステップS220:Yes)、第1音声データ取得部12は、未取得の音声データの中から一の音声データを取得して(ステップS230)、ステップS110の処理に進む。
When it is determined in the process of step S220 that there is unacquired audio data (step S220: Yes), the first audio
ステップS220の処理において、未取得の音声データがないと判定された場合に(ステップS220:No)、第2音声データ取得部31は、拡張音声データ保持部18から、拡張音声データ保持部18が記憶する全ての音声データについて、音声データと、その音声データに紐付けされた話者識別情報とを取得する(ステップS240)。
In the process of step S220, when it is determined that there is no unacquired audio data (step S220: No), the second audio
全ての音声データについて、音声データと、その音声データに紐付けされた話者識別情報とが取得されると、第2特徴量算出部32は、全ての音声データに対して、音声データから、その音声データに含まれる発話の特徴を示す発話特徴量を算出する(ステップS250)。
When the voice data and the speaker identification information associated with the voice data are acquired for all the voice data, the second feature
全ての音声データに対して、発話特徴量が算出されると、第1学習部33は、全ての発話特徴量について、発話特徴量と、その発話特徴量の算出元となる音声データに含まれる発話の話者を識別する話者識別情報とを学習データとして、音声データを入力すると、その音声データに含まれる発話の話者を識別する話者識別情報を出力するように話者識別モデル20の学習処理を行う(ステップS260)。
When the utterance feature amount is calculated for all the utterance feature amounts, the
ステップS260の処理が終了すると、話者識別装置1は、その話者識別モデル学習処理を終了する。
When the process of step S260 is completed, the
図6は、声質変換モデル学習処理のフローチャートである。 FIG. 6 is a flowchart of the voice quality conversion model learning process.
声質変換モデル学習処理は、声質変換モデル133の学習処理を行う処理である。
The voice quality conversion model learning process is a process of performing the learning process of the voice
声質変換モデル学習処理は、例えば、話者識別装置1を利用するユーザが、話者識別装置1に対して、声質変換モデル学習処理を開始する旨の操作を行うことで開始される。
The voice quality conversion model learning process is started by, for example, a user using the
声質変換モデル学習処理が開始されると、第2学習部132は、声質変換モデル133が対象とする複数の話者のうち、一の話者ペアを選択する(ステップS300)。そして、第2学習部132は、声質変換学習用データ保持部131が保持する学習データのうち、選択中の一の話者ペアを構成する2名の話者それぞれについての学習データを用いて、選択中の一の話者ペアについて、話者ペアの一方の話者である第1の話者の音声データを入力すると、話者ペアの他方の話者である第2の話者の音声データを出力するように、及び、第2の話者の音声データを入力すると、第1の話者の音声データを出力するように声質変換モデル133の学習処理を行う(ステップS310)。
When the voice quality conversion model learning process is started, the
第2学習部132は、一の話者ペアについて声質変換モデル133の学習処理を行うと、声質変換モデル133が対象とする複数の話者のうち、未だ選択していない未選択の話者ペアがあるか否かを判定する(ステップS320)。
When the
ステップS320の処理において、未取得の話者ペアがあると判定された場合に(ステップS320:Yes)、第2学習部132は、未選択の話者ペアの中から一の話者ペアを選択して(ステップS330)、ステップS310の処理に進む。
When it is determined in the process of step S320 that there is an unacquired speaker pair (step S320: Yes), the
ステップS320の処理において、未取得の話者ペアがないと判定された場合に(ステップS320:No)、話者識別装置1は、その声質変換モデル学習処理を終了する。
When it is determined in the process of step S320 that there is no unacquired speaker pair (step S320: No), the
図7は、話者識別処理のフローチャートである。 FIG. 7 is a flowchart of the speaker identification process.
話者識別処理は、音声データに含まれる発話の話者を識別する処理である。より具体的には、話者識別処理は、予め学習処理を行った話者識別モデル20に音声データを入力して、話者識別モデル20に話者識別情報を出力させる処理である。
The speaker identification process is a process for identifying the speaker of the utterance included in the voice data. More specifically, the speaker identification process is a process in which voice data is input to the
話者識別処理は、例えば、話者識別装置1を利用するユーザが、話者識別装置1に対して、話者識別処理を開始する旨の操作を行うことで開始される。
The speaker identification process is started, for example, when a user who uses the
話者識別処理が開始されると、識別対象音声データ取得部40は、識別の対象とする音声データを取得する(ステップS400)。
When the speaker identification process is started, the identification target voice
音声データが取得されると、第3特徴量算出部21は、取得された音声データから、その音声データに含まれる発話の特徴を示す発話特徴量を算出し(ステップS410)、算出した発話特徴量を深層ニューラルネットワーク22に入力する。すると、深層ニューラルネットワーク22は、入力された発話特徴量の算出元となる音声データに含まれる発話の話者の特徴を示す話者性特徴量を出力する(ステップS420)。
When the voice data is acquired, the third feature
話者性特徴量が出力されると、判定部23は、出力された話者性特徴量に基づいて、識別対象音声データ取得部40により取得された音声データに含まれる発話の話者を判定する(ステップS430)。そして、判定部23は、判定した話者を識別する話者識別情報を出力する(ステップS440)。
When the speaker characteristic amount is output, the
ステップS440の処理が終了すると、話者識別装置1は、その話者識別処理を終了する。
When the process of step S440 is completed, the
<考察>
上述したように、話者識別装置1は、音声データ保持部11が記憶する、話者識別モデル20の学習を行うための学習データを、発話内容、言語により制限されることなく拡張する。そして、拡張した学習データを用いて、話者識別モデル20の学習処理を行う。このため、話者識別装置1によると、話者識別モデル20を用いて行う話者の識別精度を向上することができる。従って、話者識別装置1によると、精度よく話者を識別することができる。
<Discussion>
As described above, the
(補足)
以上、実施の形態に係る話者識別装置について説明したが、本開示は、この実施の形態に限定されるものではない。
(Supplement)
Although the speaker identification device according to the embodiment has been described above, the present disclosure is not limited to this embodiment.
例えば、上記実施の形態に係る話者識別装置に含まれる各処理部は典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。 For example, each processing unit included in the speaker identification device according to the above embodiment is typically realized as an LSI which is an integrated circuit. These may be individually integrated into one chip, or may be integrated into one chip so as to include a part or all of them.
また、集積回路化はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、またはLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。 Further, the integrated circuit is not limited to the LSI, and may be realized by a dedicated circuit or a general-purpose processor. An FPGA (Field Programmable Gate Array) that can be programmed after the LSI is manufactured, or a reconfigurable processor that can reconfigure the connection and settings of circuit cells inside the LSI may be used.
また、本開示は、実施の形態に係る話者識別装置により実行される、話者識別モデルの学習方法として実現されてもよいし、話者識別方法として実現されてもよい。 Further, the present disclosure may be realized as a learning method of a speaker identification model executed by the speaker identification device according to the embodiment, or may be realized as a speaker identification method.
また、上記実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。 Further, in the above-described embodiment, each component may be configured by dedicated hardware or may be realized by executing a software program suitable for each component. Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェアまたはソフトウェアが並列または時分割に処理してもよい。 Further, the division of the functional block in the block diagram is an example, and a plurality of functional blocks can be realized as one functional block, one functional block can be divided into a plurality of functional blocks, and some functions can be transferred to other functional blocks. You may. Also, the functions of a plurality of functional blocks having similar functions may be processed by a single hardware or software in parallel or in a time division manner.
また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。 Further, the order in which each step in the flowchart is executed is for exemplifying the present disclosure in detail, and may be an order other than the above. Further, a part of the above steps may be executed at the same time (parallel) as other steps.
以上、一つまたは複数の態様に係る話者認識装置について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、各種変形例等における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。 The speaker recognition device according to one or more aspects has been described above based on the embodiment, but the present disclosure is not limited to this embodiment. As long as the gist of the present disclosure is not deviated, various modifications that can be conceived by those skilled in the art are applied to the present embodiment, and forms constructed by combining components in various modifications and the like are also within the scope of one or more embodiments. May be included within.
本開示は、話者を識別する装置等に広く利用可能である。 The present disclosure can be widely used as a device for identifying a speaker and the like.
1 話者識別装置
10 音声データ拡張部
11 音声データ保持部
12 第1音声データ取得部
13 声質変換部
14 ノイズ残響付与部
15 第1特徴量算出部
16 比較部
17 音声データ保持部
18 拡張音声データ保持部
20 話者識別モデル
21 第3特徴量算出部
22 深層ニューラルネットワーク
23 判定部
30 学習部
31 第2音声データ取得部
32 第2特徴量算出部
33 第1学習部
40 識別対象音声データ取得部
131 声質変換学習用データ保持部
132 第2学習部
133 音声変換モデル
1
Claims (8)
第1の話者の第1の音声データに対して声質変換処理を行うことで、第2の話者の第2の音声データを生成し、
前記第1の音声データと前記第2の音声データとを学習データとして前記話者識別モデルの学習処理を行う、
学習方法。 It is a learning method of a speaker identification model that outputs speaker identification information that identifies a speaker of an utterance included in the voice data when voice data is input.
By performing voice quality conversion processing on the first voice data of the first speaker, the second voice data of the second speaker is generated.
The speaker identification model is trained using the first voice data and the second voice data as learning data.
Learning method.
請求項1に記載の学習方法。 The voice quality conversion process is a process based on the voice data of the first speaker and the voice data of the second speaker.
The learning method according to claim 1.
請求項2に記載の学習方法。 In the voice quality conversion process, the first voice data is applied to a voice quality conversion model that has been previously trained so as to output the voice data of the second speaker when the voice data of the first speaker is input. Including the process of outputting the second voice data from the voice quality conversion model by inputting.
The learning method according to claim 2.
請求項3に記載の学習方法。 The voice quality conversion model includes a deep neural network that inputs WAV format audio data and outputs WAV format audio data.
The learning method according to claim 3.
請求項1に記載の学習方法。 The voice quality conversion process is a process based on the voice data of the first speaker and the voice data of the third speaker.
The learning method according to claim 1.
請求項1に記載の学習方法。 The speaker identification model includes a deep neural network that inputs an utterance feature amount that indicates the utterance feature included in the voice data and outputs a speaker characteristic amount that indicates the speaker characteristic.
The learning method according to claim 1.
話者識別方法。 Voice data is input to the speaker identification model that has been previously trained by the learning method according to claim 1, and the speaker identification model is made to output the speaker identification information.
Speaker identification method.
前記処理は、
第1の話者の第1の音声データに対して声質変換処理を行うことで、第2の話者の第2の音声データを生成する第1のステップと、
前記第1の音声データと前記第2の音声データとを学習データとして前記話者識別モデルの学習処理を行う第2のステップと、を含む、
プログラム。 It is a program for executing a process of learning a speaker identification model that outputs speaker identification information for identifying a speaker of an utterance included in the voice data when voice data is input to the computer.
The above processing
The first step of generating the second voice data of the second speaker by performing the voice quality conversion processing on the first voice data of the first speaker, and
A second step of performing a learning process of the speaker identification model using the first voice data and the second voice data as learning data is included.
program.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/996,408 US11580989B2 (en) | 2019-08-23 | 2020-08-18 | Training method of a speaker identification model based on a first language and a second language |
CN202010829027.7A CN112420021A (en) | 2019-08-23 | 2020-08-18 | Learning method, speaker recognition method, and recording medium |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962890872P | 2019-08-23 | 2019-08-23 | |
US62/890,872 | 2019-08-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021033260A true JP2021033260A (en) | 2021-03-01 |
Family
ID=74677379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020077113A Pending JP2021033260A (en) | 2019-08-23 | 2020-04-24 | Training method, speaker identification method, and recording medium |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2021033260A (en) |
CN (1) | CN112420021A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022270327A1 (en) * | 2021-06-22 | 2022-12-29 | パナソニックホールディングス株式会社 | Articulation abnormality detection method, articulation abnormality detection device, and program |
JP7254316B1 (en) | 2022-04-11 | 2023-04-10 | 株式会社アープ | Program, information processing device, and method |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8594993B2 (en) * | 2011-04-04 | 2013-11-26 | Microsoft Corporation | Frame mapping approach for cross-lingual voice transformation |
JP5777178B2 (en) * | 2013-11-27 | 2015-09-09 | 国立研究開発法人情報通信研究機構 | Statistical acoustic model adaptation method, acoustic model learning method suitable for statistical acoustic model adaptation, storage medium storing parameters for constructing a deep neural network, and statistical acoustic model adaptation Computer programs |
JP6613560B2 (en) * | 2014-12-12 | 2019-12-04 | カシオ計算機株式会社 | Electronic device, learning support method and program |
JP7197259B2 (en) * | 2017-08-25 | 2022-12-27 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Information processing method, information processing device and program |
JP6773634B2 (en) * | 2017-12-15 | 2020-10-21 | 日本電信電話株式会社 | Voice converter, voice conversion method and program |
-
2020
- 2020-04-24 JP JP2020077113A patent/JP2021033260A/en active Pending
- 2020-08-18 CN CN202010829027.7A patent/CN112420021A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022270327A1 (en) * | 2021-06-22 | 2022-12-29 | パナソニックホールディングス株式会社 | Articulation abnormality detection method, articulation abnormality detection device, and program |
JP7254316B1 (en) | 2022-04-11 | 2023-04-10 | 株式会社アープ | Program, information processing device, and method |
JP2023155684A (en) * | 2022-04-11 | 2023-10-23 | 株式会社アープ | Program, information processing device and method |
Also Published As
Publication number | Publication date |
---|---|
CN112420021A (en) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5200712B2 (en) | Speech recognition apparatus, speech recognition method, and computer program | |
US11495235B2 (en) | System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks | |
JP6812843B2 (en) | Computer program for voice recognition, voice recognition device and voice recognition method | |
WO2010128560A1 (en) | Voice recognition device, voice recognition method, and voice recognition program | |
CN112185342A (en) | Voice conversion and model training method, device and system and storage medium | |
JP6985221B2 (en) | Speech recognition device and speech recognition method | |
JP2021033260A (en) | Training method, speaker identification method, and recording medium | |
JP2014524599A (en) | Reduce false positives in speech recognition systems | |
US11580989B2 (en) | Training method of a speaker identification model based on a first language and a second language | |
KR19990083632A (en) | Speaker and environment adaptation based on eigenvoices imcluding maximum likelihood method | |
JP2011107314A (en) | Speech recognition device, speech recognition method and speech recognition program | |
JP2020060757A (en) | Speaker recognition device, speaker recognition method, and program | |
WO2020195924A1 (en) | Signal processing device, method, and program | |
US11636844B2 (en) | Method and apparatus for audio signal processing evaluation | |
JP2001312293A (en) | Method and device for voice recognition, and computer- readable storage medium | |
JP7177348B2 (en) | Speech recognition device, speech recognition method and program | |
JP5104732B2 (en) | Extended recognition dictionary learning device, speech recognition system using the same, method and program thereof | |
Nair et al. | A reliable speaker verification system based on LPCC and DTW | |
WO2020049687A1 (en) | Voice processing device, voice processing method, and program storage medium | |
CN113450768B (en) | Speech synthesis system evaluation method and device, readable storage medium and terminal equipment | |
WO2023189173A1 (en) | Speaker identification method, speaker identification device, and speaker identification program | |
KR20200114019A (en) | The method and apparatus for identifying speaker based on pitch information | |
JP2005091758A (en) | System and method for speaker recognition | |
Muttathu Sivasankara Pillai et al. | Spoofing Detection for Personal Voice Assistants | |
JP2023171103A (en) | Speech training device, speech synthesizing device, speech training method, speech synthesizing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240723 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240905 |