JP6452061B1 - 学習データ生成方法、学習方法、及び評価装置 - Google Patents
学習データ生成方法、学習方法、及び評価装置 Download PDFInfo
- Publication number
- JP6452061B1 JP6452061B1 JP2018152116A JP2018152116A JP6452061B1 JP 6452061 B1 JP6452061 B1 JP 6452061B1 JP 2018152116 A JP2018152116 A JP 2018152116A JP 2018152116 A JP2018152116 A JP 2018152116A JP 6452061 B1 JP6452061 B1 JP 6452061B1
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning
- database
- evaluation
- pseudo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 191
- 238000000034 method Methods 0.000 title claims abstract description 92
- 238000012549 training Methods 0.000 claims abstract description 66
- 238000010801 machine learning Methods 0.000 claims abstract description 51
- 238000006243 chemical reaction Methods 0.000 claims abstract description 24
- 238000010586 diagram Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000005764 inhibitory process Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
Description
例えば、図8は、本実施形態における音データ及び訓練データの一例を示す模式図である。図8の(a)は、学習用の音データの一例である。図8の(b)は、音データの一部を削除した訓練データである。
次に、図3を参照して、本実施形態における学習データ生成方法の一例を説明する。図3は、本実施形態における学習データ生成方法の一例を示すフローチャートである。なお、以下では参照画像及び訓練画像を用いた動作について説明するが、参照データ及び訓練データを用いた場合においても同様の動作のため、説明を省略する。
先ず、参照情報と、訓練情報とを取得する(取得ステップS110)。取得ステップS110では、評価対象の基準となる学習用の音データから変換されたスペクトログラムの一部を抽出した参照画像と、参照画像の一部を削除した訓練画像とを取得する。なお、取得ステップS110では、例えば予め生成された参照情報及び訓練情報を取得するほか、例えば収音装置により収集された音に基づき生成された音データを取得し、音データをスペクトログラムに変換(図4(a))し、スペクトログラムから参照画像を抽出(図4(b))し、参照画像の一部を削除した訓練画像を取得(図4(c))する動作を実行する評価装置1等の電子機器を用いてもよい。この場合、スペクトログラムから参照画像を取得する範囲や、参照画像の一部を削除する範囲は、予め設定してもよい。
次に、生成用データベース(第1データベース)を生成する(第1データベース生成ステップS120)。第1データベース生成ステップS120では、参照画像と、訓練画像とを一対の入力データとした機械学習により、生成データベースを生成する。入力データは、参照画像と訓練画像との一対のデータを複数(例えば1000程度)含み、例えば1つの参照画像に対して、削除箇所の異なる複数の訓練画像を、それぞれ一対のデータとして入力データに含ませてもよい。第1データベース生成ステップS120では、例えばpix2pixをモデルとした機械学習を用いて、生成用データベースを生成する。
次に、疑似画像を生成する(生成ステップS130)。生成ステップS130では、生成データベースを参照し、サンプル画像(新たな参照画像又は新たな訓練画像)に基づく疑似画像を生成する。生成ステップS130では、例えば第1データベース生成ステップS120に用いた参照画像又は訓練画像を、サンプル画像として用いてもよいほか、例えば第1データベース生成ステップS120に用いられない参照画像又は訓練画像を、サンプル画像として用いてもよい。何れの場合においても、サンプル画像は、取得ステップS110により取得された参照情報又は訓練画像と同様の方法により取得できる。
次に、疑似画像を疑似音データに変換する(変換ステップS140)。変換ステップS140では、疑似画像を、疑似音データに変換する。変換ステップS140は、例えば疑似音データに乱数で発生させたノイズを加えてもよい。このため、疑似音データを、実際に取得される音に近づけることができる。これにより、学習データとしての質を向上させることが可能となる。
次に、図5を参照して、本実施形態における学習方法の一例を説明する。図5は、本実施形態における学習方法の一例を示すフローチャートである。
本実施形態における学習方法では、評価用データベース(第2データベース)を生成する(第2データベース生成ステップS210)。第2データベース生成ステップS210では、疑似音データと、疑似音データに紐づく評価データとを一対の入力データとした機械学習により、評価用データベースを生成する。入力データは、疑似音データと評価データとの一対のデータを複数含み、例えば収音装置より収集された音に基づき生成された音データと、評価データとの一対のデータを複数含んでもよい。第2データベース生成ステップS210では、例えばCNNをモデルとした機械学習を用いて、評価用データベースを生成する。
次に、図6を参照して、本実施形態における評価装置1の一例を説明する。図6(a)は、本実施形態における評価装置1の構成の一例を示す模式図であり、図6(b)は、本実施形態における評価装置1の機能の一例を示す模式図である。
取得部11は、評価対象用音データを取得する。取得部11は、例えば評価用データベースを生成するための音データ(疑似音データ)、評価データ等を取得してもよい。取得部11は、例えば疑似音データを生成するための音データ、参照情報、訓練情報、サンプル画像等を取得してもよい。
データベース生成部12は、生成用データベース、及び評価用データベースの少なくとも何れかを生成する。生成用データベース、及び評価用データベースの少なくとも何れかを生成する方法は、上述した内容と同様である。なお、生成用データベース、及び評価用データベースを他の端末等により生成する場合、評価装置1は、データベース生成部12を備えなくてもよい。
疑似画像生成部13は、生成用データベースを参照し、サンプル画像(新たな参照画像又は新たな訓練画像)に基づく疑似画像を生成する。疑似画像の生成方法は、上述した内容と同様である。なお、評価用データベースを他の端末等により生成する場合、評価装置1は、疑似画像生成部13を備えなくてもよい。
変換部14は、疑似画像を、疑似音データに変換する。変換部14は、例えば疑似音データに乱数で発生させたノイズを加える。疑似音データを変換する方法は、上述した内容と同様である。なお、評価用データベースを他の端末等により生成する場合、評価装置1は、変換部14を備えなくてもよい。
評価部15は、評価用データベースを参照して、評価対象用音データに基づく評価結果を生成する。評価結果を生成する方法は、上述した内容と同様である。
出力部16は、評価結果等を出力部分109等に出力する。出力部16は、例えば公衆通信網2を介して、他の端末等に評価結果を送信する。
記憶部17は、取得部11で取得した各種情報や、評価部15で生成された評価結果等を、保存部104に保存し、必要に応じて保存部104に保存された各種情報を取出す。
次に、図7を参照して、本実施形態における評価装置1の動作の一例を説明する。図7は、本実施形態における評価装置1の動作の一例を示すフローチャートである。
先ず、評価対象用音データを取得する(評価データ取得ステップS310)。取得部11は、例えば収音装置により収集された音に基づき生成された音データを、評価対象用音データとして取得する。取得部11は、上述した学習用の音データと同じ形式の評価対象用音データを取得する。取得部11は、例えば記憶部17を介して、取得した評価対象用音データを保存部104に保存する。
次に、評価対象用音データに基づく評価結果を生成する(評価結果生成ステップS320)。評価部15は、評価用データベースを参照し、評価対象用音データに基づく評価結果を生成する。評価部15は、例えば1つの評価対象用音データに対して1つの評価結果を生成するほか、複数の評価対象用音データに対して1つの評価結果を生成してもよい。
2 :公衆通信網
10 :筐体
11 :取得部
12 :データベース生成部
13 :疑似画像生成部
14 :変換部
15 :評価部
16 :出力部
17 :記憶部
101 :CPU
102 :ROM
103 :RAM
104 :保存部
105 :I/F
106 :I/F
107 :I/F
108 :入力部分
109 :出力部分
110 :内部バス
S110 :取得ステップ
S120 :第1データベース生成ステップ
S130 :生成ステップ
S140 :変換ステップ
S210 :第2データベース生成ステップ
S310 :評価データ取得ステップ
S320 :評価結果生成ステップ
Claims (13)
- 機械学習の学習データとして用いる音データを疑似的に生成する学習データ生成方法であって、
学習用の前記音データから変換されたスペクトログラムの一部を抽出した参照画像と、前記参照画像の一部を削除した訓練画像と、を取得する取得ステップと、
前記参照画像と、前記訓練画像とを一対の入力データとした機械学習により第1データベースを生成する第1データベース生成ステップと、
前記第1データベースを参照し、新たな前記参照画像又は新たな前記訓練画像に基づく疑似画像を生成する生成ステップと、
前記疑似画像を、疑似音データに変換する変換ステップと、
を備えることを特徴とする学習データ生成方法。
- 前記生成ステップは、1つの新たな前記参照画像又は1つの新たな前記訓練画像に対して、複数の前記疑似画像を生成し、
複数の前記疑似画像は、それぞれ異なる前記疑似音データに変換されること
を特徴とする請求項1記載の学習データ生成方法。
- 前記第1データベース生成ステップは、機械学習に基づき前記第1データベースを生成すること
を特徴とする請求項1又は2記載の学習データ生成方法。
- 前記第1データベース生成ステップは、生成系の機械学習に基づき前記第1データベースを生成すること
を特徴とする請求項1又は2記載の学習データ生成方法。
- 前記音データは、コネクタ音と、周辺環境音とを含むこと
を特徴とする請求項1〜4の何れか1項記載の学習データ生成方法。
- 前記変換ステップは、逆短時間フーリエ変換を用いて前記疑似画像から変換された前記疑似音データに対して、乱数で発生させたノイズを加えること
を特徴とする請求項1〜5の何れか1項記載の学習データ生成方法。
- 請求項1〜6の何れか1項記載の学習データ生成方法により生成された前記疑似音データを学習データとして機械学習する学習方法であって、
前記疑似音データと、前記疑似音データに紐づく評価データとを一対の入力データとした機械学習により第2データベースを生成する第2データベース生成ステップと、
を備えることを特徴とする学習方法。
- 請求項7記載の学習方法により生成された前記第2データベースを用いて、評価対象用音データを評価する評価装置であって、
前記評価対象用音データを取得する取得部と、
前記第2データベースを参照して、前記評価対象用音データに基づく評価結果を生成する評価部と、
を備えることを特徴とする評価装置。
- 評価対象用音データを評価する評価装置であって、
学習用の音データから変換されたスペクトログラムの一部を抽出した参照画像と、前記参照画像の一部を削除した訓練画像と、を取得する第1取得部と、
前記参照画像と、前記訓練画像とを一対の入力データとした機械学習により第1データベースを生成する第1データベース生成部と、
前記第1データベースを参照し、新たな前記参照画像又は新たな前記訓練画像に基づく疑似画像を生成する疑似画像生成部と、
前記疑似画像を、疑似音データに変換する変換部と、
前記疑似音データと、前記疑似音データに紐づく評価データとを一対の入力データとした機械学習により第2データベースを生成する第2データベース生成部と、
前記評価対象用音データを取得する第2取得部と、
前記第2データベースを参照して、前記評価対象用音データに基づく評価結果を生成する評価部と、
を備えることを特徴とする評価装置。
- 機械学習の学習データとして用いる音データを疑似的に生成する学習データ生成方法であって、
学習用の前記音データに基づく参照データと、前記参照データの一部を削除した訓練データと、を取得する取得ステップと、
前記参照データと、前記訓練データとを一対の入力データとした機械学習により第1データベースを生成する第1データベース生成ステップと、
前記第1データベースを参照し、新たな前記参照データ又は新たな前記訓練データに基づく疑似データを生成する生成ステップと、
を備えることを特徴とする学習データ生成方法。
- 前記生成ステップは、1つの新たな前記参照データ又は1つの新たな前記訓練データに対して、複数の前記疑似データを生成すること
を特徴とする請求項10記載の学習データ生成方法。
- 請求項10又は11記載の学習データ生成方法により生成された前記疑似データを学習データとして機械学習する学習方法であって、
前記疑似データと、前記疑似データに紐づく評価データとを一対の入力データとした機械学習により第2データベースを生成する第2データベース生成ステップと、
を備えることを特徴とする学習方法。
- 請求項12記載の学習方法により生成された前記第2データベースを用いて、評価対象用音データを評価する評価装置であって、
前記評価対象用音データを取得する取得部と、
前記第2データベースを参照して、前記評価対象用音データに基づく評価結果を生成する評価部と、
を備えることを特徴とする評価装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018152116A JP6452061B1 (ja) | 2018-08-10 | 2018-08-10 | 学習データ生成方法、学習方法、及び評価装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018152116A JP6452061B1 (ja) | 2018-08-10 | 2018-08-10 | 学習データ生成方法、学習方法、及び評価装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6452061B1 true JP6452061B1 (ja) | 2019-01-16 |
JP2020027182A JP2020027182A (ja) | 2020-02-20 |
Family
ID=65020469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018152116A Active JP6452061B1 (ja) | 2018-08-10 | 2018-08-10 | 学習データ生成方法、学習方法、及び評価装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6452061B1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020160344A (ja) * | 2019-03-27 | 2020-10-01 | 株式会社 日立産業制御ソリューションズ | 音響特徴量変換装置、音響モデル学習装置、音響認識装置、音響特徴量変換方法、および音響特徴量変換プログラム |
JP7537189B2 (ja) | 2019-10-01 | 2024-08-21 | 富士フイルムビジネスイノベーション株式会社 | 方法、プログラム、及び装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2022201256A1 (ja) * | 2021-03-22 | 2022-09-29 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005196020A (ja) * | 2004-01-09 | 2005-07-21 | Nec Corp | 音声処理装置と方法並びにプログラム |
JP2014219605A (ja) * | 2013-05-09 | 2014-11-20 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム |
EP3113180A1 (en) * | 2015-07-02 | 2017-01-04 | Thomson Licensing | Method for performing audio inpainting on a speech signal and apparatus for performing audio inpainting on a speech signal |
-
2018
- 2018-08-10 JP JP2018152116A patent/JP6452061B1/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005196020A (ja) * | 2004-01-09 | 2005-07-21 | Nec Corp | 音声処理装置と方法並びにプログラム |
JP2014219605A (ja) * | 2013-05-09 | 2014-11-20 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム |
EP3113180A1 (en) * | 2015-07-02 | 2017-01-04 | Thomson Licensing | Method for performing audio inpainting on a speech signal and apparatus for performing audio inpainting on a speech signal |
Non-Patent Citations (3)
Title |
---|
伊藤 新 外3名: "「MLLR変換行列により制約された音響特徴量生成による頑健な音響モデル」", 電子情報通信学会技術研究報告, vol. 第110巻,第357号, JPN6018044210, 13 December 2010 (2010-12-13), pages pp.55−60 * |
西崎 博光 外2名: "「音声コーデックと変分オートエンコーダを利用した音響モデル学習データの拡張」", 日本音響学会 2017年 秋季研究発表会講演論文集CD−ROM [CD−ROM], JPN6018044209, September 2017 (2017-09-01), pages pp.87−90 * |
関 翔悟 外3名: "「時間領域信号推定に基づく音声スペクトログラムの欠損成分復元」", 電子情報通信学会技術研究報告, vol. 第116巻,第477号, JPN6018044211, 22 February 2017 (2017-02-22), pages pp.19−24 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020160344A (ja) * | 2019-03-27 | 2020-10-01 | 株式会社 日立産業制御ソリューションズ | 音響特徴量変換装置、音響モデル学習装置、音響認識装置、音響特徴量変換方法、および音響特徴量変換プログラム |
JP7208846B2 (ja) | 2019-03-27 | 2023-01-19 | 株式会社 日立産業制御ソリューションズ | 音響特徴量変換装置、音響特徴量変換方法、および音響特徴量変換プログラム |
JP7537189B2 (ja) | 2019-10-01 | 2024-08-21 | 富士フイルムビジネスイノベーション株式会社 | 方法、プログラム、及び装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2020027182A (ja) | 2020-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111292764B (zh) | 辨识系统及辨识方法 | |
CN110335587B (zh) | 语音合成方法、系统、终端设备和可读存储介质 | |
CN113436643B (zh) | 语音增强模型的训练及应用方法、装置、设备及存储介质 | |
US11355097B2 (en) | Sample-efficient adaptive text-to-speech | |
JP6452061B1 (ja) | 学習データ生成方法、学習方法、及び評価装置 | |
KR20170053525A (ko) | 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법 | |
JP2024505076A (ja) | 多様で自然なテキスト読み上げサンプルを生成する | |
CN113886643A (zh) | 数字人视频生成方法、装置、电子设备和存储介质 | |
CN112735454A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
WO2024055752A9 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 | |
JP2020034683A (ja) | 音声認識装置、音声認識プログラムおよび音声認識方法 | |
CN112289343B (zh) | 音频修复方法、装置及电子设备和计算机可读存储介质 | |
JP7124373B2 (ja) | 学習装置、音響生成装置、方法及びプログラム | |
CN113205793A (zh) | 音频生成方法、装置、存储介质及电子设备 | |
CN111028833B (zh) | 一种交互、车辆的交互方法、装置 | |
CN112786001B (zh) | 语音合成模型训练方法、语音合成方法和装置 | |
TWI814268B (zh) | 資料生成裝置、資料生成方法及電腦程式產品 | |
JP6843409B1 (ja) | 学習方法、コンテンツ再生装置、及びコンテンツ再生システム | |
CN110570877A (zh) | 手语视频生成方法、电子设备及计算机可读存储介质 | |
CN117033600A (zh) | 用于认知实体合成的生成性角色引擎 | |
CN115995225A (zh) | 模型训练方法和装置、语音合成方法、设备及存储介质 | |
EP4145386A1 (en) | Information processing device and program | |
CN114822497A (zh) | 语音合成模型的训练及语音合成方法、装置、设备和介质 | |
CN113012706B (zh) | 一种数据处理方法、装置及电子设备 | |
CN110930333A (zh) | 图像修复方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180820 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20180820 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20180903 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20180910 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6452061 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |