JP6426971B2 - 学習データ生成装置及びそのプログラム - Google Patents
学習データ生成装置及びそのプログラム Download PDFInfo
- Publication number
- JP6426971B2 JP6426971B2 JP2014211298A JP2014211298A JP6426971B2 JP 6426971 B2 JP6426971 B2 JP 6426971B2 JP 2014211298 A JP2014211298 A JP 2014211298A JP 2014211298 A JP2014211298 A JP 2014211298A JP 6426971 B2 JP6426971 B2 JP 6426971B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- learning data
- speech recognition
- text
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006978 adaptation Effects 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 description 29
- 238000000034 method Methods 0.000 description 21
- 230000003044 adaptive effect Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 9
- 230000000052 comparative effect Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012804 iterative process Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Description
具体的には、情報番組では、背景音楽や雑音が含まれていたり、アナウンサ以外の出演者が正確に発話していないことが多い。このため、非特許文献2に記載の技術は、ニュース番組で学習した音響モデルを用いても、情報番組の音声認識精度が低くなり、音声認識結果と字幕テキストとの単語一致区間が減少してしまう。その結果、非特許文献2に記載の技術では、必要な量の学習データを生成できない。
本願発明に係る学習データ生成装置は、音声認識の精度が低いために音声認識テキストと字幕テキストとの単語が一致しない場合でも、音声認識テキストの単語を置換する。これにより、学習データ生成装置は、音声認識テキストと字幕テキストとの単語一致区間が増加するため、高精度な学習データをより多く生成することができる。
[音響モデル生成装置の構成]
図1を参照し、本願発明の第1実施形態に係る音響モデル生成装置(学習データ生成装置)1の構成について説明する。
音響モデル生成装置1は、音響モデルの適応化に必要な学習データを準教師あり学習により生成し、生成した学習データを用いて、音響モデルを適応化(生成)するものである。
この音響モデルは、ニュース番組に限定されず、スポーツ番組、情報番組といった様々なジャンルの放送番組の音声認識に用いることができる。
また、ドメイン言語モデルとは、放送番組に付与された字幕テキストから予め生成した言語モデルのことである。
ベースライン言語モデル:「今日」、「は」、「私」 スコア7.0
ドメイン言語モデル :「今日」、「は」、「私」 スコア5.0
適応化言語モデル :「今日」、「は」、「私」 スコア5.2
なお、ベースライン言語モデル、ドメイン言語モデル及び適応化言語モデルは、前記した例に限定されない。また、補間係数も前記した例に限定されない。
なお、後記する繰り返し処理の場合、音声認識手段20は、音響モデル適応化手段60から入力された適応化音響モデルでベースライン音響モデルを更新し、この適応化音響モデルと適応化言語モデルを用いて、放送番組の音声認識を行う。
アライメントとは、音声認識テキスト及び字幕テキストに含まれる単語を、時刻順で対応付けることである。
図2を参照し、置換手段40による単語の置換について説明する(適宜図1参照)。
この図2では、音声認識テキスト100及び字幕テキスト200に含まれる単語a〜単語d、単語X及び単語Yを、「a」〜「d」、「X」及び「Y」と図示した。また、単語a,…,単語b及び単語c,…,単語dは、それぞれ、N個の単語が連続する単語連鎖である。また、音声認識テキスト100及び字幕テキスト200との間では、単語aから単語bまでの単語及び単語cから単語dまでの単語が一致することとする。
その後、置換手段40は、置換された音声認識テキスト100と、字幕テキスト200と、音声データとを学習データ生成手段50に出力する。
音響モデル適応化手段60は、学習データ生成手段50から入力された学習データを用いて、音響モデルを適応化するものである。例えば、音響モデル適応化手段60は、音響モデルとして、隠れマルコフモデル(HMM:Hidden Markov Model)を用いることができる。また、音響モデル適応化手段60は、音響モデルの適応化手法として、MAP(Maximum A. Posteriori estimation)法を用いてもよい。
一方、適応化回数が閾値を超える場合、音響モデル適応化手段60は、繰り返し処理を行わないと判定し、適応化音響モデルを外部に出力し、処理を終了する。
参考文献1:Lamel et.al,Lightly Supervised and Unsupervised Acoustic Model Training,Computer Speech and Language,Vol6,pp.115-129,2002
図3を参照し、音響モデル生成装置1の動作について説明する(適宜図1参照)。
音響モデル生成装置1は、適応化言語モデル生成手段10によって、ベースライン言語モデルとドメイン言語モデルとを補間することで、適応化言語モデルを生成する(ステップS1)。
音響モデル生成装置1は、アライメント手段30によって、ステップS2で生成した音音声認識テキストと、字幕テキストとのアライメントを行う(ステップS3)。
音響モデル生成装置1は、音響モデル適応化手段60によって、適応化回数が閾値以下であるか否かにより、繰り返し処理を行うか否かを判定する(ステップS7)。
繰り返し処理を行わない場合(ステップS7でNo)、音響モデル適応化手段60は、ステップS6で適応化した音響モデルを出力し、処理を終了する。
[音響モデル生成装置の構成]
図4を参照し、本願発明の第2実施形態に係る音響モデル生成装置1Bの構成について、第1実施形態と異なる点を説明する(適宜図1参照)。
第2実施形態では、学習データ及び音声言語コーパスを異なるデータとして扱う点が、第1実施形態と異なる。
なお、アライメント手段30B、学習データ生成手段50B及び音声言語コーパス生成手段70以外の各手段は、第1実施形態と同様のため、説明を省略する。
学習データ生成手段50Bは、音声言語コーパスを出力しない以外、第1実施形態と同様のため、説明を省略する。
他の点、音声言語コーパス生成手段70は、図1の学習データ生成手段50と同様のため、説明を省略する。
図5を参照し、音響モデル生成装置1Bの動作について説明する(適宜図3,図4参照)。
図5のステップS1〜S7の処理は、図3の各ステップと同様のため、説明を省略する。
なお、ステップS8の処理は、ステップS5の後に制限されず、ステップS3の後からステップS7の前までに実行すればよい。
以下、実施例1として、単語数Nの設定について説明する。
なお、字幕テキストは、十分な精度があり、誤っている可能性が低いこととする。
なお、「ある単語の前後N個の単語連鎖が一致し、かつ、その単語が異なるパターン」を「異なるパターン」と略記する。
以下、音声言語コーパスの生成実験について説明する。
ここで、図1の音響モデル生成装置1と、図4の音響モデル生成装置1Bと、参考文献1に記載の手法とを用いて、音声言語コーパスを生成し、生成した音声言語コーパスを検証した。以下、図1の音響モデル生成装置1を実施例2とし、図4の音響モデル生成装置1Bを実施例3とし、参考文献1に記載の手法を比較例とする。
『まる得マガジン』は、オフラインの情報番組である。また、『サイエンスZERO』は、教養番組である。これら『まる得マガジン』及び『サイエンスZERO』の字幕は、予め制作されたものである。
参考文献2:今井他、放送用リアルタイム字幕制作のための音声認識技術の改善、第2回ドキュメント処理ワークショップ、pp.113-120、2008
参考文献3:T.Imai et.al,Online speech detection and dual-gender speech recognition for captioning broadcast news,IEICE Trans.Inf&Syst,Vol E90-D,no.8,pp.1286-1291,2007
なお、スピードワープロ方式とは、複数のキーを同時に押下して入力する特殊な高速入力用キーボードを用いる字幕制作方式である。
10 適応化言語モデル生成手段(第3言語モデル生成手段)
20 音声認識手段
30,30B アライメント手段
40 置換手段
50,50B 学習データ生成手段
60 音響モデル適応化手段
70 音声言語コーパス生成手段
Claims (5)
- 放送番組の音声認識に用いる音響モデルの適応化に必要な学習データを、準教師あり学習により生成する学習データ生成装置であって、
テキストコーパスから予め生成した第1言語モデルと、前記放送番組の字幕テキストから予め生成した第2言語モデルとを線形補間することで、第3言語モデルを生成する第3言語モデル生成手段と、
前記第3言語モデル及び予め生成した音響モデルを用いて、前記放送番組を音声認識する音声認識手段と、
前記放送番組の音声認識結果を表す音声認識テキストと前記字幕テキストとの単語を、時刻順で対応付けるアライメントを行うアライメント手段と、
前記音声認識テキストと前記字幕テキストとの間で対応付けられた単語毎に、当該単語が異なり、かつ、当該単語の前後で予め設定された単語数の単語連鎖が一致するか否かにより当該単語が置換対象であるか否かを判定し、当該単語が置換対象の場合、前記音声認識テキストの単語を前記字幕テキストの単語に置換する置換手段と、
前記放送番組の発話区間毎に、前記置換手段で置換された音声認識テキストと前記字幕テキストとが一致するか否かを判定し、一致すると判定された前記発話区間の音声データに、当該発話区間に対応した字幕テキストの単語をラベルとして付与することで、前記学習データを生成する学習データ生成手段と、
を備えることを特徴とする学習データ生成装置。 - 前記置換手段は、前記予め設定された単語数が5であることを特徴とする請求項1に記載の学習データ生成装置。
- 前記学習データを用いて、前記音響モデルを適応化する音響モデル適応化手段、をさらに備えることを特徴とする請求項1又は請求項2に記載の学習データ生成装置。
- 前記音響モデル適応化手段は、前記音響モデルを適応化した回数が予め設定された閾値以下であるか否かを判定し、前記回数が前記閾値以下の場合、適応化した前記音響モデルを前記音声認識手段に出力し、
前記音声認識手段は、前記第3言語モデル及び前記適応化した音響モデルを用いて、前記放送番組を音声認識することを特徴とする請求項3に記載の学習データ生成装置。 - コンピュータを、請求項1から請求項4の何れか一項に記載の学習データ生成装置として機能させるための学習データ生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014211298A JP6426971B2 (ja) | 2014-10-16 | 2014-10-16 | 学習データ生成装置及びそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014211298A JP6426971B2 (ja) | 2014-10-16 | 2014-10-16 | 学習データ生成装置及びそのプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018173443A Division JP6578049B2 (ja) | 2018-09-18 | 2018-09-18 | 学習データ生成装置及びそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016080832A JP2016080832A (ja) | 2016-05-16 |
JP6426971B2 true JP6426971B2 (ja) | 2018-11-21 |
Family
ID=55958527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014211298A Active JP6426971B2 (ja) | 2014-10-16 | 2014-10-16 | 学習データ生成装置及びそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6426971B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6389296B1 (ja) * | 2017-03-29 | 2018-09-12 | 西日本電信電話株式会社 | 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム |
JP2019128790A (ja) * | 2018-01-24 | 2019-08-01 | 株式会社リコー | 言語処理装置、言語処理方法及びプログラム |
CN111581455B (zh) * | 2020-04-28 | 2023-03-21 | 北京字节跳动网络技术有限公司 | 文本生成模型的生成方法、装置和电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000089786A (ja) * | 1998-09-08 | 2000-03-31 | Nippon Hoso Kyokai <Nhk> | 音声認識結果の修正方法および装置 |
JP4869268B2 (ja) * | 2008-03-04 | 2012-02-08 | 日本放送協会 | 音響モデル学習装置およびプログラム |
JP4928514B2 (ja) * | 2008-08-27 | 2012-05-09 | 日本放送協会 | 音声認識装置及び音声認識プログラム |
JP5478478B2 (ja) * | 2010-12-15 | 2014-04-23 | 日本放送協会 | テキスト修正装置およびプログラム |
-
2014
- 2014-10-16 JP JP2014211298A patent/JP6426971B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016080832A (ja) | 2016-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6578049B2 (ja) | 学習データ生成装置及びそのプログラム | |
US8543395B2 (en) | Methods and systems for performing synchronization of audio with corresponding textual transcriptions and determining confidence values of the synchronization | |
EP3433856B1 (en) | Speaker verification computer system with textual transcript adaptations of universal background model and enrolled speaker model | |
US8645139B2 (en) | Apparatus and method of extending pronunciation dictionary used for speech recognition | |
KR102199246B1 (ko) | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 | |
Davel et al. | Validating smartphone-collected speech corpora | |
JP6426971B2 (ja) | 学習データ生成装置及びそのプログラム | |
JP6637332B2 (ja) | 音声言語コーパス生成装置およびそのプログラム | |
Bordel et al. | Probabilistic kernels for improved text-to-speech alignment in long audio tracks | |
US11929058B2 (en) | Systems and methods for adapting human speaker embeddings in speech synthesis | |
Lecouteux et al. | Imperfect transcript driven speech recognition | |
EP1675102A2 (en) | Method for extracting feature vectors for speech recognition | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP2015082036A (ja) | 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 | |
Bang et al. | Improving Speech Recognizers by Refining Broadcast Data with Inaccurate Subtitle Timestamps. | |
GB2600933A (en) | Apparatus and method for analysis of audio recordings | |
Anguera et al. | Automatic cluster complexity and quantity selection: Towards robust speaker diarization | |
Buzo et al. | Text spotting in large speech databases for under-resourced languages | |
JP6637333B2 (ja) | 音響モデル生成装置およびそのプログラム | |
de Chaumont Quitry et al. | High quality agreement-based semi-supervised training data for acoustic modeling | |
Li et al. | Sa-Paraformer: Non-Autoregressive End-To-End Speaker-Attributed ASR | |
El Khoury et al. | Combining transcription-based and acoustic-based speaker identifications for broadcast news | |
Cucu et al. | Enhancing asr systems for under-resourced languages through a novel unsupervised acoustic model training technique | |
Desplanques et al. | Combining Joint Factor Analysis and iVectors for robust language recognition | |
Wambacq et al. | Efficiency of speech alignment for semi-automated subtitling in Dutch |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170901 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180718 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180731 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180918 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181002 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181026 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6426971 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |