JP2011242637A - Voice data editing device - Google Patents
Voice data editing device Download PDFInfo
- Publication number
- JP2011242637A JP2011242637A JP2010115192A JP2010115192A JP2011242637A JP 2011242637 A JP2011242637 A JP 2011242637A JP 2010115192 A JP2010115192 A JP 2010115192A JP 2010115192 A JP2010115192 A JP 2010115192A JP 2011242637 A JP2011242637 A JP 2011242637A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- information
- speech
- recorded
- editing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声編集装置に関し、特に録音された音声を合成音声で編集する技術に関する。 The present invention relates to a voice editing apparatus, and more particularly to a technique for editing recorded voice with synthesized voice.
この種の音声編集装置の一例が特許文献1に記載されている。特許文献1に記載の音声編集装置は、車載用ナビゲーション装置や公共施設における自動放送装置などの自動音声案内システムにおいて、録音音声のうち編集情報で指定された箇所を合成音声で置換することにより音声の編集を行う。具体的には、例えば、「この先、中野付近で、渋滞があります」というテキストに対応する録音音声データが記録されている場合において、「中野」の箇所を「品川」に編集することを指示する編集情報が入力されると、音声編集装置は、「品川」に対応する合成音声を生成し、録音音声データ「この先、」および「付近で、渋滞があります」と接続して、「この先、品川付近で、渋滞があります」という音声を出力する。
An example of this type of speech editing apparatus is described in
他方、本発明に関連する技術として、以下のような技術がある。 On the other hand, there are the following techniques as techniques related to the present invention.
特許文献2には、音声データとテキストデータとが混在する情報源を入力とし、テキストデータについて、音声合成手段を用いて合成音声を生成し、この合成音声と音声データとを所定の順序に従って編成した音声コンテンツを生成する技術が記載されている。
In
特許文献3には、音声を人手により或いは音声認識装置を用いてテキスト化した際の音声文字化誤りを検出する装置が記載されている。具体的には、或る音声についての書き起こし作業により「今日の号から天気は下り坂に・・・」のようなテキストが得られた場合、そのテキストから逆に合成音声を生成し、この合成音声と元の音声とを比較することにより、テキスト中の音声文字化誤り箇所「号」を検出する。 Patent Document 3 describes a device that detects a voice characterizing error when a voice is converted into text by hand or using a voice recognition device. Specifically, when a text such as “Today's issue is downhill…” is obtained from the transcription work on a certain voice, a synthesized voice is generated from the text. By comparing the synthesized speech with the original speech, a speech garbled error location “No.” in the text is detected.
特許文献4には、ユーザが発声中に言い誤った直後に言い直し発声を行った場合や、言い淀み後に本来入力したい発声を行った場合に、言い直しや本来入力したい発声のみを正しく受理できる音声認識システムが記載されている。例えば、ユーザが「大阪から、いや、新大阪から東京まで」と発声した場合、「いや」という特定語彙を検出し、「大阪から、いや」に対応する音声区間を棄却し、「新大阪から東京まで」に対応する音声区間だけを音声認識対象とする。 Patent Document 4 can correctly accept only the utterance to be restated or originally input when the user utters the utterance immediately after making a mistake or when the utterance is intended to be input after the utterance. A speech recognition system is described. For example, if the user utters “From Osaka, No, Shin Osaka to Tokyo”, the specific vocabulary “No” is detected, the speech segment corresponding to “From Osaka, no” is rejected, and “From Shin Osaka” Only the speech segment corresponding to “To Tokyo” is subject to speech recognition.
プロフェッショナルユース、コンシューマユースを問わず、話者が発声した音声を録音して利用するシーンは数多く存在する。例えば、プロフェッショナルユースではテレビやラジオの番組制作、講義や講演音声の収録、コンシューマユースでは留守番電話、ホームビデオでの撮影等が挙げられる。 Regardless of professional use or consumer use, there are many scenes where the voice uttered by the speaker is recorded and used. For example, professional use includes TV and radio program production, recording of lectures and lecture audio, consumer use includes answering machines, and home video recording.
上述したようなシーンでは、録音された音声に発声誤りや言いよどみ、雑音の重畳等が含まれる場合がある。この場合、直後に言い直していたり、重畳している雑音がごく短時間であったりするのであれば、市販の音響編集アプリケーションや機材を用いて手動で修正したり、特許文献4に記載の技術を応用して自動的に修正することが可能である。しかし、言い誤ったまま発声を続けたり、雑音が大きかったりする場合には、音声を修正するためには再度音声を収録する必要が生じてしまい、非常に負担を強いるものとなっていた。 In the scene as described above, the recorded voice may include an utterance error, sloppyness, noise superposition, and the like. In this case, if it is immediately rephrased or if the superimposed noise is very short, it can be corrected manually using a commercially available sound editing application or equipment, or the technique described in Patent Document 4 It is possible to correct automatically by applying. However, if the utterance is continued with a mistake, or the noise is loud, it becomes necessary to record the voice again in order to correct the voice, which is very burdensome.
録音された音声の一部を合成音声で置換する技術が特許文献1に記載されている。しかし、特許文献1は、録音された音声に発声誤りや言いよどみ、雑音の重畳等が含まれていることは想定していない。すなわち、録音音声中の言語的あるいは音響的に不具合な箇所を合成音声で置き換える考えは、特許文献1には記載されていない。また、特許文献2は、合成音声と音声データとを所定の順序に従って編成する技術であり、録音された音声の一部を合成音声で置換する技術ではない。また、特許文献3は、音声文字化誤り箇所を検出する技術であり、録音された音声中の発声誤りや言いよどみ、雑音の重畳等を検出する技術ではない。
本発明の目的は、上述したような課題、すなわち録音された音声中の不具合箇所を修正するためには再度音声を収録する必要がある、という課題を解決する音声編集装置を提供することにある。 An object of the present invention is to provide an audio editing apparatus that solves the above-described problem, that is, the problem that it is necessary to record audio again in order to correct a defective portion in the recorded audio. .
本発明の一形態にかかる音声編集装置は、収録音声の不具合箇所を検出し、上記不具合箇所の修正に用いる合成音声を生成するのに必要な音声合成情報と、上記不具合箇所の位置情報を含む収録音声変更情報とを生成する編集情報生成手段と、上記音声合成情報に基づいて合成音声を生成する音声合成手段と、上記収録音声変更情報に基づいて、上記収録音声の不具合箇所を上記合成音声により修正する音声編集手段とを備える。 A speech editing apparatus according to an aspect of the present invention includes speech synthesis information necessary for detecting a defective portion of recorded sound and generating synthesized speech used for correcting the defective portion, and positional information of the defective portion. Editing information generating means for generating recorded voice change information, voice synthesizing means for generating synthesized voice based on the voice synthesis information, and a defective portion of the recorded voice based on the recorded voice change information And voice editing means for correcting by the above.
本発明は上述したように構成されているため、録音された音声中の不具合箇所を修正するために再度音声を収録する必要がなく、収録音声の修正に要する利用者の負担を軽減することができる。 Since the present invention is configured as described above, it is not necessary to record the sound again in order to correct the defective part in the recorded sound, and the burden on the user required to correct the recorded sound can be reduced. it can.
次に本発明の実施の形態について図面を参照して詳細に説明する。 Next, embodiments of the present invention will be described in detail with reference to the drawings.
[第1の実施形態]
図1を参照すると、本発明の第1の実施形態に係る音声編集装置100は、収録音声700を入力して編集を行い、編集済み音声800を出力する機能を有する。この音声編集装置100は、編集情報生成部200と、音声合成部300と、音声編集部400とから構成される。
[First embodiment]
Referring to FIG. 1, the
編集情報生成部200は、収録音声700を解析して収録音声700に存在する不具合な箇所を検出する機能を有する。具体的には、編集情報生成部200は、収録音声700中の音響的に不具合な箇所または言語的に不具合な箇所を検出する。編集情報生成部200は、音響的に不具合な箇所を検出する場合、収録音声700を分析して得られる音声特徴量に基づいて、例えばテンポ、基本周波数、パワー、S/N比等の所定の音響的パラメータが所定の閾値を超えるほど急変している箇所を、音響的に不具合な箇所として検出する。また、編集情報生成部200は、言語的に不具合な箇所を検出する場合、収録音声700を例えば音声認識装置によってテキスト化し、そのテキスト中から、読み間違いや言い誤りなど文法的に正しくない箇所や意味的に正しくない箇所を不具合な箇所として検出する。また、編集情報生成部200は、例えばフィラーや言い淀みなど、文法的および意味的に好ましくない箇所を不具合な箇所として検出する。
The editing
さらに編集情報生成部200は、検出した不具合な箇所を修正するための音声を合成するために必要な音声合成情報と、不具合な箇所の位置情報を含む収録音声変更情報とを生成する機能を有する。編集情報生成部200は、生成した音声合成情報および収録音声変更情報を音声合成情報500および収録音声変更情報600として出力する。あるいは編集情報生成部200は、生成した音声合成情報および収録音声変更情報を図示しない表示装置に表示し、図示しない入力装置を通じて入力される利用者指示に従って音声合成情報および収録音声変更情報の変更を行い、この変更後の音声合成情報および収録音声変更情報を音声合成情報500および収録音声変更情報600として出力する。
Further, the editing
音声合成部300は、音声合成情報500に従って、収録音声700の話者と同一または近似した音声を合成する機能を有する。音声合成部300は、合成した音声を音声編集部400へ出力する。
The
音声編集部400は、収録音声変更情報600に基づいて、収録音声700の不具合な箇所を合成音声により修正する機能を有する。
The
次に本実施形態の動作を説明する。図2は本実施形態の動作の流れを示すフローチャートである。 Next, the operation of this embodiment will be described. FIG. 2 is a flowchart showing the operation flow of the present embodiment.
音声編集装置100の編集情報生成部200は、収録音声700が入力されると(S101)、収録音声700中の音響的あるいは言語的に不具合な箇所を検出する(S102)。次に編集情報生成部200は、上記検出した不具合な箇所の修正に使用する音声を合成するための音声合成情報500と、その不具合な箇所の位置情報を含む収録音声変更情報600とを生成する(S103)。そして、編集情報生成部200は、音声合成情報500を音声合成部300へ出力し、収録音声変更情報600を音声編集部400へ出力する。
When the recorded
音声合成部300は、音声合成情報500に従って、音声を合成し、合成した音声を音声編集部400へ出力する(S104)。
The
音声編集部400は、収録音声700のうち、収録音声変更情報600で示される箇所を切り取ったり、音声合成部300により生成された合成音声で置換することにより、編集済み音声800を生成し、出力する(S105)。
The
このように本実施形態によれば、録音された音声中の不具合な箇所を修正するために再度音声を収録する必要がなく、収録音声の修正に要する利用者の負担を軽減することができる。 As described above, according to the present embodiment, it is not necessary to record the sound again in order to correct the troubled portion in the recorded sound, and the burden on the user required to correct the recorded sound can be reduced.
[第2の実施形態]
図3を参照すると、本発明の第2の実施形態に係る音声編集装置101は、収録音声701を入力して編集を行い、編集済み音声801を出力する機能を有する。この音声編集装置101は、編集情報生成部201と、音声合成部301と、音声編集部401とから構成される。
[Second Embodiment]
Referring to FIG. 3, the
編集情報生成部201は、収録音声701を解析して収録音声701から音響的な不具合箇所および言語的な不具合箇所を検出する機能と、検出した不具合箇所を修正するための音声を合成するために必要な音声合成情報501と、不具合箇所の位置情報を含む収録音声変更情報601とを生成する機能とを有する。この編集情報生成部201は、音声認識部210と、音声分析部220と、変更箇所決定部230と、合成情報生成部240と、収録音声変更情報生成部250とから構成される。
The editing
音声認識部210は、収録音声701を入力し、入力した収録音声に対して音声認識処理を行ってテキストに変換し、このテキストを変更箇所決定部230へ出力する。
The
音声分析部220は、収録音声701を入力し、入力した収録音声に対して音声分析処理を行って音響的な特徴量を抽出し、この音響的な特徴量を変更箇所決定部230および合成情報生成部240へ出力する。収録音声701から抽出する音響的な特徴量としては、テンポ(全体平均、局所的な値)、基本周波数(全体平均、局所的な値、ピッチパターン等)、パワー(全体平均、局所的な値)、スペクトル情報(全体平均、局所的な値)、S/N比(全体平均、局所的な値)などが考えられる。また音響的な特徴量の抽出方法としては、ケプストラム分析、LPC分析、LSP分析等が考えられる。音声分析部220から変更箇所決定部230へ出力する音響的な特徴量の種類と、音声分析部220から合成情報生成部240へ出力する音響的な特徴量の種類とは、同一であってもよいし、異なっていてもよい。
The
変更箇所決定部230は、収録音声701中の音響的な不具合箇所を検出する音響的不具合検出部231と、収録音声701中の言語的な不具合箇所を検出する言語的不具合検出部232と、統合部233とから構成される。
The change
音響的不具合検出部231は、収録音声701から抽出された音響的な特徴量に基づいて、収録音声701中の音響的な不具合箇所を検出する機能を有する。音響的な不具合箇所とは、例えば、テンポ、基本周波数、パワー、S/N比等の急激な変化が生じており、音声を聞く際に聞き取り難い等の問題が発生すると考えられる箇所のことである。音響的不具合検出部231は、例えば、テンポ、基本周波数、パワー、S/N比等の音響的な特徴量の少なくとも1つが、例えば全体平均に比べて閾値だけ相違している箇所を音響的な不具合箇所として検出する。音響的不具合検出部231は、1以上の音響的な不具合箇所を検出した場合、それぞれの不具合箇所ごとに、その不具合箇所を特定する情報を統合部233へ出力する。不具合箇所を特定する情報としては、例えば、収録音声701をテキスト化したテキスト上における位置や、収録音声701上における位置が考えられる。
The acoustic
言語的不具合検出部232は、収録音声701をテキスト化したテキストに基づいて、収録音声701中の言語的な不具合箇所を検出すると共に正しいテキストを推定する機能を有する。言語的な不具合箇所とは、読み間違いや言い誤りなど文法的あるいは意味的に正しくない箇所や、フィラーや言い淀みなど文法的および意味的に好ましくない箇所のことである。言語的不具合検出部232は、このような言語的な不具合箇所を収録音声701をテキスト化したテキストから検出し、また正しいテキストを推定する。
The linguistic
言語的不具合検出部232の構成の一例を図4に示す。図4を参照すると、言語的不具合検出部232は、音声認識部210により生成された収録音声701のテキストを変更前テキスト2323として入力し、変更後テキスト2324を出力するテキスト変更部2321と、変更前テキスト2323と変更後テキスト2324の差分(相違点)を抽出する差分抽出部2322とから構成される。
An example of the configuration of the linguistic
テキスト変更部2321は、変更前テキスト2323から、読み間違い、言い誤りなどの文法的に誤っている箇所や、フィラーや言い淀みなどの文法的に好ましくない箇所を検出し、これらの箇所を文法的に正しい内容、文法的に好ましい内容に変更したテキストを、変更後テキスト2324として出力する。テキスト変更部2321は、例えばフィラーについては、変更前テキスト2323とフィラー候補を収集した辞書とのマッチングにより抽出し、該当部分のフィラーを削除する。また、テキスト変更部2321は、言い淀み、読み間違い、言い誤りについては、音韻列の類似度や単語の前後環境により正解を推定する方法を用いて、誤り箇所と正解とを推定する。そして、テキスト変更部2321は、言い淀み箇所は削除し、読み間違いや言い誤り箇所は正解で置き換える。
The
差分抽出部2322は、変更前テキスト2323と変更後テキスト2324との差分を抽出する。差分抽出部2322は、1以上の差分を検出した場合、それぞれの差分ごとに、変更前テキスト2323上での位置と正解テキストとを統合部233へ出力する。
The
再び図3を参照すると、統合部233は、音響的不具合検出部231の検出結果と言語的不具合検出部232の検出結果とに基づいて、変更箇所音韻情報261および変更箇所位置情報262を生成し、合成情報生成部240および収録音声変更情報生成部250へ出力する。
Referring again to FIG. 3, the
統合部233は、例えば、収録音声701をテキスト化したテキスト中の例えば「A社」の部分に音響的不具合があることが音響的不具合検出部231で検出された場合、その音響的不具合に関して、「A社」の音韻情報を変更箇所音韻情報261として出力し、その不具合箇所の位置情報を変更箇所位置情報262として出力する。変更箇所の位置情報は、例えば、変更箇所の文頭からのモーラ数で表現される。あるいは、統合部233は、音響的な不具合箇所の前の幾つかの語から、後の幾つかの語までの所定範囲の箇所の音韻情報を示す変更箇所音韻情報261と、上記所定範囲を示す変更箇所位置情報262とを生成する。
For example, when the acoustic
また統合部233は、例えば、収録音声701をテキスト化したテキスト中に例えばフィラーの「ええと」があることが言語的不具合検出部232で検出された場合、その言語的不具合に関して、「ええと」の箇所を示す変更箇所位置情報262を生成し、対応する変更箇所音韻情報261は生成しない。あるいは、統合部233は、その言語的不具合に関して、「ええと」の前の幾つかの語から「ええと」の後の幾つかの語までの所定範囲の箇所の音韻から「ええと」の音韻を取り除いた音韻情報を示す変更箇所音韻情報261と、
上記所定範囲を示す変更箇所位置情報262とを生成する。
Further, for example, when the linguistic
Change location information 262 indicating the predetermined range is generated.
また統合部233は、例えば、収録音声701をテキスト化したテキスト中に読み間違いの「そうさつ」があり、正解テキストとして「そうさい」が推定されている場合、その言語的不具合に関して、例えば、「そうさい」の音韻情報を示す変更箇所音韻情報261と、「そうさつ」の箇所を示す変更箇所位置情報262とを生成する。あるいは、統合部233は、その言語的不具合に関して、例えば、「さうさつ」の前の幾つかの語から「そうさつ」の後の幾つかの語までの所定範囲の箇所の音韻中の「そうさつ」部分を「さうそい」の音韻に置き換えた音韻情報を示す変更箇所音韻情報261と、上記所定範囲を示す変更箇所位置情報262とを生成する。
Further, for example, when there is a misreading “Sosasai” in the text obtained by converting the recorded
さらに統合部233は、音響的不具合箇所と言語的不具合箇所とが重複する箇所に関しては、音響的不具合箇所は無視し、言語的不具合箇所に関してのみ処理を行う。その理由は、言語的不具合を修正する際に音響的不具合は自然と解消するためである。例えば、収録音声701をテキスト化したテキスト中に読み間違いの「そうさつ」があり、正解テキストとして「そうさい」が推定されていると同時に「そうさつ」部分に音響的不具合があることが検出されている場合、例えば、「そうさい」の音韻情報を示す変更箇所音韻情報261と、「そうさつ」の箇所を示す変更箇所位置情報262とを生成する。
Further, the
なお、統合部233は、例えば、文の中央部では広範囲を変更してもよいが、文末では可能な限り変更範囲を狭くするといったように、変更箇所の文中での位置等から編集方法や編集範囲を変更するようにしてもよい。
For example, the
合成情報生成部240は、変更箇所音韻情報261に従って、音声合成処理のための音声合成情報501を生成し、音声合成部301に出力する。ここで、音声合成情報とは、音声合成部301における音声合成処理の際に必要となる、生成する合成音声の音韻情報、および合成音声のテンポ、基本周波数、スペクトル情報、継続時間長情報等の特徴量情報である。生成する合成音声の音韻情報には、変更箇所音韻情報261によって与えられる音韻情報が使用される。音韻情報は、発音記号列として音声合成情報501に含めてもよいし、漢字仮名混じり文として音声合成情報501に含めてもよい。また、合成音声のテンポや基本周波数などの特徴量情報は、音声分析部220から与えられる音響的な特徴量に基づいて生成される。即ち、テンポや基本周波数などの特徴量を収録音声701と同一或いは近いものにすることにより、収録音声と合成音声とが滑らかに(聴覚上違和感なく)結合されるようにする。
The synthesis
収録音声変更情報生成部250は、変更箇所位置情報262に従って、収録音声変更情報601を生成する。収録音声変更情報601は、少なくとも変更箇所位置情報262を含み、さらに加えて、変更箇所の変更前音節情報、変更箇所の前後に係る音節情報等を含めてもよい。なお、収録音声変更情報601として、変更箇所位置情報262のみを利用する場合は、変更箇所位置情報262をそのまま収録音声変更情報601とすればよい。この場合、収録音声変更情報生成部250は省略することができる。
The recorded audio change
音声合成部301は、音声合成情報501から、編集箇所の合成音声を生成する。音声合成部301は、音声合成情報501が漢字仮名交じり文であった場合は、形態素解析処理により読み情報やアクセント情報が付与された発音記号列を生成してから、音声合成用データベースを用いて音声を合成する。音声合成用データベースには、音声を合成する元になる音声波形、音声波形に対応する音節あるいは音素のデータ、各音節あるいは音素の韻律特徴パラメータなどが記録されている。音声合成処理に使用する音声合成用データベースは、収録音声と同一話者による音声合成用データベースが予め用意されていれば、それを用いる。収録音声と同一話者による音声合成用データベースが予め用意されていなければ、収録音声701のデータ量が充分に多い場合には収録音声701から音声合成用データベースを作成して用いてもよい。また、他の話者の音声合成用データベースを用いて合成音声を生成した後、声質を収録音声501の話者に近くなるように変換するようにしてもよい。
The
音声編集部401は、収録音声701、音声合成部301によって生成された合成音声、および収録音声変更情報601を入力し、収録音声変更情報601で指示された通りに収録音声と合成音声を結合、編集し、編集済み音声801として出力する。
The
次に本実施形態の動作を説明する。 Next, the operation of this embodiment will be described.
まず、収録音声701が、音声編集装置201の音声認識部210および音声分析部220に入力される。収録音声701は、マイクロフォンや電話機で収録された音声であり、パソコンやサーバー等に搭載された記録装置(ハードディスクドライブ、メモリ等)、ICレコーダー、CDやカセットテープ等の記録媒体に記録されている。
First, the recorded
一例として、図5に示すように、「A社はええと赤字は株式、ば売却益でそうさつ可能であると発表しまった」という発声の収録音声データ(以下、音声データAと記す)が、パソコンの記録装置に記録されているものとする。ここで、正しくは図5に示す通り、音声データAは本来「A社は、赤字は株式売却益で相殺可能であると発表しました」と発声されるべきものであったとする。つまり、音声データAには、「ええと」というフィラー、「株式、ば売却益」という言い淀み、「そうさつ」という読み間違い、「発表しまった」といういい誤りが含まれている。 As an example, as shown in FIG. 5, recorded voice data (hereinafter referred to as voice data A) saying “Company A announced that deficit is possible with stocks, gains on sale”. Is recorded in the recording device of the personal computer. Here, correctly, as shown in FIG. 5, it is assumed that the voice data A should originally be voiced as “Company A announced that the deficit can be offset by the gain on sale of the stock”. In other words, the audio data A includes a filler “um”, a complaint “stock, gain on sale”, a misreading “so sasatsu”, and a good error “announced”.
音声認識部210は、音声認識技術を利用して、入力された収録音声をテキストに変換し、変更箇所決定部230へ出力する。ここでは、入力された上記音声データAが、発声内容どおり「A社はええと赤字は株式、ば売却益でそうさつ可能であると発表しまった」というテキスト(以下、テキストAと記す)に変換されたものとする。
The
音声分析部220は、入力された収録音声を分析し、音響的な特徴量を抽出し、変更箇所決定部230および合成情報生成部240へ出力する。ここでは、音声分析部200は、音声データAを分析して、全体の平均話速(Tm)、全体の平均基本周波数(Pm)、音節ごとの話速(Ton)、および音節ごとの基本周波数(Pon)、音節ごとのパワー、音節ごとのS/N比を抽出するものとする。また音声分析部200は、音節ごとの基本周波数(Pon)、音節ごとのパワー、音節ごとのS/N比を変更箇所決定部230へ出力し、全体の平均話速(Tm)、全体の平均基本周波数(Pm)、音節ごとの話速(Ton)、および音節ごとの基本周波数(Pon)を合成情報生成部240へ出力するものとする。
The
音響的不具合検出部231は、上記テキストAと上記音響的な特徴量とから、音響的な不都合箇所を検出する。音響的不具合検出部231は、入力された音響的な特徴量から、急に声が大きくなる箇所(音声波形のパワーが上がり、かつS/N比が低い箇所)、急に声が裏返る箇所(基本周波数が高くなる箇所)、電話の音等の雑音が混入している箇所(S/N比が大きくなる箇所)等を検出する。ここでは、「A社」の部分が音響的な不具合箇所として検出されて、統合部233に検出結果が出力されたものとする。
The acoustic
言語的不具合検出部232は、上記テキストAを変更前テキスト2323として入力する。また、言語的不具合検出部232のテキスト変更部2321は、変更前テキスト2323の誤り部分を推定して、正しい内容であるテキスト(テキストBと記す)を変更後テキスト2324として生成する。テキストBの内容は、図5に正しい内容として記載した「A社は、赤字は株式売却益で相殺可能であると発表しました」となる。次に、言語的不具合検出部232の差分抽出部2322は、テキストAとテキストBとの差分を抽出する。ここでは、テキストAの「ええと」、「、ば」、「そうさつ」、「しまった」に該当する箇所が差分として抽出される。そして、差分抽出部2322は、個々の差分ごとの検出結果を統合部233に出力する。検出結果は、不具合箇所の情報と、正解テキストがある場合には正解テキストとが含まれる。
The linguistic
統合部233は、音響的な不具合箇所の「A社」に関しては、例えば、「A社」の音韻情報を含む変更箇所音韻情報261と、「A社」の位置を示す変更箇所位置情報262とを対にして生成する。また、統合部233は、言語的な不具合箇所の「ええと」に関しては、例えば、「ええと」の箇所を示す変更箇所位置情報262を生成し、正解テキストが付随していないため対応する変更箇所音韻情報261は生成しない。また、統合部233は、言語的な不具合箇所の「、ば」に関して、例えば、「、ば」の箇所を示す変更箇所位置情報262を生成し、正解テキストが付随していないため対応する変更箇所音韻情報261は生成しない。また、統合部233は、言語的な不具合箇所の「そうさつ」に関しては、例えば、「さうさい」の音韻情報を示す変更箇所音韻情報261と「そうさつ」の箇所を示す変更箇所位置情報262の対を生成する。また、統合部233は、言語的な不具合箇所の「しまった」に関しては、例えば、「ました」の音韻情報を示す変更箇所音韻情報261と、「まった」の箇所を示す変更箇所位置情報262との対を生成する。
For the “Company A” of the acoustic defect location, the
合成情報生成部240は、変更箇所音韻情報261および収録音声701の音声特徴量情報から、音声合成処理のための音声合成情報(以下、合成データSDと記す)を生成し、音声合成情報501として音声合成部301に出力する。今の例では、合成情報生成部240は、「ええと」、「、ば」に関しては、対応する変更箇所音韻情報261が無いため、これらに関する音声合成情報は生成しない。他方、「A社」、「そうさつ」、「まった」に関しては、対応する変更箇所音韻情報261として、「A社」、「そうさい」、「ました」が存在するため、音声合成情報を生成する。
The synthesis
「まった」の部分を例に、音声合成情報の具体的な生成方法を説明する。前提として、図6(a)に示す通り、音声データAの特徴量として、平均話速Tm、平均基本周波数Pm、音節ごとの話速Ton(1)〜Ton(8)、音節ごとの基本周波数Pon(1)〜Pon(9)が抽出されているものとする。図6(a)における曲線は、基本周波数パターンを示している。この場合、音声合成情報は、図6(b)に示す通り、音節列情報として「ました」、音節ごとの話速はTon(6)〜Ton(8)、音節ごとの基本周波数はPon(1)〜Pon(6)となる。 A specific method for generating speech synthesis information will be described by taking the “married” part as an example. As a premise, as shown in FIG. 6 (a), as the feature amount of the voice data A, the average speech speed T m , the average fundamental frequency P m , the speech speed T on (1) to T on (8) for each syllable, It is assumed that the fundamental frequencies P on (1) to P on (9) are extracted. The curve in FIG. 6A shows the basic frequency pattern. In this case, as shown in FIG. 6 (b), the speech synthesis information is “Done” as syllable string information, the speech speed for each syllable is T on (6) to T on (8), and the fundamental frequency for each syllable is P on (1) to P on (6).
上記の例では、音声合成情報として、変更対象となる「ました」の部分だけの情報を持っているが、変更対象の付近、例えば「発表しました」の部分に関する情報を持っておくことも考えられる。また、文全体の情報を持つようにしても構わない。 In the above example, as speech synthesis information, we have only information about the part that was changed, but it is also possible to have information about the part to be changed, for example, the part that was announced. Conceivable. Moreover, you may make it have the information of the whole sentence.
また、上記の例では、音声合成情報として、収録音声の特徴量Tm、Pm、Ton、Ponを変更せずに使用したが、音節の変更に対応する規則等を用いて変更あるいは推定した特徴量T’m、P’m、T’on、P’onを使用してもよい。特に、変更対象となる音節数が多い場合等は、特徴量は変更あるいは推定されることが望ましい。 In the above example, the feature values T m , P m , T on , and P on of the recorded voice are used as the voice synthesis information without being changed. The estimated feature amounts T ′ m , P ′ m , T ′ on , and P ′ on may be used. In particular, when there are a large number of syllables to be changed, it is desirable that the feature amount be changed or estimated.
収録音声変更情報生成部250は、入力された変更箇所位置情報262から収録音声変更情報601を生成する。前述したように、収録音声変更情報601は、少なくとも変更箇所位置情報を含み、加えて、変更箇所の変更前音節情報、変更箇所の前後に係る音節情報等を含めることが考えられる。
The recorded audio change
音声合成部301は、入力された音声合成情報から、編集箇所の合成音声を生成する。ここでは、収録音声701と同一話者による音声合成用データベースを用いて、音声合成処理を行うものとする。この結果、例えば、「(発表)しまった」に該当する箇所については、それに対応する合成データSDに基づいて、収録音声701の話者と同一あるいは近似した音声の「ました」という内容の合成音声(以下、合成音声SVと記す)が生成される。
The
音声編集部401には、収録音声701、合成音声、収録音声変更情報601が入力され、収録音声変更情報601で示された情報通りに収録音声701と合成音声が結合、編集され、編集済み音声801が生成される。音声編集部401は、収録音声変更情報601に対応する合成音声が存在しない場合、収録音声701中の当該収録音声変更情報601で示される変更位置の音声を切り取る処理を行う。この結果、収録音声701中の「ええと」というフィラーや、「、ば」という言い淀み部分は取り除かれる。
また、音声編集部401は、収録音声変更情報601に対応する合成音声が存在する場合、収録音声701中の当該収録音声変更情報601で示される変更位置の音声が合成音声に置き換えられる。「(発表)しまった」の部分に係る具体的な編集方法を図7に示す。音声合成部301で生成された合成音声SVが、それと対となる変更箇所位置情報262に従って、音声データAの「発表しまった」の「まった」の部分と置換される形で、音声データAの「発表し」と音声合成SVの「ました」が結合される。「そうさつ」の部分についても同様に、合成音声「そうさい」で編集される。
Also, when there is a synthesized voice corresponding to the recorded
音声データと合成音声を結合する際には、波形の不連続による異音等の発生を抑制するために、波形のスムージング処理を行うことが望ましい。スムージング処理としては、結合箇所で波形の振幅を合わせる、波形を線形補完する、合成音声と収録音声の波形を重畳してから振幅を調整する等の方法が考えれれる。また、修正部分について、音韻情報が異なる場合は、当然基本周波数パターンも異なるが、スプライン関数等を使うことで基本周波数パターンを推定することができる。さらに、「ええと」や「、ば」に相当する音声データを切り取る際にも、切り取った後の波形のスムージング処理を行うことが望ましい。 When combining speech data and synthesized speech, it is desirable to perform a waveform smoothing process in order to suppress the occurrence of abnormal sounds due to waveform discontinuities. As the smoothing process, methods such as matching the amplitude of the waveform at the joining point, linearly complementing the waveform, and adjusting the amplitude after superimposing the waveforms of the synthesized speech and the recorded speech are conceivable. Also, when the phoneme information is different for the corrected portion, the fundamental frequency pattern is naturally different, but the fundamental frequency pattern can be estimated by using a spline function or the like. Furthermore, it is desirable to perform the smoothing processing of the waveform after the cut-off when the audio data corresponding to “um” or “wa” is cut.
以上の例では、音声合成の単位として音節(CV単位)を用いているが、音素単位、半音素単位、CVC単位、VCV単位等を用いても構わない。 In the above example, a syllable (CV unit) is used as a unit of speech synthesis. However, a phoneme unit, a semiphoneme unit, a CVC unit, a VCV unit, or the like may be used.
以上の例では、音声合成処理を音声編集処理の前段で行っているが、音声合成処理を音声編集処理と平行して行うことも可能である。 In the above example, the speech synthesis process is performed before the speech editing process. However, the speech synthesis process may be performed in parallel with the speech editing process.
以上の例では、収録音声と合成音声を結合しているが、収録音声変更情報生成部250で、全文に渡って変更すると決定された場合は、全文が変更後テキストの内容を持つ合成音声が編集済み音声として出力される。
In the above example, the recorded voice and the synthesized voice are combined. However, if the recorded voice change
以上の例では、収録音声701を自動的にテキスト化するために音声認識部210を構成に加えているが、音声を聴取しての書き起こし等、収録音声701に対して手動でテキスト化を行ってもよい。
In the above example, the
以上の例では、収録音声701の言語的不具合箇所を検出するための基準テキスト(変更後テキスト)を自動的に生成するためにテキスト変更部2321を構成に加えているが、原稿や台本等、予め用意された正解テキストを基準テキスト(変更後テキスト)として用いてもよい。
In the above example, the
このように本実施形態によれば、収録音声中の不具合な箇所を修正するために再度音声を収録する必要がなく、また、収録音声中の不具合箇所の検出、合成音声の生成、編集がすべて自動化されているため、収録音声の修正に要する利用者の負担を大幅に軽減することができる。 As described above, according to the present embodiment, it is not necessary to record the sound again in order to correct the troubled part in the recorded sound, and all of the detection of the troubled part in the recorded sound, the generation of the synthesized sound, and the editing are all performed. Since it is automated, the burden on the user for correcting the recorded audio can be greatly reduced.
[第3の実施形態]
図8を参照すると、本発明の第3の実施形態に係る音声編集装置102は、図3に示した第2の実施形態に係る音声編集装置101と比較して、さらに出力部901と入力部902とを備えている点、変更箇所決定部230の代わりに変更箇所決定部230Aを備えている点で相違する。
[Third embodiment]
Referring to FIG. 8, the
出力部901は、液晶ディスプレイ等で構成され、音声編集装置102から利用者に対してユーザインターフェース画面を提示する機能を有する。入力部902は、キーボードやマウス等で構成され、利用者から音声編集装置102に対して編集情報や指示を入力する機能を有する。
The
変更箇所決定部230Aは、収録音声701中の音響的な不具合箇所を検出する音響的不具合検出部231Aと、収録音声701中の言語的な不具合箇所を検出する言語的不具合検出部232Aと、対話処理部234とから構成される。
The change
音響的不具合検出部231Aは、音響的不具合検出部231と同様に、音声分析部220から与えられる収録音声701の音響的な特徴量に基づいて、収録音声701中の音響的な不具合箇所を検出する機能を有する。音響的不具合検出部231Aは、1以上の音響的な不具合箇所を検出した場合、それぞれの不具合箇所ごとに、その不具合箇所の位置情報を対話処理部234へ出力する。
Similarly to the acoustic
言語的不具合検出部232Aは、音声認識部210から与えられる収録音声701をテキスト化したテキストに基づいて、収録音声701中の言語的な不具合箇所の検出とその正解テキストの推定を行う機能を有する。例えば、言語的不具合検出部232Aは、変更前テキスト2323から、読み間違い、言い誤りなどの文法的に誤っている箇所や、フィラーや言い淀みなどの文法的に好ましくない箇所を検出し、これらの箇所を変更箇所候補として出力する。同時に、変更箇所候補に対応して、文法的に正しい内容、文法的に好ましい内容に変更するための変更テキスト候補を推定し、出力する。言語的不具合検出部232Aは、例えばフィラーについては、変更前テキスト2323とフィラー候補を収集した辞書とのマッチングにより抽出し、フィラーの箇所とそのフィラーを削除することなどを示す変更候補とを生成する。また、言語的不具合検出部232Aは、言い淀み、読み間違い、言い誤りについては、音韻列の類似度や単語の前後環境により正解を推定する方法を用いて、誤り箇所と正解とを推定する。
The linguistic
第2の実施形態で例に挙げたテキストAの場合、言語的不具合検出部232Aは、例えば図9に示すような検出結果を対話処理部234へ出力する。図9の例では、例えば変更箇所候補「そうさつ」に対して、「相殺」、「総裁」、「惣菜」、「(変更しない)」の4つの変更テキスト候補が推定されている。
In the case of the text A exemplified in the second embodiment, the linguistic
対話処理部234は、音声認識部210から与えられる収録音声701のテキスト、音声分析部220から与えられる音声特徴量、音響的不具合検出部231Aの検出結果、および言語的不具合検出部232Aの検出結果から、ユーザインターフェース画面を生成して出力部901を通じて利用者に提示する機能と、入力部902を通じて利用者から入力される指示に応じて、不具合箇所の変更、修正に用いる合成音声の変更などを行う機能とを備えている。そして、対話処理部234は、利用者との対話処理により最終的に決定した変更箇所音韻情報261および変更箇所位置情報262を合成情報生成部240および収録音声変更情報生成部250へ出力する。
The
対話処理部234が生成するユーザインターフェース画面の例を図10に示す。図10に示すユーザインターフェース画面は、変更前テキスト、編集情報候補、変換前テキストの読み、アクセント句境界位置、アクセント位置、合成音声が使用される箇所、平均話速、平均基本周波数を利用者に提示し、これらの情報について利用者が変更できるインターフェースとなっている。さらに、本ユーザインターフェース画面は、形態素解析等の技術を使用してテキストを読みに変換する「読みつけ」ボタンを備えており、テキストの変更を読みに反映することができるようになっている。なお、「収録/合成」の項目では、白い帯の部分が収録音声を、黒い帯の部分が合成音声を使用することを表しており、白黒の帯の境界を移動させることで、合成音声で置換する範囲を変更することが可能となっている。図10では、「そうさつ」を「相殺」に、「(発表し)まった」を「(発表)ました」に変更した例を示している。
An example of a user interface screen generated by the
図10の例では、「読みつけ」ボタンでテキストを読みに変換するようにしているが、テキストが変換された際に、自動的に読みを更新するようにしても構わない。さらに、より詳細に音声を編集するために、母音の無声化、各音節の話速、複数の制御点を持つ基本周波数パターン、音声のパワー等を編集可能とすることも考えられる。この場合は、夫々の情報をグラフィカルユーザインターフェース(GUI)で可視化することが望ましい。 In the example of FIG. 10, the text is converted to reading by the “reading” button, but the reading may be automatically updated when the text is converted. Furthermore, in order to edit the voice in more detail, it may be possible to edit the vowel devoicing, the speech speed of each syllable, the basic frequency pattern having a plurality of control points, the power of the voice, and the like. In this case, it is desirable to visualize each information with a graphical user interface (GUI).
本発明は、例えば、テレビ番組やラジオ番組の制作システム、ホームビデオの編集システム、留守番電話システム等、音声を編集する装置やシステム全般に適用することができる。 The present invention can be applied to all devices and systems for editing audio, such as a television program and radio program production system, a home video editing system, and an answering machine system.
100 音声編集装置
101 音声編集装置
102 音声編集装置
200 編集情報生成部
201 音声編集装置
201 編集情報生成部
210 音声認識部
220 音声分析部
230 変更箇所決定部
230A 変更箇所決定部
231 音響的不具合検出部
231A 音響的不具合検出部
232 言語的不具合検出部
232A 言語的不具合検出部
233 統合部
234 対話処理部
240 合成情報生成部
250 収録音声変更情報生成部
261 変更箇所音韻情報
262 変更箇所位置情報
300 音声合成部
301 音声合成部
400 音声編集部
401 音声編集部
500 音声合成情報
501 音声合成情報
600 収録音声変更情報
601 収録音声変更情報
700 収録音声
701 収録音声
800 音声
801 音声
901 出力部
902 入力部
2321 テキスト変更部
2322 差分抽出部
2323 変更前テキスト
2324 変更後テキスト
DESCRIPTION OF
Claims (9)
前記音声合成情報に基づいて合成音声を生成する音声合成手段と、
前記収録音声変更情報に基づいて、前記収録音声の不具合箇所を前記合成音声により修正する音声編集手段とを備えることを特徴とする音声編集装置。 Editing information generating means for detecting a defective part of the recorded voice and generating voice synthesis information necessary for generating a synthesized voice used for correcting the defective part and recorded voice change information including position information of the defective part When,
Speech synthesis means for generating synthesized speech based on the speech synthesis information;
A voice editing device comprising: voice editing means for correcting a defective portion of the recorded voice with the synthesized voice based on the recorded voice change information.
前記音声合成情報に基づいて合成音声を生成し、
前記収録音声変更情報に基づいて、前記収録音声の不具合箇所を前記合成音声により修正する
ことを特徴とする音声編集方法。 Detecting a defective part of the recorded voice, generating voice synthesis information necessary for generating a synthesized voice used for correcting the defective part, and recording voice change information including position information of the defective part,
Generating synthesized speech based on the speech synthesis information;
A voice editing method, wherein a defective portion of the recorded voice is corrected by the synthesized voice based on the recorded voice change information.
収録音声の不具合箇所を検出し、前記不具合箇所の修正に用いる合成音声を生成するのに必要な音声合成情報と、前記不具合箇所の位置情報を含む収録音声変更情報とを生成する編集情報生成手段と、
前記音声合成情報に基づいて合成音声を生成する音声合成手段と、
前記収録音声変更情報に基づいて、前記収録音声の不具合箇所を前記合成音声により修正する音声編集手段として機能させるためのプログラム。 Computer
Editing information generating means for detecting a defective part of the recorded voice and generating voice synthesis information necessary for generating a synthesized voice used for correcting the defective part and recorded voice change information including position information of the defective part When,
Speech synthesis means for generating synthesized speech based on the speech synthesis information;
A program for functioning as voice editing means for correcting a defective portion of the recorded voice with the synthesized voice based on the recorded voice change information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010115192A JP2011242637A (en) | 2010-05-19 | 2010-05-19 | Voice data editing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010115192A JP2011242637A (en) | 2010-05-19 | 2010-05-19 | Voice data editing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011242637A true JP2011242637A (en) | 2011-12-01 |
Family
ID=45409336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010115192A Pending JP2011242637A (en) | 2010-05-19 | 2010-05-19 | Voice data editing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011242637A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104240703A (en) * | 2014-08-21 | 2014-12-24 | 广州三星通信技术研究有限公司 | Voice message processing method and device |
US9304987B2 (en) | 2013-06-11 | 2016-04-05 | Kabushiki Kaisha Toshiba | Content creation support apparatus, method and program |
KR102568930B1 (en) * | 2022-10-27 | 2023-08-22 | 주식회사 액션파워 | Method for generating new speech based on stt result |
WO2024024629A1 (en) * | 2022-07-26 | 2024-02-01 | 株式会社東芝 | Audio processing assistance device, audio processing assistance method, audio processing assistance program, audio processing assistance system |
-
2010
- 2010-05-19 JP JP2010115192A patent/JP2011242637A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9304987B2 (en) | 2013-06-11 | 2016-04-05 | Kabushiki Kaisha Toshiba | Content creation support apparatus, method and program |
CN104240703A (en) * | 2014-08-21 | 2014-12-24 | 广州三星通信技术研究有限公司 | Voice message processing method and device |
WO2024024629A1 (en) * | 2022-07-26 | 2024-02-01 | 株式会社東芝 | Audio processing assistance device, audio processing assistance method, audio processing assistance program, audio processing assistance system |
KR102568930B1 (en) * | 2022-10-27 | 2023-08-22 | 주식회사 액션파워 | Method for generating new speech based on stt result |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4987623B2 (en) | Apparatus and method for interacting with user by voice | |
US8352270B2 (en) | Interactive TTS optimization tool | |
US8886538B2 (en) | Systems and methods for text-to-speech synthesis using spoken example | |
US8825486B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US8155958B2 (en) | Speech-to-text system, speech-to-text method, and speech-to-text program | |
JP4882899B2 (en) | Speech analysis apparatus, speech analysis method, and computer program | |
TWI220511B (en) | An automatic speech segmentation and verification system and its method | |
US20130041669A1 (en) | Speech output with confidence indication | |
US20070239455A1 (en) | Method and system for managing pronunciation dictionaries in a speech application | |
US20110202344A1 (en) | Method and apparatus for providing speech output for speech-enabled applications | |
US20130035936A1 (en) | Language transcription | |
US8571870B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US9472186B1 (en) | Automated training of a user audio profile using transcribed medical record recordings | |
JP2019008120A (en) | Voice quality conversion system, voice quality conversion method and voice quality conversion program | |
JP2011242637A (en) | Voice data editing device | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
Kulkarni et al. | Clartts: An open-source classical arabic text-to-speech corpus | |
KR101501705B1 (en) | Apparatus and method for generating document using speech data and computer-readable recording medium | |
Ninh et al. | F0 parameterization of glottalized tones in HMM-based speech synthesis for Hanoi Vietnamese | |
JP6011758B2 (en) | Speech synthesis system, speech synthesis method, and program | |
Fayan et al. | Enhancing Content Creation Workflows through Automatic Speech Recognition Techniques | |
JP2012220701A (en) | Voice synthesizer and synthesized-voice modification method therefor | |
Kurch | Production processes in subtitling for the deaf and hard-of-hearing and audio description: Potentials of partly automated process acceleration with the help of (language) technology | |
Chen et al. | DiffEditor: Enhancing Speech Editing with Semantic Enrichment and Acoustic Consistency | |
Fayan et al. | Automatic Speech Recognition with Machine Learning: Techniques and Evaluation of Current Tools |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD07 | Notification of extinguishment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7427 Effective date: 20120718 |