JP2006285254A - 音声速度測定方法及び装置並びに録音装置 - Google Patents
音声速度測定方法及び装置並びに録音装置 Download PDFInfo
- Publication number
- JP2006285254A JP2006285254A JP2006095376A JP2006095376A JP2006285254A JP 2006285254 A JP2006285254 A JP 2006285254A JP 2006095376 A JP2006095376 A JP 2006095376A JP 2006095376 A JP2006095376 A JP 2006095376A JP 2006285254 A JP2006285254 A JP 2006285254A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- phoneme
- speech
- word
- speed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Images
Abstract
【課題】自動的に音声速度を測定する音声速度測定方法を提供する。
【解決手段】音声を含む音声情報を入力するステップと、音声情報から音素列及び各音素に対応するタイミング点を認識するステップと、音素列及び各音素に対応するタイミング点から語列及び各語に対応するタイミング点を認識するステップと、認識した語列及び各語に対応するタイミング点に基づいて音声の速度を算出するステップとで成る。
【選択図】 図1
【解決手段】音声を含む音声情報を入力するステップと、音声情報から音素列及び各音素に対応するタイミング点を認識するステップと、音素列及び各音素に対応するタイミング点から語列及び各語に対応するタイミング点を認識するステップと、認識した語列及び各語に対応するタイミング点に基づいて音声の速度を算出するステップとで成る。
【選択図】 図1
Description
本発明は、音声処理技術、特に音声速度測定方法及び装置並びに録音装置に関する。
現在、各種のタイプの録音装置がプロフェショナル録音スタジオ又は家庭用に幅広く使用されている。
J.W. Picone, signal Modeling Techniques in Speed Recognition. Proc.IEEE,1993,81(9):1215-1247 Viterbi, A.J., Error bounds for conventional code and an asymptotically optimum decoding algorithm. IEEE Trans. on IT, 13(2), Apri, 1967及びL.R.Rabiner, A tutorial on Hidden Markov MOdels and Selected Application in Speech Recognition, Proc. IEEE Vol. 77, No. 2, Feb., 1989,pp. 257-285 P.F. Brown, C-H. Lee, J. C. Hopper, Baysian Adaptation in Speech recognition, ICASSP 1983, pp761-764及びC.J. Leggetter, P.C. Woodkabd, Speaker Adaptation of Continuous Density HMMs Using Multivariate Linear Regression, ICSLP94
J.W. Picone, signal Modeling Techniques in Speed Recognition. Proc.IEEE,1993,81(9):1215-1247 Viterbi, A.J., Error bounds for conventional code and an asymptotically optimum decoding algorithm. IEEE Trans. on IT, 13(2), Apri, 1967及びL.R.Rabiner, A tutorial on Hidden Markov MOdels and Selected Application in Speech Recognition, Proc. IEEE Vol. 77, No. 2, Feb., 1989,pp. 257-285 P.F. Brown, C-H. Lee, J. C. Hopper, Baysian Adaptation in Speech recognition, ICASSP 1983, pp761-764及びC.J. Leggetter, P.C. Woodkabd, Speaker Adaptation of Continuous Density HMMs Using Multivariate Linear Regression, ICSLP94
多くの録音装置は音の大きさ及び周波数を測定し、制御する機能を有するが、音声速度を測定し、制御する機能を有していない。他方、録音スタジオ又は実験室での録音作業中には、(アナウンサのような)話者及びディレクタ又はモニタなどは自らの経験に基づいて音の速度を主観的に測定し、制御しており、結果は余り正確ではないことが多い。録音を完了した後に語、文又は節の開始及び停止時刻を手動にてマーク付けすることによって音声速度を測定することができるが、これは、リアルタイムで音声速度を測定する必要があるときには使用できない。
故に、録音又は音発生中に音声速度を自動的に測定し、計算し、情報を素早く又はリアルタイムで話者及び(ディレクタ、DJ及び他のような)関係者にフィードバックすることができれば望ましく、それにより、彼等はいつでも話者の音声速度を知ることができ、音声時間及び速度を制御できる。
従来技術の上記問題を解決するために、本発明が提供される。本発明の一態様は、音声を含む音声情報を入力するステップと、前記音声情報から音素列及び各音素に対応するタイミング点を認識するステップと、前記音素列及び各音素に対応するタイミング点から語列及び各語に対応するタイミング点を認識するステップと、前記語列及び認識された各語に対応するタイミング点に基づいて前記音声の速度を算出するステップと含むことを特徴とする。
本発明の他の態様は、音声に対応するテキスト情報を入力するステップと、前記音声を含む音声情報を入力するステップと、前記テキスト情報に含まれる語列に対応する音素列を生成するステップと、前記語列の各語に対応するタイミング点を得るために前記音声情報から前記音素列の各音素に対応するタイミング点を認識するステップと、前記語列及び認識された各語に対応する前記タイミング点に基づいて前記音声の速度を算出するステップとを含むことを特徴とする。
本発明の他の態様は、音声を含む音声情報を入力するよう構成される音声入力部と、前記音声入力部により入力された前記音声情報から音素列及び各音素に対応するタイミング点を認識するよう構成される音素列認識部と、前記音素列及び前記音素列認識部により認識された各音素に対応する前記タイミング点から前記音声に含まれる語列及び各語に対応するタイミング点を認識するように構成される語列認識部と、前記語列及び前記語列認識部によって認識された各語に対応する前記タイミング点に基づいて前記音声の速度を算出するように構成される音声速度計算部とを具備することを特徴とする。
本発明の他の態様は、速度を含む音声情報を入力するように構成される音声入力部と、前記音声に対応するテキスト情報を入力するように構成されるテキスト入力部と、前記テキスト情報に含まれる語列に対応する音素列を生成するように構成される音素列生成部と、前記語列の各語に対応するタイミング点を得るために前記音声情報から前記音素列生成部により生成された前記音素列の各音素に対応するタイミング点を認識するように構成される強制整合部と、前記語列及び各語に対応する前記タイミング点に基づいて前記音声の前記速度を算出するように構成される音声速度計算部とを具備することを特徴とする。
本発明の他の態様は、上記音声速度測定装置を含む録音装置を提供する。
図1は、本発明の実施形態に従った音声速度測定方法を示すフローチャートである。図1に示すように、最初にステップ101で、音声を含む音声情報が入力される。ここで、音声情報は話者の音声を含む音声データであり、これはWAV,RAM,MP3などのような異なるフォーマットであっても良い。このステップで、音声情報はマイクロフォンやサンプリング回路のような装置からリアルタイムで得られてもよく、通信手段を介して他の外部装置から送信されてもよく、或いは音声情報を記録していた記録媒体から読み出されても良い。
次に、ステップ105で、音素列及び各音素に対応するタイミング点が音声情報から認識される。当業者により知られているように、音素は自然言語の音声の基本単位である。音声の要素は実際には多数の音素で成る音素列である。既存の音声認識技術では、音声情報から音素列を認識するために使用できる多くの方法があることは知られている。例えば、ビタビ復号アルゴリズム、A*アルゴリズムなど全てが本発明に適用できる。これらは次の実施形態において説明する。更に、本ステップでは、音声列を認識しながら音声の各音素のタイミング点、即ち各音素の開始及び終止タイミングが決定される。
次に、ステップ110で、語列及び各語に対応するタイミング点が音素列及び各音素に対応するタイミング点から認識される。本発明では、語は例えば自然語の基本単位を意味し、それは中国語の文字であり、英語の単一単語、或いは日本語の仮名又は漢字である。当業者により知られているように、音声では、語は1つ以上の子音音素及び1以上の母音音素により構成される。既存の音声認識技術では、音素列から語列を認識するために使用できる多数の方法がある。たとえば、共通に使用される方法は対応する語列を見つけるようにマッチングのための認識音素列を検索するために発音語彙集を使用することである。更に、このステップでは、語列を認識しながら音声の各語のタイミング点、即ち、音素の開始及び終止タイミングが決定される。
最後に、ステップ115で、音声の音声速度が認識語列及び各語に対応するタイミング点に基づいて計算される。本発明の音声速度を表すために多くの方法が使用できる。例えば、中国語の場合は、音声速度は「秒当たりの語」又は「分当たりの語」で表してもよい。故に、音声に含まれる語列及び各語に対応するタイミング点を得た後、時間単位当たりの語数(即ち、音声速度)が計算できる。例えば、英語の場合は、音声速度は時間単位当たりの語数又は時間帯当たりの音節数で表すことができる。音声速度が中国語の場合と同様に、時間単位当たりの語数で表されると、時間単位当たりの語数が認識語列及び各語に対応するタイミング点に基づいて計算できる。音声速度が時間単位当たりの音節数で表されると、時間単位当たりの音節数を得るために各語に含まれる音節を合計する必要がある。
本実施形態の音声速度測定方法が採用されれば、音声の要素の音声速度が以前のように記録過程の後に音声速度を手動で測定する必要がなく自動的に測定されることは上記説明から明らかである。
更に、音声速度を測定する本実施形態の方法は録音過程でのリアルタイム測定、即ち話者又はその他の人(例えば、ディレクタ、管理者など)に音声速度情報を提供するように音声列に従って音声速度を測定するため本実施形態の方法を繰り返し実行するために使用されてもよい。
図2は、本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。本発明のこの実施形態に従った音声速度測定方法は図2を鑑みて説明する。図2において、上記実施形態と同様な部分に対しては同じ参照符号が使用されている。以下の説明では、これら同じ部分に対しては説明を省略する。
図2に示すように、先ず、ステップ101では、音声を含む音声情報が入力される。次に、ステップ205では、音声特徴が入力音声情報から抽出される。当業者によって知られているように、音声特徴は音声信号から抽出され、異なる音を区別するために使用できる特徴である。現在、比較的に一般的に使用される音声特徴は例えば、MFCC特徴などを含む(例えば、非特許文献1を参照)。
次に、ステップ210では、抽出音声特徴のビタビ復号が音素列及び各音素に対応するタイミング点を認識するように音響モデルに基づいて用いられる。当業者に知られているように、ビタビ復号は音声認識、通信などの分野で広く使用されている実用的で有効な技術である。音声要素が入力されると、音響モデルに基づくアルゴリズムが最高確率で音声の要素を生成するはずである音素列を見つけることができる。これらの音素を合成することにより列が生成されることになり、それによって音声のこの要素の認識が実現される。ビタビ復号アルゴリズムについては、次のような文献、即ち、非特許文献2を参照する。
音素列を認識するために本実施形態にはビタビ復号アルゴリズムが使用されているが、A*アルゴリズムのような他の方法が本発明に使用できることは留意すべきである。即ち、音声認識の既存する他の技術は、それらが抽出音声特徴から音素列を認識できる限り本発明に使用できる。
次に、ステップ215では、発音語彙集を用いて、音素列に対応する語列及び各語に対応するタイミング点が認識される。
最後に、ステップ115で、音声の音声速度が認識語列及び各語に対応するタイミング点に基づいて計算される。
本発明が採用されれば、ビタビ復号技術の使用により音声速度が効果的に測定できる。
図3Aは本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。本発明の実施形態に従った音声速度測定方法は図3Aを鑑みて説明する。図3Aにおいて、上記実施形態の部分と同じ部分に対して同じ符号が使用される。これら同じ部分については説明を省略する。
図3Aに示されるように、先ず、ステップ301では、音声に対応するテキストが入力される。即ち、このステップでは、音声テキスト(テキスト情報)が入力される。この音声テキストは音声速度が測定されることになる音声に対応する語を含む。具体的には、テキスト情報はキーボード又は他の入力装置を介して入力されてもよく、又は通信手段を介して他の外部装置から送信されてもよく、或いは音声情報を記録した記録媒体から読み取られてもよい。
次に、ステップ305では、入力テキスト情報に基づいた音響モデルが採用される。一般的に、音声認識に使用される音響モデルは一般的に使用される音響モデルであり、即ち、音素の情報及び音声の一般的状態に適する音声特徴を含む音響モデルである。しかしながら、本実施形態では、処理すべき音声のテキスト情報は予め知られているので、音響モデルは処理すべき音声の内容に適合してもよい。この種の適合はこの分野では「管理適合」と呼ばれる。音響モデルの適合については、次の文献、即ち非特許文献3が参照される。
次に、ステップ101にて、音声情報が入力され、ステップ205で、音声特徴が抽出される。
次に、ステップ310で、抽出音声特徴のビタビ復号が音素列及び各音素に対応するタイミングを認識するように適合音響モデルに基づいて行われる。使用される音響モデルは処理されることになる音声の内容に適合されていたので、このステップでは、音素列認識速度及び制度が向上される。
次に、ステップ215では、発音語彙集を用いて、音素列に対応する語列及び各語に対応するタイミング点が認識される。
最後に、ステップ115で、音声の音声速度が認識された語列及び各語に対応するタイミング点に基づいて算出される。
上記から、本発明が採用されれば、音響モデルが処理されるべき音声の内容に監視適合されるので、音素列がより速く、より正確に認識でき、かつ音声速度がより速く、より性格に計算できることが理解できる。
図3Aに示されるようにステップ301(音声テキストの入力)及びステップ305(音響モデルの適合)はステップ101の前に行われるけれども、ステップ301及び305は音素列の認識(ステップ310)の前に行う必要があるだけであることが理解できることは留意すべきである。
図3Bは本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。本発明の実施形態に従った音声速度測定方法は図3Bを鑑みて説明する。図3Bにおいて、上記実施形態の部分と同じ部分に対して同じ符号が使用される。これら同じ部分については説明を省略する。
本実施形態と図3Aを鑑みて説明される実施形態の両方は予め音声テキストを知っているものと仮定し、違いは本実施形態がテキストに基づいて音声テキストに対応する音素列を生成することである。
具体的には、図3Bに示すようにステップ301の後にステップ305’で音声テキストが発音語彙集を用いて入力され、音声テキストの語列に対応する音素列が生成される。本実施形態では、音声テキストの語列を音素列に変換するのは発音語彙集に基づいている。
次に、ステップ101での音声情報入力及びステップ205での音声特徴の抽出後に、ステップ310’で抽出された音声特徴のビタビ復号が音素列の各音素に対応するタイミング点を得るように音響モデルに基づいて行われる。このプロセスはこの分野では「強制整合」と呼ばれる。更に、周知の音素列に対応する語列により、音素列に対応する語列及び各語に対応するタイミング点が同時に得ることができる。
最後に、ステップ115では、音声速度が算出できる。
上記の説明から、本実施形態が採用されれば、音素列が音声テキストに基づいて予め生成され、それからビタビ復号がタイミング点を得るように強制整合を行うために使用されるということにより、音声速度は速く、最も正確に計算できる。音素を得るためにビタビ復号を用い、それから語列を認識する方法に比べて本実施形態の方法はより高い精度を持つ。
その上、本実施形態は上記実施形態と組み合わせて実施できる。即ち、本実施形態でも更に該方法の正確さ及び速度を向上するように音響モデルの適合ができる。
その上、音声テキストが図3A及び3Bに示される実施形態で知られているので、本発明の好ましい実施によると、音声の速度が算出された後に、現音声速度に従って音声テキストの残り語を完了するにはどのくらい時間がかかるかを評価するために残り時間が音声テキストの残り語と現音声速度に基づいて計算される。ゆえに、話者(及び他者)は常に発話時間及び速度を知り、制御することができる。
図4は本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。本発明の実施形態に従った音声速度測定方法は図4を鑑みて説明する。図4において、上記実施形態の部分と同じ部分に対して同じ符号が使用される。これら同じ部分については説明を省略する。
図4に示すように、先ず、ステップ101で、音声情報が入力され、ステップ205で音声特徴が抽出される。
次に、ステップ210で、抽出された音声特徴のビタビ復号が音素列及び各音素に対応するタイミング点を認識するように音響モデルに基づいて行われる。
次に、ステップ215で、発音語彙集を用いて音声列に対応する語列及び各語に対応するタイミング点が認識される。更に、ステップ115で、音声の速度が計算される。
それから、ステップ420で、音声が終了したか否かが決定される。音声が終了していれば、処理はステップ440に進み、そこで終る。音声が終了していなければ、処理はステップ425に進む。
ステップ425では、音響モデルが適正に調整される。当業者により知られるように、通常、音響モデルが音声の一般的状態に利用できる一般的な音声認識ために準備される。しかしながら、話者の発音又は音声環境の違いにより各特定の音声は異なってもよい。既存の音声認識技術では、音響モデルは次の音声認識の精度を向上するように先に認識された語列に基づいて適応的に調整できることは知られている。これは図3Aを鑑みて説明されている実施形態の適合に類似するが、本実施形態では音声テキストがなく、認識された語列を使用して適合がなされる。故に、この処理はこの分野では「非管理適合」と呼ばれる。
ステップ425の後のステップ430では、元の音声モデルが適正に調整された音響モデルと置き換えられる。それから、処理はステップ210に戻り、音声の次の部分を認識し、音声速度を算出する。
上記説明から、本実施形態によると、音響モデルを同時に調整しながら音声の速度を測定し、測定精度を連続的に向上するように音声速度の次の測定のために調整された音響モデルを使用することができる。
更に、本実施形態は音声速度の測定精度を向上するように認識制度を向上するために音声の同じ要素に対して繰り返し適正調整及び認識の処理を行うことができる。
更に、本実施形態は図3A及び3Bを鑑みて説明した上記実施形態の利点を持つために上記実施形態と組み合わせて実施できる。
図5は本発明の実施形態に従った音声測定装置を示すブロック図である。図5に示すように、本実施形態の音声速度測定装置500は音声を含む音声情報を入力するように構成された音声入力部510と、音声入力部510によって入力された音声情報から音素列及び各音素に対応するタイミング点を認識するように構成された音素列認識部520と、音素列認識イブ520によって認識された音素列及び各音素に対応するタイミング点から音声に含まれる語列及び各語に対応するタイミング点を認識するように構成された語列認識部530と、語列認識部530によって認識された語列及び各語に対応するタイミング点に基づいて音声の速度を算出するように構成された音声速度計算部540により構成される。
本実施形態の音声測定装置500の上記構成要素はハードウエア又はソフトウエアによって実施できる。例えば、音素列認識部520、語列認識部530、音声速度計算部540などは特定回路又はチップによって構成されてもよく、又は対応するプログラムを実行するコンピュータ(プロセッサ)によって実行できる。
更に、音声入力部510は音声信号を入力し、獲得するための記録装置の回路部品であってもよく、又は音声情報を他の装置から入力するための(ネットワークカードのような)通信装置或いは音声情報を記録した記録媒体からデータを読み出す(ディスクドライブのような)装置であってもよい。
動作において、本実施形態の音声速度測定装置500は図1を鑑みて上記実施形態の音声速度測定方法を実施できる。
図6は本発明の他の実施形態に従った音声速度想定装置のブロック図である。本発明の実施形態に従った音声速度測定装置は図6を鑑みて説明する。図6では、上記実施形態と同じ部分に対しては同じ参照符号が使用されている。書き説明では、同じ部分については説明が省略されている。
図6に示されるように、図5の実施形態と比較して、本実施形態は音素列認識部520が入力音声情報から音声特徴を抽出するように構成される音声特徴抽出部521、音響モデルを記憶するように構成された音響モデル記憶部422及び最高確率を有する音素列及び各音素に対応するタイミング点を得るために音声特徴抽出部521によって抽出された音声特徴をビタビ復号するように構成されるビタビ復号部523を更に含む点が異なっている。その上、語列認識部530は発音語彙集を記憶するように構成される発音語彙集記憶部531を更に含む。
本実施形態の音響モデル記憶部522及び発音語彙記憶部531はRAM,ROM,HDD,フラッシュメモリのような各種記憶装置により構成されてもよく、それらは互いに物理的に独立していてもよく、或いは互いに組み合わされてもよい。
上述した音声特徴抽出部521、ビタビ復号部523などは特定回路又はチップによって構成されてもよく、或いは対応するプログラムを実行するコンピュータ(プロセッサ)によって行われてもよい。
動作において、本実施形態の音声速度測定装置500は図2を鑑みて上述した実施形態の音声速度測定方法を実施できる。
その上、本実施形態では、A*復号部は最高確率を有する音素列及び各音素に対応するタイミング点を得るようにA*アルゴリズムで抽出音声特徴を復号するためにビタビ復号部523の代わりに使用されてもよい。同様に、A*復号部は特定回路又はチップ或いは対応するプログラムを実行するコンピュータ(プロセッサ)によって行われてもよい。
図7は本発明の他の実施形態に従った音声速度測定装置を示すブロック図である。本発明の実施形態に従った音声速度測定装置は図7を鑑みて説明する。図7では、上記実施形態と同じ部分に対して同じ参照符号が使用される。下記説明では、同じ部分いついては説明を省略する。
図7に示されるように、図6の実施形態と比較して、本実施形態は音声速度測定装置500は処理されるべき音声に対応するテキスト情報を入力するように構成されるテキスト入力部550及びテキスト入力部550によって入力されたテキスト情報に基づいて音響モデルを管理適合するように構成される管理適合部560を更に有する点で異なる。
本実施形態のテキスト入力部はキーボードのような入力装置、又は他の装置からテキスト情報を入力するために(ネットワークカードのような)通信装置、或いはテキスト情報を記録した記録媒体からデータを読み出すための(ディスクドライブのような)装置であってもよい。
本実施形態の音響モデル管理適合部560は特定回路又はチップ、或いは対応プログラムを実行するコンピュータ(プロセッサ)によって行われてもよい。
動作において、本実施形態の音声速度測定装置500は図3A及び3Bを鑑みて上述した実施形態の音声速度測定方法を実施することができる。
図8は本発明の他の実施形態に従った音声速度測定装置を示すブロック図である。本発明の実施形態に従った音声速度測定装置を図8を鑑みて説明する。図8では、上記実施形態と同じ部分に対して同じ参照符号が使用される。下記説明では、同じ部分については説明は省略されている。
図8に示されるように、図7の実施形態と比較して、本実施形態は音声速度測定装置500が語列認識部530によって認識された語列に基づいて音響モデルを非管理適合するように構成される音響モデル非管理適合部570及び音声速度計算部540によって算出された音声毒度に関する情報を表示するように構成される音声速度表示部580を更に含むことが異なる。
本実施形態の音響モデル非管理適合部570は特定回路又はチップ、或いは対応プログラムを実行するコンピュータ(プロセッサ)によって行われてもよい
本実施形態の音声速度表示部580はLCD,CRT,PDPのような表示装置であってもよい。特に、音声速度に関する情報は図10A及び10Bに示されるようにデジタル数字又はバーチャートによって表示されてもよい。更に、音声テキストが事前に入力されていれば、予想音声速度、即ち所定期間内で音声テキストが完了するために必要な音声速度が音声速度表示部580に表示されてもよい。
本実施形態の音声速度表示部580はLCD,CRT,PDPのような表示装置であってもよい。特に、音声速度に関する情報は図10A及び10Bに示されるようにデジタル数字又はバーチャートによって表示されてもよい。更に、音声テキストが事前に入力されていれば、予想音声速度、即ち所定期間内で音声テキストが完了するために必要な音声速度が音声速度表示部580に表示されてもよい。
更に、図8に示されるように、本実施形態は算出音声速度及びテキスト情報から残り時間を算出するように構成される残り時間計算部590を更に含む。残り時間計算機590によって算出された残り時間は音声速度表示部580に表示されてもよい。
動作において、本実施形態の音声速度測定装置500は図3A及び4を鑑みて上述した実施形態の音声速度測定方法を実施できる。
図9は本発明の他の実施形態に従った音声速度測定装置を示すブロック図である。本発明の実施形態に従った音声速度測定装置を図9を鑑みて説明する。図9では、上記実施形態と同じ部分に対して同じ参照符号が使用される。下記説明では、同じ部分については説明は省略されている。
図9に示されるように、本実施形態の音声速度測定装置500’は音声入力部510、テキスト入力部550、音素列生成部630、強制整合部620、音声速度計算部540および音声速度表示部580を含む。
本実施形態と上記実施形態との主要な違いは本実施形態が音素列生成部630および強制整合部620を有し、音素列生成部630はテキスト入力部550によって入力されるテキスト情報に含まれる語列に対応する音素列を生成するように構成され、発音語彙集が記憶されている発音語彙列記憶部631を含む。音素列生成部630は発音語彙集を参照して、テキスト情報に含まれる語列を音素列に変換する。
強制整合部620は語列の各語に対応するタイミング点を得るように音声入力部510によって入力された音声情報から音素列生成部630によって生成される音素列の各語に対応するタイミング点を認識するように構成される。特に、本実施形態によると、強制整合部620は上記実施形態の音声特徴抽出部521と同様に入力音声情報から音声特徴を抽出するように構成される音声特徴抽出部621と、上記実施形態の音響モデル記憶部522と同様に音響モデルを記憶するように構成される音声特徴記憶部622と、音素列と整合するように抽出音声特徴をビタビ復号するように構成されるビタビ復号部623を含む。強制整合の処理は上記実施形態において説明されており、繰り返して説明しない。
動作において、本実施形態の音声速度測定装置500’は図3Bを鑑みて上述した実施形態の音声速度測定方法を実施できる。
更に、本実施形態では、A*復号部は音声列と整合するようにA*アルゴリズムで抽出音声特徴を復号するためビタビ復号部の代わりに使用できる。
その上、本実施形態では、上記実施形態に記載された、残り時間計算部590などのような幾つかの構成要素が含まれてもよく、実施形態は上記実施形態と組み合わされてもよい。
更に、上述した実施形態の音声速度測定装置の適用形態として、本発明は既存の録音装置に音声速度測定機能を設けるように音声速度測定装置500が既存の録音装置に加えられている録音装置を更に提供する。
好ましくは、音声速度測定装置500の音声入力部510は録音装置によって入力され、獲得される音情報から音声情報を直接取り込んでもよい。
音声速度測定方法、音声速度測定装置および録音装置が幾つかの実施形態で詳細に説明されているが、これら実施形態は網羅していない。当業者は本発明の精神と範囲内で種々変更及び変形できる。ゆえに、本発明はこれら実施例に限定されなく、むしろ本発明の範囲は特許請求によってのみ規定される。
510…音声入力部、520…音素列認識部、521…音声特徴抽出部、522…音響モデル記憶部、523…ビタビ復号部、530…語列認識部、531…発音語彙集記憶部、
540…音声速度計算部、550…テキスト入力部、560…音響モデル管理適合部、570…音響モデル非管理適合部、580…音声速度表示部、590…残り時間計算部、620…強制整合部、621…音声特徴抽出部、622…音響モデル記憶部、630…音素列生成部、631…発音語彙集記憶部
540…音声速度計算部、550…テキスト入力部、560…音響モデル管理適合部、570…音響モデル非管理適合部、580…音声速度表示部、590…残り時間計算部、620…強制整合部、621…音声特徴抽出部、622…音響モデル記憶部、630…音素列生成部、631…発音語彙集記憶部
Claims (30)
- 音声を含む音声情報を入力するステップと、
前記音声情報から音素列及び各音素に対応するタイミング点を認識するステップと、
前記音素列及び各音素に対応するタイミング点から語列及び各語に対応するタイミング点を認識するステップと、
前記語列及び認識された各語に対応するタイミング点に基づいて前記音声の速度を算出するステップと、を含むことを特徴とする音声速度測定方法。 - 前記認識ステップは、前記入力音声情報から音声特徴を抽出するステップと、
最高確率を有する音素列及び各音素に対応するタイミング点を得るために音響モデルを用いて前記抽出音声特徴を復号するステップと、を含むことを特徴とする請求項1記載の音声速度測定方法。 - 前記復号ステップは、最高確率を有する音素列及び各音素に対応するタイミング点を得るためにビタビ復号アルゴリズムによって前記抽出音声特徴を復号することを特徴とする請求項2記載の音声速度測定方法。
- 前記復号ステップは、最高確率を有する音素列及び各音素に対応するタイミング点を得るためにA*アルゴリズムによって前記抽出音声特徴を復号することを特徴とする請求項2記載の音声速度測定方法。
- 前記認識ステップは、発音語彙集を用いて行うことを特徴とする請求項1記載の音声速度測定方法。
- 更に前記音声に対応するテキスト情報を入力するステップと、
前記入力テキスト情報に基づいて最適化された前記音響モデルを前記音声に適合するステップとを含み、
前記復号ステップは、前記適合音響モデルによって行われることを特徴とする請求項2記載の音声速度測定方法。 - 更に前記認識語列に基づいて前記音響モデルを非監視適合するステップと、
前記認識ステップ及び後続のステップを前記適合音響モデルによって行うステップと、を含むことを特徴とする請求項2又は請求項6記載の音声速度測定方法。 - 更に前記算出音声速度及び前記テキスト情報から残り時間を算出するステップを含むことを特徴とする請求項6記載の音声速度測定方法。
- 音声に対するテキスト情報を入力するステップと、
前記音声を含む音声情報を入力するステップと、
前記テキスト情報に含まれる語列に対応する音素列を生成するステップと、
前記語列の各語に対応するタイミング点を得るために前記音声情報から前記音素列の各音素に対応するタイミング点を認識するステップと、
前記語列及び認識された、各語に対応する前記タイミング点に基づいて前記音声の速度を算出するステップと、を含むことを特徴とする音声速度測定方法。 - 前記認識ステップは、前記入力音声情報から音声特徴を抽出するステップと、
前記音素列の各音素に対応するタイミング点を得るために音響モデルを用いて前記抽出音声特徴に強制整合を行うステップと、を含むことを特徴とする請求項9記載の音声速度測定方法。 - 前記強制整合ステップは、前記音素列と揃えるためにビタビ復号アルゴリズムで前記抽出音声特徴を復号することを特徴とする請求項10記載の音声速度測定方法。
- 前記強制整合ステップは、前記音素列と揃えるためにA*アルゴリズムで前記抽出音声特徴を復号することを特徴とする請求項10記載の音声速度測定方法。
- 前記音素列生成ステップは、発音語彙集を用いて行われることを特徴とする請求項9記載の音声速度測定方法。
- 更に前記算出音声速度及び前記テキスト情報から残り時間を算出するステップを含むことを特徴とする請求項9記載の音声速度測定方法。
- 音声を含む音声情報を入力するように構成される音声入力部と、
前記音声入力部により入力された前記音声情報から音素列及び各音素に対応するタイミング点を認識するように構成される音素列認識部と、
前記音素列及び前記音素列認識部により認識された各音素に対応する前記タイミング点から前記音声に含まれる語列及び各語に対応するタイミング点を認識するように構成される語列認識部と、
前記語列及び前記語列認識部によって認識された各語に対応する前記タイミング点に基づいて前記音声の速度を算出するように構成される音声速度計算部と、を具備することを特徴とする音声速度測定装置。 - 前記音素列認識部は、前記入力音声情報から音声特徴を抽出するよう構成される音声特徴抽出部と、音響モデルを記憶するように構成される音響モデル記憶部とで構成されることを特徴とする請求項15記載の音声速度測定装置。
- 前記音素列認識部は、最高確率を有する音素列及び各音素に対応するタイミング点を得るために前記音声特徴抽出部により抽出された前記音声特徴をビタビ復号するビタビ復号部を更に具備することを特徴とする請求項16記載の音声速度測定装置。
- 前記音素列認識部は、最高確率を有する音素列及び各音素に対応するタイミング点を得るために前記抽出音声特徴をA*アルゴリズムを用いて復号するように構成されるA*復号部を更に具備することを特徴とする請求項16記載の音声速度測定装置。
- 前記語列認識部は、発音語彙集を記憶するように構成される発音語彙集記憶部により構成されることを特徴とする請求項15記載の音声速度測定装置。
- 更に、前記音声に対応するテキスト情報を入力するように構成されるテキスト入力部と、前記テキスト入力部によって入力された前記テキスト情報に基づいて前記音響モデルを監視適合するため構成される監視適合部とを具備することを特徴とする請求項16記載の音声速度測定装置。
- 更に、前記語列認識部によって認識された前期語列に基づいて前記音響モデルを非監視適合するように構成される音響モデル非監視適合部を具備することを特徴とする請求項16記載の音声速度測定装置。
- 前記音声速度計算部によって算出された前記音声速度に関する情報を表示するように構成される音声速度表示部を更に含むことを特徴とする請求項15記載の音声速度測定装置。
- 前記算出音声速度及び前記入力テキスト情報から残り時間を算出する残り時間計算部を更に有し、前記音声速度表示部は前記残り時間計算部により算出された前記残り時間に関する情報を更に表示するように構成されることを特徴とする請求項15記載の音声速度測定装置。
- 速度を含む音声情報を入力するように構成される音声入力部と、
前記音声に対応するテキスト情報を入力するように構成されるテキスト入力部と、
前記テキスト情報に含まれる語列に対応する音素列を生成するため構成される音素列生成部と、
前記語列の各語に対応するタイミング点を得るために前記音声情報から前記音素列生成部により生成された前記音素列の各音素に対応するタイミング点を認識するように構成される強制整合部と、
前記語列及び各語に対応する前記タイミング点に基づいて前記音声速度を算出するように構成される音声速度計算部と、を具備することを特徴とする音声速度測定装置。 - 更に、前記入力音声情報から音声特徴を抽出するように構成される音声特徴抽出部と、
音響モデルを記憶するように構成される音響モデル記憶部と
を具備することを特徴とする請求項24記載の音声速度測定装置。 - 前記強制整合部は、前記音声列と合わせるために前記音声特徴抽出部によって抽出された前記音声特徴をビタビ復号するビタビ復号部を更に有することを特徴とする請求項25記載の音声速度測定装置。
- 前記強制整合部は、前記音声列と合わせるために前記音声特徴抽出部によって抽出された前記音声特徴をA*アルゴリズムによって復号するA*復号部を更に有することを特徴とする請求項25記載の音声速度測定装置。
- 前記音素列生成部は、発音語彙集を記憶するように構成される発音語彙集記憶部により構成され、前記強制整合部は、前記音声列と合わせるために前記音声特徴抽出部によって抽出された前記音声特徴をビタビ復号するビタビ復号部を更に有することを特徴とする請求項24記載の音声速度測定装置。
- 前記算出音声速度及び前記入力テキスト情報から残り時間を算出する残り時間計算部を更に有することを特徴とする請求項24記載の音声速度測定装置。
- 請求項15乃至請求項29のいずれか1に従って音声速度を測定する装置により構成される録音装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200510059832 CN1841496A (zh) | 2005-03-31 | 2005-03-31 | 测量语速的方法和装置以及录音设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006285254A true JP2006285254A (ja) | 2006-10-19 |
Family
ID=37030481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006095376A Abandoned JP2006285254A (ja) | 2005-03-31 | 2006-03-30 | 音声速度測定方法及び装置並びに録音装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2006285254A (ja) |
CN (1) | CN1841496A (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101472060B (zh) * | 2007-12-27 | 2011-12-07 | 新奥特(北京)视频技术有限公司 | 一种估算新闻节目长度的方法和装置 |
CN103632667B (zh) * | 2013-11-25 | 2017-08-04 | 华为技术有限公司 | 声学模型优化方法、装置及语音唤醒方法、装置和终端 |
US9082407B1 (en) * | 2014-04-15 | 2015-07-14 | Google Inc. | Systems and methods for providing prompts for voice commands |
CN107123419A (zh) * | 2017-05-18 | 2017-09-01 | 北京大生在线科技有限公司 | Sphinx语速识别中背景降噪的优化方法 |
CN107767869B (zh) * | 2017-09-26 | 2021-03-12 | 百度在线网络技术(北京)有限公司 | 用于提供语音服务的方法和装置 |
CN108109633A (zh) * | 2017-12-20 | 2018-06-01 | 北京声智科技有限公司 | 无人值守的云端语音库采集与智能产品测试的系统与方法 |
CN109994106B (zh) * | 2017-12-29 | 2023-06-23 | 阿里巴巴集团控股有限公司 | 一种语音处理方法及设备 |
CN108682420B (zh) * | 2018-05-14 | 2023-07-07 | 平安科技(深圳)有限公司 | 一种音视频通话方言识别方法及终端设备 |
CN112185363B (zh) * | 2020-10-21 | 2024-02-13 | 北京猿力未来科技有限公司 | 音频处理方法及装置 |
CN113838456B (zh) * | 2021-09-28 | 2024-05-31 | 中国科学技术大学 | 音素提取方法、语音识别方法、装置、设备及存储介质 |
CN114067787B (zh) * | 2021-12-17 | 2022-07-05 | 广东讯飞启明科技发展有限公司 | 一种语音语速自适应识别系统 |
-
2005
- 2005-03-31 CN CN 200510059832 patent/CN1841496A/zh active Pending
-
2006
- 2006-03-30 JP JP2006095376A patent/JP2006285254A/ja not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
CN1841496A (zh) | 2006-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108573693B (zh) | 文本到语音系统和方法以及其存储介质 | |
JP2006285254A (ja) | 音声速度測定方法及び装置並びに録音装置 | |
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
Fendji et al. | Automatic speech recognition using limited vocabulary: A survey | |
WO2017067206A1 (zh) | 个性化多声学模型的训练方法、语音合成方法及装置 | |
US10650810B2 (en) | Determining phonetic relationships | |
CN104157285B (zh) | 语音识别方法、装置及电子设备 | |
US20190130894A1 (en) | Text-based insertion and replacement in audio narration | |
EP4128211A1 (en) | Speech synthesis prosody using a bert model | |
CN110265028B (zh) | 语音合成语料库的构建方法、装置及设备 | |
US11322133B2 (en) | Expressive text-to-speech utilizing contextual word-level style tokens | |
JP2020034883A (ja) | 音声合成装置及びプログラム | |
US20230343319A1 (en) | speech processing system and a method of processing a speech signal | |
WO2023279976A1 (zh) | 语音合成方法、装置、设备及存储介质 | |
US20140236597A1 (en) | System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis | |
CN109102800A (zh) | 一种确定歌词显示数据的方法和装置 | |
EP3376497A1 (en) | Text-to-speech synthesis using an autoencoder | |
CN112908308B (zh) | 一种音频处理方法、装置、设备及介质 | |
KR20210059581A (ko) | 말하기의 자동 유창성 평가 방법 및 그 장치 | |
Gutkin et al. | Building statistical parametric multi-speaker synthesis for bangladeshi bangla | |
CN115700871A (zh) | 模型训练和语音合成方法、装置、设备及介质 | |
JP5007401B2 (ja) | 発音評定装置、およびプログラム | |
CN113421571B (zh) | 一种语音转换方法、装置、电子设备和存储介质 | |
US11670292B2 (en) | Electronic device, method and computer program | |
Prasangini et al. | Sinhala speech to sinhala unicode text conversion for disaster relief facilitation in sri lanka |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Effective date: 20070926 Free format text: JAPANESE INTERMEDIATE CODE: A621 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20090928 |