JP2006285254A

JP2006285254A - 音声速度測定方法及び装置並びに録音装置

Info

Publication number: JP2006285254A
Application number: JP2006095376A
Authority: JP
Inventors: Je Hao; ハオ・ジェ; Riifu I; イ・リーフ; Shaoyaen Rou; ロウ・シャオヤェン; Jen Ri; リ・ジェン
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-03-31
Filing date: 2006-03-30
Publication date: 2006-10-19
Also published as: CN1841496A

Abstract

【課題】自動的に音声速度を測定する音声速度測定方法を提供する。
【解決手段】音声を含む音声情報を入力するステップと、音声情報から音素列及び各音素に対応するタイミング点を認識するステップと、音素列及び各音素に対応するタイミング点から語列及び各語に対応するタイミング点を認識するステップと、認識した語列及び各語に対応するタイミング点に基づいて音声の速度を算出するステップとで成る。
【選択図】図１

Description

本発明は、音声処理技術、特に音声速度測定方法及び装置並びに録音装置に関する。

現在、各種のタイプの録音装置がプロフェショナル録音スタジオ又は家庭用に幅広く使用されている。
J.W. Picone, signal Modeling Techniques in Speed Recognition. Proc.IEEE,1993,81(9):1215-1247 Viterbi, A.J., Error bounds for conventional code and an asymptotically optimum decoding algorithm. IEEE Trans. on IT, 13(2), Apri, 1967及びL.R.Rabiner, A tutorial on Hidden Markov MOdels and Selected Application in Speech Recognition, Proc. IEEE Vol. 77, No. 2, Feb., 1989,pp. 257-285 P.F. Brown, C-H. Lee, J. C. Hopper, Baysian Adaptation in Speech recognition, ICASSP 1983, pp761-764及びC.J. Leggetter, P.C. Woodkabd, Speaker Adaptation of Continuous Density HMMs Using Multivariate Linear Regression, ICSLP94

多くの録音装置は音の大きさ及び周波数を測定し、制御する機能を有するが、音声速度を測定し、制御する機能を有していない。他方、録音スタジオ又は実験室での録音作業中には、（アナウンサのような）話者及びディレクタ又はモニタなどは自らの経験に基づいて音の速度を主観的に測定し、制御しており、結果は余り正確ではないことが多い。録音を完了した後に語、文又は節の開始及び停止時刻を手動にてマーク付けすることによって音声速度を測定することができるが、これは、リアルタイムで音声速度を測定する必要があるときには使用できない。

故に、録音又は音発生中に音声速度を自動的に測定し、計算し、情報を素早く又はリアルタイムで話者及び（ディレクタ、ＤＪ及び他のような）関係者にフィードバックすることができれば望ましく、それにより、彼等はいつでも話者の音声速度を知ることができ、音声時間及び速度を制御できる。

従来技術の上記問題を解決するために、本発明が提供される。本発明の一態様は、音声を含む音声情報を入力するステップと、前記音声情報から音素列及び各音素に対応するタイミング点を認識するステップと、前記音素列及び各音素に対応するタイミング点から語列及び各語に対応するタイミング点を認識するステップと、前記語列及び認識された各語に対応するタイミング点に基づいて前記音声の速度を算出するステップと含むことを特徴とする。

本発明の他の態様は、音声に対応するテキスト情報を入力するステップと、前記音声を含む音声情報を入力するステップと、前記テキスト情報に含まれる語列に対応する音素列を生成するステップと、前記語列の各語に対応するタイミング点を得るために前記音声情報から前記音素列の各音素に対応するタイミング点を認識するステップと、前記語列及び認識された各語に対応する前記タイミング点に基づいて前記音声の速度を算出するステップとを含むことを特徴とする。

本発明の他の態様は、音声を含む音声情報を入力するよう構成される音声入力部と、前記音声入力部により入力された前記音声情報から音素列及び各音素に対応するタイミング点を認識するよう構成される音素列認識部と、前記音素列及び前記音素列認識部により認識された各音素に対応する前記タイミング点から前記音声に含まれる語列及び各語に対応するタイミング点を認識するように構成される語列認識部と、前記語列及び前記語列認識部によって認識された各語に対応する前記タイミング点に基づいて前記音声の速度を算出するように構成される音声速度計算部とを具備することを特徴とする。

本発明の他の態様は、速度を含む音声情報を入力するように構成される音声入力部と、前記音声に対応するテキスト情報を入力するように構成されるテキスト入力部と、前記テキスト情報に含まれる語列に対応する音素列を生成するように構成される音素列生成部と、前記語列の各語に対応するタイミング点を得るために前記音声情報から前記音素列生成部により生成された前記音素列の各音素に対応するタイミング点を認識するように構成される強制整合部と、前記語列及び各語に対応する前記タイミング点に基づいて前記音声の前記速度を算出するように構成される音声速度計算部とを具備することを特徴とする。

本発明の他の態様は、上記音声速度測定装置を含む録音装置を提供する。

図１は、本発明の実施形態に従った音声速度測定方法を示すフローチャートである。図１に示すように、最初にステップ１０１で、音声を含む音声情報が入力される。ここで、音声情報は話者の音声を含む音声データであり、これはＷＡＶ，ＲＡＭ，ＭＰ３などのような異なるフォーマットであっても良い。このステップで、音声情報はマイクロフォンやサンプリング回路のような装置からリアルタイムで得られてもよく、通信手段を介して他の外部装置から送信されてもよく、或いは音声情報を記録していた記録媒体から読み出されても良い。

次に、ステップ１０５で、音素列及び各音素に対応するタイミング点が音声情報から認識される。当業者により知られているように、音素は自然言語の音声の基本単位である。音声の要素は実際には多数の音素で成る音素列である。既存の音声認識技術では、音声情報から音素列を認識するために使用できる多くの方法があることは知られている。例えば、ビタビ復号アルゴリズム、Ａ^＊アルゴリズムなど全てが本発明に適用できる。これらは次の実施形態において説明する。更に、本ステップでは、音声列を認識しながら音声の各音素のタイミング点、即ち各音素の開始及び終止タイミングが決定される。

次に、ステップ１１０で、語列及び各語に対応するタイミング点が音素列及び各音素に対応するタイミング点から認識される。本発明では、語は例えば自然語の基本単位を意味し、それは中国語の文字であり、英語の単一単語、或いは日本語の仮名又は漢字である。当業者により知られているように、音声では、語は１つ以上の子音音素及び１以上の母音音素により構成される。既存の音声認識技術では、音素列から語列を認識するために使用できる多数の方法がある。たとえば、共通に使用される方法は対応する語列を見つけるようにマッチングのための認識音素列を検索するために発音語彙集を使用することである。更に、このステップでは、語列を認識しながら音声の各語のタイミング点、即ち、音素の開始及び終止タイミングが決定される。

最後に、ステップ１１５で、音声の音声速度が認識語列及び各語に対応するタイミング点に基づいて計算される。本発明の音声速度を表すために多くの方法が使用できる。例えば、中国語の場合は、音声速度は「秒当たりの語」又は「分当たりの語」で表してもよい。故に、音声に含まれる語列及び各語に対応するタイミング点を得た後、時間単位当たりの語数（即ち、音声速度）が計算できる。例えば、英語の場合は、音声速度は時間単位当たりの語数又は時間帯当たりの音節数で表すことができる。音声速度が中国語の場合と同様に、時間単位当たりの語数で表されると、時間単位当たりの語数が認識語列及び各語に対応するタイミング点に基づいて計算できる。音声速度が時間単位当たりの音節数で表されると、時間単位当たりの音節数を得るために各語に含まれる音節を合計する必要がある。

本実施形態の音声速度測定方法が採用されれば、音声の要素の音声速度が以前のように記録過程の後に音声速度を手動で測定する必要がなく自動的に測定されることは上記説明から明らかである。

更に、音声速度を測定する本実施形態の方法は録音過程でのリアルタイム測定、即ち話者又はその他の人（例えば、ディレクタ、管理者など）に音声速度情報を提供するように音声列に従って音声速度を測定するため本実施形態の方法を繰り返し実行するために使用されてもよい。

図２は、本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。本発明のこの実施形態に従った音声速度測定方法は図２を鑑みて説明する。図２において、上記実施形態と同様な部分に対しては同じ参照符号が使用されている。以下の説明では、これら同じ部分に対しては説明を省略する。

図２に示すように、先ず、ステップ１０１では、音声を含む音声情報が入力される。次に、ステップ２０５では、音声特徴が入力音声情報から抽出される。当業者によって知られているように、音声特徴は音声信号から抽出され、異なる音を区別するために使用できる特徴である。現在、比較的に一般的に使用される音声特徴は例えば、ＭＦＣＣ特徴などを含む（例えば、非特許文献１を参照）。

次に、ステップ２１０では、抽出音声特徴のビタビ復号が音素列及び各音素に対応するタイミング点を認識するように音響モデルに基づいて用いられる。当業者に知られているように、ビタビ復号は音声認識、通信などの分野で広く使用されている実用的で有効な技術である。音声要素が入力されると、音響モデルに基づくアルゴリズムが最高確率で音声の要素を生成するはずである音素列を見つけることができる。これらの音素を合成することにより列が生成されることになり、それによって音声のこの要素の認識が実現される。ビタビ復号アルゴリズムについては、次のような文献、即ち、非特許文献２を参照する。

音素列を認識するために本実施形態にはビタビ復号アルゴリズムが使用されているが、Ａ^＊アルゴリズムのような他の方法が本発明に使用できることは留意すべきである。即ち、音声認識の既存する他の技術は、それらが抽出音声特徴から音素列を認識できる限り本発明に使用できる。

次に、ステップ２１５では、発音語彙集を用いて、音素列に対応する語列及び各語に対応するタイミング点が認識される。

最後に、ステップ１１５で、音声の音声速度が認識語列及び各語に対応するタイミング点に基づいて計算される。

本発明が採用されれば、ビタビ復号技術の使用により音声速度が効果的に測定できる。

図３Ａは本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。本発明の実施形態に従った音声速度測定方法は図３Ａを鑑みて説明する。図３Ａにおいて、上記実施形態の部分と同じ部分に対して同じ符号が使用される。これら同じ部分については説明を省略する。

図３Ａに示されるように、先ず、ステップ３０１では、音声に対応するテキストが入力される。即ち、このステップでは、音声テキスト（テキスト情報）が入力される。この音声テキストは音声速度が測定されることになる音声に対応する語を含む。具体的には、テキスト情報はキーボード又は他の入力装置を介して入力されてもよく、又は通信手段を介して他の外部装置から送信されてもよく、或いは音声情報を記録した記録媒体から読み取られてもよい。

次に、ステップ３０５では、入力テキスト情報に基づいた音響モデルが採用される。一般的に、音声認識に使用される音響モデルは一般的に使用される音響モデルであり、即ち、音素の情報及び音声の一般的状態に適する音声特徴を含む音響モデルである。しかしながら、本実施形態では、処理すべき音声のテキスト情報は予め知られているので、音響モデルは処理すべき音声の内容に適合してもよい。この種の適合はこの分野では「管理適合」と呼ばれる。音響モデルの適合については、次の文献、即ち非特許文献３が参照される。

次に、ステップ１０１にて、音声情報が入力され、ステップ２０５で、音声特徴が抽出される。

次に、ステップ３１０で、抽出音声特徴のビタビ復号が音素列及び各音素に対応するタイミングを認識するように適合音響モデルに基づいて行われる。使用される音響モデルは処理されることになる音声の内容に適合されていたので、このステップでは、音素列認識速度及び制度が向上される。

最後に、ステップ１１５で、音声の音声速度が認識された語列及び各語に対応するタイミング点に基づいて算出される。

上記から、本発明が採用されれば、音響モデルが処理されるべき音声の内容に監視適合されるので、音素列がより速く、より正確に認識でき、かつ音声速度がより速く、より性格に計算できることが理解できる。

図３Ａに示されるようにステップ３０１（音声テキストの入力）及びステップ３０５（音響モデルの適合）はステップ１０１の前に行われるけれども、ステップ３０１及び３０５は音素列の認識（ステップ３１０）の前に行う必要があるだけであることが理解できることは留意すべきである。

図３Ｂは本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。本発明の実施形態に従った音声速度測定方法は図３Ｂを鑑みて説明する。図３Ｂにおいて、上記実施形態の部分と同じ部分に対して同じ符号が使用される。これら同じ部分については説明を省略する。

本実施形態と図３Ａを鑑みて説明される実施形態の両方は予め音声テキストを知っているものと仮定し、違いは本実施形態がテキストに基づいて音声テキストに対応する音素列を生成することである。

具体的には、図３Ｂに示すようにステップ３０１の後にステップ３０５’で音声テキストが発音語彙集を用いて入力され、音声テキストの語列に対応する音素列が生成される。本実施形態では、音声テキストの語列を音素列に変換するのは発音語彙集に基づいている。

次に、ステップ１０１での音声情報入力及びステップ２０５での音声特徴の抽出後に、ステップ３１０’で抽出された音声特徴のビタビ復号が音素列の各音素に対応するタイミング点を得るように音響モデルに基づいて行われる。このプロセスはこの分野では「強制整合」と呼ばれる。更に、周知の音素列に対応する語列により、音素列に対応する語列及び各語に対応するタイミング点が同時に得ることができる。

最後に、ステップ１１５では、音声速度が算出できる。

上記の説明から、本実施形態が採用されれば、音素列が音声テキストに基づいて予め生成され、それからビタビ復号がタイミング点を得るように強制整合を行うために使用されるということにより、音声速度は速く、最も正確に計算できる。音素を得るためにビタビ復号を用い、それから語列を認識する方法に比べて本実施形態の方法はより高い精度を持つ。

その上、本実施形態は上記実施形態と組み合わせて実施できる。即ち、本実施形態でも更に該方法の正確さ及び速度を向上するように音響モデルの適合ができる。

その上、音声テキストが図３Ａ及び３Ｂに示される実施形態で知られているので、本発明の好ましい実施によると、音声の速度が算出された後に、現音声速度に従って音声テキストの残り語を完了するにはどのくらい時間がかかるかを評価するために残り時間が音声テキストの残り語と現音声速度に基づいて計算される。ゆえに、話者（及び他者）は常に発話時間及び速度を知り、制御することができる。

図４は本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。本発明の実施形態に従った音声速度測定方法は図４を鑑みて説明する。図４において、上記実施形態の部分と同じ部分に対して同じ符号が使用される。これら同じ部分については説明を省略する。

図４に示すように、先ず、ステップ１０１で、音声情報が入力され、ステップ２０５で音声特徴が抽出される。

次に、ステップ２１０で、抽出された音声特徴のビタビ復号が音素列及び各音素に対応するタイミング点を認識するように音響モデルに基づいて行われる。

次に、ステップ２１５で、発音語彙集を用いて音声列に対応する語列及び各語に対応するタイミング点が認識される。更に、ステップ１１５で、音声の速度が計算される。

それから、ステップ４２０で、音声が終了したか否かが決定される。音声が終了していれば、処理はステップ４４０に進み、そこで終る。音声が終了していなければ、処理はステップ４２５に進む。

ステップ４２５では、音響モデルが適正に調整される。当業者により知られるように、通常、音響モデルが音声の一般的状態に利用できる一般的な音声認識ために準備される。しかしながら、話者の発音又は音声環境の違いにより各特定の音声は異なってもよい。既存の音声認識技術では、音響モデルは次の音声認識の精度を向上するように先に認識された語列に基づいて適応的に調整できることは知られている。これは図３Ａを鑑みて説明されている実施形態の適合に類似するが、本実施形態では音声テキストがなく、認識された語列を使用して適合がなされる。故に、この処理はこの分野では「非管理適合」と呼ばれる。

ステップ４２５の後のステップ４３０では、元の音声モデルが適正に調整された音響モデルと置き換えられる。それから、処理はステップ２１０に戻り、音声の次の部分を認識し、音声速度を算出する。

上記説明から、本実施形態によると、音響モデルを同時に調整しながら音声の速度を測定し、測定精度を連続的に向上するように音声速度の次の測定のために調整された音響モデルを使用することができる。

更に、本実施形態は音声速度の測定精度を向上するように認識制度を向上するために音声の同じ要素に対して繰り返し適正調整及び認識の処理を行うことができる。

更に、本実施形態は図３Ａ及び３Ｂを鑑みて説明した上記実施形態の利点を持つために上記実施形態と組み合わせて実施できる。

図５は本発明の実施形態に従った音声測定装置を示すブロック図である。図５に示すように、本実施形態の音声速度測定装置５００は音声を含む音声情報を入力するように構成された音声入力部５１０と、音声入力部５１０によって入力された音声情報から音素列及び各音素に対応するタイミング点を認識するように構成された音素列認識部５２０と、音素列認識イブ５２０によって認識された音素列及び各音素に対応するタイミング点から音声に含まれる語列及び各語に対応するタイミング点を認識するように構成された語列認識部５３０と、語列認識部５３０によって認識された語列及び各語に対応するタイミング点に基づいて音声の速度を算出するように構成された音声速度計算部５４０により構成される。

本実施形態の音声測定装置５００の上記構成要素はハードウエア又はソフトウエアによって実施できる。例えば、音素列認識部５２０、語列認識部５３０、音声速度計算部５４０などは特定回路又はチップによって構成されてもよく、又は対応するプログラムを実行するコンピュータ（プロセッサ）によって実行できる。

更に、音声入力部５１０は音声信号を入力し、獲得するための記録装置の回路部品であってもよく、又は音声情報を他の装置から入力するための（ネットワークカードのような）通信装置或いは音声情報を記録した記録媒体からデータを読み出す（ディスクドライブのような）装置であってもよい。

動作において、本実施形態の音声速度測定装置５００は図１を鑑みて上記実施形態の音声速度測定方法を実施できる。

図６は本発明の他の実施形態に従った音声速度想定装置のブロック図である。本発明の実施形態に従った音声速度測定装置は図６を鑑みて説明する。図６では、上記実施形態と同じ部分に対しては同じ参照符号が使用されている。書き説明では、同じ部分については説明が省略されている。

図６に示されるように、図５の実施形態と比較して、本実施形態は音素列認識部５２０が入力音声情報から音声特徴を抽出するように構成される音声特徴抽出部５２１、音響モデルを記憶するように構成された音響モデル記憶部４２２及び最高確率を有する音素列及び各音素に対応するタイミング点を得るために音声特徴抽出部５２１によって抽出された音声特徴をビタビ復号するように構成されるビタビ復号部５２３を更に含む点が異なっている。その上、語列認識部５３０は発音語彙集を記憶するように構成される発音語彙集記憶部５３１を更に含む。

本実施形態の音響モデル記憶部５２２及び発音語彙記憶部５３１はＲＡＭ，ＲＯＭ，ＨＤＤ，フラッシュメモリのような各種記憶装置により構成されてもよく、それらは互いに物理的に独立していてもよく、或いは互いに組み合わされてもよい。

上述した音声特徴抽出部５２１、ビタビ復号部５２３などは特定回路又はチップによって構成されてもよく、或いは対応するプログラムを実行するコンピュータ（プロセッサ）によって行われてもよい。

動作において、本実施形態の音声速度測定装置５００は図２を鑑みて上述した実施形態の音声速度測定方法を実施できる。

その上、本実施形態では、Ａ^＊復号部は最高確率を有する音素列及び各音素に対応するタイミング点を得るようにＡ^＊アルゴリズムで抽出音声特徴を復号するためにビタビ復号部５２３の代わりに使用されてもよい。同様に、Ａ^＊復号部は特定回路又はチップ或いは対応するプログラムを実行するコンピュータ（プロセッサ）によって行われてもよい。

図７は本発明の他の実施形態に従った音声速度測定装置を示すブロック図である。本発明の実施形態に従った音声速度測定装置は図７を鑑みて説明する。図７では、上記実施形態と同じ部分に対して同じ参照符号が使用される。下記説明では、同じ部分いついては説明を省略する。

図７に示されるように、図６の実施形態と比較して、本実施形態は音声速度測定装置５００は処理されるべき音声に対応するテキスト情報を入力するように構成されるテキスト入力部５５０及びテキスト入力部５５０によって入力されたテキスト情報に基づいて音響モデルを管理適合するように構成される管理適合部５６０を更に有する点で異なる。

本実施形態のテキスト入力部はキーボードのような入力装置、又は他の装置からテキスト情報を入力するために（ネットワークカードのような）通信装置、或いはテキスト情報を記録した記録媒体からデータを読み出すための（ディスクドライブのような）装置であってもよい。

本実施形態の音響モデル管理適合部５６０は特定回路又はチップ、或いは対応プログラムを実行するコンピュータ（プロセッサ）によって行われてもよい。

動作において、本実施形態の音声速度測定装置５００は図３Ａ及び３Ｂを鑑みて上述した実施形態の音声速度測定方法を実施することができる。

図８は本発明の他の実施形態に従った音声速度測定装置を示すブロック図である。本発明の実施形態に従った音声速度測定装置を図８を鑑みて説明する。図８では、上記実施形態と同じ部分に対して同じ参照符号が使用される。下記説明では、同じ部分については説明は省略されている。

図８に示されるように、図７の実施形態と比較して、本実施形態は音声速度測定装置５００が語列認識部５３０によって認識された語列に基づいて音響モデルを非管理適合するように構成される音響モデル非管理適合部５７０及び音声速度計算部５４０によって算出された音声毒度に関する情報を表示するように構成される音声速度表示部５８０を更に含むことが異なる。

本実施形態の音響モデル非管理適合部５７０は特定回路又はチップ、或いは対応プログラムを実行するコンピュータ（プロセッサ）によって行われてもよい
本実施形態の音声速度表示部５８０はＬＣＤ，ＣＲＴ，ＰＤＰのような表示装置であってもよい。特に、音声速度に関する情報は図１０Ａ及び１０Ｂに示されるようにデジタル数字又はバーチャートによって表示されてもよい。更に、音声テキストが事前に入力されていれば、予想音声速度、即ち所定期間内で音声テキストが完了するために必要な音声速度が音声速度表示部５８０に表示されてもよい。

更に、図８に示されるように、本実施形態は算出音声速度及びテキスト情報から残り時間を算出するように構成される残り時間計算部５９０を更に含む。残り時間計算機５９０によって算出された残り時間は音声速度表示部５８０に表示されてもよい。

動作において、本実施形態の音声速度測定装置５００は図３Ａ及び４を鑑みて上述した実施形態の音声速度測定方法を実施できる。

図９は本発明の他の実施形態に従った音声速度測定装置を示すブロック図である。本発明の実施形態に従った音声速度測定装置を図９を鑑みて説明する。図９では、上記実施形態と同じ部分に対して同じ参照符号が使用される。下記説明では、同じ部分については説明は省略されている。

図９に示されるように、本実施形態の音声速度測定装置５００’は音声入力部５１０、テキスト入力部５５０、音素列生成部６３０、強制整合部６２０、音声速度計算部５４０および音声速度表示部５８０を含む。

本実施形態と上記実施形態との主要な違いは本実施形態が音素列生成部６３０および強制整合部６２０を有し、音素列生成部６３０はテキスト入力部５５０によって入力されるテキスト情報に含まれる語列に対応する音素列を生成するように構成され、発音語彙集が記憶されている発音語彙列記憶部６３１を含む。音素列生成部６３０は発音語彙集を参照して、テキスト情報に含まれる語列を音素列に変換する。

強制整合部６２０は語列の各語に対応するタイミング点を得るように音声入力部５１０によって入力された音声情報から音素列生成部６３０によって生成される音素列の各語に対応するタイミング点を認識するように構成される。特に、本実施形態によると、強制整合部６２０は上記実施形態の音声特徴抽出部５２１と同様に入力音声情報から音声特徴を抽出するように構成される音声特徴抽出部６２１と、上記実施形態の音響モデル記憶部５２２と同様に音響モデルを記憶するように構成される音声特徴記憶部６２２と、音素列と整合するように抽出音声特徴をビタビ復号するように構成されるビタビ復号部６２３を含む。強制整合の処理は上記実施形態において説明されており、繰り返して説明しない。

動作において、本実施形態の音声速度測定装置５００’は図３Ｂを鑑みて上述した実施形態の音声速度測定方法を実施できる。

更に、本実施形態では、Ａ^＊復号部は音声列と整合するようにＡ^＊アルゴリズムで抽出音声特徴を復号するためビタビ復号部の代わりに使用できる。

その上、本実施形態では、上記実施形態に記載された、残り時間計算部５９０などのような幾つかの構成要素が含まれてもよく、実施形態は上記実施形態と組み合わされてもよい。

更に、上述した実施形態の音声速度測定装置の適用形態として、本発明は既存の録音装置に音声速度測定機能を設けるように音声速度測定装置５００が既存の録音装置に加えられている録音装置を更に提供する。

好ましくは、音声速度測定装置５００の音声入力部５１０は録音装置によって入力され、獲得される音情報から音声情報を直接取り込んでもよい。

音声速度測定方法、音声速度測定装置および録音装置が幾つかの実施形態で詳細に説明されているが、これら実施形態は網羅していない。当業者は本発明の精神と範囲内で種々変更及び変形できる。ゆえに、本発明はこれら実施例に限定されなく、むしろ本発明の範囲は特許請求によってのみ規定される。

本発明の実施形態に従った音声速度測定方法を示すフローチャートである。本発明の他の実施形態に従った音声測定方法を示すフローチャートである。本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。本発明の他の実施形態に従った音声速度測定装置を示すブロック図である。本発明の他の実施形態に従った音声速度測定装置を示すブロック図である。本発明の他の実施形態に従った音声速度測定装置を示すブロック図である。本発明の実施形態に従った音声速度測定装置を示すブロック図である。本発明の実施形態に従った音声速度測定装置を示すブロック図である。本発明の実施形態に従った音声速度を表示する例を示す図である。

符号の説明

５１０…音声入力部、５２０…音素列認識部、５２１…音声特徴抽出部、５２２…音響モデル記憶部、５２３…ビタビ復号部、５３０…語列認識部、５３１…発音語彙集記憶部、
５４０…音声速度計算部、５５０…テキスト入力部、５６０…音響モデル管理適合部、５７０…音響モデル非管理適合部、５８０…音声速度表示部、５９０…残り時間計算部、６２０…強制整合部、６２１…音声特徴抽出部、６２２…音響モデル記憶部、６３０…音素列生成部、６３１…発音語彙集記憶部

Claims

音声を含む音声情報を入力するステップと、
前記音声情報から音素列及び各音素に対応するタイミング点を認識するステップと、
前記音素列及び各音素に対応するタイミング点から語列及び各語に対応するタイミング点を認識するステップと、
前記語列及び認識された各語に対応するタイミング点に基づいて前記音声の速度を算出するステップと、を含むことを特徴とする音声速度測定方法。
前記認識ステップは、前記入力音声情報から音声特徴を抽出するステップと、
最高確率を有する音素列及び各音素に対応するタイミング点を得るために音響モデルを用いて前記抽出音声特徴を復号するステップと、を含むことを特徴とする請求項１記載の音声速度測定方法。
前記復号ステップは、最高確率を有する音素列及び各音素に対応するタイミング点を得るためにビタビ復号アルゴリズムによって前記抽出音声特徴を復号することを特徴とする請求項２記載の音声速度測定方法。
前記復号ステップは、最高確率を有する音素列及び各音素に対応するタイミング点を得るためにＡ^＊アルゴリズムによって前記抽出音声特徴を復号することを特徴とする請求項２記載の音声速度測定方法。
前記認識ステップは、発音語彙集を用いて行うことを特徴とする請求項１記載の音声速度測定方法。
更に前記音声に対応するテキスト情報を入力するステップと、
前記入力テキスト情報に基づいて最適化された前記音響モデルを前記音声に適合するステップとを含み、
前記復号ステップは、前記適合音響モデルによって行われることを特徴とする請求項２記載の音声速度測定方法。
更に前記認識語列に基づいて前記音響モデルを非監視適合するステップと、
前記認識ステップ及び後続のステップを前記適合音響モデルによって行うステップと、を含むことを特徴とする請求項２又は請求項６記載の音声速度測定方法。
更に前記算出音声速度及び前記テキスト情報から残り時間を算出するステップを含むことを特徴とする請求項６記載の音声速度測定方法。
音声に対するテキスト情報を入力するステップと、
前記音声を含む音声情報を入力するステップと、
前記テキスト情報に含まれる語列に対応する音素列を生成するステップと、
前記語列の各語に対応するタイミング点を得るために前記音声情報から前記音素列の各音素に対応するタイミング点を認識するステップと、
前記語列及び認識された、各語に対応する前記タイミング点に基づいて前記音声の速度を算出するステップと、を含むことを特徴とする音声速度測定方法。
前記認識ステップは、前記入力音声情報から音声特徴を抽出するステップと、
前記音素列の各音素に対応するタイミング点を得るために音響モデルを用いて前記抽出音声特徴に強制整合を行うステップと、を含むことを特徴とする請求項９記載の音声速度測定方法。
前記強制整合ステップは、前記音素列と揃えるためにビタビ復号アルゴリズムで前記抽出音声特徴を復号することを特徴とする請求項１０記載の音声速度測定方法。
前記強制整合ステップは、前記音素列と揃えるためにＡ^＊アルゴリズムで前記抽出音声特徴を復号することを特徴とする請求項１０記載の音声速度測定方法。
前記音素列生成ステップは、発音語彙集を用いて行われることを特徴とする請求項９記載の音声速度測定方法。
更に前記算出音声速度及び前記テキスト情報から残り時間を算出するステップを含むことを特徴とする請求項９記載の音声速度測定方法。
音声を含む音声情報を入力するように構成される音声入力部と、
前記音声入力部により入力された前記音声情報から音素列及び各音素に対応するタイミング点を認識するように構成される音素列認識部と、
前記音素列及び前記音素列認識部により認識された各音素に対応する前記タイミング点から前記音声に含まれる語列及び各語に対応するタイミング点を認識するように構成される語列認識部と、
前記語列及び前記語列認識部によって認識された各語に対応する前記タイミング点に基づいて前記音声の速度を算出するように構成される音声速度計算部と、を具備することを特徴とする音声速度測定装置。
前記音素列認識部は、前記入力音声情報から音声特徴を抽出するよう構成される音声特徴抽出部と、音響モデルを記憶するように構成される音響モデル記憶部とで構成されることを特徴とする請求項１５記載の音声速度測定装置。
前記音素列認識部は、最高確率を有する音素列及び各音素に対応するタイミング点を得るために前記音声特徴抽出部により抽出された前記音声特徴をビタビ復号するビタビ復号部を更に具備することを特徴とする請求項１６記載の音声速度測定装置。
前記音素列認識部は、最高確率を有する音素列及び各音素に対応するタイミング点を得るために前記抽出音声特徴をＡ^＊アルゴリズムを用いて復号するように構成されるＡ^＊復号部を更に具備することを特徴とする請求項１６記載の音声速度測定装置。
前記語列認識部は、発音語彙集を記憶するように構成される発音語彙集記憶部により構成されることを特徴とする請求項１５記載の音声速度測定装置。
更に、前記音声に対応するテキスト情報を入力するように構成されるテキスト入力部と、前記テキスト入力部によって入力された前記テキスト情報に基づいて前記音響モデルを監視適合するため構成される監視適合部とを具備することを特徴とする請求項１６記載の音声速度測定装置。
更に、前記語列認識部によって認識された前期語列に基づいて前記音響モデルを非監視適合するように構成される音響モデル非監視適合部を具備することを特徴とする請求項１６記載の音声速度測定装置。
前記音声速度計算部によって算出された前記音声速度に関する情報を表示するように構成される音声速度表示部を更に含むことを特徴とする請求項１５記載の音声速度測定装置。
前記算出音声速度及び前記入力テキスト情報から残り時間を算出する残り時間計算部を更に有し、前記音声速度表示部は前記残り時間計算部により算出された前記残り時間に関する情報を更に表示するように構成されることを特徴とする請求項１５記載の音声速度測定装置。
速度を含む音声情報を入力するように構成される音声入力部と、
前記音声に対応するテキスト情報を入力するように構成されるテキスト入力部と、
前記テキスト情報に含まれる語列に対応する音素列を生成するため構成される音素列生成部と、
前記語列の各語に対応するタイミング点を得るために前記音声情報から前記音素列生成部により生成された前記音素列の各音素に対応するタイミング点を認識するように構成される強制整合部と、
前記語列及び各語に対応する前記タイミング点に基づいて前記音声速度を算出するように構成される音声速度計算部と、を具備することを特徴とする音声速度測定装置。
更に、前記入力音声情報から音声特徴を抽出するように構成される音声特徴抽出部と、
音響モデルを記憶するように構成される音響モデル記憶部と
を具備することを特徴とする請求項２４記載の音声速度測定装置。
前記強制整合部は、前記音声列と合わせるために前記音声特徴抽出部によって抽出された前記音声特徴をビタビ復号するビタビ復号部を更に有することを特徴とする請求項２５記載の音声速度測定装置。
前記強制整合部は、前記音声列と合わせるために前記音声特徴抽出部によって抽出された前記音声特徴をＡ^＊アルゴリズムによって復号するＡ^＊復号部を更に有することを特徴とする請求項２５記載の音声速度測定装置。
前記音素列生成部は、発音語彙集を記憶するように構成される発音語彙集記憶部により構成され、前記強制整合部は、前記音声列と合わせるために前記音声特徴抽出部によって抽出された前記音声特徴をビタビ復号するビタビ復号部を更に有することを特徴とする請求項２４記載の音声速度測定装置。
前記算出音声速度及び前記入力テキスト情報から残り時間を算出する残り時間計算部を更に有することを特徴とする請求項２４記載の音声速度測定装置。
請求項１５乃至請求項２９のいずれか１に従って音声速度を測定する装置により構成される録音装置。