JP4086532B2

JP4086532B2 - 動画再生装置、動画再生方法及びそのコンピュータ・プログラム

Info

Publication number: JP4086532B2
Application number: JP2002113624A
Authority: JP
Inventors: 弘隆椎山
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2002-04-16
Filing date: 2002-04-16
Publication date: 2008-05-14
Anticipated expiration: 2022-04-16
Also published as: JP2003309814A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声の再生を伴う動画再生技術の分野に関する。
【０００２】
【従来の技術】
従来より、例えば、ビデオテープレコーダ等のように、音声の再生を伴う動画再生装置においては、再生実行時にユーザが動画全体（即ち、再生対象のコンテンツ全編）を短時間で見ることを可能とすべく、倍速再生機能や、高速早送り機能等が備えられている。
【０００３】
また、代表的な動画再生装置であるビデオテープレコーダにおいては、近年、記録媒体の倍速再生実行時に、音のエネルギが所定のしきい値以上の第１音声区間と、当該所定のしきい値未満の第２音声区間とを検出すると共に、その第１音声区間における音声信号のピッチ変換を行ないながら継続再生することにより、当該第２音声区間を侵食しながらも、再生された音声はユーザにとって多少早口ではあるもの、内容の理解が可能な再生音を伴いながら、２倍速で記憶媒体を再生可能な技術も提案されている。
【０００４】
【発明が解決しようとする課題】
しかしながら、上記の如く音声信号の部分的なピッチ変換処理を行うと、動画再生（動画早見再生）時に必ずしも音声と映像との同期関係が保てないことにより、例えば、再生された映像中の人物の喋っている映像と、再生された音声との同期が取れないことから、人間の感覚にとって不自然な再生となり、ユーザは違和感を感じることがある。
【０００５】
また、例えば特開平１０−３２７７６号公報、特開平９−２４３３５１号公報等においては、音声エネルギに基づいて無音状態を検出し、検出した無音状態以外の音を人の発した音声区間とみなすことにより、動画の要約（サマリー）を行う技術も提案されている。しかしながら、例えばニュース番組等のように、その番組全体を通して人の発した音声が支配的な動画においては、音声エネルギに基づく人の発した音声区間の検出はある程度は可能であるものの、バックグラウンドノイズやバックグラウンド音楽が存在する環境下ではこの方法は現実的ではない。
【０００６】
更に、上記特許公報以前の従来技術においても、音声検出を行なうと共に、検出した音声を考慮した動画再生を行なう技術が数多く提案されており、その殆どが音のエネルギをしきい値処理することによって音声を検出している。この背景には、日本語の曖昧さに起因する問題があり、「人の声」も「音声」と言い、人の声を含む音一般も「音声」と呼ぶことに起因しており、このような従来技術における音のエネルギのしきい値処理を、真の「音声検出」とひとまとめに総称するのは不適当である。
【０００７】
また、特開平９−２４７６１７号公報には、音声信号のＦＦＴ（高速フーリエ変換）スペクトラムを算出することによって特異点を求めることによって「音声情報等の特徴点」を検出し、その音量を分析する技術が提案されている。しかしながら、ＦＦＴスペクトラムを利用する方法においては、再生すべき音声信号の中に、広帯域のスペクトル分布となる所謂バックグラウンド音楽等が含まれる場合には、その中から人の発した声を検出することは困難である。
【０００８】
このように、音声を伴う従来の動画再生においては、上述したように音声区間の検出が便宜的で不正確であるという問題があり、更に、その検出結果を用いた動画のサマリーの作成や倍速再生を行う場合には、再生に際して、映像と音声との同期関係が維持できないという問題がある。
【０００９】
また、一般に、老人や子供等のユーザにとって各種装置を使いこなすことは容易なことでななく、且つ速い速度で発せられる音声は、その内容の理解が追いつき難いことが知られている。従って、このようなユーザにとって、上述したテープレコーダのような動画再生装置において倍速再生等の内容の早見（短縮再生）を行なうに際しては、再生に最適な条件が一般のユーザとは異なる。
【００１０】
更に、動体視力の弱いユーザ、早い音声に対する聴力が弱いユーザ、或いは再生される音声を母国語としない外国のユーザ等にとっても、上記のような動画再生装置によって倍速再生等の内容の早見（短縮再生）を行なうに際しては、再生に最適な条件が一般のユーザとは異なる。
【００１１】
そこで本発明は、人の発した音声区間を正確に検出すると共に、検出した音声区間に従って映像と音声との同期関係を忠実に維持しながら、ユーザの閲覧所要時間を大幅に短縮する動画再生装置、動画再生方法及びそのコンピュータ・プログラムの提供を目的とする。
【００１２】
【課題を解決するための手段】
上記の目的を達成するため、本発明に係る動画再生装置は、以下の構成を特徴とする。
【００１３】
即ち、音声信号を含む動画情報を高速度で再生可能な動画再生装置であって、
前記動画情報に含まれる音声信号に基づいて、人の発声期間を表わす第１音声区間と、それ以外の第２音声区間とを判定する音声区間判定手段と、
前記動画情報に基づいて、前記第１音声区間は、ユーザが内容を把握可能な所定速度で、再生音声を伴う高速動画再生を行なう一方で、前記第２音声区間は、前記所定速度より高速度で、高速動画再生を行なう早見再生手段と、
を備えることを特徴とする。
【００１４】
好適な実施形態において、前記早見再生手段は、前記第２音声区間において、前記第１音声区間における音量より小音量の再生音声を伴う動画再生を行なうと良い。
【００１５】
或いは、好適な他の実施形態において、前記早見再生手段は、前記第２音声区間において、無音声にて動画再生を行なうと良い。
【００１６】
上記何れの装置構成においても、前記音声区間判定手段は、前記音声信号に基づいて、声帯振動に対応する音声ピッチを抽出し、抽出した音声ピッチに基づいて、前記第１音声区間を判定すると良い。
【００１７】
また、上記何れの装置構成においても、前記音声区間判定手段は、前記音声信号に含まれる人の発した音声帯域にフィルタリングを施すことによって得られる信号から、存在し得る声帯振動数範囲のピッチを抽出することによって人の声の支配的な母音部を検出すると共に、検出した母音部を統合することにより、前記第１音声区間を決定することを特徴とする。
【００１８】
また、例えば前記音声区間判定手段は、前記音声信号に基づいて、前記第１音声区間を判定するに際して、時間軸上で近接する複数の前記第１音声区間を、統合補正する補正手段を含むことを特徴とし、
この場合、前記補正手段は、前記動画情報に含まれるシーンチェンジ点を検出すると共に、検出した個々のシーンチェンジ点のうち、着目する前記第１音声区間の始点よりも時間的に早く且つ最も近傍に位置する近傍シーンチェンジ点と、その始点との時間間隔（即ち、時間軸上での距離）が所定のしきい値以下である場合に、該着目する前記第１音声区間の始点を、該近傍シーンチェンジ点に対応する情報に置き換えることによって補正すると良い。
【００１９】
また、例えば前記早見再生手段は、前記第１音声区間の長さおよびその区間の再生速度と、前記第２音声区間の長さおよびその区間の再生速度とに基づいて、前記高速動画再生に要する所要時間を算出すると共に、算出した所要時間をユーザに提示することを特徴とし、
この場合、前記早見再生手段は、前記所要時間を提示するのに応じて、前記第１及び第２音声区間の再生速度の変更操作がユーザによって行われた場合に、その変更後の再生速度に基づいて、前記所要時間を調整する調整手段を含むと良い。
【００２０】
好適な実施形態においては、前記動画再生装置を利用可能なユーザを対象として、個々のユーザに関する属性情報（例えば、年齢、使用言語、動体視力、並びに早い音声の聴力等）が登録されたユーザ・プロファイルを更に備え、
前記早見再生手段は、前記ユーザ・プロファイルに登録されているところの、特定ユーザに関する属性情報に従って、前記第１及び第２音声区間の再生速度を自動的に決定すると良い。
【００２１】
尚、同目的は、上記の各構成を備える動画再生装置に対応する動画再生方法によっても達成される。
【００２２】
また、同目的は、上記の各構成を備える動画再生装置及び方法を、コンピュータによって実現するプログラムコード、及びそのプログラムコードが格納されている、コンピュータ読み取り可能な記憶媒体によっても達成される。
【００２３】
【発明の実施の形態】
以下、本発明に係る動画再生装置の一実施形態を、図面を参照して詳細に説明する。
【００２４】
はじめに、本実施形態における動画再生装置の動作の概要について、図１を参照して説明する。
【００２５】
図１は、本実施形態に係る動画再生装置における動画早見アルゴリズムの概念図を表す図である。
【００２６】
本実施形態に係る動画再生装置は、図１に示すように、大別して、動画早見インデックス作成部１００と、動画早見再生部２００とからなる。
【００２７】
＜動画早見インデックス作成部１００＞
動画早見インデックス作成部１００では、動画データ記憶部１０から読み出した動画データが映像／音声分離処理（ステップＳ101）において映像データと音声データ（音声信号）とに分離され、その音声信号に対しては、音声区間推定処理（ステップＳ102）及び音声区間補正処理（ステップＳ103）が施され、映像データに対しては、映像変化度演算処理（ステップＳ105）、シーンチェンジ点検出処理（ステップＳ106）が施され、早見再生区間補正処理（ステップＳ104）によって早見再生区間情報が生成され、生成されたこの情報は、動画早見インデックス記憶部１１に記憶される。
【００２８】
即ち、音声区間推定処理（ステップＳ102）では、映像／音声分離処理（ステップＳ101）にて得られた音声信号に対してローパスフィルタによるフィルタリングが施されることにより、その音声信号の零交差点が求められると共に、その零交差点を始点と終点とに有する小セグメント群が形成され、更に隣接する小セグメントの信号エネルギが小さい場合には、その小セグメントは直前の小セグメントと結合されることによって１つの小セグメントが決定される。ここで、零交差点とは、フィルタリングが施された音声信号の波形が、基準信号レベルであるゼロレベルと交差する点である。
【００２９】
このようにして決定された個々の小セグメントに対しては、その性質を表す属性情報がラベルとして付与される。このラベルには、必ず音声ピッチに対するラベルが含まれ、且つ音声ピッチセグメント内には、音声ピッチ周期情報を併せ持つ（詳細は後述する）。
【００３０】
本実施形態では、音声検出に際して、係る音声ピッチラベルを有するセグメント群を拠り所として、隣接する音声ピッチラベルを持つセグメント間の距離（即ち、時間間隔、以下同様）をしきい値処理すると共に、それら音声ピッチセグメント内に個々に含まれる音声ピッチ周期情報の連続性を用いて、更に、音声ピッチ周期の連続性と、セグメント間の距離との両者を考慮することにより、離散的な音声ピッチラベルを持つ複数小セグメントを、１つのセグメントとして統合することによって音声区間を正確に検出する。
【００３１】
また、音声区間補正処理（ステップＳ103）では、音声区間推定処理（ステップＳ102）における処理結果（音声信号の中から検出された音声区間）に基づいて、音声再生時に人（ユーザ）が不快にならないように、近接する複数の音声区間を統合することによって新たに再生するところの、人の発声期間を表わす音声区間（以下、「人の音声区間」または区間Ａと称する）の補正が行われることにより、補正済みの音声区間情報を取得する。
【００３２】
例えば、高速動画再生に際する悪い態様として、近接する２つの区間Ａの間隔が狭い場合に、動画再生に際して、それらの音声区間を、人が聞いて内容把握ができる程度の速度で、音声を伴う倍速再生（例えば２倍速再生）を行なうと共に、人の音声区間ではない区間（以下、区間Ｂと称する）に対しては、動画再生に際して、再生映像を人が見ることによって内容把握ができる程度の高倍率の倍速で再生を行うと、変化が激しく、一般のユーザにとって聞き苦しいものとなる。
【００３３】
従って、本実施形態では、音声区間補正処理（ステップＳ103）において、人の音声区間の間隔を考慮し、その間隔がある所定の条件を満たす場合には複数の人の音声区間群を統合することにより、前記の聞き苦しさを解消する。ここで、所定の条件としては、例えば、人の音声区間の間隔が所定のしきい値以下であることを設定するのが最も容易である。
【００３４】
また、映像変化度演算処理（ステップＳ105）では、映像／音声分離処理（ステップＳ101）にて得られた映像データに対して、特開２０００−２３５６３９号公報に記載されたフレーム間の類似比較処理を行うことによってフレーム間類似度を演算することにより、映像変化情報が生成される。
【００３５】
一般に、音声信号を含む動画データに映像の変わり目が存在し、その直ぐ後に音声区間が始まる場合には、動画再生に際して、ほんの一瞬高速でシーンの先頭部分の映像が再生された後で、音声を伴う倍速再生による再生映像が、人が聞いて把握できる速度で行われるため、ユーザにとって映像がちらついたような違和感が生じる。
【００３６】
そこで、本実施形態では、シーンチェンジ点検出処理（ステップＳ106）において、例えば、本願出願人による先行する特開２０００−２３５６３９号公報に開示されたシーンチェンジ点の検出技術を採用することにより、映像変化度演算処理（ステップＳ105）にて得られた映像変化情報に基づいて、シーンチェンジ点群（シーンチェンジ点情報）を検出する。
【００３７】
そして、早見再生区間補正処理（ステップＳ104）では、ステップＳ103における音声区間補正処理後の音声区間の先頭よりも時間的に早く、且つ最も近傍で、その距離が所定のしきい値以下である場合に、音声区間の先頭を、ステップＳ103にて検出したシーンチェンジ点に対応する情報に置き換えることにより、ユーザの違和感を取り除くことができる。
【００３８】
＜動画早見再生部２００＞
次に、動画早見再生部２００では、動画早見再生処理（ステップＳ107）において、再生映像はディスプレイ１２、再生音声はスピーカ１３を利用して再生される。この動画早見再生処理による動画再生に際しては、動画早見インデックス記憶部１１から読み出された早見再生区間情報に基づいて、ステップＳ108にて再生に要する時間が表示されると共に、その表示に応じてステップＳ109にて設定されたユーザ所望の再生条件のフィードバックおよびユーザ・プロファイル１４に基づく再生条件を統合判断することにより、早見再生条件の最終的な設定が行われ、設定された早見再生条件に基づいて、動画データ記憶部１０から読み出した動画データの動画再生が行われる。
【００３９】
その際、本実施形態では、
・区間Ａに対しては、再生される音声をユーザが聞いた際に内容を把握できる速度で音声を伴う倍速再生が行われ、
・区間Ｂに対しては、再生される映像を見ることによってユーザが内容を把握できる範囲内で高倍率の倍速再生が行われる。
【００４０】
ここで、上記の区間Ａにおける倍速再生、即ち、人が聞いて内容を把握できる速度の再生とは、実験では2倍速まで、望ましくは1.5倍速程度にすると良いことが本願出願人による実験の結果から判っている。他方、区間Ｂに対しては、再生映像を人が見て内容が把握できる範囲で高い倍率の倍速で再生を行うが、本願出願人による実験の結果によれば、経験的には10倍速まで、望ましくは5倍速以上に設定すると良いことが判っている。
【００４１】
区間Ｂを高倍率で倍速再生すると、一般に、「キュルキュル」という音が出ることが知られているので、ステップＳ107では、区間Ｂを高速で再生するに際して、ユーザがそのような音を聞きたくない場合には、音声再生はミュートすることによって無音状態にする、或いは、再生時の音量を小さくすることが考えられる。
【００４２】
区間Ａの再生速度、区間Ｂの再生速度及びその再生時の音量に関して、最も簡単な実施方法は、動画早見再生処理（ステップＳ107）において、予め音声をどう処理するかを決めておく他、その再生速度を、ユーザが可変で設定可能とする方法が存在する。
【００４３】
しかし、一般に、例えば老人や子供等のユーザにとっては各種装置を使いこなすことは容易なことでななく、速い速度の音声再生が行われた場合にはその内容理解が難いことが知られており、面倒な速度調整を行わず且つ簡易に、やや低い倍率の倍速再生することが好ましい。これと同様に、年齢に関わらず視力の弱いユーザ（視覚障害者）、特に動体視力や聴力、特に早い音声の聴力の弱いユーザの弱いユーザ（聴覚障害者）、或いは再生される音声を母国語としない外国のユーザ等にとっても、速い速度の音声再生が行われた場合にはその内容理解が難いことが知られており、これらのユーザにとって最適な再生速度もある。
【００４４】
そこで、本実施形態では、ユーザの年齢や言語や理解できる言語や視力や聴力等の情報、更には個々のユーザが好む基準の再生条件等のユーザに関する属性情報を、ユーザ・プロファイル１４に予め記憶しておき、動画早見再生処理（ステップＳ107）において、そのプロファイル１４を参照することにより、対象となるユーザに応じて、人間の発声区間（区間Ａ）および人間の発声区間を除く区間（区間Ｂ）の再生速度をそれぞれ決定し、個人に応じた内容理解が容易な動画早見再生を行うことが可能となる。
【００４５】
また、上述したように、区間Ｂの高倍率な倍速再生時に、音声のミュート或いは音量を小さくする場合にも、係る設定をプロファイル１４に予め記述しておくことにより、個々のユーザに応じた快適な動画早見再生を行うことが可能となる。
【００４６】
更に、高齢者および動体視力にハンディキャップのあるユーザに関しては、本来の早見再生という観点からは外れるかもしれないが、区間Ａの再生速度を等倍速度より遅く設定すると共に、区間Ｂの再生速度は等倍速度以上に設定することにより、係るユーザが区間Ａの音声内容を把握可能な低速再生を行いながらも、全体としては全ての区間を低速再生する場合と比較して短い所要時間で、動画（即ち、動画データ記憶部１０に格納されている動画データ）を閲覧することが可能となる。
【００４７】
また、早い音声の内容理解にハンディキャップのあるユーザおよび音声内容の言語に堪能でないユーザに関しては、本来の早見再生という観点からは外れるかもしれないが、区間Ａの再生速度を等倍速度より遅く設定すると共に、区間Ｂの再生速度は10倍速まで、望ましくは5倍速以上とし、係るユーザが区間Ａの音声内容を把握可能な低速再生を行いながらも、全体としては全ての区間を低速再生する場合と比較して短い所要時間で、動画（即ち、動画データ記憶部１０に格納されている動画データ）を閲覧することが可能となる。ここで、音声内容の言語に堪能か否かの判断は、上述したプロファイル１４に予め記憶した識別情報（後述する表４では得意言語）と、再生対象の動画に含まれる音声の言語種類情報とを比較することによって行なえば良い。
【００４８】
ユーザ・プロファイル１４を選択する手順としては、例えば、ディスプレイ１２に表示されたプロファイル選択画面にユーザ・プロファイルリストを表示し、その中から、ユーザによるリモコン端末（不図示）の操作に応じて選択することが考えられ、更に指紋や声紋や顔認識等の個人認識技術を用いた自動的なプロファイル選択方法を採用しても良い。
【００４９】
ところで、上記の如く個々のユーザにとって最適な早見再生を行う場合に、果たして元々どの長さの動画がどの位の時間で早見できるかは、空き時間を活用して早見を行おうとしているユーザにとって重要な情報である。
【００５０】
そこで、本実施形態では、ステップＳ108において、区間Ａのトータル長を再生速度で割ることによって区間Ａの再生時間を計算すると共に、区間Ｂについては、当該トータル長を再生速度で割ることによって区間Ｂの再生速度を計算し、早見に要する時間として、算出したこれら２つの値の和を求め、元の動画を等倍再生する場合の所要時間と共にユーザに提示する。更に、これらの再生時間をユーザが見た上で、所望の再生時間内に収まるように、区間Ａの再生速度や区間Ｂの再生速度を指定することにより、ユーザ所望の再生時間に近くなるように調節することが可能である。
【００５１】
ところで、予め設定されたユーザのプロファイル１４と、ユーザが指示した所望の再生速度との関連であるが、上記の如くステップＳ108においてプロファイル１４を用いて自動的に算出された動画早見再生に要する時間を見たユーザが、所定のマンマシン・インタフェースを介して、ステップＳ109において、更に、区間Ａおよび区間Ｂの再生速度を指定することにより、所望の動画早見再生に要する時間（再生速度情報）を設定した場合には、設定された所要時間内に納めるべく、自動的、或いはユーザに確認を行った上で、係る設定された再生速度情報を新たにプロファイルに記憶することにより、前回の操作情報を反映しつつ個々のユーザの好みに応じた理解の容易な動画早見再生を行うことが可能となる。
【００５２】
また、上述したユーザ・プロファイルに、更に、区間Ｂの再生時の音量をどう処理するかを予め指定しておく、或いは所定のマンマシン・インタフェースを介してユーザが指定した場合には、その指定された音量情報を反映しつつ個々のユーザの好みに応じた理解の容易な動画早見再生を行うことが可能となる。
【００５３】
＜動画再生装置の動作の詳細＞
以下、上記の如く概説した本実施形態に係る動画再生装置の動作の詳細について説明する。以下の説明では、動画データ記憶部１０に記憶された録画済の動画データに対して早見再生を行うためのインデックスとして早見再生区間情報を作成し、作成したその情報を利用して、当該動画データの早見再生を行う場合を例に説明する。
【００５４】
本実施形態では、上述したように、ステップＳ101の映像／音声分離処理を経た後処理として、大別して、動画早見インデックス作成部１００による動画早見インデックス作成処理と、動画早見再生部２００による動画早見再生処理とがある。
【００５５】
＜動画早見インデックス作成部１００＞
図２は、動画早見インデックス作成部１００において行われる人の発声期間を表わす音声区間（区間Ａ）検出のためのアルゴリズムを表わすブロック図であり、ＡＧＣ（オートゲインコントロール）21、ローパスフィルタ22、零交差検出部23a,23b、音声セグメント化部24、音声ピッチ検出部25、音声ラベリング部26、音声エネルギ計算部27、並びに音声区間判定部28から成る。
【００５６】
図３は、図２に示すアルゴリズムに基づく処理の概略を示すフローチャートであり、このフローチャートを参照して区間Ａ検出の手順を説明すると、まずステップＳ301にて音声信号を複数の小セグメントに分割し、ステップＳ302では、それらの小セグメントの音響的な特徴を表す音声ラベリングを行なう。その際、ステップＳ303では、音声ピッチを検出することによってロバストな母音候補の検出を行い、最後に、ステップＳ304において、音声ピッチ検出結果に基づいて人の音声区間（区間Ａ）の判定を行う。
【００５７】
即ち、映像／音声分離処理（ステップＳ101）によって動画データから分離された音声信号は、ＡＧＣ（オートゲインコントロール）21によって音声エネルギが正規化される。ＡＧＣ21の構成に関しては公知のものを採用すれば良く、登録済みの音声信号に対して、その全体を通して信号レベルが最大となる音を基準として、正規化を行う構成を採用することができる。
【００５８】
正規化された音声信号は、ローパスフィルタ22においてフィルタリングを施すことにより、後段で行われる解析処理に適した帯域の音声信号成分と、無声子音認識に必要な帯域を持つ元の音声信号に分岐する。
【００５９】
（音声セグメント化）
まず、ローパスフィルタ22を通過した音声信号は、零交差点検出部23aにて零交差点が求められた後、その零交差点を基準として、音声セグメント化部24において、「小セグメント」と呼ぶ小部分に暫定的に分割される。この処理は、図３のステップＳ301に相当する。
【００６０】
ここで、ローパスフィルタ22をセグメント分割に用いる理由は、小セグメントの基準が無声子音、有声子音、並びに音声ピッチ等の単位であり、高周波の影響があると無声子音等に悪影響が生じるからである。
【００６１】
さて、音声セグメント化部24は、音声信号に対して暫定的に求められた零交差点を基準として、その音声信号を小セグメントに分割するが、その小セグメントは、以下の２条件
ルール１：小セグメントの始点と終点は零交差点であること、
ルール２：小セグメントのエネルギが小さい場合には、直前の小セグメントと結合する。
【００６２】
X1を始点としX２を終点とする小セグメントｆ（ｘ）に対して音声エネルギＰを、
【００６３】
【数１】

なる数式（１）を満たすものと定義する。
【００６４】
そして、算出した音声エネルギＰが、所定のしきい値Ｅｔｈ１以下の場合には、現在対象としている小セグメントｆ（ｘ）を、その直前の小セグメントに統合する。尚、音声エネルギＰは、数式（１）による小セグメントｆ（ｘ）の絶対値の累積でなく、ｆ（ｘ）の２乗エネルギを用いて計算しても良い。
【００６５】
図４は、本実施形態において行われる小セグメントの結合処理を説明する図である。
【００６６】
同図において、図４（ａ）は、零交差点検出部23aにて複数の零交差点(Zero cross points)が求められた音声信号レベルを例示している。また、図４（ｂ）では、検出された零交差点、上述したルール１およびルール２が適用されることによって設定された複数の小セグメントが、個々の縦線によって示されており、矢印で指し示された２つの小セグメントは、上述したルール２によって、１つの小セグメントに統合されたことを示している。
【００６７】
（音声ラベリング処理）
零交差検出部23ｂでは、ＡＧＣ21によって音声エネルギが正規化された音声信号波形が、基準となるゼロレベルと交差する平均零交差数を求め、更に、音声エネルギ計算部27において平均エネルギを求めた後、個々の小セグメントに対して、音声ラベリング部26において、始点、終点、平均零交差数および平均エネルギを算出し、算出したこれらの値を、小セグメントの特徴量として記憶する。この処理は、図３のステップＳ302に相当する。
【００６８】
但し、平均零交差数および平均エネルギは、セグメント長SegLenを用いて、以下の式により計算される。
【００６９】
・（平均零交差数）＝（小セグメントに含まれる元の音声信号の零交差点数）／ SegLen，
・（平均エネルギ）＝（小セグメントに含まれるローパスフィルタが施された音声信号のエネルギ）／ SegLen
である。
【００７０】
更に、小セグメントを５種類のカテゴリに分類し、そのカテゴリを表すラベルを付与する。本実施形態において個々の小セグメントに付与可能なラベルの種類としては、無音、無声子音、有声子音、音声ピッチ、雑音がある。
【００７１】
次に、現在着目している小セグメントがどのラベルに相当するかを、図５に示す手順によって決定する。
【００７２】
図５は、本実施形態において行われる音声ラベリングの処理を示すフローチャートであり、音声ラベリング部26にて行われる処理の手順を示す。
【００７３】
同図において、ステップＳ501では、着目する小セグメント（処理対象とする小セグメント）の特徴量として、平均零交差数AveZeroCrossRate および平均エネルギAveEnergyを読み込む。
【００７４】
本実施形態では、ラベル判断条件として、以下のしきい値を設けるが、これらのしきい値は全て定数である。
【００７５】
・無音の最大エネルギを表わすしきい値： SileceEnergyMax，
・無声子音の最小のエネルギしきい値： ConHEnergyLow，
・無声子音の最大のエネルギしきい値： ConHEnergyMax，
・有声子音の最小のエネルギしきい値： ConLEnergyLow，
・有声子音の最大のエネルギしきい値： ConLEnergyMax，
・無声子音の最小の零交差しきい値： ConHZeroCrossRateLow，
・有声子音の最大の零交差しきい値： ConLZeroCrossRateMax，
但し、 SileceEnergyMax ＞ ConHEnergyLow を満たすこととする。
【００７６】
ステップＳ502では、ステップＳ501にて読み込んだ特徴量が、所定の無音条件を満足するかを判断する。ここで、無音ラベル条件は、
・((AveEnergy ＜ SileceEnergyMax) AND (AveZeroCrossRate ＜ ConHZeroCrossRateLow))，または
・((AveEnergy ＜ ConHEnergyLow) AND (AveZeroCrossRate ＞ ConHZeroCrossRateLow))，
とする。そして、ステップＳ503では、上記の無音ラベル条件を満たす場合に、当該着目する小セグメントに対して、無音ラベルを関連付けして記憶する。
【００７７】
一方、ステップＳ502において無音ラベル条件を満たさない場合に、ステップＳ501にて読み込んだ特徴量が、所定の無声子音ラベル条件を満足するかを、ステップＳ504において判断する。ここで、無声子音ラベル条件は、
・(ConHEnergyLow ＜ AveEnergy ＜ ConHEnergyMax) 並びに、
・(AveZeroCrossRate ＞ ConHZeroCrossRateLow)
とする。そして、ステップＳ505では、上記の無声子音ラベル条件を満たす場合に、当該着目する小セグメントに対して、無声子音ラベルを関連付けして記憶する。
【００７８】
ステップＳ506では、ステップＳ501にて読み込んだ特徴量が、上述した無音ラベル条件及び無声子音ラベル条件を満足しない場合であるので、音声ピッチの検出を試み、検出できた場合には音声ピッチラベルを該当する小セグメント群に付与する（ステップＳ507）。尚、ピッチ検出に関しては詳しく後述する。
【００７９】
ここで、音声ピッチラベルの付与対象を小セグメント群としたのは、後述するピッチ検出では、小セグメントの統合が行われる可能性があり、その場合、着目する小セグメント以降の複数の小セグメントをステップＳ508において１つに統合し、これに対してピッチラベルを与えるからである。このとき、音声ピッチが検出されるセグメントは、主に声帯振動を伴う母音である。
【００８０】
また、ステップＳ506において音声ピッチを検出できない場合には、ステップＳ509において有声子音ラベル条件判定を行う。このとき、有声子音ラベル条件は、
・(ConLEnergyLow ＜ AveEnergy ＜ ConLEnergyMax) 並びに、
・(AveZeroCrossRate ＜ ConLZeroCrossRateMax)
とする。そして、ステップＳ510では、上記の有声子音ラベル条件を満たす場合に、当該着目する小セグメントに対して、有声子音ラベルを関連付けして記憶する。
【００８１】
そして、ステップＳ511では、上述した各条件を満たさない場合であるため、着目する小セグメントに対して、雑音ラベルを関連付けして記憶する。
【００８２】
ここで、音声信号波形のセグメント化からラベリングに至るまでの処理過程を、図６に示す例を参照して説明する。
【００８３】
図６は、本実施形態における音声信号波形のセグメント化からラベリングに至るまでの処理過程を説明する図である。
【００８４】
より具体的に、図６（ａ）は、ローパスフィルタ後の音声信号波形を表わす。図６（ｂ）は、図６（ａ）に示す音声信号波形の零交差点を基準に小セグメント化した状態を表わし、同図に示す太い縦線は小セグメントの区切りを表わす。
【００８５】
そして、図６（ｃ）は、音声ラベリングとセグメント化とを行った結果を表わし、同図に示す細長い縦線はセグメントの区切りを表し、太い縦線は統合された小セグメントの名残を示している。図６（ｃ）では、図６（ｂ）に示す如く区切られた一部の複数小セグメントが、１つのピッチセグメントに統合されている様子が判り、それぞれのセグメントには、付与されたラベルが示されている。
【００８６】
（音声ピッチ検出）
次に、音声ピッチ検出部25の動作について、図９および図１０を参照して説明する。この処理は、図３のステップＳ303に相当する。
【００８７】
図９は、本実施形態における音声ピッチ検出処理を示すフローチャートであり、音声ピッチ検出部25が行なう処理手順を示す。
【００８８】
同図において、ステップＳ901では、ローパスフィルタ後の音声信号波形の零交差点情報を入手する。そして、零交差点を基準として、波形の類似性を検証することにより、音声ピッチを求める。
【００８９】
図７は、本実施形態における音声ピッチ検出処理の説明のための音声信号波形を例示する図である。
【００９０】
本実施形態において、基準とする零交差点は、時間方向に見て正の値を持つ波形の始点であって、図７の例では、基準とする零交差点は、X1, X2, X3である。
【００９１】
そして、ステップＳ 902では、図７に例示する場合において、零交差点X1を始点とし、零交差点X2を終点とする部分波形をｆ（ｘ）、零交差点X2を始点とし、零交差点X3を終点とする部分波形をｇ（ｘ）を、初期基準として決定する。
【００９２】
そして、ステップＳ903では、未処理の音声区間（音声セグメント）が存在するかを判断し、存在する場合にはステップＳ904に進み、存在しない場合には処理を終了する。
【００９３】
ステップＳ904では、音声ピッチの有無およびそのセグメント範囲を報告するピッチ抽出処理を行なう。ここで、報告するタイミングは、音声ピッチセグメントが途切れたタイミング、或いは部分波形ｆ（ｘ）に対するピッチが見つからなかった場合である。尚、ステップＳ904におけるピッチ抽出処理については、図１０を参照して詳しく後述する。
【００９４】
そして、ステップＳ905では、音声ピッチが存在するかを判断し、存在すると判断した場合には、ステップＳ906において音声ピッチセグメント情報を、着目する音声区間（音声セグメント）に関連付けして記憶する。一方、音声ピッチが存在しない場合にはステップＳ903に戻る。
【００９５】
ここで、ステップＳ904にて行われるピッチ抽出処理について、図１０を参照して詳しく説明する。
【００９６】
図１０は、本実施形態における音声ピッチ検出処理を示すフローチャートのうち、ステップＳ904（図９）の処理の詳細を示すフローチャートである。
【００９７】
同図において、ステップＳ1001では、設定されたｆ（ｘ）に対するｇ（ｘ）を設定する。そして、ステップＳ1002では、設定されたf（ｘ）の長さをチェックし、ピッチとして存在し得ない位に長い場合には、当該ｆ（ｘ）に対応する音声ピッチは無いと判断し、ステップＳ1003では、当該f(x)の終点を始点として有し、時間方向に見て負の値を持つ波形の終点となる零交差点のうち、当該始点に最も近傍のものを終点とする新たな部分音声セグメントf(x)を設定し、今まで着目していたf(x)のセグメントはピッチセグメントでないとレポートする。
【００９８】
更に、ステップＳ1004では、着目するf（ｘ）の長さをチェックし、ピッチとして存在し得ない位に短い場合には、ステップＳ1005において、着目するf(x)の終点を始点として有し、且つ時間方向に見て負の値を持つ波形の終点となる零交差点のうち、その始点（f(x)の終点）に最も近傍のものを終点として有する部分音声セグメントを、当該着目するf(x)の末尾に統合することによって新たなf(x)として、ステップＳ1001に戻る。
【００９９】
一方、ステップＳ1006では、ステップＳ1002およびステップＳ1004におけるチェックを通過したところの、着目するf（ｘ）に対して、g（ｘ）との非類似度演算を行う。本ステップにおいて行われる非類似度演算は、以下の非類似度評価関数を用いて算出する。
【０１００】
即ち、部分音声セグメントｆ（ｘ）の、時間 Xf におけるｆ（ｘ）とｇ（ｘ）との差の絶対値をΔ（ Xf ）とすると、X1 ≦ Xf ≦ X2 且つ Xg ＝ X2 + （ Xf−X1 ）として、
Δ（ Xf ）＝｜ｆ（ Xf ）−ｇ（ Xg ）｜
と表される。この場合においても、ｆ（ｘ）とｇ（ｘ）の差の絶対値ではなく差の二乗に基づいて、
Δ（ Xf ）＝ [ｆ（ Xf ）−ｇ（ Xg ）] × [ｆ（ Xf ）−ｇ（ Xg ）]
としても良い。
【０１０１】
そして更に、
【０１０２】
【数２】

と表すことができる。
【０１０３】
そしてステップＳ1007では、上記の如く算出した非類似度がしきい値ＥＴｈ以上であるかを判断し、DiffSum≧ＥＴｈの場合にはステップＳ1005に戻り、DiffSum＜ＥＴｈの場合には、より精密な音声ピッチ検出を行うべく、ステップＳ1008において、最もエネルギの大きな小区間がピッチセグメントの最後になるように、f(x)および g(x)の位置を補正する。
【０１０４】
図８は、本実施形態における音声ピッチ検出処理で行われるピッチ検出基準の更新手順を説明する図である。最もエネルギの大きな小区間でピッチの基準を補正することは、その小区間が、声帯振動の直後のタイミングで生成される波形であることからも合理的である。
【０１０５】
次にステップＳ1009では、ピッチ検出カウンタを0にリセットし、ステップＳ1010では、上述したステップＳ1006と同様に非類似度演算を行い、ステップＳ1011では、算出した非類似度としきい値ＥＴｈとの比較処理を、上述したステップＳ1007と同様に行なう。
【０１０６】
そして、ステップＳ1011における比較の結果、算出された非類似度がしきい値ＥＴｈ以上の場合にはステップＳ1013に進み、非類似度がしきい値ＥＴｈより小さい場合にはステップＳ1014に進む。
【０１０７】
ステップＳ1013では、音声ピッチを2回以上検出しているかを判断し、2回未満の場合には上述したステップＳ1005において音声セグメントの統合を行ない、2回以上検出してる場合には、音声ピッチセグメントを検出したと判断できるので、ステップＳ1015において、g(x)の終点を始点に持ち、時間方向に見て負の値を持つ波形の終点となる始点に最も近傍の零交差点を終点とする新たなセグメントf(x)を設定し、ピッチセグメントを検出した旨を表わすピッチセグメント範囲を報告する。
【０１０８】
ステップＳ1014では、ピッチ検出回数をインクリメントし、現在のg(x)の終点を始点として有し、時間方向に見て負の値を持つ波形の終点のうち、当該始点に最も近傍の零交差点を終点として有する新たな部分音声セグメントf(x)を設定すると共に、この部分音声セグメントf(x)に最も近傍の、時間方向に見て負の値を持つ波形の終点となる零交差点を終点とする新たなｇ（ｘ）を設定し、ステップＳ1010に戻る。
【０１０９】
上述した音声ピッチ検出処理（図９及び図１０）によって取得した音声ピッチセグメントは、後段の音声区間判定部28にて利用するために、不図示のメモリに記憶される。
【０１１０】
（音声区間判定）
次に、音声区間判定部28では、上記の音声ピッチ検出処理によって取得した音声ピッチセグメントを用いて、人の音声区間（区間Ａ）の判定が行われる。この処理は、図３のステップＳ304に相当する。
【０１１１】
一般に、純粋な人の声であれば、その音声区間の大半を母音が占め、従ってピッチの存在するセグメントが長く安定して現れる。他方、ＢＧＭのある場合には、その音律による影響を受けるるものの、人の音声エネルギがＢＧＭのエネルギよりもある程度大きい場合には、さほど影響を受けないことが実験的に判っている。また、ある部分区間内において音声エネルギがＧＢＭのエネルギよりも十分大きくない場合には、その部分区間において正確なピッチは現れない。
【０１１２】
また、多くの場合、母音の直前には子音が伴われるが、声帯の振動を伴わない子音の場合にもピッチは現れず、しかもその時間は持続時間が10ｍｓ以下という短い破裂音であり、最も長い摩擦音でも数10ｍｓのオーダーである。また、破裂音等の発生直前に無音が生じるものもある。
【０１１３】
従って、装置外部の要因だけでなく、人の音声自身の要因によって音声ピッチが求まるセグメントが離散的なものになるが、そのような場合であっても、前後或いは全体のピッチ周期を考慮することにより、部分区間の音声ピッチ周期の演算結果を統合して、更に音声の特徴を活用して人の音声区間（区間Ａ）を判断する必要がある。
【０１１４】
図１１は、本実施形態における音声区間判定処理を示すフローチャートであり、音声区間判定部28が行なう処理手順を示す。
【０１１５】
同図において、まず、ステップＳ1101では、連続する無音、無声子音ラベル、有声子音ラベル、または雑音ラベルを持つセグメント群を、１つのセグメントに結合する。
【０１１６】
更にステップＳ1102では、連続するピッチラベルセグメントを求め、これを結合することにより、それら複数セグメントの平均ピッチ周期を求める。この統合したピッチセグメントを「統合ピッチセグメント」と呼ぶこととする。
【０１１７】
ステップＳ1103では、統合ピッチセグメントに挟まれたとろこの、雑音ラベルが関連付けされているセグメントを求め、ステップＳ1104では、そのセグメントの両端の統合ピッチセグメントの平均ピッチ周期変動率があるしきい値Ｔｈ１以下であるかを判断し、この条件を満たす場合には、ステップＳ1105においてこれらのセグメントを１つの統合ピッチセグメントに統合する。この処理により、ピッチセグメント、即ち母音の一部にエネルギの大きなＢＧＭが重なったとしても補正可能である。
【０１１８】
ところで、殆どの場合、単独の子音は存在しないので、通常、後方或いは前方に子音を伴うことが多い。これはＣＶＣ（Consonant Vowel Consonant ）モデルと呼ばれている。
【０１１９】
そこでステップＳ1106では、このＣＶＣモデルに基づいて、無声子音セグメント、有声子音セグメント、並びにピッチセグメントを統合し、音声区間を求める。ここで、ステップＳ1106の処理の詳細を、図１２を参照して説明する。
【０１２０】
図１２は、本実施形態における音声区間判定処理を示すフローチャートのうち、ステップＳ1106（図１１）の処理の詳細を示すフローチャートである。
【０１２１】
同図において、ステップＳ1201では、最も先頭の統合ピッチセグメントを、基準となる統合ピッチセグメントとする。次に、ステップＳ1202にでは、基準となる統合ピッチセグメントの次の統合ピッチセグメントを求める。
【０１２２】
更に、ステップＳ1203では、２つの統合ピッチセグメントの間に、有声子音セグメントあるいは無声子音セグメントが存在するかを判断し、存在しなければステップＳ1206において基準となる統合ピッチセグメントの次の統合ピッチセグメントが存在するかを判断し、存在しない場合は処理を終了し、存在する場合には、基準となる統合ピッチセグメントを、ステップＳ1207において更新する。
【０１２３】
一方、ステップＳ1203において２つの統合ピッチセグメントの間に有声子音セグメントあるいは無声子音セグメントが存在すると判断した場合には、２つの統合ピッチセグメントの間の間隔Distがしきい値Pimax1以下であるかを、ステップＳ1204において判断する。そして、間隔Distがしきい値Pimax1以下である場合には、ステップＳ1205において当該２つの統合ピッチセグメントの端点を終点と始点とする人の音声区間として記憶する。
【０１２４】
ここで、しきい値Pimax1には、通常の最も長い持続時間を持つ子音、例えば無声摩擦音/Ｓ/等の持続時間よりも十分長いものを用いると良く、その際、２つの統合ピッチセグメントの間に子音セグメントだけでなく、無音セグメントが存在しても良い。その理由は、無声子音のうち破裂音や破擦音では、発声の前に短い無音が生じることがあるからである。
【０１２５】
ステップＳ1205における音声区間記憶の後、ステップＳ1206では、基準となる統合ピッチセグメントの次の統合ピッチセグメントが存在するかを判断し、存在しない場合には処理を終了し、存在する場合には、ステップＳ1207において基準となる統合ピッチセグメントを更新し、ステップＳ1206の終了条件を満足するまで上述した各ステップの処理を繰り返し行う。但し、統合ピッチセグメント情報およびその平均ピッチ情報は、次の処理のために破棄せずに保存しておく。
【０１２６】
一方、ステップＳ1204において２つの統合ピッチセグメントの平均ピッチ周期を比較した結果、周期変動率があるしきい値Pimax1より大きい場合には、上述したステップＳ1206以降の処理を行なう。
【０１２７】
ここで再び図１１のフローチャートの説明に戻る。ステップＳ1107では、ＣＶＣ構造を取らない、例えば「あお」のようなＶＶ（Vowel-Vowel）構造の場合を考慮すべく、ＶＶモデルに基づいて、隣接あるいは間に無音セグメントまたは雑音セグメントを持つ２つのピッチセグメントを統合することによって音声区間を求める。
【０１２８】
ここで、ステップＳ1107にて行われる音声区間の検出処理について、図１３を参照して詳細に説明する。
【０１２９】
図１３は、本実施形態における音声区間判定処理を示すフローチャートのうち、ステップＳ1107（図１１）の処理の詳細を示すフローチャートである。
【０１３０】
同図において、ステップＳ1301では、最も先頭の統合ピッチセグメントを、基準となる統合ピッチセグメントとする。次に、ステップＳ1302では、基準となる統合ピッチセグメントの次の統合ピッチセグメントを求める。
【０１３１】
更に、ステップＳ1303では、２つの統合ピッチセグメントの間隔Distがあるしきい値Pimax2以下であるかを判断し、間隔Distがしきい値Pimax2より大きい場合にはステップＳ1306に進み、感覚Distがしきい値Pimax2以下の場合にステップＳ1304に進む。
【０１３２】
ステップＳ1304では、２つの統合ピッチセグメントの平均ピッチ周期変動率があるしきい値Ｔｈ２以下である場合には、ステップＳ1305において、２つの統合ピッチセグメントと挟まれるセグメントを音声区間として記憶する。その際、外乱に対する耐性を上げるために、２つの統合ピッチセグメントの間に無音セグメントや雑音セグメントが存在しても良い。
【０１３３】
そして、ステップＳ1305における音声区間の記憶の後、ステップＳ1306では、基準となる統合ピッチセグメントの次の統合ピッチセグメントが存在するかを判断し、存在する場合は処理を終了し、存在する場合は、ステップＳ1307において基準となる統合ピッチセグメントを更新し、ステップＳ1306の終了条件を満足するまで繰り返し処理を行う。
【０１３４】
一方、ステップＳ1304において２つの統合ピッチセグメントの平均ピッチ周期を比較した結果、周期変動率がしきい値Ｔｈ２より大きい場合には、上述したステップＳ1306に進んで同様な処理を行なう。
【０１３５】
このようにしてピッチを検出したセグメントを基準として、音声中に含まれるＢＧＭ等によって雑音ラベルが生じても、本実施形態では、上述した音声区間判定処理において、雑音ラベルが付与された場合であっても、その前後の統合ピッチセグメントの平均ピッチ周期の連続性を考慮することによって統合ピッチセグメントの統合を行い、更に、ＣＶＣモデルを導入することによって無声子音セグメントや有声子音セグメントが間に存在する統合ピッチセグメントをまとめて音声区間とし、更にＶＶモデルを考慮して２つの統合ピッチセグメントをまとめて音声区間を決定することにより、音声の特徴を利用した外乱に強い音声区間抽出が可能となる。
【０１３６】
（人の音声区間の補正）
上述したように、人の音声区間（区間Ａ）を検出した後に行われる音声区間補正処理では、この処理結果に基づく再生音声を聴いた際に人が不快感を抱かないように、時間軸上で近傍に位置する複数の音声区間を１つの音声区間として統合することによる補正が行われる。その理由は、例えば、時間軸上で近傍に位置する２つの区間Ａの間隔が狭い場合に、区間Ａを聞いて人が内容を把握できる速度で音声を伴う倍速再生を行なう一方で、区間Ｂに対しては、再生映像を見て人が内容を把握できる範囲で高倍率な倍速で再生を行うと、再生態様の変化が激しく、ユーザにとって聞き苦しいものとなるからである。
【０１３７】
また、動画デコーダおよび再生処理の面からも、短い区間での速度の変化は、処理のオーバーヘッドが大きく、再生動作が一時的に停止状態になり、ギクシャクした再生になることが、一例として、マイクロソフト社のDirectShowを用いた本願出願人による実験において観察されている他、他の多くの動画再生手段で同様の現象が見られる。
【０１３８】
そこで、本実施形態では、時間軸上で最も近傍に位置する２つの音声区間（区間Ａ）の間隔があるしきい値（図１４ではＴｈ３）以下である場合には、これらの音声区間を統合することによる補正を行う。このしきい値を決めるに当たっては、例えば、会話を行うシーンを想定し、会話が成り立つ程度の間を実験的に求め、それをしきい値に用いる。この場合の処理の手順を、図１４を参照して説明する。
【０１３９】
図１４は、本実施形態において間隔の短い音声区間に対して行われる統合補正処理を示すフローチャートである。この処理は、音声区間判定部28にて行われる処理であって、上述した音声区間補正処理（ステップＳ103）の詳細を表わす。
【０１４０】
同図において、ステップＳ1401では、先に検出された複数の区間Ａのうち、時間軸上で最初に位置する区間Ａを、着目する音声区間として読み込むが、着目すべき音声区間が無ければ本処理は終了する。
【０１４１】
ステップＳ1402では、次に着目する音声区間（区間Ａ）が存在するかを判断し、着目すべき音声区間が無ければ本処理を終了し、一方、まだ存在する場合には、以下に説明するステップＳ1403乃至ステップＳ1407の処理を繰り返す。
【０１４２】
ステップＳ1403では、ステップＳ1402にて次に着目する音声区間が存在すると判断されたので、その音声区間（区間Ａ）を表わす音声区間情報を読み込む。ここで、音声区間情報とは、音声区間の開始点と終点とが対となった情報である。
【０１４３】
ステップＳ1404では、２つの区間Ａの間隔、即ち、時間軸上で先の音声区間（現在着目している音声区間）の終点と、次の音声区間の開始点との間の距離（時間間隔）を求め、この距離が所定のしきい値Ｔｈ３以下であるかを判断する。
【０１４４】
ステップＳ1405では、ステップＳ1402にて２つの区間Ａの間隔が所定のしきい値Ｔｈ３以下であると判断されたので、これら２つの音声区間を、１つの音声区間に統合する。より具体的に、統合された音声区間の音声区間情報には、本ステップにおける処理によって、先の音声区間の開始点が設定されると共に、次の音声区間の終点が設定される。
【０１４５】
ステップＳ1406では、統合された音声区間を、現在着目する音声区間（区間Ａ）として設定し、ステップＳ1402に戻る。
【０１４６】
ステップＳ1407では、ステップＳ1402にて２つの区間Ａの間隔が所定のしきい値Ｔｈ３より大きいと判断されたので、現在着目する音声区間を、そのまま１つの補正した音声区間情報として記憶すると共に、ステップＳ1408では、次の音声区間を、処理対象として着目すべき音声区間として設定し、ステップＳ1402に戻る。
【０１４７】
このような統合処理が、扱うべき音声区間（区間Ａ）がなくなるまで繰り返される。
【０１４８】
（シーンチェンジ点情報を利用した人の音声区間の補正）
また、一般に、音声信号を含む動画データに映像の変わり目が存在し、その直後に区間Ａが始まる場合には、動画再生に際して、ほんの一瞬高速でシーンの先頭部分の映像が再生された後で、音声を伴う倍速再生による再生映像が、人が聞いて把握できる速度で行われるため、ユーザにとって映像がちらついたような違和感が生じる。
【０１４９】
そこで、本実施形態では、例えば、本願出願人による先行する特開２０００−２３５６３９号公報に開示されたシーンチェンジ点の検出技術を採用することにより、検出したシーンチェンジ点群のうち、音声区間補正処理後の音声区間の先頭よりも時間的に早く、最も近傍で、且つその距離があるしきい値以下であるシーンチェンジ点が存在する場合には、その音声区間の先頭を、該シーンチェンジ点に対応する情報に置き換える補正を行なうことにより、早見再生時のユーザの違和感を取り除く。その際、近傍判定のためのしきい値は、高速再生の状態から人が聞いて内容が把握できる程度の速度で音声を伴う倍速再生へ移行する際のオーバーヘッドに応じた値である。
【０１５０】
図１５は、本実施形態においてシーンチェンジ点を用いて行われる音声区間の統合補正処理を示すフローチャートである。この処理は、音声区間判定部28にて行われる処理であって、上述した早見再生区間補正処理（ステップＳ104）の詳細を表わす。
【０１５１】
同図において、まずステップＳ1501では、シーンチェンジ点検出処理（ステップＳ106）にて検出されたシーンチェンジ点群（シーンチェンジ点情報またはシーンチェンジ位置情報）から、時間軸上で先頭となるシーンチェンジ点（Ａ）を読み込む。
【０１５２】
シーンチェンジ点情報は、通常はフレーム単位で記述されるが、本ステップでは、フレームレートに基づいて時間情報に変換した後、音声区間情報と比較することになる。即ち、本実施形態のアルゴリズムでは、音声区間の開始点から最も近傍のシーンチェンジ点を求めるために、連続する２つのシーンチェンジ点情報を用いることにし、ここでは、説明の便宜上、先のシーンチェンジ点をＡ、次のシーンチェンジ点をＢとして、ステップＳ1501では、Ａの方へシーンチェンジ点の時間を記憶する。
【０１５３】
ステップＳ1502では、読み込んでない音声区間情報があるかどうかを判断し、無い場合には処理を終了し、読み込んでない音声区間情報がある場合にはステップＳ1503において音声区間情報を１つ読み込む。
【０１５４】
ステップＳ1504では、未だ読み込んでないシーンチェンジ点情報があるかどうかを判断し、無い場合には、ステップＳ1503にて既に読み込んである音声区間情報を、ステップＳ1505において、そのまま補正済の音声区間情報として更新記憶する。
【０１５５】
ステップＳ1506では、ステップＳ1504にて読み込んでないシーンチェンジ点情報があると判断されたので、そのシーンチェンジ点情報を、シーンチェンジ点情報Ｂとして読み込む。
【０１５６】
ステップＳ1507では、シーンチェンジ点Ａが、時間軸上において、ステップＳ1503にて読み込んだ現在着目する音声区間の始点より前に位置するかどうか判断し、前に位置する場合には、ステップＳ1505において、補正の必要は無いとして音声区間情報をそのまま補正済音声区間情報として更新記憶する。
【０１５７】
ステップＳ1508では、ステップＳ1507にてシーンチェンジ点Ａが現在着目する音声区間の始点より前に位置すると判断されたので、そのシーンチェンジ点Ａが当該音声区間の始点としきい値Ｔｈ４以内の距離に存在するかどうかを判断し、当該しきい値Ｔｈ４以内ではない場合には、ステップＳ1509において、シーンチェンジ点Ｂの情報を、シーンチェンジ点Ａへコピーすることにより、次のシーンチェンジ点を判断対象とする準備を行う。
【０１５８】
ステップＳ1510では、ステップＳ1508にてシーンチェンジ点Ａが現在着目する音声区間の始点と当該しきい値Ｔｈ４以内の距離に存在すると判断されたので、シーンチェンジ点Ｂが当該音声区間の始点よりも後ろに位置するかを判断し、後ろに位置しない場合にはステップＳ1509に進む。
【０１５９】
一方、ステップＳ1510にてシーンチェンジ点Ｂが当該音声区間の始点よりも後ろに位置すると判断された場合には、ステップＳ1511において、シーンチェンジ点Ａが開始点であり、当該音声区間の終点が終点である部分区間を、補正済の音声区間情報として更新記憶し、ステップＳ1512では、シーンチェンジ点Ｂの情報を、シーンチェンジ点Ａにコピーすることにより、次のシーンチェンジ点を判断対象とする準備を行う。
【０１６０】
即ち、上述したステップＳ1507、ステップＳ1508、並びにステップＳ1510の判断によって、シーンチェンジ点Ａが現在着目する音声区間の始点の前に位置すると共に、当該しきい値Ｔｈ４以下の近傍であり且つ、最も音声区間の始点に近い点であることが確かめられて初めて、上記のステップＳ1511及びステップＳ1512の処理が行われる。
【０１６１】
また、ステップＳ1510にてシーンチェンジ点Ｂが当該音声区間の始点よりも後ろではないと判断された場合、当該シーンチェンジ点Ｂは、現在設定されているシーンチェンジ点Ａよりも補正済音声区間の始点候補として更にふさわしいと判断できるので、ステップＳ1509において、当該シーンチェンジ点Ｂの情報を、新たなシーンチェンジ点Ａとしてコピーすることにより、次のシーンチェンジ点を判断対象とする準備を行ない、その後でステップＳ1504の処理に戻る。但し、この場合のシーンチェンジ点Ａは、既にステップＳ1507およびステップＳ1508の要件を満たしているので、ステップＳ1507とステップＳ1508とをパスしてステップＳ1510の判断をいきなり行っても構わない。
【０１６２】
上述した音声区間統合補正処理（図１５）の手順によって取得した補正済の音声区間情報は、早見再生区間情報として、表１に例示するようなスキーマで、動画早見インデックス記憶部１１に記憶される。
【０１６３】
表１は、本実施形態におけるシーンチェンジ検出結果を例示する表であり、一例として、シーンチェンジ点の検出を行ったフレームを、フレームレート（30枚/Sec）を元に秒換算した結果が格納されている。
【０１６４】
【表１】

【０１６５】
次に表２は、本実施形態における音声区間の検出結果を例示する表であり、１つの音声区間は、開始点と終了点とで表現されている。
【０１６６】
【表２】

【０１６７】
そして、表３は、本実施形態における補正済の音声区間検出結果を例示する表であり、表１に示す結果と表２に示す結果とに基づいて、シーンチェンジ点を用いた音声区間の統合補正処理（図１５）を、しきい値Ｔｈ４＝ 2000 mSecで施した場合の処理結果を示す。
【０１６８】
【表３】

【０１６９】
表１及び表２を参照すると、音声区間０および音声区間２に対しては、それぞれの音声区間の開始点60000 mSec、400000 mSecの前で且つしきい値Ｔｈ４である2000 mSec以内の期間にはシーンチェンジは存在しない。また、音声区間１に対しては、開始点102000 mSecの1500 mSecの前で且つ2000 mSec以内には、シーンチェンジ点として、シーンチェンジＩＤ＝２（開始時間100000 mSec）と、シーンチェンジＩＤ＝３（開始時間101000mSec）の２点が存在するが、図１５で示したアルゴリズムに従って最も近傍のものを選ぶことから、結果として、シーンチェンジＩＤ＝３の101000mSecが選ばれ、これが表３に反映されている。
【０１７０】
＜動画早見再生部２００＞
動画早見再生部２００にて行われる動画早見再生処理（ステップＳ107）は、人の音声区間（区間Ａ）に対しては人が聞いて内容を把握できる速度で音声を伴う倍速再生を行なう一方で、人の音声区間ではない区間（区間Ｂ）に対しては、再生映像を人が見て内容が把握できる範囲で高い倍率の倍速で再生を行う。
【０１７１】
近年、動画再生環境が整い、例えばマイクロソフト社の DirectShowモジュールを用いると、任意区間の速度を指定して連続再生することが可能である。このような機能を持つモジュールを用いることで、比較的簡易に任意区間の再生速度の変化を実現することが可能であり、その際、重要なのは、何の観点で速度を変化させるかである。
【０１７２】
図１６は、本実施形態における動画早見再生処理を示すフローチャートである。
【０１７３】
同図において、ステップＳ1701では、先に上述したユーザ・プロファイル１４の中からユーザが所望のものを選択するが、その具体的な手順としては、例えば、ディスプレイ１２に図１８に例示するようなユーザ・プロファイルリストを含む表示画面を表示し、その中からユーザがリモコン端末等を利用して、所望のプロファイルを選択すれば良い。
【０１７４】
即ち、図１８に示すユーザ・プロファイルリストにおけるユーザ所望のプロファイルの指定は、例えばリモコン端末にプロファイル選択用の操作ボタンを設けておき、これをユーザが押下するのに応じて、図２０に例示するようなメニュー表示画面が表示され、その画面を見ながら、リモコン端末のプロファイル選択用の操作ボタンを利用して、ユーザが所望のプロファイルを指定する。もちろんユーザ・プロファイルの選択には、指紋や声紋や顔認識等の個人認識技術を用いた自動的なプロファイル選択方法も考えられ、こちらの方が常に正しいプロファイルの指定が可能なため、プロファイルの指定の誤りを起こしたり、他人のプロファイルを変更したり内容を覗く等のトラブルを防げる。
【０１７５】
また、ユーザ・プロファイルを新規に登録する場合には、図１８の表示画面において「新規登録」ボタンをポインタデバイスで指定すると、プロファイル名およびその他の属性を入力するための、図１９に例示する表示画面が現れる。
【０１７６】
即ち、図１９は、ユーザ・プロファイル登録用の表示画面を例示する図であり、初期状態では、識別名と年齢以外の内容が基準値で埋められており、ユーザによる入力操作によってユニークな識別名と年齢の入力変更の必要がある個所のみが変更され、所定の入力値範囲の適正チェックをパスした後、ユーザが「ＯＫ］ボタンを押下するのに応じて、そのプロファイルがユーザ・プロファイル１４に新たに追加登録される。
【０１７７】
また、ユーザが所望のプロファイルの内容変更を希望する場合、図１８に示す表示画面において「変更」ボタンを押下し、図２０に示す表示画面において所望のプロファイルを選択するのに応じて表示される図１９の表示画面において、変更を希望する項目の情報内容を変更した後、「ＯＫ］ボタンを押下すれば良い。
【０１７８】
更に、ユーザが所望のプロファイルの削除を希望する場合、図１８に示す表示画面において「削除」ボタンを押下し、図２０に示す表示画面において所望のプロファイルを選択し、その後、「ＯＫ］ボタンを押下すれば良い。
【０１７９】
尚、上述した図１８及び図１９に示す表示画面において、「キャンセル」ボタンが押下された場合には、それまでの選択操作や入力操作に対応する処理（プロファイルの登録、変更、削除）はなされることなく処理が終了する。
【０１８０】
次に、ステップＳ1702では、ステップＳ1701にて選択されたプロファイルが、ユーザ・プロファイル１４に存在するかを判断し、存在する場合には、ステップＳ1703において対象となるプロファイルをユーザ・プロファイル１４から読み込み、存在しない場合には、基準値として予め設定されているところの、区間Ａおよび区間Ｂの再生速度、並びに区間Ｂの再生時の音量を、ステップＳ1706において読み込む。ここで、ユーザ・プロファイルのデータスキーマ一の一例を、表４に示す。
【０１８１】
【表４】

【０１８２】
表４は、本実施形態におけるユーザ・プロファイルを例示する表である。基準値は、プロファイルＩＤ＝０に示すように記憶しておけば良く、この場合、区間Ａの再生速度は1.5倍速、区間Ｂの再生速度は10.0倍速、そして、区間Ｂ再生時の音量の基準値は０（即ち音声ミュート）である。上述したユーザ・プロファイルの新規登録時に用いられる基準値には、この値を用いる。
【０１８３】
また、表４のユーザ・プロファイルのデータスキーマ一において、None とは値が設定されていないことを表し、逆に値が設定されている場合は、その値を最優先して再生を行う。更に、表４において、視力や聴力の欄の Good と Poorは、その人の年齢に無関係な、動体視力や早い音声の聴力の能力を表わす。
【０１８４】
一般に、高齢になるほど耳が聞こえにくくなる他、言葉を理解する速度の低下が見られることが多く、また子供は言語能力が未発達のために速い速度で音声再生を行なうと理解できなくなることが多い。
【０１８５】
これらの事情を踏まえて、健常者の年齢に適した区間Ａの再生速度、並びに区間Ｂの再生速度のテンプレートを予め用意しておき、ユーザ・プロファイル１４に記憶された年齢に基づき、これらの速度を決定する。
【０１８６】
しかし、青年にも関わらず動体視力や早い音声の聴力の弱い人や、外国人のため母国語とは異なる言語（例えば日本語）速い速度で音声再生を行なうと理解が追いつかない等、年齢に無関係な原因がある場合もある。このため、本実施形態では、表４に例示するユーザ・プロファイルのように、視力および聴力の特性を記述しておき、これらの設定があればこちらを優先して、区間Ａの再生速度、並びに区間Ｂの再生速度を低めに決定する。
【０１８７】
このような場合、高齢者および動体視力の弱いユーザに関しては、本来の早見再生という観点からは外れるかもしれないが、人の音声区間（区間Ａ）の再生速度を等倍速度より遅い速度に決定し、人の音声区間ではない区間（区間Ｂ）の再生速度を等倍速度以上とすることにより、係るユーザが区間Ａの音声内容を把握可能な低速再生を行いながらも、全体としては全ての区間を低速再生するよりも速い時間で動画を閲覧することが可能となる。
【０１８８】
また、早口の音声に対する聴力の弱いユーザおよび外国人のため早口の日本語等では理解が追いつかないユーザに関しては、区間Ａの再生速度を等倍速度より遅い速度に決定し、区間Ｂの再生速度に関しては、その年齢の健常者と同じ再生速度とすることにより、区間Ａの音声内容を把握可能な低速再生を行いながらも、全体としては全ての区間を低速再生するよりも速い時間で動画を閲覧することが可能となる。
【０１８９】
このように、本実施形態では、ユーザ・プロファイルに対する速度決定処理は、予め健常者における年齢に適した区間Ａの再生速度および区間Ｂの再生速度のテンプレート、動体視力や早い音声の聴力の弱い症状、外国人のため早口の日本語では理解が追いつかない状況を加味して総合的な判断を行う。
【０１９０】
また、本実施形態において、音声内容の言語に堪能か否かの判断は、ユーザ・プロファイル１４に記憶されている堪能であるか否か、或いは母国語を特定する言語種別情報と、再生対象の動画に含まれる音声内容の言語種別情報とを比較することにより行う。近年、ＤＶＤ等のデジタルコンテンツや、デジタルＢＳ等のデジタルメディアには、音声内容の言語を特定する言語種別情報が記憶されており、また近年ＥＰＧ（電子番組表）等から番組内容が電子的に入手可能であるため、これらの情報を用いることは現実的である。また、これらの情報が入手できない場合であっても、地上波ＴＶ番組でも標準設定では母国語、２カ国音声では通常メイン音声が母国語であり且つサブ音声は外国語であるため、これらの経験則に基づいて推定すれば良い。
【０１９１】
ステップＳ1704では、ステップＳ1703にて読み込んだユーザ所望のプロファイルに基づいて、区間Ａの再生速度と、区間Ｂの再生速度とを決定する。ここで、本ステップにおける処理の詳細を、図１７を参照して説明する。
【０１９２】
図１７は、本実施形態における動画早見再生処理を示すフローチャートのうち、ステップＳ1704（図１６）の処理の詳細を示すフローチャートである。
【０１９３】
同図において、まずステップＳ1801では、ユーザ・プロファイル１４から先にユーザによって選択されたプロファイルを読み込み、ステップＳ1802では、読み込んだプロファイルから取得したユーザの年齢に従って、健常者の年齢に応じた最適な区間Ａの再生速度と、区間Ｂの再生速度とが設定されているテンプレートを参照することにより、そのユーザに対する区間Ａの再生速度と、区間Ｂの再生速度とを仮決定する。
【０１９４】
ステップＳ1803では、ステップＳ1801にて読み込んだプロファイルに、動体視力が弱いと記述されているかを判断し、その旨が記述されている場合には、ステップＳ1804において、区間Ａの再生速度と、区間Ｂの再生速度とを両方とも基準値より低い値に更新する。従って、この値も、予めプロファイルに記憶しておくのが望ましい。
【０１９５】
ステップＳ1805では、ステップＳ1803にて当該プロファイルに動体視力が弱いとは記述されていないと判断されたので、当該プロファイルに、速い音声の聴力が弱いと記述されているかを判断し、その旨が記述されている場合には、ステップＳ1806において、区間Ａの再生速度のみ低い値に更新する。従って、この値も、予めプロファイルに記憶しておくのが望ましい。
【０１９６】
ステップＳ1807では、ステップＳ1805にて当該プロファイルに速い音声の聴力が弱いとは記述されていないと判断されたので、再生すべき動画データに含まれる音声内容の言語種別情報が入手可能であるかを判断し、入手可能である場合にはステップＳ1808に進み、入手不可能な場合には処理を終了する。
【０１９７】
ステップＳ1808では、再生すべき動画データに含まれる音声内容の言語種別情報を入手すると共に、入手した言語種別情報と、現在選択されている当該プロファイルに記述された得意言語情報とを比較し、これら２種類の情報が一致する場合には処理を終了し、一致しない場合には、ステップＳ1809において、区間Ａの再生速度のみ低い値に更新する。従って、この値も、予めプロファイルに記憶しておくのが望ましい。
【０１９８】
即ち、図１７に示す一連の処理では、ステップＳ1803、ステップＳ1805、並びにステップＳ1808のどれにも当たらない場合には、ステップＳ1802において仮決定された区間Ａの再生速度、並びに区間Ｂの再生速度がそのまま採用されることになる。
【０１９９】
もし、高齢や若年にもかかわらず動体視力や早い音声の聴力が優れている場合や、逆に劣っている場合には、区間Ａの再生速度および区間Ｂの再生速度の変更メニューを用いて、これらの値を変更できるように構成すると良い。この場合、ユーザは、再生映像を見ながら、区間Ａの再生速度および区間Ｂの再生速度を適宜変更し、自動的、或いはユーザに確認を求めた上で、設定された再生速度情報を、当該ユーザに対応するプロファイルに記憶することにより、前回の操作情報を反映しつつ個々のユーザに応じた理解しやすい動画早見再生を行うことが可能となる。
【０２００】
尚、上述したプロファイルを用いずに簡易に行うのであれば、例えば、ステップＳ1701乃至ステップＳ1704、並びにステップＳ1706の各ステップにおける処理の代わりに、区間Ａの再生速度を0.5倍速から2倍速まで、区間Ｂの再生速度を2倍速から10倍速までの間で、ユーザが動作メニューを利用して可変設定可能に構成する実施形態が想定される。
【０２０１】
ところで、区間Ｂを高倍率で倍速再生すると、「キュルキュル」という音が出るが、その音を聞きたくない場合には、区間Ｂの再生時には、音声再生はミュート状態とすることによって音を出なくする、或いは、小さな音量に変更する実施形態が想定される。このような設定に関しても、ステップＳ1703で読み込んだプロファイルに予め記述しておき、動画早見再生時には、係るプロファイルを最優先とし、ステップＳ1702でプロファイルが存在しないと判定された場合には、ステップＳ1706では予め設定されている基準の音量を採用する。もちろん更に簡易に行うのであれば、例えば、動画早見再生処理が予め区間Ｂの音声再生レベルをどう処理するか予め決めておく実施形態が想定される。
【０２０２】
上記のような構成により、本実施形態では、区間Ａの再生速度および区間Ｂの再生速度、或いはそれら両方、並びに区間Ｂの音声レベルの指定を、ユーザ・プロファイルを用いることにより、個々のユーザに最適な再生を簡便に実現することが可能となる。
【０２０３】
次に、ステップＳ1705では、動画早見インデックス記憶部１１から、早見再生区間補正処理（ステップＳ104）にて補正済みの音声区間情報である早見再生区間情報を読み込み、ステップＳ1707では、区間Ａのトータル長を再生速度で割ることによって区間Ａの再生時間を計算し、区間Ｂについても同様にして再生速度を計算すると共に、これら２つの値を足すことによってユーザが早見に要する時間を算出する。そして、算出された早見に要する時間は、ディスプレイ２３等を利用してユーザに提示する。
【０２０４】
ステップＳ1708では、ステップＳ1707にて早見再生時間を認識したユーザがその時間に満足しているか否かを、リモコン端末への入力操作等を利用して判断し、この判断でユーザが満足している場合には、ステップＳ1710において、上述した処理によって設定された区間Ａおよび区間Ｂの再生速度、並びに区間Ｂの音声再生レベルに従って、動画データ記憶部１０に記憶されている再生対象の動画を再生する。
【０２０５】
ステップＳ1709では、ステップＳ1708にてユーザが満足していないと判断されたので、ユーザ所望の再生時間に収まるように、区間Ａおよび区間Ｂの再生速度、並びに区間Ｂの音声再生レベルを変更可能なマンマシン・インタフェースを提供することにより、プロファイルや標準設定に満足できないユーザ自身が望む再生時間に近くなるように調節し、ステップＳ1707に戻る。
【０２０６】
また、ステップＳ1709に対応する他の実施形態として、現在設定されている区間Ａおよび区間Ｂの再生速度に基づく動画再生を見ながら、それぞれの区間に対して、ユーザ所望の再生速度を変更可能に構成し、それに応じた早見に要する時間の算出及びその提示を行なうことにより、プロファイルや標準設定に満足できないユーザ自身が望む再生時間に近くなるように調節する構成も想定される。
【０２０７】
ところでユーザ・プロファイルと、ユーザ所望の速度指示との関連であるが、ステップＳ1707にて動画早見再生に要する時間を見たユーザが、所望の動画早見再生に要する時間に収めるべく、区間Ａおよび区間Ｂの再生速度を変更可能なマンマシン・インタフェースを用いて、これらの設定を調整・変更した場合には、その調整・変更後の値を、基準値として採用したいこともある。そこで、このような場合には、自動的、或いは図２１に例示する確認画面により、ユーザによる確認を促した後、「はい」が選択された場合には、ユーザによって調整・変更された再生速度情報を、当該ユーザに対応するプロファイルに記憶することにより、以降の動画再生に際しては、前回の操作情報を反映しつつ当該ユーザに応じた理解しやすい動画早見再生を行うことが可能となる。
【０２０８】
上述した実施形態では、音声ラベリング処理として零交差数や音声エネルギを用いたが、その具体的な処理手順は必ずしも上記のアルゴリズムに制約されるものではなく、公知の特徴量を用いたり、或いは異なるラベル判定アルゴリズムを用いても良い。
【０２０９】
即ち、上述した実施形態に係る音声検出処理の趣旨は、ローパスフィルタが施された音声信号の零交差点情報を用いて、その音声信号を、合理的な複数の音声セグメント（音声区間）に分割し、その際、波形処理によって音声ピッチを検出すると共に音声ラベリングを行った後に、人の声の大半を占める母音に必ず伴う所定の音声ピッチを基準に、ＣＶＣ音声モデル等の音声の特徴を用いて上記複数の音声セグメントを統合することにより、係る音声信号にＢＧＭ等の外乱が含まれる場合であっても、その外乱をリカバリする処理を含むところにある。
【０２１０】
従って、ＡＧＣ21やローパスフィルタ22の実現方法に関して制約は無く、また、音声ラベリングに関しては必ずしも本実施形態のアルゴリズムに制約されるものではなく、異なるラベル判定アルゴリズムを用いても良い。
【０２１１】
また、音声区間判定部28にて行われる判定処理（図１１）においても、ステップＳ1106にて行われるところの、無声子音セグメントあるいは有声子音セグメントおよびピッチセグメントを統合することによって音声区間を求める処理と、Ｓ1107にて行われるところの、隣接あるいは間に無音セグメントまたは雑音セグメントを持つ２つのピッチセグメントを統合することによって音声区間を求める処理との順序は、上述した実施形態に限定するものではなく、これらの処理を並行して処理するアルゴリズムでも良い。
【０２１２】
また、上述した実施形態においては、ユーザ・プロファイルを選択する際の手順として、リモコン端末を利用してユーザがプロファイル選択画面を適宜指定し、ディスプレイ１２に表示されたユーザ・プロファイルリストの中から自分のユーザ・プロファイルを選択する構成例を説明したが、この構成に限られるものではなく、例えば、パスワードにより他人のユーザ・プロファイルの変更や削除等の操作を防ぐ構成を採用しても良い。
【０２１３】
更に、指紋や声紋や顔認識等の個人認識技術を用いた自動的なプロファイル選択方法も当然考えられ、これらの場合にはパスワードにより他人のユーザ・プロファイルの変更や削除等の操作を防ぐ必要が無く便利である。
【０２１４】
また、上述した実施形態において、算出された早見再生に要する時間をユーザが確認した上で、ユーザ所望の再生時間に収まるように、区間Ａの再生速度および区間Ｂの再生速度を変更することにより、プロファイルや標準設定に満足できないユーザが、自身が望む再生時間に近くなるように調節する構成例を挙げたが、この構成に限られるものではなく、例えば、ユーザが再生映像を見ながら、区間Ａの再生速度および区間Ｂの再生速度をそれぞれの変更可能に構成しておき、その設定に応じた早見に要する時間を再計算し、これをユーザに提示することにより、ユーザ自身が望む再生時間に近くなるように調節する実施形態も存在する。
【０２１５】
このように、本実施形態によれば、人の発した音声発声メカニズムの基本は声帯の振動、いわゆる音声ピッチであり、これを音声信号中から抽出することによって有用な音声区間を得て、真の人の音声区間を検出し、その区間を用いて、映像と音声との同期関係は崩すことなく、動画早見再生時には、人の発した音声は全て内容を把握できる速度で再生する一方で、人の発した音声の含まれない区間（区間Ｂ）は、より高速に再生する。これにより、動画早見再生時のトータルの閲覧時間を、等倍再生を行なった場合と比較して合理的に減らすことが可能となる。
【０２１６】
また、本実施形態によれば、区間Ａの再生速度および区間Ｂの再生速度を、ユーザ・プロファイル１４を用いることにより、個々のユーザに適した再生速度に簡便に設定可能であると共に、区間Ｂの再生時における音量も、ユーザに適したものに設定できる。
【０２１７】
更に、本実施形態によれば、早見再生に要する時間を予め、或いは動画の再生中に表示することにより、これに満足できないユーザは、区間Ａの再生速度および区間Ｂの再生速度を指定することにより、当該ユーザに最適な早見再生に要する時間に調整することができ、調整によって設定された情報は、当該ユーザに対応するプロファイルに更新記憶することが可能であるので、次回の早見再生に際して適切な動画再生を行なうことができる。
【０２１８】
【他の実施形態】
上述した各実施形態を例に説明した本発明は、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【０２１９】
尚、本発明は、前述した各実施形態において説明したフローチャートの機能を実現するソフトウェア・プログラムを、上述した動画再生装置として動作するシステム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。その場合、プログラムの機能を有していれば、形態は、プログラムである必要はない。
【０２２０】
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明のクレームでは、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【０２２１】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。
【０２２２】
プログラムを供給するための記録媒体としては、例えば、フロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。
【０２２３】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷ(World Wide Web)サーバも、本発明のクレームに含まれるものである。
【０２２４】
また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【０２２５】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
【０２２６】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。
【０２２７】
【発明の効果】
以上説明した本発明によれば、人の発した音声区間を正確に検出すると共に、検出した音声区間に従って映像と音声との同期関係を忠実に維持しながら、ユーザの閲覧所要時間を大幅に短縮する動画再生装置、動画再生方法及びそのコンピュータ・プログラムの提供が実現する。
【図面の簡単な説明】
【図１】本実施形態に係る動画再生装置における動画早見アルゴリズムの概念図を表す図である。
【図２】動画早見インデックス作成部１００において行われる人の発声期間を表わす音声区間（区間Ａ）検出のためのアルゴリズムを表わすブロック図である。
【図３】図２に示すアルゴリズムに基づく処理の概略を示すフローチャートである。
【図４】本実施形態において行われる小セグメントの結合処理を説明する図である。
【図５】本実施形態において行われる音声ラベリングの処理を示すフローチャートである。
【図６】本実施形態における音声信号波形のセグメント化からラベリングに至るまでの処理過程を説明する図である。
【図７】本実施形態における音声ピッチ検出処理の説明のための音声信号波形を例示する図である。
【図８】本実施形態における音声ピッチ検出処理で行われるピッチ検出基準の更新手順を説明する図である。
【図９】本実施形態における音声ピッチ検出処理を示すフローチャートである。
【図１０】本実施形態における音声ピッチ検出処理を示すフローチャートのうち、ステップＳ904（図９）の処理の詳細を示すフローチャートである。
【図１１】本実施形態における音声区間判定処理を示すフローチャートである。
【図１２】本実施形態における音声区間判定処理を示すフローチャートのうち、ステップＳ1106（図１１）の処理の詳細を示すフローチャートである。
【図１３】本実施形態における音声区間判定処理を示すフローチャートのうち、ステップＳ1107（図１１）の処理の詳細を示すフローチャートである。
【図１４】本実施形態において間隔の短い音声区間に対して行われる統合補正処理を示すフローチャートである。
【図１５】本実施形態においてシーンチェンジ点を用いて行われる音声区間統合補正処理を示すフローチャートである。
【図１６】本実施形態における動画早見再生処理を示すフローチャートである。
【図１７】本実施形態における動画早見再生処理を示すフローチャートのうち、ステップＳ1704（図１６）の処理の詳細を示すフローチャートである。
【図１８】ユーザ・プロファイル選択用の表示画面を例示する図である。
【図１９】ユーザ・プロファイル登録用の表示画面を例示する図である。
【図２０】本実施形態におけるユーザ・プロファイルの例を示す図である。
【図２１】提示された動画早見再生に要する時間に満足しないユーザが設定変更をした場合に、調整・変更された値を次回以降の動画再生時に基準値として用いるか確認を促す表示画面を例示する図である。

Claims

音声信号を含む動画情報を高速度で再生可能な動画再生装置であって、
前記動画情報に含まれる音声信号に基づいて、人の発声期間を表わす第１音声区間と、それ以外の第２音声区間とを判定する音声区間判定手段と、
前記動画情報に基づいて、前記第１音声区間は、ユーザが内容を把握可能な所定速度で、再生音声を伴う高速動画再生を行なう一方で、前記第２音声区間は、前記所定速度より高速度で、高速動画再生を行なう早見再生手段と、
を備え、
前記音声区間判定手段は、前記動画情報に含まれるシーンチェンジ点を検出すると共に、検出した個々のシーンチェンジ点のうち、着目する前記第１音声区間の始点よりも時間的に早く且つ最も近傍に位置する近傍シーンチェンジ点と前記始点との時間間隔が所定のしきい値以下である場合に、前記着目する前記第１音声区間の始点を、前記近傍シーンチェンジ点に対応する情報に変更する補正を行なう補正手段を含む
ことを特徴とする動画再生装置。
前記早見再生手段は、前記第２音声区間において、前記第１音声区間における音量より小音量の再生音声を伴う動画再生を行なうことを特徴とする請求項１に記載の動画再生装置。
前記早見再生手段は、前記第２音声区間において、無音声にて動画再生を行なうことを特徴とする請求項１に記載の動画再生装置。
前記第１音声区間の高速動画再生時の前記所定速度は、等速再生の１．５倍乃至２倍の速度であることを特徴とする請求項１に記載の動画再生装置。
音声信号を含む動画情報を高速度で再生する動画再生方法であって、
前記動画情報に含まれる音声信号に基づいて、人の発声期間を表わす第１音声区間と、それ以外の第２音声区間とを判定する音声区間判定工程と、
前記動画情報に基づいて、前記第１音声区間は、ユーザが内容を把握可能な所定速度で、再生音声を伴う高速動画再生を行なう一方で、前記第２音声区間は、前記所定速度より高速度で、高速動画再生を行なう早見再生工程と、
を有し、
前記音声区間判定工程では、前記動画情報に含まれるシーンチェンジ点を検出すると共に、検出した個々のシーンチェンジ点のうち、判定した第１音声区間の始点よりも時間的に早く且つ最も近傍に位置する近傍シーンチェンジ点と前記始点との時間間隔が所定のしきい値以下である場合に、前記着目する前記第１音声区間の始点を、前記近傍シーンチェンジ点に対応する情報に変更する補正を行なう
ことを特徴とする動画再生方法。
前記早見再生工程では、前記第２音声区間において、前記第１音声区間における音量より小音量の再生音声を伴う動画再生を行なうことを特徴とする請求項５に記載の動画再生方法。
前記早見再生工程では、前記第２音声区間において、無音声にて動画再生を行なうことを特徴とする請求項５に記載の動画再生方法。
請求項５乃至請求項７の何れか１項に記載の動画再生方法を、コンピュータに実行させるためのコンピュータ・プログラム。