JP2003309814A - 動画再生装置、動画再生方法及びそのコンピュータ・プログラム - Google Patents
動画再生装置、動画再生方法及びそのコンピュータ・プログラムInfo
- Publication number
- JP2003309814A JP2003309814A JP2002113624A JP2002113624A JP2003309814A JP 2003309814 A JP2003309814 A JP 2003309814A JP 2002113624 A JP2002113624 A JP 2002113624A JP 2002113624 A JP2002113624 A JP 2002113624A JP 2003309814 A JP2003309814 A JP 2003309814A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- reproduction
- section
- speed
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Television Signal Processing For Recording (AREA)
Abstract
に、検出した音声区間に従って映像と音声との同期関係
を忠実に維持しながら、ユーザの閲覧所要時間を大幅に
短縮する。 【解決手段】 動画再生装置において、動画データに含
まれる音声信号に基づいて、人の発声期間を表わす区間
Aと、それ以外の区間Bとを判定すると共に、当該動画
データに基づいて、区間Aは、等速再生乃至ユーザが内
容を把握可能な所定速度(例えば等速再生の1.5乃至
2倍速)で、再生音声を伴う高速動画再生を行なう一方
で、区間Bは、当該所定速度より高速度(例えば等速再
生の5乃至10倍速)で、少なくとも小音量の再生音声
を伴う高速動画再生、または無音で高速動画再生を行な
う。その際、動画再生の速度は、ユーザ・プロファイル
14に登録されたユーザの属性情報に応じて調整可能で
ある。
Description
動画再生技術の分野に関する。
ダ等のように、音声の再生を伴う動画再生装置において
は、再生実行時にユーザが動画全体(即ち、再生対象の
コンテンツ全編)を短時間で見ることを可能とすべく、
倍速再生機能や、高速早送り機能等が備えられている。
テープレコーダにおいては、近年、記録媒体の倍速再生
実行時に、音のエネルギが所定のしきい値以上の第1音
声区間と、当該所定のしきい値未満の第2音声区間とを
検出すると共に、その第1音声区間における音声信号の
ピッチ変換を行ないながら継続再生することにより、当
該第2音声区間を侵食しながらも、再生された音声はユ
ーザにとって多少早口ではあるもの、内容の理解が可能
な再生音を伴いながら、2倍速で記憶媒体を再生可能な
技術も提案されている。
如く音声信号の部分的なピッチ変換処理を行うと、動画
再生(動画早見再生)時に必ずしも音声と映像との同期
関係が保てないことにより、例えば、再生された映像中
の人物の喋っている映像と、再生された音声との同期が
取れないことから、人間の感覚にとって不自然な再生と
なり、ユーザは違和感を感じることがある。
報、特開平9−243351号公報等においては、音声
エネルギに基づいて無音状態を検出し、検出した無音状
態以外の音を人の発した音声区間とみなすことにより、
動画の要約(サマリー)を行う技術も提案されている。
しかしながら、例えばニュース番組等のように、その番
組全体を通して人の発した音声が支配的な動画において
は、音声エネルギに基づく人の発した音声区間の検出は
ある程度は可能であるものの、バックグラウンドノイズ
やバックグラウンド音楽が存在する環境下ではこの方法
は現実的ではない。
ても、音声検出を行なうと共に、検出した音声を考慮し
た動画再生を行なう技術が数多く提案されており、その
殆どが音のエネルギをしきい値処理することによって音
声を検出している。この背景には、日本語の曖昧さに起
因する問題があり、「人の声」も「音声」と言い、人の
声を含む音一般も「音声」と呼ぶことに起因しており、
このような従来技術における音のエネルギのしきい値処
理を、真の「音声検出」とひとまとめに総称するのは不
適当である。
は、音声信号のFFT(高速フーリエ変換)スペクトラ
ムを算出することによって特異点を求めることによって
「音声情報等の特徴点」を検出し、その音量を分析する
技術が提案されている。しかしながら、FFTスペクト
ラムを利用する方法においては、再生すべき音声信号の
中に、広帯域のスペクトル分布となる所謂バックグラウ
ンド音楽等が含まれる場合には、その中から人の発した
声を検出することは困難である。
おいては、上述したように音声区間の検出が便宜的で不
正確であるという問題があり、更に、その検出結果を用
いた動画のサマリーの作成や倍速再生を行う場合には、
再生に際して、映像と音声との同期関係が維持できない
という問題がある。
って各種装置を使いこなすことは容易なことでななく、
且つ速い速度で発せられる音声は、その内容の理解が追
いつき難いことが知られている。従って、このようなユ
ーザにとって、上述したテープレコーダのような動画再
生装置において倍速再生等の内容の早見(短縮再生)を
行なうに際しては、再生に最適な条件が一般のユーザと
は異なる。
対する聴力が弱いユーザ、或いは再生される音声を母国
語としない外国のユーザ等にとっても、上記のような動
画再生装置によって倍速再生等の内容の早見(短縮再
生)を行なうに際しては、再生に最適な条件が一般のユ
ーザとは異なる。
確に検出すると共に、検出した音声区間に従って映像と
音声との同期関係を忠実に維持しながら、ユーザの閲覧
所要時間を大幅に短縮する動画再生装置、動画再生方法
及びそのコンピュータ・プログラムの提供を目的とす
る。
め、本発明に係る動画再生装置は、以下の構成を特徴と
する。
再生可能な動画再生装置であって、前記動画情報に含ま
れる音声信号に基づいて、人の発声期間を表わす第1音
声区間と、それ以外の第2音声区間とを判定する音声区
間判定手段と、前記動画情報に基づいて、前記第1音声
区間は、ユーザが内容を把握可能な所定速度で、再生音
声を伴う高速動画再生を行なう一方で、前記第2音声区
間は、前記所定速度より高速度で、少なくとも高速動画
再生を行なう早見再生手段と、を備えることを特徴とす
る。
段は、前記第2音声区間において、前記所定速度より高
速度で、少なくとも小音量の再生音声を伴う動画再生を
行なうと良い。
記早見再生手段は、前記第2音声区間において、前記所
定速度より高速度で、無音声にて動画再生を行なうと良
い。
区間判定手段は、前記音声信号に基づいて、声帯振動に
対応する音声ピッチを抽出し、抽出した音声ピッチに基
づいて、前記第1音声区間を判定すると良い。
記音声区間判定手段は、前記音声信号に含まれる人の発
した音声帯域にフィルタリングを施すことによって得ら
れる信号から、存在し得る声帯振動数範囲のピッチを抽
出することによって人の声の支配的な母音部を検出する
と共に、検出した母音部を統合することにより、前記第
1音声区間を決定することを特徴とする。
記音声信号に基づいて、前記第1音声区間を判定するに
際して、時間軸上で近接する複数の前記第1音声区間
を、統合補正する補正手段を含むことを特徴とし、この
場合、前記補正手段は、前記動画情報に含まれるシーン
チェンジ点を検出すると共に、検出した個々のシーンチ
ェンジ点のうち、着目する前記第1音声区間の始点より
も時間的に早く且つ最も近傍に位置する近傍シーンチェ
ンジ点と、その始点との時間間隔(即ち、時間軸上での
距離)が所定のしきい値以下である場合に、該着目する
前記第1音声区間の始点を、該近傍シーンチェンジ点に
対応する情報に置き換えることによって補正すると良
い。
1音声区間の長さとその区間の再生速度、並びに前記第
2音声区間の長さに基づいて、前記高速動画再生に要す
る所要時間を算出すると共に、算出した所要時間をユー
ザに提示することを特徴とし、この場合、前記早見再生
手段は、前記所要時間を提示するのに応じて、前記第1
及び第2音声区間の再生速度の変更操作がユーザによっ
て行われた場合に、その変更後の再生速度に基づいて、
前記所要時間を調整する調整手段を含むと良い。
装置を利用可能なユーザを対象として、個々のユーザに
関する属性情報(例えば、年齢、使用言語、動体視力、
並びに早い音声の聴力等)が登録されたユーザ・プロフ
ァイルを更に備え、前記早見再生手段は、前記ユーザ・
プロファイルに登録されているところの、特定ユーザに
関する属性情報に従って、前記第1及び第2音声区間の
再生速度を自動的に決定すると良い。
再生装置に対応する動画再生方法によっても達成され
る。
画再生装置及び方法を、コンピュータによって実現する
プログラムコード、及びそのプログラムコードが格納さ
れている、コンピュータ読み取り可能な記憶媒体によっ
ても達成される。
の一実施形態を、図面を参照して詳細に説明する。
置の動作の概要について、図1を参照して説明する。
おける動画早見アルゴリズムの概念図を表す図である。
示すように、大別して、動画早見インデックス作成部1
00と、動画早見再生部200とからなる。
画早見インデックス作成部100では、動画データ記憶
部10から読み出した動画データが映像/音声分離処理
(ステップS101)において映像データと音声データ
(音声信号)とに分離され、その音声信号に対しては、
音声区間推定処理(ステップS102)及び音声区間補正
処理(ステップS103)が施され、映像データに対して
は、映像変化度演算処理(ステップS105)、シーンチ
ェンジ点検出処理(ステップS106)が施され、早見再
生区間補正処理(ステップS104)によって早見再生区
間情報が生成され、生成されたこの情報は、動画早見イ
ンデックス記憶部11に記憶される。
2)では、映像/音声分離処理(ステップS101)にて得
られた音声信号に対してローパスフィルタによるフィル
タリングが施されることにより、その音声信号の零交差
点が求められると共に、その零交差点を始点と終点とに
有する小セグメント群が形成され、更に隣接する小セグ
メントの信号エネルギが小さい場合には、その小セグメ
ントは直前の小セグメントと結合されることによって1
つの小セグメントが決定される。ここで、零交差点と
は、フィルタリングが施された音声信号の波形が、基準
信号レベルであるゼロレベルと交差する点である。
ントに対しては、その性質を表す属性情報がラベルとし
て付与される。このラベルには、必ず音声ピッチに対す
るラベルが含まれ、且つ音声ピッチセグメント内には、
音声ピッチ周期情報を併せ持つ(詳細は後述する)。
音声ピッチラベルを有するセグメント群を拠り所とし
て、隣接する音声ピッチラベルを持つセグメント間の距
離(即ち、時間間隔、以下同様)をしきい値処理すると
共に、それら音声ピッチセグメント内に個々に含まれる
音声ピッチ周期情報の連続性を用いて、更に、音声ピッ
チ周期の連続性と、セグメント間の距離との両者を考慮
することにより、離散的な音声ピッチラベルを持つ複数
小セグメントを、1つのセグメントとして統合すること
によって音声区間を正確に検出する。
3)では、音声区間推定処理(ステップS102)における
処理結果(音声信号の中から検出された音声区間)に基
づいて、音声再生時に人(ユーザ)が不快にならないよ
うに、近接する複数の音声区間を統合することによって
新たに再生するところの、人の発声期間を表わす音声区
間(以下、「人の音声区間」または区間Aと称する)の
補正が行われることにより、補正済みの音声区間情報を
取得する。
して、近接する2つの区間Aの間隔が狭い場合に、動画
再生に際して、それらの音声区間を、人が聞いて内容把
握ができる程度の速度で、音声を伴う倍速再生(例えば
2倍速再生)を行なうと共に、人の音声区間ではない区
間(以下、区間Bと称する)に対しては、動画再生に際
して、再生映像を人が見ることによって内容把握ができ
る程度の高倍率の倍速で再生を行うと、変化が激しく、
一般のユーザにとって聞き苦しいものとなる。
理(ステップS103)において、人の音声区間の間隔を
考慮し、その間隔がある所定の条件を満たす場合には複
数の人の音声区間群を統合することにより、前記の聞き
苦しさを解消する。ここで、所定の条件としては、例え
ば、人の音声区間の間隔が所定のしきい値以下であるこ
とを設定するのが最も容易である。
5)では、映像/音声分離処理(ステップS101)にて得
られた映像データに対して、特開2000−23563
9号公報に記載されたフレーム間の類似比較処理を行う
ことによってフレーム間類似度を演算することにより、
映像変化情報が生成される。
の変わり目が存在し、その直ぐ後に音声区間が始まる場
合には、動画再生に際して、ほんの一瞬高速でシーンの
先頭部分の映像が再生された後で、音声を伴う倍速再生
による再生映像が、人が聞いて把握できる速度で行われ
るため、ユーザにとって映像がちらついたような違和感
が生じる。
点検出処理(ステップS106)において、例えば、本願
出願人による先行する特開2000−235639号公
報に開示されたシーンチェンジ点の検出技術を採用する
ことにより、映像変化度演算処理(ステップS105)に
て得られた映像変化情報に基づいて、シーンチェンジ点
群(シーンチェンジ点情報)を検出する。
S104)では、ステップS103における音声区間補正処理
後の音声区間の先頭よりも時間的に早く、且つ最も近傍
で、その距離が所定のしきい値以下である場合に、音声
区間の先頭を、ステップS103にて検出したシーンチェ
ンジ点に対応する情報に置き換えることにより、ユーザ
の違和感を取り除くことができる。
再生部200では、動画早見再生処理(ステップS10
7)において、再生映像はディスプレイ12、再生音声
はスピーカ13を利用して再生される。この動画早見再
生処理による動画再生に際しては、動画早見インデック
ス記憶部11から読み出された早見再生区間情報に基づ
いて、ステップS108にて再生に要する時間が表示され
ると共に、その表示に応じてステップS109にて設定さ
れたユーザ所望の再生条件のフィードバックおよびユー
ザ・プロファイル14に基づく再生条件を統合判断する
ことにより、早見再生条件の最終的な設定が行われ、設
定された早見再生条件に基づいて、動画データ記憶部1
0から読み出した動画データの動画再生が行われる。
ては、再生される音声をユーザが聞いた際に内容を把握
できる速度で音声を伴う倍速再生が行われ、・区間Bに
対しては、再生される映像を見ることによってユーザが
内容を把握できる範囲内で高倍率の倍速再生が行われ
る。
即ち、人が聞いて内容を把握できる速度の再生とは、実
験では2倍速まで、望ましくは1.5倍速程度にすると良い
ことが本願出願人による実験の結果から判っている。他
方、区間Bに対しては、再生映像を人が見て内容が把握
できる範囲で高い倍率の倍速で再生を行うが、本願出願
人による実験の結果によれば、経験的には10倍速まで、
望ましくは5倍速以上に設定すると良いことが判ってい
る。
に、「キュルキュル」という音が出ることが知られてい
るので、ステップS107では、区間Bを高速で再生する
に際して、ユーザがそのような音を聞きたくない場合に
は、音声再生はミュートすることによって無音状態にす
る、或いは、再生時の音量を小さくすることが考えられ
る。
その再生時の音量に関して、最も簡単な実施方法は、動
画早見再生処理(ステップS107)において、予め音声
をどう処理するかを決めておく他、その再生速度を、ユ
ーザが可変で設定可能とする方法が存在する。
ーザにとっては各種装置を使いこなすことは容易なこと
でななく、速い速度の音声再生が行われた場合にはその
内容理解が難いことが知られており、面倒な速度調整を
行わず且つ簡易に、やや低い倍率の倍速再生することが
好ましい。これと同様に、年齢に関わらず視力の弱いユ
ーザ(視覚障害者)、特に動体視力や聴力、特に早い音
声の聴力の弱いユーザの弱いユーザ(聴覚障害者)、或
いは再生される音声を母国語としない外国のユーザ等に
とっても、速い速度の音声再生が行われた場合にはその
内容理解が難いことが知られており、これらのユーザに
とって最適な再生速度もある。
言語や理解できる言語や視力や聴力等の情報、更には個
々のユーザが好む基準の再生条件等のユーザに関する属
性情報を、ユーザ・プロファイル14に予め記憶してお
き、動画早見再生処理(ステップS107)において、そ
のプロファイル14を参照することにより、対象となる
ユーザに応じて、人間の発声区間(区間A)および人間
の発声区間を除く区間(区間B)の再生速度をそれぞれ
決定し、個人に応じた内容理解が容易な動画早見再生を
行うことが可能となる。
倍速再生時に、音声のミュート或いは音量を小さくする
場合にも、係る設定をプロファイル14に予め記述して
おくことにより、個々のユーザに応じた快適な動画早見
再生を行うことが可能となる。
ャップのあるユーザに関しては、本来の早見再生という
観点からは外れるかもしれないが、区間Aの再生速度を
等倍速度より遅く設定すると共に、区間Bの再生速度は
等倍速度以上に設定することにより、係るユーザが区間
Aの音声内容を把握可能な低速再生を行いながらも、全
体としては全ての区間を低速再生する場合と比較して短
い所要時間で、動画(即ち、動画データ記憶部10に格
納されている動画データ)を閲覧することが可能とな
る。
ップのあるユーザおよび音声内容の言語に堪能でないユ
ーザに関しては、本来の早見再生という観点からは外れ
るかもしれないが、区間Aの再生速度を等倍速度より遅
く設定すると共に、区間Bの再生速度は10倍速まで、望
ましくは5倍速以上とし、係るユーザが区間Aの音声内
容を把握可能な低速再生を行いながらも、全体としては
全ての区間を低速再生する場合と比較して短い所要時間
で、動画(即ち、動画データ記憶部10に格納されてい
る動画データ)を閲覧することが可能となる。ここで、
音声内容の言語に堪能か否かの判断は、上述したプロフ
ァイル14に予め記憶した識別情報(後述する表4では
得意言語)と、再生対象の動画に含まれる音声の言語種
類情報とを比較することによって行なえば良い。
としては、例えば、ディスプレイ12に表示されたプロ
ファイル選択画面にユーザ・プロファイルリストを表示
し、その中から、ユーザによるリモコン端末(不図示)
の操作に応じて選択することが考えられ、更に指紋や声
紋や顔認識等の個人認識技術を用いた自動的なプロファ
イル選択方法を採用しても良い。
て最適な早見再生を行う場合に、果たして元々どの長さ
の動画がどの位の時間で早見できるかは、空き時間を活
用して早見を行おうとしているユーザにとって重要な情
報である。
において、区間Aのトータル長を再生速度で割ることに
よって区間Aの再生時間を計算すると共に、区間Bにつ
いては、当該トータル長を再生速度で割ることによって
区間Bの再生速度を計算し、早見に要する時間として、
算出したこれら2つの値の和を求め、元の動画を等倍再
生する場合の所要時間と共にユーザに提示する。更に、
これらの再生時間をユーザが見た上で、所望の再生時間
内に収まるように、区間Aの再生速度や区間Bの再生速
度を指定することにより、ユーザ所望の再生時間に近く
なるように調節することが可能である。
ァイル14と、ユーザが指示した所望の再生速度との関
連であるが、上記の如くステップS108においてプロフ
ァイル14を用いて自動的に算出された動画早見再生に
要する時間を見たユーザが、所定のマンマシン・インタ
フェースを介して、ステップS109において、更に、区
間Aおよび区間Bの再生速度を指定することにより、所
望の動画早見再生に要する時間(再生速度情報)を設定
した場合には、設定された所要時間内に納めるべく、自
動的、或いはユーザに確認を行った上で、係る設定され
た再生速度情報を新たにプロファイルに記憶することに
より、前回の操作情報を反映しつつ個々のユーザの好み
に応じた理解の容易な動画早見再生を行うことが可能と
なる。
更に、区間Bの再生時の音量をどう処理するかを予め指
定しておく、或いは所定のマンマシン・インタフェース
を介してユーザが指定した場合には、その指定された音
量情報を反映しつつ個々のユーザの好みに応じた理解の
容易な動画早見再生を行うことが可能となる。
の如く概説した本実施形態に係る動画再生装置の動作の
詳細について説明する。以下の説明では、動画データ記
憶部10に記憶された録画済の動画データに対して早見
再生を行うためのインデックスとして早見再生区間情報
を作成し、作成したその情報を利用して、当該動画デー
タの早見再生を行う場合を例に説明する。
プS101の映像/音声分離処理を経た後処理として、大
別して、動画早見インデックス作成部100による動画
早見インデックス作成処理と、動画早見再生部200に
よる動画早見再生処理とがある。
2は、動画早見インデックス作成部100において行わ
れる人の発声期間を表わす音声区間(区間A)検出のた
めのアルゴリズムを表わすブロック図であり、AGC
(オートゲインコントロール)21、ローパスフィルタ2
2、零交差検出部23a,23b、音声セグメント化部24、音声
ピッチ検出部25、音声ラベリング部26、音声エネルギ計
算部27、並びに音声区間推定部28から成る。
処理の概略を示すフローチャートであり、このフローチ
ャートを参照して区間A検出の手順を説明すると、まず
ステップS301にて音声信号を複数の小セグメントに分
割し、ステップS302では、それらの小セグメントの音
響的な特徴を表す音声ラベリングを行なう。その際、ス
テップS303では、音声ピッチを検出することによって
ロバストな母音候補の検出を行い、最後に、ステップS
304において、音声ピッチ検出結果に基づいて人の音声
区間(区間A)の推定を行う。
1)によって動画データから分離された音声信号は、A
GC(オートゲインコントロール)21によって音声エネ
ルギが正規化される。AGC21の構成に関しては公知の
ものを採用すれば良く、登録済みの音声信号に対して、
その全体を通して信号レベルが最大となる音を基準とし
て、正規化を行う構成を採用することができる。
タ22においてフィルタリングを施すことにより、後段で
行われる解析処理に適した帯域の音声信号成分と、無声
子音認識に必要な帯域を持つ元の音声信号に分岐する。
ルタ22を通過した音声信号は、零交差点検出部23aにて
零交差点が求められた後、その零交差点を基準として、
音声セグメント化部24において、「小セグメント」と呼
ぶ小部分に暫定的に分割される。この処理は、図3のス
テップS301に相当する。
分割に用いる理由は、小セグメントの基準が無声子音、
有声子音、並びに音声ピッチ等の単位であり、高周波の
影響があると無声子音等に悪影響が生じるからである。
に対して暫定的に求められた零交差点を基準として、そ
の音声信号を小セグメントに分割するが、その小セグメ
ントは、以下の2条件 ルール1:小セグメントの始点と終点は零交差点である
こと、 ルール2:小セグメントのエネルギが小さい場合には、
直前の小セグメントと結合する。
トf(x)に対して音声エネルギPを、
のしきい値Eth1以下の場合には、現在対象としてい
る小セグメントf(x)を、その直前の小セグメントに
統合する。尚、音声エネルギPは、数式(1)による小
セグメントf(x)の絶対値の累積でなく、f(x)の
2乗エネルギを用いて計算しても良い。
グメントの結合処理を説明する図である。
出部23aにて複数の零交差点(Zero cross points)が求め
られた音声信号レベルを例示している。また、図4
(b)では、検出された零交差点、上述したルール1お
よびルール2が適用されることによって設定された複数
の小セグメントが、個々の縦線によって示されており、
矢印で指し示された2つの小セグメントは、上述したル
ール2によって、1つの小セグメントに統合されたこと
を示している。
では、AGC21によって音声エネルギが正規化された音
声信号波形が、基準となるゼロレベルと交差する平均零
交差数を求め、更に、音声エネルギ計算部27において平
均エネルギを求めた後、個々の小セグメントに対して、
音声ラベリング部26において、始点、終点、平均零交差
数および平均エネルギを算出し、算出したこれらの値
を、小セグメントの特徴量として記憶する。この処理
は、図3のステップS302に相当する。
は、セグメント長SegLenを用いて、以下の式により計算
される。
まれる元の音声信号の零交差点数)/ SegLen, ・(平均エネルギ)=(小セグメントに含まれるローパ
スフィルタが施された音声信号のエネルギ)/ SegLen である。
分類し、そのカテゴリを表すラベルを付与する。本実施
形態において個々の小セグメントに付与可能なラベルの
種類としては、無音、無声子音、有声子音、音声ピッ
チ、雑音がある。
のラベルに相当するかを、図5に示す手順によって決定
する。
ラベリングの処理を示すフローチャートであり、音声ラ
ベリング部26にて行われる処理の手順を示す。
する小セグメント(処理対象とする小セグメント)の特
徴量として、平均零交差数AveZeroCrossRate および平
均エネルギAveEnergyを読み込む。
以下のしきい値を設けるが、これらのしきい値は全て定
数である。
すこととする。
み込んだ特徴量が、所定の無音条件を満足するかを判断
する。ここで、無音ラベル条件は、 ・((AveEnergy < SileceEnergyMax) AND (AveZeroCros
sRate < ConHZeroCrossRateLow)),または ・((AveEnergy < ConHEnergyLow) AND (AveZeroCrossR
ate > ConHZeroCrossRateLow)), とする。そして、ステップS503では、上記の無音ラベ
ル条件を満たす場合に、当該着目する小セグメントに対
して、無音ラベルを関連付けして記憶する。
条件を満たさない場合に、ステップS501にて読み込ん
だ特徴量が、所定の無声子音ラベル条件を満足するか
を、ステップS504において判断する。ここで、無声子
音ラベル条件は、 ・(ConHEnergyLow < AveEnergy < ConHEnergyMax)
並びに、 ・(AveZeroCrossRate > ConHZeroCrossRateLow) とする。そして、ステップS505では、上記の無声子音
ラベル条件を満たす場合に、当該着目する小セグメント
に対して、無声子音ラベルを関連付けして記憶する。
み込んだ特徴量が、上述した無音ラベル条件及び無声子
音ラベル条件を満足しない場合であるので、音声ピッチ
の検出を試み、検出できた場合には音声ピッチラベルを
該当する小セグメント群に付与する(ステップS50
7)。尚、ピッチ検出に関しては詳しく後述する。
セグメント群としたのは、後述するピッチ検出では、小
セグメントの統合が行われる可能性があり、その場合、
着目する小セグメント以降の複数の小セグメントをステ
ップS508において1つに統合し、これに対してピッチ
ラベルを与えるからである。このとき、音声ピッチが検
出されるセグメントは、主に声帯振動を伴う母音であ
る。
を検出できない場合には、ステップS509において有声
子音ラベル条件判定を行う。このとき、有声子音ラベル
条件は、 ・(ConLEnergyLow < AveEnergy < ConLEnergyMax)
並びに、 ・(AveZeroCrossRate < ConLZeroCrossRateMax) とする。そして、ステップS510では、上記の有声子音
ラベル条件を満たす場合に、当該着目する小セグメント
に対して、有声子音ラベルを関連付けして記憶する。
条件を満たさない場合であるため、着目する小セグメン
トに対して、雑音ラベルを関連付けして記憶する。
ラベリングに至るまでの処理過程を、図6に示す例を参
照して説明する。
のセグメント化からラベリングに至るまでの処理過程を
説明する図である。
ィルタ後の音声信号波形を表わす。図6(b)は、図6
(a)に示す音声信号波形の零交差点を基準に小セグメ
ント化した状態を表わし、同図に示す太い縦線は小セグ
メントの区切りを表わす。
セグメント化とを行った結果を表わし、同図に示す細長
い縦線はセグメントの区切りを表し、太い縦線は統合さ
れた小セグメントの名残を示している。図6(c)で
は、図6(b)に示す如く区切られた一部の複数小セグ
メントが、1つのピッチセグメントに統合されている様
子が判り、それぞれのセグメントには、付与されたラベ
ルが示されている。
部25の動作について、図9および図10を参照して説明
する。この処理は、図3のステップS303に相当する。
出処理を示すフローチャートであり、音声ピッチ検出部
25が行なう処理手順を示す。
パスフィルタ後の音声信号波形の零交差点情報を入手す
る。そして、零交差点を基準として、波形の類似性を検
証することにより、音声ピッチを求める。
出処理の説明のための音声信号波形を例示する図であ
る。
は、時間方向に見て正の値を持つ波形の始点であって、
図7の例では、基準とする零交差点は、X1, X2, X3であ
る。
示する場合において、零交差点X1を始点とし、零交差点
X2を終点とする部分波形をf(x)、零交差点X2を始点
とし、零交差点X3を終点とする部分波形をg(x)を、
初期基準として決定する。
声区間(音声セグメント)が存在するかを判断し、存在
する場合にはステップS904に進み、存在しない場合に
は処理を終了する。
よびそのセグメント範囲を報告するピッチ抽出処理を行
なう。ここで、報告するタイミングは、音声ピッチセグ
メントが途切れたタイミング、或いは部分波形f(x)
に対するピッチが見つからなかった場合である。尚、ス
テップS904におけるピッチ抽出処理については、図1
0を参照して詳しく後述する。
が存在するかを判断し、存在すると判断した場合には、
ステップS906において音声ピッチセグメント情報を、
着目する音声区間(音声セグメント)に関連付けして記
憶する。一方、音声ピッチが存在しない場合にはステッ
プS903に戻る。
チ抽出処理について、図10を参照して詳しく説明す
る。
検出処理を示すフローチャートのうち、ステップS904
(図9)の処理の詳細を示すフローチャートである。
されたf(x)に対するg(x)を設定する。そして、
ステップS1002では、設定されたf(x)の長さをチェ
ックし、ピッチとして存在し得ない位に長い場合には、
当該f(x)に対応する音声ピッチは無いと判断し、ス
テップS1003では、当該f(x)の終点を始点として有し、
時間方向に見て負の値を持つ波形の終点となる零交差点
のうち、当該始点に最も近傍のものを終点とする新たな
部分音声セグメントf(x)を設定し、今まで着目していた
f(x)のセグメントはピッチセグメントでないとレポート
する。
(x)の長さをチェックし、ピッチとして存在し得ない
位に短い場合には、ステップS1005において、着目する
f(x)の終点を始点として有し、且つ時間方向に見て負の
値を持つ波形の終点となる零交差点のうち、その始点
(f(x)の終点)に最も近傍のものを終点として有する部
分音声セグメントを、当該着目するf(x)の末尾に統合す
ることによって新たなf(x)として、ステップS1001に戻
る。
02およびステップS1004におけるチェックを通過したと
ころの、着目するf(x)に対して、g(x)との非類似
度演算を行う。本ステップにおいて行われる非類似度演
算は、以下の非類似度評価関数を用いて算出する。
間 Xf におけるf(x)とg(x)との差の絶対値をΔ
( Xf )とすると、X1 ≦ Xf ≦ X2 且つ Xg = X2 +
( Xf−X1 )として、 Δ( Xf )=|f( Xf )−g( Xg )| と表される。この場合においても、f(x)とg(x)
の差の絶対値ではなく差の二乗に基づいて、 Δ( Xf )= [f( Xf )−g( Xg )] × [f( Xf
)−g( Xg )] としても良い。
出した非類似度がしきい値ETh以上であるかを判断
し、DiffSum≧EThの場合にはステップS1005に戻
り、DiffSum<EThの場合には、より精密な音声ピッ
チ検出を行うべく、ステップS1008において、最もエネ
ルギの大きな小区間がピッチセグメントの最後になるよ
うに、f(x)および g(x)の位置を補正する。
出処理で行われるピッチ検出基準の更新手順を説明する
図である。最もエネルギの大きな小区間でピッチの基準
を補正することは、その小区間が、声帯振動の直後のタ
イミングで生成される波形であることからも合理的であ
る。
ンタを0にリセットし、ステップS1010では、上述した
ステップS1006と同様に非類似度演算を行い、ステップ
S1011では、算出した非類似度としきい値EThとの比
較処理を、上述したステップS1007と同様に行なう。
果、算出された非類似度がしきい値ETh以上の場合に
はステップS1013に進み、非類似度がしきい値EThよ
り小さい場合にはステップS1014に進む。
上検出しているかを判断し、2回未満の場合には上述し
たステップS1005において音声セグメントの統合を行な
い、2回以上検出してる場合には、音声ピッチセグメン
トを検出したと判断できるので、ステップS1015におい
て、g(x)の終点を始点に持ち、時間方向に見て負の値を
持つ波形の終点となる始点に最も近傍の零交差点を終点
とする新たなセグメントf(x)を設定し、ピッチセグメン
トを検出した旨を表わすピッチセグメント範囲を報告す
る。
ンクリメントし、現在のg(x)の終点を始点として有し、
時間方向に見て負の値を持つ波形の終点のうち、当該始
点に最も近傍の零交差点を終点として有する新たな部分
音声セグメントf(x)を設定すると共に、この部分音声セ
グメントf(x)に最も近傍の、時間方向に見て負の値を持
つ波形の終点となる零交差点を終点とする新たなg
(x)を設定し、ステップS1010に戻る。
10)によって取得した音声ピッチセグメントは、後段
の音声区間判定部28にて利用するために、不図示のメモ
リに記憶される。
では、上記の音声ピッチ検出処理によって取得した音声
ピッチセグメントを用いて、人の音声区間(区間A)の
判定が行われる。この処理は、図3のステップS304に
相当する。
区間の大半を母音が占め、従ってピッチの存在するセグ
メントが長く安定して現れる。他方、BGMのある場合
には、その音律による影響を受けるるものの、人の音声
エネルギがBGMのエネルギよりもある程度大きい場合
には、さほど影響を受けないことが実験的に判ってい
る。また、ある部分区間内において音声エネルギがGB
Mのエネルギよりも十分大きくない場合には、その部分
区間において正確なピッチは現れない。
伴われるが、声帯の振動を伴わない子音の場合にもピッ
チは現れず、しかもその時間は持続時間が10ms以下と
いう短い破裂音であり、最も長い摩擦音でも数10msの
オーダーである。また、破裂音等の発生直前に無音が生
じるものもある。
音声自身の要因によって音声ピッチが求まるセグメント
が離散的なものになるが、そのような場合であっても、
前後或いは全体のピッチ周期を考慮することにより、部
分区間の音声ピッチ周期の演算結果を統合して、更に音
声の特徴を活用して人の音声区間(区間A)を判断する
必要がある。
定処理を示すフローチャートであり、音声区間判定部28
が行なう処理手順を示す。
は、連続する無音、無声子音ラベル、有声子音ラベル、
または雑音ラベルを持つセグメント群を、1つのセグメ
ントに結合する。
ラベルセグメントを求め、これを結合することにより、
それら複数セグメントの平均ピッチ周期を求める。この
統合したピッチセグメントを「統合ピッチセグメント」
と呼ぶこととする。
トに挟まれたとろこの、雑音ラベルが関連付けされてい
るセグメントを求め、ステップS1104では、そのセグメ
ントの両端の統合ピッチセグメントの平均ピッチ周期変
動率があるしきい値Th1以下であるかを判断し、この
条件を満たす場合には、ステップS1105においてこれら
のセグメントを1つの統合ピッチセグメントに統合す
る。この処理により、ピッチセグメント、即ち母音の一
部にエネルギの大きなBGMが重なったとしても補正可
能である。
しないので、通常、後方或いは前方に子音を伴うことが
多い。これはCVC(Consonant Vowel Consonant )モ
デルと呼ばれている。
デルに基づいて、無声子音セグメント、有声子音セグメ
ント、並びにピッチセグメントを統合し、音声区間を求
める。ここで、ステップS1106の処理の詳細を、図12
を参照して説明する。
定処理を示すフローチャートのうち、ステップS1106
(図11)の処理の詳細を示すフローチャートである。
先頭の統合ピッチセグメントを、基準となる統合ピッチ
セグメントとする。次に、ステップS1202にでは、基準
となる統合ピッチセグメントの次の統合ピッチセグメン
トを求める。
ッチセグメントの間に、有声子音セグメントあるいは無
声子音セグメントが存在するかを判断し、存在しなけれ
ばステップS1206において基準となる統合ピッチセグメ
ントの次の統合ピッチセグメントが存在するかを判断
し、存在しない場合は処理を終了し、存在する場合に
は、基準となる統合ピッチセグメントを、ステップS12
07において更新する。
ピッチセグメントの間に有声子音セグメントあるいは無
声子音セグメントが存在すると判断した場合には、2つ
の統合ピッチセグメントの間の間隔Distがしきい値Pima
x1以下であるかを、ステップS1204において判断する。
そして、間隔Distがしきい値Pimax1以下である場合に
は、ステップS1205において当該2つの統合ピッチセグ
メントの端点を終点と始点とする人の音声区間として記
憶する。
長い持続時間を持つ子音、例えば無声摩擦音/S/等の持
続時間よりも十分長いものを用いると良く、その際、2
つの統合ピッチセグメントの間に子音セグメントだけで
なく、無音セグメントが存在しても良い。その理由は、
無声子音のうち破裂音や破擦音では、発声の前に短い無
音が生じることがあるからである。
後、ステップS1206では、基準となる統合ピッチセグメ
ントの次の統合ピッチセグメントが存在するかを判断
し、存在しない場合には処理を終了し、存在する場合に
は、ステップS1207において基準となる統合ピッチセグ
メントを更新し、ステップS1206の終了条件を満足する
まで上述した各ステップの処理を繰り返し行う。但し、
統合ピッチセグメント情報およびその平均ピッチ情報
は、次の処理のために破棄せずに保存しておく。
ピッチセグメントの平均ピッチ周期を比較した結果、周
期変動率があるしきい値Pimax1より大きい場合には、上
述したステップS1206以降の処理を行なう。
に戻る。ステップS1107では、CVC構造を取らない、
例えば「あお」のようなVV(Vowel-Vowel)構造の場
合を考慮すべく、VVモデルに基づいて、隣接あるいは
間に無音セグメントまたは雑音セグメントを持つ2つの
ピッチセグメントを統合することによって音声区間を求
める。
区間の検出処理について、図13を参照して詳細に説明
する。
定処理を示すフローチャートのうち、ステップS1107
(図11)の処理の詳細を示すフローチャートである。
先頭の統合ピッチセグメントを、基準となる統合ピッチ
セグメントとする。次に、ステップS1302では、基準と
なる統合ピッチセグメントの次の統合ピッチセグメント
を求める。
ッチセグメントの間隔Distがあるしきい値Pimax2以下で
あるかを判断し、間隔Distがしきい値Pimax2より大きい
場合にはステップS1306に進み、感覚Distがしきい値Pi
max2以下の場合にステップS1304に進む。
グメントの平均ピッチ周期変動率があるしきい値Th2
以下である場合には、ステップS1305において、2つの
統合ピッチセグメントと挟まれるセグメントを音声区間
として記憶する。その際、外乱に対する耐性を上げるた
めに、2つの統合ピッチセグメントの間に無音セグメン
トや雑音セグメントが存在しても良い。
の記憶の後、ステップS1306では、基準となる統合ピッ
チセグメントの次の統合ピッチセグメントが存在するか
を判断し、存在する場合は処理を終了し、存在する場合
は、ステップS1307において基準となる統合ピッチセグ
メントを更新し、ステップS1306の終了条件を満足する
まで繰り返し処理を行う。
ピッチセグメントの平均ピッチ周期を比較した結果、周
期変動率がしきい値Th2より大きい場合には、上述し
たステップS1306に進んで同様な処理を行なう。
トを基準として、音声中に含まれるBGM等によって雑
音ラベルが生じても、本実施形態では、上述した音声区
間判定処理において、雑音ラベルが付与された場合であ
っても、その前後の統合ピッチセグメントの平均ピッチ
周期の連続性を考慮することによって統合ピッチセグメ
ントの統合を行い、更に、CVCモデルを導入すること
によって無声子音セグメントや有声子音セグメントが間
に存在する統合ピッチセグメントをまとめて音声区間と
し、更にVVモデルを考慮して2つの統合ピッチセグメ
ントをまとめて音声区間を決定することにより、音声の
特徴を利用した外乱に強い音声区間抽出が可能となる。
人の音声区間(区間A)を検出した後に行われる音声区
間補正処理では、この処理結果に基づく再生音声を聴い
た際に人が不快感を抱かないように、時間軸上で近傍に
位置する複数の音声区間を1つの音声区間として統合す
ることによる補正が行われる。その理由は、例えば、時
間軸上で近傍に位置する2つの区間Aの間隔が狭い場合
に、区間Aを聞いて人が内容を把握できる速度で音声を
伴う倍速再生を行なう一方で、区間Bに対しては、再生
映像を見て人が内容を把握できる範囲で高倍率な倍速で
再生を行うと、再生態様の変化が激しく、ユーザにとっ
て聞き苦しいものとなるからである。
らも、短い区間での速度の変化は、処理のオーバーヘッ
ドが大きく、再生動作が一時的に停止状態になり、ギク
シャクした再生になることが、一例として、マイクロソ
フト社のDirectShowを用いた本願出願人による実験にお
いて観察されている他、他の多くの動画再生手段で同様
の現象が見られる。
近傍に位置する2つの音声区間(区間A)の間隔がある
しきい値(図14ではTh3)以下である場合には、こ
れらの音声区間を統合することによる補正を行う。この
しきい値を決めるに当たっては、例えば、会話を行うシ
ーンを想定し、会話が成り立つ程度の間を実験的に求
め、それをしきい値に用いる。この場合の処理の手順
を、図14を参照して説明する。
音声区間に対して行われる統合補正処理を示すフローチ
ャートである。この処理は、音声区間判定部28にて行わ
れる処理であって、上述した音声区間補正処理(ステッ
プS103)の詳細を表わす。
検出された複数の区間Aのうち、時間軸上で最初に位置
する区間Aを、着目する音声区間として読み込むが、着
目すべき音声区間が無ければ本処理は終了する。
間(区間A)が存在するかを判断し、着目すべき音声区
間が無ければ本処理を終了し、一方、まだ存在する場合
には、以下に説明するステップS1403乃至ステップS14
07の処理を繰り返す。
次に着目する音声区間が存在すると判断されたので、そ
の音声区間(区間A)を表わす音声区間情報を読み込
む。ここで、音声区間情報とは、音声区間の開始点と終
点とが対となった情報である。
隔、即ち、時間軸上で先の音声区間(現在着目している
音声区間)の終点と、次の音声区間の開始点との間の距
離(時間間隔)を求め、この距離が所定のしきい値Th
3以下であるかを判断する。
2つの区間Aの間隔が所定のしきい値Th3以下である
と判断されたので、これら2つの音声区間を、1つの音
声区間に統合する。より具体的に、統合された音声区間
の音声区間情報には、本ステップにおける処理によっ
て、先の音声区間の開始点が設定されると共に、次の音
声区間の終点が設定される。
を、現在着目する音声区間(区間A)として設定し、ス
テップS1402に戻る。
2つの区間Aの間隔が所定のしきい値Th3より大きい
と判断されたので、現在着目する音声区間を、そのまま
1つの補正した音声区間情報として記憶すると共に、ス
テップS1408では、次の音声区間を、処理対象として着
目すべき音声区間として設定し、ステップS1402に戻
る。
(区間A)がなくなるまで繰り返される。
声区間の補正)また、一般に、音声信号を含む動画デー
タに映像の変わり目が存在し、その直後に区間Aが始ま
る場合には、動画再生に際して、ほんの一瞬高速でシー
ンの先頭部分の映像が再生された後で、音声を伴う倍速
再生による再生映像が、人が聞いて把握できる速度で行
われるため、ユーザにとって映像がちらついたような違
和感が生じる。
願人による先行する特開2000−235639号公報
に開示されたシーンチェンジ点の検出技術を採用するこ
とにより、検出したシーンチェンジ点群のうち、音声区
間補正処理後の音声区間の先頭よりも時間的に早く、最
も近傍で、且つその距離があるしきい値以下であるシー
ンチェンジ点が存在する場合には、その音声区間の先頭
を、該シーンチェンジ点に対応する情報に置き換える補
正を行なうことにより、早見再生時のユーザの違和感を
取り除く。その際、近傍判定のためのしきい値は、高速
再生の状態から人が聞いて内容が把握できる程度の速度
で音声を伴う倍速再生へ移行する際のオーバーヘッドに
応じた値である。
ンジ点を用いて行われる音声区間の統合補正処理を示す
フローチャートである。この処理は、音声区間判定部28
にて行われる処理であって、上述した早見再生区間補正
処理(ステップS104)の詳細を表わす。
シーンチェンジ点検出処理(ステップS106)にて検出
されたシーンチェンジ点群(シーンチェンジ点情報また
はシーンチェンジ位置情報)から、時間軸上で先頭とな
るシーンチェンジ点(A)を読み込む。
単位で記述されるが、本ステップでは、フレームレート
に基づいて時間情報に変換した後、音声区間情報と比較
することになる。即ち、本実施形態のアルゴリズムで
は、音声区間の開始点から最も近傍のシーンチェンジ点
を求めるために、連続する2つのシーンチェンジ点情報
を用いることにし、ここでは、説明の便宜上、先のシー
ンチェンジ点をA、次のシーンチェンジ点をBとして、
ステップS1501では、Aの方へシーンチェンジ点の時間
を記憶する。
区間情報があるかどうかを判断し、無い場合には処理を
終了し、読み込んでない音声区間情報がある場合にはス
テップS1503において音声区間情報を1つ読み込む。
シーンチェンジ点情報があるかどうかを判断し、無い場
合には、ステップS1503にて既に読み込んである音声区
間情報を、ステップS1505において、そのまま補正済の
音声区間情報として更新記憶する。
読み込んでないシーンチェンジ点情報があると判断され
たので、そのシーンチェンジ点情報を、シーンチェンジ
点情報Bとして読み込む。
が、時間軸上において、ステップS1503にて読み込んだ
現在着目する音声区間の始点より前に位置するかどうか
判断し、前に位置する場合には、ステップS1505におい
て、補正の必要は無いとして音声区間情報をそのまま補
正済音声区間情報として更新記憶する。
シーンチェンジ点Aが現在着目する音声区間の始点より
前に位置すると判断されたので、そのシーンチェンジ点
Aが当該音声区間の始点としきい値Th4以内の距離に
存在するかどうかを判断し、当該しきい値Th4以内で
はない場合には、ステップS1509において、シーンチェ
ンジ点Bの情報を、シーンチェンジ点Aへコピーするこ
とにより、次のシーンチェンジ点を判断対象とする準備
を行う。
シーンチェンジ点Aが現在着目する音声区間の始点と当
該しきい値Th4以内の距離に存在すると判断されたの
で、シーンチェンジ点Bが当該音声区間の始点よりも後
ろに位置するかを判断し、後ろに位置しない場合にはス
テップS1509に進む。
点Bが当該音声区間の始点よりも後ろに位置すると判断
された場合には、ステップS1511において、シーンチェ
ンジ点Aが開始点であり、当該音声区間の終点が終点で
ある部分区間を、補正済の音声区間情報として更新記憶
し、ステップS1512では、シーンチェンジ点Bの情報
を、シーンチェンジ点Aにコピーすることにより、次の
シーンチェンジ点を判断対象とする準備を行う。
S1508、並びにステップS1510の判断によって、シーン
チェンジ点Aが現在着目する音声区間の始点の前に位置
すると共に、当該しきい値Th4以下の近傍であり且
つ、最も音声区間の始点に近い点であることが確かめら
れて初めて、上記のステップS1511及びステップS1512
の処理が行われる。
点Bが当該音声区間の始点よりも後ろではないと判断さ
れた場合、当該シーンチェンジ点Bは、現在設定されて
いるシーンチェンジ点Aよりも補正済音声区間の始点候
補として更にふさわしいと判断できるので、ステップS
1509において、当該シーンチェンジ点Bの情報を、新た
なシーンチェンジ点Aとしてコピーすることにより、次
のシーンチェンジ点を判断対象とする準備を行ない、そ
の後でステップS1504の処理に戻る。但し、この場合の
シーンチェンジ点Aは、既にステップS1507およびステ
ップS1508の要件を満たしているので、ステップS1507
とステップS1508とをパスしてステップS1510の判断を
いきなり行っても構わない。
の手順によって取得した補正済の音声区間情報は、早見
再生区間情報として、表1に例示するようなスキーマ
で、動画早見インデックス記憶部11に記憶される。
ジ検出結果を例示する表であり、一例として、シーンチ
ェンジ点の検出を行ったフレームを、フレームレート
(30枚/Sec)を元に秒換算した結果が格納されている。
の検出結果を例示する表であり、1つの音声区間は、開
始点と終了点とで表現されている。
済の音声区間検出結果を例示する表であり、表1に示す
結果と表2に示す結果とに基づいて、シーンチェンジ点
を用いた音声区間の統合補正処理(図15)を、しきい
値Th4= 2000 mSecで施した場合の処理結果を示す。
よび音声区間2に対しては、それぞれの音声区間の開始
点60000 mSec、400000 mSecの前で且つしきい値Th4
である2000 mSec以内の期間にはシーンチェンジは存在
しない。また、音声区間1に対しては、開始点102000 m
Secの1500 mSecの前で且つ2000 mSec以内には、シーン
チェンジ点として、シーンチェンジID=2(開始時間
100000 mSec)と、シーンチェンジID=3(開始時間1
01000mSec)の2点が存在するが、図15で示したアル
ゴリズムに従って最も近傍のものを選ぶことから、結果
として、シーンチェンジID=3の101000mSecが選ば
れ、これが表3に反映されている。
200にて行われる動画早見再生処理(ステップS10
7)は、人の音声区間(区間A)に対しては人が聞いて
内容を把握できる速度で音声を伴う倍速再生を行なう一
方で、人の音声区間ではない区間(区間B)に対して
は、再生映像を人が見て内容が把握できる範囲で高い倍
率の倍速で再生を行う。
ロソフト社の DirectShowモジュールを用いると、任意
区間の速度を指定して連続再生することが可能である。
このような機能を持つモジュールを用いることで、比較
的簡易に任意区間の再生速度の変化を実現することが可
能であり、その際、重要なのは、何の観点で速度を変化
させるかである。
生処理を示すフローチャートである。
上述したユーザ・プロファイル14の中からユーザが所
望のものを選択するが、その具体的な手順としては、例
えば、ディスプレイ12に図18に例示するようなユー
ザ・プロファイルリストを含む表示画面を表示し、その
中からユーザがリモコン端末等を利用して、所望のプロ
ファイルを選択すれば良い。
リストにおけるユーザ所望のプロファイルの指定は、例
えばリモコン端末にプロファイル選択用の操作ボタンを
設けておき、これをユーザが押下するのに応じて、図2
0に例示するようなメニュー表示画面が表示され、その
画面を見ながら、リモコン端末のプロファイル選択用の
操作ボタンを利用して、ユーザが所望のプロファイルを
指定する。もちろんユーザ・プロファイルの選択には、
指紋や声紋や顔認識等の個人認識技術を用いた自動的な
プロファイル選択方法も考えられ、こちらの方が常に正
しいプロファイルの指定が可能なため、プロファイルの
指定の誤りを起こしたり、他人のプロファイルを変更し
たり内容を覗く等のトラブルを防げる。
する場合には、図18の表示画面において「新規登録」
ボタンをポインタデバイスで指定すると、プロファイル
名およびその他の属性を入力するための、図19に例示
する表示画面が現れる。
録用の表示画面を例示する図であり、初期状態では、識
別名と年齢以外の内容が基準値で埋められており、ユー
ザによる入力操作によってユニークな識別名と年齢の入
力変更の必要がある個所のみが変更され、所定の入力値
範囲の適正チェックをパスした後、ユーザが「OK]ボ
タンを押下するのに応じて、そのプロファイルがユーザ
・プロファイル14に新たに追加登録される。
変更を希望する場合、図18に示す表示画面において
「変更」ボタンを押下し、図20に示す表示画面におい
て所望のプロファイルを選択するのに応じて表示される
図19の表示画面において、変更を希望する項目の情報
内容を変更した後、「OK]ボタンを押下すれば良い。
を希望する場合、図18に示す表示画面において「削
除」ボタンを押下し、図20に示す表示画面において所
望のプロファイルを選択し、その後、「OK]ボタンを
押下すれば良い。
画面において、「キャンセル」ボタンが押下された場合
には、それまでの選択操作や入力操作に対応する処理
(プロファイルの登録、変更、削除)はなされることな
く処理が終了する。
01にて選択されたプロファイルが、ユーザ・プロファイ
ル14に存在するかを判断し、存在する場合には、ステ
ップS1703において対象となるプロファイルをユーザ・
プロファイル14から読み込み、存在しない場合には、
基準値として予め設定されているところの、区間Aおよ
び区間Bの再生速度、並びに区間Bの再生時の音量を、
ステップS1706において読み込む。ここで、ユーザ・プ
ロファイルのデータスキーマ一の一例を、表4に示す。
ファイルを例示する表である。基準値は、プロファイル
ID=0に示すように記憶しておけば良く、この場合、
区間Aの再生速度は1.5倍速、区間Bの再生速度は10.0
倍速、そして、区間B再生時の音量の基準値は0(即ち
音声ミュート)である。上述したユーザ・プロファイル
の新規登録時に用いられる基準値には、この値を用い
る。
タスキーマ一において、None とは値が設定されていな
いことを表し、逆に値が設定されている場合は、その値
を最優先して再生を行う。更に、表4において、視力や
聴力の欄の Good と Poorは、その人の年齢に無関係
な、動体視力や早い音声の聴力の能力を表わす。
なる他、言葉を理解する速度の低下が見られることが多
く、また子供は言語能力が未発達のために速い速度で音
声再生を行なうと理解できなくなることが多い。
適した区間Aの再生速度、並びに区間Bの再生速度のテ
ンプレートを予め用意しておき、ユーザ・プロファイル
14に記憶された年齢に基づき、これらの速度を決定す
る。
音声の聴力の弱い人や、外国人のため母国語とは異なる
言語(例えば日本語)速い速度で音声再生を行なうと理
解が追いつかない等、年齢に無関係な原因がある場合も
ある。このため、本実施形態では、表4に例示するユー
ザ・プロファイルのように、視力および聴力の特性を記
述しておき、これらの設定があればこちらを優先して、
区間Aの再生速度、並びに区間Bの再生速度を低めに決
定する。
弱いユーザに関しては、本来の早見再生という観点から
は外れるかもしれないが、人の音声区間(区間A)の再
生速度を等倍速度より遅い速度に決定し、人の音声区間
ではない区間(区間B)の再生速度を等倍速度以上とす
ることにより、係るユーザが区間Aの音声内容を把握可
能な低速再生を行いながらも、全体としては全ての区間
を低速再生するよりも速い時間で動画を閲覧することが
可能となる。
ザおよび外国人のため早口の日本語等では理解が追いつ
かないユーザに関しては、区間Aの再生速度を等倍速度
より遅い速度に決定し、区間Bの再生速度に関しては、
その年齢の健常者と同じ再生速度とすることにより、区
間Aの音声内容を把握可能な低速再生を行いながらも、
全体としては全ての区間を低速再生するよりも速い時間
で動画を閲覧することが可能となる。
ロファイルに対する速度決定処理は、予め健常者におけ
る年齢に適した区間Aの再生速度および区間Bの再生速
度のテンプレート、動体視力や早い音声の聴力の弱い症
状、外国人のため早口の日本語では理解が追いつかない
状況を加味して総合的な判断を行う。
語に堪能か否かの判断は、ユーザ・プロファイル14に
記憶されている堪能であるか否か、或いは母国語を特定
する言語種別情報と、再生対象の動画に含まれる音声内
容の言語種別情報とを比較することにより行う。近年、
DVD等のデジタルコンテンツや、デジタルBS等のデ
ジタルメディアには、音声内容の言語を特定する言語種
別情報が記憶されており、また近年EPG(電子番組
表)等から番組内容が電子的に入手可能であるため、こ
れらの情報を用いることは現実的である。また、これら
の情報が入手できない場合であっても、地上波TV番組
でも標準設定では母国語、2カ国音声では通常メイン音
声が母国語であり且つサブ音声は外国語であるため、こ
れらの経験則に基づいて推定すれば良い。
読み込んだユーザ所望のプロファイルに基づいて、区間
Aの再生速度と、区間Bの再生速度とを決定する。ここ
で、本ステップにおける処理の詳細を、図17を参照し
て説明する。
生処理を示すフローチャートのうち、ステップS1704
(図16)の処理の詳細を示すフローチャートである。
ユーザ・プロファイル14から先にユーザによって選択
されたプロファイルを読み込み、ステップS1802では、
読み込んだプロファイルから取得したユーザの年齢に従
って、健常者の年齢に応じた最適な区間Aの再生速度
と、区間Bの再生速度とが設定されているテンプレート
を参照することにより、そのユーザに対する区間Aの再
生速度と、区間Bの再生速度とを仮決定する。
読み込んだプロファイルに、動体視力が弱いと記述され
ているかを判断し、その旨が記述されている場合には、
ステップS1804において、区間Aの再生速度と、区間B
の再生速度とを両方とも基準値より低い値に更新する。
従って、この値も、予めプロファイルに記憶しておくの
が望ましい。
当該プロファイルに動体視力が弱いとは記述されていな
いと判断されたので、当該プロファイルに、速い音声の
聴力が弱いと記述されているかを判断し、その旨が記述
されている場合には、ステップS1806において、区間A
の再生速度のみ低い値に更新する。従って、この値も、
予めプロファイルに記憶しておくのが望ましい。
当該プロファイルに速い音声の聴力が弱いとは記述され
ていないと判断されたので、再生すべき動画データに含
まれる音声内容の言語種別情報が入手可能であるかを判
断し、入手可能である場合にはステップS1808に進み、
入手不可能な場合には処理を終了する。
タに含まれる音声内容の言語種別情報を入手すると共
に、入手した言語種別情報と、現在選択されている当該
プロファイルに記述された得意言語情報とを比較し、こ
れら2種類の情報が一致する場合には処理を終了し、一
致しない場合には、ステップS1809において、区間Aの
再生速度のみ低い値に更新する。従って、この値も、予
めプロファイルに記憶しておくのが望ましい。
ップS1803、ステップS1805、並びにステップS1808の
どれにも当たらない場合には、ステップS1802において
仮決定された区間Aの再生速度、並びに区間Bの再生速
度がそのまま採用されることになる。
や早い音声の聴力が優れている場合や、逆に劣っている
場合には、区間Aの再生速度および区間Bの再生速度の
変更メニューを用いて、これらの値を変更できるように
構成すると良い。この場合、ユーザは、再生映像を見な
がら、区間Aの再生速度および区間Bの再生速度を適宜
変更し、自動的、或いはユーザに確認を求めた上で、設
定された再生速度情報を、当該ユーザに対応するプロフ
ァイルに記憶することにより、前回の操作情報を反映し
つつ個々のユーザに応じた理解しやすい動画早見再生を
行うことが可能となる。
に行うのであれば、例えば、ステップS1701乃至ステッ
プS1704、並びにステップS1706の各ステップにおける
処理の代わりに、区間Aの再生速度を0.5倍速から2倍速
まで、区間Bの再生速度を2倍速から10倍速までの間
で、ユーザが動作メニューを利用して可変設定可能に構
成する実施形態が想定される。
と、「キュルキュル」という音が出るが、その音を聞き
たくない場合には、区間Bの再生時には、音声再生はミ
ュート状態とすることによって音を出なくする、或い
は、小さな音量に変更する実施形態が想定される。この
ような設定に関しても、ステップS1703で読み込んだプ
ロファイルに予め記述しておき、動画早見再生時には、
係るプロファイルを最優先とし、ステップS1702でプロ
ファイルが存在しないと判定された場合には、ステップ
S1706では予め設定されている基準の音量を採用する。
もちろん更に簡易に行うのであれば、例えば、動画早見
再生処理が予め区間Bの音声再生レベルをどう処理する
か予め決めておく実施形態が想定される。
は、区間Aの再生速度および区間Bの再生速度、或いは
それら両方、並びに区間Bの音声レベルの指定を、ユー
ザ・プロファイルを用いることにより、個々のユーザに
最適な再生を簡便に実現することが可能となる。
デックス記憶部11から、早見再生区間補正処理(ステ
ップS104)にて補正済みの音声区間情報である早見再
生区間情報を読み込み、ステップS1707では、区間Aの
トータル長を再生速度で割ることによって区間Aの再生
時間を計算し、区間Bについても同様にして再生速度を
計算すると共に、これら2つの値を足すことによってユ
ーザが早見に要する時間を算出する。そして、算出され
た早見に要する時間は、ディスプレイ23等を利用して
ユーザに提示する。
早見再生時間を認識したユーザがその時間に満足してい
るか否かを、リモコン端末への入力操作等を利用して判
断し、この判断でユーザが満足している場合には、ステ
ップS1710において、上述した処理によって設定された
区間Aおよび区間Bの再生速度、並びに区間Bの音声再
生レベルに従って、動画データ記憶部10に記憶されて
いる再生対象の動画を再生する。
ユーザが満足していないと判断されたので、ユーザ所望
の再生時間に収まるように、区間Aおよび区間Bの再生
速度、並びに区間Bの音声再生レベルを変更可能なマン
マシン・インタフェースを提供することにより、プロフ
ァイルや標準設定に満足できないユーザ自身が望む再生
時間に近くなるように調節し、ステップS1707に戻る。
形態として、現在設定されている区間Aおよび区間Bの
再生速度に基づく動画再生を見ながら、それぞれの区間
に対して、ユーザ所望の再生速度を変更可能に構成し、
それに応じた早見に要する時間の算出及びその提示を行
なうことにより、プロファイルや標準設定に満足できな
いユーザ自身が望む再生時間に近くなるように調節する
構成も想定される。
所望の速度指示との関連であるが、ステップS1707にて
動画早見再生に要する時間を見たユーザが、所望の動画
早見再生に要する時間に収めるべく、区間Aおよび区間
Bの再生速度を変更可能なマンマシン・インタフェース
を用いて、これらの設定を調整・変更した場合には、そ
の調整・変更後の値を、基準値として採用したいことも
ある。そこで、このような場合には、自動的、或いは図
21に例示する確認画面により、ユーザによる確認を促
した後、「はい」が選択された場合には、ユーザによっ
て調整・変更された再生速度情報を、当該ユーザに対応
するプロファイルに記憶することにより、以降の動画再
生に際しては、前回の操作情報を反映しつつ当該ユーザ
に応じた理解しやすい動画早見再生を行うことが可能と
なる。
理として零交差数や音声エネルギを用いたが、その具体
的な処理手順は必ずしも上記のアルゴリズムに制約され
るものではなく、公知の特徴量を用いたり、或いは異な
るラベル判定アルゴリズムを用いても良い。
理の趣旨は、ローパスフィルタが施された音声信号の零
交差点情報を用いて、その音声信号を、合理的な複数の
音声セグメント(音声区間)に分割し、その際、波形処
理によって音声ピッチを検出すると共に音声ラベリング
を行った後に、人の声の大半を占める母音に必ず伴う所
定の音声ピッチを基準に、CVC音声モデル等の音声の
特徴を用いて上記複数の音声セグメントを統合すること
により、係る音声信号にBGM等の外乱が含まれる場合
であっても、その外乱をリカバリする処理を含むところ
にある。
実現方法に関して制約は無く、また、音声ラベリングに
関しては必ずしも本実施形態のアルゴリズムに制約され
るものではなく、異なるラベル判定アルゴリズムを用い
ても良い。
処理(図11)においても、ステップS1106にて行われ
るところの、無声子音セグメントあるいは有声子音セグ
メントおよびピッチセグメントを統合することによって
音声区間を求める処理と、S1107にて行われるところ
の、隣接あるいは間に無音セグメントまたは雑音セグメ
ントを持つ2つのピッチセグメントを統合することによ
って音声区間を求める処理との順序は、上述した実施形
態に限定するものではなく、これらの処理を並行して処
理するアルゴリズムでも良い。
ザ・プロファイルを選択する際の手順として、リモコン
端末を利用してユーザがプロファイル選択画面を適宜指
定し、ディスプレイ12に表示されたユーザ・プロファ
イルリストの中から自分のユーザ・プロファイルを選択
する構成例を説明したが、この構成に限られるものでは
なく、例えば、パスワードにより他人のユーザ・プロフ
ァイルの変更や削除等の操作を防ぐ構成を採用しても良
い。
術を用いた自動的なプロファイル選択方法も当然考えら
れ、これらの場合にはパスワードにより他人のユーザ・
プロファイルの変更や削除等の操作を防ぐ必要が無く便
利である。
れた早見再生に要する時間をユーザが確認した上で、ユ
ーザ所望の再生時間に収まるように、区間Aの再生速度
および区間Bの再生速度を変更することにより、プロフ
ァイルや標準設定に満足できないユーザが、自身が望む
再生時間に近くなるように調節する構成例を挙げたが、
この構成に限られるものではなく、例えば、ユーザが再
生映像を見ながら、区間Aの再生速度および区間Bの再
生速度をそれぞれの変更可能に構成しておき、その設定
に応じた早見に要する時間を再計算し、これをユーザに
提示することにより、ユーザ自身が望む再生時間に近く
なるように調節する実施形態も存在する。
した音声発声メカニズムの基本は声帯の振動、いわゆる
音声ピッチであり、これを音声信号中から抽出すること
によって有用な音声区間を得て、真の人の音声区間を検
出し、その区間を用いて、映像と音声との同期関係は崩
すことなく、動画早見再生時には、人の発した音声は全
て内容を把握できる速度で再生する一方で、人の発した
音声の含まれない区間(区間B)は、より高速に再生す
る。これにより、動画早見再生時のトータルの閲覧時間
を、等倍再生を行なった場合と比較して合理的に減らす
ことが可能となる。
速度および区間Bの再生速度を、ユーザ・プロファイル
14を用いることにより、個々のユーザに適した再生速
度に簡便に設定可能であると共に、区間Bの再生時にお
ける音量も、ユーザに適したものに設定できる。
する時間を予め、或いは動画の再生中に表示することに
より、これに満足できないユーザは、区間Aの再生速度
および区間Bの再生速度を指定することにより、当該ユ
ーザに最適な早見再生に要する時間に調整することがで
き、調整によって設定された情報は、当該ユーザに対応
するプロファイルに更新記憶することが可能であるの
で、次回の早見再生に際して適切な動画再生を行なうこ
とができる。
発明は、複数の機器から構成されるシステムに適用して
も良いし、また、一つの機器からなる装置に適用しても
良い。
て説明したフローチャートの機能を実現するソフトウェ
ア・プログラムを、上述した動画再生装置として動作す
るシステム或いは装置に直接或いは遠隔から供給し、そ
のシステム或いは装置のコンピュータが該供給されたプ
ログラムコードを読み出して実行することによっても達
成される場合を含む。その場合、プログラムの機能を有
していれば、形態は、プログラムである必要はない。
で実現するために、該コンピュータにインストールされ
るプログラムコード自体も本発明を実現するものであ
る。つまり、本発明のクレームでは、本発明の機能処理
を実現するためのコンピュータプログラム自体も含まれ
る。
ば、オブジェクトコード、インタプリタにより実行され
るプログラム、OSに供給するスクリプトデータ等、プ
ログラムの形態を問わない。
ては、例えば、フロッピー(登録商標)ディスク、ハー
ドディスク、光ディスク、光磁気ディスク、MO、CD
−ROM、CD−R、CD−RW、磁気テープ、不揮発
性のメモリカード、ROM、DVD(DVD−ROM,
DVD−R)などがある。
クライアントコンピュータのブラウザを用いてインター
ネットのホームページに接続し、該ホームページから本
発明のコンピュータプログラムそのもの、もしくは圧縮
され自動インストール機能を含むファイルをハードディ
スク等の記録媒体にダウンロードすることによっても供
給できる。また、本発明のプログラムを構成するプログ
ラムコードを複数のファイルに分割し、それぞれのファ
イルを異なるホームページからダウンロードすることに
よっても実現可能である。つまり、本発明の機能処理を
コンピュータで実現するためのプログラムファイルを複
数のユーザに対してダウンロードさせるWWW(World W
ide Web)サーバも、本発明のクレームに含まれるもので
ある。
D−ROM等の記憶媒体に格納してユーザに配布し、所
定の条件をクリアしたユーザに対し、インターネットを
介してホームページから暗号化を解く鍵情報をダウンロ
ードさせ、その鍵情報を使用することにより暗号化され
たプログラムを実行してコンピュータにインストールさ
せて実現することも可能である。
ラムを実行することによって、前述した実施形態の機能
が実現される他、そのプログラムの指示に基づき、コン
ピュータ上で稼動しているOSなどが、実際の処理の一
部または全部を行ない、その処理によっても前述した実
施形態の機能が実現され得る。
ラムが、コンピュータに挿入された機能拡張ボードやコ
ンピュータに接続された機能拡張ユニットに備わるメモ
リに書き込まれた後、そのプログラムの指示に基づき、
その機能拡張ボードや機能拡張ユニットに備わるCPU
などが実際の処理の一部または全部を行ない、その処理
によっても前述した実施形態の機能が実現される。
た音声区間を正確に検出すると共に、検出した音声区間
に従って映像と音声との同期関係を忠実に維持しなが
ら、ユーザの閲覧所要時間を大幅に短縮する動画再生装
置、動画再生方法及びそのコンピュータ・プログラムの
提供が実現する。
見アルゴリズムの概念図を表す図である。
われる人の発声期間を表わす音声区間(区間A)検出の
ためのアルゴリズムを表わすブロック図である。
示すフローチャートである。
合処理を説明する図である。
処理を示すフローチャートである。
化からラベリングに至るまでの処理過程を説明する図で
ある。
のための音声信号波形を例示する図である。
れるピッチ検出基準の更新手順を説明する図である。
フローチャートである。
すフローチャートのうち、ステップS904(図9)の処
理の詳細を示すフローチャートである。
フローチャートである。
フローチャートのうち、ステップS1106(図11)の処
理の詳細を示すフローチャートである。
フローチャートのうち、ステップS1107(図11)の処
理の詳細を示すフローチャートである。
して行われる統合補正処理を示すフローチャートであ
る。
て行われる音声区間統合補正処理を示すフローチャート
である。
フローチャートである。
フローチャートのうち、ステップS1704(図16)の処
理の詳細を示すフローチャートである。
示する図である。
示する図である。
例を示す図である。
しないユーザが設定変更をした場合に、調整・変更され
た値を次回以降の動画再生時に基準値として用いるか確
認を促す表示画面を例示する図である。
Claims (30)
- 【請求項1】 音声信号を含む動画情報を高速度で再生
可能な動画再生装置であって、 前記動画情報に含まれる音声信号に基づいて、人の発声
期間を表わす第1音声区間と、それ以外の第2音声区間
とを判定する音声区間判定手段と、 前記動画情報に基づいて、前記第1音声区間は、ユーザ
が内容を把握可能な所定速度で、再生音声を伴う高速動
画再生を行なう一方で、前記第2音声区間は、前記所定
速度より高速度で、少なくとも高速動画再生を行なう早
見再生手段と、を備えることを特徴とする動画再生装
置。 - 【請求項2】 前記早見再生手段は、前記第2音声区間
において、前記所定速度より高速度で、少なくとも小音
量の再生音声を伴う動画再生を行なうことを特徴とする
請求項1記載の動画再生装置。 - 【請求項3】 前記早見再生手段は、前記第2音声区間
において、前記所定速度より高速度で、無音声にて動画
再生を行なうことを特徴とする請求項1記載の動画再生
装置。 - 【請求項4】 前記音声区間判定手段は、前記音声信号
に基づいて、声帯振動に対応する音声ピッチを抽出し、
抽出した音声ピッチに基づいて、前記第1音声区間を判
定することを特徴とする請求項1乃至請求項3の何れか
に記載の動画再生装置。 - 【請求項5】 前記早見再生手段において、前記第2音
声区間における音声再生時の音量は、予め決定されるま
たはユーザが指定可能であることを特徴とする請求項1
乃至請求項3の何れかに記載の動画再生装置。 - 【請求項6】 前記音声区間判定手段は、 前記音声信号に含まれる人の発した音声帯域にフィルタ
リングを施すことによって得られる信号から、存在し得
る声帯振動数範囲のピッチを抽出することによって人の
声の支配的な母音部を検出すると共に、検出した母音部
を統合することにより、前記第1音声区間を決定するこ
とを特徴とする請求項1乃至請求項3の何れかに記載の
動画再生装置。 - 【請求項7】 前記音声区間判定手段は、前記音声信号
に基づいて、前記第1音声区間を判定するに際して、時
間軸上で近接する複数の前記第1音声区間を、統合補正
する補正手段を含むことを特徴とする請求項1乃至請求
項3の何れかに記載の動画再生装置。 - 【請求項8】 前記補正手段は、前記動画情報に含まれ
るシーンチェンジ点を検出すると共に、検出した個々の
シーンチェンジ点のうち、着目する前記第1音声区間の
始点よりも時間的に早く且つ最も近傍に位置する近傍シ
ーンチェンジ点と、その始点との時間間隔が所定のしき
い値以下である場合に、該着目する前記第1音声区間の
始点を、該近傍シーンチェンジ点に対応する情報に置き
換えることによって補正することを特徴とする請求項7
記載の動画再生装置。 - 【請求項9】 前記早見再生手段は、前記第1音声区間
の長さとその区間の再生速度、並びに前記第2音声区間
の長さに基づいて、前記高速動画再生に要する所要時間
を算出すると共に、算出した所要時間をユーザに提示す
ることを特徴とする請求項1乃至請求項3の何れかに記
載の動画再生装置。 - 【請求項10】 前記早見再生手段は、前記所要時間を
提示するのに応じて、前記第1及び第2音声区間の再生
速度の変更操作がユーザによって行われた場合に、その
変更後の再生速度に基づいて、前記所要時間を調整する
調整手段を含むことを特徴とする請求項9記載の動画再
生装置。 - 【請求項11】 更に、前記動画再生装置を利用可能な
ユーザを対象として、個々のユーザに関する属性情報が
登録されたユーザ・プロファイルを備え、前記早見再生
手段は、前記ユーザ・プロファイルに登録されていると
ころの、特定ユーザに関する属性情報に従って、前記第
1及び第2音声区間の再生速度を自動的に決定すること
を特徴とする請求項1乃至請求項3の何れかに記載の動
画再生装置。 - 【請求項12】 前記ユーザ・プロファイルには、前記
個々のユーザに関する属性情報として、年齢、使用言
語、動体視力、並びに早い音声の聴力のうち少なくとも
何れかが含まれることを特徴とする請求項11記載の動
画再生装置。 - 【請求項13】 前記早見再生手段は、 前記特定ユーザに関する属性情報に従って自動的に決定
したところの、前記第1音声区間の長さとその区間の再
生速度、並びに前記第2音声区間の長さに基づいて、前
記高速動画再生に要する所要時間を算出すると共に、算
出した所要時間を該ユーザに提示すると共に、その所要
時間を提示するのに応じて、前記第1及び第2音声区間
の再生速度の変更操作がユーザによって行われた場合
に、その変更後の再生速度に基づいて、前記所要時間を
調整する調整手段を含むことを特徴とする請求項11ま
たは請求項12記載の動画再生装置。 - 【請求項14】 前記調整手段は、前記変更後の第1及
び第2音声区間の再生速度を、前記特定ユーザに関する
属性情報と関連付けして、前記ユーザ・プロファイルに
記憶し、 前記早見再生手段は、前記高速動画再生に際して、前記
ユーザ・プロファイルに記憶された変更後の第1及び第
2音声区間の再生速度を反映することを特徴とする請求
項13記載の動画再生装置。 - 【請求項15】 前記早見再生手段は、 前記第2音声区間の再生態様に関する情報がユーザによ
って指定された場合に、前記ユーザ・プロファイルに記
憶された該ユーザに関する属性情報に対して、該再生態
様に関する情報を関連付けして、前記ユーザ・プロファ
イルに記憶すると共に、前記高速動画再生に際して、前
記ユーザ・プロファイルに記憶された前記第2音声区間
の再生態様に関する情報を反映することを特徴とする請
求項11記載の動画再生装置。 - 【請求項16】 前記第1音声区間の高速動画再生時の
前記所定速度は、等速再生の1.5倍乃至2倍の速度で
あることを特徴とする請求項1記載の動画再生装置。 - 【請求項17】 前記早見再生手段は、前記ユーザ・プ
ロファイルに登録された前記ユーザに関する属性情報
に、高齢者、視覚障害者、或いは聴覚障害者であること
を示す識別情報が含まれる場合に、その識別情報に対応
するユーザを対象として前記高速動画再生を行なうに際
して、前記第1音声区間の再生速度は前記等倍速度より
遅くし、前記第2音声区間の再生速度は前記等倍速度よ
り速く行なうことを特徴とする請求項11記載の動画再
生装置。 - 【請求項18】 前記早見再生手段は、前記ユーザ・プ
ロファイルに登録された前記ユーザに関する属性情報
に、そのユーザの使用言語を示す識別情報が含まれ、そ
の識別情報と、前記動画情報に含まれる言語種別情報と
が一致しない場合には、その識別情報に対応するユーザ
を対象として前記高速動画再生を行なうに際して、前記
第1音声区間の再生速度は前記等倍速度より遅くし、前
記第2音声区間の再生速度は5倍速乃至10倍速で行な
うことを特徴とする請求項11記載の動画再生装置。 - 【請求項19】 前記ユーザ・プロファイルには、前記
動画再生装置を利用可能な複数のユーザを対象として、
個々のユーザに関する属性情報が登録されており、 前記早見再生手段は、特定ユーザの選択操作に応じて、
または個人認証技術に基づいて、その特定ユーザに関す
る属性情報を、前記ユーザ・プロファイルから取得する
ことを特徴とする請求項11記載の動画再生装置。 - 【請求項20】 更に、前記ユーザ・プロファイルに登
録された特定ユーザに関する属性情報を、その特定ユー
ザ自身が変更可能な属性情報変更手段を備えることを特
徴とする請求項11記載の動画再生装置。 - 【請求項21】 音声信号を含む動画情報を高速度で再
生する動画再生方法であって、 前記動画情報に含まれる音声信号に基づいて、人の発声
期間を表わす第1音声区間と、それ以外の第2音声区間
とを判定する音声区間判定工程と、 前記動画情報に基づいて、前記第1音声区間は、ユーザ
が内容を把握可能な所定速度で、再生音声を伴う高速動
画再生を行なう一方で、前記第2音声区間は、前記所定
速度より高速度で、少なくとも高速動画再生を行なう早
見再生工程と、を有することを特徴とする動画再生方
法。 - 【請求項22】 前記早見再生工程では、前記第2音声
区間において、前記所定速度より高速度で、少なくとも
小音量の再生音声を伴う動画再生を行なうことを特徴と
する請求項21記載の動画再生方法。 - 【請求項23】 前記早見再生工程では、前記第2音声
区間において、前記所定速度より高速度で、無音声にて
動画再生を行なうことを特徴とする請求項21記載の動
画再生方法。 - 【請求項24】 前記音声区間判定工程では、前記音声
信号に基づいて、声帯振動に対応する音声ピッチを抽出
し、抽出した音声ピッチに基づいて、前記第1音声区間
を判定することを特徴とする請求項21乃至請求項23
の何れかに記載の動画再生方法。 - 【請求項25】 前記音声区間判定工程では、前記音声
信号に含まれる人の発した音声帯域にフィルタリングを
施すことによって得られる信号から、存在し得る声帯振
動数範囲のピッチを抽出することによって人の声の支配
的な母音部を検出すると共に、検出した母音部を統合す
ることにより、前記第1音声区間を決定することを特徴
とする請求項21乃至請求項23の何れかに記載の動画
再生方法。 - 【請求項26】 前記音声区間判定工程では、前記音声
信号に基づいて、前記第1音声区間を判定するに際し
て、時間軸上で近接する複数の前記第1音声区間を、統
合補正することを特徴とする請求項21乃至請求項23
の何れかに記載の動画再生方法。 - 【請求項27】 前記音声区間判定工程では、前記補正
に際して、前記動画情報に含まれるシーンチェンジ点を
検出すると共に、検出した個々のシーンチェンジ点のう
ち、着目する前記第1音声区間の始点よりも時間的に早
く且つ最も近傍に位置する近傍シーンチェンジ点と、そ
の始点との時間間隔が所定のしきい値以下である場合
に、該着目する前記第1音声区間の始点を、該近傍シー
ンチェンジ点に対応する情報に置き換えることによって
補正することを特徴とする請求項26記載の動画再生方
法。 - 【請求項28】 更に、前記動画再生装置を利用可能な
ユーザを対象として、個々のユーザに関する属性情報
を、ユーザ・プロファイルとして登録する登録工程を有
し、 前記早見再生工程では、前記ユーザ・プロファイルに登
録されているところの、特定ユーザに関する属性情報に
従って、前記第1及び第2音声区間の再生速度を自動的
に決定することを特徴とする請求項21乃至請求項23
の何れかに記載の動画再生方法。 - 【請求項29】 請求項1乃至請求項20の何れかに記
載の動画再生装置を、コンピュータによって実現可能な
動作指示をなすことを特徴とするコンピュータ・プログ
ラム。 - 【請求項30】 請求項21乃至請求項28の何れかに
記載の動画再生方法として、コンピュータを動作させる
指示をなすことを特徴とするコンピュータ・プログラ
ム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002113624A JP4086532B2 (ja) | 2002-04-16 | 2002-04-16 | 動画再生装置、動画再生方法及びそのコンピュータ・プログラム |
US10/413,390 US7286749B2 (en) | 2002-04-16 | 2003-04-15 | Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period |
US11/756,777 US7450821B2 (en) | 2002-04-16 | 2007-06-01 | Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002113624A JP4086532B2 (ja) | 2002-04-16 | 2002-04-16 | 動画再生装置、動画再生方法及びそのコンピュータ・プログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007317591A Division JP4455644B2 (ja) | 2007-12-07 | 2007-12-07 | 動画再生装置、動画再生方法及びそのコンピュータ・プログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003309814A true JP2003309814A (ja) | 2003-10-31 |
JP2003309814A5 JP2003309814A5 (ja) | 2005-05-19 |
JP4086532B2 JP4086532B2 (ja) | 2008-05-14 |
Family
ID=29395757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002113624A Expired - Fee Related JP4086532B2 (ja) | 2002-04-16 | 2002-04-16 | 動画再生装置、動画再生方法及びそのコンピュータ・プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4086532B2 (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006033120A (ja) * | 2004-07-13 | 2006-02-02 | Alpine Electronics Inc | テレビ放送受信システム |
JP2006121570A (ja) * | 2004-10-25 | 2006-05-11 | Pioneer Electronic Corp | 変速再生装置及び変速再生方法 |
JP2007094060A (ja) * | 2005-09-29 | 2007-04-12 | Yamaha Corp | コンテンツ再生装置、コンテンツ再生方法、及びコンテンツ再生プログラム |
JP2008242082A (ja) * | 2007-03-27 | 2008-10-09 | Konami Digital Entertainment:Kk | 音声処理装置、音声処理方法、ならびに、プログラム |
JP2008283236A (ja) * | 2007-05-08 | 2008-11-20 | Sony Corp | 画像処理システム、画像処理方法、およびプログラム |
JP2009048676A (ja) * | 2007-08-14 | 2009-03-05 | Toshiba Corp | 再生装置および方法 |
JP2010206279A (ja) * | 2009-02-27 | 2010-09-16 | Toshiba Corp | 映像音声再生装置および映像音声再生方法 |
WO2010125776A1 (ja) * | 2009-04-28 | 2010-11-04 | パナソニック株式会社 | デジタル信号再生装置及びデジタル信号圧縮装置 |
JP2012105012A (ja) * | 2010-11-09 | 2012-05-31 | Canon Inc | 動画再生装置、動画再生方法、コンピュータプログラム、記憶媒体 |
US8682132B2 (en) | 2006-05-11 | 2014-03-25 | Mitsubishi Electric Corporation | Method and device for detecting music segment, and method and device for recording data |
US8855796B2 (en) | 2005-12-27 | 2014-10-07 | Mitsubishi Electric Corporation | Method and device for detecting music segment, and method and device for recording data |
-
2002
- 2002-04-16 JP JP2002113624A patent/JP4086532B2/ja not_active Expired - Fee Related
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006033120A (ja) * | 2004-07-13 | 2006-02-02 | Alpine Electronics Inc | テレビ放送受信システム |
JP4515176B2 (ja) * | 2004-07-13 | 2010-07-28 | アルパイン株式会社 | テレビ放送受信システム |
JP4551734B2 (ja) * | 2004-10-25 | 2010-09-29 | パイオニア株式会社 | 変速再生装置及び変速再生方法 |
JP2006121570A (ja) * | 2004-10-25 | 2006-05-11 | Pioneer Electronic Corp | 変速再生装置及び変速再生方法 |
JP2007094060A (ja) * | 2005-09-29 | 2007-04-12 | Yamaha Corp | コンテンツ再生装置、コンテンツ再生方法、及びコンテンツ再生プログラム |
US8855796B2 (en) | 2005-12-27 | 2014-10-07 | Mitsubishi Electric Corporation | Method and device for detecting music segment, and method and device for recording data |
US8682132B2 (en) | 2006-05-11 | 2014-03-25 | Mitsubishi Electric Corporation | Method and device for detecting music segment, and method and device for recording data |
JP2008242082A (ja) * | 2007-03-27 | 2008-10-09 | Konami Digital Entertainment:Kk | 音声処理装置、音声処理方法、ならびに、プログラム |
JP4563418B2 (ja) * | 2007-03-27 | 2010-10-13 | 株式会社コナミデジタルエンタテインメント | 音声処理装置、音声処理方法、ならびに、プログラム |
JP2008283236A (ja) * | 2007-05-08 | 2008-11-20 | Sony Corp | 画像処理システム、画像処理方法、およびプログラム |
US8428430B2 (en) | 2007-05-08 | 2013-04-23 | Sony Corporation | Image processing system, image processing method, and program |
JP2009048676A (ja) * | 2007-08-14 | 2009-03-05 | Toshiba Corp | 再生装置および方法 |
JP2010206279A (ja) * | 2009-02-27 | 2010-09-16 | Toshiba Corp | 映像音声再生装置および映像音声再生方法 |
JP4679647B2 (ja) * | 2009-02-27 | 2011-04-27 | 株式会社東芝 | 映像音声再生装置および映像音声再生方法 |
US8116608B2 (en) | 2009-02-27 | 2012-02-14 | Kabushiki Kaisha Toshiba | Method and apparatus for reproducing video and audio |
WO2010125776A1 (ja) * | 2009-04-28 | 2010-11-04 | パナソニック株式会社 | デジタル信号再生装置及びデジタル信号圧縮装置 |
CN102414744B (zh) * | 2009-04-28 | 2013-09-18 | 松下电器产业株式会社 | 数字信号再生装置以及数字信号压缩装置 |
CN102414744A (zh) * | 2009-04-28 | 2012-04-11 | 松下电器产业株式会社 | 数字信号再生装置以及数字信号压缩装置 |
JP2010256805A (ja) * | 2009-04-28 | 2010-11-11 | Panasonic Corp | デジタル信号再生装置及びデジタル信号圧縮装置 |
JP2012105012A (ja) * | 2010-11-09 | 2012-05-31 | Canon Inc | 動画再生装置、動画再生方法、コンピュータプログラム、記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP4086532B2 (ja) | 2008-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4866359B2 (ja) | 記録再生装置、記録再生方法、記録再生プログラムおよびコンピュータに読み取り可能な記録媒体 | |
JP4695392B2 (ja) | 画像と自動同期させるサウンド置換に使用する方法及び装置 | |
US7450821B2 (en) | Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period | |
US8917972B2 (en) | Modifying audio in an interactive video using RFID tags | |
KR101958664B1 (ko) | 멀티미디어 콘텐츠 재생 시스템에서 다양한 오디오 환경을 제공하기 위한 장치 및 방법 | |
US20100298959A1 (en) | Speech reproducing method, speech reproducing device, and computer program | |
JP4596060B2 (ja) | 電子機器、動画像データ区間変更方法及びプログラム | |
US20080221876A1 (en) | Method for processing audio data into a condensed version | |
US8457322B2 (en) | Information processing apparatus, information processing method, and program | |
EP1924092A1 (en) | Content replay apparatus, content reproducing apparatus, content replay method, content reproducing method, program and recording medium | |
US20210151082A1 (en) | Systems and methods for mixing synthetic voice with original audio tracks | |
JP4086532B2 (ja) | 動画再生装置、動画再生方法及びそのコンピュータ・プログラム | |
JP2009296346A (ja) | 番組推薦装置、番組推薦方法及び番組推薦プログラム | |
US7929844B2 (en) | Video signal playback apparatus and method | |
JP2007295218A (ja) | ノンリニア編集装置およびそのプログラム | |
JP4455644B2 (ja) | 動画再生装置、動画再生方法及びそのコンピュータ・プログラム | |
JP2010283605A (ja) | 映像処理装置及び方法 | |
US20050069282A1 (en) | Information reproducing method, recording medium on which information reproducing program is computer-readably recorded, and information reproducing apparatus | |
JP2003309814A5 (ja) | ||
JP5039020B2 (ja) | 電子機器および映像コンテンツ情報表示方法 | |
JP4086886B2 (ja) | 動画再生装置、動画再生方法及びそのコンピュータ・プログラム | |
JP4509188B2 (ja) | 動画再生装置、動画再生方法及びそのコンピュータ・プログラム | |
JP3970080B2 (ja) | 動画再生装置、動画再生方法及びそのコンピュータ・プログラム | |
WO1998044483A1 (en) | Time scale modification of audiovisual playback and teaching listening comprehension | |
JP4563418B2 (ja) | 音声処理装置、音声処理方法、ならびに、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040706 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040706 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070416 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070525 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070724 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071012 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071211 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080219 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110228 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120229 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130228 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140228 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |