JP5901790B2 - メディアデータにおける低計算量反復検出 - Google Patents
メディアデータにおける低計算量反復検出 Download PDFInfo
- Publication number
- JP5901790B2 JP5901790B2 JP2014547332A JP2014547332A JP5901790B2 JP 5901790 B2 JP5901790 B2 JP 5901790B2 JP 2014547332 A JP2014547332 A JP 2014547332A JP 2014547332 A JP2014547332 A JP 2014547332A JP 5901790 B2 JP5901790 B2 JP 5901790B2
- Authority
- JP
- Japan
- Prior art keywords
- media data
- fingerprint
- features
- media
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims description 61
- 238000000034 method Methods 0.000 claims description 118
- 239000013598 vector Substances 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 26
- 230000008859 change Effects 0.000 claims description 23
- 230000033764 rhythmic process Effects 0.000 claims description 22
- 239000000203 mixture Substances 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims 1
- 230000008602 contraction Effects 0.000 claims 1
- 239000011159 matrix material Substances 0.000 description 69
- 238000001228 spectrum Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 26
- 230000002123 temporal effect Effects 0.000 description 24
- 238000012545 processing Methods 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 20
- 241001342895 Chorus Species 0.000 description 18
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 17
- 238000004891 communication Methods 0.000 description 16
- 238000000605 extraction Methods 0.000 description 14
- 230000003252 repetitive effect Effects 0.000 description 13
- 239000011295 pitch Substances 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 9
- 238000013459 approach Methods 0.000 description 7
- 238000009795 derivation Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000009877 rendering Methods 0.000 description 6
- 238000010200 validation analysis Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000037433 frameshift Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000005496 tempering Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Auxiliary Devices For Music (AREA)
Description
[関連米国出願]
本出願は、2011年12月12日に出願された仮米国特許出願第61/569,591号の優先権を主張するものであり、参照によりその全体が本明細書に組み入れられる。本出願は、2010年12月30日に出願された仮米国特許出願第61/428578号、2010年12月30日に出願された仮米国特許出願第61/428588号、2010年12月30日に出願された仮米国特許出願第61/428554号に関連したものであり、各々参照によりその全体が本明細書に組み入れられる。
1.概論
2.特徴抽出のためのフレームワーク
3.スペクトルベースの指紋
4.クロマ特徴
5.他の特徴
5.1メル周波数ケプストラム係数(MFCC:MEL−FREQUENCY CEPSTRAL COEFFICIENT)
5.2リズム特徴
6.反復部分の検出
6.1.指紋マッチング
6.2.有意な(候補)オフセットの検出
6.3.クロマ距離分析
6.4.類似度行の算出
7.場面変化検出を使用した改善
8.ランク付け
9.他の応用
10.例示的プロセスフロー
10.1.例示的な反復検出プロセスフロー 指紋マッチングおよび探索
10.2.例示的な反復検出プロセスフロー ハイブリッド手法
11.実装機構 ハードウェア概要
12.均等物、拡張、代替、その他
この概論は、本発明の一例示的実施形態のいくつかの態様の基本的な説明を提示するものである。この概論は、可能な実施形態の態様の幅広い、または網羅的な要約ではないことに留意すべきである。さらに、この概論は、可能な実施形態の特に重要な態様または要素を特定するものと理解されることも、特定の可能な実施形態、または本発明全体の範囲を明確化するものと理解されることも意図したものではないことにも留意すべきである。この概論は、単に、例示的な可能な実施形態に関連したいくつかの概念を、要約された、簡単な形式で提示するにすぎず、単に、以下の例示的実施形態のより詳細な説明の概念的な前置きと理解すべきである。
ある実施形態では、有意なオフセット値は、距離行列の低分解能表現を使用して特定されうる。低時間分解能の距離行列は、後述する例示的手法に従って算出される。一実施形態は、曲全体または他の音楽コンテンツを表すものと仮定されるN個の特徴ベクトル(f1,f2,…,fi,…,fN)を用いて機能する。完全距離行列が特徴ベクトルf(i)(iはフレームインデックスを指す)から算出され、D(o,i)=dist(f(i),f(i+o))であり、oはオフセット値のインデックスを表す。サブサンプリングされた距離行列(低時間分解能など)について、特徴ベクトルからのある一定のフレームが、D(o,i)=dist(f(Ki),f(Ki+o))に従って単純にスキップされ、式中、Kは、サブサンプリング係数を表す整数を表し、例えば、K=2,3,4,…である。サブサンプリング係数が2を含む一実施形態が実装される。
まず、距離行列の各行が(例えば、数秒の長さのMAフィルタを用いて)平滑化される。平滑化された行列中の低い値は、平滑フィルタの長さと同様の長さのオーディオセグメントに対応する。平滑化された距離行列は、有意なオフセットを見つけるために極小値の点を求めて探索される。一実施形態は、以下に列挙する例示的ステップに従って、極小値を反復して見つける。
1.最小値を見つける(オフセット、および時間値:omin,nm,inをもたらす)
dmin=min(D(o,i))、式中、dmin=D(omin,nm,in)
2.オフセット値を有意なオフセットとして記録する。
3.D(omin±ro,nmin±rn)=∞、式中、ro=0,1,…,Rn、rn=0,1,…,Nn、を設定することにより、次回の極小値の探索のために、ある一定の範囲内の見つかった極小値の前後の値を除外する。(Nnがフレーム数(=Dの列の数)に等しい一実施形態が実装され、例えば、記録された有意なオフセットのすべての列((時間フレーム)が除外される。
4.所望の数の有意なオフセットに達するまで、例示的ステップ1から反復する。
一実施形態は、クロマ距離値の最小数Mmin、最大数Mmax、および閾値THを用いて、有意なオフセットの数を定義する。Mmin個以上のオフセット(例えば、Mmin=3)が獲得される。次いで、見つかった値が十分に低いことを確認するために、例えば、最大Mmaxの数(例えば、Mmax=10)のオフセットまで、クロマ−距離値の条件が検査される。大域的最小値(例えば、最初の反復で見つかった最小値)から、例えば、dmin*1.25として閾値が決定される。これは、前述の例示的ステップを幾分変更する。例えば、一実施形態では、ステップ1およびステップ4が後述する以下のように変化する。
1.最小値(オフセット、および時間値:omin,nm,inをもたらす)が見つけられる
dmin=min(D(o,i))、式中、dmin=D(omin,nm,in)。
Mmin個のオフセットが獲得される場合、クロマ−距離閾値を検査する:dmin<THの場合にはステップ2に進み、そうでない場合には停止する。
4.ステップ1から反復する。(例えば、Mmax個のオフセットが獲得されるまで)。
図1Bに、4回の反復1001、1002、a1003および1004にわたって(例えば4回の反復の間に)算出される、例示的距離行列1000を示す。検出された最小値は黒い×印で表されている。反復ごとに、前の最小値の前後の範囲が、次の反復での探索のために除外される。
一実施形態では、本発明のメディア処理システムは、図1に示す4つの主要な構成要素を含んでいてよい。特徴抽出構成要素は、曲といったメディアデータから様々な特徴タイプを抽出しうる。反復検出構成要素は、反復的なメディアデータの時間的セクションを、例えば、メディアデータの抽出された特徴に表されたこれらのセクション内の曲の旋律、和声、歌詞、音色といったメディアデータのある一定の特性に基づいて見つけてよい。
指紋抽出(例えば、コンテンツ成分からの指紋導出)は、メディアデータの基礎となるセクションの識別子として機能しうるコンパクトなビットストリーム表現を作成する。一般に、メディアデータの悪意のある調節(tempering)を検出するために、指紋は、符号化、ダイナミックレンジ圧縮(DRC:Dynamic Range Compression)、等化などを含む様々な信号処理/改ざん操作に対するロバスト性を保有するように設計されうる。しかし、本明細書に記載するメディアデータ内の反復セクションを見つける目的では、指紋のロバスト性要件は緩和されてよい。というのは、指紋のマッチングは同じ曲内で行われるからである。通常の指紋システムによって処理されなければならない悪意のある攻撃は、本明細書に記載するメディアデータには含まれず、または比較的まれであると思われる。
本明細書で使用する場合、クロマグラムという用語は、n次元のクロマベクトルに関するものとしてよい。例えば、12平均律のチューニングシステムにおけるメディアデータでは、クロマグラムは、各次元が半音クラス(クロマ)の強度(あるいは振幅)に対応する12次元のクロマベクトルとして定義されうる。異なる次元数のクロマベクトルが、他のチューニングシステムについて定義されてよい。クロマグラムは、オーディオスペクトルを単一のオクターブへマップし、折り畳むことによって獲得されてよい。クロマベクトルは、1オクターブ内の12ピッチのクラスへと離散化されうるクロマ上の振幅分散を表す。クロマベクトルは、オーディオ信号の旋律および和声のコンテンツを取り込み、反復セクションまたは類似のセクションを決定するのに使用された指紋との関連で前述した分光写真よりも、音色の変化に対して低感度としてよい。
本発明の技法は、本項で説明する、MFCC、リズム特徴、およびエネルギーといったメディアデータから抽出される様々な特徴を使用してよい。前述のように、本明細書に記載する抽出される特徴の一部、または全部が、場面変化検出にも適用されてよい。加えて、かつ/または任意選択で、これらの特徴の一部、または全部が、本明細書に記載するランク付け構成要素によっても使用されてよい。
メル周波数ケプストラム係数(MFCC)は、オーディオ信号のスペクトルエンベロープのコンパクトな表現を提供することを目指すものである。MFCC特徴は音色の良好な記述を提供することができ、また、本明細書に記載する技法の音楽的応用例でも使用されうる。
リズム特徴の算出のいくつかのアルゴリズム詳細は、Hollosi,D.,Biswas,A.,「Complexity Scalable Perceptual Tempo Estimation from HE−AAC Encoded Music」,in 128th AES Convention,London,UK,22−25 May 2010に記載されており、その全内容は、参照により、あたかもそれが本明細書に完全に明記されているかのように本明細書に組み入れられる。一実施形態では、HE−AAC符号化音楽からの知覚的テンポ推定が、変調周波数に基づいて実行されうる。本発明の技法は知覚的テンポ訂正段を含んでいてよく、知覚的テンポ修正段では、リズム特徴を使用してオクターブ誤りが訂正される。リズム特徴を算出するための例示的手順は以下のように説明されうる。
一実施形態では、本明細書に記載する反復検出(または反復部分の検出)は、指紋とクロマ特徴両方に基づくものとしてよい。一実施形態では、最初に、木ベースの探索を使用した指紋問い合わせが実行されてよく、オーディオ信号のセグメントごとの最良一致が特定され、それによって、一または複数の最良一致が生じる。続いて、最良一致の中からのデータを使用して反復が発生するオフセット値が求められてよく、クロマ距離行列の対応する行が算出され、さらに分析される。図14に、システムの例示的な詳細なブロック図を示し、抽出された特徴が反復セクションを検出するためにどのように処理されるかを示す。
一実施形態では、本明細書に記載する技法を使用して、図14の指紋マッチングブロックは、入力された曲といったメディアデータにおいて反復セグメントが現れるオフセット値またはタイムラグを迅速に特定してよい。一実施形態では、図15に例示するように、曲の0.64秒の時間増分(最初は開始タイムポイント=0から始まり、その後、0.64秒ずつ増分する)ごとに、曲の(0.64秒の増分ごとの開始タイムポイントから始まる)8秒の時間間隔に対応する488個の24ビット指紋符号語のシーケンスが、問い合わせ指紋シーケンスとして使用されてよい。マッチングアルゴリズムを使用して、曲の(問い合わせ指紋シーケンスを除く残りの持続時間に対応する)残りの指紋ビットにおいて、いくつかの指紋ビット(例えば、488個の24ビット指紋符号語など)を含むこの問い合わせシーケンスについての最良一致が見つけられうる。
最良一致セクションが見つかったオフセット、および
問い合わせシーケンスと動的データベースからの最良一致セクションとの間のハミング距離。
図14の指紋マッチングブロックは、曲の0.64秒の増分ごとの曲中の最良一致セグメントのオフセット値を返す。一実施形態では、図14の有意なオフセットの検出ブロックは、図14の指紋マッチングブロックで得られたすべてのオフセット値に基づくヒストグラムを算出することによっていくつかの有意な値を求めるように構成されていてよい。図16に、オフセット値の例示的ヒストグラムを示す。有意なオフセット値は、それらについて有意な数のマッチがある選択されたオフセット値としてよい。有意なオフセット値は、ヒストグラムにおいてピークとして現れうる。一実施形態では、有意なオフセット値は、有意な数のマッチを有するオフセット値である。ピーク検出は、ヒストグラムにおける適応的閾値に基づくものとしてよい。すなわち、閾値を上回るピークを含むオフセット値を特定される有意なオフセット値としてよい。ある実施形態では、近隣の(例えば、〜1秒の窓内の)有意なオフセットがマージされてよい。
加えて、または代替として、一実施形態は、低時間分解能の距離行列に基づいて有意なオフセットを算出する。低時間分解能の距離行列は後述するように算出される。一実施形態は、正の整数N個の特徴ベクトル(f1,f2,…,fi,…,fN)が曲全体または他の音楽コンテンツを表すと仮定して機能する。完全距離行列が特徴ベクトルf(i)から次式に従って算出され、iはフレームインデックスを表す:D(o,i)=dist(f(i),f(i+o))、式中、oはオフセット値のインデックスを表す。サブサンプリングされた距離行列(低時間分解能)について、特徴ベクトルからのある一定のフレームが単純にスキップされる。例えば、D(o,i)=dist(f(Ki),f(Ki+o))であり、式中、Kは、整数のサブサンプリング係数を表し、例えば、K=2,3,4,…である。サブサンプリング係数が2を含む一実施形態が実装される。
1.最小値を見つける(例えば、オフセット、および時間値:omin,nm,inをもたらす)
dmin=min(D(o,i))、式中、dmin=D(omin,nm,in)
2.オフセット値を有意なオフセットとして記録する。
3.D(omin±ro,nmin±rn)=∞、式中、ro=0,1,…,Rn、rn=0,1,…,Nn、を設定することにより、次回の最小値の探索のために、ある特定の範囲内の見つかった最小値の前後の値を除外する。正の整数Nnがフレーム数に等しい(例えば、行列Dの列数に等しい)一実施形態が実装される。よって例えば、記録された有意なオフセットのすべての列(時間フレーム)が除外される。
4.所望の数の有意なオフセットに達するまで、ステップ1から反復する。
一実施形態での有意なオフセットの数は、クロマ距離値の最小数Mmin、最大数Mmax、および閾値THを用いて定義される。正の整数Mmin個以上のオフセット(例えば、Mmin=3)が獲得される。次いで、見つかった値が十分に低いことを確認するために、例えば、最大で正の整数のMmax(例えば、Mmax=10)のオフセットまで、クロマ−距離値の条件が検査される。大域的最小値(例えば、最初の反復で見つかった最小値)から、例えば、dmin*1.25として閾値が決定されるステップ1およびステップ4は以下のように変化する。
1.最小値を見つける(オフセットを、および時間値:omin,nm,inをもたらす)
dmin=min(D(o,i))、式中、dmin=D(omin,nm,in)。
Mminオフセットが獲得される場合、クロマ−距離閾値を検査する:dmin<THの場合にはステップ2に進み、そうでない場合には、停止する。
4.ステップ1から反復する。(Mmax個のオフセットが獲得されるまで)。
再度図1Bを参照すると、距離行列1000は、4反復1001、1002、1003、および1004の間に示されており、検出された最小値は黒い×印で表されている。反復ごとに、前の最小値の前後の範囲が、次の反復での探索のために除外される。
メディアデータ(曲など)内で反復的な要素またはセクションが発生すると判定されるいくつかの有意なオフセット値(が選択される)と、これら選択されたオフセット値を使用して、特徴距離行列の選択的行(例えば、構造的特性に関連した特徴、和声および旋律を含む調性、音色、リズム、音の大きさ、ステレオミックス、メディアデータ内の対応するセクションの音源の量など)が以下のように算出されうる。
D(i,ok)=d(f(i),f(i+ok))
音色を表す特徴(MFCCなど);
旋律を表す特徴(クロマグラムなど);
リズムを表す特徴;または
マッチング時に曲から導出される指紋。
一実施形態では、結果として得られるクロマ距離(特徴距離)値は、次いで、ある一定の時間的な長さ、例えば15秒などの移動平均フィルタといったフィルタを用いて、図14の類似度行の算出ブロックによって平滑化されてよい。一実施形態では、平滑化信号の最小距離の位置は以下のように見つけられてよい。
i上で、s(ok)=argmin(D(i,ok))
平滑化信号の最小距離の位置の発見は、15秒の別のメディアセグメントに最も類似した長さ15秒のメディアセグメントの位置の検出に対応する。結果として得られる2つの最良一致セグメントが所与のオフセットokの間隔で配置される。位置sは、次の処理段において、場面変化検出のシードとして使用されてよい。図18に、類似度行列の行の例示的なクロマ距離値、平滑化された距離、および結果として得られる場面変化検出のためのシードポイントを示す。
一実施形態では、曲といったメディアデータ内の位置が、クロマ距離分析といった特徴距離分析によって、ある一定のメディア特性を有する候補代表セグメント内で最も可能性が高いと特定された後で、場面変化検出のシード・タイム・ポイントとして使用されてよい。候補代表セグメントのメディア特性の例は、セグメントが曲のコーラスの候補とみなされるために候補代表セグメントによって保有される反復特性とすることができる。反復特性は、例えば、前述のような距離行列の選択的算出によって決定されてよい。
代表セグメントの先頭に対応するシード・タイム・ポイントの左側の開始場面変化ポイント
代表セグメントの末尾に対応するシード・タイム・ポイントの右側の終了場面変化ポイント
図14のランク付け構成部分は、ある一定のメディア特性(コーラスなど)を保有するいくつかの候補代表セグメントを入力信号として与えられてよく、代表セグメント(例えば、検出されたコーラスセクションなど)とみなされる信号の出力として候補代表セグメントのうちの1つを選択してよい。すべての候補代表セグメントは、(例えば、本明細書に記載する場面変化検出からの結果としての)それぞれの開始および終了場面変化ポイントによって定義され、または範囲を定められてよい。
本明細書に記載する技法は、音楽ファイルからコーラスセグメントを検出するのに使用されてよい。しかし、一般に、本明細書に記載する技法は、任意のオーディオファイル内の任意の反復セグメントを検出するのに有用である。
図19Aおよび図19Bに、本発明の一例示的実施形態による例示的プロセスフローを示す。一実施形態では、一または複数のコンピューティング装置またはメディア処理システム内の構成部分が、これらのプロセスフローのうちの一または複数を実行しうる。
図19Aに、指紋を使用した例示的な反復検出プロセスフローを示す。ブロック1902で、メディア処理システムは、メディアデータ(曲など)から指紋のセットを抽出する。
図19Bに、ハイブリッド手法を用いた例示的な反復検出プロセスフローを示す。ブロック1912で、メディア処理システムは、メディアデータから抽出可能な一または複数の特徴タイプのうちの第1のタイプを使用して(例えば、本明細書に記載する指紋探索およびマッチングなどを使用して)、メディアデータ内のオフセット値のセット内のオフセット値のサブセットを位置特定する。オフセット値のサブセットは、一または複数の選択基準に基づいて(例えば、一または複数の次元のヒストグラムを使用して)オフセット値のセットの中から選択された時間差値を含む。
一実施形態によれば、本明細書に記載する技法は、一または複数の専用コンピューティング装置によって実装される。専用コンピューティング装置は、該技法を実行するように配線されていてもよく、該技法を実行するように永続的にプログラムされた一または複数の特定用途向け集積回路(ASIC:application−specific integrated circuit)またはフィールド・プログラマブル・ゲート・アレイ(FPGA:field programmable gate array)といったディジタル電子デバイスを含んでいてもよく、ファームウェア、メモリ、他の記憶、またはそれらの組み合わせに含まれるプログラム命令に従って該技法を実行するようにプログラムされた一または複数の汎用ハードウェアプロセッサを含んでいてもよい。そうした専用コンピューティング装置は、該技法を実現するためのカスタムプログラミングを有する、カスタム配線論理、ASIC、またはFPGAと組み合わされていてもよい。専用コンピューティング装置は、デスクトップ・コンピュータ・システム、携帯式コンピュータシステム、ハンドヘルド機器、ネットワーキング機器、または該技法を実装するための配線および/またはプログラム論理を組み込んだ任意の他の機器とすることができる。
以上のように、本発明の一例示的実施形態は、メディアデータ内の反復の低計算量検出に関連して説明されている。メディアデータから抽出可能な(例えば、メディアデータの成分から導出可能な)、一または複数の特徴タイプのうちの第1のタイプを使用して、メディアデータ内のオフセット値のセットの中からオフセット値のサブセットが選択される。オフセット値のサブセットは、一または複数の選択基準に基づいてオフセット値のセットの中から選択される値を含む。一または複数の特徴タイプのうちの第2のタイプを使用して、オフセット値のサブセットに基づいて候補シード・タイム・ポイントのセットが特定される。例示的プロセスは、一または複数のコンピューティングシステム、装置もしくは機器、集積回路デバイス、および/またはメディア再生、再現、レンダリングもしくはストリーミング装置を用いて実行されてよい。システム、機器、および/または装置は、コンピュータ可読記憶媒体上に符号化され、または記録された、命令またはソフトウェアを用いて制御され、構成され、プログラムされ、または指図されてよい。
Claims (36)
- メディアデータ内の反復検出のための方法であって、
前記メディアデータから抽出可能な一または複数の特徴タイプのうちの第1の特徴タイプを使用してメディアデータ内のオフセット値のセット内のオフセット値のサブセットを選択するステップであって、前記オフセット値のサブセットは、一または複数の選択基準に基づいて前記オフセット値のセットの中から選択される値を含み、前記選択するステップは、
前記メディアデータから、前記第1の特徴タイプの一または複数の第1の特徴を抽出するステップと、
前記一または複数の第1の特徴に基づいて第1の反復検出尺度の第1の距離値を算出するステップと、
前記オフセット値のサブセットを選択するために前記第1の反復検出尺度の前記第1の距離値を適用するステップと
を含むものである、前記選択するステップと、
前記オフセット値のサブセットにおける前記一または複数の特徴タイプのうちの第2の特徴タイプの類似度/距離分析に基づいて候補シード・タイム・ポイントのセットを特定するステップであって、前記特定するステップは、
前記メディアデータから、前記第2の特徴タイプの一または複数の第2の特徴を抽出するステップであって、前記第2の特徴タイプと前記第1の特徴タイプとは、時間分解能または周波数分解能のうちの一または複数に関して異なるものである、前記第2の特徴を抽出するステップと、
前記一または複数の第2の特徴に基づいて第2の反復検出尺度の第2の距離値を算出するステップと、
前記候補シード・タイム・ポイントのセットを特定するために前記第2の反復検出尺度の前記第2の距離値を適用するステップと
を含むものである、前記特定するステップと
を含む方法。 - 前記第2の特徴タイプは、変換サイズ、変換の種類、窓サイズ、窓形状、周波数分解能、または時間分解能のうちの一または複数を使用して、前記メディアデータに関連した信号の表現から導出または抽出される、請求項1に記載の方法。
- 前記第1の特徴タイプは、前記メディアデータから導出される指紋のセットをさらに含み、前記方法は、
前記指紋のセットに基づき、問い合わせ指紋シーケンスのセットを選択するステップであって、前記問い合わせ指紋シーケンスのセット内の各個別問い合わせ指紋シーケンスは、問い合わせ時刻から始まる時間間隔にわたる前記メディアデータの縮約表現を含むものである、前記選択するステップと、
前記問い合わせ指紋シーケンスのセットについての一致指紋シーケンスのセットを決定するステップであって、前記問い合わせ指紋シーケンスのセット内の各個別問い合わせ指紋シーケンスは、前記一致指紋シーケンスのセット内の0以上の一致指紋シーケンスに対応するものである、前記決定するステップと、
前記問い合わせ指紋シーケンスのセットおよび前記一致指紋シーケンスのセットに基づいてオフセット値のセットを特定するステップと
をさらに含み、一または複数のコンピューティング装置によって実行されるものである、請求項1に記載の方法。 - 前記指紋のセットを、前記メディアデータのディジタル表現を縮約して前記メディアデータの次元縮約バイナリ表現にすることによって生成するステップをさらに含み、前記ディジタル表現は、高速フーリエ変換(FFT)、ディジタルフーリエ変換(DFT)、短時間フーリエ変換(STFT)、変形離散コサイン変換(MDCT)、変形離散サイン変換(MDST)、直交ミラーフィルタ(QMF)、複素QMF(CQMF)、離散ウェーブレット変換(DWT)、クロマ特徴、またはウェーブレット係数のうちの一または複数に関するものである、請求項3に記載の方法。
- 前記指紋のセット内の指紋は、悪意のある攻撃を検出するためのロバストな指紋に関連した簡単に抽出できるものである、請求項3に記載の方法。
- 前記問い合わせ指紋シーケンスのセットについての一致指紋シーケンスのセットを決定するステップは、動的に構築される指紋データベースにおいて、問い合わせ指紋シーケンスと一致する一致指紋シーケンスを探索するステップを含む、請求項3に記載の方法。
- 前記問い合わせ指紋シーケンスは特定の問い合わせ時刻から始まり、前記動的に構築される指紋データベースは、前記特定の問い合わせ時刻に対する一または複数の構成可能な時間窓内にある指紋の一または複数の部分を除外する、請求項6に記載の方法。
- 前記問い合わせ指紋シーケンスのセットおよび前記一致指紋シーケンスのセットに基づいてオフセット値のセットを特定するステップは、前記問い合わせ指紋シーケンスのセットおよび前記一致指紋シーケンスのセットから構築されたヒストグラムのうちの一または複数を使用して、有意なオフセット値のセットを決定するステップを含む、請求項3に記載の方法。
- 前記第1の反復検出尺度および前記第2の反復検出尺度のうちの少なくとも1つは、ベクトルのユークリッド距離、ベクトルノルム、平均二乗誤差、ビット誤り率、自己相関ベースの尺度、ハミング距離、類似度、または相違度のうちの一または複数に関連したものである、請求項1に記載の方法。
- 前記第1の距離値および前記第2の距離値は一または複数の正規化された値を含む、請求項1に記載の方法。
- 前記一または複数の特徴タイプのうちの少なくとも1つは、前記メディアデータのディジタル表現を形成するのに一部使用される、請求項1に記載の方法。
- 前記メディアデータの前記ディジタル表現は、前記メディアデータの指紋ベースの次元縮約バイナリ表現を含む、請求項11に記載の方法。
- 前記一または複数の特徴タイプのうちの少なくとも1つは、構造的特性、和声および旋律を含む調性、音色、リズム、音の大きさ、ステレオミックス、または前記メディアデータに関連したものとしての音源の量を取り込む特徴タイプを含む、請求項1に記載の方法。
- 前記ステレオミックスは前記メディアデータの一または複数のステレオパラメータを含み、前記ステレオパラメータのうちの少なくとも1つは、コヒーレンス、チャネル間相互相関(ICC:Inter−channel Cross−Correlation)、チャネル間レベル差(CLD:Inter−channel Level Difference)、チャネル間位相差(IPD:Inter−channel Phase Difference)、またはチャネル予測係数(CPC:Channel Prediction Coefficient)に関連したものである、請求項13に記載の方法。
- 前記メディアデータから抽出可能な前記特徴は、クロマ、クロマ差、差分クロマ特徴、指紋、メル周波数ケプストラム係数(MFCC:Mel−Frequency Cepstral Coefficient)、クロマベースの指紋、リズムパターン、エネルギー、または他の変形、のうちの一または複数に基づく前記メディアデータの一または複数のディジタル表現を提供するのに使用される、請求項1に記載の方法。
- 前記第1の特徴タイプの前記一または複数の第1の特徴および前記第2の特徴タイプの前記一または複数の第2の特徴は、前記メディアデータの同じ時間間隔に関連したものである、請求項1に記載の方法。
- 前記第1の特徴タイプの前記一または複数の第1の特徴は前記メディアデータの第1の時間間隔にわたる前記メディアデータの表現を形成し、前記第2の特徴タイプの前記一または複数の第2の特徴は前記メディアデータの第2の異なる時間間隔にわたる前記メディアデータの表現を形成する、請求項1に記載の方法。
- 前記第1の時間間隔は、前記メディアデータの前記第2の異なる時間間隔より大きい、
請求項17に記載の方法。 - 前記第1の時間間隔は前記メディアデータの全時間長を範囲とし、前記第2の異なる時間間隔は、前記メディアデータの前記全時間長内の前記メディアデータの一または複数の時間部分を範囲とする、請求項17に記載の方法。
- 前記第1の特徴タイプの前記一または複数の第1の特徴を抽出するステップは、前記メディアデータの同じ部分からの、前記第2の特徴タイプの前記一または複数の第2の特徴を抽出するステップに関連した簡単なものである、請求項1に記載の方法。
- 前記第1の特徴タイプの前記一または複数の第1の特徴の距離値を算出するステップは、前記メディアデータの同じ部分からの、前記第2の特徴タイプの前記一または複数の第2の特徴の距離値を算出するステップに関連した簡単なものである、請求項1に記載の方法。
- 前記メディアデータは、曲、作曲、楽譜、録音、詩、音響映像作品、映画、またはマルチメディアプレゼンテーション、のうちの一または複数を含む、請求項1に記載の方法。
- オーディオファイル、メディア・データベース・レコード、ネットワーク・ストリーミング・アプリケーション、メディアアプレット、メディアアプリケーション、メディア・データ・ビットストリーム、メディア・データ・コンテナ、電波放送メディア信号、記憶媒体、ケーブル信号、または衛星信号のうちの一または複数から前記メディアデータを導出するステップをさらに含む、請求項1に記載の方法。
- 前記メディア・データ・ビットストリームは、アドバンスド・オーディオ・コーディング(AAC:Advanced Audio Coding)ビットストリーム、高効率AACビットストリーム、MPEG−1/2オーディオレイヤ3(MP3)ビットストリーム、ドルビー・ディジタル(AC3)・ビットストリーム、ドルビー・ディジタル・プラス・ビットストリーム、ドルビー・プラス・ビットストリーム、またはドルビーTrueHDビットストリームのうちの一または複数を含む、請求項23に記載の方法。
- 一または複数のオフセットにおける距離値に一または複数のフィルタを適用するステップと、
前記フィルタを適用された値に基づいて、場面変化検出のためのシード・タイム・ポイントのセットを特性するステップと
をさらに含む、請求項1に記載の方法。 - 一または複数のオフセットについての一または複数の時間間隔における距離値に一または複数のフィルタを適用するステップと、
前記フィルタを適用された値に基づいて、場面変化検出のためのシード・タイム・ポイントのセットを特性するステップと
をさらに含む、請求項1に記載の方法。 - 前記一または複数のフィルタは移動平均フィルタを含み、前記複数のシード・タイム・ポイント内の少なくとも1つのシード・タイム・ポイントは、前記フィルタリングされた値の極小に対応する、請求項25または請求項26の一または複数の項に記載の方法。
- 前記一または複数のフィルタは移動平均フィルタを含み、前記複数のシード・タイム・ポイント内の少なくとも1つのシード・タイム・ポイントは、前記フィルタリングされた値の極大に対応する、請求項25または請求項26の一または複数の項に記載の方法。
- 前記一または複数のフィルタは移動平均フィルタを含み、前記複数のシード・タイム・ポイント内の少なくとも1つのシード・タイム・ポイントは、前記フィルタリングされた値における特定の中間値に対応する、請求項25または26に記載の方法。
- 一または複数の窓関数を使用して一または複数のクロマ特徴を抽出するステップをさらに含む、請求項1に記載の方法。
- 一または複数の音楽的に動機付けられた窓関数を使用して前記クロマ特徴のうちの一または複数を抽出するステップをさらに含む、請求項30に記載の方法。
- 前記メディアデータから抽出可能な前記特徴は12平均律のチューニングシステムに関連したものである、請求項1に記載の方法。
- 前記メディアデータから抽出可能な前記特徴は12平均律のチューニングシステム以外のチューニングシステムに関連したものである、請求項1に記載の方法。
- 請求項1ないし33いずれか一項に記載の方法のうちのいずれか1つを実行するように構成されたシステム。
- プロセッサを備え、請求項1ないし33いずれか一項に記載の方法のうちのいずれか1つを実行するように構成された装置。
- 一または複数のプロセッサに、請求項1ないし33いずれか一項に記載の方法を実行させるコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161569591P | 2011-12-12 | 2011-12-12 | |
US61/569,591 | 2011-12-12 | ||
PCT/US2012/068809 WO2013090207A1 (en) | 2011-12-12 | 2012-12-10 | Low complexity repetition detection in media data |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015505992A JP2015505992A (ja) | 2015-02-26 |
JP5901790B2 true JP5901790B2 (ja) | 2016-04-13 |
Family
ID=47472052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014547332A Expired - Fee Related JP5901790B2 (ja) | 2011-12-12 | 2012-12-10 | メディアデータにおける低計算量反復検出 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20140330556A1 (ja) |
EP (1) | EP2791935B1 (ja) |
JP (1) | JP5901790B2 (ja) |
CN (1) | CN103999150B (ja) |
WO (1) | WO2013090207A1 (ja) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9613605B2 (en) * | 2013-11-14 | 2017-04-04 | Tunesplice, Llc | Method, device and system for automatically adjusting a duration of a song |
EP3108474A1 (en) | 2014-02-18 | 2016-12-28 | Dolby International AB | Estimating a tempo metric from an audio bit-stream |
CN104573741A (zh) * | 2014-12-24 | 2015-04-29 | 杭州华为数字技术有限公司 | 一种特征选择方法及装置 |
US9501568B2 (en) | 2015-01-02 | 2016-11-22 | Gracenote, Inc. | Audio matching based on harmonogram |
US20160316261A1 (en) * | 2015-04-23 | 2016-10-27 | Sorenson Media, Inc. | Automatic content recognition fingerprint sequence matching |
EP3093846A1 (en) * | 2015-05-12 | 2016-11-16 | Nxp B.V. | Accoustic context recognition using local binary pattern method and apparatus |
US9852721B2 (en) | 2015-09-30 | 2017-12-26 | Apple Inc. | Musical analysis platform |
US9804818B2 (en) | 2015-09-30 | 2017-10-31 | Apple Inc. | Musical analysis platform |
US9672800B2 (en) * | 2015-09-30 | 2017-06-06 | Apple Inc. | Automatic composer |
US9824719B2 (en) | 2015-09-30 | 2017-11-21 | Apple Inc. | Automatic music recording and authoring tool |
US10074350B2 (en) | 2015-11-23 | 2018-09-11 | Adobe Systems Incorporated | Intuitive music visualization using efficient structural segmentation |
US10147407B2 (en) * | 2016-08-31 | 2018-12-04 | Gracenote, Inc. | Characterizing audio using transchromagrams |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
US10504539B2 (en) * | 2017-12-05 | 2019-12-10 | Synaptics Incorporated | Voice activity detection systems and methods |
CN109903745B (zh) * | 2017-12-07 | 2021-04-09 | 北京雷石天地电子技术有限公司 | 一种生成伴奏的方法和系统 |
US10424280B1 (en) | 2018-03-15 | 2019-09-24 | Score Music Productions Limited | Method and system for generating an audio or midi output file using a harmonic chord map |
CN110322886A (zh) * | 2018-03-29 | 2019-10-11 | 北京字节跳动网络技术有限公司 | 一种音频指纹提取方法及装置 |
US11594028B2 (en) | 2018-05-18 | 2023-02-28 | Stats Llc | Video processing for enabling sports highlights generation |
US11264048B1 (en) * | 2018-06-05 | 2022-03-01 | Stats Llc | Audio processing for detecting occurrences of loud sound characterized by brief audio bursts |
US20200037022A1 (en) * | 2018-07-30 | 2020-01-30 | Thuuz, Inc. | Audio processing for extraction of variable length disjoint segments from audiovisual content |
US11025985B2 (en) * | 2018-06-05 | 2021-06-01 | Stats Llc | Audio processing for detecting occurrences of crowd noise in sporting event television programming |
JP7407580B2 (ja) | 2018-12-06 | 2024-01-04 | シナプティクス インコーポレイテッド | システム、及び、方法 |
JP7498560B2 (ja) | 2019-01-07 | 2024-06-12 | シナプティクス インコーポレイテッド | システム及び方法 |
GB201909252D0 (en) * | 2019-06-27 | 2019-08-14 | Serendipity Ai Ltd | Digital works processing |
US11064294B1 (en) | 2020-01-10 | 2021-07-13 | Synaptics Incorporated | Multiple-source tracking and voice activity detections for planar microphone arrays |
KR102380540B1 (ko) * | 2020-09-14 | 2022-04-01 | 네이버 주식회사 | 음원을 검출하기 위한 전자 장치 및 그의 동작 방법 |
US12057138B2 (en) | 2022-01-10 | 2024-08-06 | Synaptics Incorporated | Cascade audio spotting system |
US11823707B2 (en) | 2022-01-10 | 2023-11-21 | Synaptics Incorporated | Sensitivity mode for an audio spotting system |
CN115641856B (zh) * | 2022-12-14 | 2023-03-28 | 北京远鉴信息技术有限公司 | 一种语音的重复音频检测方法、装置及存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6990453B2 (en) * | 2000-07-31 | 2006-01-24 | Landmark Digital Services Llc | System and methods for recognizing sound and music signals in high noise and distortion |
US7065544B2 (en) * | 2001-11-29 | 2006-06-20 | Hewlett-Packard Development Company, L.P. | System and method for detecting repetitions in a multimedia stream |
JP4243682B2 (ja) * | 2002-10-24 | 2009-03-25 | 独立行政法人産業技術総合研究所 | 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム |
ES2569423T3 (es) * | 2005-02-08 | 2016-05-10 | Shazam Investments Limited | Identificación automática de material repetido en señales de audio |
JP4465626B2 (ja) * | 2005-11-08 | 2010-05-19 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
US7659471B2 (en) * | 2007-03-28 | 2010-02-09 | Nokia Corporation | System and method for music data repetition functionality |
JP4973537B2 (ja) * | 2008-02-19 | 2012-07-11 | ヤマハ株式会社 | 音響処理装置およびプログラム |
US8344233B2 (en) * | 2008-05-07 | 2013-01-01 | Microsoft Corporation | Scalable music recommendation by search |
US8959108B2 (en) * | 2008-06-18 | 2015-02-17 | Zeitera, Llc | Distributed and tiered architecture for content search and content monitoring |
US9390167B2 (en) * | 2010-07-29 | 2016-07-12 | Soundhound, Inc. | System and methods for continuous audio matching |
US9313593B2 (en) * | 2010-12-30 | 2016-04-12 | Dolby Laboratories Licensing Corporation | Ranking representative segments in media data |
-
2012
- 2012-12-10 JP JP2014547332A patent/JP5901790B2/ja not_active Expired - Fee Related
- 2012-12-10 EP EP12809451.3A patent/EP2791935B1/en not_active Not-in-force
- 2012-12-10 CN CN201280061089.1A patent/CN103999150B/zh not_active Expired - Fee Related
- 2012-12-10 US US14/360,257 patent/US20140330556A1/en not_active Abandoned
- 2012-12-10 WO PCT/US2012/068809 patent/WO2013090207A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP2015505992A (ja) | 2015-02-26 |
CN103999150A (zh) | 2014-08-20 |
EP2791935B1 (en) | 2016-03-09 |
WO2013090207A1 (en) | 2013-06-20 |
CN103999150B (zh) | 2016-10-19 |
US20140330556A1 (en) | 2014-11-06 |
EP2791935A1 (en) | 2014-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5901790B2 (ja) | メディアデータにおける低計算量反復検出 | |
EP2659481B1 (en) | Scene change detection around a set of seed points in media data | |
EP2494544B1 (en) | Complexity scalable perceptual tempo estimation | |
US9589283B2 (en) | Device, method, and medium for generating audio fingerprint and retrieving audio data | |
JP5362178B2 (ja) | オーディオ信号からの特徴的な指紋の抽出とマッチング | |
US8497417B2 (en) | Intervalgram representation of audio for melody recognition | |
Malekesmaeili et al. | A local fingerprinting approach for audio copy detection | |
CN103729368B (zh) | 一种基于局部频谱图像描述子的鲁棒音频识别方法 | |
Zhang et al. | SIFT-based local spectrogram image descriptor: a novel feature for robust music identification | |
CN111863030B (zh) | 音频检测方法及装置 | |
WO2016185091A1 (en) | Media content selection | |
Malekesmaeili et al. | A novel local audio fingerprinting algorithm | |
Yu et al. | Towards a Fast and Efficient Match Algorithm for Content-Based Music Retrieval on Acoustic Data. | |
CN117807564A (zh) | 音频数据的侵权识别方法、装置、设备及介质 | |
Negi | Evaluation of Audio Based Searching for Indian Traditional Music |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150618 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150630 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160209 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160308 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5901790 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |