JP2005522744A - 音声コンテンツを特定する方法 - Google Patents
音声コンテンツを特定する方法 Download PDFInfo
- Publication number
- JP2005522744A JP2005522744A JP2003585328A JP2003585328A JP2005522744A JP 2005522744 A JP2005522744 A JP 2005522744A JP 2003585328 A JP2003585328 A JP 2003585328A JP 2003585328 A JP2003585328 A JP 2003585328A JP 2005522744 A JP2005522744 A JP 2005522744A
- Authority
- JP
- Japan
- Prior art keywords
- time
- events
- frequency components
- audio signal
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 105
- 230000005236 sound signal Effects 0.000 claims abstract description 51
- 230000036962 time dependent Effects 0.000 claims abstract description 39
- 238000001228 spectrum Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 230000021715 photosynthesis, light harvesting Effects 0.000 claims 2
- 238000005070 sampling Methods 0.000 claims 2
- 238000006243 chemical reaction Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 65
- 238000012360 testing method Methods 0.000 description 33
- 239000000872 buffer Substances 0.000 description 16
- 230000015654 memory Effects 0.000 description 14
- 238000009527 percussion Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000033458 reproduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
- G06F16/634—Query by example, e.g. query by humming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/56—Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
- H04H60/58—Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Stereophonic System (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
【解決手段】 音声信号をサンプリングし、音声信号のサンプルの連続する組について周波数変換を実行し音声信号の時間依存パワー・スペクトラムを取得する。周波数変換が出力する周波数成分を周波数帯域に集約する。各周波数帯域の少なくとも1つの移動平均をとる。同じ半音周波数帯域の2つの移動平均の値が交差したら、時間情報を記録する。隣接する周波数帯域の組において異なる時に生起した平均交差イベントに関する情報を組み合わせてキーを形成する。ある歌から取得したキーの組によって、当該歌を特定する手段が得られる。このキーの組をデータベースに格納しておき、歌の特定に使用する。
Description
音声コンテンツを特定する方法であって、
時間依存パワー・スペクトラムを特徴とする音声信号を取得するステップと、
前記スペクトラムを解析して複数の時間依存周波数成分を取得するステップと、
前記複数の時間依存周波数成分中の複数のイベントを検出するステップと
を備えた
方法。
音声信号の記録の一部分を特定する特徴を形成する方法であって、
前記一部分の音声信号のフーリエ変換を行ない、第1の複数の周波数にわたって放散される音声パワーの時系列を生成するステップと、
前記周波数を各々が、隣接する一範囲の周波数を含むより小さな第2の複数の帯域にグループ化するステップと、
前記帯域の各々におけるパワー放散イベントを検出するステップと、
選定した時において互いに隣接する帯域に由来する前記パワー放散イベントをグループ化して前記特定する特徴を形成するステップと
を備えた
方法。
音声信号の記録の一部分を特定する特徴を形成する方法であって、
前記一部分の音声信号のフーリエ変換を行ない、第1の複数の周波数にわたって放散される音声パワーの時系列を生成するステップと、
前記周波数を各々が、隣接する一範囲の周波数を含むより小さな第2の複数の帯域にグループ化するステップと、
前記帯域の各々におけるパワー放散イベントを検出するステップと、
選定した時において互いに隣接する帯域に由来する前記パワー放散イベントをグループ化して前記特定する特徴を形成するステップと
を備えた
方法。
音声ストリームが音声信号の既知の記録の少なくとも一部分を含んでいるか否かを判断する方法であって、
請求項14に記載の方法を用い前記既知の記録の前記部分に基づいて少なくとも1つの第1の特定する特徴を形成するステップと、
前記第1の特定する特徴をデータベースに格納するステップと、
請求項14に記載の方法を用い前記音声ストリームの一部分に基づいて少なくとも1つの第2の特定する特徴を形成するステップと、
前記第1の特定する特徴と前記第2の特定する特徴とを比較して少なくとも選定した程度の類似性があるか否かを判断するステップと
を備えた
方法。
音声コンテンツを特定するプログラムでエンコードされたコンピュータ読み取り可能な媒体であって、前記プログラムが、
時間依存パワー・スペクトラムを特徴とする音声信号を取得するステップと、
前記スペクトラムを解析して複数の時間依存周波数成分を取得するステップと、
前記複数の時間依存周波数成分中の複数のイベントを検出するステップと
を実行する命令を備えている
コンピュータ読み取り可能な媒体。
音声信号の記録の一部分を特定する特徴を形成するプログラムでエンコードされたコンピュータ読み取り可能な媒体であって、前記プログラムが、
前記一部分の音声信号のフーリエ変換を行ない、第1の複数の周波数にわたって放散される音声パワーの時系列を生成するステップと、
前記周波数を各々が、隣接する一範囲の周波数を含むより小さな第2の複数の帯域に集約するステップと、
前記帯域の各々におけるパワー放散イベントを検出するステップと、
選定した時において互いに隣接する帯域に由来する前記パワー放散イベントを集約して前記特定する特徴を形成するステップと
を実行する命令を備えている
コンピュータ読み取り可能な媒体。
音声信号の記録を特定するシステムであって、
特定すべき音声信号を受信するインタフェースと、
前記音声信号から複数の時間依存周波数成分を取得するスペクトラム解析器と、
前記時間依存周波数成分の各々において複数のイベントを検出するイベント検出器と、
前記複数のイベントを周波数および時間によってグループ化し、前記複数のイベントに基づいて複数のキーを生成するキー生成器と
を備えた
システム。
音声信号の記録の一部分を特定する特徴を形成するシステムであって、
前記一部分の音声信号のフーリエ変換を行ない、第1の複数の周波数にわたって放散される音声パワーの時系列を生成する手段と、
前記周波数を各々が、隣接する一範囲の周波数を含むより小さな第2の複数の帯域にグループ化する手段と、
前記帯域の各々におけるパワー放散イベントを検出する手段と、
選定した時において互いに隣接する帯域に由来する前記パワー放散イベントをグループ化して前記特定する特徴を形成する手段と
を備えた
システム。
(F(N+2)−2F(N+1)+F(N))/ΔT2
ただし、F(I)はi番目の時間(たとえばi番目のテスト期間)における関数の値であり、ΔTは連続関数値(たとえばテスト期間の長さ)の間の間隔である。
オフセット用のオフセット時間グループはキー生成の際に使用する時間グループから峻別(しゅんべつ)される。好適な実施形態によると、1つのオフセット時間グループは2〜10個のテスト期間に等しい。たとえば、各オフセット時間グループが5であるとすると、ステップ806で決まる差が0〜5であるすべてのキーの対は第1のオフセット時間グループに割り当て、差が6〜10であるすべてのキーの対は第2のオフセット時間グループに割り当てる。本発明の典型的な実施形態によると、各オフセット時間グループは5個のテスト期間に等しい。
102 第1のウェブ・サーバ
104 第2のウェブ・サーバ
106 ネットワーク
108 第1の2方向データ・リンク
110 第2の2方向データ・リンク
112 第1のクライアント・コンピュータ
114 第2のクライアント・コンピュータ
116 第3の2方向データ・リンク
118 第4の2方向データ・リンク
120 著作権遵守クライアント・コンピュータ(CECC)
122 第5の2方向データ・リンク
124 コンピュータ読み取り可能な記憶媒体
200 音声コンテンツを特定するソフトウェア
202 ウェブ・サーバ・アプリケーション
204 ファイル・システム
206 サーバ側通信プロトコル・スタック
208 TCP/IP接続
210 クライアント通信プロトコル・スタック
212 著作権遵守アプリケーション
214 ウェブ探索モジュール
216 コンテンツ特定モジュール
218 キー・データベース
Claims (27)
- 音声コンテンツを特定する方法であって、
時間依存パワー・スペクトラムを特徴とする音声信号を取得するステップと、
前記スペクトラムを解析して複数の時間依存周波数成分を取得するステップと、
前記複数の時間依存周波数成分中の複数のイベントを検出するステップと
を備えた
方法。 - 前記検出するステップが、
前記複数の時間依存周波数成分中の複数の極値を検出するサブステップ
を備えている、
請求項1に記載の方法。 - さらに、
隣接する時間依存周波数成分の組においてほぼ同時に生起するイベントの組を検出するサブステップと、
さらなる処理のためにイベントの前記組の部分組を選択するサブステップと
を備えた、
請求項1に記載の方法。 - さらに、
各イベントに対応する時間依存周波数成分のパワーを求めるステップ
を備えた、
請求項1に記載の方法。 - 前記解析するステップが、
音声信号をサンプリングして複数の音声信号サンプルを取得するサブステップと、
前記複数の音声信号サンプルから複数の部分組をとるサブステップと、
前記複数の部分組の各々についてフーリエ変換を実行してフーリエ周波数成分の組を取得するサブステップと
を備えた、
請求項1に記載の方法。 - 前記解析するステップが、さらに、
前記複数の部分組から選択した少なくとも2つの連続部分組から取得した対応するフーリエ周波数成分を平均するサブステップ
を備えている、
請求項5に記載の方法。 - 前記解析するステップが、さらに、
フーリエ周波数成分を複数の半音周波数帯域に集約するサブステップ
を備えている、
請求項6に記載の方法。 - 前記検出するステップが、
複数の時間依存周波数成分の第1の部分組の各々の第1の平均期間を用いて第1の移動平均をとって複数の時間依存周波数成分の各々ごとに1組の連続時間における平均パワーの第1のシーケンスを取得するサブステップと、
複数の時間依存周波数成分の第2の部分組の各々の、前記第1の平均期間とは異なる第2の平均期間を用いて第2の移動平均をとって複数の時間依存周波数成分の各々ごとに1組の連続時間における平均パワーの第2のシーケンスを取得するサブステップと、
前記第1の移動平均が前記第2の移動平均と交差する複数のイベント時間において複数の平均交差イベントを特定するサブステップと
を備えている、
請求項1に記載の方法。 - 前記第1の平均期間が(1/10)秒〜1秒であり、前記第2の平均期間が前記第1の平均期間の2〜8倍である、
請求項8に記載の方法。 - さらに、
複数のイベントを各々がある期間をカバーする複数の時間グループに集約するステップ
を備えた、
請求項1に記載の方法。 - さらに、
前記複数の時間依存周波数成分の各々において各イベントを検出するのに応答して、多数の時間グループ内および多数の時間依存周波数成分内で生起した複数のイベントから少なくとも1つのイベントの組み合わせを選択するステップ
を備えた、
請求項10に記載の方法。 - 前記選択するステップが、
各時間グループから同時に1つのイベントのみをとることにより、多数の時間グループ内および多数の時間依存周波数成分内で生起した複数のイベントから少なくとも1つのイベントの組み合わせを選択するサブステップ
を備えている、
請求項11に記載の方法。 - さらに、
各々がイベントの前記組み合わせに関連付けるべき時間から成る少なくとも1つの前記組み合わせと前記組み合わせ中の各イベントに関する情報を含むキー・シーケンスとから複数のキーを形成するステップ
を備えた、
請求項11に記載の方法。 - 音声信号の記録の一部分を特定する特徴を形成する方法であって、
前記一部分の音声信号のフーリエ変換を行ない、第1の複数の周波数にわたって放散される音声パワーの時系列を生成するステップと、
前記周波数を各々が、隣接する一範囲の周波数を含むより小さな第2の複数の帯域にグループ化するステップと、
前記帯域の各々におけるパワー放散イベントを検出するステップと、
選定した時において互いに隣接する帯域に由来する前記パワー放散イベントをグループ化して前記特定する特徴を形成するステップと
を備えた
方法。 - さらに、
前記帯域の各々におけるパワー放散を所定の期間にわたって積分するステップ
を備えた、
請求項14に記載の方法。 - 前記パワー放散イベントの各々が、エネルギー放散レベルを異なる長さの期間にわたって変化させた際における交差ポイントである、
請求項15に記載の方法。 - 音声ストリームが音声信号の既知の記録の少なくとも一部分を含んでいるか否かを判断する方法であって、
請求項14に記載の方法を用い前記既知の記録の前記部分に基づいて少なくとも1つの第1の特定する特徴を形成するステップと、
前記第1の特定する特徴をデータベースに格納するステップと、
請求項14に記載の方法を用い前記音声ストリームの一部分に基づいて少なくとも1つの第2の特定する特徴を形成するステップと、
前記第1の特定する特徴と前記第2の特定する特徴とを比較して少なくとも選定した程度の類似性があるか否かを判断するステップと
を備えた
方法。 - 前記パワー放散イベントの各々が、エネルギー放散レベルを異なる長さの期間にわたって変化させた際における交差ポイントである、
請求項17に記載の方法。 - 音声コンテンツを特定するプログラムでエンコードされたコンピュータ読み取り可能な媒体であって、前記プログラムが、
時間依存パワー・スペクトラムを特徴とする音声信号を取得するステップと、
前記スペクトラムを解析して複数の時間依存周波数成分を取得するステップと、
前記複数の時間依存周波数成分中の複数のイベントを検出するステップと
を実行する命令を備えている
コンピュータ読み取り可能な媒体。 - 前記プログラムが、さらに、
隣接する時間依存周波数成分の組においてほぼ同時に生起するイベントの組を検出するステップと、
さらなる処理のために前記イベントの組の部分組を選択するステップと
を実行する命令を備えている、
請求項19に記載のコンピュータ読み取り可能な媒体。 - 前記解析するステップが、
前記音声信号をサンプリングして複数の音声信号サンプルを取得するサブステップと、
前記複数の音声信号サンプルから複数の部分組をとるサブステップと、
前記複数の部分組の各々についてフーリエ変換を実行してフーリエ周波数成分の組を取得するサブステップと
を備えている、
請求項19に記載のコンピュータ読み取り可能な媒体。 - 前記検出するステップが、
前記複数の時間依存周波数成分の第1の部分組の各々の第1の平均期間を用いて第1の移動平均をとって前記複数の時間依存周波数成分の各々ごとに連続する時間の組における平均パワーの第1のシーケンスを取得するサブステップと、
前記複数の時間依存周波数成分の第2の部分組の各々の、前記第1の平均期間とは異なる第2の平均期間を用いて第2の移動平均をとって前記複数の時間依存周波数成分の各々ごとに連続する時間の組における平均パワーの第2のシーケンスを取得するサブステップと、
前記第1の移動平均が前記第2の移動平均と交差する複数のイベント時間において複数の平均交差イベントを特定するサブステップと
を備えている、
請求項19に記載のコンピュータ読み取り可能な媒体。 - 音声信号の記録の一部分を特定する特徴を形成するプログラムでエンコードされたコンピュータ読み取り可能な媒体であって、前記プログラムが、
前記一部分の音声信号のフーリエ変換を行ない、第1の複数の周波数にわたって放散される音声パワーの時系列を生成するステップと、
前記周波数を各々が、隣接する一範囲の周波数を含むより小さな第2の複数の帯域に集約するステップと、
前記帯域の各々におけるパワー放散イベントを検出するステップと、
選定した時において互いに隣接する帯域に由来する前記パワー放散イベントを集約して前記特定する特徴を形成するステップと
を実行する命令を備えている
コンピュータ読み取り可能な媒体。 - 音声信号の記録を特定するシステムであって、
特定すべき音声信号を受信するインタフェースと、
前記音声信号から複数の時間依存周波数成分を取得するスペクトラム解析器と、
前記時間依存周波数成分の各々において複数のイベントを検出するイベント検出器と、
前記複数のイベントを周波数および時間によってグループ化し、前記複数のイベントに基づいて複数のキーを生成するキー生成器と
を備えた
システム。 - 前記イベント検出器がピーク検出器である、
請求項24に記載のシステム。 - さらに、
音声信号の既知の記録のキーのデータベースを備えた、
請求項24に記載のシステム。 - 音声信号の記録の一部分を特定する特徴を形成するシステムであって、
前記一部分の音声信号のフーリエ変換を行ない、第1の複数の周波数にわたって放散される音声パワーの時系列を生成する手段と、
前記周波数を各々が、隣接する一範囲の周波数を含むより小さな第2の複数の帯域にグループ化する手段と、
前記帯域の各々におけるパワー放散イベントを検出する手段と、
選定した時において互いに隣接する帯域に由来する前記パワー放散イベントをグループ化して前記特定する特徴を形成する手段と
を備えた
システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2002/011091 WO2003088534A1 (en) | 2002-04-05 | 2002-04-05 | Feature-based audio content identification |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005522744A true JP2005522744A (ja) | 2005-07-28 |
JP4267463B2 JP4267463B2 (ja) | 2009-05-27 |
Family
ID=29247966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003585328A Expired - Fee Related JP4267463B2 (ja) | 2002-04-05 | 2002-04-05 | 音声コンテンツを特定する方法、音声信号の記録の一部分を特定する特徴を形成する方法およびシステム、音声ストリームが音声信号の既知の記録の少なくとも一部分を含んでいるか否かを判断する方法、コンピュータ・プログラム、音声信号の記録を特定するシステム |
Country Status (8)
Country | Link |
---|---|
EP (1) | EP1497935B1 (ja) |
JP (1) | JP4267463B2 (ja) |
KR (1) | KR100754294B1 (ja) |
CN (1) | CN100545834C (ja) |
AT (1) | ATE386999T1 (ja) |
AU (1) | AU2002254568A1 (ja) |
DE (1) | DE60225190T2 (ja) |
WO (1) | WO2003088534A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007171772A (ja) * | 2005-12-26 | 2007-07-05 | Clarion Co Ltd | 音楽情報処理装置、音楽情報処理方法および制御プログラム |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7711123B2 (en) * | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
US7598447B2 (en) * | 2004-10-29 | 2009-10-06 | Zenph Studios, Inc. | Methods, systems and computer program products for detecting musical notes in an audio signal |
US7539616B2 (en) * | 2006-02-20 | 2009-05-26 | Microsoft Corporation | Speaker authentication using adapted background models |
JP2009192725A (ja) * | 2008-02-13 | 2009-08-27 | Sanyo Electric Co Ltd | 楽曲記録装置 |
CN104252480B (zh) * | 2013-06-27 | 2018-09-07 | 深圳市腾讯计算机系统有限公司 | 一种音频信息检索的方法和装置 |
CN104900239B (zh) * | 2015-05-14 | 2018-08-21 | 电子科技大学 | 一种基于沃尔什-哈达码变换的音频实时比对方法 |
CN104900238B (zh) * | 2015-05-14 | 2018-08-21 | 电子科技大学 | 一种基于感知滤波的音频实时比对方法 |
CN105653596A (zh) * | 2015-12-22 | 2016-06-08 | 惠州Tcl移动通信有限公司 | 一种基于音频对比的特定功能快速启动方法及其装置 |
CN105976828A (zh) * | 2016-04-19 | 2016-09-28 | 乐视控股(北京)有限公司 | 一种声音区分方法和终端 |
US11294954B2 (en) * | 2018-01-04 | 2022-04-05 | Audible Magic Corporation | Music cover identification for search, compliance, and licensing |
KR102097534B1 (ko) * | 2018-07-25 | 2020-04-06 | 주식회사 키네틱랩 | 사용자의 모션 인식 기반 댄스 게임을 제공하는 방법 및 장치 |
CN113112993B (zh) * | 2020-01-10 | 2024-04-02 | 阿里巴巴集团控股有限公司 | 一种音频信息处理方法、装置、电子设备以及存储介质 |
US11816151B2 (en) | 2020-05-15 | 2023-11-14 | Audible Magic Corporation | Music cover identification with lyrics for search, compliance, and licensing |
CN111724824B (zh) * | 2020-06-11 | 2021-12-03 | 北京凯视达信息技术有限公司 | 一种音频的储存和检索方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4450531A (en) * | 1982-09-10 | 1984-05-22 | Ensco, Inc. | Broadcast signal recognition system and method |
US4843562A (en) * | 1987-06-24 | 1989-06-27 | Broadcast Data Systems Limited Partnership | Broadcast information classification system and method |
DE3720882A1 (de) * | 1987-06-24 | 1989-01-05 | Media Control Musik Medien | Verfahren und schaltungsanordnung zum automatischen wiedererkennen von signalfolgen |
US5437050A (en) * | 1992-11-09 | 1995-07-25 | Lamb; Robert G. | Method and apparatus for recognizing broadcast information using multi-frequency magnitude detection |
-
2002
- 2002-04-05 WO PCT/US2002/011091 patent/WO2003088534A1/en active IP Right Grant
- 2002-04-05 DE DE60225190T patent/DE60225190T2/de not_active Expired - Lifetime
- 2002-04-05 CN CNB028286847A patent/CN100545834C/zh not_active Expired - Lifetime
- 2002-04-05 KR KR1020047014248A patent/KR100754294B1/ko not_active Expired - Fee Related
- 2002-04-05 AU AU2002254568A patent/AU2002254568A1/en not_active Abandoned
- 2002-04-05 EP EP02723802A patent/EP1497935B1/en not_active Expired - Lifetime
- 2002-04-05 JP JP2003585328A patent/JP4267463B2/ja not_active Expired - Fee Related
- 2002-04-05 AT AT02723802T patent/ATE386999T1/de not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007171772A (ja) * | 2005-12-26 | 2007-07-05 | Clarion Co Ltd | 音楽情報処理装置、音楽情報処理方法および制御プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN1623289A (zh) | 2005-06-01 |
ATE386999T1 (de) | 2008-03-15 |
DE60225190T2 (de) | 2009-09-10 |
EP1497935B1 (en) | 2008-02-20 |
EP1497935A4 (en) | 2006-12-06 |
EP1497935A1 (en) | 2005-01-19 |
KR100754294B1 (ko) | 2007-09-03 |
JP4267463B2 (ja) | 2009-05-27 |
DE60225190D1 (de) | 2008-04-03 |
KR20040101299A (ko) | 2004-12-02 |
AU2002254568A1 (en) | 2003-10-27 |
WO2003088534A1 (en) | 2003-10-23 |
CN100545834C (zh) | 2009-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6604072B2 (en) | Feature-based audio content identification | |
US7031921B2 (en) | System for monitoring audio content available over a network | |
US6574594B2 (en) | System for monitoring broadcast audio content | |
US6748360B2 (en) | System for selling a product utilizing audio content identification | |
US7085613B2 (en) | System for monitoring audio content in a video broadcast | |
US7516074B2 (en) | Extraction and matching of characteristic fingerprints from audio signals | |
KR101578279B1 (ko) | 데이터 스트림 내 콘텐트를 식별하는 방법 및 시스템 | |
KR100776495B1 (ko) | 오디오 데이터베이스에서의 검색 방법 | |
JP4267463B2 (ja) | 音声コンテンツを特定する方法、音声信号の記録の一部分を特定する特徴を形成する方法およびシステム、音声ストリームが音声信号の既知の記録の少なくとも一部分を含んでいるか否かを判断する方法、コンピュータ・プログラム、音声信号の記録を特定するシステム | |
US20130139673A1 (en) | Musical Fingerprinting Based on Onset Intervals | |
JP2005322401A (ja) | メディア・セグメント・ライブラリを生成する方法、装置およびプログラム、および、カスタム・ストリーム生成方法およびカスタム・メディア・ストリーム発信システム | |
JP2004536348A (ja) | 録音の自動識別 | |
EP3575989B1 (en) | Method and device for processing multimedia data | |
KR101002732B1 (ko) | 온라인을 통한 디지털 컨텐츠 관리 시스템 | |
Htun et al. | Broadcast monitoring system using MFCC-based audio fingerprinting | |
JP4839721B2 (ja) | 音響信号に対する情報の埋め込み装置 | |
Htun | Compact and Robust MFCC-based Space-Saving Audio Fingerprint Extraction for Efficient Music Identification on FM Broadcast Monitoring. | |
Ghorbani et al. | Audio content security: attack analysis on audio watermarking | |
ARMONK | Pitman et al.(43) Pub. Date: Jul. 25, 2002 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061024 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070110 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070423 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080902 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081125 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20090114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090203 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4267463 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120227 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120227 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130227 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130227 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140227 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |