[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4597919B2 - Acoustic signal feature extraction method, extraction device, extraction program, recording medium recording the program, acoustic signal search method, search device, search program using the features, and recording medium recording the program - Google Patents

Acoustic signal feature extraction method, extraction device, extraction program, recording medium recording the program, acoustic signal search method, search device, search program using the features, and recording medium recording the program Download PDF

Info

Publication number
JP4597919B2
JP4597919B2 JP2006183131A JP2006183131A JP4597919B2 JP 4597919 B2 JP4597919 B2 JP 4597919B2 JP 2006183131 A JP2006183131 A JP 2006183131A JP 2006183131 A JP2006183131 A JP 2006183131A JP 4597919 B2 JP4597919 B2 JP 4597919B2
Authority
JP
Japan
Prior art keywords
acoustic signal
frequency
feature
signal
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006183131A
Other languages
Japanese (ja)
Other versions
JP2008015002A5 (en
JP2008015002A (en
Inventor
秀尚 永野
邦夫 柏野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006183131A priority Critical patent/JP4597919B2/en
Publication of JP2008015002A publication Critical patent/JP2008015002A/en
Publication of JP2008015002A5 publication Critical patent/JP2008015002A5/ja
Application granted granted Critical
Publication of JP4597919B2 publication Critical patent/JP4597919B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a sound signal retrieval device capable of accurately retrieving a sound signal at high speed in a flexible way, even when frequency of each sound signal is fluctuating. <P>SOLUTION: In the sound signal retrieval device 1, a base frequency detection section 11 extracts a predetermined base feature part for each time interval, from each time frequency spectrogram of a reference signal and an accumulation signal, and frequency of an extracted predetermined base feature part is made into base frequency of each of the reference signal and the accumulation signal. A feature extraction section 12 extracts a reference feature amount in a whole signal of the reference signal based on a power spectrum value of the frequency which is uniquely defined with the base frequency as a base. A similarity calculation section 13 extracts a feature amount of the accumulation signal for each time interval, based on the extracted reference feature amount, and calculates an interval feature amount of the extracted accumulation signal for each interval, and a similarity degree is calculated based on the calculated interval feature amount and the reference feature amount. <P>COPYRIGHT: (C)2008,JPO&amp;INPIT

Description

本発明は、音響信号である参照信号を検索キーとし、この参照信号よりも長い音響信号である蓄積信号の中から参照信号に類似した信号の位置を検索する音響信号検索に関するものであり、特に各音響信号の周波数変動(移調またはピッチシフト)に対応が可能な音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体に関する。   The present invention relates to an acoustic signal search in which a reference signal that is an acoustic signal is used as a search key, and a position of a signal similar to the reference signal is searched from an accumulated signal that is an acoustic signal longer than the reference signal. Acoustic signal feature extraction method, extraction device, extraction program, recording medium on which the program is recorded, and acoustic signal search method and search device using the feature, which can cope with frequency fluctuation (transposition or pitch shift) of each acoustic signal The present invention relates to a search program and a recording medium on which the program is recorded.

近年、特徴抽出法と特徴照合法を要素とした音響信号検索技術が、放送のモニタリングやプレイリストの配信、或いは音楽認識サービスなどにおいて実用化されてきている。これは、音楽(またはその一部)を入力すれば自動的にその特徴を抽出し、データベースに格納された楽曲の特徴と照合することにより所望の情報を瞬時に検出できるというものである。   In recent years, acoustic signal search technology using a feature extraction method and a feature matching method as elements has been put to practical use in broadcast monitoring, playlist distribution, music recognition services, and the like. In this method, when music (or a part thereof) is input, the feature is automatically extracted, and desired information can be detected instantaneously by collating with the feature of the music stored in the database.

例えば、音響信号の高速な一致探索手法として、「時系列アクティブ探索(TAS)法」(特許文献1参照)が知られている。これは時系列信号から特徴データとしてヒストグラムを生成し、生成したヒストグラムの重なり率から類似度を算出するものであり、また、特徴照合の際、時間軸方向で照合が不要な区間を算出して探索をスキップできることから、無駄な照合を省略し、実用上十分な探索精度を保ったまま探索速度を大幅に向上させることが可能になるというものである。   For example, a “time-series active search (TAS) method” (see Patent Document 1) is known as a fast search method for acoustic signals. This is to generate a histogram as feature data from the time series signal and calculate the similarity from the overlapping rate of the generated histogram. Also, when matching the features, calculate the interval that does not require matching in the time axis direction. Since the search can be skipped, useless collation can be omitted, and the search speed can be greatly improved while maintaining a practically sufficient search accuracy.

また、テレビドラマのBGMやラジオのDJつき音楽番組のように、ナレーションなどがかぶさった音響信号から背景音楽を探索する技術として特許文献2に示される「分割一致探索(DAL)法」がある。DAL法の原理は、検索キーとなる音の信号を時間・周波数方向において小領域に分割し、各小領域について一致する小領域を検索対象の信号の中から探索するというものであり、この分割によりナレーションの重畳がない領域を見つけ出し、流れている音楽が検索キーと同じである区間を検出することができる。   Further, as a technique for searching for background music from an acoustic signal covered with narration, such as a TV drama BGM or a radio DJ program, there is a “division match search (DAL) method” disclosed in Patent Document 2. The principle of the DAL method is to divide a sound signal serving as a search key into small regions in the time and frequency directions, and to search for a small region that matches each small region from the search target signal. Thus, it is possible to find an area where no narration is superimposed and to detect a section in which the music being played is the same as the search key.

しかしながら、これらの手法では、例えば、もとは同じ音響信号であっても、音程を変えて再生された音響信号については類似性を検出することができなかった。音程が異なるが同じ音楽を探索する手法としてハミング検索の手法がある。特にGhiasらは単旋律の音高系列を“S(同じ)”、“U(上がる)”、“D(下がる)”の相対音高の文字列で表すmelodic contour を用いた単旋律の照合手法、及びハミングを検索キーとし、類似する単旋律を検索する類似音楽の検索法を提案している(非特許文献1参照)。   However, with these methods, for example, even if the sound signals were originally the same, it was not possible to detect the similarity for the sound signals reproduced by changing the pitch. There is a humming search method as a method for searching for the same music with different pitches. Ghias et al., In particular, uses a melodic contour to represent a single melodic pitch sequence as a string of relative pitches of “S (same)”, “U (up)”, and “D (down)”. And a search method for similar music that searches for similar single melodies using Hamming as a search key (see Non-Patent Document 1).

melodic contourは旋律の表現としては楽譜などに比べ単純であるが、単旋律の識別、照合には有効であり、その他の研究においても単旋律の探索における特徴として用いられている。そして、これまでの類似音楽検索の多くは、ハミングなどで入力された単旋律の音高系列を検索キーとし、同じく単旋律の音高系列からなるデータベースから検索に類似するものを、単旋律同士の照合により探索するものであった。ここで、多くの手法において、データベースの音高系列は、MIDIや楽譜情報、もしくは検索キーと同じくハミングによる主旋律の入力から得られる、既に主旋律などが抽出された単旋律の音高系列であった。そのため、通常、多重奏である通常の音楽CDや放送中の音を用いた音響信号の探索に、これらのハミング検索の手法を用いるには、多重音からの主旋律抽出、もしくは多重奏と多重奏の間での主旋律の照合が必要になるなど困難な問題が多い。
特許第3065314号明細書 特開2004−102023号公報 A. Ghias, J. Logan, D. Chamberlin and B. C. Smith “Query by humming:Musical information retrieval in an audio database,” Proc. ACM Multimedia '95, pp.231-236, San Francisco, USA, Nov. 1995.
The melodic contour is simpler in terms of melodic expression than a musical score, but it is effective for identifying and collating simple melodies. It is also used as a feature in the search for simple melodies in other studies. Many similar music searches so far use a single melody pitch sequence input by humming or the like as a search key, and search for similar ones from a database consisting of single melody pitch sequences. The search was based on collation. Here, in many methods, the pitch sequence of the database is a single melody pitch sequence from which the main melody has already been extracted, which is obtained from the input of the main melody by humming as well as the MIDI, the score information, or the search key. . Therefore, in order to use these humming search methods for searching for an acoustic signal using a normal music CD or a sound being broadcast, which is usually a multiplayer, the main melody extraction from the multitone or the multiplayer and the multiplayer There are many difficult problems such as the need to check the main melody between the two.
Japanese Patent No. 30653314 JP 2004-102023 A A. Ghias, J. Logan, D. Chamberlin and BC Smith “Query by humming: Musical information retrieval in an audio database,” Proc. ACM Multimedia '95, pp.231-236, San Francisco, USA, Nov. 1995.

上述したように、これまでの音響信号の一致探索では、同じ音響信号であっても音程を変えて再生された音響信号の探索は困難であるという問題があった。   As described above, the conventional search for matching acoustic signals has a problem that it is difficult to search for an acoustic signal reproduced with a different pitch even for the same acoustic signal.

また、入力された音響信号に対して周波数変動を付加するという方法では、照合に必要となる情報量が大幅に増大してしまうという問題があった。   In addition, the method of adding frequency fluctuations to an input acoustic signal has a problem that the amount of information required for collation is greatly increased.

本発明は、上記問題を解決すべくなされたもので、検索キーとして参照信号を入力した場合に、一致する信号が含まれる蓄積信号中の区間を、各音響信号の周波数変動に柔軟に対応しながら精度よく、かつ高速に検索することが可能な音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体を提供することにある。   The present invention has been made to solve the above problem, and when a reference signal is input as a search key, a section in an accumulated signal including a matching signal can be flexibly dealt with a frequency variation of each acoustic signal. Acoustic signal feature extraction method, extraction device, extraction program, recording medium storing the program, and acoustic signal search method, search device, search program using the feature Another object is to provide a recording medium on which the program is recorded.

上記問題を解決するために、本発明は、入力される音響信号の時間周波数スペクトログラムに基づいて、当該音響信号の特徴量を抽出する音響信号特徴抽出装置における音響信号特徴抽出方法であって、前記時間周波数スペクトログラムの時間間隔ごとに、前記時間周波数スペクトログラムの所定の基準特徴部を抽出し、抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの基準周波数とし、対数軸上で予め定められた間隔の複数の周波数を、当該基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記時間間隔ごとの音響信号の特徴量を抽出することを特徴とする音響信号特徴抽出方法である。 In order to solve the above problem, the present invention provides an acoustic signal feature extraction method in an acoustic signal feature extraction device that extracts a feature amount of an acoustic signal based on a time-frequency spectrogram of the input acoustic signal, A predetermined reference feature portion of the time frequency spectrogram is extracted for each time interval of the time frequency spectrogram, and the extracted frequency of the predetermined reference feature portion is set as a reference frequency for each time interval, and is predetermined on a logarithmic axis. And extracting a plurality of frequencies at intervals with reference to the reference frequency, and extracting a feature amount of the acoustic signal at each time interval based on the extracted power spectrum value of each frequency. Is the method.

本発明は、上記に記載の発明において、前記所定の基準特徴部とは、パワースペクトル値が各時間間隔において最大値となる部分であることを特徴とする。   The present invention is characterized in that, in the invention described above, the predetermined reference feature portion is a portion where a power spectrum value becomes a maximum value in each time interval.

本発明は、上記に記載の発明において、前記所定の基準特徴部とは、時間軸で連続する幾つかの時間周波数スペクトログラムの中で、パワースペクトル値が最大値となる部分であることを特徴とする。   The present invention is characterized in that, in the invention described above, the predetermined reference feature portion is a portion in which a power spectrum value is a maximum value in several time frequency spectrograms continuous on a time axis. To do.

本発明は、上記に記載の発明において、前記所定の基準特徴部とは、時間軸で連続する幾つかの時間周波数スペクトログラムのパワースペクトル値の重心となる部分であることを特徴とする。   The present invention is characterized in that, in the above-described invention, the predetermined reference feature portion is a portion serving as a center of gravity of power spectrum values of several time-frequency spectrograms continuous on a time axis.

本発明は、参照音響信号に基づいて、当該参照音響信号に類似する音を含む区間を、入力される検索対象音響信号から検索する音響信号検索装置における音響信号検索方法であって、前記参照音響信号及び前記検索対象音響信号それぞれの時間周波数スペクトログラムから、前記時間周波数スペクトログラムの時間間隔ごとの所定の基準特徴部を抽出し、前記参照音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記参照音響信号の基準周波数とし、前記検索対象音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記検索対象音響信号の基準周波数とし、対数軸上で予め定められた間隔の複数の周波数を、前記参照音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記参照音響信号の前記時間間隔ごとの音響信号の特徴量を抽出し、抽出した特徴量に基づいて前記参照音響信号の信号全体の時間長を一区間とする参照特徴量を算出し、対数軸上で予め定められた間隔の複数の周波数を、前記検索対象音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記検索対象音響信号の前記時間間隔ごとの特徴量を抽出し、抽出した前記検索対象音響信号の前記特徴量に基づいて前記区間ごとの区間特徴量を算出し、算出した区間特徴量と、前記参照特徴量とに基づいて類似度を算出し、算出した類似度に基づいて、前記参照音響信号の音に類似する前記検索対象音響信号の区間を検索し、検索により検出した前記参照音響信号の音に類似する前記検索対象音響信号の区間を出力することを特徴とする音響信号検索方法である。 The present invention is an acoustic signal search method in an acoustic signal search device for searching a section including a sound similar to the reference sound signal from an input search target sound signal based on a reference sound signal, the reference sound A predetermined reference feature for each time interval of the time frequency spectrogram is extracted from a time frequency spectrogram of each of the signal and the search target acoustic signal, and the predetermined reference feature portion extracted from the time frequency spectrogram of the reference acoustic signal the frequency with the reference frequency of the reference acoustic signal for each of said time intervals, the search target acoustic signal of the time the search target acoustic signal of the reference of each said time interval the frequency of the predetermined reference feature extracted from the frequency spectrogram and frequency, a plurality of frequencies of predetermined intervals on a logarithmic axis, of the reference acoustic signal Extracting, based on the quasi-frequency, based on the extracted power spectrum value of each frequency extracts a feature quantity of the audio signal for each of the time intervals of the reference acoustic signal, the reference acoustic signal on the basis of the extracted feature quantity Calculate a reference feature value with the time length of the entire signal as one section , extract a plurality of frequencies at predetermined intervals on the logarithmic axis with reference to the reference frequency of the search target acoustic signal , and extract each frequency The feature quantity for each time interval of the search target acoustic signal is extracted based on the power spectrum value of the search target section, and the section feature quantity for each section is calculated based on the extracted feature quantity of the search target acoustic signal. The similarity is calculated based on the section feature quantity and the reference feature quantity, and the section of the search target acoustic signal similar to the sound of the reference acoustic signal is searched based on the calculated similarity degree. Is an acoustic signal search method characterized by outputting a section of the search target acoustic signal similar to the sound of the reference acoustic signal detected by the search.

本発明は、入力される音響信号の時間周波数スペクトログラムに基づいて、当該音響信号の特徴量を抽出する音響信号特徴抽出装置であって、前記時間周波数スペクトログラムの時間間隔ごとに、前記時間周波数スペクトログラムの所定の基準特徴部を抽出し、抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの基準周波数とする基準周波数検出手段と、対数軸上で予め定められた間隔の複数の周波数を、当該基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記時間間隔ごとの音響信号の特徴量を抽出する特徴量抽出手段と、を備えたことを特徴とする音響信号特徴抽出装置である。 The present invention is an acoustic signal feature extraction device that extracts a feature amount of an acoustic signal based on a temporal frequency spectrogram of an input acoustic signal, and for each time interval of the temporal frequency spectrogram, the temporal frequency spectrogram includes: A predetermined reference feature portion is extracted, a reference frequency detecting means that uses the extracted frequency of the predetermined reference feature portion as a reference frequency for each time interval, and a plurality of frequencies at predetermined intervals on the logarithmic axis, An acoustic signal feature comprising: feature amount extraction means for extracting the feature amount of the acoustic signal for each time interval based on the extracted power spectrum value of each frequency based on the reference frequency It is an extraction device.

本発明は、参照音響信号に基づいて、当該参照音響信号に類似する音を含む区間を、入力される検索対象音響信号から検索する音響信号検索装置であって、前記参照音響信号及び前記検索対象音響信号それぞれの時間周波数スペクトログラムから、前記時間周波数スペクトログラムの時間間隔ごとの所定の基準特徴部を抽出し、前記参照音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記参照音響信号の基準周波数とし、前記検索対象音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記検索対象音響信号の基準周波数とする基準周波数検出手段と、対数軸上で予め定められた間隔の複数の周波数を、前記参照音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記参照音響信号の前記時間間隔ごとの特徴量を抽出し、抽出した特徴量に基づいて前記参照音響信号の信号全体の時間長を一区間とする参照特徴量を算出し、対数軸上で予め定められた間隔の複数の周波数を、前記検索対象音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記検索対象音響信号の前記時間間隔ごとの特徴量を抽出する特徴抽出手段と、前記特徴抽出手段が抽出した前記検索対象音響信号の前記特徴量に基づいて前記区間ごとの区間特徴量を算出し、算出した区間特徴量と、前記参照特徴量とに基づいて類似度を算出し、算出した類似度に基づいて、前記参照音響信号の音に類似する前記検索対象音響信号の区間を検索し、検索により検出した前記参照音響信号の音に類似する前記検索対象音響信号の区間を出力する類似度計算手段と、を備えたことを特徴とする音響信号検索装置である。 The present invention is an acoustic signal search device for searching an input search target acoustic signal for a section including a sound similar to the reference acoustic signal based on the reference acoustic signal, the reference acoustic signal and the search target Extracting a predetermined reference feature for each time interval of the time frequency spectrogram from the time frequency spectrogram of each acoustic signal, and extracting the frequency of the predetermined reference feature extracted from the time frequency spectrogram of the reference acoustic signal as the time interval a reference frequency of the reference acoustic signal of each, the reference frequency as a reference frequency of the search target acoustic signal of each of the search target said time interval the frequency of the predetermined reference feature extracted from time-frequency spectrogram of the acoustic signals detection means, a plurality of frequencies of predetermined intervals on a logarithmic axis, based on the reference acoustic signal The frequency is extracted as a reference, based on the extracted power spectrum value of each frequency and extracts a feature of each said time interval of said reference sound signal, based on the extracted feature quantity of the whole signal of the reference acoustic signal time A reference feature value having a length as one section is calculated, a plurality of frequencies at predetermined intervals on the logarithmic axis are extracted with reference to a reference frequency of the search target acoustic signal, and a power spectrum value of each extracted frequency Based on the feature extraction means for extracting the feature quantity for each time interval of the search target acoustic signal, and the section feature quantity for each section based on the feature quantity of the search target acoustic signal extracted by the feature extraction means A similarity is calculated based on the calculated section feature and the reference feature, and the search pair similar to the sound of the reference acoustic signal is calculated based on the calculated similarity. An acoustic signal retrieval device comprising: a similarity calculation unit that retrieves an acoustic signal section and outputs the retrieval target acoustic signal section similar to the sound of the reference acoustic signal detected by the search. is there.

本発明は、入力される音響信号の時間周波数スペクトログラムに基づいて、当該音響信号の特徴量を抽出する音響信号特徴抽出装置のコンピュータに、前記時間周波数スペクトログラムの時間間隔ごとに、前記時間周波数スペクトログラムの所定の基準特徴部を抽出するステップと、抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの基準周波数とするステップと、対数軸上で予め定められた間隔の複数の周波数を、当該基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記時間間隔ごとの音響信号の特徴量を抽出するステップと、を実行させるための音響信号特徴抽出プログラムである。 The present invention provides a computer of an acoustic signal feature extraction apparatus that extracts a feature quantity of an acoustic signal based on the temporal frequency spectrogram of the input acoustic signal, and transmits the time frequency spectrogram of the time frequency spectrogram for each time interval of the time frequency spectrogram. A step of extracting a predetermined reference feature, a step of setting the extracted frequency of the predetermined reference feature as a reference frequency for each time interval, and a plurality of frequencies at predetermined intervals on a logarithmic axis, An acoustic signal feature extraction program for executing a step of extracting a feature amount of the acoustic signal for each time interval based on a power spectrum value of each extracted frequency.

本発明は、参照音響信号に基づいて、当該参照音響信号に類似する音を含む区間を、入力される検索対象音響信号から検索する音響信号検索装置のコンピュータに、参照音響信号及び検索対象音響信号の時間周波数スペクトログラムを入力するステップと、前記参照音響信号及び前記検索対象音響信号それぞれの時間周波数スペクトログラムから、前記時間周波数スペクトログラムの時間間隔ごとの所定の基準特徴部を抽出するステップと、前記参照音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記参照音響信号の基準周波数とし、前記検索対象音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記検索対象音響信号の基準周波数とするステップと、対数軸上で予め定められた間隔の複数の周波数を、前記参照音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記参照音響信号の前記時間間隔ごとの特徴量を抽出し、抽出した特徴量に基づいて前記参照音響信号の信号全体の時間長を一区間とする参照特徴量を算出するステップと、対数軸上で予め定められた間隔の複数の周波数を、前記検索対象音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記検索対象音響信号の前記時間間隔ごとの特徴量を抽出するステップと、抽出した前記検索対象音響信号の前記特徴量に基づいて前記区間ごとの区間特徴量を算出するステップと、前記類似度計算手段が、算出した区間特徴量と、前記参照特徴量とに基づいて類似度を算出するステップと、算出した類似度に基づいて、前記参照音響信号の音に類似する前記検索対象音響信号の区間を検索し、検索により検出した前記参照音響信号の音に類似する前記検索対象音響信号の区間を出力するステップと、を実行させるための音響信号検索プログラムである。 The present invention relates to a computer of an acoustic signal search device that searches an input search target acoustic signal for a section including a sound similar to the reference acoustic signal based on the reference acoustic signal. Inputting a time frequency spectrogram of the reference frequency, extracting a predetermined reference feature for each time interval of the time frequency spectrogram from the time frequency spectrogram of each of the reference sound signal and the search target sound signal, and the reference sound The frequency of the predetermined reference feature extracted from the time frequency spectrogram of the signal is set as the reference frequency of the reference acoustic signal for each time interval, and the frequency of the predetermined reference feature extracted from the time frequency spectrogram of the search target acoustic signal the search target acoustic signal of the group of each said time interval a frequency A step of frequency, multiple frequencies of predetermined intervals on a logarithmic axis, the reference frequency of the reference acoustic signal extracted as a reference, extracted of the reference acoustic signal on the basis of the power spectrum value of each frequency Extracting a feature value for each time interval, calculating a reference feature value having one time as a whole time length of the signal of the reference acoustic signal based on the extracted feature value, and predetermined on a logarithmic axis Extracting a plurality of frequencies in the interval with reference to a reference frequency of the search target acoustic signal, and extracting a feature amount for each time interval of the search target acoustic signal based on the extracted power spectrum value of each frequency; Calculating a section feature amount for each section based on the extracted feature amount of the search target acoustic signal, and the similarity calculation unit calculates the section feature A step of calculating a similarity based on the amount and the reference feature, and searching for a section of the search target acoustic signal similar to the sound of the reference acoustic signal based on the calculated similarity and detecting by searching And a step of outputting a section of the search target acoustic signal similar to the sound of the reference acoustic signal.

本発明は、上記に記載の音響信号特徴抽出プログラムを記録したコンピュータ読み取り可能な記録媒体である。   The present invention is a computer-readable recording medium on which the acoustic signal feature extraction program described above is recorded.

本発明は、上記に記載の音響信号検索プログラムを記録したコンピュータ読み取り可能な記録媒体である。   The present invention is a computer-readable recording medium in which the above-described acoustic signal search program is recorded.

この発明によれば、時間周波数スペクトログラムの時間間隔ごとに、時間周波数スペクトログラムの所定の基準特徴部を抽出し、抽出した前記所定の基準特徴部の周波数を時間間隔ごとの基準周波数とし、当該基準周波数を基準として一意に定められる周波数のパワースペクトル値に基づいて前記時間間隔ごとの音響信号の特徴量を抽出する構成とした。これにより、音響信号の各時間周波数スペクトログラムから、パワースペクトルの所定の基準特徴部を検出して各時間間隔における基準周波数として設定し、当該基準周波数に基づいてパワースペクトルの特徴を抽出することにより、周波数による変動が発生していたとしても、その変動に影響を受けない特徴抽出を行うことができる。   According to the present invention, for each time interval of the time frequency spectrogram, a predetermined reference feature portion of the time frequency spectrogram is extracted, and the extracted frequency of the predetermined reference feature portion is set as a reference frequency for each time interval, and the reference frequency Based on the power spectrum value of the frequency uniquely determined with reference to the above, the feature amount of the acoustic signal for each time interval is extracted. Thereby, from each time frequency spectrogram of the acoustic signal, a predetermined reference feature portion of the power spectrum is detected and set as a reference frequency in each time interval, and by extracting the feature of the power spectrum based on the reference frequency, Even if fluctuation due to frequency occurs, feature extraction that is not affected by the fluctuation can be performed.

また、本発明によれば、所定の基準特徴部とは、パワースペクトル値が各時間間隔において最大値となる部分である構成とした。これにより、パワースペクトル値が最大値となる周波数値を基準周波数とした特徴抽出を行うことが可能となる。   Further, according to the present invention, the predetermined reference feature portion is a portion where the power spectrum value becomes a maximum value at each time interval. This makes it possible to perform feature extraction using the frequency value at which the power spectrum value is maximum as the reference frequency.

また、本発明によれば、所定の基準特徴部とは、時間軸で連続する幾つかの時間周波数スペクトログラムの中で、パワースペクトル値が最大値となる部分である構成とした。これにより、連続する時間の中で特徴抽出に最も適切な基準周波数を設定することが可能となる。   In addition, according to the present invention, the predetermined reference feature portion is a portion in which the power spectrum value becomes the maximum value among several time-frequency spectrograms continuous on the time axis. This makes it possible to set the most appropriate reference frequency for feature extraction within a continuous time.

また、本発明によれば、所定の基準特徴部とは、時間軸で連続する幾つかの時間周波数スペクトログラムのパワースペクトル値の重心となる部分である構成とした。これにより、音響信号にノイズ等が含まれていたとしても特徴抽出に最も適切な基準周波数を設定することが可能となる。   Further, according to the present invention, the predetermined reference feature portion is a portion that becomes the center of gravity of the power spectrum values of several time-frequency spectrograms that are continuous on the time axis. This makes it possible to set the most appropriate reference frequency for feature extraction even if the acoustic signal contains noise or the like.

また、本発明によれば、参照音響信号及び前記検索対象音響信号それぞれの時間周波数スペクトログラムから、時間周波数スペクトログラムの時間間隔ごとの所定の基準特徴部を抽出し、抽出した所定の基準特徴部の周波数を時間間隔ごとの参照音響信号及び検索対象音響信号それぞれの基準周波数とし、参照音響信号の基準周波数を基準として一意に定められる周波数のパワースペクトル値に基づいて参照音響信号の前記時間間隔ごとの特徴量を抽出し、抽出した特徴量に基づいて前記参照音響信号の信号全体の時間長を一区間とする参照特徴量を算出し、検索対象音響信号の基準周波数を基準として一意に定められる周波数のパワースペクトル値に基づいて検索対象音響信号の前記時間間隔ごとの特徴量を抽出し、抽出した前記検索対象音響信号の前記特徴量に基づいて区間ごとの区間特徴量を算出し、算出した区間特徴量と、参照特徴量とに基づいて類似度を算出し、算出した類似度に基づいて、参照音響信号の音に類似する検索対象音響信号の区間を検索し、検索により検出した参照音響信号の音に類似する前記検索対象音響信号の区間を出力する構成とした。これにより、参照音響信号および検索対象音響信号の各時間周波数スペクトログラムから、パワースペクトルの所定の基準特徴部を検出して各時間間隔における基準周波数として設定、すなわち、周波数による変動が発生していたとしても、その周波数変動に依存しない特徴を抽出可能な基準周波数を設定することが可能となる。そして、該基準周波数に基づき各信号の周波数スペクトル特徴を抽出し、抽出した周波数スペクトル特徴に基づいて周波数の上下の変動に対応した音響信号検出が可能となる。   Further, according to the present invention, a predetermined reference feature for each time interval of the time frequency spectrogram is extracted from the time frequency spectrogram of each of the reference acoustic signal and the search target acoustic signal, and the frequency of the extracted predetermined reference feature is extracted. Is the reference frequency of each of the reference acoustic signal and the search target acoustic signal for each time interval, and the characteristics of the reference acoustic signal for each time interval based on the power spectrum value of the frequency uniquely determined based on the reference frequency of the reference acoustic signal A reference feature value having a time length of the entire signal of the reference acoustic signal as one section based on the extracted feature value, and a frequency of a frequency uniquely determined based on the reference frequency of the search target acoustic signal. Based on the power spectrum value, the feature quantity for each time interval of the search target acoustic signal is extracted, and the extracted search target A section feature amount for each section is calculated based on the feature amount of the sound signal, a similarity is calculated based on the calculated section feature amount and the reference feature amount, and a reference acoustic signal is calculated based on the calculated similarity degree. The section of the search target acoustic signal similar to the sound of the search target acoustic signal is searched, and the section of the search target acoustic signal similar to the sound of the reference acoustic signal detected by the search is output. As a result, a predetermined reference feature of the power spectrum is detected from each time frequency spectrogram of the reference sound signal and the search target sound signal and set as a reference frequency at each time interval, that is, fluctuation due to the frequency has occurred. However, it is possible to set a reference frequency capable of extracting features that do not depend on the frequency variation. Then, the frequency spectrum feature of each signal is extracted based on the reference frequency, and the acoustic signal can be detected corresponding to the vertical fluctuation of the frequency based on the extracted frequency spectrum feature.

(本発明の原理)
最初に、図1から図4を参照して本発明の原理について説明する。本発明は、音響特徴の抽出の際、音響特徴を抽出する各時点で、音響信号の周波数の変動に応じて、音響特徴を抽出する周波数をずらす構成を有することを特徴としている。例えば、音響信号のパワースペクトログラムが、周波数軸を対数で表した場合に、図1のように表されるとする。このとき、音響特徴は、図2のように、f1,f2,…,fc,…,fkの各周波数のパワーにとして抽出される。このとき、この音響信号の周波数をa倍にして再生すると、図3のように、そのパワースペクトログラムは、パワースペクトログラム値の変化の特徴を維持したまま、周波数軸方向にa倍だけずれたものになる。すなわち、このa倍を移調やピッチシフトとすれば、aの値さえ分かれば、移調やピッチシフトによる周波数変動の影響を吸収することが可能となる。
(Principle of the present invention)
First, the principle of the present invention will be described with reference to FIGS. The present invention is characterized in that, at the time of extracting an acoustic feature, the frequency at which the acoustic feature is extracted is shifted in accordance with a change in the frequency of the acoustic signal at each time point when the acoustic feature is extracted. For example, it is assumed that the power spectrogram of an acoustic signal is expressed as shown in FIG. 1 when the frequency axis is expressed logarithmically. At this time, as shown in FIG. 2, the acoustic feature is extracted as the power of each frequency of f1, f2,..., Fc,. At this time, when the frequency of the acoustic signal is reproduced by multiplying by a, the power spectrogram is shifted by a times in the frequency axis direction while maintaining the characteristics of the change of the power spectrogram value as shown in FIG. Become. That is, if this a-times is used as transposition or pitch shift, if the value of a is known, it is possible to absorb the influence of frequency fluctuation due to transposition or pitch shift.

そこで、本発明では、音響特徴を抽出する基準となる周波数をfcを、例えば、その時点のスペクトルのピークにあわせ、当該fcを基準として音響特徴を示す周波数としてf1,f2,…,fc,…fkを抽出し、抽出した周波数ごとのパワースペクトル値の平均値を算出し、算出した平均値で周波数ごとのパワースペクトル値を正規化する。そして、図4に示すように、a倍に相当する移調やピッチシフトが行われた音響信号についても、同じように基準周波数をその時点のスペクトルのピークにあわせることで、afcが基準周波数として得られ、当該afcを基準として音響特徴を示す周波数としてaf1,af2,…,afc,…afkを抽出し、上記と同じように抽出した周波数ごとのパワースペクトル値を正規化する。このようにして得られた2つの音響特徴は、周波数値の違いはあるものの、fcとafcを基準として観測した場合、対応する周波数における正規化されたパワースペクトル値は同じ値となり、周波数変動による影響が吸収された音響特徴の抽出を行うことが可能となる。以下、当該原理を実現する本発明の実施形態を図面を参照して説明する。   Therefore, in the present invention, fc is used as a reference frequency for extracting acoustic features, for example, the peak of the spectrum at that time, and f1, f2,..., Fc,. fk is extracted, an average value of the extracted power spectrum values for each frequency is calculated, and the power spectrum value for each frequency is normalized by the calculated average value. Then, as shown in FIG. 4, the afc is obtained as the reference frequency by matching the reference frequency with the peak of the spectrum at that time in the same manner for the acoustic signal subjected to transposition and pitch shift corresponding to a times. , Afc,..., Afk are extracted as frequencies indicating acoustic features with the afc as a reference, and the power spectrum value for each extracted frequency is normalized in the same manner as described above. Although the two acoustic features obtained in this way have a difference in frequency value, when observed with fc and afc as a reference, the normalized power spectrum values at the corresponding frequencies are the same value, and are due to frequency fluctuations. It is possible to extract acoustic features whose influence is absorbed. Hereinafter, embodiments of the present invention that realize the principle will be described with reference to the drawings.

(本発明の第1実施形態)
次に、本発明の第1実施形態に係る音響信号検索装置1について説明する。音響信号検索装置1は、検索したい音響信号、すなわち参照信号を入力し、これより長い音響信号である蓄積信号中から参照信号と類似する信号を含む区間を検出するものである。また、音響信号検索装置1は、上述した原理を適用して音響信号の周波数変動があっても、当該変動に対して頑健、つまり、その変動を吸収して検索を可能にするものである。なお、本明細書において蓄積信号中で参照信号に類似する信号を含む区間を検出するとは、この区間が始まる区間の先頭の時点を検出することと定義する。
(First embodiment of the present invention)
Next, the acoustic signal search device 1 according to the first embodiment of the present invention will be described. The acoustic signal search device 1 inputs an acoustic signal to be searched, that is, a reference signal, and detects a section including a signal similar to the reference signal from stored signals that are longer acoustic signals. Further, the acoustic signal search device 1 is robust against the fluctuation even if there is a frequency fluctuation of the acoustic signal by applying the above-described principle, that is, the search is made possible by absorbing the fluctuation. In the present specification, detecting a section including a signal similar to the reference signal in the accumulated signal is defined as detecting the beginning time of the section in which this section starts.

図5は、第1実施形態に係る音響信号検索装置1の構成を示すブロック図である。音響信号検索装置1は、基準周波数検出部11と、特徴抽出部12と、類似度計算部13とを備えている。音響信号検索装置1では、参照信号並びに蓄積信号が入力されると、まず最初に図示しない変換部により変換されて、それぞれの信号の時間周波数スペクトログラム(以下、スペクトログラムと記載)が出力される。   FIG. 5 is a block diagram illustrating a configuration of the acoustic signal search device 1 according to the first embodiment. The acoustic signal search device 1 includes a reference frequency detection unit 11, a feature extraction unit 12, and a similarity calculation unit 13. In the acoustic signal search device 1, when a reference signal and an accumulated signal are input, first, the signal is converted by a conversion unit (not shown), and a time-frequency spectrogram (hereinafter referred to as a spectrogram) of each signal is output.

基準周波数検出部11は、上記の変換部から参照信号と蓄積信号のそれぞれの信号のスペクトログラムが入力され、入力される参照信号及び蓄積信号のスペクトログラムからパワースペクトルの特徴的な部分を検出し、各時点における基準周波数fcを設定する。特徴抽出部12は、基準周波数検出部によって検出された各時点における基準周波数fcを基準に、参照信号ならびに蓄積信号の特徴を算出する。類似度計算部13は、上記参照信号と同じ長さの注目窓を蓄積信号に設定し、参照信号の特徴と注目窓内における蓄積信号の特徴との類似度を算出し、類似度を所定の閾値と比較することで類似性を判定する。   The reference frequency detector 11 receives the spectrograms of the reference signal and the accumulated signal from the conversion unit, detects a characteristic part of the power spectrum from the input reference signal and the accumulated signal spectrogram, A reference frequency fc at the time is set. The feature extraction unit 12 calculates the features of the reference signal and the accumulated signal based on the reference frequency fc at each time point detected by the reference frequency detection unit. The similarity calculation unit 13 sets an attention window having the same length as the reference signal as an accumulated signal, calculates the similarity between the characteristics of the reference signal and the characteristics of the accumulated signal within the attention window, Similarity is determined by comparing with a threshold.

次に、上述した音響信号検索装置1の動作説明を行う。図6は、図5の音響信号検索装置1の動作例を示すフローチャートである。音響信号検索装置1は、検索キーである参照信号を読み込むことで入力を行い(ステップS201)、前述した変換部により、スペクトログラムが出力される(ステップS202)。ここで、変換部によるスペクトログラムへの変換は、例えば、高速フーリエ変換を行うことにより、あるいは帯域通過フィルタを複数用いることにより行われる。   Next, the operation of the above-described acoustic signal search device 1 will be described. FIG. 6 is a flowchart showing an operation example of the acoustic signal search apparatus 1 of FIG. The acoustic signal search apparatus 1 performs input by reading a reference signal that is a search key (step S201), and a spectrogram is output by the conversion unit described above (step S202). Here, the conversion to the spectrogram by the conversion unit is performed, for example, by performing a fast Fourier transform or by using a plurality of band pass filters.

変換部により出力された参照信号のスペクトログラムは、基準周波数検出部11に入力され、基準周波数検出部11は、図7(a)に示すようにスペクトログラムを構成する周波数スペクトルの各時点においてパワースペクトルが最も高くなる周波数を特徴的な部分として検出し、検出した周波数をこの時点における基準周波数fcとして出力する(ステップS203)。   The spectrogram of the reference signal output by the conversion unit is input to the reference frequency detection unit 11, and the reference frequency detection unit 11 has a power spectrum at each time point of the frequency spectrum constituting the spectrogram as shown in FIG. The highest frequency is detected as a characteristic part, and the detected frequency is output as the reference frequency fc at this time (step S203).

なお、基準周波数検出部11は、図7(a)、(b)に示すようにサンプリングされた全ての周波数スペクトルについて基準周波数を各々決定する代わりに、図7(c)に示すように時間軸に連続する複数の周波数スペクトルのうち強度が最大となる周波数を、これらの周波数スペクトルの基準周波数として設定するようにしてもよい。他にも、時間軸方向において連続する複数の周波数スペクトルの強度の重心を求め、これに対応する周波数を、この時間内における周波数スペクトルの基準周波数として設定するようにしてもよい。   Note that the reference frequency detection unit 11 does not determine the reference frequencies for all the frequency spectra sampled as shown in FIGS. 7A and 7B, but instead uses time axes as shown in FIG. The frequency having the maximum intensity among a plurality of consecutive frequency spectra may be set as the reference frequency of these frequency spectra. In addition, the center of gravity of a plurality of frequency spectra continuous in the time axis direction may be obtained, and the frequency corresponding thereto may be set as the reference frequency of the frequency spectrum within this time.

また、基準周波数検出部11における基準周波数の決定方法は上述の方法に限られず、例えば、各サンプリング時点においてパワースペクトルのピークを複数検出し、強度がX番目の周波数を選択したり、あるいは、強度がY番目になる周波数から数Hzずらした点を選択したりすることによって基準周波数を決定することができる。また、これら複数検出されるパワースペクトルの、ピーク間に現れる谷となる点を基準周波数としてもよい。   In addition, the reference frequency determination method in the reference frequency detection unit 11 is not limited to the above-described method. For example, a plurality of power spectrum peaks are detected at each sampling time, and the Xth frequency is selected, or the intensity is selected. The reference frequency can be determined by selecting a point shifted by several Hz from the frequency at which Y becomes Y. Further, a point that becomes a trough appearing between peaks of the plurality of detected power spectra may be used as a reference frequency.

特徴抽出部12は、参照信号について、基準周波数検出部11によって検出された基準周波数fcを基準に、周波数軸上所定の間隔でパワースペクトル値を複数選択する。例えば、対数軸上で等間隔にパワースペクトル値を複数選択するようにしてもよい。そして、特徴抽出部12は、選択したパワースペクトル値を要素とする特徴ベクトルをこの時点における周波数スペクトル特徴(参照信号の特徴量)として抽出する。次に、特徴抽出部12は、各時点における周波数スペクトル特徴となる特徴ベクトルをベクトル量子化により符号化する(ステップS204)。そして、特徴抽出部12は、更にこれらの符号の所定時間内における出現回数を符号毎に計数したヒストグラム(以下、当該ヒストグラムをヒストグラム特徴と記載)を生成して、生成したヒストグラム特徴を音響信号の固有の情報、すなわち音響指紋として類似度計算部13に送出する(ステップS205)。なお、ヒストグラムを生成する際の前記の所定時間は、参照信号の時間長に等しいものとする。   The feature extraction unit 12 selects a plurality of power spectrum values at predetermined intervals on the frequency axis based on the reference frequency fc detected by the reference frequency detection unit 11 for the reference signal. For example, a plurality of power spectrum values may be selected at equal intervals on the logarithmic axis. Then, the feature extraction unit 12 extracts a feature vector having the selected power spectrum value as an element as a frequency spectrum feature (a feature amount of the reference signal) at this time. Next, the feature extraction unit 12 encodes a feature vector that is a frequency spectrum feature at each time point by vector quantization (step S204). Then, the feature extraction unit 12 further generates a histogram (hereinafter, the histogram is referred to as a histogram feature) in which the number of appearances of these codes within a predetermined time is counted for each code, and the generated histogram feature is used for the acoustic signal. It transmits to the similarity calculation part 13 as intrinsic | native information, ie, an acoustic fingerprint (step S205). Note that the predetermined time for generating the histogram is equal to the time length of the reference signal.

一方、音響信号検索装置1は、検索対象となる蓄積信号の音響波形信号を読み込んで入力し(ステップS206)、上記参照信号と同様の手法で時間周波数スペクトログラムを抽出する(ステップS207)。そして、基準周波数検出部11と特徴抽出部12は、参照信号と同様に基準周波数fcを検出し(ステップS208)、各時点における周波数スペクトル特徴となる特徴ベクトルを求め、ベクトル量子化により符号化する(ステップS209)。特徴抽出部12は、蓄積信号の場合には、ヒストグラム特徴を出力するのではなく、特徴ベクトルを符号化した符号系列を類似度計算部13に出力する。   On the other hand, the acoustic signal search device 1 reads and inputs the acoustic waveform signal of the accumulated signal to be searched (step S206), and extracts the time-frequency spectrogram by the same method as the reference signal (step S207). Then, the reference frequency detection unit 11 and the feature extraction unit 12 detect the reference frequency fc similarly to the reference signal (step S208), obtain a feature vector that becomes a frequency spectrum feature at each time point, and encode it by vector quantization. (Step S209). In the case of an accumulated signal, the feature extraction unit 12 does not output a histogram feature but outputs a code sequence obtained by encoding a feature vector to the similarity calculation unit 13.

なお、一般的には、蓄積信号の符号系列は、蓄積信号データベースに記憶され、検索処理が開始されると、逐次蓄積信号データベースにアクセスして蓄積信号の符号系列を読み出す構成をとることになるが、この構成には限られない。例えば、参照信号と蓄積信号を同時に入力し、参照信号のヒストグラム特徴を類似度計算部13に記憶しておき、リアルタイムに入力される蓄積信号の符号系列に対して照合を行うようにすることもできる。   In general, the code sequence of the accumulated signal is stored in the accumulated signal database, and when the search process is started, the accumulated signal database is sequentially accessed to read the accumulated signal code sequence. However, it is not limited to this configuration. For example, the reference signal and the accumulated signal may be input at the same time, the histogram characteristics of the reference signal may be stored in the similarity calculation unit 13, and the code sequence of the accumulated signal input in real time may be collated. it can.

類似度計算部13は、参照信号のヒストグラム特徴が特徴抽出部12から入力されると、入力される蓄積信号の符号系列について、その先頭より参照信号と同じ時間長の注目窓を設定する(ステップS210)。そして、注目窓内における符号の出現回数を符号毎に計数することによりヒストグラムを生成し(ステップS211)、生成したヒストグラムと参照信号のヒストグラム特徴との類似度を算出する(ステップS212)。算出する手法としては、例えば、時系列アクティブ探索(TAS)法(特許文献1)を適用することが可能である。   When the histogram feature of the reference signal is input from the feature extraction unit 12, the similarity calculation unit 13 sets an attention window having the same time length as that of the reference signal from the head of the code sequence of the input accumulated signal (step) S210). Then, a histogram is generated by counting the number of appearances of the code in the attention window for each code (step S211), and the similarity between the generated histogram and the histogram feature of the reference signal is calculated (step S212). As a calculation method, for example, a time series active search (TAS) method (Patent Document 1) can be applied.

ここで、図8を参照しつつTAS法について説明する。TAS法は、参照信号ヒストグラム特徴とのヒストグラム重なり率による類似度SIRが、探索閾値θを超えるヒストグラム特徴を有する蓄積信号上の区間を全て探索するものである。具体的には、類似度計算部13は、前述したように、始めに、蓄積信号の特徴である符号系列に先頭より参照信号と同じ時間長の注目窓を設定する。次に、参照信号のヒストグラム特徴Hと蓄積信号符号系列の注目窓におけるヒストグラム特徴Hとの類似度SIRを算出する。類似度SIRの算出は、次式(1)によって行うことができる。 Here, the TAS method will be described with reference to FIG. TAS method, the similarity S IR with histograms overlapping ratio between the reference signal histogram feature is intended to explore all the sections on the storage signal having a histogram feature that exceeds the search threshold value theta. Specifically, as described above, the similarity calculation unit 13 first sets an attention window having the same time length as that of the reference signal from the top in the code sequence that is a characteristic of the accumulated signal. Next, the similarity is calculated S IR with histogram feature H I in the target window with histogram feature H R of the reference signal stored signal code sequence. The similarity SIR can be calculated by the following equation (1).

Figure 0004597919
Figure 0004597919

ただし、式(1)において、Lは、ヒストグラムのビン数であり、Dはヒストグラムの総度数であり、hlγ、hRγは、それぞれH、Hのγ番目のビンに含まれる度数を表している。なお、本実施形態では、図8の入力にあたるスペクトログラムとして、参照信号の周波数スペクトル特徴を時系列に並べたものと、蓄積信号の周波数スペクトル特徴を時系列に並べたものを適用し、それぞれの周波数スペクトル特徴に対してベクトル量子化を行うことになる。 However, In formula (1), L is the number of bins in the histogram, D is the total frequency of the histogram, h lγ, h Rγ, respectively H I, the power contained in the γ-th bin of H R Represents. In the present embodiment, as the spectrogram corresponding to the input in FIG. 8, the frequency spectrum features of the reference signal arranged in time series and the frequency spectrum features of the accumulated signal arranged in time series are applied to each frequency. Vector quantization is performed on the spectral features.

類似度計算部13は、算出された類似度の値が閾値θを越えた場合に、蓄積信号中の該区間に類似性があると判断して検出結果を出力する。類似度計算部13は、設定された注目窓における類似度計算が終了すると、蓄積信号の符号系列に対し新たな注目窓を設定する。そのとき、すでに算出した類似度SIRに基づき、類似する可能性のないことが保証される蓄積信号上の区間との照合を省略し、次の注目窓をどこに設定できるかを表す値であるスキップ可能幅(移動可能量)kを算出する(ステップS213)。スキップ可能幅kは、次式(2)に基づいて算出することができる。 When the calculated similarity value exceeds the threshold θ, the similarity calculation unit 13 determines that the section in the accumulated signal is similar and outputs a detection result. When the similarity calculation for the set attention window is completed, the similarity calculation unit 13 sets a new attention window for the code sequence of the accumulated signal. At this time, based on the already calculated similarity SIR , it is a value representing where the next window of interest can be set by omitting collation with a section on the stored signal that is guaranteed not to be similar. A skippable width (movable amount) k is calculated (step S213). The skippable width k can be calculated based on the following equation (2).

Figure 0004597919
Figure 0004597919

すなわち、注目窓の設定は、ヒストグラム重なり率による類似度から、注目窓の現在位置近傍における類似度の上限値を求め、当該上限値に基づいて蓄積信号における次の注目窓の位置を求めて設定することになる。   That is, the window of interest is set by obtaining the upper limit value of the similarity in the vicinity of the current position of the window of interest from the similarity based on the histogram overlap rate, and determining the position of the next window of interest in the accumulated signal based on the upper limit value. Will do.

類似度計算部13は、設定した注目窓の位置が蓄積信号符号系列の終端に達したか否かを判定し(ステップS214)、蓄積信号符号系列の終端に達するまでステップS210からステップS213の処理を繰り返し、蓄積信号上で適宜注目窓を移動させながら類似度計算を行うことになる。そして、注目窓が蓄積信号の終端に達し、該蓄積信号について照合処理が終わると、音響信号検索装置1は検出結果を出力して全ての検索処理を終了する(ステップS215)。   The similarity calculation unit 13 determines whether or not the set position of the target window has reached the end of the stored signal code sequence (step S214), and performs the processing from step S210 to step S213 until the end of the stored signal code sequence is reached. The similarity calculation is performed while appropriately moving the target window on the accumulated signal. When the window of interest reaches the end of the accumulated signal and the collation processing is completed for the accumulated signal, the acoustic signal search device 1 outputs a detection result and ends all the search processing (step S215).

なお、注目窓の設定を行う順序は、ステップS210に示した蓄積信号の特徴量である符号系列を対象として行う構成に限定されることはなく、例えば、図9に示すフローチャートのように蓄積信号の信号波形に対して行ってもよい(図9:ステップS311)。図9の場合には、注目窓内の情報についてスペクトログラム抽出、基準周波数検出、特徴量抽出、ヒストグラム生成を行い(図9:ステップS312からステップS315)、参照信号のヒストグラム特徴との類似度計算を行う(ステップS212)こととなる。   Note that the order of setting the attention window is not limited to the configuration in which the code sequence that is the feature amount of the accumulated signal shown in step S210 is a target. For example, as shown in the flowchart of FIG. May be performed on the signal waveform (FIG. 9: step S311). In the case of FIG. 9, spectrogram extraction, reference frequency detection, feature amount extraction, and histogram generation are performed on the information in the window of interest (FIG. 9: Step S312 to Step S315), and the similarity calculation with the histogram feature of the reference signal is performed. This is performed (step S212).

また、図10に示すフローチャートのように、まず、図6のフローチャートと同様に、蓄積信号から特徴抽出を行い(ステップS206からS209)、さらに各時点におけるヒストグラム特徴を予め算出しておくことにより(図10:ステップS321)、注目窓を蓄積信号のヒストグラム系列に対して設定(図10:ステップS322)するようにすることもできる。   As in the flowchart shown in FIG. 10, first, similarly to the flowchart in FIG. 6, feature extraction is performed from the accumulated signal (steps S206 to S209), and histogram features at each time point are calculated in advance ( FIG. 10: Step S321), the window of interest may be set for the histogram series of accumulated signals (FIG. 10: Step S322).

また、上述した第1実施形態における音響信号検索装置1の別の形態として、図11に示す音響信号検索装置1aがある。音響信号検索装置1aは、図5に示した音響信号検索装置1の構成に加えて、特徴抽出部12より抽出されたヒストグラム特徴を符号化する符号化部14を備えた構成となっている。音響信号検索装置1aでは、ヒストグラム特徴をベクトル量子化などにより符号化し、各音響信号の音響指紋を符号系列として表現することで、類似度計算部13aにおいて、参照信号と蓄積信号中の区間との類似度を、当該符号系列間の類似性から算出することができ、照合に必要となる計算量を大幅に削減するものである。   Moreover, there is an acoustic signal search device 1a shown in FIG. 11 as another form of the acoustic signal search device 1 in the first embodiment described above. In addition to the configuration of the acoustic signal search device 1 illustrated in FIG. 5, the acoustic signal search device 1 a includes a coding unit 14 that codes the histogram feature extracted by the feature extraction unit 12. In the acoustic signal search device 1a, the histogram feature is encoded by vector quantization or the like, and the acoustic fingerprint of each acoustic signal is expressed as a code sequence, so that the similarity calculation unit 13a obtains a reference signal and an interval in the accumulated signal. The similarity can be calculated from the similarity between the code sequences, which greatly reduces the amount of calculation required for collation.

なお、蓄積信号検索装置1aの符号化部14から出力される各音響信号の音響指紋である符号系列について、ヒストグラム特徴を符号化する代わりに、特徴抽出部12において算出される周波数スペクトル特徴(あるいは複数のスペクトル特徴を連続した一連の特徴ベクトルとしたもの)を、直接ベクトル量子化して算出するようにしてもよい。   Note that, instead of encoding a histogram feature for a code sequence that is an acoustic fingerprint of each acoustic signal output from the encoding unit 14 of the accumulated signal search device 1a, a frequency spectrum feature (or a frequency sequence feature calculated by the feature extraction unit 12) (or A plurality of spectral features that are a series of consecutive feature vectors) may be calculated by direct vector quantization.

また、さらに、上述した第1実施形態における音響信号検索装置1の別の形態として図12に示す音響信号検索装置1bがある。音響信号検索装置1bでは、図11に示した音響信号検索装置1aの構成に加えて、索引生成部15を備えた構成となっている。索引生成部15は、符号化部14により出力された蓄積信号の各符号について、予め蓄積信号上の所在を示す索引情報を生成する。このような構成とすることで、参照信号の符号に類似する蓄積信号上の符号の位置は、索引情報により容易に検出でき、これにより類似度計算部13bは、類似性のある符号を蓄積信号上で探索する処理を省略し、蓄積信号上の区間における類似度をより高速に算出できるようになる。なお、図12において、実線は、参照信号のスペクトログラムを対象とした処理の流れを示したものであり、破線は、蓄積信号のスペクトログラムを対象とした処理の流れを示したものである。   Furthermore, there is an acoustic signal retrieval apparatus 1b shown in FIG. 12 as another form of the acoustic signal retrieval apparatus 1 in the first embodiment described above. The acoustic signal search device 1b is configured to include an index generation unit 15 in addition to the configuration of the acoustic signal search device 1a illustrated in FIG. The index generating unit 15 generates index information indicating the location on the accumulated signal in advance for each code of the accumulated signal output by the encoding unit 14. With this configuration, the position of the code on the accumulated signal that is similar to the code of the reference signal can be easily detected from the index information, whereby the similarity calculation unit 13b can detect the similar code as the accumulated signal. The search process above is omitted, and the similarity in the section on the accumulated signal can be calculated at higher speed. In FIG. 12, the solid line indicates the flow of processing for the spectrogram of the reference signal, and the broken line indicates the flow of processing for the spectrogram of the accumulated signal.

図13は、図12に示した音響信号検索装置1bの動作例を示したフローチャートである。なお、当該フローチャートにおいて、図6で説明した動作と同じ動作については、同じステップ番号を付し、以下、異なる動作について説明する。   FIG. 13 is a flowchart illustrating an operation example of the acoustic signal search device 1b illustrated in FIG. In the flowchart, the same operations as those described in FIG. 6 are denoted by the same step numbers, and different operations will be described below.

まず、音響信号検索装置1bにおいて符号化部14は、特徴抽出部12により算出された各音響信号のヒストグラム特徴を符号化する(ステップS601、ステップS602)。索引生成部15は蓄積信号の各符号について索引情報を生成する(ステップS801)。類似度計算部13bは、参照信号の符号に類似する蓄積信号の符号を索引検索により検出し(ステップS803:Yes)、検出した蓄積信号の符号から、類似する可能性のある蓄積信号中の照合区間を出力する(ステップS804)。次に、類似度計算部13bは、出力した照合区間がなくなるまで、照合区間の選択を繰り返し、照合区間ごとに参照信号との類似度、すなわち区間類似度を算出する(ステップS805からS807)。そして、類似度計算部13bは、区間類似度を所定の閾値である探索閾値と比較し、区間類似度が探索閾値を超えているものを、類似しているものとし、区間類似度が探索閾値を超えていないものを類似していないものとして検出結果を出力する(ステップS808、ステップS809)。なお、ステップS803において、類似度計算部13bは、参照信号の符号に類似する蓄積信号の符号を索引検索により検出できない場合(ステップS803:No)、その結果を検出結果として出力する(ステップS809)。   First, in the acoustic signal search apparatus 1b, the encoding unit 14 encodes the histogram feature of each acoustic signal calculated by the feature extraction unit 12 (steps S601 and S602). The index generation unit 15 generates index information for each code of the accumulated signal (step S801). The similarity calculation unit 13b detects the code of the accumulated signal similar to the code of the reference signal by index search (step S803: Yes), and collates in the accumulated signal that may be similar from the detected code of the accumulated signal. The section is output (step S804). Next, the similarity calculation unit 13b repeatedly selects a matching section until there is no output matching section, and calculates the similarity with the reference signal for each matching section, that is, the section similarity (steps S805 to S807). Then, the similarity calculation unit 13b compares the section similarity with a search threshold that is a predetermined threshold, determines that the section similarity exceeds the search threshold, is similar, and the section similarity is the search threshold. The detection results are output as those not exceeding similarity if not exceeding (steps S808 and S809). In step S803, when the similarity calculation unit 13b cannot detect the code of the accumulated signal similar to the code of the reference signal by index search (step S803: No), the result is output as a detection result (step S809). .

(第1実施形態の実装例)
次に、上述した第1実施形態の実装例について説明する。
まず、音響信号としては、音楽CDなどで用いられる音響信号(サンプリング周波数44.1kHz、16bit量子化、ステレオ)をダウンサンプリング、モノラル化、量子化ビット数を変更した音響信号(サンプリング周波数11.025kHz、8ビット量子化、モノラル)を用いる。そして、この音響信号に対し、まず、1024点のFFT(Fast Fourier Transform)を10msごとに行い、10msごとにその時点のパワースペクトルを抽出する。そして、この10msごとにスペクトルを時間方向に並べたものとして、スペクトログラムを得る。また、((1/x)×fc,(1/x)×fc,(1/x)×fc,x×fc,x×fc,x×fc)の各周波数においてパワーを抽出し、抽出した各周波数のパワーの平均値を算出し、算出した平均値で各周波数のパワーを正規化したものを特徴ベクトルとする。ここで、xは71/6である。
(Example of implementation of the first embodiment)
Next, an implementation example of the above-described first embodiment will be described.
First, an acoustic signal (sampling frequency 44.1 kHz, 16-bit quantization, stereo) used as a music CD or the like is down-sampled, monauralized, and the number of quantization bits is changed (sampling frequency 11.025 kHz). , 8-bit quantization, monaural). The acoustic signal is first subjected to 1024 FFT (Fast Fourier Transform) every 10 ms, and the power spectrum at that time is extracted every 10 ms. Then, the spectrogram is obtained assuming that the spectra are arranged in the time direction every 10 ms. Moreover, power is extracted at each frequency of ((1 / x 3 ) × fc, (1 / x 2 ) × fc, (1 / x) × fc, x × fc, x 2 × fc, x 3 × fc). Then, the average value of the power of each extracted frequency is calculated, and the characteristic vector obtained by normalizing the power of each frequency with the calculated average value is used. Here, x is 71/6 .

そして、fcは先に抽出したスペクトルのうち1300Hzから上下10%の周波数のうちでパワーが最大となる周波数とする。このfcに基づき、各時点で、((1/x)×fc,(1/x)×fc,(1/x)×fc,x×fc,x×fc,x×fc)の各周波数におけるパワーを、FFTの結果から得られる各周波数のうち、これらの周波数に最も近い周波数のパワーを((1/x)×fc,(1/x)×fc,(1/x)×fc,x×fc,x×fc,x×fc)でのパワーとし、各周波数のパワーの平均値を算出し、算出した平均値で各周波数のパワーを正規化したものを特徴ベクトルとして抽出する。 And let fc be the frequency where the power is the maximum among the frequencies of 10% above and below from 1300 Hz in the previously extracted spectrum. Based on this fc, at each time point, ((1 / x 3 ) × fc, (1 / x 2 ) × fc, (1 / x) × fc, x × fc, x 2 × fc, x 3 × fc) Of the frequencies obtained from the FFT result, the power of the frequency closest to these frequencies is ((1 / x 3 ) × fc, (1 / x 2 ) × fc, (1 / x) × fc, x × fc, x 2 × fc, x 3 × fc), the average value of the power of each frequency is calculated, and the power of each frequency is normalized by the calculated average value Extracted as a feature vector.

また、特徴ベクトルの各成分の対応する周波数について、その周波数を中心周波数とするバンドパスフィルタを用いて、再度パワースペクトルを抽出してもよい。   Further, for the frequency corresponding to each component of the feature vector, the power spectrum may be extracted again using a bandpass filter whose center frequency is the frequency.

このようにして、特徴ベクトルを抽出することで、上下10%までピッチが変動した音響信号でも探索を行うことができる。   In this way, by extracting the feature vector, it is possible to perform a search even with an acoustic signal whose pitch varies up and down by 10%.

なお、これらの特徴ベクトルの次元(上記実装例では7)やxの値(上記実装例では71/6)、fcの設定範囲(上記実装例では10%)は、探索の目的とする信号やピッチ変動の幅(上記実装例では上下10%)に応じて、変更可能なものであり、上記した具体的な数値に限られないものとする。 The dimension of these feature vectors (7 in the above implementation example), the value of x (7 1/6 in the above implementation example), and the setting range of fc (10% in the above implementation example) are signals to be searched. It can be changed according to the width of the pitch variation (up and down 10% in the above mounting example), and is not limited to the above specific numerical values.

また、特徴ベクトルの各成分が対応する周波数について、上記実装例では、第1成分から等比数列としたが、各成分間の比が決まっていれば、それらが等比である必要はない。例えば、第2成分の対応する周波数は第1成分が対応する周波数の1.2倍の周波数、第3成分の対応する周波数は第1成分の対応する周波数の2倍の周波数などとしてもよい。   Further, in the above implementation example, the frequency sequence corresponding to each component of the feature vector is changed from the first component to the geometric sequence. However, if the ratio between the components is determined, they do not need to be equal. For example, the frequency corresponding to the second component may be 1.2 times the frequency corresponding to the first component, the frequency corresponding to the third component may be twice the frequency corresponding to the first component, and the like.

(第2実施形態)
次に、本発明の第2実施形態に係る音響信号検索装置2について説明する。音響信号検索装置2は、検索したい音響信号、すなわち参照信号を入力し、これより長い信号である蓄積信号中から参照信号と類似する信号を含む区間を検出するものである。また、音響信号検索装置2は、音響信号に大きな妨害音(加法性雑音)が重畳し、周波数変動が発生した場合であっても、当該変動に対して頑健に、つまり、その変動を吸収して検索を可能にするものである。
(Second Embodiment)
Next, the acoustic signal search device 2 according to the second embodiment of the present invention will be described. The acoustic signal search device 2 inputs an acoustic signal to be searched, that is, a reference signal, and detects a section including a signal similar to the reference signal from accumulated signals that are longer than this. In addition, the acoustic signal search device 2 is robust against the fluctuation, that is, absorbs the fluctuation, even when a large disturbance sound (additive noise) is superimposed on the acoustic signal and the frequency fluctuation occurs. Search.

図14は、第2実施形態に係る音響信号検索装置2の構成を示すブロック図である。
図9における音響信号検索装置2は、スペクトログラム分割部20と、基準周波数検出部21と、特徴抽出部22と、符号化部24と、索引生成部25と、類似度計算部23とを備えている。なお、図14において、実線は、参照信号のスペクトログラムを対象とした処理の流れを示したものであり、破線は、蓄積信号のスペクトログラムを対象とした処理の流れを示したものである。
FIG. 14 is a block diagram illustrating a configuration of the acoustic signal search device 2 according to the second embodiment.
The acoustic signal search device 2 in FIG. 9 includes a spectrogram dividing unit 20, a reference frequency detecting unit 21, a feature extracting unit 22, an encoding unit 24, an index generating unit 25, and a similarity calculating unit 23. Yes. In FIG. 14, the solid line shows the flow of processing for the spectrogram of the reference signal, and the broken line shows the flow of processing for the spectrogram of the accumulated signal.

スペクトログラム分割部20は、入力される参照信号ならびに蓄積信号のスペクトログラムを、小領域スペクトログラムと呼ぶ小領域のスペクトログラムに分割し、それぞれ小領域参照信号スペクトログラムおよび小領域蓄積信号スペクトログラムとして出力する。基準周波数検出部21は、参照信号ならびに蓄積信号の各小領域信号スペクトログラムからパワースペクトルの特徴的な部分を検出し、各時点における基準周波数fcを設定する。特徴抽出部22は、基準周波数検出部21によって検出された各時点における基準周波数fcを基準に、参照信号ならびに蓄積信号の小領域スペクトログラム特徴を算出する。   The spectrogram dividing unit 20 divides the spectrogram of the inputted reference signal and accumulated signal into spectrograms of small regions called small region spectrograms, and outputs them as a small region reference signal spectrogram and a small region accumulated signal spectrogram, respectively. The reference frequency detection unit 21 detects a characteristic portion of the power spectrum from the reference signal and each small region signal spectrogram of the accumulated signal, and sets the reference frequency fc at each time point. The feature extraction unit 22 calculates the small region spectrogram features of the reference signal and the accumulated signal based on the reference frequency fc at each time point detected by the reference frequency detection unit 21.

符号化部24は、参照信号ならびに蓄積信号の各小領域スペクトログラム特徴を符号化し、それぞれ参照信号小領域符号および蓄積信号小領域符号として出力する。索引生成部は、蓄積信号小領域符号について、蓄積信号中の所在を示す索引情報を生成する。類似度計算部23は、参照信号小領域符号に類似する符号を、後述する予め生成した小領域符号間類似度表を参照することにより検出し、検出した類似する符号について索引検索を行う。また、類似度計算部23は、蓄積信号中に、類似する符号、すなわち小領域参照信号スペクトログラムに類似する小領域蓄積信号スペクトログラムが存在することを検出すると、該小領域蓄積信号スペクトログラムを含む蓄積信号中の区間と参照信号との類似度すなわち区間類似度を算出する。   The encoding unit 24 encodes the small region spectrogram features of the reference signal and the accumulated signal, and outputs them as a reference signal small region code and an accumulated signal small region code, respectively. The index generation unit generates index information indicating the location in the accumulated signal for the accumulated signal small region code. The similarity calculation unit 23 detects a code similar to the reference signal small region code by referring to a previously generated small region code similarity table, which will be described later, and performs an index search for the detected similar code. Further, when the similarity calculation unit 23 detects that there is a similar code, that is, a small region accumulated signal spectrogram similar to the small region reference signal spectrogram, in the accumulated signal, the accumulated signal including the small region accumulated signal spectrogram. The similarity between the middle section and the reference signal, that is, the section similarity is calculated.

次に、上述した音響信号検索装置2の動作について説明する。図15は、音響信号検索装置2の動作例を示したフローチャートである。音響信号検索装置2は、参照信号ならびに蓄積信号の音響信号を読み込むことにより入力すると(ステップS901、ステップS911)、第1実施形態に係る音響信号検索装置1と同じく、変換部によりこれらの波形信号からパワースペクトルを得て、得られたパワースペクトルに基づいて時間周波数スペクトログラムが抽出される(ステップS911、ステップS912)。   Next, the operation of the above-described acoustic signal search device 2 will be described. FIG. 15 is a flowchart illustrating an operation example of the acoustic signal search device 2. When the acoustic signal search device 2 inputs the reference signal and the stored acoustic signal by reading them (steps S901 and S911), the waveform signal is converted by the conversion unit in the same manner as the acoustic signal search device 1 according to the first embodiment. A power spectrum is obtained from the time spectrum, and a time-frequency spectrogram is extracted based on the obtained power spectrum (step S911, step S912).

次に、スペクトログラム分割部20は、参照信号ならびに蓄積信号の各時間周波数スペクトログラムから一定の大きさ(狭帯域・短時間)のスペクトログラム、すなわち小領域スペクトログラム(small-region spectrogram)を周波数軸方向及び時間軸方向において所定の間隔で切り出し、それぞれ小領域参照信号スペクトログラム、小領域蓄積信号スペクトログラムとして出力する(ステップS903、ステップS913)。小領域スペクトログラムは、互いに重複するようにして出力するようにしてもよいし、重複させなくともよい。ここで、先頭の時点がtnであり、周波数帯がωmである参照信号中の小領域参照信号スペクトログラムをFtn,ωmと表す。同様に蓄積信号のスペクトログラムにおいて、先頭の時点がtであり、周波数帯がωmの上記Ftn,ωmと同じサイズの小領域蓄積信号スペクトログラムをGt,ωmと表す。 Next, the spectrogram dividing unit 20 converts a spectrogram of a certain size (narrowband / short time), that is, a small-region spectrogram (small-region spectrogram) from the time frequency spectrogram of the reference signal and the accumulated signal in the frequency axis direction and time. Cut out at predetermined intervals in the axial direction, and output as a small region reference signal spectrogram and a small region accumulated signal spectrogram, respectively (steps S903 and S913). The small region spectrograms may be output so as to overlap each other or may not be overlapped. Here, the small region reference signal spectrogram in the reference signal in which the first time point is tn and the frequency band is ωm is represented as F tn, ωm . Similarly, in the stored signal spectrogram, the first time point is t, and the small region stored signal spectrogram having the same size as F tn, ωm in the frequency band ωm is expressed as G t, ωm .

また、以下の説明において、参照信号のスペクトログラムにおいて、小領域スペクトログラムFtn,ωmを切り出した全ての時点tnの集合をTR(TR={t1,t2,…})とし、全ての周波数帯ωmの集合をW(W={ω1,ω2,…})として記載する。 In the following description, in the spectrogram of the reference signal, a set of all time points tn obtained by cutting out the small region spectrograms F tn, ωm is TR (TR = {t1, t2,...}), And all frequency bands ωm The set is described as W (W = {ω1, ω2,...}).

基準周波数検出部21は、スペクトログラム分割部20により出力された参照信号ならびに蓄積信号の各小領域スペクトログラムについて、周波数帯ωmにおけるパワースペクトルのピークを検出する(ステップS904、ステップS914)。   The reference frequency detection unit 21 detects the peak of the power spectrum in the frequency band ωm for each small region spectrogram of the reference signal and the accumulated signal output from the spectrogram dividing unit 20 (steps S904 and S914).

なお、小領域スペクトログラムの基準周波数f ωmの設定方法は、前述した第1実施形態における基準周波数検出部11と同様に、小領域スペクトログラム中のサンプリングされた全ての周波数スペクトルについて基準周波数を各々決定する方法、または、ある一定時間においてパワースペクトル値が最大となる周波数もしくはパワースペクトル値の重心に対応する周波数を、この時間内の各時点における周波数スペクトルの基準周波数として設定する方法が可能である。また、第1実施形態と同様に、各サンプリング時点においてパワースペクトルのピークを複数検出し、強度がX番目の周波数を選択したり、あるいは強度がY番目になる周波数から数Hzずらした点を選択したりすることによって基準周波数を決定する方法や、あるいは、パワースペクトルのピークに注目する代わりに、複数検出されるパワースペクトルの、ピーク間に現れる谷となる点を基準周波数とするような方法を用いるようにしてもよい。 Note that the method of setting the reference frequency f c ωm of the small region spectrogram is determined for each of the sampled frequency spectra in the small region spectrogram, similarly to the reference frequency detector 11 in the first embodiment described above. Or a frequency corresponding to the center of the power spectrum value or the frequency at which the power spectrum value becomes maximum in a certain time can be set as the reference frequency of the frequency spectrum at each point in time. Similarly to the first embodiment, a plurality of power spectrum peaks are detected at each sampling time point, and the Xth frequency is selected, or a point shifted by several Hz from the frequency at which the intensity is Yth is selected. To determine the reference frequency, or instead of paying attention to the peak of the power spectrum, a method that uses the point that becomes the valley between the peaks in the detected power spectrum as the reference frequency. You may make it use.

次に、特徴抽出部22は、参照信号ならびに蓄積信号の各小領域スペクトログラムについて、上記基準周波数検出部21により検出された基準周波数f ωmを基準に、小領域スペクトログラム中の各時点における周波数スペクトル特徴を算出する(ステップS905、S915)。第2実施形態では、音量の変動に対応するため、周波数スペクトル特徴は、抽出した各時点において、その平均値で正規化する。そして、この正規化されたパワースペクトル値を要素とする周波数スペクトル特徴の特徴ベクトルをベクトル量子化により符号化し、これらの符号の小領域スペクトログラム内における出現回数を符号毎に計数したヒストグラム(ヒストグラム特徴)を生成する(ステップS906、ステップS916)。 Next, the feature extraction unit 22 uses the frequency spectrum at each point in the small region spectrogram based on the reference frequency f c ωm detected by the reference frequency detection unit 21 for each small region spectrogram of the reference signal and the accumulated signal. Features are calculated (steps S905 and S915). In the second embodiment, in order to cope with fluctuations in sound volume, the frequency spectrum feature is normalized by the average value at each extracted time point. A histogram (histogram feature) in which feature vectors of frequency spectrum features having normalized power spectrum values as elements are encoded by vector quantization, and the number of appearances of these codes in a small region spectrogram is counted for each code. (Step S906, Step S916).

符号化部24は、特徴抽出部22により算出された参照信号ならびに蓄積信号の各小領域スペクトログラムのヒストグラム特徴を、周波数帯ωm毎にベクトル量子化により符号化する(ステップS907、ステップS917)。具体的には、ヒストグラムのビンの値、すなわち各スペクトル符号の小領域スペクトログラム内での出現回数を要素とする特徴ベクトルをベクトル量子化して、あらかじめ生成されたベクトル量子化符号帳により、符号を割り当てる方法を用いる。なお、符号化部24は、小領域スペクトログラムを符号化する際には、同じ周波数帯ωmに属する小領域参照信号スペクトログラムならびに小領域蓄積信号スペクトログラムに対し同じベクトル符号帳を用いる。   The encoding unit 24 encodes the histogram feature of each small region spectrogram of the reference signal and the accumulated signal calculated by the feature extraction unit 22 by vector quantization for each frequency band ωm (steps S907 and S917). Specifically, a feature vector whose element is the bin value of the histogram, that is, the number of appearances of each spectrum code in the small region spectrogram, is vector-quantized, and a code is assigned by a vector quantization codebook generated in advance. Use the method. Note that the encoding unit 24 uses the same vector codebook for the small region reference signal spectrogram and the small region accumulated signal spectrogram belonging to the same frequency band ωm when the small region spectrogram is encoded.

符号化部24によるベクトル量子化は、ヒストグラム特徴とベクトル量子化符号帳の各代表ベクトル間の距離を算出し、距離値が最小となる代表特徴に対応する符号を出力することによって行われる。以下、ヒストグラム特徴が符号化されて得られた符号を、参照信号小領域符号ならびに蓄積信号小領域符号と記載し、小領域参照信号スペクトログラムFtn,ωmの参照信号小領域符号をc(Ftn,ωm)、小領域蓄積信号スペクトログラムGt,ωmの蓄積信号小領域符号をc(Gt,ωm)と定義することとする。そして、帯域ωmにおける各c(Ftn,ωm)、c(Gt,ωm)には、符号q(ωm,1)、q(ωm,2),…,q(ωm,z)のいずれかが割振られることになる。 The vector quantization by the encoding unit 24 is performed by calculating a distance between the histogram feature and each representative vector of the vector quantization codebook and outputting a code corresponding to the representative feature having the minimum distance value. Hereinafter, the code obtained by encoding the histogram feature is referred to as a reference signal small region code and an accumulated signal small region code, and the reference signal small region code of the small region reference signal spectrogram F tn, ωm is represented by c (F tn , Ωm ), and the accumulated signal small region code of the small region accumulated signal spectrogram G t, ωm is defined as c (G t, ωm ). Each of c (F tn, ωm ) and c (G t, ωm ) in the band ωm is one of codes q (ωm, 1), q (ωm, 2),..., Q (ωm, z). Will be allocated.

なお、これらの小領域スペクトログラムの符号化は、上記特徴抽出部22において抽出された小領域参照信号スペクトログラム及び小領域蓄積信号スペクトログラム内の周波数スペクトル特徴(あるいは複数のスペクトル特徴を連続した一連の特徴ベクトルとしたもの)を、ヒストグラムを生成せずに直接ベクトル量子化し、各々参照信号小領域符号ならびに蓄積信号小領域符号を算出することも可能である。   The encoding of these small region spectrograms is performed by frequency spectrum features (or a series of feature vectors in which a plurality of spectral features are consecutively included) in the small region reference signal spectrogram and small region accumulated signal spectrogram extracted by the feature extraction unit 22. Can be directly vector-quantized without generating a histogram to calculate a reference signal small region code and an accumulated signal small region code, respectively.

索引生成部25は、符号化部24により出力された小領域蓄積信号スペクトログラムの各符号について、蓄積信号のどの時点に出現するか一覧化した索引情報を生成する(ステップS920)。索引情報は、図16のように構成されており、符号q(ωm,j)が示すリスト(出現時点の配列;横方向の列)には、符号q(ωm,j)に分類された小領域蓄積信号スペクトログラムの蓄積信号上に出現する時点が、時系列に並べられて格納されている。   The index generation unit 25 generates index information that lists at which point in the accumulated signal the code appears in each code of the small region accumulated signal spectrogram output from the encoding unit 24 (step S920). The index information is configured as shown in FIG. 16, and the list (arrangement at the present time; column in the horizontal direction) indicated by the code q (ωm, j) has a small size classified into the code q (ωm, j). Time points appearing on the accumulation signal of the area accumulation signal spectrogram are stored in time series.

類似度計算部23は、初めに小領域参照信号スペクトログラムに類似する小領域蓄積信号スペクトログラムを、参照信号小領域符号と蓄積信号小領域符号の符号間の類似度に基づいて索引情報から検出する。帯域ωmにおける全ての小領域符号間の類似度は、符号の代表ベクトル間の距離から予め算出し、図17に示す小領域符号間類似度表のように、小領域符号対毎にその類似度を表の上で定義、すなわち内部の記憶領域に記憶しておく。つまり、参照信号小領域符号q(ωm,i)と蓄積信号小領域符号q(ωm,j)との小領域符号間類似度υ(ωm,i,j)は、この表から一覧できるものである。   The similarity calculation unit 23 first detects a small region accumulated signal spectrogram similar to the small region reference signal spectrogram from the index information based on the similarity between the reference signal small region code and the code of the accumulated signal small region code. The similarity between all the small region codes in the band ωm is calculated in advance from the distance between the representative vectors of the codes, and the similarity for each small region code pair as shown in the small region code similarity table shown in FIG. Is defined on the table, that is, stored in an internal storage area. That is, the similarity υ (ωm, i, j) between the small area codes of the reference signal small area code q (ωm, i) and the accumulated signal small area code q (ωm, j) can be listed from this table. is there.

小領域符号間類似度υ(ωm,i,j)は、小領域符号q(ωm,i)とq(ωm,j)に対応する代表ベクトル間の距離に基づいて算出され、類似度計算部23により、距離値が小さい場合に、類似性が高いと判定され、距離値が大きい場合に類似性が低いものと判定される。本実施例においては、υ(ωm,i,j)を、0から1までの実数値として定義している。すなわち、帯域ωmにおいて距離値が最大の場合には、υ(ωm,i,j)=0であり、最小の場合には、υ(ωm,i,j)=1となる。   The small area code similarity υ (ωm, i, j) is calculated based on the distance between the representative vectors corresponding to the small area codes q (ωm, i) and q (ωm, j). 23, when the distance value is small, it is determined that the similarity is high, and when the distance value is large, it is determined that the similarity is low. In this embodiment, υ (ωm, i, j) is defined as a real value from 0 to 1. That is, when the distance value is maximum in the band ωm, υ (ωm, i, j) = 0, and when the distance value is minimum, υ (ωm, i, j) = 1.

類似度計算部23は、参照信号小領域符号の集合から参照信号小領域符号を順次読み出して選択し(ステップS930)、図17に示す小領域符号間類似度表を参照し(ステップS931)、当該参照信号小領域符号に類似する符号、すなわち小領域符号間類似度υ(ωm,i,j)が、所定の閾値である小領域用探索閾値sthを超える符号を検出する(ステップS932)。ここでは、ある参照信号小領域符号について、同一の符号の値を有する符号を含む、少なくとも1つ以上の類似する符号を検出することになる。 The similarity calculation unit 23 sequentially reads and selects reference signal subregion codes from the set of reference signal subregion codes (step S930), refers to the subregion code similarity table shown in FIG. 17 (step S931), and A code similar to the reference signal small region code, that is, a code having a small region code similarity υ (ωm, i, j) exceeding a small region search threshold s P th which is a predetermined threshold is detected (step S932). ). Here, for a certain reference signal small area code, at least one or more similar codes including codes having the same code value are detected.

なお、小領域用探索閾値sthは、例えば、予め多数の音響信号において検出処理を繰り返し、検出漏れがない値を統計的に求めることにより設定することができる。また、小領域用探索閾値sthは、全帯域で一定の値としているが、帯域ごとに異なる値を設定してもよい。 Note that the small region search threshold value s P th can be set, for example, by repeating detection processing for a large number of acoustic signals in advance and statistically obtaining a value with no detection omission. Further, although the small region search threshold value s P th is a constant value in the entire band, a different value may be set for each band.

そして、類似度計算部23は、ある一つの参照信号小領域スペクトログラムについて、その符号である参照信号小領域符号に類似する上記の少なくとも一つの符号の値を持つ小領域スペクトログラムが、蓄積信号中に存在するか否かを、図16に示す索引情報により検索する(ステップS933)。蓄積信号中に、小領域参照信号スペクトログラムFtn,ωmに類似する小領域蓄積信号スペクトログラムGt+tn,ωmの存在が確認された場合、この小領域蓄積信号スペクトログラムGt+tn,ωmを含む蓄積信号中の区間に、参照信号に対する類似性があると判定し、類似小領域蓄積信号スペクトログラムの蓄積信号中の出現位置t+tnと、小領域参照信号スペクトル間の類似度S(Ftn,ωm, Gt+tn,ωm)を出力する(ステップS934)。ここで、小領域スペクトル間の類似度すなわち小領域類似度は、次式(3)により定義される。 Then, the similarity calculation unit 23 generates, for a certain reference signal small region spectrogram, a small region spectrogram having a value of the above-described at least one code similar to the reference signal small region code as the code in the accumulated signal. Whether there exists or not is searched by the index information shown in FIG. 16 (step S933). In the accumulated signal, when the presence of the small region accumulated signal spectrogram G t + tn, ωm similar to the small region reference signal spectrogram F tn, ωm is confirmed , the accumulated signal including the small region accumulated signal spectrogram G t + tn, ωm It is determined that there is similarity to the reference signal in the section, and the similarity S P (F tn, ωm , G t + tn, between the appearance position t + tn in the accumulated signal of the similar small region accumulated signal spectrogram and the small region reference signal spectrum ωm ) is output (step S934). Here, the similarity between the small region spectra, that is, the small region similarity is defined by the following equation (3).

Figure 0004597919
Figure 0004597919

続いて、類似度計算部23は、検出した類似蓄積信号小領域スペクトログラムの蓄積信号中の出現位置t+tnから、類似性のある蓄積信号中の区間出現時点tを算出し(ステップS935)、小領域参照信号スペクトログラムとこれに類似する蓄積信号中の小領域スペクトログラムとの小領域類似度を、対応する区間出現時点tに、投票方式で積算する(ステップS936)。   Subsequently, the similarity calculation unit 23 calculates the section start current time t in the similar accumulated signal from the appearance position t + tn in the accumulated signal of the detected similar accumulated signal small region spectrogram (step S935), The small area similarity between the reference signal spectrogram and the small area spectrogram in the stored signal similar to the reference signal spectrogram is integrated by the voting method at the corresponding section start time t (step S936).

類似度計算部23は、上記ステップS930からステップS936の処理を繰り返し(ステップS937)、参照信号の全ての小領域スペクトログラムについて順次索引検出を行い、類似する小領域蓄積信号スペクトログラムが検出された場合に、この小領域蓄積信号スペクトログラムを含む蓄積信号中の区間出現時点tに対して小領域類似度を積算する。   The similarity calculation unit 23 repeats the processing from step S930 to step S936 (step S937), sequentially performs index detection for all the small region spectrograms of the reference signal, and when similar small region accumulated signal spectrograms are detected. Then, the small area similarity is integrated with respect to the section start current time t in the accumulated signal including the small area accumulated signal spectrogram.

類似度計算部23は、各小領域参照信号スペクトログラムに類似する小領域蓄積信号スペクトログラムについて小領域類似度の積算処理が全て終了すると、次式(4)により、積算した小領域類似度を参照信号の全小領域参照信号スペクトログラム数で除算して正規化し、時点tに始まる蓄積信号中の区間と参照信号との区間類似度S(t)を算出する(ステップS940)。   When all the small region similarity integration processing is completed for the small region accumulated signal spectrogram similar to each small region reference signal spectrogram, the similarity calculating unit 23 uses the following equation (4) to calculate the integrated small region similarity as a reference signal. Is divided by the number of all small region reference signal spectrograms and normalized, and the interval similarity S (t) between the interval in the accumulated signal starting from time t and the reference signal is calculated (step S940).

Figure 0004597919
Figure 0004597919

ここで、|TR|は時点TR(サンプリングされた時系列な離散的時点)の要素数を表し、|TW|は周波数帯域ωmの要素数を表している。そして、類似度計算部23は、以上のようにして算出された区間類似度S(t)が、所定の値である探索閾値Sthを超える蓄積信号上の時点tに始まる区間を、参照信号に類似する区間として出力する(ステップS941、ステップS942)。また、別の形態として、探索閾値を超えた複数の区間
を出力するかわりに、探索閾値を超え、もっとも大きな区間類似度を有する区間のみを出
力するようにしてもよい。
Here, | TR | represents the number of elements at the time point TR (sampled time-series discrete time points), and | TW | represents the number of elements in the frequency band ωm. Then, the similarity calculation unit 23 uses, as a reference signal, a section that starts at time t on the accumulated signal in which the section similarity S (t) calculated as described above exceeds the search threshold Sth that is a predetermined value. It outputs as a similar section (step S941, step S942). As another form, instead of outputting a plurality of sections exceeding the search threshold, only a section exceeding the search threshold and having the largest section similarity may be output.

なお、探索閾値Sthについては、実験的に任意で設定してもよいし、また別に、類似度計算部23において算出された区間類似度S(t)の統計分布から標準偏差を算出し、得られた区間類似度S(t)の最大値に対して、−bσの値を探索閾値Sthとして設定することも可能である。ここで、前記のbは、実験を通じて適切な値が設定される。   Note that the search threshold Sth may be arbitrarily set experimentally, or separately, a standard deviation is calculated from the statistical distribution of the interval similarity S (t) calculated by the similarity calculation unit 23. It is also possible to set the value of −bσ as the search threshold value Sth for the maximum value of the obtained section similarity S (t). Here, an appropriate value of b is set through experiments.

(第2実施形態の実装例)
次に、上述した第2実施形態の実装例について説明する。
音響信号は、音楽CDなどで用いられる音響信号(サンプリング周波数44.1kHz、16bit量子化、ステレオ)をダウンサンプリング、モノラル化、量子化ビット数を変更した音響信号(サンプリング周波数11.025kHz、8ビット量子化、モノラル)を用いる。そして、この音響信号に対し、まず、1024点のFFT(Fast Fourier Transform)を10msごとに行い、10msごとにその時点のパワースペクトルを抽出する。そして、この10msごとにスペクトルを時間方向に並べたものとして、スペクトログラムを得る。そして、周波数軸方向でのスペクトログラムの分割数は本実施形態に記載の装置で利用される4とし、各帯域において、((1/x)×fc,(1/x)×fc,(1/x)×fc,x×fc,x×fc,x×fc)の各周波数においてパワーを抽出し、抽出した各周波数のパワーの平均値を算出し、算出した平均値で各周波数のパワーを正規化したものを特徴ベクトルとする。ここで、xは71/27としている。
(Example of implementation of the second embodiment)
Next, an implementation example of the above-described second embodiment will be described.
The acoustic signal is an acoustic signal (sampling frequency of 11.025 kHz, 8 bits) obtained by down-sampling, monauralizing, and changing the number of quantization bits of an acoustic signal (sampling frequency 44.1 kHz, 16-bit quantization, stereo) used in a music CD or the like (Quantization, monaural) is used. The acoustic signal is first subjected to 1024 FFT (Fast Fourier Transform) every 10 ms, and the power spectrum at that time is extracted every 10 ms. Then, the spectrogram is obtained assuming that the spectra are arranged in the time direction every 10 ms. The number of spectrogram divisions in the frequency axis direction is 4, which is used in the apparatus described in this embodiment, and in each band, ((1 / x 3 ) × fc, (1 / x 2 ) × fc, ( 1 / x) × fc, x × fc, x 2 × fc, extracts power at each frequency x 3 × fc), extracted to calculate the average value of each frequency of the power that is, each frequency at the calculated average value A feature vector is obtained by normalizing the power of. Here, x is set to 71/27 .

そして、fcは各帯域で各々620Hz、1030Hz、1710Hz、2840Hzを中心(各帯域の浮動中心周波数とここでは記載)にして浮動的に設定するとし、各帯域で先に抽出したスペクトルのうち、浮動中心周波数から上下10%の周波数のうちでパワーが最大となる周波数をfcとする。このfcに基づき、各時点で、((1/x)×fc,(1/x)×fc,(1/x)×fc,x×fc,x×fc,x×fc)の各周波数におけるパワーを、FFTの結果から得られる各周波数のうち、これらの周波数に最も近い周波数のパワーを((1/x)×fc,(1/x)×fc,(1/x)×fc,x×fc,x×fc,x×fc)でのパワーとし、各周波数のパワーの平均値を算出し、算出した平均値で各周波数のパワーを正規化したものを特徴ベクトルとして抽出する。 Then, fc is set to be floating around each band at 620 Hz, 1030 Hz, 1710 Hz, and 2840 Hz (the floating center frequency of each band is described here). Of the frequencies 10% above and below the center frequency, the frequency at which the power is maximum is assumed to be fc. Based on this fc, at each time point, ((1 / x 3 ) × fc, (1 / x 2 ) × fc, (1 / x) × fc, x × fc, x 2 × fc, x 3 × fc) Of the frequencies obtained from the FFT result, the power of the frequency closest to these frequencies is ((1 / x 3 ) × fc, (1 / x 2 ) × fc, (1 / x) × fc, x × fc, x 2 × fc, x 3 × fc), the average value of the power of each frequency is calculated, and the power of each frequency is normalized by the calculated average value Extracted as a feature vector.

また、特徴ベクトルの各成分の対応する周波数について、その周波数を中心周波数とするバンドパスフィルタをもちいて、再度パワースペクトルを抽出してもよい。   Further, for the frequency corresponding to each component of the feature vector, the power spectrum may be extracted again using a bandpass filter having the frequency as the center frequency.

このようにして、特徴ベクトルを抽出することで、上下10%までピッチが変動した音響信号でも探索を行うことができる。   In this way, by extracting the feature vector, it is possible to perform a search even with an acoustic signal whose pitch varies up and down by 10%.

なお、これらのスペクトログラム分割数(上記実装例では4)、特徴ベクトルの次元(上記実装例では7)やxの値(上記実装例では71/27)、fcの設定範囲(上記実装例では10%)は、探索の目的とする信号やピッチ変動の幅(上記実装例では上下10%)に応じて、変更可能なものであり、具体的な数値に限られないものとする。 The spectrogram division number (4 in the above implementation example), the dimension of the feature vector (7 in the above implementation example), the value of x (7 1/27 in the above implementation example), and the setting range of fc (in the above implementation example) 10%) can be changed according to the signal to be searched and the range of pitch fluctuation (up and down 10% in the above mounting example), and is not limited to a specific numerical value.

また、特徴ベクトルの各成分が対応する周波数について、上記実装例では、第1成分から等比数列としたが、各成分間の比が決まっていれば、それらが等比である必要はない。例えば、第2成分の対応する周波数は第1成分が対応する周波数の1.2倍の周波数、第3成分の対応する周波数は第1成分の対応する周波数の2倍の周波数などとしてもよい。   Further, in the above implementation example, the frequency sequence corresponding to each component of the feature vector is changed from the first component to the geometric sequence. However, if the ratio between the components is determined, they do not need to be equal. For example, the frequency corresponding to the second component may be 1.2 times the frequency corresponding to the first component, the frequency corresponding to the third component may be twice the frequency corresponding to the first component, and the like.

上記の第1及び第2実施形態の構成により、参照信号および蓄積信号の各時間周波数スペクトログラムから、パワースペクトルの特徴的な部分を検出して各時点における基準周波数を浮動的に設定、すなわち、周波数による変動が発生していたとしても、スペクトログラム全体の特徴を抽出可能な基準周波数を設定することが可能となる。そして、該基準周波数に基づき各信号の周波数スペクトル特徴を抽出し、抽出した周波数スペクトル特徴に基づいて周波数の上下の変動に対応した音響信号検出が可能となる。   With the configuration of the first and second embodiments described above, a characteristic part of the power spectrum is detected from each time frequency spectrogram of the reference signal and the accumulated signal, and the reference frequency at each time point is set floatingly, that is, the frequency Even if fluctuations due to the above occur, it is possible to set a reference frequency capable of extracting the characteristics of the entire spectrogram. Then, the frequency spectrum feature of each signal is extracted based on the reference frequency, and the acoustic signal can be detected corresponding to the fluctuation in the frequency up and down based on the extracted frequency spectrum feature.

また、第2の実施形態の構成により、各信号の時間周波数スペクトログラムを時間・周波数方向において小領域に分割し、小領域におけるピークを検出して特徴抽出を行い、参照信号と蓄積信号中のある区間との類似度を各小領域の類似性から判断するように構成することで、周波数変動がなされた音響信号に対し更に大きな妨害音が重畳していても精度よく、かつ高速に信号検出処理を行うことを可能としている。   In addition, with the configuration of the second embodiment, the time-frequency spectrogram of each signal is divided into small regions in the time / frequency direction, the peaks in the small regions are detected, and feature extraction is performed. By configuring so that the similarity to the section is judged from the similarity of each small area, even if a larger disturbance sound is superimposed on the acoustic signal whose frequency has been changed, the signal detection processing is performed accurately and at high speed. It is possible to do.

また、第1及び第2実施形態の構成により、各信号の特徴を符号の集合として表現することにより、照合に掛かる情報量を大幅に低減することが可能となり、類似度の計算処理を高速化することが可能となる。更に、蓄積信号の符号を索引情報として予め用意しておくことで、類似性のある符号の位置を容易に検出できるようになり、参照信号に類似した信号を含有する蓄積信号中の区間検出をさらに高速に行うことを可能としている。   In addition, with the configuration of the first and second embodiments, by expressing the characteristics of each signal as a set of codes, it is possible to significantly reduce the amount of information required for matching, and speed up the calculation processing of similarity It becomes possible to do. Furthermore, by preparing the code of the accumulated signal as index information in advance, it becomes possible to easily detect the position of a similar code, and it is possible to detect a section in the accumulated signal containing a signal similar to the reference signal. Furthermore, it can be performed at high speed.

また、上記の実施形態によれば、テレビ放送におけるドラマの挿入曲や背景音楽のように、ストーリーの雰囲気に合わせて加工された音響信号についても検索が可能となり、マルチメディア放送のモニタリングが高速かつ高精度に行えるようになる。また、テレビ、ラジオで放送された音楽の楽曲情報やCMの情報を、多チャンネル同時にリアルタイムで検索しプレイリストを作成することが可能である。プレイリストは、例えば、放送局が視聴者からの問い合わせに対応するための広報資料、ある広告主が競合会社のCM露出状況などを調査することのできるCM確認用データ、レコード会社のマーケティングデータ、著作権料徴収のための基礎データとして幅広く活用できるものである。   In addition, according to the above-described embodiment, it is possible to search for an acoustic signal processed according to the atmosphere of a story, such as an inserted song of a drama in TV broadcasting or background music, and the monitoring of multimedia broadcasting can be performed at high speed. It becomes possible to perform with high precision. In addition, it is possible to search music information and CM information of music broadcast on TV and radio in real time on multiple channels and create a playlist. Playlists include, for example, publicity materials for broadcasters to respond to inquiries from viewers, CM confirmation data that allows an advertiser to investigate CM exposure status of competitors, record company marketing data, It can be widely used as basic data for collecting copyright fees.

また、上記の実施形態の構成により、著作権侵害物の検査、未知の音響情報の識別、インターネット著作権防止アプリケーションにも応用可能であり、メタデータ解析・配信サービスといった市場への展開が期待される。   In addition, the configuration of the above embodiment can be applied to infringement of copyright infringement, identification of unknown acoustic information, and Internet copyright prevention applications, and is expected to expand into the market such as metadata analysis and distribution services. The

また、本発明に記載の音響信号特徴抽出装置とは、音響信号検索装置1、1a、1bにおける基準周波数検出部11、特徴抽出部12を備えた構成であり、また、音響信号検索装置2における基準周波数検出部21、特徴抽出部22を備えた構成に該当する装置である。また、本発明に記載の参照音響信号は、参照信号に対応し、検索対象音響信号は、蓄積信号に対応する。   Further, the acoustic signal feature extraction device described in the present invention is a configuration including the reference frequency detection unit 11 and the feature extraction unit 12 in the acoustic signal search devices 1, 1 a, and 1 b, and in the acoustic signal search device 2. This is an apparatus corresponding to the configuration including the reference frequency detection unit 21 and the feature extraction unit 22. The reference acoustic signal described in the present invention corresponds to the reference signal, and the search target acoustic signal corresponds to the accumulated signal.

なお、上記の実施形態において、検出とは検索・認識を含み、特徴抽出は音響信号の分析を含む。また、上記の実施形態に記載の「各時点」とは、時間周波数スペクトログラムの時間間隔ごとの各時点の意味であり、時間軸において、時間周波数スペクトログラムの算出元となる一定の時間範囲を示すものとする。   In the above embodiment, detection includes search / recognition, and feature extraction includes analysis of an acoustic signal. Further, “each time point” described in the above embodiment means each time point for each time interval of the time-frequency spectrogram, and indicates a certain time range from which the time-frequency spectrogram is calculated on the time axis. And

また、実際に上述した音響信号検索装置1、1a、1b、2を構築する際には、音響信号検索装置の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータで実行することにより、蓄積信号のデータベースへの登録処理および入力信号検出処理を行っても良い。ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとずる。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。   Further, when actually constructing the above-described acoustic signal retrieval devices 1, 1a, 1b, and 2, the program for realizing the functions of the acoustic signal retrieval device is recorded on a computer-readable recording medium, and this recording is performed. The stored signal may be registered in the database and the input signal may be detected by executing a program recorded on the medium by a computer. The “computer system” here includes an OS and hardware such as peripheral devices. The “computer system” includes a WWW system having a homepage providing environment (or display environment). The “computer-readable recording medium” refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, and a CD-ROM, and a storage device such as a hard disk built in the computer. Further, the “computer-readable recording medium” refers to a volatile memory (RAM) in a computer system that becomes a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. In addition, those holding programs for a certain period of time are also included.

また、上述したプログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。   In addition, the above-described program may be transmitted from a computer system that stores the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, what is called a difference file (difference program) may be sufficient.

また、本発明は、上述の実施形態によって限定されず、本発明の技術思想の範囲内で様々な変形が可能である。   The present invention is not limited to the above-described embodiments, and various modifications can be made within the scope of the technical idea of the present invention.

本発明の原理を説明するためのスペクトログラムの概略図(その1)である。It is the schematic (the 1) of the spectrogram for demonstrating the principle of this invention. 本発明の原理を説明するためのスペクトログラムの概略図(その2)である。It is the schematic (the 2) of the spectrogram for demonstrating the principle of this invention. 本発明の原理を説明するためのスペクトログラムの概略図(その3)である。It is the schematic (the 3) of the spectrogram for demonstrating the principle of this invention. 本発明の原理を説明するためのスペクトログラムの概略図(その4)である。It is the schematic (the 4) of the spectrogram for demonstrating the principle of this invention. 本発明の第1実施形態に係る音響信号検索装置の概略ブロック図である。1 is a schematic block diagram of an acoustic signal search device according to a first embodiment of the present invention. 同実施形態に係る音響信号検索装置の動作を示すフローチャート(その1)である。It is a flowchart (the 1) which shows operation | movement of the acoustic signal search device which concerns on the same embodiment. 同実施形態に係る基準周波数検出の概要を説明する概念図である。It is a conceptual diagram explaining the outline | summary of the reference frequency detection which concerns on the same embodiment. 同実施形態に係るTAS法を説明する概念図である。It is a conceptual diagram explaining the TAS method which concerns on the same embodiment. 同実施形態に係る音響信号検索装置の動作を示すフローチャート(その2)である。It is a flowchart (the 2) which shows operation | movement of the acoustic signal search device which concerns on the same embodiment. 同実施形態に係る音響信号検索装置の動作を示すフローチャート(その3)である。It is a flowchart (the 3) which shows operation | movement of the acoustic signal search device which concerns on the same embodiment. 同実施形態に係る音響信号検索装置の他の実施形態(その1)である。It is other embodiment (the 1) of the acoustic signal search device concerning the embodiment. 同実施形態に係る音響信号検索装置の他の実施形態(その2)である。It is other embodiment (the 2) of the acoustic signal search device concerning the embodiment. 第1実施形態の他の実施形態(その2)の音響信号検索装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the acoustic signal search apparatus of other embodiment (the 2) of 1st Embodiment. 本発明の第2実施形態に係る音響信号検索装置の概略ブロック図である。It is a schematic block diagram of the acoustic signal search device concerning a 2nd embodiment of the present invention. 同実施形態に係る音響信号検索装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the acoustic signal search apparatus which concerns on the same embodiment. 同実施形態に係る索引情報の構成を説明するための概念図である。It is a conceptual diagram for demonstrating the structure of the index information which concerns on the same embodiment. 同実施形態に係る小領域符号間類似度表の構成を説明するための概念図である。It is a conceptual diagram for demonstrating the structure of the similarity table between small area codes which concerns on the embodiment.

符号の説明Explanation of symbols

1 音響信号検索装置
11 基準周波数検出部
12 特徴抽出部
13 類似度計算部

DESCRIPTION OF SYMBOLS 1 Acoustic signal search device 11 Reference frequency detection part 12 Feature extraction part 13 Similarity calculation part

Claims (11)

入力される音響信号の時間周波数スペクトログラムに基づいて、当該音響信号の特徴量を抽出する音響信号特徴抽出装置における音響信号特徴抽出方法であって、
前記時間周波数スペクトログラムの時間間隔ごとに、前記時間周波数スペクトログラムの所定の基準特徴部を抽出し、
抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの基準周波数とし、
対数軸上で予め定められた間隔の複数の周波数を、当該基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記時間間隔ごとの音響信号の特徴量を抽出する
ことを特徴とする音響信号特徴抽出方法。
An acoustic signal feature extraction method in an acoustic signal feature extraction device that extracts a feature amount of the acoustic signal based on a time-frequency spectrogram of an input acoustic signal,
For each time interval of the time frequency spectrogram, extract a predetermined reference feature of the time frequency spectrogram,
The extracted frequency of the predetermined reference feature is set as a reference frequency for each time interval,
Extracting a plurality of frequencies at predetermined intervals on the logarithmic axis with reference to the reference frequency, and extracting feature values of the acoustic signal for each time interval based on the extracted power spectrum value of each frequency. An acoustic signal feature extraction method.
前記所定の基準特徴部とは、パワースペクトル値が各時間間隔において最大値となる部分であることを特徴とする請求項1に記載の音響信号特徴抽出方法。   The acoustic signal feature extraction method according to claim 1, wherein the predetermined reference feature portion is a portion where a power spectrum value becomes a maximum value at each time interval. 前記所定の基準特徴部とは、時間軸で連続する幾つかの時間周波数スペクトログラムの中で、パワースペクトル値が最大値となる部分
であることを特徴とする請求項1に記載の音響信号特徴抽出方法。
The acoustic signal feature extraction according to claim 1, wherein the predetermined reference feature portion is a portion in which a power spectrum value becomes a maximum value among several time-frequency spectrograms continuous on a time axis. Method.
前記所定の基準特徴部とは、時間軸で連続する幾つかの時間周波数スペクトログラムのパワースペクトル値の重心となる部分
であることを特徴とする請求項1に記載の音響信号特徴抽出方法。
The acoustic signal feature extraction method according to claim 1, wherein the predetermined reference feature portion is a portion serving as a center of gravity of power spectrum values of several time-frequency spectrograms continuous on a time axis.
参照音響信号に基づいて、当該参照音響信号に類似する音を含む区間を、入力される検索対象音響信号から検索する音響信号検索装置における音響信号検索方法であって、
前記参照音響信号及び前記検索対象音響信号それぞれの時間周波数スペクトログラムから、前記時間周波数スペクトログラムの時間間隔ごとの所定の基準特徴部を抽出し、
前記参照音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記参照音響信号の基準周波数とし、
前記検索対象音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記検索対象音響信号の基準周波数とし、
対数軸上で予め定められた間隔の複数の周波数を、前記参照音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記参照音響信号の前記時間間隔ごとの音響信号の特徴量を抽出し、抽出した特徴量に基づいて前記参照音響信号の信号全体の時間長を一区間とする参照特徴量を算出し、
対数軸上で予め定められた間隔の複数の周波数を、前記検索対象音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記検索対象音響信号の前記時間間隔ごとの特徴量を抽出し、
抽出した前記検索対象音響信号の前記特徴量に基づいて前記区間ごとの区間特徴量を算出し、
算出した区間特徴量と、前記参照特徴量とに基づいて類似度を算出し、
算出した類似度に基づいて、前記参照音響信号の音に類似する前記検索対象音響信号の区間を検索し、検索により検出した前記参照音響信号の音に類似する前記検索対象音響信号の区間を出力する
ことを特徴とする音響信号検索方法。
An acoustic signal search method in an acoustic signal search device that searches an input search target acoustic signal for a section including a sound similar to the reference acoustic signal based on a reference acoustic signal,
From the time frequency spectrogram of each of the reference acoustic signal and the search target acoustic signal, a predetermined reference feature for each time interval of the time frequency spectrogram is extracted,
The frequency of the predetermined reference feature extracted from the time frequency spectrogram of the reference sound signal is set as the reference frequency of the reference sound signal for each time interval ,
The frequency of the predetermined reference feature extracted from time-frequency spectrogram of the search target sound signal and the reference frequency of the search target acoustic signal of each of the time intervals,
A plurality of frequencies at predetermined intervals on the logarithmic axis are extracted based on the reference frequency of the reference acoustic signal, and the sound for each time interval of the reference acoustic signal is extracted based on the extracted power spectrum value of each frequency. Extracting a feature quantity of the signal, calculating a reference feature quantity based on the extracted feature quantity, with a time length of the entire signal of the reference acoustic signal as one section,
A plurality of frequencies at predetermined intervals on the logarithmic axis are extracted with reference to the reference frequency of the search target acoustic signal, and for each time interval of the search target acoustic signal based on the extracted power spectrum value of each frequency Features of the
A section feature amount for each section is calculated based on the extracted feature amount of the search target acoustic signal,
A similarity is calculated based on the calculated section feature and the reference feature,
Based on the calculated similarity, the search target sound signal section similar to the sound of the reference sound signal is searched, and the search target sound signal section similar to the sound of the reference sound signal detected by the search is output. An acoustic signal search method characterized by:
入力される音響信号の時間周波数スペクトログラムに基づいて、当該音響信号の特徴量を抽出する音響信号特徴抽出装置であって、
前記時間周波数スペクトログラムの時間間隔ごとに、前記時間周波数スペクトログラムの所定の基準特徴部を抽出し、抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの基準周波数とする基準周波数検出手段と、
対数軸上で予め定められた間隔の複数の周波数を、当該基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記時間間隔ごとの音響信号の特徴量を抽出する特徴量抽出手段と、
を備えたことを特徴とする音響信号特徴抽出装置。
An acoustic signal feature extraction device that extracts a feature amount of the acoustic signal based on a time-frequency spectrogram of the input acoustic signal,
For each time interval of the time frequency spectrogram, a predetermined reference feature portion of the time frequency spectrogram is extracted, and a reference frequency detection unit that uses the extracted frequency of the predetermined reference feature portion as a reference frequency for each time interval;
A feature amount that extracts a plurality of frequencies at predetermined intervals on the logarithmic axis with reference to the reference frequency, and extracts a feature amount of the acoustic signal for each time interval based on the extracted power spectrum value of each frequency. Extraction means;
An acoustic signal feature extraction apparatus comprising:
参照音響信号に基づいて、当該参照音響信号に類似する音を含む区間を、入力される検索対象音響信号から検索する音響信号検索装置であって、
前記参照音響信号及び前記検索対象音響信号それぞれの時間周波数スペクトログラムから、前記時間周波数スペクトログラムの時間間隔ごとの所定の基準特徴部を抽出し、前記参照音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記参照音響信号の基準周波数とし、前記検索対象音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記検索対象音響信号の基準周波数とする基準周波数検出手段と、
対数軸上で予め定められた間隔の複数の周波数を、前記参照音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記参照音響信号の前記時間間隔ごとの特徴量を抽出し、抽出した特徴量に基づいて前記参照音響信号の信号全体の時間長を一区間とする参照特徴量を算出し、対数軸上で予め定められた間隔の複数の周波数を、前記検索対象音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記検索対象音響信号の前記時間間隔ごとの特徴量を抽出する特徴抽出手段と、
前記特徴抽出手段が抽出した前記検索対象音響信号の前記特徴量に基づいて前記区間ごとの区間特徴量を算出し、算出した区間特徴量と、前記参照特徴量とに基づいて類似度を算出し、算出した類似度に基づいて、前記参照音響信号の音に類似する前記検索対象音響信号の区間を検索し、検索により検出した前記参照音響信号の音に類似する前記検索対象音響信号の区間を出力する類似度計算手段と、
を備えたことを特徴とする音響信号検索装置。
Based on a reference acoustic signal, an acoustic signal search device that searches an input search target acoustic signal for a section including a sound similar to the reference acoustic signal,
Extracting a predetermined standard feature for each time interval of the time frequency spectrogram from the time frequency spectrogram of each of the reference acoustic signal and the search target acoustic signal, and extracting the predetermined standard extracted from the time frequency spectrogram of the reference acoustic signal The frequency of the feature portion is set as a reference frequency of the reference acoustic signal for each time interval, and the frequency of the predetermined reference feature portion extracted from the time frequency spectrogram of the search target acoustic signal is set to the search target acoustic signal for each time interval. a reference frequency detecting means for the issue of the reference frequency,
A plurality of frequencies at predetermined intervals on the logarithmic axis are extracted based on the reference frequency of the reference acoustic signal, and the characteristics of the reference acoustic signal for each time interval based on the extracted power spectrum value of each frequency Extracting a quantity, calculating a reference feature quantity having a time length of the entire signal of the reference acoustic signal as one section based on the extracted feature quantity, and calculating a plurality of frequencies at predetermined intervals on a logarithmic axis, A feature extraction unit that extracts a reference frequency of a search target acoustic signal as a reference , and extracts a feature amount for each time interval of the search target acoustic signal based on a power spectrum value of each extracted frequency;
A section feature amount for each section is calculated based on the feature amount of the search target acoustic signal extracted by the feature extraction unit, and a similarity is calculated based on the calculated section feature amount and the reference feature amount. The search target acoustic signal section similar to the sound of the reference acoustic signal is searched based on the calculated similarity, and the search target acoustic signal section similar to the sound of the reference acoustic signal detected by the search is searched. A similarity calculation means to output;
An acoustic signal retrieval device comprising:
入力される音響信号の時間周波数スペクトログラムに基づいて、当該音響信号の特徴量を抽出する音響信号特徴抽出装置のコンピュータに、
前記時間周波数スペクトログラムの時間間隔ごとに、前記時間周波数スペクトログラムの所定の基準特徴部を抽出するステップと、
抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの基準周波数とするステップと、
対数軸上で予め定められた間隔の複数の周波数を、当該基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記時間間隔ごとの音響信号の特徴量を抽出するステップと、
を実行させるための音響信号特徴抽出プログラム。
Based on the time-frequency spectrogram of the input acoustic signal, the computer of the acoustic signal feature extraction device that extracts the feature quantity of the acoustic signal,
Extracting predetermined reference features of the time-frequency spectrogram for each time interval of the time-frequency spectrogram;
Setting the extracted frequency of the predetermined reference feature as a reference frequency for each time interval;
Extracting a plurality of frequencies at predetermined intervals on the logarithmic axis with reference to the reference frequency, and extracting a feature quantity of the acoustic signal for each time interval based on the extracted power spectrum value of each frequency; ,
Acoustic signal feature extraction program for executing
参照音響信号に基づいて、当該参照音響信号に類似する音を含む区間を、入力される検索対象音響信号から検索する音響信号検索装置のコンピュータに、
参照音響信号及び検索対象音響信号の時間周波数スペクトログラムを入力するステップと、
前記参照音響信号及び前記検索対象音響信号それぞれの時間周波数スペクトログラムから、前記時間周波数スペクトログラムの時間間隔ごとの所定の基準特徴部を抽出するステップと、
前記参照音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記参照音響信号の基準周波数とし、前記検索対象音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記検索対象音響信号の基準周波数とするステップと、
対数軸上で予め定められた間隔の複数の周波数を、前記参照音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記参照音響信号の前記時間間隔ごとの特徴量を抽出し、抽出した特徴量に基づいて前記参照音響信号の信号全体の時間長を一区間とする参照特徴量を算出するステップと、
対数軸上で予め定められた間隔の複数の周波数を、前記検索対象音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記検索対象音響信号の前記時間間隔ごとの特徴量を抽出するステップと、
抽出した前記検索対象音響信号の前記特徴量に基づいて前記区間ごとの区間特徴量を算出するステップと、
前記類似度計算手段が、算出した区間特徴量と、前記参照特徴量とに基づいて類似度を算出するステップと、
算出した類似度に基づいて、前記参照音響信号の音に類似する前記検索対象音響信号の区間を検索し、検索により検出した前記参照音響信号の音に類似する前記検索対象音響信号の区間を出力するステップと、
を実行させるための音響信号検索プログラム。
Based on the reference acoustic signal, the computer of the acoustic signal retrieval device that retrieves the section including the sound similar to the reference acoustic signal from the input retrieval target acoustic signal,
Inputting a time frequency spectrogram of a reference acoustic signal and a search target acoustic signal;
Extracting a predetermined reference feature for each time interval of the time-frequency spectrogram from the time-frequency spectrogram of each of the reference sound signal and the search target sound signal;
The predetermined standard extracted from the time-frequency spectrogram of the search target acoustic signal, with the frequency of the predetermined reference feature extracted from the time-frequency spectrogram of the reference acoustic signal as the reference frequency of the reference acoustic signal for each time interval the method comprising the frequency of the feature and the reference frequency of the search target acoustic signal of each of the time intervals,
A plurality of frequencies at predetermined intervals on the logarithmic axis are extracted based on the reference frequency of the reference acoustic signal, and the characteristics of the reference acoustic signal for each time interval based on the extracted power spectrum value of each frequency Extracting a quantity, and calculating a reference feature quantity having a time length of the entire signal of the reference acoustic signal as one section based on the extracted feature quantity;
A plurality of frequencies at predetermined intervals on the logarithmic axis are extracted with reference to the reference frequency of the search target acoustic signal, and for each time interval of the search target acoustic signal based on the extracted power spectrum value of each frequency Extracting a feature quantity of
Calculating a section feature value for each section based on the extracted feature value of the extracted search target acoustic signal;
The similarity calculating means calculating a similarity based on the calculated section feature and the reference feature;
Based on the calculated similarity, the search target sound signal section similar to the sound of the reference sound signal is searched, and the search target sound signal section similar to the sound of the reference sound signal detected by the search is output. And steps to
Acoustic signal search program for executing
請求項8に記載の音響信号特徴抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。   A computer-readable recording medium on which the acoustic signal feature extraction program according to claim 8 is recorded. 請求項9に記載の音響信号検索プログラムを記録したコンピュータ読み取り可能な記録媒体。   The computer-readable recording medium which recorded the acoustic signal search program of Claim 9.
JP2006183131A 2006-07-03 2006-07-03 Acoustic signal feature extraction method, extraction device, extraction program, recording medium recording the program, acoustic signal search method, search device, search program using the features, and recording medium recording the program Expired - Fee Related JP4597919B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006183131A JP4597919B2 (en) 2006-07-03 2006-07-03 Acoustic signal feature extraction method, extraction device, extraction program, recording medium recording the program, acoustic signal search method, search device, search program using the features, and recording medium recording the program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006183131A JP4597919B2 (en) 2006-07-03 2006-07-03 Acoustic signal feature extraction method, extraction device, extraction program, recording medium recording the program, acoustic signal search method, search device, search program using the features, and recording medium recording the program

Publications (3)

Publication Number Publication Date
JP2008015002A JP2008015002A (en) 2008-01-24
JP2008015002A5 JP2008015002A5 (en) 2010-10-14
JP4597919B2 true JP4597919B2 (en) 2010-12-15

Family

ID=39072112

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006183131A Expired - Fee Related JP4597919B2 (en) 2006-07-03 2006-07-03 Acoustic signal feature extraction method, extraction device, extraction program, recording medium recording the program, acoustic signal search method, search device, search program using the features, and recording medium recording the program

Country Status (1)

Country Link
JP (1) JP4597919B2 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120020484A1 (en) * 2009-01-30 2012-01-26 Telefonaktiebolaget Lm Ericsson (Publ) Audio Signal Quality Prediction
WO2011024572A1 (en) * 2009-08-28 2011-03-03 インターナショナル・ビジネス・マシーンズ・コーポレーション Audio feature extracting apparatus, audio feature extracting method, and audio feature extracting program
JP5561041B2 (en) * 2010-09-06 2014-07-30 大日本印刷株式会社 Relevant information retrieval device for acoustic data
JP5462827B2 (en) * 2011-03-28 2014-04-02 日本電信電話株式会社 Specific acoustic signal containing section detecting device, method, and program
JP2013117688A (en) * 2011-12-05 2013-06-13 Sony Corp Sound processing device, sound processing method, program, recording medium, server device, sound replay device, and sound processing system
CN108962231B (en) * 2018-07-04 2021-05-28 武汉斗鱼网络科技有限公司 Voice classification method, device, server and storage medium
CN115696699B (en) * 2022-09-28 2024-09-24 重庆长安汽车股份有限公司 Method, device, equipment and medium for processing atmosphere lamp rhythm

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004530153A (en) * 2001-02-28 2004-09-30 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Method and apparatus for characterizing a signal and method and apparatus for generating an index signal
JP2004334160A (en) * 2002-09-24 2004-11-25 Matsushita Electric Ind Co Ltd Characteristic amount extraction device
JP2004536348A (en) * 2001-07-20 2004-12-02 グレースノート インコーポレイテッド Automatic recording identification
JP2005512108A (en) * 2000-06-20 2005-04-28 ユニバーシティ オブ ニュー ハンプシャー Method and apparatus for compressing and decompressing audio files using a chaos system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005512108A (en) * 2000-06-20 2005-04-28 ユニバーシティ オブ ニュー ハンプシャー Method and apparatus for compressing and decompressing audio files using a chaos system
JP2004530153A (en) * 2001-02-28 2004-09-30 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Method and apparatus for characterizing a signal and method and apparatus for generating an index signal
JP2004536348A (en) * 2001-07-20 2004-12-02 グレースノート インコーポレイテッド Automatic recording identification
JP2004334160A (en) * 2002-09-24 2004-11-25 Matsushita Electric Ind Co Ltd Characteristic amount extraction device

Also Published As

Publication number Publication date
JP2008015002A (en) 2008-01-24

Similar Documents

Publication Publication Date Title
KR101578279B1 (en) Methods and systems for identifying content in a data stream
EP2659480B1 (en) Repetition detection in media data
Typke et al. A survey of music information retrieval systems
EP2791935B1 (en) Low complexity repetition detection in media data
JP4597919B2 (en) Acoustic signal feature extraction method, extraction device, extraction program, recording medium recording the program, acoustic signal search method, search device, search program using the features, and recording medium recording the program
JP4945877B2 (en) System and method for recognizing sound / musical signal under high noise / distortion environment
JP5907511B2 (en) System and method for audio media recognition
US8589171B2 (en) System and method for custom marking a media file for file matching
JP2006501502A (en) System and method for generating audio thumbnails of audio tracks
JP2005322401A (en) Method, device, and program for generating media segment library, and custom stream generating method and custom media stream sending system
CN103729368B (en) A kind of robust audio recognition methods based on local spectrum iamge description
JP4327202B2 (en) Specific acoustic signal containing section detection system, method and program thereof
WO2014096832A1 (en) Audio analysis system and method using audio segment characterisation
CN100545834C (en) Method and apparatus based on the identification of the audio content of feature
KR20080082022A (en) Likelihood measurement apparatus and method based on music characteristics and music recommendation system and method using its
Ghosal et al. Song/instrumental classification using spectrogram based contextual features
Guzman-Zavaleta et al. A robust audio fingerprinting method using spectrograms saliency maps
US20230185846A1 (en) Music streaming, playlist creation and streaming architecture
JP5772957B2 (en) Sound processing apparatus, sound processing system, video processing system, control method, and control program
CN113032616A (en) Audio recommendation method and device, computer equipment and storage medium
JP5462827B2 (en) Specific acoustic signal containing section detecting device, method, and program
Six et al. A robust audio fingerprinter based on pitch class histograms applications for ethnic music archives
JP2007072023A (en) Information processing apparatus and method
Brinkman et al. Online music recognition: the Echoprint system
Rosão et al. Trends in onset detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100914

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100922

R151 Written notification of patent or utility model registration

Ref document number: 4597919

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131001

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees