[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5454317B2 - 音響解析装置 - Google Patents

音響解析装置 Download PDF

Info

Publication number
JP5454317B2
JP5454317B2 JP2010088354A JP2010088354A JP5454317B2 JP 5454317 B2 JP5454317 B2 JP 5454317B2 JP 2010088354 A JP2010088354 A JP 2010088354A JP 2010088354 A JP2010088354 A JP 2010088354A JP 5454317 B2 JP5454317 B2 JP 5454317B2
Authority
JP
Japan
Prior art keywords
matrix
component
feature
acoustic signal
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010088354A
Other languages
English (en)
Other versions
JP2011221157A (ja
Inventor
慶太 有元
セバスチャン シュトライヒ
ビースァン オン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2010088354A priority Critical patent/JP5454317B2/ja
Priority to US13/081,408 priority patent/US8853516B2/en
Priority to EP11161259.4A priority patent/EP2375406B1/en
Publication of JP2011221157A publication Critical patent/JP2011221157A/ja
Application granted granted Critical
Publication of JP5454317B2 publication Critical patent/JP5454317B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)

Description

本発明は、音響の特徴を解析する技術に関する。
楽曲の特徴(例えば音色)を解析する技術が従来から提案されている。例えば非特許文献1には、音響信号を所定長毎に区分した各単位期間(フレーム)の特徴量の時系列を楽曲間で比較する技術が開示されている。各単位期間の特徴量は、例えば音響信号の音色の特徴を示すMFCC(Mel-frequency cepstral coefficient)を含んで構成される。楽曲間の特徴量の比較には、楽曲間で相互に対応する時間軸上の箇所を特定するDPマッチング(DTW:Dynamic Time Warping)技術が採用される。
Jouni Paulus and Anssi Klapuri, "Measuring the Similarity of Rhythmic Patterns", Proc. ISMIR 2002, p. 150-156
しかし、非特許文献1の技術のもとでは、音響信号の全体的な特徴を表現するために音響信号の全期間にわたる単位期間毎の特徴量が必要となるから、音響信号の時間長が長い場合には特に、特徴量を示すデータ量が大きいという問題がある。また、音響信号の時間長やテンポとは無関係に設定された単位期間毎に特徴量が抽出されるから、楽曲の特徴を比較する場合には、前述のDPマッチングのような音響信号の伸縮処理が必須であり、処理の負荷が大きいという問題もある。以上の事情を考慮して、本発明は、音響信号の音色の解析に必要なデータ量を削減するとともに音響信号間で音色を比較する処理の負荷を軽減することを目的とする。
以上の課題を解決するために、本発明に係る音響解析装置は、音響信号を時間軸上で区分した各単位期間における単位帯域毎の成分値を時間軸方向および周波数軸方向に配列した成分行列(例えば図5の成分行列A)を取得する成分取得手段と、成分行列と当該成分行列を時間軸方向に移相した移相行列(例えば図5の移相行列Bk)との各成分値の差異に応じた要素値で構成される差分行列(例えば図5の差分行列Dk)を、成分行列に対する移相量を相違させた複数の移相行列の各々について生成する差分生成手段と、差分行列のうち時間軸方向に配列する複数の要素値に応じた特徴値を単位帯域毎に配列した特徴値系列(例えば図6の特徴値系列Ek)を差分行列毎に含む音色特徴量を生成する特徴量抽出手段とを具備する。
以上の構成においては、音響信号の音色の時間変化の傾向が複数の特徴値系列で表現される。したがって、単位期間毎に特徴量を抽出する構成(例えば非特許文献1)と比較して、音響信号の音色の評価に必要なデータ量を削減することが可能である。また、特徴値系列の個数は音響信号の時間長に依存しないから、複数の音響信号の時間長が相違する場合でも、各音響信号の時間軸を整合させる処理を必要とせずに、各音響信号の音色の時間変化を対比できる。したがって、音響信号間の音色の比較に必要な処理の負荷が軽減されるという利点がある。
なお、音響信号の典型例は、楽曲の楽音や音声の収音信号である。なお、「楽曲」とは、複数の音響の時系列を意味し、著作物として一体に創作された楽曲の全体であるか部分であるかは不問である。また、単位帯域の帯域幅は任意であるが、例えば1オクターブに相当する帯域幅に設定され得る。
本発明の好適な態様において、差分生成手段は、成分行列のうち周波数軸方向に配列する複数の成分値に応じた加重値を単位期間毎に配列した加重値系列(例えば図5の加重値系列W)を生成する加重値生成手段と、成分行列と移相行列との各成分値の差分値で構成される初期差分行列(例えば図5の初期差分行列Ck)を生成する差分算定手段と、初期差分行列に加重値系列を作用させて差分行列を生成する補正手段とを具備する。以上の態様においては、初期差分行列に加重値系列を作用させることで、初期差分行列のもとで時間軸方向に配列する各差分値の分布を補正した差分行列が生成される。したがって、例えば、成分行列の成分値が大きい単位期間について成分行列と移相行列との差分を強調した音色特徴量(すなわち音響信号の強度が高い単位期間の音色を特に強調した音色特徴量)を生成できるという利点がある。
本発明の好適な態様において、特徴量抽出手段は、成分行列のうち時間軸方向に配列する複数の成分値に応じた特徴値を単位帯域毎に配列した特徴値系列(例えば図6の特徴値系列EK+1)を含む音色特徴量を生成する。以上の態様の音色特徴量は、音響信号の音色の時間変化の傾向を反映した複数の特徴値系列に加えて、音響信号の全体にわたる平均的な音色の傾向(周波数特性)を反映した特徴値系列を含んで構成されるから、音響信号の音色を容易に評価できるという効果は格別に顕著となる。
本発明は、以上の各態様で音響信号毎に生成された音色特徴量を相互に比較する音響解析装置としても特定され得る。音響信号間の音色の比較に好適な音響解析装置は、音響信号を時間軸上で区分した各単位期間における単位帯域毎の成分値を時間軸方向および周波数軸方向に配列した成分行列と、当該成分行列を時間軸方向に移相した移相行列との各成分値の差異に応じた要素値で構成される差分行列のうち、時間軸方向に配列する複数の要素値に応じた特徴値を単位帯域毎に配列した特徴値系列を、成分行列に対する移相量を相違させた複数の移相行列の各々について含む音色特徴量を、第1音響信号および第2音響信号の各々について記憶する記憶手段と、第1音響信号と第2音響信号との音色特徴量を比較することで、第1音響信号と第2音響信号との音色の類否を示す類否指標値を算定する特徴比較手段とを具備する。以上の構成においては、音響信号の音色の時間変化の傾向を複数の特徴値系列で表現することで音色特徴量のデータ量が削減されるから、単位期間毎に特徴量を抽出する構成(例えば非特許文献1)と比較して、記憶手段に必要な容量を低減することが可能である。また、特徴値系列の個数は音響信号の時間長に依存しないから、複数の音響信号の時間長が相違する場合でも、各音響信号の音色の時間変化を容易に対比できる。したがって、特徴比較手段による処理の負荷が軽減されるという利点もある。
以上の各態様に係る音響解析装置は、音響信号の解析に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音響信号を時間軸上で区分した各単位期間における単位帯域毎の成分値を時間軸方向および周波数軸方向に配列した成分行列を取得する成分取得処理と、成分行列と当該成分行列を時間軸方向に移相した移相行列との各成分値の差異に応じた要素値で構成される差分行列を、成分行列に対する移相量を相違させた複数の移相行列の各々について生成する差分生成処理と、差分行列のうち時間軸方向に配列する複数の要素値に応じた特徴値を単位帯域毎に配列した特徴値系列を差分行列毎に含む音色特徴量を生成する特徴量抽出処理とをコンピュータに実行させる。以上のプログラムによれば、本発明に係る音響解析装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
本発明の実施形態に係る音響解析装置のブロック図である。 信号解析部のブロック図である。 音響信号のスペクトルの時系列と成分行列との関係を示す模式図である。 差分生成部のブロック図である。 差分生成部の動作の説明図である。 特徴量抽出部の動作の説明図である。 音色画像の模式図である。
図1は、本発明のひとつの実施形態に係る音響解析装置100のブロック図である。音響解析装置100は、楽曲を構成する音響(楽音や音声)の特徴を解析する装置であり、演算処理装置12と記憶装置14と表示装置16とを具備するコンピュータシステムで実現される。
記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として任意に採用され得る。
図1に示すように、記憶装置14は、音響信号X(X1,X2)を記憶する。音響信号Xは、楽曲を構成する音響の時間波形を表す信号であり、例えば楽曲のうち旋律やリズムの区切となる区間(例えば楽曲のうち所定個の小節に相当する区間)について用意される。音響信号X1および音響信号X2は、相異なる楽曲の一部分を表す。ただし、音響信号X1と音響信号X2とが単一の楽曲内の別個の部分を表す構成や、音響信号Xが楽曲の全体を表す構成も採用され得る。
演算処理装置12は、記憶装置14に記憶されたプログラムPGMの実行で、音響信号Xの解析に必要な複数の機能(信号解析部22,表示制御部24,特徴比較部26)を実現する。信号解析部22は、音響信号Xの音色の特徴を示す音色特徴量F(F1,F2)を生成する。表示制御部24は、信号解析部22が生成した音色特徴量Fを表示装置16(例えば液晶表示装置)に画像として表示させる。特徴比較部26は、音響信号X1の音色特徴量F1と音響信号X2の音色特徴量F2とを比較する。なお、演算処理装置12の各機能を専用の電子回路(DSP)で実現した構成や、演算処理装置12の各機能を複数の集積回路に分散した構成も採用され得る。
図2は、信号解析部22のブロック図である。図2に示すように、信号解析部22は、成分取得部32と差分生成部34と特徴量抽出部36とを含んで構成される。成分取得部32は、音響信号Xの周波数特性の時間変化を示す成分行列Aを生成する。図2に示すように、成分取得部32は、周波数分析部322と行列生成部324とを含んで構成される。
周波数分析部322は、音響信号Xを所定の時間毎に区分したN個の単位期間(フレーム)σT[1]〜σT[N]の各々について周波数領域のスペクトルPXを生成する(Nは2以上の自然数)。図3の部分(A)は、周波数分析部322が生成するスペクトルPXの時系列(スペクトログラム)の模式図である。図3の部分(A)に示すように、音響信号XのスペクトルPXは、音響信号Xの周波数毎の成分値(強度)xを周波数軸上に配列したパワースペクトルである。なお、各単位期間σT[n](n=1〜N)は所定の時間長に設定されるから、単位期間σT[n]の総数Nは音響信号Xの時間長に応じて変化する。周波数分析部322によるスペクトルPXの生成には例えば短時間フーリエ変換等の公知の周波数分析が任意に採用され得る。
図2の行列生成部324は、周波数分析部322が生成したスペクトルPXの時系列から成分行列Aを生成する。図3の部分(B)に示すように、成分行列Aは、成分値a[1,1]〜a[M,N]を要素とする縦M行×横N列の行列である(Mは2以上の自然数)。行列生成部324は、図3の部分(A)に示すように、周波数軸上にM個の単位帯域σF[1]〜σF[M]を画定し、時間軸上の第n番目の単位期間σT[n]のスペクトルPXのうち第m番目の単位帯域σF[m]内の複数の成分値xに応じて成分行列Aの成分値a[m,n]を算定する。例えば、単位帯域σF[m]内の複数の成分値xの平均値(相加平均)が成分値a[m,n]として算定される。以上の説明から理解されるように、成分行列Aは、音響信号Xの各単位期間σT[n]内における単位帯域σF[m]毎の平均強度に相当する成分値a[m,n]を、周波数軸方向(縦方向)および時間軸方向(横方向)に縦M行×横N列に配列した行列である。単位帯域σF[1]〜σF[M]の各々は、1オクターブに相当する帯域幅に設定される。
図2の差分生成部34は、相異なるK個の差分行列D1〜DKを成分行列Aから生成する(Kは2以上の自然数)。図4は、差分生成部34のブロック図であり、図5は、差分生成部34の動作の説明図である。図4に示すように、差分生成部34は、移相行列生成部42と差分算定部44と加重値生成部46と補正部48とを含んで構成される。図5では、差分生成部34の各要素での処理に該当する箇所に当該要素の符号が付記されている。
図4の移相行列生成部42は、相異なる差分行列Dk(k=1〜K)に対応するK個の移相行列B1〜BKを1個の成分行列Aから生成する。図5に示すように、移相行列Bkは、成分行列Aの各成分値a[m,n]を、移相行列Bk毎に相違する移相量kΔだけ時間軸方向に移相(シフト)した行列であり、周波数軸方向および時間軸方向に縦M行×横N列に配列された成分値bk[1,1]〜bk[M,N]を含んで構成される。すなわち、移相行列Bkのうち第m行の第n列に位置する成分値bk[m,n]は、成分行列Aにおける第m行の第(n+kΔ)列に位置する成分値a[m,n+kΔ]に相当する。
移相量kΔの単位Δは、例えば単位期間σT[n]の1個分の時間長に設定される。すなわち、移相行列Bkは、成分行列Aの各成分値a[m,n]を時間軸方向の手前側(時間の遡及側)に単位期間σT[n]のk個分だけ移動した行列である。ただし、成分行列Aのうち時間軸方向の前縁(第1列)から移相量kΔにわたる各列の成分値a[m,n](図5の斜線部)は、移相行列Bkにおける時間軸方向の後縁に付加される(circular shift)。すなわち、成分行列Aの第1行から第kΔ列は、移相行列Bkの第{M−(kΔ−1)}列から第M列として利用される。例えば、単位Δを単位期間σT[n]の1個分に設定した場合、移相行列B1は、成分行列Aの第1列を第M列に移行することで構成され、移相行列B2は、成分行列Aの第1列および第2列を第(M−1)列および第M列に移行することで構成される。
図4の差分算定部44は、成分行列Aと移相行列Bkとの差分に相当する初期差分行列CkをK個の移相行列B1〜BKの各々について生成する。初期差分行列Ckは、差分値ck[1,1]〜ck[M,N]を周波数軸方向および時間軸方向に縦M行×横N列に配列した行列である。図5に示すように、初期差分行列Ckの各差分値ck[m,n]は、成分行列Aの成分値a[m,n]と移相行列Bkの成分値bk[m,n]との差分値の絶対値(ck[m,n]=|a[m,n]−bk[m,n]|)に設定される。移相行列Bkは成分行列Aの移相で生成されるから、時間軸上の各単位期間σT[n]から移相量kΔにわたる期間内で音響信号Xの単位帯域σF[m]内の成分の強度に変化が大きいほど、初期差分行列Ckの差分値ck[m,n]は大きい数値に設定される。
図4の加重値生成部46は、初期差分行列Ckの補正に使用される加重値系列Wを生成する。加重値系列Wは、図5に示すように、相異なる単位期間σT[n]に対応するN個の加重値w[1]〜w[N]の系列である。加重値系列Wの第n番目の加重値w[n]は、成分行列Aのうち単位期間σT[n]に対応するM個の成分値a[1,n]〜a[M,n]に応じて設定される。例えば、M個の成分値a[1,n]〜a[M,n]の加算値または平均値が加重値w[n]として算定される。したがって、音響信号Xの全帯域にわたる単位期間σT[n]での強度(音量)が高いほど加重値w[n]は大きい数値となる。すなわち、加重値w[1]〜w[N]の時系列は、音響信号Xの時間波形の包絡線に相当する。
図4の補正部48は、加重値生成部46が生成した加重値系列Wを各初期差分行列Ck(C1〜CK)に作用させることで、相異なる初期差分行列Ckに対応するK個の差分行列D1〜DKを生成する。差分行列Dkは、図5に示すように、要素値dk[1,1]〜dk[M,N]を周波数軸方向(縦方向)および時間軸方向(横方向)に縦M行×横N列に配列した行列である。差分行列Dkの要素値dk[m,n]は、加重値系列Wの第n番目の加重値w[n]を初期差分行列Ckの第n列の差分値ck[m,n]に乗算した数値に設定される(dk[m,n]=w[n]×ck[m,n])。したがって、差分行列Dkの各要素値dk[m,n]は、単位期間σT[n]での音響信号Xの強度が高いほど、初期差分行列Ckの差分値ck[m,n]と比較して大きい数値に強調される。すなわち、補正部48は、単位帯域σF[m]について時間軸方向に配列するN個の差分値ck[m,1]〜ck[m,N]の分布を補正(分布の高低を強調)する要素として機能する。以上が差分生成部34の具体例である。
図2の特徴量抽出部36は、成分取得部32が生成した成分行列Aと差分生成部34が生成したK個の差分行列D1〜DKとを利用して音響信号Xの音色特徴量F(F1,F2)を生成する。図6は、特徴量抽出部36の動作の説明図である。図6に示すように、特徴量抽出部36が生成する音色特徴量Fは、相異なる差分行列Dkに対応するK個の特徴値系列E1〜EKと、成分行列Aに対応する1個の特徴値系列EK+1とを配列した縦M行×横(K+1)列の行列である。すなわち、音色特徴量Fの行数Mおよび列数(K+1)は、音響信号Xの時間長(単位期間σT[n]の総数N)に依存しない。
音色特徴量Fの第(K+1)列に位置する特徴値系列EK+1は、相異なる単位帯域σF[m]に対応するM個の特徴値eK+1[1]〜eK+1[M]の系列である。特徴値eK+1[m]は、成分取得部32が生成した成分行列Aのうち単位帯域σF[m]に対応するN個の成分値a[m,1]〜a[m,N]に応じて設定される。例えば、N個の成分値a[m,1]〜a[m,N]の加算値または平均値が特徴値eK+1[m]として算定される。したがって、音響信号Xの全期間にわたる単位帯域σF[m]の成分の強度が高いほど特徴値eK+1[m]は大きい数値に設定される。すなわち、特徴値系列EK+1は、音響信号Xの全期間にわたる平均的な音色(周波数特性)を示す特徴量として機能する。
特徴値系列Ek(E1〜EK)は、相異なる単位帯域σF[m]に対応するM個の特徴値ek[1]〜ek[M]の系列である。特徴値系列Ekの第m番目の特徴値ek[m]は、差分生成部34が生成した差分行列Dkのうち単位帯域σF[m]に対応するN個の要素値dk[m,1]〜dk[m,N]に応じて設定される。例えば、N個の要素値dk[m,1]〜dk[m,N]の加算値または平均値が特徴値ek[m]として算定される。以上の説明から理解されるように、単位期間σT[1]〜σT[N]の各々における音響信号Xの単位帯域σF[m]内の成分の強度が、当該単位期間σT[n]から移相量kΔにわたる期間内で顕著に変化するほど、特徴値ek[m]は大きい数値に設定される。したがって、音色特徴量Fのもとで各単位帯域σF[m]に対応するK個(すなわち横方向に配列するK個)の特徴値e1[m]〜eK[m]のうち数値の大きい特徴値ek[m]が多い場合、音響信号Xの単位帯域σF[m]の成分は、短時間で強度が急峻に変動する音響であると評価される。他方、各単位帯域σF[m]に対応するK個の特徴値e1[m]〜eK[m]のうち数値が小さい特徴値ek[m]が多い場合、音響信号Xの単位帯域σF[m]の成分は、長時間にわたって強度が余り変化しない音響である(あるいは単位帯域σF[m]の成分が発生していない)と評価される。すなわち、音色特徴量Fを構成するK個の特徴値系列E1〜EKは、音響信号Xの単位帯域σF[m]毎の成分(すなわち音響信号Xの音色)の時間変化を示す特徴量として機能する。
以上が図1の信号解析部22の構成および動作である。信号解析部22は、音響信号X1の音色特徴量F1と音響信号X2の音色特徴量F2とを以上の手順で順次に生成する。信号解析部22が生成した音色特徴量Fは記憶装置14に格納される。
表示制御部24は、信号解析部22が生成した音色特徴量F(F1,F2)を模式的に表現した図7の音色画像G(G1,G2)を表示装置16に表示させる。音響信号X1の音色特徴量F1の音色画像G1と音響信号X2の音色特徴量F2の音色画像G2とを並列に表示した場合が図7では例示されている。
図7に示すように、音色画像Gは、音色特徴量Fの各特徴値eκ[m](κ=1〜K+1)に対応する単位図形u[m,κ]を、時間軸に対応する横軸と横軸に直交する周波数軸(縦軸)とに沿って縦M行×横(K+1)列の行列状に配列した画像である。音響信号X1の音色画像G1と音響信号X2の音色画像G2とは共通の横軸(時間軸)のもとで対比的に表示される。
図7に示すように、音色画像G1において第m行の第κ列に位置する単位図形u[m,κ]の表示態様(色相や階調)は、音色特徴量F1内の特徴値eκ[m]に応じて可変に設定される。音色画像G2の各単位図形u[m,κ]の表示態様も同様に、音色特徴量F2の特徴値eκ[m]に応じて可変に設定される。したがって、音色画像Gを視認した利用者は、音響信号X1および音響信号X2の各々の音色の傾向を直感的に把握および対比することが可能である。
具体的には、音色画像Gのうち第(K+1)列のM個の単位図形u(1,K+1)〜u(M,K+1)(特徴値系列EK+1)から、音響信号Xの全期間にわたる平均的な音色(周波数特性)の傾向が容易に把握される。また、音色画像Gのうち第1列から第K列の各単位図形u(m,k)から、音響信号Xの単位帯域σF[m]毎(すなわち、オクターブ毎)の成分の時間変化の傾向が容易に把握される。各単位図形u[m,κ]の行数Mおよび列数(K+1)は、各音響信号Xの時間長に関わらず音色画像G1と音色画像G2とで共通するから、利用者は、音響信号X1の音色と音響信号X2の音色とを容易に比較することが可能である。
図1の特徴比較部26は、音響信号X1の音色特徴量F1と音響信号X2の音色特徴量F2とを比較することで、音響信号X1と音響信号X2との音色の類否の尺度となる数値(以下「類否指標値」という)Qを算定する。類否指標値Qの算定の方法は任意であるが、例えば、音色特徴量F1と音色特徴量F2とで相対応する(すなわち各行列内の同位置にある)各特徴値eκ[m]の差分値を算定し、各差分値の絶対値を縦M行×横(K+1)列にわたって加算または平均した数値を類否指標値Qとして算定する構成が採用され得る。すなわち、音響信号X1の音色特徴量F1と音響信号X2の音色特徴量F2とが類似するほど類否指標値Qは小さい数値となる。特徴比較部26が算定した類否指標値Qは、例えば図7の音色画像G(G1,G2)とともに表示装置16に表示される。利用者は、音響信号X1と音響信号X2との音色の類否を類否指標値Qから定量的に判断することが可能である。
以上の形態においては、音響信号Xの全期間にわたる平均的な音色の傾向が特徴系列EK+1で表現され、音響信号Xの全期間にわたる音色の時間変化の傾向が、移相行列Bkの個数(移相量kΔの種類数)に相当するK個の特徴値系列E1〜EKで表現される。したがって、単位期間σT[n]毎にMFCC等の特徴量を抽出する構成(例えば非特許文献1)と比較して、楽曲の音色の評価に必要なデータ量を削減することが可能である。また、複数の成分値xを含む単位帯域σF[m]を周波数軸上の単位として音色特徴量Fの各特徴値eκ[m]が算定されるから、例えば各成分値xに対応する周波数毎に特徴値を算定する構成と比較して、音色特徴量Fのデータ量が削減される。他方、各単位帯域σF[m]は1オクターブの帯域幅に設定されるから、音色特徴量Fの各特徴値eκ[1]〜eκ[M]に対応する音域を利用者が直感的に把握できるという利点もある。
しかも、音響信号Xの音色の時間変化の傾向を表現する特徴値系列E1〜EKの個数Kは音響信号Xの時間長に依存しないから、音響信号X1と音響信号X2とで時間長が相違する場合でも、音色画像G1と音色画像G2とを対比することで、音響信号X1の音色と音響信号X2の音色との類否を利用者が容易に評価することが可能である。また、音色特徴量Fの行数Mおよび列数(K+1)は音響信号Xに依存しないから、音響信号X1と音響信号X2との間で相対応する時点を探索する処理(例えば非特許文献1の技術で必要となるDPマッチング)は原理的には不要である。したがって、音響信号X1と音響信号X2とで音色を比較する処理の負荷(特徴比較部26の負荷)が軽減されるという利点もある。
<変形例>
以上の形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)変形例1
単位帯域σF[m]毎の成分値a[m,n]の算定の方法は、単位帯域σF[m]内の複数の成分値xの平均(相加平均)に限定されない。例えば、単位帯域σF[m]内の複数の成分値xの加重和や加算値や中央値を成分値xとして算定する構成や、各成分値xを成分行列Aの成分値a[m,n]としてそのまま採択する構成も採用され得る。また、単位帯域σF[m]の帯域幅は、1オクターブに限定されず任意に選定される。例えば、各単位帯域σF[m]を1オクターブの整数倍や1オクターブの整数分の1の帯域幅に設定した構成が採用され得る。
(2)変形例2
以上の形態では、加重値系列Wを利用して初期差分行列Ckを差分行列Dkに補正したが、加重値系列Wを利用した補正は省略され得る。例えば、図4の差分算定部44が算定した初期差分行列Ckを差分行列Dkとして特徴量抽出部36が音色特徴量Fを生成する構成(したがって加重値生成部46や補正部48は省略される)が採用される。
(3)変形例3
以上の形態では、各差分行列Dkから生成されたK個の特徴値系列E1〜EKと成分行列Aに応じた特徴値系列EK+1とを含む音色特徴量Fを生成したが、特徴値系列EK+1は音色特徴量Fから省略され得る。
(4)変形例4
以上の形態では、成分行列Aの前縁側の各成分値a[m,n]を後縁側に移行して移相行列Bkを生成したが、移相行列生成部42が移相行列Bkを生成する方法は適宜に変更され得る。例えば、成分行列Aのうち前縁側の移相量kΔにわたる各列を破棄して移相行列Bk(縦m行×横(N−kΔ)列)を生成する構成も採用され得る。差分算定部44は、成分行列Aと移相行列Bkとの重複部分のみについて成分値a[m,n]と成分値bk[m,n]との差分値ck[m,n]を算定することで縦m行×横(N−kΔ)列の初期差分行列Ckを生成する。また、以上の例示では成分行列Aの各成分値a[m,n]を時間軸の手前側に移相したが、各成分値a[m,n]を時間軸の後方側(時間の経過側)に移相量kΔだけ移相して移相行列Bkを生成する構成も採用され得る。
(5)変形例5
以上の形態では、成分取得部32の周波数分析部322が音響信号XからスペクトルPXを生成するとともに行列生成部324がスペクトルPXの時系列から成分行列Aを生成したが、成分取得部32が成分行列Aを取得する方法は任意である。例えば、音響信号Xの成分行列Aが記憶装置14に事前に格納され(したがって音響信号Xの記憶は省略され得る)、成分取得部32が記憶装置14から成分行列Aを取得する構成が採用される。また、音響信号Xの各スペクトルPXの時系列が記憶装置14に事前に格納され(したがって音響信号Xの記憶や周波数分析部322は省略され得る)、成分取得部32(行列生成部324)が記憶装置14の各スペクトルPXから成分行列Aを生成する構成も採用される。すなわち、成分取得部32は、成分行列Aを取得する要素として包括される。
(6)変形例6
以上の形態では、信号解析部22および特徴比較部26の双方を具備する音響解析装置100を例示したが、信号解析部22および特徴比較部26の片方のみを具備する音響解析装置としても本発明は実現され得る。すなわち、音響信号Xの音色の解析(音色特徴量Fの抽出)に利用される音響解析装置(以下「特徴抽出装置」という)は、信号解析部22を具備するとともに特徴比較部26を省略した構成である。他方、音響信号X1と音響信号X2との音色の比較(類否指標値Qの算定)に利用される音響解析装置(以下「特徴比較装置」という)は、特徴比較部26を具備するとともに信号解析部22を省略した構成である。特徴抽出装置の信号解析部22が生成した音色特徴量F(F1,F2)は、例えば通信網や可搬型の記録媒体を介して、特徴比較装置に提供されて記憶装置14に格納される。特徴比較装置の特徴比較部26は、記憶装置14に記憶された音色特徴量F1および音色特徴量F2の比較で類否指標値Qを算定する。
100……音響解析装置、12……演算処理装置、14……記憶装置、16……表示装置、22……信号解析部、24……表示制御部、26……特徴比較部、32……成分取得部、322……周波数分析部、324……行列生成部、34……差分生成部、36……特徴量抽出部、42……移相行列生成部、44……差分算定部、46……加重値生成部、48……補正部。

Claims (4)

  1. 音響信号を時間軸上で区分した各単位期間における単位帯域毎の成分値を時間軸方向および周波数軸方向に配列した成分行列を取得する成分取得手段と、
    前記成分行列と当該成分行列を時間軸方向に移相した移相行列との各成分値の差異に応じた要素値で構成される差分行列を、前記成分行列に対する移相量を相違させた複数の移相行列の各々について生成する差分生成手段と、
    前記差分行列のうち時間軸方向に配列する複数の要素値に応じた特徴値を単位帯域毎に配列した特徴値系列を前記差分行列毎に含む音色特徴量を生成する特徴量抽出手段と
    を具備する音響解析装置。
  2. 前記差分生成手段は、
    前記成分行列のうち周波数軸方向に配列する複数の成分値に応じた加重値を単位期間毎に配列した加重値系列を生成する加重値生成手段と、
    前記成分行列と前記移相行列との各成分値の差分値で構成される初期差分行列を生成する差分算定手段と、
    前記初期差分行列に前記加重値系列を作用させて前記差分行列を生成する補正手段と
    を含む請求項1の音響解析装置。
  3. 前記特徴量抽出手段は、前記成分行列のうち時間軸方向に配列する複数の成分値に応じた特徴値を単位帯域毎に配列した特徴値系列を含む前記音色特徴量を生成する
    請求項1または請求項2の音響解析装置。
  4. 音響信号を時間軸上で区分した各単位期間における単位帯域毎の成分値を時間軸方向および周波数軸方向に配列した成分行列と、当該成分行列を時間軸方向に移相した移相行列との各成分値の差異に応じた要素値で構成される差分行列のうち、時間軸方向に配列する複数の要素値に応じた特徴値を単位帯域毎に配列した特徴値系列を、前記成分行列に対する移相量を相違させた複数の移相行列の各々について含む音色特徴量を、第1音響信号および第2音響信号の各々について記憶する記憶手段と、
    前記第1音響信号と前記第2音響信号との前記音色特徴量を比較することで、前記第1音響信号と前記第2音響信号との音色の類否を示す類否指標値を算定する特徴比較手段と
    を具備する音響解析装置。
JP2010088354A 2010-04-07 2010-04-07 音響解析装置 Expired - Fee Related JP5454317B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010088354A JP5454317B2 (ja) 2010-04-07 2010-04-07 音響解析装置
US13/081,408 US8853516B2 (en) 2010-04-07 2011-04-06 Audio analysis apparatus
EP11161259.4A EP2375406B1 (en) 2010-04-07 2011-04-06 Audio analysis apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010088354A JP5454317B2 (ja) 2010-04-07 2010-04-07 音響解析装置

Publications (2)

Publication Number Publication Date
JP2011221157A JP2011221157A (ja) 2011-11-04
JP5454317B2 true JP5454317B2 (ja) 2014-03-26

Family

ID=44303303

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010088354A Expired - Fee Related JP5454317B2 (ja) 2010-04-07 2010-04-07 音響解析装置

Country Status (3)

Country Link
US (1) US8853516B2 (ja)
EP (1) EP2375406B1 (ja)
JP (1) JP5454317B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102422531B (zh) * 2009-06-29 2014-09-03 三菱电机株式会社 音频信号处理装置
JP5454317B2 (ja) * 2010-04-07 2014-03-26 ヤマハ株式会社 音響解析装置
JP5477357B2 (ja) * 2010-11-09 2014-04-23 株式会社デンソー 音場可視化システム
US9313593B2 (en) * 2010-12-30 2016-04-12 Dolby Laboratories Licensing Corporation Ranking representative segments in media data
JP5582123B2 (ja) 2011-10-05 2014-09-03 三菱電機株式会社 半導体装置
JP5935503B2 (ja) * 2012-05-18 2016-06-15 ヤマハ株式会社 楽曲解析装置および楽曲解析方法
US8927846B2 (en) * 2013-03-15 2015-01-06 Exomens System and method for analysis and creation of music
US10133537B2 (en) * 2014-09-25 2018-11-20 Honeywell International Inc. Method of integrating a home entertainment system with life style systems which include searching and playing music using voice commands based upon humming or singing
US9705857B1 (en) * 2014-10-10 2017-07-11 Sprint Spectrum L.P. Securely outputting a security key stored in a UE
US9681230B2 (en) 2014-10-17 2017-06-13 Yamaha Corporation Acoustic system, output device, and acoustic system control method
KR102697424B1 (ko) 2016-11-07 2024-08-21 삼성전자주식회사 대표 파형 제공 장치 및 방법
US10504504B1 (en) * 2018-12-07 2019-12-10 Vocalid, Inc. Image-based approaches to classifying audio data
US11170043B2 (en) * 2019-04-08 2021-11-09 Deluxe One Llc Method for providing visualization of progress during media search
CN111292763B (zh) * 2020-05-11 2020-08-18 新东方教育科技集团有限公司 重音检测方法及装置、非瞬时性存储介质
CN112885374A (zh) * 2021-01-27 2021-06-01 吴怡然 一种基于频谱分析的声音音准判断方法及系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6430533B1 (en) * 1996-05-03 2002-08-06 Lsi Logic Corporation Audio decoder core MPEG-1/MPEG-2/AC-3 functional algorithm partitioning and implementation
DE60041118D1 (de) 2000-04-06 2009-01-29 Sony France Sa Extraktor von Rythmuseigenschaften
US20030205124A1 (en) 2002-05-01 2003-11-06 Foote Jonathan T. Method and system for retrieving and sequencing music by rhythmic similarity
AU2003275618A1 (en) 2002-10-24 2004-05-13 Japan Science And Technology Agency Musical composition reproduction method and device, and method for detecting a representative motif section in musical composition data
US6873596B2 (en) * 2003-05-13 2005-03-29 Nokia Corporation Fourier-transform based linear equalization for CDMA downlink
KR100530377B1 (ko) * 2003-12-30 2005-11-22 삼성전자주식회사 엠펙 오디오 디코더의 합성필터 및 그 디코딩 방법
JP4483561B2 (ja) * 2004-12-10 2010-06-16 日本ビクター株式会社 音響信号分析装置、音響信号分析方法及び音響信号分析プログラム
US7812241B2 (en) * 2006-09-27 2010-10-12 The Trustees Of Columbia University In The City Of New York Methods and systems for identifying similar songs
US7659471B2 (en) * 2007-03-28 2010-02-09 Nokia Corporation System and method for music data repetition functionality
US20080300702A1 (en) * 2007-05-29 2008-12-04 Universitat Pompeu Fabra Music similarity systems and methods using descriptors
US8208643B2 (en) * 2007-06-29 2012-06-26 Tong Zhang Generating music thumbnails and identifying related song structure
JP4973537B2 (ja) * 2008-02-19 2012-07-11 ヤマハ株式会社 音響処理装置およびプログラム
JP2010054802A (ja) * 2008-08-28 2010-03-11 Univ Of Tokyo 音楽音響信号からの単位リズムパターン抽出法、該方法を用いた楽曲構造の推定法、及び、音楽音響信号中の打楽器パターンの置換法
US20120237041A1 (en) * 2009-07-24 2012-09-20 Johannes Kepler Universität Linz Method And An Apparatus For Deriving Information From An Audio Track And Determining Similarity Between Audio Tracks
US8542945B1 (en) * 2009-11-15 2013-09-24 Lester F. Ludwig Correction of mis-focus in recorded images using centered discrete fractional fourier transformations with high-accuracy orthonormal eigenvectors
JP5454317B2 (ja) * 2010-04-07 2014-03-26 ヤマハ株式会社 音響解析装置
US9313593B2 (en) * 2010-12-30 2016-04-12 Dolby Laboratories Licensing Corporation Ranking representative segments in media data

Also Published As

Publication number Publication date
EP2375406B1 (en) 2014-07-16
JP2011221157A (ja) 2011-11-04
US8853516B2 (en) 2014-10-07
US20110268284A1 (en) 2011-11-03
EP2375406A1 (en) 2011-10-12

Similar Documents

Publication Publication Date Title
JP5454317B2 (ja) 音響解析装置
JP5560861B2 (ja) 楽曲解析装置
JP6019858B2 (ja) 楽曲解析装置および楽曲解析方法
JP5088030B2 (ja) 演奏音の類似度を評価する方法、装置およびプログラム
US9257111B2 (en) Music analysis apparatus
US7411125B2 (en) Chord estimation apparatus and method
JP6197569B2 (ja) 音響解析装置
CN107210029A (zh) 用于处理一连串信号以进行复调音符辨识的方法和装置
JP4815436B2 (ja) 可変分解能により情報信号をスペクトル表現に変換する装置および方法
JP2013164584A (ja) 音響処理装置
JP6281211B2 (ja) 音響信号のアライメント装置、アライメント方法及びコンピュータプログラム
JP7120468B2 (ja) 音響解析方法、音響解析装置およびプログラム
CN110959172B (zh) 演奏解析方法、演奏解析装置以及存储介质
JP2012027196A (ja) 信号分析装置、方法、及びプログラム
JP2015200685A (ja) アタック位置検出プログラムおよびアタック位置検出装置
JP2014134688A (ja) 音響解析装置
JP7318253B2 (ja) 楽曲解析方法、楽曲解析装置およびプログラム
JP5879813B2 (ja) 複数音源の識別装置および複数音源に連動する情報処理装置
CN108780634B (zh) 声音信号处理方法及声音信号处理装置
Hjerrild et al. Physical models for fast estimation of guitar string, fret and plucking position
Trail et al. Direct and surrogate sensing for the Gyil african xylophone.
JP2017058596A (ja) 自動アレンジ装置及びプログラム
Fan et al. The realization of multifunctional guitar effectors&synthesizer based on ADSP-BF533
EP2043089B1 (en) Method and device for humanizing music sequences
EP3929913A1 (en) Sound signal synthesis method, generative model training method, sound signal synthesis system, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131223

R150 Certificate of patent or registration of utility model

Ref document number: 5454317

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees