JP6281211B2 - Acoustic signal alignment apparatus, alignment method, and computer program - Google Patents
Acoustic signal alignment apparatus, alignment method, and computer program Download PDFInfo
- Publication number
- JP6281211B2 JP6281211B2 JP2013176659A JP2013176659A JP6281211B2 JP 6281211 B2 JP6281211 B2 JP 6281211B2 JP 2013176659 A JP2013176659 A JP 2013176659A JP 2013176659 A JP2013176659 A JP 2013176659A JP 6281211 B2 JP6281211 B2 JP 6281211B2
- Authority
- JP
- Japan
- Prior art keywords
- performance
- spectrum
- spectra
- evaluation value
- alignment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Auxiliary Devices For Music (AREA)
Description
本発明は、楽曲を構成する複数の演奏パートを演奏した第1の演奏、及び前記複数の演奏パートのうちの一部のパートを演奏した第2の演奏をそれぞれ表わす音響信号をそれぞれ記録した第1及び第2の音響データを分析して、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント装置に関する。なお、以下の説明において、複数の演奏をそれぞれ構成する各楽音の発音タイミングの対応関係を単にアライメントと呼ぶ。 In the present invention, a first performance in which a plurality of performance parts constituting a musical piece are played, and an acoustic signal each representing a second performance in which a part of the plurality of performance parts is played are recorded. The present invention relates to an alignment apparatus that analyzes the first and second acoustic data and associates the tone generation timings of the musical sounds constituting the first and second performances, respectively. In the following description, the correspondence relationship between the sound generation timings of the respective musical sounds constituting the plurality of performances is simply referred to as alignment.
従来から、例えば、下記非特許文献1及び2に示されているように、音響信号のアライメント装置は知られている。非特許文献1に記載のアライメント装置では、まず、分析対象の楽曲の楽譜を表わす楽譜データ(例えば、Standard MIDI File)を構成する各発音情報(例えば、ノートオンデータ及びノートオフデータ)と、分析対象の第1の演奏及び第2の演奏をそれぞれ構成する各楽音とを対応づける。そして、楽譜データの発音情報と第1の演奏の各楽音との対応情報、及び楽譜データの発音情報と第2の演奏の各楽音との対応情報を用いて、第1の演奏と第2の演奏のアライメントを計算している。
Conventionally, for example, as shown in
また、非特許文献2に記載のアライメント装置では、動的時間伸縮法(Dynamic Time Warping)を用いて第1の演奏と第2の演奏のアライメントを計算している。 In the alignment apparatus described in Non-Patent Document 2, the alignment between the first performance and the second performance is calculated using a dynamic time warping method.
上記非特許文献1のアライメント装置によれば、分析対象の楽曲を表わす楽譜データが必要である。したがって、楽譜データが存在しない楽曲のアライメントを計算することができない。また、分析の第1段階として、楽譜データを構成する発音情報と分析対象の第1の演奏及び第2の演奏を構成する各楽音とが対応づけられる。そして、分析の第2段階において、前記第1段階の分析結果を用いて、第1の演奏と第2の演奏のアライメントが計算される。そのため、各分析段階の誤差が蓄積することによって分析精度が低下する虞がある。
According to the alignment apparatus of Non-Patent
また、上記非特許文献2のアライメント装置では、第1の演奏と第2の演奏の差(距離)を計算する際、対称性を有する距離尺度(例えば、ユークリッド距離)を用いている。これによれば、第1の演奏に含まれる演奏パート数と第2の演奏に含まれる演奏パート数がほぼ同じである場合には、両演奏を音響信号として評価したときの両者の差(距離)が小さいので、良好な分析結果が得られる。しかし、例えば所定の交響曲の全演奏パートの演奏と、前記全演奏パートのうちの一部の演奏パートのみの演奏とのアライメントを上記非特許文献2のアライメント装置を用いて計算した場合、各演奏を音響信号としてそれぞれ評価したときの両者の差(距離)が大きいので、アライメントを精度良く計算できない。 In the alignment apparatus of Non-Patent Document 2, a distance measure (for example, Euclidean distance) having symmetry is used when calculating the difference (distance) between the first performance and the second performance. According to this, when the number of performance parts included in the first performance is substantially the same as the number of performance parts included in the second performance, the difference (distance) between the performances when both performances are evaluated as acoustic signals. ) Is small, a good analysis result can be obtained. However, for example, when the alignment of the performance of all the performance parts of a predetermined symphony and the performance of only a part of the performance parts is calculated using the alignment apparatus of Non-Patent Document 2, each performance Since the difference (distance) between them is large when each is evaluated as an acoustic signal, alignment cannot be calculated with high accuracy.
また、第1の演奏及び第2の演奏において共通する演奏パートの楽音の音高(チューニング)がずれている場合には、両者の距離が大きいと判断され、アライメントを精度良く計算できない。 In addition, when the pitches of the musical sounds of the performance parts common to the first performance and the second performance are shifted, it is determined that the distance between the two is large, and the alignment cannot be calculated with high accuracy.
本発明は上記問題に対処するためになされたもので、その目的は、楽譜データを用いることなく複数の演奏のアライメントを計算可能なアライメント装置、アライメント方法及びコンピュータプログラムであって、前記複数の演奏を音響信号として評価したときの差が大きくても高精度にアライメントを計算できるアライメント装置、アライメント方法及びコンピュータプログラムを提供することにある。なお、下記本発明の各構成要件の記載においては、本発明の理解を容易にするために、実施形態の対応箇所の符号を括弧内に記載しているが、本発明の各構成要件は、実施形態の符号によって示された対応箇所の構成に限定解釈されるべきものではない。
The present invention has been made to address the above problems, and an object of the present invention is an alignment apparatus , an alignment method, and a computer program capable of calculating the alignment of a plurality of performances without using musical score data. The present invention provides an alignment apparatus , an alignment method, and a computer program capable of calculating alignment with high accuracy even when a difference when the signal is evaluated as an acoustic signal is large. In addition, in the description of each constituent element of the present invention below, in order to facilitate understanding of the present invention, reference numerals of corresponding portions of the embodiment are described in parentheses, but each constituent element of the present invention is The present invention should not be construed as being limited to the configurations of the corresponding portions indicated by the reference numerals of the embodiments.
上記目的を達成するために、本発明の特徴は、楽曲を構成する複数の演奏パートを演奏した第1の演奏、及び前記複数の演奏パートのうちの一部の演奏パートを演奏した第2の演奏をそれぞれ表わす音響信号をそれぞれ記録した第1及び第2の音響データ(d1、d2)を分析して、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント装置(10、20)であって、前記第2の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトル(Xp(tp))と前記第1の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトル(Xm(tm))とからなる一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有するとき第1の重みが付され、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルに包含されるとき前記第1の重みよりも小さな第2の重みが付されるように設定された尺度を用いて前記一組のスペクトルの類似性に関する評価値(Dtp,tm、Ltp,tm)を計算する評価値計算手段(S12、S22)と、前記類似性に関する評価値を用いて前記一組のスペクトルの系列の評価値を計算するとともに、前記一組のスペクトルの系列の評価値が所定の基準を満たす前記一組のスペクトルの系列を推定することにより、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント計算手段(13、23)と、を備えたアライメント装置としたことにある。なお、上記の「各楽音の発音タイミングを対応付ける」とは、前記第1及び第2の音響データを用いて前記第1及び第2の演奏を同時に再生する際に前記第1及び第2の演奏を同期させることができるように、各楽音の発音タイミングを対応付けることを意味する。 In order to achieve the above object, the present invention is characterized by a first performance in which a plurality of performance parts constituting a musical piece are played, and a second performance in which a part of the plurality of performance parts is played. An alignment device (1) that analyzes first and second acoustic data (d1, d2) each recording an acoustic signal that represents a performance, and associates the sound generation timing of each musical sound that constitutes the first and second performances ( 10, 20), one spectrum (Xp (tp)) of a plurality of spectra constituting the spectrogram of the second performance and a plurality of spectra constituting the spectrogram of the first performance A frequency component in which the spectrum of the second performance of the set of spectra including one spectrum (Xm (tm)) exceeds the spectrum of the first performance is obtained. A first weight is assigned, and a second performance spectrum of the set of spectra is included in the first performance spectrum when a second weight smaller than the first weight is assigned. Evaluation value calculation means (S12, S22) for calculating evaluation values (D tp, tm , L tp, tm ) related to the similarity of the set of spectra using a scale set to be performed, and the similarity Calculating the evaluation value of the set of spectrum series using the evaluation value for the set of spectrums, and estimating the set of spectrum series satisfying a predetermined criterion by the evaluation value of the set of spectrum series, The alignment apparatus includes alignment calculation means (13, 23) for associating the sound generation timings of the respective musical sounds constituting the first and second performances. Note that “corresponding to the sound generation timing of each musical tone” means that the first and second performances are reproduced when the first and second performances are simultaneously reproduced using the first and second acoustic data. This means that the sound generation timings of the musical sounds are associated with each other so that they can be synchronized.
この場合、前記一組のスペクトルの類似性に関する評価値は、前記一組のスペクトルの距離(Dtp,tm)であり、前記尺度は、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有するとき、前記第1の演奏のスペクトルから見た前記第2の演奏のスペクトルの距離が、前記第2の演奏のスペクトルから見た前記第1の演奏のスペクトルの距離よりも大きくなり、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルに包含されるとき、前記第1の演奏のスペクトルから見た前記第2の演奏のスペクトルの距離が、前記第2の演奏のスペクトルから見た前記第1の演奏のスペクトルの距離よりも小さくなる非対称の距離尺度であり、前記一組のスペクトルの系列の評価値は、前記距離の総和であるとよい。なお、前記距離に単純増加関数(例えば指数関数)を適用し、前記距離の累積値を前記一組のスペクトルの系列の評価値とする場合も実質的には前記距離の総和を前記一組のスペクトルの系列の評価値とすることと同じである。したがって、上記の場合も本発明に含まれるものとする。 In this case, the evaluation value related to the similarity of the set of spectra is a distance (D tp, tm ) of the set of spectra, and the scale is a spectrum of a second performance of the set of spectra. Has a frequency component exceeding the spectrum of the first performance, the distance of the spectrum of the second performance viewed from the spectrum of the first performance is the first distance viewed from the spectrum of the second performance. When the spectrum of the performance is larger than the distance of the performance spectrum and the spectrum of the second performance of the set of spectra is included in the spectrum of the first performance, the second spectrum viewed from the spectrum of the first performance Is a non-symmetrical distance measure in which the spectrum distance of the performance is smaller than the spectrum distance of the first performance viewed from the spectrum of the second performance, Evaluation value of the sequence, may is the sum of said distance. Note that when a simple increase function (for example, an exponential function) is applied to the distance and the cumulative value of the distance is used as an evaluation value of the set of spectrum series, the total sum of the distances is substantially calculated. This is the same as the evaluation value of the spectrum series. Therefore, the above case is also included in the present invention.
また、この場合、前記一組のスペクトルの類似性に関する評価値は、前記尺度に対応する確率分布における前記第2の演奏のスペクトルの観測尤度(Ltp,tm)であり、前記一組のスペクトルの系列の評価値は、前記第1の演奏のスペクトルと前記第2の演奏のスペクトルの組み合わせによって分類された状態の系列として記述された確率モデル(HMM)の尤度であってもよい。 In this case, the evaluation value related to the similarity of the set of spectra is the observation likelihood (L tp, tm ) of the spectrum of the second performance in the probability distribution corresponding to the scale, and The evaluation value of the spectrum series may be a likelihood model (HMM) likelihood described as a series of states classified by a combination of the spectrum of the first performance and the spectrum of the second performance.
これによれば、第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有する場合には、第1の重みを付して類似性の評価値が計算される。一方、第2の演奏のスペクトルが第1の演奏のスペクトルに包含される場合、第1の重みよりも小さな第2の重みを付して類似性の評価値が計算される。これにより、第1の演奏と第2の演奏の包含関係をより的確に評価できる。すなわち、厳密に対称な尺度(つまり第1の重みと第2の重みが同じである尺度)を用いて前記一組のスペクトルの類似性に関する評価値を計算する場合に比べて、前記評価値をより的確に計算することができる。よって、第2の演奏が第1の演奏の部分集合であって、両者が音響信号としては大きく乖離している場合であっても、第1の演奏と第2の演奏とのアライメントをより精度良く計算できる。 According to this, when the spectrum of the second performance has a frequency component exceeding the spectrum of the first performance, the evaluation value of similarity is calculated by assigning the first weight. On the other hand, when the spectrum of the second performance is included in the spectrum of the first performance, the evaluation value of similarity is calculated with a second weight smaller than the first weight. Thereby, the inclusion relationship between the first performance and the second performance can be more accurately evaluated. That is, compared with the case where the evaluation value regarding the similarity of the set of spectra is calculated using a strictly symmetric scale (that is, a scale in which the first weight and the second weight are the same), the evaluation value is It can be calculated more accurately. Therefore, even when the second performance is a subset of the first performance and the two performances are largely separated as acoustic signals, the alignment of the first performance and the second performance is more accurate. Can be calculated well.
また、本発明の他の特徴は、評価値計算手段は、前記一組のスペクトルのうちの第1の演奏のスペクトル及び第2の演奏のスペクトルのうちの一方の各周波数成分を他方の各周波数成分に対して相対的に周波数軸方向にシフトさせるピッチシフト手段と、前記各周波数成分のシフト量に応じた評価値を前記一組のスペクトルの類似性に関する評価値に加算する加算手段と、をさらに備えたことにある。なお、前記類似性に関する評価値に指数関数を適用した場合、前記各周波数成分のシフト量に応じた評価値が前記一組のスペクトルの類似性に関する評価値に積算される。この場合も実質的には前記各周波数成分のシフト量に応じた評価値が前記一組のスペクトルの類似性に関する評価値に加算されたものとみなす。 Another feature of the present invention is that the evaluation value calculating means converts one frequency component of the first performance spectrum and the second performance spectrum of the set of spectra to the other frequency. Pitch shift means for shifting relative to the component in the frequency axis direction, and addition means for adding an evaluation value corresponding to the shift amount of each frequency component to the evaluation value related to the similarity of the set of spectra. In addition to that. When an exponential function is applied to the evaluation value related to the similarity, the evaluation value corresponding to the shift amount of each frequency component is integrated into the evaluation value related to the similarity of the set of spectra. Also in this case, it is considered that an evaluation value corresponding to the shift amount of each frequency component is substantially added to an evaluation value related to the similarity of the set of spectra.
これによれば、第1の演奏のピッチと第2の演奏をピッチとが相対的にシフトされるとともにそのシフト量に応じたコストとしての距離が両スペクトルの距離として加算される。これにより、第1の演奏に対して第2の演奏のピッチが多少ずれていたとしても、第1の演奏と第2の演奏とのアライメントを精度良く計算できる。 According to this, the pitch of the first performance and the pitch of the second performance are relatively shifted, and the distance as the cost corresponding to the shift amount is added as the distance between both spectra. Thereby, even if the pitch of the second performance is slightly deviated from the first performance, the alignment between the first performance and the second performance can be calculated with high accuracy.
(第1実施形態)
本発明の第1実施形態に係るアライメント装置10について説明する。アライメント装置10は、以下説明するように、楽曲の演奏をそれぞれ表わす2つの音響データd1及び音響データd2を用いて各演奏を再生する際にそれらを同期させることができるように、各演奏を構成する各楽音の再生タイミングを対応づける。なお、音響データd1,d2は同一の楽譜に記載された1つ又は複数の演奏パートを演奏することにより発生された音をそれぞれ表わす音響信号をディジタルデータとしてそれぞれ記録したものである。音響データd1は前記楽曲の全演奏パートの演奏(以下第1の演奏と呼ぶ)を含み、音響データd2は、前記全演奏パートのうちの一部の演奏パートの演奏(以下第2の演奏と呼ぶ)のみを含む(図1参照)。図1の例では、分析対象とする音響データd1は、所定の楽曲の全演奏パートを演奏して発生された音響信号を記録したデータである。一方、音響データd2は、前記所定の楽曲のバイオリンの演奏パートのみを演奏して発生された音響信号を記録したデータである。
(First embodiment)
An alignment apparatus 10 according to a first embodiment of the present invention will be described. As will be described below, the alignment apparatus 10 configures each performance so that the two acoustic data d1 and acoustic data d2 representing the performance of the music can be synchronized when the performances are reproduced. Associate the playback timing of each musical sound. The acoustic data d1 and d2 are recorded as digital data of acoustic signals respectively representing sounds generated by playing one or more performance parts described in the same score. The acoustic data d1 includes performances of all the performance parts of the music (hereinafter referred to as the first performance), and the acoustic data d2 includes performances of some of the performance parts (hereinafter referred to as the second performance). (Refer to FIG. 1). In the example of FIG. 1, the acoustic data d1 to be analyzed is data in which acoustic signals generated by playing all performance parts of a predetermined music are recorded. On the other hand, the acoustic data d2 is data in which an acoustic signal generated by playing only the violin performance part of the predetermined music is recorded.
アライメント装置10は、図2に示すように、入力操作子11、コンピュータ部12、表示器13、記憶装置14、外部インターフェース回路15及びサウンドシステム16を備えており、これらがバスBSを介して接続されている。
As shown in FIG. 2, the alignment apparatus 10 includes an
入力操作子11は、オン・オフ操作に対応したスイッチ(例えば数値を入力するためのテンキー)、回転操作に対応したボリューム又はロータリーエンコーダ、スライド操作に対応したボリューム又はリニアエンコーダ、マウス、タッチパネルなどから構成される。これらの操作子は、演奏者の手によって操作されて、分析対象の音響データの選択、音響データの分析開始又は停止、選択した音響データを用いた演奏の再生又は停止(後述するサウンドシステム16からの出力又は停止)、音響信号の分析に関する各種パラメータの設定などに用いられる。入力操作子11を操作すると、その操作内容を表す操作情報が、バスBSを介して、後述するコンピュータ部12に供給される。
The
コンピュータ部12は、バスBSにそれぞれ接続されたCPU12a、ROM12b及びRAM12cからなる。CPU12aは、後述するアライメントの計算手順を表わしたプログラムをROM12bから読み出して実行する。ROM12bには、前記プログラムに加えて、初期設定パラメータ、表示器13に表示される画像を表わす表示データを生成するための図形データ及び文字データなどの各種データが記憶されている。RAM12cには、前記プログラムの実行時に必要なデータが一時的に記憶される。
The
表示器13は、液晶ディスプレイ(LCD)によって構成される。コンピュータ部12は、図形データ、文字データなどを用いて表示すべき内容を表わす表示データを生成して表示器13に供給する。表示器13は、コンピュータ部12から供給された表示データに基づいて画像を表示する。例えば分析対象の音響データを選択する際には、選択可能な音響データのリストが表示器13に表示される。
The
また、記憶装置14は、HDD、FDD、CD、DVDなどの大容量の不揮発性記録媒体と、同各記録媒体に対応するドライブユニットから構成されている。記憶装置14には、音響データd1,d2が記憶されている。音響データd1,d2は、前記所定の楽曲の演奏を所定のサンプリング周期(例えば1/44100sec)でサンプリングして得られた複数のサンプル値からそれぞれなり、各サンプル値が記憶装置14における連続するアドレスに順に記録されている。各音響データd1,d2には、データを識別するためのタイトル情報、容量を表わすデータサイズ情報なども含まれている。音響データd1,d2は予め記憶装置14に記憶されていてもよいし、後述する外部インターフェース回路15を介して外部から取り込んでもよい。
The
外部インターフェース回路15は、アライメント装置10を電子音楽装置、パーソナルコンピュータなどの外部機器に接続可能とする接続端子を備えている。アライメント装置10は、外部インターフェース回路15を介して、LAN(Local Area Network)、インターネットなどの通信ネットワークにも接続可能である。 The external interface circuit 15 includes a connection terminal that enables the alignment device 10 to be connected to an external device such as an electronic music device or a personal computer. The alignment apparatus 10 can be connected to a communication network such as a LAN (Local Area Network) or the Internet via the external interface circuit 15.
サウンドシステム16は、音響データd1,d2をアナログ音信号に変換するD/A変換器、変換したアナログ音信号を増幅するアンプ、及び増幅されたアナログ音信号を音響信号に変換して出力する左右一対のスピーカを備えている。音響データd1又は音響データd2を用いた演奏の再生するよう指示されると、CPU12aは、音響データd1又は音響データd2をサウンドシステム16に供給する。これにより、ユーザは分析対象の演奏を試聴できる。
The
つぎに、上記のように構成したアライメント装置10の動作(アライメントの計算手順)について説明する。本実施形態では、まず、図3に示すように、ステップS10にてアライメントの計算処理が開始される。次に、ステップS11にて、音響データd1及び音響データd2を用いて、それぞれの音響信号のスペクトログラムが計算される。以下の説明において、各音響信号における時刻(又はフレームの番号)を時刻tm(=1,2,・・・・,TM)及び時刻tp(=1,2,・・・・,TP)と記載する。音響データd1で表される音響信号のスペクトログラムを構成するスペクトルXm(tm)の系列と、音響データd2で表される音響信号のスペクトログラムを構成するスペクトルXp(tp)の系列との対応づけが、動的時間伸縮法を用いて計算される。図4に示すように、第1の演奏及び第2の演奏のそれぞれの時間軸を座標軸とする平面において、時刻tpと時刻tmとの対応関係は、前記平面上の格子点ctp,tmの系列として表現される。 Next, the operation (alignment calculation procedure) of the alignment apparatus 10 configured as described above will be described. In the present embodiment, first, as shown in FIG. 3, an alignment calculation process is started in step S10. Next, in step S11, the spectrogram of each acoustic signal is calculated using the acoustic data d1 and the acoustic data d2. In the following description, the time (or frame number) in each acoustic signal is described as time tm (= 1, 2,..., TM) and time tp (= 1, 2,..., TP). To do. Correspondence between the sequence of the spectrum Xm (tm) constituting the spectrogram of the acoustic signal represented by the acoustic data d1 and the sequence of the spectrum Xp (tp) constituting the spectrogram of the acoustic signal represented by the acoustic data d2 Calculated using dynamic time stretching method. As shown in FIG. 4, on the plane with the time axis of each of the first performance and the second performance as coordinate axes, the correspondence between time tp and time tm is the relationship between the lattice points c tp and tm on the plane. Expressed as a series.
具体的には、ステップS12にて、スペクトルXp(tp)とスペクトルXm(tm)との距離Dtp,tmが、下記の式(1)に基づいて計算される。
なお、距離Dtp,tmが本発明の類似性に関する評価値に相当する。また、式(1)の第1項は、スペクトルXm(tm)から見たスペクトルXp(tp)の板倉斎藤距離に相当する。また、第1項における「Xp(f,tp)」は、スペクトルXp(tp)の周波数fにおける振幅(パワー)を表わす。また、「α」はピッチシフト量を表わす。つまり、「Xm(αf,tm)」はスペクトルXm(tm)を構成する各周波数成分の周波数fをα倍した(すなわちピッチシフトした)スペクトルの周波数αfにおける振幅(パワー)を表わす。また、式(1)の第2項は上記のピッチシフトに対するコストに相当する距離である。本実施形態では、前記ピッチシフトに対するコストに相当する距離は平均が「1」である対数正規分布に従うものとして定義される。 The distance D tp, tm corresponds to the evaluation value related to the similarity of the present invention. Further, the first term of the expression (1) corresponds to the Itakura Saito distance of the spectrum Xp (tp) viewed from the spectrum Xm (tm). Further, “Xp (f, tp)” in the first term represents the amplitude (power) at the frequency f of the spectrum Xp (tp). “Α” represents a pitch shift amount. That is, “Xm (αf, tm)” represents the amplitude (power) at the frequency αf of the spectrum obtained by multiplying the frequency f of each frequency component constituting the spectrum Xm (tm) by α (that is, pitch shifted). Further, the second term of the formula (1) is a distance corresponding to the cost for the above-described pitch shift. In the present embodiment, the distance corresponding to the cost for the pitch shift is defined as following a lognormal distribution whose average is “1”.
次に、ステップS13にて、上記の距離Dtp,tmの総和を最小にするような格子点ctp,tmの系列が、非特許文献2と同様の動的時間伸縮法を用いて計算される。上記のようにして、第1の演奏と第2の演奏のアライメント(つまり、時刻tpと時刻tmの組み合わせの系列)が計算され、ステップS14にてアライメント計算処理が終了する。 Next, in step S13, a series of lattice points c tp, tm that minimizes the sum of the distances D tp, tm is calculated using a dynamic time expansion / contraction method similar to that of Non-Patent Document 2. The As described above, the alignment of the first performance and the second performance (that is, a series of combinations of time tp and time tm) is calculated, and the alignment calculation process ends in step S14.
上記のように、第1の演奏は全パートの演奏であり、第2の演奏は一部のパートの演奏であるから、第2の演奏は第1の演奏の部分集合である。したがって、スペクトルXp(tm)がスペクトルXp(tp)との距離を計算するに際し、スペクトルXm(tm)がスペクトルXp(tp)に包含される場合(図5A)に用いる重みを、スペクトルXm(tm)がスペクトルXp(tp)を超える周波数成分(図5Bにおいて斜線を付した部分)を有する場合に用いる重みよりも小さくするとよい。アライメント装置10によれば、距離尺度として板倉斎藤距離を用いて、距離Dtp,tmが計算される。つまり、距離Dtp,tmを計算するに際し、第1の演奏のスペクトル及び第2の演奏のスペクトルの包含関係によって測定距離が異なるように、非対称の距離尺度を用いた。具体的には、第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有するとき、第1の演奏のスペクトルから見た第2の演奏のスペクトルの距離が、第2の演奏のスペクトルから見た第1の演奏のスペクトルの距離よりも大きくなるような重み(本発明の第1の重み)が付され、第2の演奏のスペクトルが第1の演奏のスペクトルに包含されるとき、第1の演奏のスペクトルから見た第2の演奏のスペクトルの距離が、第2の演奏のスペクトルから見た第1の演奏のスペクトルの距離よりも小さくなるような重み(本発明の第2の重み)が付されて距離Dtp,tmが計算される。したがって、厳密に対称な距離尺度を用いる場合に比べて、第1の演奏のスペクトルに対する第2の演奏のスペクトルの距離をより的確に表現することができる。よって、第2の演奏が第1の演奏の部分集合であって、両者が音響信号としては大きく乖離している場合であっても、第1の演奏と第2の演奏とのアライメントをより精度良く計算できる。 As described above, since the first performance is a performance of all parts and the second performance is a performance of some parts, the second performance is a subset of the first performance. Therefore, when calculating the distance between the spectrum Xp (tm) and the spectrum Xp (tp), the weight used when the spectrum Xm (tm) is included in the spectrum Xp (tp) (FIG. 5A) is used as the spectrum Xm (tm). ) May be smaller than the weight used when it has a frequency component exceeding the spectrum Xp (tp) (the hatched portion in FIG. 5B). According to the alignment apparatus 10, the distance D tp, tm is calculated using the Itakura Saito distance as a distance scale. In other words, when calculating the distances D tp, tm , an asymmetric distance scale was used so that the measurement distances differed depending on the inclusion relationship between the first performance spectrum and the second performance spectrum. Specifically, when the spectrum of the second performance has a frequency component exceeding the spectrum of the first performance, the distance of the spectrum of the second performance viewed from the spectrum of the first performance is the second performance spectrum. When a weight that is larger than the spectrum distance of the first performance viewed from the spectrum (the first weight of the present invention) is added, and the spectrum of the second performance is included in the spectrum of the first performance The weight of the spectrum of the second performance viewed from the spectrum of the first performance is smaller than the distance of the spectrum of the first performance viewed from the spectrum of the second performance (the second of the present invention). ) And a distance D tp, tm are calculated. Therefore, the distance of the spectrum of the second performance with respect to the spectrum of the first performance can be expressed more accurately than in the case of using a strictly symmetric distance scale. Therefore, even when the second performance is a subset of the first performance and the two performances are largely separated as acoustic signals, the alignment of the first performance and the second performance is more accurate. Can be calculated well.
また、上記第1実施形態では、第2の演奏をピッチシフトさせるとともにそのシフト量に応じたコストとしての距離を両スペクトルの距離に加算した。これにより、第1の演奏のピッチに対して第2の演奏のピッチ(チューニング)が多少ずれていたとしても、第1の演奏と第2の演奏とのアライメントを精度良く計算できる。 Moreover, in the said 1st Embodiment, the distance as a cost according to the shift amount was added to the distance of both spectra while the 2nd performance was pitch-shifted. Thereby, even if the pitch (tuning) of the second performance is slightly shifted from the pitch of the first performance, the alignment between the first performance and the second performance can be accurately calculated.
なお、上記第1実施形態のステップS13では、距離Dtp,tmの総和が最小となる格子点ctp,tmの系列が計算されているが、所定の基準値を満たすような格子点ctp,tmの系列が計算されても良い。例えば、格子点の遷移に対するコストを設定し、格子点の遷移に対するコストの総和と距離Dtp,tmの総和との合計が最小となる格子点ctp,tmの系列が計算されても良い。 In step S13 of the first embodiment , a series of lattice points c tp, tm that minimizes the sum of the distances D tp, tm is calculated, but the lattice points c tp satisfy a predetermined reference value. , Tm series may be calculated. For example, a cost for transition of lattice points may be set, and a series of lattice points c tp, tm that minimizes the sum of the sum of costs for the transition of lattice points and the sum of distances D tp, tm may be calculated.
また、上記第1実施形態では、距離Dtp,tmは式(1)に基づいて計算されるが、距離Dtp,tmは下記の式(2)に基づいて計算されても良い。なお、式(2)は、「α」に関する板倉斎藤距離の期待値を表わしている。
また、距離Dtp,tmは、式(1)に単調増加関数を適用した演算式に基づいて計算されてもよい。例えば、指数関数を適用した式(3)に基づいて計算されてもよい。
この場合、ステップS13では、距離Dtp,tmの累積が最小となる格子点cの系列が計算される。 In this case, in step S13, a series of lattice points c that minimizes the accumulation of the distances D tp and tm is calculated.
また、上記第1実施形態では、距離尺度として板倉斎藤距離を採用しているがこれに限られない。任意の値X及び非負の値aに関して次の式(4)が成立するような凸関数から生成されるBregmanダイバージェンスを距離尺度として採用すれば良い。例えば、一般化KLダイバージェンスを採用しても良い。
上記第1実施形態では、第1の演奏のピッチをシフト可能に構成されているが、第2の演奏のピッチに対する第1の演奏のピッチを相対的にシフト可能に構成されていればよい。すなわち、第1の演奏のピッチに代えて、又は加えて、第2の演奏のピッチをシフト可能に構成されていても良い。 In the first embodiment, the pitch of the first performance is configured to be shiftable. However, it is only necessary that the pitch of the first performance is relatively shiftable with respect to the pitch of the second performance. That is, instead of or in addition to the pitch of the first performance, the pitch of the second performance may be shiftable.
(第2実施形態)
次に、本発明の第2実施形態に係るアライメント装置20について説明する。アライメント装置20の構成は、アライメント装置10の構成と同様であるので、その説明を省略する。アライメント装置20の動作は、第1実施形態とは異なる。すなわち、第2実施形態では、実行されるプログラムが第1実施形態とは異なる。一般に、「X」から見た「Y」の板倉斎藤距離の最小化は、期待値が「X」である指数分布において「Y」を観測したときのYの最尤推定と等価であることが知られている。そこで、第2実施形態では、スペクトルXp(tp)が、スペクトルXm(tm)を平均とする指数分布に従うものとする。そして、スペクトルXp(tp)とスペクトルXm(tm)との組み合わせで分類された状態の系列(すなわち、時刻tpと時刻tmとの対応付けの系列)として表わされた隠れマルコフモデルHMMのうち、観測値としての時刻tmの系列に対する尤度が所定の基準を満たすモデルを選択することにより、アライメントを計算する。
(Second Embodiment)
Next, an alignment apparatus 20 according to a second embodiment of the present invention will be described. Since the configuration of the alignment apparatus 20 is the same as that of the alignment apparatus 10, the description thereof is omitted. The operation of the alignment apparatus 20 is different from that of the first embodiment. That is, in the second embodiment, the program to be executed is different from that in the first embodiment. In general, the Itakura Saito distance minimization of “Y” viewed from “X” may be equivalent to the maximum likelihood estimation of Y when “Y” is observed in an exponential distribution with an expected value of “X”. Are known. Therefore, in the second embodiment, it is assumed that the spectrum Xp (tp) follows an exponential distribution having the spectrum Xm (tm) as an average. Of the hidden Markov model HMM expressed as a series of states classified by a combination of the spectrum Xp (tp) and the spectrum Xm (tm) (that is, a series of correspondence between the time tp and the time tm), The alignment is calculated by selecting a model whose likelihood for the series of time tm as an observed value satisfies a predetermined criterion.
具体的には、図6に示すように、ステップS20にてアライメントの計算処理が開始される。次にステップS21にて、第1実施形態と同様に音響データd1及び音響データd2を用いて、それぞれの音響信号のスペクトログラムが計算される。そして、ステップS22にて、前記計算されたスペクトログラムを構成するスペクトルXm(tm)及びスペクトルXp(tp)を用いて、観測尤度Ltp,tmが次の式(5)に基づいて計算される。つまり、前記指数分布の確率変数としてスペクトルXp(tp)を代入して計算された値を観測尤度Ltp,tmとする。
なお、観測尤度Ltp,tmが本発明の類似性に関する評価値に相当する。また、本実施形態の隠れマルコフモデルHMMにおける各状態間の遷移確率は次のように設定されている。すなわち、状態遷移において時刻tpは必ず「1」だけ進むように設定されている。また、時刻tpが「1」だけ進んだとき時刻tmが「1」だけ進む確率を「u」(0<u<1)とし、時刻tpが「1」だけ進んだとき時刻tmが同じ時刻に留まる確率を「1−u」とする。その他の状態遷移の確率は「0」である。したがって、隠れマルコフモデルHMMにおける状態経路は図7のように表わされる。 Note that the observation likelihood L tp, tm corresponds to the evaluation value related to the similarity of the present invention. Further, the transition probabilities between the states in the hidden Markov model HMM of this embodiment are set as follows. That is, the time tp is always set to advance by “1” in the state transition. The probability that the time tm advances by “1” when the time tp advances by “1” is “u” (0 <u <1), and the time tm becomes the same time when the time tp advances by “1”. Let the probability of staying be “1-u”. The probability of other state transitions is “0”. Therefore, the state path in the hidden Markov model HMM is expressed as shown in FIG.
各隠れマルコフモデルHMMの尤度は、各経路上の状態における観測尤度Ltp,tmと各状態間の遷移確率の累積値として計算される。例えば、図7の太い実線で示される経路Rのモデルの尤度CRは、次の式(6)のように計算される。
次に、ステップS23にて、上記の経路のうちの最尤の経路(つまり、尤度CRが最大となるモデル)がビタビアルゴリズムを用いて計算される。なお、この場合、「L1,1=1」且つ「LTP,TM=1」とするとよい。上記のようにして、第1の演奏と第2の演奏のアライメント(つまり、時刻tpと時刻tmの組み合わせの系列)が計算され、ステップS24にてアライメント計算処理が終了する。 Next, in step S23, the maximum likelihood path among the paths (i.e., the model likelihood C R becomes maximum) is calculated using the Viterbi algorithm. In this case, it is preferable to set “L 1,1 = 1” and “L TP, TM = 1”. As described above, the alignment of the first performance and the second performance (that is, a series of combinations of time tp and time tm) is calculated, and the alignment calculation process ends in step S24.
本実施形態では、スペクトルXp(tp)が、スペクトルXm(tm)を平均とする指数分布(つまり、板倉斎藤距離に対応する分布)に従うものとして、スペクトルXp(tp)の観測尤度Ltp,tmを計算した。すなわち、スペクトルXm(tm)がスペクトルXp(tp)を超える周波数成分を有する場合には、第1の重みを付して観測尤度Ltp,tmが計算される。一方、スペクトルXm(tm)がスペクトルXp(tp)に包含される場合、第1の重みよりも小さな第2の重みを付して観測尤度Ltp,tmが計算される。これにより、厳密に対称な距離尺度に対応する分布を用いる場合に比べて、第1の演奏に対する第2の演奏の距離をより的確に表現することができる。よって、上記のように構成されたアライメント装置20によっても、第1実施形態の効果と同様の効果が得られる。すなわち、第2の演奏が第1の演奏の部分集合であって、両者が音響信号としては大きく乖離している場合であっても、第1の演奏と第2の演奏とのアライメントをより精度良く計算できる。 In the present embodiment, it is assumed that the spectrum Xp (tp) follows an exponential distribution that averages the spectrum Xm (tm) (that is, a distribution corresponding to the Itakura Saito distance), and the observation likelihood L tp, of the spectrum Xp (tp) tm was calculated. That is, when the spectrum Xm (tm) has a frequency component exceeding the spectrum Xp (tp), the observation likelihood L tp, tm is calculated with the first weight. On the other hand, when the spectrum Xm (tp) is included in the spectrum Xp (tp), the observation likelihood L tp, tm is calculated with a second weight smaller than the first weight. Thereby, the distance of the 2nd performance with respect to a 1st performance can be expressed more correctly compared with the case where the distribution corresponding to a strictly symmetrical distance scale is used. Therefore, the same effect as that of the first embodiment can be obtained by the alignment apparatus 20 configured as described above. In other words, even when the second performance is a subset of the first performance and the two performances are largely separated as acoustic signals, the alignment between the first performance and the second performance is more accurate. Can be calculated well.
なお、上記第2実施形態では第1実施形態とは異なり、第1の演奏と第2の演奏のピッチのずれが考慮されていない。しかし、第2実施形態においても、第1の演奏と第2の演奏のピッチのずれを考慮に入れるために、観測尤度Ltp,tmを下記の式(7)ように計算しても良い。
また、式(7)において、ピッチシフトに対するコストとしての尤度を減算してもよい。なお、式(7)では、第1の演奏のピッチをシフト可能に構成されているが、第2の演奏のピッチに対する第1の演奏のピッチを相対的にシフト可能に構成されていればよい。すなわち、第1の演奏のピッチに代えて、又は加えて、第2の演奏のピッチをシフト可能に構成されていても良い。 In Equation (7), the likelihood as the cost for the pitch shift may be subtracted. In Expression (7), the pitch of the first performance is configured to be shiftable. However, the pitch of the first performance may be relatively shiftable with respect to the pitch of the second performance. . That is, instead of or in addition to the pitch of the first performance, the pitch of the second performance may be shiftable.
また、上記第2実施形態のステップS23では、最尤の経路(つまり、尤度CRが最大となる経路)が計算されるが、所定の基準値を満たすような経路が計算されても良い。例えば、各時刻において尤度が最大である状態をそれぞれ選択してもよい。 Further, in the second embodiment the step S23, the path of maximum likelihood (that is, the likelihood C R is the path with the maximum), but is calculated, the path that satisfies a predetermined reference value may be calculated . For example, the state having the maximum likelihood at each time may be selected.
また、上記第2実施形態では、板倉斎藤距離に相当する指数分布を用いているがこれに限られず、Bregmanダイバージェンスに相当する分布であれば採用可能である。例えば、一般化KLダイバージェンスに対応するPoisson分布を採用しても良い。 In the second embodiment, an exponential distribution corresponding to the Itakura Saito distance is used. However, the present invention is not limited to this, and any distribution corresponding to Bregman divergence can be used. For example, a Poisson distribution corresponding to generalized KL divergence may be employed.
また、上記第2実施形態では、状態間の遷移確率を表わすために用いた「u」は定数であるが、これに限られない。例えば、「u」を確率変数とするベルヌーイ分布を事前分布としておき、状態系列の最大事後確率推定を実行すると観測値に対して適切な「u」が決定されるように構成しても良い。 In the second embodiment, “u” used to represent the transition probability between states is a constant, but is not limited thereto. For example, a Bernoulli distribution having “u” as a random variable may be set as a prior distribution, and an appropriate “u” may be determined for the observed value when the maximum posterior probability estimation of the state series is executed.
また、観測尤度Ltp,tmの対数をとって対数観測尤度とするとともに、状態間の遷移確率を対数遷移確率とすれば、経路Rの尤度CRは、経路R上の各状態の対数観測尤度と各状態間の対数遷移確率の総和として計算される。 Further, observation likelihood L tp, taking the logarithm of tm as well as the log observation likelihood, if the transition probabilities between states and log transition probabilities, likelihood C R of the path R, each state on the path R Is calculated as the sum of the logarithmic observation likelihood and the log transition probability between each state.
10,20・・・アライメント装置、12・・・コンピュータ部、d1,d2・・・音響データ、Ltp,tm・・・観測尤度、CR・・・尤度、Xp,Xm・・・スペクトル、R・・・経路、HMM・・・隠れマルコフモデル
10,20 ...
Claims (6)
前記第2の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトルと前記第1の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトルとからなる一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有するとき第1の重みが付され、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルに包含されるとき前記第1の重みよりも小さな第2の重みが付されるように設定された尺度を用いて前記一組のスペクトルの類似性に関する評価値を計算する評価値計算手段と、
前記類似性に関する評価値を用いて前記一組のスペクトルの系列の評価値を計算するとともに、前記一組のスペクトルの系列の評価値が所定の基準を満たす前記一組のスペクトルの系列を推定することにより、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント計算手段と、
を備えたことを特徴とするアライメント装置。 First and first recordings each recording an acoustic signal representing a first performance in which a plurality of performance parts constituting a musical piece are performed and a second performance in which a part of the plurality of performance parts are performed. An alignment device that analyzes the acoustic data of 2 and associates the sound generation timing of each musical sound that constitutes the first and second performances, respectively,
A first of a set of spectra comprising one spectrum of a plurality of spectra constituting the spectrogram of the second performance and one spectrum of a plurality of spectra constituting the spectrogram of the first performance. When the spectrum of the two performances has a frequency component exceeding the spectrum of the first performance, a first weight is assigned, and the spectrum of the second performance of the set of spectra is included in the spectrum of the first performance. Evaluation value calculation means for calculating an evaluation value related to the similarity of the set of spectra using a scale set so that a second weight smaller than the first weight is applied when
An evaluation value of the set of spectrum series is calculated using the evaluation value related to the similarity, and the set of spectrum series satisfying a predetermined criterion for the evaluation value of the set of spectrum series is estimated. By means of this, alignment calculation means for associating the sound generation timing of each musical sound constituting the first and second performances,
An alignment apparatus comprising:
前記評価値計算手段は、
前記一組のスペクトルのうちの第1の演奏のスペクトル及び第2の演奏のスペクトルのうちの一方の各周波数成分を他方の各周波数成分に対して相対的に周波数軸方向にシフトさせるピッチシフト手段と、
前記各周波数成分のシフト量に応じた評価値を前記一組のスペクトルの類似性に関する評価値に加算する加算手段と、をさらに備えたことを特徴とするアライメント装置。 The alignment apparatus according to claim 1,
The evaluation value calculation means includes
Pitch shifting means for shifting one frequency component of the first performance spectrum and the second performance spectrum of the set of spectra relative to the other frequency component in the frequency axis direction. When,
An alignment apparatus, further comprising: addition means for adding an evaluation value corresponding to the shift amount of each frequency component to an evaluation value relating to the similarity of the set of spectra.
前記一組のスペクトルの類似性に関する評価値は、前記一組のスペクトルの距離であり、
前記尺度は、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有するとき、前記第1の演奏のスペクトルから見た前記第2の演奏のスペクトルの距離が、前記第2の演奏のスペクトルから見た前記第1の演奏のスペクトルの距離よりも大きくなり、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルに包含されるとき、前記第1の演奏のスペクトルから見た前記第2の演奏のスペクトルの距離が、前記第2の演奏のスペクトルから見た前記第1の演奏のスペクトルの距離よりも小さくなる非対称の距離尺度であり、
前記一組のスペクトルの系列の評価値は、前記距離の総和であることを特徴とするアライメント装置。 The alignment apparatus according to claim 1 or 2,
The evaluation value related to the similarity of the set of spectra is a distance between the set of spectra,
The scale is a spectrum of the second performance viewed from the spectrum of the first performance when the spectrum of the second performance of the set of spectra has a frequency component exceeding the spectrum of the first performance. Is larger than the distance of the spectrum of the first performance viewed from the spectrum of the second performance, and the spectrum of the second performance of the set of spectra becomes the spectrum of the first performance. When included, the asymmetry of the second performance spectrum seen from the first performance spectrum is smaller than the first performance spectrum distance seen from the second performance spectrum. Is a distance scale of
The alignment apparatus, wherein the evaluation value of the set of spectrum series is a sum of the distances.
前記一組のスペクトルの類似性に関する評価値は、前記尺度に対応する確率分布における前記第2の演奏のスペクトルの観測尤度であり、
前記一組のスペクトルの系列の評価値は、前記第1の演奏のスペクトルと前記第2の演奏のスペクトルの組み合わせによって分類された状態の系列として記述された確率モデルの尤度であることを特徴とするアライメント装置。 The alignment apparatus according to claim 1 or 2,
The evaluation value related to the similarity of the set of spectra is an observation likelihood of the spectrum of the second performance in the probability distribution corresponding to the scale,
The evaluation value of the set of spectrum series is a likelihood of a probability model described as a series of states classified by a combination of the spectrum of the first performance and the spectrum of the second performance. An alignment device.
前記第2の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトルと前記第1の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトルとからなる一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有するとき第1の重みが付され、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルに包含されるとき前記第1の重みよりも小さな第2の重みが付されるように設定された尺度を用いて前記一組のスペクトルの類似性に関する評価値を計算する評価値計算ステップと、
前記類似性に関する評価値を用いて前記一組のスペクトルの系列の評価値を計算するとともに、前記一組のスペクトルの系列の評価値が所定の基準を満たす前記一組のスペクトルの系列を推定することにより、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント計算ステップと、
を含むことを特徴とするアライメント方法。 First and first recordings each recording an acoustic signal representing a first performance in which a plurality of performance parts constituting a musical piece are performed and a second performance in which a part of the plurality of performance parts are performed. 2 is an alignment method for analyzing the sound data of 2 and associating the sound generation timing of each musical sound constituting the first and second performances,
A first of a set of spectra comprising one spectrum of a plurality of spectra constituting the spectrogram of the second performance and one spectrum of a plurality of spectra constituting the spectrogram of the first performance. When the spectrum of the two performances has a frequency component exceeding the spectrum of the first performance, a first weight is assigned, and the spectrum of the second performance of the set of spectra is included in the spectrum of the first performance. An evaluation value calculating step of calculating an evaluation value related to similarity of the set of spectra using a scale set so as to be given a second weight smaller than the first weight,
An evaluation value of the set of spectrum series is calculated using the evaluation value related to the similarity, and the set of spectrum series satisfying a predetermined criterion for the evaluation value of the set of spectrum series is estimated. An alignment calculation step for associating the sound generation timings of the musical tones constituting the first and second performances,
An alignment method comprising:
前記第2の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトルと前記第1の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトルとからなる一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有するとき第1の重みが付され、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルに包含されるとき前記第1の重みよりも小さな第2の重みが付されるように設定された尺度を用いて前記一組のスペクトルの類似性に関する評価値を計算する評価値計算ステップと、
前記類似性に関する評価値を用いて前記一組のスペクトルの系列の評価値を計算するとともに、前記一組のスペクトルの系列の評価値が所定の基準を満たす前記一組のスペクトルの系列を推定することにより、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント計算ステップと、
を含む処理をコンピュータに実行させることを特徴とするコンピュータプログラム。 First and first recordings each recording an acoustic signal representing a first performance in which a plurality of performance parts constituting a musical piece are performed and a second performance in which a part of the plurality of performance parts are performed. 2 is a computer program that causes the computer to execute an alignment process that analyzes the acoustic data of 2 and associates the sound generation timings of the musical sounds that constitute the first and second performances, respectively.
A first of a set of spectra comprising one spectrum of a plurality of spectra constituting the spectrogram of the second performance and one spectrum of a plurality of spectra constituting the spectrogram of the first performance. When the spectrum of the two performances has a frequency component exceeding the spectrum of the first performance, a first weight is assigned, and the spectrum of the second performance of the set of spectra is included in the spectrum of the first performance. An evaluation value calculating step of calculating an evaluation value related to similarity of the set of spectra using a scale set so as to be given a second weight smaller than the first weight,
An evaluation value of the set of spectrum series is calculated using the evaluation value related to the similarity, and the set of spectrum series satisfying a predetermined criterion for the evaluation value of the set of spectrum series is estimated. An alignment calculation step for associating the sound generation timings of the musical tones constituting the first and second performances,
A computer program for causing a computer to execute a process including:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013176659A JP6281211B2 (en) | 2013-08-28 | 2013-08-28 | Acoustic signal alignment apparatus, alignment method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013176659A JP6281211B2 (en) | 2013-08-28 | 2013-08-28 | Acoustic signal alignment apparatus, alignment method, and computer program |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2015045731A JP2015045731A (en) | 2015-03-12 |
JP2015045731A5 JP2015045731A5 (en) | 2017-03-30 |
JP6281211B2 true JP6281211B2 (en) | 2018-02-21 |
Family
ID=52671292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013176659A Expired - Fee Related JP6281211B2 (en) | 2013-08-28 | 2013-08-28 | Acoustic signal alignment apparatus, alignment method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6281211B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109478398B (en) | 2016-07-22 | 2023-12-26 | 雅马哈株式会社 | Control method and control device |
JP7243026B2 (en) | 2018-03-23 | 2023-03-22 | ヤマハ株式会社 | Performance analysis method, performance analysis device and program |
JP6489261B2 (en) * | 2018-04-10 | 2019-03-27 | ヤマハ株式会社 | Acoustic analysis method and acoustic analysis apparatus |
CN113657184B (en) * | 2021-07-26 | 2023-11-07 | 广东科学技术职业学院 | Piano playing fingering evaluation method and device |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4323029B2 (en) * | 1999-10-21 | 2009-09-02 | ヤマハ株式会社 | Voice processing apparatus and karaoke apparatus |
JP4479701B2 (en) * | 2006-08-08 | 2010-06-09 | ヤマハ株式会社 | Music practice support device, dynamic time alignment module and program |
JP5088030B2 (en) * | 2007-07-26 | 2012-12-05 | ヤマハ株式会社 | Method, apparatus and program for evaluating similarity of performance sound |
JP5046211B2 (en) * | 2008-02-05 | 2012-10-10 | 独立行政法人産業技術総合研究所 | System and method for automatically associating music acoustic signal and lyrics with time |
-
2013
- 2013-08-28 JP JP2013176659A patent/JP6281211B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015045731A (en) | 2015-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6187132B2 (en) | Score alignment apparatus and score alignment program | |
JP4672613B2 (en) | Tempo detection device and computer program for tempo detection | |
JP4823804B2 (en) | Code name detection device and code name detection program | |
JP4322283B2 (en) | Performance determination device and program | |
JP4767691B2 (en) | Tempo detection device, code name detection device, and program | |
JP5088030B2 (en) | Method, apparatus and program for evaluating similarity of performance sound | |
JP4916947B2 (en) | Rhythm detection device and computer program for rhythm detection | |
WO2007010637A1 (en) | Tempo detector, chord name detector and program | |
JP6252147B2 (en) | Acoustic signal analysis apparatus and acoustic signal analysis program | |
JP6281211B2 (en) | Acoustic signal alignment apparatus, alignment method, and computer program | |
WO2021166531A1 (en) | Estimation model building method, playing analysis method, estimation model building device, and playing analysis device | |
JP6123574B2 (en) | Code extraction apparatus, method, and program | |
JP6295794B2 (en) | Acoustic signal analysis apparatus and acoustic signal analysis program | |
JP6296221B2 (en) | Acoustic signal alignment apparatus, alignment method, and computer program | |
JP5092589B2 (en) | Performance clock generating device, data reproducing device, performance clock generating method, data reproducing method and program | |
JP2007298607A (en) | Device, method, and program for analyzing sound signal | |
JP5678935B2 (en) | Musical instrument performance evaluation device, musical instrument performance evaluation system | |
JP6733487B2 (en) | Acoustic analysis method and acoustic analysis device | |
JP5669646B2 (en) | Performance evaluation device, electronic musical instrument and program | |
JP6232916B2 (en) | Code power calculation device, method and program, and code determination device | |
JP2007240552A (en) | Musical instrument sound recognition method, musical instrument annotation method and music piece searching method | |
JP7176114B2 (en) | MUSIC ANALYSIS DEVICE, PROGRAM AND MUSIC ANALYSIS METHOD | |
JP6554826B2 (en) | Music data retrieval apparatus and music data retrieval program | |
JP2020106766A (en) | Performance correction method and performance correction device | |
JP6515945B2 (en) | Code extraction apparatus and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160620 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170718 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170726 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180108 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6281211 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |