[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2014006480A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2014006480A
JP2014006480A JP2012143954A JP2012143954A JP2014006480A JP 2014006480 A JP2014006480 A JP 2014006480A JP 2012143954 A JP2012143954 A JP 2012143954A JP 2012143954 A JP2012143954 A JP 2012143954A JP 2014006480 A JP2014006480 A JP 2014006480A
Authority
JP
Japan
Prior art keywords
section
chorus
standard
information processing
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012143954A
Other languages
English (en)
Inventor
Yasushi Miyajima
靖 宮島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012143954A priority Critical patent/JP2014006480A/ja
Priority to US13/894,540 priority patent/US20140000441A1/en
Priority to CN201310247231.8A priority patent/CN103514885A/zh
Publication of JP2014006480A publication Critical patent/JP2014006480A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

【課題】特徴的なサビ区間を含む短縮バージョンを、既存の手法よりも高い精度で楽曲から抽出することを可能にすること。
【解決手段】楽曲に含まれる複数の区間のうちサビ区間を識別する区間データを取得するデータ取得部と、標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、前記区間データにより識別されるサビ区間のうち前記標準サビ区間を判定する判定部と、判定された前記標準サビ区間を少なくとも部分的に含む抽出範囲を前記楽曲に設定する設定部と、を備える情報処理装置を提供する。
【選択図】図2

Description

本開示は、情報処理装置、情報処理方法及びプログラムに関する。
従来、例えば楽曲配信サービスにおいて、ユーザによる楽曲の購入の判断を支援するために、最終的に販売されるバージョンとは別に、試聴のための短縮バージョンがユーザに提供されている。短縮バージョンは、一般的には、楽曲の一部分を切り出すことにより作製される。楽曲配信サービスでは、取り扱われる楽曲の数が膨大であるため、楽曲のどの部分を切り出すべきかをオペレータが個々に指示することは現実的でない。そこで、通常、固定的に与えられる時間的範囲(例えば、先頭から30秒など)に対応する部分が、楽曲の短縮バージョンとして自動的に切り出される。
楽曲の短縮バージョンのニーズは、ムービー(スライドショーを含む)が作製される場面においても存在する。BGMを伴うムービーが作製される際、一般的には、画像シーケンスの再生に要する時間に合わせて、所望の楽曲の一部分が切り出される。そして、切り出された部分が、BGMとしてムービーに付加される。
下記特許文献1は、楽曲の短縮バージョンを自動的に生成するための技術を提案している。下記特許文献1に記載された技術は、楽曲から切り出すべき部分を決定するために、音声波形を含む楽曲データを解析することによりエンベロープ情報を取得し、取得したエンベロープ情報を用いて楽曲の盛り上がりを判定する。
特開2002−073055号公報
しかしながら、固定的に与えられる時間的範囲に対応する部分を楽曲から切り出す手法では、楽曲の盛り上がりを特徴的に表現するサビ区間を、短縮バージョンに含めることに失敗することが少なくなかった。また、楽曲データを解析する手法では、短縮バージョンとって最適な区間の判定の精度が未だ十分ではなく、楽曲の特徴を最もよく表現している区間が適切に抽出されないケースがあった。
従って、特徴的なサビ区間を含む短縮バージョンを、上述した既存の手法よりも高い精度で抽出することを可能にする仕組みが提供されることが望ましい。
本開示によれば、楽曲に含まれる複数の区間のうちサビ区間を識別する区間データを取得するデータ取得部と、標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、前記区間データにより識別されるサビ区間のうち前記標準サビ区間を判定する判定部と、判定された前記標準サビ区間を少なくとも部分的に含む抽出範囲を前記楽曲に設定する設定部と、を備える情報処理装置が提供される。
また、本開示によれば、情報処理装置の制御部により実行される情報処理方法であって、楽曲に含まれる複数の区間のうちサビ区間を識別する区間データを取得することと、標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、前記区間データにより識別されるサビ区間のうち前記標準サビ区間を判定することと、判定された前記標準サビ区間を少なくとも部分的に含む抽出範囲を前記楽曲に設定することと、を含む情報処理方法が提供される。
また、本開示によれば、情報処理装置を制御するコンピュータを、楽曲に含まれる複数の区間のうちサビ区間を識別する区間データを取得するデータ取得部と、標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、前記区間データにより識別されるサビ区間のうち前記標準サビ区間を判定する判定部と、判定された前記標準サビ区間を少なくとも部分的に含む抽出範囲を前記楽曲に設定する設定部と、として機能させるためのプログラムが提供される。
本開示に係る技術によれば、特徴的なサビ区間を含む短縮バージョンを、既存の手法よりも高い精度で楽曲から抽出することができる。
本開示に係る技術の基本的な原理について説明するための説明図である。 一実施形態に係る情報処理装置の構成の一例を示すブロック図である。 区間データ及び補助データの一例について説明するための説明図である。 非標準サビ区間を判定するための第1の判定条件について説明するための第1の説明図である。 非標準サビ区間を判定するための第1の判定条件について説明するための第2の説明図である。 非標準サビ区間を判定するための第2の判定条件について説明するための説明図である。 非標準サビ区間を判定するための第3の判定条件について説明するための説明図である。 非標準サビ区間を判定するための第4の判定条件について説明するための説明図である。 基準区間を選択するための第1の選択条件について説明するための説明図である。 基準区間を選択するための第2の選択条件について説明するための説明図である。 基準区間を選択するための第3の選択条件について説明するための説明図である。 抽出範囲を設定するための第1の手法について説明するための説明図である。 抽出範囲を設定するための第2の手法について説明するための説明図である。 抽出部による抽出処理の一例について説明するための説明図である。 一実施形態に係る処理の全体的な流れの一例を示すフローチャートである。 図14に示したサビ区間フィルタリング処理の詳細な流れの一例を示すフローチャートである。 図14に示した基準区間選択処理の詳細な流れの一例を示すフローチャートである。 一変形例に係るサーバ装置の構成の一例を示すブロック図である。 一変形例に係る端末装置の構成の一例を示すブロック図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、以下の順序で説明を行う。
1.基本的な原理
2.一実施形態に係る情報処理装置の構成例
3.一実施形態に係る処理の流れの例
4.変形例
5.まとめ
<1.基本的な原理>
図1は、本開示に係る技術の基本的な原理について説明するための説明図である。
図1の上段には、ある楽曲の楽曲データOVが示されている。楽曲データOVは、例えば、時間軸に沿った楽曲の波形を所定のサンプリングレートでサンプリングし、サンプルを符号化することにより生成されるデータである。本明細書では、短縮バージョンを抽出する元となる楽曲データを、楽曲のオリジナルバージョンともいう。
楽曲データOVの下には、区間データSDが示されている。区間データSDは、楽曲に含まれる複数の区間のうちサビ区間を識別するデータである。図1の例では、区間データSDに含まれる14個の区間M1〜M14のうち、7個の区間M3、M4、M7、M8、M10、M13及びM14がサビ区間として識別されている。区間データSDは、例えば、特開2007−156434号公報に記載された手法(又はその他の既存の手法)に従って、楽曲データOVを解析することにより、予め与えられているものとする。既存の手法では、例えば、楽曲について音声信号処理を実行して波形を解析することにより得られる特徴量から、区間ごとのサビ尤度(chorus likelihood;“サビらしさ”ともいう)が導かれる。サビ区間は、例えば、そうしたサビ尤度が所定の閾値を上回る区間であってもよい。
ここで留意すべきは、上述したサビ尤度の最も高い区間が、楽曲の特徴を最もよく表現しているとは限らない点である。例えば、音声波形のパワー成分に基づく特徴量が用いられる場合、楽曲の標準的なサビ区間ではなく、しばしば楽曲の中盤以降に位置するアレンジの加えられた特殊なサビ区間において、サビ尤度が最も高くなる傾向がある。また、サビ尤度の精度が十分でない場合には、本来サビ区間ではない区間がサビ区間として識別されているケース、又は本来サビ区間である区間がサビ区間として識別されていないケースがある。また、いわゆるインストゥルメンタル曲ではない通常のボーカル曲において、ボーカルの無い非ボーカル区間のサビ尤度が高くなる場合もある。
そこで、本開示に係る技術は、楽曲の特徴を最もよく表現している区間を判定するために、楽曲の波形を解析した結果のみならず、楽曲の区間の定性的な特性をも利用する。図1の例では、7個のサビ区間M3、M4、M7、M8、M10、M13及びM14が、サビ区間の定性的な特性に基づいてフィルタリングされ、2個の標準サビ区間M7、M8及びその他の非標準サビ区間に分類されている。標準サビ区間は、楽曲の特徴を良好に表現している区間である。非標準サビ区間は、例えば、転調若しくはオフボーカル化などのアレンジの加えられた特殊なサビ区間、又は(本来サビ区間ではないはずの)誤って識別されたサビ区間などを含み得る。サビ区間のフィルタリングのために、補助データADが追加的に利用されてもよい。標準サビ区間のうちの1つは、基準区間として選択される。そして、基準区間を少なくとも部分的に含むように(目標時間長に等しい長さを有する)抽出範囲が楽曲に設定され、楽曲データOVの抽出範囲に対応する部分が短縮バージョンSVとして抽出される。
上述した原理によれば、短縮バージョンの抽出範囲が、楽曲解析結果だけでなくサビ区間の定性的な特性にも基づいて設定されるため、楽曲解析の精度の不安定さの影響を軽減し、楽曲の特徴を良好に表現する短縮バージョンをより適切に生成することができる。このような原理を実装する本開示に係る技術の実施形態について、次節で詳細に説明する。
<2.一実施形態に係る情報処理装置の構成例>
本節で説明する情報処理装置は、例えば、PC(Personal Computer)、スマートフォン、PDA(Personal Digital Assistant)、音楽プレーヤ、ゲーム端末又はデジタル家電機器などの端末装置であってもよい。また、当該情報処理装置は、端末装置から送信される要求に応じて以下に説明する処理を実行するサーバ装置であってもよい。これら装置は、物理的に1つのコンピュータを用いて実現されてもよく、複数のコンピュータが互いに連携することにより実現されてもよい。
図2は、本実施形態に係る情報処理装置100の構成の一例を示すブロック図である。図2を参照すると、情報処理装置100は、属性データベース(DB)110、楽曲DB120、ユーザインタフェース部130及び制御部140を備える。
[2−1.属性DB]
属性DB110は、ハードディスク又は半導体メモリなどの記憶媒体を用いて構成されるデータベースである。属性DB110は、1つ以上の楽曲について予め用意される属性データを記憶する。属性データは、図1を用いて説明した区間データSD及び補助データADを含み得る。区間データは、楽曲に含まれる複数の区間のうち、少なくともサビ区間を識別するデータである。補助データは、サビ区間のフィルタリング、基準区間の選択又は抽出範囲の設定のために追加的に利用され得るデータである。
図3は、区間データ及び補助データの一例について説明するための説明図である。図3の上段の時間軸に付された短い縦線は、ビートの時間的位置を示す。長い縦線は、小節線の時間的位置を示す。区間データSDは、小節線又はビートによって区分される区間ごとに、イントロ、Aメロ、Bメロ、サビ(chorus)及びアウトロなどのメロディ種別を識別する。補助データADは、キーデータ、ボーカル存在確率データ及びサビ尤度データを含む。キーデータは、例えば、区間ごとのキーを識別する(例えば、“C”はハ長調を示す)。ボーカル存在確率データは、例えば、各ビート位置においてボーカルが存在する確率を示す。サビ尤度データは、区間ごとに算出されるサビ尤度を示す。これら属性データは、特開2007−156434号公報、特開2007−248895号公報又は特開2010−122629号公報などに記載された手法に従って、楽曲データについて音声信号処理を実行することにより生成され、属性DB110により予め記憶され得る。
[2−2.楽曲DB]
楽曲DB120もまた、ハードディスク又は半導体メモリなどの記憶媒体を用いて構成されるデータベースである。楽曲DB120は、1つ以上の楽曲の楽曲データを記憶する。楽曲データは、図1に例示したような波形データを含む。波形データは、例えば、WAVE、MP3(MPEG Audio Layer‐3)又はAAC(Advanced Audio Coding)などの任意の音声符号化方式に従って符号化されてよい。楽曲DB120は、対象曲の短縮前の楽曲データ(即ち、オリジナルバージョン)OVを、後に説明する抽出部180へ出力する。また、楽曲DB120は、抽出部180により生成される短縮バージョンSVを、追加的に記憶してもよい。
なお、属性DB110及び楽曲DB120の一方又は双方は、情報処理装置100の一部でなくてもよい。例えば、これらデータベースは、情報処理装置100からアクセス可能なデータサーバにおいて実現されてもよい。また、情報処理装置100に接続されるリムーバブルメディアが、属性データ及び楽曲データを記憶していてもよい。
[2−3.ユーザインタフェース部]
ユーザインタフェース部130は、情報処理装置100を利用し又は端末装置を介して情報処理装置100にアクセスするユーザに、ユーザインタフェースを提供する。ユーザインタフェース部130により提供されるユーザインタフェースは、グラフィカルユーザインタフェース(GUI)、コマンドラインインタフェース、音声UI又はジェスチャUIなどの、いかなる種類のユーザインタフェースであってもよい。例えば、ユーザインタフェース部130は、楽曲のリストをユーザに呈示し、短縮バージョンの生成の対象である対象曲をユーザに指定させてもよい。また、ユーザインタフェース部130は、短縮バージョンの時間長の目標値、即ち目標時間長をユーザに指定させてもよい。
[2−4.制御部]
制御部140は、CPU(Central Processing Unit)又はDSP(Digital Signal Processor)などのプロセッサに相当する。制御部140は、記憶媒体に記憶されるプログラムを実行することにより、情報処理装置100の様々な機能を動作させる。本実施形態において、制御部140は、処理設定部145、データ取得部150、判定部160、抽出範囲設定部170、抽出部180及び再生部190を含む。
(1)処理設定部
処理設定部145は、情報処理装置100により実行される処理をセットアップする。処理設定部145は、例えば、対象曲の識別子、目標時間長、(後に説明する)抽出範囲の設定基準などの、様々な設定を保持する。処理設定部145は、ユーザにより指定される楽曲を対象曲に設定してもよく、又は属性DB110に属性データが記憶されている1つ以上の楽曲を自動的に対象曲に設定してもよい。目標時間長もまた、ユーザインタフェース部130を介してユーザにより指定されてもよく、又は自動的に設定されてもよい。サービスプロバイダが試聴のために短縮バージョンを多数提供しようとする場合には、目標時間長は、画一的に設定され得る。一方、ユーザがムービーにBGMを付加しようとする場合には、目標時間長は、ユーザにより指定され得る。その他の設定については、後にさらに説明する。
(2)データ取得部
データ取得部150は、対象曲の区間データSD及び補助データADを属性DB110から取得する。上述したように、本実施形態において、区間データSDは、対象曲に含まれる複数の区間のうちの少なくともサビ区間を識別するデータである。そして、データ取得部150は、取得した区間データSD及び補助データADを判定部160へ出力する。
(3)判定部
判定部160は、標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、区間データSDにより識別されるサビ区間のうちの、楽曲の特徴を良好に表現している標準サビ区間を判定する。ここでの判定条件は、複数の楽曲に共通する非標準サビ区間の特性に関連する条件である。そして、本実施形態において、判定部160は、上記判定条件に従って非標準サビ区間であると判定されなかったサビ区間が標準サビ区間であると判定する。
判定条件として、例えば、次の4種類の非標準サビ区間を判定するための条件の少なくとも1つが利用されてよい。
−単独サビ区間
−転調サビ区間
−大サビ区間
−非ボーカル区間
(3−1)第1の判定条件
図4A及び図4Bは、第1の判定条件について説明するための説明図である。第1の判定条件は、単独サビ区間を判定するための条件であり、各サビ区間が他のサビ区間と時間的に隣接するかに基づく。本明細書において、単独サビ区間(Single Chorus Section:SCS)は、他のサビ区間と時間的に隣接しないサビ区間を意味する。これに対し、時間的に隣接する複数のサビ区間の集合(クラスタ)を、集合サビ区間(Clustered Chorus Sections:CCS)という。ある楽曲において、単独サビ区間の数が集合サビ区間の数よりも少なければ、単独サビ区間は、アレンジの加えられた特殊なサビ区間又は誤って識別されたサビ区間である可能性が高い。従って、その場合には、非標準サビ区間である単独サビ区間を基準区間(抽出範囲の設定の基準として扱われる区間)の候補から除外することにより、不適切な抽出範囲が楽曲に設定されることを回避することができる。
図4Aを参照すると、区間データSD1により識別される7個のサビ区間M3、M4、M7、M8、M10、M13及びM14が示されている。サビ区間M3及びM4は互いに隣接しており、1つの集合サビ区間を形成する。サビ区間M7及びM8もまた互いに隣接しており、1つの集合サビ区間を形成する。サビ区間M13及びM14もまた互いに隣接しており、1つの集合サビ区間を形成する。サビ区間M10は、他のサビ区間と隣接していないため、単独サビ区間である。判定部160は、区間データから認識されるこのようなサビ区間の隣接関係に基づいて、単独サビ比率RSCSを計算する。単独サビ比率RSCSは、単独サビ区間及び集合サビ区間の総数に対する単独サビ区間の個数の比率である。図4Aの例では、単独サビ比率RSCS=0.25<0.5であり、単独サビ区間の数が集合サビ区間の数よりも少ない。従って、判定部160は、単独サビ区間であるサビ区間M10を、非標準サビ区間であると判定する。
図4Bを参照すると、区間データSD2により識別される5個のサビ区間M3、M6、M8、M11及びM12が示されている。サビ区間M11及びM12は互いに隣接しており、1つの集合サビ区間を形成する。サビ区間M3、M6及びM8は、いずれも他のサビ区間と隣接していないため、単独サビ区間である。図4Bの例では、単独サビ比率RSCS=0.75>0.5であり、単独サビ区間の数は集合サビ区間の数よりも多い。従って、判定部160は、単独サビ区間を非標準サビ区間であると判定しない。即ち、この場合、単独サビ区間M3、M6及びM8は、基準区間の候補から除外されずに残される。
(3−2)第2の判定条件
図5は、第2の判定条件について説明するための説明図である。第2の判定条件は、転調サビ区間を判定するための条件であり、各サビ区間におけるキーが他のサビ区間におけるキーから転調されているかに基づく。いくつかの楽曲では、楽曲の途中でそれまでのキーから別の(例えば半音又は1音高い)キーへと転調が行われることがある。転調サビ区間とは、そのような転調されたサビ区間をいう。転調サビ区間はアレンジの加えられた特殊なサビ区間であるため、転調サビ区間を基準区間の候補から除外することにより、不適切な抽出範囲が楽曲に設定されることを回避することができる。
図5を参照すると、区間データSD1により識別される7個のサビ区間M3、M4、M7、M8、M10、M13及びM14が再び示されている。また、補助データの1つであるキーデータにより示される区間ごとのキーも示されている。キーデータは、区間M1から区間M13までのキーが“C(ハ長調)”であるのに対し、区間M14のキーが“D(ニ長調)”であることを示している。従って、判定部160は、サビ区間M14を、非標準サビ区間の1つである転調サビ区間であると判定する。なお、いくつかの楽曲では、楽曲の中盤以前で転調が行われるケースがあり、このようなケースでは転調後のサビが特殊なサビであるとは言えない。そこで、判定部160は、楽曲全体の時間長の所定の割合(例えば、2/3)が経過する時点までの転調を無視し、当該時点以降の転調に基づいて転調サビを判定してもよい。
(3−3)第3の判定条件
図6は、第3の判定条件について説明するための説明図である。第3の判定条件は、大サビ区間を判定するための条件である。多くの楽曲において、メロディの変更、テンポの変更又は特定の音への歌詞の変更(“ラララ…”など)などの様々なアレンジが、楽曲の終盤で行われる。これらアレンジを加えられたサビ区間は、楽曲の標準的な特徴を良好に表現しているとは言えない。従って、大サビ区間を基準区間の候補から除外することにより、不適切な抽出範囲が楽曲に設定されることを回避することができる。判定部160は、楽曲の終盤に存在するサビ区間を大サビ区間であると判定してもよい。楽曲の終盤とは、例えば、楽曲全体の時間長の所定の割合(例えば、2/3)が経過した時点以降をいう。その代わりに、判定部160は、最後方に位置するサビ区間又は集合サビ区間を、大サビ区間であると判定してもよい。
図6を参照すると、区間データSD1により識別される7個のサビ区間M3、M4、M7、M8、M10、M13及びM14が再び示されている。また、楽曲全体の時間長TLtotal、及び時間長TLtotalの2/3に相当する時間長TLthsdも示されている。判定部160は、例えば、時間長TLthsdが経過した時点以降に存在するサビ区間M13及びM14を、非標準サビ区間の1つである大サビ区間であると判定する。
(3−4)第4の判定条件
図7は、第4の判定条件について説明するための説明図である。第4の判定条件は、非ボーカル区間を判定するための条件である。いくつかのボーカル曲において、サビと類似するコード進行を有するメロディが楽器のみで演奏される区間が存在するケースがある。そのような非ボーカル区間もまた音声信号処理の結果としてサビ区間として識別され得るが、ボーカル曲における非ボーカル区間は楽曲の標準的な特徴を良好に表現しているとは言えない。従って、非ボーカル区間を基準区間の候補から除外することにより、不適切な抽出範囲が楽曲に設定されることを回避することができる。
図7を参照すると、区間データSD1により識別される7個のサビ区間M3、M4、M7、M8、M10、M13及びM14が再び示されている。また、ボーカル存在確率データにより示される確率の区間ごとの平均値も示されている。閾値Pは、非ボーカル区間を判別するための閾値である。判定部160は、ボーカル存在確率の区間平均が閾値Pを下回るサビ区間M3及びM4を、非標準サビ区間の1つである非ボーカル区間であると判定する。
判定部160は、楽曲を通じたボーカル存在確率に応じて、閾値Pを動的に決定してもよい。例えば、閾値Pは、楽曲全体にわたるボーカル存在確率の平均値であってもよく、又は当該平均値と所定の係数との積であってもよい。ボーカル存在確率の区間平均と比較される閾値をこのように動的に決定することにより、ボーカルが存在しないことが特殊でない例えばインストゥルメンタル曲において、楽曲の特徴を良好に表現している区間が基準区間の候補から除外されてしまうことを防ぐことができる。
判定部160は、区間データSDにより識別される1つ以上のサビ区間を基準区間の候補セットとし、上述した判定条件の少なくとも1つに従って非標準サビ区間であると判定された非標準サビ区間を、基準区間の候補セットから除外する。基準区間の候補セットに残されるサビ区間は、楽曲の特徴を良好に表現する標準サビ区間であると判定される。そして、判定部160は、基準区間の候補セットを、抽出範囲設定部170へ出力する。
(4)抽出範囲設定部
抽出範囲設定部170は、判定部160から基準区間の候補セットを取得する。ここで取得される基準区間の候補セットは、上述した非標準サビ区間を含まず、標準サビ区間のみを含む。抽出範囲設定部170は、取得した基準区間の候補セットから、基準区間を選択する。そして、抽出範囲設定部170は、選択した基準区間を少なくとも部分的に含む抽出範囲を対象曲に設定する。
(4−1)基準区間の選択
抽出範囲設定部170は、例えば、サビ尤度データにより示されるサビ尤度の最も高い区間を、基準区間として選択してもよい(第1の選択条件)。その代わりに、抽出範囲設定部170は、ボーカル存在確率の区間平均の最も高い区間を、基準区間として選択してもよい(第2の選択条件)。また、抽出範囲設定部170は、基準区間の候補セットが空である場合、即ち標準サビ区間であると判定された区間が存在しない場合には、対象曲に含まれるサビ区間以外の区間のうち、ボーカル存在確率の最も高い区間を基準区間として選択してもよい(第3の選択条件)。
図8は、基準区間を選択するための第1の選択条件について説明するための説明図である。図8を参照すると、区間データSD1により識別される7個のサビ区間M3、M4、M7、M8、M10、M13及びM14のうちの区間M7及びM8が、標準サビ区間であると判定されている。標準サビ区間M8のサビ尤度は、標準サビ区間M7のサビ尤度よりも高い。そこで、抽出範囲設定部170は、標準サビ区間M8を基準区間(RS:Reference Section)として選択し得る。このようなサビ尤度に基づいて基準区間を選択する手法は、楽曲解析結果のみに基づく既存の手法に、ある面において類似している。しかしながら、本実施形態では、複数の楽曲に共通するサビ区間の定性的な特性に基づいて非標準サビ区間であると判定されたサビ区間が、基準区間の候補セットから除外されている。そのため、楽曲の特徴を良好に表現していないものの高いサビ尤度を示す特殊なサビ区間が抽出範囲の設定の基準として選択されることを防ぐことができる。
図9は、基準区間を選択するための第2の選択条件について説明するための説明図である。図9を参照すると、図8の例と同様、区間データSD1により識別される7個のサビ区間M3、M4、M7、M8、M10、M13及びM14のうちの区間M7及びM8が、標準サビ区間であると判定されている。標準サビ区間M7のボーカル存在確率(区間平均)は、標準サビ区間M8のボーカル存在確率よりも高い。そこで、抽出範囲設定部170は、標準サビ区間M7を基準区間として選択し得る。このようなボーカル存在確率に基づいて基準区間を選択する手法によれば、楽曲の特徴を良好に表現するボーカル区間であるサビ区間を、より確実に短縮バージョンのための抽出範囲に含めることができる。なお、抽出範囲設定部170は、対象曲がインストゥルメンタル曲でない場合に限って、上記第2の選択条件を採用してもよい。
図10は、基準区間を選択するための第3の選択条件について説明するための説明図である。図10の例では、7個のサビ区間M3、M4、M7、M8、M10、M13及びM14が全て非標準サビ区間であると判定された結果、標準サビ区間が存在しない。この場合、抽出範囲設定部170は、サビ区間以外の区間のボーカル存在確率(区間平均)を互いに比較する。そして、抽出範囲設定部170は、ボーカル存在確率の最も高い区間(図10の例では、区間M6)を基準区間として選択し得る。例えば、楽曲解析結果として得られるサビ尤度の精度が劣悪である場合、又は対象曲が例外的なメロディ構成を有する場合には、基準区間の候補セットに標準サビ区間が残らない可能性がある。その場合にも、第3の選択条件に従って基準区間が選択されることで、楽曲の特徴を比較的良好に表現するボーカル区間を、短縮バージョンのための抽出範囲に含めることができる。
なお、抽出範囲設定部170は、サビ尤度データ及びボーカル存在確率データが共に利用可能でない場合には、基準区間の候補セットに残る標準サビ区間のうちの所定の位置(例えば、最前方)の区間又はランダムに選択される区間を、基準区間として選択してもよい。
(4−2)抽出範囲の設定
抽出範囲設定部170は、上述したいずれかの選択条件に従って基準区間を選択した後、選択した基準区間を少なくとも部分的に含む抽出範囲を対象曲に設定する。抽出範囲設定部170は、例えば、基準区間よりも前方のボーカル不在時点を、抽出範囲の起点として設定してよい。ボーカル不在時点とは、ボーカル存在確率データにより示されるボーカル存在確率(区間平均ではなく、例えばより時間分解能の高いビート位置ごとの確率)が所定の閾値を下回る時点である。基準区間の先頭ではなくより前方のボーカル不在時点を抽出範囲の起点として設定することで、歌い手が基準区間の先頭よりも早く基準区間の歌詞を発声しているような場合にも、短縮バージョンにおいてその歌詞が欠損することを回避することができる。また、抽出範囲設定部170は、抽出範囲の起点から後方へ目標時間長だけ離れた時点を、抽出範囲の終点として設定する。
抽出範囲設定部170は、例えば、基準区間に最も近い前方のボーカル不在時点を、抽出範囲の起点として設定してもよい。図11は、抽出範囲を設定するための第1の手法について説明するための説明図である。図11を参照すると、基準区間として選択された標準サビ区間M8、及びビート位置ごとのボーカル存在確率が示されている。図中の三角形の記号は、ボーカル区間内のいくつかのボーカル不在時点(ボーカル存在確率が閾値Pを下回る時点)を指し示す。図11の例において、抽出範囲設定部170は、基準区間M8の直前のボーカル不在時点TPを起点とし、目標時間長に相当する長さを有する抽出範囲(ER:Extraction Range)を、対象曲に設定している。このような第1の手法によれば、例えば、楽曲配信サービスにおける試聴のために短縮バージョンが利用される場合に、楽曲の特徴を最もよく表現している区間をより早いタイミングで視聴ユーザに聴かせて、楽曲の購入を効果的に促すことができる。
その代わりに、抽出範囲設定部170は、例えば、基準区間の時間長よりも抽出範囲の目標時間長が長い場合に、抽出範囲内のより後方に基準区間が含まれるように、当該抽出範囲の起点として設定されるべきボーカル不在時点を選択してもよい。図12は、抽出範囲を設定するための第2の手法について説明するための説明図である。図12の例では、図11に例示したボーカル不在時点TPよりも前方に位置するボーカル不在時点TPが、抽出範囲の起点として選択されている。その結果、基準区間M8は、設定される抽出範囲内のより後方に含まれている。このような第2の手法によれば、例えば、後半にクライマックスを迎えるムービーのBGMのために短縮バージョンが生成される場合に、楽曲の特徴を最もよく表現しているサビ区間をそのクライマックスに合わせて配置することができる。
抽出範囲設定部170は、例えば、抽出範囲の起点をどの位置に設定すべきかに関する設定基準(例えば、上述した第1の手法又は第2の手法など)を、ユーザインタフェース部130を介してユーザに指定させてもよい。それにより、短縮バージョンの様々な用途に合わせて適切な抽出範囲を楽曲に設定することが可能となる。基準区間の時間長よりも抽出範囲の目標時間長が短い場合には、基準区間の一部のみが抽出範囲に含まれてもよい。
(5)抽出部
抽出部180は、抽出範囲設定部170により設定された抽出範囲に対応する部分を、対象曲の楽曲データから抽出することにより、対象曲の短縮バージョンを生成する。図13は、抽出部180による抽出処理の一例について説明するための説明図である。図13を参照すると、基準区間として選択された標準サビ区間M8、及び標準サビ区間M8を含むように設定された抽出範囲ERが示されている。抽出部180は、抽出範囲ERに対応する部分を、楽曲DB120から取得される対象曲の楽曲データOVから抽出する。その結果、対象曲の短縮バージョンSVが生成される。抽出部180は、短縮バージョンSVの末尾にフェードアウトを適用してもよい。抽出部180は、生成した短縮バージョンSVを、楽曲DB120に記憶させてもよい。その代わりに、抽出部180は、短縮バージョンSVを再生部190へ出力し、短縮バージョンSVを再生部190に再生させてもよい。短縮バージョンSVは、例えば、試聴のために再生部190により再生され、又はBGMとしてムービーに付加され得る。
(6)再生部
再生部190は、抽出部180により生成された楽曲を再生する。再生部190は、例えば、楽曲DB120又は抽出部180から取得される短縮バージョンSVを再生し、短縮された楽曲の音声をユーザインタフェース部130を介して出力する。
<3.一実施形態に係る処理の流れの例>
[3−1.全体的な流れ]
図14は、本実施形態に係る情報処理装置100により実行される処理の全体的な流れの一例を示すフローチャートである。
図14を参照すると、まず、データ取得部150は、対象曲の区間データ及び補助データを属性DB110から取得する(ステップS110)。そして、データ取得部150は、取得した区間データ及び補助データを判定部160へ出力する。
次に、判定部160は、データ取得部150から入力される区間データに基づいて、基準区間の候補セットを初期化する(ステップS120)。例えば、判定部160は、対象曲に含まれる区間の数に等しい長さのビット配列を用意し、区間データにより識別されるサビ区間に対応するビットを“1”に、その他のビットを“0”に設定する。
次に、判定部160は、対象曲のボーカル存在確率データにより示されるボーカル存在確率の区間平均を各区間について計算する。さらに、判定部160は、ボーカル存在確率の楽曲全体にわたる平均を計算する(ステップS130)。
次に、判定部160は、サビ区間フィルタリング処理を実行する(ステップS140)。ここで実行されるサビ区間フィルタリング処理について、後により詳細に説明する。サビ区間フィルタリング処理において非標準サビ区間であると判定された区間は、基準区間の候補セットから除外される。即ち、例えばステップS120において用意されたビット配列の非標準サビ区間に対応するビットが、“0”に変更される。
次に、抽出範囲設定部170は、基準区間選択処理を実行する(ステップS160)。ここで実行される基準区間選択処理について、後により詳細に説明する。基準区間選択処理の結果として、上述したビット配列において“1”を示すビットに対応する標準サビ区間のいずれか(又は他の区間)が、基準区間として選択される。次に、抽出範囲設定部170は、選択した基準区間を少なくとも部分的に含む抽出範囲を、例えば上述した第1の手法又は第2の手法に従って、対象曲に設定する(ステップS170)。
次に、抽出部180は、抽出範囲設定部170により設定された抽出範囲に対応する部分を、対象曲の楽曲データから抽出する(ステップS180)。それにより、対象曲の短縮バージョンが生成される。そして、抽出部180は、生成した短縮バージョンを楽曲DB120又は再生部190へ出力する。
[3−2.サビ区間フィルタリング処理]
図15は、図14に示したサビ区間フィルタリング処理の詳細な流れの一例を示すフローチャートである。
図15を参照すると、まず、判定部160は、対象曲に含まれる単独サビ区間及び集合サビ区間をカウントし、対象曲の単独サビ比率が閾値(例えば、0.5)を下回るか否かを判定する(ステップS141)。そして、判定部160は、対象曲の単独サビ比率が閾値を下回る場合には、単独サビ区間を非標準サビ区間であると判定する(ステップS142)。
次に、判定部160は、キーデータを用いて対象曲に含まれる転調サビ区間を識別し、識別した転調サビ区間を非標準サビ区間であると判定する(ステップS143)。
次に、判定部160は、各サビ区間の時間的位置に基づいて対象曲に含まれる大サビ区間を識別し、識別した大サビ区間を非標準サビ区間であると判定する(ステップS144)。
次に、判定部160は、対象曲にボーカルが存在するか否かを判定する(ステップS145)。ここでの判定は、対象曲のボーカル存在確率に基づいて行われてもよく、又は楽曲に予め付与される種別(ボーカル曲又はインストゥルメンタル曲など)に基づいて行われてもよい。判定部160は、対象曲にボーカルが存在する場合には、ボーカル存在確率と比較される閾値(図7に例示した閾値P)を、ボーカル存在確率の楽曲全体にわたる平均値から決定する(ステップS146)。そして、判定部160は、ボーカル存在確率の区間平均がステップS146において決定した閾値を下回る非ボーカル区間を、非標準サビ区間であると判定する(ステップS147)。
そして、判定部160は、ステップS142、S143、S144及びS147において非標準サビ区間であると判定されたサビ区間を、基準区間の候補セットから除外する(ステップS148)。例えば、判定部160は、図14のステップS120において用意されたビット配列の非標準サビ区間に対応するビットを、“0”に変更する。ここで除外されることなく残ったサビ区間(ビット配列において“1”を示すビットに対応する区間)が、標準サビ区間である。
[3−3.サビ区間フィルタリング処理]
図16は、図14に示した基準区間選択処理の詳細な流れの一例を示すフローチャートである。
図16を参照すると、まず、抽出範囲設定部170は、基準区間の候補セットに標準サビ区間が残っているかを判定する(ステップS161)。ここで、基準区間の候補セットに標準サビ区間が残っている場合には、処理はステップS162へ進む。一方、基準区間の候補セットに標準サビ区間が残っていない場合(例えば、上述したビット配列が全て“0”を示す場合)には、処理はステップS165へ進む。
ステップS162において、抽出範囲設定部170は、さらにサビ尤度データが利用可能であるかを判定する(ステップS162)。ここで、サビ尤度データが利用可能である場合には、処理はステップS163へ進む。一方、サビ尤度データが利用可能でない場合には、処理はステップS164へ進む。
ステップS163では、抽出範囲設定部170は、基準区間の候補セットに残る標準サビ区間のうちサビ尤度の最も高い区間を、基準区間として選択する(ステップS163)。
ステップS164では、抽出範囲設定部170は、基準区間の候補セットに残る標準サビ区間のうちボーカル存在確率の区間平均の最も高い区間を、基準区間として選択する(ステップS164)。
ステップS165では、抽出範囲設定部170は、サビ区間以外の区間のうち、ボーカル存在確率が最も高い区間を、基準区間として選択する(ステップS165)。
なお、本節で説明した処理の流れは、一例に過ぎない。即ち、上述した処理ステップの一部が省略されてもよく、他の処理ステップが追加されてもよい。また、処理の順序が変更されてもよく、いくつかの処理ステップが並列的に実行されてもよい。
<4.変形例>
本開示に係る技術において、区間データを用いて対象曲に抽出範囲を設定する装置と、対象曲の短縮バージョンを楽曲データから抽出する装置とは、必ずしも同じ装置でなくてよい。本節では、一変形例として、サーバ装置において対象曲に抽出範囲が設定され、当該サーバ装置と通信する端末装置において抽出処理が実行される例を説明する。
[4−1.サーバ装置]
図17は、一変形例に係るサーバ装置200の構成の一例を示すブロック図である。図17を参照すると、サーバ装置200は、属性DB110、楽曲DB120、通信部230及び制御部240を備える。制御部240は、処理設定部145、データ取得部150、判定部160、抽出範囲設定部170及び端末制御部280を含む。
通信部230は、後に説明する端末装置300との間で通信する通信インタフェースである。
端末制御部280は、端末装置300からの要求に応じて、処理設定部145に対象曲を設定させ、判定部160及び抽出範囲設定部170に上述した処理を実行させる。その結果、対象曲の特徴を良好に表現する基準区間を含む抽出範囲が、抽出範囲設定部170により対象曲に設定される。そして、端末制御部280は、設定された抽出範囲を特定する抽出範囲データを、通信部230を介して端末装置300へ送信する。抽出範囲データは、例えば、楽曲データから抽出すべき範囲の起点と終点とを識別するデータであってよい。端末制御部280は、端末装置300が対象曲の楽曲データを有しない場合には、楽曲DB120から取得される当該楽曲データを、通信部230を介して端末装置300へ送信してもよい。
[4−2.端末装置]
図18は、一変形例に係る端末装置300の構成の一例を示すブロック図である。図18を参照すると、端末装置300は、通信部310、記憶部320、ユーザインタフェース部330及び制御部340を備える。制御部340は、抽出部350及び再生部360を含む。
通信部310は、上述したサーバ装置200との間で通信する通信インタフェースである。通信部310は、サーバ装置200から、上述した抽出範囲データ、及び必要に応じて楽曲データを受信する。
記憶部320は、通信部310により受信されるデータを記憶する。なお、記憶部320は、楽曲データを予め記憶していてもよい。
ユーザインタフェース部330は、端末装置300を利用するユーザに、ユーザインタフェースを提供する。例えば、ユーザインタフェース部330により提供されるユーザインタフェースは、対象曲及び目標時間長をユーザに指定させるためのGUIを含み得る。
抽出部350は、ユーザインタフェース部330を介して入力されるユーザからの指示に応じて、対象曲の短縮バージョンを抽出するために使用される抽出範囲データをサーバ装置200に要求する。そして、抽出部350は、抽出範囲データがサーバ装置200から受信されると、短縮バージョンの抽出を実行する。より具体的には、抽出部350は、記憶部320から対象曲の楽曲データを取得する。そして、抽出部350は、抽出範囲データにより特定される抽出範囲に対応する部分を楽曲データから抽出することにより、対象曲の短縮バージョンを生成する。抽出部350により生成される対象曲の短縮バージョンは、再生部360へ出力される。
再生部360は、対象曲の短縮バージョンを抽出部350から取得し、取得した短縮バージョンを再生する。
<5.まとめ>
ここまで、本開示に係る技術の一実施形態及びその変形例について詳細に説明した。上述した実施形態によれば、予め定義される判定条件に従って、楽曲に含まれる各サビ区間が標準サビ区間及び非標準サビ区間のいずれであるかが判定され、標準サビ区間を少なくとも部分的に含む抽出範囲が、短縮バージョンの抽出のために当該楽曲に設定される。従って、楽曲の波形を解析した結果のみに基づいて短縮バージョンのための抽出範囲を楽曲に設定する既存の手法と比較して、特徴的なサビ区間を含む短縮バージョンをより高い精度で抽出することができる。
また、上述した実施形態によれば、上記判定条件は、複数の楽曲に共通する非標準サビ区間の定性的な特性に基づいて定義される。従って、楽曲の標準的な特徴を表現してない特殊なサビ区間を基準として上記抽出範囲が楽曲に設定されてしまうことを、効果的に回避することができる。
また、本開示に係る技術によれば、楽曲の波形を解析するための追加的な音声信号処理を要することなく、楽曲の特徴を良好に表現するサビ区間を含む短縮バージョンを自動的に生成することができる。従って、楽曲配信サービスにおいて取り扱われる膨大な数の楽曲について、ユーザの購買意欲を促進する試聴用の短縮バージョンを、高速かつ低コストで提供することが可能となる。また、スライドショーを含むムービーのBGMとして最適な短縮バージョンを自動的に生成することも可能となる。
なお、本明細書において説明した各装置による一連の制御処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。ソフトウェアを構成するプログラムは、例えば、各装置の内部又は外部に設けられる記憶媒体に予め格納される。そして、各プログラムは、例えば、実行時にRAM(Random Access Memory)に読み込まれ、CPUなどのプロセッサにより実行される。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
楽曲に含まれる複数の区間のうちサビ区間を識別する区間データを取得するデータ取得部と、
標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、前記区間データにより識別されるサビ区間のうち前記標準サビ区間を判定する判定部と、
判定された前記標準サビ区間を少なくとも部分的に含む抽出範囲を前記楽曲に設定する設定部と、
を備える情報処理装置。
(2)
前記判定条件は、複数の楽曲に共通する前記非標準サビ区間の特性に関連する条件であり、
前記判定部は、前記判定条件に従って前記非標準サビ区間であると判定されなかったサビ区間が前記標準サビ区間であると判定する、
前記(1)に記載の情報処理装置。
(3)
前記判定部は、各サビ区間が他のサビ区間と時間的に隣接するかに基づいて、各サビ区間が前記非標準サビ区間であるかを判定する、前記(2)に記載の情報処理装置。
(4)
前記判定部は、各サビ区間におけるキーが他のサビ区間におけるキーから転調されているかに基づいて、各サビ区間が前記非標準サビ区間であるかを判定する、前記(2)又は前記(3)に記載の情報処理装置。
(5)
前記判定部は、前記楽曲の終盤に存在する大サビに相当するサビ区間を、前記非標準サビ区間であると判定する、前記(2)〜(4)のいずれか1項に記載の情報処理装置。
(6)
前記判定部は、各サビ区間におけるボーカル存在確率に基づいて、各サビ区間が前記非標準サビ区間であるかを判定する、前記(2)〜(5)のいずれか1項に記載の情報処理装置。
(7)
前記判定部は、各サビ区間におけるボーカル存在確率を、前記楽曲を通じたボーカル存在確率に応じて動的に決定される閾値と比較することにより、各サビ区間が前記非標準サビ区間であるかを判定する、前記(6)に記載の情報処理装置。
(8)
前記設定部は、前記判定部により判定された前記標準サビ区間のうちの1つを基準区間として選択し、選択した当該基準区間を前記抽出範囲が少なくとも部分的に含むように、前記抽出範囲を前記楽曲に設定する、前記(1)〜(7)のいずれか1項に記載の情報処理装置。
(9)
前記データ取得部は、前記楽曲について音声信号処理を実行することにより算出される前記複数の区間の各々のサビ尤度を示すサビ尤度データをさらに取得し、
前記設定部は、前記判定部により判定された前記標準サビ区間のうち、前記サビ尤度データにより示される前記サビ尤度の最も高い区間を、前記基準区間として選択する、
前記(8)に記載の情報処理装置。
(10)
前記設定部は、前記判定部により判定された前記標準サビ区間のうち、ボーカル存在確率の最も高い区間を、前記基準区間として選択する、前記(8)に記載の情報処理装置。
(11)
前記設定部は、前記判定部により前記標準サビ区間であると判定された区間が存在しない場合には、前記楽曲に含まれるサビ区間以外の区間のうち、ボーカル存在確率の最も高い区間を、前記基準区間として選択する、前記(9)又は前記(10)に記載の情報処理装置。
(12)
前記設定部は、選択した前記基準区間よりも前方のボーカル不在時点を、前記抽出範囲の起点として設定する、前記(8)〜(11)のいずれか1項に記載の情報処理装置。
(13)
前記設定部は、前記基準区間に最も近い前記ボーカル不在時点を、前記抽出範囲の起点として設定する、前記(12)に記載の情報処理装置。
(14)
前記設定部は、前記基準区間の時間長よりも前記抽出範囲の時間長が長い場合に、前記抽出範囲内のより後方に前記基準区間が含まれるように選択される前記ボーカル不在時点を、前記抽出範囲の起点として設定する、前記(12)に記載の情報処理装置。
(15)
前記情報処理装置は、
前記設定部により設定された前記抽出範囲に対応する部分を前記楽曲から抽出する抽出部、
をさらに備える、前記(1)〜(14)のいずれか1項に記載の情報処理装置。
(16)
前記情報処理装置は、
前記設定部により設定された前記抽出範囲に対応する部分を前記楽曲から抽出する装置へ、前記抽出範囲を特定する抽出範囲データを送信する通信部、
をさらに備える、前記(1)〜(14)のいずれか1項に記載の情報処理装置。
(17)
情報処理装置の制御部により実行される情報処理方法であって、
楽曲に含まれる複数の区間のうちサビ区間を識別する区間データを取得することと、
標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、前記区間データにより識別されるサビ区間のうち前記標準サビ区間を判定することと、
判定された前記標準サビ区間を少なくとも部分的に含む抽出範囲を前記楽曲に設定することと、
を含む情報処理方法。
(18)
情報処理装置を制御するコンピュータを、
楽曲に含まれる複数の区間のうちサビ区間を識別する区間データを取得するデータ取得部と、
標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、前記区間データにより識別されるサビ区間のうち前記標準サビ区間を判定する判定部と、
判定された前記標準サビ区間を少なくとも部分的に含む抽出範囲を前記楽曲に設定する設定部と、
として機能させるためのプログラム。
100,200 情報処理装置(サーバ装置)
150 データ取得部
160 判定部
170 設定部
180 抽出部
190 再生部
230 通信部

Claims (18)

  1. 楽曲に含まれる複数の区間のうちサビ区間を識別する区間データを取得するデータ取得部と、
    標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、前記区間データにより識別されるサビ区間のうち前記標準サビ区間を判定する判定部と、
    判定された前記標準サビ区間を少なくとも部分的に含む抽出範囲を前記楽曲に設定する設定部と、
    を備える情報処理装置。
  2. 前記判定条件は、複数の楽曲に共通する前記非標準サビ区間の特性に関連する条件であり、
    前記判定部は、前記判定条件に従って前記非標準サビ区間であると判定されなかったサビ区間が前記標準サビ区間であると判定する、
    請求項1に記載の情報処理装置。
  3. 前記判定部は、各サビ区間が他のサビ区間と時間的に隣接するかに基づいて、各サビ区間が前記非標準サビ区間であるかを判定する、請求項2に記載の情報処理装置。
  4. 前記判定部は、各サビ区間におけるキーが他のサビ区間におけるキーから転調されているかに基づいて、各サビ区間が前記非標準サビ区間であるかを判定する、請求項2に記載の情報処理装置。
  5. 前記判定部は、前記楽曲の終盤に存在する大サビに相当するサビ区間を、前記非標準サビ区間であると判定する、請求項2に記載の情報処理装置。
  6. 前記判定部は、各サビ区間におけるボーカル存在確率に基づいて、各サビ区間が前記非標準サビ区間であるかを判定する、請求項2に記載の情報処理装置。
  7. 前記判定部は、各サビ区間におけるボーカル存在確率を、前記楽曲を通じたボーカル存在確率に応じて動的に決定される閾値と比較することにより、各サビ区間が前記非標準サビ区間であるかを判定する、請求項6に記載の情報処理装置。
  8. 前記設定部は、前記判定部により判定された前記標準サビ区間のうちの1つを基準区間として選択し、選択した当該基準区間を前記抽出範囲が少なくとも部分的に含むように、前記抽出範囲を前記楽曲に設定する、請求項1に記載の情報処理装置。
  9. 前記データ取得部は、前記楽曲について音声信号処理を実行することにより算出される前記複数の区間の各々のサビ尤度を示すサビ尤度データをさらに取得し、
    前記設定部は、前記判定部により判定された前記標準サビ区間のうち、前記サビ尤度データにより示される前記サビ尤度の最も高い区間を、前記基準区間として選択する、
    請求項8に記載の情報処理装置。
  10. 前記設定部は、前記判定部により判定された前記標準サビ区間のうち、ボーカル存在確率の最も高い区間を、前記基準区間として選択する、請求項8に記載の情報処理装置。
  11. 前記設定部は、前記判定部により前記標準サビ区間であると判定された区間が存在しない場合には、前記楽曲に含まれるサビ区間以外の区間のうち、ボーカル存在確率の最も高い区間を、前記基準区間として選択する、請求項9に記載の情報処理装置。
  12. 前記設定部は、選択した前記基準区間よりも前方のボーカル不在時点を、前記抽出範囲の起点として設定する、請求項8に記載の情報処理装置。
  13. 前記設定部は、前記基準区間に最も近い前記ボーカル不在時点を、前記抽出範囲の起点として設定する、請求項12に記載の情報処理装置。
  14. 前記設定部は、前記基準区間の時間長よりも前記抽出範囲の時間長が長い場合に、前記抽出範囲内のより後方に前記基準区間が含まれるように選択される前記ボーカル不在時点を、前記抽出範囲の起点として設定する、請求項12に記載の情報処理装置。
  15. 前記情報処理装置は、
    前記設定部により設定された前記抽出範囲に対応する部分を前記楽曲から抽出する抽出部、
    をさらに備える、請求項1に記載の情報処理装置。
  16. 前記情報処理装置は、
    前記設定部により設定された前記抽出範囲に対応する部分を前記楽曲から抽出する装置へ、前記抽出範囲を特定する抽出範囲データを送信する通信部、
    をさらに備える、請求項1に記載の情報処理装置。
  17. 情報処理装置の制御部により実行される情報処理方法であって、
    楽曲に含まれる複数の区間のうちサビ区間を識別する区間データを取得することと、
    標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、前記区間データにより識別されるサビ区間のうち前記標準サビ区間を判定することと、
    判定された前記標準サビ区間を少なくとも部分的に含む抽出範囲を前記楽曲に設定することと、
    を含む情報処理方法。
  18. 情報処理装置を制御するコンピュータを、
    楽曲に含まれる複数の区間のうちサビ区間を識別する区間データを取得するデータ取得部と、
    標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、前記区間データにより識別されるサビ区間のうち前記標準サビ区間を判定する判定部と、
    判定された前記標準サビ区間を少なくとも部分的に含む抽出範囲を前記楽曲に設定する設定部と、
    として機能させるためのプログラム。
JP2012143954A 2012-06-27 2012-06-27 情報処理装置、情報処理方法及びプログラム Pending JP2014006480A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012143954A JP2014006480A (ja) 2012-06-27 2012-06-27 情報処理装置、情報処理方法及びプログラム
US13/894,540 US20140000441A1 (en) 2012-06-27 2013-05-15 Information processing apparatus, information processing method, and program
CN201310247231.8A CN103514885A (zh) 2012-06-27 2013-06-20 信息处理设备、信息处理方法和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012143954A JP2014006480A (ja) 2012-06-27 2012-06-27 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2014006480A true JP2014006480A (ja) 2014-01-16

Family

ID=49776790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012143954A Pending JP2014006480A (ja) 2012-06-27 2012-06-27 情報処理装置、情報処理方法及びプログラム

Country Status (3)

Country Link
US (1) US20140000441A1 (ja)
JP (1) JP2014006480A (ja)
CN (1) CN103514885A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104282322A (zh) * 2014-10-29 2015-01-14 深圳市中兴移动通信有限公司 一种移动终端及其识别歌曲高潮部分的方法和装置
WO2022038958A1 (ja) * 2020-08-17 2022-02-24 ヤマハ株式会社 楽曲構造解析装置および楽曲構造解析方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5967564B2 (ja) * 2010-04-17 2016-08-10 Nl技研株式会社 電子オルゴール
US8927846B2 (en) * 2013-03-15 2015-01-06 Exomens System and method for analysis and creation of music
USD764507S1 (en) * 2014-01-28 2016-08-23 Knotch, Inc. Display screen or portion thereof with animated graphical user interface
USD748134S1 (en) * 2014-03-17 2016-01-26 Lg Electronics Inc. Display panel with transitional graphical user interface
USD748670S1 (en) * 2014-03-17 2016-02-02 Lg Electronics Inc. Display panel with transitional graphical user interface
USD748671S1 (en) * 2014-03-17 2016-02-02 Lg Electronics Inc. Display panel with transitional graphical user interface
USD748669S1 (en) * 2014-03-17 2016-02-02 Lg Electronics Inc. Display panel with transitional graphical user interface
USD757093S1 (en) * 2014-03-17 2016-05-24 Lg Electronics Inc. Display panel with transitional graphical user interface
CN104966527B (zh) * 2015-05-27 2017-04-19 广州酷狗计算机科技有限公司 K歌处理方法、装置以及k歌处理系统
WO2016188211A1 (zh) 2015-05-27 2016-12-01 腾讯科技(深圳)有限公司 音频处理方法、装置及系统
US11487815B2 (en) * 2019-06-06 2022-11-01 Sony Corporation Audio track determination based on identification of performer-of-interest at live event
CN113345470B (zh) * 2021-06-17 2022-10-18 青岛聚看云科技有限公司 一种k歌内容审核方法、显示设备及服务器

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2956569B2 (ja) * 1996-02-26 1999-10-04 ヤマハ株式会社 カラオケ装置
US7038118B1 (en) * 2002-02-14 2006-05-02 Reel George Productions, Inc. Method and system for time-shortening songs
DE102004047032A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bezeichnen von verschiedenen Segmentklassen
US8013229B2 (en) * 2005-07-22 2011-09-06 Agency For Science, Technology And Research Automatic creation of thumbnails for music videos
JP4465626B2 (ja) * 2005-11-08 2010-05-19 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7826911B1 (en) * 2005-11-30 2010-11-02 Google Inc. Automatic selection of representative media clips
EP2088518A1 (en) * 2007-12-17 2009-08-12 Sony Corporation Method for music structure analysis
JP5594052B2 (ja) * 2010-10-22 2014-09-24 ソニー株式会社 情報処理装置、楽曲再構成方法及びプログラム
JP2014010275A (ja) * 2012-06-29 2014-01-20 Sony Corp 情報処理装置、情報処理方法及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104282322A (zh) * 2014-10-29 2015-01-14 深圳市中兴移动通信有限公司 一种移动终端及其识别歌曲高潮部分的方法和装置
CN104282322B (zh) * 2014-10-29 2019-07-19 努比亚技术有限公司 一种移动终端及其识别歌曲高潮部分的方法和装置
WO2022038958A1 (ja) * 2020-08-17 2022-02-24 ヤマハ株式会社 楽曲構造解析装置および楽曲構造解析方法
JP7537175B2 (ja) 2020-08-17 2024-08-21 ヤマハ株式会社 楽曲構造解析装置、楽曲構造解析方法および楽曲構造解析プログラム

Also Published As

Publication number Publication date
CN103514885A (zh) 2014-01-15
US20140000441A1 (en) 2014-01-02

Similar Documents

Publication Publication Date Title
JP2014006480A (ja) 情報処理装置、情報処理方法及びプログラム
US20230018442A1 (en) Looping audio-visual file generation based on audio and video analysis
AU2012213646B2 (en) Semantic audio track mixer
US8710343B2 (en) Music composition automation including song structure
US11475867B2 (en) Method, system, and computer-readable medium for creating song mashups
Rubin et al. Content-based tools for editing audio stories
US8426715B2 (en) Client-side audio signal mixing on low computational power player using beat metadata
US6933432B2 (en) Media player with “DJ” mode
US9230528B2 (en) Song length adjustment
JP2004163590A (ja) 再生装置及びプログラム
JP2014010275A (ja) 情報処理装置、情報処理方法及びプログラム
US20110231426A1 (en) Song transition metadata
JP7428182B2 (ja) 情報処理装置および方法、並びにプログラム
JP6733240B2 (ja) コンテンツの一覧の更新方法
JP6781636B2 (ja) 情報出力装置及び情報出力方法
JP7028942B2 (ja) 情報出力装置及び情報出力方法
KR20070048484A (ko) 음악파일 자동 분류를 위한 특징 데이터베이스 생성 장치및 그 방법과, 그를 이용한 재생 목록 자동 생성 장치 및그 방법
JP2005148775A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
WO2024079625A1 (en) A computer assisted method for classifying digital audio files
JP4447540B2 (ja) カラオケ唱歌録音作品の鑑賞システム