JP2014006480A

JP2014006480A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2014006480A
Application number: JP2012143954A
Authority: JP
Inventors: Yasushi Miyajima; 靖宮島
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-06-27
Filing date: 2012-06-27
Publication date: 2014-01-16
Also published as: CN103514885A; US20140000441A1

Abstract

【課題】特徴的なサビ区間を含む短縮バージョンを、既存の手法よりも高い精度で楽曲から抽出することを可能にすること。
【解決手段】楽曲に含まれる複数の区間のうちサビ区間を識別する区間データを取得するデータ取得部と、標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、前記区間データにより識別されるサビ区間のうち前記標準サビ区間を判定する判定部と、判定された前記標準サビ区間を少なくとも部分的に含む抽出範囲を前記楽曲に設定する設定部と、を備える情報処理装置を提供する。
【選択図】図２

Description

本開示は、情報処理装置、情報処理方法及びプログラムに関する。

従来、例えば楽曲配信サービスにおいて、ユーザによる楽曲の購入の判断を支援するために、最終的に販売されるバージョンとは別に、試聴のための短縮バージョンがユーザに提供されている。短縮バージョンは、一般的には、楽曲の一部分を切り出すことにより作製される。楽曲配信サービスでは、取り扱われる楽曲の数が膨大であるため、楽曲のどの部分を切り出すべきかをオペレータが個々に指示することは現実的でない。そこで、通常、固定的に与えられる時間的範囲（例えば、先頭から３０秒など）に対応する部分が、楽曲の短縮バージョンとして自動的に切り出される。

楽曲の短縮バージョンのニーズは、ムービー（スライドショーを含む）が作製される場面においても存在する。ＢＧＭを伴うムービーが作製される際、一般的には、画像シーケンスの再生に要する時間に合わせて、所望の楽曲の一部分が切り出される。そして、切り出された部分が、ＢＧＭとしてムービーに付加される。

下記特許文献１は、楽曲の短縮バージョンを自動的に生成するための技術を提案している。下記特許文献１に記載された技術は、楽曲から切り出すべき部分を決定するために、音声波形を含む楽曲データを解析することによりエンベロープ情報を取得し、取得したエンベロープ情報を用いて楽曲の盛り上がりを判定する。

特開２００２−０７３０５５号公報

しかしながら、固定的に与えられる時間的範囲に対応する部分を楽曲から切り出す手法では、楽曲の盛り上がりを特徴的に表現するサビ区間を、短縮バージョンに含めることに失敗することが少なくなかった。また、楽曲データを解析する手法では、短縮バージョンとって最適な区間の判定の精度が未だ十分ではなく、楽曲の特徴を最もよく表現している区間が適切に抽出されないケースがあった。

従って、特徴的なサビ区間を含む短縮バージョンを、上述した既存の手法よりも高い精度で抽出することを可能にする仕組みが提供されることが望ましい。

本開示によれば、楽曲に含まれる複数の区間のうちサビ区間を識別する区間データを取得するデータ取得部と、標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、前記区間データにより識別されるサビ区間のうち前記標準サビ区間を判定する判定部と、判定された前記標準サビ区間を少なくとも部分的に含む抽出範囲を前記楽曲に設定する設定部と、を備える情報処理装置が提供される。

また、本開示によれば、情報処理装置の制御部により実行される情報処理方法であって、楽曲に含まれる複数の区間のうちサビ区間を識別する区間データを取得することと、標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、前記区間データにより識別されるサビ区間のうち前記標準サビ区間を判定することと、判定された前記標準サビ区間を少なくとも部分的に含む抽出範囲を前記楽曲に設定することと、を含む情報処理方法が提供される。

また、本開示によれば、情報処理装置を制御するコンピュータを、楽曲に含まれる複数の区間のうちサビ区間を識別する区間データを取得するデータ取得部と、標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、前記区間データにより識別されるサビ区間のうち前記標準サビ区間を判定する判定部と、判定された前記標準サビ区間を少なくとも部分的に含む抽出範囲を前記楽曲に設定する設定部と、として機能させるためのプログラムが提供される。

本開示に係る技術によれば、特徴的なサビ区間を含む短縮バージョンを、既存の手法よりも高い精度で楽曲から抽出することができる。

本開示に係る技術の基本的な原理について説明するための説明図である。一実施形態に係る情報処理装置の構成の一例を示すブロック図である。区間データ及び補助データの一例について説明するための説明図である。非標準サビ区間を判定するための第１の判定条件について説明するための第１の説明図である。非標準サビ区間を判定するための第１の判定条件について説明するための第２の説明図である。非標準サビ区間を判定するための第２の判定条件について説明するための説明図である。非標準サビ区間を判定するための第３の判定条件について説明するための説明図である。非標準サビ区間を判定するための第４の判定条件について説明するための説明図である。基準区間を選択するための第１の選択条件について説明するための説明図である。基準区間を選択するための第２の選択条件について説明するための説明図である。基準区間を選択するための第３の選択条件について説明するための説明図である。抽出範囲を設定するための第１の手法について説明するための説明図である。抽出範囲を設定するための第２の手法について説明するための説明図である。抽出部による抽出処理の一例について説明するための説明図である。一実施形態に係る処理の全体的な流れの一例を示すフローチャートである。図１４に示したサビ区間フィルタリング処理の詳細な流れの一例を示すフローチャートである。図１４に示した基準区間選択処理の詳細な流れの一例を示すフローチャートである。一変形例に係るサーバ装置の構成の一例を示すブロック図である。一変形例に係る端末装置の構成の一例を示すブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、以下の順序で説明を行う。
１．基本的な原理
２．一実施形態に係る情報処理装置の構成例
３．一実施形態に係る処理の流れの例
４．変形例
５．まとめ

＜１．基本的な原理＞
図１は、本開示に係る技術の基本的な原理について説明するための説明図である。

図１の上段には、ある楽曲の楽曲データＯＶが示されている。楽曲データＯＶは、例えば、時間軸に沿った楽曲の波形を所定のサンプリングレートでサンプリングし、サンプルを符号化することにより生成されるデータである。本明細書では、短縮バージョンを抽出する元となる楽曲データを、楽曲のオリジナルバージョンともいう。

楽曲データＯＶの下には、区間データＳＤが示されている。区間データＳＤは、楽曲に含まれる複数の区間のうちサビ区間を識別するデータである。図１の例では、区間データＳＤに含まれる１４個の区間Ｍ１〜Ｍ１４のうち、７個の区間Ｍ３、Ｍ４、Ｍ７、Ｍ８、Ｍ１０、Ｍ１３及びＭ１４がサビ区間として識別されている。区間データＳＤは、例えば、特開２００７−１５６４３４号公報に記載された手法（又はその他の既存の手法）に従って、楽曲データＯＶを解析することにより、予め与えられているものとする。既存の手法では、例えば、楽曲について音声信号処理を実行して波形を解析することにより得られる特徴量から、区間ごとのサビ尤度（chorus likelihood；“サビらしさ”ともいう）が導かれる。サビ区間は、例えば、そうしたサビ尤度が所定の閾値を上回る区間であってもよい。

ここで留意すべきは、上述したサビ尤度の最も高い区間が、楽曲の特徴を最もよく表現しているとは限らない点である。例えば、音声波形のパワー成分に基づく特徴量が用いられる場合、楽曲の標準的なサビ区間ではなく、しばしば楽曲の中盤以降に位置するアレンジの加えられた特殊なサビ区間において、サビ尤度が最も高くなる傾向がある。また、サビ尤度の精度が十分でない場合には、本来サビ区間ではない区間がサビ区間として識別されているケース、又は本来サビ区間である区間がサビ区間として識別されていないケースがある。また、いわゆるインストゥルメンタル曲ではない通常のボーカル曲において、ボーカルの無い非ボーカル区間のサビ尤度が高くなる場合もある。

そこで、本開示に係る技術は、楽曲の特徴を最もよく表現している区間を判定するために、楽曲の波形を解析した結果のみならず、楽曲の区間の定性的な特性をも利用する。図１の例では、７個のサビ区間Ｍ３、Ｍ４、Ｍ７、Ｍ８、Ｍ１０、Ｍ１３及びＭ１４が、サビ区間の定性的な特性に基づいてフィルタリングされ、２個の標準サビ区間Ｍ７、Ｍ８及びその他の非標準サビ区間に分類されている。標準サビ区間は、楽曲の特徴を良好に表現している区間である。非標準サビ区間は、例えば、転調若しくはオフボーカル化などのアレンジの加えられた特殊なサビ区間、又は（本来サビ区間ではないはずの）誤って識別されたサビ区間などを含み得る。サビ区間のフィルタリングのために、補助データＡＤが追加的に利用されてもよい。標準サビ区間のうちの１つは、基準区間として選択される。そして、基準区間を少なくとも部分的に含むように（目標時間長に等しい長さを有する）抽出範囲が楽曲に設定され、楽曲データＯＶの抽出範囲に対応する部分が短縮バージョンＳＶとして抽出される。

上述した原理によれば、短縮バージョンの抽出範囲が、楽曲解析結果だけでなくサビ区間の定性的な特性にも基づいて設定されるため、楽曲解析の精度の不安定さの影響を軽減し、楽曲の特徴を良好に表現する短縮バージョンをより適切に生成することができる。このような原理を実装する本開示に係る技術の実施形態について、次節で詳細に説明する。

＜２．一実施形態に係る情報処理装置の構成例＞
本節で説明する情報処理装置は、例えば、ＰＣ（Personal Computer）、スマートフォン、ＰＤＡ（Personal Digital Assistant）、音楽プレーヤ、ゲーム端末又はデジタル家電機器などの端末装置であってもよい。また、当該情報処理装置は、端末装置から送信される要求に応じて以下に説明する処理を実行するサーバ装置であってもよい。これら装置は、物理的に１つのコンピュータを用いて実現されてもよく、複数のコンピュータが互いに連携することにより実現されてもよい。

図２は、本実施形態に係る情報処理装置１００の構成の一例を示すブロック図である。図２を参照すると、情報処理装置１００は、属性データベース（ＤＢ）１１０、楽曲ＤＢ１２０、ユーザインタフェース部１３０及び制御部１４０を備える。

［２−１．属性ＤＢ］
属性ＤＢ１１０は、ハードディスク又は半導体メモリなどの記憶媒体を用いて構成されるデータベースである。属性ＤＢ１１０は、１つ以上の楽曲について予め用意される属性データを記憶する。属性データは、図１を用いて説明した区間データＳＤ及び補助データＡＤを含み得る。区間データは、楽曲に含まれる複数の区間のうち、少なくともサビ区間を識別するデータである。補助データは、サビ区間のフィルタリング、基準区間の選択又は抽出範囲の設定のために追加的に利用され得るデータである。

図３は、区間データ及び補助データの一例について説明するための説明図である。図３の上段の時間軸に付された短い縦線は、ビートの時間的位置を示す。長い縦線は、小節線の時間的位置を示す。区間データＳＤは、小節線又はビートによって区分される区間ごとに、イントロ、Ａメロ、Ｂメロ、サビ（chorus）及びアウトロなどのメロディ種別を識別する。補助データＡＤは、キーデータ、ボーカル存在確率データ及びサビ尤度データを含む。キーデータは、例えば、区間ごとのキーを識別する（例えば、“Ｃ”はハ長調を示す）。ボーカル存在確率データは、例えば、各ビート位置においてボーカルが存在する確率を示す。サビ尤度データは、区間ごとに算出されるサビ尤度を示す。これら属性データは、特開２００７−１５６４３４号公報、特開２００７−２４８８９５号公報又は特開２０１０−１２２６２９号公報などに記載された手法に従って、楽曲データについて音声信号処理を実行することにより生成され、属性ＤＢ１１０により予め記憶され得る。

［２−２．楽曲ＤＢ］
楽曲ＤＢ１２０もまた、ハードディスク又は半導体メモリなどの記憶媒体を用いて構成されるデータベースである。楽曲ＤＢ１２０は、１つ以上の楽曲の楽曲データを記憶する。楽曲データは、図１に例示したような波形データを含む。波形データは、例えば、ＷＡＶＥ、ＭＰ３（MPEG Audio Layer‐3）又はＡＡＣ（Advanced Audio Coding）などの任意の音声符号化方式に従って符号化されてよい。楽曲ＤＢ１２０は、対象曲の短縮前の楽曲データ（即ち、オリジナルバージョン）ＯＶを、後に説明する抽出部１８０へ出力する。また、楽曲ＤＢ１２０は、抽出部１８０により生成される短縮バージョンＳＶを、追加的に記憶してもよい。

なお、属性ＤＢ１１０及び楽曲ＤＢ１２０の一方又は双方は、情報処理装置１００の一部でなくてもよい。例えば、これらデータベースは、情報処理装置１００からアクセス可能なデータサーバにおいて実現されてもよい。また、情報処理装置１００に接続されるリムーバブルメディアが、属性データ及び楽曲データを記憶していてもよい。

［２−３．ユーザインタフェース部］
ユーザインタフェース部１３０は、情報処理装置１００を利用し又は端末装置を介して情報処理装置１００にアクセスするユーザに、ユーザインタフェースを提供する。ユーザインタフェース部１３０により提供されるユーザインタフェースは、グラフィカルユーザインタフェース（ＧＵＩ）、コマンドラインインタフェース、音声ＵＩ又はジェスチャＵＩなどの、いかなる種類のユーザインタフェースであってもよい。例えば、ユーザインタフェース部１３０は、楽曲のリストをユーザに呈示し、短縮バージョンの生成の対象である対象曲をユーザに指定させてもよい。また、ユーザインタフェース部１３０は、短縮バージョンの時間長の目標値、即ち目標時間長をユーザに指定させてもよい。

［２−４．制御部］
制御部１４０は、ＣＰＵ（Central Processing Unit）又はＤＳＰ（Digital Signal Processor）などのプロセッサに相当する。制御部１４０は、記憶媒体に記憶されるプログラムを実行することにより、情報処理装置１００の様々な機能を動作させる。本実施形態において、制御部１４０は、処理設定部１４５、データ取得部１５０、判定部１６０、抽出範囲設定部１７０、抽出部１８０及び再生部１９０を含む。

（１）処理設定部
処理設定部１４５は、情報処理装置１００により実行される処理をセットアップする。処理設定部１４５は、例えば、対象曲の識別子、目標時間長、（後に説明する）抽出範囲の設定基準などの、様々な設定を保持する。処理設定部１４５は、ユーザにより指定される楽曲を対象曲に設定してもよく、又は属性ＤＢ１１０に属性データが記憶されている１つ以上の楽曲を自動的に対象曲に設定してもよい。目標時間長もまた、ユーザインタフェース部１３０を介してユーザにより指定されてもよく、又は自動的に設定されてもよい。サービスプロバイダが試聴のために短縮バージョンを多数提供しようとする場合には、目標時間長は、画一的に設定され得る。一方、ユーザがムービーにＢＧＭを付加しようとする場合には、目標時間長は、ユーザにより指定され得る。その他の設定については、後にさらに説明する。

（２）データ取得部
データ取得部１５０は、対象曲の区間データＳＤ及び補助データＡＤを属性ＤＢ１１０から取得する。上述したように、本実施形態において、区間データＳＤは、対象曲に含まれる複数の区間のうちの少なくともサビ区間を識別するデータである。そして、データ取得部１５０は、取得した区間データＳＤ及び補助データＡＤを判定部１６０へ出力する。

（３）判定部
判定部１６０は、標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、区間データＳＤにより識別されるサビ区間のうちの、楽曲の特徴を良好に表現している標準サビ区間を判定する。ここでの判定条件は、複数の楽曲に共通する非標準サビ区間の特性に関連する条件である。そして、本実施形態において、判定部１６０は、上記判定条件に従って非標準サビ区間であると判定されなかったサビ区間が標準サビ区間であると判定する。

判定条件として、例えば、次の４種類の非標準サビ区間を判定するための条件の少なくとも１つが利用されてよい。
−単独サビ区間
−転調サビ区間
−大サビ区間
−非ボーカル区間

（３−１）第１の判定条件
図４Ａ及び図４Ｂは、第１の判定条件について説明するための説明図である。第１の判定条件は、単独サビ区間を判定するための条件であり、各サビ区間が他のサビ区間と時間的に隣接するかに基づく。本明細書において、単独サビ区間（Single Chorus Section：ＳＣＳ）は、他のサビ区間と時間的に隣接しないサビ区間を意味する。これに対し、時間的に隣接する複数のサビ区間の集合（クラスタ）を、集合サビ区間（Clustered Chorus Sections：ＣＣＳ）という。ある楽曲において、単独サビ区間の数が集合サビ区間の数よりも少なければ、単独サビ区間は、アレンジの加えられた特殊なサビ区間又は誤って識別されたサビ区間である可能性が高い。従って、その場合には、非標準サビ区間である単独サビ区間を基準区間（抽出範囲の設定の基準として扱われる区間）の候補から除外することにより、不適切な抽出範囲が楽曲に設定されることを回避することができる。

図４Ａを参照すると、区間データＳＤ１により識別される７個のサビ区間Ｍ３、Ｍ４、Ｍ７、Ｍ８、Ｍ１０、Ｍ１３及びＭ１４が示されている。サビ区間Ｍ３及びＭ４は互いに隣接しており、１つの集合サビ区間を形成する。サビ区間Ｍ７及びＭ８もまた互いに隣接しており、１つの集合サビ区間を形成する。サビ区間Ｍ１３及びＭ１４もまた互いに隣接しており、１つの集合サビ区間を形成する。サビ区間Ｍ１０は、他のサビ区間と隣接していないため、単独サビ区間である。判定部１６０は、区間データから認識されるこのようなサビ区間の隣接関係に基づいて、単独サビ比率Ｒ_ＳＣＳを計算する。単独サビ比率Ｒ_ＳＣＳは、単独サビ区間及び集合サビ区間の総数に対する単独サビ区間の個数の比率である。図４Ａの例では、単独サビ比率Ｒ_ＳＣＳ＝０．２５＜０．５であり、単独サビ区間の数が集合サビ区間の数よりも少ない。従って、判定部１６０は、単独サビ区間であるサビ区間Ｍ１０を、非標準サビ区間であると判定する。

図４Ｂを参照すると、区間データＳＤ２により識別される５個のサビ区間Ｍ３、Ｍ６、Ｍ８、Ｍ１１及びＭ１２が示されている。サビ区間Ｍ１１及びＭ１２は互いに隣接しており、１つの集合サビ区間を形成する。サビ区間Ｍ３、Ｍ６及びＭ８は、いずれも他のサビ区間と隣接していないため、単独サビ区間である。図４Ｂの例では、単独サビ比率Ｒ_ＳＣＳ＝０．７５＞０．５であり、単独サビ区間の数は集合サビ区間の数よりも多い。従って、判定部１６０は、単独サビ区間を非標準サビ区間であると判定しない。即ち、この場合、単独サビ区間Ｍ３、Ｍ６及びＭ８は、基準区間の候補から除外されずに残される。

（３−２）第２の判定条件
図５は、第２の判定条件について説明するための説明図である。第２の判定条件は、転調サビ区間を判定するための条件であり、各サビ区間におけるキーが他のサビ区間におけるキーから転調されているかに基づく。いくつかの楽曲では、楽曲の途中でそれまでのキーから別の（例えば半音又は１音高い）キーへと転調が行われることがある。転調サビ区間とは、そのような転調されたサビ区間をいう。転調サビ区間はアレンジの加えられた特殊なサビ区間であるため、転調サビ区間を基準区間の候補から除外することにより、不適切な抽出範囲が楽曲に設定されることを回避することができる。

図５を参照すると、区間データＳＤ１により識別される７個のサビ区間Ｍ３、Ｍ４、Ｍ７、Ｍ８、Ｍ１０、Ｍ１３及びＭ１４が再び示されている。また、補助データの１つであるキーデータにより示される区間ごとのキーも示されている。キーデータは、区間Ｍ１から区間Ｍ１３までのキーが“Ｃ（ハ長調）”であるのに対し、区間Ｍ１４のキーが“Ｄ（ニ長調）”であることを示している。従って、判定部１６０は、サビ区間Ｍ１４を、非標準サビ区間の１つである転調サビ区間であると判定する。なお、いくつかの楽曲では、楽曲の中盤以前で転調が行われるケースがあり、このようなケースでは転調後のサビが特殊なサビであるとは言えない。そこで、判定部１６０は、楽曲全体の時間長の所定の割合（例えば、２／３）が経過する時点までの転調を無視し、当該時点以降の転調に基づいて転調サビを判定してもよい。

（３−３）第３の判定条件
図６は、第３の判定条件について説明するための説明図である。第３の判定条件は、大サビ区間を判定するための条件である。多くの楽曲において、メロディの変更、テンポの変更又は特定の音への歌詞の変更（“ラララ…”など）などの様々なアレンジが、楽曲の終盤で行われる。これらアレンジを加えられたサビ区間は、楽曲の標準的な特徴を良好に表現しているとは言えない。従って、大サビ区間を基準区間の候補から除外することにより、不適切な抽出範囲が楽曲に設定されることを回避することができる。判定部１６０は、楽曲の終盤に存在するサビ区間を大サビ区間であると判定してもよい。楽曲の終盤とは、例えば、楽曲全体の時間長の所定の割合（例えば、２／３）が経過した時点以降をいう。その代わりに、判定部１６０は、最後方に位置するサビ区間又は集合サビ区間を、大サビ区間であると判定してもよい。

図６を参照すると、区間データＳＤ１により識別される７個のサビ区間Ｍ３、Ｍ４、Ｍ７、Ｍ８、Ｍ１０、Ｍ１３及びＭ１４が再び示されている。また、楽曲全体の時間長ＴＬ_{ｔｏｔａｌ}、及び時間長ＴＬ_{ｔｏｔａｌ}の２／３に相当する時間長ＴＬ_ｔｈｓｄも示されている。判定部１６０は、例えば、時間長ＴＬ_ｔｈｓｄが経過した時点以降に存在するサビ区間Ｍ１３及びＭ１４を、非標準サビ区間の１つである大サビ区間であると判定する。

（３−４）第４の判定条件
図７は、第４の判定条件について説明するための説明図である。第４の判定条件は、非ボーカル区間を判定するための条件である。いくつかのボーカル曲において、サビと類似するコード進行を有するメロディが楽器のみで演奏される区間が存在するケースがある。そのような非ボーカル区間もまた音声信号処理の結果としてサビ区間として識別され得るが、ボーカル曲における非ボーカル区間は楽曲の標準的な特徴を良好に表現しているとは言えない。従って、非ボーカル区間を基準区間の候補から除外することにより、不適切な抽出範囲が楽曲に設定されることを回避することができる。

図７を参照すると、区間データＳＤ１により識別される７個のサビ区間Ｍ３、Ｍ４、Ｍ７、Ｍ８、Ｍ１０、Ｍ１３及びＭ１４が再び示されている。また、ボーカル存在確率データにより示される確率の区間ごとの平均値も示されている。閾値Ｐ_１は、非ボーカル区間を判別するための閾値である。判定部１６０は、ボーカル存在確率の区間平均が閾値Ｐ_１を下回るサビ区間Ｍ３及びＭ４を、非標準サビ区間の１つである非ボーカル区間であると判定する。

判定部１６０は、楽曲を通じたボーカル存在確率に応じて、閾値Ｐ_１を動的に決定してもよい。例えば、閾値Ｐ_１は、楽曲全体にわたるボーカル存在確率の平均値であってもよく、又は当該平均値と所定の係数との積であってもよい。ボーカル存在確率の区間平均と比較される閾値をこのように動的に決定することにより、ボーカルが存在しないことが特殊でない例えばインストゥルメンタル曲において、楽曲の特徴を良好に表現している区間が基準区間の候補から除外されてしまうことを防ぐことができる。

判定部１６０は、区間データＳＤにより識別される１つ以上のサビ区間を基準区間の候補セットとし、上述した判定条件の少なくとも１つに従って非標準サビ区間であると判定された非標準サビ区間を、基準区間の候補セットから除外する。基準区間の候補セットに残されるサビ区間は、楽曲の特徴を良好に表現する標準サビ区間であると判定される。そして、判定部１６０は、基準区間の候補セットを、抽出範囲設定部１７０へ出力する。

（４）抽出範囲設定部
抽出範囲設定部１７０は、判定部１６０から基準区間の候補セットを取得する。ここで取得される基準区間の候補セットは、上述した非標準サビ区間を含まず、標準サビ区間のみを含む。抽出範囲設定部１７０は、取得した基準区間の候補セットから、基準区間を選択する。そして、抽出範囲設定部１７０は、選択した基準区間を少なくとも部分的に含む抽出範囲を対象曲に設定する。

（４−１）基準区間の選択
抽出範囲設定部１７０は、例えば、サビ尤度データにより示されるサビ尤度の最も高い区間を、基準区間として選択してもよい（第１の選択条件）。その代わりに、抽出範囲設定部１７０は、ボーカル存在確率の区間平均の最も高い区間を、基準区間として選択してもよい（第２の選択条件）。また、抽出範囲設定部１７０は、基準区間の候補セットが空である場合、即ち標準サビ区間であると判定された区間が存在しない場合には、対象曲に含まれるサビ区間以外の区間のうち、ボーカル存在確率の最も高い区間を基準区間として選択してもよい（第３の選択条件）。

図８は、基準区間を選択するための第１の選択条件について説明するための説明図である。図８を参照すると、区間データＳＤ１により識別される７個のサビ区間Ｍ３、Ｍ４、Ｍ７、Ｍ８、Ｍ１０、Ｍ１３及びＭ１４のうちの区間Ｍ７及びＭ８が、標準サビ区間であると判定されている。標準サビ区間Ｍ８のサビ尤度は、標準サビ区間Ｍ７のサビ尤度よりも高い。そこで、抽出範囲設定部１７０は、標準サビ区間Ｍ８を基準区間（ＲＳ：Reference Section）として選択し得る。このようなサビ尤度に基づいて基準区間を選択する手法は、楽曲解析結果のみに基づく既存の手法に、ある面において類似している。しかしながら、本実施形態では、複数の楽曲に共通するサビ区間の定性的な特性に基づいて非標準サビ区間であると判定されたサビ区間が、基準区間の候補セットから除外されている。そのため、楽曲の特徴を良好に表現していないものの高いサビ尤度を示す特殊なサビ区間が抽出範囲の設定の基準として選択されることを防ぐことができる。

図９は、基準区間を選択するための第２の選択条件について説明するための説明図である。図９を参照すると、図８の例と同様、区間データＳＤ１により識別される７個のサビ区間Ｍ３、Ｍ４、Ｍ７、Ｍ８、Ｍ１０、Ｍ１３及びＭ１４のうちの区間Ｍ７及びＭ８が、標準サビ区間であると判定されている。標準サビ区間Ｍ７のボーカル存在確率（区間平均）は、標準サビ区間Ｍ８のボーカル存在確率よりも高い。そこで、抽出範囲設定部１７０は、標準サビ区間Ｍ７を基準区間として選択し得る。このようなボーカル存在確率に基づいて基準区間を選択する手法によれば、楽曲の特徴を良好に表現するボーカル区間であるサビ区間を、より確実に短縮バージョンのための抽出範囲に含めることができる。なお、抽出範囲設定部１７０は、対象曲がインストゥルメンタル曲でない場合に限って、上記第２の選択条件を採用してもよい。

図１０は、基準区間を選択するための第３の選択条件について説明するための説明図である。図１０の例では、７個のサビ区間Ｍ３、Ｍ４、Ｍ７、Ｍ８、Ｍ１０、Ｍ１３及びＭ１４が全て非標準サビ区間であると判定された結果、標準サビ区間が存在しない。この場合、抽出範囲設定部１７０は、サビ区間以外の区間のボーカル存在確率（区間平均）を互いに比較する。そして、抽出範囲設定部１７０は、ボーカル存在確率の最も高い区間（図１０の例では、区間Ｍ６）を基準区間として選択し得る。例えば、楽曲解析結果として得られるサビ尤度の精度が劣悪である場合、又は対象曲が例外的なメロディ構成を有する場合には、基準区間の候補セットに標準サビ区間が残らない可能性がある。その場合にも、第３の選択条件に従って基準区間が選択されることで、楽曲の特徴を比較的良好に表現するボーカル区間を、短縮バージョンのための抽出範囲に含めることができる。

なお、抽出範囲設定部１７０は、サビ尤度データ及びボーカル存在確率データが共に利用可能でない場合には、基準区間の候補セットに残る標準サビ区間のうちの所定の位置（例えば、最前方）の区間又はランダムに選択される区間を、基準区間として選択してもよい。

（４−２）抽出範囲の設定
抽出範囲設定部１７０は、上述したいずれかの選択条件に従って基準区間を選択した後、選択した基準区間を少なくとも部分的に含む抽出範囲を対象曲に設定する。抽出範囲設定部１７０は、例えば、基準区間よりも前方のボーカル不在時点を、抽出範囲の起点として設定してよい。ボーカル不在時点とは、ボーカル存在確率データにより示されるボーカル存在確率（区間平均ではなく、例えばより時間分解能の高いビート位置ごとの確率）が所定の閾値を下回る時点である。基準区間の先頭ではなくより前方のボーカル不在時点を抽出範囲の起点として設定することで、歌い手が基準区間の先頭よりも早く基準区間の歌詞を発声しているような場合にも、短縮バージョンにおいてその歌詞が欠損することを回避することができる。また、抽出範囲設定部１７０は、抽出範囲の起点から後方へ目標時間長だけ離れた時点を、抽出範囲の終点として設定する。

抽出範囲設定部１７０は、例えば、基準区間に最も近い前方のボーカル不在時点を、抽出範囲の起点として設定してもよい。図１１は、抽出範囲を設定するための第１の手法について説明するための説明図である。図１１を参照すると、基準区間として選択された標準サビ区間Ｍ８、及びビート位置ごとのボーカル存在確率が示されている。図中の三角形の記号は、ボーカル区間内のいくつかのボーカル不在時点（ボーカル存在確率が閾値Ｐ_２を下回る時点）を指し示す。図１１の例において、抽出範囲設定部１７０は、基準区間Ｍ８の直前のボーカル不在時点ＴＰ_１を起点とし、目標時間長に相当する長さを有する抽出範囲（ＥＲ：Extraction Range）を、対象曲に設定している。このような第１の手法によれば、例えば、楽曲配信サービスにおける試聴のために短縮バージョンが利用される場合に、楽曲の特徴を最もよく表現している区間をより早いタイミングで視聴ユーザに聴かせて、楽曲の購入を効果的に促すことができる。

その代わりに、抽出範囲設定部１７０は、例えば、基準区間の時間長よりも抽出範囲の目標時間長が長い場合に、抽出範囲内のより後方に基準区間が含まれるように、当該抽出範囲の起点として設定されるべきボーカル不在時点を選択してもよい。図１２は、抽出範囲を設定するための第２の手法について説明するための説明図である。図１２の例では、図１１に例示したボーカル不在時点ＴＰ_１よりも前方に位置するボーカル不在時点ＴＰ_２が、抽出範囲の起点として選択されている。その結果、基準区間Ｍ８は、設定される抽出範囲内のより後方に含まれている。このような第２の手法によれば、例えば、後半にクライマックスを迎えるムービーのＢＧＭのために短縮バージョンが生成される場合に、楽曲の特徴を最もよく表現しているサビ区間をそのクライマックスに合わせて配置することができる。

抽出範囲設定部１７０は、例えば、抽出範囲の起点をどの位置に設定すべきかに関する設定基準（例えば、上述した第１の手法又は第２の手法など）を、ユーザインタフェース部１３０を介してユーザに指定させてもよい。それにより、短縮バージョンの様々な用途に合わせて適切な抽出範囲を楽曲に設定することが可能となる。基準区間の時間長よりも抽出範囲の目標時間長が短い場合には、基準区間の一部のみが抽出範囲に含まれてもよい。

（５）抽出部
抽出部１８０は、抽出範囲設定部１７０により設定された抽出範囲に対応する部分を、対象曲の楽曲データから抽出することにより、対象曲の短縮バージョンを生成する。図１３は、抽出部１８０による抽出処理の一例について説明するための説明図である。図１３を参照すると、基準区間として選択された標準サビ区間Ｍ８、及び標準サビ区間Ｍ８を含むように設定された抽出範囲ＥＲが示されている。抽出部１８０は、抽出範囲ＥＲに対応する部分を、楽曲ＤＢ１２０から取得される対象曲の楽曲データＯＶから抽出する。その結果、対象曲の短縮バージョンＳＶが生成される。抽出部１８０は、短縮バージョンＳＶの末尾にフェードアウトを適用してもよい。抽出部１８０は、生成した短縮バージョンＳＶを、楽曲ＤＢ１２０に記憶させてもよい。その代わりに、抽出部１８０は、短縮バージョンＳＶを再生部１９０へ出力し、短縮バージョンＳＶを再生部１９０に再生させてもよい。短縮バージョンＳＶは、例えば、試聴のために再生部１９０により再生され、又はＢＧＭとしてムービーに付加され得る。

（６）再生部
再生部１９０は、抽出部１８０により生成された楽曲を再生する。再生部１９０は、例えば、楽曲ＤＢ１２０又は抽出部１８０から取得される短縮バージョンＳＶを再生し、短縮された楽曲の音声をユーザインタフェース部１３０を介して出力する。

＜３．一実施形態に係る処理の流れの例＞
［３−１．全体的な流れ］
図１４は、本実施形態に係る情報処理装置１００により実行される処理の全体的な流れの一例を示すフローチャートである。

図１４を参照すると、まず、データ取得部１５０は、対象曲の区間データ及び補助データを属性ＤＢ１１０から取得する（ステップＳ１１０）。そして、データ取得部１５０は、取得した区間データ及び補助データを判定部１６０へ出力する。

次に、判定部１６０は、データ取得部１５０から入力される区間データに基づいて、基準区間の候補セットを初期化する（ステップＳ１２０）。例えば、判定部１６０は、対象曲に含まれる区間の数に等しい長さのビット配列を用意し、区間データにより識別されるサビ区間に対応するビットを“１”に、その他のビットを“０”に設定する。

次に、判定部１６０は、対象曲のボーカル存在確率データにより示されるボーカル存在確率の区間平均を各区間について計算する。さらに、判定部１６０は、ボーカル存在確率の楽曲全体にわたる平均を計算する（ステップＳ１３０）。

次に、判定部１６０は、サビ区間フィルタリング処理を実行する（ステップＳ１４０）。ここで実行されるサビ区間フィルタリング処理について、後により詳細に説明する。サビ区間フィルタリング処理において非標準サビ区間であると判定された区間は、基準区間の候補セットから除外される。即ち、例えばステップＳ１２０において用意されたビット配列の非標準サビ区間に対応するビットが、“０”に変更される。

次に、抽出範囲設定部１７０は、基準区間選択処理を実行する（ステップＳ１６０）。ここで実行される基準区間選択処理について、後により詳細に説明する。基準区間選択処理の結果として、上述したビット配列において“１”を示すビットに対応する標準サビ区間のいずれか（又は他の区間）が、基準区間として選択される。次に、抽出範囲設定部１７０は、選択した基準区間を少なくとも部分的に含む抽出範囲を、例えば上述した第１の手法又は第２の手法に従って、対象曲に設定する（ステップＳ１７０）。

次に、抽出部１８０は、抽出範囲設定部１７０により設定された抽出範囲に対応する部分を、対象曲の楽曲データから抽出する（ステップＳ１８０）。それにより、対象曲の短縮バージョンが生成される。そして、抽出部１８０は、生成した短縮バージョンを楽曲ＤＢ１２０又は再生部１９０へ出力する。

［３−２．サビ区間フィルタリング処理］
図１５は、図１４に示したサビ区間フィルタリング処理の詳細な流れの一例を示すフローチャートである。

図１５を参照すると、まず、判定部１６０は、対象曲に含まれる単独サビ区間及び集合サビ区間をカウントし、対象曲の単独サビ比率が閾値（例えば、０．５）を下回るか否かを判定する（ステップＳ１４１）。そして、判定部１６０は、対象曲の単独サビ比率が閾値を下回る場合には、単独サビ区間を非標準サビ区間であると判定する（ステップＳ１４２）。

次に、判定部１６０は、キーデータを用いて対象曲に含まれる転調サビ区間を識別し、識別した転調サビ区間を非標準サビ区間であると判定する（ステップＳ１４３）。

次に、判定部１６０は、各サビ区間の時間的位置に基づいて対象曲に含まれる大サビ区間を識別し、識別した大サビ区間を非標準サビ区間であると判定する（ステップＳ１４４）。

次に、判定部１６０は、対象曲にボーカルが存在するか否かを判定する（ステップＳ１４５）。ここでの判定は、対象曲のボーカル存在確率に基づいて行われてもよく、又は楽曲に予め付与される種別（ボーカル曲又はインストゥルメンタル曲など）に基づいて行われてもよい。判定部１６０は、対象曲にボーカルが存在する場合には、ボーカル存在確率と比較される閾値（図７に例示した閾値Ｐ_１）を、ボーカル存在確率の楽曲全体にわたる平均値から決定する（ステップＳ１４６）。そして、判定部１６０は、ボーカル存在確率の区間平均がステップＳ１４６において決定した閾値を下回る非ボーカル区間を、非標準サビ区間であると判定する（ステップＳ１４７）。

そして、判定部１６０は、ステップＳ１４２、Ｓ１４３、Ｓ１４４及びＳ１４７において非標準サビ区間であると判定されたサビ区間を、基準区間の候補セットから除外する（ステップＳ１４８）。例えば、判定部１６０は、図１４のステップＳ１２０において用意されたビット配列の非標準サビ区間に対応するビットを、“０”に変更する。ここで除外されることなく残ったサビ区間（ビット配列において“１”を示すビットに対応する区間）が、標準サビ区間である。

［３−３．サビ区間フィルタリング処理］
図１６は、図１４に示した基準区間選択処理の詳細な流れの一例を示すフローチャートである。

図１６を参照すると、まず、抽出範囲設定部１７０は、基準区間の候補セットに標準サビ区間が残っているかを判定する（ステップＳ１６１）。ここで、基準区間の候補セットに標準サビ区間が残っている場合には、処理はステップＳ１６２へ進む。一方、基準区間の候補セットに標準サビ区間が残っていない場合（例えば、上述したビット配列が全て“０”を示す場合）には、処理はステップＳ１６５へ進む。

ステップＳ１６２において、抽出範囲設定部１７０は、さらにサビ尤度データが利用可能であるかを判定する（ステップＳ１６２）。ここで、サビ尤度データが利用可能である場合には、処理はステップＳ１６３へ進む。一方、サビ尤度データが利用可能でない場合には、処理はステップＳ１６４へ進む。

ステップＳ１６３では、抽出範囲設定部１７０は、基準区間の候補セットに残る標準サビ区間のうちサビ尤度の最も高い区間を、基準区間として選択する（ステップＳ１６３）。

ステップＳ１６４では、抽出範囲設定部１７０は、基準区間の候補セットに残る標準サビ区間のうちボーカル存在確率の区間平均の最も高い区間を、基準区間として選択する（ステップＳ１６４）。

ステップＳ１６５では、抽出範囲設定部１７０は、サビ区間以外の区間のうち、ボーカル存在確率が最も高い区間を、基準区間として選択する（ステップＳ１６５）。

なお、本節で説明した処理の流れは、一例に過ぎない。即ち、上述した処理ステップの一部が省略されてもよく、他の処理ステップが追加されてもよい。また、処理の順序が変更されてもよく、いくつかの処理ステップが並列的に実行されてもよい。

＜４．変形例＞
本開示に係る技術において、区間データを用いて対象曲に抽出範囲を設定する装置と、対象曲の短縮バージョンを楽曲データから抽出する装置とは、必ずしも同じ装置でなくてよい。本節では、一変形例として、サーバ装置において対象曲に抽出範囲が設定され、当該サーバ装置と通信する端末装置において抽出処理が実行される例を説明する。

［４−１．サーバ装置］
図１７は、一変形例に係るサーバ装置２００の構成の一例を示すブロック図である。図１７を参照すると、サーバ装置２００は、属性ＤＢ１１０、楽曲ＤＢ１２０、通信部２３０及び制御部２４０を備える。制御部２４０は、処理設定部１４５、データ取得部１５０、判定部１６０、抽出範囲設定部１７０及び端末制御部２８０を含む。

通信部２３０は、後に説明する端末装置３００との間で通信する通信インタフェースである。

端末制御部２８０は、端末装置３００からの要求に応じて、処理設定部１４５に対象曲を設定させ、判定部１６０及び抽出範囲設定部１７０に上述した処理を実行させる。その結果、対象曲の特徴を良好に表現する基準区間を含む抽出範囲が、抽出範囲設定部１７０により対象曲に設定される。そして、端末制御部２８０は、設定された抽出範囲を特定する抽出範囲データを、通信部２３０を介して端末装置３００へ送信する。抽出範囲データは、例えば、楽曲データから抽出すべき範囲の起点と終点とを識別するデータであってよい。端末制御部２８０は、端末装置３００が対象曲の楽曲データを有しない場合には、楽曲ＤＢ１２０から取得される当該楽曲データを、通信部２３０を介して端末装置３００へ送信してもよい。

［４−２．端末装置］
図１８は、一変形例に係る端末装置３００の構成の一例を示すブロック図である。図１８を参照すると、端末装置３００は、通信部３１０、記憶部３２０、ユーザインタフェース部３３０及び制御部３４０を備える。制御部３４０は、抽出部３５０及び再生部３６０を含む。

通信部３１０は、上述したサーバ装置２００との間で通信する通信インタフェースである。通信部３１０は、サーバ装置２００から、上述した抽出範囲データ、及び必要に応じて楽曲データを受信する。

記憶部３２０は、通信部３１０により受信されるデータを記憶する。なお、記憶部３２０は、楽曲データを予め記憶していてもよい。

ユーザインタフェース部３３０は、端末装置３００を利用するユーザに、ユーザインタフェースを提供する。例えば、ユーザインタフェース部３３０により提供されるユーザインタフェースは、対象曲及び目標時間長をユーザに指定させるためのＧＵＩを含み得る。

抽出部３５０は、ユーザインタフェース部３３０を介して入力されるユーザからの指示に応じて、対象曲の短縮バージョンを抽出するために使用される抽出範囲データをサーバ装置２００に要求する。そして、抽出部３５０は、抽出範囲データがサーバ装置２００から受信されると、短縮バージョンの抽出を実行する。より具体的には、抽出部３５０は、記憶部３２０から対象曲の楽曲データを取得する。そして、抽出部３５０は、抽出範囲データにより特定される抽出範囲に対応する部分を楽曲データから抽出することにより、対象曲の短縮バージョンを生成する。抽出部３５０により生成される対象曲の短縮バージョンは、再生部３６０へ出力される。

再生部３６０は、対象曲の短縮バージョンを抽出部３５０から取得し、取得した短縮バージョンを再生する。

＜５．まとめ＞
ここまで、本開示に係る技術の一実施形態及びその変形例について詳細に説明した。上述した実施形態によれば、予め定義される判定条件に従って、楽曲に含まれる各サビ区間が標準サビ区間及び非標準サビ区間のいずれであるかが判定され、標準サビ区間を少なくとも部分的に含む抽出範囲が、短縮バージョンの抽出のために当該楽曲に設定される。従って、楽曲の波形を解析した結果のみに基づいて短縮バージョンのための抽出範囲を楽曲に設定する既存の手法と比較して、特徴的なサビ区間を含む短縮バージョンをより高い精度で抽出することができる。

また、上述した実施形態によれば、上記判定条件は、複数の楽曲に共通する非標準サビ区間の定性的な特性に基づいて定義される。従って、楽曲の標準的な特徴を表現してない特殊なサビ区間を基準として上記抽出範囲が楽曲に設定されてしまうことを、効果的に回避することができる。

また、本開示に係る技術によれば、楽曲の波形を解析するための追加的な音声信号処理を要することなく、楽曲の特徴を良好に表現するサビ区間を含む短縮バージョンを自動的に生成することができる。従って、楽曲配信サービスにおいて取り扱われる膨大な数の楽曲について、ユーザの購買意欲を促進する試聴用の短縮バージョンを、高速かつ低コストで提供することが可能となる。また、スライドショーを含むムービーのＢＧＭとして最適な短縮バージョンを自動的に生成することも可能となる。

なお、本明細書において説明した各装置による一連の制御処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。ソフトウェアを構成するプログラムは、例えば、各装置の内部又は外部に設けられる記憶媒体に予め格納される。そして、各プログラムは、例えば、実行時にＲＡＭ（Random Access Memory）に読み込まれ、ＣＰＵなどのプロセッサにより実行される。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
楽曲に含まれる複数の区間のうちサビ区間を識別する区間データを取得するデータ取得部と、
標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、前記区間データにより識別されるサビ区間のうち前記標準サビ区間を判定する判定部と、
判定された前記標準サビ区間を少なくとも部分的に含む抽出範囲を前記楽曲に設定する設定部と、
を備える情報処理装置。
（２）
前記判定条件は、複数の楽曲に共通する前記非標準サビ区間の特性に関連する条件であり、
前記判定部は、前記判定条件に従って前記非標準サビ区間であると判定されなかったサビ区間が前記標準サビ区間であると判定する、
前記（１）に記載の情報処理装置。
（３）
前記判定部は、各サビ区間が他のサビ区間と時間的に隣接するかに基づいて、各サビ区間が前記非標準サビ区間であるかを判定する、前記（２）に記載の情報処理装置。
（４）
前記判定部は、各サビ区間におけるキーが他のサビ区間におけるキーから転調されているかに基づいて、各サビ区間が前記非標準サビ区間であるかを判定する、前記（２）又は前記（３）に記載の情報処理装置。
（５）
前記判定部は、前記楽曲の終盤に存在する大サビに相当するサビ区間を、前記非標準サビ区間であると判定する、前記（２）〜（４）のいずれか１項に記載の情報処理装置。
（６）
前記判定部は、各サビ区間におけるボーカル存在確率に基づいて、各サビ区間が前記非標準サビ区間であるかを判定する、前記（２）〜（５）のいずれか１項に記載の情報処理装置。
（７）
前記判定部は、各サビ区間におけるボーカル存在確率を、前記楽曲を通じたボーカル存在確率に応じて動的に決定される閾値と比較することにより、各サビ区間が前記非標準サビ区間であるかを判定する、前記（６）に記載の情報処理装置。
（８）
前記設定部は、前記判定部により判定された前記標準サビ区間のうちの１つを基準区間として選択し、選択した当該基準区間を前記抽出範囲が少なくとも部分的に含むように、前記抽出範囲を前記楽曲に設定する、前記（１）〜（７）のいずれか１項に記載の情報処理装置。
（９）
前記データ取得部は、前記楽曲について音声信号処理を実行することにより算出される前記複数の区間の各々のサビ尤度を示すサビ尤度データをさらに取得し、
前記設定部は、前記判定部により判定された前記標準サビ区間のうち、前記サビ尤度データにより示される前記サビ尤度の最も高い区間を、前記基準区間として選択する、
前記（８）に記載の情報処理装置。
（１０）
前記設定部は、前記判定部により判定された前記標準サビ区間のうち、ボーカル存在確率の最も高い区間を、前記基準区間として選択する、前記（８）に記載の情報処理装置。
（１１）
前記設定部は、前記判定部により前記標準サビ区間であると判定された区間が存在しない場合には、前記楽曲に含まれるサビ区間以外の区間のうち、ボーカル存在確率の最も高い区間を、前記基準区間として選択する、前記（９）又は前記（１０）に記載の情報処理装置。
（１２）
前記設定部は、選択した前記基準区間よりも前方のボーカル不在時点を、前記抽出範囲の起点として設定する、前記（８）〜（１１）のいずれか１項に記載の情報処理装置。
（１３）
前記設定部は、前記基準区間に最も近い前記ボーカル不在時点を、前記抽出範囲の起点として設定する、前記（１２）に記載の情報処理装置。
（１４）
前記設定部は、前記基準区間の時間長よりも前記抽出範囲の時間長が長い場合に、前記抽出範囲内のより後方に前記基準区間が含まれるように選択される前記ボーカル不在時点を、前記抽出範囲の起点として設定する、前記（１２）に記載の情報処理装置。
（１５）
前記情報処理装置は、
前記設定部により設定された前記抽出範囲に対応する部分を前記楽曲から抽出する抽出部、
をさらに備える、前記（１）〜（１４）のいずれか１項に記載の情報処理装置。
（１６）
前記情報処理装置は、
前記設定部により設定された前記抽出範囲に対応する部分を前記楽曲から抽出する装置へ、前記抽出範囲を特定する抽出範囲データを送信する通信部、
をさらに備える、前記（１）〜（１４）のいずれか１項に記載の情報処理装置。
（１７）
情報処理装置の制御部により実行される情報処理方法であって、
楽曲に含まれる複数の区間のうちサビ区間を識別する区間データを取得することと、
標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、前記区間データにより識別されるサビ区間のうち前記標準サビ区間を判定することと、
判定された前記標準サビ区間を少なくとも部分的に含む抽出範囲を前記楽曲に設定することと、
を含む情報処理方法。
（１８）
情報処理装置を制御するコンピュータを、
楽曲に含まれる複数の区間のうちサビ区間を識別する区間データを取得するデータ取得部と、
標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、前記区間データにより識別されるサビ区間のうち前記標準サビ区間を判定する判定部と、
判定された前記標準サビ区間を少なくとも部分的に含む抽出範囲を前記楽曲に設定する設定部と、
として機能させるためのプログラム。

１００，２００情報処理装置（サーバ装置）
１５０データ取得部
１６０判定部
１７０設定部
１８０抽出部
１９０再生部
２３０通信部

Claims

楽曲に含まれる複数の区間のうちサビ区間を識別する区間データを取得するデータ取得部と、
標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、前記区間データにより識別されるサビ区間のうち前記標準サビ区間を判定する判定部と、
判定された前記標準サビ区間を少なくとも部分的に含む抽出範囲を前記楽曲に設定する設定部と、
を備える情報処理装置。
前記判定条件は、複数の楽曲に共通する前記非標準サビ区間の特性に関連する条件であり、
前記判定部は、前記判定条件に従って前記非標準サビ区間であると判定されなかったサビ区間が前記標準サビ区間であると判定する、
請求項１に記載の情報処理装置。
前記判定部は、各サビ区間が他のサビ区間と時間的に隣接するかに基づいて、各サビ区間が前記非標準サビ区間であるかを判定する、請求項２に記載の情報処理装置。
前記判定部は、各サビ区間におけるキーが他のサビ区間におけるキーから転調されているかに基づいて、各サビ区間が前記非標準サビ区間であるかを判定する、請求項２に記載の情報処理装置。
前記判定部は、前記楽曲の終盤に存在する大サビに相当するサビ区間を、前記非標準サビ区間であると判定する、請求項２に記載の情報処理装置。
前記判定部は、各サビ区間におけるボーカル存在確率に基づいて、各サビ区間が前記非標準サビ区間であるかを判定する、請求項２に記載の情報処理装置。
前記判定部は、各サビ区間におけるボーカル存在確率を、前記楽曲を通じたボーカル存在確率に応じて動的に決定される閾値と比較することにより、各サビ区間が前記非標準サビ区間であるかを判定する、請求項６に記載の情報処理装置。
前記設定部は、前記判定部により判定された前記標準サビ区間のうちの１つを基準区間として選択し、選択した当該基準区間を前記抽出範囲が少なくとも部分的に含むように、前記抽出範囲を前記楽曲に設定する、請求項１に記載の情報処理装置。
前記データ取得部は、前記楽曲について音声信号処理を実行することにより算出される前記複数の区間の各々のサビ尤度を示すサビ尤度データをさらに取得し、
前記設定部は、前記判定部により判定された前記標準サビ区間のうち、前記サビ尤度データにより示される前記サビ尤度の最も高い区間を、前記基準区間として選択する、
請求項８に記載の情報処理装置。
前記設定部は、前記判定部により判定された前記標準サビ区間のうち、ボーカル存在確率の最も高い区間を、前記基準区間として選択する、請求項８に記載の情報処理装置。
前記設定部は、前記判定部により前記標準サビ区間であると判定された区間が存在しない場合には、前記楽曲に含まれるサビ区間以外の区間のうち、ボーカル存在確率の最も高い区間を、前記基準区間として選択する、請求項９に記載の情報処理装置。
前記設定部は、選択した前記基準区間よりも前方のボーカル不在時点を、前記抽出範囲の起点として設定する、請求項８に記載の情報処理装置。
前記設定部は、前記基準区間に最も近い前記ボーカル不在時点を、前記抽出範囲の起点として設定する、請求項１２に記載の情報処理装置。
前記設定部は、前記基準区間の時間長よりも前記抽出範囲の時間長が長い場合に、前記抽出範囲内のより後方に前記基準区間が含まれるように選択される前記ボーカル不在時点を、前記抽出範囲の起点として設定する、請求項１２に記載の情報処理装置。
前記情報処理装置は、
前記設定部により設定された前記抽出範囲に対応する部分を前記楽曲から抽出する抽出部、
をさらに備える、請求項１に記載の情報処理装置。
前記情報処理装置は、
前記設定部により設定された前記抽出範囲に対応する部分を前記楽曲から抽出する装置へ、前記抽出範囲を特定する抽出範囲データを送信する通信部、
をさらに備える、請求項１に記載の情報処理装置。
情報処理装置の制御部により実行される情報処理方法であって、
楽曲に含まれる複数の区間のうちサビ区間を識別する区間データを取得することと、
標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、前記区間データにより識別されるサビ区間のうち前記標準サビ区間を判定することと、
判定された前記標準サビ区間を少なくとも部分的に含む抽出範囲を前記楽曲に設定することと、
を含む情報処理方法。
情報処理装置を制御するコンピュータを、
楽曲に含まれる複数の区間のうちサビ区間を識別する区間データを取得するデータ取得部と、
標準サビ区間と非標準サビ区間とを区別するための予め定義される判定条件に従って、前記区間データにより識別されるサビ区間のうち前記標準サビ区間を判定する判定部と、
判定された前記標準サビ区間を少なくとも部分的に含む抽出範囲を前記楽曲に設定する設定部と、
として機能させるためのプログラム。