JP2011059258A

JP2011059258A - 採譜装置、及びプログラム

Info

Publication number: JP2011059258A
Application number: JP2009207090A
Authority: JP
Inventors: Tomohiko Sato; 友彦佐藤; Hidehito Kitamura; 秀仁北村
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2009-09-08
Filing date: 2009-09-08
Publication date: 2011-03-24

Abstract

【課題】ユーザが音楽理論に則って歌唱しなくとも、音楽理論上好ましいと考えられる旋律となるように採譜する技術の提供。
【解決手段】音声入力部から入力された音声データを周波数解析した結果から、基本周波数ｆ０（歌唱音高）を演奏経過時間と対応付けて検出する（Ｓ１６０）。続いて、その検出結果を採譜基準データに照合し、特定位置から領域中心（即ち、重みが定められた格子点）それぞれまでの距離を導出する。これと共に、導出された距離それぞれの逆数に重みを乗じた値を推定指標として導出する（Ｓ１７０）。それらの導出された推定指標の中で、最大値の導出に用いた重みに対応する領域中心を形成する音階音を、区間音高として特定する（Ｓ１８０）。そして、全単位区間について区間音高の特定が終了すると、単位区間毎に特定された区間音高を、それぞれの区間音高を特定した順に接続することで譜面化する（Ｓ２１０）。
【選択図】図４

Description

本発明は、入力された音声から採譜する採譜装置、及びプログラムに関する。

従来より、マイクロホンを介して入力された音声の基本周波数、及びその基本周波数が持続する時間（以下、周波数持続時間と称す）を推定し、その推定した基本周波数及び周波数持続時間に従って採譜する採譜装置が知られている（例えば、特許文献１参照）。

その特許文献１に記載の採譜装置には、１オクターブを構成する音階の音（以下、音階音と称す）毎に、それら音階音それぞれの基準周波数と、その基準周波数を挟むように規定された周波数の範囲（以下、音階音範囲と称す）とが設定された音階データが予め用意されている。そして、特許文献１に記載の採譜装置では、入力された音声から推定した基本周波数を音階データに照合し、その基本周波数が含まれる音階音範囲に対応する音階音を特定する。さらに、その特定された音階音を音高とし、先に推定した周波数持続時間を音長として音符化、即ち、入力された音声の旋律を採譜する。

特開２０００−１４８１３６号公報

つまり、特許文献１に記載の採譜装置では、入力された音声の基本周波数、及びその周波数持続時間そのものを順次音符化し、採譜している。
このため、ユーザが音楽理論に則って歌唱し、その歌唱にて発声された音声が入力されない限り、特許文献１に記載の採譜装置での採譜結果は、音楽理論上好ましくない旋律となる。この音楽理論上好ましくない旋律は、音楽再生装置にて再生（演奏）されて視聴される場合、その演奏音の音高の遷移などについて聴衆が違和感を覚えるという問題があった。

つまり、特許文献１に記載の採譜装置では、聴衆が違和感を覚える採譜結果が生成されるという問題があった。
そこで、本発明は、ユーザが音楽理論に則って歌唱しなくとも、音楽理論上好ましいと考えられる旋律となるように採譜する技術を提供することを目的とする。

上記目的を達成するためになされた本発明は、楽曲を演奏する楽曲演奏装置と共に用いられ、その楽曲演奏装置にて演奏された楽曲に対する歌唱を採譜する採譜装置に関するものである。

その本発明の採譜装置では、歌唱音高推定手段が、楽曲の演奏中に入力された音声の音高を表す歌唱音高を順次推定し、推定指標導出手段が、その推定された歌唱音高を採譜基準データに順次照合して、音階音毎に、各音階音に対する歌唱音高のズレが小さいほど値が大きく、かつ歌唱音高が音楽理論上好ましいほど値が大きな推定指標を導出する。ただし、ここでいう採譜基準データとは、楽曲の演奏における時間進行に沿って連続するように規定された単位区間それぞれについて音階音毎に、音楽理論上好ましいほど値が大きな重みが予め決められたデータである。

これと共に、本発明の採譜装置では、区間音高特定手段が、推定指標導出手段にて推定指標が導出される毎に、推定指標の中での最大値（以下、最大推定指標と称す）に対応する音階音を、単位区間における音高（以下、区間音高と称す）として特定し、採譜手段が、区間音高特定手段で特定された区間音高を、歌唱音高の推定順に接続することで採譜する。

つまり、本発明の採譜装置では、当該採譜装置の使用者が歌唱した旋律を構成する構成音の音高として歌唱音高そのものを採譜するのではなく、音楽理論に沿ってより好ましいと考えられる構成音の音高へと、歌唱音高を近づけた上で採譜をしている。

この結果、本発明の採譜装置によれば、音楽理論を全く知らないユーザが歌唱した場合であっても、採譜した結果を、音楽理論上好ましいと考えられる旋律に近づけることができる。よって、本発明の採譜装置にて採譜した結果を、楽曲演奏装置にて演奏して視聴する場合、音高の遷移などについて聴衆が違和感を覚えることを低減できる。

特に、本発明の採譜装置は、音声を入力するだけで、その入力された音声を採譜することができる。このため、当該採譜装置の使用者は、容易に採譜することができる。
この結果、本発明によれば、使用者が気軽に使用することができ、しかも、使用者にとってより楽しい採譜技術を提供することができる。

なお、ここで言う楽曲演奏装置とは、楽曲毎に予め用意された楽曲データに従って、楽曲を演奏する装置（例えば、周知のパーソナルコンピュータやカラオケ装置）を含むものである。そして、楽曲データは、楽曲演奏装置が楽曲を演奏可能なものであれば、どのような形式であっても良いが、例えば、各楽曲を構成する構成音それぞれの音高及び音長を表すものが望ましい。また、ここで言う音階音とは、音階を形成する各音の音高である。

ところで、本発明の採譜装置において、採譜基準データは、単位区間それぞれの区間長中心または始終端、及び音階音それぞれを、行または列としたマトリックス状に形成され、そのマトリックスを形成する各格子点に重みが決められていても良い。

このように採譜基準データが形成されている場合、本発明の採譜装置における推定指標導出手段は、請求項２に記載のように、歌唱音高から各格子点までの距離の逆数に、格子点それぞれに決められた重みを乗じた値を推定指標として導出することが望ましい。

このような推定指標の導出方法であれば、音階音に対する歌唱音高のズレが小さいほど、かつそのズレが音楽理論上好ましい音階音に対して小さいほど、値が大きな推定指標を導出することができる。

なお、本発明の採譜装置に用いられる採譜基準データにおいて、音楽理論上好ましい音階音とは、採譜基準データの制作者が、音楽理論に則って好ましいと考えたものであり、予め規定されたものである。

本発明の採譜装置において、採譜基準データは、例えば、請求項３に記載のように、音階音のうち、主旋律音、和音音、主旋律音及び和音音以外の音階音の順に、小さな値となるように重みが決定されたものでも良い。ただし、ここで言う主旋律音とは、楽曲の主旋律を構成する音階音であり、ここで言う和音音とは、楽曲のコード進行にてコードを構成する音階音である。

このような採譜データであれば、音楽理論上好ましい採譜を実現すること、即ち、歌唱音高が、主旋律音及び和音音以外の音高であっても、主旋律音や和音音にて採譜することができる。この結果、本発明の採譜装置によれば、採譜結果を、音楽理論上より好ましく、しかも聴衆にとってより聞きやすいものとすることができる。

なお、本発明は、楽曲を演奏する楽曲演奏装置と共に用いられるコンピュータに実行され、その楽曲演奏装置にて演奏された楽曲に対する歌唱を採譜するプログラムとしてなされたものでも良い。

この場合、本発明のプログラムは、請求項４に記載のように、楽曲の演奏中に入力された音声から歌唱音高を順次推定する歌唱音高推定手順と、その推定された歌唱音高を採譜基準データに順次照合して、推定指標を導出する推定指標導出手順と、推定指標導出手順にて推定指標が導出される毎に、それらの推定指標中の最大推定指標に対応する音階音を区間音高として特定する区間音高特定手順と、その特定された区間音高を、歌唱音高の推定順に接続することで採譜する採譜手順とを、コンピュータに実行させるように構成されている必要がある。

このようなプログラムであれば、例えば、ＤＶＤ−ＲＯＭ、ＣＤ−ＲＯＭ、ハードディスク等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、請求項１に記載された採譜装置として機能させることができる。

採譜システムの概略構成を示したブロック図である。採譜基準データの概略構成を示した説明図である。採譜基準データの詳細を示した説明図である。採譜処理の処理手順を示したフローチャートである。推定指標の導出方法を説明するための説明図である。

以下、本発明の実施形態を図面と共に説明する。
まず、図１は、作曲者や演奏者によって予め作曲された楽曲（以下、完成楽曲とする）の演奏に応じてユーザが発声し、その発声した音声から採譜する採譜システムの概略構成を示すブロック図である。
〈採譜システム全体の構成〉
図１に示すように、採譜システム１は、ユーザによって指定された完成楽曲の演奏を行うと共に、入力された音声から採譜する採譜装置２０と、完成楽曲毎に予め用意され、かつ各完成楽曲の演奏に必要なデータ（以下、完成曲データと称す）を採譜装置２０に配信するサーバ３０とを備えている。なお、採譜システム１においては、採譜装置２０とサーバ３０とはネットワーク（例えば、専用回線やＷＡＮ等）を介して接続されている。

このうち、サーバ３０は、完成楽曲の演奏に必要な処理プログラム（以下、演奏処理プログラムと称す）及び完成曲データを格納する記憶装置（図示せず）と、ＲＯＭ，ＲＡＭ，ＣＰＵを少なくとも有した周知のマイクロコンピュータ（図示せず）とを備えた情報処理装置を中心に構成された周知のサービス用サーバ装置である。

つまり、サーバ３０は、採譜装置２０からの要求に対して完成曲データや演奏処理プログラムを送信するように構成されている。
〈採譜装置の構成〉
次に、採譜装置２０の構成について説明する。

この採譜装置２０は、サーバ３０との間でデータ通信を実行するための通信部２２と、通信部２２を介してサーバ３０から取得した演奏処理プログラム及び完成曲データを記憶する記憶部２１と、各種画像を表示するための表示部２３と、ユーザからの指示を受け付ける操作受付部２４とを備えている。さらに、採譜装置２０は、音声を入力するためのマイクロホン２６と、マイクロホン２６を介した音声の入力を制御する音声入力部２５と、音声を出力するためのスピーカ２７と、スピーカ２７からの音声出力を制御する音声出力部２９と、採譜装置２０を構成する各部２１，２２，２３，２４，２５，２９を制御する制御部２８とを備えている。

このうち、通信部２２は、採譜装置２０をネットワーク（例えば、専用回線や、ＷＡＮ）に接続して外部と通信を行うための通信インタフェースであり、各種データをサーバ３０に出力すると共に、各種データや処理プログラムをサーバ３０から取得する。

そして、表示部２３は、例えば、液晶ディスプレイ等から構成された表示装置からなり、操作受付部２４は、例えば、キーボードやポインティングデバイス（例えば、マウス）等の入力装置からなる。

また、音声入力部２５は、マイクロホン２６を介して入力された音声（アナログ信号）をサンプリングし、そのサンプリング値（標本値）を制御部２８に入力するＡＤ変換器として構成されている。なお、以下では、音声入力部２５にてサンプリング値へと変換された音声を音声データと称す。

そして、音声出力部２９は、制御部２８からの制御指令に基づいて、完成曲データに従って完成楽曲を演奏するように構成されている。また、音声出力部２９は、マイクロホン２６から入力された音声を、演奏音にミキシングしてスピーカ２７から出力させるように構成されている。

さらに、記憶部２１は、電源が切断されても記憶内容を保持すると共に記憶内容を読み書き可能に構成された記憶装置（例えば、ハードディスクドライブ）である。その記憶部２１は、演奏処理プログラムを格納するプログラム格納領域と、完成曲データを記憶する完成曲データ格納領域とを少なくとも備えている。

次に、制御部２８は、電源が切断されても記憶内容を保持する必要のあるプログラムやデータを格納するＲＯＭ２８ａと、プログラムやデータを一時的に格納するＲＡＭ２８ｂと、ＲＯＭ２８ａやＲＡＭ２８ｂに記憶されたプログラムやデータに従って、採譜装置２０を構成する各部２１，２２，２３，２４，２５，２９に対する制御及び各種演算を実行するＣＰＵ２８ｃとを少なくとも有した周知のマイクロコンピュータを中心に構成されている。

なお、ＲＡＭ２８ｂには、記憶部２１からの演奏処理プログラムが記憶される。ＣＰＵ２８ｃは、ＲＡＭ２８ｂに記憶した演奏処理プログラムに従って各処理を実行する。
その演奏処理プログラムとして、操作受付部２４を介して指定された完成楽曲を演奏する周知の楽曲演奏処理を実行するための楽曲演奏処理プログラムがある。また、演奏処理プログラムとして、完成楽曲の演奏中に入力された音声データに従って、その演奏中の完成楽曲に対する歌唱を採譜する採譜処理を実行するための採譜処理プログラムがある。

つまり、採譜装置２０は、いわゆるパーソナルコンピュータとして構成されたものであり、楽曲演奏処理プログラムまたは採譜演奏処理プログラムを採譜装置２０に実行させることで、特許請求の範囲に記載の楽曲演奏装置及び本願発明の採譜装置が実現される。

ところで、完成曲データは、例えば、ＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）フォーマットにて記述された周知のデータであり、完成楽曲それぞれについて予め用意されている。

その完成曲データは、完成楽曲を識別するためのデータである楽曲情報と、その完成楽曲１曲の演奏開始から演奏終了までに要する時間を示す時間情報とを有している。さらに、完成曲データは、その完成楽曲についてユーザが歌唱することが望ましい旋律に関するデータであるガイドメロディと、制御部２８が採譜処理を実行する際に参照する採譜基準データとを有している。

そして、楽曲情報には、完成楽曲を特定するための曲番号データと、その完成楽曲の曲名を示す曲名データとが少なくとも含まれている。
また、ガイドメロディは、完成楽曲の主旋律（以下、基準旋律と称す）を形成する各構成音について、それぞれの音高及び音長が表されたものである。具体的に、本実施形態における構成音の音長は、楽音出力開始時間及び楽音出力終了時間によって表されている。ただし、ここで言う楽音出力開始時間とは、その構成音の出力を開始するまでの完成楽曲の演奏開始からの時間であり、楽音出力終了時間とは、その構成音の出力を終了するまでの完成楽曲の演奏開始からの時間である。

〈採譜基準データについて〉
次に、完成曲データ中に含まれている採譜基準データについて説明する。
ここで、図２は、採譜基準データの概略構成を示した説明図であり、図３は、採譜基準データの一部を模式的に示した図面である。

図２に示すように、採譜基準データは、完成楽曲それぞれに対して予め用意されたものである。その採譜基準データは、完成楽曲の演奏における時間進行に沿って連続するように規定された単位区間それぞれについて、１オクターブの音階を構成する各音（以下、音階音と称す）毎に、予め重みが決められたものである。

なお、本実施形態において、単位区間は、予め規定された区間長（例えば、対応する完成楽曲における１６分音符の時間長）を有したものであり、完成楽曲の全演奏時間に渡って規定されている。また、音階音は、例えば、全音階を１２等分した半音毎の音高（即ち、周波数）であり、いわゆるＣ（ド），Ｃ＃，Ｄ（レ），Ｄ＃，Ｅ（ミ），Ｆ（ファ），Ｆ＃，Ｇ（ソ），Ｇ＃，Ａ（ラ），Ａ＃，Ｂ（シ）である。

つまり、この採譜基準データは、図３に示すように、音階音それぞれを行とし、単位区間それぞれの区間長の中心を列としたマトリックス状（即ち、格子状）に形成されたものである。そして、各格子内の領域中心、即ち、格子の交点（本発明の格子点に相当）それぞれに対して重みが決められている。ただし、採譜基準データの列（即ち、単位区間の区間長の中心）それぞれは、完成楽曲の演奏開始からの経過時間と対応付けられている。

また、領域中心毎に有する重みそれぞれは、音楽理論上好ましいと考えられる音階音ほど、値が大きくなるように、制作者によって予め決められている。本実施形態では、音楽理論上好ましいと考えられる音階音ほど値が大きくなることの一例として、最大値を１００とし、基準旋律を形成する音階音（以下、主旋律音と称す）、その主旋律音に対する和音（即ち、コード）を構成する音階音（以下、和音音）、主旋律音及び和音音以外の音階音の順に、値が小さくなるように重みが決定されている。
〈採譜処理について〉
次に、制御部２８（具体的にはＣＰＵ２８ｃ）が実行する採譜処理について説明する。

ここで、図４は、採譜処理の処理手順を示したフローチャートである。
この採譜処理は、操作受付部２４を介して入力された起動指令を、制御部２８が受け付けると起動されるものである。

そして、図４に示すように、採譜処理は、起動されると、まず、Ｓ１１０にて、操作受付部２４を介して、演奏すべき完成楽曲の指定を受け付けたか否かを判定する。その判定の結果、演奏すべき完成楽曲の指定を受け付けていなければ、演奏すべき完成楽曲の指定を受け付けるまで待機し、演奏すべき完成楽曲の指定を受け付けると、Ｓ１２０へと進む。以下、Ｓ１１０にて、指定された演奏すべき完成楽曲を、演奏対象楽曲と称す。

そのＳ１２０では、演奏対象楽曲についての採譜基準データを、記憶部２１から取得する。続くＳ１３０では、楽曲演奏処理を起動して実行し、演奏対象楽曲の演奏を開始する。なお、演奏処理は、採譜処理とは別個に、演奏対象楽曲の演奏終了まで実行される。これにより、楽曲演奏処理の実行中は、演奏対象楽曲の演奏音（例えば、メロディ）がスピーカ２７から放音される。

そして、Ｓ１４０では、マイクロホン２６を介して入力された音声のレベル（以下、音声レベルと称す）が、予め設定された設定レベル以上であるか否かを判定する。その判定の結果、音声レベルが設定レベル未満であれば、音声レベルが設定レベル以上となるまで待機し、音声レベルが設定レベル以上となると、Ｓ１５０へと進む。

そのＳ１５０では、音声入力部２５から入力された音声データを周波数解析する。なお、本実施形態では、予め規定されたサンプリング数の標本値からなる音声データを、ＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）することで周波数解析を実行する。これにより、サンプリング数に対応する時間長を有した単位期間内での音声の周波数スペクトル（即ち、周波数成分の分布）が導出される。

さらに、Ｓ１６０では、周知の手法を用いて、Ｓ１５０での周波数解析の結果（周波数スペクトル）から、本発明の歌唱音高に相当する基本周波数ｆ０を検出する。ただし、このＳ１６０では、該当カラオケ楽曲の演奏が開始されてからの経過時間（以下、演奏経過時間と称す）と対応付けて、基本周波数ｆ０を検出する。

なお、この基本周波数ｆ０を検出する手法としては、櫛型形状で表される調波構造モデルを予め用意し、周波数解析の結果（周波数スペクトル）に調波構造モデルを照合する周知のものがある。

続いて、Ｓ１７０では、Ｓ１６０で導出した基本周波数ｆ０を、Ｓ１２０にて取得した採譜基準データに照合し、その照合結果に従って単位区間における推定指標を、音階音それぞれについて導出する。

具体的には、まず、Ｓ１６０にて検出された基本周波数ｆ０と、その基本周波数ｆ０に対応付けられた演奏経過時間とから特定される採譜基準データ上での位置（以下、特定位置と称す）を検出する。そして、採譜基準データ上において検出した特定位置から、その特定位置を挟んで位置する領域中心（即ち、重みが定められた格子点）それぞれまでの距離を導出する。さらに、それらの導出された距離それぞれの逆数に、各距離に対応する領域中心に定められた重みを乗じた値を推定指標として導出する。

ここで、図５は、推定指標を導出する際の手法を例示した説明図である。
この図５に示す例では、Ｓ１７０での検出結果として、採譜基準データ上において、演奏経過時間ｔ１，ｔ２に挟まれた位置に、特定位置Ｐ_tnが検出されたものとする。さらに、この例では、演奏時間の進行に伴って、採譜基準データ上において、演奏経過時間ｔ２，ｔ３に挟まれた位置に、特定位置Ｐ_tn+1が検出されたものとする。

この場合、検出された特定位置Ｐ_tnから、領域中心Ｍ_t1,O、及びＭ_t2,Oそれぞれまでの距離Ｌ_tn,O1、Ｌ_tn,O2を導出する。そして、それらの導出された距離Ｌ_tn,O1、Ｌ_tn,O2それぞれの逆数に、各距離Ｌ_tn,O1、Ｌ_tn,O2に対応する領域中心Ｍ_t1,O、Ｍ_t2,Oに定められた重みを乗じた値を推定指標として導出する。

よって、この導出された推定指標は、特定位置Ｐ_tnから、各領域中心Ｍ_t1,O、またはＭ_t2,Oまでの距離が短いほど、かつ領域中心に定められた重みが大きいほど、大きな値となる。

ただし、ここでの領域中心Ｍ_t1,O、Ｍ_t2,Oにおける添え字Ｏは、領域中心を形成する音階音を表し、Ｃ，Ｃ＃，…Ａ＃，Ａまでのいずれか１つが順次代入される。なお、距離Ｌ_tn,O1、Ｌ_tn,O2における添え字Ｏ１，Ｏ２は、それぞれに付された数値が、領域中心を形成する演奏経過時間ｔ１，２を表すこと以外は、領域中心を形成する音階音を表し、Ｃ，Ｃ＃，…Ａ＃，Ａまでのいずれか１つが順次代入される。つまり、ここでの領域中心Ｍ_t1,Oは、Ｍ_t1,C，Ｍ_t1,C#，…Ｍ_t1,Aであり、領域中心Ｍ_t2,Oは、Ｍ_t2,C，Ｍ_t2,C#，…Ｍ_t2,Aである。また、距離Ｌ_tn,O1は、Ｌ_tn,C1，Ｌ_tn,C#1…Ｌ_tn,A1であり、距離Ｌ_tn,O2は、Ｌ_tn,C2，Ｌ_tn,C#2…Ｌ_tn,A2である。

さらに、次のサイクルにてＳ１６０に進んで特定位置Ｐ_tn+1が検出されると、領域中心Ｍ_t2,O、及びＭ_t3,Oそれぞれまでの距離Ｌ_tn+1,O1、Ｌ_tn+1,O2を導出する。そして、Ｓ１７０にて、それらの導出された距離Ｌ_tn+1,O1、Ｌ_tn+1,O2それぞれの逆数に、各距離Ｌ_tn+1,O1、Ｌ_tn+1,O2に対応する領域中心Ｍ_t2,O、Ｍ_t3,Oに定められた重みを乗じた値を推定指標として導出する。

ここで、図４へと戻り、Ｓ１８０では、今サイクルのＳ１７０にて導出された推定指標の中で、その値が最も大きな推定指標の導出に用いた重みに対応する領域中心Ｍ_tn,Oを形成する音階音を、単位区間における音高（以下、区間音高と称す）として特定する。

続く、Ｓ１９０では、先のＳ１３０にて演奏を開始した演奏対象楽曲の演奏が終了したか否か、即ち、楽曲演奏処理の実行が終了したか否かを判定する。その判定の結果、楽曲演奏処理の実行が終了していなければ、即ち、楽曲演奏処理の実行が継続していれば、Ｓ２００へと進む。

そのＳ２００では、当該採譜処理の実行を終了するための終了指令が、操作受付部２４を介して入力されたか否かを判定する。その判定の結果、終了指令が入力されていなければ、Ｓ１４０へと戻り、Ｓ１４０からＳ１９０の一連のステップを繰り返す。一方、Ｓ２００での判定の結果、終了指令が入力されていれば、Ｓ２１０へと進む。

なお、Ｓ１９０での判定の結果、楽曲演奏処理の実行が終了している場合にも、Ｓ２１０へと進む。
つまり、全単位区間について区間音高の特定が終了すると、Ｓ２１０へと進む。

そのＳ２１０では、単位区間毎に特定された区間音高を、それぞれの区間音高を特定した順に接続することで譜面化する。すなわち、このＳ２１０では、区間音高を、歌唱者が歌唱した旋律の構成音として採譜し、周知の手法により、その採譜結果をＭＩＤＩデータにて生成する。

続く、Ｓ２２０では、Ｓ２１０にて採譜した結果、即ち、生成されたＭＩＤＩデータを記憶部２１に記憶する。
その後、本採譜処理を終了する。

つまり、本実施形態の採譜処理では、基本周波数ｆ０が推定される毎に、その基本周波数ｆ０によって特定される特定位置から、領域中心までの距離が短いほど、かつ対応する領域中心に定められた重みが大きいほど、大きな値となる推定指標を、各領域中心毎に導出する。これと共に、それらの導出された推定指標の中で、最大値を導出する際に用いた領域中心Ｍ_tn,Oを形成する音階音を区間音高として特定する。

さらに、採譜処理では、このように特定された区間音高を、それぞれの区間音高に対応する単位区間の順序に従って接続することで譜面化している。
換言すれば、本実施形態の採譜処理では、採譜装置２０の使用者が歌唱した旋律を形成する歌唱音高（即ち、基本周波数ｆ０）そのものを採譜するのではなく、その歌唱音高を音楽理論に沿ってより好ましいと考えられる音高へと近づけた上で採譜をしている。
［実施形態の効果］
したがって、採譜装置２０によれば、音楽理論を全く知らないユーザが歌唱した場合であっても、採譜結果を、音楽理論上好ましいと考えられる旋律に近づけることができる。よって、採譜装置２０にて採譜した結果を演奏し、その演奏を聴衆が聴く場合、音高の遷移などについて、聴衆が違和感を覚えることを低減できる。

特に、採譜装置２０は、音声を入力するだけで、その入力された音声を採譜することができる。このため、採譜装置２０の使用者は、容易に採譜することができる。
この結果、採譜装置２０によれば、使用者が気軽に使用することができ、しかも、使用者にとってより楽しい採譜技術を提供することができる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。

例えば、上記実施形態における採譜システム１は、採譜装置２０とサーバ３０とから構成されていたが、採譜システム１は、これに限るものではなく、採譜装置２０単体として形成されたものでも良い。

なお、上記実施形態においては、採譜装置２０にて完成曲データを演奏したが、完成曲データを演奏するための装置は、採譜装置２０によって実現される必要がなく、例えば、ＣＤプレーヤや、ＤＶＤプレーヤ、情報記憶装置に記憶された音楽データを再生するデジタル音楽プレーヤなどのオーディオ装置によって実現されていても良い。つまり、採譜装置は、オーディオ装置にて再生した楽曲に対する歌唱を採譜するように構成されていても良い。

ところで、上記実施形態では、音楽理論上好ましいと考えられる音階音ほど、値が大きくなることの一例として、基準旋律を形成する音階音、その基準旋律に対する和音音、主旋律音及び和音音以外の音階音の順に、小さくなるように重みが設定されていたが、採譜基準データにおける重みの決め方は、これに限るものではない。

例えば、重みは、ジャズ等に用いられる技巧により基準旋律からズレた音高にて歌唱した場合ほど、値が大きくなるように決められていても良いし、和音音を主旋律音と同じ点数としても良い。すなわち、制作者が音楽理論上好ましいと考える音高ほど、大きな値となるように決定されたものであれば、どのようなものでも良い。

さらに、上記実施形態における採点基準データでは、格子を形成する列を、単位区間の区間長中心としていたが、格子を形成する列は、これに限るものではなく、例えば、単位区間それぞれの始端または終端のいずれかでも良いし、また単位区間ではなく、楽曲開始からの任意の経過時間によって規定しても良い。

なお、上記実施形態では、完成曲データを、ＭＩＤＩフォーマットにて記述された周知のデータとしたが、本発明における完成曲データは、ＭＩＤＩフォーマットにて記述されたものに限らない。
［実施形態と特許請求の範囲との対応関係］
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。

上記実施形態の採譜処理におけるＳ１５０，Ｓ１６０を実行することで得られる機能が、本発明の歌唱音高推定手段に相当し、採譜処理におけるＳ１７０を実行することで得られる機能が、本発明の推定指標導出手段に相当する。さらに、上記実施形態の採譜処理におけるＳ１８０を実行することで得られる機能が、本発明の区間音高特定手段に相当し、採譜処理におけるＳ２１０を実行することで得られる機能が、本発明の採譜手段に相当する。

１…採譜システム２０…採譜装置２１…記憶部２２…通信部２３…表示部２４…操作受付部２５…音声入力部２６…マイクロホン２７…スピーカ２８…制御部２８ａ…ＲＯＭ２８ｂ…ＲＡＭ２８ｃ…ＣＰＵ２９…音声出力部３０…サーバ

Claims

楽曲を演奏する楽曲演奏装置と共に用いられ、その楽曲演奏装置にて演奏された楽曲に対する歌唱を採譜する採譜装置であって、
前記楽曲の演奏中に入力された音声の音高を表す歌唱音高を順次推定する歌唱音高推定手段と、
前記楽曲の演奏における時間進行に沿って連続するように規定された単位区間それぞれについて音階音毎に、音楽理論上好ましいほど値が大きな重みが予め決められたデータを採譜基準データとし、前記歌唱音高推定手段で推定された歌唱音高を前記採譜基準データに順次照合して、前記音階音毎に、その音階音に対する前記歌唱音高のズレが小さいほど値が大きく、かつ前記歌唱音高が音楽理論上好ましいほど値が大きな推定指標を導出する推定指標導出手段と、
前記推定指標の中での最大値を最大推定指標とし、前記推定指標導出手段にて推定指標が導出される毎に、前記最大推定指標に対応する音階音を、前記単位区間における音高である区間音高として特定する区間音高特定手段と、
前記区間音高特定手段で特定された区間音高を、前記歌唱音高の推定順に接続することで採譜する採譜手段と
を備えることを特徴とする採譜装置。
前記採譜基準データは、
前記単位区間それぞれの区間長中心または始終端、及び前記音階音それぞれを、行または列としたマトリックス状に形成され、かつマトリックスを形成する各格子点に前記重みが決められており、
前記推定指標導出手段は、
前記歌唱音高から各格子点までの距離の逆数に、前記格子点それぞれに決められた前記重みを乗算した値を前記推定指標として導出することを特徴とする請求項１に記載の採譜装置。
前記採譜基準データは、
前記音階音のうち、前記楽曲の主旋律を構成する音階音である主旋律音、前記楽曲のコード進行にてコードを構成する音階音である和音音、前記主旋律音及び前記和音音以外の音階音の順に、小さな値となるように前記重みが決定されていることを特徴とする請求項１または請求項２に記載の採譜装置。
楽曲を演奏する楽曲演奏装置と共に用いられるコンピュータに実行され、その楽曲演奏装置にて演奏された楽曲に対する歌唱を採譜するプログラムであって、
前記楽曲の演奏中に入力された音声の音高を表す歌唱音高を順次推定する歌唱音高推定手順と、
前記楽曲の演奏における時間進行に沿って連続するように規定された単位区間それぞれについて音階音毎に、音楽理論上好ましいほど値が大きな重みが予め決められたデータを採譜基準データとし、前記歌唱音高推定手順で推定された歌唱音高を前記採譜基準データに順次照合して、前記音階音毎に、その音階音に対する前記歌唱音高のズレが小さいほど値が大きく、かつ前記歌唱音高が音楽理論上好ましいほど値が大きな推定指標を導出する推定指標導出手順と、
前記推定指標の中での最大値を最大推定指標とし、前記推定指標導出手順にて推定指標が導出される毎に、前記最大推定指標に対応する音階音を、前記単位区間における音高である区間音高として特定する区間音高特定手順と、
前記区間音高特定手順で特定された区間音高を、前記歌唱音高の推定順に接続することで採譜する採譜手順と
を前記コンピュータに実行させることを特徴とするプログラム。