[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4612329B2 - 情報処理装置およびプログラム - Google Patents

情報処理装置およびプログラム Download PDF

Info

Publication number
JP4612329B2
JP4612329B2 JP2004133082A JP2004133082A JP4612329B2 JP 4612329 B2 JP4612329 B2 JP 4612329B2 JP 2004133082 A JP2004133082 A JP 2004133082A JP 2004133082 A JP2004133082 A JP 2004133082A JP 4612329 B2 JP4612329 B2 JP 4612329B2
Authority
JP
Japan
Prior art keywords
information
voice
unit
comparison
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004133082A
Other languages
English (en)
Other versions
JP2005316077A (ja
Inventor
裕子 石若
覚 安居
崇正 佐藤
侑昇 嘉数
Original Assignee
株式会社テクノフェイス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社テクノフェイス filed Critical 株式会社テクノフェイス
Priority to JP2004133082A priority Critical patent/JP4612329B2/ja
Publication of JP2005316077A publication Critical patent/JP2005316077A/ja
Application granted granted Critical
Publication of JP4612329B2 publication Critical patent/JP4612329B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

本発明は、声まね等の練習を行える情報処理装置等に関するものである。
人が発声したときに聞こえる自分の声は、空気中を伝わって聞こえる自分の声(気導フィードバック)と頭蓋骨を伝わって聞こえる自分の声(骨導フィードバック)の合成された音声である。他人に聞こえる声は、空気中を伝わる音のみであるため、自分自身が聞く声を、他人に聞かせることは不可能である。マイクを通じて聞こえる自分の声や録音した声が、いつもと違う声で奇妙に感じてしまうのは、このためである。カラオケや宴会等で、声まねをした時に、自分自身では非常に似ていると思っていたのに、マイクを通じた声が、自分で思っているほど似てなくて、聴衆の受けが悪い場合もある。
かかる背景から、ひとりよがりのものまねに気づいてしまった人、一発芸を身に付けたいと思っている人、宴会で一発芸を強要されて困っている人、声まねが上達したい人を支援する技術が必要である。
上記課題を解決するための技術に関連する技術として、以下の自動演奏装置がある。本自動演奏装置は、予め記憶された楽音データに基づき楽音を発生して自動演奏を行なう自動演奏装置であって、音声を入力して歌唱信号に変換する変換手段と、楽音が発生されている間に所定間隔でトリガ信号を発生する信号発生手段と、該信号発生手段によりトリガ信号が発生された回数を計数する第1の計数手段と、前記信号発生手段によりトリガ信号が発生された際、前記変換手段により変換された歌唱信号の有無を計数する第2の計数手段と、前記第1の計数手段で計数された数に対する前記第2の計数手段で計数された数の比率に応じて評価結果を算出する算出手段と、該算出手段で算出された評価結果を報知する報知手段とにより構成される自動演奏装置がある(特許文献1参照)。本自動演奏装置は、伴奏に応じて歌唱した音声を評価できるようにした知育等に好適な歌唱力評価機能付自動演奏装置に関し、伴奏音に乗せて楽曲を歌唱することのできるカラオケ機能及びその歌唱力評価機能を有し、歌唱力が評価されているという実感が得られる幼児の知育に好適な歌唱力評価機能付自動演奏装置を提供することを目的としている。
また、関連する技術を導入した音楽ソフトウェア商品として、プリマヴィスタ(登録商標)がある(非特許文献1参照)。本ソフトウェアは、「ピッチグラフ」、「音とりモード」、「視唱トレーニング」、「ハモリ測定」の4つの機能を備えた合唱練習用ソフトである。「ピッチグラフ」の機能は、PCのマイクに向かって歌うと音程の変化をグラフで表示する機能である。本機能により、正確な音程を練習できる。「音とりモード」の機能は、合唱のパートを練習するための機能で、他のパートや自分のパートの音を聴きながら歌うと、楽譜に音の高低が表示される。「視唱トレーニング」の機能は、音階や音程の課題を楽譜として表示し、これを歌うことにより譜読みと音程を練習できる機能である。「ハモリ測定」の機能は、ハモリの練習機能で、PCからの音にハーモニーを付けたり、2人でハモると、和音の音程を表示する。
特開平5−11687(第1頁、第1図等) 株式会社河合楽器製作所ホームページ、インターネット<URL:http://www.kawai.co.jp/cmusic/products/primavista.htm>
しかしながら、上述した従来技術は、声まねの練習を行うことを想定していない。つまり、従来技術において、何かに似せようとして発声された音声を聞いた人が、音声データの特徴量のうちのどの特徴量の類似度が高い場合に、似ていると感じるかが考慮されていない。
したがって、従来技術において、歌唱力の評価や、音程を狂わないように歌う練習は可能であるが、人の感覚に合致して、発声した音声が対象となる音声に似ているかどうかを判断することは困難であった。
また、従来技術によれば、格納している音声の一部分のみを似るように芸を磨くなどの練習をすることができなかった。かかる芸は一発芸と言われている芸である。
また、従来技術において、人が感じる指標に近い指標で、似ている度合いをリアルタイムに表示できなかったので、例えば、歌のものまねを行っている場合に、途中で軌道修正をすることができなかった。
さらに、従来技術において、例えば、正しい歌の音声データを強制的に音痴な音声データに変更して、その音痴な音声データに対する類似度を出力できなかったので、強制的に音痴に歌を歌う練習ができなかった。なお、強制的に音痴に歌を歌うことができれば、十分、宴会芸として役に立つ。
本第一の発明の情報処理装置は、音声を取得する音声取得部と、前記音声取得部が取得した音声の所定の特徴量を抽出する第一特徴量抽出部と、前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を比較する比較部と、前記比較部が比較した結果を出力する出力部を具備する情報処理装置である。なお、前記所定の特徴量は、音声データから抽出されるビブラートに関する情報、音の入り方に関する情報、音程の変化に関する情報のうち1以上の情報を有することが好適である。
かかる構成により、声まねの練習が容易にできる。また、人が似ていると感じるような声まねの能力を手にいれることができる。
また、第二の発明の情報処理装置は、第一の発明の情報処理装置に対して、前記音声データは所定の部分ごとに区切ることが可能であり、前記比較部は、前記部分ごとに、前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を比較し、前記出力部は、前記比較部が出力した部分ごとの比較結果を出力する情報処理装置である。
かかる構成により、一部分の声まねの練習が容易である。
また、第三の発明の情報処理装置は、第二の発明の情報処理装置に対して、前記部分を指示する入力を受け付ける入力受付部と、前記入力受付部が前記入力を受け付けた場合に、指示された部分に対応する音声データの一部分を読み出し、音声出力する音声出力部をさらに具備する情報処理装置である。
かかる構成により、一部分の声まねの練習が容易である。
また、第四の発明の情報処理装置は、第二の発明の情報処理装置に対して、前記部分を指示する入力を受け付ける入力受付部と、前記入力受付部が前記部分を指示する入力を受け付けた場合に、前記音声取得部が音声を取得し、前記第一特徴量抽出部は、前記音声取得部が取得した音声の所定の特徴量を抽出し、前記比較部は、前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を比較し、前記出力部は、前記比較部が比較した結果を出力する情報処理装置である。
かかる構成により、一部分の声まねの練習が容易である。
また、第五の発明の情報処理装置は、上記の情報処理装置に対して、前記出力部は、前記比較部が比較した結果を視覚的に出力する情報処理装置である。
かかる構成により、声まね指数が一目瞭然であり、ユーザにとって声まねの練習がしやすい。
さらに、第六の発明の情報処理装置は、上記の情報処理装置に対して、前記音声データ格納部に格納されている音声データを変化させる度合いを示す情報である音ズレ情報の入力を受け付ける音ズレ情報入力受付部と、前記音ズレ情報に基づいて前記音声データを変更する音声データ変更部をさらに具備する情報処理装置である。
かかる構成により、例えば、正しい歌の音声データを強制的に音痴な音声データに変更して、強制的に音痴に歌を歌うことを練習することができる。
なお、上記の情報処理装置は、ソフトウェアで実現しても良い。
本発明によれば、声まね等の練習が行える。
以下、情報処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
図1は、本実施の形態における情報処理装置のブロック図である。本情報処理装置は、音声データ格納部101、音声取得部102、第一特徴量抽出部103、第二特徴量抽出部104、比較部105、出力部106、音ズレ情報入力受付部107、音声データ変更部108、入力受付部109を具備する。
第一特徴量抽出部103は、第一ビブラート情報取得手段1031、第一入情報取得手段1032、第一音程変化情報取得手段1033を具備する。
第二特徴量抽出部104は、第二ビブラート情報取得手段1041、第二入情報取得手段1042、第二音程変化情報取得手段1043を具備する。
音声データ格納部101は、真似る対象の音声データ(以下、適宜「教師データ」という)を格納している。音声データは、例えば、MIDI形式の楽音データや、WAV形式の音データ等である。ただし、音声データの形式は問わない。また、音声データは、歌手の歌声のデータや、動物の鳴き声や、機械音や、英語や韓国語の単語、文章を読んだ際の音声データ等である。音声データ格納部101は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
音声取得部102は、人が発生する音声を取得し、音声データに変換する。音声取得部102は、例えば、マイクおよび当該マイクが集音した音声を音声データに変換するソフトウェアから実現され得る。
第一特徴量抽出部103は、音声取得部102が取得した音声の所定の特徴量を抽出する。所定の特徴量とは、類似度が高ければ似ていると人が感じる、1以上の特徴量である。所定の特徴量とは、例えば、音声データから抽出されるビブラートに関する情報、音の入り方に関する情報、音程の変化に関する情報のうち1以上の情報を有する。第一特徴量抽出部103は、通常、MPUやメモリ等から実現され得る。第一特徴量抽出部103の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
第二特徴量抽出部104は、音声データ格納部101に格納されている音声データから所定の特徴量を抽出する。第二特徴量抽出部104が抽出する特徴量は、第一特徴量抽出部103が抽出する特徴量と同種の特徴量である。第二特徴量抽出部104は、通常、MPUやメモリ等から実現され得る。第二特徴量抽出部104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
比較部105は、第一特徴量抽出部103が抽出した特徴量と、第二特徴量抽出部104抽出した特徴量を比較し、比較結果を出力部106に渡す。比較部105は、2以上の特徴量を比較する場合、特徴量ごとに比較する。そして、かかる場合、比較結果は、特徴量ごとに出力しても良いし、2以上の比較結果に基づいて一の結果を生成し、出力しても良い。比較結果は、声まねの全体の声まねの度合いを示す声まね指数でも良いし、部分(例えば、一小節)ごとの比較結果でも良い。比較部105は、通常、MPUやメモリ等から実現され得る。比較部105の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
出力部106は、比較部105が比較した結果を出力する。出力部106は、比較部105が比較した結果を視覚的に、できれば画像(イメージ)により出力することが好適である。ユーザが比較結果を理解しやすいためである。また、出力部106は、比較部105が比較した結果をリアルタイムに出力することが好適である。一定以上の時間、比較を続ける場合、ユーザは似るように矯正しやすいからである。さらに、出力部106は、目または/および鼻または/および口の画像を有する顔画像を変化させ、比較結果が良好になるような態様で表示することが、さらに好適である。ユーザが発声する音声は、顔の形を変える(主として口の形を変える)ことにより変化する。似るように発声するための顔を表示してやると、ユーザにとって似せようとしている対象の音声に似るように、極めて矯正しやすくなる。出力とは、通常、ディスプレイへの表示を言うが、プリンタへの印字、外部の装置への送信等を含む概念である。出力部106は、ディスプレイ等の出力デバイスを含むと考えても含まないと考えても良い。出力部106は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
音ズレ情報入力受付部107は、音声データ格納部101に格納されている音声データを変化させる度合いを示す情報である音ズレ情報の入力を受け付ける。入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。音ズレ情報入力受付部107は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
音声データ変更部108は、音ズレ情報入力受付部107で受け付けた音ズレ情報に基づいて、音声データ格納部101に格納されている音声データを自動的に変更する。音声データの変更アルゴリズムは問わない。音ズレ情報が割合の情報である場合に、音声データ変更部108は、例えば、音ズレ情報の割合の音情報を、ランダムな値分だけ変化させる。ランダムな値は、例えば、乱数により取得する。音声データ変更部108は、通常、MPUやメモリ等から実現され得る。音声データ変更部108の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
入力受付部109は、処理の開始指示、または終了指示を受け付ける。かかる開始指示の受け付けにより、音声取得部102が音声を取得することを開始し、格納している音声データと取得した音声データの比較が開始される。また、終了指示の受け付けにより、情報処理装置の処理を終了する。指示の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。入力受付部109は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
第一ビブラート情報取得手段1031、および第二ビブラート情報取得手段1041は、音声データからビブラートに関する情報であるビブラート情報を取得する。ビブラート情報の具体例は、後述する。
第一入情報取得手段1032、および第二入情報取得手段1042は、音声データから音の入り方に関する情報である入情報を取得する。入情報の具体例は、後述する。
第一音程変化情報取得手段1033、および第二音程変化情報取得手段1043は、音声データから音程の変化に関する情報である音程変化情報を取得する。音程変化情報の具体例は、後述する。
上記各手段は、通常、MPUやメモリ等から実現され得る。上記各手段の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
以下、本情報処理装置が、ユーザが発生した音声が、真似の対象である音声データとどれぐらいに類似するかを判断し、判断結果を出力する動作について図2のフローチャートを用いて説明する。
(ステップS201)入力受付部109は、開始指示を受け付けたか否かを判断する。開始指示を受け付ければステップS202に行き、受け付けなければステップS201に戻る。
(ステップS202)音声取得部102は、人が発生する音声を取得し、音声データに変換する。変換した音声データは、バッファに追記する。変換した音声データは、例えば、後述する波形データである。
(ステップS203)第一特徴量抽出部103は、音声データの比較を行う区切りであるか否かを判断する。区切りであればステップS204に行き、区切りでなければステップS202に戻る。区切りであるか否かは、例えば、所定の時間が経過したか否かで判断する。なお、所定の時間は、後述するように0.03秒ぐらいが好適である。また、第一特徴量抽出部103は、音声取得部102が取得した音声データが、一定時間以上の無音声である場合に区切りであると判断しても良い。
(ステップS204)第一ビブラート情報取得手段1031は、バッファに格納されている音声データから、第一のビブラート情報を取得する。音声データからビブラート情報を取得するアルゴリズムの例は後述する。
(ステップS205)第一入情報取得手段1032は、バッファに格納されている音声データから、第一の入情報を取得する。音声データから入情報を取得するアルゴリズムの例は後述する。
(ステップS206)第一音程変化情報取得手段1033は、バッファに格納されている音声データから、第一の音程変化情報を取得する。音声データから音程変化情報を取得するアルゴリズムの例は後述する。
(ステップS207)第二ビブラート情報取得手段1041は、音声データ格納部101の音声データ中の、対応する音声データから、第二のビブラート情報を取得する。音声データからビブラート情報を取得するアルゴリズムの例は後述する。なお、対応する音声データとは、音声取得部102が取得した音声データに対応する音声データである。
(ステップS208)第二入情報取得手段1042は、音声データ格納部101の対応する音声データから、第二の入情報を取得する。音声データから入情報を取得するアルゴリズムの例は後述する。
(ステップS209)第二音程変化情報取得手段1043は、バッファに格納されている音声データから、第二の音程変化情報を取得する。音声データから音程変化情報を取得するアルゴリズムの例は後述する。
(ステップS210)比較部105は、第一のビブラート情報と第二のビブラート情報を比較し、比較結果を出力する。
(ステップS211)比較部105は、第一の入情報と第二の入情報を比較し、比較結果を出力する。
(ステップS212)比較部105は、第一の音程変化情報と第二の音程変化情報を比較し、比較結果を出力する。
(ステップS213)比較部105は、ステップS210からステップS212で出力した比較結果をパラメータとして得点を算出する。ここで算出された得点は、部分的な声まね指数である。
(ステップS214)出力部106は、ステップS210からステップS212で出力した比較結果に基づいて、出力する画像を構成する。「画像を構成する」処理は、格納されている画像データを読み出す処理でも良い。
(ステップS215)出力部106は、ステップS214で構成した画像を出力する。
(ステップS216)終了か否かを判断する。終了か否かの判断は、入力受付部109は終了指示を受け付けたか否か、または音声データの比較処理が終了したか否かを判断することにより行われる。終了であればステップS217に行き、終了でなければステップS202に戻る。なお、ステップS202に戻る前に、音声データ格納部101の音声データを読み出すポインタをずらす。つまり、本ポインタは、次の比較すべき音声データの先頭のアドレスに移動されている。
(ステップS217)比較部105は、ステップS213で算出した1以上の得点から、総合得点を算出する。総合得点とは、声まね指数である。総合得点の算出は、ステップS213で算出した1以上の得点の合計でも良いし、平均でも良いし、合計した数値を100点満点になるように補正しても良い。
(ステップS218)出力部106は、ステップS217で算出した声まね指数を出力する。
次に、情報処理装置が、音ズレ情報の入力を受け付けた場合の処理について説明する。音ズレ情報入力受付部107は、音ズレ情報の入力を受け付けた場合に、当該音ズレ情報に基づいて、音声データ変更部108は、音声データ格納部101に格納されている音声データを自動的に変更する。
次に、本情報処理装置の開発の準備段階で行った実験について説明する。本情報処理装置の開発にあたって、声まねの特徴量を抽出することが重要である。そこで、人間が声まねを似ていると感じる基準を決定する必要がある。同じ声まねを聴いても、似ているという人と似ていないという人がいる。これは、声まねを似ていると判断する基準には個人差があるためである。しかし、ある特徴的な音に対しては、共通の評価基準が存在するのではないかと考えられる。そこで、声まねの特徴量を抽出するための、声まね評価実験を行った。
本評価実験は、評価者のほとんどが似ていると判断するような声まねは存在するか否か、教師データを声まねとして聞かせたときに、その声まねが教師データと同じ音であると判断できるか、またその評価はどのくらいの点数になるのか、を調査することを目的としている。なお、教師データとは、声まねの対象となるデータであり、本情報処理装置の構成における音声データ格納部101の音声データである。
実験内容は、はじめに3秒未満の短い教師データを一度だけ聴いてもらう。その後5秒間隔で素人の声まねを10人分聴いてもらい、0点から100点までの評点で、個人の直感をもとにブランクの5秒の間に採点してもらった。評価者には、実験の真の目的をつげずに、機械学習の教師データに使用するためのデータ収集を目的としていると伝えた。5種類の音データに対して、23名の人に評価実験を行ってもらった。評価結果を図3に示す。
図3の表において、全体平均は、全評価者の平均点数である。声まね最高は、最高得点を取った人の全採点者の平均点、最低は、最低点を取った人の全採点者の平均点、TOP獲得率は、最高点をつけた人数の割合、教師データ認識率は、教師データを声まねリストに混ぜて聞かせたときの認識率と平均点である。教師データに最高点をつけた場合を、"認識"としている。教師データを混ぜなかったデータについては、"−"で示している。採点者は全員日本人で、声まねを行った人はマレーシア人、スイスジャーマン、イタリア人、フランス人、日本人とし、各音リストで、順番も人物も変えている。図3の表において、教師データの1番目は、恐竜おもちゃの電子音である、2番目は、本物のヤギ(めぇぇぇ)の鳴声である。3番目は、「お主も悪よの」という日本語の短文である。4番目は、スイスジャーマンで食器棚を意味する言葉である。5番目は長いフランス語である。
1番目の恐竜おもちゃの電子音に対して、声まねを行った人は、マレーシア人男性1人、スイスジャーマン男性2人、フランス人男性1人、日本人男性2人、イタリア人女性1人、日本人女性3人の合計10名である。この声まねデータの中に教師データは含まれていない。評価実験を行った結果、ある日本人女性にのみ高い評点があつまった。この評価の高かった女性のデータ、評価の低かったデータおよび教師データの波形データと時間−周波数解析結果を図4に示す。図4の上は波形である。図4の中は周波数スペクトルである。図4の下は時間―周波数解析(x軸:時間、y軸:周波数)である。色が白い箇所は、振幅が大きい箇所である。
図4より、似ていると判断された声まねは、教師データと周波数スペクトルが似ている、音の立ち上がりが似ている、波形が似ている、という3点が解析結果からわかる。しかし、時間に関しては、約2秒のデータに対して、1秒ほど長くなっている。このことから、教師の1番目の恐竜おもちゃの電子音に関しては、テンポの正確さは、似ているか否かを判断する場合の特徴量に入っていないと思われる。
採点者が教師データの特徴量を認識可能な教師データ2のGoatの場合、教師データの認識率は82.6%と高かった。しかし、教師データの特徴量の認識が困難な教師データ4および5のスイスジャーマンとフランス語39.1%と30.4%と、ともに低い認識率であった。また、教師データ5のフランス語に関しては、声まねリストの中に、全く同じ声まねを混ぜておいたが、同じ評点をつけた採点者は、4人にとどまった。このことから、特徴量が捕らえやすい音については、採点が可能だが、特徴量が捉えきれないものついては、評価ができないということがわかった。聴いたことのない外国語に関しては、3秒のデータですら特徴を捉えることが難しいことから、例えば、音痴な人が音程を捉えることができないのは、音階の特徴量を捉えられないためではないかと推測される。音楽に関しても、長い節を一度に音程を捉えることは、音楽未経験者および音痴な人には非常に困難である。このため、音痴矯正教示データは、小節毎、あるいはメロディーごとに区切って、短い時間間隔で教示する方が効果的であると考えられる。
万人が似ていると感じる声まねは、各自が記憶している特徴量と現在聞こえている音声との比較となるため、大げさな方が似ていると感じる。評価実験より、特徴量を捉えきれない音については、ほんの数秒のデータですら、人間は正確に音声そのものを記憶できないことがわかった。このことは、聴いたことのない外国語の声まね度を判定するときには、判断できない、あるいは、全部同じに聞こえる、教師データを教師データとして識別できないといった結果からも推測される。これらのことから、教師データとそっくりに声まねができたとしても、他人からは似ていると判定してもらえない可能性がある。そこで、教示する際に使用すべきデータは、教師データの特徴量をより顕著にした加工データを使用した方が効果的であると思われる。
図3、図4における実験によれば、教師データよりも高く評価されたものがある声まねデータおよび全体的に評価が高かった声まねデータをもとに、特徴量の検討を行った。具体的には、声まねに必要な特徴量の比較検討を行った。音の特徴量として、音の高さ(ピッチ)、大きさ(ラウドネス)、および音色を決定づける要素である倍音成分、立ち上がり時間、立ち上がり特性、ビブラート、振幅変調、ピッチの揺れ等を抽出し、どのような要素が声まねに影響するのか検討し、実際に使用する特徴量を決定した。その結果、似ていると判断されるための音声データの特徴量は、主として、ビブラート、音の入り方、音程の相対的な変化量という3つの特徴量であると判断された。人は、2つの音声データを比較して、かかる特徴量が主として似ている場合に、2つの音声データが似ている、と判断する。また、時間(テンポ)のずれは、評価に影響を与えない。
また、ビブラートの特徴を得るために、0.03秒以上の時間分解能が必要である。0.03秒以上の時間分解能があれば、音の入りや音程の相対的な変化量の特徴を得ることが可能である。よって、音の分類に必要な時間分解能を、ここでは0.03秒とする。ただし、音の分類に必要な時間分解能は、略0.03秒ぐらいであれば良い。特徴量には、各時間における振幅の変化量から得たビブラートの有無、強弱、出だしのクレッシェンドの有無、アタック(音の出だし)の強弱、音量の時間差分などがある。
以下、本実施の形態における情報処理装置の具体的な動作について説明する。まず、音声データ格納部101には、声まねの対象である教師データの生波形データが格納されている。
まず、第二特徴量抽出部104は、音声データ格納部101に格納されている教師データの生波形データから、第二のビブラート情報、第二の入情報、第二の音程変化情報を得る。具体的には以下のような処理を行う。
つまり、情報処理装置の第二特徴量抽出部104は、音声データ格納部101の生波形データを読み出す。この生波形データは、図5(a)に示すようなデータである。そして、第二特徴量抽出部104は、読み出した生波形データを整流する。次に、第二特徴量抽出部104は、整流した波形を、0.03秒間隔で加算平均する。次に、第二特徴量抽出部104は、音の立上がりおよび立下りから、実際の発声部分を抜き出す(図5(b)参照)。次に、第二特徴量抽出部104は、0.03秒間隔で短時間フーリエ変換(Short Time Fourier Transform :STFT)による時間周波数解析を行う。そして、第二特徴量抽出部104は、図5(c)のテンプレートを得る。
次に、ユーザは、声まねの開始指示を入力する、とする。そして、情報処理装置は、開始指示の入力を受け付け、音声取得部102は、ユーザが発生する音声データを取得する。取得した音声データは、図5(a)に示すような生波形データである。
次に、情報処理装置の第一特徴量抽出部103は、上述のような第二特徴量抽出部104と同様の処理によりテンプレート(図5(c)のようなデータ)を得る。なお、第一特徴量抽出部103が図5(c)のようなテンプレートを得る場合に、全体の長さを教師データ(音声データ格納部101のデータ)のテンプレートに合わせる(この処理を「Normalize」という)。例えば、教師データの長さが1sで、声まねが0.8sしかない場合は1sまで引き伸ばして、逆に1.2sくらいの長い場合は、1sに縮める。その状態で、上記のテンプレート(声まねテンプレート−図5(c))を作る。かかるテンプレートは、教師データのテンプレートと同様の長さである。
以上の処理により、教師データのテンプレート(テンプレート2という)と、ユーザ入力音声から得たテンプレート(テンプレート1という)が得られた。
そして、第一ビブラート情報取得手段1031、第一入情報取得手段1032、および第一音程変化情報取得手段1033は、ユーザ入力音声から得たテンプレート1から、それぞれ第一のビブラート情報、第一の入情報、第一の音程変化情報を得る。
具体的には、第一ビブラート情報取得手段1031は、テンプレート1の一番振幅の強い周波数(Fmax1)を、単位時間ごと(単位時間は、図5(c)の1ブロックで、0.03s以内である)に算出し、第一のビブラート情報を得る。第一のビブラート情報は、周波数(Fmax1)の数字列である。また、第二ビブラート情報取得手段1041は、テンプレート2の一番振幅の強い周波数(Fmax2)を、単位時間ごとに算出し、第二のビブラート情報を得る。第二のビブラート情報も、周波数(Fmax2)の数字列である。
次に、第一入情報取得手段1032は、テンプレート1の最初の所定の数(たとえば、5)のブロックの各周波数における振幅を取得する。また、第二入情報取得手段1042は、テンプレート2の最初の所定の数(たとえば、5)のブロックの各周波数における振幅を取得する。
次に、第一音程変化情報取得手段1033は、テンプレート1の単位時間ごとの一番強い振幅の周波数を取得する。つまり、第一の音程変化情報は、振幅の周波数列である。第二音程変化情報取得手段1043は、テンプレート2の単位時間ごとの一番強い振幅の周波数を取得する。つまり、第二の音程変化情報も、振幅の周波数列である。
そして、比較部105は、上記のテンプレート1、テンプレート2のビブラート情報、入情報、音程変化情報を比較する。
まず、比較部105は、第一のビブラート情報と第二のビブラート情報を比較して、教師データとユーザが入力した音声のビブラートの類似度を算出する。なお、ビブラートの類似度は、上述したビブラートに関する情報の一例である。具体的には、比較部105は、2つのテンプレートのデータの位置の差と個数の差をパラメータとしてビブラートの類似度を算出する。また、比較部105は、人工ニューラルネットワーク(ANN)による機械学習により類似度を算出しても良い。つまり、比較部105は、アンケートデータをもとに、決定する。例えば、Aさんの声まね点数平均が60点、Bさんの声まね点数平均70点等といった教師データからANNを学習して荷重を決定し、その後、未知の声まねデータCさんの点数を出す。
以下、ANNによる機械学習について説明する。ANNの入力を特徴量(テンプレートから得た情報)、出力を点数とする。Aさんの声まねの特徴量を入力し、Aさんの平均点が60点だとすると、ANNの出力が60点となるまで、ANNの荷重を学習する。このような学習に使用するデータをパターン信号という。パターン信号がひとつでは、学習に偏りがでてしまうため、BさんやCさんについても、同様の学習を同じニューラルネットワークで行い、さらに荷重の学習を行う(たとえば5パターン)。こうして、学習済みのANNをあらかじめシステム側で用意しておき、使用者の声まねの点数をANNによって出力する。つまり、ANNは、例えば、何人かの平均した審査員に相当する。
また、比較部105は、第一の入情報と第二の入情報を比較して、教師データとユーザが入力した音声の、音の入り方の類似度を算出する。なお、音の入り方の類似度は、上述した音の入り方に関する情報の一例である。具体的には、テンプレート1の最初の5つのブロックの各周波数における振幅が第一の入情報であるとする。また、テンプレート2の最初の5つのブロックの各周波数における振幅が第二の入情報であるとする。そして、比較部105は、第一の入情報の各要素と第二の入情報の各要素の差の合計の逆数に、所定の整数を掛けた数が2つの入情報の類似度であるとして、音の入り方に関する類似度を算出する。
さらに、比較部105は、第一の音程変化情報と第二の音程変化情報を比較して、教師データとユーザが入力した音声の、全体的な類似傾向である全体的な類似度を算出する。この類似度は、音程の変化に関する情報の一例である。具体的には、比較部105は、第一の音程変化情報である振幅の周波数列と、第二の音程変化情報である振幅の周波数列の差の合計の逆数に、所定の整数を掛けた数を音程の変化に関する類似度として、算出する。
なお、上記の一番強い振幅の周波数は、例えば、各周波数の加算平均により算出される。
さらに、比較部105は上述したビブラートの類似度、音の入り方の類似度および音程の変化に関する類似度に基づいて、声まね指数を算出する。具体的には、例えば、比較部105は、3つの類似度の合計を声まね指数として算出する。また、比較部105は、3つの類似度の平均値を声まね指数として算出しても良い。
次に、出力部106は、例えば、図6に示す出力顔画像判断表と、図7に示す1以上の出力顔画像を保持している。出力顔画像判断表は、「ID」「条件」「画像ID」を有するレコードを1以上保持している。「ID」は、レコードを識別する情報であり、表管理上の要請のために存在する。「条件」は、特徴量をパラメータとして、出力する画像を決定するための条件である。「条件」の属性値が、比較部105が算出した結果に合致すれば、「画像ID」の画像が出力される。「画像ID」は、画像を識別する識別子ある。図7の出力顔画像は、ここでは4つの画像である。4つの画像中の「ID=1」の画像は、音の入りをソフトにすることを教示する場合に表示される画像である。「ID=2」の画像は、音の入りをハードにすることを教示する場合に表示される画像である。「ID=3」の画像は、ビブラートを弱くすることを教示する場合に表示される画像である。「ID=4」の画像は、ビブラートを強くすることを教示する場合に表示される画像である。
出力部106は、出力顔画像判断表の条件に照らして、比較部105が比較した結果により、画像を選択し、表示する。なお、比較部105が比較した結果が「「第一のビブラート情報」−「第二のビブラート情報」=12」であれば、出力顔画像判断表の「ID=3」のレコードの条件に合致し、「画像ID=3」の画像を選択し、表示する。かかる画像の選択および表示は、ユーザが音声を入力している間、情報処理装置は、リアルタイムに連続して行う。
また、出力部106は、上記で算出した声まね指数を図8に示すような態様で出力する。図8の画面において、ユーザが「Midi Open」ボタン1をクリックすると、情報処理装置は、MIDI再生用データを読み込む。ユーザが「PLAY」ボタン2を押すと、情報処理装置は、スペクトル表示画面(図8の中央の大きな黒い四角)3に網掛けの四角で、同心円のスペクトル表示画面(図8の右側の丸い黒い画面)に黒丸で、正しい音程が教示される。ユーザが歌うと各表示画面には、同様に第一の所定の色(例えば、オレンジ色)で表示される。歌った音程が正しい場合は、第二の所定の色(例えば、黄色く)教示色が変わる。音程がずれている場合は、顔画像(図8の右下の顔4)が、"もっと高く"、"もっと低く"と教示する顔画像を表示する(図12参照)。音程があっているときは、図8に示すように無表情な顔画像を表示する。以上の表示により、ユーザは、リアルタイムに軌道修正しながら、声まねの練習ができる。
次に、強制的に音痴に歌を歌う宴会芸を身に付けるための、本情報処理装置の動作について説明する。
今、情報処理装置の音声データ格納部101に、歌手が歌った歌の音声データが格納されている、とする。かかる状況で、ユーザは、音声データを変化させる度合いを示す情報である音ズレ情報を入力する。音ズレ情報は、ここでは、音ズレの発生頻度を示す情報である音ズレ情報と、音ズレの幅(大きさ)を示す音ズレレベルを有する。ユーザは、音ズレ情報を「50%」、音ズレレベルを「7」に設定する(図8左側参照)と、音ズレ情報入力受付部107は、かかる音ズレ情報を受け付ける。次に、音声データ変更部108は、音ズレ情報を「50%」、音ズレレベルを「7」に基づいて、音声データ格納部101に格納されている音声データを自動的に変更する。つまり、音声データ変更部108は、音声データ格納部101の音声データ中の50%のデータを、最大「7」音程を上げる、または下げるように音声データを変更する。
具体的には、例えば、図9(a)に示すように、元の教師データが12音階であるとする。そして、全データのうち、50%のデータが音ズレする、という条件のもと、音声データ変更部108は、図9(b)に示すように音ズレするデータを決定する。音声データ変更部108が音ズレするデータを決定するアルゴリズムは問わない。音声データ変更部108は、ひとつ飛ばしで音ズレするデータを決定しても良いし、乱数を発生させて、発生させた乱数により音ズレするデータを決定しても良い。なお、図9(b)において音ズレするデータは、下線部のデータである。次に、音声データ変更部108は、最大で元の音±7ずれるように音ズレの度合いを決定する。音声データ変更部108が音ズレの度合いを決定するアルゴリズムも問わない。音声データ変更部108は、例えば、乱数を発生させて、発生させた乱数を14で割った余りにより「−7」から「+7」までの数字を割り当てる。そして、音声データ変更部108は、図9(d)に示すような変更済みの教師データを得る。そして、ユーザは、かかる変更済みの教師データ(元の美しい歌を音痴にした歌のデータ)に基づいて声まねの練習を行うことにより、強制的に音痴に歌を歌う宴会芸を身に付けることができる。声まねにおける情報処理装置の動作は、上述した通りである。
以上、本実施の形態によれば、声まねの練習が容易にできる。また、人が似ていると感じるような声まねの能力を手にいれることができる。
また、本実施の形態によれば、人が感じる指標に近い指標で、似ている度合いをリアルタイムに表示でき、例えば、歌のものまねを行っている場合に、途中で軌道修正をすることができる。
さらに、本実施の形態によれば、例えば、正しい歌の音声データを強制的に音痴な音声データに変更して、その音痴な音声データに対する類似度を出力でき、強制的に音痴に歌を歌うことができる宴会芸を身に付けることができる。
なお、本実施の形態において、声まねとは、歌まねや動物の鳴き声のまねや、機械音のまねや、語学の発音のまねなども含む。つまり、本実施の形態における教師データは、歌手の歌声データや、動物の鳴き声データや、機械音のデータや、語学の発音データなどである。かかることは他の実施の形態においても同様である。
また、本実施の形態によれば、声まねの判断のための特徴量は、ビブラート情報、音の入り方に関する情報である入情報、および音程の変化に関する情報である音程変化情報が有効であったが、声まね指数の算出のために他の特徴量を用いても良い。かかることも他の実施の形態においても同様である。
また、本実施の形態によれば、教師データのテンプレートを得る動作をユーザからの音声を取得し、2つのテンプレートを比較しながら、リアルタイムに行った。しかし、教師データのテンプレートを得る動作は、ユーザからの音声の取得の前に、前もって行っていても良い。教師データのテンプレートを得る動作を予め他の装置で行って、情報処理装置は他の装置が行って抽出した教師データの特徴量を保持していても良い。かかる場合、情報処理装置は、音声を取得する音声取得部と、前記音声取得部が取得した音声の所定の特徴量を抽出する第一特徴量抽出部と、所定の特徴量を抽出する第二特徴量抽出部と、前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を比較する比較部と、前記比較部が比較した結果を出力する出力部を具備する装置である。
また、本実施の形態によれば、情報処理装置は、スタンドアロンで動作したが、サーバ・クライアントシステムにおいて動作しても良い。かかることも他の実施の形態においても同様である。なお、かかる場合の情報処理システムは、図10に示すシステム構成となる。つまり、情報処理システムは、クライアント装置91とサーバ装置92を有する。クライアント装置91は、音声取得部102、出力部106、音ズレ情報入力受付部107、入力受付部109、第一送受信部9101を具備する。サーバ装置92は、第二送受信部9201、音声データ格納部101、第一特徴量抽出部103、第二特徴量抽出部104、比較部105、音声データ変更部108を具備する。クライアント装置91の第一送受信部9101は、ユーザの発生した音声データをサーバ装置92に送信する。サーバ装置92の第二送受信部9201は、音声データを受信する。比較部105は、当該受信した音声データと格納している音声データとの1以上の特徴量を比較する。第二送受信部9201は、当該比較結果をクライアント装置91に送信する。次に、クライアント装置91の第一送受信部9101は、比較結果を受信し、出力部106は出力する。つまり、上述した情報処理装置の処理を、クライアント装置91とサーバ装置92で分散して処理する態様である。
また、本実施の形態によれば、情報処理装置が声まね指数を算出している際に、音声データ格納部101に格納されている音声データを音声出力しなかったが、音声出力しても良い。音声データを音声出力することは、ユーザの声まねを助け、好適である場合が多い。
また、本実施の形態における具体例によれば、出力部106は、目または/および鼻または/および口の画像を有する顔画像を変化させ、声まねの結果が良好になるような態様で顔画像を表示したが、顔画像以外の画像を表示することにより声まねの比較結果を表示しても良い。つまり、ユーザの発声した音声と比較対象となる音(音声データ格納部101の音声データ)の特徴量の差異(差分データ)を視覚化できれば良い。差分データの表示のために、図7に示すような"顔"ではなく、図11(a)に示す"棘"、図11(b)に示す"コーン"、図11(c)に示す"ボール"などでも良い。"棘"は3つの球体から棘が12本ずつ延びてくるオブジェクトで、それぞれの棘の長さで差分データの大きさを表現している。"コーン"は円形に回転する12本の円錐があり、それぞれの長さで差分データの大きさを表現している。"ボール"は外周を左回りに回転する8つの球体と、内周を右回りに回転する4つの球体がそれぞれ、基底の軌道から逸れた距離と球体の色の変化で差分データの大きさを表現している。なお、図7に示す"顔"は、目、鼻、口で表現された顔の各部の大きさと位置が規定の大きさ、場所との違いで差分データの大きさを表現している。また、顔については差分データが一定の値を超えると表情が大きく変化するようなバリエーションが存在しても良い。たとえば、音程が教師データと比較して非常に低い場合は、図12(a)のような"顔"を表示し、「音をもっと高くする」ことを直感的に教示したり、音程が教師データと比較して非常に高い場合は、図12(b)のような"顔"を表示し、「音をもっと低くする」ことを直感的に教示したりしても良い。特徴量の差異を、直感的なわかりやすさとリアルタイムな入力に対応して表示するため、声まねが上達するために好適である。
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声を取得する音声取得ステップと、前記音声取得ステップで取得した音声の所定の特徴量を抽出する第一特徴量抽出ステップと、前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を比較する比較ステップと、前記比較ステップで比較した結果を出力する出力ステップを実行させるためのプログラムである。
また、本プログラムは、コンピュータに、音声を取得する音声取得ステップと、前記音声取得ステップで取得した音声の所定の特徴量を抽出する第一特徴量抽出ステップと、格納されている音声データから所定の特徴量を抽出する第二特徴量抽出ステップと、前記第一特徴量抽出ステップで抽出した特徴量と、前記第二特徴量抽出ステップで抽出した特徴量を比較する比較ステップと、前記比較ステップで比較した結果を出力する出力ステップを実行させるためのプログラムである。
(実施の形態2)
本実施の形態において、格納している音声データに対して声まねの練習を行える情報処理装置であり、かつ、音声データの各部分の声まね指数が表示され、一部分に対する声まねができる情報処理装置である。
図13は、本実施の形態における情報処理装置のブロック図である。本情報処理装置は、音声データ格納部101、音声取得部102、第一特徴量抽出部103、第二特徴量抽出部104、比較部1105、出力部1106、音ズレ情報入力受付部107、音声データ変更部108、入力受付部1109、音声出力部1110を具備する。
比較部1105は、音声データの部分ごとに、第一特徴量抽出部103が抽出した特徴量と、第二特徴量抽出部104が抽出した特徴量を比較する。音声データは、例えば、歌手が歌った歌のデータである。音声データの部分は、例えば、所定の出力時間の経過により、切り出される。なお、所定の時間は、上述したように0.03秒ぐらいが好適である。また、音声データの区切りは、一定時間以上の無音声である場合に区切りであると判断されても良い。なお、比較部1105は、第一特徴量抽出部103が抽出した2以上の特徴量と、第二特徴量抽出部104が抽出した2以上特徴量を、特徴量ごとに比較しても良い。比較部1105は、通常、MPUやメモリ等から実現され得る。比較部1105の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
出力部1106は、比較部1105が出力した部分ごとの比較結果を出力する。比較結果は、点数により示されても良いし、画像により示されても良い。出力とは、通常、ディスプレイへの表示を言うが、プリンタへの印字、外部の装置への送信等を含む概念である。出力部1106は、ディスプレイ等の出力デバイスを含むと考えても含まないと考えても良い。出力部1106は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
入力受付部1109は、処理の開始指示、終了指示、または部分を指示する入力を受け付ける。「部分を指示する入力」とは、例えば、出力部1106が出力した部分ごとの比較結果に対する指示入力であり、部分の指示入力である。部分とは、音声データの一部分である。指示の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。入力受付部1109は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
音声出力部1110は、指示された部分に対応する音声データの一部分を読み出し、音声出力する。なお、かかる音声データは、通常、音声データ格納部101の音声データである。ただし、かかる音声データは、ユーザが先に入力し、音声取得部102が取得した音声データでも良い。
なお、入力受付部1109が部分を指示する入力を受け付けた場合に、音声取得部102が音声を取得し、第一特徴量抽出部103は、音声取得部102が取得した音声の所定の特徴量を抽出し、第二特徴量抽出部104は、一部分の音声データから所定の特徴量を抽出し、比較部1105は、第一特徴量抽出部103が抽出した1以上の特徴量と、第二特徴量抽出部104が抽出した1以上の特徴量を比較し、出力部1106は、比較部1105が比較した結果を出力する。
以下、本情報処理装置が各部分の声まね指数を出力する動作について図14のフローチャートを用いて説明する。図14のフローチャートにおいて、図2のフローチャートと同様の処理に関しては、説明を省略する。
(ステップS1401)出力部106は、ステップS213で算出した得点を出力する。この得点は、部分ごとの比較結果である。部分ごとの比較結果の表示態様や表示タイミングは問わない。部分ごとの得点の表示態様は、上述した顔画像によるものでも良いし、部分ごとの声まねの得点を数値で表示しても良い。
次に、本情報処理装置が、部分的な声まねの練習に利用される場合の動作について図15のフローチャートを用いて説明する。
(ステップS1501)入力受付部1109は、部分を指示する入力を受け付けたか否かを判断する。部分を指示する入力を受け付ければステップS1502に行き、部分を指示する入力を受け付けなければステップS1501に戻る。
(ステップS1502)音声出力部1110は、ステップS1501で受け付けた入力が示す部分に対応する音声データを音声データ格納部101から読み出す。
(ステップS1503)音声出力部1110は、ステップS1502で読み出した音声データを出力する。
(ステップS1504)音声取得部102は、ユーザが発生する音声を取得する。なお、ステップS1503の音声データ出力と、ステップS1504の音声の取得は、並行して実行されることが好適である。なお、本ループが2回以上繰り返される場合は、取得した音声は追記される。
(ステップS1505)ステップS1501で受け付けた入力が示す部分のすべての出力が終了したか否かを判断する。終了していればステップS1506に行き、終了していなければステップS1502に戻る。
(ステップS1506)第一特徴量抽出部103は、ステップS1504で取得された音声から第一の特徴量を抽出する。第一の特徴量は、例えば、実施の形態1で説明したビブラート情報、入情報、音程変化情報であるが、他の特徴量でも良い。
(ステップS1507)第二特徴量抽出部104は、ステップS1502で読み出した音声データから第二の特徴量を抽出する。第二の特徴量は、例えば、実施の形態1で説明したビブラート情報、入情報、音程変化情報であるが、他の特徴量でも良い。
(ステップS1508)比較部1105は、ステップS1506で取得した第一の特徴量と、ステップS1507で取得した第二の特徴量を比較する。
(ステップS1509)出力部1106は、ステップS1508における比較結果を出力する。処理を終了する。
以上の処理により、ユーザは、例えば、音声データ格納部101に格納されている歌の音データの真似を、一部のフレーズ(例えば、一小節)について練習できる。
以下、本実施の形態における情報処理装置の具体的な動作について説明する。まず、音声データ格納部101には、声まねの対象である教師データの生波形データが格納されている。教師データは、ここでは、歌の音声データである。
そして、ユーザは、歌まねの開始指示を入力する。次に、情報処理装置は、開始指示の入力を受け付け、音声取得部102は、ユーザが発生する音声データを取得する。取得した音声データは、図5(a)に示すような生波形データである。
そして、情報処理装置の第一特徴量抽出部103は、音声取得部102が取得した音声に対して、実施の形態1において説明した処理と同様の処理を行う。そして、第一特徴量抽出部103は、第一のビブラート情報、第一の入情報、第一の音程変化情報を得る。
次に、第二特徴量抽出部104は、音声データ格納部101に格納されている教師データの生波形データから、第二のビブラート情報、第二の入情報、第二の音程変化情報を得る。
そして、比較部105は、第一のビブラート情報と第二のビブラート情報を比較して、教師データとユーザが入力した音声のビブラートの類似度を算出する。また、比較部105は、第一の入情報と第二の入情報を比較して、教師データとユーザが入力した音声の、音の入り方の類似度を算出する。さらに、比較部105は、第一の音程変化情報と第二の音程変化情報を比較して、教師データとユーザが入力した音声の、全体的な類似傾向である全体的な類似度を算出する。さらに、比較部105は上述したビブラートの類似度、音の入り方の類似度および全体的な類似度に基づいて、声まね指数を算出する。声まね指数は、100点満点の点数である。そして、出力部106は、声まね指数を出力する。かかる処理は、実施の形態1で説明した処理と同様であるので、詳細な説明は省略する。
かかる処理を、一小節ごとに繰り返す。その結果、図16に示す。図16は、ユーザが歌を歌い進める間、リアルタイムに一小節ずつ、歌まねの度合いである声まね指数が出力されている。また、出力部106は、所定の点数より低い小節を、網掛けで示している。
次に、ユーザは、図16の表示に対して、網掛けの点数が付いている「PhraseNo.」を指示する、とする。この指示が、上述した「部分を指示する入力」である。
次に、入力受付部1109は、かかる部分を指示する入力を受け付ける。そして、音声出力部1110は、受け付けた入力が示す部分「PhraseNo.=2」に対応する音声データを音声データ格納部101から読み出す。次に、音声出力部1110は、「PhraseNo.=2」の音声データを出力する。そして、その間、「PhraseNo.=2」に対応する小節の歌まねの練習をするために、ユーザは発声する。その間、音声取得部102は、ユーザが発生する音声を取得する。
次に、第一特徴量抽出部103はユーザが発声し、取得した音声から第一の特徴量を抽出する。その特徴量は、ビブラート情報、入情報、音程変化情報である。
次に、第二特徴量抽出部104は、読み出した音声データから第二の特徴量を抽出する。第二の特徴量も、ビブラート情報、入情報、音程変化情報である。次に、比較部1105は、第一の特徴量と第二の特徴量を比較する。そして、出力部1106は、その比較結果を出力する(図17参照)。
以上、本実施の形態によれば、声まねの練習が容易にできる。特に、本実施の形態によれば、一部分の声まねの練習が容易である。それにより、人が似ていると感じるような声まねの能力を手にいれることができる。
なお、本実施の形態において、実施の形態1におけるように顔画像を表示しなかったが、声まねを行っている間、実施の形態1と同様に、顔画像やその他の画像を表示することにより、ユーザに声まね指数をわかりやすく提示しても良い。
また、本実施の形態における具体例によれば、例えば、正しい歌の音声データを強制的に音痴な音声データに変更して、強制的に音痴に歌を歌うことを練習する機能について述べなかったが、実施の形態1で述べた機能と同様に、かかる機能があっても良い。かかる機能は、音ズレ情報入力受付部107、音声データ変更部108により可能である。
さらに、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声を取得する音声取得ステップと、前記音声取得ステップで取得した音声の所定の特徴量を抽出する第一特徴量抽出ステップと、前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を、音声データの部分ごとに比較する比較ステップと、前記比較ステップで比較した部分ごとの比較結果を出力する出力ステップを実行させるためのプログラムである。
なお、上記プログラムにおいて、音声取得ステップなどでは、ハードウェアによって行われる処理、例えば、音声取得ステップにおけるスピーカーなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
また、上記のプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
また、上記各実施の形態において、以下のようなアルゴリズムで、声まね指数を算出しても良い。つまり、情報処理装置の比較部がビブラートの類似度、音の入り方の類似度および音程の変化に関する類似度に基づいて、声まね指数を算出する場合のアルゴリズムの詳細を以下に説明する。
まず、情報処理装置の第二特徴量抽出部は、以下の前処理を行う。今、教師データ(a)が音声データ格納部に格納されている、とする。つまり、(a)は生波形である(図18参照)。そして、まず、第二特徴量抽出部は、ある値(ここでは閾値0.05)以下のものをゼロとし、ノイズの削減し、図18(b)を得る。次に、第二特徴量抽出部は、ノイズを減らした波形を整流し、図18(c)を得る。次に、第二特徴量抽出部は、Window幅で加算平均をとる。ただし、ビブラートが取れるように、0.03秒以下の長さにする。その結果、第二特徴量抽出部は、図18(d)のデータを得る。そして、第二特徴量抽出部は、テンプレートを作るために、音のない部分をカットする。そして、第二特徴量抽出部は、途中で途切れた場合も、後ろの部分はカットし、図18(e)を得る。以上により、第二特徴量抽出部は、音の出だしt1とおわりt2を抽出する。
次に、第二特徴量抽出部は、図18の(e)のデータから抽出したt1、t2の範囲で、Window幅0.01でSTFT(Short Time Fourier Transform)し、図19(f)を得る。次に、第二特徴量抽出部は、(f)のSTFT結果より、各時間における最大値を持つ周波数のみ抜き出し、図19(f)を得る。さらに、第二特徴量抽出部は、(g)より、最大値を一番多く持つ周波数を求め、その周波数の上下1オクターブ内でのみ、10成分大きいものから順に抜き出し、図19(h)を得る。
次に、第一特徴量抽出部は、上述した第二特徴量抽出部のアルゴリズムと同様のアルゴリズムで、声まねデータの最大値を持つ周波数から上下1オクターブ内の10成分を抜き出し、図19(i)を得る。
次に、比較部は、以下のように2つのテンプレート(図19(h)、図19(i))を比較する。まず、比較部は、音の入り方の類似度について比較する。つまり、比較部は、図19(h)において最初の10ブロック分のみのデータを比較する(0.1秒分)。図19(h)のT_Bで囲まれた四角い部分がここに相当する。図19(i)についても同様の時間T_Bを抜き出し、時間ごとの差分をとる。本データの場合、全体の誤差平均値「diff=0.0197」となった、とする。比較部が音の入り方が似ていると判断する場合は、「Threshold1(−x)<diff<Threshold2(+x)」であり、比較部が音の入りが弱いと判断する場合は、「Threshold1>diff」であり、比較部が音の入りが強いと判断する場合は、「Threshold2<diff」である、とする。上記の例にあげたデータでは、非常によく似ていると判断される。なお、音の入り方に関する情報を取得するのは、第一入情報取得手段および第二入情報取得手段である。
次に、比較部は、第一のビブラート情報と第二のビブラート情報の類似度について比較する。つまり、比較部は、図19(h)のテンプレートより、各周波数における時間軸にそって、存在するかどうかのチェックを行う(図19(h)の矢印)。比較部は、ある周波数(一番強い周波数を中心に前後数ブロック分)のon−offの繰り返し時間幅をチェックする。比較部は、On−offの繰り返しがない場合、「ビブラートなし」と判断する。そして、比較部は、On−offが繰り返す場合、「ビブラートあり」と判断する。そして、比較部は、「ビブラートあり」の場合に、ビブラートΔtを求める((h)Δt)。
次に、比較部は、上述と同様に、声まねデータに基づいて、ビブラートΔt'を求める。


そして、比較部は、「Δt'>>Δt」の場合、もっとビブラートを細かくすべきと判断し、出力部は、もっとビブラートを細かとの指示を出力する。また、比較部は、「Δt'<<Δt」あるいは存在しないとき、もっとビブラートを大きくすべきと判断し、出力部は、もっとビブラートを大きくするとの指示を出力する。さらに、比較部は、「Δt'==Δt」の場合、ビブラート情報に関して類似していると判断し、出力部は、何も出力しない、または良好であることを出力する。
なお、出力時に、音の入り方の類似度、ビブラートの類似度を指標化し、および重み付けし、一の数値を出力しても良い。かかる一の数値が、例えば、声まね指数である。
また、声まね指数は、以下のように算出しても良い。つまり、比較部は、図18(h)と図18(i)から、差分テンプレートを求める(図21(l))。この差分テンプレートより、各時間における平均差分データをANNの入力とする。そして、アンケート結果より得た、成績のいいもの、普通のもの、悪いもの3パターンをANNの学習用の教示データとする。ANNの入力データは、例えば、72個である。出力は、アンケート結果より得た平均点を100点で割ってNormalizeしたものとする。ANNの学習は誤差逆伝播法とする。この学習済みのANNに今得た平均差分データ(m)を入力として、入れるとANNが声まね指数を出力する。図22は、ANNのモデル図である。この場合、80点であった。
なお、第一のビブラート情報と第二のビブラート情報の類似度の判定において、STFTを二度かけたものについても行っても良い。
上記で説明したアルゴリズムは、ビブラートの類似度、音の入り方の類似度および音程の変化に関する類似度のうちの2つの類似度に基づいて声まね指数を算出するアルゴリズムであったが、単に声まね指数を算出するアルゴリズムの一例であり、他のアルゴリズムでも良いことは言うまでもない。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかる情報処理装置は、声まね等の練習ができるという効果を有し、例えば、カラオケ装置に搭載するもの等として有用である。
実施の形態1における情報処理装置のブロック図 同情報処理装置の動作について説明するフローチャート 同声まねの評価結果の表を示す図 同声まねの評価結果を示す図 同声まね指数を算出するためのアルゴリズムを説明する図 同出力顔画像判断表を示す図 同出力顔画像を示す図 同声まね指数などの出力画面例を示す図 同音声データの変更を説明する図 同情報処理システムのシステム構成のブロック図 同声まね指数を示す画像を示す図 同出力顔画像を示す図 実施の形態2における情報処理装置のブロック図である 同情報処理装置の動作について説明するフローチャート 同情報処理装置の動作について説明するフローチャート 同声まね指数などの出力画面例を示す図 同比較結果の表示画面例を示す図 同データ変換の具体例を説明する図 同データ変換の具体例を説明する 同データ変換の具体例を説明する 同データ変換の具体例を説明する 同ANNを説明するモデル図
符号の説明
91 クライアント装置
92 サーバ装置
101 音声データ格納部
102 音声取得部
103 第一特徴量抽出部
104 第二特徴量抽出部
105、1105 比較部
106、1106 出力部
107 音ズレ情報入力受付部
108 音声データ変更部
109、1109 入力受付部
1031 第一ビブラート情報取得手段
1032 第一入情報取得手段
1033 第一音程変化情報取得手段
1041 第二ビブラート情報取得手段
1042 第二入情報取得手段
1043 第二音程変化情報取得手段
1110 音声出力部
9101 第一送受信部
9201 第二送受信部

Claims (13)

  1. 声まねの評定を行う情報処理装置であって、
    音声を取得する音声取得部と、
    前記音声取得部が取得した音声の所定の特徴量を抽出する第一特徴量抽出部と、
    前記第一特徴量抽出部が抽出した特徴量と、比較対象の音声データの特徴量を比較する比較部と、
    前記比較部が比較した結果を出力する出力部を具備する情報処理装置であり、
    前記比較部が比較する特徴量は、音の入り方に関する情報を有し、
    前記第一特徴量抽出部は、
    前記音声取得部が取得した音声から、最初の所定の数のブロックの各周波数における振幅である第一の入情報を取得する第一入情報取得手段を具備し、
    前記比較部は、
    前記比較対象の音声データの最初の所定の数のブロックの各周波数における振幅である第二の入情報と前記第一の入情報とを比較し、音の入り方の類似度を取得し、当該音の入り方の類似度を用いて前記比較した結果を取得する情報処理装置。
  2. 前記比較部が比較する特徴量は、音程の変化に関する情報をさらに有し、
    前記第一特徴量抽出部は、
    前記音声取得部が取得した音声から、単位時間ごとの一番強い振幅の周波数の集合である第一の音程変化情報を取得する第一音程変化情報取得手段をさらに具備し、
    前記比較部は、
    前記比較対象の音声データの単位時間ごとの一番強い振幅の周波数の集合である第二の音程変化情報と前記第一の音程変化情報とを比較し、音程の変化に関する類似度を取得し、当該音程の変化に関する類似度をも用いて前記比較した結果を取得する請求項1記載の情報処理装置。
  3. 前記比較部が比較する特徴量は、ビブラートに関する情報をさらに有し、
    前記第一特徴量抽出部は、
    前記音声取得部が取得した音声から、単位時間ごとの一番強い振幅の周波数の集合である第一のビブラート情報を取得する第一ビブラート情報取得手段をさらに具備し、
    前記比較部は、
    前記比較対象の音声データから取得された周波数の集合であり、単位時間ごとの一番強い振幅の周波数の集合である第二のビブラート情報と前記第一のビブラート情報とを比較し、ビブラートに関する類似度を取得し、当該ビブラートに関する類似度をも用いて前記比較した結果を取得する請求項1または請求項2記載の情報処理装置。
  4. 声まねの評定を行う情報処理装置であって、
    音声データを格納している音声データ格納部と、
    音声を取得する音声取得部と、
    前記音声取得部が取得した音声の所定の特徴量を抽出する第一特徴量抽出部と、
    前記音声データ格納部に格納されている音声データから所定の特徴量を抽出する第二特徴量抽出部と、
    前記第一特徴量抽出部が抽出した特徴量と、前記第二特徴量抽出部が抽出した特徴量を比較する比較部と、
    前記比較部が比較した結果を出力する出力部を具備する情報処理装置であり、
    前記比較部が比較する特徴量は、音の入り方に関する情報を有し、
    前記第一特徴量抽出部は、
    前記音声取得部が取得した音声から、最初の所定の数のブロックの各周波数における振幅である第一の入情報を取得する第一入情報取得手段を具備し、
    前記第二特徴量抽出部は、
    前記音声データ格納部に格納されている音声データから、最初の所定の数のブロックの各周波数における振幅である第二の入情報を取得する第二入情報取得手段を具備し、
    前記比較部は、
    前記第二の入情報と前記第一の入情報とを比較し、音の入り方の類似度を取得し、当該音の入り方の類似度を用いて前記比較した結果を取得する情報処理装置。
  5. 前記比較部が比較する特徴量は、音程の変化に関する情報をさらに有し、
    前記第一特徴量抽出部は、
    前記音声取得部が取得した音声から、単位時間ごとの一番強い振幅の周波数の集合である第一の音程変化情報を取得する第一音程変化情報取得手段をさらに具備し、
    前記第二特徴量抽出部は、
    前記音声データ格納部に格納されている音声データから、単位時間ごとの一番強い振幅の周波数の集合である第二の音程変化情報を取得する第二音程変化情報取得手段をさらに具備し、
    前記比較部は、
    前記第二の音程変化情報と前記第一の音程変化情報とを比較し、音程の変化に関する類似度を取得し、当該音程の変化に関する類似度をも用いて前記比較した結果を取得する請求項4記載の情報処理装置。
  6. 前記比較部が比較する特徴量は、ビブラートに関する情報をさらに有し、
    前記第一特徴量抽出部は、
    前記音声取得部が取得した音声から、一番振幅の強い周波数を単位時間ごとに算出し、当該周波数の集合である第一のビブラート情報を取得する第一ビブラート情報取得手段をさらに具備し、
    前記第二特徴量抽出部は、
    前記音声データ格納部に格納されている音声データから、一番振幅の強い周波数を単位時間ごとに算出し、当該周波数の集合である第二のビブラート情報を取得する第二ビブラート情報取得手段をさらに具備し、
    前記比較部は、
    前記第二のビブラート情報と前記第一のビブラート情報とを比較し、ビブラートに関する類似度を取得し、当該ビブラートに関する類似度をも用いて前記比較した結果を取得する請求項4または請求項5記載の情報処理装置。
  7. 前記比較部が比較する特徴量は、テンポに関する情報は含まないことを特徴とする請求項1から請求項6いずれか記載の情報処理装置。
  8. 前記単位時間は、
    略0.03秒である請求項1から請求項7いずれか記載の情報処理装置。
  9. 声まねの評定を行うためのプログラムであって、
    コンピュータに、
    音声を取得する音声取得ステップと、
    前記音声取得ステップで取得した音声の所定の特徴量を抽出する第一特徴量抽出ステップと、
    前記第一特徴量抽出ステップで抽出した特徴量と、比較対象の音声データの特徴量を比較する比較ステップと、
    前記比較ステップで比較した結果を出力する出力ステップを実行させるためのプログラムであり、
    前記比較ステップで比較する特徴量は、音の入り方に関する情報を有し、
    前記第一特徴量抽出ステップは、
    前記音声取得ステップで取得された音声から、最初の所定の数のブロックの各周波数における振幅である第一の入情報を取得する第一入情報取得ステップを具備し、
    前記比較ステップは、
    前記比較対象の音声データの最初の所定の数のブロックの各周波数における振幅である第二の入情報と前記第一の入情報とを比較し、音の入り方の類似度を取得し、当該音の入り方の類似度を用いて前記比較した結果を取得するプログラム。
  10. 前記比較ステップで比較する特徴量は、音程の変化に関する情報をさらに有し、
    前記第一特徴量抽出ステップは、
    前記音声取得ステップで取得された音声から、単位時間ごとの一番強い振幅の周波数の集合である第一の音程変化情報を取得する第一音程変化情報取得ステップをさらに具備し、
    前記比較ステップは、
    前記比較対象の音声データの単位時間ごとの一番強い振幅の周波数の集合である第二の音程変化情報と前記第一の音程変化情報とを比較し、音程の変化に関する類似度を取得し、当該音程の変化に関する類似度を用いて前記比較した結果を取得する請求項9記載のプログラム。
  11. 前記比較ステップで比較する特徴量は、ビブラートに関する情報をさらに有し、
    前記第一特徴量抽出ステップは、
    前記音声取得ステップで取得された音声から、単位時間ごとの一番強い振幅の周波数の集合である第一のビブラート情報を取得する第一ビブラート情報取得ステップをさらに具備し、
    前記比較ステップは、
    前記比較対象の音声データから取得された周波数の集合であり、単位時間ごとの一番強い振幅の周波数の集合である第二のビブラート情報と前記第一のビブラート情報とを比較し、ビブラートに関する類似度を取得し、当該ビブラートに関する類似度をも用いて前記比較した結果を取得する請求項9または請求項10記載のプログラム。
  12. 前記比較ステップで比較される特徴量は、テンポに関する情報は含まないことを特徴とする請求項9から請求項11いずれか記載のプログラム。
  13. 前記単位時間は、
    略0.03秒である請求項9から請求項12いずれか記載のプログラム。
JP2004133082A 2004-04-28 2004-04-28 情報処理装置およびプログラム Expired - Fee Related JP4612329B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004133082A JP4612329B2 (ja) 2004-04-28 2004-04-28 情報処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004133082A JP4612329B2 (ja) 2004-04-28 2004-04-28 情報処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2005316077A JP2005316077A (ja) 2005-11-10
JP4612329B2 true JP4612329B2 (ja) 2011-01-12

Family

ID=35443595

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004133082A Expired - Fee Related JP4612329B2 (ja) 2004-04-28 2004-04-28 情報処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP4612329B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008070498A (ja) * 2006-09-13 2008-03-27 Hitachi Ltd 音声類似度判断システム
WO2010047027A1 (ja) * 2008-10-21 2010-04-29 日本電気株式会社 情報処理装置
JP4983958B2 (ja) * 2010-04-27 2012-07-25 カシオ計算機株式会社 歌唱採点装置および歌唱採点プログラム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56159700A (en) * 1980-05-15 1981-12-09 Mitsubishi Electric Corp Mimicry training machine
JP2906970B2 (ja) * 1993-04-14 1999-06-21 ヤマハ株式会社 サウンドの分析及び合成方法並びに装置
JPH11259081A (ja) * 1998-03-13 1999-09-24 Nec Corp 歌唱採点表示カラオケ装置
JP2000122674A (ja) * 1998-10-14 2000-04-28 Yamaha Corp カラオケ装置
JP2000132176A (ja) * 1998-10-29 2000-05-12 Sanyo Electric Co Ltd カラオケ歌唱評価装置
JP2001115798A (ja) * 1999-10-18 2001-04-24 Mitsui Eng & Shipbuild Co Ltd 三重筒式トンネル埋戻し装置
JP2001117598A (ja) * 1999-10-21 2001-04-27 Yamaha Corp 音声変換装置及び方法
JP2001117568A (ja) * 1999-10-21 2001-04-27 Yamaha Corp 歌唱評価装置およびカラオケ装置
JP2004102146A (ja) * 2002-09-12 2004-04-02 Taito Corp ビブラート採点機能を有するカラオケ採点装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56159700A (en) * 1980-05-15 1981-12-09 Mitsubishi Electric Corp Mimicry training machine
JP2906970B2 (ja) * 1993-04-14 1999-06-21 ヤマハ株式会社 サウンドの分析及び合成方法並びに装置
JPH11259081A (ja) * 1998-03-13 1999-09-24 Nec Corp 歌唱採点表示カラオケ装置
JP2000122674A (ja) * 1998-10-14 2000-04-28 Yamaha Corp カラオケ装置
JP2000132176A (ja) * 1998-10-29 2000-05-12 Sanyo Electric Co Ltd カラオケ歌唱評価装置
JP2001115798A (ja) * 1999-10-18 2001-04-24 Mitsui Eng & Shipbuild Co Ltd 三重筒式トンネル埋戻し装置
JP2001117598A (ja) * 1999-10-21 2001-04-27 Yamaha Corp 音声変換装置及び方法
JP2001117568A (ja) * 1999-10-21 2001-04-27 Yamaha Corp 歌唱評価装置およびカラオケ装置
JP2004102146A (ja) * 2002-09-12 2004-04-02 Taito Corp ビブラート採点機能を有するカラオケ採点装置

Also Published As

Publication number Publication date
JP2005316077A (ja) 2005-11-10

Similar Documents

Publication Publication Date Title
US8138409B2 (en) Interactive music training and entertainment system
US20030182111A1 (en) Speech training method with color instruction
RU2690863C1 (ru) Система и способ компьютеризированного обучения музыкальному языку
AU2003300130A1 (en) Speech recognition method
US6737572B1 (en) Voice controlled electronic musical instrument
US10553240B2 (en) Conversation evaluation device and method
KR101859268B1 (ko) 영어 단어의 음절과 연동된 악보 제공 시스템
JP2008026622A (ja) 評価装置
JP4479701B2 (ja) 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
Gupta et al. Automatic leaderboard: Evaluation of singing quality without a standard reference
CN105244021B (zh) 哼唱旋律到midi旋律的转换方法
CN108922505B (zh) 信息处理方法及装置
CN115050387A (zh) 一种艺术测评中多维度唱奏分析测评方法及系统
WO2022160054A1 (en) Artificial intelligence and audio processing system &amp; methodology to automatically compose, perform, mix, and compile large collections of music
JP4612329B2 (ja) 情報処理装置およびプログラム
Mehrabi et al. Vocal imitation of synthesised sounds varying in pitch, loudness and spectral centroid
CN111695777A (zh) 教学方法、装置、电子设备以及存储介质
CN110956870A (zh) 一种视唱练耳教学方法及装置
Çoskunsoy et al. The Impact of Body Language Use of a Conductor on Musical Quality.
JP2008040260A (ja) 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
JP2008040258A (ja) 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
Gupta Comprehensive evaluation of singing quality
Soszynski et al. Music games as a tool supporting music education
Dai Modelling intonation and interaction in vocal ensembles
KR20190055931A (ko) 자막 기반의 보컬 트레이닝 서비스 제공 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061211

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20080321

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080321

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090311

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090527

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100716

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100928

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101015

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131022

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees