[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6149917B2 - 音声合成装置および音声合成方法 - Google Patents

音声合成装置および音声合成方法 Download PDF

Info

Publication number
JP6149917B2
JP6149917B2 JP2015215546A JP2015215546A JP6149917B2 JP 6149917 B2 JP6149917 B2 JP 6149917B2 JP 2015215546 A JP2015215546 A JP 2015215546A JP 2015215546 A JP2015215546 A JP 2015215546A JP 6149917 B2 JP6149917 B2 JP 6149917B2
Authority
JP
Japan
Prior art keywords
note
sound
pitch
confirmation sound
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015215546A
Other languages
English (en)
Other versions
JP2016033674A (ja
Inventor
英治 赤澤
英治 赤澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2015215546A priority Critical patent/JP6149917B2/ja
Publication of JP2016033674A publication Critical patent/JP2016033674A/ja
Application granted granted Critical
Publication of JP6149917B2 publication Critical patent/JP6149917B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Description

本発明は、音声合成に関する。
歌詞等の文字列、並びに複数の音符(以下「音符列」という)の音高および音長がデータとして入力されると、その文字列および音に応じて、歌唱音の音声を合成する技術が知られている(例えば特許文献1)。
特開2006−259768
特許文献1において、自分の意図どおりに文字列および音符列が入力されたか確認するには、ユーザは、歌詞を入力した後で、合成された音声を再生するための操作を行う必要があり煩雑であった。
これに対し本発明は、新たに入力された音符とその音符に割り当てられた文字とに応じた音声の確認を、より容易にする技術を提供する。
本発明は、文字列を記憶する文字列記憶手段と、複数の音符の各々について、当該音符の発音期間の始期、音高、および音長、並びに前記文字列のうち当該音符に割り当てられた文字を含む属性を記憶する属性記憶手段と、音高を表す第1軸および時間を表す第2軸を有する座標系に従って、前記複数の音符の各々の発音期間の始期、音高、および音長を表す図形を表示手段の画面に表示させる表示制御手段と、前記画面において指定された、新たな音符の音高および発音期間の始期を取得する取得手段と、前記取得手段により取得された前記発音期間の始期と、前記属性記憶手段に記憶されている複数の音符の発音期間の始期との前後関係に基づいて、前記文字列記憶手段に記憶されている文字列の一部を前記新たな音符に割り当てるように前記属性記憶手段に記憶されている属性を書き替える割り当て手段と、前記割り当て手段により前記新たな音符に割り当てられた文字列および前記取得手段により取得された音高に応じた音声を確認音として合成する音声合成手段と、前記音声合成手段により合成された前記確認音を、前記取得手段が前記発音期間の始期を取得したタイミングに応じて、音声出力手段から出力させる確認音出力手段とを有する音声合成装置を提供する。
好ましい態様において、前記取得手段は、前記発音期間の始期を取得した後で、前記新たな音符の発音期間の終期を取得し、前記取得手段により前記新たな音符の発音期間の終期が取得される前に、前記取得手段により取得される前記新たな音符の音高が変更をされた場合、前記音声合成手段は前記変更後の音高に応じた音声を前記確認音として合成し、前記確認音出力手段は、前記変更後の音高に応じた前記確認音を前記音声出力手段から出力させてもよい。
別の好ましい態様において、前記音声合成手段は、前記確認音として、前記新たな音符を含む複数の音に割り当てられている文字列および指定されている音高に応じた音声を確認音として合成してもよい。
さらに別の好ましい態様において、前記取得手段は、前記新たな音符の発音期間の終期をさらに取得し、前記音声合成手段は、前記確認音として、前記発音期間の終期と前記発音期間の始期との差に応じた音長を有する音声を合成してもよい。
また、本発明は、コンピュータを、文字列を記憶する文字列記憶手段と、複数の音符の各々について、当該音符の発音期間の始期、音高、および音長、並びに前記文字列のうち当該音符に割り当てられた文字を含む属性を記憶する属性記憶手段と、音高を表す第1軸および時間を表す第2軸を有する座標系に従って、前記複数の音符の各々の発音期間の始期、音高、および音長を表す図形を表示手段の画面に表示させる表示制御手段と、前記画面において指定された、新たな音符の音高および発音期間の始期を取得する取得手段と、前記取得手段により取得された前記発音期間の始期と、前記属性記憶手段に記憶されている複数の音符の発音期間の始期との前後関係に基づいて、前記文字列記憶手段に記憶されている文字列の一部を前記新たな音符に割り当てるように前記属性記憶手段に記憶されている属性を書き替える割り当て手段と、前記割り当て手段により前記新たな音符に割り当てられた文字列および前記取得手段により取得された音高に応じた音声を確認音として合成する音声合成手段と、前記音声合成手段により合成された前記確認音を、前記取得手段が前記発音期間の始期を取得したタイミングに応じて、音声出力手段から出力させる確認音出力手段として機能させるためのプログラムを提供する。
本発明によれば、発音期間の始期を取得したタイミングに応じて確認音を出力する構成を有さない場合と比較して、ユーザは、新たに入力された音符とその音符に割り当てられた文字とに応じた音声を、より容易に確認することができる。
一実施形態に係る音声合成装置1の機能構成を示すブロック図である。 素片ライブラリを例示する図である。 楽譜データを例示する図である。 音声合成装置1のハードウェア構成を示す図である。 音声合成装置1の外観を例示する図である。 音声合成アプリケーションが実行されているときの画面を例示する図である。 音声合成装置1の動作を示すフローチャートである。 新たな音符を入力する様子を例示する図である。 新たな音符について発音期間の終期を指定する様子を例示する図である。 ノート図形をドラッグしたときの処理を例示する図である。 ノート図形を音高軸方向にドラッグしたときの処理を例示する図である。
1.構成
図1は、一実施形態に係る音声合成装置1の機能構成を示すブロック図である。音声合成装置1は、文字列および音符列を含む楽譜データに基づいて音声を合成し、合成された音声を出力する装置である。音声合成装置1は、大別すると、楽譜データを編集する機能と、楽譜データに基づいて音声を合成する機能とを有する。より詳細には、音声合成装置1は、記憶手段11と、表示制御手段12と、表示手段13と、取得手段14と、割り当て手段15と、音声合成手段16と、確認音出力手段17と、音声出力手段18とを有する。記憶手段11は、素片ライブラリと、歌詞(文字列)と、楽譜データとを記憶する。楽譜データは、複数の音符の各々について、その音符の発音期間の始期、音高、および音長、並びに文字列のうちその音符に割り当てられた文字を含む属性を有する。表示制御手段12は、音高を表す第1軸および時間を表す第2軸を有する座標系に従って、複数の音符の各々の発音期間の始期、音高、および音長を表す図形を表示手段13の画面に表示させる。表示手段13は、表示制御手段12の制御下で画像を表示する。取得手段14は、表示される画面において指定された、新たな音符の音高および発音期間の始期を取得する。割り当て手段15は、取得手段14により取得された発音期間の始期と、記憶手段11に記憶されている複数の音符の発音期間の始期との前後関係に基づいて、記憶手段11に記憶されている文字列の一部を新たな音符に割り当てるように記憶手段11に記憶されている属性を書き替える。音声合成手段16は、割り当て手段15により新たな音符に割り当てられた文字列および取得手段14により取得された音高に応じた音声を確認音として合成する。確認音出力手段17は、音声合成手段16により合成された確認音を、取得手段14が発音期間の始期を取得したタイミングに応じて、音声出力手段18から出力させる。音声出力手段18は、音声を出力する。
図2は、素片ライブラリを例示する図である。素片ライブラリは、例えば人間の声からサンプリングした音楽素片(歌声の断片)を含むデータベースである。素片ライブラリは、複数の歌唱者の各々に対応した個人別データベースに分かれている。図2に示される例では、素片ライブラリはそれぞれ3人の歌唱者に対応する個人別データベース303a〜cを含んでいる。各歌唱者に対応した個人別データベース303には、その歌唱者の歌唱音声波形から採取された素片データが複数含まれている。素片データとは、歌唱音声波形から、音声学的な特徴部分を切り出して符号化した音声データである。
ここで、素片データについて、「さいた」という歌詞を歌唱する場合を例として説明する。「さいた」という歌詞は発音記号で「saita」と表される。発音記号「saita」で表される音声の波形を特徴により分析すると、「s」の音の立ち上がり部分→「s」の音→「s」の音から「a」の音への遷移部分→「a」の音・・・と続き、「a」の音の減衰部分で終わる。それぞれの素片データは、これらの音声学的な特徴部分に対応する音声データである。
以下の説明において、ある発音記号で表される音の立ち上がり部分に対応する素片データを、その発音記号の前に「#」を付けて、「#s」のように表す。また、ある発音記号で表される音の減衰部分に対応する素片データを、その発音記号の後に「#」を付けて、「a#」のように表す。また、ある発音記号で表される音から他の発音記号で表される音への遷移部分に対応する素片データを、それらの発音記号の間に「−」を入れて、「s−a」のように表す。素片ライブラリの素片データ群3030には、歌唱者が通常に歌唱した場合の歌唱音声波形から採取された、あらゆる音および音の組み合わせに関する素片データが格納されている。素片データ群3031H〜Lには、それぞれ、歌唱者が強いアクセント、中程度のアクセント、および弱いアクセントを付加して歌唱した場合の歌唱音声波形から採取された、あらゆる音および音の組み合わせに関する素片データが格納されている。素片データ群3032H〜Lには、それぞれ、歌唱者が強いレガート、中程度のレガート、および弱いレガートを付加して歌唱した場合の歌唱音声波形から採取された、あらゆる音および音の組み合わせに関する素片データが格納されている。
図3は、楽譜データを例示する図である。楽譜データには、歌唱演奏を表すパートデータが、1または複数含まれている。楽譜データには、このパートデータの他に、演奏で用いられる拍子およびテンポを示すデータ、および分解能を示すデータが含まれている。パートデータは、複数の音符のそれぞれにつき、基本属性および付加属性を示すデータの組であるノートデータを含んでいる。基本属性データは、音の発音を指示するにあたり不可欠な属性を示すデータであり、音高、発音期間(発音期間の始期および終期)、および発音記号を含んでいる。付加属性データは、音に対し表情付け等の指示、すなわち音楽的な修飾を与えるためのデータであり、この例では、音符と歌詞との対応関係、音の強さ、アクセントの強さ、レガートの強さ、ビブラートの強さ、ビブラート期間を含んでいる。
次に、音声合成手段16による音声合成処理の概要を説明する。ここでは、楽譜データに含まれる「sakura」という発音記号列に対する処理を例として説明する。音声合成手段16は、発音記号列を素片データの単位に分解する。例えば、「sakura」は、「#s」、「s」、「s−a」、「a」、「a−k」、「k」、「k−u」、「u」、「u−r」、「r」、「r−a」、「a」、および「a#」に分解される。音声合成手段16は、分解された発音記号列のそれぞれに対応する素片データを、素片データ群3030から読み出す。音声合成手段16は、読み出した素片データに対し、各音符により示される音高に基づき、音高調整を行う。さらに音声合成手段16は、素片データに対し、付加属性データに応じた加工を施す。音声合成手段16は、音高調整を行った素片データに対し、音符列により示される発音期間に基づき、素片の継続時間の調整を施す。音声合成手段16は、継続時間の調整を行った素片データに対し、音量調節を行う。音声合成手段16は、音量調節を行った素片データを順番に接合し、合成音声データを生成する。音声合成手段16は、生成した合成音声データを、記憶手段11に記憶する。
ユーザが楽曲の再生指示を入力し、取得手段14がこれを取得すると、音声出力手段18は、記憶手段11に記憶されている合成音声データを読み出し、これに応じた音声を出力する。その結果、ユーザは楽譜データにより示される歌唱演奏を聴くことができる。
図4は、音声合成装置1のハードウェア構成を示す図である。この例で、音声合成装置1はコンピュータであり、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、記憶部104と、入力部105と、表示部106と、DAC(Digital Analog Converter)107と、アンプ108と、スピーカ109とを有する。CPU101は汎用的なデータ処理を行うマイクロプロセッサである。ROM102はBIOS(Basic Input/Output System)等の制御用プログラムを格納する不揮発性メモリである。RAM103はデータを記憶する揮発性メモリである。記憶部104は、不揮発性の記憶装置、例えばHDD(Hard Disk Drive)またはフラッシュメモリである。記憶部104は、OS(Operating System)、アプリケーションプログラム、および各種のデータを記憶する。CPU101は、BIOS、OS、またはアプリケーションプログラムに従い、音声合成装置1の他の構成部を制御する。
入力部105は、指示またはデータを入力するための装置、例えばタッチパネル(タッチスクリーン)、キーパッド、またはマウスである。表示部106は、液晶ディスプレイまたは有機EL(Electro-Luminescence)ディスプレイ等の表示装置と、表示装置を駆動する駆動回路とを有し、文字および図形等を表示する。DAC107は、合成音声データ等の音声データを取得し、これをアナログ音声信号に変換する。DAC107は、アナログ音声信号をアンプ108に出力する。アンプ108は、アナログ音声信号を増幅し、スピーカ109に出力する。スピーカ109は、アナログ音声信号に応じた音波を出力する。
この例で、記憶部104は、コンピュータを音声合成装置として機能させるためのアプリケーションプログラム(以下このプログラムを「音声合成アプリケーション」という)を記憶している。CPU101がこの音声合成アプリケーションを実行することにより、音声合成装置1に図1に示される機能が実装される。音声合成アプリケーションを実行しているCPU101は、表示制御手段12、取得手段14、割り当て手段15、音声合成手段16、および確認音出力手段17の一例である。ROM102、RAM103、または記憶部104は、記憶手段11の一例である。CPU101の制御下にある表示部106は、表示手段13の一例である。CPU101の制御下にあるDAC107、アンプ108、およびスピーカ109は、音声出力手段18の一例である。
図5は、音声合成装置1の外観を例示する図である。この例で、音声合成装置1はタッチパネル式の情報表示装置であり、筐体110と、タッチパネル111とを有する。筐体110にはスピーカ109およびタッチパネル111が設けられている。タッチパネル111は、表示装置の画面上に光透過性のタッチセンサが積層された構造を有している。ユーザは、表示されている画像を見ながらタッチパネル111に指を触れたり、タッチパネル111上を指でなぞったりすることにより、音声合成装置1に対して指示を入力する。すなわち、タッチパネル111は、入力部105と表示部106とを一体としたものである。
2.動作
図6は、音声合成アプリケーションが実行されているときの画面を例示する図である。この画面は、入力ボックス201、ウインドウ202、ガイド図形203、ノート図形204、ノート図形205、ノート図形206、ノート図形207、ノート図形208、再生ボタン209、および停止ボタン210を含む。入力ボックス201は、歌詞を入力および表示するための領域である。この例では、「あさがくるひるがくるよるがくる」という文字列が歌詞として入力されている。ウインドウ202は、音高を表す第1軸(この例では縦軸)および時間を表す第2軸(横軸)を有する座標系に従って、音符列を入力および表示するための領域である。音高軸は、図6において上向きが正方向(音が高くなる)である。時間軸は、図6において右向きが正方向(時間が後になる)である。ガイド図形203は、音高を示す図形であり、ウインドウ202の音高軸に沿って表示される。この例では、ガイド図形203としてピアノの鍵盤を模した図形が用いられる。このことから、ウインドウ202を用いた音符列の表示を「ピアノロール表示」という。ガイド図形203は、音高を特定する画像(この例では、「C3」および「C4」という文字)を含む。ノート図形204−208は、音符列を構成する各音符を示す図形である。この例でノート図形204−208は、長方形の形状を有しており、左端が発音期間の始期を、右端が発音期間の終期を示している。ノート図形204−208の縦方向の位置は音高を示している。ノート図形204−208の内部には、その音符に割り当てられた文字(歌詞の一部)が表示されている。この例で、ノート図形204−208が示す音符には、それぞれ、「あ」、「さ」、「が」、「く」、および「る」という文字が割り当てられている。再生ボタン209は、ピアノロール表示されている楽曲の再生を指示するためのボタンである。停止ボタン210は、楽曲の再生を停止するためのボタンである。
図7は、音声合成装置1の動作を示すフローチャートである。図7のフローは、例えば、音声合成アプリケーションの起動がユーザにより指示されたことを契機として開始する。ステップS100において、CPU101は、ユーザによるタッチパネル111の操作に応じて、歌詞を示す文字列を取得する。すなわち、ユーザは、タッチパネル111を操作して歌詞を入力する。CPU101は、歌詞として取得した文字列を記憶部104に記憶する。ここでは、図6に示したように「あさがくるひるがくるよるがくる」という歌詞がユーザにより入力された場合を例として説明する。
ステップS110において、CPU101は、新たな音符の入力が検出されたか、すなわち、新たな音符を取得したか判断する。より詳細には、CPU101は、新たな音符の発音期間の始期を取得したか判断する。新たな音符の始期が入力されたと判断された場合(S110:YES)、CPU101は、処理をステップS120に移行する。新たな音符の始期が入力されていないと判断された場合(S110:NO)、CPU101は、新たな音符の始期が入力されるまで待機する。この例で音声合成装置1はタッチパネル式の情報表示装置であるから、新たな音符の始期の入力はタッチパネル111を介して行われる。
図8は、新たな音符を入力する様子を例示する図である。ユーザは、ウインドウ202において、新たな音符を追加したい位置、より詳細には、新たな音符の音高および発音期間の始期に相当する位置をタッチすることにより、新たな音符を入力する。図8には、ユーザが、時間軸においてノート図形204およびノート図形205の間に位置し、音高軸において「D3」に相当する位置を指Fでタッチした例が示されている。このとき、タッチパネル111は、ユーザがタッチした位置を示す信号をCPU101に出力する。CPU101は、ウインドウ202内のある位置がタッチされたことがタッチパネル111からの信号により示された場合、新たな音符が入力されたと判断する。このときCPU101は、新たな音符を示すノート図形211を、ウインドウ202内においてユーザがタッチしている位置に応じた位置に表示する。新たな音符のノート図形の時間軸方向の幅は、決められた初期値(例えば四分音符)に設定される。以下、この新たな音符を必要に応じて「処理対象音符」という。
再び図7を参照する。ステップS120において、CPU101は、処理対象音符に対して歌詞を割り当てる。詳細には以下のとおりである。まず、CPU101は、処理対象音符の時間軸上の位置、特に他の音符との前後関係に基づいて、処理対象音符の順番を特定する。図8の例では、処理対象音符の位置がノート図形204およびノート図形205の間に指定されているので、CPU101は、処理対象音符が第2音であると特定する。次に、CPU101は、特定された順番に基づいて、処理対象音符に割り当てるべき文字を決定する。この例で、処理対象音符は第2音なので、CPU101は、歌詞「あさがくるひるがくるよるがくる」のうち2文字目「さ」を処理対象音符に割り当てる。さらに、CPU101は、新たな文字の割り当てに伴って、他の音符への文字の割り当てを変更する。処理対象音符が第2音になったので、従前の第2音は第3音となり、以下順番が1つずつ繰り下がる。この例では、ノート図形205が示す音に割り当てられる文字が「さ」から「が」に変更される。他の音符についても同様である。CPU101は、この変更後の、音符と歌詞との対応関係を示すデータをRAM103に記憶する。
ステップS130において、CPU101は、確認音を音声合成する。ここで、「確認音」とは、処理対象音符の音高およびその音符に割り当てられた文字に応じて合成された音声をいう。ここでは図8のノート図形211(「さ」が割り当てられている)により示される音符が処理の対象となる場合を例として説明する。CPU101は、この音符に割り当てられた文字を発音記号に変換する。記憶部104は平仮名を発音記号に変換するためのデータベースを記憶しており、CPU101はこのデータベースを参照して変換を行う。この例では、「さ」が「sa」に変換される。CPU101は、発音記号を素片データの単位に分解する。この例では、「sa」が「#s」、「s」、「s−a」、「a」および「a#」に分解される。CPU101は、分解された発音記号列のそれぞれに対応する素片データを、記憶部104に記憶されている素片データベースの素片データ群3030から読み出す。CPU101は、読み出した素片データに対し、音符により示される音高に基づき、音高調整を行う。この例では、音高が「D3」となるように素片データが調整される。CPU101は、音高調整を行った素片データに対し、発音期間の初期値(例えば四分音符)に基づき、素片の継続時間を調整する。CPU101は、継続時間を調整した素片データに対し、音量の調整を行う。CPU101は、音量を調整した素片データを順番に接合し、確認音を示す確認音データを生成する。CPU101は、生成した確認音データをRAM103に記憶する。
ステップS140において、CPU101は、スピーカ109から確認音を出力させる。すなわち、CPU101は、確認音を出力するように、DAC107を制御する。DAC107は、RAM103から確認音データを読み出し、アナログ音声信号に変換してアンプ108に出力する。アンプ108は、このアナログ音声信号を増幅してスピーカ109に出力する。スピーカ109は、このアナログ音声信号に応じた音波を出力する。こうして、スピーカ109から「さ」という音声が出力される。この音声は、ノート図形211により示される音高に相当する音高と、あらかじめ決められた初期値(例えば四分音符)に相当する発音期間を有する。
この後、発音期間の終期を確定する操作(例えば、タッチしていた指をタッチパネル111から離す操作)が検出された場合、CPU101は、音符列に対する歌詞の割り当てを確定する。すなわち、CPU101は、RAM103に記憶されている、音符と歌詞との対応関係に基づいて、記憶部104に記憶されている楽譜データを書き替える。この例では、音高が「D3」で、発音期間の始期がノート図形211により示される時間であり、発音期間の終期が四分音符に相当する時間である音符のデータが、第2音として追加される。さらに、従前の第2音以降の音は順番が繰り下げられ、割り当てられている発音記号も変更される。
このように、音声合成装置1によれば、ユーザがウインドウ202をタッチすると、タッチした位置に応じたノート図形が表示される。このとき、タッチした位置およびその音符に割り当てられた文字に応じた確認音が出力される。ユーザは、新たに入力された音符について、音高および割り当てられた文字に応じた音声を容易に確認することができる。
タッチパネル111において再生ボタン209に相当する位置をユーザがタッチすると、CPU101は、記憶部104に記憶されている楽譜データに従って音声を合成し、合成した音声をスピーカ109から出力させる。タッチパネル111において停止ボタン210に相当する位置をユーザがタッチすると、CPU101は、音声の再生を停止する。
3.他の実施形態
本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。以下、変形例をいくつか説明する。以下の変形例のうち2つ以上のものが組み合わせて用いられてもよい。
3−1.変形例1
確認音の音長は、ユーザの操作に応じて動的に決められてもよい。上述の実施形態では、確認音の音長はあらかじめ決められた値(四分音符)に設定された。しかし、確認音は、ユーザがタッチパネル111にタッチし続けている間、継続的に出力されてもよい。ここでは実施形態と同様に、図8のノート図形211(「さ」が割り当てられている)により示される音符が処理の対象となる場合を例として説明する。発音記号への変換、発音記号の分解、素片データの読み出し、音高調整、継続時間の調整、および音量調整については既に説明したとおりである。次に、CPU101は、素片データを接合して確認音データを生成する。この例では、CPU101は、素片データのうち、順番が最後の素片データは含めず、確認音データを生成する。「#s」、「s」、「s−a」、「a」および「a#」の素片データのうち、確認音データは、「#s」、「s」、「s−a」、および「a」を含み、「a#」は含まない。CPU101は、生成した確認音データをRAM103に書き込む。
この例において、CPU101は、あらかじめ決められた時間間隔でタッチパネル111からの信号を監視している。タッチパネル111がタッチされていることが検出されている間、CPU101は、順番が最後から2番目の素片データ、この例では「a」の素片データを、引き続き出力される確認音データとして、繰り返しRAM103に書き込む。ユーザがタッチパネル111をタッチし続けている間、「a」の素片データが繰り返し書き込まれ続けるので、スピーカ109からは、「さーーーー」というように長音が発せられる。ユーザがタッチパネル111から指を離す等、終了条件が満たされると、CPU101は、順番が最後の素片データ、この例では「a#」の素片データを、次に出力される確認音データとしてRAM103に書き込む。すなわち、ユーザがタッチパネル111から指を離すと、「さーーーー」という音声の出力が停止する。
3−2.変形例2
変形例1の別の例として、ユーザがタッチパネル111をタッチし続けている間、あらかじめ決められた音長(例えば四分音符)の確認音が、繰り返し出力されてもよい。この場合、ユーザがタッチパネル111をタッチし続けている間、スピーカ109からは、「ささささささ」というように、確認音が繰り返し出力される。
3−3.変形例3
確認音を出力するタイミングは、実施形態で説明したものに限定されない。上述の実施形態では、ユーザがタッチパネル111に触ったときに、すなわち、処理対象音符の発音期間の始期が指定されたときに、確認音が出力された。しかし、確認音は、これとは異なるタイミング、たとえば、処理対象音符の発音期間の終期が指定されたときに出力されてもよい。
図9は、処理対象音符について発音期間の終期を指定する様子を例示する図である。この例では、処理対象音符が生成された後、指をタッチパネル111にタッチしたままの状態で横に動かす(いわゆる「ドラッグ」する)と、指でタッチした軌跡に応じて、ノート図形が変化する。この例では、発音期間の始期が固定されたまま、発音期間の終期がドラッグに応じて変化する。すなわち、CPU101は、処理対象音符の入力を検出した後は、タッチされている部分の軌跡に応じて発音期間の終期を変化させ、その変化に応じたノート図形を表示する。図9には、図8の状態からノート図形211を右方向(時間軸正方向)にドラッグした様子が例示されている。この場合、指の軌跡に応じて、ノート図形211は時間軸方向に伸びている。ユーザがタッチパネル111から指を離すと、音符の長さが確定する。すなわち、CPU101は、ユーザの指がタッチパネルから離れたことを検出すると、処理対象音符の音長を確定する。音長が確定した後で、CPU101は、音声合成をして確認音データを生成し、生成した確認音データをRAM103に書き込む。
この例では、音長が確定した後で、確認音が出力される。したがって、ユーザは、新たに入力した音符について、音高、音長および割り当てられた文字に応じた音声を容易に確認することができる。なお、発音期間の終期が確定する前に始期が確定しているから、音長が確定した後で確認音を出力する場合も、「発音期間の始期を取得したタイミングに応じて」確認音を出力しているといえる。
3−4.変形例4
ユーザがノート図形をドラッグしたときの処理は、変形例2で説明したものに限定されない。この例では、ノート図形をドラッグすると、音長が一定のまま、発音期間の始期がドラッグに応じて変化する。すなわち、CPU101は、処理対象音符の入力を検出した後は、タッチされている部分の軌跡に応じて発音期間の始期を変化させ、その変化に応じたノート図形を表示する。音長を一定に保つため、CPU101は、発音期間の始期の変化に応じて終期も変化させる。始期は、あらかじめ決められた解像度(例えば八分音符)を単位として変化する。CPU101は、発音期間の始期が変化するたびに、他の音との時間軸方向の位置関係を確認し、必要に応じて歌詞の割り当てを変更する。
図10は、変形例4に係る、ノート図形をドラッグしたときの処理を例示する図である。図10には、図8の状態からノート図形211を右方向(時間軸正方向)にドラッグした様子が例示されている。この場合、CPU101は、ノート図形211を基準として、移動方向(時間軸正方向)において次に登場する音符を監視対象音符として特定する。図8の状態から右方向に移動を開始した直後においては、ノート図形205により示される音符が、監視対象音符として特定される。CPU101は、処理対象音符の発音期間の始期が、監視対象音符の発音期間の始期以降となったか判断する。処理対象音符の発音期間の始期が、監視対象音符の発音期間の始期以降となったと判断された場合、CPU101は、処理対象音符と監視対象音符との間で、割り当てられている文字を入れ替える。図10には、ノート図形211がノート図形205よりも後ろに移動され、図8の状態から、ノート図形211およびノート図形205に割り当てられている文字が入れ替わっている様子が示されている。ユーザがタッチパネル111から指を離すと、発音期間の始期および割り当てられる文字が確定する。すなわち、CPU101は、ユーザの指がタッチパネルから離れたことを検出すると、割り当てられる文字を確定する。割り当てられる文字が確定した後で、CPU101は、音声合成をして確認音データの生成を行い、生成した確認音データをRAM103に書き込む。
この例では、発音期間の始期を移動可能な構成において、始期が確定した後で、確認音が出力される。したがって、ユーザは、新たに入力した音符について、音高および割り当てられた文字に応じた音声を容易に確認することができる。
3−5.変形例5
ノート図形をドラッグできる方向は、時間軸方向に限定されない。この例では、ノート図形を音高軸方向にドラッグすると、音長が一定のまま、音高がドラッグに応じて変化する。すなわち、CPU101は、処理対象音符の入力を検出した後は、タッチされている部分の軌跡に応じて音高を変化させ、その変化に応じたノート図形を表示する。音高軸方向のドラッグの間、発音期間の始期および音長は一定に保たれる。
図11は、ノート図形を音高軸方向にドラッグしたときの処理を例示する図である。図11には、図8の状態からノート図形211を上方向(音高軸正方向)にドラッグした様子が例示されている。図11には、ノート図形211が高音側に移動され、図8の状態から、音高が「D3」から「E3」に変化した様子が示されている。ユーザがタッチパネル111から指を離すと、音高が確定する。すなわち、CPU101は、ユーザの指がタッチパネルから離れたことを検出すると、音高を確定する。この間、変形例1で説明したように、ユーザがタッチパネル111に触れている間は確認音が出力され続ける。すなわち、CPU101は、音高が変化するたびに、既に読み出されている素片データについて、音高調整、継続時間の調整、および確認音データの生成を行い、生成した確認音データをRAM103に書き込む。この例によれば、ユーザが音高「D3」に相当する位置をタッチし、指をタッチしたまま音高を「D3」から「D#3」へ、さらに「D#3」から「E3」へとドラッグすると、音高が「D3」から「D#3」に変わったタイミングで音高「D#3」に相当する確認音が出力され、さらに音高が「D#3」から「E3」に変わったタイミングで音高「E3」に相当する確認音が出力される。別の例で、変形例2で説明したように確認音がある単位で繰り返し出力され、その音高が、ドラッグに応じて変化してもよい。
3−6.変形例6
処理対象音符の発音期間の始期および終期を指定する方法は、実施形態で説明したものに限定されない。タッチパネル111が複数の位置を同時に検出可能な、いわゆるマルチタッチ可能な装置である場合、2本の指を用いて発音期間の始期および終期が同時に指定されてもよい。この場合、CPU101は、タッチパネル111から2点の座標を取得する。CPU101は、取得した2つの座標のうち、小さい時間軸座標を有する点を始期として、大きい時間軸座標を有する点を終期として処理をする。ユーザがタッチパネル111から指を離すと、発音期間の始期および終期が確定する。この場合、CPU101は、変形例1および変形例2のようにタッチを検出している間は継続的に確認音を出力してもよいし、変形例3および変形例4のように発音期間の始期および終期が確定した後で確認音を出力してもよい。例えば、ユーザがまず人差し指(第1の指)をタッチして発音期間の始期を入力し、その後、中指(第2の指)をタッチして発音期間の終期を入力する場合、CPU101は、人指し指のタッチを検出したタイミングで確認音を出力してもよいし、中指のタッチを検出したタイミングで確認音を出力してもよい。人指し指のタッチを検出したタイミングで確認音を出力する場合、CPU101は、中指のタッチを検出したタイミングで確認音の出力を停止してもよいし、中指のタッチを検出した後も確認音の出力を継続してもよい。中指のタッチを検出した後も確認音の出力を継続する場合、CPU101は、人指し指または中指のタッチを検出しなくなったタイミングで確認音の出力を停止してもよい。
3−7.変形例7
確認音として出力される音声は、実施形態で説明したものに限定されない。処理対象音符を含む複数の音符およびこれらに割り当てられている文字列に応じた音声が、確認音として合成され出力されてもよい。例えば、CPU101は、処理対象音符を基準として前後ある数の音符(例えば前後1音ずつ)の音符列を用いて、確認音データを生成する。例えば図8において、ノート図形211が処理対象音符として入力されると、CPU101は、前後1音を含めた計3音(「あ」、「さ」、および「が」)の確認音データを生成する。この場合、スピーカ109から「あさが」という音声が出力され、ユーザは、前後の音符との関係も含めて、新たに入力した音符について、音高および割り当てられた文字に応じた音声を容易に確認することができる。歌唱合成の確認においては、前後の音との繋がりを確認することが重要である。例えば、歌詞「さ」が割り当てられた処理対象音符一音のみを確認音として出力する場合、「#s」、「s」、「s−a」、「a」、および「a#」の素片データが用いられるが、実際の曲を再生するときには「#s」および「a#」の素片データに変わって、前後の歌詞との組み合わせに対応する素片データが用いられる。このため、本変形例のように、処理対象音符を含む複数の音符列を用いて確認音を生成することにより、より正確な合成音を確認することができる。
3−8.変形例8
処理対象音符の音高および発音期間の始期を指定する方法、すなわち入力インターフェースは、実施形態で説明したものに限定されない。例えば、図6のピアノロール表示において、ユーザはガイド図形203をタッチすることにより音高を指定し、そのままウインドウ202までドラッグして発音期間の始期を指定してもよい。また、ガイド図形203は、ピアノの鍵盤を模した図形に限定されない。音高を示すものであれば、どのような図形が用いられてもよい。
3−9.変形例9
上述の実施形態において新たな音符が処理対象音符となる例を説明したが、処理対象音符は新たな音符に限定されない。既に入力済みの音符が処理対象音符として処理されてもよい。例えば図6の例で、ノート図形205に相当する位置へのタッチが検出された場合、CPU101は、ノート図形205が示す音符を処理対象音符として確認音を生成してもよい。この場合、処理対象音符の音長は確定しているので、CPU101は、楽譜データに記録されている音長により示される長さの確認音を合成および出力する。あるいは別の例で、入力済みの音符を編集する編集モードで音声合成装置1が動作している場合において、音長が確定していないものとして、実施形態または変形例で説明したように確認音が合成および出力されてもよい。より詳細には、編集モードにおいて発音期間の終期をドラッグにより変更可能な場合に、実施形態で説明したようにタッチが検出されたタイミングで確認音を出力してもよいし、発音期間の終期が確定した後で確認音を出力してもよい。タッチが検出されたタイミングで確認音を出力する場合には、決められた音長の確認音が出力されてもよいし、タッチが検出されなくなるまで確認音が継続して出力され続けてもよい。
3−10.他の変形例
音声合成装置1は、タッチパネル111を有していなくてもよい。例えば、音声合成装置1は、入力部105としてマウス、キーパッド、またはペンタブレットを有していてもよい。また、音声合成装置1は、タッチパネル式の情報表示装置に限定されない。音声合成装置1は、パーソナルコンピュータ、携帯電話機、携帯ゲーム機、携帯音楽プレーヤ、または電子ブックリーダであってもよい。
音声合成装置1のハードウェア構成は、図4で説明したものに限定されない。図1に示される機能を実装できるものであれば、音声合成装置1はどのようなハードウェア構成を有していてもよい。例えば、音声合成装置1は、図1に示される機能要素の各々に対応する専用のハードウェア(回路)を有していてもよい。別の例で、図4で例示した音声合成装置1のハードウェア構成要素の一部は、いわゆる外付けの装置であってもよい。例えば、表示部106またはスピーカ109は外付けの装置であってもよい。
文字列は平仮名に限定されない。アルファベットまたは発音記号等が、歌詞を示す文字列として用いられてもよい。
ピアノロール表示においてノート図形内に表示される文字は実施形態で説明したものに限定されない。歌詞の一部である平仮名に加え、対応する発音記号が併せて表示されてもよい。
楽譜データの構造は、図3で例示したものに限定されない。音符と歌詞との対応関係、および音符の属性を特定できるものであれば、どのような構造のデータが用いられてもよい。また、実施形態において歌詞(文字列)と楽譜データとが別のデータセットである例を説明したが、歌詞は楽譜データの一部であってもよい。
音声合成処理の詳細は、実施形態で説明したものに限定されない。音符と発音記号(文字)とが与えられたときに、その音符および発音記号に応じた音声を合成するものであれば、どのような処理が用いられてもよい。
確認音を合成および出力する機能は、ユーザの指示によりオン・オフが切り替えられてもよい。
上述の実施形態で説明した音声合成プログラムは、磁気記録媒体(磁気テープ、磁気ディスク(HDD、FD(Flexible Disk))など)、光記録媒体(光ディスク(CD(Compact Disk)、DVD(Digital Versatile Disk))など)、光磁気記録媒体、半導体メモリ(フラッシュROMなど)などのコンピュータ読取り可能な記録媒体に記憶した状態で提供されてもよい。また、このプログラムは、インターネットのようなネットワーク経由でダウンロードされてもよい。
1…音声合成装置、11…記憶手段、12…表示制御手段、13…表示手段、14…取得手段、15…割り当て手段、16…音声合成手段、17…確認音出力手段、18…音声出力手段、101…CPU、102…ROM、103…RAM、104…記憶部、105…入力部、106…表示部、107…DAC、108…アンプ、109…スピーカ、110…筐体、111…タッチパネル、201…入力ボックス、202…ウインドウ、203…ガイド図形、204…ノート図形、205…ノート図形、206…ノート図形、207…ノート図形、208…ノート図形、209…再生ボタン、210…停止ボタン、211…ノート図形、303…個人別データベース、3030…素片データ群

Claims (6)

  1. 音高、音長、および文字を含む属性を各々が有する音符群に対応する画像を、音高−時間の二次元座標で表示手段に表示させる表示制御手段と、
    前記音符群の編集指示が入力される入力手段と、
    前記音高、前記音長、または前記文字を変化させるための前記編集指示に係る操作の完了を検出したときに、当該編集指示による編集の対象となった音符が前記属性として有する音高、音長、および文字に応じた確認音を音声出力手段から出力させる確認音出力手段と
    を有する音声合成装置。
  2. 前記編集指示は、前記音符群のうち一の音符の音長を変更する指示であり、
    前記確認音出力手段は、前記一の音符の音長が確定したときに、当該一の音符が前記属性として有する音高、音長、および文字に応じた確認音を前記音声出力手段から出力させる
    ことを特徴とする請求項1に記載の音声合成装置。
  3. 前記編集指示は、前記音符群のうち一の音符の発音期間の終期を変更する指示であり、
    前記確認音出力手段は、前記一の音符の発音期間の終期が確定したときに、当該一の音符が前記属性として有する音高、音長、および文字に応じた確認音を前記音声出力手段から出力させる
    ことを特徴とする請求項1に記載の音声合成装置。
  4. 前記編集指示は、前記音符群のうち一の音符の発音期間の始期を変更する指示であり、
    前記確認音出力手段は、前記一の音符の発音期間の始期が確定したときに、当該一の音符が前記属性として有する音高、音長、および文字に応じた確認音を前記音声出力手段から出力させる
    ことを特徴とする請求項1に記載の音声合成装置。
  5. 前記編集指示は、前記音符群のうち一の音符の音高を変更する指示であり、
    前記確認音出力手段は、前記一の音符の音高が確定したときに、当該一の音符が前記属性として有する音高、音長、および文字に応じた確認音を前記音声出力手段から出力させる
    ことを特徴とする請求項1に記載の音声合成装置。
  6. 音高、音長、および文字を含む属性を各々が有する音符群に対応する画像を、音高−時間の二次元座標で表示手段に表示させるステップと、
    前記音符群の編集指示が入力されるステップと、
    前記音高、前記音長、または前記文字を変化させるための前記編集指示に係る操作の完了を検出が完了したときに、当該編集指示による編集の対象となった音符が前記属性として有する音高、音長、および文字に応じた確認音を音声出力手段から出力させるステップと
    を有する音声合成方法。
JP2015215546A 2015-11-02 2015-11-02 音声合成装置および音声合成方法 Active JP6149917B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015215546A JP6149917B2 (ja) 2015-11-02 2015-11-02 音声合成装置および音声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015215546A JP6149917B2 (ja) 2015-11-02 2015-11-02 音声合成装置および音声合成方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014004911A Division JP5935815B2 (ja) 2014-01-15 2014-01-15 音声合成装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2016033674A JP2016033674A (ja) 2016-03-10
JP6149917B2 true JP6149917B2 (ja) 2017-06-21

Family

ID=55452565

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015215546A Active JP6149917B2 (ja) 2015-11-02 2015-11-02 音声合成装置および音声合成方法

Country Status (1)

Country Link
JP (1) JP6149917B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7186476B1 (ja) * 2022-07-29 2022-12-09 株式会社テクノスピーチ 音声合成装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005234718A (ja) * 2004-02-17 2005-09-02 Yamaha Corp 音声素片データの取引方法、音声素片データ提供装置、課金額管理装置、音声素片データ提供プログラム、課金額管理プログラム

Also Published As

Publication number Publication date
JP2016033674A (ja) 2016-03-10

Similar Documents

Publication Publication Date Title
US10354627B2 (en) Singing voice edit assistant method and singing voice edit assistant device
US9196234B2 (en) Intelligent keyboard interface for virtual musical instrument
US9928817B2 (en) User interfaces for virtual instruments
US9355634B2 (en) Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon
JP6236765B2 (ja) 音楽データ編集装置および音楽データ編集方法
US20120071994A1 (en) Altering sound output on a virtual music keyboard
JP5549521B2 (ja) 音声合成装置およびプログラム
JP6003195B2 (ja) 歌唱合成を行うための装置およびプログラム
JP2015163982A (ja) 音声合成装置及びプログラム
JP5935815B2 (ja) 音声合成装置およびプログラム
JP5589741B2 (ja) 楽曲編集装置およびプログラム
JP6149917B2 (ja) 音声合成装置および音声合成方法
JP5429840B2 (ja) 音声合成装置およびプログラム
JP3807380B2 (ja) スコアデータ編集装置、スコアデータ表示装置およびプログラム
JP3843953B2 (ja) 歌唱合成用データ入力プログラムおよび歌唱合成用データ入力装置
JP6950180B2 (ja) 楽音データ処理方法及び楽音データ処理装置
US8912420B2 (en) Enhancing music
KR101427666B1 (ko) 악보 편집 서비스 제공 방법 및 장치
JP4613817B2 (ja) 運指表示装置、及びプログラム
JP7350555B2 (ja) 楽譜編集装置及び楽譜編集プログラム
WO2024122278A1 (ja) オブジェクトの配置方法、音声の再生方法、オブジェクトの配置装置、音声の再生装置および演奏装置
US11694724B2 (en) Gesture-enabled interfaces, systems, methods, and applications for generating digital music compositions
KR102132905B1 (ko) 단말 장치 및 그의 제어 방법
JP6583756B1 (ja) 音声合成装置、および音声合成方法
JP7107720B2 (ja) 運指表示プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170508

R151 Written notification of patent or utility model registration

Ref document number: 6149917

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350