[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6149917B2 - Speech synthesis apparatus and speech synthesis method - Google Patents

Speech synthesis apparatus and speech synthesis method Download PDF

Info

Publication number
JP6149917B2
JP6149917B2 JP2015215546A JP2015215546A JP6149917B2 JP 6149917 B2 JP6149917 B2 JP 6149917B2 JP 2015215546 A JP2015215546 A JP 2015215546A JP 2015215546 A JP2015215546 A JP 2015215546A JP 6149917 B2 JP6149917 B2 JP 6149917B2
Authority
JP
Japan
Prior art keywords
note
sound
pitch
confirmation sound
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015215546A
Other languages
Japanese (ja)
Other versions
JP2016033674A (en
Inventor
英治 赤澤
英治 赤澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2015215546A priority Critical patent/JP6149917B2/en
Publication of JP2016033674A publication Critical patent/JP2016033674A/en
Application granted granted Critical
Publication of JP6149917B2 publication Critical patent/JP6149917B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Description

本発明は、音声合成に関する。   The present invention relates to speech synthesis.

歌詞等の文字列、並びに複数の音符(以下「音符列」という)の音高および音長がデータとして入力されると、その文字列および音に応じて、歌唱音の音声を合成する技術が知られている(例えば特許文献1)。   A technology for synthesizing voice of a singing sound according to a character string and sound when a character string such as lyrics and pitches and lengths of a plurality of notes (hereinafter referred to as “note string”) are input as data. Known (for example, Patent Document 1).

特開2006−259768JP 2006-259768 A

特許文献1において、自分の意図どおりに文字列および音符列が入力されたか確認するには、ユーザは、歌詞を入力した後で、合成された音声を再生するための操作を行う必要があり煩雑であった。
これに対し本発明は、新たに入力された音符とその音符に割り当てられた文字とに応じた音声の確認を、より容易にする技術を提供する。
In Patent Document 1, in order to check whether a character string and a note string are input as intended, the user needs to perform an operation for reproducing the synthesized voice after inputting lyrics. Met.
On the other hand, the present invention provides a technique that makes it easier to check a voice according to a newly input note and a character assigned to the note.

本発明は、文字列を記憶する文字列記憶手段と、複数の音符の各々について、当該音符の発音期間の始期、音高、および音長、並びに前記文字列のうち当該音符に割り当てられた文字を含む属性を記憶する属性記憶手段と、音高を表す第1軸および時間を表す第2軸を有する座標系に従って、前記複数の音符の各々の発音期間の始期、音高、および音長を表す図形を表示手段の画面に表示させる表示制御手段と、前記画面において指定された、新たな音符の音高および発音期間の始期を取得する取得手段と、前記取得手段により取得された前記発音期間の始期と、前記属性記憶手段に記憶されている複数の音符の発音期間の始期との前後関係に基づいて、前記文字列記憶手段に記憶されている文字列の一部を前記新たな音符に割り当てるように前記属性記憶手段に記憶されている属性を書き替える割り当て手段と、前記割り当て手段により前記新たな音符に割り当てられた文字列および前記取得手段により取得された音高に応じた音声を確認音として合成する音声合成手段と、前記音声合成手段により合成された前記確認音を、前記取得手段が前記発音期間の始期を取得したタイミングに応じて、音声出力手段から出力させる確認音出力手段とを有する音声合成装置を提供する。   The present invention relates to a character string storage means for storing a character string, and for each of a plurality of notes, the beginning of the pronunciation period, the pitch and the length of the note, and the character assigned to the note among the character string In accordance with a coordinate system having attribute storage means for storing attributes including a first axis that represents pitch and a second axis that represents time, the beginning, pitch, and length of the pronunciation period of each of the plurality of notes are determined. Display control means for displaying a figure to be displayed on the screen of the display means, acquisition means for acquiring the pitch of a new note and the beginning of the pronunciation period designated on the screen, and the pronunciation period acquired by the acquisition means And a part of the character string stored in the character string storage means as the new note based on the context of the beginning of the pronunciation period of the plurality of notes stored in the attribute storage means. To assign An assigning means for rewriting the attribute stored in the attribute storage means, a character string assigned to the new note by the assigning means, and a sound corresponding to the pitch obtained by the obtaining means is synthesized as a confirmation sound. And a confirmation sound output means for outputting the confirmation sound synthesized by the speech synthesis means from the sound output means in accordance with the timing at which the acquisition means acquires the beginning of the pronunciation period. A synthesizer is provided.

好ましい態様において、前記取得手段は、前記発音期間の始期を取得した後で、前記新たな音符の発音期間の終期を取得し、前記取得手段により前記新たな音符の発音期間の終期が取得される前に、前記取得手段により取得される前記新たな音符の音高が変更をされた場合、前記音声合成手段は前記変更後の音高に応じた音声を前記確認音として合成し、前記確認音出力手段は、前記変更後の音高に応じた前記確認音を前記音声出力手段から出力させてもよい。   In a preferred aspect, the acquisition means acquires the end of the new note pronunciation period after acquiring the start of the sound generation period, and the acquisition means acquires the end of the new note generation period. When the pitch of the new note acquired by the acquisition unit is changed before, the voice synthesis unit synthesizes a voice according to the changed pitch as the confirmation sound, and the confirmation sound The output means may cause the sound output means to output the confirmation sound according to the changed pitch.

別の好ましい態様において、前記音声合成手段は、前記確認音として、前記新たな音符を含む複数の音に割り当てられている文字列および指定されている音高に応じた音声を確認音として合成してもよい。   In another preferred embodiment, the voice synthesizing unit synthesizes, as the confirmation sound, a sound corresponding to a character string assigned to a plurality of sounds including the new note and a designated pitch as the confirmation sound. May be.

さらに別の好ましい態様において、前記取得手段は、前記新たな音符の発音期間の終期をさらに取得し、前記音声合成手段は、前記確認音として、前記発音期間の終期と前記発音期間の始期との差に応じた音長を有する音声を合成してもよい。   In still another preferred embodiment, the acquisition means further acquires the end of the pronunciation period of the new note, and the speech synthesis means uses the confirmation period as the end of the pronunciation period and the start of the pronunciation period. You may synthesize | combine the audio | voice which has the sound length according to the difference.

また、本発明は、コンピュータを、文字列を記憶する文字列記憶手段と、複数の音符の各々について、当該音符の発音期間の始期、音高、および音長、並びに前記文字列のうち当該音符に割り当てられた文字を含む属性を記憶する属性記憶手段と、音高を表す第1軸および時間を表す第2軸を有する座標系に従って、前記複数の音符の各々の発音期間の始期、音高、および音長を表す図形を表示手段の画面に表示させる表示制御手段と、前記画面において指定された、新たな音符の音高および発音期間の始期を取得する取得手段と、前記取得手段により取得された前記発音期間の始期と、前記属性記憶手段に記憶されている複数の音符の発音期間の始期との前後関係に基づいて、前記文字列記憶手段に記憶されている文字列の一部を前記新たな音符に割り当てるように前記属性記憶手段に記憶されている属性を書き替える割り当て手段と、前記割り当て手段により前記新たな音符に割り当てられた文字列および前記取得手段により取得された音高に応じた音声を確認音として合成する音声合成手段と、前記音声合成手段により合成された前記確認音を、前記取得手段が前記発音期間の始期を取得したタイミングに応じて、音声出力手段から出力させる確認音出力手段として機能させるためのプログラムを提供する。   Further, the present invention provides a computer, a character string storage means for storing a character string, and for each of a plurality of notes, the beginning of the sound generation period, the pitch and the length of the note, and the note of the character string. According to a coordinate system having attribute storage means for storing attributes including characters assigned to and a first axis representing pitch and a second axis representing time. , And a display control means for displaying a graphic representing the sound length on the screen of the display means, an acquisition means for acquiring the pitch of the new note and the beginning of the pronunciation period specified on the screen, and acquired by the acquisition means A part of the character string stored in the character string storage means based on the context of the start time of the generated sound period and the start time of the sound generation period of the plurality of notes stored in the attribute storage means. The new An assigning means for rewriting the attribute stored in the attribute storage means so as to assign it to a note; a character string assigned to the new note by the assigning means; and a sound corresponding to the pitch obtained by the obtaining means Voice confirmation means for synthesizing as a confirmation sound, and a confirmation sound output for outputting the confirmation sound synthesized by the voice synthesis means from the voice output means according to the timing at which the acquisition means acquires the beginning of the pronunciation period A program for functioning as a means is provided.

本発明によれば、発音期間の始期を取得したタイミングに応じて確認音を出力する構成を有さない場合と比較して、ユーザは、新たに入力された音符とその音符に割り当てられた文字とに応じた音声を、より容易に確認することができる。   According to the present invention, compared with a case where the confirmation sound is not output according to the timing at which the beginning of the pronunciation period is acquired, the user can input the newly input note and the character assigned to the note. It is possible to more easily confirm the sound corresponding to the above.

一実施形態に係る音声合成装置1の機能構成を示すブロック図である。It is a block diagram which shows the function structure of the speech synthesis apparatus 1 which concerns on one Embodiment. 素片ライブラリを例示する図である。It is a figure which illustrates a segment library. 楽譜データを例示する図である。It is a figure which illustrates musical score data. 音声合成装置1のハードウェア構成を示す図である。2 is a diagram illustrating a hardware configuration of the speech synthesizer 1. FIG. 音声合成装置1の外観を例示する図である。1 is a diagram illustrating an appearance of a speech synthesizer 1. FIG. 音声合成アプリケーションが実行されているときの画面を例示する図である。It is a figure which illustrates a screen when the speech synthesis application is being executed. 音声合成装置1の動作を示すフローチャートである。3 is a flowchart showing the operation of the speech synthesizer 1. 新たな音符を入力する様子を例示する図である。It is a figure which illustrates a mode that a new note is input. 新たな音符について発音期間の終期を指定する様子を例示する図である。It is a figure which illustrates a mode that the end of the pronunciation period is designated about a new note. ノート図形をドラッグしたときの処理を例示する図である。It is a figure which illustrates processing when a note figure is dragged. ノート図形を音高軸方向にドラッグしたときの処理を例示する図である。It is a figure which illustrates processing when a note figure is dragged in the direction of a pitch axis.

1.構成
図1は、一実施形態に係る音声合成装置1の機能構成を示すブロック図である。音声合成装置1は、文字列および音符列を含む楽譜データに基づいて音声を合成し、合成された音声を出力する装置である。音声合成装置1は、大別すると、楽譜データを編集する機能と、楽譜データに基づいて音声を合成する機能とを有する。より詳細には、音声合成装置1は、記憶手段11と、表示制御手段12と、表示手段13と、取得手段14と、割り当て手段15と、音声合成手段16と、確認音出力手段17と、音声出力手段18とを有する。記憶手段11は、素片ライブラリと、歌詞(文字列)と、楽譜データとを記憶する。楽譜データは、複数の音符の各々について、その音符の発音期間の始期、音高、および音長、並びに文字列のうちその音符に割り当てられた文字を含む属性を有する。表示制御手段12は、音高を表す第1軸および時間を表す第2軸を有する座標系に従って、複数の音符の各々の発音期間の始期、音高、および音長を表す図形を表示手段13の画面に表示させる。表示手段13は、表示制御手段12の制御下で画像を表示する。取得手段14は、表示される画面において指定された、新たな音符の音高および発音期間の始期を取得する。割り当て手段15は、取得手段14により取得された発音期間の始期と、記憶手段11に記憶されている複数の音符の発音期間の始期との前後関係に基づいて、記憶手段11に記憶されている文字列の一部を新たな音符に割り当てるように記憶手段11に記憶されている属性を書き替える。音声合成手段16は、割り当て手段15により新たな音符に割り当てられた文字列および取得手段14により取得された音高に応じた音声を確認音として合成する。確認音出力手段17は、音声合成手段16により合成された確認音を、取得手段14が発音期間の始期を取得したタイミングに応じて、音声出力手段18から出力させる。音声出力手段18は、音声を出力する。
1. Configuration FIG. 1 is a block diagram showing a functional configuration of a speech synthesizer 1 according to an embodiment. The speech synthesizer 1 is a device that synthesizes speech based on musical score data including a character string and a note string and outputs the synthesized speech. The speech synthesizer 1 roughly has a function of editing score data and a function of synthesizing speech based on the score data. More specifically, the speech synthesizer 1 includes a storage unit 11, a display control unit 12, a display unit 13, an acquisition unit 14, an assignment unit 15, a speech synthesis unit 16, a confirmation sound output unit 17, And an audio output means 18. The storage means 11 stores a segment library, lyrics (character strings), and score data. The musical score data has, for each of a plurality of notes, an attribute including the beginning of the sound generation period, the pitch, and the length of the note, and the character assigned to the note in the character string. The display control means 12 displays a graphic representing the beginning of the pronunciation period, the pitch, and the length of each of a plurality of notes in accordance with a coordinate system having a first axis representing the pitch and a second axis representing the time. On the screen. The display unit 13 displays an image under the control of the display control unit 12. The acquisition means 14 acquires the pitch of the new note and the start of the pronunciation period specified on the displayed screen. The allocating unit 15 is stored in the storage unit 11 based on the front and back relationship between the beginning of the pronunciation period acquired by the acquisition unit 14 and the beginning of the pronunciation period of a plurality of notes stored in the storage unit 11. The attribute stored in the storage means 11 is rewritten so that a part of the character string is assigned to a new note. The voice synthesizing unit 16 synthesizes a voice corresponding to the character string assigned to the new note by the assigning unit 15 and the pitch acquired by the acquiring unit 14 as a confirmation sound. The confirmation sound output means 17 causes the sound output means 18 to output the confirmation sound synthesized by the voice synthesis means 16 in accordance with the timing at which the acquisition means 14 acquires the beginning of the pronunciation period. The sound output means 18 outputs sound.

図2は、素片ライブラリを例示する図である。素片ライブラリは、例えば人間の声からサンプリングした音楽素片(歌声の断片)を含むデータベースである。素片ライブラリは、複数の歌唱者の各々に対応した個人別データベースに分かれている。図2に示される例では、素片ライブラリはそれぞれ3人の歌唱者に対応する個人別データベース303a〜cを含んでいる。各歌唱者に対応した個人別データベース303には、その歌唱者の歌唱音声波形から採取された素片データが複数含まれている。素片データとは、歌唱音声波形から、音声学的な特徴部分を切り出して符号化した音声データである。   FIG. 2 is a diagram illustrating a fragment library. The segment library is a database including musical segments (singing voice fragments) sampled from, for example, a human voice. The segment library is divided into individual databases corresponding to each of a plurality of singers. In the example shown in FIG. 2, the segment library includes personal databases 303a-c corresponding to three singers, respectively. The individual database 303 corresponding to each singer includes a plurality of pieces of segment data collected from the singing voice waveform of the singer. The segment data is voice data obtained by extracting and encoding a phonetic feature from a singing voice waveform.

ここで、素片データについて、「さいた」という歌詞を歌唱する場合を例として説明する。「さいた」という歌詞は発音記号で「saita」と表される。発音記号「saita」で表される音声の波形を特徴により分析すると、「s」の音の立ち上がり部分→「s」の音→「s」の音から「a」の音への遷移部分→「a」の音・・・と続き、「a」の音の減衰部分で終わる。それぞれの素片データは、これらの音声学的な特徴部分に対応する音声データである。   Here, the case of singing the lyrics of “sai” with respect to the segment data will be described as an example. The lyrics “Saita” are expressed by phonetic symbols “saita”. When analyzing the waveform of the sound represented by the phonetic symbol “saita”, the rising portion of the sound of “s” → the sound of “s” → the transition portion from the sound of “s” to the sound of “a” → “ The sound of “a” is continued, and ends with the attenuation part of the sound of “a”. Each piece of data is audio data corresponding to these phonetic features.

以下の説明において、ある発音記号で表される音の立ち上がり部分に対応する素片データを、その発音記号の前に「#」を付けて、「#s」のように表す。また、ある発音記号で表される音の減衰部分に対応する素片データを、その発音記号の後に「#」を付けて、「a#」のように表す。また、ある発音記号で表される音から他の発音記号で表される音への遷移部分に対応する素片データを、それらの発音記号の間に「−」を入れて、「s−a」のように表す。素片ライブラリの素片データ群3030には、歌唱者が通常に歌唱した場合の歌唱音声波形から採取された、あらゆる音および音の組み合わせに関する素片データが格納されている。素片データ群3031H〜Lには、それぞれ、歌唱者が強いアクセント、中程度のアクセント、および弱いアクセントを付加して歌唱した場合の歌唱音声波形から採取された、あらゆる音および音の組み合わせに関する素片データが格納されている。素片データ群3032H〜Lには、それぞれ、歌唱者が強いレガート、中程度のレガート、および弱いレガートを付加して歌唱した場合の歌唱音声波形から採取された、あらゆる音および音の組み合わせに関する素片データが格納されている。   In the following description, segment data corresponding to a rising portion of a sound represented by a phonetic symbol is represented as “#s” by adding “#” in front of the phonetic symbol. The segment data corresponding to the sound attenuation part represented by a phonetic symbol is represented as “a #” by adding “#” after the phonetic symbol. Also, segment data corresponding to a transition portion from a sound represented by a certain phonetic symbol to a sound represented by another phonetic symbol is inserted between those phonetic symbols, and “sa” is entered. ". The segment data group 3030 of the segment library stores segment data regarding all sounds and combinations of sounds collected from a singing voice waveform when a singer normally sings. In the segment data groups 3031H to L, elements related to all sounds and combinations of sounds collected from a singing voice waveform when a singer sings with a strong accent, a medium accent, and a weak accent, respectively. One piece of data is stored. In the segment data groups 3032H to 30L, elements related to all sounds and sound combinations collected from the singing voice waveform when the singer sings with strong legato, medium legato, and weak legato added, respectively. One piece of data is stored.

図3は、楽譜データを例示する図である。楽譜データには、歌唱演奏を表すパートデータが、1または複数含まれている。楽譜データには、このパートデータの他に、演奏で用いられる拍子およびテンポを示すデータ、および分解能を示すデータが含まれている。パートデータは、複数の音符のそれぞれにつき、基本属性および付加属性を示すデータの組であるノートデータを含んでいる。基本属性データは、音の発音を指示するにあたり不可欠な属性を示すデータであり、音高、発音期間(発音期間の始期および終期)、および発音記号を含んでいる。付加属性データは、音に対し表情付け等の指示、すなわち音楽的な修飾を与えるためのデータであり、この例では、音符と歌詞との対応関係、音の強さ、アクセントの強さ、レガートの強さ、ビブラートの強さ、ビブラート期間を含んでいる。   FIG. 3 is a diagram illustrating score data. The score data includes one or more part data representing a singing performance. In addition to the part data, the musical score data includes data indicating the time and tempo used in the performance, and data indicating the resolution. The part data includes note data which is a set of data indicating basic attributes and additional attributes for each of a plurality of notes. The basic attribute data is data indicating attributes indispensable for instructing sound generation, and includes a pitch, a sound generation period (the start and end of the sound generation period), and a sound generation symbol. The additional attribute data is data for giving an expression to the sound, such as giving a musical modification. In this example, the correspondence between the note and the lyrics, the strength of the sound, the strength of the accent, the legato Strength, vibrato strength, and vibrato duration.

次に、音声合成手段16による音声合成処理の概要を説明する。ここでは、楽譜データに含まれる「sakura」という発音記号列に対する処理を例として説明する。音声合成手段16は、発音記号列を素片データの単位に分解する。例えば、「sakura」は、「#s」、「s」、「s−a」、「a」、「a−k」、「k」、「k−u」、「u」、「u−r」、「r」、「r−a」、「a」、および「a#」に分解される。音声合成手段16は、分解された発音記号列のそれぞれに対応する素片データを、素片データ群3030から読み出す。音声合成手段16は、読み出した素片データに対し、各音符により示される音高に基づき、音高調整を行う。さらに音声合成手段16は、素片データに対し、付加属性データに応じた加工を施す。音声合成手段16は、音高調整を行った素片データに対し、音符列により示される発音期間に基づき、素片の継続時間の調整を施す。音声合成手段16は、継続時間の調整を行った素片データに対し、音量調節を行う。音声合成手段16は、音量調節を行った素片データを順番に接合し、合成音声データを生成する。音声合成手段16は、生成した合成音声データを、記憶手段11に記憶する。   Next, the outline of the speech synthesis process by the speech synthesizer 16 will be described. Here, the process for the phonetic symbol string “sakura” included in the score data will be described as an example. The speech synthesizer 16 decomposes the phonetic symbol string into units of segment data. For example, “sakuura” is “#s”, “s”, “sa”, “a”, “ak”, “k”, “ku”, “u”, “ur”. ”,“ R ”,“ r−a ”,“ a ”, and“ a # ”. The speech synthesizer 16 reads the segment data corresponding to each of the dissociated phonetic symbol strings from the segment data group 3030. The voice synthesizer 16 adjusts the pitch of the read segment data based on the pitch indicated by each note. Furthermore, the speech synthesizer 16 processes the segment data according to the additional attribute data. The speech synthesizer 16 adjusts the duration of the segment based on the pronunciation period indicated by the note sequence for the segment data for which the pitch has been adjusted. The voice synthesizer 16 adjusts the volume of the segment data whose duration has been adjusted. The voice synthesizing unit 16 sequentially joins the segment data whose volume has been adjusted to generate synthesized voice data. The voice synthesis unit 16 stores the generated synthesized voice data in the storage unit 11.

ユーザが楽曲の再生指示を入力し、取得手段14がこれを取得すると、音声出力手段18は、記憶手段11に記憶されている合成音声データを読み出し、これに応じた音声を出力する。その結果、ユーザは楽譜データにより示される歌唱演奏を聴くことができる。   When the user inputs a music playback instruction and the acquisition unit 14 acquires the instruction, the audio output unit 18 reads out the synthesized voice data stored in the storage unit 11 and outputs a sound corresponding to the voice. As a result, the user can listen to the singing performance indicated by the score data.

図4は、音声合成装置1のハードウェア構成を示す図である。この例で、音声合成装置1はコンピュータであり、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、記憶部104と、入力部105と、表示部106と、DAC(Digital Analog Converter)107と、アンプ108と、スピーカ109とを有する。CPU101は汎用的なデータ処理を行うマイクロプロセッサである。ROM102はBIOS(Basic Input/Output System)等の制御用プログラムを格納する不揮発性メモリである。RAM103はデータを記憶する揮発性メモリである。記憶部104は、不揮発性の記憶装置、例えばHDD(Hard Disk Drive)またはフラッシュメモリである。記憶部104は、OS(Operating System)、アプリケーションプログラム、および各種のデータを記憶する。CPU101は、BIOS、OS、またはアプリケーションプログラムに従い、音声合成装置1の他の構成部を制御する。   FIG. 4 is a diagram illustrating a hardware configuration of the speech synthesizer 1. In this example, the speech synthesizer 1 is a computer, a CPU (Central Processing Unit) 101, a ROM (Read Only Memory) 102, a RAM (Random Access Memory) 103, a storage unit 104, an input unit 105, The display unit 106, a DAC (Digital Analog Converter) 107, an amplifier 108, and a speaker 109 are included. The CPU 101 is a microprocessor that performs general-purpose data processing. The ROM 102 is a non-volatile memory that stores a control program such as BIOS (Basic Input / Output System). The RAM 103 is a volatile memory that stores data. The storage unit 104 is a non-volatile storage device such as an HDD (Hard Disk Drive) or a flash memory. The storage unit 104 stores an OS (Operating System), application programs, and various data. The CPU 101 controls other components of the speech synthesizer 1 according to the BIOS, OS, or application program.

入力部105は、指示またはデータを入力するための装置、例えばタッチパネル(タッチスクリーン)、キーパッド、またはマウスである。表示部106は、液晶ディスプレイまたは有機EL(Electro-Luminescence)ディスプレイ等の表示装置と、表示装置を駆動する駆動回路とを有し、文字および図形等を表示する。DAC107は、合成音声データ等の音声データを取得し、これをアナログ音声信号に変換する。DAC107は、アナログ音声信号をアンプ108に出力する。アンプ108は、アナログ音声信号を増幅し、スピーカ109に出力する。スピーカ109は、アナログ音声信号に応じた音波を出力する。   The input unit 105 is a device for inputting instructions or data, for example, a touch panel (touch screen), a keypad, or a mouse. The display unit 106 includes a display device such as a liquid crystal display or an organic EL (Electro-Luminescence) display, and a drive circuit that drives the display device, and displays characters, graphics, and the like. The DAC 107 acquires audio data such as synthesized audio data and converts it into an analog audio signal. The DAC 107 outputs an analog audio signal to the amplifier 108. The amplifier 108 amplifies the analog audio signal and outputs it to the speaker 109. The speaker 109 outputs a sound wave corresponding to the analog audio signal.

この例で、記憶部104は、コンピュータを音声合成装置として機能させるためのアプリケーションプログラム(以下このプログラムを「音声合成アプリケーション」という)を記憶している。CPU101がこの音声合成アプリケーションを実行することにより、音声合成装置1に図1に示される機能が実装される。音声合成アプリケーションを実行しているCPU101は、表示制御手段12、取得手段14、割り当て手段15、音声合成手段16、および確認音出力手段17の一例である。ROM102、RAM103、または記憶部104は、記憶手段11の一例である。CPU101の制御下にある表示部106は、表示手段13の一例である。CPU101の制御下にあるDAC107、アンプ108、およびスピーカ109は、音声出力手段18の一例である。   In this example, the storage unit 104 stores an application program for causing a computer to function as a speech synthesizer (hereinafter, this program is referred to as “speech synthesis application”). When the CPU 101 executes the speech synthesis application, the function shown in FIG. The CPU 101 executing the speech synthesis application is an example of the display control unit 12, the acquisition unit 14, the allocation unit 15, the speech synthesis unit 16, and the confirmation sound output unit 17. The ROM 102, the RAM 103, or the storage unit 104 is an example of the storage unit 11. The display unit 106 under the control of the CPU 101 is an example of the display unit 13. The DAC 107, the amplifier 108, and the speaker 109 under the control of the CPU 101 are examples of the audio output unit 18.

図5は、音声合成装置1の外観を例示する図である。この例で、音声合成装置1はタッチパネル式の情報表示装置であり、筐体110と、タッチパネル111とを有する。筐体110にはスピーカ109およびタッチパネル111が設けられている。タッチパネル111は、表示装置の画面上に光透過性のタッチセンサが積層された構造を有している。ユーザは、表示されている画像を見ながらタッチパネル111に指を触れたり、タッチパネル111上を指でなぞったりすることにより、音声合成装置1に対して指示を入力する。すなわち、タッチパネル111は、入力部105と表示部106とを一体としたものである。   FIG. 5 is a diagram illustrating the appearance of the speech synthesizer 1. In this example, the speech synthesizer 1 is a touch panel type information display device, and includes a housing 110 and a touch panel 111. The housing 110 is provided with a speaker 109 and a touch panel 111. The touch panel 111 has a structure in which a light transmissive touch sensor is stacked on a screen of a display device. The user inputs an instruction to the speech synthesizer 1 by touching the touch panel 111 while watching the displayed image or by tracing the touch panel 111 with a finger. That is, the touch panel 111 is a unit in which the input unit 105 and the display unit 106 are integrated.

2.動作
図6は、音声合成アプリケーションが実行されているときの画面を例示する図である。この画面は、入力ボックス201、ウインドウ202、ガイド図形203、ノート図形204、ノート図形205、ノート図形206、ノート図形207、ノート図形208、再生ボタン209、および停止ボタン210を含む。入力ボックス201は、歌詞を入力および表示するための領域である。この例では、「あさがくるひるがくるよるがくる」という文字列が歌詞として入力されている。ウインドウ202は、音高を表す第1軸(この例では縦軸)および時間を表す第2軸(横軸)を有する座標系に従って、音符列を入力および表示するための領域である。音高軸は、図6において上向きが正方向(音が高くなる)である。時間軸は、図6において右向きが正方向(時間が後になる)である。ガイド図形203は、音高を示す図形であり、ウインドウ202の音高軸に沿って表示される。この例では、ガイド図形203としてピアノの鍵盤を模した図形が用いられる。このことから、ウインドウ202を用いた音符列の表示を「ピアノロール表示」という。ガイド図形203は、音高を特定する画像(この例では、「C3」および「C4」という文字)を含む。ノート図形204−208は、音符列を構成する各音符を示す図形である。この例でノート図形204−208は、長方形の形状を有しており、左端が発音期間の始期を、右端が発音期間の終期を示している。ノート図形204−208の縦方向の位置は音高を示している。ノート図形204−208の内部には、その音符に割り当てられた文字(歌詞の一部)が表示されている。この例で、ノート図形204−208が示す音符には、それぞれ、「あ」、「さ」、「が」、「く」、および「る」という文字が割り当てられている。再生ボタン209は、ピアノロール表示されている楽曲の再生を指示するためのボタンである。停止ボタン210は、楽曲の再生を停止するためのボタンである。
2. Operation FIG. 6 is a diagram illustrating a screen when the speech synthesis application is being executed. This screen includes an input box 201, a window 202, a guide graphic 203, a note graphic 204, a note graphic 205, a note graphic 206, a note graphic 207, a note graphic 208, a play button 209, and a stop button 210. The input box 201 is an area for inputting and displaying lyrics. In this example, the character string “Higaru Agaru” comes as the lyrics. The window 202 is an area for inputting and displaying a musical note string in accordance with a coordinate system having a first axis representing the pitch (vertical axis in this example) and a second axis representing the time (horizontal axis). As for the pitch axis, the upward direction in FIG. In the time axis, the right direction in FIG. 6 is the positive direction (time is later). The guide graphic 203 is a graphic indicating the pitch, and is displayed along the pitch axis of the window 202. In this example, a figure imitating a piano keyboard is used as the guide figure 203. Therefore, the display of the note string using the window 202 is called “piano roll display”. The guide graphic 203 includes an image (in this example, characters “C3” and “C4”) that specify the pitch. The notebook figures 204-208 are figures showing each note constituting the note string. In this example, note figures 204-208 have a rectangular shape, with the left end indicating the beginning of the sounding period and the right end indicating the end of the sounding period. The vertical position of the note graphic 204-208 indicates the pitch. Characters (part of the lyrics) assigned to the note are displayed inside the note graphic 204-208. In this example, the letters “a”, “sa”, “ga”, “ku”, and “ru” are assigned to the notes indicated by the note graphics 204-208, respectively. The playback button 209 is a button for instructing playback of the music displayed on the piano roll. The stop button 210 is a button for stopping the reproduction of music.

図7は、音声合成装置1の動作を示すフローチャートである。図7のフローは、例えば、音声合成アプリケーションの起動がユーザにより指示されたことを契機として開始する。ステップS100において、CPU101は、ユーザによるタッチパネル111の操作に応じて、歌詞を示す文字列を取得する。すなわち、ユーザは、タッチパネル111を操作して歌詞を入力する。CPU101は、歌詞として取得した文字列を記憶部104に記憶する。ここでは、図6に示したように「あさがくるひるがくるよるがくる」という歌詞がユーザにより入力された場合を例として説明する。   FIG. 7 is a flowchart showing the operation of the speech synthesizer 1. The flow in FIG. 7 starts, for example, in response to an instruction from the user to start the speech synthesis application. In step S <b> 100, the CPU 101 acquires a character string indicating lyrics in accordance with the operation of the touch panel 111 by the user. That is, the user operates the touch panel 111 to input lyrics. The CPU 101 stores the character string acquired as lyrics in the storage unit 104. Here, as shown in FIG. 6, an example will be described in which the user inputs the lyrics “Asakura Hiru comes and comes”.

ステップS110において、CPU101は、新たな音符の入力が検出されたか、すなわち、新たな音符を取得したか判断する。より詳細には、CPU101は、新たな音符の発音期間の始期を取得したか判断する。新たな音符の始期が入力されたと判断された場合(S110:YES)、CPU101は、処理をステップS120に移行する。新たな音符の始期が入力されていないと判断された場合(S110:NO)、CPU101は、新たな音符の始期が入力されるまで待機する。この例で音声合成装置1はタッチパネル式の情報表示装置であるから、新たな音符の始期の入力はタッチパネル111を介して行われる。   In step S110, the CPU 101 determines whether the input of a new note has been detected, that is, whether a new note has been acquired. More specifically, the CPU 101 determines whether the start of a new note generation period has been acquired. If it is determined that the start of a new note has been input (S110: YES), the CPU 101 proceeds to step S120. When it is determined that a new note start time is not input (S110: NO), the CPU 101 waits until a new note start time is input. In this example, since the speech synthesizer 1 is a touch panel type information display device, the start of a new note is input via the touch panel 111.

図8は、新たな音符を入力する様子を例示する図である。ユーザは、ウインドウ202において、新たな音符を追加したい位置、より詳細には、新たな音符の音高および発音期間の始期に相当する位置をタッチすることにより、新たな音符を入力する。図8には、ユーザが、時間軸においてノート図形204およびノート図形205の間に位置し、音高軸において「D3」に相当する位置を指Fでタッチした例が示されている。このとき、タッチパネル111は、ユーザがタッチした位置を示す信号をCPU101に出力する。CPU101は、ウインドウ202内のある位置がタッチされたことがタッチパネル111からの信号により示された場合、新たな音符が入力されたと判断する。このときCPU101は、新たな音符を示すノート図形211を、ウインドウ202内においてユーザがタッチしている位置に応じた位置に表示する。新たな音符のノート図形の時間軸方向の幅は、決められた初期値(例えば四分音符)に設定される。以下、この新たな音符を必要に応じて「処理対象音符」という。   FIG. 8 is a diagram illustrating a state in which a new note is input. In the window 202, the user inputs a new note by touching a position at which a new note is to be added, more specifically, a position corresponding to the pitch of the new note and the beginning of the pronunciation period. FIG. 8 shows an example in which the user is located between the note graphic 204 and the note graphic 205 on the time axis and touches the position corresponding to “D3” with the finger F on the pitch axis. At this time, the touch panel 111 outputs a signal indicating the position touched by the user to the CPU 101. When the signal from the touch panel 111 indicates that a certain position in the window 202 is touched, the CPU 101 determines that a new note has been input. At this time, the CPU 101 displays a note graphic 211 indicating a new note at a position corresponding to the position touched by the user in the window 202. The width of the note pattern of the new note in the time axis direction is set to a predetermined initial value (for example, a quarter note). Hereinafter, this new note is referred to as a “processing target note” as necessary.

再び図7を参照する。ステップS120において、CPU101は、処理対象音符に対して歌詞を割り当てる。詳細には以下のとおりである。まず、CPU101は、処理対象音符の時間軸上の位置、特に他の音符との前後関係に基づいて、処理対象音符の順番を特定する。図8の例では、処理対象音符の位置がノート図形204およびノート図形205の間に指定されているので、CPU101は、処理対象音符が第2音であると特定する。次に、CPU101は、特定された順番に基づいて、処理対象音符に割り当てるべき文字を決定する。この例で、処理対象音符は第2音なので、CPU101は、歌詞「あさがくるひるがくるよるがくる」のうち2文字目「さ」を処理対象音符に割り当てる。さらに、CPU101は、新たな文字の割り当てに伴って、他の音符への文字の割り当てを変更する。処理対象音符が第2音になったので、従前の第2音は第3音となり、以下順番が1つずつ繰り下がる。この例では、ノート図形205が示す音に割り当てられる文字が「さ」から「が」に変更される。他の音符についても同様である。CPU101は、この変更後の、音符と歌詞との対応関係を示すデータをRAM103に記憶する。   Refer to FIG. 7 again. In step S120, the CPU 101 assigns lyrics to the processing target note. Details are as follows. First, the CPU 101 specifies the order of the processing target notes based on the position of the processing target notes on the time axis, particularly the context with other notes. In the example of FIG. 8, since the position of the processing target note is specified between the note graphic 204 and the note graphic 205, the CPU 101 specifies that the processing target note is the second sound. Next, the CPU 101 determines a character to be assigned to the processing target note based on the identified order. In this example, since the processing target note is the second sound, the CPU 101 assigns the second character “sa” of the lyrics “Asagari Hirugaru Kurugarakuru” to the processing target note. Furthermore, the CPU 101 changes the assignment of characters to other notes as new characters are assigned. Since the note to be processed is the second sound, the previous second sound is the third sound, and the order is lowered one by one. In this example, the character assigned to the sound indicated by the note graphic 205 is changed from “sa” to “ga”. The same applies to other notes. The CPU 101 stores data indicating the correspondence relationship between the note and the lyrics after the change in the RAM 103.

ステップS130において、CPU101は、確認音を音声合成する。ここで、「確認音」とは、処理対象音符の音高およびその音符に割り当てられた文字に応じて合成された音声をいう。ここでは図8のノート図形211(「さ」が割り当てられている)により示される音符が処理の対象となる場合を例として説明する。CPU101は、この音符に割り当てられた文字を発音記号に変換する。記憶部104は平仮名を発音記号に変換するためのデータベースを記憶しており、CPU101はこのデータベースを参照して変換を行う。この例では、「さ」が「sa」に変換される。CPU101は、発音記号を素片データの単位に分解する。この例では、「sa」が「#s」、「s」、「s−a」、「a」および「a#」に分解される。CPU101は、分解された発音記号列のそれぞれに対応する素片データを、記憶部104に記憶されている素片データベースの素片データ群3030から読み出す。CPU101は、読み出した素片データに対し、音符により示される音高に基づき、音高調整を行う。この例では、音高が「D3」となるように素片データが調整される。CPU101は、音高調整を行った素片データに対し、発音期間の初期値(例えば四分音符)に基づき、素片の継続時間を調整する。CPU101は、継続時間を調整した素片データに対し、音量の調整を行う。CPU101は、音量を調整した素片データを順番に接合し、確認音を示す確認音データを生成する。CPU101は、生成した確認音データをRAM103に記憶する。   In step S130, the CPU 101 synthesizes a confirmation sound. Here, the “confirmation sound” refers to a sound synthesized according to the pitch of the processing target note and the character assigned to the note. Here, a case where a musical note indicated by the note graphic 211 ("sa" is assigned) in FIG. The CPU 101 converts the character assigned to the note into a phonetic symbol. The storage unit 104 stores a database for converting hiragana to phonetic symbols, and the CPU 101 performs conversion with reference to this database. In this example, “sa” is converted to “sa”. The CPU 101 decomposes the phonetic symbols into unit data units. In this example, “sa” is decomposed into “#s”, “s”, “sa”, “a”, and “a #”. The CPU 101 reads out segment data corresponding to each of the decomposed phonetic symbol strings from the segment data group 3030 of the segment database stored in the storage unit 104. The CPU 101 adjusts the pitch of the read segment data based on the pitch indicated by the musical note. In this example, the segment data is adjusted so that the pitch is “D3”. The CPU 101 adjusts the duration of the segment based on the initial value of the sound generation period (for example, a quarter note) for the segment data on which the pitch is adjusted. The CPU 101 adjusts the volume of the segment data whose duration has been adjusted. The CPU 101 sequentially joins the piece data whose volumes are adjusted, and generates confirmation sound data indicating the confirmation sound. The CPU 101 stores the generated confirmation sound data in the RAM 103.

ステップS140において、CPU101は、スピーカ109から確認音を出力させる。すなわち、CPU101は、確認音を出力するように、DAC107を制御する。DAC107は、RAM103から確認音データを読み出し、アナログ音声信号に変換してアンプ108に出力する。アンプ108は、このアナログ音声信号を増幅してスピーカ109に出力する。スピーカ109は、このアナログ音声信号に応じた音波を出力する。こうして、スピーカ109から「さ」という音声が出力される。この音声は、ノート図形211により示される音高に相当する音高と、あらかじめ決められた初期値(例えば四分音符)に相当する発音期間を有する。   In step S140, the CPU 101 causes the speaker 109 to output a confirmation sound. That is, the CPU 101 controls the DAC 107 so as to output a confirmation sound. The DAC 107 reads the confirmation sound data from the RAM 103, converts it into an analog audio signal, and outputs it to the amplifier 108. The amplifier 108 amplifies this analog audio signal and outputs it to the speaker 109. The speaker 109 outputs a sound wave corresponding to the analog audio signal. In this way, the sound “sa” is output from the speaker 109. This sound has a pitch corresponding to the pitch indicated by the note graphic 211 and a pronunciation period corresponding to a predetermined initial value (for example, a quarter note).

この後、発音期間の終期を確定する操作(例えば、タッチしていた指をタッチパネル111から離す操作)が検出された場合、CPU101は、音符列に対する歌詞の割り当てを確定する。すなわち、CPU101は、RAM103に記憶されている、音符と歌詞との対応関係に基づいて、記憶部104に記憶されている楽譜データを書き替える。この例では、音高が「D3」で、発音期間の始期がノート図形211により示される時間であり、発音期間の終期が四分音符に相当する時間である音符のデータが、第2音として追加される。さらに、従前の第2音以降の音は順番が繰り下げられ、割り当てられている発音記号も変更される。   Thereafter, when an operation for determining the end of the pronunciation period (for example, an operation for releasing the touched finger from the touch panel 111) is detected, the CPU 101 determines the allocation of the lyrics to the note string. That is, the CPU 101 rewrites the musical score data stored in the storage unit 104 based on the correspondence between the notes and lyrics stored in the RAM 103. In this example, note data in which the pitch is “D3”, the beginning of the sound generation period is the time indicated by the note graphic 211, and the end of the sound generation period is the time corresponding to a quarter note is the second sound. Added. Further, the order of the second and subsequent sounds is lowered, and the assigned phonetic symbols are also changed.

このように、音声合成装置1によれば、ユーザがウインドウ202をタッチすると、タッチした位置に応じたノート図形が表示される。このとき、タッチした位置およびその音符に割り当てられた文字に応じた確認音が出力される。ユーザは、新たに入力された音符について、音高および割り当てられた文字に応じた音声を容易に確認することができる。   Thus, according to the speech synthesizer 1, when the user touches the window 202, a note graphic corresponding to the touched position is displayed. At this time, a confirmation sound corresponding to the touched position and the character assigned to the note is output. The user can easily confirm the sound corresponding to the pitch and the assigned character for the newly input note.

タッチパネル111において再生ボタン209に相当する位置をユーザがタッチすると、CPU101は、記憶部104に記憶されている楽譜データに従って音声を合成し、合成した音声をスピーカ109から出力させる。タッチパネル111において停止ボタン210に相当する位置をユーザがタッチすると、CPU101は、音声の再生を停止する。   When the user touches a position corresponding to the playback button 209 on the touch panel 111, the CPU 101 synthesizes voice according to the score data stored in the storage unit 104 and causes the speaker 109 to output the synthesized voice. When the user touches a position corresponding to the stop button 210 on the touch panel 111, the CPU 101 stops the sound reproduction.

3.他の実施形態
本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。以下、変形例をいくつか説明する。以下の変形例のうち2つ以上のものが組み合わせて用いられてもよい。
3. Other Embodiments The present invention is not limited to the above-described embodiments, and various modifications can be made. Hereinafter, some modifications will be described. Two or more of the following modifications may be used in combination.

3−1.変形例1
確認音の音長は、ユーザの操作に応じて動的に決められてもよい。上述の実施形態では、確認音の音長はあらかじめ決められた値(四分音符)に設定された。しかし、確認音は、ユーザがタッチパネル111にタッチし続けている間、継続的に出力されてもよい。ここでは実施形態と同様に、図8のノート図形211(「さ」が割り当てられている)により示される音符が処理の対象となる場合を例として説明する。発音記号への変換、発音記号の分解、素片データの読み出し、音高調整、継続時間の調整、および音量調整については既に説明したとおりである。次に、CPU101は、素片データを接合して確認音データを生成する。この例では、CPU101は、素片データのうち、順番が最後の素片データは含めず、確認音データを生成する。「#s」、「s」、「s−a」、「a」および「a#」の素片データのうち、確認音データは、「#s」、「s」、「s−a」、および「a」を含み、「a#」は含まない。CPU101は、生成した確認音データをRAM103に書き込む。
3-1. Modification 1
The length of the confirmation sound may be dynamically determined according to the user's operation. In the above embodiment, the length of the confirmation sound is set to a predetermined value (quarter note). However, the confirmation sound may be continuously output while the user continues to touch the touch panel 111. Here, as in the embodiment, a case will be described as an example in which a musical note indicated by the note graphic 211 (assigned “sa”) in FIG. 8 is a processing target. Conversion to phonetic symbols, decomposition of phonetic symbols, reading of segment data, pitch adjustment, duration adjustment, and volume adjustment are as already described. Next, the CPU 101 joins the piece data and generates confirmation sound data. In this example, the CPU 101 generates confirmation sound data without including the last segment data in the segment data. Among the segment data of “#s”, “s”, “sa”, “a”, and “a #”, the confirmation sound data includes “#s”, “s”, “sa”, And “a”, but not “a #”. The CPU 101 writes the generated confirmation sound data in the RAM 103.

この例において、CPU101は、あらかじめ決められた時間間隔でタッチパネル111からの信号を監視している。タッチパネル111がタッチされていることが検出されている間、CPU101は、順番が最後から2番目の素片データ、この例では「a」の素片データを、引き続き出力される確認音データとして、繰り返しRAM103に書き込む。ユーザがタッチパネル111をタッチし続けている間、「a」の素片データが繰り返し書き込まれ続けるので、スピーカ109からは、「さーーーー」というように長音が発せられる。ユーザがタッチパネル111から指を離す等、終了条件が満たされると、CPU101は、順番が最後の素片データ、この例では「a#」の素片データを、次に出力される確認音データとしてRAM103に書き込む。すなわち、ユーザがタッチパネル111から指を離すと、「さーーーー」という音声の出力が停止する。   In this example, the CPU 101 monitors a signal from the touch panel 111 at a predetermined time interval. While it is detected that the touch panel 111 is being touched, the CPU 101 uses the second piece data from the end, in this example, the piece data “a” as the confirmation sound data to be continuously output. Write to the RAM 103 repeatedly. While the user keeps touching the touch panel 111, the segment data “a” continues to be repeatedly written, so that the speaker 109 emits a long sound such as “soooo”. When the end condition is satisfied, such as when the user lifts the finger from the touch panel 111, the CPU 101 uses the last piece data in the order, in this example “a #”, as confirmation sound data to be output next. Write to the RAM 103. That is, when the user removes his / her finger from the touch panel 111, the output of the sound “soooo” stops.

3−2.変形例2
変形例1の別の例として、ユーザがタッチパネル111をタッチし続けている間、あらかじめ決められた音長(例えば四分音符)の確認音が、繰り返し出力されてもよい。この場合、ユーザがタッチパネル111をタッチし続けている間、スピーカ109からは、「ささささささ」というように、確認音が繰り返し出力される。
3-2. Modification 2
As another example of the first modification, while the user continues to touch the touch panel 111, a confirmation sound having a predetermined sound length (for example, a quarter note) may be repeatedly output. In this case, while the user continues to touch the touch panel 111, a confirmation sound is repeatedly output from the speaker 109, such as “smallness”.

3−3.変形例3
確認音を出力するタイミングは、実施形態で説明したものに限定されない。上述の実施形態では、ユーザがタッチパネル111に触ったときに、すなわち、処理対象音符の発音期間の始期が指定されたときに、確認音が出力された。しかし、確認音は、これとは異なるタイミング、たとえば、処理対象音符の発音期間の終期が指定されたときに出力されてもよい。
3-3. Modification 3
The timing for outputting the confirmation sound is not limited to that described in the embodiment. In the above-described embodiment, the confirmation sound is output when the user touches the touch panel 111, that is, when the start period of the sound generation period of the processing target note is designated. However, the confirmation sound may be output at a timing different from this, for example, when the end of the pronunciation period of the processing target note is designated.

図9は、処理対象音符について発音期間の終期を指定する様子を例示する図である。この例では、処理対象音符が生成された後、指をタッチパネル111にタッチしたままの状態で横に動かす(いわゆる「ドラッグ」する)と、指でタッチした軌跡に応じて、ノート図形が変化する。この例では、発音期間の始期が固定されたまま、発音期間の終期がドラッグに応じて変化する。すなわち、CPU101は、処理対象音符の入力を検出した後は、タッチされている部分の軌跡に応じて発音期間の終期を変化させ、その変化に応じたノート図形を表示する。図9には、図8の状態からノート図形211を右方向(時間軸正方向)にドラッグした様子が例示されている。この場合、指の軌跡に応じて、ノート図形211は時間軸方向に伸びている。ユーザがタッチパネル111から指を離すと、音符の長さが確定する。すなわち、CPU101は、ユーザの指がタッチパネルから離れたことを検出すると、処理対象音符の音長を確定する。音長が確定した後で、CPU101は、音声合成をして確認音データを生成し、生成した確認音データをRAM103に書き込む。   FIG. 9 is a diagram illustrating a state in which the end of the pronunciation period is specified for the processing target note. In this example, after the processing target note is generated, if the finger is moved sideways (so-called “dragging”) while touching the touch panel 111, the note graphic changes according to the trajectory touched by the finger. . In this example, the end of the sound generation period changes according to the drag while the start time of the sound generation period is fixed. That is, after detecting the input of the processing target note, the CPU 101 changes the end of the pronunciation period in accordance with the locus of the touched part, and displays a note graphic corresponding to the change. FIG. 9 illustrates a state in which the notebook graphic 211 is dragged in the right direction (time axis positive direction) from the state of FIG. In this case, the notebook graphic 211 extends in the time axis direction according to the trajectory of the finger. When the user removes his / her finger from touch panel 111, the length of the note is determined. That is, when the CPU 101 detects that the user's finger has left the touch panel, the CPU 101 determines the note length of the processing target note. After the sound length is determined, the CPU 101 synthesizes speech to generate confirmation sound data, and writes the generated confirmation sound data in the RAM 103.

この例では、音長が確定した後で、確認音が出力される。したがって、ユーザは、新たに入力した音符について、音高、音長および割り当てられた文字に応じた音声を容易に確認することができる。なお、発音期間の終期が確定する前に始期が確定しているから、音長が確定した後で確認音を出力する場合も、「発音期間の始期を取得したタイミングに応じて」確認音を出力しているといえる。   In this example, the confirmation sound is output after the sound length is determined. Therefore, the user can easily confirm the sound corresponding to the pitch, the sound length, and the assigned character for the newly input note. In addition, since the start period is determined before the end of the pronunciation period is confirmed, even when a confirmation sound is output after the sound length has been confirmed, the confirmation sound is `` according to the timing when the start period of the pronunciation period is acquired ''. It can be said that it is outputting.

3−4.変形例4
ユーザがノート図形をドラッグしたときの処理は、変形例2で説明したものに限定されない。この例では、ノート図形をドラッグすると、音長が一定のまま、発音期間の始期がドラッグに応じて変化する。すなわち、CPU101は、処理対象音符の入力を検出した後は、タッチされている部分の軌跡に応じて発音期間の始期を変化させ、その変化に応じたノート図形を表示する。音長を一定に保つため、CPU101は、発音期間の始期の変化に応じて終期も変化させる。始期は、あらかじめ決められた解像度(例えば八分音符)を単位として変化する。CPU101は、発音期間の始期が変化するたびに、他の音との時間軸方向の位置関係を確認し、必要に応じて歌詞の割り当てを変更する。
3-4. Modification 4
The processing when the user drags the note graphic is not limited to that described in the second modification. In this example, when the note graphic is dragged, the start time of the sound generation period changes according to the dragging while the sound length remains constant. That is, after detecting the input of the processing target note, the CPU 101 changes the start period of the sound generation period according to the locus of the touched portion, and displays a note graphic corresponding to the change. In order to keep the sound length constant, the CPU 101 changes the end period according to the change of the start period of the sound generation period. The start period changes in units of a predetermined resolution (for example, an eighth note). The CPU 101 checks the positional relationship in the time axis direction with other sounds every time the start of the sound generation period changes, and changes the allocation of lyrics as necessary.

図10は、変形例4に係る、ノート図形をドラッグしたときの処理を例示する図である。図10には、図8の状態からノート図形211を右方向(時間軸正方向)にドラッグした様子が例示されている。この場合、CPU101は、ノート図形211を基準として、移動方向(時間軸正方向)において次に登場する音符を監視対象音符として特定する。図8の状態から右方向に移動を開始した直後においては、ノート図形205により示される音符が、監視対象音符として特定される。CPU101は、処理対象音符の発音期間の始期が、監視対象音符の発音期間の始期以降となったか判断する。処理対象音符の発音期間の始期が、監視対象音符の発音期間の始期以降となったと判断された場合、CPU101は、処理対象音符と監視対象音符との間で、割り当てられている文字を入れ替える。図10には、ノート図形211がノート図形205よりも後ろに移動され、図8の状態から、ノート図形211およびノート図形205に割り当てられている文字が入れ替わっている様子が示されている。ユーザがタッチパネル111から指を離すと、発音期間の始期および割り当てられる文字が確定する。すなわち、CPU101は、ユーザの指がタッチパネルから離れたことを検出すると、割り当てられる文字を確定する。割り当てられる文字が確定した後で、CPU101は、音声合成をして確認音データの生成を行い、生成した確認音データをRAM103に書き込む。   FIG. 10 is a diagram illustrating processing when a note graphic is dragged according to the fourth modification. FIG. 10 illustrates a state where the notebook graphic 211 is dragged in the right direction (time axis positive direction) from the state of FIG. In this case, the CPU 101 specifies the note that appears next in the movement direction (time axis positive direction) as the monitoring target note with reference to the note graphic 211. Immediately after starting to move rightward from the state of FIG. 8, the note indicated by the note graphic 205 is specified as the monitoring target note. The CPU 101 determines whether the start period of the sound generation period of the processing target note is after the start period of the sound generation period of the monitoring target note. When it is determined that the start of the sound generation period of the processing target note is after the start of the sound generation period of the monitoring target note, the CPU 101 switches the assigned character between the processing target note and the monitoring target note. FIG. 10 shows a state in which the note graphic 211 is moved behind the note graphic 205 and the characters assigned to the note graphic 211 and the note graphic 205 are switched from the state of FIG. When the user removes his / her finger from touch panel 111, the beginning of the pronunciation period and the assigned character are determined. That is, when the CPU 101 detects that the user's finger has left the touch panel, the assigned character is determined. After the assigned character is determined, the CPU 101 performs voice synthesis to generate confirmation sound data, and writes the generated confirmation sound data in the RAM 103.

この例では、発音期間の始期を移動可能な構成において、始期が確定した後で、確認音が出力される。したがって、ユーザは、新たに入力した音符について、音高および割り当てられた文字に応じた音声を容易に確認することができる。   In this example, in a configuration in which the start of the sound generation period can be moved, a confirmation sound is output after the start is confirmed. Therefore, the user can easily confirm the sound corresponding to the pitch and the assigned character for the newly input note.

3−5.変形例5
ノート図形をドラッグできる方向は、時間軸方向に限定されない。この例では、ノート図形を音高軸方向にドラッグすると、音長が一定のまま、音高がドラッグに応じて変化する。すなわち、CPU101は、処理対象音符の入力を検出した後は、タッチされている部分の軌跡に応じて音高を変化させ、その変化に応じたノート図形を表示する。音高軸方向のドラッグの間、発音期間の始期および音長は一定に保たれる。
3-5. Modification 5
The direction in which the note graphic can be dragged is not limited to the time axis direction. In this example, when a note graphic is dragged in the pitch axis direction, the pitch changes according to the dragging while the pitch is kept constant. That is, after detecting the input of the processing target note, the CPU 101 changes the pitch according to the locus of the touched portion, and displays a note graphic corresponding to the change. During dragging in the pitch axis direction, the beginning of the sounding period and the sound length are kept constant.

図11は、ノート図形を音高軸方向にドラッグしたときの処理を例示する図である。図11には、図8の状態からノート図形211を上方向(音高軸正方向)にドラッグした様子が例示されている。図11には、ノート図形211が高音側に移動され、図8の状態から、音高が「D3」から「E3」に変化した様子が示されている。ユーザがタッチパネル111から指を離すと、音高が確定する。すなわち、CPU101は、ユーザの指がタッチパネルから離れたことを検出すると、音高を確定する。この間、変形例1で説明したように、ユーザがタッチパネル111に触れている間は確認音が出力され続ける。すなわち、CPU101は、音高が変化するたびに、既に読み出されている素片データについて、音高調整、継続時間の調整、および確認音データの生成を行い、生成した確認音データをRAM103に書き込む。この例によれば、ユーザが音高「D3」に相当する位置をタッチし、指をタッチしたまま音高を「D3」から「D#3」へ、さらに「D#3」から「E3」へとドラッグすると、音高が「D3」から「D#3」に変わったタイミングで音高「D#3」に相当する確認音が出力され、さらに音高が「D#3」から「E3」に変わったタイミングで音高「E3」に相当する確認音が出力される。別の例で、変形例2で説明したように確認音がある単位で繰り返し出力され、その音高が、ドラッグに応じて変化してもよい。   FIG. 11 is a diagram illustrating processing when a note graphic is dragged in the pitch axis direction. FIG. 11 illustrates a state where the note graphic 211 is dragged upward (pitch axis positive direction) from the state of FIG. FIG. 11 shows a state in which the note graphic 211 is moved to the treble side and the pitch is changed from “D3” to “E3” from the state of FIG. When the user removes his / her finger from touch panel 111, the pitch is fixed. That is, when the CPU 101 detects that the user's finger has left the touch panel, the pitch is determined. During this time, as described in the first modification, the confirmation sound is continuously output while the user is touching the touch panel 111. That is, every time the pitch changes, the CPU 101 adjusts the pitch, adjusts the duration, and generates confirmation sound data for the already read segment data, and stores the generated confirmation sound data in the RAM 103. Write. According to this example, the user touches a position corresponding to the pitch “D3”, the pitch is changed from “D3” to “D # 3”, and “D # 3” to “E3” while touching the finger. When dragging to, a confirmation sound corresponding to the pitch “D # 3” is output at the timing when the pitch is changed from “D3” to “D # 3”, and the pitch is further changed from “D # 3” to “E3”. A confirmation sound corresponding to the pitch “E3” is output at the timing when “ In another example, as described in the second modification, the confirmation sound may be repeatedly output in a certain unit, and the pitch may be changed according to the drag.

3−6.変形例6
処理対象音符の発音期間の始期および終期を指定する方法は、実施形態で説明したものに限定されない。タッチパネル111が複数の位置を同時に検出可能な、いわゆるマルチタッチ可能な装置である場合、2本の指を用いて発音期間の始期および終期が同時に指定されてもよい。この場合、CPU101は、タッチパネル111から2点の座標を取得する。CPU101は、取得した2つの座標のうち、小さい時間軸座標を有する点を始期として、大きい時間軸座標を有する点を終期として処理をする。ユーザがタッチパネル111から指を離すと、発音期間の始期および終期が確定する。この場合、CPU101は、変形例1および変形例2のようにタッチを検出している間は継続的に確認音を出力してもよいし、変形例3および変形例4のように発音期間の始期および終期が確定した後で確認音を出力してもよい。例えば、ユーザがまず人差し指(第1の指)をタッチして発音期間の始期を入力し、その後、中指(第2の指)をタッチして発音期間の終期を入力する場合、CPU101は、人指し指のタッチを検出したタイミングで確認音を出力してもよいし、中指のタッチを検出したタイミングで確認音を出力してもよい。人指し指のタッチを検出したタイミングで確認音を出力する場合、CPU101は、中指のタッチを検出したタイミングで確認音の出力を停止してもよいし、中指のタッチを検出した後も確認音の出力を継続してもよい。中指のタッチを検出した後も確認音の出力を継続する場合、CPU101は、人指し指または中指のタッチを検出しなくなったタイミングで確認音の出力を停止してもよい。
3-6. Modification 6
The method of designating the start and end of the sound generation period of the processing target note is not limited to that described in the embodiment. When the touch panel 111 is a so-called multi-touch capable device that can detect a plurality of positions at the same time, the start and end of the sound generation period may be specified simultaneously using two fingers. In this case, the CPU 101 acquires the coordinates of two points from the touch panel 111. The CPU 101 processes a point having a small time axis coordinate as a starting point and a point having a large time axis coordinate as an end point among the two acquired coordinates. When the user removes his / her finger from touch panel 111, the start and end of the sound generation period are fixed. In this case, the CPU 101 may continuously output a confirmation sound while detecting a touch as in the first and second modifications, or the sound generation period as in the third and fourth modifications. A confirmation sound may be output after the start and end times are determined. For example, when the user first touches the index finger (first finger) to input the beginning of the pronunciation period, and then touches the middle finger (second finger) to input the end of the pronunciation period, the CPU 101 The confirmation sound may be output at the timing when the touch is detected, or the confirmation sound may be output at the timing when the touch of the middle finger is detected. When outputting the confirmation sound at the timing when the touch of the index finger is detected, the CPU 101 may stop outputting the confirmation sound at the timing when the touch of the middle finger is detected, or output the confirmation sound even after detecting the touch of the middle finger. May be continued. When outputting the confirmation sound after detecting the middle finger touch, the CPU 101 may stop outputting the confirmation sound at a timing when the touch of the index finger or the middle finger is not detected.

3−7.変形例7
確認音として出力される音声は、実施形態で説明したものに限定されない。処理対象音符を含む複数の音符およびこれらに割り当てられている文字列に応じた音声が、確認音として合成され出力されてもよい。例えば、CPU101は、処理対象音符を基準として前後ある数の音符(例えば前後1音ずつ)の音符列を用いて、確認音データを生成する。例えば図8において、ノート図形211が処理対象音符として入力されると、CPU101は、前後1音を含めた計3音(「あ」、「さ」、および「が」)の確認音データを生成する。この場合、スピーカ109から「あさが」という音声が出力され、ユーザは、前後の音符との関係も含めて、新たに入力した音符について、音高および割り当てられた文字に応じた音声を容易に確認することができる。歌唱合成の確認においては、前後の音との繋がりを確認することが重要である。例えば、歌詞「さ」が割り当てられた処理対象音符一音のみを確認音として出力する場合、「#s」、「s」、「s−a」、「a」、および「a#」の素片データが用いられるが、実際の曲を再生するときには「#s」および「a#」の素片データに変わって、前後の歌詞との組み合わせに対応する素片データが用いられる。このため、本変形例のように、処理対象音符を含む複数の音符列を用いて確認音を生成することにより、より正確な合成音を確認することができる。
3-7. Modification 7
The sound output as the confirmation sound is not limited to that described in the embodiment. A plurality of notes including the processing target note and a sound corresponding to the character string assigned to them may be synthesized and output as a confirmation sound. For example, the CPU 101 generates confirmation sound data by using a note sequence of a certain number of notes before and after the processing target note (for example, one note before and after). For example, in FIG. 8, when a note graphic 211 is input as a processing target note, the CPU 101 generates confirmation sound data of a total of three sounds (“a”, “sa”, and “ga”) including one sound before and after. To do. In this case, a voice “Asa” is output from the speaker 109, and the user can easily make a voice corresponding to the pitch and the assigned character of the newly input note, including the relationship with the preceding and following notes. Can be confirmed. In the confirmation of singing synthesis, it is important to confirm the connection with the sound before and after. For example, when outputting only one note to be processed to which the lyrics “sa” is assigned as a confirmation sound, the elements “#s”, “s”, “sa”, “a”, and “a #” are output. Although piece data is used, when reproducing an actual song, the piece data corresponding to the combination with the preceding and following lyrics is used instead of the piece data of “#s” and “a #”. For this reason, as in this modification, a more accurate synthesized sound can be confirmed by generating a confirmation sound using a plurality of note strings including the processing target notes.

3−8.変形例8
処理対象音符の音高および発音期間の始期を指定する方法、すなわち入力インターフェースは、実施形態で説明したものに限定されない。例えば、図6のピアノロール表示において、ユーザはガイド図形203をタッチすることにより音高を指定し、そのままウインドウ202までドラッグして発音期間の始期を指定してもよい。また、ガイド図形203は、ピアノの鍵盤を模した図形に限定されない。音高を示すものであれば、どのような図形が用いられてもよい。
3-8. Modification 8
The method for designating the pitch of the processing target note and the start of the sound generation period, that is, the input interface is not limited to that described in the embodiment. For example, in the piano roll display of FIG. 6, the user may specify the pitch by touching the guide graphic 203 and drag to the window 202 as it is to specify the start of the sound generation period. The guide figure 203 is not limited to a figure imitating a piano keyboard. Any figure may be used as long as it indicates the pitch.

3−9.変形例9
上述の実施形態において新たな音符が処理対象音符となる例を説明したが、処理対象音符は新たな音符に限定されない。既に入力済みの音符が処理対象音符として処理されてもよい。例えば図6の例で、ノート図形205に相当する位置へのタッチが検出された場合、CPU101は、ノート図形205が示す音符を処理対象音符として確認音を生成してもよい。この場合、処理対象音符の音長は確定しているので、CPU101は、楽譜データに記録されている音長により示される長さの確認音を合成および出力する。あるいは別の例で、入力済みの音符を編集する編集モードで音声合成装置1が動作している場合において、音長が確定していないものとして、実施形態または変形例で説明したように確認音が合成および出力されてもよい。より詳細には、編集モードにおいて発音期間の終期をドラッグにより変更可能な場合に、実施形態で説明したようにタッチが検出されたタイミングで確認音を出力してもよいし、発音期間の終期が確定した後で確認音を出力してもよい。タッチが検出されたタイミングで確認音を出力する場合には、決められた音長の確認音が出力されてもよいし、タッチが検出されなくなるまで確認音が継続して出力され続けてもよい。
3-9. Modification 9
Although an example in which a new note is a processing target note has been described in the above-described embodiment, the processing target note is not limited to a new note. Already input notes may be processed as processing target notes. For example, in the example of FIG. 6, when a touch to a position corresponding to the note graphic 205 is detected, the CPU 101 may generate a confirmation sound using the note indicated by the note graphic 205 as a processing target note. In this case, since the tone length of the processing target note is fixed, the CPU 101 synthesizes and outputs a confirmation tone having a length indicated by the tone length recorded in the score data. Alternatively, in another example, when the speech synthesizer 1 is operating in the edit mode for editing the input notes, it is assumed that the sound length has not been determined, and the confirmation sound is described as described in the embodiment or the modification. May be synthesized and output. More specifically, when the end of the sound generation period can be changed by dragging in the edit mode, a confirmation sound may be output at the timing when the touch is detected as described in the embodiment, or the end of the sound generation period may be A confirmation sound may be output after confirmation. When a confirmation sound is output at the timing when a touch is detected, a confirmation sound of a predetermined length may be output, or the confirmation sound may be continuously output until no touch is detected. .

3−10.他の変形例
音声合成装置1は、タッチパネル111を有していなくてもよい。例えば、音声合成装置1は、入力部105としてマウス、キーパッド、またはペンタブレットを有していてもよい。また、音声合成装置1は、タッチパネル式の情報表示装置に限定されない。音声合成装置1は、パーソナルコンピュータ、携帯電話機、携帯ゲーム機、携帯音楽プレーヤ、または電子ブックリーダであってもよい。
3-10. Other Modifications The speech synthesizer 1 may not have the touch panel 111. For example, the speech synthesizer 1 may have a mouse, keypad, or pen tablet as the input unit 105. The speech synthesizer 1 is not limited to a touch panel type information display device. The voice synthesizer 1 may be a personal computer, a mobile phone, a portable game machine, a portable music player, or an electronic book reader.

音声合成装置1のハードウェア構成は、図4で説明したものに限定されない。図1に示される機能を実装できるものであれば、音声合成装置1はどのようなハードウェア構成を有していてもよい。例えば、音声合成装置1は、図1に示される機能要素の各々に対応する専用のハードウェア(回路)を有していてもよい。別の例で、図4で例示した音声合成装置1のハードウェア構成要素の一部は、いわゆる外付けの装置であってもよい。例えば、表示部106またはスピーカ109は外付けの装置であってもよい。   The hardware configuration of the speech synthesizer 1 is not limited to that described with reference to FIG. As long as the functions shown in FIG. 1 can be implemented, the speech synthesizer 1 may have any hardware configuration. For example, the speech synthesizer 1 may have dedicated hardware (circuit) corresponding to each of the functional elements shown in FIG. In another example, some of the hardware components of the speech synthesizer 1 illustrated in FIG. 4 may be a so-called external device. For example, the display unit 106 or the speaker 109 may be an external device.

文字列は平仮名に限定されない。アルファベットまたは発音記号等が、歌詞を示す文字列として用いられてもよい。
ピアノロール表示においてノート図形内に表示される文字は実施形態で説明したものに限定されない。歌詞の一部である平仮名に加え、対応する発音記号が併せて表示されてもよい。
楽譜データの構造は、図3で例示したものに限定されない。音符と歌詞との対応関係、および音符の属性を特定できるものであれば、どのような構造のデータが用いられてもよい。また、実施形態において歌詞(文字列)と楽譜データとが別のデータセットである例を説明したが、歌詞は楽譜データの一部であってもよい。
音声合成処理の詳細は、実施形態で説明したものに限定されない。音符と発音記号(文字)とが与えられたときに、その音符および発音記号に応じた音声を合成するものであれば、どのような処理が用いられてもよい。
確認音を合成および出力する機能は、ユーザの指示によりオン・オフが切り替えられてもよい。
The character string is not limited to hiragana. An alphabet or a phonetic symbol may be used as a character string indicating lyrics.
The characters displayed in the note graphic in the piano roll display are not limited to those described in the embodiment. In addition to hiragana, which is part of the lyrics, a corresponding phonetic symbol may be displayed together.
The structure of the score data is not limited to that illustrated in FIG. Data having any structure may be used as long as the correspondence between the notes and the lyrics and the attributes of the notes can be specified. In the embodiment, the example in which the lyrics (character string) and the score data are separate data sets has been described. However, the lyrics may be a part of the score data.
Details of the speech synthesis process are not limited to those described in the embodiment. As long as a note and a phonetic symbol (character) are given, any processing may be used as long as it synthesizes a sound corresponding to the note and the phonetic symbol.
The function of synthesizing and outputting the confirmation sound may be switched on / off according to a user instruction.

上述の実施形態で説明した音声合成プログラムは、磁気記録媒体(磁気テープ、磁気ディスク(HDD、FD(Flexible Disk))など)、光記録媒体(光ディスク(CD(Compact Disk)、DVD(Digital Versatile Disk))など)、光磁気記録媒体、半導体メモリ(フラッシュROMなど)などのコンピュータ読取り可能な記録媒体に記憶した状態で提供されてもよい。また、このプログラムは、インターネットのようなネットワーク経由でダウンロードされてもよい。   The speech synthesis program described in the above embodiment includes a magnetic recording medium (magnetic tape, magnetic disk (HDD, FD (Flexible Disk)), etc.), an optical recording medium (optical disk (CD (Compact Disk)), DVD (Digital Versatile Disk). )), Etc.), a magneto-optical recording medium, and a computer-readable recording medium such as a semiconductor memory (flash ROM or the like). The program may be downloaded via a network such as the Internet.

1…音声合成装置、11…記憶手段、12…表示制御手段、13…表示手段、14…取得手段、15…割り当て手段、16…音声合成手段、17…確認音出力手段、18…音声出力手段、101…CPU、102…ROM、103…RAM、104…記憶部、105…入力部、106…表示部、107…DAC、108…アンプ、109…スピーカ、110…筐体、111…タッチパネル、201…入力ボックス、202…ウインドウ、203…ガイド図形、204…ノート図形、205…ノート図形、206…ノート図形、207…ノート図形、208…ノート図形、209…再生ボタン、210…停止ボタン、211…ノート図形、303…個人別データベース、3030…素片データ群 DESCRIPTION OF SYMBOLS 1 ... Speech synthesizer, 11 ... Memory | storage means, 12 ... Display control means, 13 ... Display means, 14 ... Acquisition means, 15 ... Assignment means, 16 ... Speech synthesis means, 17 ... Confirmation sound output means, 18 ... Voice output means , 101 ... CPU, 102 ... ROM, 103 ... RAM, 104 ... storage unit, 105 ... input unit, 106 ... display unit, 107 ... DAC, 108 ... amplifier, 109 ... speaker, 110 ... housing, 111 ... touch panel, 201 ... Input box, 202 ... Window, 203 ... Guide figure, 204 ... Note figure, 205 ... Note figure, 206 ... Note figure, 207 ... Note figure, 208 ... Note figure, 209 ... Play button, 210 ... Stop button, 211 ... Notebook figure, 303 ... Individual database, 3030 ... Segment data group

Claims (6)

音高、音長、および文字を含む属性を各々が有する音符群に対応する画像を、音高−時間の二次元座標で表示手段に表示させる表示制御手段と、
前記音符群の編集指示が入力される入力手段と、
前記音高、前記音長、または前記文字を変化させるための前記編集指示に係る操作の完了を検出したときに、当該編集指示による編集の対象となった音符が前記属性として有する音高、音長、および文字に応じた確認音を音声出力手段から出力させる確認音出力手段と
を有する音声合成装置。
Display control means for displaying, on the display means, two-dimensional coordinates of pitch-time, an image corresponding to a note group each having attributes including pitch, pitch, and character;
An input means for inputting an instruction to edit the note group;
When the completion of the operation related to the editing instruction for changing the pitch, the sound length, or the character is detected , the pitch, the sound that is the object of editing by the editing instruction has as the attribute A speech synthesizer comprising: confirmation sound output means for outputting a confirmation sound corresponding to the length and character from the sound output means.
前記編集指示は、前記音符群のうち一の音符の音長を変更する指示であり、
前記確認音出力手段は、前記一の音符の音長が確定したときに、当該一の音符が前記属性として有する音高、音長、および文字に応じた確認音を前記音声出力手段から出力させる
ことを特徴とする請求項1に記載の音声合成装置。
The editing instruction is an instruction to change the length of one note of the note group,
The confirmation sound output means causes the sound output means to output a confirmation sound corresponding to a pitch, a sound length, and a character of the one note as the attributes when the note length of the one note is determined. The speech synthesizer according to claim 1.
前記編集指示は、前記音符群のうち一の音符の発音期間の終期を変更する指示であり、
前記確認音出力手段は、前記一の音符の発音期間の終期が確定したときに、当該一の音符が前記属性として有する音高、音長、および文字に応じた確認音を前記音声出力手段から出力させる
ことを特徴とする請求項1に記載の音声合成装置。
The editing instruction is an instruction to change the end of the pronunciation period of one note in the note group,
The confirmation sound output means sends a confirmation sound according to the pitch, length, and character of the one note as the attribute from the sound output means when the end of the pronunciation period of the one note is confirmed. The speech synthesizer according to claim 1, wherein the speech synthesizer is output.
前記編集指示は、前記音符群のうち一の音符の発音期間の始期を変更する指示であり、
前記確認音出力手段は、前記一の音符の発音期間の始期が確定したときに、当該一の音符が前記属性として有する音高、音長、および文字に応じた確認音を前記音声出力手段から出力させる
ことを特徴とする請求項1に記載の音声合成装置。
The editing instruction is an instruction to change the start period of the pronunciation period of one note in the note group,
The confirmation sound output means outputs a confirmation sound according to the pitch, length, and character of the one note as the attribute when the start of the sound generation period of the one note is determined from the sound output means. The speech synthesizer according to claim 1, wherein the speech synthesizer is output.
前記編集指示は、前記音符群のうち一の音符の音高を変更する指示であり、
前記確認音出力手段は、前記一の音符の音高が確定したときに、当該一の音符が前記属性として有する音高、音長、および文字に応じた確認音を前記音声出力手段から出力させる
ことを特徴とする請求項1に記載の音声合成装置。
The editing instruction is an instruction to change the pitch of one note of the note group,
The confirmation sound output means causes the sound output means to output a confirmation sound according to the pitch, length, and character of the one note as the attribute when the pitch of the one note is determined. The speech synthesizer according to claim 1.
音高、音長、および文字を含む属性を各々が有する音符群に対応する画像を、音高−時間の二次元座標で表示手段に表示させるステップと、
前記音符群の編集指示が入力されるステップと、
前記音高、前記音長、または前記文字を変化させるための前記編集指示に係る操作の完了を検出が完了したときに、当該編集指示による編集の対象となった音符が前記属性として有する音高、音長、および文字に応じた確認音を音声出力手段から出力させるステップと
を有する音声合成方法。
Displaying an image corresponding to a note group each having attributes including pitch, pitch, and character on the display means in two-dimensional pitch-time coordinates;
A step of inputting an instruction to edit the note group;
When the completion of the operation related to the editing instruction for changing the pitch, the length, or the character is detected , the pitch that the note subjected to editing by the editing instruction has as the attribute And a step of outputting a confirmation sound according to the sound length and the character from the sound output means.
JP2015215546A 2015-11-02 2015-11-02 Speech synthesis apparatus and speech synthesis method Active JP6149917B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015215546A JP6149917B2 (en) 2015-11-02 2015-11-02 Speech synthesis apparatus and speech synthesis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015215546A JP6149917B2 (en) 2015-11-02 2015-11-02 Speech synthesis apparatus and speech synthesis method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014004911A Division JP5935815B2 (en) 2014-01-15 2014-01-15 Speech synthesis apparatus and program

Publications (2)

Publication Number Publication Date
JP2016033674A JP2016033674A (en) 2016-03-10
JP6149917B2 true JP6149917B2 (en) 2017-06-21

Family

ID=55452565

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015215546A Active JP6149917B2 (en) 2015-11-02 2015-11-02 Speech synthesis apparatus and speech synthesis method

Country Status (1)

Country Link
JP (1) JP6149917B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7186476B1 (en) * 2022-07-29 2022-12-09 株式会社テクノスピーチ speech synthesizer

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005234718A (en) * 2004-02-17 2005-09-02 Yamaha Corp Trade method of voice segment data, providing device of voice segment data, charge amount management device, providing program of voice segment data and program of charge amount management

Also Published As

Publication number Publication date
JP2016033674A (en) 2016-03-10

Similar Documents

Publication Publication Date Title
US10354627B2 (en) Singing voice edit assistant method and singing voice edit assistant device
US9196234B2 (en) Intelligent keyboard interface for virtual musical instrument
US9928817B2 (en) User interfaces for virtual instruments
US9355634B2 (en) Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon
JP6236765B2 (en) Music data editing apparatus and music data editing method
US20120071994A1 (en) Altering sound output on a virtual music keyboard
JP5549521B2 (en) Speech synthesis apparatus and program
JP6003195B2 (en) Apparatus and program for performing singing synthesis
JP2015163982A (en) Voice synthesizer and program
JP5935815B2 (en) Speech synthesis apparatus and program
JP5589741B2 (en) Music editing apparatus and program
JP6149917B2 (en) Speech synthesis apparatus and speech synthesis method
JP5429840B2 (en) Speech synthesis apparatus and program
JP3807380B2 (en) Score data editing device, score data display device, and program
JP3843953B2 (en) Singing composition data input program and singing composition data input device
JP6950180B2 (en) Musical tone data processing method and musical tone data processing device
US8912420B2 (en) Enhancing music
KR101427666B1 (en) Method and device for providing music score editing service
JP4613817B2 (en) Fingering display device and program
JP7350555B2 (en) Score editing device and score editing program
WO2024122278A1 (en) Object placement method, sound reproduction method, object placement device, sound reproduction device, and performance device
US11694724B2 (en) Gesture-enabled interfaces, systems, methods, and applications for generating digital music compositions
KR102132905B1 (en) Terminal device and controlling method thereof
JP6583756B1 (en) Speech synthesis apparatus and speech synthesis method
JP7107720B2 (en) fingering display program

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170508

R151 Written notification of patent or utility model registration

Ref document number: 6149917

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350