JP2017111372A

JP2017111372A - 音声合成方法、音声合成制御方法、音声合成装置および音声合成制御装置

Info

Publication number: JP2017111372A
Application number: JP2015247189A
Authority: JP
Inventors: 克己石川; Katsumi Ishikawa; 治大島; Osamu Oshima; 英治赤澤; Eiji Akazawa; 尚希山本; Naoki Yamamoto; 祐輝村上; Yuki Murakami
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2015-12-18
Filing date: 2015-12-18
Publication date: 2017-06-22
Anticipated expiration: 2035-12-18
Also published as: US10204617B2; CN106898345A; JP6784022B2; US20170178622A1

Abstract

【課題】多様な発音内容の合成音声を簡便に生成する情報処理装置を提供する。
【解決手段】情報処理装置１００において、条件判定部２６は情報処理に関する所定の条件の成否を判定し、変更決定部２８は条件判定部での判断の結果、所定の条件が成立した場合に発音文字列を変更し、音声合成部３４は変更後の発音文字列を発音した合成音声の音響信号Ｖを生成する。
【選択図】図３

Description

本発明は、音声合成を制御する技術に関する。

歌詞等の任意の文字列を発音した音声を合成する音声合成技術が従来から提案されている。例えば特許文献１には、利用者が任意に指示した歌詞で楽曲を歌唱した歌唱音声を合成する技術が開示されている。

特開２０１３−２０５６３８

しかし、事前に用意された歌詞を発音した合成音声を生成するだけでは、受聴者が合成音声を単調と知覚する可能性がある。他方、相異なる多数の歌詞を事前に用意すれば、歌詞を相違させた多様な合成音声を生成可能であるが、多数の歌詞を用意するための負荷が大きいという問題がある。以上の事情を考慮して、本発明は、多様な発音内容の合成音声を簡便に生成することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る音声合成方法は、コンピュータが、情報処理に関する所定の条件の成否を判定し、所定の条件が成立した場合に発音文字列を変更し、変更後の発音文字列を発音した合成音声の音響信号を生成する。以上の方法では、情報処理に関する所定の条件が成立した場合に発音文字列が変更され、変更後の発音文字列を発音した合成音声の音響信号が生成される。したがって、多様な発音内容の合成音声を簡便に生成することが可能である。

本発明の好適な態様において、所定の条件が成立した場合に、変更後の発音文字列を発音した合成音声の音響信号を生成する一方、所定の条件が成立しない場合には、当該変更前の発音文字列を発音した合成音声の音響信号を生成する。以上の態様では、所定の条件が成立した場合に、発音文字列が変更され、当該変更後の発音文字列を発音した合成音声の音響信号が生成される一方、所定の条件が成立しない場合には、当該変更前の発音文字列を発音した合成音声の音響信号が生成される。したがって、初期的な発音文字列の変更の有無を相違させた多様な発音内容の合成音声を生成できるという利点がある。

本発明の好適な態様では、合成音声の音響信号の生成に並行して、所定の条件が成立した場合に発音文字列を変更する。以上の態様では、音響信号の生成に並行して発音文字列が動的に変更されるから、情報処理の結果を反映した多様な発音内容の合成音声を生成することが可能である。

本発明の好適な態様に係る音声合成方法は、コンピュータが、情報処理に関する所定の条件が成立した場合に決定される変更内容に応じて発音文字列を変更し、変更後の発音文字列を発音した合成音声の音響信号を生成する。また、本発明の好適な態様に係る音声合成制御方法は、コンピュータが、情報処理に関する所定の条件の成否を判定し、所定の条件が成立した場合に発音文字列の変更内容を決定し、発音文字列を変更するとともに当該変更後の発音文字列を発音した合成音声の音響信号を生成する合成処理部に対して変更内容を指示する。

第１実施形態における情報処理装置の構成図である。音声合成データの模式図である。情報処理装置の機能に着目した構成図である。第１実施形態における発音文字列の変更の説明図である。情報処理装置の全体的な動作のフローチャートである。第２実施形態における動作のフローチャートである。第３実施形態における発音文字列の変更の説明図である。第３実施形態の変形例における発音文字列の変更の説明図である。第４実施形態における発音文字列の変更の説明図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る情報処理装置１００の構成図である。第１実施形態の情報処理装置１００は、合成音声を表す音響信号Ｖを生成する信号処理装置であり、制御装置１０と記憶装置１２と表示装置１４と入力装置１６と放音装置１８とを具備するコンピュータシステムで実現される。例えば携帯電話機やスマートフォン等の可搬型の端末装置またはパーソナルコンピュータ等の可搬型または据置型の端末装置が、情報処理装置１００として利用され得る。第１実施形態の情報処理装置１００は、特定の楽曲（以下「対象楽曲」という）を歌唱した音声の音響信号Ｖを生成する。なお、情報処理装置１００は、単体の装置として実現されるほか、相互に別体で構成された複数の装置の集合（すなわちコンピュータシステム）でも実現される。

制御装置１０は、情報処理装置１００の各要素を統括的に制御するコンピュータであり、例えばＣＰＵ（Central Processing Unit）で実現される。表示装置１４（例えば液晶表示パネル）は、制御装置１０から指示された画像を表示する。入力装置１６は、利用者からの指示を受付けるユーザインタフェースであり、例えば利用者による操作を検知する複数の操作子や、表示装置１４の表示面に対する利用者の接触を検知するタッチパネルで構成される。放音装置１８（例えばスピーカやヘッドホン）は、情報処理装置１００が生成した音響信号Ｖに応じた合成音声を再生する。なお、音響信号Ｖをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略した。

記憶装置１２は、制御装置１０が実行するプログラムや制御装置１０が使用する各種のデータを記憶する。例えば半導体記録媒体または磁気記録媒体等の公知の記録媒体、あるいは、複数種の記録媒体の組合せが記憶装置１２として任意に採用され得る。なお、情報処理装置１００とは別体で記憶装置１２（例えばクラウドストレージ）を用意し、移動通信網やインターネット等の通信網を介して制御装置１０が記憶装置１２に対する読出／書込を実行することも可能である。すなわち、記憶装置１２は情報処理装置１００から省略され得る。

第１実施形態の記憶装置１２は、音声素片群Ｌと音声合成データＤとを記憶する。音声素片群Ｌは、特定の発声者の音声から事前に収録された複数の音声素片の集合（音声合成用ライブラリ）である。各音声素片は、例えば母音や子音等の音素単体、または、複数の音素を連結した音素連鎖（例えばダイフォンやトライフォン）である。音声素片は、例えば周波数領域のスペクトルまたは時間領域の波形を表すデータの形態で記憶装置１２に記憶される。

音声合成データＤは、音声合成の対象となる音声を指定する時系列データであり、図２に例示される通り、対象楽曲の相異なる音符に対応する複数の単位データＵの時系列である。任意の１個の音符の単位データＵは、当該音符の音高Ｎ（Ｎ1，Ｎ2，……）と発音期間Ｔ（Ｔ1，Ｔ2，……）と発音文字Ｑ（Ｑ1，Ｑ2，……）とを包含する。音高Ｎは、例えばＭＩＤＩ（Musical Instrument Digital Interface）規格に準拠したノート番号である。発音期間Ｔは、対象楽曲の各音符が発音される期間であり、例えば音符の始点と終点または継続長とで指定される。以上の説明から理解される通り、複数の単位データＵにわたる音高Ｎおよび発音期間Ｔの時系列は、対象楽曲を構成する音符列に相当する。

発音文字Ｑは、合成音声による発音内容（すなわち歌詞）を示す符号である。任意の１個の発音文字Ｑは、例えば書記素または音声記号で指定される。音声記号は、母音や子音等の音素を表象する記号であり、例えばＸ-ＳＡＭＰＡ（Extended Speech Assessment Methods Phonetic Alphabet）に準拠した形式で表記される。以下の説明では、Ｘ-ＳＡＭＰＡに準拠した音声記号が大括弧[ ]で表記されている。図２に例示される通り、複数の単位データＵにわたる発音文字Ｑの時系列（以下「発音文字列」という）Ｗは、対象楽曲の歌詞に相当する。

図１に例示される通り、第１実施形態の記憶装置１２はプログラムＰを記憶する。プログラムＰは、特定の目的の情報処理を実行するためのソフトウェアであり、例えばウェブサーバ等の配信装置から通信網を介して配信されて記憶装置１２に転送される。なお、半導体記録媒体や光ディスク等の可搬型の記録媒体に記憶されたプログラムＰを記憶装置１２に転送することも可能である。

第１実施形態のプログラムＰは、制御プログラムＰAと音声合成プログラムＰBとを包含する。制御プログラムＰAは、特定の目的のための情報処理を実現するプログラムモジュール（アプリケーションプログラム）であり、音声合成プログラムＰBは、制御プログラムＰAによる制御のもとで合成音声の音響信号Ｖを生成するためのプログラムモジュールである。音声合成プログラムＰBは、例えば制御プログラムＰAの開発用のＳＤＫ（Software Development Kit）として提供されるプラグインモジュールである。

図３は、情報処理装置１００の機能に着目した構成図である。図３に例示される通り、制御装置１０がプログラムＰを実行することで複数の機能（再生制御部２２，情報処理部２４，条件判定部２６，変更決定部２８，合成管理部３２，音声合成部３４）が実現される。具体的には、再生制御部２２と情報処理部２４と条件判定部２６と変更決定部２８とは、制御装置１０と制御プログラムＰAとの協働で実現され、合成管理部３２と音声合成部３４とは、制御装置１０と音声合成プログラムＰBとの協働で実現される。なお、制御装置１０の機能を複数の装置（すなわちコンピュータシステム）で実現した構成や、制御装置１０の一部の機能を専用の電子回路が分担する構成も採用され得る。

図３の合成管理部３２は、音声合成データＤの複数の単位データＵの各々を時系列に処理するシーケンサである。音声合成部３４は、合成管理部３２が順次に処理する各単位データＵを適用した音声合成処理で、音声合成データＤが指定する発音文字列Ｗに対応する合成音声の音響信号Ｖを生成する。第１実施形態の音声合成部３４は、記憶装置１２に記憶された音声素片群Ｌの音声素片を選択的に連結する素片接続型の音声合成処理で音響信号Ｖを生成する。具体的には、音声合成部３４は、合成管理部３２による単位データＵの処理毎に、当該単位データＵが指定する発音文字Ｑに対応した音声素片を音声素片群Ｌから選択し、当該単位データＵが指定する音高Ｐおよび発音期間Ｔに音声素片を調整して相互に連結することで音響信号Ｖを生成する。なお、音声合成部３４による音響信号Ｖの生成方法（音声合成処理）は以上の例示に限定されない。例えば、隠れマルコフモデル等の統計モデルを利用した音声合成により、発音文字列Ｗに対応する音響信号Ｖを生成することも可能である。

再生制御部２２は、音声合成部３４が生成した音響信号Ｖを放音装置１８に供給することで合成音声を放音装置１８に再生させる。なお、残響効果等の各種の音響効果を音響信号Ｖに付与する効果付与処理や、対象楽曲の伴奏音を合成音声に同期させる伴奏再生処理を再生制御部２２が実行することも可能である。

情報処理部２４は、各種の情報処理を実行する。第１実施形態の情報処理部２４は、例えば利用者が操作するキャラクタが仮想空間に登場するビデオゲームの情報処理（ゲーム処理）を実行するとともに処理結果に応じたゲーム画面を表示装置１４に表示させる。具体的には、情報処理部２４は、キャラクタの状態に関する各種のパラメータ（以下「状態パラメータ」という）を、入力装置１６に対する利用者からの指示に応じたゲームの進行とともに可変に制御する。状態パラメータは、例えば、キャラクタの能力の高低を示す成熟度，キャラクタの疲労の度合を示す疲労度，キャラクタの特定の感情の度合を示す感情値である。第１実施形態で再生される合成音声は、例えば仮想空間内のキャラクタが発音した歌声である。情報処理部２４は、ゲームの進行に応じた時点で音声合成部３４に対して音声合成を指示する。

条件判定部２６は、情報処理部２４が実行する情報処理に関する所定の条件（以下「特定条件」という）の成否を判定する。第１実施形態では、キャラクタの状態パラメータが所定の閾値を上回ることを特定条件として例示する。すなわち、条件判定部２６は、疲労度や感情値等の状態パラメータが閾値を下回る場合に特定条件が成立していないと判定し、状態パラメータが閾値を上回る場合に特定条件が成立したと判定する。なお、状態パラメータのうち成熟度が所定の閾値を下回ることを特定条件として採用することも可能である。条件判定部２６による特定条件の成否の判定は、例えば所定の時間毎に反復的に実行される。

変更決定部２８は、特定条件が成立したと条件判定部２６が判定した場合に、記憶装置１２に記憶された音声合成データＤが指定する発音文字列Ｗの変更指示Ｘを生成する。すなわち、特定条件の成立を契機として発音文字列Ｗの変更指示Ｘが発生する。変更指示Ｘは、合成管理部３２に対する発音文字列Ｗの変更の指示である。具体的には、第１実施形態の変更指示Ｘは、発音文字列Ｗのうち変更対象となる発音文字Ｑの位置（以下「変更位置」という）Ｘ1と、発音文字Ｑの変更内容Ｘ2（例えば変更後の発音文字Ｑ）とを指定する。

第１実施形態の変更決定部２８は、記憶装置１２に記憶された変更規則データＣを参照して変更位置Ｘ1および変更内容Ｘ2を決定する。変更規則データＣは、音声合成データＤにおける発音文字列Ｗの変更の規則を規定するデータである。図４は、変更規則データＣが指定する発音文字列Ｗの変更の規則を例示する説明図である。第１実施形態の変更規則データＣは、変更後の発音文字列Ｗの合成音声が変更前の発音文字列Ｗの発音のミス（すなわち歌詞間違い）であると当該音声の受聴者に知覚されるように、発音文字列Ｗの変更の規則を規定する。具体的には、第１実施形態の変更規則データＣは、子音と母音とで構成される発音文字Ｑを、当該母音のみで構成される発音文字Ｑに変更することを規定する。例えば、図４に例示される通り、子音「ｓ」と母音「ａ」とで構成される「さ／[sa]」の発音文字Ｑを、当該母音「ａ」のみを含む「あ／[a]」の発音文字Ｑに変更することが、変更規則データＣでは規定される。以上の規則のもとでは、例えば、「さんぷる／[sa][m][pM][4M]」という発音文字列Ｗは、第１番目の「さ／[sa]」という発音文字Ｑの子音を省略した「あんぷる／[a][m][pM][4M]」という発音文字列Ｗに変更される。図３の変更決定部２８は、変更規則データＣが表す規則のもとで変更対象となる発音文字Ｑを発音文字列Ｗから検索し、当該発音文字Ｑの位置を変更位置Ｘ1として決定するとともに、変更規則データＣが指定する変更の規則に応じた変更内容Ｘ2を決定する。

変更決定部２８が生成した変更指示Ｘは前述の合成管理部３２に供給される。すなわち、変更決定部２８は合成管理部３２に変更指示Ｘを送信し、合成管理部３２は変更決定部２８から変更指示Ｘを受信する。合成管理部３２は、記憶装置１２に記憶された音声合成データＤの発音文字列Ｗを、変更指示Ｘに応じて変更する。具体的には、変更指示Ｘが指定する変更位置Ｘ1にある発音文字Ｑを発音文字列Ｗから検索し、変更指示Ｘで指定された変更内容Ｘ2で当該発音文字Ｑを変更する。例えば、前述の図４の例示の通り、「さんぷる／[sa][m][pM][4M]」という発音文字列Ｗは、変更位置Ｘ1が指定する「さ／[sa]」の発音文字Ｑを、変更内容Ｘ2で指定された「あ／[a]」の発音文字Ｑに置換した「あんぷる／[a][m][pM][4M]」という発音文字列Ｗに変更される。

音声合成部３４は、発音文字列Ｗを変更指示Ｘに応じて変更した音声合成データＤが示す合成音声の音響信号Ｖを生成する。前述の通り、変更指示Ｘは、特定条件の成立を契機として生成される。したがって、第１実施形態の音声合成部３４は、特定条件の不成立時には、発音文字列Ｗが変更されていない初期的な音声合成データＤに応じた音響信号Ｖを生成する一方、特定条件の成立時には、変更指示Ｘに応じて発音文字列Ｗを変更した音声合成データＤに対応する音響信号Ｖを生成する。すなわち、合成音声の受聴者は、特定条件が成立した場合に、対象楽曲の歌唱をキャラクタが間違えたように知覚する。以上の説明から理解される通り、第１実施形態の合成管理部３２および音声合成部３４は、発音文字列Ｗを変更するとともに当該変更後の発音文字列Ｗを発音した合成音声の音響信号Ｖを生成する要素（合成処理部）として機能する。

図５は、第１実施形態の情報処理装置１００が音響信号Ｖを生成する処理のフローチャートである。例えば入力装置１６に対する利用者からの指示や情報処理部２４からの指示を契機として図５の処理が開始される。処理を開始すると、合成管理部３２は、音声合成データＤを記憶装置１２に読込むとともに、図３に例示される通り、当該音声合成データＤの複製（以下「複製データ」という）ＤCを記憶装置１２に格納する（ＳA1）。

情報処理部２４は、図５の処理に並行して、キャラクタの状態パラメータの制御を含むビデオゲームの情報処理を実行する。条件判定部２６は、情報処理部２４による情報処理に関する特定条件の成否を判定する（ＳA2）。例えば、条件判定部２６は、キャラクタの状態パラメータが閾値を上回るか否かを判定する。

特定条件が成立したと条件判定部２６が判定した場合（ＳA2：YES）、変更決定部２８は、発音文字列Ｗの変更指示Ｘを生成する（ＳA3）。具体的には、変更決定部２８は、変更規則データＣが指定する規則に適合する発音文字Ｑを複製データＤCの発音文字列Ｗから検索し、当該発音文字に対応する変更位置Ｘ1と変更内容Ｘ2とを含む変更指示Ｘを生成する。合成管理部３２は、記憶装置１２に記憶された音声合成データＤの発音文字列Ｗを、変更決定部２８が生成した変更指示Ｘに応じて変更する（ＳA4）。他方、特定条件が成立しないと条件判定部２６が判定した場合（ＳA2：NO）、変更決定部２８による変更指示Ｘの生成（ＳA3）と合成管理部３２による発音文字列Ｗの変更（ＳA4）とは実行されない。すなわち、特定条件の成立を契機として音声合成データＤの発音文字列Ｗが変更される。第１実施形態では、特定条件の成立毎に実時間的に発音文字列Ｗが変更される。

情報処理部２４は、対象楽曲の音声合成データＤを適用した音声合成の開始（すなわち対象楽曲の再生開始）を、例えばゲームの進行に応じた時点で音声合成部３４に指示する。音声合成部３４は、情報処理部２４から音声合成の開始が指示されたか否かを判定する（ＳA5）。音声合成が指示されていない場合（ＳA5：NO）、処理はステップＳA2に移行し、特定条件の成否の判定（ＳA2）と判定結果に応じた発音文字列Ｗの変更（ＳA3，ＳA4）とが反復される。すなわち、特定条件の成立毎に発音文字列Ｗが累積的に変更される。

他方、音声合成が指示された場合（ＳA5：YES）、音声合成部３４は、現時点の音声合成データＤを適用した音声合成処理で音響信号Ｖを生成する（ＳA6）。再生制御部２２は、音声合成部３４が生成した音響信号Ｖの合成音声を放音装置１８に再生させる（ＳA7）。以上の説明から理解される通り、特定条件が成立していない段階では、初期的に用意された発音文字列Ｗ（例えば対象楽曲の正規の歌詞）を発音した合成音声が再生され、特定条件の成立を契機として、変更規則データＣが指定する規則で変更された発音文字列Ｗの合成音声（例えば対象楽曲の歌詞を間違えた歌声）が再生される。

以上に説明した通り、第１実施形態では、特定条件が成立した場合に発音文字列Ｗが部分的に変更され、変更後の発音文字列Ｗを発音した合成音声の音響信号Ｖが生成される。したがって、多様な発音内容の合成音声を簡便に生成することが可能である。また、第１実施形態では、特定条件が成立した場合に、発音文字列Ｗが変更され、当該変更後の発音文字列Ｗを発音した合成音声の音響信号Ｖが生成される一方、所定の条件が成立しない場合には、当該変更前の発音文字列Ｗを発音した合成音声の音響信号Ｖが生成される。したがって、初期的な発音文字列Ｗに対する変更の有無を相違させた多様な発音内容の合成音声を生成できるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

図６は、第２実施形態における情報処理装置１００の動作のフローチャートである。図６に例示される通り、第１実施形態と同様に音声合成データＤの読込（ＳB1）が実行されると、第２実施形態の音声合成部３４は、当該音声合成データＤを適用した音声合成処理により音響信号Ｖの生成を開始する（ＳB2）。再生制御部２２は、音声合成部３４が生成した音響信号Ｖを放音装置１８に供給することで合成音声を再生させる（ＳB3）。

第２実施形態では、音声合成部３４による音響信号Ｖの生成（ＳB2）と再生制御部２２による合成音声の再生（ＳB3）とに並行して実時間的に、特定条件の成立を契機とした発音文字列Ｗの変更（ＳB4−ＳB6）が実行される。具体的には、条件判定部２６は、情報処理部２４による情報処理に関する特定条件の成否を判定する（ＳB4）。特定条件が成立したと条件判定部２６が判定した場合（ＳB4：YES）、変更決定部２８による変更指示Ｘの生成（ＳB5）と合成管理部３２による発音文字列Ｗの変更（ＳB6）とが第１実施形態と同様に実行される。他方、特定条件が成立しないと条件判定部２６が判定した場合（ＳB4：NO）、変更指示Ｘの生成（ＳB5）および発音文字列Ｗの変更（ＳB6）は実行されない。

合成管理部３２は、合成音声の再生を終了するか否かを判定する（ＳB7）。例えば、対象楽曲の全区間にわたる合成音声の再生が完了した場合、合成音声の再生の終了が情報処理部２４から指示された場合、または、入力装置１６に対する利用者からの操作で合成音声の再生の終了が指示された場合、合成音声の再生は終了する（ＳB7：YES）。他方、合成音声の再生を終了しない場合（ＳB7：NO）には、処理がステップＳB2に移行する。したがって、音響信号Ｖの生成（ＳB2）と合成音声の再生（ＳB3）とが継続されるとともに、特定条件の成立を契機とした発音文字列Ｗの変更（ＳB4−ＳB6）が実行される。すなわち、発音文字列Ｗを発音した合成音声の再生の途中で、特定条件の成立を契機として発音文字列Ｗが動的に変更される。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、音響信号Ｖの生成（ＳB2）に並行して発音文字列Ｗが動的に変更されるから、情報処理部２４による情報処理の結果（例えばゲームの進行の度合）を反映した多様な発音内容の合成音声を生成できるという利点がある。例えば、仮想空間内のキャラクタの状態パラメータに応じて発音文字列Ｗが動的に変更されるから、ゲームの興趣性を向上させることが可能である。

＜第３実施形態＞
図７は、第３実施形態における発音文字列Ｗの変更の説明図である。図７に例示される通り、第３実施形態では、特定条件が成立した場合に、音声合成データＤの発音文字列Ｗのうち特定の文字列（以下「対象文字列」という）を、置換候補として事前に選定された他の文字列（以下「置換文字列」という）に変更する。具体的には、第３実施形態の変更規則データＣでは、図７に例示される通り、発音文字列Ｗ内の「つうじょう／[tsM][M][dZo][M]」という対象文字列に対して「とくべつ／[to][kM][be][tsM]」という置換文字列が登録される。

第３実施形態の変更決定部２８は、特定条件が成立した場合（ＳA2：YES）に、変更規則データＣに登録された対象文字列を複製データＤCの発音文字列Ｗから検索する。そして、変更決定部２８は、発音文字列Ｗ内の対象文字列の変更位置Ｘ1と、当該対象文字列に対応する置換文字列を指定する変更内容Ｘ2とを含む変更指示Ｘを生成する（ＳA3）。合成管理部３２は、音声合成データＤの発音文字列Ｗのうち変更指示Ｘの変更位置Ｘ1で指定される対象文字列を、変更内容Ｘ2で指定される置換文字列に変更する（ＳA4）。変更後の発音文字列Ｗに対応する音響信号Ｖを生成する処理（ＳA5，ＳA6）は第１実施形態と同様である。第３実施形態でも第１実施形態と同様の効果が実現される。

なお、図７では、変更規則データＣにおいて対象文字列と置換文字列とを１対１に対応させた構成を例示したが、１個の対象文字列に対して複数の置換文字列を登録することも可能である。例えば、図８に例示された変更規則データＣでは、「りんご／[4'i][N][go]」という対象文字列について、当該対象文字列と同種の事象（果物）である「みかん／[m'i][ka][N\]」および「ばなな／[ba][na][na]」という複数の置換文字列が登録される。変更決定部２８は、特定条件が成立した場合に、発音文字列Ｗ内の対象文字列の変更位置Ｘ1と、当該対象文字列に対応する置換文字列を指定する変更内容Ｘ2とを含む変更指示Ｘを生成する（ＳA3）。１個の対象文字列に対応する複数の置換文字列の何れかを変更内容Ｘ2として選択する方法は任意であるが、例えば複数の置換文字列から１個の置換文字列をランダムに選択する構成が例示される。

＜第４実施形態＞
図９は、第４実施形態における発音文字列Ｗの変更の説明図である。図９に例示される通り、第４実施形態では、特定条件が成立した場合に、音声合成データＤの発音文字列Ｗのうち特定の対象文字列を、当該発音文字列Ｗに含まれる他の文字列（置換文字列）に置換する。具体的には、対象楽曲が複数節（１番／２番）で構成される場合を想定すると、発音文字列Ｗのうち対象楽曲の第１節の対象文字列が、当該対象楽曲の第２節の置換文字列に変更される。例えば、対象楽曲の第１節に含まれる「いちばん／[i][tSi][ba][N\]」という対象文字列は、当該対象楽曲の第２節に含まれる「にーばん／[Ji][-][ba][N\]」という置換文字列に変更される。

第４実施形態の変更決定部２８は、特定条件が成立した場合に、発音文字列Ｗの対象文字列の変更位置Ｘ1と、当該発音文字列Ｗ内で対象文字列に対応する置換文字列を指定する変更内容Ｘ2とを含む変更指示Ｘを生成する（ＳA3）。合成管理部３２は、音声合成データＤの発音文字列Ｗのうち変更位置Ｘ1で指定される対象文字列を、変更内容Ｘ2で指定される置換文字列に変更する（ＳA4）。変更後の発音文字列Ｗを発音した合成音声の音響信号Ｖを生成する処理（ＳA5，ＳA6）は第１実施形態と同様である。第４実施形態でも第１実施形態と同様の効果が実現される。

なお、第３実施形態および第４実施形態の説明では、第１実施形態を基礎とした構成を例示したが、発音文字列Ｗの対象文字列を置換文字列に変更する第３実施形態または第４実施形態の構成は、音声合成部３４による音響信号Ｖの生成に並行して発音文字列Ｗを動的に変更する第２実施形態にも同様に適用され得る。

＜変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）前述の各形態では、キャラクタの状態パラメータが閾値を上回ることを特定条件として例示したが、特定条件の具体的な内容は以上の例示に限定されない。具体的には、ビデオゲームで利用者が獲得した得点が所定の閾値を上回る（または下回る）ことが特定条件として採用され得る。例えば、閾値を上回る得点の獲得を契機として、第３実施形態の例示のように発音文字列Ｗの対象文字列が特定の置換文字列に変更される。また、ビデオゲームの進行に応じて各種のイベントが発生する状況を想定すると、特定のイベントが発生することを特定条件として発音文字列Ｗを変更することも可能である。

入力装置１６に対して利用者が所定の操作を付与することを特定条件として採用することも可能である。具体的には、入力装置１６に対する操作で利用者が複数の画像の何れかを選択したことを契機として、第３実施形態の例示のように発音文字列Ｗの対象文字列が特定の置換文字列に変更される。例えば、図８に例示した状況を想定すると、利用者が複数の候補からみかんの画像を選択した場合には、発音文字列Ｗの「りんご／[4'i][N][go]」という対象文字列が、当該画像に対応する「みかん／[m'i][ka][N\]」という置換文字列に変更される。また、利用者がバナナの画像を選択した場合には、発音文字列Ｗの「りんご／[4'i][N][go]」という対象文字列が、当該画像に対応する「ばなな／[ba][na][na]」という置換文字列に変更される。

所定の閾値を上回る強度の音響を収音装置（例えばマイクロホン）が収音したこと、あるいは、接触センサ等の各種のセンサが特定の状態を検出したこと特定条件として、当該特定条件の成立を契機として発音文字列Ｗを変更することも可能である。以上の説明から理解される通り、前述の各形態における条件判定部２６（ステップＳA2）は、情報処理部２４による情報処理に関する特定条件の成否を判定する要素として包括的に表現され、特定条件の具体的な内容は任意である。もっとも、好適な態様では、発音文字列Ｗの変更（すなわち編集）自体が例えば利用者から指示されたことは、特定条件から除外され得る。例えば、具体的な変更位置や変更内容が利用者から直接的に指示されたことは、特定条件には包含されない。すなわち、発音文字列Ｗの変更指示の有無とは異なる特定条件の成否を条件判定部２６が判定する構成が好適である。

（２）前述の各形態では、発音文字列Ｗのうち変更対象となる部分（発音文字Ｑや対象文字列）を変更規則データＣに応じて決定する場合を例示したが、発音文字列Ｗ内の変更対象を選定する方法は以上の例示に限定されない。例えば、発音文字列Ｗのうち入力装置１６に対する操作で利用者が指定した部分を変更対象として選定することも可能である。

（３）第３実施形態では、発音文字列Ｗの対象文字列を置換する置換文字列が事前に選定された構成を例示し、第４実施形態では、発音文字列Ｗに含まれる置換文字列で対象文字列を置換する構成を例示したが、発音文字列Ｗの置換に使用される置換文字列は、以上の例示に限定されない。例えば、入力装置１６に対する操作で利用者が指定した文字列や、収音装置が収音した発話音声に対する音声認識で特定された文字列を置換文字列として、発音文字列Ｗの対象文字列を置換することも可能である。

（４）前述の各形態では、特定条件の成否のみを判定したが、情報処理に関する各種のパラメータ（例えば状態パラメータ）の数値に応じて発音文字列Ｗを変更することも可能である。例えば、状態パラメータの数値が大きいほど発音文字列Ｗ内の変更対象の文字数を増加させる構成が想定される。

（５）発音文字列Ｗの対象文字列と置換文字列とで文字数が相違する場合には、対象楽曲の音符数の余剰や不足が発生し得る。例えば対象文字列の文字数が置換文字列を上回る場合には、発音文字列Ｗの変更により文字数が減少するから、発音文字Ｑが割当てられない余剰の音符が発生し得る。以上の状況では、余剰の音符に対応する単位データＵを合成管理部３２が音声合成データＤから削除する構成が好適である。他方、対象文字列の文字数が置換文字列を下回る場合には、発音文字列Ｗの変更により文字数が増加するから、発音文字Ｑに対する音符の不足（発音文字Ｑの余剰）が発生し得る。以上の状況では、余剰の発音文字Ｑが割当てられる音符の単位データＵを合成管理部３２が音声合成データＤに追加する構成や、単位データＵが指定する既定の音符を合成管理部３２が分割して余剰の発音文字Ｑを割当てる構成が好適である。

（６）相異なる規則を規定する複数の変更規則データＣを選択的に適用して変更指示Ｘ（変更位置Ｘ1，変更内容Ｘ2）を生成することも可能である。具体的には、前述の各形態での例示のように発音文字列Ｗの変更の規則を相違させた複数の変更規則データＣが記憶装置１２に事前に格納され、変更決定部２８は、複数の変更規則データＣのうち例えば利用者が選択した変更規則データＣを利用して変更指示Ｘを生成する。なお、変更規則データＣの選択方法は以上の例示に限定されない。例えば、情報処理部２４が実行する情報処理の内容や進捗（例えばゲームの進行の度合）に応じて複数の変更規則データＣの何れかを自動的に選択する構成が例示される。また、記憶装置１２に記憶された複数の制御プログラムＰAを選択的に実行し得る構成では、制御装置１０が実際に実行する制御プログラムＰAに応じて変更規則データＣを自動的に選択することも可能である。

（７）前述の各形態では、制御プログラムＰAと音声合成プログラムＰBとを含むプログラムＰを例示したが、制御プログラムＰAと音声合成プログラムＰBとは相互に独立に流通し得る。前述の各形態で例示した情報処理装置１００は、制御プログラムＰAとコンピュータとの協働で実現される装置（音声合成制御装置）と、音声合成プログラムＰBとコンピュータとの協働で実現される装置（音声合成装置）とを併合した装置として観念され得る。

（８）前述の各形態では、対象楽曲の歌唱音声を表す音響信号Ｖの生成を例示したが、音響信号Ｖが表す合成音声が歌唱音声である必要はない。例えば、発話音声等の任意の合成音声の生成に前述の各形態を適用することが可能である。すなわち、音声合成データＤの音高Ｎおよび発音期間Ｔは省略され得る。

（９）前述の各形態で例示した情報処理装置１００は、前述の通り、制御装置１０とプログラムＰとの協働で実現され得る。各形態の説明から理解される通り、プログラムＰは、コンピュータ（例えば制御装置１０）を、情報処理に関する特定条件の成否を判定する条件判定部２６、特定条件が成立した場合に発音文字列Ｗを変更する合成管理部３２、および、変更後の発音文字列Ｗを発音した合成音声の音響信号Ｖを生成する音声合成部３４として機能させる。以上に例示したプログラムＰ（または制御プログラムＰAや音声合成プログラムＰB）は、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、通信網を介した配信の形態でプログラムをコンピュータに配信することも可能である。

１００……情報処理装置、１０……制御装置、１２……記憶装置、１４……表示装置、１６……入力装置、１８……放音装置、２２……再生制御部、２４……情報処理部、２６……条件判定部、２８……変更決定部、３２……合成管理部、３４……音声合成部。

Claims

コンピュータが、
情報処理に関する所定の条件の成否を判定し、
前記所定の条件が成立した場合に発音文字列を変更し、
前記変更後の発音文字列を発音した合成音声の音響信号を生成する
音声合成方法。
前記所定の条件が成立した場合に、前記変更後の発音文字列を発音した合成音声の音響信号を生成する一方、前記所定の条件が成立しない場合には、当該変更前の発音文字列を発音した合成音声の音響信号を生成する
請求項１の音声合成方法。
前記合成音声の音響信号の生成に並行して、前記所定の条件が成立した場合に発音文字列を変更する
請求項１または請求項２の音声合成方法。
コンピュータが、
情報処理に関する所定の条件が成立した場合に決定される変更内容に応じて発音文字列を変更し、
前記変更後の発音文字列を発音した合成音声の音響信号を生成する
音声合成方法。
コンピュータが、
情報処理に関する所定の条件の成否を判定し、
前記所定の条件が成立した場合に発音文字列の変更内容を決定し、
前記発音文字列を変更するとともに当該変更後の発音文字列を発音した合成音声の音響信号を生成する合成処理部に対して前記変更内容を指示する
音声合成制御方法。
情報処理に関する所定の条件が成立した場合に決定される変更内容に応じて発音文字列を変更する合成管理部と、
前記変更後の発音文字列を発音した合成音声の音響信号を生成する音声合成部と
を具備する音声合成装置。
情報処理に関する所定の条件の成否を判定する条件判定部と、
前記所定の条件が成立した場合に発音文字列の変更内容を決定し、前記発音文字列を変更するとともに当該変更後の発音文字列を発音した合成音声の音響信号を生成する合成処理部に対して前記変更内容を指示する変更決定部と
を具備する音声合成制御装置。