JPWO2009107441A1

JPWO2009107441A1 - 音声合成装置、テキスト生成装置およびその方法並びにプログラム

Info

Publication number: JPWO2009107441A1
Application number: JP2010500617A
Authority: JP
Inventors: 康行三井; 玲史近藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-02-27
Filing date: 2009-01-28
Publication date: 2011-06-30
Also published as: WO2009107441A1

Abstract

入力されたテキストの内容を、聴取者が理解しやすい形で発声させることを可能とする。入力されたテキストから該テキストが示す文章の内容を伝達する合成音声を生成するための音声合成装置であって、入力テキストが示す文章に含まれる１文を、意味内容を変更せずに複数に分割し、かつ分割した各々を正しい文として完結させるための規則である編集規則を記憶する編集規則記憶手段と、前記編集規則に従いつつ、生成される合成音声の一区切りが与えられた時間長または文字数の条件を満たすように、前記入力テキストが示す文章に含まれる１文を分割し、分割後の各文末を編集する文章編集手段とを備えたことを特徴とする。

Description

本発明は、入力されたテキストから該テキストが示す文章の内容を伝達する合成音声を生成するための音声合成装置、テキスト生成装置およびその方法並びにプログラムに関する。

テキスト音声合成システムを利用して、テキストから音声ガイダンスを生成し、様々な機器を利用するユーザを補助するシステムは、多く実用化されている。このような用途の場合、テキストによっては、非常に聞き取りにくい音声が合成される可能性がある。

例えば、新聞に記載されているニュースとテレビやラジオ等で読み上げられるニュースとでは、用いられる表現が大きく異なっている。新聞では限られた紙面を有効に使えるように熟語等が多用されており読み上げには適さない表現となっている。一方、テレビやラジオ等では音声で聞き取りやすいような表現が使われている。また、同じニュースでも子供向けと大人向けでは表現が異なる。従って、出力される合成音声を聴取者にとってより内容を理解しやすい音声とするためには、テキストを変更する技術が必要である。

例えば、特許文献１には、意味が難解である部分や、発音が聞き取りにくい部分、同音異義語が存在する部分を特定し、平易な文に置換したり、音響パラメータを変化させる音声合成装置が記載されている。

また、例えば、特許文献２には、記述文形式テキストを入力し、言語解析を制御しながら行い口語文形式テキストを自動生成する口語文形式テキスト作成装置が記載されている。なお、特許文献２には、さらに自動生成した口語文形式テキストを表示し、この表示に基づいてユーザからの修正等の指示を受け、修正を行う旨の記載もある。

また、例えば、特許文献３には、任意のテキストを音声出力する際に、規定の長さ以内のカンマまたは関係詞または前置詞をキーワードとして分断し、分断された一区切り毎に合成音声出力を行う電子機器が記載されている。

特開平１０−１７１４８５号公報特開２００２−０２３７８６号公報特開２００６−２０９０３１号公報

しかし、特許文献１や特許文献２に記載されている方法では、音声として聞くことが容易であるかを考慮してテキストが用意されていないと、非常に冗長な文が生成されてしまうという問題がある。人間の短期記憶能力には限界があり、特に老人や子供、または合成音声に慣れていない聴取者や作業をしながら聞く聴取者にとっては、１文が長くなると最初の情報を忘れてしまう可能性が高い。

なお、特許文献３に記載されている方法を適用すれば、合成音声の冗長化は防げるかもしれない。しかし、合成音声の冗長化を防止しただけでは、分割した文が不自然な表現となる可能性が高く、結果として聴取者側での文脈の理解を妨げることになる場合もある。

そこで、本発明は、入力されたテキストの内容を、聴取者が理解しやすい形で発声させることが可能な音声合成装置、テキスト生成装置およびそれに用いる方法並びにプログラムを提供することを目的とする。

本発明による音声合成装置は、入力されたテキストから該テキストが示す文章の内容を伝達する合成音声を生成するための音声合成装置であって、入力テキストが示す文章に含まれる１文を、意味内容を変更せずに複数に分割し、かつ分割した各々を正しい文として完結させるための規則である編集規則を記憶する編集規則記憶手段と、前記編集規則に従いつつ、生成される合成音声の一区切りが与えられた時間長または文字数の条件を満たすように、前記入力テキストが示す文章に含まれる１文を分割し、分割後の各文末を編集する文章編集手段とを備えたことを特徴とする。

また、本発明によるテキスト生成装置は、入力されたテキストから該テキストが示す文章の内容を伝達する合成音声を生成するためのテキスト生成装置であって、入力テキストが示す文章に含まれる１文を、意味内容を変更せずに複数に分割し、かつ分割した各々を正しい文として完結させるための規則である編集規則を記憶する編集規則記憶手段と、前記編集規則に従いつつ、生成される合成音声の一区切りが与えられた時間長または文字数の条件を満たすように、前記入力テキストが示す文章に含まれる１文を分割し、かつ分割後の各文末を編集する文章編集手段とを備えたことを特徴とする。

また、本発明による合成音声生成用文章編集方法は、入力されたテキストから該テキストが示す文章の内容を伝達する合成音声を生成するための合成音声生成用文章編集方法であって、入力テキストが示す文章に含まれる１文を、意味内容を変更せずに複数に分割し、かつ分割した各々を正しい文として完結させるための規則である編集規則に従いつつ、生成される合成音声の一区切りが与えられた時間長または文字数の条件を満たすように、前記入力テキストが示す文章に含まれる１文を分割し、分割後の各文末を編集することを特徴とする。

また、本発明による合成音声生成用文章編集プログラムは、入力されたテキストから該テキストが示す文章の内容を伝達する合成音声を生成するための合成音声生成用文章編集プログラムであって、コンピュータに、入力テキストが示す文章に含まれる１文を、意味内容を変更せずに複数に分割し、かつ分割した各々を正しい文として完結させるための規則である編集規則に従いつつ、生成される合成音声の一区切りが与えられた時間長または文字数の条件を満たすように、前記入力テキストが示す文章に含まれる１文を分割し、分割後の各文末を編集する文章編集処理を実行させることを特徴とする。

本発明によれば、入力されたテキストの内容を、聴取者が理解しやすい形で発声させることが可能となる。

本発明による音声合成装置の構成例を示すブロック図である。本発明による音声合成装置の他の構成例を示すブロック図である。第１の実施形態による音声合成装置の構成例を示すブロック図である。第１の実施形態の音声合成装置の動作例を示すフローチャートである。言語解析部１０１の一構成例を示すブロック図である。言語解析結果の一例を示す説明図である。言語解析結果編集部１０３および編集規則記憶部１１３の一構成例を示すブロック図である。文Ａの分割例と時間長との関係を示す説明図である。文Ａの他の分割例を示す説明図である。第２の実施形態による音声合成装置の構成例を示すブロック図である。第３の実施形態による音声合成装置の構成例を示すブロック図である。第３の実施形態の音声合成装置の動作例を示すフローチャートである。係り受け構造の推定例を示す説明図である。第３の実施形態による文Ａの分割例を示す説明図である。第４の実施形態による音声合成装置の構成例を示すブロック図である。第５の実施形態によるテキスト生成装置の構成例を示すブロック図である。第５の実施形態のテキスト生成装置の動作例を示すフローチャートである。

符号の説明

１１編集規則記憶手段
１２文章編集手段
１３言語解析手段
１４係り受け解析手段
１５音響特徴量推定手段
１６条件入力手段
１７時間長推定手段
１００音声合成装置
１０１言語解析部
１０１１解析処理部
１０１２形態素解析モデル
１０１３辞書記憶部
１０２時間長推定部
１０３言語解析結果編集部
１０３１同義語変換部
１０３２文分割部
１０３３文末変換部
１０４音声合成部
１０５音響特徴量推定部
１０６係り受け解析部
１０７文字数計数部
１１１合成音声用データベース（合成音声用ＤＢ）
１１２時間長条件記憶部
１１３編集規則記憶部
１１３１同義語辞書記憶部
１１３２分割規則記憶部
１１３３文末表現規則記憶部
１１４文字数条件記憶部
２００テキスト生成装置
２０１テキスト出力部

以下、本発明の実施形態を図面を参照して説明する。図１は、本発明による音声合成装置の構成例を示すブロック図である。図１に示す音声合成装置は、入力されたテキストから該テキストが示す文章の内容を伝達する合成音声を生成するための音声合成装置であって、編集規則記憶手段１１と、文章編集手段１２とを備える。

編集規則記憶手段１１は、入力テキストが示す文章に含まれる一文を、意味内容を変更せずに複数に分割し、かつ分割した各々を正しい文として完結させるための規則である編集規則を記憶する。

例えば、編集規則記憶手段１１には、分割箇所となりうる箇所を規定した分割規則と、前記分割規則に従って分割した際の分割後の各文末の表現を変換するための文末表現変換規則とを含む編集規則が記憶される。また、例えば、編集規則記憶手段１１は、さらに同義語辞書を記憶するようにしてもよい。

文章編集手段１２は、前記編集規則に従いつつ、生成される合成音声の一区切りが与えられた時間長または文字数の条件を満たすように、前記入力テキストが示す文章に含まれる１文を分割し、分割後の各文末を編集する。なお、本発明において、"文章"という表現を、文字を連ねて表現されるものの総称として用いている。従って、必ずしも複数の文からなる構成に限定されるものではない。

また、文章編集手段１２は、当該文章編集手段１２による編集後のテキストから生成される合成音声の時間長または文字数が、各文間での差が最も小さくなるように同じとなるように分割してもよい。なお、同義語辞書が記憶されている場合には、該同義語辞書との照合により、入力テキストが示す文章に用いられている表現をより簡便な他の表現に変換する際に、変換後の合成音声の時間長または文字数に基づいて、変換候補を絞り込むことも可能である。また、編集後のテキストから生成される合成音声の時間長が、与えられた時間長の条件を満たさない場合には、合成音声を生成する際に使用するパラメータであって合成音声の速度に関わるパラメータを指定してもよい。

また、本発明による音声合成装置は、図２に示すような構成を取ることも可能である。例えば、音声合成装置は、入力テキストに対し言語解析を行う言語解析手段１３を備えていてもよい。そのような場合には、文章編集手段１２は、前記言語解析手段１３による解析結果として得られる入力テキストの文章構造（例えば、入力テキストが示す文章における形態素の構造）と、入力テキストから予測される合成音声の時間長または計測される文字数とを元に、前記編集規則に従いつつ、与えられた時間長または文字数の条件に合致するように、前記入力テキストが示す文章に含まれる１文を分割し、かつ分割後の各文末を編集してもよい。なお、この場合の編集規則には、前記言語解析手段１３の解析結果として得られる文章構造の要素を示す情報（例えば、品詞情報等）を用いて、分割箇所となりうる箇所を規定した分割規則と、分割の際の区切りとなる要素がとりうる表現形式に対し、変換後の表現形式を規定した文末表現変換規則とが含まれる。

また、文章編集手段１２は、例えば、合成音声処理を行う手段（音声合成手段）が入力テキストに対する言語解析結果を入力とする場合には、編集後の文章における区切りおよび文末表現のとおりに発声される合成音声が生成されるよう、入力テキストに対する言語解析結果を編集してもよい。例えば、発音記号列や区切りの情報等を編集後の文章に合わせて変更すればよい。

また、例えば、音声合成装置は、入力テキストが示す文章の係り受け構造を解析する係り受け解析手段１４を備えていてもよい。そのような場合には、文章編集手段１２は、係り受け解析手段１４による解析結果として得られる入力テキストの係り受け構造に基づき、係り受けが維持できる単位を最小構成にして、前記入力テキストが示す文章に含まれる１文を分割してもよい。なお、この方法は、上記文章構造に基づいて分割を試みた結果、時間長または文字数の条件を満たすことができない場合に、さらにその文を分割するときに利用する等の組み合わせた適用方法が可能である。

また、例えば、音声合成装置は、入力テキストから生成される合成音声の音響的な特徴量を推定する音響特徴量推定手段１５を備えていてもよい。そのような場合には、文章編集手段１２は、音響特徴量推定手段１５によって推定された入力テキストの音調的な特徴量と、入力テキストから予測される合成音声の時間長または計測される文字数とを元に、前記編集規則に従いつつ、与えられた時間長または文字数の条件に合致するように、前記入力テキストが示す文章に含まれる１文を分割してもよい。なお、この方法は、ある方法で分割を試みた結果、時間長または文字数の条件を満たすことができない場合に、さらにその文を分割するときに利用する等の組み合わせた適用方法が可能である。

また、例えば、音声合成装置は、時間長または文字数の条件を、ユーザ操作に応じて入力する条件入力手段１６を備えていてもよい。そのような場合は、文章編集手段１２は、条件入力手段１６によって入力される時間長または文字数の条件に基づいて分割、編集すればよい。

また、例えば、音声合成装置は、入力テキストから生成される合成音声の時間長を推定する時間長推定手段１７を備えていてもよい。時間長推定手段１７は、例えば、合成音声を生成する際に使用するパラメータに基づいて、入力テキストから生成される合成音声の時間長を推定してもよい。なお、該パラメータには少なくとも発話速度が含まれているものとする。ここで、時間長推定手段１７が時間長を推定する合成音声には、入力テキストが示す文章に対し音声合成した場合の合成音声に限らず、文章編集手段１２による編集のために指定された文章（各文ごとや、編集途中の文章等）を含む。

なお、編集規則記憶手段１１，文章編集手段１２，言語解析手段１３，係り受け解析手段１４，音響特徴量推定手段１５，時間長推定手段１７は、例えば、音声合成装置が備えるＣＰＵ等のプログラムに従って動作するプロセッサによって実現される。また、条件入力手段１６は、例えば、音声合成装置が備えるマウスやキーボード等の入力装置と、該入力装置を介して情報を受け付けるＣＰＵ等によって実現される。

以下、より具体的な実施形態について説明する。

実施形態１．
図３は、本発明の第１の実施形態による音声合成装置の構成例を示すブロック図である。図３に示すように、本実施形態の音声合成装置１００は、言語解析部１０１と、時間長推定部１０２と、言語解析結果編集部１０３と、音声合成部１０４と、合成音声用データベース１１１（以下、合成音声用ＤＢ１１１という。）と、時間長条件記憶部１１２と、編集規則記憶部１１３とを備える。

言語解析部１０１は、入力されたテキストに対し、言語解析を行う。言語解析の手法は、例えば、形態素解析による言語解析手法を用いればよい。なお、ＣｈａＳｅｎといった既存の日本語形態素解析ツールを利用することも可能である。

時間長推定部１０２は、入力テキストから生成される合成音声の時間長を推定する。時間長推定部１０２は、例えば、指定された文章（言語単位は問わない）に対して、該文章から合成音声を生成した場合の該合成音声の時間長を推定する。なお、指定される文章としては、入力テキストが示す文章全体の場合もありうるし、該文章に含まれる各文の場合や、言語解析結果編集部１０３による編集途中の文章ブロックであったり、編集後の文である場合もありうる。なお、時間長推定部１０２は、例えば、合成音声用ＤＢ１１１に記憶されている音声合成パラメータ（より具体的には、発話速度等）と、入力テキストの文字数等とに基づいて、合成音声の時間長を推定する。

合成音声用ＤＢ１１１は、音声合成部１０４に対し設定されている音声合成パラメータ（合成音声を生成するために必要な各種パラメータ値）を記憶する。なお、音声合成にはどのような方式を用いてもよいが、音声合成用パラメータは自由に設定されることが望ましい。

言語解析結果編集部１０３は、後述する時間長条件記憶部１１２に記憶されている時間長条件および編集規則記憶部１１３に記憶されている編集規則に従い、入力テキストに対する言語解析結果として得られた情報を編集することにより、編集後の文章を示す情報を音声合成部１０４に与える。言語解析結果編集部１０３は、具体的には、編集規則に従いつつ、編集後の言語解析結果により生成される合成音声が設定されている時間長条件に合致するように、言語解析結果における文章の区切りの情報を変更し、さらに各々の区切りの末尾で文末として自然となるように文末表現を変更する。なお、言語解析結果編集部１０３は、図１および図２に示す文章編集手段１２に相当する処理部である。

時間長条件記憶部１１２は、本装置に対し設定されている時間長条件を記憶する。時間長条件は、聴取者が理解しやすいとされる合成音声の時間長を規定したものであって、具体的には、合成音声を出力する際に一区切りとする音声の時間長の条件を示す情報である。時間長条件は、例えば、「５秒以下」といった閾値設定でもよいし、「２秒以上７秒以下」といった範囲指定でもよい。

編集規則記憶部１１３は、入力テキストが示す文章に含まれる一文を、意味内容を変更せずに複数に分割し、かつ分割した各々を正しい文として完結させるための規則である編集規則を記憶する。編集規則として、例えば、同じ意味内容を保持しつつ表現をより理解しやすく変換するための同義語辞書や、分割できる箇所を規定する分割規則、分割後の各々の文章ブロックが正しい文として完結するよう文末表現を変更するための規則などを記憶すればよい。

音声合成部１０４は、言語解析結果編集部１０３によって編集された言語解析結果（編集後の文章を示す情報）を入力として合成音声を実施し、音声波形を生成する。なお、音声合成部１０４には、言語解析結果編集部１０３から、合成音声を生成する際の区切りとなる情報を含む編集後の文章全体を示す情報が一括して入力されるか、一連の合成音声として生成する文章を示す情報が順次入力されるものとする。なお、編集後の文章を示す情報は、編集後の文章における区切りおよび文末表現のとおりに発声される合成音声が生成されるような情報であればよく、必ずしも言語解析結果のデータ形式でなければならないわけではない。なお、音声合成部１０４の入力形式に合っていれば、例えば、発音記号列であってもよい。

以下、本実施形態の動作について説明する。図４は、本実施形態の音声合成装置の動作例を示すフローチャートである。図４に示すように、まず、処理対象とするテキストが入力されると（ステップＳ１０１）、言語解析部１０１は、入力されたテキストの言語を解析する（ステップＳ１０２）。

次に、時間長推定部１０２は、言語解析部１０１による言語解析結果に基づき、入力テキストが示す文章を音声合成した場合の該合成音声の時間長を推定する（ステップＳ１０３）。なお、編集後の文章の時間長を確認する場合には、ステップＳ１０４の処理後にステップＳ１０３の処理を繰り返して実行すればよい。

次に、言語解析結果編集部１０３は、言語解析部１０１による言語解析結果と、時間長推定部１０２による推定時間長とに基づき、編集規則記憶部１１３に記憶されている編集規則に従いつつ、編集後の言語解析結果により生成される合成音声が時間長条件記憶部１１２に記憶されている時間長条件に合致するように、言語解析結果を編集する（ステップＳ１０４）。

最後に、音声合成部１０４は、ステップＳ１０４で編集された言語解析結果を元に音声合成処理を行い、順次音声波形を出力する（ステップＳ１０５）。

以下、本実施形態における文章編集動作についてより具体的に説明する。まず、言語解析部１０１による言語解析について説明する。図５は、言語解析部１０１の一構成例を示すブロック図である。図５に示すように、言語解析部１０１は、解析処理部１０１１と、形態素解析モデル１０１２と、辞書記憶部１０１３とを含んでいてもよい。本例では、解析処理部１０１１は、辞書記憶部１０１３に記憶されている辞書との照合により、入力テキストが示す文章を形態素に分割する。このとき、各形態素に対しては品詞等の情報が付加されている。そして、形態素解析モデル１０１２に基づき、結果得られた品詞の並びから文法的に最も確からしい構造（並び）を導出する。言語解析部１０１は、この導出した形態素の構造を、言語解析結果として出力する。形態素解析モデル１０１２は、例えば、隠れマルコフモデル（ＨＭＭ，Hidden Markov Model ）による確率的言語モデルであってもよい。なお、形態素解析モデル１０１２の代わりに、慣用句や品詞の並びについて規定した規則を用いることも可能である。

図６は、言語解析結果の一例を示す説明図である。図６に示す例では、カレーの作り方を説明した文章に含まれる「ジャガイモとにんじんを綺麗に洗い、皮をむき、１口大に切り、ジャガイモは水にさらす。」という文Ａに対して、形態素解析を行った結果を示している。図６では、文Ａにおける形態素の構造を形態素と品詞の組によって示す言語解析結果を出力している。図６に示す例では、文Ａが、「じゃがいも（名詞）／と（格助詞）／にんじん（名詞）／を（格助詞）／きれいに（形容動詞）／あらい（動詞）／、／かわ（名詞）／を（格助詞）／むき（動詞）／、／ひとくち（名詞）／だい（名詞）／に（格助詞）／きり（動詞）／、／じゃがいも（名詞）／は（副助詞）／みず（名詞）／に（格助詞）／さらす（動詞）。」という形態素の組み合わせによって構成されている旨の解析結果が示されている。

図７は、言語解析結果編集部１０３および編集規則記憶部１１３の一構成例を示すブロック図である。図７に示すように、言語解析結果編集部１０３は、同義語変換部１０３１と、文分割部１０３２と、文末変換部１０３３とを含んでいてもよい。また、編集規則記憶部１１３は、同義語辞書記憶部１１３１と、分割規則記憶部１１３２と、文末表現変換規則記憶部１１３３とを含んでいてもよい。なお、本例では、同義語変換部１０３１，文分割部１０３２および文末変換部１０３３は、それぞれ入力テキストに対する言語解析結果として得られる情報（発音記号列や区切りの情報）を変更することにより、文の分割や文末表現の変更を行う。

ここで、同義語辞書記憶部１１３１は、同じ意味内容を保持しつつ表現をより理解しやすく変換するための同義語辞書を記憶する。同義語辞書は、例えば、同じ意味をもつ用語について、それらを対応づけた情報である。また、分割規則記憶部１１３２は、分割できる箇所を規定した分割規則を記憶する。分割規則は、例えば、言語解析結果として得られる構文構造における要素を特定する情報（品詞の情報等）を用いて、分割する際の区切りとなりうる要素を示す情報である。文末表現変換規則記憶部１１３３は、分割規則に従って分割した際の分割後の各々の文章ブロックが正しい文として完結するよう文末表現を変換するための文末表現変換規則を記憶する。文末表現変換規則は、例えば、分割した際に文末になりうる表現形式に対し、変換後の表現形式を対応づけた変換テーブルであってもよい。

同義語変換部１０３１は、同義語辞書記憶部１１３１に記憶されている同義語辞書を用いて、内容が理解しがたい言葉を理解しやすい言葉に変換する。文Ａの場合、"さらす"という言葉は、料理の経験にないユーザにとってはどのような動作を指しているのか分かりづらいことが想定される。本例では、「さらす（動詞）」に対応づけて「（水に）つける」という言葉を、同義語辞書記憶部１１３１に登録しておき、同義語変換部１０３１が、この同義語辞書記憶部１１３１を検索することで、「（水に）つける」という言葉に変換を行う。具体的には、言語解析結果における文章の該当個所の情報を、変換後の言葉を示す情報に変更すればよい。

文分割部１０３２は、時間長条件および分割規則記憶部１１３２に記憶されている分割規則に従い、入力テキストが示す文章に含まれる各文を必要に応じて分割する。具体的には、言語解析結果における文章の区切りの情報を変更すればよい。図８は、文Ａの分割例と時間長との関係を示す説明図である。例えば、文Ａに対して、図８において（１）で示すような時間長の推定結果がでたとする。また、時間長条件として、「５秒未満」という閾値設定がなされているものとする。

図８の（１）で示す例では、入力テキストである文Ａの時間長は９．２５秒と推定されているので、時間長条件に合致していないことがわかる。このような場合には、文分割部１０３２は、文Ａを分割する。

なお、図８の（２）に示すように、同義語変換部１０３１による変換後の文章に対して、時間長推定部１０２に時間長を再推定させ、その結果に対して編集を行うようにしてもよい。

ここでは、分割規則として、分割規則記憶部１１３２に「動詞のみを区切りとして分割する」という規則が記憶されているものとする。この場合、文Ａに対しては、言語解析結果より、動詞である「あらい」，「むき」，「きり」，「つける（さらす）」が区切り候補となる。

文分割部１０３２は、例えば、図８の（３）に示すように、文Ａを、［ａ］：「じゃがいも／と／にんじん／を／きれいに／あらい／、／かわ／を／むき／、／ひとくち／だい／に／きり／、」と、［ｂ］：「じゃがいも／は／みず／に／つける。」の２つに分割してみる。ここで、分割した［ａ］と［ｂ］それぞれについて、時間長推定部１０２にフィードバックし、時間長を再推定させた結果、［ａ］が６．５秒、［ｂ］が２．５秒であったとする。文分割部１０３２は、［ａ］が閾値以上、［ｂ］が閾値未満であるので、［ｂ］はこれ以上の分割を要せずと判断し、［ａ］に対してのみ再度分割を試みればよい。

文分割部１０３２は、例えば、図８の（４）に示すように、［ａ］をさらに、［ｃ］：「じゃがいも／と／にんじん／を／きれいに／あらい／、／かわ／を／むき／、」と、［ｄ］：「ひとくち／だい／に／きり／、」に分割してみる。そして、これらについて、時間長推定部１０２にフィードバックし、時間長を再推定させる。本例では、［ｃ］が４．９５秒、［ｄ］が１．５秒であったとする。このような場合には、文分割部１０３２は、［ｃ］，［ｄ］とも閾値未満であるので、これ以上の分割を要せずと判断し、分割処理を終了すればよい。

文末変換部１０３３は、文末表現変換規則記憶部１１３３に記憶されている文末表現変換規則に従い、文分割部１０３２が分割した各々の文章について、その末尾が文末として自然になるように文末表現を変更する。文末表現変換規則としては、分割の際の区切りとなる要素がとりうる表現形式（ここでは、動詞の活用形）に対し、変換後の表現形式（終止形への活用方法）を規定した変換テーブルが記憶されていればよい。例えば、五段連用形の動詞に対しては、末尾の「い音」を「う音」に変更する旨の情報を対応づける。文末変換部１０３３は、このような文末表現の変換テーブルに基づき、「あらい（動詞：連用／五段）」を「あらう」という終止形に変換すればよい。本例では、［ｃ］は、［ｃ］'：「じゃがいも／と／にんじん／を／きれいに／あらい／、／かわ／を／むく。」と変換される。また［ｄ］は、［ｄ］'：「ひとくち／だい／に／きる。」と変換される。なお、［ｂ］は、元々終止形であるから、［ｂ］：「じゃがいも／は／みず／に／つける。」のままでよい。このようにして、文末変換部１０３３は、文Ａの分割後の３つの文章ブロックについて、［ｃ］'と「ｄ」'と［ｂ］のように文末表現を変更する。具体的には、言語解析結果における文章の該当個所の情報を、変更後の文末表現を示す情報に変更すればよい。

このように編集された言語解析結果は、編集後の文章として意図した文の区切りおよび文末表現をもつ合成音声を生成させる情報として音声合成部１０４に入力され、文Ａについては、編集後の［ｃ］'，「ｄ」'，［ｂ］に対応する合成音声が順次生成されて出力される。

なお、本例では、分割の度に時間長推定部１０２に分割結果をフィードバックし、時間長の再推定を行わせているが、予め区切り候補を元に分割後の時間長を推定させておいてもよい。このような場合には、文分割部１０３２は、最適化手法等を用いて、時間長条件をみたす分割方法を求めることも可能である。

最適化手法を用いる場合には、さらに、図９に示すように、分割後の各文章を合成した際の合成音声の時間長が、可能な限り同じ長さとなるように分割することも可能である。すなわち、文分割部１０３２は、区切り候補を元に推定させた各文章ブロックの時間長に基づき、合成した際の合成音声の時間長の差（一区切りとした各文章ブロック間での差）が最も小さくなるように分割するようにすればよい。なお、各文間での差については、さらに、同義語変換部１０３１が同義語変換候補を絞り込むといった方法も考えられる。これにより、ユーザは常にほぼ一定の長さの音声を聞くことができ、テンポを乱されずに音声を聞くことができるようになる。図９は、文Ａの他の分割例を示す説明図である。

また、同義語変換部１０３１は、変換の際に変換候補に対し時間長推定を行わせ、時間長が最も短くなるような候補を検索することも考えられる。なお、時間長推定を行わせずに、文字数によって最も短くなるような候補を選択することも可能である。

また、分割規則の例としては、上記で示した「動詞を区切りにする」といった規則の他にも、文末を終止形にする場合には、形容詞や形容動詞等、活用形として終止形をもつ品詞を区切り候補にする旨の規則が考えられる。また、文末を体言止めにするという文末表現規則が規定されている場合には、名詞を区切り候補に含む場合もありうる。更には、例えば、「河童の川流れ」や「弘法にも筆の誤り」といったように同義のことわざ等を変換対象の要素とすることも可能である。なお、「文末を動詞または形容詞とする」といったように、こられの要素のうち複数を変換対象とすることも可能である。

他にも、「３文に分割する」といったように分割数を指定した規則も考えられる。また、「時間長条件を満たさなくても、３文以内にしか分割しない」や「第１に動詞を区切りにし、それでも時間長条件を満たして分割することが不可能である場合には、他に活用形として終止形を持つ品詞を区切りにする」といった時間長条件との関係を規定したりで、時間長条件と組み合わせた規則を規定することも可能である。

また、本例では、文末変換部１０３３において、各文の文末を終止形に変換したが、他の表現へ変換してもよい。例えば、文Ａの例では、「洗おう」とか「切ろう」という表現に統一して変換することも可能である。他にも、「〜したい」，「〜してほしい」，「〜しなさい」等、用途に応じて様々な表現を指定することも可能である。

また、合成音声を生成する際に、分割後の各文の話速を変更させてもよい。例えば、時間長条件で「４秒以上５秒未満」といったような範囲指定がされていた場合に、各文の時間長が全て指定された範囲に収まるように話速を調整することも可能である。そのような場合には、文分割部１０３２は、分割規則を優先して入力テキストが示す文章に含まれる文を分割するようにし、文末変換部１０３３が文末を編集した後に、各々の文について時間長条件に合致するよう話速を決定する手段（例えば、話速決定部）を設ければよい。なお、この話速決定は、時間長推定部１０２が行ってもよい。

以上のように、本実施形態によれば、与えられた時間長の条件を満たすような復号文の合成音声が生成されるように、言語解析された入力テキストが示す文章を分割し、分割した各文末を編集するので、入力テキストの意味を変えずに、理解しやすい合成音声を生成することができる。

なお、ユーザが、時間長条件記憶部１１２に時間長を設定できるように、音声合成装置１００は、時間長条件入力部を備えるようにしてもよい。そのような場合には、ユーザ毎に望む時間長の条件で、動作させることが可能となる。

実施形態２．
次に、本発明の第２の実施形態について説明する。図１０は、本発明の第２の実施形態による音声合成装置の構成例を示すブロック図である。図１０に示すように、本実施形態では、図７に示す第１の実施形態と比べて、音響特徴量推定部１０５を備える点が異なる。

音響特徴量推定部１０５は、言語解析結果に基づいて、入力テキストが示す文章に対し音声合成した際の音響的な特徴量（例えば、ピッチ周波数やピッチパタン、ケプストラム等のスペクトル情報、さらには、読み、アクセント位置、アクセント区切り等）を推定する。

また、本実施形態では、文分割部１０３２は、さらに音響特徴量推定部１０５が推定した音響的特徴量を用いて、入力テキストが示す文章を分割する。なお、本実施形態の分割規則には、文章構造における要素を用いて分割箇所（区切り）となりうる箇所を規定する分割規則だけでなく、音響的な特徴量を用いて分割箇所となりうる箇所を規定する分割規則を用いることができる。例えば、分割後の各文末のアクセント型がなるべく一致するように分割する、ピッチパタンの形状が類似するように分類するといった旨の規則が考えられる。

アクセント型が一致するように分割する例としては、例えば、「〜帰り、〜動いて、〜耐える。」という表現を含む文であれば、「帰り」，「動いて」，「耐える」の終止形「帰る」，「動く」，「耐える」が、それぞれアクセント型が１型，２型，２型であるため、本来の文末である「耐える」のアクセント型と一致する「動く」を区切りとする。

また、ピッチパタン形状の類似の判断については、例えば、分割箇所のアクセント句の、推定された合成音声のピッチパタンを時間方向に正規化し、それぞれについて原点からの周波数方向の二乗平均距離を求めることにより、判断できる。なお、求めた二乗平均距離が近ければ、類似していると判断すればよい。

以上のように、本実施形態によれば、さらに音響的に聞きやすい合成音声を生成することが可能となる。なお、他の点については、第１の実施形態と同様でよい。

実施形態３．
次に、本発明の第３の実施形態について説明する。図１１は、本発明の第３の実施形態による音声合成装置の構成例を示すブロック図である。図１１に示すように、本実施形態による音声合成装置は、図３に示す第１の実施形態と比べて、係り受け解析部１０６を備える点が異なる。また、言語解析結果編集部１０３が、さらに係り受け解析部１０６による解析結果に基づいて、入力テキストが示す文章に含まれる文を分割し、編集する点が異なる。

係り受け解析部１０６は、入力テキストに対して係り受け構造の解析を行い、係り受け情報を生成する。なお、係り受け解析部１０６は、言語解析部１０１による解析結果を利用して、係り受け構造を解析してもよい。

また、本実施形態では、文分割部１０３２は、時間長条件と、少なくとも係り受けを維持して分割する旨が規定された分割規則とに基づいて、係り受け解析部１０６が解析した係り受け構造を用いて、入力テキストが示す文章を分割する。なお、分割規則には、さらに、どの品詞を文末として区切る等の規定がされていてもよい。

図１２は、本実施形態の動作例を示すフローチャートである。なお、本例では、図４に示す第１の実施形態と同様の動作（ステップＳ１０１〜Ｓ１０２，Ｓ１０３〜Ｓ１０５）については、同じ符号を付し説明を省略する。

図１２に示すように、本実施形態では、言語解析部１０１が入力テキストの言語を解析したことを受けて（ステップＳ１０２）、係り受け解析部１０６が、さらに、入力テキストの係り受け構造を解析する（ステップＳ２０１）。

次に、言語解析結果編集部１０３は、時間長条件記憶部１１２に記憶されている時間長条件と編集規則記憶部１１３に記憶されている編集規則と、言語解析部１０１による言語解析結果と、係り受け解析部１０６が解析した係り受け構造とに基づき、言語解析結果を編集する（ステップＳ１０４）。

最後に、音声合成部１０４が、ステップＳ１０４で編集されたテキストに対し音声合成処理を行い、順次音声波形を出力する（ステップＳ１０５）。

ここでは、第１の実施形態で示した文Ａを例に用いて本実施形態の動作を説明する。係り受け解析部１０６は、図１３に示すような係り受け構造を示す係り受け情報を、解析結果として出力したとする。図１３は、係り受け構造の推定例を示す説明図である。図１３に示す例では、例えば、「じゃがいもとにんじんをきれいにあらい」という部分に注目すると、「じゃがいも」と「にんじん」という名詞は並列関係であり、それぞれが「（きれいに）あらう」という動詞に係っている旨の係り受け構造が係り受け解析部１０６によって推定されていることが示されている。

ここで、時間長条件として、「３秒未満になるように分割する」旨が規定されていたとする。文分割部１０３２は、仮に、上述した図８の（５）のように分割したとしても、[ｃ]'が時間長条件を満たさない。また、図９のように分割したとしても、[ｇ]が時間長条件を満たさない。このような場合には、文分割部１０３２は、係り受け情報を用いて、更に分割を行って時間長条件を満たすようにする。例えば、図１２に示す例では、「じゃがいも」と「にんじん」は並列関係であり、それぞれが「（きれいに）あらう」に係っているという係り受け情報が得られる。この係り受け情報に基づき、係り受けが維持できる単位を最小構成にし、図１４に示すように、［ｇ］を、［ｉ］：「じゃがいもをきれいにあらう。」（２．５秒）と、［ｊ］：「にんじんをきれいにあらう。」（２．２秒）とに分割（厳密には再構築を含む）してもよい。具体的には、言語解析結果における文章の内容を示す情報と区切りの情報とを変更すればよい。

このように、本実施形態によれば、単純に分割しただけでは、時間長条件を満たせない場合であっても、係り受け構造を利用して分割、再構築することで、意味内容を保持したままで時間長条件を満たすことができる可能性が高まる。

なお、係り受け構造の解析を、言語解析結果を用いずに行う場合には、ステップＳ１０２の処理と、ステップＳ２０１の処理とを並列的に動作させることも可能である。

実施形態４．
また、上記各実施形態では、音声合成した場合の時間長を、聴取者が理解しやすい文章の区切りの目安として用いているが、合成音声の時間長の代わりに、音声合成する文字数を用いることも可能である。具体的には、時間長推定部１０２と時間長条件記憶部１１２の代わりに、図１５に示すように、入力テキストが示す文章の文字数を計数する文字数計数部１０７と、聴取者が理解しやすいとされる発話文字数を規定した文字数条件を記憶する文字数条件記憶部１１４とを備えるようにすればよい。

また、言語解析結果編集部１０３が、その文字数条件記憶部に記憶されている文字数条件および編集規則記憶部１１３に記憶されている編集規則に従い、言語解析部１０１で生成された言語解析結果や文字数計数部によって計数された文字数を元に、必要に応じて入力テキストが示す文章を編集するようにすればよい。このようにしても、上記各実施形態と同様の効果を得ることが可能である。

実施形態５．
次に、本発明の第４の実施形態について説明する。図１６は、本発明によるテキスト生成装置の構成例を示すブロック図である。本実施形態は、音声合成処理を他の装置が行うような場合に、入力されたテキストを、音声合成をした場合により理解しやすいように編集するためのテキスト生成装置２００に本発明を提供した例である。テキスト生成装置２００では、元々のテキストの意味内容を変えずに、音声合成した際に聴取者がより理解しやすいように編集して出力する。図１６に示すように、本実施形態によるテキスト生成装置２００は、上記で示した実施形態の音声合成装置１００で含まれていた音声合成部１０４の代わりに、テキスト出力部２０１を備える点が異なる。なお、テキストを編集する方法については、各実施形態で説明した音声合成装置１００と同様でよい。

テキスト出力部２０１は、言語解析結果編集部１０３によって編集された結果を、合成音声用のテキストとして出力する。例えば、単純に編集後の文章をテキスト形式で示す情報にして出力してもよいし、編集後の文章に対する言語解析結果として出力してもよいし、また、読みやすい形式（例えば、漢字かな混じり文）に変換して出力してもよい。

図１７は、本実施形態の動作例を示すフローチャートである。なお、本例では、図４に示す第１の実施形態と同様の動作（ステップＳ１０１〜Ｓ１０４）については、同じ符号を付し説明を省略する。

図１７に示すように、本実施形態では、言語解析結果編集部１０３が、入力テキストが示す文章の編集をしおえると（ステップＳ１０４）、テキスト出力部２０１は、編集後の文章をテキストとして出力する（ステップＳ３０１）。

以上のように、本実施形態によれば、合成音声を生成する際の前処理として、入力されたテキストを、その意味内容を変えずに、合成音声した際に聴取者がより理解しやすい形に編集することが可能となる。

なお、図１６に示す例では、第１の実施形態に対して音声合成部１０４の代わりに、テキスト出力部２０１を備える場合を例に説明しているが、本実施形態は、第１の実施形態に限らず、第２〜第４の実施形態に対しても適用可能である。なお、本実施形態を第４の実施形態に対して適用した場合には、合成音声用ＤＢ１１１を省略することも可能である。

また、音声合成部１０４を備えつつ、テキスト出力部２０１を備えることも可能である。そのような場合には、合成音声とともに、その合成音声を文章化したテキストを生成させ、表示するようにする、といったことが可能となる。

この出願は、２００８年２月２７日に出願された日本出願特願２００８―４６４３５を基礎とする優先権を主張し、その開示のすべてをここに取り込む。

本発明は、例えば、家電製品のマニュアル等を音声化するための合成音声システムや、別の作業を行っているユーザ、子供，高齢者等に対し理解のし易い合成音声を生成する音声マニュアルシステムや、ナビゲーションシステムなどに好適に適用可能である。

Claims

入力されたテキストから該テキストが示す文章の内容を伝達する合成音声を生成するための音声合成装置であって、
入力テキストが示す文章に含まれる１文を、意味内容を変更せずに複数に分割し、かつ分割した各々を正しい文として完結させるための規則である編集規則を記憶する編集規則記憶手段と、
前記編集規則に従いつつ、生成される合成音声の一区切りが与えられた時間長または文字数の条件を満たすように、前記入力テキストが示す文章に含まれる１文を分割し、分割後の各文末を編集する文章編集手段とを備えた
ことを特徴とする音声合成装置。
編集規則記憶手段には、分割箇所となりうる箇所を規定した分割規則と、前記分割規則に従って分割した際の分割後の各文末の表現を変換するための文末表現変換規則とを含む編集規則が記憶される
請求項１に記載の音声合成装置。
入力テキストに対し言語解析を行う言語解析手段を備え、
編集規則記憶手段には、前記言語解析手段の解析結果として得られる文章構造の要素を示す情報を用いて、分割箇所となりうる箇所を規定した分割規則と、分割の際の区切りとなる要素がとりうる表現形式に対し、変換後の表現形式を規定した文末表現変換規則とを含む編集規則が記憶され、
文章編集手段は、前記言語解析手段による解析結果として得られる入力テキストの文章構造と、入力テキストから予測される合成音声の時間長または計測される文字数とを元に、前記編集規則に従いつつ、与えられた時間長または文字数の条件に合致するように、前記入力テキストが示す文章に含まれる１文を分割し、かつ分割後の各文末を編集する
請求項１または請求項２に記載の音声合成装置。
文章編集手段は、編集後の文章における区切りおよび文末表現のとおりに発声される合成音声が生成されるよう、入力テキストに対する言語解析結果を変更する
請求項３に記載の音声合成装置。
文章編集手段は、生成される合成音声の各区切り間での時間長または文字数の差が最も小さくなるように分割する
請求項１から請求項４のうちのいずれか１項に記載の音声合成装置。
入力テキストが示す文章の係り受け構造を解析する係り受け解析手段を備え、
文章編集手段は、前記係り受け解析手段による解析結果として得られる入力テキストが示す文章の係り受け構造に基づき、係り受けが維持できる単位を最小構成にして、前記入力テキストが示す文章に含まれる１文を分割する
請求項１から請求項５のうちのいずれか１項に記載の音声合成装置。
入力テキストから生成される合成音声の音響的な特徴量を推定する音響特徴量推定手段を備え、
編集規則記憶手段には、音響的な特徴量を用いて、分割箇所となりうる箇所を規定した分割規則を含む編集規則が記憶され、
文章編集手段は、前記音響特徴量推定手段によって推定された入力テキストの音調的な特徴量と、入力テキストが示す文章に基づき予測される合成音声の時間長または計測される文字数とを元に、前記編集規則に従いつつ、与えられた時間長または文字数の条件に合致するように、前記入力テキストが示す文章に含まれる１文を分割する
請求項１から請求項６のうちのいずれか１項に記載の音声合成装置。
文章編集手段は、編集後の文章に対し生成される合成音声の時間長が、与えられた時間長の条件を満たさない場合には、合成音声を生成する際に使用するパラメータであって合成音声の速度に関わるパラメータを指定する
請求項１から請求項７のうちのいずれか１項に記載の音声合成装置。
時間長または文字数の条件を、ユーザ操作に応じて入力する条件入力手段を備えた
請求項１から請求項８のうちのいずれか１項に記載の音声合成装置。
編集規則記憶手段には、さらに同義語辞書が記憶され、
文章編集手段は、前記同義語辞書との照合により、入力テキストが示す文章に用いられている表現をより簡便な他の表現に変換する際に、変換後の合成音声の時間長または文字数に基づいて、変換候補を絞り込む
請求項１から請求項９のうちのいずれか１項に記載の音声合成装置。
入力テキストから生成される合成音声の時間長を推定する時間長推定手段を備えた
請求項１から請求項１０のうちのいずれか１項に記載の音声合成装置。
時間長推定手段は、合成音声を生成する際に使用するパラメータに基づいて、時間長を推定し、
前記パラメータには少なくとも発話速度が含まれる
請求項１１に記載の音声合成装置。
入力されたテキストから該テキストが示す文章の内容を伝達する合成音声を生成するためのテキスト生成装置であって、
入力テキストが示す文章に含まれる１文を、意味内容を変更せずに複数に分割し、かつ分割した各々を正しい文として完結させるための規則である編集規則を記憶する編集規則記憶手段と、
前記編集規則に従いつつ、生成される合成音声の一区切りが与えられた時間長または文字数の条件を満たすように、前記入力テキストが示す文章に含まれる１文を分割し、かつ分割後の各文末を編集する文章編集手段とを備えた
ことを特徴とするテキスト生成装置。
入力されたテキストから該テキストが示す文章の内容を伝達する合成音声を生成するための合成音声生成用文章編集方法であって、
入力テキストが示す文章に含まれる１文を、意味内容を変更せずに複数に分割し、かつ分割した各々を正しい文として完結させるための規則である編集規則に従いつつ、生成される合成音声の一区切りが与えられた時間長または文字数の条件を満たすように、前記入力テキストが示す文章に含まれる１文を分割し、分割後の各文末を編集する
ことを特徴とする合成音声生成用文章編集方法。
編集規則には、分割箇所となりうる箇所を規定した分割規則と、前記分割規則に従って分割した際の分割後の各文末の表現を変換するための文末表現変換規則とが含まれる
請求項１４に記載の合成音声生成用文章編集方法。
編集規則には、言語解析結果として得られる文章構造の要素を用いて、分割箇所となりうる箇所を規定した分割規則と、分割の際の区切りとなる要素がとりうる表現形式に対し、変換後の表現形式を規定した文末表現変換規則とが含まれ、
入力テキストに対し言語解析を行い、
解析結果として示される入力テキストの文章構造と、入力テキストから予測される合成音声の時間長または計測される文字数とを元に、前記編集規則に従いつつ、与えられた時間長または文字数の条件に合致するように、前記入力テキストが示す文章に含まれる１文を分割し、分割後の各文末を編集する
請求項１４または請求項１５に記載の合成音声生成用文章編集方法。
編集後の文章における区切りおよび文末表現のとおりに発声される合成音声が生成されるよう、入力テキストに対する言語解析結果を変更する
請求項１６に記載の合成音声生成用文章編集方法。
生成される合成音声の各区切り間での時間長または文字数の差が最も小さくなるように分割する
請求項１４から請求項１７のうちのいずれか１項に記載の合成音声生成用文章編集方法。
入力テキストが示す文章の係り受け構造を解析し、
解析結果として得られる入力テキストの係り受け構造に基づき、係り受けが維持できる単位を最小構成にして、前記入力テキストが示す文章に含まれる１文を分割する
請求項１４から請求項１８のうちのいずれか１項に記載の合成音声生成用文章編集方法。
編集規則には、音響的な特徴量を用いて、分割箇所となりうる箇所を規定した分割規則が含まれ、
入力テキストから生成される合成音声の音響的な特徴量を推定し、
推定された入力テキストの音調的な特徴量と、入力テキストから予測される合成音声の時間長または計測される文字数とを元に、前記編集規則に従いつつ、与えられた時間長または文字数の条件に合致するように、前記入力テキストが示す文章に含まれる１文を分割する
請求項１４から請求項１９のうちのいずれか１項に記載の合成音声生成用文章編集方法。
編集後の文章に対し生成される合成音声の時間長が、与えられた時間長の条件を満たさない場合には、合成音声を生成する際に使用するパラメータであって合成音声の速度に関わるパラメータを指定する
請求項１４から請求項２０のうちのいずれか１項に記載の合成音声生成用文章編集方法。
時間長または文字数の条件を、ユーザ操作に応じて入力する
請求項１４から請求項２１のうちのいずれか１項に記載の合成音声生成用文章編集方法。
同義語辞書を記憶しておき、
前記同義語辞書との照合により、入力テキストが示す文章に用いられている表現をより簡便な他の表現に変換する際に、変換後の合成音声の時間長または文字数に基づいて、変換候補を絞り込む
請求項１４から請求項２２のうちのいずれか１項に記載の合成音声生成用文章編集方法。
入力テキストから生成される合成音声の時間長を推定する
請求項１４から請求項２３のうちのいずれか１項に記載の合成音声生成用文章編集方法。
入力されたテキストから該テキストが示す文章の内容を伝達する合成音声を生成するための合成音声生成用文章編集プログラムであって、
コンピュータに、
入力テキストが示す文章に含まれる１文を、意味内容を変更せずに複数に分割し、かつ分割した各々を正しい文として完結させるための規則である編集規則に従いつつ、生成される合成音声の一区切りが与えられた時間長または文字数の条件を満たすように、前記入力テキストが示す文章に含まれる１文を分割し、分割後の各文末を編集する文章編集処理
を実行させるための合成音声生成用文章編集プログラム。
少なくとも分割箇所となりうる箇所を規定した分割規則と、前記分割規則に従って分割した際の分割後の各文末の表現を変換するための文末表現変換規則とを含む編集規則を用いる
請求項２５に記載の合成音声生成用文章編集プログラム。
言語解析結果として得られる文章構造の要素を用いて、分割箇所となりうる箇所を規定した分割規則と、分割の際の区切りとなる要素がとりうる表現形式に対し、変換後の表現形式を規定した文末表現変換規則とを含む編集規則を用い、
コンピュータに、
入力テキストに対し言語解析を行う処理を行わせ、
文章編集処理で、解析結果として示される入力テキストの文章構造と、入力テキストから予測される合成音声の時間長または計測される文字数とを元に、前記編集規則に従いつつ、与えられた時間長または文字数の条件に合致するように、前記入力テキストが示す文章に含まれる１文を分割させ、分割後の各文末を編集させる
請求項２５または請求項２６に記載の合成音声生成用文章編集プログラム。
コンピュータに、
文章変種処理で、編集後の文章における区切りおよび文末表現のとおりに発声される合成音声が生成されるよう、入力テキストに対する言語解析結果を変更させる
請求項２５から請求項２７のうちのいずれか１項に記載の合成音声生成用文章編集プログラム。
コンピュータに、
文章編集処理で、生成される合成音声の各区切り間での時間長または文字数の差が最も小さくなるように分割させる
請求項２５から請求項２８のうちのいずれか１項に記載の合成音声生成用文章編集プログラム。
コンピュータに、
入力テキストが示す文章の係り受け構造を解析する処理を実行させ、
文章編集処理で、解析結果として得られる入力テキストの係り受け構造に基づき、係り受けが維持できる単位を最小構成にして、前記入力テキストが示す文章に含まれる１文を分割させる
請求項２５から請求項２９のうちのいずれか１項に記載の合成音声生成用文章編集プログラム。
音響的な特徴量を用いて、分割箇所となりうる箇所を規定した分割規則を含む編集規則を用い、
コンピュータに、
入力テキストから生成される合成音声の音響的な特徴量を推定する処理を実行させ、
文章編集処理で、推定された入力テキストの音調的な特徴量と、入力テキストから予測される合成音声の時間長または計測される文字数とを元に、前記編集規則に従いつつ、与えられた時間長または文字数の条件に合致するように、前記入力テキストが示す文章に含まれる１文を分割させる
請求項２５から請求項３０のうちのいずれか１項に記載の合成音声生成用文章編集プログラム。
コンピュータに、
生成される合成音声の時間長が、与えられた時間長の条件を満たさない場合には、合成音声を生成する際に使用するパラメータであって合成音声の速度に関わるパラメータを指定する処理を実行させる
請求項２５から請求項３１のうちのいずれか１項に記載の合成音声生成用文章編集プログラム。
コンピュータに、
時間長または文字数の条件を、ユーザに入力させる処理を実行させる
請求項２５から請求項３２のうちのいずれか１項に記載の合成音声生成用文章編集プログラム。
コンピュータに、
同義語辞書との照合により、入力テキストが示す文章に用いられている表現をより簡便な他の表現に変換する際に、変換後の合成音声の時間長または文字数に基づいて、変換候補を絞り込む処理を実行させる
請求項２５から請求項３３のうちのいずれか１項に記載の合成音声生成用文章編集プログラム。
コンピュータに、
合成音声を生成する際に使用するパラメータに基づいて、時間長を推定する処理を実行させる
請求項２５から請求項３４のうちのいずれか１項に記載の合成音声生成用文章編集プログラム。