WO2014017024A1 - 音声合成装置、音声合成方法、及び音声合成プログラム - Google Patents
音声合成装置、音声合成方法、及び音声合成プログラム Download PDFInfo
- Publication number
- WO2014017024A1 WO2014017024A1 PCT/JP2013/004023 JP2013004023W WO2014017024A1 WO 2014017024 A1 WO2014017024 A1 WO 2014017024A1 JP 2013004023 W JP2013004023 W JP 2013004023W WO 2014017024 A1 WO2014017024 A1 WO 2014017024A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- waveform generation
- speech
- generation parameter
- unit
- segment
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 27
- 230000002194 synthesizing effect Effects 0.000 title description 5
- 238000001228 spectrum Methods 0.000 claims abstract description 35
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 25
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 9
- 238000001308 synthesis method Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 77
- 238000010586 diagram Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000007429 general method Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Definitions
- the present invention relates to a speech synthesis technique, and more particularly to a speech synthesizer, a speech synthesis method, and a speech synthesis program for synthesizing speech based on input text.
- a speech synthesizer that analyzes an input character string and generates synthesized speech from speech information indicated by the character string is known. Such a speech synthesizer first generates prosodic information (sound pitch (pitch), sound length (phoneme duration time) of synthesized speech based on a language processing result obtained by analyzing an input character string. Long) and information on sound volume (power) and the like.
- the speech synthesizer selects a plurality of optimal segments from the segment dictionary based on the language processing result and the generated prosodic information (referred to as “target prosodic information”), and one optimal segment is selected.
- target prosodic information referred to as “target prosodic information”
- the segment is sometimes referred to as a speech segment, and is generated in advance for each semi-syllable, for example, based on the recorded speech.
- a plurality of types of segments are generated from various recorded voices for one voice (here, a voice of about half syllable).
- a synthesized speech can be obtained by forming a waveform generation parameter sequence from the optimal segment sequence and generating a speech waveform from the sequence.
- Segments stored in the segment dictionary are extracted and generated from a large amount of natural speech using various methods.
- Such a speech synthesizer generates a speech waveform having a prosody close to the generated prosodic information for the purpose of ensuring high sound quality when generating a synthesized speech waveform from the selected segment. Therefore, for example, a method described in Non-Patent Document 1 is used as a method for generating both a synthesized speech waveform and a segment used for generating the synthesized speech.
- FIG. 11 is an explanatory diagram showing the assignment of waveform generation parameters in Non-Patent Document 1.
- the waveform generation parameter generated by the method described in Non-Patent Document 1 is a window function having a time width calculated from the pitch around the pitch synchronization position calculated from the pitch of the recorded audio. Is a waveform (pitch waveform) cut out from the speech waveform.
- the waveform generation parameter (pitch waveform) is based on the pitch generated from the language processing result, that is, the pitch of the synthesized speech. It is selected from the inside.
- a synthesized speech waveform is generated by concatenating the selected pitch waveforms. The selection of the pitch waveform is basically performed based on the correspondence between the pitch synchronization positions of the recorded voice and the synthesized voice.
- Non-Patent Document 7 describes that a power spectrum, a linear prediction coefficient, a cepstrum, a mel cepstrum, an LSP (Line Spectrum Pair), and the like are used as a waveform parameter in addition to a pitch waveform.
- Non-Patent Document 1 has a problem that the sound quality of synthesized speech is deteriorated because an appropriate waveform generation parameter is not selected.
- the waveform generation parameter is selected so that the target prosodic information is faithfully reproduced for each speech unit based on a predetermined boundary position of the segment. For this reason, since thinning and insertion of waveform generation parameters are repeated many times, the temporal change in the spectrum of the synthesized speech is biased, making it difficult to realize a smooth spectral change. Therefore, the above problem occurs.
- the present invention provides a speech synthesizer, a speech synthesis method, and a speech synthesis program capable of generating a synthesized speech with a smooth spectrum change in a section in which continuous segments are selected on recorded speech. With the goal.
- the speech synthesizer includes a unit selection unit that selects the speech unit used for synthesis from a plurality of speech units stored in advance based on an input character string, and a waveform extracted from the speech unit A waveform generation parameter selection unit that selects a generation parameter, and a waveform generation unit that generates a synthesized speech using the selected waveform generation parameter, wherein the waveform generation parameter selection unit includes a time axis of the speech unit Generate a waveform generation parameter selection function, which is a function indicating where to place the above waveform generation parameter on the time axis of the synthesized speech in consideration of the continuity of the selected speech unit, and generate the waveform A waveform generation parameter is selected based on a parameter selection function.
- the speech synthesis method selects, based on an input character string, the speech unit used for synthesis from a plurality of speech units stored in advance, and sets the waveform generation parameter on the time axis of the speech unit as the waveform generation parameter.
- a waveform generation parameter selection function which is a function indicating where to place the synthesized speech on the time axis, is generated in consideration of the continuity of the selected speech segment, and based on the waveform generation parameter selection function, A waveform generation parameter extracted from the speech segment is selected, and synthesized speech is generated using the selected waveform generation parameter.
- the speech synthesis program includes a computer to select a speech unit to be used for synthesis from a plurality of speech units stored in advance based on an input character string, and a time of the speech unit.
- a waveform generation parameter selection function which is a function indicating where the waveform generation parameter on the axis is arranged on the time axis of the synthesized speech, is generated in consideration of the continuity of the selected speech segment, and the waveform Including a waveform generation parameter selection process for selecting a waveform generation parameter extracted from the speech segment based on a generation parameter selection function, and a waveform generation process for generating synthesized speech using the selected waveform generation parameter. It is made to perform.
- FIG. FIG. 1 is a block diagram showing the configuration of a first embodiment (Embodiment 1) of a speech synthesizer according to the present invention.
- the speech synthesizer of this embodiment includes a language processing unit 1, a prosody generation unit 2, a segment selection unit 3, a waveform generation unit 4, and a segment information storage unit 10.
- the waveform generation unit 4 includes a voiced sound generation unit 5, an unvoiced sound generation unit 6, and a waveform connection unit 7.
- the voiced sound generation unit 5 includes a waveform generation parameter selection unit 50 and a voiced sound waveform generation unit 51.
- the unit information storage unit 10 stores speech unit information representing speech units and attribute information representing attributes of each speech unit.
- a speech segment is a part of basic speech (speech generated by humans (natural speech)) that is the basis of speech synthesis processing for synthesizing speech, and is generated by dividing the basic speech into speech synthesis units. .
- the speech unit information includes time series data of waveform generation parameters extracted from the speech unit and used for generating a synthesized speech waveform.
- a pitch waveform is used in the following description, but may be, for example, a power spectrum, a linear prediction coefficient, a cepstrum, a mel cepstrum, or an LSP (see Non-Patent Document 7).
- the waveform generation parameter it is preferable to use a linear prediction coefficient, LSP, or the like as the waveform generation parameter, particularly when it is necessary to reduce the data amount of the segment.
- the speech synthesis unit is a syllable. Note that the speech synthesis unit may be a phoneme, a semiphone, a semi-syllable such as CV (Consonant, Vowel), CVC, or VCV, as disclosed in Patent Document 2.
- Attribute information includes language information including information representing a character string (recorded sentence) corresponding to basic speech and prosodic information of basic speech.
- the language information is, for example, information expressed in a kanji / kana mixed sentence.
- the language information may include information such as readings, syllable strings, phoneme strings, accent positions, accent phrase breaks, morpheme parts of speech.
- the prosodic information includes a pitch (fundamental frequency), an amplitude, a time series of short-time power, and the syllables, phonemes, and pause duration lengths included in natural speech.
- the language processing unit 1 analyzes the character string of the input text sentence. Specifically, the language processing unit 1 performs analysis such as morphological analysis, syntax analysis, or reading. Then, based on the analysis result, the language processing unit 1 uses information representing the symbol string representing “reading” such as phoneme symbols and information representing the morpheme part-of-speech, utilization, accent type, etc. as the prosody. The data is output to the generation unit 2 and the segment selection unit 3.
- the prosody generation unit 2 generates a prosody of the synthesized speech based on the language analysis processing result output from the language processing unit 1, and uses the prosody information indicating the generated prosody as target prosody information and the unit selection unit 3 and waveform generation Output to part 4. For example, the method described in Patent Document 3 is used to generate the prosody.
- the segment selection unit 3 selects a segment that satisfies a predetermined requirement from the segments stored in the segment information storage unit 10 based on the language analysis processing result and the target prosody information, and selects the selected segment.
- the pieces and the attribute information of the pieces are output to the waveform generation unit 4.
- the segment selection unit 3 Based on the input language analysis processing result and the target prosodic information, the segment selection unit 3 sets information indicating the characteristics of the synthesized speech (hereinafter referred to as “target segment environment”) for each speech synthesis unit. To generate.
- the target segment environment is the corresponding phoneme that constitutes the synthesized speech for which the target segment environment is generated, the preceding phoneme that is the phoneme before the corresponding phoneme, the subsequent phoneme that is the phoneme after the corresponding phoneme, the presence or absence of stress, the accent
- the information includes the distance from the nucleus, the pitch frequency for each speech synthesis unit, the power, the duration of the speech synthesis unit, the cepstrum, the MFCC (Mel Frequency Cepstial Coefficients), and the amount of change per unit time.
- the segment selection unit 3 acquires a plurality of segments corresponding to continuous phonemes from the segment information storage unit 10 for each synthesized speech unit based on the information included in the generated target segment environment. . That is, the segment selection unit 3 acquires a plurality of segments corresponding to each of the corresponding phoneme, the preceding phoneme, and the subsequent phoneme based on information included in the target segment environment.
- the acquired segment is a candidate for a segment used to generate a synthesized speech, and is hereinafter referred to as a candidate segment.
- the unit selection unit 3 synthesizes speech for each combination of a plurality of acquired candidate segments (for example, a combination of a candidate unit corresponding to the corresponding phoneme and a candidate unit corresponding to the preceding phoneme).
- the cost which is an index indicating the appropriateness as the segment used for the calculation, is calculated.
- the cost is a calculation result of the difference between the target element environment and the attribute information of the candidate element, and the difference between the attribute information of adjacent candidate elements.
- the cost which is the value of the calculation result, decreases as the similarity between the synthesized speech feature indicated by the target segment environment and the candidate segment increases, that is, as the appropriateness for synthesizing the speech increases. Further, the smaller the difference in attribute information between adjacent candidate segments, that is, the smaller the gap at the time of segment connection, the lower the cost. Then, the lower the cost, the higher the degree of naturalness that indicates the degree to which the synthesized speech is similar to the speech uttered by humans. Therefore, the segment selection unit 3 selects the segment with the lowest calculated cost.
- the cost calculated by the segment selection unit 3 includes a unit cost and a connection cost.
- the unit cost indicates the degree of sound quality degradation estimated to occur when the candidate segment is used in the environment indicated by the target segment environment.
- the unit cost is calculated based on the similarity between the attribute information of the candidate segment and the target segment environment.
- the connection cost indicates the degree of sound quality degradation estimated to be caused by the discontinuity of the element environment between connected speech elements.
- the connection cost is calculated based on the affinity of the element environments between adjacent candidate elements.
- Various proposed general methods are used for calculating the unit cost and the connection cost.
- the element selection unit 3 selects an element of the combination that minimizes the calculated cost as the element most suitable for speech synthesis from the candidate elements.
- the segment selected by the segment selection unit 3 is referred to as “optimal segment”.
- the waveform generation unit 4 Based on the target prosody information supplied from the prosody generation unit 2, the selected segment supplied from the segment selection unit 3, and its attribute information, the waveform generation unit 4 has a prosody that matches or is similar to the target prosody. Generate a waveform and connect the generated speech waveform to generate a synthesized speech.
- the segment represented by the segment information supplied from the segment selection unit 3 is classified into a segment composed of voiced sound and a segment composed of unvoiced sound.
- the method used for performing prosody control for voiced sound and the method used for performing prosody control for unvoiced sound are different from each other. Therefore, the waveform generation unit 4 includes a voiced sound generation unit 5, an unvoiced sound generation unit 6, and a waveform connection unit 7 that connects voiced sound and unvoiced sound.
- the unvoiced sound generation unit 6 generates an unvoiced sound waveform having a prosody that matches or is similar to the prosodic information supplied from the prosody generation unit 2 based on the segments supplied from the segment selection unit 3.
- the unvoiced sound generation unit 6 since the unvoiced sound element supplied from the element selection unit 3 is a cut speech waveform, the unvoiced sound generation unit 6 generates an unvoiced sound waveform using the method described in Non-Patent Document 4. can do. Further, the method described in Non-Patent Document 5 may be used.
- the voiced sound generation unit 5 includes a waveform generation parameter selection unit 50 and a voiced sound waveform generation unit 51.
- the waveform generation parameter selection unit 50 selects a waveform generation parameter used to generate a voiced sound waveform based on the segment information supplied from the segment selection unit 3 and the prosody information supplied from the prosody generation unit 2.
- FIG. 2 is a flowchart showing the operation of the waveform generation parameter selection unit 50.
- the waveform generation parameter selection unit 50 generates a function for determining which waveform generation parameter is arranged on the time axis of the synthesized speech from the time length of the optimum segment and the target time length (step S1). Since this function is a function used for selecting a waveform generation parameter, in the present embodiment, this function is referred to as a “waveform generation parameter selection function”.
- waveform generation parameter selection unit 50 the optimum unit as waveform generation parameter selection function linear function such as the following equation (1) Generate for.
- the waveform generation parameter selection unit 50 checks whether or not all selected segments are continuous with subsequent segments (step S2).
- being continuous with the subsequent segment means that it is continuous on the recorded voice of the selection source stored in the segment information storage unit 10.
- the unit of the segment is a syllable
- the syllable of the segment to be checked (hereinafter referred to as “preceding segment”) is “U”
- the syllable of the subsequent segment to be checked is “ma”. If the preceding and succeeding segments are selected from different recorded voices such as “Ushi” and “Mari”, respectively, it can be said that the preceding and succeeding segments are discontinuous.
- if selected from consecutive sections on the same recorded voice such as “delicious” and “suma”, it can be said that the preceding segment and the subsequent segment are continuous.
- the waveform generation parameter selection unit 50 obtains a common waveform generation parameter selection function used by both using the waveform generation parameter selection function for the preceding and subsequent segments. For example, assuming that the time lengths of the preceding and subsequent optimum segments are T u1 and T u2 and the target time lengths are T o1 and T o2 , a polygonal line function as shown in the following equation (2) is obtained.
- FIG. 3 is an explanatory diagram showing assignment of waveform generation parameters.
- FIG. 3 shows a situation showing an example in which waveform generation parameters are assigned in accordance with the target time length when the pieces are continuous. “Nth segment” represents a preceding segment, and “N + 1th segment” represents a subsequent segment.
- FIG. 4 is an explanatory diagram showing an example in which Fu2 (t) is plotted based on the assignment shown in FIG.
- the waveform generation parameter selection unit 50 corrects the waveform generation parameter selection function used to select an appropriate waveform generation parameter from the preceding and subsequent optimum segments, and the waveform generation parameter selection function considering continuity. Is obtained (step S3). There are several methods described below for obtaining the corrected waveform generation parameter selection function.
- FIG. 5 is an explanatory diagram showing a first example of a waveform generation parameter selection function.
- the first example of the waveform generation parameter selection function is generated by introducing straight lines passing through the midpoints of the preceding and succeeding segments.
- a polygonal line function such as the following expression (3) is used as the waveform generation parameter selection function.
- FIG. 6 is an explanatory diagram illustrating a second example of the waveform generation parameter selection function.
- the second example of the waveform generation parameter selection function shown in FIG. 6 is obtained based on a linear function that connects the start end of the preceding segment and the end of the subsequent segment. For example, as shown in FIG. 6, a polygonal line function passing through the intersection (T o1 , Q) of the segment connection boundary line and the straight line function and the midpoint of the end of the preceding segment (T o1 , T u1 ) generates a waveform. Used as a parameter selection function.
- Equation (4) T um is expressed as in Equation (5) below.
- FIG. 7 is an explanatory diagram showing a third example of the waveform generation parameter selection function.
- the third example of the waveform generation parameter selection function shown in FIG. 7 is obtained by smoothing the polygonal line function Fu2 (t).
- a smoothing method for example, a method in which a polygonal line function is regarded as a time series and smoothed by a moving average or first-order leak integration is used.
- the waveform generation parameter selection unit 50 smoothes the change in the slope of the waveform generation parameter selection function by using the methods of the first to third examples. Thereby, the speech synthesizer of this embodiment can generate synthesized speech with a smooth spectrum change.
- the above correction method has been described on the assumption that the waveform generation parameter selection function to be corrected is a line function, but the same method can be used for functions other than a line function such as a curve. Further, regarding the first example shown in FIG. 5, the example in which the corrected waveform generation parameter selection function passes through the midpoint of the preceding and subsequent segments has been described, but the waveform generation parameter selection function is other than the midpoint. It may be a function that passes through the points. Further, regarding the second example shown in FIG.
- the corrected waveform generation parameter selection function includes the intersection (T o1 , Q) of the segment connection boundary line and the straight line function and the end of the preceding segment (T o1 , T
- the waveform generation parameter selection function may also be a function that passes through points other than the midpoint.
- the waveform generation parameter selection unit 50 calculates a pitch synchronization time (also referred to as a pitch mark) from the pitch time series generated by the prosody generation unit 2 (step S4).
- a pitch synchronization time also referred to as a pitch mark
- a method for calculating the pitch synchronization position from the pitch time series is described in Non-Patent Document 6, for example.
- the waveform generation unit 4 may calculate the pitch synchronization position by the method described in Non-Patent Document 6.
- the waveform generation parameter selection unit 50 uses the waveform generation parameter selection function to select the waveform generation parameter closest to the pitch synchronization time (step S5).
- the time of an ideal waveform generation parameter position is first calculated from the pitch synchronization position of the synthesized speech using a waveform generation parameter selection function.
- the waveform generation parameter selection unit 50 employs the waveform generation parameter closest to the time. For example, the time of the nth waveform generation parameter position is 100 milliseconds, the time of the (n + 1) th waveform generation parameter position is 180 milliseconds, and the time obtained by the waveform generation parameter selection function is 160 milliseconds. In this case, the (n + 1) th waveform generation parameter is selected.
- FIG. 8 is an explanatory diagram showing a state in which a voiced sound waveform is generated from two speech segments composed of nine waveform generation parameters.
- the function shown in FIG. 5 is used as the waveform generation parameter selection function.
- the waveform generation parameters corresponding to the pitch synchronization time are the first, third, fourth, fifth, sixth, seventh, eighth, eighth, and ninth waveform generation parameters.
- the unit 4 generates a waveform using these waveform generation parameters.
- the voiced sound waveform generator 51 generates a voiced sound waveform based on the waveform generation parameters supplied from the waveform generation parameter selector 50 and the prosody information supplied from the prosody generator 2.
- the voiced sound waveform generator 51 generates a voiced sound waveform by arranging the center of each selected waveform generation parameter at the pitch synchronization time.
- the voiced sound waveform generation unit 51 When the waveform generation parameter is a pitch waveform, the voiced sound waveform generation unit 51 generates a voiced sound waveform by arranging the pitch waveform at the pitch synchronization time.
- the waveform connecting unit 7 connects the voiced sound waveform supplied from the voiced sound generating unit 5 and the unvoiced sound waveform supplied from the unvoiced sound generating unit 6 and outputs it as a synthesized speech waveform.
- the voiced sound waveform v (t) and the unvoiced sound waveform u (T) is concatenated to generate and output a synthesized speech waveform x (t) shown below.
- the speech synthesizer of this embodiment corrects the waveform generation parameter selection function in consideration of continuity. For this reason, according to the speech synthesizer of the present embodiment, the spectral change compared to the general method disclosed in Non-Patent Document 1 or the like in a section in which continuous segments on the recorded speech are selected. It is possible to generate a synthesized speech that is smooth.
- Embodiment 2 a speech synthesizer according to the second embodiment of the present invention will be described.
- the speech synthesis apparatus according to the second embodiment is the first implementation in that the degree of spectrum change is estimated according to the attribute information of the speech unit, and the waveform generation parameter selection function is controlled based on the estimated degree of spectrum change. This is different from the speech synthesis apparatus according to the embodiment. Therefore, the difference will be mainly described below.
- FIG. 9 is a block diagram showing the configuration of the second embodiment of the speech synthesizer according to the present invention.
- the configuration of the speech synthesizer of this embodiment shown in FIG. 9 is compared with the configuration of the speech synthesizer of the first embodiment shown in FIG. 1, and the waveform generation parameter selection unit 50 is replaced with the waveform generation parameter selection unit 60. Further, a spectrum shape change degree estimation unit 62 is newly provided.
- the spectrum shape change degree estimation unit 62 estimates the degree of change of the spectrum shape at the unit connection boundary based on the unit attribute information supplied from the unit information storage unit 10.
- the spectrum shape change degree estimation unit 62 uses language information and prosodic information included in the attribute information for estimation of the change degree of the spectrum shape.
- a method of estimating the shape change rate of the voice spectrum for each corresponding type is effective. For example, if the segment obtained by combining the preceding and subsequent segments is a syllable of a long vowel, since the change in the spectrum shape at the segment connection boundary is small, the estimated amount of the spectrum shape change is reduced. The same applies when the preceding and subsequent segments are the same phoneme. If the preceding or succeeding segment is a voiced consonant, the spectrum shape change at the segment connection boundary is large, so the estimated amount of the spectrum shape change is increased.
- the waveform generation parameter selection unit 60 converts the segment information supplied from the segment selection unit 3, the prosody information supplied from the prosody generation unit 2, and the spectrum shape change degree supplied from the spectrum shape change degree estimation unit 62. Based on this, a waveform generation parameter used for generating a voiced sound waveform is selected.
- the waveform generation parameter selection unit 60 generates a waveform generation parameter selection function based on the estimated amount of spectrum shape change.
- the waveform generation parameter selection unit 60 adjusts the length of the correction section, for example, when using the selection function shown in FIG.
- the waveform generation parameter selection unit 60 makes the spectrum shape smoother by lengthening the correction section if the degree of change in the spectrum shape is small.
- the waveform generation parameter selection unit 60 adjusts the length of the correction section according to the magnitude of the spectrum shape change degree.
- the waveform generation parameter selection unit 60 similarly adjusts the distance between the end of the preceding segment on the segment boundary and the corrected selection function.
- the waveform generation parameter selection unit 60 increases the distance between the end of the preceding segment and the corrected selection function on the segment boundary if the degree of change in the spectrum shape is small.
- the waveform generation parameter selection function is controlled according to the attribute information of the speech unit.
- the speech synthesizer of this embodiment can generate synthesized speech with a smooth spectrum change, particularly in a section where the degree of change in spectrum shape is small.
- the present invention is not limited to the speech synthesizer described in each embodiment, and the configuration and operation thereof can be changed as appropriate without departing from the spirit of the invention.
- FIG. 10 is a block diagram showing the configuration of the main part of the speech synthesizer according to the present invention.
- the speech synthesizer according to the present invention has, as a main configuration, a unit selection unit that selects a speech unit to be used for synthesis from a plurality of previously stored speech units based on an input character string. 3 and a waveform generation unit 4 including a waveform generation parameter selection unit 50 for selecting a waveform generation parameter extracted from the speech segment, and generating a synthesized speech using the selected waveform generation parameter.
- the waveform generation parameter selection unit 50 also selects a waveform generation parameter selection function, which is a function indicating where the waveform generation parameters on the time axis of the speech segment are to be placed on the time axis of the synthesized speech.
- the waveform generation parameters are selected based on the waveform generation parameter selection function.
- speech synthesis apparatuses as shown in the following (1) to (4) are also disclosed.
- the waveform generation parameter selection unit includes a first function that connects the start and end of a preceding unit that is one of the selected plurality of speech units, and a speech unit that follows the preceding unit. If the waveform generation parameter selection function that connects the second function connecting the start and end of a certain subsequent segment is generated and the preceding segment and the subsequent segment are continuous, the slope of the waveform generation parameter selection function A speech synthesizer that makes corrections to smooth out changes.
- the waveform generation parameter selection unit is configured such that the waveform generation parameter selection function is on a straight line connecting the start end of the preceding segment and the end of the subsequent segment, and the end time of the preceding segment on the time axis of the synthesized speech It is also possible to make the change in the slope smooth by correcting so as to pass through the internal dividing point of the straight line connecting the point at and the end of the preceding element.
- the waveform generation parameter selection unit smoothes the change in inclination by correcting using the line connecting the internal dividing point of the first function and the internal dividing point of the second function.
- the waveform generation parameter selection function may be generated.
- the speech synthesizer includes a spectral shape change degree estimation unit (for example, a spectral shape change degree estimation unit 62) that estimates the spectral change degree at the connection boundary of the speech unit based on the attribute information of the speech unit.
- the waveform generation parameter selection unit may be configured to generate a waveform generation parameter selection function based on the estimated degree of spectrum change.
- the present invention can be applied to information providing services using synthesized speech.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
収録音声上で連続している素片が選択されている区間において、スペクトル変化が滑らかである合成音声を生成できる音声合成装置を提供する。音声合成装置は、入力文字列に基づいて、予め記憶された複数の音声素片から合成に用いる音声素片を選択する素片選択部3と、音声素片から抽出された波形生成パラメータを選択する波形生成パラメータ選択部50を含み、選択された波形生成パラメータを用いて合成音声を生成する波形生成部4とを備え、波形生成パラメータ選択部50は、音声素片の時間軸上の波形生成パラメータを合成音声の時間軸上のどこに配置するかを示す関数である波形生成パラメータ選択関数を、選択された音声素片の連続性を考慮して生成し、当該波形生成パラメータ選択関数に基づいて波形生成パラメータを選択する。
Description
本発明は、音声合成技術に関し、特に、入力されたテキストに基づいて音声を合成するための音声合成装置、音声合成方法及び音声合成プログラムに関する。
入力された文字列を解析し、その文字列が示す音声情報から合成音声を生成する音声合成装置が知られている。このような音声合成装置は、先ず入力された文字列を解析して得られた言語処理結果を基に、合成音声の韻律情報(音の高さ(ピッチ)、音の長さ(音韻継続時間長)、及び、音の大きさ(パワー)等に関する情報)を生成する。
次に、音声合成装置は、言語処理結果や生成された韻律情報(「目標韻律情報」と呼ぶ)を基に、最適な素片を素片辞書の中から複数選択し、一つの最適素片系列を作成する。なお、素片は、音声素片と呼ばれることもあり、収録された音声に基づいて例えば半音節程度毎に予め生成されている。また、一般的に、1つの音声(ここでは、半音節程度の音声)に対して、種々の収録音声から複数種類の素片が生成される。そして、最適素片系列から波形生成パラメータ系列を形成し、その系列から音声波形を生成することで合成音声が得られる。素片辞書に蓄積されている素片は、多量の自然音声から様々な手法を用いて抽出、生成される。
このような音声合成装置は、選択された素片から合成音声波形を生成する際に、高い音質を確保する目的で、生成された韻律情報に近い韻律を有する音声波形を素片から作り出す。そこで、合成音声波形と、その合成音声の生成に用いる素片の両者を生成する方法として、例えば非特許文献1に記載された方法が用いられる。
図11は、非特許文献1における波形生成パラメータの割り当てを示す説明図である。図11に示す通り、非特許文献1に記載された方法により生成される波形生成パラメータは、収録音声のピッチから算出されたピッチ同期位置を中心に、ピッチから算出された時間幅を有する窓関数が用いられ、音声波形から切り出された波形(ピッチ波形)である。そして、非特許文献1に記載の方法により合成音声波形を生成する場合、言語処理結果から生成されたピッチ、つまり合成音声のピッチに基づいて、波形生成パラメータ(ピッチ波形)が波形生成パラメータ系列の中から選択される。そして、選択されたピッチ波形の連結により合成音声波形が生成される。ピッチ波形の選択は、基本的には収録音声と合成音声のピッチ同期位置の対応関係に基づいて行われる。
なお、非特許文献7には、波形パラメータとして、ピッチ波形の他にパワースペクトル、線形予測係数、ケプストラム、メルケプストラム、LSP(Line Spectrum Pair)などが用いられることが記載されている。
Moulines, Charapentier: "Pitch-Synchronous Waveform Processing Techniques For Text-To-Speech Synthesis Using Diphones",Speech Communication,1990年, vol. 9, pp.435-467.
阿部匡伸: "音声合成のための合成単位の基礎", 電子情報通信学会技術研究報告,2000年, Vol. 100, No. 392, pp.35-42.
石川泰,「音声合成のための韻律制御の基礎」,社団法人電子情報通信学会,電子情報通信学会技術研究報告, 2000年, Vol.100,No.392,pp.27-34
R.Suzuki and M. Misaki, "Time-scale modification of speech signals using cross-correlation functions", IEEE Trans. Consum. Electron., 1992, vol.38, pp.357-363.
清山ほか: "高品質リアルタイム話速変換システムの開発", 電子情報通信学会論文誌, 2001年6月, Vol.J84-D-II, No.6, pp.918-926.
Huang, Acero, Hon: "Spoken Language Processing", 2001, Prentice Hall, pp.689-836.
古井 貞煕、"新音響・音声工学"、近代科学社、2006年9月、p98-p143
しかし、非特許文献1に記載された波形生成方法では、適切な波形生成パラメータが選択されず合成音声の音質が低下する問題点がある。
非特許文献1によれば、予め定めた素片の境界位置に基づいて、個々の音声素片毎に目標韻律情報が忠実に再現されるよう波形生成パラメータが選択される。このため、波形生成パラメータの間引き、挿入が多く繰り返されるので、合成音声のスペクトルの時間変化に偏りが生じてしまい、滑らかなスペクトル変化を実現することが困難となる。よって、上記問題点が生じる。
そこで、本発明は、収録音声上で連続している素片が選択されている区間において、スペクトル変化が滑らかである合成音声を生成できる音声合成装置、音声合成方法及び音声合成プログラムを提供することを目的とする。
本発明による音声合成装置は、入力文字列に基づいて、予め記憶された複数の音声素片から合成に用いる前記音声素片を選択する素片選択部と、前記音声素片から抽出された波形生成パラメータを選択する波形生成パラメータ選択部を含み、選択された前記波形生成パラメータを用いて合成音声を生成する波形生成部とを備え、前記波形生成パラメータ選択部は、前記音声素片の時間軸上の波形生成パラメータを前記合成音声の時間軸上のどこに配置するかを示す関数である波形生成パラメータ選択関数を、選択された前記音声素片の連続性を考慮して生成し、当該波形生成パラメータ選択関数に基づいて波形生成パラメータを選択することを特徴とする。
本発明による音声合成方法は、入力文字列に基づいて、予め記憶された複数の音声素片から合成に用いる前記音声素片を選択し、前記音声素片の時間軸上の波形生成パラメータを前記合成音声の時間軸上のどこに配置するかを示す関数である波形生成パラメータ選択関数を、選択された前記音声素片の連続性を考慮して生成し、当該波形生成パラメータ選択関数に基づいて、前記音声素片から抽出された波形生成パラメータを選択し、選択された前記波形生成パラメータを用いて合成音声を生成することを特徴とする。
本発明による音声合成プログラムは、コンピュータに、入力文字列に基づいて、予め記憶された複数の音声素片から合成に用いる前記音声素片を選択する素片選択処理と、前記音声素片の時間軸上の波形生成パラメータを前記合成音声の時間軸上のどこに配置するかを示す関数である波形生成パラメータ選択関数を、選択された前記音声素片の連続性を考慮して生成し、当該波形生成パラメータ選択関数に基づいて、前記音声素片から抽出された波形生成パラメータを選択する波形生成パラメータ選択処理を含み、選択された前記波形生成パラメータを用いて合成音声を生成する波形生成処理とを実行させることを特徴とする。
本発明によれば、収録音声上で連続している素片が選択されている区間において、スペクトル変化が滑らかな合成音声を生成できる。
以下、本発明の実施の形態について図面を参照して詳細に説明する。
実施形態1.
図1は、本発明による音声合成装置の第1の実施形態(実施形態1)の構成を示すブロック図である。図1に示すように本実施形態の音声合成装置は、言語処理部1と、韻律生成部2と、素片選択部3と、波形生成部4と、素片情報記憶部10とを備える。波形生成部4は、有声音生成部5と、無声音生成部6と、波形連結部7とを含む。また、有声音生成部5は、波形生成パラメータ選択部50と、有声音波形生成部51とを含む。
図1は、本発明による音声合成装置の第1の実施形態(実施形態1)の構成を示すブロック図である。図1に示すように本実施形態の音声合成装置は、言語処理部1と、韻律生成部2と、素片選択部3と、波形生成部4と、素片情報記憶部10とを備える。波形生成部4は、有声音生成部5と、無声音生成部6と、波形連結部7とを含む。また、有声音生成部5は、波形生成パラメータ選択部50と、有声音波形生成部51とを含む。
素片情報記憶部10は、音声素片を表す音声素片情報と、各音声素片の属性を表す属性情報とを記憶する。音声素片は、音声を合成する音声合成処理の基となる基礎音声(人間が発した音声(自然音声))の一部であり、基礎音声を音声合成単位毎に分割することにより生成される。
本実施形態では、音声素片情報は、音声素片から抽出され且つ合成音声波形の生成に用いられる波形生成パラメータの時系列データを含む。波形生成パラメータには、以下の説明ではピッチ波形を用いるが、例えば、パワースペクトル、線形予測係数、ケプストラム、メルケプストラム、LSPなどであってもよい(非特許文献7参照)。また、波形生成パラメータには、特に素片のデータ量削減が必要な場合には、線形予測係数やLSPなどを波形生成パラメータとして利用することが好ましい。また、音声合成単位は、音節である。なお、音声合成単位は、特許文献2に示されているとおり、音素、半音素、CV(Consonant(子音) Vowel(母音))等の半音節、CVC、又はVCV等であってもよい。
属性情報は、基礎音声に対応する文字列(収録文)を表す情報を含む言語情報と、基礎音声の韻律情報を含む。言語情報は、例えば、漢字かな混じり文で表される情報である。さらに、言語情報は、読み、音節列、音素列、アクセント位置、アクセント句区切り、形態素の品詞等の情報を含んでいてもよい。また、韻律情報は、ピッチ(基本周波数)、振幅、短時間パワーの時系列、及び、自然音声に含まれる各音節、音素、ポーズの継続時間長等を含む。
言語処理部1は、入力されたテキスト文の文字列を分析する。具体的には、言語処理部1は、形態素解析、構文解析、または読み付け等の分析を行う。そして、言語処理部1は分析結果に基づいて、音素記号等の「読み」を表す記号列を表す情報と、形態素の品詞、活用、およびアクセント型等を表す情報とを言語解析処理結果として韻律生成部2と素片選択部3とに出力する。
韻律生成部2は、言語処理部1によって出力された言語解析処理結果に基づいて、合成音声の韻律を生成し、生成した韻律を示す韻律情報を目標韻律情報として素片選択部3および波形生成部4に出力する。韻律の生成には、例えば、特許文献3に記載された方法が用いられる。
素片選択部3は、言語解析処理結果と目標韻律情報とに基づいて、素片情報記憶部10に記憶されている素片のうち、所定の要件を満たす素片を選択し、選択した素片とその素片の属性情報とを波形生成部4に出力する。
素片選択部3の動作の詳細を説明する。素片選択部3は、入力された言語解析処理結果と目標韻律情報とに基づいて、合成音声の特徴を示す情報(以下、これを「目標素片環境」と呼ぶ。)を音声合成単位毎に生成する。
目標素片環境は、当該目標素片環境の生成対象の合成音声を構成する該当音素、該当音素の前の音素である先行音素、該当音素の後の音素である後続音素、ストレスの有無、アクセント核からの距離、音声合成単位毎のピッチ周波数、パワー、音声合成単位の継続時間長、ケプストラム、MFCC(Mel Frequency Cepstral Coefficients)、およびこれらの単位時間あたりの変化量等を含む情報である。
次に、素片選択部3は、生成した目標素片環境に含まれる情報に基づいて、合成音声単位毎に、連続する音素に対応する素片を素片情報記憶部10からそれぞれ複数取得する。つまり、素片選択部3は、目標素片環境に含まれる情報に基づいて、該当音素、先行音素、および後続音素のそれぞれに対応する素片をそれぞれ複数取得する。取得された素片は、合成音声を生成するために用いられる素片の候補であり、以下、候補素片という。
そして、素片選択部3は、取得した複数の隣接する候補素片の組み合わせ(例えば、該当音素に対応する候補素片と先行音素に対応する候補素片との組み合わせ)毎に、音声を合成するために用いる素片としての適切度を示す指標であるコストを算出する。コストは、目標素片環境と候補素片の属性情報との差異、および隣接する候補素片の属性情報の差異の算出結果である。
算出結果の値であるコストは、目標素片環境によって示される合成音声の特徴と候補素片との類似度が高いほど、つまり音声を合成するための適切度が高くなるほど小さくなる。また、隣接する候補素片の属性情報の差異が小さいほど、つまり素片接続時のギャップが小さいほど、コストは小さくなる。そして、コストが小さい素片を用いるほど、合成された音声は、人間が発した音声と類似している程度を示す自然度が高くなる。従って、素片選択部3は、算出したコストが最も小さい素片を選択する。
素片選択部3で計算されるコストは、具体的には、単位コストと接続コストとがある。単位コストによって、候補素片が目標素片環境によって示される環境で用いられた場合に生じると推定される音質劣化度が示される。単位コストは、候補素片の属性情報と目標素片環境との類似度にもとづいて算出される。また、接続コストによって、接続する音声素片間の素片環境が不連続であることによって生じると推定される音質劣化度が示される。接続コストは、隣接する候補素片同士の素片環境の親和度にもとづいて算出される。単位コストおよび接続コストの算出方法には、各種提案されている一般的な方法が用いられる。
素片選択部3は、候補素片の中から音声の合成に最も適した素片として、算出したコストが最小となる組み合わせの素片を選択する。なお、素片選択部3によって選択された素片を「最適素片」と呼ぶ。
波形生成部4は、韻律生成部2から供給された目標韻律情報と、素片選択部3から供給された選択素片及びその属性情報を基に、目標韻律に一致若しくは類似する韻律を有する音声波形を生成し、生成した音声波形を接続して合成音声を生成する。
ところで、素片選択部3から供給される素片情報が表す素片は、有声音からなる素片と、無声音からなる素片と、に分類される。有声音に対する韻律制御を行うために用いられる方法と、無声音に対する韻律制御を行うために用いられる方法と、は互いに異なる。従って、波形生成部4は、有声音生成部5と無声音生成部6と、有声音と無声音を連結する波形連結部7とを含む。
無声音生成部6は、素片選択部3から供給された素片を基に、韻律生成部2から供給された韻律情報に一致若しくは類似する韻律を有する無声音波形を生成する。本実施形態では、素片選択部3から供給された無声音の素片は切り出された音声波形であるので、無声音生成部6は、非特許文献4に記載された方法を用いて無声音波形を生成することができる。また、非特許文献5に記載の方法を用いてもよい。
有声音生成部5は、波形生成パラメータ選択部50と有声音波形生成部51を備える。波形生成パラメータ選択部50は、素片選択部3から供給された素片情報と、韻律生成部2から供給された韻律情報に基づき、有声音波形の生成に用いる波形生成パラメータの選択を行う。
図2は、波形生成パラメータ選択部50の動作を示すフローチャートである。波形生成パラメータ選択部50は、はじめに、最適素片の時間長と目標時間長から、どの波形生成パラメータを合成音声の時間軸上のどこに配置するかを決定する関数を生成する(ステップS1)。この関数は、波形生成パラメータの選択に用いる関数であることから、本実施形態では、この関数のことを「波形生成パラメータ選択関数」と呼ぶ。
例えば最適素片の時間長をTu、目標時間長をToとすると、波形生成パラメータ選択部50は、以下の式(1)のような直線関数を波形生成パラメータ選択関数として各最適素片に対して生成する。
次に、波形生成パラメータ選択部50は、全ての選択素片に対して、後続素片と連続しているか否かをチェックする(ステップS2)。ここで、後続素片と連続しているとは、素片情報記憶部10に記憶された選択元の収録音声上で連続していることを意味する。例えば、素片の単位が音節であり、チェック対象の素片(ここでは「先行素片」と呼ぶことにする)の音節が「う」、チェック対象の後続素片の音節が「ま」のとき、先行素片と後続素片がそれぞれ「うし」と「まり」のような別々の収録音声から選択されたならば、先行素片と後続素片は不連続であると言える。一方、「うまい」や「しまうま」のように同一の収録音声上の連続した区間から選択されたならば、先行素片と後続素片は連続していると言える。
素片選択部3が選択した素片がもし連続していた場合、その連続性を考慮して滑らかなスペクトル変化を実現することが好ましい。そのため、波形生成パラメータ選択部50は、先行と後続のそれぞれの素片に対する波形生成パラメータ選択関数を用いて、両者が用いる共通の波形生成パラメータ選択関数を求める。例えば先行と後続の最適素片の時間長をTu1及びTu2、目標時間長をTo1及びTo2、とすると、以下の式(2)に示すような折れ線関数が求められる。
図3は、波形生成パラメータの割り当てを示す説明図である。図3は、素片が連続しているときに、目標時間長に合わせて波形生成パラメータを割り当てる例を示している状況示している。「N番目の素片」が先行素片、「N+1番目の素片」が後続素片を表す。図4は、図3に示した割り当てに基づきFu2(t)をプロットした例を示す説明図である。
次に、波形生成パラメータ選択部50は、先行と後続の最適素片から適切な波形生成パラメータを選択するのに用いられる波形生成パラメータ選択関数を補正し、連続性を考慮した波形生成パラメータ選択関数を求める(ステップS3)。この補正された波形生成パラメータ選択関数の求め方には、以下に説明するいくつの方法がある。
図5は、波形生成パラメータ選択関数の第1の例を示す説明図である。図5に示すように、波形生成パラメータ選択関数の第1の例は、先行及び後続のそれぞれ素片の中点を通過する直線を導入することにより生成される。このとき、波形生成パラメータ選択関数には、以下の式(3)のような折れ線関数が用いられる。
図6は、波形生成パラメータ選択関数の第2の例を示す説明図である。図6に示す、波形生成パラメータ選択関数の第2の例は、先行素片の始端と後続素片の終端を結ぶ直線関数に基づき求められる。例えば、図6に示すように、素片接続境界線と直線関数の交点(To1,Q)と、先行素片の終端(To1,Tu1)の中点を通過する折れ線関数が波形生成パラメータ選択関数として用いられる。このとき、(To1,Q)と(To1,Tu1)の中点を(To1,Tum)とすると、以下の式(4)で表される折れ線関数が波形生成パラメータ選択関数として用いられる。
式(4)において、Tumは以下の式(5)のように表される。
図7は、波形生成パラメータ選択関数の第3の例を示す説明図である。図7に示す波形生成パラメータ選択関数の第3の例は、折れ線関数Fu2(t)を平滑化することにより求められる。平滑化方法として、例えば、折れ線関数を時系列と見なし、移動平均や一次リーク積分で平滑化する方法が用いられる。
波形生成パラメータ選択部50は、第1の例から第3の例の方法を用いることで、波形生成パラメータ選択関数の傾きの変化を滑らかにする。これにより、本実施形態の音声合成装置は、スペクトル変化が滑らかな合成音声を生成できる。
以上の補正方法は、補正対象の波形生成パラメータ選択関数が折れ線関数であることを前提に説明したが、曲線などの折れ線関数以外の関数についても同様の方法を用いることが可能である。また、図5に示した第1の例に関して、補正した波形生成パラメータ選択関数が、先行や後続の素片の中点を通過する例を説明したが、波形生成パラメータ選択関数は、中点以外の点を通過する関数でもよい。また、図6に示した第2の例に関して、補正した波形生成パラメータ選択関数が、素片接続境界線と直線関数の交点(To1,Q)と、先行素片の終端(To1,Tu1)の中点を通過する例を説明したが、波形生成パラメータ選択関数は、こちらも中点以外の点を通過する関数でもよい。
次に、波形生成パラメータ選択部50は、韻律生成部2で生成されたピッチ時系列からピッチ同期時刻(ピッチマークとも呼ばれる)を算出する(ステップS4)。ピッチ時系列からピッチ同期位置を算出する方法は、例えば、非特許文献6に記載されている。波形生成部4は、例えば、非特許文献6に記載された方法でピッチ同期位置を算出すればよい。
そして、波形生成パラメータ選択部50は、波形生成パラメータ選択関数を用いて、ピッチ同期時刻に最も近い波形生成パラメータを選択する(ステップS5)。選択方法は、連続性を考慮しない場合と同様に、先ず合成音声のピッチ同期位置から波形生成パラメータ選択関数を利用して、理想的な波形生成パラメータ位置の時刻を算出する。次に、波形生成パラメータ選択部50は、その時刻に最も近い波形生成パラメータを採用する。例えば、第n番目の波形生成パラメータ位置の時刻が100ミリ秒、第n+1番目の波形生成パラメータ位置の時刻が180ミリ秒であり、波形生成パラメータ選択関数で求まった時刻が160ミリ秒であった場合、第n+1番目の波形生成パラメータが選択される。
図8は、9つの波形生成パラメータから構成される2つの音声素片から、有声音波形を生成する様子を示した説明図である。図8に示す例では、波形生成パラメータ選択関数としては、図5に示した関数を用いている。また、図8に示す例では、ピッチ同期時刻に該当する波形生成パラメータは、第1,3,4,5,6,7,8,8,9の波形生成パラメータとなっているので、波形生成部4は、これらの波形生成パラメータを使って波形を生成する。
有声音波形生成部51は、波形生成パラメータ選択部50から供給された波形生成パラメータと、韻律生成部2から供給された韻律情報に基づき、有声音波形の生成を行う。有声音波形生成部51は、選択された各波形生成パラメータの中心をピッチ同期時刻に配置することで有声音波形を生成する。波形生成パラメータがピッチ波形である場合、有声音波形生成部51は、ピッチ波形をピッチ同期時刻に配置することで有声音波形を生成する。
波形連結部7は、有声音生成部5から供給された有声音波形と無声音生成部6から供給された無声音波形を連結し、合成音声波形として出力する。具体的には、例えば、波形連結部7は、有声音生成部5が生成した有声音の波形がv(t)であり(ただし、t=1,2,3,・・・,t_v)、無声音生成部6が生成した無声音の波形がu(t)である(ただし、t=1,2,3,・・・,t_u)場合に、有声音の波形v(t)と無声音の波形u(t)とを連結して、以下に示す合成音声の波形x(t)を生成して出力する。
t=1~t_vのとき:x(t)=v(t)
t=t_v+1~t_v+t_uのとき:x(t)=u(t-t_v)
t=t_v+1~t_v+t_uのとき:x(t)=u(t-t_v)
以上のように、本実施形態の音声合成装置は、連続性を考慮して波形生成パラメータ選択関数を補正する。このため、本実施形態の音声合成装置によれば、収録音声上で連続している素片が選択されている区間において、非特許文献1等に開示された一般的な方法と比べてスペクトル変化が滑らかである合成音声を生成できる。
実施形態2.
次に、本発明の第2の実施形態の音声合成装置について説明する。第2の実施形態に係る音声合成装置は、音声素片の属性情報に応じてスペクトル変化度を推定し、推定したスペクトル変化度に基づいて波形生成パラメータ選択関数を制御する点において第1の実施形態に係る音声合成装置と相違している。従って、以下、かかる相違点を中心に説明する。
次に、本発明の第2の実施形態の音声合成装置について説明する。第2の実施形態に係る音声合成装置は、音声素片の属性情報に応じてスペクトル変化度を推定し、推定したスペクトル変化度に基づいて波形生成パラメータ選択関数を制御する点において第1の実施形態に係る音声合成装置と相違している。従って、以下、かかる相違点を中心に説明する。
図9は、本発明による音声合成装置の第2の実施形態の構成を示すブロック図である。図9に示す本実施形態の音声合成装置の構成は、図1に示す第1の実施形態の音声合成装置の構成と対比すると、波形生成パラメータ選択部50が波形生成パラメータ選択部60に置換され、スペクトル形状変化度推定部62を新たに備えている。
スペクトル形状変化度推定部62は、素片情報記憶部10から供給された素片の属性情報に基づいて、素片接続境界におけるスペクトル形状の変化度を推定する。スペクトル形状変化度推定部62は、スペクトル形状の変化度の推定に、属性情報に含まれる言語情報や韻律情報を利用する。言語情報の中で音素や音節の種別を利用する場合は、該当する種別ごとに音声スペクトルの形状変化速度を推定する方法が有効である。例えば、先行と後続の素片を合わせた素片が長母音の音節であれば、素片接続境界におけるスペクトル形状の変化は小さいので、スペクトル形状変化度の推定量は小さくする。先行と後続の素片が同一の音素である場合も同様である。また、先行又は後続の素片が有声子音であれば、素片接続境界におけるスペクトル形状の変化は大きいので、スペクトル形状変化度の推定量は大きくする。
波形生成パラメータ選択部60は、素片選択部3から供給された素片情報と、韻律生成部2から供給された韻律情報と、スペクトル形状変化度推定部62から供給されたスペクトル形状変化度に基づき、有声音波形の生成に用いる波形生成パラメータの選択を行う。波形生成パラメータ選択部60は、スペクトル形状変化度の推定量に基づき波形生成パラメータ選択関数を生成する。
波形生成パラメータ選択部60は、例えば、図5に示した選択関数を利用する場合、補正区間の長さを調整する。波形生成パラメータ選択部60は、もしスペクトル形状変化度が小さい場合に補正区間を長くすることで、より滑らかなスペクトル形状とする。スペクトル形状変化度が大きい場合、補正区間を長くすると補正量が多くなり音声素片と合成素片との韻律の差が大きくなるため好ましくない。よって、波形生成パラメータ選択部60は、スペクトル形状変化度の大きさに応じて補正区間の長さを調節する。また、波形生成パラメータ選択部60は、図6に示した選択関数を利用する場合、同様に素片境界上における先行素片の終端と補正後の選択関数の距離を調整する。波形生成パラメータ選択部60は、もしスペクトル形状変化度が小さければ、素片境界上において先行素片の終端と補正後の選択関数の距離を長くする。
本実施形態の音声合成装置によれば、音声素片の属性情報に応じて波形生成パラメータ選択関数を制御する。この結果、本実施形態の音声合成装置は、特にスペクトル形状変化度が小さい区間において、スペクトル変化が滑らかである合成音声を生成することができる。
本発明は、各実施形態で説明した音声合成装置に限定されるものではなく、その構成および動作は、発明の趣旨を逸脱しない範囲で適宜に変更することができる。
図10は、本発明による音声合成装置の主要部の構成を示すブロック図である。図10に示すように、本発明による音声合成装置は、主要な構成として、入力文字列に基づいて、予め記憶された複数の音声素片から合成に用いる音声素片を選択する素片選択部3と、音声素片から抽出された波形生成パラメータを選択する波形生成パラメータ選択部50を含み、選択された波形生成パラメータを用いて合成音声を生成する波形生成部4とを備える。また、波形生成パラメータ選択部50は、音声素片の時間軸上の波形生成パラメータを合成音声の時間軸上のどこに配置するかを示す関数である波形生成パラメータ選択関数を、選択された音声素片の連続性を考慮して生成し、当該波形生成パラメータ選択関数に基づいて波形生成パラメータを選択する。
また、上記の実施形態には、以下の(1)~(4)に示すような音声合成装置も開示されている。
(1)波形生成パラメータ選択部が、選択された複数の音声素片のうちの一つである先行素片の始端と終端とを結ぶ第一の関数と、先行素片に続く音声素片である後続素片の始端と終端とを結ぶ第二の関数とを接続した波形生成パラメータ選択関数を生成し、先行素片と後続素片とが連続していた場合、波形生成パラメータ選択関数の傾きの変化を滑らかにする補正をする音声合成装置。
(2)波形生成パラメータ選択部は、波形生成パラメータ選択関数が、先行素片の始端と後続素片の終端とを結ぶ直線上であって合成音声の時間軸上の先行素片の終端の時刻における点と、先行素片の終端とを結ぶ直線の内分点を通過するように補正することにより傾きの変化を滑らかにするように構成されていてもよい。
(3)音声合成装置は、波形生成パラメータ選択部が、第一の関数の内分点と第二の関数の内分点とを結ぶ線を用いて補正することにより傾きの変化を滑らかにした波形生成パラメータ選択関数を生成するように構成されていてもよい。
(4)音声合成装置は、音声素片の属性情報に基づいて、音声素片の接続境界におけるスペクトル変化度を推定するスペクトル形状変化度推定部(例えば、スペクトル形状変化度推定部62)を備え、波形生成パラメータ選択部は、推定されたスペクトル変化度に基づいて波形生成パラメータ選択関数を生成するように構成されていてもよい。
この出願は、2012年7月27日に出願された日本出願特願2012-167220を基礎とする優先権を主張し、その開示の全てをここに取り込む。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
本発明は、合成音声を用いた情報提供サービス等に適用できる。
1 言語処理部
2 韻律生成部
3 素片選択部
4 波形生成部
5 有声音生成部
6 無声音生成部
7 波形連結部
10 素片情報記憶部
50,60 波形生成パラメータ選択部
51 有声音波形生成部
62 スペクトル形状変化度推定部
2 韻律生成部
3 素片選択部
4 波形生成部
5 有声音生成部
6 無声音生成部
7 波形連結部
10 素片情報記憶部
50,60 波形生成パラメータ選択部
51 有声音波形生成部
62 スペクトル形状変化度推定部
Claims (7)
- 入力文字列に基づいて、予め記憶された複数の音声素片から合成に用いる前記音声素片を選択する素片選択部と、
前記音声素片から抽出された波形生成パラメータを選択する波形生成パラメータ選択部を含み、選択された前記波形生成パラメータを用いて合成音声を生成する波形生成部とを備え、
前記波形生成パラメータ選択部は、
前記音声素片の時間軸上の波形生成パラメータを前記合成音声の時間軸上のどこに配置するかを示す関数である波形生成パラメータ選択関数を、選択された前記音声素片の連続性を考慮して生成し、当該波形生成パラメータ選択関数に基づいて波形生成パラメータを選択する
ことを特徴とする音声合成装置。 - 波形生成パラメータ選択部は、
選択された複数の音声素片のうちの一つである先行素片の始端と終端とを結ぶ第一の関数と、前記先行素片に続く音声素片である後続素片の始端と終端とを結ぶ第二の関数とを接続した波形生成パラメータ選択関数を生成し、
前記先行素片と前記後続素片とが連続していた場合、前記波形生成パラメータ選択関数の傾きの変化を滑らかにする補正をする
請求項1記載の音声合成装置。 - 波形生成パラメータ選択部は、
波形生成パラメータ選択関数が、先行素片の始端と後続素片の終端とを結ぶ直線上であって合成音声の時間軸上の前記先行素片の終端の時刻における点と、前記先行素片の終端とを結ぶ直線の内分点を通過するように補正することにより傾きの変化を滑らかにする
請求項2記載の音声合成装置。 - 前記波形生成パラメータ選択部は、
第一の関数の内分点と第二の関数の内分点とを結ぶ線を用いて補正することにより傾きの変化を滑らかにした波形生成パラメータ選択関数を生成する
ことを特徴とする請求項2記載の音声合成装置。 - 音声素片の属性情報に基づいて、前記音声素片の接続境界におけるスペクトル変化度を推定するスペクトル形状変化度推定部を備え、
波形生成パラメータ選択部は、
推定された前記スペクトル変化度に基づいて波形生成パラメータ選択関数を生成する
請求項1から請求項4のいずれか1項に記載の音声合成装置。 - 入力文字列に基づいて、予め記憶された複数の音声素片から合成に用いる前記音声素片を選択し、
前記音声素片の時間軸上の波形生成パラメータを前記合成音声の時間軸上のどこに配置するかを示す関数である波形生成パラメータ選択関数を、選択された前記音声素片の連続性を考慮して生成し、当該波形生成パラメータ選択関数に基づいて、前記音声素片から抽出された波形生成パラメータを選択し、
選択された前記波形生成パラメータを用いて合成音声を生成する
ことを特徴とする音声合成方法。 - コンピュータに、
入力文字列に基づいて、予め記憶された複数の音声素片から合成に用いる前記音声素片を選択する素片選択処理と、
前記音声素片の時間軸上の波形生成パラメータを前記合成音声の時間軸上のどこに配置するかを示す関数である波形生成パラメータ選択関数を、選択された前記音声素片の連続性を考慮して生成し、当該波形生成パラメータ選択関数に基づいて、前記音声素片から抽出された波形生成パラメータを選択する波形生成パラメータ選択処理を含み、選択された前記波形生成パラメータを用いて合成音声を生成する波形生成処理とを
実行させるための音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014526737A JPWO2014017024A1 (ja) | 2012-07-27 | 2013-06-27 | 音声合成装置、音声合成方法、及び音声合成プログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012167220 | 2012-07-27 | ||
JP2012-167220 | 2012-07-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2014017024A1 true WO2014017024A1 (ja) | 2014-01-30 |
Family
ID=49996852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2013/004023 WO2014017024A1 (ja) | 2012-07-27 | 2013-06-27 | 音声合成装置、音声合成方法、及び音声合成プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2014017024A1 (ja) |
WO (1) | WO2014017024A1 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0990987A (ja) * | 1995-09-26 | 1997-04-04 | Toshiba Corp | 音声合成方法及び装置 |
JPH11338488A (ja) * | 1998-05-26 | 1999-12-10 | Ricoh Co Ltd | 音声合成装置及び音声合成方法 |
JP2009069179A (ja) * | 2007-09-10 | 2009-04-02 | Toshiba Corp | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
JP2010026223A (ja) * | 2008-07-18 | 2010-02-04 | Nippon Hoso Kyokai <Nhk> | 目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム |
JP2010078808A (ja) * | 2008-09-25 | 2010-04-08 | Toshiba Corp | 音声合成装置及び方法 |
-
2013
- 2013-06-27 WO PCT/JP2013/004023 patent/WO2014017024A1/ja active Application Filing
- 2013-06-27 JP JP2014526737A patent/JPWO2014017024A1/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0990987A (ja) * | 1995-09-26 | 1997-04-04 | Toshiba Corp | 音声合成方法及び装置 |
JPH11338488A (ja) * | 1998-05-26 | 1999-12-10 | Ricoh Co Ltd | 音声合成装置及び音声合成方法 |
JP2009069179A (ja) * | 2007-09-10 | 2009-04-02 | Toshiba Corp | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
JP2010026223A (ja) * | 2008-07-18 | 2010-02-04 | Nippon Hoso Kyokai <Nhk> | 目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム |
JP2010078808A (ja) * | 2008-09-25 | 2010-04-08 | Toshiba Corp | 音声合成装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2014017024A1 (ja) | 2016-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3913770B2 (ja) | 音声合成装置および方法 | |
US8175881B2 (en) | Method and apparatus using fused formant parameters to generate synthesized speech | |
JP4966048B2 (ja) | 声質変換装置及び音声合成装置 | |
JP5159325B2 (ja) | 音声処理装置及びそのプログラム | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
US20080027727A1 (en) | Speech synthesis apparatus and method | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
JP4551803B2 (ja) | 音声合成装置及びそのプログラム | |
JP2006309162A (ja) | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム | |
US20110196680A1 (en) | Speech synthesis system | |
JP5930738B2 (ja) | 音声合成装置及び音声合成方法 | |
JP5983604B2 (ja) | 素片情報生成装置、音声合成装置、音声合成方法および音声合成プログラム | |
JP2009133890A (ja) | 音声合成装置及びその方法 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
US8407054B2 (en) | Speech synthesis device, speech synthesis method, and speech synthesis program | |
JPH09319391A (ja) | 音声合成方法 | |
WO2011118207A1 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP2003208188A (ja) | 日本語テキスト音声合成方法 | |
WO2014017024A1 (ja) | 音声合成装置、音声合成方法、及び音声合成プログラム | |
JP2011141470A (ja) | 素片情報生成装置、音声合成システム、音声合成方法、及び、プログラム | |
JP5245962B2 (ja) | 音声合成装置、音声合成方法、プログラム及び記録媒体 | |
JP2010078808A (ja) | 音声合成装置及び方法 | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP2008299266A (ja) | 音声合成装置および音声合成方法 | |
JP4869898B2 (ja) | 音声合成装置及び音声合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 13823266 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2014526737 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 13823266 Country of ref document: EP Kind code of ref document: A1 |