JP5605731B2 - Voice feature amount calculation device - Google Patents
Voice feature amount calculation device Download PDFInfo
- Publication number
- JP5605731B2 JP5605731B2 JP2012171737A JP2012171737A JP5605731B2 JP 5605731 B2 JP5605731 B2 JP 5605731B2 JP 2012171737 A JP2012171737 A JP 2012171737A JP 2012171737 A JP2012171737 A JP 2012171737A JP 5605731 B2 JP5605731 B2 JP 5605731B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- pitch
- learner
- pronunciation
- cpu
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Description
本発明は、お手本の発音の抑揚と学習者の発音の抑揚とを比較して評価する技術に関する。 The present invention relates to a technique for comparing and evaluating a model inflection and a learner's pronunciation inflection.
語学学習において、発音練習を行う際には、CD(CompactDisk)等の記録媒体に記録された模範音声を再生し、その模範音声の真似をして発音するという学習方法が広く用いられている。これは模範音声の真似をすることで正しい発音を身につけることを目的とするものである。このような学習を行う場合、学習者は自分の発音を把握し、模範音声との違いを認識して発音を改善していくこととなるが、模範音声と同じ発音ができているか否かを学習者自身が自分の発音を聞いて客観的に把握するのは難しい。
そこで、例えば、特許文献1に開示されているように、学習者が客観的に自分の音声を把握できるようにする技術が考案されている。特許文献1に開示されている語学学習装置は、発音のお手本となる音声と、学習者の音声とから抑揚等の音声情報を抽出する。そして、お手本の音声と、学習者の音声の類似度を求め、その類似度によって学習者の発音を採点し、抑揚等の採点結果をディスプレイに表示する。特許文献1に開示された技術によれば、学習者の発音が客観的に評価され、その評価結果が表示されるため、学習者は、自信の発音がお手本に近いものか否かを知ることができる。
In language learning, when practicing pronunciation, a learning method is widely used in which an exemplary voice recorded on a recording medium such as a CD (CompactDisk) is reproduced and pronounced by imitating the exemplary voice. The purpose of this is to acquire correct pronunciation by imitating model voices. In this kind of learning, the learner understands his / her pronunciation, recognizes the difference from the model voice and improves the pronunciation, but whether or not the same pronunciation as the model voice can be made. It is difficult for learners to listen to their own pronunciation and grasp it objectively.
Thus, for example, as disclosed in Patent Document 1, a technique has been devised that enables a learner to objectively grasp his / her voice. The language learning device disclosed in Patent Literature 1 extracts speech information such as intonation from a speech that serves as an example of pronunciation and a learner's speech. Then, the similarity between the model voice and the learner's voice is obtained, the learner's pronunciation is scored based on the similarity, and the score such as inflection is displayed on the display. According to the technique disclosed in Patent Document 1, the learner's pronunciation is objectively evaluated and the evaluation result is displayed, so that the learner knows whether or not his / her confidence pronunciation is close to a model. Can do.
さて、特許文献1においては、手本の音声の抑揚を示す曲線と、学習者の音声の抑揚を示す曲線とを重ね合わせて、抑揚の類似度を判断する方法が開示されており、自身の発音がお手本に近いものか否かを知ることが可能となっている。しかしながら、類似度だけでは、似ているか否かしか知ることができず、どのようにすればお手本の発音に近づけられるかを知ることはできない。このため、お手本の発音に一致した発音ができるようになるまでには、試行錯誤して発音の改善と評価とを繰り返すという、根気のいる学習を行うこととなる。 Patent Document 1 discloses a method for judging the similarity of intonation by superimposing a curve showing inflection of a model voice and a curve showing inflection of a learner's voice. It is possible to know whether the pronunciation is close to a model. However, it is only possible to know whether or not they are similar only by the degree of similarity, and it is not possible to know how to approximate the pronunciation of the model. For this reason, until a pronunciation that matches the pronunciation of the model can be achieved, it is necessary to carry out a persistent learning that repeats improvement and evaluation of pronunciation by trial and error.
本発明は、上述した背景の下になされたものであり、語学学習において、学習者の音声の抑揚を、お手本の音声の抑揚に近づけられるようにする技術を提供することを目的とする。 The present invention has been made under the above-described background, and an object of the present invention is to provide a technique for allowing the learner's voice inflection to approach that of the model voice in language learning.
本発明は、音声が入力される音声入力手段と、前記音声入力手段に入力された音声のピッチの時間的変化を示すピッチ曲線を生成し、生成したピッチ曲線の道程を抑揚の変化の大きさを表すパラメータとして算出する算出手段と、前記算出手段により算出された道程を出力する出力手段とを有する音声特徴量算出装置を提供する。
この態様においては、前記算出手段は、前記音声入力手段に入力された音声の無声区間については、該無声区間の前後の音声のピッチによって該無声区間のピッチを補間してピッチ曲線を生成するようにしてもよい。
The present invention generates voice input means for inputting a voice, and a pitch curve indicating a temporal change in pitch of the voice inputted to the voice input means, and the generated pitch curve path has a magnitude of inflection. There is provided an audio feature amount calculation device having a calculation unit that calculates a parameter that represents a path, and an output unit that outputs a route calculated by the calculation unit.
In this aspect, the calculation means generates a pitch curve by interpolating the pitch of the unvoiced section according to the pitch of the voice before and after the unvoiced section for the unvoiced section of the voice input to the voice input means. It may be.
本発明によれば、語学学習において、学習者は音声の抑揚を、お手本の音声の抑揚に近づけることができる。 According to the present invention, in language learning, a learner can approximate the inflection of speech to the inflection of a model speech.
以下、図面を参照して本発明の実施形態について説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[第1実施形態]
[実施形態の構成]
図1は、本発明の実施形態に係る語学学習装置1のハードウェア構成を例示したブロック図である。図1に示したように、語学学習装置1の各部は、バス101に接続されており、このバス101を介して各部間で信号やデータの授受を行う。
[First Embodiment]
[Configuration of the embodiment]
FIG. 1 is a block diagram illustrating a hardware configuration of a language learning device 1 according to an embodiment of the invention. As shown in FIG. 1, each unit of the language learning device 1 is connected to a
マイクロホン109は、音声処理部108に接続されており、入力される音声をアナログの電気信号(以下、音声信号と称する)に変換して音声処理部108へ出力する。スピーカ110は、音声処理部108に接続されており、音声処理部108から出力される信号に対応した音を出力する。音声処理部108は、マイクロホン109から入力される音声信号をデジタルデータ(以下、学習者データと称する)に変換して出力する機能や、音声を表すデジタルデータをアナログの音声信号に変換し、スピーカ110へ出力する機能を備えている。
The
表示部106は、例えば、液晶ディスプレイ等の表示デバイスを備えており、CPU102の制御の下、文字列や各種メッセージ、語学学習装置1を操作するためのメニュー画面等を表示する。入力部107は、キーボードやマウス等(いずれも図示略)の入力装置を具備しており、キーの押下やマウスの操作等に応じて操作内容に対応した信号をCPU102へ出力する。
The
記憶部105は、データを永続的に記憶するHDD(Hard Disk Drive)装置を備えており、各種データを記憶する。具体的には、記憶部105は、音声処理部108から出力される学習者データを記憶する。また、記憶部105は、語学学習に用いられる例文を表す例文テキストデータと、ネイティブスピーカが例文を読み上げた時の音声(以下、模範音声と称する)を表すデジタルデータ(以下、模範音声データと称する)とを記憶している。記憶部105は、図2に例示したフォーマットの例文テーブルTB1を記憶しており、このテーブルに例文テキストデータと、模範音声データのファイル名と、各例文テキストデータを一意に識別する識別子とを対応付けて格納している。
The
CPU(Central Processing Unit)102は、ROM(Read Only Memory)103に記憶されているプログラムを、RAM(Random Access Memory)104を作業エリアにして実行する。CPU102がプログラムを実行すると、CPU102によって各部が制御され、模範音声と、入力される学習者の音声(以下、学習者音声と称する)とを比較し、学習者音声の抑揚の評価結果を出力する機能が実現する。
A CPU (Central Processing Unit) 102 executes a program stored in a ROM (Read Only Memory) 103 using a RAM (Random Access Memory) 104 as a work area. When the
図3は、プログラムを実行することにより実現する機能の構成を示した機能ブロック図である。時間軸補正部10は、模範音声データが表す音声の発音時間と、記憶部105に記憶された学習者データが表す音声の発音時間とが同じとなるように、学習者データが表す音声を補正する。ピッチ抽出部20は、入力されるデータが示す音声を、再生時間軸上において所定の時間間隔で複数のフレームに分割し、分割されたフレーム毎に、各フレームの音声のピッチを抽出する。ピッチ補間部30は、無声区間や、無声子音の発音区間等、ピッチ抽出部20においてピッチを抽出することができなかったフレームについて、これらのフレームに隣接するフレームとの間で直線補間や3次スプライン補間等の補間を行い、これらのフレームのピッチを定める。ピッチ曲線生成部40は、ピッチ抽出部20でフレーム毎に求められたピッチと、ピッチ補間部30で補間されたピッチとを結んでピッチ曲線を生成する。道程計算部50は、ピッチ曲線生成部40で生成されたピッチ曲線の道程を計算する。
FIG. 3 is a functional block diagram showing a configuration of functions realized by executing a program. The time
[実施形態の動作]
次に本実施形態の動作について説明する。まず、学習者が例文の一覧の表示を指示する操作を行うと、CPU102は例文テーブルTB1に格納されている例文テキストデータを読み出し(図4:ステップSA1)、読み出したデータが表す例文の一覧を表示部106に表示する(ステップSA2)。この後、学習者が入力部107を操作し、表示された例文の一つを選択する操作を行うと(ステップSA3;YES)、CPU102は、表示部106に表示されている画面と、入力部107から送られる信号に基づいて、選択された例文を特定する(ステップSA4)。CPU102は、選択された例文を特定すると、例文テーブルTB1において、選択された例文に対応付けて格納されている模範音声データのファイル名を読み出す(ステップSA5)。例えば、図2に示したテーブルにおいて、識別子が「001」である例文が選択された場合、ファイル名「a001」が読み出される。
[Operation of the embodiment]
Next, the operation of this embodiment will be described. First, when the learner performs an operation to instruct display of a list of example sentences, the
次にCPU102は、読み出したファイル名で特定される模範音声データを記憶部105から読み出し、読み出したデータが示す音声のピッチを抽出する。具体的には、まずCPU102は、模範音声データが示す音声を、図5に示したように、その再生時間軸上において所定の時間間隔(例えば、5msec)で分割する(ステップSA6)(以下、各分割された区間をフレームと称する)。次にCPU102は、分割されたフレーム毎に、各フレームの音声のピッチを抽出する(ステップSA7)。なお、1フレームの時間間隔は、5msecではなく、10msec等、他の時間間隔であってもよい。CPU102は、分割されたフレーム毎にピッチを抽出すると、フレーム毎に求められたピッチを結んだピッチ曲線を生成し(以下、このピッチ曲線を第1ピッチ曲線と称する)、生成した第1ピッチ曲線を示す曲線データを記憶部105に記憶する(ステップSA8)。なお、無声区間や、無声子音の発音区間等、ピッチを抽出することができないフレームにおいては、直線補間や3次スプライン補間等の補間を行い、第1ピッチ曲線を生成する。
Next, the
CPU102は、第1ピッチ曲線の生成が終了すると、読み出したファイル名で特定される模範音声データを記憶部105から読み出し、読み出した模範音声データを音声処理部108へ出力する(ステップSA9)。音声処理部108に模範音声データが入力されると、デジタルデータである模範音声データがアナログの信号に変換されてスピーカ110へ出力され、スピーカ110から模範音声が再生される。
When the generation of the first pitch curve is completed, the
CPU102は、模範音声の再生が終了すると、表示部106を制御し、例えば、「キーを押してから発音し、発音が終わったら再度キーを押してください」という、例文の発音を促すメッセージを表示する(ステップSA10)。学習者は、スピーカ110から出力された模範音声を聞いた後、メッセージに従って入力部107を操作し、模範音声を真似て例文を読み上げる。学習者が発音すると、学習者の音声がマイクロホン109によって音声信号に変換され、変換された信号が音声処理部108へ出力される。音声処理部108は、マイクロホン109から出力された音声信号が入力されると、音声信号をデジタルデータである学習者データに変換する。この学習者データは、音声処理部108から出力されて記憶部105に記憶される。
When the reproduction of the model voice is finished, the
次にCPU102は、入力部107から送られる信号を監視し、学習者が発音を終了したか否かを判断する。学習者が発音を終了して入力部107を操作すると(ステップSA11;YES)、CPU102は、模範音声データが表す音声の発音時間と、記憶部105に記憶された学習者データが表す音声の発音時間とが同じとなるように、学習者データが表す音声を補正する(ステップSA12)。
Next, the
次にCPU102は、学習者データが示す音声を、ステップSA6の処理と同様にして、その再生時間軸上において複数のフレームに区切り(ステップSA13)、区切られたフレーム毎に、各フレームにおける音声のピッチを抽出する(ステップSA14)。CPU102は、フレーム毎にピッチを抽出すると、ステップSA8と同様にして、フレーム毎に求められたピッチを結んだピッチ曲線(以下、第2ピッチ曲線と称する)を生成し、生成した第2ピッチ曲線を 示すデータを記憶部105に記憶する(ステップSA15)。なお、ここでも、無声区間や、無声子音の発音区間等においては、直線補間や3次スプライン補間等の補間を行い、第2ピッチ曲線を生成する。
Next, the
CPU102は、第2ピッチ曲線の生成が終了すると、第1ピッチ曲線の道程を算出し、次に第2ピッチ曲線の道程を算出する(ステップSA16)。ピッチ曲線の道程は、図8に示したように、ピッチ曲線f(t)の1階微分の絶対値の積分を算出すると求まる。図8に示したように、抑揚の変化が大きな音声はピッチの変化が大きくなるため、ピッチ曲線の道程が長くなり、一方、抑揚の変化が小さな音声はピッチの変化が小さくなるため、ピッチ曲線の道程が短くなる。即ち、ピッチ曲線の道程は、抑揚の変化の大きさを表しているといえる。
When the generation of the second pitch curve is completed, the
次に、CPU102は、第1ピッチ曲線の道程と、第2ピッチ曲線の道程とを比較する(ステップSA17)。ピッチ曲線の道程は、抑揚の変化の大きさを表しているため、ピッチ曲線の道程を比較することにより、模範音声の抑揚と学習者音声の抑揚とで、どちらが抑揚の変化が大きいかを知ることができる。図8に示したように、第1ピッチ曲線の道程が第2ピッチ曲線の道程より長い場合、学習者音声の抑揚の変化量が模範音声の抑揚の変化量より小さいため、例えば、「抑揚の変化が少ない音声です」というメッセージを表示部106に表示し、発音を改善するのに有用な情報を学習者へ出力する(ステップSA18)。また、第2ピッチ曲線の道程が第1ピッチ曲線の道程より長い場合、学習者音声の抑揚の変化量が模範音声の抑揚の変化量より大きいため、例えば、「抑揚の変化が大きすぎます」というメッセージを表示部106に表示し、発音を改善するのに有用な情報を学習者へ出力する(ステップSA18)。また、第1ピッチ曲線の道程と第2ピッチ曲線の道程が同じ場合、学習者音声の抑揚の変化量が模範音声の抑揚の変化量と同じであるため、例えば、「良い発音です」というメッセージを表示部106に表示する(ステップSA18)。
Next, the
CPU102は、学習者へのメッセージの出力が終了すると、表示部106を制御し、選択した例文の発音練習を再度行うのか、他の例文の発音練習を行うのかを確認するメニュー画面を表示する(ステップSA19)。学習者が入力部107を操作し、別の例文の発音練習を行う旨の操作を行った場合(ステップ SA20;YES)、CPU102は、ステップSA1に処理の流れを戻し、ステップSA1以降の処理を再び実行する。また、学習者が入力部107を操作し、選択した例文の発音練習を再度行う旨の操作を行った場合(ステップSA21;YES)、CPU102は、ステップSA6に処理の流れを戻し、ステップSA6以降の処理を再び実行する。
When the
以上説明したように本実施形態によれば、具体的にどのように発音を改善すれば良いのかが学習者へ出力されるため、試行錯誤して発音の改善と評価とを繰り返すことなく、発音を模範音声に近づけることが可能となる。 As described above, according to the present embodiment, how to improve the pronunciation is output to the learner, so that the pronunciation is not repeated by repeating trial and error to improve and evaluate the pronunciation. Can be brought closer to the model voice.
[第2実施形態]
[実施形態の構成]
次に本発明の第2実施形態について説明する。本実施形態に係わる語学学習装置1Aのハードウェア構成は、第1実施形態に係わる語学学習装置1と同じとなっている。このため、ハードウェア構成については、その説明を省略する。本実施形態においては、CPU102がプログラムを実行することにより実現する機能が第1実施形態と異なる。
[Second Embodiment]
[Configuration of the embodiment]
Next, a second embodiment of the present invention will be described. The hardware configuration of the language learning device 1A according to the present embodiment is the same as that of the language learning device 1 according to the first embodiment. For this reason, the description of the hardware configuration is omitted. In the present embodiment, the function realized by the
図6は、CPU102がプログラムを実行することにより実現する機能の構成を示した機能ブロック図である。図6において、第1実施形態と同じ機能ブロックについては、図3において付した符号と同じ符号を付し、その説明を省略する。Hz→Cent変換部60は、Hzで表されているピッチをCentに変換する。フィルタ部70は、ローパスフィルタとして機能し、ピッチの微細な変化を除去する。
FIG. 6 is a functional block diagram showing a configuration of functions realized by the
[実施形態の動作]
次に、本実施形態の動作について説明する。図7は、本実施形態におけるCPU102の処理の流れを例示したフローチャートである。なお、図7において、第1実施形態と同じ処理については、第1実施形態と同じ符号を付している。
[Operation of the embodiment]
Next, the operation of this embodiment will be described. FIG. 7 is a flowchart illustrating the processing flow of the
CPU102は、学習者により例文が選択されると、選択された例文に対応した模範音声データを記憶部105から読み出す(ステップSA1〜ステップSA5)。そして、模範音声データが示す音声を、その再生時間軸上において所定の時間間隔で分割する(ステップSA6)。次にCPU102は、分割されたフレーム毎に、各フレームの音声のピッチを抽出する(ステップSA7)。CPU102は、分割されたフレーム毎にピッチを抽出すると、抽出したピッチの単位をHzからCentに変換する(ステップSB1)。CPU102は、HzからCentへの変換を終了すると、フレーム毎に発音のゆらぎ等のピッチの微細な変化を除去する(ステップSB2)。そして、CPU102は、フレーム毎に求められたピッチを結んだピッチ曲線(第1ピッチ曲線)を生成し、生成した第1ピッチ曲線を示す曲線データを記憶部105に記憶する(ステップSA8)。なお、無声区間や、無声子音の発音区間等、ピッチを抽出することができないフレームにおいては、直線補間や3次スプライン補間等の補間を行い、第1ピッチ曲線を生成する。
When the learner selects an example sentence, the
この後、CPU102は、例文の発音を促すメッセージを表示する(ステップSA10)。学習者が、模範音声を真似て例文を読み上げると、学習者音声が学習者データに変換される。CPU102は、入力部107から送られる信号を監視し、学習者が発音を終了して入力部107を操作すると(ステップSA11;YES)、模範音声データが表す音声の発音時間と、記憶部105に記憶された学習者データが表す音声の発音時間とが同じとなるように、学習者データが表す音声を補正する(ステップSA12)。
Thereafter, the
次にCPU102は、学習者データが示す音声を、ステップSA6の処理と同様にして、その再生時間軸上において複数のフレームに分割する(ステップSA13)。そしてCPU102は、分割されたフレーム毎に、各フレームの音声のピッチを抽出する(ステップSA14)。CPU102は、分割されたフレーム毎にピッチを抽出すると、抽出したピッチの単位をHzからCentに変換する(ステップSB3)。CPU102は、HzからCentへの変換を終了すると、フレーム毎に発音のゆらぎ等のピッチの微細な変化を除去する(ステップSB4)。そして、CPU102は、フレーム毎に求められたピッチを結んだピッチ曲線(第2ピッチ曲線)を生成し、生成した第2ピッチ曲線を示す曲線データを記憶部105に記憶する(ステップSA15)。なお、無声区間や、無声子音の発音区間等、ピッチを抽出することができないフレームにおいては、直線補間や3次スプライン補間等の補間を行い、第2ピッチ曲線を生成する。
ステップSA15以降の処理の流れは、第1実施形態と同じであるため、その説明を省略する。
Next, the
Since the flow of processing after step SA15 is the same as that of the first embodiment, description thereof is omitted.
以上説明したように本実施形態によっても、具体的にどのように発音を改善すれば良いのかが学習者へ出力されるため、試行錯誤して発音の改善と評価とを繰り返すことなく、発音を模範音声に近づけることが可能となる。また、ピッチをCentの単位で比較するので、より人間の聴感に近い評価が可能となる。 As described above, this embodiment also outputs to the learner how to improve the pronunciation specifically, so that the pronunciation can be reproduced without repeating the improvement and evaluation of the pronunciation through trial and error. It is possible to approach the model voice. In addition, since the pitch is compared in units of Cent, an evaluation closer to human hearing is possible.
[変形例]
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。例えば、上述の実施形態を以下のように変形して本発明を実施してもよい。
[Modification]
As mentioned above, although embodiment of this invention was described, this invention is not limited to embodiment mentioned above, It can implement with another various form. For example, the present invention may be implemented by modifying the above-described embodiment as follows.
上述した実施形態においては、ステップSA12の処理、即ち、模範音声の発音時間と学習者音声の発音時間とを合わせる処理を行わないようにしてもよい。また、ステップSA12の処理においては、模範音声中における各単語の発音時間と、学習者音声中における各単語の発音時間とが同じとなるようにしてもよい。また、ステップSA12の処理においては、模範音声中における各音素の発音時間と、学習者音声中における各音素の発音時間とが同じとなるようにしてもよい。
また、第1ピッチ曲線と第2ピッチ曲線の道程を比較する際、比較する時間区間は、例文全体の区間でもよいし、予め指定された例文の一部区間、またはユーザが指定した一部区間であってもよい。
In the above-described embodiment, the process of step SA12, that is, the process of matching the pronunciation time of the model voice and the pronunciation time of the learner voice may not be performed. In the process of step SA12, the pronunciation time of each word in the model voice may be the same as the pronunciation time of each word in the learner voice. In the process of step SA12, the pronunciation time of each phoneme in the model voice may be the same as the pronunciation time of each phoneme in the learner voice.
Further, when comparing the distances of the first pitch curve and the second pitch curve, the time interval to be compared may be a whole example sentence section, a part of example sentence specified in advance, or a part of section specified by the user. It may be.
上述した実施形態においては、第1ピッチ曲線の道程と第2ピッチ曲線の道程とを比較し、比較結果に応じて、例えば「もう少し抑揚をつけて発音しましょう」というような、発音の改善ポイントを表示するようにしてもよい。また、上述した実施形態においては、例えば音声中の単語を認識し、単語毎に抑揚の評価結果を表示するようにしてもよい。 In the embodiment described above, the path of the first pitch curve is compared with the path of the second pitch curve, and according to the comparison result, for example, “Let's pronounce with a little inflection” May be displayed. In the above-described embodiment, for example, a word in speech may be recognized, and an inflection evaluation result may be displayed for each word.
上述した実施形態においては、学習者の音声についてのみピッチ曲線を生成してピッチ曲線の道程を求め、求めた道程を出力するようにしてもよい。 In the above-described embodiment, a pitch curve may be generated only for the learner's voice to determine the pitch curve path, and the calculated path may be output.
1・・・語学学習装置、101・・・バス、102・・・CPU、103・・・ROM、104・・・RAM、105・・・記憶部、106・・・表示部、107・・・入力部、108・・・音声処理部、109・・・マイクロホン、110・・・スピーカ
DESCRIPTION OF SYMBOLS 1 ... Language learning apparatus, 101 ... Bus, 102 ... CPU, 103 ... ROM, 104 ... RAM, 105 ... Memory | storage part, 106 ... Display part, 107 ...
Claims (2)
前記音声入力手段に入力された音声のピッチの時間的変化を示すピッチ曲線を生成し、生成したピッチ曲線の道程を抑揚の変化の大きさを表すパラメータとして算出する算出手段と、
前記算出手段により算出された道程を出力する出力手段と
を有する音声特徴量算出装置。 Voice input means for inputting voice;
A calculation means for generating a pitch curve indicating a temporal change in the pitch of the voice input to the voice input means, and calculating a path of the generated pitch curve as a parameter representing the magnitude of the inflection ;
An audio feature quantity calculation apparatus comprising: output means for outputting a journey calculated by the calculation means.
を特徴とする請求項1に記載の音声特徴量算出装置。 The calculation means generates a pitch curve by interpolating the pitch of the unvoiced section according to the pitch of the voice before and after the unvoiced section for the unvoiced section of the voice input to the voice input means. Item 2. The audio feature amount calculation apparatus according to Item 1.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012171737A JP5605731B2 (en) | 2012-08-02 | 2012-08-02 | Voice feature amount calculation device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012171737A JP5605731B2 (en) | 2012-08-02 | 2012-08-02 | Voice feature amount calculation device |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011158220A Division JP5093387B2 (en) | 2011-07-19 | 2011-07-19 | Voice feature amount calculation device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012234201A JP2012234201A (en) | 2012-11-29 |
JP5605731B2 true JP5605731B2 (en) | 2014-10-15 |
Family
ID=47434504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012171737A Expired - Fee Related JP5605731B2 (en) | 2012-08-02 | 2012-08-02 | Voice feature amount calculation device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5605731B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6171711B2 (en) * | 2013-08-09 | 2017-08-02 | ヤマハ株式会社 | Speech analysis apparatus and speech analysis method |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS617868A (en) * | 1984-06-22 | 1986-01-14 | 富士通株式会社 | Enunciation training apparatus |
JPS6113299A (en) * | 1984-06-28 | 1986-01-21 | 富士通株式会社 | Fundamental frequency pattern corrector |
JP3616250B2 (en) * | 1997-05-21 | 2005-02-02 | 日本電信電話株式会社 | Synthetic voice message creation method, apparatus and recording medium recording the method |
US6195632B1 (en) * | 1998-11-25 | 2001-02-27 | Matsushita Electric Industrial Co., Ltd. | Extracting formant-based source-filter data for coding and synthesis employing cost function and inverse filtering |
JP2002258729A (en) * | 2000-12-27 | 2002-09-11 | Hiroshi Ono | Foreign language learning system, information processing terminal for the same and server |
JP4639532B2 (en) * | 2001-06-05 | 2011-02-23 | 日本電気株式会社 | Node extractor for natural speech |
-
2012
- 2012-08-02 JP JP2012171737A patent/JP5605731B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012234201A (en) | 2012-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3823930B2 (en) | Singing synthesis device, singing synthesis program | |
CN112037755B (en) | Voice synthesis method and device based on timbre clone and electronic equipment | |
JP2003186379A (en) | Program for voice visualization processing, program for voice visualization figure display and for voice and motion image reproduction processing, program for training result display, voice-speech training apparatus and computer system | |
JP4856560B2 (en) | Speech synthesizer | |
JP2002091472A (en) | Rhythm display device, and reproducing device and similarity judging device for voice language and voice language processor and recording medium | |
JP6013104B2 (en) | Speech synthesis method, apparatus, and program | |
JP4797597B2 (en) | Language learning device | |
JP2003337592A (en) | Method and equipment for synthesizing voice, and program for synthesizing voice | |
JP5605731B2 (en) | Voice feature amount calculation device | |
CN106471569A (en) | Speech synthesis apparatus, phoneme synthesizing method and its program | |
JP5093387B2 (en) | Voice feature amount calculation device | |
JP5042485B2 (en) | Voice feature amount calculation device | |
JP6291808B2 (en) | Speech synthesis apparatus and method | |
JP2009157220A (en) | Voice editing composite system, voice editing composite program, and voice editing composite method | |
JP2002525663A (en) | Digital voice processing apparatus and method | |
JP4654889B2 (en) | Playback device | |
JP3785892B2 (en) | Speech synthesizer and recording medium | |
JP2007139868A (en) | Language learning device | |
JP2013033103A (en) | Voice quality conversion device and voice quality conversion method | |
JP5054632B2 (en) | Speech synthesis apparatus and speech synthesis program | |
Tang et al. | EAVA: a 3D emotive audio-visual avatar | |
JP2536169B2 (en) | Rule-based speech synthesizer | |
JP2011180368A (en) | Synthesized voice correction device and synthesized voice correction method | |
JP2001242881A (en) | Method of voice syhthesis and apparatus thereof | |
JP6340839B2 (en) | Speech synthesizer, synthesized speech editing method, and synthesized speech editing computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130423 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130619 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140815 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5605731 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |