JP7432879B2 - speech training system - Google Patents
speech training system Download PDFInfo
- Publication number
- JP7432879B2 JP7432879B2 JP2020128338A JP2020128338A JP7432879B2 JP 7432879 B2 JP7432879 B2 JP 7432879B2 JP 2020128338 A JP2020128338 A JP 2020128338A JP 2020128338 A JP2020128338 A JP 2020128338A JP 7432879 B2 JP7432879 B2 JP 7432879B2
- Authority
- JP
- Japan
- Prior art keywords
- duration
- voice
- user
- phoneme
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010011878 Deafness Diseases 0.000 claims description 24
- 230000010370 hearing loss Effects 0.000 claims description 24
- 231100000888 hearing loss Toxicity 0.000 claims description 24
- 208000016354 hearing loss disease Diseases 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000000034 method Methods 0.000 description 15
- 238000000605 extraction Methods 0.000 description 10
- 208000032041 Hearing impaired Diseases 0.000 description 5
- 238000013500 data storage Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Description
本発明は、ユーザが発話した声(言葉)を分析することによって、当該ユーザの発話音声が高齢者およびミドルエイジ世代の人に聞きやすいかどうかを判定した上で、模擬難聴化した当該音声を提示し、当該ユーザがより聞きやすい発話方法を習得するためのトレーニングシステムに関する。 The present invention analyzes the voice (words) uttered by the user, determines whether the user's voice is easy to hear for elderly and middle-aged people, and then outputs the voice with simulated hearing loss. The present invention relates to a training system for the user to learn a speaking method that is easier for the user to hear.
我が国の高齢化率は極めて高い数値で推移しており、日常生活のみならず、ビジネスの分野においても、高齢者とのコミュニケーションを円滑に行えるようにすることが極めて重要な課題となっている。 Japan's aging rate continues to be extremely high, and it has become an extremely important issue to be able to communicate smoothly with the elderly, not only in daily life but also in the business field.
聴覚の周波数分解能の低下に基づく、言葉の聞き取り能力の低下は、高齢者のみならず、ミドルエイジ世代から始まっていることが知られており、本人に自覚のない「無自覚難聴」による聞き間違いは、社会生活やビジネスの現場において大きな問題となっている。 It is known that a decline in the ability to understand speech due to a decline in the frequency resolution of hearing occurs not only in the elderly, but also in the middle-aged generation. , has become a major problem in social life and business settings.
これらの問題を解決するためには、会話時の発話の方法を改善し、高齢者およびミドルエイジ世代の人にも聞き取りやすい音声を発話する必要がある。特に、言葉の聞き取り能力が低下した高齢者やミドルエイジ世代に対しては、音声に含まれる母音よりも、子音を長く明確に発話する必要があることが聴覚心理学的に知られている。 In order to solve these problems, it is necessary to improve the way we speak during conversations and to make our voices easier to hear even for elderly and middle-aged people. In particular, it is known from psychoacoustic theory that consonants need to be uttered longer and more clearly than vowels included in speech, especially for elderly and middle-aged people whose ability to hear speech has declined.
近年は、ユーザが発話した音声を、高齢者に聞こえているであろう音声に変換する模擬難聴技術を用いて、ユーザ本人に、相手にどう聞こえているかを体験させ、高齢者およびミドルエイジ世代の人にも聞き取りやすい音声を発声するための発話トレーニングアプリケーション等が提供されている。また、語学学習などに使われる発話トレーニングアプリケーションを、高齢者に対する発話トレーニングに流用しようという動きもある。 In recent years, the use of simulating hearing loss technology that converts the voice spoken by a user into the voice that an elderly person would likely hear has been used to allow the user to experience how the other person is hearing them, and to increase the awareness of elderly and middle-aged people. There are speech training applications and the like that are used to utter sounds that are easy for people to hear. There is also a movement to divert speech training applications used for language learning to speech training for elderly people.
特許文献1には、音声を表す第1の音声データを記憶する第1の音声データ記憶手段と、収音した音声を表す第2の音声データを出力する収音手段と、前記第1の音声データ記憶手段に記憶された前記第1の音声データの特徴と前記収音手段から出力される第2の音声データの特徴とを比較し、該比較結果に基づいて指摘区間を特定する指摘区間特定手段と、前記第1の音声データにおいて、前記指摘区間特定手段により特定された指摘区間に対応する音声データの表す音声の態様と該指摘区間以外の区間に対応する音声データの表す音声の態様とが異なるように、該第1の音声データを加工する音声データ加工手段と、前記音声データ加工手段により加工された第1の音声データの表す音声を、放音手段に放音させる放音制御手段とを備えることを特徴とする音声評価装置が開示されている。
特許文献2には、信号処理装置であって、各時点のフィルタ特性が変化する時変フィルタを生成し、生成された時変フィルタを用いて、時間的に変化する音信号である入力信号から出力信号を得る処理部を備え、前記処理部は、第1聴者の圧縮特性が反映された第1聴覚フィルタバンクに前記入力信号を通すことで得られた第1聴覚的スペクトログラムと、第2聴者の圧縮特性が反映された第2聴覚フィルタバンクに前記入力信号を通すことで得られた第2聴覚的スペクトログラムと、の各時点の差分に基づいて、各時点の前記時変フィルタを生成するよう構成されている信号処理装置が開示されている。
高齢者等へ言葉が伝わらなかった場合には、大声で話すことが一般的な常識になっているが、聴覚の周波数分解能の低下に基づく高齢者やミドルエイジ世代の人の聞き間違いに対しては、大声で話しても聞き間違え改善効果はほとんどなく、むしろ、大声に対する不快感が増大してしまうことが、聴覚心理学的に知られている。 It is common knowledge to speak loudly when words cannot be conveyed to an elderly person, etc., but it is common sense to speak loudly when words cannot be conveyed to an elderly person. It is known from psychoacoustic theory that speaking loudly has almost no effect on improving mishearing, but rather increases discomfort due to loud voices.
また、このような場合、聞き間違いが発生しやすいのは母音ではなく子音であることも聴覚心理学的に知られているが、多くの人は、自分の言葉が伝わっていないと感じた場合に、母音を強く発声してしまう傾向がある。 Additionally, it is known from psychoacoustics that it is consonants rather than vowels that are more likely to be misheard in such cases, but many people feel that their words are not being understood. There is a tendency to vocalize vowels strongly.
ユーザが発話した音声を、高齢者に聞こえているであろう音声に変換する模擬難聴技術では、自分の声を高齢者がどのように聞いているのかを疑似的に体験できるので、大声を出しても意味が無いことや子音の発声が重要であることをユーザに実感させやすいという特徴がある。 The hearing loss simulation technology, which converts the voice spoken by the user into the voice that an elderly person would probably hear, allows users to simulate how their voice is heard by an elderly person, so it is difficult to shout out loud. It has the characteristic that it makes it easy for the user to realize that there is no meaning even if the consonant is pronounced, and that the pronunciation of the consonant is important.
しかしながら、模擬難聴化された音声を聴取しただけでは、高齢者が聞き取り難いであろうことは実感できても、自分の発話のどの音素が聞き取り難さの起因となっており、具体的に、発話の仕方をどのように改善させれば良いのかをユーザ自身が知ることが出来ないという問題があった。 However, even if an elderly person can realize that it is difficult to hear by simply listening to a simulated hearing-impaired voice, it may be difficult to understand which phonemes in one's own speech are causing the difficulty in hearing, and specifically how to understand the speech. There was a problem in that users themselves were unable to know how to improve their methods.
特許文献1に記載の音声評価装置では、音声を表す第1の音声データを記憶する第1の音声データ記憶手段と、収音した音声を表す第2の音声データを出力する収音手段と、前記第1の音声データ記憶手段に記憶された前記第1の音声データの特徴と前記収音手段から出力される第2の音声データの特徴とを比較し、該比較結果に基づいて指摘区間を特定する指摘区間特定手段と、前記第1の音声データにおいて、前記指摘区間特定手段により特定された指摘区間に対応する音声データの表す音声の態様と該指摘区間以外の区間に対応する音声データの表す音声の態様とが異なるように、該第1の音声データを加工する音声データ加工手段と、前記音声データ加工手段により加工された第1の音声データの表す音声を、放音手段に放音させる放音制御手段とを備える。これにより、ユーザは、語学学習等の採点の結果を把握しやすくなる。
The sound evaluation device described in
しかし、ユーザは、自分の声が高齢者にどのように聞こえているかを体験することが出来ず、発話トレーニングを行う動機付けとはならない。さらに、具体的に、自分の発話における、どの音素の発話が悪く、どのように発話を改善すれば良いのかをユーザに具体的に知らせる必要があるが、その方法に関する示唆も開示も無い。 However, users cannot experience how their voices are heard by elderly people, and this does not motivate them to perform speech training. Furthermore, it is necessary to specifically inform the user which phoneme in his or her speech is bad and how to improve the speech, but there is no suggestion or disclosure of a method for doing so.
特許文献2に記載の信号処理装置は、各時点のフィルタ特性が変化する時変フィルタを生成し、生成された時変フィルタを用いて、時間的に変化する音信号である入力信号から出力信号を得る処理部を備え、前記処理部は、第1聴者の圧縮特性が反映された第1聴覚フィルタバンクに前記入力信号を通すことで得られた第1聴覚的スペクトログラムと、第2聴者の圧縮特性が反映された第2聴覚フィルタバンクに前記入力信号を通すことで得られた第2聴覚的スペクトログラムと、の各時点の差分に基づいて、各時点の前記時変フィルタを生成するよう構成されている。これにより、難聴者等の聴覚特性をより適切に反映した模擬難聴音声を生成することが可能となる。
The signal processing device described in
しかし、ユーザは、具体的に、自分の発話における、どの音素の発話が悪く、どのように発話を改善すれば良いのかを具体的に知ることができず、また、その方法に関する示唆も開示も無い。 However, users cannot know specifically which phonemes in their own speech are bad and how to improve their speech, and there are no suggestions or disclosures regarding how to do so. None.
上記の課題を解決する手段として、本発明の発話トレーニングシステムは、ユーザの音声を収音するための収音部と、前記収音されたユーザの音声の音素ごとの持続時間を抽出する持続時間抽出部と、事前に収録された模範音声の音素ごとの持続時間を抽出および/または保持する持続時間保持部と、前記収音されたユーザの音声を模擬難聴変換する模擬難聴変換部と、前記ユーザの音声の音素ごとの持続時間と前記模範音声の音素ごとの持続時間を比較する持続時間比較部と、前記持続時間比較部の比較結果をユーザへ提示する比較結果提示部から成る構成とした。 As a means for solving the above-mentioned problems, the speech training system of the present invention includes a sound collection unit for collecting the user's voice, and a duration timer for extracting the duration of each phoneme of the collected user's voice. an extraction unit, a duration holding unit that extracts and/or holds the duration of each phoneme of a model voice recorded in advance, a simulating hearing loss converting unit that converts the collected user's voice into a simulating hearing loss; The device is configured to include a duration comparison unit that compares the duration of each phoneme of the user's voice with the duration of each phoneme of the model voice, and a comparison result presentation unit that presents the comparison result of the duration comparison unit to the user. .
これにより、ユーザは、自分の声が高齢者にどのように聞こえているかを体験することが可能となり、発話トレーニングを行う高い動機付けを得るとともに、どの音素の発話が悪く、どのように発話を改善すれば良いかを知ることが出来る。 This makes it possible for users to experience how their voices are heard by elderly people, giving them a high level of motivation to perform speech training, as well as learning which phonemes are difficult to pronounce and how to improve their speech. You can know what needs to be improved.
また、本発明の発話トレーニングシステムは、前記比較結果提示部で提示された特定の音素のみを再生する比較結果再生部を備える構成とした。これにより、ユーザは、どの音素の発話が悪く、どのように発話を改善すれば良いかを、実際にその音素を聴取しながら、さらに詳細に知ることが出来る。 Moreover, the speech training system of the present invention is configured to include a comparison result reproduction section that reproduces only the specific phoneme presented by the comparison result presentation section. This allows the user to learn in more detail which phoneme is poorly uttered and how to improve the utterance while actually listening to the phoneme.
本発明による発話トレーニングシステムによれば、会話時の発話の方法を改善し、高齢者およびミドルエイジ世代の人にも聞き取りやすい音声を発声することができるようになる。 According to the speech training system according to the present invention, it is possible to improve the method of speech during a conversation and to produce a voice that is easy to hear even for elderly people and middle-aged people.
ユーザ自身の声を模擬難聴変換した音声を聞きながら、模範的に発話された音声との音素ごとの持続時間の違いを理解することが出来るので、当該トレーニングに対する高いモチベーションを維持しつつ、特に音声に含まれる子音の発話能力の向上を図ることが出来る。 While listening to the user's own voice converted into a simulated hearing loss, the user can understand the difference in duration of each phoneme from the model uttered voice. It is possible to improve the ability to speak the consonants contained in the words.
さらに、ユーザ自身が発話した音声内の、特に伝わりにくい音素だけを再生して聴取することが出来るので、当該音素の発話に特に注意を払うことが出来るので、発話能力のさらなる向上が可能となる。 Furthermore, since it is possible to playback and listen to only the phonemes that are particularly difficult to convey in the voice that the user has uttered, it is possible to pay particular attention to the utterance of the phonemes in question, making it possible to further improve speaking ability. .
以下、本発明を実施するための最良の形態を図面に基づいて詳細に説明する。なお、以下の説明において、同一機能を有するものは同一の符号とし、その繰り返しの説明は省略する。 DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, the best mode for carrying out the present invention will be described in detail based on the drawings. In the following description, parts having the same function are designated by the same reference numerals, and repeated description thereof will be omitted.
図1は、本発明の第一の実施の形態におけるシステムのブロック図であり、ユーザが発声した声を収音する収音部2と、前記収音されたユーザの音声の音素ごとの持続時間を抽出する持続時間抽出部3と、事前に収録された模範音声の音素ごとの持続時間を抽出および/または保持する持続時間保持部4と、前記収音されたユーザの音声を模擬難聴変換する模擬難聴変換部5と、前記ユーザの音声の音素ごとの持続時間と前記模範音声の音素ごとの持続時間を比較する持続時間比較部6と、前記持続時間比較部の比較結果をユーザへ提示する比較結果提示部7から構成されている。
FIG. 1 is a block diagram of a system according to a first embodiment of the present invention, including a
ユーザ1は、本システムに向けて、ユーザ用画面等に提示される事前に定められた課題音声内容を発話する。ここで本システムは、専用のハードウェアでも良いし、スマートフォン端末やパーソナルコンピュータなどでも良い。
The
ユーザ1が発話した音声は収音部2にて収音される。前記収音部2は前記専用のハードウェア、スマートフォン端末、パーソナルコンピュータ等に内蔵されたマイクロフォン等であっても良いし、ユーザ1が自ら調達した他の収音装置であっても良い。また、収音部2が録音機能を有し、ユーザ1の声を事前に録音、保存した後に持続時間抽出部3へ当該音声データを送っても良いし、収音部2で収音した声をそのまま持続時間抽出部3へ送る構成であっても良い。
The sound uttered by the
持続時間抽出部3は、収音部2にて収音されたユーザ1の音声を分析し、当該音声を、そこに含まれる音素ごとに分割し、各音素の持続時間を抽出する。各音素の持続時間の分析、分割には、DPマッチングやHMM(隠れマルコフモデル)等の音声セグメンテーション技術が用いられる。
The
持続時間保持部4には、高齢者およびミドルエイジ世代の人にも聞き取りやすい音声を発話できる模範となる発声者の、前記課題音声と同一内容の音声の各音素の持続時間が記録されている。なお、持続時間保持部4は、前記各音素の持続時間を事前に記録するのではなく、前記模範となる発声者の音声データを記録しておき、持続時間抽出部3で、その都度分析を行って、その結果を持続時間保持部4に記録する構成でも良い。
The
持続時間比較部6は、前記持続時間抽出部3で抽出された、ユーザ1が発話した音声に含まれる各音素の持続時間と、前記持続時間保持部4に記録されている模範となる発声者の音声の各音素の持続時間を音素ごとに比較する。比較方法としては、両持続時間の差分に事前に閾値を設けておき、その閾値を超えて長かった音素もしくは短かった音素についての情報を比較結果提示部7へ送るという方法や、両者の持続時間の比率を計算し、その比率に閾値を設ける方法などが考えられる。
The
比較結果提示部7は、持続時間比較部6から出力された、各音素の持続時間の比較結果をユーザ1へ提示する。提示の方法としては、前記課題音声内容に含まれる音素をテキストで表示し、模範となる発声者の音声に比べての、各音素の持続時間の長短を明示する方法でも良いし、ユーザ1と模範となる発声者の音声の波形やサウンドスペクトログラム等を図示した上で、当該波形等の中で各音素が該当する区間を図示して、ビジュアル的に各音素の長短をユーザ1へ明示する方法を用いても良い。
The comparison
一方、模擬難聴変換部5は、前記収音部2にて収音されたユーザ1が発話した音声に模擬難聴変換を施し、高齢者およびミドルエイジ世代の人に聞こえているであろう音声に変換する。模擬難聴変換方法としては、高齢者およびミドルエイジ世代の人の聴覚フィルタの広がり度合いを周波数領域で信号処理的に模擬し、FFTとオーバーラップアド処理で合成する方法や特許文献2に記載の方法などが考えられる。
On the other hand, the simulated hearing
ユーザ1は、ユーザ用画面等にある再生ボタンを押すことによって、前記模擬難聴変換された音声を聴取することが出来る。さらに、模擬難聴変換されていない原音声および模範となる発声者の音声の原音声、模擬難聴変換音声を聴取するための再生ボタンも用意すれば、ユーザ1は様々な音声を聴取可能となり、自身の発話の悪い所を知り、その改善のための具体的なトレーニングを実施することができる。
The
図3、図4、図5には、本発明の発話トレーニングシステムをスマートフォンアプリとして実現した場合の、スマートフォン画面に提示される画面の一例を示す。 3, 4, and 5 show examples of screens presented on a smartphone screen when the speech training system of the present invention is implemented as a smartphone application.
ユーザ1は、図3の画面に従って、録音ボタンを押した上で、画面上部に表示されたトレーニング用の課題音声内容(本例では「いつも、ありがとう」)を、スマートフォンに向かって発話する。スマーフォンに内蔵されたマイクは収音部2として機能し、ユーザ1の発話内容を収音する。
前記スマートフォンアプリの持続時間抽出部3は、前記収音されたユーザ1の音声にDPマッチング等の分析処理を施し、「いつも、ありがとう」の音素である、”i”, “ts”, “u”, ”m”, “o”, “ ”, ”a”, “r”, “i”, ”g”, “a”, “t”, ”o”, “ ”に分割し、各音素の持続時間を抽出する(音素表記が無い区間は、言葉の間(ま)である)。
The
持続時間保持部4には、高齢者およびミドルエイジ世代の人にも聞き取りやすい音声を発話できる模範となる発声者の「いつも、ありがとう」の音声の各音素の持続時間が記録されているので、持続時間比較部6で、両者の各音素の持続時間を比較する。
The
図4は、比較結果提示部7の一例である。ここでは、特に持続時間の長短の差が大きかった「いつも」の「つ」の子音“ts”と、「ありがとう」の「あ」”a”についての結果のみを提示し、発話改善のためのアドバイスを表示している。本例では、持続時間比較部6の出力として、特に、ユーザ1が発話した”ts”は模範となる発声者のそれよりも持続時間が短く、”a”は持続時間が長すぎたので、それぞれの音素を、口を大きくあけて丁寧に発話するよう促している。
FIG. 4 is an example of the comparison
図5は、ユーザ1が、模擬難聴変換された音声を聴取し、発話音声が高齢者およびミドルエイジ世代の人に、どのように聞こえているかを体験するための画面である。ユーザ1が発話した音声および模範となる発声者の、それぞれ模擬難聴変換音声と原音声を聴取することが出来る。ユーザ1は、図4で指摘された音素について、高齢者およびミドルエイジ世代の人に、実際にどのように聞こえているかを体験聴取することができるので、前記アドバイスの内容に従って、高い動機付けと具体性を持って発話改善トレーニングを実施することが出来る。
FIG. 5 is a screen for the
図2は、本発明の第二の実施の形態におけるシステムのブロック図であり、ユーザが発声した声を収音する収音部2と、前記収音されたユーザの音声の音素ごとの持続時間を抽出する持続時間抽出部3と、事前に収録された模範音声の音素ごとの持続時間を抽出および/または保持する持続時間保持部4と、前記収音されたユーザの音声を模擬難聴変換する模擬難聴変換部5と、前記ユーザの音声の音素ごとの持続時間と前記模範音声の音素ごとの持続時間を比較する持続時間比較部6と、前記持続時間比較部の比較結果をユーザへ提示する比較結果提示部7と、比較結果提示部7で提示された特定の音素のみを再生する比較結果再生部8から構成されている。
FIG. 2 is a block diagram of a system according to a second embodiment of the present invention, including a
比較結果再生部8は、比較結果提示部7で表示された特に持続時間の長短の差が大きかった音素について、その音素だけを再生する機能を有する。
The comparison
図8は、本発明の第二の実施の形態における比較結果再生部8をスマートフォンアプリとして実現した場合の、スマートフォン画面に提示される画面の一例を示す。
FIG. 8 shows an example of a screen displayed on a smartphone screen when the comparison
ここでは一例として、音声波形を図示し、特に持続時間の長短の差が大きかった音素区間を網掛けで明示し、網掛け部をタップすると、その音素区間が再生される。実際に再生する際には、ユーザ1が当該音素区間を容易に聴取できるように、当該音素区間よりも数ミリ秒から数100ミリ秒前から再生を開始し、当該音素区間よりも数ミリ秒から数100ミリ秒後に再生を終了するか、前後の音素をいくつか含めて再生する必要があろう。
Here, as an example, a speech waveform is illustrated, and phoneme sections with particularly large differences in duration are clearly indicated by hatching, and when the shaded portion is tapped, that phoneme section is played back. When actually playing back, so that
また、本実施例では、波形と網掛けによって前記当該音素区間を明示しているが、これは波形によって図示する方法に限らず、波形に変わって音声のパワー変動図やサウンドスペクトログラムを用いても良いし、テキストで当該音素を表示し、その区間だけを再生するような構成にすることも可能である。 Furthermore, in this embodiment, the phoneme section is clearly indicated by the waveform and shading, but this is not limited to the method of illustrating by the waveform, and it is also possible to use a speech power fluctuation diagram or sound spectrogram instead of the waveform. It is also possible to display the phoneme in text and play only that section.
ところで、本実施例では、持続時間比較部6で出力されたユーザ1と模範となる発声者の音声内の各音素の持続時間の長短を、そのまま比較結果提示部7で表示しているが、人間が音声を聴取し、その内容を認識しようとする時は、全ての音素に等分に集中して聞き取っているわけでは無い。
By the way, in this embodiment, the length of the duration of each phoneme in the voices of the
聴覚心理学的には、人間が聴取した音声の内容を正確に認識するためには、語頭の子音を正確に聞き取ることが最も重要であるとの知見が報告されている。よって、事前に前記課題音声内容の音素ごとに重み付けを行い、各文節の語頭の子音については、多少の長短の差であっても比較結果提示部7で明示し、ユーザ1へトレーニングを促しつつ、語尾の母音については前記長短の差が大きめであっても比較結果提示部7で表示しないなどの構成とすることも可能である。
In terms of psychoacoustics, it has been reported that in order for humans to accurately recognize the content of the speech they hear, it is most important to accurately hear the consonant at the beginning of a word. Therefore, each phoneme of the task speech content is weighted in advance, and the comparison
例えば、ユーザ用画面等に提示される課題音声内容が「こんにちは “k” “o” “n” “n” “i” “ch” “i” “w” “a”」であれば、最も重要な語頭の子音である”k”に関しては、持続時間比較部6で算出されるユーザ1と模範となる発声者の発話音声の持続時間の差分を2倍して閾値と比較し、僅かな差であってもユーザ1へトレーニングを促し、一方で、語尾の”a”の差分は1/2にして閾値と比較し、多少の差があってもトレーニングを促さないという構成とすることも可能である。
For example, if the task audio content presented on the user screen etc. is “Hello “k” “o” “n” “n” “i” “ch” “i” “w” “a”, then the most important Regarding "k", which is the initial consonant of a word, the difference in duration between the utterances of the
なお、本発明の発話トレーニングシステムによってトレーニングした発話者の音声は、ミドルエイジおよび高齢者のみならず、難聴者全般(若年の難聴者も含む)に対しても聞きやすくなるので、本発明は、難聴者全般に対して伝わりやすい発話のトレーニングを実施するシステムとして用いることも可能である。 Note that the voice of a speaker trained by the speech training system of the present invention becomes easier to hear not only for middle-aged and elderly people but also for hearing-impaired people in general (including young hearing-impaired people). It can also be used as a system for training people with hearing loss in general to make their speech easier to understand.
1…ユーザ、 2…収音部、 3…持続時間抽出部、 4…持続時間保持部、 5…模擬難聴変換部、 6…持続時間比較部、 7…比較結果提示部、 8…
比較結果再生部。
1... User, 2... Sound collection section, 3... Duration extraction section, 4... Duration holding section, 5... Simulated hearing loss conversion section, 6... Duration comparison section, 7... Comparison result presentation section, 8...
Comparison result playback section.
Claims (2)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020128338A JP7432879B2 (en) | 2020-07-29 | 2020-07-29 | speech training system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020128338A JP7432879B2 (en) | 2020-07-29 | 2020-07-29 | speech training system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022025493A JP2022025493A (en) | 2022-02-10 |
JP7432879B2 true JP7432879B2 (en) | 2024-02-19 |
Family
ID=80264199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020128338A Active JP7432879B2 (en) | 2020-07-29 | 2020-07-29 | speech training system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7432879B2 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001159865A (en) | 1999-09-09 | 2001-06-12 | Lucent Technol Inc | Method and device for leading interactive language learning |
WO2004049283A1 (en) | 2002-11-27 | 2004-06-10 | Visual Pronunciation Software Limited | A method, system and software for teaching pronunciation |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2844817B2 (en) * | 1990-03-22 | 1999-01-13 | 日本電気株式会社 | Speech synthesis method for utterance practice |
-
2020
- 2020-07-29 JP JP2020128338A patent/JP7432879B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001159865A (en) | 1999-09-09 | 2001-06-12 | Lucent Technol Inc | Method and device for leading interactive language learning |
WO2004049283A1 (en) | 2002-11-27 | 2004-06-10 | Visual Pronunciation Software Limited | A method, system and software for teaching pronunciation |
Non-Patent Citations (1)
Title |
---|
"高齢者向け応対をスキルアップする「老人性難聴体感アプリ」を開発",公益財団法人日本電信電話ユーザ協会[online],2015年05月27日,[2023年10月24日検索], <https://www.jtua.or.jp/ict/solution/mobile/report/201506_02/> |
Also Published As
Publication number | Publication date |
---|---|
JP2022025493A (en) | 2022-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7540080B2 (en) | Synthetic Data Augmentation Using Voice Conversion and Speech Recognition Models | |
Ball et al. | Phonetics for communication disorders | |
JP4545787B2 (en) | Method and apparatus for improving speech recognition among language disabled persons | |
McLoughlin | Speech and Audio Processing: a MATLAB-based approach | |
WO2004063902B1 (en) | Speech training method with color instruction | |
CN107112026A (en) | System, the method and apparatus for recognizing and handling for intelligent sound | |
Lim | Computational differences between whispered and non-whispered speech | |
Hansen et al. | On the issues of intra-speaker variability and realism in speech, speaker, and language recognition tasks | |
JP7069386B1 (en) | Audio converters, audio conversion methods, programs, and recording media | |
JP2013072903A (en) | Synthesis dictionary creation device and synthesis dictionary creation method | |
Ramteke et al. | Nitk kids’ speech corpus | |
US7308407B2 (en) | Method and system for generating natural sounding concatenative synthetic speech | |
Percival | Contextual variation in the acoustics of Hul’q’umi’num’ejective stops | |
Jessen | An acoustic study of contrasting plosives and click accompaniments in Xhosa | |
JP7432879B2 (en) | speech training system | |
JP2844817B2 (en) | Speech synthesis method for utterance practice | |
Penney et al. | Weighting of Coda Voicing Cues: Glottalisation and Vowel Duration. | |
JP5248365B2 (en) | Memory support system, memory support program, and memory support method | |
US7092884B2 (en) | Method of nonvisual enrollment for speech recognition | |
US6359988B1 (en) | Process for introduce realistic pitch variation in artificial larynx speech | |
Picart et al. | Assessing the intelligibility and quality of hmm-based speech synthesis with a variable degree of articulation | |
JPS60201376A (en) | Enunciation training machine | |
Sedigh | Application of polyscale methods for speaker verification | |
Piotrowska et al. | Objectivization of phonological evaluation of speech elements by means of audio parametrization | |
JP6251219B2 (en) | Synthetic dictionary creation device, synthetic dictionary creation method, and synthetic dictionary creation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231031 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240125 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240126 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7432879 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |