JP2004170466A - Voice recognition method and electronic device - Google Patents
Voice recognition method and electronic device Download PDFInfo
- Publication number
- JP2004170466A JP2004170466A JP2002332919A JP2002332919A JP2004170466A JP 2004170466 A JP2004170466 A JP 2004170466A JP 2002332919 A JP2002332919 A JP 2002332919A JP 2002332919 A JP2002332919 A JP 2002332919A JP 2004170466 A JP2004170466 A JP 2004170466A
- Authority
- JP
- Japan
- Prior art keywords
- input
- alphabet
- utterance
- voice
- english
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
この発明は、音声認識方法と電子装置に関し、特に、音声入力を行うようにした情報端末や携帯電話機等の電子装置に利用して有効な技術に関するものである。
【0002】
【従来の技術】
音声認識技術は人が話す言葉や文章をコンピュータに直接認識させる技術であり、現在入力手段として用いられているキーボード入力、ペン入力などに替わる簡便な入力手段として注目されている。音声認識に関する文献の例として、Y.Obuchi, A.Koizumi, Y.Kitahara, J.Matsuda, and T.Tsukada, Proc. EUROSPEECH’99, pp.2023−2026, 1999があり、口述ソフトウェアの例として、 Via Voice( IBM社)、 Naturally Speaking (Dragon 社) 、音声認識ソフトウェアの例としてASR1600(L&H社)がある。上記IBM社の“ViaVoice” やDragon 社の“Naturally Speaking” は主としてWintel PC向けのいわば重装備の口述ソフトウェアである。
【0003】
【非特許文献1】
Y.Obuchi, A.Koizumi, Y.Kitahara, J.Matsuda, and T.Tsukada, Proc. EUROSPEECH’99, pp.2023−2026, 1999
【非特許文献2】
Via Voice(IBM社)
【非特許文献3】
Naturally Speaking(Dragon 社)
【特許文献1】
特願2000−256650
【特許文献2】
特願2000−256653
【0004】
【発明が解決しようとする課題】
音声認識技術は人が話す言葉や文章をコンピュータに直接認識させる技術であり、現在入力手段として用いられているキーボード入力、ペン入力などに替わる簡便な入力手段として注目されている。音声認識技術が広く使われるためにはその認識率が高くなければならないが、現状の音声認識技術は必ずしも満足できる水準にはない。音声認識ソフトの構築にはHMM(Hidden Markov Model)と呼ばれるアルゴリズムが用いられる。これに特定言語の音声データを組み合わせてソフトを作る。従来の音声認識ソフトはいわゆる口述ソフト(Dictation Software)に代表される重装備のものが主流で、高性能のコンピュータと高度なソフトウェアさらには膨大な音声データを必要とした。しかしながら、情報機器のモバイル化が急速に進展しつつある昨今、音声認識ソフトに対してその軽量化が求められている。さらに昨今のグローバリゼーションの動きに呼応していくつかの言語にまたがる音声入力の必要性も指摘されている。
【0005】
上記の口述ソフトは膨大な音声データを駆使することによりその認識率を高めたもので、大容量のメモリと高性能のCPUを必要とする。コンテクスト(文脈)などの利用により文章入力についてはかなり高度の性能を有するソフトとなっている。とはいえ単語の認識や音節の認識などでは必ずしも所期の性能を達成するには至らず、その認識率は70%前後にとどまっていた。また最近はインターネットの普及によりサイトのURLやメールアドレスを入力する必要に迫られることが多い。この場合の入力はアルファベット入力となるが、アルファベットの音声入力の認識率は単語の認識率よりさらに低いため、メールアドレスなどを音声入力することは事実上できなかった。
【0006】
前記で述べたように現状の音声認識ソフトは単一言語例えば英語の音声入力を行う場合でもその認識率は必ずしも高くない。単一言語ですらこのような状況だから、複数言語にまたがる音声入力を行おうとするとさらに多くの問題点が発生する。例えば前節における「音声認識ソフトの構築にはHMM(Hidden Markov Model)と呼ばれるアルゴリズムが用いられる。」という文章の入力を取り上げて見る。このように日本語の中に英語が挿入されている文章の入力を必要とする場合は極めて多い。こうした場合の口述ソフトの対応は次のようになる。まず日本語の音声入力ソフトを組込み(install) 、「音声認識ソフトの構築には」までを入力する。つぎに英語の音声認識ソフトを組込み「HMM(Hidden Markov Model)」を入力する。そのためにはまず日本語のソフトをuninstall し、それから英語のソフトを installし直すことになる。英語の入力が終ったらこの逆の手続きを経なければならない。
【0007】
以上の手続きにおいてはその煩わしさもさることながら、もっと基本的な問題点を内蔵している。この例では話者が日本人であることが想定されるので、日本語の入力に関しては大きな問題はない。しかし、英語の入力となると事情は一変する。英語の入力ソフトは英語を母国語として話す人のために作られており、日本人向けに作られてはいないので入力時の認識率は大幅に低下する。そればかりか単語あるいは文章を何度発声しても入力できない場合が多発する。これを解決するための一方策は日本人が発声する英語のデータを収集しソフト化することである。しかし、これは実際問題として非常に困難な仕事である。なぜなら日本人が英語を話すときの標準英語というものがないからである。もうひとつの問題点は一般に音声認識ソフトは予め登録しておいた単語しか認識しない。このため「HMM」や「Markov」などの略語や固有名詞の入力は通常できない。これらの単語が登録語である可能性は非常に低いからである。
【0008】
そこで、本願発明者においては、前記特許文献1及び特許文献2において示したような音声認識方法と電子装置を提案した。前記特許文献1、2には、この元々のアルファベットの発声とは異なる発声にギリシャ語のアルファベットの発声を用いることにより音声認識の向上を図ったものである。英語のアルファベットとギリシャ語のアルファベットの併用により性能は改善されることが確認され、特定話者が騒音のない良好な入力環境下で行った実験で100%の認識率を実現することができた。しかしながら入力環境は必ずしも理想的なものばかりではない。通常の使用環境においては不特定話者の発声を想定する必要があり、さらにいろいろな騒音が入ってくることも考えなくてはならない。そうした場合にも高い認識率を保持するには認識過程での更なる高い裕度が必要となることが判明した。
【0009】
また、英語とギリシャ語のアルファベットの発声併用による方法にはさらに改善の余地があることがわかってきた。仔細に検討を加えて見るとギリシャ語のアルファベットにおいても英語のそれに似た類似性があることがわかる。 ”α” 、”γ” 、 ”κ” 、 ”λ” の類似性、 ”μ” 、 ”ν” の類似性等々である。したがって英語アルファベットの発声以外の発声を選ぶのにギリシャ語だけを対象にするのは必ずしも得策でないことが判明した。そこで、認識率を高める選択の基準はあくまでも記憶しやすいことと、発声相互間の距離が大きいことである。すなわち使い勝手が良いことと共に高い認識率が必要であることに気が付いた。
【0010】
この発明の目的は、簡単な構成で識別率の大幅な改善と使い勝手の向上を図った音声認識方法を提供することある。この発明の他の目的は、音声認識技術を用いて使い勝手の改善を図った電子装置を提供することある。この発明の前記ならびにそのほかの目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。
【0011】
【課題を解決するための手段】
本願において開示される発明のうち代表的なものの概要を簡単に説明すれば、下記の通りである。特定言語の音声認識を上記特定言語の字母単位あるいは複数の字母単位で行うとともに、上記特定言語の字母を音声が正しく認識されやすい発声のものと、他の字母と誤って認識されやすい発声のものとに分類し、上記正しく認識されやすい発声の字母はそのままの発声により音声入力し、上記誤認識されやすい発声の字母は別の発声に置き換えて音声入力する。
【0012】
本願において開示される発明のうち他の代表的なものの概要を簡単に説明すれば、下記の通りである。音声入力部で音声信号を取り込み、音声信号処理部により上記入力された音声信号をデジタル化してその特徴抽出を行ない、予め用意された音響モデルと照合して字母判別を行い、上記音声入力部に入力される音声信号として、日本語の仮名をローマ字表記に置き換え、且つかかるローマ字のアルファベットは音声が正しく認識されやすい発声のものと、他の字母と誤って認識されやすい発声のものとに分類し、上記正しく認識されやすい発声のアルファベットはそのままの発声により音声入力し、上記誤認識されやすい発声のアルファベットは、音声認識されやすい別の発声に置き換えて音声入力し、上記音声信号処理部では上記アルファベットを判別し、かかるアルファベットから日本語の仮名表記を含む日本語文字又は文章及び英語文字又は文章を表示する。
【0013】
【発明の実施の形態】
図1には、この発明に係る音声認識方法に用いられる音声信号処理装置の一実施例のブロック図が示されている。この発明に係る音声認識の方法は、図1の各ブロックでの信号処理に沿って行われる。発声音はまず音声入力部においてディジタル信号化される。この実施例では、簡単な構成での高い音声識別率を実現するために、音声入力を字母の単位で行うようにすることに1つの特徴を持っている。
【0014】
ここで、「字母」とは、国語辞典によれば、「かな」、「アルファベット」、「梵字」等のように発音を示すつづり字のひとつひとつのことをいい、英語では「phoneme 」(フォニーム)に相当する。このフォニーム(phoneme )は、音素のことをいい、ある言語の音声学上の最小単位を意味するものである。
【0015】
上記のような字母単位での音声入力には、字母毎に一定の無音期間を挿入するか、あるいは字母の区切りを意味するキー入力信号を挿入すること等により行われる。使い勝手を考慮すれば、字母毎に無音期間を挿入することが有益であると考えられが、より確実な字母の区切りを行うなら、キー信号を用いることが有益である。
【0016】
上記音声入力部から字母単位で入力された音声信号は、音声分析部に送られ、そこで特徴抽出処理が行われる。具体的には短時間周波数分析である。分析結果は照合部において予め用意された音響モデルと照合され、判定処理を行う。最も高いスコアを得たものが認識結果として表示される。
【0017】
照合部において用いられる音響モデルは、一般的にはHMMと単語辞書とコンテキスト辞書を連結したものである。ここで、HMMとは、隠れマルコフモデル(Hidden Markov Model)と呼ばれるもので認識の基となる参照モデルである。このHMMに単語辞書や文脈データなどを組込んだコンテキスト辞書を組み合わせたものが音響モデルとなる。
【0018】
上記音声認識の基本となるHMMは比較的軽いソフトウェアであるが、前記従来のように口述に対応した特定言語の音声識別を行うようにするには、その言語の単語辞書やコンテキスト辞書を設けることが必須となり、そのアプリケーションによっては重くなりやすい。長文読み上げを実時間で認識することが求められる口述ソフトファアなどでは、単語辞書は無論のこと文脈や文例などのデータを大量に設けることが必要になるため、データを高速で処理する高性能のCPUおよび大容量のメモリが必要になる。
【0019】
携帯型電子装置においては長時間動作を可能にするため、部品点数を減らし消費電力を押さえる必要がある。メモリの容量はできるだけ少なくし、CPUのパワーも制限される。すなわち辞書を始めとするデータ量はなるべく軽いものが求められる。そこで、この発明に係る音声認識方法では、字母単位での音声識別を行うようにすることにより、基本的には同図で点線で示したように単語辞書やコンテスト辞書を不要にするものである。
【0020】
つまり、字母単位での音声認識では、アルファベットの認識では26種類の音声識別が可能であればよく、音響モデルのデータ量を極力少なくできる上に、かかる字母結果を組み合わせることで、結果的に複数種類の言語の文字、及びそれにより構成される単語や文章も入力することができる。このように音声認識でのデータ量を少なくすることができるので、それを処理する中央処理装置CPUも低消費電力のRISC(Reduced instruction set computer)タイプのものを用いることができ、しかもメモリ容量も少なくてよい。この結果、この発明に係る音声認識方法は、携帯用電子装置に最適な入力方法である。使い勝手を良くするために、特定の制御信号や動作命令を音声で行うようにした場合でも、単語辞書やコンテキスト辞書は小規模で済む。
【0021】
図2には、本発明に係る音声認識方法に用いられる一実施例の英語アルファベット発声対応図が示されている。この実施例は、英語を話す人が英語のテキストを音声入力するときに向けられている。この実施例においては英語のアルファベットの発声をそのまま利用するのが12個(細い斜線)である。つまり、”e”、”h”、”i”、”k”、”m”、”o”、”s”、”u”、”v”、”w”、”x”、”z(zed)” の12個である。
【0022】
その他の発声には英語アルファベットそのままの発声以外の発声を用いる。 その中には発声を繰り返すものが3個ある。 ”f”、”q”、”y” の3個である。 ”c”についてはアルファベットの変形を用いる。すなわち、”c” の複数を意味する ”c’s(si:zu)” である。ギリシャ語のアルファベットの発声をそのまま用いるのが5個( ”α”、 ”δ”、 ”γ”、 ”λ”、 ”τ”)あり(網掛け)、これに関連するが1個 ”bita (β)”である。英語のアルファベットおよびその関連でもなく、ギリシャ語の関連でもないのが4個である。”j”、”n”、”p”、”r” の4個である。
【0023】
図3には、図2に示したような分離基準を説明するためのアルファベット発声選択図が示されている。上記図2において、アルファベットの発声をそのまま用いるのが12個で、後の14個はそれ以外の発声を用いるようにした組み合わせの基準は、まず最初は英語のアルファベットの発声を最大限に生かすことからきている。これは慣れ親しんでいるものを多く使いたいからである。図3は英語のアルファベットのうち図2で英語のアルファベットの発声を選択したもの(斜線)と、選択しなかったものとを示している。
【0024】
図3においては、同じ発音記号を含むアルファベットの系列も示されている。単語のスペル入力は認識すべき発声が基本的にはアルファベットに限定されるため認識率が高まる。さらに、入力すべき単語を予め登録しておく必要がないため記憶スペースが省け、しかもどんな単語でも入力することができる。例えば「HMM」や「Markov」などの略語や固有名詞などの予め登録されていない単語や、インターネットサイトのURLなども入力することができる。
【0025】
スペル入力は、しかしながら、それだけでは必ずしも所期の目的を達成することはできない。なぜなら、英語のアルファベットにおいてはいわゆる「e問題」に代表される次のような課題を避けることが難しいからである。すなわち、”b”、”c”、”d”、”e”、”g”、”p”、”t”、”v”、”z(zi:)”等の文字(letter)の発声がすべて‘i:’を含むために誤認識されやすい(e問題)。”a”、”h”、”j”、”k” も共通した発声の紛らわしさを有している。また、同様なことは、”i” と ”y”の間や ”q”、”u”、”w” の間でも見られる。語尾の発声の紛らわしさと同時に語頭の紛らわしさもある。”f”、”l”、”m”、”n”、”s”、”x”、(”z(zed)”)等は発声に‘e’を含むのでお互いに混線しやすい。
【0026】
この実施例では、こうした混線を避けるために、上記字母(文字)群からアルファベットそのままの発声により入力する字母の数を前記実施例では12個のように制限し、それ以外の14個のアルファベットに関してはそのアルファベットの発声とは異なる別の発声により入力する音声字母入力方法を採用するものである。そして、このような別の発声の選択基準としてはもとのアルファベットからの類推が容易で記憶しやすく、かつ差がつきやすいものを選ぶ。すなわち発声と発声の間に距離があるもの、すなわち類似性の少ないものを選ぶことにより、弁別を容易にし、認識率を大幅に改善できるようにするものである。
【0027】
上記のいわゆる「e問題」の対象となる文字(letter)は、発声に「i:」を含む9個のアルファベットに及ぶ。従ってこれらを全て選ぶとよい結果が得られない。ここではこれらの9個から ”e”と ”v”を選んだ。数は2個と少ないがこれは認識率を高めるためにはやむを得ない。これ以上に増やすとすれば、濁音の ”d”と”g”からひとつ、半濁音の ”p”を選ぶことも考えられる。しかし、これによって認識率は確実に低下すると予測されるので記憶しやすさと認識率との兼ね合いで決定することとなる。”v” を選択したのは濁音のため ”e”との距離が大きいからではあるが、別の発声を用いることにしてもよい。これも兼ね合いである。
【0028】
発声に「e」を含むアルファベットからは ”m”、”s”、”x”、”z” の4個を選択した。それぞれがかなり違う発声であることが効いて数を多くすることができる。”z” の発声を‘zi:’ではなく‘zed’としたのは「e (i:)問題」による混線を避けるためである。
【0029】
他の系列についても同様な基準で選択した。最終的には実際に認識実験の結果を見て判断することになる。図3に示した発音記号の系列に入らない文字に ”o”と ”r”がある。この中で ”o”は他との類似性が少ないために非常に高い認識率を示す。 ”r”は系列には属さないものの他との差があまり認められない。したがって図2に示した発声表には ”o”は組込んであるが、 ”r”は別の発声を使うものである。
【0030】
選択の第2の基準はよく使うアルファベットはなるべくそのままの発声を用いることである。とくに母音はそのままの発声を使いたい。この基準により ”e”、”i”、”o”、”u” をそのまま用いた。例外は ”a”である。これは ”k”との兼ね合いによる。 ”a”をそのままの発声とし、”k” を‘kappa’と発声する選択もある。どちらを選択するかはもうひとつの「ei」の発音を含む ”h”との兼ね合いによる。また、この選択の基準を厳密に適用すると ”s”、”c”、”p” (これらの文字で始まる単語数が多い)などはそのままの発声を使いたい。しかし、 ”s”はそのままの発声を使うが、”c”、”p” については発声「i:」が共通である ”e”の発声を優先するために別の発声を用いる。
【0031】
このような考察を経て、さらに実際の認識率の結果を眺めて英語のアルファベットの発声をそのまま用いる数が決定される。図2の場合にはこの数が12個であったが、これは最大でも16個に押さえることが認識率を高めるうえから必要である。アルファベットそのままの発声を用いる数を17個とすると、その結果が必ずしも良好でないことが本願発明者の実験でわかっている。一方図4の同じ発音記号を含むアルファベットの系列から少なくとも1個を選ぶことができる。また系列に入らない ”o”も選択するとして6個以上のアルファベットをそのまま発声する字母として選ぶことは有効である。
【0032】
以上、英語アルファベットの音声入力をアルファベット通りに発声して入力するものの数を6個以上かつ16個以下にすることの有効性について述べた。つぎに行うべきことはそれ以外のアルファベットの発声をどのように選ぶかである。これはかなり自由度の高い問題であり、いろんな組み合わせが考えられる。そのうちの一つが図2に示したものであり、これはギリシャ語のアルファベットを部分的に採用している。採用の理由は明白で、記憶しやすいことと音声的な距離が大きいためである。
【0033】
この実施例では、 ”α”、”δ”、”γ”、”λ”、”τ” の5個とこれに関連した‘bita’(”β”)を選択した。”β” を‘bi:ta’と発声する代わりに‘bita’としたのは ”α”、”δ”、”γ”、”λ”、”β” の発音の最後が5個とも‘a’で終るために音声的な距離がややとりにくいためである。ギリシャ語アルファベットは語尾の類似性はあるものの、比較的よく知られ使われていることからなるべく多く採用するのが効果的と考えられる。少なくとも3個のギリシャ語アルファベットの発声を入力に用いるのが有効である。
【0034】
ギリシャ語のアルファベット以外の発声を用いたものは8個である。”f” と ”q”と ”y”については英語のアルファベットの繰り返しを選んだ。これは対応するギリシャ語のアルファベットがないか、あっても長くて記憶しにくいものであるからである。また比較的使用頻度が少ない字母であるため、繰り返しにより発声が多少長くなってもその影響は少ないためである。”c” はこれに対応するギリシャ語のアルファベットがないため、 ”c”の複数という意味を込めて‘si:zu’とした。その他の発声についてはそれぞれの字母に関連がつきやすい発声を選んだ。もちろんこれらの選択はいろんな選択肢があり一意的には決まらない。実際に発声して見て他との兼ね合いで決まるものである。その発声が単独で認識率が高く、かつ他への影響が最小限に抑えられていること、すなわち他の字母の認識率低下に繋がらないことが肝要である。
【0035】
発声の選択に当ってのもうひとつの基準は発声の長さである。それぞれのアルファベット字母に対応する発声が長ければ長いほどお互いの間の音声的距離が大きくなり認識率が総体として高くなることがいえる。その一方で、長ければ長いだけ入力に時間を要することになるので発声は短い方が望ましい。本発明ではその発声の長さを2音節(2 syllables)以下に抑えた。
【0036】
図4には、本発明に係る音声認識方法に用いられる他の一実施例のアルファベット発声対応図が示されている。この実施例においては、日本語を話す人が日本語の発声で日本語文あるいは英文混じりの日本語文を入力する場合に向けられている。基本的には、図2の実施例と同じであるが、発声が日本語のかなで表される。
【0037】
先に記した文章「音声認識ソフトの構築にはHMM(Hidden Markov Model)と呼ばれるアルゴリズムが用いられる。」について示すと次のようになる。最初の「音声」は『おー』『なの』『なの』『えす』『いー』『あい』のように発声して入力する。「ん」の入力はワードプロセッサのローマ字入力で用いる「NN」によっている。これにより「おんせい」と表記されるからこの仮名入力のあと『へんかん(変換)』と発声すると「音声」が表示される。以下同様にして日本語の入力を行う。「ソフト」などの仮名変換も予め導入されているワープロソフトにより変換される。もちろん「そふと」と入力したあと『かたかな』と発声して変換することもできる。
【0038】
つぎに「HMM」の入力に入る。まず『あるふぁべっと』あるいは『えいご』などの発声によりローマ字仮名入力からアルファベット入力に移行し、『えいち』『えむ』『えむ』と発声する。「hmm」が表記されるのでさらに『おおもじ』と発声すると「hmm」が「HMM」に換わる。
【0039】
以下同様にして英文入力を行う。英文が終ると今度は日本語と言った具合に随時切り替えながら全文の入力を完了する。本発明においては図4に示した発声が日本語の音声認識ソフトにより認識され、これが日本語と英語の両方の音声入力に使われている点が特徴である。これはキーボードのキーを叩くのに対応し、キーボードの機能を代替するものである。もちろんワープロ入力には仮名やアルファベット以外にも数字や記号などの入力が欠かせない。これらについても音声入力が可能なソフトにしておく必要がある。例えば数字の入力は『すうじ』と発声してモードを切り替え、そのあと数字の発声を行うなどである。
【0040】
本実施例には本発明の特徴がよく現れている。すなわち予め機器に作り込まれているマイク以外に特別な道具を必要とすることなく、テキスト入力が可能である。簡単に片手での操作が可能である。これは携帯機器においてはきわめて重要な点であるが、その他の情報機器においてもその利点は大きい。
【0041】
本実施例の図4の発声対応表は図2のそれと基本的には一緒である。表を見るとわかるようにアルファベットそのままの発声は12個(斜線)となっている。『いー』、『えいち』、『あい』、『けー』、『えむ』、『おー』、『えす』、『ゆー』、『ヴい』、『だぶりゅー』、『えっくす』、『ぜっど』の12個である。その外の発声には英語のアルファベット以外の発声を用いる。その中には発声を繰り返すなど英語のアルファベット関連発声が4個ある。『しーず』、『えふえふ』、『きゅーきゅー』、『わいわい』の4個である。
【0042】
ギリシャ語のアルファベットの発声をそのまま用いるのが5個(『あるふぁ』、『でるた』、『がんま』、『らむだ』、『たう』)あり(網かけ)、これに関連するが1個(『びた』)である。英語のアルファベットおよびその関連でもなく、ギリシャ語の関連でもないのが4個である。『じょあ』、『なの』、『ぴこ』、『ろーま』の4個である。
【0043】
発声の選択に当ってのもうひとつの基準は発声の長さである。それぞれのアルファベット字母に対応する発声が長ければ長いほどお互いの間の音声的距離が大きくなり認識率が総体として高くなる可能性が高いことがいえる。その一方で、長ければ長いだけ入力に時間を要することになり、発声は短い方が望ましい。本発明ではその発声の長さを日本語の4音節以下に抑えた。日本語の音節の定義は諸説あるがここでは最も一般的と考えられている定義を用いた長さを指すものとする。すなわち、長音、撥音、促音は1音節、拗音も1音節と数える。つまり『あるふぁ』は3音節、『しーず』、『ぜっど』も3音節などである。『きゅーきゅー』、『だぶりゅー』は4音節である。
【0044】
この実施例でもアルファベットの発声をそのまま用いるのが12個で、後の14個はそれ以外の発声を用いている。このような音声入力による音声認識結果が図6に示されている。図5には、参考のために英語のアルファベットをそのまま発声したときの認識裕度が示されている。図5と図6において、縦軸の値が大きければ大きいほど認識裕度が高い、すなわち他のアルファベットと間違えて認識される可能性が低いことを示す。音声認識においてはHMMに基づくアルゴリズムにより認識結果の確からしさを数値化する。そのスコアの最も高いものが認識結果として表示される。
【0045】
上記の認識裕度はこの第1位と第2位のスコアの差に対応する。縦軸の値すなわち裕度が低いと誤認識される確率が増大し、縦軸の値が負(マイナス)のときは誤認識される方が多いことを示す。上記図5から英語のアルファベットをそのまま発声して音声入力してそれを認識する方法では、全体として認識裕度のばらつきが多く、その値が高くないことが見て取れる。すなわち誤認識される可能性が高く、認識率は低い値となる。
【0046】
図6の認識結果においては、全体として平均的な認識裕度を示し、かつその値が高いことがわかる。全体の平均値も図5の場合と比べて2倍以上の高い値を示す。もちろん認識裕度が負の値をとることもない。すなわち本実施例では雑音など周囲環境がよほど悪くない限り、認識率100%を実現することができるという絶大な効果が得られることが判る。
【0047】
図7には、本発明に係る音声認識方法が用いられる携帯情報端末の一実施例の外観図が示されている。この発明に係る音声認識方法は、ソフトウェアの形態で携帯情報端末に搭載されるものである。本実施例においては英語話者が使う端末を想定しており、音声認識ソフトは英語対応の音声データを用いている。
【0048】
電源スィッチ1を押すと液晶画面2が起動し、初期画面からスクロール釦4により「Schedule」を選ぶと図7の液晶画面2に示したような予定表が現れる。ここに新しく19:00の「Party」の予定を入力する場合についての操作方法を以下に説明する。まず音声認識釦3を押して音声認識モードに切り替え、続いてスクロール釦により時間の入力場所を指定する。マイク5に向かって「Number」と発声して数字モードに切り替え、「one 、nine、oh、oh」と発声する。自動的にコロンが挿入され時間指定が行われる。続いて予定入力に入る。「Alphabet」と発声して文字入力モードに切り替え「pico、α、Roman、τ、y y」と発声することにより「Party」が入力される。本実施例においてはマイク5からの入力方法について説明したが、無線マイクの使用も有効である。
【0049】
このように予定の追加が簡単にしかも確実に行える。携帯情報端末においては寸法、重量、電池寿命などの制約からCPUの性能やメモリの容量を低く抑えることが求められる。そのため口述ソフトのような重装備のソフトは使いたくない。さらに携帯性の観点からキーボードなどの入力手段は使うことが難しい。
【0050】
図11には、本願発明者が先に検討した携帯情報端末の外観図が示されている。この携帯情報端末の入力手段はスタイラスペンによる手書き入力とされる。この場合、携帯情報端末の表面には、領域6、7のような手書き入力可能なディスプレイ領域が必要となる。同図の領域6はアルファベット入力に、領域7は数字入力用に用いられるディスプレイ領域である。このような手書き入力方式では、それでなくてさえ狭いディスプレイ領域がさらに狭くなる。ハードウェアとしてもスタイラスの動きを感知するための特殊なディスプレイが必要となり、コスト高の要因となる。入力には両手を必要とする。また、機能的にも十分とは言えない。すなわち手書き入力には簡易アルファベットなど固有の形態や書き順を会得する必要がある。さらにその認識率も必ずしも高くはない。
【0051】
これに対して、前記図7に示した本願発明の応用例ではアルファベットの入力に図2に示したような対応発声を記憶する必要があるが、アルファベットそのままの発声が多いので記憶すべき対応発声の数は少ない。記憶すべき発声も手書きの場合と異なり関連付けがあるので記憶しやすくて忘れにくく使い勝手がよい。また認識率は非常に高く、しかもCPUの性能にも制約はないといってよく、メモリの容量も重装備の口述ソフトに比べて桁違いに小さくなり、携帯機器に装備可能な容量の中に優に収まる程度の容量しか必要としない。
【0052】
図8には、この発明に係る音声認識方法を用いた音声認識機能を持つデジタル携帯電話機の一実施例の外観図が示されている。同図において、11はアンテナである。アンテナ11は、よりよい条件での送受信を行うようにするために伸ばして使うようにされる。12は、受話口であり、受信された音声信号を出力するスピーカが設けられる。13は表示部であり、文字あるいは記号等が表示される。この表示には、上記音声認識による判定結果の選択ないし決定を行うためにも用いられる。
【0053】
14は、制御キー入力群であり、前記実施例に示したような音声でのかな入力機能を持つために、電源キー、選択キーを含めた少ない数のキーに限定されている。15はダイヤルキーであり、かかるダイヤルキー15は、0〜9の数字入力と、*と#のキーからなる12個からなり、*と#にカーソルを制御する機能がもたせられる他は数字入力のみに用いられる。18は、送信/着信ランプであり、例えば着信があると緑等のような特定の色で点滅し、充電時には赤色等他の色に点灯する。
【0054】
16は、送話口であり、マイクロフォンにより構成される。この実施例のデジタル携帯電話機では、上記のような音声認識機能が持たせられ、音声入力にはかかるマイクロフォンが用いられる。電話機として用いることの他、電話機の持つ各種登録や設定のために音声認識機能が利用され、その入力には表示部13が合わせて用いられる。それ故、表示部13での文字を確認しながら、音声入力するために送話口(マイクロフォン)16は、特に制限されないが、簡単な操作よって電話機本体と脱着可能とされる。つまり、マイクロフォン16は、細いケーブル17により電話機本体と接続される。このケーブル17は、マイクロフォン16が本体に装着された状態では本体内部に巻き取られようにされる。上記マイクロフォン16は、アンテナのように引き出して使うような形式、あるいは本体にたたみ込んでおいて、使用時には立てて使うような形式のものも有効である。
【0055】
この実施例のデジタル電話機では、前記図1のブロック図に示したような音声認識機能が搭載されている。かかる音声認識機能を用いた音声入力は、例えば電話帳を作成する場合の宛て名のかな文字入力に用いられる。これにより、中高年世代の人々においても、宛て名入力が簡単に行えるようになり、極めて使い勝手の良いものとなる。また、デジタル携帯電話機により「電子メール」に向けた本文の入力を行う場合も、上記字母認識による音声入力で簡単に思い通りの文章を作成することもできる。
【0056】
次に、上記デジタル電話機を用いてe−mailのテキスト文入力を行う場合の手順について説明する。(1)上記デジタル電話機の電源を入れ、e−mailのコマンドとして「e−mail」と発声する。(2)画面がメール新規作成に切り替わる。(3)アドレス帳からアドレスを選択する。(4)本文の入力に入る。一例として ”How are you?” という文の入力をするには「h、o、w、space、α、Roman、e、space、y y、o、u」「Question mark」と発声する。(5)自動的に ”h”が大文字になって ”How are you?” と表記される。(6)以下同様にしてメールの文章を入力する。(7)最後にコマンドとして「Send mail」と発声するとメールが送信される。
【0057】
この応用例ではデジタル携帯電話機のテンキーによる文章入力に比して簡便かつスピーディに入力ができる。もうひとつ重要な点はメールアドレスの入力に関するところである。メールアドレスは基本的にアルファベット入力である。アドレスが単語として入力されていることはないからである。したがって、従来の音声認識ではできなかったアドレスの入力も、前記実施例のように本願発明の音声認識方法により実現できるものとなる。
【0058】
また、デジタル携帯電話機を使ってインターネットに接続する場合には本発明の方式の優位性が際立つ。すなわちサイトのアドレスを指定する際のURLの指定においてはスペルモード入力が普通である。 http://www.…などの入力は「h、tau、tau、pico、colon、slash、slash、w、w、w、dot、・・・」ときわめて自然に入力が可能である。一般にURLは登録単語を用いる場合が少ないから字母入力が非常に有効な手段となる。
【0059】
本発明をPC(パーソナルコンピュータ)のワードプロセッサに適用した場合の入力手順を次に示す。PCには口述ソフトと本発明になるアルファベット入力ソフトが同梱されている。(1)コマンドとして「Word Processor」と発声し、続いて「File」そして「New」と発声する。 (2)PCの画面上に新規入力画面が表示される。(3)最初に口述ソフトを開き連続文発声により文章を入力する。例えば「Title of the invention」と発声する。(4)そしてその結果が ”Idol of a convention” と表示されたとする。
【0060】
(5)誤入力部の修正を行うためにスペルモードに切り替え、スクロール釦によりポインターを ”Idol” に合わせて「delete」と発声する。(6)ついで「τ、ai、τ、λ、e」と発声する。(7)”Title” が入力され、 ”Title of a convention”が表示される。(8)次にポインターを ”a”に合わせて「delete」と発声し、「τ、h、e」と発声すれば ”a”が ”the”に代わる。(9)以下同様にして正しい入力 ”Title of the invention” が得られる。
【0061】
(10)続いて本文の入力に入り、文章入力、適宜修正過程を繰り返して入力を完成する。途中あるいは最初からスペル入力を用いることもある。辞書にはない技術用語や人名、地名の入力時等にはとくに便利である。(11)全文が完成したら「Store」と発声し、入力した文面を保存し作業を終了する。
【0062】
この方式では文章読み上げ入力とスペル入力とを併用しているが、いずれも音声入力なので切り替えが遅滞なく行える。従来の方法では音声入力による口述モードとキーボードからの修正モードの切り替えに煩わしさがあった。また、適宜スペル入力を採用すれば周囲をあまり気にすることなく入力作業を行うことができる、というメリットもある。
【0063】
図9には、本発明に係る音声認識方法が用いられる携帯情報端末の他の一実施例の外観図が示されている。この発明に係る音声認識方法は、ソフトウェアの形態で携帯情報端末に搭載されるものである。本実施例においては、音声認識ソフトが日本語の音声データを用いている。基本的な構成や動作は上記の図7に示したものと同様である。相違点は英語ソフトの代わりに日本語ソフトとデータが入っていることである。
【0064】
電源スィッチ1を押すと液晶画面2が起動し、初期画面からスクロール釦4により「予定表」を選ぶと図に示したような予定表が現れる。ここに新しく19:00の「パーティ」の予定を記入したい。まず音声認識釦3を押して音声認識モードに切り替え、続いてスクロール釦により時間の入力場所を指定する。マイク5に向かって『すうじ』と発声して数字モードに切り替え、『いち、きゅう、ころん、ぜろ、ぜろ』と発声する。これにより時間指定が行われる。続いて予定の入力に入る。
【0065】
前記図4の実施例に示した発声により入力する。まず『かたかな』と発声して片仮名モードに切り替え『ぴこ、あるふぁ、ちょうおん、たう、いー、らむだ、あい』と発声することにより「パーティ」が入力される。もちろん平仮名モードで入力し「ぱーてぃ」と表記されたところで『へんかん』と発声すれば「パーティ」に変る。なお「ぃ」の入力に際しては『らむだ、あい(L I)』を用いた。これはワープロの入力方式を踏襲した。ワープロでは「ぃ」の入力を『えっくす、あい(X I)』とする場合もあり、これを使うことももちろん可能である。同様に撥音は『なの、なの(N N)』、促音は『らむだ、たう、ゆー(L T U)』あるいは『えっくす、たう、ゆー(X T U)』のように入力する。
【0066】
図10には、本発明に係る音声入力ソフトを搭載した電子辞書の外観図が示されている。図10は、折り畳み式電子辞書の開いた状態を示しており、使わないときはふたをした状態で液晶画面22が隠れるようになっている。ふたを開けると液晶画面22が起動し入力状態に入る。英日辞書の単語入力例を示すと、まず英語の指示を行い図4に示した英語アルファベットの発声により入力する。
【0067】
マイク23に向かって「hello」を入力する場合を例にとれば『えいち、いー、らむだ、らむだ、おー』と発声する。ふたの部分の扉には発声の対応表26が刷り込まれているか、貼られており、アルファベットに対応する発声(図4)を見ることができる。「訳」釦24を押すと訳語が示される。
【0068】
日本語入力の場合は日本語の指示をしてから発声をする。「もしもし」であれば『えむ、おー、えす、あい、えむ、おー、えす、あい』と発声し、「もしもし」が表示されたところで訳釦をおすと「hello」が表示される。本実施例に顕著に見られるように英語の入力も日本語の入力も同じアルファベットの発声により行うことができる。さらに両方の言語の入力を、どちらかの言語、この場合日本語の音声認識ソフトにより認識動作を行うために言語によって入力ソフトを切り替える必要がない。英語を母国語としない日本人も英語の単語を容易にしかも確実に入力することができる。
【0069】
この電子辞書には音声入力機能の他に音声出力の機能もついており、スピーカ25を通して単語の発声を聞くことができる。英語の発音を知るのに便利である。音声出力は予め録音した音声を圧縮記録し、出力時にこれを伸長出力する方式と音声合成方式がある。録音音声の記録は圧縮してもかなりの記憶容量を必要とするのに対し、音声合成は少ない記憶容量ですむ特徴がある。しかしながら音声合成は音声の自然さや滑らかさなどの点でやや分が悪い。性能とコストの兼ね合いでどちらを選ぶかを選択する。この例では音声合成を標準装備とし、録音音声は外部メモリで対応する方式とした。
【0070】
本願発明においては、前記のようにスペル入力のアルファベットの発声を部分的に他の発声に変えることにより、英語の音声入力の認識率を究極まで高めるようにするものである。この音声認識方法では、アルファベットの大部分の字母は通常の発声により入力するが、それ以外のアルファベット、すなわちお互いに混線しやすいアルファベット字母はこれに関連づけた別の発声により入力するものである。
【0071】
本願発明においては、例えば、日本語を例に取ると特定言語として英語を選び、その字母である英語アルファベットを用いて当該言語である日本語を音声入力する。この時用いるのは英語発声の英語アルファベットではなく、日本語発声の英語アルファベットである。認識ソフトも日本語の認識ソフトである。そしてこの手法をさらに展開すると、複数言語の音声入力を簡便かつ確実に行うことが可能になる。この場合も特定言語の字母入力を利用する。このとき上記複数言語のなかに上記特定言語が含まれていてもいなくてもよい。
【0072】
日本語と英語の場合を例に取れば、英語の字母であるアルファベットの入力を基本とする。アルファベットの発声は英語発声ではなく日本語による発声を使う。また認識ソフトも日本語のそれを使う。英語の入力はスペルモードにより実行する。例えば前節の「音声認識ソフトの構築にはHMM(Hidden Markov Model)と呼ばれるアルゴリズムが用いられる。」という文章の「HMM」を ”h” ”m””m” に対応する発声で入力し、「Hidden」を ”h” ”i” ”d” ”d” ”e” ”n”に対応する発声で入力するものである。
【0073】
一方、日本語の発声はローマ字入力とし「音声」を ”o” ”n” ”n” ”s” ”e” ”i”に対応する発声により入力する。この時のポイントはアルファベット入力における発声を共通にする、この例に即して言えば、日本語発声の英語アルファベットを日本語と英語の両方の入力に用いることである。そして日本語の音声データを用いた日本語音声認識ソフトを用いる。
【0074】
この点をもう少し明確にするために日本語とロシア語の組み合わせを例にとって説明する。日本語の入力もロシア語の入力のいずれも、英語アルファベットの日本語発声と日本語音声認識ソフトにより行う。日本語の場合はローマ字入力を使用し、ロシア語の場合はアルファベット入力とする。予めロシア語のアルファベットと英語のアルファベットの対応はつけておく。ロシア語のアルファベットは33個あるので英語のアルファベットとその組み合わせプラスアルファにて対応する。例えば“ё”を英語の“E”の発声に続けて‘ウムラート’と発声する、あるいは“я”を英語の“J”“A”の発声に続いて‘コンビネーション’もしくは‘コンビ’等と発声することにより入力するなどである。この“я”の例では“J”“A”の発声により“жа”と表示され、‘コンビ’の発声により“я”表示に換わる。
【0075】
上記英語アルファベット入力においては本発明のポイントである字母の置き換え発声を活用することになる。すなわち、英語のアルファベットの大部分はそのままの発声により入力するが、それ以外のアルファベットは関連付けのしやすい他の発声により入力するものである。言い換えるならば、本願においては、特定言語の音声入力を字母の発声により行う入力方法において、字母そのままの発声により入力する字母の数を制限し、それ以外の字母の入力に関してはその字母の発声とは異なる別の発声により入力する特定言語音声入力方法を提供する。
【0076】
上記のように本願発明の音声認識方法は、英語に限らず、仏語、独語、ロシア語等の欧米系言語に適用可能であるという普遍性を持つ。 それぞれの言語においてそれぞれの字母の発声とそれ以外の発声を組み合わせた最適な選択を行うようにすればよい。本発明においては、日本語などの音声入力を簡単かつ確実に行うことを可能にすることができる。さらにまた英語混じりの日本語文章のような複数言語にまたがる音声入力をも可能とする。
【0077】
前記の口述ソフトにおいて複数の言語の入力を行う場合、各言語の認識ソフトを毎回取り込まなくてはならない。この「install 」「uninstall 」の繰り返しは作業の一時中断に匹敵する時間を要する。多くの場合認識ソフトは重装備のソフトであり、プログラムおよびデータ量が膨大であるからである。かといって、この繰り返しを避けるために各言語の認識ソフトを同時に組込んで置くことも得策ではない。単一言語においてさえその認識率の低さが問題になる現状では、複数個の言語に対応する認識ソフトを組込んだとき認識率の大幅な低下は避けられない。またそれぞれの言語の認識ソフトはその言語を母国語として使う人のためのものである。したがって英語の認識ソフトは英語の単語や文章を日本人が入力する場合に適したものではない。
【0078】
本願発明では、前記のようにある言語の音声入力を当該言語以外の特定言語の字母の音声入力を基本として行うものである。さらにこの発明の展開として同じく複数言語が混在する音声入力を特定言語の字母の音声入力を基本として行うものである。話者が日本人である場合を例にとってその効果を述べて見る。この場合英語のアルファベットの発声を日本語音声データを用いた日本語音声認識ソフトにより認識する。英語の単語や文章を入力する場合、予め英語入力の指示をしておけばアルファベットの入力はそのまま英語の入力になる。日本語の文章や単語を入力する場合は、入力指示を日本語に切り替えてローマ字入力を行う。英語と日本語の切り替えは簡単で瞬時に行える。この時に大事なことはアルファベットの入力が日本語の発声によって行われることと、これを英語と日本語両方の入力に共通で使うことである。
【0079】
本願発明では、前記に例としてにあげた日本語と英語の例に限らず、2個以上の言語の組み合わせ例えば英語と仏語、日本語とロシア語、日本語と中国語と独語等の組み合わせにも適用可能であるという普遍性を持つ。 そして具体的にこの方式を実施するときにはさまざまな変形や展開がありうる。すなわち、日本語認識ソフトによる英語アルファベット入力により日本語とロシア語の文章入力を実施するなどである。最後の例では前節で述べたような英語アルファベットとロシア語アルファベット間の対応を予め定めて置くことが必要である。
【0080】
この例に見られるように当該入力言語以外の特定言語のアルファベットを字母入力し、これを当該言語の字母と対応させて置くことによりこれら当該言語の入力を行うことはきわめて有力な手段である。話者が最も使い慣れた言語で特定言語の字母入力をすることにより、原理的にはあらゆる言語の入力が可能になる。この場合、先のロシア語の例と同様上記特定言語の字母とその他の言語の字母との対応が行われていることが前提となる。字母入力に使う特定言語として選択される可能性が最も高いのが英語である。すなわち、英語のアルファベット入力をある言語の音声認識ソフトに基づいて行い、これを複数個の言語の字母入力に用いることによりこれら複数個の言語の音声入力を可能にする方法である。
【0081】
本発明を携帯情報端末に適用した場合、単語の認識率が改善されることによる音声入力の能率向上効果が大きいことは無論であるが、それ以上に大きいのは必ず入力できるという安心感である。これは製品を使用する立場からすると非常に大きなことで、何度発声しても正しい入力ができないのでは使ってもらえない。更に従来の手段では入力する単語の音声データを予め登録しておく必要があり、作業量とともにデータを記憶するメモリ容量を必要とした。また、その認識率は単語の数が1,000語、10,000語と増えるにしたがって顕著に低下していった。本発明を用いれば単語数が増大しても音声データが増大することもなくまた認識率も変化しない。したがってどんなに単語数が増えても必ず入力できるという大きな効果が得られる。
【0082】
本発明に関わる英語スペル入力にいくつかのコマンド、例えば ”Capital letter”、”hyphen”、”comma”、”period”、”colon”、”space” 、”new paragraph” 等を付加すると、文章入力も容易にできる訳でありその効果は極めて大きい。PCにおいて文章入力を音声入力で行う場合にも本発明を適用することにより大きな効果が得られる。すなわち、先に述べた口述ソフトと本発明を組み合わせることにより、より効率的な文章入力が可能になる。現在の口述ソフトはその認識率が従来水準より改善されたとはいえ、まだまだ不完全である。誤認識された単語や音節を修正する場合や、登録されていない言葉を入力するにはやはりキーボードを使うことになる。せっかく音声認識技術を駆使しながら最後はまたキーボードに戻ることは避けたい。音声入力は音声で閉じるときその効果が最大限に発揮される。最初は口述ソフトを使って入力し、誤認識された単語や音節の修正あるいは未登録語の入力に本発明を用いることにより、音声入力の機能が十二分に発揮されることになる。
【0083】
本発明を導入した場合、複数個の言語にまたがる文章入力を切れ目なく実行することができる。ある言語に関わる文章を入力している途中で別の言語の文章や単語を入力する必要に迫られることはよくあることであるが、その切り替えを瞬時に行えるため作業の切れ目をほとんど意識することなく入力作業を行える。さらに作業者あるいは話者が最も使いやすいすなわち発声しやすい母国語の発声により複数個の言語の入力を行うことができるためその効果は極めて大きい。
【0084】
以上本発明者よりなされた発明を実施例に基づき具体的に説明したが、本願発明は前記実施例に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、本発明の適用製品が何であっても言えることであって必ずしも携帯情報端末に限ったことではない。 使用する装置が携帯電話機であってもPCであっても同じことである。
【0085】
この発明に係る音声認識方法を用いた音声認識機能が搭載される電子装置は、前記の実施例の他にカーナビゲーションシステム、電子メールシステム、口述ソフト、インターネット応用、音声認識ミドルウェアソフト、ワードプロセシングソフト、あるいはテレビジョン受像機、エアコンディショナー等のような電化製品であってもよい。このような音声による電化製品や電子装置の制御は、足、手、目の不自由な障害者、介護を必要とする高齢者等にも便利なものとなる。
【0086】
【発明の効果】
本願において開示される発明のうち代表的なものによって得られる効果を簡単に説明すれば、下記の通りである。特定の言語の音声認識方法において、特定言語の音声認識を上記特定言語の字母単位あるいは複数の字母単位で行うとともに、上記特定言語の字母を音声が正しく認識されやすい発声のものと、他の字母と誤って認識されやすい発声のものとに分類し、上記正しく認識されやすい発声の字母はそのままの発声により音声入力し、上記誤認識されやすい発声の字母は別の発声に置き換えて音声入力し、音声認識では上記特定言語に対応した字母単位で音声認識を行うことにより、簡単な構成で使い勝手がよく識別率の大幅な改善を図ることができる。
【0087】
音声認識機能を持つ電子装置において、音声入力部で音声信号を取り込み、音声信号処理部により上記入力された音声信号をデジタル化してその特徴抽出を行ない、予め用意された音響モデルと照合して字母判別を行い、上記音声入力部に入力される音声信号として、日本語の仮名をローマ字表記に置き換え、且つかかるローマ字のアルファベットは音声が正しく認識されやすい発声のものと、他の字母と誤って認識されやすい発声のものとに分類し、上記正しく認識されやすい発声のアルファベットはそのままの発声により音声入力し、上記誤認識されやすい発声のアルファベットは、音声認識されやすい別の発声に置き換えて音声入力し、上記音声信号処理部では上記アルファベットを判別し、かかるアルファベットから日本語の仮名表記を含む日本語文字又は文章及び英語文字又は文章を表示することにより、簡単な構成で使い勝手がよく識別率の大幅な改善を図ることができる。
【図面の簡単な説明】
【図1】この発明に係る音声認識方法に用いられる音声信号処理装置の一実施例を示すブロック図である。
【図2】本発明に係る音声認識方法に用いられる一実施例を示す英語アルファベット発声対応図である。
【図3】図2の分離基準を説明するためのアルファベット発声選択図である。
【図4】本発明に係る音声認識方法に用いられる他の一実施例を示すアルファベット発声対応図である。
【図5】英語のアルファベットをそのまま発声したときの認識裕度の説明図である。
【図6】この発明に係る音声認識による認識裕度の説明図である。
【図7】本発明に係る音声認識方法が用いられる携帯情報端末の一実施例を示す外観図である。
【図8】この発明に係る音声認識方法を用いた音声認識機能を持つデジタル携帯電話機の一実施例を示す外観図である。
【図9】本発明に係る音声認識方法が用いられる携帯情報端末の他の一実施例を示す外観図である。
【図10】本発明に係る音声入力ソフトを搭載した電子辞書を示す外観図である。
【図11】本願発明に先立って検討された携帯情報端末の外観図である。
【符号の説明】
1…電源スイッチ、2…液晶画面、3…音声認識釦、4…スクロール釦、5…マイク、
11…アンテナ、12…受話口(スピーカー)、13…表示部、14…制御キー、15…ダイヤルキー、16…送話口(マイクロフォン)、17…ケーブル、18…ランプ、
21…電源スイッチ、22…液晶画面、23…マイク、24…釦、25…スピーカ、26…対応表。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a voice recognition method and an electronic device, and more particularly to a technology effective for use in an electronic device such as an information terminal or a mobile phone that performs voice input.
[0002]
[Prior art]
Speech recognition technology is a technology that allows a computer to directly recognize words and sentences spoken by humans, and has attracted attention as a simple input means that replaces keyboard input, pen input, and the like that are currently used as input means. As an example of a document related to speech recognition, Y. Obuchi, A .; Koizumi, Y .; Kitahara, J .; Matsuda, and T.M. Tsukada, Proc. EUROSPEECH '99, pp. 2023-2026, 1999, as examples of dictation software, Via Voice (IBM), Naturally Speaking (Dragon), and as examples of speech recognition software, ASR1600 (L & H). The above-mentioned "ViaVoice" by IBM and "Naturally Speaking" by Dragon are mainly so-called heavy equipment dictation software for Wintel PCs.
[0003]
[Non-patent document 1]
Y. Obuchi, A .; Koizumi, Y .; Kitahara, J .; Matsuda, and T.M. Tsukada, Proc. EUROSPEECH '99, pp. 2023-2026, 1999
[Non-patent document 2]
Via Voice (IBM)
[Non-Patent Document 3]
Naturally Speaking (Dragon)
[Patent Document 1]
Japanese Patent Application 2000-256650
[Patent Document 2]
Japanese Patent Application No. 2000-265653
[0004]
[Problems to be solved by the invention]
Speech recognition technology is a technology that allows a computer to directly recognize words and sentences spoken by humans, and has attracted attention as a simple input means that replaces keyboard input, pen input, and the like that are currently used as input means. In order for speech recognition technology to be widely used, its recognition rate must be high, but the current speech recognition technology is not always at a satisfactory level. An algorithm called HMM (Hidden Markov Model) is used to construct the speech recognition software. This is combined with audio data of a specific language to create software. Conventionally, voice recognition software is heavy equipment typified by so-called dictation software, and requires a high-performance computer, advanced software, and a huge amount of voice data. However, in recent years, as information devices have become mobile, the weight of voice recognition software is required to be reduced. In addition, the necessity of speech input in several languages has been pointed out in response to the recent movement of globalization.
[0005]
The above-mentioned dictation software uses an enormous amount of voice data to improve its recognition rate, and requires a large-capacity memory and a high-performance CPU. With the use of context (context) and the like, text input has become a software with a considerably high performance. However, word recognition and syllable recognition did not always achieve the expected performance, and the recognition rate was only around 70%. Recently, with the spread of the Internet, it is often necessary to input a URL or a mail address of a site. In this case, the input is an alphabetical input. However, since the recognition rate of the voice input of the alphabet is lower than the recognition rate of the word, it was practically impossible to input a mail address or the like by voice.
[0006]
As described above, the current speech recognition software does not always have a high recognition rate even when a single language such as English is input. Even in a single language, this situation creates even more problems when trying to input speech across multiple languages. Take, for example, the input of the sentence "The algorithm called HMM (Hidden Markov Model) is used for construction of speech recognition software" in the previous section. In many cases, it is necessary to input a sentence in which English is inserted in Japanese. The handling of the dictation software in such a case is as follows. First, Japanese voice input software is installed (installed), and "up to construction of voice recognition software" is input. Next, "HMM (Hidden Markov Model)" is input by incorporating English voice recognition software. To do so, you must first install the Japanese software and then re-install the English software. After the English input, you have to go through the reverse procedure.
[0007]
In the above procedure, there are more fundamental problems as well as the trouble. In this example, it is assumed that the speaker is Japanese, so there is no major problem with Japanese input. However, the situation changes completely when inputting English. English input software is designed for people who speak English as their native language and is not designed for Japanese people, so the recognition rate at the time of input is greatly reduced. In addition, there are many cases where a word or sentence cannot be input even if it is uttered many times. One way to solve this problem is to collect and translate the English data spoken by Japanese people into software. However, this is a very difficult task in practice. Because there is no standard English when Japanese speak English. Another problem is that speech recognition software generally recognizes only words registered in advance. For this reason, input of abbreviations such as "HMM" and "Markov" and proper nouns cannot be usually performed. This is because these words are very unlikely to be registered words.
[0008]
Therefore, the inventor of the present application has proposed a voice recognition method and an electronic device as shown in
[0009]
In addition, it has been found that there is still room for improvement in the method using both the English and Greek alphabets. A closer look shows that the Greek alphabet has similarities to those of English. Similarity of "α", "γ", "κ", "λ", similarity of "μ", "ν" and so on. Therefore, it turned out that it was not always advisable to target only the Greek language when choosing utterances other than the English alphabet. Therefore, selection criteria for increasing the recognition rate are that the utterance is easy to memorize and that the distance between the utterances is large. In other words, they have realized that a high recognition rate is necessary together with good usability.
[0010]
SUMMARY OF THE INVENTION An object of the present invention is to provide a speech recognition method which has a simple configuration and achieves a significant improvement in identification rate and an improvement in usability. Another object of the present invention is to provide an electronic device that improves usability by using a speech recognition technology. The above and other objects and novel features of the present invention will become apparent from the description of the present specification and the accompanying drawings.
[0011]
[Means for Solving the Problems]
The outline of a representative one of the inventions disclosed in the present application will be briefly described as follows. Speech recognition of a specific language is performed in units of the specific language or multiple units of the above-mentioned specific language. Then, the character of the utterance that is apt to be correctly recognized is input as it is, and the character of the utterance that is apt to be erroneously recognized is replaced with another utterance and input.
[0012]
The outline of another typical invention disclosed in the present application will be briefly described as follows. The voice input unit captures the voice signal, digitizes the input voice signal by the voice signal processing unit, performs feature extraction, collates the voice signal with a previously prepared acoustic model, performs character discrimination, and executes the voice input unit. As the input voice signal, Japanese kana is replaced with Roman alphabet notation, and the Roman alphabet is classified into those whose voice is easily recognized correctly and those whose voice is easily recognized by other characters incorrectly. The speech of the utterance alphabet that is easily recognized correctly is input as it is, and the erroneously recognized utterance alphabet is replaced with another utterance that is easily recognized as speech, and the voice is input. Japanese letters or sentences including Japanese kana notation and English sentences from such alphabets Or to display the text.
[0013]
BEST MODE FOR CARRYING OUT THE INVENTION
FIG. 1 is a block diagram showing one embodiment of an audio signal processing device used in the audio recognition method according to the present invention. The speech recognition method according to the present invention is performed according to signal processing in each block in FIG. The uttered sound is first converted into a digital signal in a voice input unit. This embodiment has one feature in that in order to realize a high speech recognition rate with a simple configuration, speech input is performed in units of a character.
[0014]
According to the Japanese dictionary, the term "letter" refers to each of the spellings that indicate pronunciation, such as "kana", "alphabet", and "sankanji". In English, "phoneme" (phonyme) Is equivalent to The phoneme refers to a phoneme, and means the minimum phonetical unit of a language.
[0015]
Speech input in units of characters as described above is performed by inserting a fixed silence period for each character, or by inserting a key input signal indicating a delimitation of the characters. In consideration of usability, it is considered useful to insert a silence period for each character. However, if a more reliable character separation is performed, it is useful to use a key signal.
[0016]
The voice signal input from the voice input unit for each character base is sent to a voice analysis unit, where a feature extraction process is performed. Specifically, it is a short-time frequency analysis. The analysis result is collated with an acoustic model prepared in advance in the collation unit, and a determination process is performed. The one with the highest score is displayed as the recognition result.
[0017]
The acoustic model used in the matching unit is generally a combination of an HMM, a word dictionary, and a context dictionary. Here, the HMM is called a Hidden Markov Model, and is a reference model that is a basis for recognition. A combination of the HMM and a context dictionary incorporating a word dictionary, context data, and the like is an acoustic model.
[0018]
Although the HMM that is the basis of the above speech recognition is relatively light software, in order to perform speech recognition in a specific language corresponding to dictation as in the conventional case, a word dictionary or a context dictionary of the language must be provided. Is required, and it is likely to be heavy depending on the application. In dictation softfare that requires real-time recognition of long sentence reading, word dictionaries need to be provided with a large amount of data such as contexts and sentence examples. A CPU and a large capacity memory are required.
[0019]
In portable electronic devices, it is necessary to reduce the number of components and suppress power consumption in order to enable long-term operation. The memory capacity is made as small as possible, and the power of the CPU is also limited. That is, it is required that the data amount including the dictionary be as light as possible. Therefore, in the voice recognition method according to the present invention, by performing voice recognition in units of characters, basically, a word dictionary or a contest dictionary is unnecessary as shown by a dotted line in FIG. .
[0020]
In other words, in speech recognition in units of characters, it is only necessary to be able to recognize 26 types of sounds in alphabet recognition. In addition to reducing the amount of data of the acoustic model as much as possible, by combining such characters, Characters of various languages, and words and sentences composed thereof can also be input. Since the amount of data in voice recognition can be reduced in this way, a central processing unit CPU for processing the same can be of a low power consumption reduced instruction set computer (RISC) type, and the memory capacity can be reduced. It may be less. As a result, the speech recognition method according to the present invention is an optimal input method for a portable electronic device. Even if a specific control signal or operation command is performed by voice to improve usability, the word dictionary and the context dictionary need only be small.
[0021]
FIG. 2 shows an English alphabet utterance correspondence diagram of one embodiment used in the speech recognition method according to the present invention. This embodiment is directed to an English speaker who speaks English text. In this embodiment, twelve (thin slant lines) use the utterance of the English alphabet as it is. That is, "e", "h", "i", "k", "m", "o", "s", "u", "v", "w", "x", "z (zed ) ".
[0022]
For other utterances, utterances other than the utterance of the English alphabet as it is are used. Among them, there are three that repeat voices. "F", "q", and "y". For "c", a variant of the alphabet is used. That is, "c's (si: zu)" means a plurality of "c". There are 5 (“α”, “δ”, “γ”, “λ”, “τ”) that use the Greek alphabet utterances as they are (shaded), and one related to this is “bita ( β) ”. There are four that are neither the English alphabet or its association, nor the Greek. There are four “j”, “n”, “p”, and “r”.
[0023]
FIG. 3 shows an alphabet utterance selection diagram for explaining the separation criterion as shown in FIG. In FIG. 2 above, 12 utterances of the alphabet are used as they are, and the other 14 utterances use other utterances. I'm kidding. This is because we want to use a lot of things we are used to. FIG. 3 shows the case where the utterance of the English alphabet in FIG. 2 is selected (hatched) and the case where the utterance of the English alphabet is not selected among the English alphabets.
[0024]
FIG. 3 also shows a series of alphabets including the same phonetic symbols. Since the utterance to be recognized in the spelling of a word is basically limited to the alphabet, the recognition rate is increased. Further, since there is no need to pre-register words to be input, storage space can be saved, and any words can be input. For example, words that are not registered in advance, such as abbreviations such as “HMM” and “Markov”, proper nouns, and the URL of an Internet site can be input.
[0025]
Spelling, however, does not always achieve its intended purpose by itself. This is because it is difficult to avoid the following problems represented by the so-called "e problem" in the English alphabet. That is, the utterance of letters (letter) such as “b”, “c”, “d”, “e”, “g”, “p”, “t”, “v”, “z (zi :)” All contain 'i:' and are easily misrecognized (e problem). “A”, “h”, “j”, and “k” also have common confusing utterances. The same can be seen between "i" and "y" and between "q", "u" and "w". At the same time as the utterance of the ending utterance is also confusing. “F”, “l”, “m”, “n”, “s”, “x”, (“z (zed)”) and the like include “e” in the utterance, and thus are liable to crosstalk with each other.
[0026]
In this embodiment, in order to avoid such crosstalk, the number of characters to be input by uttering the alphabet as it is from the character group (character) group is limited to 12 in the above-described embodiment, and the number of characters to be input is 14 in the other alphabets. Adopts a phonetic character input method of inputting with a different utterance different from the utterance of the alphabet. Then, as such another utterance selection criterion, a criterion that is easy to analogize from the original alphabet, is easy to memorize, and is easy to differentiate is selected. That is, by selecting an utterance having a distance between utterances, that is, an utterance having a low similarity, discrimination is facilitated and the recognition rate can be greatly improved.
[0027]
The letters subject to the so-called "e-problem" cover nine alphabets including "i:" in the utterance. Therefore, good results cannot be obtained if all of them are selected. Here, "e" and "v" were selected from these nine. Although the number is as small as two, it is unavoidable to increase the recognition rate. If the number is increased more than this, it is conceivable to select one semi-voiced sound “p” from “d” and “g” of the voiced sound. However, it is predicted that the recognition rate will surely decrease, so that the determination is made based on the balance between the memorability and the recognition rate. “V” is selected because it is a long distance from “e” due to the muddy sound, but another utterance may be used. This is also a trade-off.
[0028]
Four letters "m", "s", "x", and "z" were selected from the alphabet including "e" in the utterance. The fact that each utterance is quite different can be effective to increase the number. The reason why the utterance of “z” is “zed” instead of “zi:” is to avoid crosstalk due to the “e (i :) problem”.
[0029]
Other series were selected based on similar criteria. Ultimately, the judgment will be made by actually seeing the results of the recognition experiment. Characters that do not belong to the phonetic symbol series shown in FIG. 3 include "o" and "r". Among them, "o" indicates a very high recognition rate because of little similarity with others. "R" does not belong to the series and does not significantly differ from others. Therefore, "o" is incorporated in the utterance table shown in FIG. 2, but "r" uses another utterance.
[0030]
A second criterion for selection is to use the most common alphabets as often as possible. I want to use vowels as they are. According to this standard, "e", "i", "o", "u" were used as they were. The exception is "a". This is due to the “k”. There is also an option to utter "a" as it is and to utter "k" as "kappa". Which one to select depends on the balance with "h" which includes another pronunciation of "ei". If this selection criterion is strictly applied, "s", "c", "p" (the number of words starting with these characters is large) or the like is used as it is. However, "s" uses the utterance as it is, but "c" and "p" use another utterance to give priority to the "e" utterance in which the utterance "i:" is common.
[0031]
Through such considerations, the number that uses the utterance of the English alphabet as it is is determined while further observing the result of the actual recognition rate. In the case of FIG. 2, the number is 12, but it is necessary to suppress the number to 16 at the maximum in order to increase the recognition rate. It is known from experiments by the present inventor that if the number of utterances using the alphabet as it is is 17, the result is not always good. On the other hand, at least one can be selected from the alphabet series including the same phonetic symbols in FIG. In addition, it is effective to select "o" which does not belong to the series, and to select six or more alphabets as the character to be uttered as it is.
[0032]
In the foregoing, the effectiveness of setting the number of voices of English alphabets to be uttered in alphabetical order and inputting them to 6 or more and 16 or less has been described. The next thing to do is how to choose the other alphabetic utterances. This is a very flexible problem, and various combinations are possible. One of them is shown in FIG. 2, which partially adopts the Greek alphabet. The reason for adoption is obvious, because it is easy to memorize and the voice distance is large.
[0033]
In this embodiment, five “α”, “δ”, “γ”, “λ”, and “τ” and the related “bita” (“β”) are selected. “Β” was replaced with “bita” instead of “bi: ta” because “α”, “δ”, “γ”, “λ”, and “β” last in all five pronunciations of “a” This is because the voice distance is a little difficult to finish. Although the Greek alphabet has similar endings, it is considered effective to adopt as much as possible because it is relatively well known and used. It is useful to use at least three Greek alphabet utterances for input.
[0034]
The number of utterances other than the Greek alphabet is eight. For "f", "q" and "y", we chose the repetition of the English alphabet. This is because there is no corresponding Greek alphabet or it is long and difficult to remember. Also, because the character is used relatively infrequently, even if the utterance is slightly longer due to repetition, the influence is small. Since "c" does not have a corresponding Greek alphabet, it is set to "si: zu" with the meaning of plural "c". For other utterances, utterances that are easily associated with each character were selected. Of course, these choices have many options and are not uniquely determined. It is determined based on the balance with others when actually speaking. It is important that the utterance alone has a high recognition rate and the influence on other characters is minimized, that is, does not lead to a decrease in the recognition rate of other characters.
[0035]
Another criterion in selecting the utterance is the length of the utterance. It can be said that the longer the utterance corresponding to each alphabetic character, the longer the vocal distance between them and the higher the recognition rate as a whole. On the other hand, a longer utterance requires more time for input, so a shorter utterance is desirable. In the present invention, the length of the utterance is suppressed to 2 syllables or less.
[0036]
FIG. 4 shows an alphabet utterance correspondence diagram of another embodiment used in the voice recognition method according to the present invention. This embodiment is directed to a case where a person who speaks Japanese inputs a Japanese sentence or a mixture of English sentences in Japanese utterance. Basically, it is the same as the embodiment of FIG. 2, but the utterance is expressed in Japanese kana.
[0037]
The above-mentioned sentence "An algorithm called HMM (Hidden Markov Model) is used for construction of speech recognition software" is as follows. The first "voice" is input by speaking like "O", "Nano", "Nano", "Es", "I", "Ai". The input of “n” is based on “NN” used in Roman character input of a word processor. As a result, the word "Onsei" is written, so if "kanen (conversion)" is uttered after the input of the pseudonym, "voice" is displayed. Thereafter, Japanese is input in the same manner. Kana conversion such as "soft" is also converted by word processor software installed in advance. Of course, you can also convert by typing "soft" and then saying "Katakana".
[0038]
Next, input of "HMM" is entered. First, the utterance of "Alfetto" or "Eigo" shifts from inputting Roman alphabets to inputting alphabets, and then uttering "Eichi", "Emu", and "Emu". Since "hmm" is written, "hmm" is replaced with "HMM" when "Omoji" is further spoken.
[0039]
Hereinafter, English input is performed in the same manner. When the English sentence is over, the input of the whole sentence is completed, switching to Japanese as needed. The present invention is characterized in that the utterance shown in FIG. 4 is recognized by Japanese voice recognition software, and this is used for both Japanese and English voice input. This corresponds to hitting a key on the keyboard, and replaces the function of the keyboard. Of course, in addition to kana and alphabets, numbers and symbols must be entered for word processing. For these, it is necessary to make software that allows voice input. For example, when inputting a number, the mode is switched by uttering "Suji", and then the number is uttered.
[0040]
The present embodiment clearly shows the features of the present invention. That is, text input is possible without requiring special tools other than a microphone built in the device in advance. Simple one-handed operation is possible. This is a very important point in portable devices, but the advantages are also great in other information devices.
[0041]
The utterance correspondence table of FIG. 4 of this embodiment is basically the same as that of FIG. As can be seen from the table, there are 12 utterances of the alphabet as it is (hatched). "I", "Eichi", "Ai", "Ke", "Emu", "O", "Es", "Yu", "V", "Daburi", "Ex" ”And“ Zeddo ”. For other utterances, use utterances other than the English alphabet. Among them, there are four utterances related to the English alphabet, such as repeated utterances. There are four types: "Sees", "Efu-e-fu", "Ky-ky-ky", and "Wai-wai".
[0042]
There are five ("Alpha", "Delta", "Ganma", "Ramuda", "Tau") that use the Greek alphabet utterances as they are (shaded). Is one ("bita"). There are four that are neither the English alphabet or its association, nor the Greek. There are four parts: "Joah", "Nano", "Piko", and "Roma".
[0043]
Another criterion in selecting the utterance is the length of the utterance. It can be said that the longer the utterance corresponding to each alphabetic character, the longer the vocal distance between each other and the higher the recognition rate as a whole. On the other hand, the longer the input, the longer it takes to input, and the shorter the utterance, the better. In the present invention, the length of the utterance is suppressed to four syllables or less in Japanese. Although there are various theories on the definition of Japanese syllables, here we shall refer to the length using the most commonly considered definition. That is, a long sound, a plucked sound, and a prompting sound are counted as one syllable, and a repetitive sound is counted as one syllable. In other words, "Alpha" has three syllables, "Seezu" and "Zed" have three syllables. "Kyakyu" and "Daburyu" have four syllables.
[0044]
Also in this embodiment, 12 utterances of the alphabet are used as they are, and the other 14 utterances use other utterances. FIG. 6 shows a speech recognition result by such a speech input. FIG. 5 shows the recognition latitude when the English alphabet is uttered as it is for reference. 5 and 6, the larger the value on the vertical axis, the higher the recognition latitude, that is, the lower the possibility of being mistakenly recognized as another alphabet. In speech recognition, the likelihood of a recognition result is quantified by an algorithm based on HMM. The highest score is displayed as the recognition result.
[0045]
The recognition latitude described above corresponds to the difference between the first and second scores. If the value on the vertical axis, that is, the margin is low, the probability of misrecognition increases, and if the value on the vertical axis is negative (minus), it indicates that there is more misrecognition. It can be seen from FIG. 5 that in the method of recognizing the English alphabet by uttering the voice as it is and inputting the voice as it is, the variation in the recognition latitude is large as a whole and the value is not high. That is, the possibility of erroneous recognition is high, and the recognition rate is a low value.
[0046]
In the recognition result of FIG. 6, it can be seen that the average recognition latitude is shown as a whole and the value is high. The average value of the whole also shows a value that is twice or more higher than that in the case of FIG. Of course, the recognition latitude does not take a negative value. In other words, it can be seen that in this embodiment, as long as the surrounding environment such as noise is not so bad, a remarkable effect of achieving a recognition rate of 100% can be obtained.
[0047]
FIG. 7 is an external view of one embodiment of a portable information terminal using the voice recognition method according to the present invention. A voice recognition method according to the present invention is mounted on a portable information terminal in the form of software. In the present embodiment, a terminal used by an English speaker is assumed, and the voice recognition software uses voice data corresponding to English.
[0048]
When the
[0049]
Thus, the addition of the schedule can be performed easily and reliably. In a portable information terminal, it is required to reduce the performance of the CPU and the capacity of the memory due to restrictions such as dimensions, weight, and battery life. I do not want to use heavy equipment such as dictation software. Furthermore, it is difficult to use input means such as a keyboard from the viewpoint of portability.
[0050]
FIG. 11 shows an external view of a portable information terminal that the inventor of the present application has considered before. The input means of the portable information terminal is a handwriting input using a stylus pen. In this case, on the surface of the portable information terminal, a display area such as
[0051]
On the other hand, in the application example of the present invention shown in FIG. 7, it is necessary to store the corresponding utterance as shown in FIG. 2 in the input of the alphabet. The number of is small. Since the utterances to be memorized have an association unlike the case of handwriting, they are easy to memorize and are hard to forget, and are convenient to use. In addition, the recognition rate is very high, and it can be said that there is no restriction on the performance of the CPU, and the memory capacity is orders of magnitude smaller than that of heavily equipped dictation software. It requires only enough space to fit.
[0052]
FIG. 8 is an external view of an embodiment of a digital mobile phone having a voice recognition function using the voice recognition method according to the present invention. In the figure,
[0053]
[0054]
[0055]
The digital telephone of this embodiment has a voice recognition function as shown in the block diagram of FIG. The voice input using such a voice recognition function is used, for example, for inputting kana characters of a destination name when a telephone directory is created. As a result, even the middle-aged and older generations can easily input an address, which is extremely easy to use. Also, when inputting the text for "e-mail" using a digital mobile phone, the desired text can be easily created by voice input based on the character recognition.
[0056]
Next, a procedure for inputting an e-mail text sentence using the digital telephone will be described. (1) Turn on the power of the digital telephone, and say "e-mail" as an e-mail command. (2) The screen switches to creating a new mail. (3) Select an address from the address book. (4) Enter the text. As an example, to input the sentence “How are you?”, Say “h, o, w, space, α, Roman, e, space, yy, o, u” and “Question mark”. (5) "h" is automatically capitalized and written as "How are you?" (6) Input the text of the mail in the same manner. (7) Finally, when "Send mail" is uttered as a command, an e-mail is transmitted.
[0057]
In this application example, the input can be performed more easily and speedily than the text input using the numeric keypad of the digital mobile phone. Another important point is about email address entry. The email address is basically entered alphabetically. This is because the address is never entered as a word. Therefore, the input of an address that could not be performed by the conventional voice recognition can be realized by the voice recognition method of the present invention as in the above embodiment.
[0058]
Also, when connecting to the Internet using a digital mobile phone, the superiority of the system of the present invention stands out. That is, spelling mode input is common in URL specification when specifying a site address. http: // www. ... can be input very naturally as "h, tau, tau, pico, colon, slash, slash, w, w, w, dot,...". In general, URLs are rarely used for registered words, and therefore, inputting characters is a very effective means.
[0059]
An input procedure when the present invention is applied to a word processor of a PC (personal computer) will be described below. The PC is packaged with dictation software and alphabet input software according to the present invention. (1) Say "Word Processor" as a command, and then say "File" and "New". (2) A new input screen is displayed on the screen of the PC. (3) First, open the dictation software and input sentences by uttering continuous sentences. For example, say "Title of the invitation". (4) Suppose that the result is displayed as "Idol of a convention".
[0060]
(5) Switch to the spelling mode to correct the erroneous input part, and move the pointer to "Idol" with the scroll button and say "delete". (6) Then, “τ, ai, τ, λ, e” is uttered. (7) "Title" is input, and "Title of a convention" is displayed. (8) Next, move the pointer to "a", say "delete", and say "τ, h, e", so that "a" replaces "the". (9) Similarly, a correct input "Title of the invitation" is obtained.
[0061]
(10) Then, the input of the text is started, and the input of the text and the correction process are repeated as necessary to complete the input. In some cases, spelling is used midway or from the beginning. This is particularly useful when entering technical terms, personal names, and place names that are not in the dictionary. (11) When the entire sentence is completed, say "Store", save the input sentence, and end the work.
[0062]
In this method, the text-to-speech input and the spelling input are used together, but since both are voice inputs, switching can be performed without delay. In the conventional method, it is troublesome to switch between the dictation mode by voice input and the correction mode from the keyboard. There is also a merit that, if spell input is adopted as appropriate, the input operation can be performed without much concern for the surroundings.
[0063]
FIG. 9 is an external view of another embodiment of the portable information terminal using the voice recognition method according to the present invention. A voice recognition method according to the present invention is mounted on a portable information terminal in the form of software. In this embodiment, the speech recognition software uses Japanese speech data. The basic configuration and operation are the same as those shown in FIG. The difference is that Japanese software and data are included instead of English software.
[0064]
When the
[0065]
The input is made by the utterance shown in the embodiment of FIG. First, "Katakana" is spoken and the mode is switched to the katakana mode, and "Party" is input by uttering "Poko, Arifu, Choon, Tao, Ia, Ramuda, Ai". Of course, if you enter in Hiragana mode and say "Portu" and say "Hankan", it will change to "Party". In addition, when inputting "@", "ramada, ai (LI)" was used. This followed the word processor input method. In a word processor, the input of "@" may be "EX, AI (XI)", and it is of course possible to use this. Similarly, the repellent sound is input as "Nana, nana (NN)", and the prompt sound is input as "Ramuda, Tauta, Yu (LTU)" or "Ex, Tauta, Yu (XTU)". .
[0066]
FIG. 10 is an external view of an electronic dictionary equipped with voice input software according to the present invention. FIG. 10 shows a state in which the foldable electronic dictionary is open. When not used, the
[0067]
For example, when "hello" is input to the
[0068]
In the case of Japanese input, give an instruction in Japanese and then speak. If "Hello", "Em, O, Es, Ai, Em, O, Es, Ai" is uttered, and when "Hello" is displayed, "hello" is displayed by pressing the translation button. As can be seen in this embodiment, both English input and Japanese input can be performed by uttering the same alphabet. Further, in order to perform an input operation in both languages by using one of the languages, in this case, Japanese voice recognition software, there is no need to switch the input software depending on the language. Even non-native Japanese speakers can easily and reliably enter English words.
[0069]
This electronic dictionary has a voice output function in addition to a voice input function, and can hear the utterance of a word through the
[0070]
In the present invention, the recognition rate of the English voice input is ultimately increased by partially changing the utterance of the alphabet of the spelling input to another utterance as described above. In this speech recognition method, most of the alphabets of the alphabet are inputted by ordinary utterances, but other alphabets, that is, alphabets which are likely to be mixed with each other, are inputted by another utterance associated therewith.
[0071]
In the present invention, for example, taking Japanese as an example, English is selected as a specific language, and the Japanese language, which is the language, is input using the English alphabet that is the character base. At this time, the English alphabet uttered in Japanese is used instead of the English alphabet uttered in English. Recognition software is also Japanese recognition software. If this technique is further developed, voice input in a plurality of languages can be performed easily and reliably. In this case as well, a character language input of a specific language is used. At this time, the specific language may or may not be included in the plurality of languages.
[0072]
Taking the case of Japanese and English as an example, the basis is input of the alphabet which is the alphabet of English. Alphabet utterances use Japanese utterances rather than English utterances. Recognition software also uses Japanese language. English input is performed in spell mode. For example, "HMM" in the sentence "The algorithm called HMM (Hidden Markov Model) is used for construction of speech recognition software" in the previous section is input by utterance corresponding to "h""m""m", and " Hidden "is input by utterance corresponding to" h "" i "" d "" d "" e "" n ".
[0073]
On the other hand, Japanese utterances are input as Roman characters and "voice" is input by utterances corresponding to "o""n""n""s""e""i". The point at this time is to make the utterance common in alphabet input. In this example, the English alphabet of Japanese utterance is used for both Japanese and English input. Then, Japanese speech recognition software using Japanese speech data is used.
[0074]
To make this point a little clearer, let's take a combination of Japanese and Russian as an example. Both Japanese input and Russian input are performed by Japanese utterance of English alphabet and Japanese speech recognition software. Use Roman alphabet input for Japanese and alphabet input for Russian. The correspondence between the Russian alphabet and the English alphabet is added in advance. There are 33 Russian alphabets, so we will use English alphabets and their combinations plus alpha. For example, "ё" is uttered as "E" in English followed by "Umrath", or "я" is uttered as "J" or "A" in English followed by "combination" or "combi". To input. In this example of “я”, “жа” is displayed by uttering “J” and “A”, and the display changes to “я” by uttering “combi”.
[0075]
In the above-mentioned English alphabet input, the replacement utterance of the character base, which is the point of the present invention, is utilized. In other words, most of the English alphabets are input by utterances as they are, but other alphabets are input by other utterances that are easily associated. In other words, in the present application, in the input method in which the voice input of a specific language is performed by uttering the character, the number of characters to be input by uttering the character as it is is limited. Provides a specific language voice input method for inputting with different utterances.
[0076]
As described above, the speech recognition method of the present invention has the universality that it can be applied to not only English but also Western languages such as French, German, and Russian. In each language, an optimal selection may be made by combining the utterance of each character and the other utterances. According to the present invention, it is possible to easily and reliably input a voice such as Japanese. Furthermore, voice input over a plurality of languages such as Japanese sentences mixed with English is also enabled.
[0077]
When inputting a plurality of languages in the dictation software, recognition software for each language must be imported each time. The repetition of “install” and “uninstall” requires a time equivalent to the suspension of the operation. In many cases, the recognition software is software with heavy equipment, and the amount of programs and data is enormous. However, it is not advisable to incorporate recognition software for each language at the same time to avoid this repetition. Under the current situation where the recognition rate is low even in a single language, when the recognition software corresponding to a plurality of languages is installed, a drastic reduction in the recognition rate cannot be avoided. Recognition software for each language is for those who use that language as their native language. Therefore, English recognition software is not suitable for inputting English words and sentences by Japanese.
[0078]
In the present invention, as described above, voice input in a certain language is performed on the basis of voice input of a character language in a specific language other than the language. Further, as a development of the present invention, a voice input in which a plurality of languages are similarly mixed is performed on the basis of a voice input of a character language of a specific language. The effect will be described taking the case where the speaker is Japanese as an example. In this case, the utterance of the English alphabet is recognized by Japanese speech recognition software using Japanese speech data. When inputting an English word or sentence, if an instruction of an English input is given in advance, the input of the alphabet becomes the input of English as it is. When inputting a Japanese sentence or word, the input instruction is switched to Japanese and a Roman character is input. Switching between English and Japanese is easy and instantaneous. What is important at this time is that the input of the alphabet is performed by uttering Japanese and that this is commonly used for inputting both English and Japanese.
[0079]
In the present invention, not only the example of Japanese and English mentioned above as an example, but also a combination of two or more languages such as English and French, Japanese and Russian, Japanese and Chinese and German, etc. Also has the universality of being applicable. And when this method is specifically implemented, there can be various modifications and developments. That is, Japanese and Russian sentences are input by inputting English alphabets using Japanese recognition software. In the last example, it is necessary to predetermine the correspondence between the English alphabet and the Russian alphabet as described in the previous section.
[0080]
As shown in this example, it is an extremely effective means to input the alphabet of a specific language other than the input language and to enter the alphabet by setting the alphabet in correspondence with the alphabet of the language. When a speaker enters a specific language in the most familiar language, in principle, any language can be input. In this case, it is premised that the correspondence between the script in the specific language and the script in another language is performed as in the case of the Russian language. English is most likely to be selected as the specific language used for the input of the characters. That is, a method of inputting English alphabets based on voice recognition software of a certain language and using the same for character input of a plurality of languages, thereby enabling voice input of the plurality of languages.
[0081]
When the present invention is applied to a portable information terminal, it is a matter of course that the effect of improving the efficiency of voice input due to the improvement of the word recognition rate is large. . This is a big thing from the standpoint of using the product, and even if you say it many times, you will not be able to use it unless you can enter it correctly. Further, in the conventional means, it is necessary to register voice data of a word to be input in advance, which requires a memory capacity for storing data together with the amount of work. Moreover, the recognition rate decreased remarkably as the number of words increased to 1,000 words and 10,000 words. According to the present invention, the voice data does not increase even if the number of words increases, and the recognition rate does not change. Therefore, a great effect is obtained that the user can always input even if the number of words increases.
[0082]
When some commands, such as "Capital letter", "hyphen", "comma", "period", "colon", "space", "new paragraph", etc. are added to the English spelling input according to the present invention, text input is performed. That is, the effect is extremely large. A great effect can be obtained by applying the present invention even when a sentence is input by voice input on a PC. That is, by combining the dictation software described above with the present invention, more efficient text input becomes possible. Although the current dictation software has improved its recognition rate from the conventional level, it is still incomplete. To correct a misrecognized word or syllable, or to enter an unregistered word, you still have to use the keyboard. I would like to avoid returning to the keyboard at the end while making full use of speech recognition technology. The effect is maximized when voice input is closed by voice. By first inputting using dictation software and using the present invention to correct a misrecognized word or syllable or to input an unregistered word, the function of voice input will be fully demonstrated.
[0083]
When the present invention is introduced, it is possible to seamlessly execute a text input over a plurality of languages. While you are often entering text related to one language, you often need to enter text or words in another language, but you can switch between them instantly, so be aware of breaks in your work Input work can be done without any. Furthermore, since the operator or the speaker can input a plurality of languages by uttering the native language which is the easiest to use, that is, is easy to utter, the effect is extremely large.
[0084]
Although the invention made by the inventor has been specifically described based on the embodiments, the invention of the present application is not limited to the embodiments, and it is needless to say that various modifications can be made without departing from the gist of the invention. Nor. For example, the present invention can be applied to any product, and is not necessarily limited to a portable information terminal. The same applies whether the device used is a mobile phone or a PC.
[0085]
An electronic apparatus equipped with a voice recognition function using the voice recognition method according to the present invention is a car navigation system, an e-mail system, dictation software, Internet application, voice recognition middleware software, word processing software in addition to the above-described embodiments. Alternatively, it may be an electric appliance such as a television receiver or an air conditioner. Such control of electric appliances and electronic devices by voice is also convenient for persons with disabilities who have difficulty with their feet, hands, and eyes, and elderly people who need nursing care.
[0086]
【The invention's effect】
The following is a brief description of an effect obtained by a representative one of the inventions disclosed in the present application. In the speech recognition method for a specific language, speech recognition for a specific language is performed in units of the specific language or in units of a plurality of characters. Categorized as utterances that are apt to be mistakenly recognized, and the utterance of the utterance that is easily recognized is input as it is, and the utterance of the utterance that is easily recognized is replaced with another utterance and input as speech. In speech recognition, by performing speech recognition in units of characters corresponding to the above-mentioned specific language, it is easy to use with a simple configuration, and the identification rate can be greatly improved.
[0087]
In an electronic device having a voice recognition function, a voice input unit captures a voice signal, digitizes the input voice signal by a voice signal processing unit, extracts features of the voice signal, compares the digitized voice signal with a previously prepared acoustic model, and compares it with a character model. Judgment is made, and the Japanese kana is replaced with a Roman alphabet notation as an audio signal to be input to the audio input unit. The alphabet of the utterance that is easily recognized is input as it is, and the alphabet of the utterance that is easily recognized is replaced with another utterance that is easily recognized. The audio signal processing unit determines the alphabet and converts the alphabet into a Japanese kana table. By displaying the Japanese character or sentence and English characters or sentence including, it is possible to achieve significant improvements in ease of use is good identification rate with a simple configuration.
[Brief description of the drawings]
FIG. 1 is a block diagram showing one embodiment of an audio signal processing device used for a voice recognition method according to the present invention.
FIG. 2 is an English alphabet utterance correspondence diagram showing one embodiment used in the voice recognition method according to the present invention.
FIG. 3 is an alphabet utterance selection diagram for explaining the separation criterion of FIG. 2;
FIG. 4 is a diagram corresponding to alphabet utterance showing another embodiment used in the voice recognition method according to the present invention.
FIG. 5 is an explanatory diagram of recognition latitude when an English alphabet is uttered as it is.
FIG. 6 is an explanatory diagram of a recognition allowance by voice recognition according to the present invention.
FIG. 7 is an external view showing an embodiment of a portable information terminal using the voice recognition method according to the present invention.
FIG. 8 is an external view showing an embodiment of a digital mobile phone having a voice recognition function using the voice recognition method according to the present invention.
FIG. 9 is an external view showing another embodiment of the portable information terminal using the voice recognition method according to the present invention.
FIG. 10 is an external view showing an electronic dictionary equipped with voice input software according to the present invention.
FIG. 11 is an external view of a portable information terminal studied prior to the present invention.
[Explanation of symbols]
DESCRIPTION OF
11 antenna, 12 earpiece (speaker), 13 display unit, 14 control key, 15 dial key, 16 mouthpiece (microphone), 17 cable, 18 lamp
21: power switch, 22: liquid crystal screen, 23: microphone, 24: button, 25: speaker, 26: correspondence table.
Claims (4)
上記特定言語の字母を音声が正しく認識されやすい発声のものと、他の字母と誤って認識されやすい発声のものとに分類し、
上記正しく認識されやすい発声の字母はそのままの発声により音声入力し、
上記誤認識されやすい発声の字母は別の発声に置き換えて音声入力することを特徴とする音声認識方法。To perform the speech recognition of the specific language in units of the character or a plurality of characters of the specific language,
Classifying the script in the specific language into utterances in which speech is easily recognized correctly and utterances in which speech is apt to be mistakenly recognized as other script,
The character base of the utterance that is easy to be correctly recognized is input by voice as it is,
A speech recognition method, wherein the character base of the utterance that is apt to be erroneously recognized is replaced with another utterance and input by voice.
上記誤認識されやすいために別の発声により置き換えられた字母の発声は、もとの字母からの類推が容易であるかまたは関連づけられたものであることを特徴とする音声認識方法。In claim 1,
A speech recognition method, wherein the utterance of the character replaced by another utterance because it is liable to be erroneously recognized is easily analogized from or related to the original character.
上記字母は英語のアルファベットであり、
上記アルファベットは、ローマ字表記の日本語の仮名にも置き換えられるものであることを特徴とする音声認識方法。In claim 1,
The above script is the English alphabet,
The speech recognition method according to claim 1, wherein the alphabet is replaced with a Japanese kana in Roman alphabet.
上記入力された音声信号をデジタル化し、その特徴抽出を行ない、予め用意された音響モデルと照合して字母判別を行う音声信号処理部を備え、
上記音声入力部に入力される音声信号は、日本語の仮名をローマ字表記に置き換え、且つかかるローマ字のアルファベットは音声が正しく認識されやすい発声のものと、他の字母と誤って認識されやすい発声のものとに分類され、上記正しく認識されやすい発声のアルファベットはそのままの発声により音声入力され、上記誤認識されやすい発声のアルファベットは、音声認識されやすい別の発声に置き換えて音声入力され、
上記音声信号処理部では上記アルファベットを判別し、かかるアルファベットから日本語の仮名表記を含む日本語文字又は文章及び英語文字又は文章を表示するようにしたことを特徴とする電子装置。An audio input unit for receiving an audio signal,
Digitizing the input audio signal, performing a feature extraction thereof, comprising a voice signal processing unit that performs character discrimination by collating with a previously prepared acoustic model,
The voice signal input to the voice input unit replaces Japanese kana with Romanized notation, and the Romanized alphabet is composed of utterances in which speech is easily recognized correctly and utterances which are easily mistakenly recognized as other characters. The alphabet of the utterance that is easily recognized is uttered as it is, and the alphabet of the utterance that is erroneously recognized is replaced with another utterance that is easily recognized.
An electronic device, wherein the audio signal processing unit determines the alphabet and displays Japanese characters or sentences including Japanese kana notation and English characters or sentences from the alphabet.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002332919A JP2004170466A (en) | 2002-11-15 | 2002-11-15 | Voice recognition method and electronic device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002332919A JP2004170466A (en) | 2002-11-15 | 2002-11-15 | Voice recognition method and electronic device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004170466A true JP2004170466A (en) | 2004-06-17 |
Family
ID=32697776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002332919A Pending JP2004170466A (en) | 2002-11-15 | 2002-11-15 | Voice recognition method and electronic device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004170466A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100630806B1 (en) | 2005-11-29 | 2006-10-04 | 한국전자통신연구원 | Command input method using motion recognition device |
JP2010198641A (en) * | 2010-06-04 | 2010-09-09 | Casio Computer Co Ltd | Information display control unit and program |
JP2010198640A (en) * | 2010-06-04 | 2010-09-09 | Casio Computer Co Ltd | Information display control device and program |
JP2010250843A (en) * | 2010-06-04 | 2010-11-04 | Casio Computer Co Ltd | Information display controller and program |
JP2011027979A (en) * | 2009-07-24 | 2011-02-10 | Fujitsu Ltd | Voice translation device and method of the same |
WO2012042578A1 (en) * | 2010-10-01 | 2012-04-05 | 三菱電機株式会社 | Speech recognition device |
WO2013035293A1 (en) * | 2011-09-09 | 2013-03-14 | 旭化成株式会社 | Voice recognition device |
-
2002
- 2002-11-15 JP JP2002332919A patent/JP2004170466A/en active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100630806B1 (en) | 2005-11-29 | 2006-10-04 | 한국전자통신연구원 | Command input method using motion recognition device |
JP2011027979A (en) * | 2009-07-24 | 2011-02-10 | Fujitsu Ltd | Voice translation device and method of the same |
JP2010198641A (en) * | 2010-06-04 | 2010-09-09 | Casio Computer Co Ltd | Information display control unit and program |
JP2010198640A (en) * | 2010-06-04 | 2010-09-09 | Casio Computer Co Ltd | Information display control device and program |
JP2010250843A (en) * | 2010-06-04 | 2010-11-04 | Casio Computer Co Ltd | Information display controller and program |
WO2012042578A1 (en) * | 2010-10-01 | 2012-04-05 | 三菱電機株式会社 | Speech recognition device |
US9239829B2 (en) | 2010-10-01 | 2016-01-19 | Mitsubishi Electric Corporation | Speech recognition device |
WO2013035293A1 (en) * | 2011-09-09 | 2013-03-14 | 旭化成株式会社 | Voice recognition device |
CN103827962A (en) * | 2011-09-09 | 2014-05-28 | 旭化成株式会社 | Voice recognition device |
US9437190B2 (en) | 2011-09-09 | 2016-09-06 | Asahi Kasei Kabushiki Kaisha | Speech recognition apparatus for recognizing user's utterance |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8311829B2 (en) | Multimodal disambiguation of speech recognition | |
US5787230A (en) | System and method of intelligent Mandarin speech input for Chinese computers | |
US7881936B2 (en) | Multimodal disambiguation of speech recognition | |
US8571862B2 (en) | Multimodal interface for input of text | |
US20080133228A1 (en) | Multimodal speech recognition system | |
JP4468264B2 (en) | Methods and systems for multilingual name speech recognition | |
JP2003015803A (en) | Japanese input mechanism for small keypad | |
JP2016521383A (en) | Method, apparatus and computer readable recording medium for improving a set of at least one semantic unit | |
JP2002116793A (en) | Data input system and method | |
US20020069058A1 (en) | Multimodal data input device | |
Fellbaum et al. | Principles of electronic speech processing with applications for people with disabilities | |
US20080270128A1 (en) | Text Input System and Method Based on Voice Recognition | |
JP2004170466A (en) | Voice recognition method and electronic device | |
JP4230142B2 (en) | Hybrid oriental character recognition technology using keypad / speech in adverse environment | |
JPS634206B2 (en) | ||
JP3411198B2 (en) | Interpreting apparatus and method, and medium storing interpreting apparatus control program | |
JP2011039468A (en) | Word searching device using speech recognition in electronic dictionary, and method of the same | |
Cerva et al. | Design and development of voice controlled aids for motor-handicapped persons. | |
JP2002073081A (en) | Voice recognition method and electronic equipment | |
KR100777569B1 (en) | The speech recognition method and apparatus using multimodal | |
JP2002073082A (en) | Voice recognition method and electronic equipment | |
JP2003216607A (en) | Electronic translating apparatus | |
JP2007535692A (en) | System and method for computer recognition and interpretation of arbitrarily spoken characters | |
JP2004053871A (en) | Speech recognition system | |
JP2001067097A (en) | Document preparation device and document preparing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041102 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060928 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20061120 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20061122 |
|
A072 | Dismissal of procedure [no reply to invitation to correct request for examination] |
Free format text: JAPANESE INTERMEDIATE CODE: A072 Effective date: 20070308 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070327 |