JP2007163967A - Speech recognition device and speech recognition method - Google Patents
Speech recognition device and speech recognition method Download PDFInfo
- Publication number
- JP2007163967A JP2007163967A JP2005362014A JP2005362014A JP2007163967A JP 2007163967 A JP2007163967 A JP 2007163967A JP 2005362014 A JP2005362014 A JP 2005362014A JP 2005362014 A JP2005362014 A JP 2005362014A JP 2007163967 A JP2007163967 A JP 2007163967A
- Authority
- JP
- Japan
- Prior art keywords
- user
- pronunciation information
- recognition
- acoustic model
- pronunciation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title description 25
- 230000006870 function Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 240000000220 Panda oleosa Species 0.000 description 4
- 235000016496 Panda oleosa Nutrition 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Abstract
Description
本発明は、同じ認識対象に対して使用者ごとに異なる発音を付与可能な音声認識装置および音声認識方法に関する。 The present invention relates to a speech recognition apparatus and a speech recognition method that can give different pronunciations to the same recognition target for each user.
同じ対象を表す言葉であっても、日常使用している語彙や対象との関係などによって使用する言葉は個人ごとに異なる。例えば、同じA子さんを呼ぶときに、A子さんの夫は「A子」と呼び、A子さんの娘は「お母さん」と呼んだりする。また、これとは逆に、同じ言葉を使用していても個人によって異なる対象を示すこともある。例えば、A子さんが「お母さん」と呼ぶ場合とA子さんの娘が「お母さん」と呼ぶ場合で、呼ばれている対象は異なる。 Even if the words represent the same object, the words used vary depending on the vocabulary used daily and the relationship with the object. For example, when calling the same A child, the husband of A child calls “A child” and the daughter of A child calls “mother”. On the contrary, even if the same language is used, different objects may be indicated depending on the individual. For example, when A child calls “mother” and when A child's daughter calls “mother”, the called objects are different.
音声認識を使用する際、音声認識に用いる語彙も、使用者ごとに使い慣れた言葉が使えると使用者にとって便利である。例えば、先のA子さんの家族が自宅の電話から音声認識を使ったボイスダイアルでA子さんの携帯電話に電話をかける場合、夫は「A子」、娘は「お母さん」など各人が使い慣れた呼称で電話をかけられると便利である。 When using speech recognition, it is convenient for the user if the vocabulary used for speech recognition can also use words familiar to each user. For example, if the family of the previous child A calls the mobile phone of A child with a voice dial using voice recognition from the home phone, the husband is “A child” and the daughter is “mother”. It is convenient if you can make a call with a familiar name.
このように使用者ごとに音声認識に使用する語を設定できる音声処理システムが特許文献1に開示されている。特許文献1では音声処理システムの一例として音声認識装置が搭載された親子電話が開示されている。この親子電話は、家族の個人が子機を占有する昨今の利用形態に照らし、子機ごとに、すなわち子機を占有する使用者ごとに認識語彙を設定できる。先の例で言えば、A子さんの夫が占有する子機では「A子」、A子さんの娘が占有する子機では「お母さん」という語でA子さんの携帯電話に電話をかけることができる。文献1では、また、子機・親機間あるいは子機・子機間で互いの認識語彙を公開することによって、公開された認識語彙を設定した端末以外で音声認識することができるよう構成されているので、使用者が占有する子機以外の端末でも使用者ごとに設定した認識語彙を認識することができる。A子さんの夫の子機の認識語彙を親機に公開することによって、親機でも「A子」を認識できるようになる。同様に、A子さんの娘の子機の認識語彙を親機に公開すれば、A子さんの娘が使用する認識語彙も親機で認識可能となる。
文献1に開示された音声認識装置では、一つの音声認識装置において複数の使用者が使用者ごとに設定した認識語彙を認識することができるが、他の使用者が設定した認識語彙も認識対象になるため、使用者が設定した認識語彙のみを使用する場合よりも認識精度が劣化する可能性がある。
In the speech recognition apparatus disclosed in
また、文献1に開示された音声認識装置では、一つの音声認識装置において、複数の使用者が使用者ごとに設定した認識語彙を認識することができるが、一方で複数の使用者が同じ語を異なる対象に割り当てた場合には対応できない。例えば、A子さんがA子さんのお母さんの電話番号に対して「お母さん」、A子さんの娘がA子さんの携帯電話番号に「お母さん」と登録している場合に、音声認識装置が「お母さん」という入力を正しく認識しても、電話番号を一つに決定することができない。
In the speech recognition device disclosed in
本発明は、上記のような課題を解決し、使用者の利便性を向上した音声認識装置を提供することを目的とする。 An object of the present invention is to provide a speech recognition apparatus that solves the above-described problems and improves the convenience for the user.
かかる課題を解決するために、請求項1に記載の本発明の音声認識装置は認識対象に対して複数の発音情報を登録する発音情報登録手段と、それぞれの発音情報を音声認識する際に用いる音響モデルを関連づける音響モデル登録手段とを備え、前記各発音情報を、前記各発音情報に関連づけられた音響モデルを用いて音声認識することを特徴とする。 In order to solve this problem, the speech recognition apparatus according to the first aspect of the present invention uses pronunciation information registration means for registering a plurality of pronunciation information with respect to a recognition target, and is used when each pronunciation information is recognized by voice. Acoustic model registration means for associating an acoustic model, wherein each of the pronunciation information is recognized by using an acoustic model associated with each of the pronunciation information.
また、請求項2に記載の音声認識装置は、認識対象に対して複数の発音情報を登録する発音情報登録手段と、それぞれの発音情報を発声し得る使用者を登録する使用者登録手段と、使用者ごとに使用する音響モデルを登録する使用音響モデル登録手段とを備え、前記各発音情報を、前記発音情報を発声し得る使用者が使用する音響モデルを用いて音声認識することを特徴とする。
Further, the speech recognition apparatus according to
本発明の音声認識装置によれば、使用者ごとに認識対象に対して任意の発音情報を登録することができ、また登録した発音情報に対して使用者ごとに使用する音響モデルを関連づけることが可能となる。これにより、使用者ごとに異なる音響モデルを用いた場合に、他の使用者が使用する音響モデルが関連づけられた発音情報への誤認識が減り、認識精度が向上する。 According to the speech recognition apparatus of the present invention, arbitrary pronunciation information can be registered for a recognition target for each user, and an acoustic model to be used for each user can be associated with the registered pronunciation information. It becomes possible. As a result, when different acoustic models are used for each user, erroneous recognition of pronunciation information associated with acoustic models used by other users is reduced, and recognition accuracy is improved.
また、同じ発音でも使用者によって異なる対象を認識することができるようになる。 Also, different objects can be recognized by the user even with the same pronunciation.
以下、図面を参照しながら本発明の好適な実施例について説明していく。 Hereinafter, preferred embodiments of the present invention will be described with reference to the drawings.
図1は本発明の一実施形態である音声認識装置の概略構成を示すブロック図である。 FIG. 1 is a block diagram showing a schematic configuration of a speech recognition apparatus according to an embodiment of the present invention.
図1において、101は中央処理装置(CPU)、102は制御メモリ(ROM)、103はメモリ(RAM)、104はキーボードやボタンなどの操作キー、105は液晶などの表示装置、106はマイクなどの音声入力装置、107はスピーカなどの音声出力装置、108は外部機器と通信するための通信装置、109はデータバスである。
In FIG. 1, 101 is a central processing unit (CPU), 102 is a control memory (ROM), 103 is a memory (RAM), 104 is an operation key such as a keyboard and buttons, 105 is a display device such as a liquid crystal, 106 is a microphone, etc. , An
本実施形態の音声認識装置を実現するための制御プログラムやその制御プログラムで用いるデータは、制御メモリ(ROM)102に記録される。 A control program for realizing the speech recognition apparatus of this embodiment and data used in the control program are recorded in a control memory (ROM) 102.
これらの制御プログラムやデータは、中央処理装置101の制御のもと、データバス108を通じて適宜メモリ103に取り込まれ、中央処理装置101によって実行される。実行した結果、すなわち音声認識の結果は表示装置105で表示、あるいは音声合成を利用して音声出力装置107から出力、あるいは通信装置を介して外部機器へ出力される。
These control programs and data are appropriately taken into the
図2は、本発明の音声認識装置を電話番号を検索するデータ検索システムに適用した場合の機能ブロック図である。 FIG. 2 is a functional block diagram when the speech recognition apparatus of the present invention is applied to a data search system for searching for telephone numbers.
本データ検索システムは、検索対象データである電話番号および電話番号ごとに関連した情報を記憶するデータベース201。音声認識に用いる音響モデルを記憶する音響モデル202、データ検索に用いる検索キーワードの読み仮名などの発音情報の登録を行う発音情報登録部203、音声認識に用いる音響モデルの登録を行う音響モデル登録部204、音声認識に用いる認識文法を作成する認識文法作成部205、音声認識を行う音声認識部206、データベースに記憶されたデータを検索して音声認識結果に適合する電話番号を検索する認識結果処理部207、とから構成される。
The data search system includes a
図3に本実施形態のデータ検索装置が記憶するデータベース201の一例を示す。本実施形態のデータベースは、電話番号ごとに、ID(301の列)、電話番号(302の列)、名前(303の列)、名前の読み仮名(304の列)の情報を記憶している。図3の304の列に示したように、以後、本実施形態では発音情報として読み仮名を使用した場合を説明する。
FIG. 3 shows an example of the
本実施形態の音響モデル202は、あらかじめ複数の音響モデルを記憶している。本実施形態では、不特定話者を対象にした不特定話者モデル、成人男性を対象にした成人男性モデル、成人女性にを対象にした成人女性モデル、子供を対象にした子供モデルを用いるが、これに限るものではなく、話者適応技術などを用いて使用者ごとに使用者の音声を用いて作成された使用者専用のモデルを用いてもよい。
The
以下、各モジュールで行う処理の詳細を、発音情報および音響モデルを登録する処理と音声認識してデータを検索する処理に分けて説明する。 Hereinafter, the details of the processing performed in each module will be described by dividing into processing for registering pronunciation information and acoustic model and processing for searching for data by voice recognition.
<発音情報および音響モデルを登録する処理>
図6に発音情報、音響モデルを登録する処理のフローを示す。以下、図6のフローチャートを用いて、発音情報および音響モデルの登録の処理を説明する。
<Process to register pronunciation information and acoustic model>
FIG. 6 shows a flow of processing for registering pronunciation information and an acoustic model. Hereinafter, the process of registering the pronunciation information and the acoustic model will be described with reference to the flowchart of FIG.
使用者は、操作キー104を使用して所定の手順で発音情報を登録するデータを選択する(S601)。この時、発音情報登録部203は表示装置105に図4のようなGUIで表示する。使用者は選択したデータに対して操作キー104を用いて所望の発音情報および登録する発音情報を音声認識する際に用いる音響モデルを登録する(S602、S603)。図4は、図3に示したデータベースの305の行に記録されている山田花子さんの携帯電話番号099−9999−9999に対して、花子さんの夫が「はなこ」「おかあさん」、花子さん本人が「けいたい」、花子さんの子供が「おかあさん」というキーワードで検索するため、発音情報及び音響モデルを登録した様子を示している。図4において、ウィンドウ400には、名前401、名前の読み仮名402、電話番号403が表示される。本実施例では名前の読み仮名402以外に4つのキーワードの読み仮名を408、409、410、411に登録できるものとする。登録した発音情報に対して、音響モデル登録部で404〜407に表示された音響モデルを選択して登録する。図4では、黒丸で示した音響モデルが登録された音響モデルである。すなわち、「はなこ」に対して成人男性モデル、「けいたい」に対して成人女性モデル、「おかあさん」に対して成人男性モデル、子供モデルが登録されている。また、本実施形態では、名前の読み仮名「やまだはなこ」に対して自動的に不特定話者モデルを登録することにするが、他の読み仮名と同様に使用者が音響モデルを登録するようにしてもよいし、自動で全ての音響モデルを登録するようにしてもよい。
The user uses the
次に登録された発音情報および使用する音響モデルをデータベース201に記憶する(S604)。このとき、各発音情報に対して登録された音響モデルを関連づけて記憶する。登録された発音情報、音響モデルは電話番号データとともにデータベース201に記憶されている電話番号データに追記して記憶してもよいし、電話番号データとは別のデータとしてデータベース201に記憶してもよい。電話番号データに追記した場合の電話番号データの一例を図5に示す。同図では、各発音情報に対して使用する音響モデルの識別番号が関連づけられている(列501)。各識別番号はそれぞれ、1が不特定話者モデル、2が成人男性モデル、3が成人女性モデル、4が子供モデルである。
Next, the registered pronunciation information and the acoustic model to be used are stored in the database 201 (S604). At this time, the registered acoustic model is stored in association with each pronunciation information. The registered pronunciation information and acoustic model may be added and stored in the telephone number data stored in the
他のデータに発音情報、音響モデルの登録を行う場合は登録対象のデータを選択するS601に戻り、登録を終了する場合は、発音情報および音響モデルの登録処理を終了する(S605)。 When registering pronunciation information and acoustic model for other data, the process returns to S601 for selecting data to be registered, and when registration is ended, registration processing of pronunciation information and acoustic model is ended (S605).
以上で発音情報および音響モデルの登録が完了する。 This completes registration of pronunciation information and acoustic models.
<音声認識してデータを検索する処理>
次に音声認識の処理について説明する。
<Process to search for data by voice recognition>
Next, the speech recognition process will be described.
図7に音声認識してデータを検索する処理のフローを示す。以下、図7のフローチャートを用いて、音声認識してデータを検索する処理の流れを説明する。 FIG. 7 shows a flow of processing for recognizing and retrieving data. Hereinafter, the flow of processing for recognizing voice and searching for data will be described with reference to the flowchart of FIG.
所定の操作により、データ検索の処理が開始されると、まず認識文法作成部205が、データベース201を参照して認識文法を作成する(S701)。認識文法には、少なくとも認識結果として出力する値と発音情報が記述されている。また、認識文法は、各発音情報と、各発音情報を音声認識する際に用いる音響モデルの対応関係がわかるように作成する。ここでは、認識文法を使用する音響モデルごとに作成することで音響モデルと発音情報の関連づけを行う。図8に作成する認識文法の例を示す。同図において、(A)〜(D)の認識文法に記述された発音情報は、それぞれ、(A)音響モデル1(不特定話者モデル)、(B)音響モデル2(成人男性モデル)、(C)音響モデル3(成人女性モデル)、(D)音響モデル4(子供モデル)が関連づけられている。また、認識結果として図3の301に示した電話番号データのIDを出力するものとする。
When the data search process is started by a predetermined operation, the recognition
ユーザが音声入力装置106を介して、検索キーワードを音声入力すると、作成した認識文法を用いて音声認識部206で音声認識する(S703)。一般的な音声認識では、全ての認識対象語について、各認識対象語の発音情報に対応する音響モデルと入力音声との類似度を表す認識スコアを計算し、最も類似した認識対象語を音声認識結果とする。S703における音声認識も同様の処理で認識結果を出力する。ただし、認識スコアの計算の際に、認識文法作成部205で作成された認識文法にしたがい、発音情報ごとに音響モデル登録部204で登録された音響モデルを使用する。例えば、図8に示した認識文法を用いる場合、801に示した「やまだはなこ」の認識スコアは不特定話者モデルを、802に示した「おかあさん」の認識スコアは成人男性モデルを使って計算する。全ての発音情報について認識スコアを求め、最も入力音声に類似した認識スコアになる認識結果を出力する。本データ検索システムでは認識結果として電話番号データのIDを出力するよう認識文法に記述しているので、例えば、図8の804の「けいたい」が最も入力音声に類似している場合は、その出力値「001」を認識結果として出力する。
When the user inputs a search keyword by voice through the
認識結果処理部207では、データベース201から認識結果として出力されたIDの電話番号データを検索する(S704)。検索した電話番号データは表示装置105に表示しても良いし、電話番号を音声合成などを用いて音声出力装置107から音声で出力しても良い。また、本データ検索システムが電話機上に実現されている場合は、通信装置108を介して電話機と通信士、検索した電話番号データに登録された電話番号に電話をかけるようにしてもよい。
The recognition
再度、検索を行う場合はS702の音声入力に戻り、検索を終了する場合はこの処理を終了する(S705)。 When the search is performed again, the process returns to the voice input of S702, and when the search is ended, the process is ended (S705).
<効果>
以上、説明したように、使用者ごとに任意の発音情報を登録し、発音情報ごとに認識スコアを計算する音響モデルを変えることによって、音響モデルを発音情報ごとに変えない場合に比べ、認識精度が向上するという効果がある。入力音声に類似するほど値が大きくなるような認識スコアを用いたときに、たとえば、成人男性が音声入力する場合、成人男性モデルを用いる発音情報の認識スコアが高く、逆に成人男性モデル以外の音響モデルを用いる発音情報の認識スコアは低くなると期待できる。これによって、成人男性が音声入力した際に、成人男性モデルが関連づけられていない発音情報への誤認識を少なくする効果が期待できる。例えば、図8に示した認識文法において、「はなこ」と「はなよ」の発音は良く似ているため、成人男性が「はなこ」と音声入力した場合、不特定話者モデルのみを用いて認識スコアを求めると、その差は少ないと考えられる。しかしながら、本実施形態にしたがって、「はなよ」を成人女性モデルで認識スコアを計算する場合は、入力音声である男性の音声と成人女性モデルがミスマッチし、「はなよ」の認識スコアが低くなり、誤認識の可能性を少なくできる。本実施例では音響モデルをあらかじめ用意された音響モデルを用いる場合で説明したが、使用者ごとに使用者の音声で学習した専用の音響モデルを用いれば、上記のような効果はさらに向上する。また、本発明の音声認識装置は、同じ発音でも使用者によって異なる対象(本実施例では電話番号データ)を認識することができる。図8の803、804に示したように、本発明の音声認識装置では認識結果の出力値002(山田花子さんの電話番号)、001(山田太郎さんの電話番号)に対して同じ「けいたい」という発音が登録されている。音響モデルを一つしか用いない場合、どちらも同じ認識スコアになるため認識結果を認識スコアだけで一つに絞り込むことはできない。つまり、山田花子さんが「けいたい」と入力した場合と、山田太郎さんが「けいたい」と音声入力した場合の認識結果を区別することができない。本発明の音声認識装置によれば、002の「けいたい」に対して成人女性モデル、001の「けいたい」に対して成人男性モデルが関連づけられているため、山田太郎さんが「けいたい」と音声入力すると成人男性モデルを用いて認識スコアを計算する001の「けいたい」が成人女性モデルを用いる002の「けいたい」よりも認識スコアが大きくなり、前述のような課題を解決できる。
<Effect>
As explained above, by registering arbitrary pronunciation information for each user and changing the acoustic model for calculating the recognition score for each pronunciation information, the recognition accuracy is higher than when the acoustic model is not changed for each pronunciation information. Has the effect of improving. When using a recognition score whose value increases as it is similar to the input speech, for example, when an adult male inputs speech, the recognition score of pronunciation information using the adult male model is high, and conversely, other than the adult male model The recognition score of pronunciation information using an acoustic model can be expected to be low. Thus, when an adult male inputs a voice, an effect of reducing misrecognition to pronunciation information not associated with an adult male model can be expected. For example, in the recognition grammar shown in FIG. 8, the pronunciations of “Hanako” and “Hanayo” are very similar, so when an adult male voice-inputs “Hanako”, only the unspecified speaker model is used. When the recognition score is obtained, the difference is considered to be small. However, according to the present embodiment, when the recognition score of “Hanayo” is calculated with the adult female model, the male voice that is the input speech and the adult female model mismatch, and the recognition score of “Hanayo” is This reduces the possibility of misrecognition. In the present embodiment, the case where an acoustic model prepared in advance is used has been described. However, if a dedicated acoustic model learned by the user's voice is used for each user, the above effect is further improved. Further, the voice recognition device of the present invention can recognize different objects (phone number data in this embodiment) depending on the user even with the same pronunciation. As indicated by
また、本発明の音声認識装置は音響モデルの違いにより認識されやすい発音情報が限定されるので、事前に使用者を指定して、使用者専用の認識文法を用いることで認識語彙を絞り込む音声認識装置と同様の効果を使用者の指定を行わずに実現できる。 In addition, since the speech recognition apparatus of the present invention limits the pronunciation information that is easy to be recognized due to the difference in the acoustic model, the speech recognition that narrows down the recognition vocabulary by designating the user in advance and using the user-specific recognition grammar The same effect as the device can be realized without specifying the user.
実施形態1では、各発音情報に対して使用する直接音響モデルを選択するようにしたが、本実施形態では、発音情報に対して使用者を関連づけ、あらかじめ登録した使用者と音響モデルの関係から発音情報に音響モデルを関連づける方法について説明する。 In the first embodiment, the direct acoustic model used for each pronunciation information is selected. However, in this embodiment, the user is associated with the pronunciation information, and the relationship between the user and the acoustic model registered in advance is used. A method of associating an acoustic model with pronunciation information will be described.
図9に本実施形態のデータ検索システムの機能ブロック図を示す。 FIG. 9 shows a functional block diagram of the data search system of this embodiment.
実施形態1の構成の音響モデル登録部204を使用者登録部209に置き換え、さらに使用者情報登録部208が追加された構成となる。
The acoustic
<使用者情報を登録する処理>
使用者情報登録部208では、発音情報の登録に先立ち、使用者ごとに使用する音響モデルを登録し、データベース201に記憶する。データベース201に記憶する使用者情報の一例を図10に示す。同図において、1001の列が使用者のID、1002の列が使用する音響モデルの識別番号である。本実施形態では、実施形態1と同様に成人男性モデル、成人女性モデル、子供モデルを用いるが、これに限るものではなく、話者適応技術などを用いて使用者ごとに使用者の音声を用いて作成された使用者専用のモデルを用いてもよい。
<Process to register user information>
The user
<発音情報および使用者を登録する処理>
以下、図13のフローチャートを参照して発音情報および使用者を登録する処理について、図6に示した実施形態1の処理手順と差異のある部分についてのみ説明する。
<Process to register pronunciation information and user>
Hereinafter, with respect to the process of registering pronunciation information and a user with reference to the flowchart of FIG. 13, only a part different from the process procedure of the first embodiment shown in FIG. 6 will be described.
図6における音響モデル登録部が行うS603の処理で音響モデルを直接登録する替わりに、本実施形態では、登録した発音情報を使用する使用者を登録する(図13、S606)。その様子を図11に示す。図11は発音情報「はなこ(1108)」「けいたい(1109)」「おかあさん(1110)」に対して、その発音情報を使用する使用者を1104〜1106で登録する様子を示しており、黒丸で示した使用者が各発音情報を使用する使用者である。すなわち、「はなこ」はユーザ1、「けいたい」はユーザ2、「おかあさん」はユーザ3が使用する発音情報として登録される。また、本実施形態では、名前の読み仮名「やまだはなこ」に対して使用者を登録しないようにしているが、他の読み仮名と同様に使用者を登録できるようにしてもよいし、自動で全ての使用者を登録するようにしてもよい。
Instead of directly registering the acoustic model in the process of S603 performed by the acoustic model registration unit in FIG. 6, in this embodiment, a user who uses the registered pronunciation information is registered (FIG. 13, S606). This is shown in FIG. FIG. 11 shows a state in which the users who use the pronunciation information are registered in 1104-1106 for the pronunciation information “Hanako (1108)”, “Keitai (1109)”, “Okasan (1110)”. The user indicated by is a user who uses each pronunciation information. That is, “Hanako” is registered as
次に、登録された使用者は、発音情報に関連づけてデータベース201に記憶する(S607)。登録された発音情報、使用者は電話番号データとともにデータベース201に記憶されている電話番号データに追記して記憶してもよいし、電話番号データとは別のデータとしてデータベース201に記憶してもよい。電話番号データに追記した場合の電話番号データの一例を図12に示す。同図では、各発音情報に対して使用する使用者の識別番号が関連づけられている(列1201)。各識別番号はそれぞれ、0が特定の使用者なし、1がユーザ1、2がユーザ2、3がユーザ3である。
Next, the registered user is stored in the
<音声認識してデータを検索する処理>
次に本実施形態の音声認識の処理について説明する。
<Process to search for data by voice recognition>
Next, the speech recognition process of this embodiment will be described.
音声認識してデータを検索する処理のフローは図7に示した実施形態1の処理と同じである。本実施形態と実施形態1とでは、S701における認識文法の作成方法のみが異なるので、この部分についてのみ説明する。 The processing flow for recognizing and retrieving data is the same as that of the first embodiment shown in FIG. This embodiment is different from the first embodiment only in the method for creating a recognition grammar in S701, and only this portion will be described.
実施形態1では、データベース201に記憶された電話番号データに各発音情報ごとに使用する音響モデルが関連づけたが、本実施形態では、発音情報ごとに関連づけるのは使用者である。発音情報と使用する音響モデルを関連づけるため、本実施形態では、認識文法を作成する際に、データベース201に記憶されている図10に示した使用者と使用する音響モデルの対応関係を用いて、発音情報ごとに使用する音響モデルの関連づけを行う。例えば、図11の1110に示した「おかあさん」という発音情報には1106でユーザ1とユーザ3が登録されているので、使用者情報(図10)を参照してユーザ1が使用する音響モデル2(成人男性モデル)、およびユーザ3が使用する音響モデル3(子供モデル)が関連づけられるように認識文法を作成する。
In the first embodiment, the acoustic model used for each pronunciation information is associated with the telephone number data stored in the
このようにして作成した認識文法は図8に示した実施形態1で作成した認識文法と同じ形態になる。 The recognition grammar created in this way has the same form as the recognition grammar created in the first embodiment shown in FIG.
以降の処理については、実施形態1と同じなので説明を省略する。 Since the subsequent processing is the same as that of the first embodiment, description thereof is omitted.
<その他の実施形態>
電話番号データを使用者ごとに管理している場合は、S606における使用者を選択する処理を先に実施すると、発音情報ごとに使用者を登録する処理を省くことができる。
<Other embodiments>
When the telephone number data is managed for each user, if the process of selecting a user in S606 is performed first, the process of registering the user for each pronunciation information can be omitted.
<その他の実施形態>
認識文法は使用者ごとに作成しても良い。この場合図8に示した認識文法はそれぞれ、(A)特定使用者なし(B)ユーザ1(C)ユーザ2(D)ユーザ3が使用する認識文法となる。また、使用者ごとに認識文法を作成する場合は、音声認識部206で音声認識する際に、データベースに記憶されている使用者情報を参照し、各使用者の認識文法に記述されている発音情報の認識スコアを対応する音響モデルを用いて計算する。
<Other embodiments>
A recognition grammar may be created for each user. In this case, the recognition grammar shown in FIG. 8 is the recognition grammar used by (A) no specific user (B) user 1 (C) user 2 (D)
<効果>
本実施形態では、発音情報ごとに、その発音情報を使用する使用者を関連づけるため、音響モデルを発音情報に関連づける実施形態1よりも発音情報および使用者の登録作業が直感的に行えるようになり、登録作業の操作性が向上する。
<Effect>
In the present embodiment, the user who uses the pronunciation information is associated with each pronunciation information. Therefore, the pronunciation information and the user can be registered more intuitively than the first embodiment in which the acoustic model is associated with the pronunciation information. The operability of registration work is improved.
また、電話番号データや発音情報を使用者ごとに管理する場合には、発音情報ごとに音響モデルや使用者の登録をすることなく、登録作業を効率良く行うことができる。 In addition, when telephone number data and pronunciation information are managed for each user, registration can be performed efficiently without registering an acoustic model or user for each pronunciation information.
実施形態1および実施形態2では、本発明の音声認識をデータ検索システムに適用した場合について説明したが、これに限るものではなく、発音情報を登録する機能を備え、複数の使用者が想定されている音声認識装置やアプリケーションであれば本発明を適用することができる。 In the first and second embodiments, the case where the speech recognition of the present invention is applied to a data search system has been described. However, the present invention is not limited to this, and a function for registering pronunciation information is provided, and a plurality of users are assumed. The present invention can be applied to any voice recognition device or application.
なお、本発明の目的は、前述した実施例の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成されることは言うまでもない。 An object of the present invention is to supply a storage medium recording a program code of software that realizes the functions of the above-described embodiments to a system or apparatus, and the computer (or CPU or MPU) of the system or apparatus stores the storage medium. Needless to say, this can also be achieved by reading and executing the program code stored in.
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。 In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the storage medium storing the program code constitutes the present invention.
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。 As a storage medium for supplying the program code, for example, a flexible disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a magnetic tape, a nonvolatile memory card, a ROM, or the like can be used.
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an OS (operating system) operating on the computer based on the instruction of the program code. It goes without saying that a case where the function of the above-described embodiment is realized by performing part or all of the actual processing and the processing is included.
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, after the program code read from the storage medium is written into a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the function expansion is performed based on the instruction of the program code. It goes without saying that the CPU or the like provided in the board or the function expansion unit performs part or all of the actual processing, and the functions of the above-described embodiments are realized by the processing.
101 中央処理装置
102 制御メモリ
103 メモリ
104 操作キー
105 表示装置
106 音声入力装置
107 音声出力装置
108 通信装置
109 バス
101
Claims (2)
それぞれの発音情報を音声認識する際に用いる音響モデルを関連づける音響モデル登録手段とを備え、
前記各発音情報を、前記各発音情報に関連づけられた音響モデルを用いて音声認識することを特徴とする音声認識装置。 Pronunciation information registration means for registering a plurality of pronunciation information for a recognition target;
An acoustic model registration means for associating an acoustic model used when recognizing each pronunciation information with speech;
A speech recognition apparatus for recognizing each of the pronunciation information using an acoustic model associated with each of the pronunciation information.
それぞれの発音情報を発声し得る使用者を登録する使用者登録手段と、
使用者ごとに使用する音響モデルを登録する使用音響モデル登録手段とを備え、
前記各発音情報を、前記発音情報を発声し得る使用者が使用する音響モデルを用いて音声認識することを特徴とする音声認識装置。 Pronunciation information registration means for registering a plurality of pronunciation information for a recognition target;
A user registration means for registering a user who can utter each pronunciation information;
Use acoustic model registration means for registering an acoustic model to be used for each user,
A speech recognition apparatus characterized by recognizing each of the pronunciation information using an acoustic model used by a user who can utter the pronunciation information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005362014A JP2007163967A (en) | 2005-12-15 | 2005-12-15 | Speech recognition device and speech recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005362014A JP2007163967A (en) | 2005-12-15 | 2005-12-15 | Speech recognition device and speech recognition method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007163967A true JP2007163967A (en) | 2007-06-28 |
Family
ID=38246899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005362014A Withdrawn JP2007163967A (en) | 2005-12-15 | 2005-12-15 | Speech recognition device and speech recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007163967A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016075728A (en) * | 2014-10-03 | 2016-05-12 | 株式会社日立製作所 | Facility inspection assistance device |
JP2019193134A (en) * | 2018-04-26 | 2019-10-31 | シャープ株式会社 | Display device, television receiver and display method |
-
2005
- 2005-12-15 JP JP2005362014A patent/JP2007163967A/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016075728A (en) * | 2014-10-03 | 2016-05-12 | 株式会社日立製作所 | Facility inspection assistance device |
JP2019193134A (en) * | 2018-04-26 | 2019-10-31 | シャープ株式会社 | Display device, television receiver and display method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101932181B1 (en) | Speech recognition using device docking context | |
US8290775B2 (en) | Pronunciation correction of text-to-speech systems between different spoken languages | |
US8762156B2 (en) | Speech recognition repair using contextual information | |
US9640175B2 (en) | Pronunciation learning from user correction | |
US20200160863A1 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
CN108399914B (en) | Voice recognition method and device | |
US20030061043A1 (en) | Select a recognition error by comparing the phonetic | |
JP4574390B2 (en) | Speech recognition method | |
JP2008039928A (en) | Speech interactive apparatus and speech interactive program | |
CN104462071A (en) | SPEECH TRANSLATION APPARATUS and SPEECH TRANSLATION METHOD | |
US20130253932A1 (en) | Conversation supporting device, conversation supporting method and conversation supporting program | |
CN111862959B (en) | Pronunciation error detection method, pronunciation error detection device, electronic equipment and storage medium | |
JP2022503255A (en) | Voice information processing methods, devices, programs and recording media | |
CN112133295B (en) | Speech recognition method, device and storage medium | |
EP3550449A1 (en) | Search method and electronic device using the method | |
WO2017159207A1 (en) | Processing execution device, method for controlling processing execution device, and control program | |
JP2005517216A (en) | Transcription method and apparatus assisted in fast and pattern recognition of spoken and written words | |
JP2007163967A (en) | Speech recognition device and speech recognition method | |
JP3881155B2 (en) | Speech recognition method and apparatus | |
KR20080043035A (en) | Mobile communication terminal with speech recognition function and search method using same | |
JP2002189490A (en) | Method of pinyin speech input | |
CN113589947A (en) | Data processing method and device and electronic equipment | |
JP2004072274A (en) | Sound processing system and control method therefor | |
JPH1195792A (en) | Voice processing device and character inputting method | |
EP1187431A1 (en) | Portable terminal with voice dialing minimizing memory usage |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20090303 |