JP5957269B2 - Voice recognition server integration apparatus and voice recognition server integration method - Google Patents
Voice recognition server integration apparatus and voice recognition server integration method Download PDFInfo
- Publication number
- JP5957269B2 JP5957269B2 JP2012088230A JP2012088230A JP5957269B2 JP 5957269 B2 JP5957269 B2 JP 5957269B2 JP 2012088230 A JP2012088230 A JP 2012088230A JP 2012088230 A JP2012088230 A JP 2012088230A JP 5957269 B2 JP5957269 B2 JP 5957269B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- recognition server
- server
- speech recognition
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010354 integration Effects 0.000 title claims description 140
- 238000000034 method Methods 0.000 title claims description 51
- 239000000284 extract Substances 0.000 claims 1
- 238000000605 extraction Methods 0.000 claims 1
- 238000005259 measurement Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 22
- 238000004891 communication Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 17
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Machine Translation (AREA)
Description
本発明は、ユーザが音声を用いて操作を行うための端末装置と、音声データを認識してその結果を返す複数の音声認識サーバとを繋ぎ、複数の音声認識サーバにより得られる認識結果を統合して最適な音声認識結果をユーザに提供するための装置および方法に関する。 The present invention connects a terminal device for a user to operate using voice and a plurality of voice recognition servers that recognize voice data and return the result, and integrates the recognition results obtained by the plurality of voice recognition servers. The present invention relates to an apparatus and a method for providing a user with an optimal speech recognition result.
車載情報機器や携帯電話などの操作を、ユーザの声により行うための音声認識機能が、数多くの機器に搭載されている。さらに近年では、データ通信技術の発展により、音声データをサーバに送信し、サーバの潤沢な計算資源を用いてより高精度の音声認識を行う方式が普及しつつある。また、特許文献1に示されるように、こうした音声認識サーバをより有効に用いるため、個人用端末と音声認識サーバとの間に中継サーバを置き、その中で付加的な処理を行う方式も提案されている。
A number of devices are equipped with a voice recognition function for performing operations on in-vehicle information devices and mobile phones by the voice of the user. Furthermore, in recent years, with the development of data communication technology, a method of transmitting voice data to a server and performing more accurate voice recognition using abundant calculation resources of the server is becoming widespread. Also, as shown in
音声認識サーバが汎用のサービスとして運営される例が増えており、ユーザが扱う端末向けのサービスを提供する主体と、音声認識サーバを運営する主体とが異なる場合が多くなっている。また、運営主体が同一である場合においても、音声認識サーバの開発と音声認識アプリケーションの開発を別個に行い、それらが相互に最適化されていない場合もある。このような状況で、汎用の音声認識サーバが全般的には高い性能を示しながら、特定の語句に対しては必ずしも十分な性能を示さないということがある。 An example in which a speech recognition server is operated as a general-purpose service is increasing, and there are many cases where the entity that provides services for terminals handled by users and the entity that operates the speech recognition server are different. Even when the operating entities are the same, the development of the speech recognition server and the development of the speech recognition application are performed separately, and they may not be mutually optimized. In such a situation, a general-purpose speech recognition server may generally not exhibit sufficient performance for a specific phrase while exhibiting high performance.
一方、特定のアプリケーションを使用する特定のユーザに着目した場合、そのユーザの知人の名前や好きな音楽の楽曲名など、一般的ではないが重要度の高い語句が存在する。こうした語句を認識するためには、専用の音声認識サーバを設けることが望ましいが、専用音声認識サーバの開発には十分なコストをかけられないことが多く、一般的な語句に対する性能では、汎用音声認識サーバに劣ることになる。このように、汎用音声認識サーバと専用音声認識サーバとでは、語句によって認識の得手不得手があり、音声認識性能が異なる。したがって、ユーザの発した語句によってこれらを使い分けることが求められるが、音声認識というのが「内容のわからない発話に対して内容を推定する」タスクである以上、事前に発話内容を知ってサーバの使い分けを行うことは原理的に不可能である。 On the other hand, when focusing on a specific user who uses a specific application, there are words that are not general but highly important, such as names of acquaintances of the user and names of favorite music. In order to recognize such words and phrases, it is desirable to provide a dedicated speech recognition server. However, it is often impossible to develop a dedicated speech recognition server at a sufficient cost. It will be inferior to the recognition server. As described above, the general-purpose speech recognition server and the dedicated speech recognition server are not good at recognizing depending on phrases and have different speech recognition performance. Therefore, it is required to use these properly depending on the words uttered by the user, but since speech recognition is the task of "estimating the content for utterances whose contents are unknown", it is necessary to know the utterance content in advance and use the server properly It is impossible in principle.
本発明は、汎用音声認識サーバの音声認識結果と専用音声認識サーバの音声認識結果とを最適な形で統合し、最終的に間違いの少ない音声認識機能を提供することを目的とする。 An object of the present invention is to optimally integrate the speech recognition result of the general-purpose speech recognition server and the speech recognition result of the dedicated speech recognition server, and finally provide a speech recognition function with few errors.
本発明においては、ユーザが持つ端末装置に含まれる特定単語のリストをあらかじめ入手し、それらの単語のデータをもとに、専用の音声認識サーバを構築する。また、それらのデータを用い、汎用音声認識サーバの性能を事前評価する。その評価結果をもとに、専用および汎用の音声認識サーバから得られた認識結果の中で、どれを採用し、それらに対してどのような重み付けを行えば最適な認識結果が得られるかを、データベースの形で保持しておく。ユーザが実際に音声認識機能を用いる際には、専用および汎用の音声認識サーバにより入力音声を認識した後、そこで得られる結果を、先に述べたデータベースの内容と比較することにより、最適な音声認識結果を得る。また、事前評価の基準として、音声認識の正しさに加えて応答速度を用いることで、なるべく正しい音声認識結果を、なるべく早く得ることができるようにする。 In the present invention, a list of specific words included in a terminal device possessed by a user is obtained in advance, and a dedicated speech recognition server is constructed based on the data of those words. Moreover, the performance of a general-purpose speech recognition server is evaluated in advance using those data. Based on the evaluation results, which of the recognition results obtained from the dedicated and general-purpose speech recognition servers is used and what weighting is applied to them, the optimal recognition result can be obtained. Keep it in the form of a database. When the user actually uses the speech recognition function, the input speech is recognized by a dedicated and general-purpose speech recognition server, and then the results obtained there are compared with the contents of the database described above to obtain the optimal speech. Get recognition result. Further, by using the response speed in addition to the correctness of the speech recognition as a reference for the prior evaluation, it is possible to obtain the correct speech recognition result as soon as possible.
本発明の音声認識サーバ統合装置に一例を挙げるならば、ユーザが音声を用いて操作を行うための端末装置と、音声データを認識してその結果を返す音声認識サーバとの間を中継する装置であって、ユーザが登録した語句もしくはユーザがよく使う語句のリストに基づいて認識結果統合用パラメータを学習し保存する統合方式学習部と、ユーザが音声認識を意図して発した音声のデータである音声データを前記端末装置から受信する手段と、前記受信した音声データを汎用音声認識サーバおよび専用音声認識サーバに送信する手段と、前記音声データの前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を受信する手段と、前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を、前記保存された認識結果統合用パラメータと比較し、最適な認識結果を選択する認識結果統合部と、前記選択された認識結果を前記端末装置に送信する手段とを備えるものである。 If an example is given to the speech recognition server integration device of the present invention, a device that relays between a terminal device for a user to operate using speech and a speech recognition server that recognizes speech data and returns the result. a is, an integrated system learning unit for the user to save learns recognition result integration parameter based on a list of phrases frequently used words and phrases or user has registered, speech data generated by a user with the intention of speech recognition means for transmitting the audio data and means for receiving from the terminal device, the audio data thus received to the general-purpose speech recognition server and the specialized speech recognition server is, by the general-purpose speech recognition server and the specialized speech recognition server of the audio data means for receiving the recognition result, the recognition result by a general purpose speech recognition server and the specialized speech recognition server, the stored recognition result integration Compared with parameters, those comprising a recognition result integration unit that selects an optimal recognition result, and means for transmitting the selected recognition result to the terminal device.
本発明の音声認識サーバ統合装置において、更に、前記端末装置からユーザが登録した語句もしくはユーザがよく使う語句のリストを受信する手段と、前記受信した語句をもとに合成音声を生成する音声合成部と、前記生成された合成音声を前記汎用音声認識サーバおよび専用音声認識サーバに送信する手段と、前記合成音声の前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を受信する手段を備え、前記統合方式学習部は、前記合成音声の基となった語句と前記認識結果とを合わせて解析し、認識結果統合用パラメータを学習し保存するものでよい。 In the speech recognition server integration device of the present invention, further, means for receiving a word registered by the user or a list of words frequently used by the user from the terminal device, and speech synthesis for generating synthesized speech based on the received word Unit, means for transmitting the generated synthesized speech to the general-purpose speech recognition server and the dedicated speech recognition server, and means for receiving a recognition result of the synthesized speech by the general-purpose speech recognition server and the dedicated speech recognition server, The integration method learning unit may analyze the phrase that is the basis of the synthesized speech and the recognition result together to learn and store the recognition result integration parameter.
また、本発明の音声認識サーバ統合装置において、更に、前記端末装置からユーザが登録した語句もしくはユーザがよく使う語句のリストを受信する手段と、前記汎用音声認識サーバから認識用の語句リストを受信する手段と、前記認識用の語句リストを前記端末装置から受信した語句リストと比較し、類似度を推定する語句比較・類似度推定部とを備え、前記統合方式学習部は、前記推定結果を認識結果統合用パラメータとして保存するものでよい。 In the speech recognition server integration device of the present invention, means for receiving a list of phrases registered by the user or frequently used phrases from the terminal device, and a list of phrases for recognition from the general-purpose speech recognition server And a phrase comparison / similarity estimation unit that compares the phrase list for recognition with the phrase list received from the terminal device and estimates similarity, and the integration method learning unit it may be those stores as a recognition result integration parameter.
本発明の音声認識サーバ統合方法の一例を挙げるならば、ユーザが登録した語句もしくはユーザがよく使う語句のリストに基づいて認識結果統合用パラメータを学習して保存するステップと、ユーザが音声認識を意図して発した音声のデータである音声データを汎用音声認識サーバおよび専用音声認識サーバに送信するステップと、前記音声データの前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を受信するステップと、汎用音声認識サーバの認識結果および専用音声認識サーバの認識結果と、前記認識結果統合用パラメータとを比較して、最適な音声認識結果を選択するステップと、から成るものである。
If an example of a speech recognition server integration process of the present invention, the steps of the user and stores the learned recognition result integration parameter based on a list of phrases frequently used words and phrases or user has registered, the user speech recognition Transmitting voice data that is voice data intended to be transmitted to a general-purpose voice recognition server and a dedicated voice recognition server, and receiving a recognition result of the voice data by the general-purpose voice recognition server and the dedicated voice recognition server And comparing the recognition result of the general-purpose speech recognition server and the recognition result of the dedicated speech recognition server with the recognition result integration parameter and selecting the optimum speech recognition result.
本発明により、一般的な語句に関しては汎用音声認識サーバの認識結果を重要視し、ユーザ固有の語句に関しては専用音声認識サーバの結果を重要視するなど、個々の入力に対して最適な形で認識結果の統合が行われ、最終的に間違いの少ない音声認識機能をユーザに提供することが可能となる。また、間違いが少ないだけでなく、応答速度の点でも利便性の高いシステムを実現することができる。 According to the present invention, the recognition result of the general-purpose speech recognition server is regarded as important for general words and phrases, and the result of the dedicated speech recognition server is regarded as important for user-specific words and phrases in an optimum form for each input. The recognition results are integrated, and finally it is possible to provide the user with a voice recognition function with few errors. In addition to fewer errors, it is possible to realize a highly convenient system in terms of response speed.
以下、図面を用いて本発明の実施例を説明する。なお、発明を実施するための形態を説明するための全図において、同一の機能を有する要素には同一の名称、符号を付して、その繰り返しの説明を省略する。 Embodiments of the present invention will be described below with reference to the drawings. Note that components having the same function are denoted by the same names and reference symbols throughout the drawings for describing the embodiments for carrying out the invention, and the repetitive description thereof will be omitted.
図1は、本発明の実施例1に基づく音声認識サーバ統合装置の構成例を示す図である。音声認識機能は、ユーザ端末102、中継サーバ104、汎用音声認識サーバ群106、専用音声認識サーバ108を用いて提供される。なお、汎用音声認識サーバ群106は、単一の汎用音声認識サーバでも構わない。
FIG. 1 is a diagram illustrating a configuration example of a speech recognition server integration device based on
ユーザ端末102は、ユーザ個人が持つ端末装置で、入力音声データの取得および音声認識結果に基づくサービスの提供を行う他に、アドレス帳や楽曲名リストなどのユーザに固有の語句リストを保持している。以下では、これらのユーザに固有の語句リストのことを「ユーザ辞書」と呼ぶ。ユーザ辞書には、ユーザが登録した語句もしくはユーザがよく使う語句のリストが保持されている。
The
汎用音声認識サーバ群106は、本発明により実現されるサービスのみにより使用されることを想定していない、1台以上の音声認識サーバである。一般に、大規模な語句リストを内蔵し、様々な言葉に対する認識性能が高い一方、ユーザ辞書に含まれる一部の語句については、正しく認識できない可能性がある。
The general-purpose speech
専用音声認識サーバ108は、本発明により実現されるサービスに特化した音声認識サーバであり、ユーザ辞書に含まれる語句のすべてもしくは大半を認識するように設計されている。専用音声認識サーバ108は、ユーザ辞書に含まれない語句が入力された場合には、「認識結果なし」という結果が出力されるよう設計されている。専用音声認識サーバは、サーバとして構成されるものにかぎらず、専用音声認識装置でも良いし、また、実施例2や実施例5のように、ユーザ端末や中継サーバに内蔵されるものでもよい。
The dedicated
中継サーバ104は、本発明の「音声認識サーバ統合装置」に該当するもので、ユーザ端末102と音声認識サーバ106,108とを繋ぎ、音声認識結果の統合などを行う。ユーザ端末102とのデータのやりとりは、端末装置通信部110を介して行う。また、音声認識サーバ106,108とのデータのやりとりは、認識サーバ通信部112を介して行う。中継サーバ104は、端末装置通信部110、音声合成部114、統合方式学習部116、信号処理部120、認識結果統合部122、認識サーバ通信部112などから構成されている。
The
中継サーバ104の動作を説明する。はじめに、ユーザがユーザ端末102を通信可能な状態にセットすると、ユーザ辞書124のデータが端末装置通信部110を経由して送信される。このデータは直接認識サーバ通信部112に送られ、さらに専用音声認識サーバ108に送られる。専用音声認識サーバ108では、送られてきたユーザ辞書データに基づき、そこに含まれる語句を正しく認識できるようチューニングを行う。一方、端末装置通信部110で受信されたユーザ辞書データは、音声合成部114にも送られる。ここでは、文字列として送られてきたユーザ辞書データをもとに、合成音声データが作られる。一つの語句に対する合成音声データは、一つでも良いし、音質の違う複数のものであっても良い。作成された合成音声データは、認識サーバ通信部112を介して、汎用音声認識サーバ群106および専用音声認識サーバ108に送られる。これらに対する認識結果が各サーバから返されると、認識サーバ通信部112がそれを受信し、統合方式学習部116に送る。統合方式学習部116では、合成音声のもととなったユーザ辞書データと認識結果とを合わせて解析し、認識結果統合のためのパラメータを学習する。得られたパラメータは、結果統合用パラメータ118として保存される。この時点で、本発明を用いたシステムの事前学習処理が終了する。
The operation of the
ユーザが実際に音声インタフェースを使う際には、ユーザ端末102で取得した入力音声データが、端末装置通信部110により受信される。受信されたデータは、信号処理部120に送られ、必要な処理が施される。ここで、必要な処理とは、例えば雑音を含む入力音声から雑音を取り除くこと等を指すが、必ずしも必須ではなく、何も処理をしなくても良い。信号処理部120から出力されたデータは、認識サーバ通信部112を経て、汎用音声認識サーバ群106および専用音声認識サーバ108に送られる。これらのサーバから返された認識結果は、認識サーバ通信部112を経て、認識結果統合部122に送られる。認識結果統合部122では、複数の認識結果と、結果統合用パラメータ118に含まれるパラメータとを比較して、最適な認識結果を選択する。選択された認識結果は、端末装置通信部110を経て、ユーザ端末102に送られる。ユーザ端末102では、この結果をもとに、ナビゲーション機能の目的地を設定する、電話をかける、楽曲を再生するなどのサービスを提供する。
When the user actually uses the voice interface, the input voice data acquired by the
図2は、図1に示した構成において、ユーザ辞書データを使って結果統合用パラメータを作成するまでの処理の手順を示す図である。まず、ユーザ辞書データは、そのまま専用音声認識サーバに送られる。専用音声認識サーバでは、送られてきた語句を認識対象とするよう、音声認識エンジンをチューニングする。従って、ユーザ辞書に含まれない語句を発声したデータが送られてきた場合、専用音声認識サーバは、間違った結果を返すか、もしくは認識不能という結果を返すことになる。一方、ユーザ辞書データは、音声合成部にも送られ、そこで合成音声データが作成される。通常、一つの語句に対しては一つの合成音声が作られるが、音声合成部が、話者や話速、声の高さなどを選択できるような機能を持っている場合は、それらを変化させて、同じ語句に対して複数の合成音声データを作成すれば、後段で行う統合方式学習の性能をより高めることができる。 FIG. 2 is a diagram showing a processing procedure until the result integration parameter is created using the user dictionary data in the configuration shown in FIG. First, user dictionary data is sent to a dedicated speech recognition server as it is. In the dedicated speech recognition server, the speech recognition engine is tuned so that the sent phrase is the recognition target. Therefore, when data uttering a word that is not included in the user dictionary is sent, the dedicated speech recognition server returns an incorrect result or returns a result indicating that recognition is impossible. On the other hand, the user dictionary data is also sent to the speech synthesis unit, where synthesized speech data is created. Normally, one synthesized speech is created for one word, but if the speech synthesizer has a function that allows you to select the speaker, speech speed, voice pitch, etc., change them. Thus, if a plurality of synthesized speech data is created for the same word / phrase, it is possible to further improve the performance of the integrated method learning performed later.
こうして得られた合成音声データは、各汎用音声認識サーバおよび専用音声認識サーバに送られる。それらのサーバからは、認識結果が返される。また、認識結果だけではなく、それに付随する信頼度スコアが一緒に帰される場合もある。これらを元に、統合方式学習部で統合方式を学習し、その結果を結果統合用パラメータに保存する。 The synthesized speech data obtained in this way is sent to each general-purpose speech recognition server and dedicated speech recognition server. Recognition results are returned from those servers. In addition, not only the recognition result but also a reliability score associated therewith may be attributed together. Based on these, the integration method learning unit learns the integration method, and the result is stored in a result integration parameter.
図3は、結果統合用パラメータの最も簡単な構成の例を示す図である。この例では、汎用音声認識サーバが1台だけ存在すると仮定し、そのサーバで、ユーザ辞書の各語句が正しく認識されたかどうかだけを○と×で保持している。即ち、「鈴木一郎」「山田二郎」という語句は汎用音声認識サーバで正しく認識されたが、それ以外は正しく認識されなかったということを、この図は表している。図4は、同様の学習を、3台の汎用音声認識サーバを用いて行った際の例である。 FIG. 3 is a diagram illustrating an example of the simplest configuration of result integration parameters. In this example, it is assumed that there is only one general-purpose speech recognition server, and the server holds only whether or not each word / phrase in the user dictionary is correctly recognized by ○ and ×. That is, this figure shows that the words “Ichiro Suzuki” and “Jiro Yamada” were correctly recognized by the general-purpose speech recognition server but were not correctly recognized otherwise. FIG. 4 is an example when similar learning is performed using three general-purpose speech recognition servers.
図3、図4に示したような結果を使って実際に認識を行う際の処理の手順を、図5に示す。入力音声データは、はじめに信号処理部で事前処理される。信号処理部での処理の代表的なものとして、特許文献1に示されるような雑音抑圧処理が挙げられる。信号処理部での処理の結果、一つの入力音声データに対して一つの音声データが得られるのが普通であるが、設定を変えて複数の音声データが得られる場合もある。そのような場合には、以下に述べる処理を、音声データの数だけ繰り返す。また、信号処理部での処理が不要と思われる場合には、入力音声データをそのまま信号処理部の出力データとする。
FIG. 5 shows a processing procedure when the recognition is actually performed using the results shown in FIGS. Input voice data is first pre-processed by the signal processing unit. As a typical process in the signal processing unit, there is a noise suppression process as disclosed in
信号処理部の出力データは、汎用音声認識サーバおよび専用音声認識サーバに送られる。これらの結果がすべて認識結果統合部に送られる。認識結果統合部では、まず専用音声認識サーバの認識結果をチェックする。専用認識サーバの認識結果が、「認識結果なし」であった場合、汎用音声認識サーバの認識結果のみから最終的な認識結果を決定する。すなわち、汎用音声認識サーバが1台しかない場合は、その結果をそのまま採用する。複数台ある場合には、それらの認識結果のあいだで多数決を取る。多数決を取る際、各認識サーバが信頼度スコアを付与する場合であれば、その値で重み付けをした多数決とすることもできる。また、事前に各認識サーバの性能を推定して、重み付けの係数とすることもできる。このような、一般的な語句に対する複数の音声認識サーバの認識結果の統合については、特許文献2に示されるような公知の技術を用いることが可能である。
The output data of the signal processing unit is sent to the general-purpose speech recognition server and the dedicated speech recognition server. All these results are sent to the recognition result integration unit. The recognition result integration unit first checks the recognition result of the dedicated speech recognition server. If the recognition result of the dedicated recognition server is “no recognition result”, the final recognition result is determined only from the recognition result of the general-purpose speech recognition server. That is, when there is only one general-purpose speech recognition server, the result is adopted as it is. If there are multiple units, a majority vote is taken between the recognition results. When taking a majority vote, if each recognition server gives a reliability score, a majority vote weighted by that value can be used. In addition, the performance of each recognition server can be estimated in advance and used as a weighting coefficient. For such integration of recognition results of a plurality of speech recognition servers for general words / phrases, a known technique as shown in
一方、専用音声認識サーバの認識結果として、ユーザ辞書データに含まれる語句が得られた場合、図3や図4に示したような結果統合用パラメータを参照する。例えば、図3の例で、専用音声認識サーバの認識結果が「日立太郎」であった場合、結果統合用パラメータの該当する行を見ると、この語句は汎用音声認識サーバでは認識できないはずだということがわかるので、専用音声認識サーバの結果をそのまま採用する。一方、専用音声認識サーバの認識結果が「鈴木一郎」であった場合、結果統合用パラメータの該当する行を見ると、この語句は専用音声認識サーバでも認識されうるということがわかる。そこで次に汎用音声認識サーバの認識結果をチェックする。汎用音声認識サーバの認識結果も「鈴木一郎」である場合にはそのまま「鈴木一郎」を最終的な認識結果とすれば良いが、そうでない場合には、一般的に性能が高いと思われる汎用音声認識サーバの結果を優先するか、もしくは汎用音声認識サーバと専用音声認識サーバの認識結果のうち、信頼度スコアの高い方を最終認識結果として採用する。これにより、「鈴木一郎」と似た発音の言葉が、専用音声認識サーバにより誤認識されてしまった場合であっても、汎用音声認識サーバの認識結果に基づきこれを棄却することができるようになる。図4の例でも同様であり、「日立太郎」については無条件で専用音声認識サーバの結果を採用する。「鈴木一郎」については3台の汎用音声認識サーバすべてが認識可能な語句であるので、これらの認識結果での多数決、もしくはこれらすべてに専用音声認識サーバも加えての多数決により最終認識結果を決定する。また、専用音声認識サーバの認識結果が「山田二郎」であった場合には、これを正しく認識できる可能性のある汎用音声認識サーバは1番のみであることから、このサーバと専用音声認識サーバとの間で、図3の例と同じ処理を行うことにより最終認識結果を得る。 On the other hand, when a phrase included in the user dictionary data is obtained as a recognition result of the dedicated speech recognition server, the result integration parameter as shown in FIG. 3 or FIG. 4 is referred to. For example, in the example of FIG. 3, when the recognition result of the dedicated speech recognition server is “Hitachi Taro”, when the corresponding line of the result integration parameter is viewed, this phrase should not be recognized by the general-purpose speech recognition server. Therefore, the result of the dedicated speech recognition server is adopted as it is. On the other hand, when the recognition result of the dedicated speech recognition server is “Ichiro Suzuki”, it can be seen from the corresponding line of the result integration parameter that this phrase can also be recognized by the dedicated speech recognition server. Then, the recognition result of the general-purpose speech recognition server is checked next. If the recognition result of the general-purpose speech recognition server is also “Ichiro Suzuki”, “Ichiro Suzuki” can be used as the final recognition result, but if not, the general-purpose performance generally seems to be high. The result of the voice recognition server is given priority, or the recognition result of the general-purpose voice recognition server and the dedicated voice recognition server having the higher reliability score is adopted as the final recognition result. As a result, even if a word of pronunciation similar to “Ichiro Suzuki” is misrecognized by the dedicated speech recognition server, it can be rejected based on the recognition result of the general-purpose speech recognition server. Become. The same applies to the example of FIG. 4, and for “Hitachi Taro”, the result of the dedicated speech recognition server is used unconditionally. Since “Ichiro Suzuki” is a word that can be recognized by all three general-purpose speech recognition servers, the final recognition result is determined by a majority decision based on these recognition results, or a majority decision including a dedicated speech recognition server. To do. If the recognition result of the dedicated speech recognition server is “Jiro Yamada”, the only general-purpose speech recognition server that can correctly recognize this is the first, so this server and the dedicated speech recognition server The final recognition result is obtained by performing the same processing as in the example of FIG.
図6は、図3や図4とは異なるもう一つの結果統合用パラメータの実現例である。ここでは、ある語句が各汎用音声認識サーバで認識可能な場合に、その語句が正しく認識される確率を重みの数値に置き換えて保持している。ここで、正しく認識される確率は、たとえば「鈴木一郎」という語句に対し、音声合成用パラメータを様々に変えて作った合成音声による認識を行い、それらに対する認識結果のうち何個が正しいものであったかにより推定することができる。また、汎用音声認識サーバが複数の認識結果候補を返す仕様になっている場合には、正解単語の平均順位や平均信頼度スコアなどを用いることもできる。これらの値を適当な非線形変換により重み値に変換したものを、結果統合用パラメータに保持する。この例では、専用音声認識サーバの認識結果が「鈴木一郎」、汎用サーバ1の結果が「佐々木一郎」、汎用サーバ2と3の結果が「鈴木一郎」だった場合、「佐々木一郎」の重みが3.0、「鈴木一郎」の重みが1.4と1.2の和で2.6となり、前者の方が大きいことから、「佐々木一郎」を最終認識結果とする。
FIG. 6 shows another implementation example of result integration parameters different from those in FIGS. 3 and 4. Here, when a certain word / phrase is recognizable by each general-purpose speech recognition server, the probability that the word / phrase is correctly recognized is replaced with a numerical value of weight and held. Here, the probability of correct recognition is, for example, that the word “Ichiro Suzuki” is recognized with synthesized speech made by changing various parameters for speech synthesis, and the number of recognition results is correct. It can be estimated depending on whether there was. In addition, when the general-purpose speech recognition server is configured to return a plurality of recognition result candidates, the average rank of the correct words, the average reliability score, and the like can be used. A value obtained by converting these values into weight values by appropriate non-linear conversion is held in a result integration parameter. In this example, when the recognition result of the dedicated speech recognition server is “Ichiro Suzuki”, the result of the general-
図7は、図3,4,6とは異なるもう一つの結果統合用パラメータの実現例である。ここでは、ユーザ辞書データに含まれる語句を汎用音声認識サーバで認識して、正しく認識されなかった場合においても、そのときに得られた認識結果を結果統合用パラメータとして保存しておく。それぞれのサーバの重みを設定するのは図6の例と同様である。複数回の実験を行った際には、最も多かった結果のみか、もしくは複数の認識結果を保存しておいても良い。また、実験の回数にかかわらず、2位以下の認識結果も併せて保存しておいても良い。認識実行時には、これまでの例と同じように、専用音声認識サーバの認識結果に基づき結果統合用パラメータを参照する。その際、汎用音声認識サーバの認識結果が、結果統合用パラメータに保存されているものと一致するかどうかをチェックする。例えば、専用音声認識サーバの認識結果が「日立太郎」で、汎用サーバ1の結果が「日立市」、汎用サーバ2の結果が「二十歳」、汎用サーバ3の結果が「日立」だった場合、汎用サーバ1の結果は「日立太郎」に変換した上で、各認識結果での多数決を行い、最終的に「日立太郎」が選択される。
FIG. 7 shows another implementation example of result integration parameters different from those shown in FIGS. Here, even when a word / phrase included in the user dictionary data is recognized by the general-purpose speech recognition server and not correctly recognized, the recognition result obtained at that time is stored as a result integration parameter. Setting the weight of each server is the same as in the example of FIG. When a plurality of experiments are performed, only the most frequent result or a plurality of recognition results may be stored. In addition, the recognition result of the second place or less may be stored together regardless of the number of experiments. When executing the recognition, the result integration parameter is referred to based on the recognition result of the dedicated speech recognition server, as in the previous examples. At this time, it is checked whether or not the recognition result of the general-purpose speech recognition server matches that stored in the result integration parameter. For example, the recognition result of the dedicated speech recognition server is “Hitachi Taro”, the result of the general-
図8は、同音異表記の検出を利用した、音声認識結果統合方式の例を示す図である。図に示すように、専用音声認識サーバの認識結果が「左藤一郎」である場合、これを汎用音声認識サーバの各認識結果と比較し、同音異表記が含まれないかをチェックする。ここで、表記から発音を推定するには、日本語であれば、個々の漢字の読みをデータとして保持しておき、当該語句を構成する漢字の読みを連結することにより発音表記を得る。英語であれば、部分的な綴りに対する読み付与のルールを保持しておき、これらを順次適用することにより発音表記を得る。その他の言語の場合であっても、一般にGrapheme to Phonemeと呼ばれる技術によって、発音表記を得ることができることは良く知られている。また、ユーザ辞書データの中に、漢字表記とカナ表記のように、発音情報が含まれている場合もあり、そのような場合にはそれを活用する。上述のチェックにより、同音異表記が含まれている場合には、当該認識結果の表記を専用音声認識サーバによる認識結果の表記に変換して用いる。図の例では、汎用音声認識サーバ1の認識結果「佐藤一郎」が、専用音声認識サーバの認識結果と同音であることから、これを「左藤一郎」に変換する。その結果、3台の汎用音声認識サーバによる多数決の結果は「左藤一郎」となり、これが最終結果として採用される。
FIG. 8 is a diagram illustrating an example of a speech recognition result integration method using detection of homonymous notation. As shown in the figure, when the recognition result of the dedicated speech recognition server is “Ichiro Sato”, it is compared with each recognition result of the general-purpose speech recognition server to check whether or not the same phonetic notation is included. Here, in order to estimate the pronunciation from the notation, in the case of Japanese, each kanji reading is held as data, and the pronunciation notation is obtained by concatenating the kanji readings constituting the word. In the case of English, the rules for giving readings for partial spellings are retained, and phonetic notation is obtained by sequentially applying these rules. Even in the case of other languages, it is well known that pronunciation notation can be obtained by a technique generally called Grapheme to Phoneme. In some cases, pronunciation information is included in the user dictionary data such as kanji notation and kana notation, and in such a case, it is utilized. If the above-mentioned check includes homonym notation, the recognition result notation is converted into a recognition result notation by the dedicated speech recognition server. In the example in the figure, since the recognition result “Ichiro Sato” of the general-purpose
図9は、自動車内でのナビゲーション機能やハンズフリー通話機能などを提供する場合を例に、ユーザ端末の具体的な実現形態の例を示した図である。(a)では、マイク装置904、アプリケーション906、通信モジュール908などのすべての機能をカーナビゲーション装置902内に実装している。(b)では、カーナビゲーション装置902とスマートフォン910とを連結し、マイク装置904はカーナビゲーション装置902のものを、通信部908はスマートフォン910のものを用いている。アプリケーション912,914は、それぞれの機能に応じて、カーナビゲーション装置内とスマートフォン内に分散して配置するか、もしくはどちらか片方のみに配置する。(c)では、スマートフォン910内に、すべての機能を実装する。
FIG. 9 is a diagram showing an example of a specific implementation form of the user terminal, taking as an example the case of providing a navigation function, a hands-free call function, etc. in an automobile. In (a), all functions such as a
図10は、本発明を構成するユーザ辞書124の作成方法の例を示した図である。例えば、ユーザ端末102内にアドレス帳1002が存在する場合には、そこに含まれる人名をユーザ辞書に登録する。同様に、音楽プレーヤーの楽曲リスト1004が存在する場合には、そこに含まれる楽曲名やアーティスト名をユーザ辞書に登録する。また、ウェブブラウザのブックマーク1006として登録されたページタイトルをユーザ辞書に登録することもできる。その他に、ユーザ端末内に蓄積されたメール1008やショートメッセージなどのデータを解析し、そこに頻出する語句をユーザ辞書に登録するという方式も可能である。これらのデータに関しては、ユーザ端末がはじめて本発明によるシステムに接続された際には、ユーザ端末に含まれる全ユーザ辞書データをシステムに送信するのに加えて、アドレス帳や楽曲リストなどへの新規エントリの追加時には、新規追加データのみをシステムに追加送信し、結果統合用パラメータの更新を促すという方式を採ることもできる。このとき、結果統合用パラメータだけでなく、専用音声認識部の照合用辞書も同時に更新する必要がある。
FIG. 10 is a diagram showing an example of a method for creating the
図11は、一般的な音声合成部の構成を変更し、本発明に特化した特殊な構成の一例を示す図である。一般に音声合成部114は、合成音声作成部1102と、音声素片データ1106〜1110とから成る。ここで、素片データとは、データを直接つなぎあわせて合成音声を作る方式で用いるためのデータの名称であるが、直接つなぎあわせる代わりに、統計処理と信号処理により波形を合成する方式を用いる場合でも、個々の音素や音節などの処理単位に対し、類似のデータ集合を用いるため、以下に述べる方式を適用することは可能である。合成音声作成部1102では、音声素片データを繋ぎ合わせ、必要であれば適切な信号処理を行い、標準合成音声を作成する。しかし、本発明においては、ユーザ端末の所有者である特定ユーザの声に対して各汎用音声認識サーバ群がどのように反応するかを知ることが重要であるので、音声合成部で作成される合成音声も、ユーザの声に似たものであることが望ましい。そこで、ユーザが音声認識機能を使用するたびに、あるいはそれ以外の音声機能や音声通話を使用するたびに、その声をユーザ音声データ1112として蓄積しておき、これを活用して音声変換部1104により標準合成音声からユーザ適応音声への変換を行う。こうして変換した音声を汎用音声認識サーバ群への入力とすることにより、より精度の高い性能予測を行うことが可能となり、結果統合用パラメータの値もより適切なものになることが期待できる。
FIG. 11 is a diagram showing an example of a special configuration specialized in the present invention by changing the configuration of a general speech synthesis unit. Generally, the
図12は、音声認識の正しさに加えて、応答速度を評価基準とする場合の結果統合用パラメータの例を示す図である。この例では、ユーザ辞書データに含まれる各語句に対応する合成音声を用いた認識を実行し、その処理にかかった平均時間をパラメータとして保持しておく。この例でいうと、専用音声認識サーバの認識結果が「鈴木一郎」であった場合、汎用サーバ2の認識結果は0.5秒で得られると期待されるが、汎用サーバ1の認識結果を得るには1.5秒も待たなければならない。この応答時間がアプリケーションで想定される上限値を上回る場合、汎用サーバ2の結果が得られた時点で結果統合処理を行う。これにより、結果統合処理にほとんど時間がかからないと仮定すると、約0.5秒の応答時間で最終認識結果を得ることができることになり、ユーザの利便性を向上させることができる。
FIG. 12 is a diagram illustrating an example of result integration parameters when the response speed is used as an evaluation criterion in addition to correct speech recognition. In this example, recognition using synthesized speech corresponding to each word / phrase included in the user dictionary data is executed, and the average time required for the processing is stored as a parameter. In this example, if the recognition result of the dedicated speech recognition server is “Ichiro Suzuki”, the recognition result of the general-
図13は、ユーザ端末内に組み込まれた専用音声認識部108を用いて、図1に示した例と同等の機能を実現するような例の構成を示した図である。ここでは、ユーザ端末102が、中継サーバ104を介することなく、内部に存在する専用音声認識部108を用いてユーザ辞書124に含まれる語句の認識を行う。ユーザ辞書データを用いて、汎用音声認識サーバ群106の性能評価を事前に行う方法は、図1の場合に示したものと同様である。認識実行時には、中継サーバ104を介して汎用音声認識サーバ106による認識を実行すると同時に、ユーザ端末内の専用音声認識部108でも認識を実行する。このような、端末内の音声認識部と、通信装置を介して接続された音声認識部とを併用する方式は、特許文献3にも示されているが、特許文献3記載の発明が、通信経路が確立されているかどうかという点に着目して結果の取捨選択を行うのに対し、本発明では、事前に行った音声認識の結果に基づき求めた結果統合用パラメータを用いるという点が異なっている。
FIG. 13 is a diagram showing a configuration of an example in which a function equivalent to the example shown in FIG. 1 is realized using the dedicated
図14は、本発明に基づく音声認識サーバ統合装置のもう一つの構成例を示す図である。ここでは、汎用音声認識サーバ群106の機能として、そこで用いられている認識用語句リストが入手可能である場合を想定する。そのような条件のもとで、ユーザ端末102から中継サーバ104に送られたユーザ辞書データは、語句比較・類似度推定部126に送られる。当該部では、汎用音声認識サーバ群106から入手した認識用語句リストとユーザ辞書データとを比較し、ユーザ辞書124に含まれる各語句が、各々のサーバで正しく認識されうるかどうかを判定する。判定結果は統合方式学習部116に送られ、パラメータとして整理されたものが結果統合用パラメータ118に保持される。一方、ユーザ辞書データがそのまま専用音声認識サーバ108に送られ、専用音声認識サーバがチューニングされるのは、図1に示した例と同じである。
FIG. 14 is a diagram showing another configuration example of the speech recognition server integration device according to the present invention. Here, as a function of the general-purpose speech
このような準備が済んだ状態で、ユーザ端末102から入力音声データが送られてくると、図1に示した例と同様に、信号処理部120を経由して、汎用音声認識サーバ106および専用音声認識サーバ108に当該データが送られる。それらのサーバから返された認識結果は、認識結果統合部122に送られ、そこで、結果統合用パラメータ118との比較により、最適な認識結果が選択される。選択された認識結果がユーザ端末102に送信されて後は、図1に示した例と同様である。
When input voice data is sent from the
図15は、図14に示した構成において、ユーザ辞書データを使って結果統合用パラメータを作成するまでの処理の手順を示す図である。この例では、合成音声を作成することも、それを使って音声認識を実行してみることもなく、単に各汎用音声認識サーバから認識用語句リストを取得する。これらのリストと、ユーザ辞書データに含まれる語句とを比較し、ユーザ辞書データの各語句が、どの汎用音声認識サーバの語句リストに含まれているかをデータ化する。ここでは、認識用語句リストに含まれている(○)か、含まれていない(×)かのどちらかしか有り得ないことから、得られた結果をまとめた結果統合用パラメータは、図3ないし図4と同じものになる。従って、実際の認識を行う際の使い方も、前述した例と同じになる。また、各汎用音声認識サーバから、語句リストのみならず、それらの語句の認識されやすさを表す言語モデルを入手することが可能な際には、図6のような重み付きの結果統合用パラメータを作成することもできる。たとえば、代表的な言語モデルであるNグラム言語モデルを用いる場合、ユニグラムの値をその単語の認識されやすさとする、もしくは倍グラムやトライグラムの最大値をその単語の認識されやすさとするなどの方式が考えられる。 FIG. 15 is a diagram showing a processing procedure until the result integration parameter is created using the user dictionary data in the configuration shown in FIG. In this example, a recognition speech phrase list is simply acquired from each general-purpose speech recognition server without creating synthesized speech or trying to execute speech recognition using it. These lists are compared with the words / phrases included in the user dictionary data, and data indicating which word / phrase list of which general-purpose speech recognition server contains each word / phrase in the user dictionary data. Here, since there can only be either (O) or not (X) included in the recognition term phrase list, the result integration parameters that summarize the obtained results are shown in FIG. It becomes the same as FIG. Therefore, how to use the actual recognition is the same as the example described above. Further, when it is possible to obtain not only the phrase list but also a language model representing the ease of recognition of these phrases from each general-purpose speech recognition server, the weighted result integration parameters as shown in FIG. Can also be created. For example, when an N-gram language model that is a typical language model is used, the unigram value is set to be easy to recognize the word, or the double gram or trigram maximum value is set to be easy to recognize the word. A method is conceivable.
図16は、ユーザとの間の入出力機能と音声認識サーバ統合機能とを単一の装置の中に組み込んだ装置により、図1に示した例と同等の機能を実現するような例の構成を示した図である。ここでは、音声認識サーバ統合装置104の内部に蓄積されているユーザ辞書124に含まれるユーザ辞書データが、装置内の音声合成部114および認識サーバ通信部112に転送される。ユーザが話した声は、マイク装置128により取り込まれ、信号処理部120に転送される。これらを用いた処理の進め方は、図1の例において説明したものと同等であり、結果として認識結果統合部122にて認識結果が確定させられる。この認識結果は、装置内の表示部132に転送され、ユーザに提示される。
FIG. 16 shows an example configuration in which a function equivalent to the example shown in FIG. 1 is realized by a device in which an input / output function with a user and a voice recognition server integration function are incorporated in a single device. FIG. Here, the user dictionary data included in the
図17は、図16に示した例をもとに、さらに専用音声認識サーバが担っている機能を音声認識サーバ統合装置に組み込んだ場合の構成を示した図である。音声認識サーバ統合装置104に含まれるマイク装置128から入力音声が取り込まれ、ユーザ辞書124からユーザ辞書データが転送される部分は図16の例と同様であるが、それらに加えて、専用音声認識部108が装置内に組み込まれており、ユーザ辞書の内容を直接読み出した上で、マイク装置から送られてくる音声データを認識する。そこで得られた単体認識結果は、認識結果統合部122に送られ、汎用音声認識サーバ群106によって得られた認識結果と統合される。統合された認識結果は、装置内に存在するアプリケーション130に送られ、そこで各々のアプリケーションの目的に沿って活用される。
FIG. 17 is a diagram showing a configuration when the functions of the dedicated speech recognition server are incorporated in the speech recognition server integration device based on the example shown in FIG. The part in which the input voice is taken in from the
本発明は、車載端末と音声認識サーバとの間に介在して、高精度の音声認識機能を提供するための音声データ中継装置として利用可能である。 INDUSTRIAL APPLICABILITY The present invention can be used as a voice data relay device that is interposed between an in-vehicle terminal and a voice recognition server to provide a highly accurate voice recognition function.
102 ユーザ端末
104 中継サーバ
106 汎用音声認識サーバ群
108 専用音声認識サーバ
110 端末装置通信部
112 認識サーバ通信部
114 音声合成部
116 統合方式学習部
118 結果統合用パラメータ
120 信号処理部
122 認識結果統合部
124 ユーザ辞書
126 語句比較・類似度推定部
128 マイク装置
130 アプリケーション
132 表示部
102
Claims (15)
ユーザが登録した語句もしくはユーザがよく使う語句のリストに基づいて認識結果統合用パラメータを学習し保存する統合方式学習部と、
ユーザが音声認識を意図して発した音声のデータである音声データを前記端末装置から受信する手段と、
前記受信した音声データを汎用音声認識サーバおよび専用音声認識サーバに送信する手段と、
前記音声データの前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を受信する手段と、
前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を、前記保存された認識結果統合用パラメータと比較し、最適な認識結果を選択する認識結果統合部と、
前記選択された認識結果を前記端末装置に送信する手段と
を備える音声認識サーバ統合装置。 A device that relays between a terminal device for a user to operate using voice and a voice recognition server that recognizes voice data and returns the result,
And integration method learning unit for the user to save learns recognition result integration parameter based on a list of phrases frequently used words and phrases or user registered,
Means for receiving, from the terminal device, voice data that is voice data intended by a user for voice recognition;
Means for transmitting the received voice data to a general-purpose voice recognition server and a dedicated voice recognition server;
Means for receiving a recognition result of the voice data by the general-purpose voice recognition server and a dedicated voice recognition server;
The recognition result of the general-purpose speech recognition server and the specialized speech recognition server, as compared with the stored recognition result integration parameters, and the recognition result integration unit that selects an optimal recognition result,
A voice recognition server integration device comprising: means for transmitting the selected recognition result to the terminal device.
前記端末装置からユーザが登録した語句もしくはユーザがよく使う語句のリストを受信する手段と、
前記受信した語句をもとに合成音声を生成する音声合成部と、
前記生成された合成音声を前記汎用音声認識サーバおよび専用音声認識サーバに送信する手段と、
前記合成音声の前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を受信する手段を備え、
前記統合方式学習部は、前記合成音声の基となった語句と前記認識結果とを合わせて解析し、認識結果統合用パラメータを学習し保存することを特徴とする音声認識サーバ統合装置。 The speech recognition server integration device according to claim 1, further comprising:
Means for receiving a list of phrases registered by the user or frequently used by the user from the terminal device;
A speech synthesizer that generates synthesized speech based on the received phrases;
Means for transmitting the generated synthesized speech to the general-purpose speech recognition server and the dedicated speech recognition server;
Means for receiving recognition results of the synthesized speech by the general-purpose speech recognition server and the dedicated speech recognition server;
The speech recognition server integration device, wherein the integration method learning unit analyzes a phrase that is a basis of the synthesized speech and the recognition result, learns and stores a recognition result integration parameter.
前記端末装置からユーザが登録した語句もしくはユーザがよく使う語句のリストを受信する手段と、
前記汎用音声認識サーバから認識用の語句リストを受信する手段と、
前記認識用の語句リストを前記端末装置から受信した語句リストと比較し、類似度を推定する語句比較・類似度推定部とを備え、
前記統合方式学習部は、前記推定結果を認識結果統合用パラメータとして保存することを特徴とする音声認識サーバ統合装置。 The speech recognition server integration device according to claim 1, further comprising:
Means for receiving a list of phrases registered by the user or frequently used by the user from the terminal device;
Means for receiving a word list for recognition from the general-purpose speech recognition server;
A phrase comparison / similarity estimation unit that compares the phrase list for recognition with the phrase list received from the terminal device and estimates similarity; and
The integration method learning section, the estimation result speech recognition server integration device, characterized in that the stored as a recognition result integration parameter.
ユーザが登録した語句もしくはユーザがよく使う語句のリストに基づいて認識結果統合用パラメータを学習し保存する統合方式学習部と、
ユーザが音声認識を意図して発した音声のデータである音声データを汎用音声認識サーバおよび専用音声認識サーバに送信する手段と、
前記音声データの前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を受信する手段と、
前記汎用音声認識サーバおよび専用音声認識サーバの認識結果を、前記保存された認識結果統合用パラメータと比較し、最適な認識結果を選択する認識結果統合部と、
前記選択された認識結果を表示する表示部を備える音声認識サーバ統合装置。 A device for a user to perform operations using voice,
And integration method learning unit for the user to save learns recognition result integration parameter based on a list of phrases frequently used words and phrases or user registered,
Means for transmitting voice data , which is voice data intended by the user for voice recognition, to the general-purpose voice recognition server and the dedicated voice recognition server;
Means for receiving a recognition result of the voice data by the general-purpose voice recognition server and a dedicated voice recognition server;
A recognition result integration unit that compares the recognition results of the general-purpose speech recognition server and the dedicated speech recognition server with the stored recognition result integration parameter and selects an optimal recognition result;
A voice recognition server integration device comprising a display unit for displaying the selected recognition result.
ユーザが登録した語句もしくはユーザがよく使う語句を記憶するユーザ辞書と、
前記ユーザ辞書に記憶した語句をもとに合成音声を生成する音声合成部と、
前記生成された合成音声を前記汎用音声認識サーバおよび専用音声認識サーバに送信する手段と、
前記合成音声の前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を受信する手段とを備え、
前記統合方式学習部は、前記合成音声の基となった語句と前記認識結果とを合わせて解析し、認識結果統合用パラメータを学習し保存することを特徴とする音声認識サーバ統合装置。 The voice recognition server integration device according to claim 4 , further comprising:
A user dictionary for storing words registered by the user or frequently used by the user;
A speech synthesizer that generates synthesized speech based on words stored in the user dictionary;
Means for transmitting the generated synthesized speech to the general-purpose speech recognition server and the dedicated speech recognition server;
Means for receiving recognition results of the synthesized speech by the general-purpose speech recognition server and the dedicated speech recognition server;
The speech recognition server integration device, wherein the integration method learning unit analyzes a phrase that is a basis of the synthesized speech and the recognition result, learns and stores a recognition result integration parameter.
ユーザが登録した語句もしくはユーザがよく使う語句のリストを記憶するユーザ辞書と、
前記汎用音声認識サーバから認識用の語句リストを受信する手段と、
前記認識用の語句リストを前記ユーザ辞書の語句リストと比較し、類似度を推定する語句比較・類似度推定部とを備え、
前記統合方式学習部は、前記推定結果を認識結果統合用パラメータとして保存することを特徴とする音声認識サーバ統合装置。 The voice recognition server integration device according to claim 4 , further comprising:
A user dictionary that stores a list of words registered by the user or frequently used by the user;
Means for receiving a word list for recognition from the general-purpose speech recognition server;
A phrase comparison / similarity estimation unit that compares the phrase list for recognition with the phrase list of the user dictionary and estimates similarity ;
The integration method learning section, the estimation result speech recognition server integration device, characterized in that the stored as a recognition result integration parameter.
前記専用音声認識サーバは、ユーザが登録した語句もしくはユーザがよく使う語句のリストをもとに認識対象語句リストを作成し、このリストに含まれる語句を高い精度で認識することが可能なことを特徴とする音声認識サーバ統合装置。 In the speech recognition server integration device according to any one of claims 1 to 6,
The dedicated speech recognition server creates a recognition target word list based on a word registered by the user or a list of words frequently used by the user, and can recognize the words included in the list with high accuracy. A featured voice recognition server integration device.
前記専用音声認識サーバは、前記音声認識サーバ統合装置或いは端末装置内に音声専用認識部として組み込まれていることを特徴とする音声認識サーバ統合装置。 In the speech recognition server integration device according to any one of claims 1 to 6,
The dedicated speech recognition server, wherein the dedicated speech recognition server is incorporated in the speech recognition server integration device or terminal device as a dedicated speech recognition unit.
前記認識結果統合用パラメータは、ユーザが登録した語句もしくはユーザがよく使う語句に対する前記汎用音声認識サーバの認識結果の正誤を保存するものであり、
前記認識結果統合部は、前記専用音声認識サーバによる認識結果をもとに、前記認識結果統合用パラメータから前記専用音声認識サーバによる認識結果に対する前記汎用音声認識サーバの認識結果の正誤を取り出し、前記取り出した結果が正であるような汎用音声認識サーバによる音声認識結果に基づき最適な認識結果を選択することを特徴とする音声認識サーバ統合装置。 In the speech recognition server integration device according to claim 2 or 5,
The recognition result integration parameter stores the correctness of the recognition result of the general-purpose speech recognition server for a word registered by the user or a word frequently used by the user,
The recognition result integration unit takes out the correctness of the recognition result of the general-purpose speech recognition server with respect to the recognition result by the dedicated speech recognition server from the recognition result integration parameter based on the recognition result by the dedicated speech recognition server , speech recognition server integration device and selects an optimum recognition result based on the speech recognition result serial result fetch by a general purpose speech recognition server such that positive.
前記認識結果統合用パラメータは、ユーザが登録した語句もしくはユーザがよく使う語句に対する汎用音声認識サーバの認識結果の正誤、および、個々の語句に対する前記汎用音声認識サーバの認識結果の信頼度を表す値を保存するものであり、
前記認識結果統合部は、前記専用音声認識サーバによる認識結果をもとに、前記認識結果統合用パラメータから前記専用音声認識サーバによる認識結果に対する前記汎用音声認識サーバの認識結果の正誤およびその信頼度を取り出し、かつ、前記取り出した認識結果が正であるような汎用音声認識サーバによる音声認識結果に前記信頼度の重み付けをして統合した結果に基づき最適な認識結果を選択することを特徴とする音声認識サーバ統合装置。 In the speech recognition server integration device according to claim 2 or 5,
The recognition result integration parameter is a value representing whether the recognition result of the general-purpose speech recognition server for the words registered by the user or frequently used by the user is correct, and the reliability of the recognition result of the general-purpose speech recognition server for each word Is to save
The recognition result integration unit, based on the recognition result by the dedicated speech recognition server , correctness of the recognition result of the general-purpose speech recognition server with respect to the recognition result by the dedicated speech recognition server from the recognition result integration parameter and its reliability It was removed, and in that the recognition result extraction to select a generic speech recognition by the server Ruoto voice recognition result to the reliability weighting results optimal recognition based on a result of integration by the like is positive A featured voice recognition server integration device.
前記認識結果統合用パラメータは、ユーザが登録した語句もしくはユーザがよく使う語句に対する専用および汎用音声認識サーバの認識にかかる時間を測定し測定値を保存するものであり、
前記認識結果統合部は、前記専用音声認識サーバによる認識結果をもとに、前記認識結果統合用パラメータから前記専用音声認識サーバによる認識結果に対する前記専用および汎用音声認識サーバの認識所要時間を取り出し、前記専用および汎用音声認識サーバのうち認識所要時間がアプリケーションに依存して決まる認識所要時間の許容上限値を下回るもののみの認識結果を取り出すことにより、前記取り出した認識結果をもとに最適な認識結果を選択することを特徴とする音声認識サーバ統合装置。 In the speech recognition server integration device according to claim 2 or 5,
The recognition result integration parameter is for measuring the time taken for recognition of a dedicated and general-purpose speech recognition server for a word registered by the user or a word frequently used by the user, and storing a measurement value
The recognition result integration unit, based on the recognition result by the dedicated speech recognition server , extracts the recognition time of the dedicated and general-purpose speech recognition server for the recognition result by the dedicated speech recognition server from the recognition result integration parameter, Out of the dedicated and general-purpose speech recognition servers, the recognition result is extracted based on the recognition result that is less than the upper limit of the recognition time determined depending on the application, so that the optimum recognition can be performed based on the extracted recognition result. A speech recognition server integration device, wherein a result is selected.
前記認識結果統合用パラメータは、ユーザが登録した語句もしくはユーザがよく使う語句に対する汎用音声認識サーバの誤認識結果を含む認識結果を保存するものであり、
前記認識結果統合部は、前記専用音声認識サーバによる認識結果をもとに、前記認識結果統合用パラメータから前記専用音声認識サーバによる認識結果に対する前記汎用音声認識サーバの誤認識結果を含む認識結果を取り出し、汎用音声認識サーバの音声認識結果が前記取り出した誤認識結果を含む認識結果と一致する場合には正しい語句に変換し、各認識結果での多数決を行うことにより最適な認識結果を選択することを特徴とする音声認識サーバ統合装置。 In the speech recognition server integration device according to claim 2 or 5,
The recognition result integration parameter stores a recognition result including a misrecognition result of a general-purpose speech recognition server for a word registered by a user or a word frequently used by a user,
The recognition result integration unit, based on the recognition result by the dedicated speech recognition server, obtains a recognition result including an erroneous recognition result of the general-purpose speech recognition server for a recognition result by the dedicated speech recognition server from the recognition result integration parameter. If the speech recognition result of the general-purpose speech recognition server matches the recognition result including the extracted misrecognition result, it is converted into a correct word and the most suitable recognition result is selected by performing a majority decision on each recognition result. A speech recognition server integration device characterized by the above.
ユーザが音声認識を意図して発した音声のデータである音声データを汎用音声認識サーバおよび専用音声認識サーバに送信するステップと、
前記音声データの前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を受信するステップと、
汎用音声認識サーバの認識結果および専用音声認識サーバの認識結果と、前記認識結果統合用パラメータとを比較して、最適な音声認識結果を選択するステップと、
から成る音声認識サーバ統合方法。 A step for the user to store learning the recognition result integration parameter based on a list of phrases frequently used words and phrases or user registered,
Transmitting voice data , which is voice data intended by the user for voice recognition, to the general-purpose voice recognition server and the dedicated voice recognition server;
Receiving a recognition result of the voice data by the general-purpose voice recognition server and a dedicated voice recognition server;
Comparing the recognition result of the general-purpose speech recognition server and the recognition result of the dedicated speech recognition server with the recognition result integration parameter, and selecting the optimum speech recognition result;
A speech recognition server integration method comprising:
ユーザが登録した語句もしくはユーザがよく使う語句をもとに合成音声を生成するステップと、
前記生成された合成音声を前記汎用音声認識サーバおよび専用音声認識サーバに送信するステップと、
前記合成音声の前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を受信するステップとを備え、
認識結果統合用パラメータを学習して保存するステップは、前記合成音声の基となった語句と前記認識結果とを合わせて解析し、認識結果統合用パラメータを学習し保存することを特徴とする音声認識サーバ統合方法。 14. The voice recognition server integration method according to claim 13, further comprising:
Generating synthesized speech based on words registered by the user or frequently used by the user;
Transmitting the generated synthesized speech to the general-purpose speech recognition server and a dedicated speech recognition server;
Receiving a recognition result of the synthesized speech by the general-purpose speech recognition server and a dedicated speech recognition server,
Step of storing learning the recognition result integration parameter, the synthesized speech of the combined group and became the phrase the recognition result and analyzed, characterized in that the store to learn recognition result integration parameter Speech recognition server integration method.
ユーザが登録した語句もしくはユーザがよく使う語句のリストを得るステップと、
前記汎用音声認識サーバから認識用の語句リストを受信するステップと、
前記認識用の語句リストを、前記ユーザが登録した語句もしくはユーザがよく使う語句のリストと比較し、類似度を推定するステップとを備え、
前記認識結果統合用パラメータを学習して保存するステップは、前記推定結果を認識結果統合用パラメータとして保存することを特徴とする音声認識サーバ統合方法。 14. The voice recognition server integration method according to claim 13, further comprising:
Obtaining a list of phrases registered by the user or frequently used by the user;
Receiving a recognition word list from the general-purpose speech recognition server;
Comparing the recognition word list with a word registered by the user or a list of words frequently used by the user, and estimating a similarity,
Step, the speech recognition server integration method characterized by storing the estimation result as a recognition result integration parameter to be saved by learning the recognition result integration parameter.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012088230A JP5957269B2 (en) | 2012-04-09 | 2012-04-09 | Voice recognition server integration apparatus and voice recognition server integration method |
US14/391,200 US9524718B2 (en) | 2012-04-09 | 2013-04-03 | Speech recognition server integration device that is an intermediate module to relay between a terminal module and speech recognition server and speech recognition server integration method |
CN201380018950.0A CN104221078B (en) | 2012-04-09 | 2013-04-03 | Voice recognition server integration unit and voice recognition server integrated approach |
EP13775442.0A EP2838085B1 (en) | 2012-04-09 | 2013-04-03 | Voice recognition server integration device and voice recognition server integration method |
PCT/JP2013/060238 WO2013154010A1 (en) | 2012-04-09 | 2013-04-03 | Voice recognition server integration device and voice recognition server integration method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012088230A JP5957269B2 (en) | 2012-04-09 | 2012-04-09 | Voice recognition server integration apparatus and voice recognition server integration method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013218095A JP2013218095A (en) | 2013-10-24 |
JP5957269B2 true JP5957269B2 (en) | 2016-07-27 |
Family
ID=49327578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012088230A Active JP5957269B2 (en) | 2012-04-09 | 2012-04-09 | Voice recognition server integration apparatus and voice recognition server integration method |
Country Status (5)
Country | Link |
---|---|
US (1) | US9524718B2 (en) |
EP (1) | EP2838085B1 (en) |
JP (1) | JP5957269B2 (en) |
CN (1) | CN104221078B (en) |
WO (1) | WO2013154010A1 (en) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102012202407B4 (en) * | 2012-02-16 | 2018-10-11 | Continental Automotive Gmbh | Method for phonetizing a data list and voice-controlled user interface |
JP5698864B2 (en) * | 2012-03-07 | 2015-04-08 | パイオニア株式会社 | Navigation device, server, navigation method and program |
DE102014200570A1 (en) * | 2014-01-15 | 2015-07-16 | Bayerische Motoren Werke Aktiengesellschaft | Method and system for generating a control command |
CN105577711B (en) * | 2014-10-08 | 2019-05-03 | 华为技术有限公司 | Message treatment method, device and message handling system |
DE102014114845A1 (en) * | 2014-10-14 | 2016-04-14 | Deutsche Telekom Ag | Method for interpreting automatic speech recognition |
JP6514503B2 (en) * | 2014-12-25 | 2019-05-15 | クラリオン株式会社 | Intention estimation device and intention estimation system |
CN104683456B (en) * | 2015-02-13 | 2017-06-23 | 腾讯科技(深圳)有限公司 | Method for processing business, server and terminal |
US20180047387A1 (en) * | 2015-03-05 | 2018-02-15 | Igal NIR | System and method for generating accurate speech transcription from natural speech audio signals |
US10152298B1 (en) * | 2015-06-29 | 2018-12-11 | Amazon Technologies, Inc. | Confidence estimation based on frequency |
US9734821B2 (en) | 2015-06-30 | 2017-08-15 | International Business Machines Corporation | Testing words in a pronunciation lexicon |
KR20170032096A (en) * | 2015-09-14 | 2017-03-22 | 삼성전자주식회사 | Electronic Device, Driving Methdo of Electronic Device, Voice Recognition Apparatus, Driving Method of Voice Recognition Apparatus, and Computer Readable Recording Medium |
US20180025731A1 (en) * | 2016-07-21 | 2018-01-25 | Andrew Lovitt | Cascading Specialized Recognition Engines Based on a Recognition Policy |
CN106297797B (en) * | 2016-07-26 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | Method for correcting error of voice identification result and device |
US10748531B2 (en) * | 2017-04-13 | 2020-08-18 | Harman International Industries, Incorporated | Management layer for multiple intelligent personal assistant services |
JP6934351B2 (en) * | 2017-08-03 | 2021-09-15 | 株式会社大塚商会 | AI service usage support system |
US10019491B1 (en) * | 2017-11-29 | 2018-07-10 | OJO Labs, Inc. | Machine learning of response selection to structured data input |
US10013654B1 (en) | 2017-11-29 | 2018-07-03 | OJO Labs, Inc. | Cooperatively operating a network of supervised learning processors to concurrently distribute supervised learning processor training and provide predictive responses to input data |
CN108428446B (en) * | 2018-03-06 | 2020-12-25 | 北京百度网讯科技有限公司 | Speech recognition method and device |
JP6543755B1 (en) * | 2018-04-13 | 2019-07-10 | 株式会社Tbsテレビ | Voice recognition text data output control device, voice recognition text data output control method, and program |
TWI682386B (en) * | 2018-05-09 | 2020-01-11 | 廣達電腦股份有限公司 | Integrated speech recognition systems and methods |
US11107475B2 (en) | 2019-05-09 | 2021-08-31 | Rovi Guides, Inc. | Word correction using automatic speech recognition (ASR) incremental response |
KR102413616B1 (en) | 2019-07-09 | 2022-06-27 | 구글 엘엘씨 | On-device speech synthesis of text segments for training on-device speech recognition models |
KR102321801B1 (en) | 2019-08-20 | 2021-11-05 | 엘지전자 주식회사 | Intelligent voice recognizing method, apparatus, and intelligent computing device |
KR20210027991A (en) | 2019-09-03 | 2021-03-11 | 삼성전자주식회사 | Electronic apparatus and control method thereof |
CN110827794B (en) * | 2019-12-06 | 2022-06-07 | 科大讯飞股份有限公司 | Method and device for evaluating quality of voice recognition intermediate result |
JP7522060B2 (en) | 2021-03-03 | 2024-07-24 | 株式会社Nttドコモ | Voice Recognition Device |
CN113066489B (en) * | 2021-03-16 | 2024-10-29 | 深圳地平线机器人科技有限公司 | Voice interaction method and device, computer readable storage medium and electronic equipment |
WO2024185283A1 (en) * | 2023-03-08 | 2024-09-12 | 日本電気株式会社 | Information processing device, information processing method, and recording medium |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR0165244B1 (en) | 1992-08-31 | 1999-03-20 | 윤종용 | Image memory system for video printer |
JP3968133B2 (en) * | 1995-06-22 | 2007-08-29 | セイコーエプソン株式会社 | Speech recognition dialogue processing method and speech recognition dialogue apparatus |
US6076054A (en) | 1996-02-29 | 2000-06-13 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition |
JP2002116796A (en) | 2000-10-11 | 2002-04-19 | Canon Inc | Voice processor and method for voice processing and storage medium |
JP2003108170A (en) * | 2001-09-26 | 2003-04-11 | Seiko Epson Corp | Method and device for voice synthesis learning |
US7231019B2 (en) | 2004-02-12 | 2007-06-12 | Microsoft Corporation | Automatic identification of telephone callers based on voice characteristics |
CN1753083B (en) | 2004-09-24 | 2010-05-05 | 中国科学院声学研究所 | Speech sound marking method, system and speech sound discrimination method and system based on speech sound mark |
JP4738847B2 (en) * | 2005-03-07 | 2011-08-03 | キヤノン株式会社 | Data retrieval apparatus and method |
JP2007033901A (en) | 2005-07-27 | 2007-02-08 | Nec Corp | System, method, and program for speech recognition |
JP5233989B2 (en) * | 2007-03-14 | 2013-07-10 | 日本電気株式会社 | Speech recognition system, speech recognition method, and speech recognition processing program |
JP2008242067A (en) | 2007-03-27 | 2008-10-09 | Advanced Telecommunication Research Institute International | Voice recognition device, voice recognition system, and voice recognition method |
US7933777B2 (en) * | 2008-08-29 | 2011-04-26 | Multimodal Technologies, Inc. | Hybrid speech recognition |
JP4902617B2 (en) | 2008-09-30 | 2012-03-21 | 株式会社フュートレック | Speech recognition system, speech recognition method, speech recognition client, and program |
JP5056784B2 (en) | 2009-03-24 | 2012-10-24 | 株式会社デンソー | Speech recognition system |
WO2011121978A1 (en) * | 2010-03-29 | 2011-10-06 | 日本電気株式会社 | Voice-recognition system, device, method and program |
CN101923854B (en) * | 2010-08-31 | 2012-03-28 | 中国科学院计算技术研究所 | Interactive speech recognition system and method |
JP5916054B2 (en) | 2011-06-22 | 2016-05-11 | クラリオン株式会社 | Voice data relay device, terminal device, voice data relay method, and voice recognition system |
-
2012
- 2012-04-09 JP JP2012088230A patent/JP5957269B2/en active Active
-
2013
- 2013-04-03 CN CN201380018950.0A patent/CN104221078B/en not_active Expired - Fee Related
- 2013-04-03 WO PCT/JP2013/060238 patent/WO2013154010A1/en active Application Filing
- 2013-04-03 US US14/391,200 patent/US9524718B2/en active Active
- 2013-04-03 EP EP13775442.0A patent/EP2838085B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013218095A (en) | 2013-10-24 |
EP2838085B1 (en) | 2019-09-04 |
WO2013154010A1 (en) | 2013-10-17 |
US20150088506A1 (en) | 2015-03-26 |
CN104221078B (en) | 2016-11-02 |
CN104221078A (en) | 2014-12-17 |
US9524718B2 (en) | 2016-12-20 |
EP2838085A4 (en) | 2016-01-13 |
EP2838085A1 (en) | 2015-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5957269B2 (en) | Voice recognition server integration apparatus and voice recognition server integration method | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
EP1936606B1 (en) | Multi-stage speech recognition | |
JP5066483B2 (en) | Language understanding device | |
JP5200712B2 (en) | Speech recognition apparatus, speech recognition method, and computer program | |
JP6251958B2 (en) | Utterance analysis device, voice dialogue control device, method, and program | |
JP5480760B2 (en) | Terminal device, voice recognition method and voice recognition program | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
US9711136B2 (en) | Speech recognition device and speech recognition method | |
US20040039570A1 (en) | Method and system for multilingual voice recognition | |
WO2012073275A1 (en) | Speech recognition device and navigation device | |
JP5868544B2 (en) | Speech recognition apparatus and speech recognition method | |
JP2007213005A (en) | Recognition dictionary system and recognition dictionary system updating method | |
KR20060037086A (en) | Method and apparatus for speech recognition, and navigation system using for the same | |
US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
US10866948B2 (en) | Address book management apparatus using speech recognition, vehicle, system and method thereof | |
JP3415585B2 (en) | Statistical language model generation device, speech recognition device, and information retrieval processing device | |
CN111312236A (en) | Domain management method for speech recognition system | |
WO2008150003A1 (en) | Keyword extraction model learning system, method, and program | |
JP2007047412A (en) | Apparatus and method for generating recognition grammar model and voice recognition apparatus | |
EP1734509A1 (en) | Method and system for speech recognition | |
JP3444108B2 (en) | Voice recognition device | |
JP5378907B2 (en) | Spoken dialogue apparatus and spoken dialogue program | |
JP3911178B2 (en) | Speech recognition dictionary creation device and speech recognition dictionary creation method, speech recognition device, portable terminal, speech recognition system, speech recognition dictionary creation program, and program recording medium | |
KR20050101695A (en) | A system for statistical speech recognition using recognition results, and method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20141027 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160531 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160620 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5957269 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |