JP2001083982A - Speech recognition device, recording medium having data for speech recognition recorded therein and speech recognition navigation device - Google Patents
Speech recognition device, recording medium having data for speech recognition recorded therein and speech recognition navigation deviceInfo
- Publication number
- JP2001083982A JP2001083982A JP25598299A JP25598299A JP2001083982A JP 2001083982 A JP2001083982 A JP 2001083982A JP 25598299 A JP25598299 A JP 25598299A JP 25598299 A JP25598299 A JP 25598299A JP 2001083982 A JP2001083982 A JP 2001083982A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- word
- speech
- speech recognition
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Traffic Control Systems (AREA)
- Navigation (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、音声認識、および
音声認識ナビゲーション装置に関する。The present invention relates to voice recognition and a voice recognition navigation device.
【0002】[0002]
【従来の技術】自動車の現在地を表示し、地図の広域・
詳細表示を行い、目的地までの進行方向および残距離を
誘導する車載用ナビゲーション装置(以下、ナビゲーシ
ョン装置と言う)が知られている。また、ナビゲーショ
ン装置の一機能として、運転中のドライバからの操作指
示を音声で行い、ドライバの安全性を高めるいわゆる音
声認識ナビゲーション装置も知られている(例えば特開
平09−292255号公報)。2. Description of the Related Art The present location of a car is displayed, and a wide area
2. Description of the Related Art In-vehicle navigation devices (hereinafter, referred to as navigation devices) that perform detailed display and guide a traveling direction and a remaining distance to a destination are known. Further, as one function of the navigation device, a so-called voice recognition navigation device for improving the safety of the driver by giving an operation instruction from the driver while driving is also known (for example, JP-A-09-292255).
【0003】音声認識ナビゲーション装置で使用する音
声認識ソフトは、一般的に、発話開始から発話が無くな
った時点で、発話終了と判断し、発話開始から発話が無
くなった時点までの音データと認識辞書内の全認識語と
の相関値を算出する。その結果、相関値が最大になった
認識語を認識結果と判断する。音声認識ナビゲーション
装置で認識させる言葉には、ナビゲーションの各種の操
作を指示するナビコマンド(立体表示、拡大、縮小
等)、駅名、ゴルフ場名、病院名、スキー場名などいろ
いろ考えられる。[0003] Speech recognition software used in a speech recognition navigation device generally determines that speech has ended when speech has disappeared from the start of speech, and recognizes sound data and a recognition dictionary from the start of speech to the time when speech has disappeared. Calculate correlation values with all recognized words in. As a result, the recognition word having the maximum correlation value is determined as the recognition result. There are various types of words recognized by the voice recognition navigation device, such as a navigation command (3D display, enlargement, reduction, etc.) for instructing various navigation operations, a station name, a golf course name, a hospital name, a ski resort name, and the like.
【0004】[0004]
【発明が解決しようとする課題】これらの言葉のうちゴ
ルフ場名、病院名、スキー場名など長い言葉のものは、
ナビコマンド、駅名などの短い言葉のものに比べて非常
に認識しにくいという問題があった。Among these words, long ones such as a golf course name, a hospital name, a ski resort name, etc.
There was a problem that it was very difficult to recognize compared to short words such as navigation commands and station names.
【0005】本発明の目的は、長い言葉も容易に確実に
認識することが可能な音声認識装置、そのためのデータ
を記録した記録媒体、および、音声認識ナビゲーション
装置を提供することにある。It is an object of the present invention to provide a speech recognition apparatus capable of easily and reliably recognizing long words, a recording medium for recording data for the speech recognition apparatus, and a speech recognition navigation apparatus.
【0006】[0006]
【課題を解決するための手段】実施の形態を示す図1を
使用して、括弧内にその対応する要素の符号をつけて本
発明を以下に説明する。上記目的を達成するために、請
求項1の発明は、音声入力手段(201)と、音声認識
対象の言葉に対応しその言葉の読みを表す認識語を格納
する格納手段(210)と、音声入力手段(201)に
より得られた音データと認識語に基づき生成された音声
認識用データとを比較して音声認識処理を行う音声認識
処理手段とを備えた音声認識装置に適用され、格納手段
(210)は、音声認識対象の言葉の全体の読みに対応
する第1の認識語と、音声認識対象の言葉の全体の読み
のうち先頭から所定の長さの読みにのみ対応する第2の
認識語とを、双方とも音声認識対象の言葉の認識語とし
て格納するようにしたものである。請求項2の発明は、
請求項1記載の音声認識装置において、格納手段(21
0)を、音声認識対象の言葉の全体の読みが第1の所定
の長さ以上であるときに、音声認識対象の言葉の全体の
読みのうち先頭から第2の所定の長さの読みにのみ対応
する第2の認識語を、音声認識対象の言葉の認識語とし
て格納するようにしたものである。請求項3の音声認識
ナビゲーション装置は、請求項1または2記載の音声認
識装置と(200)、地図情報を格納する地図情報格納
手段(108)と、少なくとも音声認識装置(200)
の認識結果と地図情報とに基づき、道案内のための制御
を行う制御手段(105)とを備えるものである。請求
項4のコンピュータ読みとり可能な記録媒体は、音声認
識処理において音声入力手段(201)により得られた
音データと比較する音声認識用データを生成するための
音声認識対象の言葉に対応した認識語に関するデータで
あって、音声認識対象の言葉の全体の読みに対応する第
1の認識語と、音声認識対象の言葉の全体の読みのうち
先頭から所定の長さの読みにのみ対応する第2の認識語
とを、双方とも音声認識対象の言葉の認識語とするデー
タを記録したものである。DETAILED DESCRIPTION OF THE INVENTION The present invention will be described below with reference to the embodiment shown in FIG. In order to achieve the above object, the invention according to claim 1 includes a voice input means (201), a storage means (210) for storing a recognition word corresponding to a word to be recognized and representing a reading of the word, A speech recognition device including speech recognition processing means for performing speech recognition processing by comparing the sound data obtained by the input means with speech recognition data generated based on the recognition word; (210) a first recognized word corresponding to the entire reading of the speech recognition target word, and a second recognized word corresponding to only a predetermined length reading from the beginning of the entire reading of the speech recognition target word. In both cases, the recognition word is stored as a recognition word of the word to be subjected to speech recognition. The invention of claim 2 is
2. A speech recognition apparatus according to claim 1, wherein said storage means comprises:
0) is changed to a second predetermined length reading from the beginning of the entire reading of the speech recognition target word when the entire reading of the speech recognition target word is longer than or equal to the first predetermined length. The second recognition word corresponding to only the speech recognition target word is stored as the recognition word of the speech recognition target word. According to a third aspect of the present invention, there is provided a voice recognition navigation apparatus according to the first or second aspect, (200), a map information storage means (108) for storing map information, and at least a voice recognition apparatus (200).
And control means (105) for performing control for the route guidance based on the recognition result and the map information. 5. A computer-readable recording medium according to claim 4, wherein a recognition word corresponding to a speech recognition target word for generating speech recognition data to be compared with sound data obtained by a speech input means in speech recognition processing. A first recognized word corresponding to the entire reading of the speech recognition target word and a second recognized word corresponding to only a predetermined length reading from the beginning of the entire reading of the speech recognition target word. Is recorded as data that is used as a recognition word for a word to be subjected to speech recognition.
【0007】なお、上記課題を解決するための手段の項
では、分かりやすく説明するため実施の形態の図と対応
づけたが、これにより本発明が実施の形態に限定される
ものではない。In the section of the means for solving the above-mentioned problems, the description is made in correspondence with the drawings of the embodiments for easy understanding, but the present invention is not limited to the embodiments.
【0008】[0008]
【発明の実施の形態】−第1の実施の形態− 図1は、本発明の車載用ナビゲーションシステムの第1
の実施の形態の構成を示す図である。車載用ナビゲーシ
ョンシステムは、ナビゲーション装置100および音声
ユニット200により構成される。第1の実施の形態の
ナビゲーションシステムは、施設名称が長い場合にも確
実に音声認識に成功させるようにしたものである。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS First Embodiment FIG. 1 shows a first embodiment of a vehicle-mounted navigation system according to the present invention.
It is a figure showing composition of an embodiment. The in-vehicle navigation system includes a navigation device 100 and a voice unit 200. In the navigation system according to the first embodiment, voice recognition is surely successful even when the facility name is long.
【0009】ナビゲーション装置100は、GPS受信
機101と、ジャイロセンサ102と、車速センサ10
3と、ドライバ104と、CPU105と、RAM10
6と、ROM107と、CD−ROMドライブ108
と、表示装置109と、バスライン110等から構成さ
れる。A navigation device 100 includes a GPS receiver 101, a gyro sensor 102, and a vehicle speed sensor 10.
3, the driver 104, the CPU 105, and the RAM 10
6, ROM 107, and CD-ROM drive 108
, A display device 109, a bus line 110, and the like.
【0010】音声ユニット200は、マイク201と、
A/D変換部202と、D/A変換部203と、アンプ
204と、スピーカ205と、発話スイッチ206と、
ドライバ207と、CPU208と、RAM209と、
ROM210と、バスライン212等から構成される。
ナビゲーション装置100と音声ユニット200は、通
信ライン211を介して接続される。The audio unit 200 includes a microphone 201,
An A / D converter 202, a D / A converter 203, an amplifier 204, a speaker 205, a speech switch 206,
A driver 207, a CPU 208, a RAM 209,
It comprises a ROM 210, a bus line 212 and the like.
The navigation device 100 and the audio unit 200 are connected via a communication line 211.
【0011】GPS受信機101は、GPS(Global P
ositioning System)衛星からの信号を受信し、自車の
絶対位置、絶対方位を検出する。ジャイロセンサ102
は、例えば振動ジャイロで構成され、車のヨー角速度を
検出する。車速センサ103は、車が所定距離走行毎に
出すパルス数に基づき、車の移動距離を検出する。ジャ
イロセンサ102と車速センサ103により、車の2次
元的な移動が検出できる。ドライバ104は、GPS受
信機101、ジャイロセンサ102、車速センサ103
からの信号をバスライン110に接続するためのドライ
バである。すなわち、それぞれのセンサ出力をCPU1
05が読むことができるデータに変換する。The GPS receiver 101 has a GPS (Global P
ositioning System) Receives signals from satellites and detects the absolute position and azimuth of the vehicle. Gyro sensor 102
Is constituted by, for example, a vibrating gyroscope, and detects the yaw angular velocity of the vehicle. The vehicle speed sensor 103 detects the moving distance of the vehicle based on the number of pulses output every time the vehicle travels a predetermined distance. The two-dimensional movement of the vehicle can be detected by the gyro sensor 102 and the vehicle speed sensor 103. The driver 104 includes a GPS receiver 101, a gyro sensor 102, a vehicle speed sensor 103
Is a driver for connecting the signal from the bus line 110 to the bus line 110. That is, each sensor output is output to the CPU 1
05 is converted to readable data.
【0012】CPU105は、ROM107に格納され
たプログラムを実行することによりナビゲーション装置
100全体を制御する。RAM106は揮発性メモリで
あり、ワークデータ領域を確保する。ROM107は、
不揮発性メモリで、上述した制御プログラム等を格納す
る。CD−ROMドライブ108は、CD−ROMを記
録媒体とし、ベクトル道路データ等の道路地図情報を格
納する。CD−ROMドライブは、DVDを記録媒体と
するDVDドライブやその他の記録装置であってもよ
い。表示装置109は、車の現在地および周辺の道路地
図、目的地までのルート情報、次の誘導交差点情報等を
表示する。例えば、液晶表示装置あるいはCRTで構成
される。バスライン110は、ナビゲーション装置10
0のCPU105等の構成要素をバス接続するラインで
ある。The CPU 105 controls the entire navigation device 100 by executing a program stored in the ROM 107. The RAM 106 is a volatile memory and secures a work data area. ROM 107
The nonvolatile memory stores the above-described control program and the like. The CD-ROM drive 108 uses a CD-ROM as a recording medium and stores road map information such as vector road data. The CD-ROM drive may be a DVD drive using a DVD as a recording medium or another recording device. The display device 109 displays a road map of the current location and the surrounding area of the car, route information to the destination, information of the next guidance intersection, and the like. For example, it is composed of a liquid crystal display device or a CRT. The bus line 110 is connected to the navigation device 10.
0 is a line for connecting components such as the CPU 105 via a bus.
【0013】音声ユニット200は、音声認識、音声合
成等、音声に関する処理を行う。発話スイッチ206
は、ユーザが押すことにより音声認識の開始を指示する
スイッチである。発話スイッチ206が押された後所定
時間、音データの入力がマイク201を介して行われ
る。入力された音は、A/D変換部202およびドライ
バ207により、デジタル音声データに変換される。The voice unit 200 performs voice-related processing such as voice recognition and voice synthesis. Speech switch 206
Is a switch for instructing the start of voice recognition when pressed by the user. Input of sound data is performed via the microphone 201 for a predetermined time after the utterance switch 206 is pressed. The input sound is converted into digital audio data by the A / D converter 202 and the driver 207.
【0014】音声ユニット200のROM210には、
音声認識ソフト(プログラム)、音声合成ソフト(プロ
グラム)、音声認識辞書(以下、単に認識辞書と言
う)、音声合成辞書(以下、単に合成辞書と言う)等が
格納されている。音声認識ソフトは、デジタル音声デー
タと、認識辞書内の全認識語との相関値を算出し、最も
相関値の高い認識語を認識結果として求める。音声合成
ソフトは、指定した文章をスピーカから発声させるため
のデータを算出する。両ソフトウェアについては、公知
な内容であるので詳細な説明は省略する。In the ROM 210 of the audio unit 200,
A speech recognition software (program), a speech synthesis software (program), a speech recognition dictionary (hereinafter simply referred to as a recognition dictionary), a speech synthesis dictionary (hereinafter simply referred to as a synthesis dictionary), and the like are stored. The voice recognition software calculates a correlation value between the digital voice data and all the recognized words in the recognition dictionary, and obtains a recognized word having the highest correlation value as a recognition result. The speech synthesis software calculates data for causing a specified sentence to be uttered from a speaker. Since the contents of both softwares are publicly known, detailed description will be omitted.
【0015】認識辞書は、音声認識の対象となる言葉
(語)を複数集めたひとかたまりのデータである。具体
的には、ひらがなやカタカナやローマ字(実際にはその
文字コード)で指定されたそれぞれの言葉の読みデータ
が格納されている。認識辞書に格納された言葉を認識語
という。各認識語には、読みデータの他その言葉の文字
データや、施設名であれば座標情報などの情報が付帯し
ている。認識辞書の詳細については後述する。合成辞書
は、音声合成のために必要な音源データ等が格納されて
いる。[0015] The recognition dictionary is a set of data obtained by collecting a plurality of words (words) to be subjected to speech recognition. Specifically, reading data of each word specified by Hiragana, Katakana, or Romaji (actually, its character code) is stored. The words stored in the recognition dictionary are called recognized words. Each recognition word is accompanied by information such as character data of the word as well as reading data and coordinate information in the case of a facility name. Details of the recognition dictionary will be described later. The synthesis dictionary stores sound source data and the like necessary for speech synthesis.
【0016】発話終了時、CPU208は、RAM20
9、ROM210等を使い音声認識ソフトを実行し、デ
ジタル音声データの音声認識を行う。音声認識ソフト
は、認識辞書内の認識語の読みデータ(ひらがなやカタ
カナやローマ字で指定されたデータ)を参照しながらそ
の言葉の音声認識用データを生成し、デジタル音声デー
タとの相関値を算出する。すべての認識語についてデジ
タル音声データとの相関値を算出し、相関値が最も高く
かつ所定の値以上の認識語を決定して音声認識を完了す
る。その認識語にリンクしたエコーバック語を音声合成
ソフトを使い、発声用のデータに変換する。その後、D
/A変換部203、アンプ204、スピーカ205を用
い、認識結果をエコーバック出力させる。At the end of the utterance, the CPU 208
9. Execute voice recognition software using the ROM 210 or the like to perform voice recognition of digital voice data. Speech recognition software generates speech recognition data for recognition words while referring to the recognition data of the recognition words in the recognition dictionary (data specified in Hiragana, Katakana, or Romaji), and calculates the correlation value with the digital speech data I do. The correlation values with the digital voice data are calculated for all the recognized words, and the recognized words having the highest correlation value and the predetermined value or more are determined, and the speech recognition is completed. The echo-back word linked to the recognition word is converted into utterance data using speech synthesis software. Then D
Using the / A conversion unit 203, the amplifier 204, and the speaker 205, the recognition result is output as an echo back.
【0017】もし、算出したどの相関値も所定の値以下
である場合は、音声認識できなかったとしてナビの操作
を行わないようにする。具体的には、「プップー」等の
認識失敗を意味するビープ音を鳴らすことや、「認識で
きません」と応答(エコーバック)させる。バスライン
212は、音声ユニット200のバスラインである。If any of the calculated correlation values is equal to or less than a predetermined value, it is determined that voice recognition has not been performed, and no navigation operation is performed. More specifically, a beep sound indicating recognition failure such as “puppy” is sounded, and a response (echo back) indicating “unrecognizable” is made. The bus line 212 is a bus line of the audio unit 200.
【0018】次に、認識辞書について詳細に説明する。
図2は、10件のゴルフ場名に関する認識語を格納した
ゴルフ場認識辞書を示す図である。認識語は、その施設
名(図2はゴルフ場名)に関する読みデータである。図
2では、分かりやすいように漢字を含む文字で記載して
いるが、ひらがなあるいはカタカナあるいはローマ字で
指定され対応する文字コードが格納される。各認識語に
は付帯情報がついている。付帯情報は、その施設の地図
上の座標情報、次に読み込む認識辞書の番号、施設の諸
属性情報、その施設名の表示用文字データ等の各種の情
報が格納されている。図2では、代表して座標情報のみ
を示している。Next, the recognition dictionary will be described in detail.
FIG. 2 is a diagram showing a golf course recognition dictionary in which recognition words relating to ten golf course names are stored. The recognition word is read data relating to the name of the facility (in FIG. 2, the name of the golf course). In FIG. 2, characters including kanji are described for easy understanding. However, corresponding character codes are designated by hiragana, katakana, or romaji and stored. Each recognition word has accompanying information. The supplementary information stores various information such as coordinate information on the map of the facility, the number of the recognition dictionary to be read next, attribute information of the facility, and character data for displaying the facility name. In FIG. 2, only coordinate information is shown as a representative.
【0019】図2のゴルフ場認識辞書の例で、長いゴル
フ場名(言葉)の場合に認識に失敗する確率が高いこと
について分析をする。例えば、ユーザが図2の上から3
番目のゴルフ場名「御田原ゴルフ倶楽部松田コース」を
発話して、それを音声認識させる場合を考えてみる。す
べてのユーザがこの長い言葉を一気に発話するとは限ら
ない。中には、途中で一寸休んでから話すユーザもい
る。例えば、ユーザが「御田原ゴルフ倶楽部」でいった
ん言いよどみ、その後「松田コース」と発話したと仮定
する。もし言いよどんだ時間が短い時は、音声認識ソフ
トは「御田原ゴルフ倶楽部松田コース」という音データ
を一つの入力として扱う。そのため、正しく認識でき問
題はない。In the example of the golf course recognition dictionary shown in FIG. 2, analysis is made on the fact that the probability of recognition failure being high in the case of a long golf course name (word) is high. For example, if the user
Suppose that the second golf course name "Mitahara Golf Club Matsuda Course" is uttered and it is recognized by voice. Not all users utter this long word at once. Some users take a break on the way and then talk. For example, it is assumed that the user once stops at “Mitahara Golf Club” and then speaks “Matsuda Course”. If the pause time is short, the voice recognition software treats the sound data "Mitawara Golf Club Matsuda Course" as one input. Therefore, it can be correctly recognized and there is no problem.
【0020】ところが、音声認識ソフトは、一般に発話
開始から発話が無くなった時点で発話終了と判断する。
言いよどみの時間が長いときは、言いよどんだ時点で発
話が終了したと判断し、言いよどみ以降再開した発話デ
ータは捨てられる。すなわち「御田原ゴルフ倶楽部」と
いう音データだけを入力として使うことになる。その結
果、特に類似語が多数存在する場合は、誤認識を犯す確
率が非常に高くなる。However, the speech recognition software generally determines that the utterance has ended when the utterance disappears from the start of the utterance.
If the utterance time is long, it is determined that the utterance has ended when the utterance is stopped, and the utterance data resumed after the utterance is discarded. That is, only the sound data “Mitawara Golf Club” is used as input. As a result, especially when many similar words exist, the probability of erroneous recognition becomes extremely high.
【0021】以上の分析の結果、第1の実施の形態で
は、図2のゴルフ場認識辞書について以下に説明するよ
うにする。上述の「御田原ゴルフ倶楽部松田コース」で
は、ほとんどの場合「御田原ゴルフ倶楽部」と「松田コ
ース」の間で一寸休むと思われる。そこで「御田原ゴル
フ倶楽部松田コース」に対して「御田原ゴルフ倶楽部」
という短い認識語を追加する。付帯情報は「御田原ゴル
フ倶楽部松田コース」と同じ座標情報3とする。このよ
うに、正規の認識語について準備する別な言い回しの認
識語を「言い替え語」と呼ぶ。As a result of the above analysis, in the first embodiment, the golf course recognition dictionary of FIG. 2 will be described below. In the above-mentioned "Mitawara Golf Club Matsuda Course", in most cases, it is expected that a short break will occur between "Mitahara Golf Club" and "Matsuda Course". Therefore, "Mitawara Golf Club" for "Mitahara Golf Club Matsuda Course"
Is added. The supplementary information is the same coordinate information 3 as “Mitahara Golf Club Matsuda Course”. In this way, another word recognition word prepared for a normal recognition word is called a “paraphrase word”.
【0022】図3は、図2のゴルフ場認識辞書に言い替
え語を追加した場合の一例を示す図である。「厚本国際
カントリー倶楽部」については「厚本国際」という言い
替え語を、「御田急藤沢ゴルフクラブ」については「御
田急藤沢」という言い替え語を、「御田原湯本カントリ
ークラブ」については「御田原湯本」という言い替え語
を、「大厚本カントリー倶楽部本コース」については
「大厚本カントリー倶楽部」という言い替え語などを追
加し同一の認識辞書に格納する。FIG. 3 is a diagram showing an example in which paraphrases are added to the golf course recognition dictionary of FIG. For "Atsumoto Kokusai Country Club", the paraphrase of "Atsumoto Kokusai", for "Mitakyu Fujisawa Golf Club", the paraphrase of "Mitakyu Fujisawa", and for "Mitahara Yumoto Country Club", "Mitahara A paraphrase such as "Yumoto" and a paraphrase such as "Daiatsuhon Country Club" for "Daitsuhon Country Club Book Course" are added and stored in the same recognition dictionary.
【0023】例えば「大厚本カントリー倶楽部本コー
ス」と発話したとき、言いよどみの結果「大厚本カント
リー倶楽部」としか音が入力できなかったとしても、
「大厚本カントリー倶楽部」という短い認識語を準備し
ているため、認識に成功させることができる。このよう
に、長い言葉に関して、正規の認識語から区切りのよい
所までの言い替え語を準備し、認識辞書に追加しておけ
ば、途中でユーザが言いよどんだ時でも、確実に認識に
成功させることができる。これは、認識辞書の容量が大
きくなり、認識実行時間が長くなるというデメリットが
生じるが、長い施設名称でも言いよどみによる誤認識を
確実に低減することができるという大きなメリットが生
じる。For example, when uttering "Daiatsuhon Country Club Hon Course", even if a sound can be input only as "Daiatsuhon Country Club" as a result of worrisomeness,
Since a short recognition word "Daikouhon Country Club" is prepared, recognition can be successful. In this way, for a long word, if a paraphrase from a regular recognition word to a place where a delimiter is good is prepared and added to the recognition dictionary, the recognition can be surely succeeded even when the user stops speaking in the middle. be able to. This has the disadvantage that the capacity of the recognition dictionary increases and the recognition execution time increases, but there is a great advantage that erroneous recognition due to stagnation can be reliably reduced even with a long facility name.
【0024】なお、言い替え語は、所定の長さ以上の長
い言葉だけを選択して準備するようにしもよい。また、
言葉の長さにかかわらず経験的に言いよどみが起こりそ
うな言葉のみを選択して準備するようにしてもよい。さ
らに、正規の認識語に対して長さの異なる複数個の言い
替え語を準備するようにしてもよい。As the paraphrase, only long words having a predetermined length or more may be selected and prepared. Also,
Regardless of the length of words, only words that are likely to cause stagnation may be selected and prepared empirically. Further, a plurality of paraphrases having different lengths may be prepared for the regular recognition word.
【0025】短い言い替え語を作成する場合の区切りの
決め方は、前もって実験や経験により言いよどみが最も
起こりそうなところを考察し決めればよい。また、長い
言葉は一般に複数の短い言葉の集まりであるため、例え
ば、全体の読みのちょうど半分の位置に最も近い短い言
葉の区切りの位置をその区切りとすることもできる。あ
るいは、無条件に先頭から数個目の短い言葉の区切りで
決めることも考えられる。さらには、無条件に先頭から
数音節のところで区切るようにしてもよい。The way to determine the delimiter when creating a short paraphrase may be determined in advance by considering the most likely occurrence of stagnation based on experiments and experiences. In addition, since a long word is generally a group of a plurality of short words, for example, a position of a short word break closest to a position of exactly half of the entire reading may be used as the break. Alternatively, it is also conceivable to determine unconditionally by the break of a few short words from the beginning. Further, it may be unconditionally divided at a few syllables from the beginning.
【0026】図4は、音声ユニット200において、音
声認識を行う制御のフローチャートを示す図である。制
御プログラムはROM210に格納され、CPU208
がその制御プログラムを実行する。ナビゲーション装置
100および音声ユニット200の電源オンにより本ル
ーチンはスタートする。FIG. 4 is a diagram showing a flowchart of control for performing voice recognition in the voice unit 200. The control program is stored in the ROM 210 and the CPU 208
Executes the control program. This routine starts when the navigation device 100 and the audio unit 200 are turned on.
【0027】ステップS1では、発話スイッチ206が
押されたかどうかを判断し、押されている場合はステッ
プS2へ進む。押されていない場合は、本ルーチンを終
了する。ユーザは発話スイッチ206を押した後、一定
時間内に例えば図2に示されたゴルフ場名を発話する。
ステップS2では、マイク201からの音声信号をデジ
タル音声データに変換する。ステップS3では、発話が
終了したかどうかを判断する。発話の終了は、一定時間
音声信号が途切れた場合を発話の終了と判断する。発話
が終了したと判断した場合はステップS4に進み、発話
がまだ終了していないと判断した場合はステップS2に
戻る。In step S1, it is determined whether or not the utterance switch 206 has been pressed. If the utterance switch 206 has been pressed, the process proceeds to step S2. If the button has not been pressed, this routine ends. After pressing the utterance switch 206, the user utters, for example, the golf course name shown in FIG.
In step S2, the audio signal from the microphone 201 is converted into digital audio data. In step S3, it is determined whether or not the utterance has ended. The end of the utterance is determined to be the end of the utterance when the audio signal is interrupted for a predetermined time. If it is determined that the utterance has ended, the process proceeds to step S4, and if it is determined that the utterance has not ended, the process returns to step S2.
【0028】ステップS4では、ステップS2で取得し
たデジタル音声データと図3の認識辞書内の全認識語に
ついて相関値を算出し、ステップS5に進む。認識辞書
は、図2の認識辞書に言い替え語が追加された図3の認
識辞書を使用する。ステップS5では、算出された相関
値のうち最も高い相関値が所定の値以上かどうかを判断
する。所定の値以上であれば、その語が認識できたとし
てステップS6に進む。ステップS6では、相関値の最
も高かった認識語を音声によりエコーバックする。In step S4, correlation values are calculated for the digital speech data obtained in step S2 and all the recognized words in the recognition dictionary shown in FIG. 3, and the process proceeds to step S5. As the recognition dictionary, the recognition dictionary of FIG. 3 in which paraphrases are added to the recognition dictionary of FIG. 2 is used. In step S5, it is determined whether the highest correlation value among the calculated correlation values is equal to or greater than a predetermined value. If the value is equal to or more than the predetermined value, it is determined that the word has been recognized and the process proceeds to step S6. In step S6, the recognized word having the highest correlation value is echoed back by voice.
【0029】さらに、ステップS6では該当ゴルフ場名
(施設名称)が認識できたことをナビゲーション装置1
00に知らせた後、処理を終了する。ナビゲーション装
置100に知らせるときは、付帯情報の文字情報および
地図上の座標を知らせる。ナビゲーション装置100
は、通信ライン211を介して送信されてきた該当ゴル
フ場(施設)の地図上の座標データとCD−ROMドラ
イブ108の地図情報等に基づき、該当施設近辺の道路
地図を表示装置109に表示する。Further, in step S6, the navigation device 1 recognizes that the corresponding golf course name (facility name) has been recognized.
After notifying 00, the process ends. When notifying the navigation device 100, the character information of the accompanying information and the coordinates on the map are notified. Navigation device 100
Displays a road map near the relevant facility on the display device 109 based on the coordinate data on the map of the relevant golf course (facility) transmitted via the communication line 211 and the map information of the CD-ROM drive 108. .
【0030】一方、ステップS5において、最も高い相
関値が所定の値未満であれば発話された言葉が認識でき
なかったとしてステップS7に進む。ステップS7で
は、「認識できません」と音声によりエコーバックし、
処理を終了する。ナビゲーション装置100においても
何も処理をしない。On the other hand, if the highest correlation value is less than the predetermined value in step S5, it is determined that the uttered word cannot be recognized, and the process proceeds to step S7. In step S7, the voice is echoed back saying "unrecognizable"
The process ends. The navigation device 100 does not perform any processing.
【0031】以上のようにして、音声認識を行うとき言
い替え語が追加された認識辞書を使用するようにしてい
る。これにより、長い施設名などを発話するとき、途中
で言いよどんでも、その長い施設名の音声認識に確実に
成功することができる。As described above, when performing voice recognition, a recognition dictionary to which paraphrases are added is used. Thereby, when speaking a long facility name or the like, speech recognition of the long facility name can be surely succeeded, even if it says halfway.
【0032】−第2の実施の形態− 第2の実施の形態の車載用ナビゲーションシステムは、
発話スイッチを押した後すぐに発話した場合でも確実に
音声認識に成功させるようにしたものである。第2の実
施の形態の車載用ナビゲーションシステムの構成は、図
1の第1の実施の形態の車載用ナビゲーションシステム
と同一であるので、その説明を省略する。-Second Embodiment-An in-vehicle navigation system according to a second embodiment comprises:
Even if the utterance is made immediately after pressing the utterance switch, the voice recognition is surely succeeded. The configuration of the vehicle-mounted navigation system according to the second embodiment is the same as that of the vehicle-mounted navigation system according to the first embodiment shown in FIG.
【0033】第1の実施の形態とは認識辞書について異
なるため、以下、その認識辞書について説明する。図5
は、5件の駅名に関する認識語を格納した駅名認識辞書
を示す図である。各認識語には付帯情報がついている。
認識語は、その施設名(駅名)に関する読みデータであ
る。認識語はひらがなあるいはカタカナあるいはローマ
字で指定されその文字コードが格納される。図5では、
ひらがなの場合を示している。仮名1字で示される音を
1音節という。付帯情報は、ナビゲーション装置に表示
させる表示データに関する情報(図5の場合は駅名の表
示用文字データ)、施設の地図上の座標に関する情報、
ナビ操作コマンドに関する情報、エコーバックデータに
関する情報などがある。図5では、代表して表示用文字
データと座標情報を示している。Since the recognition dictionary is different from that of the first embodiment, the recognition dictionary will be described below. FIG.
FIG. 4 is a diagram showing a station name recognition dictionary storing recognition words relating to five station names. Each recognition word has accompanying information.
The recognition word is read data on the facility name (station name). The recognition word is designated by Hiragana, Katakana, or Roman alphabet, and its character code is stored. In FIG.
The case of Hiragana is shown. The sound indicated by one kana character is called one syllable. The incidental information includes information on display data to be displayed on the navigation device (character data for display of a station name in FIG. 5), information on coordinates of facilities on a map,
Information on navigation operation commands, information on echo back data, and the like. FIG. 5 representatively shows display character data and coordinate information.
【0034】図5の駅名認識辞書の例で、発話スイッチ
206を押した後すぐに発話をする場合に認識に失敗す
る確率が高いことについて分析をする。In the example of the station name recognition dictionary shown in FIG. 5, an analysis will be made on the fact that recognition is highly likely to fail when uttering immediately after pressing the utterance switch 206.
【0035】音声認識ソフトは、一般的に、発話スイッ
チ206を押し、その後、ユーザが発話した音データと
認識辞書内の全認識語との相関値を算出する。その結
果、相関値が最大になった認識語を認識結果と判断す
る。音声認識ソフトは、発話スイッチ206が押された
後マイク201を介した音声を受け付けるまで若干準備
時間を要する。従って、ユーザが発話スイッチ206を
押した後即座に発話したとき、最悪、発話した言葉の頭
が若干抜ける場合がある。例えば「そうぶだいまえ」と
いう駅名を発話スイッチ206を押した後即座に発話し
た場合、先頭語の「そ」の子音が抜け「おうぶだいま
え」と聞こえるように入力される場合がある。その結
果、特に類似語が多数存在するときは、誤認識の確率が
極めて高くなる。The speech recognition software generally presses the utterance switch 206, and thereafter calculates a correlation value between the sound data uttered by the user and all the recognized words in the recognition dictionary. As a result, the recognition word having the maximum correlation value is determined as the recognition result. The voice recognition software requires some preparation time until the voice via the microphone 201 is accepted after the speech switch 206 is pressed. Therefore, when the user speaks immediately after pressing the speech switch 206, at the worst, the head of the spoken word may be slightly omitted. For example, if the station name "Sobudai-mae" is uttered immediately after pressing the utterance switch 206, the consonant of the first word "So" may be omitted so that "Obudai-mae" is heard. As a result, especially when there are many similar words, the probability of erroneous recognition becomes extremely high.
【0036】以上の分析の結果、第2の実施の形態で
は、図5の駅名認識辞書について以下に説明するように
する。例えば、「そうぶだいまえ」という駅名の認識語
を考えたとき、先頭の「そ」を取りこぼした場合を想定
する。この場合、上述のように「おうぶだいまえ」と聞
こえる場合がある。そこで、先頭の「そ」の代わりにそ
の母音である「お」で言い替えた「おうぶだいまえ」と
いう認識語を認識辞書に追加する。付帯情報は、正規の
「そうぶだいまえ」と同じ付帯情報をつける。これによ
り、発話スイッチ206を押した後即座に「そうぶだい
まえ」と発話し、最悪先頭の子音が取りこぼされても確
実に音声認識に成功する。なお、正規の認識語について
準備する別な言い回しの認識語を「言い替え語」と呼
ぶ。As a result of the above analysis, in the second embodiment, the station name recognition dictionary shown in FIG. 5 will be described below. For example, suppose that when considering a recognition word for a station name of “Sobudai Mae”, the leading “So” is omitted. In this case, as described above, there may be a case where it is heard that "there is nothing". Therefore, in place of the head "so", a recognition word "Obudaimae" paraphrased with the vowel "O" is added to the recognition dictionary. The supplementary information is attached to the same supplementary information as the regular "Sobudaime". As a result, immediately after pressing the utterance switch 206, "Sobudaime" is uttered, and even if the worst leading consonant is missed, the speech recognition can be surely succeeded. In addition, another word recognition word prepared for a normal recognition word is referred to as a “paraphrase word”.
【0037】また、「おだきゅうさがみはら」という駅
名の認識語を考え、先頭の「お」を取りこぼした場合を
想定する。この場合「だきゅうさがみはら」と聞こえる
場合がある。そこで、先頭の「お」を削除した「だきゅ
うさがみはら」という認識語の言い替え語を認識辞書に
追加する。付帯情報は、正規の「おだきゅうさがみは
ら」と同じ付帯情報をつける。これにより、発話スイッ
チ206を押した後即座に「おだきゅうさがみはら」と
発話し、最悪先頭の「お」が取りこぼされても確実に音
声認識に成功する。Considering the recognition word of the station name "Odaki Sagamihara", it is assumed that the leading "O" is omitted. In this case, it may be heard as "Dakyusagamihara". Therefore, a paraphrase of the recognition word "Dakyusugamihara" from which the leading "O" is deleted is added to the recognition dictionary. The supplementary information is the same as the regular supplementary information "Odakyu Sagamihara". As a result, immediately after pressing the utterance switch 206, "Odakyu Sagamihara" is uttered, and even if the leading "O" is missed, the speech recognition is surely succeeded.
【0038】図6は、図5の駅名辞書に言い替え語を追
加した場合の一例を示す図である。言い替え語を作成す
る場合の規則として、例えば、先頭の語をその母音で言
い替えること、特にその先頭が子音である場合にその母
音に言い替えること、先頭から所定数の語を削除した言
葉で言い替えること、先頭の語1語のみを削除した言葉
で言い替えること、先頭の語が母音である場合にのみそ
の母音を削除した言葉で言い替えることなどが考えられ
る。また、発話スイッチ206を押した後即座に発話し
たときに、実験によりあるいは経験的に聞こえる言い替
え語を追加するようにしてもよい。正規の認識語に対し
て複数個の言い替え語を準備するようにしてもよい。な
お、ここで「先頭の語」という場合の「語」は、五十音
の1語(1音節)をいうものとする。FIG. 6 is a diagram showing an example of a case where a paraphrase is added to the station name dictionary of FIG. Rules for creating paraphrases include, for example, paraphrasing the first word with its vowel, especially if it is a consonant, and paraphrasing it with words with a certain number of words removed from the beginning. It is conceivable to paraphrase with a word in which only the first word is deleted, or paraphrase with a word in which the vowel is deleted only when the first word is a vowel. Further, when the utterance is made immediately after pressing the utterance switch 206, a paraphrase that can be heard experimentally or empirically may be added. A plurality of paraphrases may be prepared for a regular recognition word. Here, the "word" in the case of "the first word" means one word (one syllable) of the Japanese syllabary.
【0039】第2の実施の形態の音声認識を行う制御の
フローチャートは、使用する認識辞書を除き第1の実施
の形態の図4と同じであるので、その説明を省略する。
認識辞書は言い替え語が追加された図6の認識辞書を使
用する。The flowchart of the control for performing the speech recognition according to the second embodiment is the same as that of FIG. 4 of the first embodiment except for the recognition dictionary used, and therefore the description thereof is omitted.
The recognition dictionary uses the recognition dictionary of FIG. 6 to which the paraphrase is added.
【0040】以上のようにして、正規の認識語の先頭の
語あるいは先頭からいくつかの語を削除したり母音に言
い替えたりした言い替え語を認識辞書に追加する。これ
により、ユーザが発話スイッチ206をオンした後すぐ
に発話しても、その言葉の音声認識に確実に成功するこ
とが可能となる。As described above, the head word of the regular recognition word or a paraphrase in which some words are deleted from the head or paraphrased into vowels are added to the recognition dictionary. Thus, even if the user speaks immediately after turning on the speech switch 206, it is possible to surely succeed in the speech recognition of the word.
【0041】−第3の実施の形態− 第3の実施の形態の車載用ナビゲーションシステムは、
例えば「通り」を「とうり」と発話しても「とおり」と
発話しても「とーり」と発話しても、確実に音声認識に
成功させるようにしたものである。第3の実施の形態の
車載用ナビゲーションシステムの構成は、図1の第1の
実施の形態の車載用ナビゲーションシステムと同一であ
るので、その説明を省略する。-Third Embodiment- A vehicle-mounted navigation system according to a third embodiment comprises:
For example, regardless of whether "street" is uttered as "tori", "street", or "tori", voice recognition is surely succeeded. The configuration of the vehicle-mounted navigation system according to the third embodiment is the same as that of the vehicle-mounted navigation system according to the first embodiment shown in FIG.
【0042】第1の実施の形態とは認識辞書について異
なるため、以下、その認識辞書について説明する。図7
は、4件の駅名に関する認識語を格納した駅名認識辞書
を示す図である。各認識語には付帯情報がついている。
認識語は、その施設名(駅名)に関する読みデータであ
る。認識語はひらがなあるいはカタカナあるいはローマ
字で指定されその文字コードが格納される。図7では、
カタカナの場合を示している。仮名1字で示される音を
1音節という。付帯情報は、ナビゲーション装置に表示
させる表示データに関する情報(図7の場合は駅名の表
示用文字データ)、施設の地図上の座標に関する情報、
ナビ操作コマンドに関する情報、エコーバックデータに
関する情報などがある。図7では、代表して表示用文字
データと情報番号を示している。Since the recognition dictionary is different from that of the first embodiment, the recognition dictionary will be described below. FIG.
FIG. 4 is a diagram showing a station name recognition dictionary storing recognition words relating to four station names. Each recognition word has accompanying information.
The recognition word is read data on the facility name (station name). The recognition word is designated by Hiragana, Katakana, or Roman alphabet, and its character code is stored. In FIG.
The case of katakana is shown. The sound indicated by one kana character is called one syllable. The supplementary information includes information on display data to be displayed on the navigation device (character data for displaying station names in FIG. 7), information on coordinates of facilities on a map,
Information on navigation operation commands, information on echo back data, and the like. FIG. 7 shows display character data and information numbers as representatives.
【0043】図7の駅名認識辞書の例で、例えば「明大
前」を発話をする場合に認識に失敗する確率が高いこと
について分析をする。「明大前」の漢字の読みは「メイ
ダイマエ」であるので、「メイダイマエ」の認識語が準
備されている。しかし、「明大前」を「メエダイマエ」
あるいは「メーダイマエ」と発話する人も多い。そのよ
うな場合、「メイダイマエ」の認識語との相関値が低く
なり、特に類似語が多数存在するときは、誤認識の確率
が高くなる。In the example of the station name recognition dictionary shown in FIG. 7, analysis will be made on the fact that the probability of recognition failure being high when, for example, speaking "Meidaimae" is high. Since the kanji reading of "Meidaimae" is "Meidaimae", recognition words for "Meidaimae" are prepared. However, "Meidaimae" is replaced by "Meidaimee"
Or many people say "Maedai Mae". In such a case, the correlation value with the recognition word of “Maydai Mae” decreases, and particularly when many similar words exist, the probability of erroneous recognition increases.
【0044】以上の分析の結果、第3の実施の形態で
は、図7の駅名認識辞書について以下に説明するように
する。例えば、上記の「明大前」という駅名の認識語を
考えたとき、「メイダイマエ」と「メエダイマエ」の2
つの認識語を準備する。「調布」という駅名の認識語に
ついては、「チョウフ」と「チョオフ」の2つの認識語
を準備する。なお、正規の読みの認識語について準備す
る別な言い回しの認識語を「言い替え語」と呼ぶ。言い
替え語の付帯情報は、それぞれ正規の認識語と同じもの
が指定される。As a result of the above analysis, in the third embodiment, the station name recognition dictionary shown in FIG. 7 will be described below. For example, when considering the above recognition words for the station name “Meidaimae”, “Meidaimae” and “Meidaimae”
Prepare two recognition words. For the recognition word of the station name “Chofu”, two recognition words “Choufu” and “Chooff” are prepared. In addition, the recognition word of another wording prepared about the recognition word of a regular reading is called a "paraphrase word." As the supplementary information of the paraphrase, the same information as the regular recognition word is specified.
【0045】上記より、次のような法則が見いだされ
る。「エ」「ケ」「セ」「テ」「ネ」等の五十音のえ段
の語(音節)の後に「イ」が並ぶ読みの言葉の場合、そ
の「イ」を「エ」に置き換えたように発話する人が多
い。また、「オ」「コ」「ソ」「ト」「ノ」等のお段の
語(音節)の後に「ウ」が並ぶ読みの言葉の場合、その
「ウ」を「オ」に置き換えたように発話する人が多い。From the above, the following rule is found. In the case of a reading word in which "I" follows the Japanese syllabary word (syllable) such as "e", "ke", "se", "te", and "ne", the "i" is changed to "e" Many people speak as if they were replaced. In addition, in the case of reading words in which "U" follows the word (syllable) such as "o", "ko", "so", "to", "no", "u" is replaced with "o" Many people speak like this.
【0046】従って、この法則に従った認識語を追加す
るようにする。図8の駅名辞書は、図7の駅名辞書に対
して上記の法則により認識語を追加したものである。こ
れにより、「明大前」を、文字通りの読み「メイダイマ
エ」とは異なり、会話で一般に発話される「メエダイマ
エ」と発話しても、確実に「明大前」の駅名が認識でき
る。Therefore, a recognition word according to this rule is added. The station name dictionary of FIG. 8 is obtained by adding recognition words to the station name dictionary of FIG. 7 according to the above rule. As a result, the station name of “Meidaimae” can be reliably recognized even if “Meidaimae” is spoken as “Meidaimae”, which is generally spoken in conversation, unlike the literal reading “Meidaime”.
【0047】なお、「エ」あるいは「オ」に置き換える
代わりに、長音符号「ー」に置き換えるようにしてもよ
い。あるいは、「エ」または「オ」に置き換えた認識語
と、長音符号「ー」に置き換えた認識語の両方を追加す
るようにしてもよい。It should be noted that instead of replacing "e" or "o", it may be replaced with a long code "-". Alternatively, both the recognition word replaced with “e” or “o” and the recognition word replaced with the long code “-” may be added.
【0048】上記は、読みの指定をひらがなやカタカナ
で行う音声認識システムの場合である。しかし、ローマ
字で指定する場合も、同様に考えればよい。例えば、
「明大前」は、ローマ字では正規の認識語として「meid
aimae」と指定する。「e」に続く「i」を「e」に置き換
えて「meedaimae」という認識語を追加する。「調布」
については、正規の認識語として「chouhu」を指定す
る。「o」に続く「u」を「o」に置き換えて「choohu」
とする。The above is the case of the speech recognition system in which the reading is specified in hiragana or katakana. However, the same applies to the case of specifying in Roman characters. For example,
"Meidaimae" is a regular recognition word in Roman characters
aimae ". Replace “i” following “e” with “e” and add a recognition word “meedaimae”. "Chofu"
, "Chouhu" is specified as a regular recognition word. Replace "u" following "o" with "o" and "choohu"
And
【0049】次に、「東名高速道路」という言葉につい
て考える。この読みは「トウメイコウソクドウロ」であ
るため、上記の法則を適用すると、置き換えの対象とな
る部分は4箇所ある。この4箇所の組み合わせを考える
と、新たに15個の認識語を追加する必要が生じる。こ
のため、認識辞書の大きさが膨大になり膨大な容量のR
OM210が必要になる。この対策として、一つは、認
識辞書をROM210に格納する代わりに、CD−RO
MやDVD−ROMのような大容量の記録媒体を使用す
るようにすればよい。Next, consider the word "Tomei Expressway". Since this reading is “Popularity”, if the above rule is applied, there are four parts to be replaced. Considering these four combinations, it is necessary to add 15 new recognition words. For this reason, the size of the recognition dictionary becomes enormous, and an enormous amount of R
OM210 is required. As a countermeasure, one is to store the recognition dictionary in the ROM 210 instead of storing it in the CD-RO.
A large-capacity recording medium such as M or DVD-ROM may be used.
【0050】他の一つの対策として次のような内容が考
えられる。ROM210には正規の読みの認識語のみを
格納した認識辞書を準備する。そして、音声認識ソフト
が音声認識処理にあたり認識辞書を使用するときに、所
定のプログラムを実行させることにより、正規の読みの
認識語に基づく上記法則による言い替え語をRAM20
9上に生成するようにすればよい。このRAM209は
作業メモリエリアであるので、他の認識辞書を使用する
ときは、前に作成した言い替え語がクリアされ、新たに
他の認識辞書に基づく言い替え語がRAM209上に生
成される。これにより、膨大な容量のROMの必要はな
くなる。また、ROM210には漢字の読みそのままの
データのみを作成すればよいので、認識語の作成が容易
である。漢字を仮名変換するようなプログラムを使用す
れば、自動化あるいは半自動化で容易に正規の読みのみ
の認識辞書を作成することができる。As another countermeasure, the following contents can be considered. The ROM 210 prepares a recognition dictionary storing only recognition words of regular reading. When the speech recognition software uses the recognition dictionary for the speech recognition processing, a predetermined program is executed, so that the paraphrase based on the above rule based on the recognized word of the regular reading is stored in the RAM 20.
9 may be generated. Since this RAM 209 is a work memory area, when another recognition dictionary is used, the previously created paraphrase is cleared and a paraphrase based on another recognition dictionary is newly generated on the RAM 209. This eliminates the need for a huge amount of ROM. In addition, since it is sufficient to create only data in which the kanji is read as it is in the ROM 210, it is easy to create a recognized word. If a program that converts kanji to kana is used, a recognition dictionary with only regular readings can be easily created by automation or semi-automation.
【0051】第3の実施の形態の音声認識を行う制御の
フローチャートは、使用する認識辞書を除き第1の実施
の形態の図4と同じであるので、その説明を省略する。
認識辞書は言い替え語が追加された図8の認識辞書を使
用する。The flowchart of the control for performing the voice recognition according to the third embodiment is the same as that of FIG. 4 of the first embodiment except for the recognition dictionary used, and therefore the description thereof is omitted.
As the recognition dictionary, the recognition dictionary of FIG. 8 to which the paraphrase is added is used.
【0052】以上のようにして、正規の読みの認識語に
おいて母音が「エイ」と続く場合は「エエ」あるいは
「エー」と置き換え、母音が「オウ」と続く場合は「オ
オ」あるいは「オー」と置き換える認識語を新たに追加
する。これにより、実際の発話に近い認識語が準備され
るため、音声認識に成功する確率が高くなる。As described above, if the vowel is followed by “A” in the recognized word of the normal reading, it is replaced with “E” or “A”, and if the vowel continues with “O”, it is replaced by “O” or “O”. Is newly added. As a result, a recognition word close to the actual utterance is prepared, and the probability of successful speech recognition increases.
【0053】上記第3の実施の形態では、置き換え語の
組み合わせが多く言い替え語が多数必要な場合に、音声
認識処理を行うときに、所定のプログラムを実行するこ
とにより正規の読みの認識語に基づき言い替え語の認識
語を生成する例を示した(「東名高速道路」の場合)。
この内容は、言い替え語が多くない場合にも適用できる
(例えば上述の「明大前」の場合)。さらに、第1の実
施の形態(例えば上述の「御田原ゴルフ倶楽部松田コー
ス」の場合)および第2の実施の形態(例えば上述の
「そうぶだいまえ」の場合)において言い替え語を生成
する場合にも適用できる。In the third embodiment, when there are many combinations of replacement words and a large number of replacement words are required, a predetermined program is executed when speech recognition processing is performed, so that the recognition words of normal reading can be obtained. An example in which a recognized word of a paraphrase is generated based on the case ("Tomei Expressway") is shown.
This content can be applied even when there are not many paraphrased words (for example, in the case of “Meidaimae” described above). Further, a case where a paraphrase is generated in the first embodiment (for example, in the case of the above-mentioned "Mitahara Golf Club Matsuda Course") and in the second embodiment (for example, in the case of the above-mentioned "Soubu-Daimee") Also applicable to
【0054】上記第1〜3の実施の形態では、車載用ナ
ビゲーションシステムについて説明をしたがこの内容に
限定する必要はない。車載用に限らず携帯用のナビゲー
ション装置にも適用できる。さらには、ナビゲーション
装置に限らず音声認識を行うすべての装置に適用でき
る。In the first to third embodiments, the in-vehicle navigation system has been described. However, the present invention is not limited to this. The present invention can be applied not only to a vehicle-mounted device but also to a portable navigation device. Furthermore, the present invention is applicable not only to navigation devices but also to all devices that perform voice recognition.
【0055】上記第1〜3の実施の形態では、ナビゲー
ション装置100と音声ユニット200を分離した構成
で説明をしたが、この内容に限定する必要はない。音声
ユニットを内部に含んだ一つのナビゲーション装置とし
て構成してもよい。また、上記制御プログラムや認識辞
書などをCD−ROMなどの記録媒体で提供することも
可能である。さらには、制御プログラムや認識辞書など
をCD−ROMなどの記録媒体で提供し、パーソナルコ
ンピュータやワークステーションなどのコンピュータ上
で上記システムを実現することも可能である。In the first to third embodiments, the navigation device 100 and the audio unit 200 have been described as being separated from each other. However, the present invention is not limited to this. It may be configured as one navigation device including a sound unit inside. Further, the control program, the recognition dictionary, and the like can be provided on a recording medium such as a CD-ROM. Furthermore, it is also possible to provide a control program, a recognition dictionary, and the like on a recording medium such as a CD-ROM, and realize the system on a computer such as a personal computer or a workstation.
【0056】上記第1〜3の実施の形態では、音声ユニ
ット200で施設名の検索に成功した場合、その内容を
ナビゲーション装置100に知らせ、ナビゲーション装
置100では道案内等のナビゲーション処理の一つとし
てその施設近辺の地図を表示する例で説明をしたが、こ
の内容に限定する必要はない。ナビゲーション装置10
0では、音声ユニット200で検索に成功した結果に基
づき、経路探索や経路誘導その他の各種のナビゲーショ
ン処理が考えられる。In the first to third embodiments, when the search of the facility name is successfully performed by the voice unit 200, the content is notified to the navigation device 100, and the navigation device 100 performs one of the navigation processes such as road guidance. Although an example of displaying a map near the facility has been described, the present invention is not limited to this example. Navigation device 10
In the case of 0, a route search, a route guidance and other various navigation processes can be considered based on the result of a successful search by the voice unit 200.
【0057】[0057]
【発明の効果】本発明は、以上説明したように構成して
いるので、次のような効果を奏する。請求項1および5
の発明は、音声認識対象の言葉の全体の読みのうち先頭
から所定の長さの読みにのみ対応する短縮した認識語も
備えるようにしているので、例えば、長い施設名を発話
するとき、途中で言いよどんでも、その長い施設名の音
声認識に確実に成功することができる。請求項2の発明
は、音声認識対象の言葉の全体の読みが所定の長さ以上
であるときにのみ、短縮した認識語を備えるので、認識
辞書のメモリ容量の増加は必要最低限で済む。請求項3
の発明は、上記の効果を、特に音声認識ナビゲーション
装置において道案内等のナビゲーションを行うときに有
効に発揮させることができる。Since the present invention is configured as described above, it has the following effects. Claims 1 and 5
Since the invention of the present invention also includes a shortened recognition word corresponding to only a predetermined length of reading from the beginning of the entire reading of the speech recognition target word, for example, when uttering a long facility name, In other words, it is possible to surely succeed in the speech recognition of the long facility name. According to the second aspect of the present invention, the shortened recognition word is provided only when the entire reading of the speech recognition target word is longer than a predetermined length, so that the memory capacity of the recognition dictionary can be increased to a minimum. Claim 3
According to the invention, the above-mentioned effect can be effectively exhibited particularly when performing navigation such as road guidance in a voice recognition navigation device.
【図1】本発明の車載用ナビゲーションシステムの構成
を示す図である。FIG. 1 is a diagram showing a configuration of an on-vehicle navigation system of the present invention.
【図2】第1の実施の形態における改善前の認識辞書を
示す図である。FIG. 2 is a diagram illustrating a recognition dictionary before improvement according to the first embodiment.
【図3】第1の実施の形態における改善後の認識辞書を
示す図である。FIG. 3 is a diagram illustrating an improved recognition dictionary according to the first embodiment.
【図4】第1の実施の形態において、音声認識を行う制
御のフローチャートを示す図である。FIG. 4 is a diagram showing a flowchart of control for performing voice recognition in the first embodiment.
【図5】第2の実施の形態における改善前の認識辞書を
示す図である。FIG. 5 is a diagram showing a recognition dictionary before improvement in a second embodiment.
【図6】第2の実施の形態における改善後の認識辞書を
示す図である。FIG. 6 is a diagram illustrating an improved recognition dictionary according to the second embodiment.
【図7】第3の実施の形態における改善前の認識辞書を
示す図である。FIG. 7 is a diagram illustrating a recognition dictionary before improvement in a third embodiment.
【図8】第3の実施の形態における改善後の認識辞書を
示す図である。FIG. 8 is a diagram illustrating an improved recognition dictionary according to the third embodiment.
100 ナビゲーション装置 101 GPS受信機 102 ジャイロセンサ 103 車速センサ 104 ドライバ 105 CPU 106 RAM 107 ROM 108 CD−ROMドライブ 109 表示装置 110 バスライン 200 音声ユニット 201 マイク 202 A/D変換部 203 D/A変換部 204 アンプ 205 スピーカ 206 発話スイッチ 207 ドライバ 208 CPU 209 RAM 210 ROM 211 通信ライン 212 バスライン REFERENCE SIGNS LIST 100 Navigation device 101 GPS receiver 102 Gyro sensor 103 Vehicle speed sensor 104 Driver 105 CPU 106 RAM 107 ROM 108 CD-ROM drive 109 Display device 110 Bus line 200 Audio unit 201 Microphone 202 A / D conversion unit 203 D / A conversion unit 204 Amplifier 205 speaker 206 utterance switch 207 driver 208 CPU 209 RAM 210 ROM 211 communication line 212 bus line
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 2F029 AA02 AB01 AB07 AB09 AC01 AC02 AC04 AC18 5D015 GG03 KK02 5H180 AA01 BB13 FF04 FF05 FF22 FF25 FF27 FF33 ──────────────────────────────────────────────────続 き Continued on the front page F term (reference) 2F029 AA02 AB01 AB07 AB09 AC01 AC02 AC04 AC18 5D015 GG03 KK02 5H180 AA01 BB13 FF04 FF05 FF22 FF25 FF27 FF33
Claims (4)
語を格納する格納手段と、 前記音声入力手段により得られた音データと前記認識語
に基づき生成された音声認識用データとを比較して音声
認識処理を行う音声認識処理手段とを備えた音声認識装
置において、 前記格納手段は、前記音声認識対象の言葉の全体の読み
に対応する第1の認識語と、前記音声認識対象の言葉の
全体の読みのうち先頭から所定の長さの読みにのみ対応
する第2の認識語とを、双方とも前記音声認識対象の言
葉の認識語として格納することを特徴とする音声認識装
置。1. A voice input means, a storage means for storing a recognition word corresponding to a word to be recognized and representing a reading of the word, a generation based on the sound data obtained by the voice input means and the recognition word And a voice recognition processing unit that performs a voice recognition process by comparing the obtained voice recognition data with the obtained voice recognition data, wherein the storage unit stores a first voice corresponding to the entire reading of the voice recognition target word. A recognition word and a second recognition word corresponding to only a reading of a predetermined length from the beginning of the entire reading of the speech recognition target word are both stored as recognition words of the speech recognition target word. A speech recognition device characterized by the above-mentioned.
が第1の所定の長さ以上であるときに、前記音声認識対
象の言葉の全体の読みのうち先頭から第2の所定の長さ
の読みにのみ対応する第2の認識語を、前記音声認識対
象の言葉の認識語として格納することを特徴とする音声
認識装置。2. The speech recognition apparatus according to claim 1, wherein said storage means stores the speech recognition target word when the entire reading of the speech recognition target word is longer than a first predetermined length. A second recognition word corresponding to only a reading of a second predetermined length from the beginning of the entire reading of the speech as a recognition word of the speech recognition target word.
とに基づき、道案内のための制御を行う制御手段とを備
えることを特徴とする音声認識ナビゲーション装置。3. A voice recognition device according to claim 1 or 2, a map information storage means for storing map information, and control for route guidance based on at least a recognition result of said voice recognition device and said map information. And a control means for performing the following.
り得られた音データと比較する音声認識用データを生成
するための音声認識対象の言葉に対応した認識語に関す
るデータであって、 音声認識対象の言葉の全体の読みに対応する第1の認識
語と、前記音声認識対象の言葉の全体の読みのうち先頭
から所定の長さの読みにのみ対応する第2の認識語と
を、双方とも前記音声認識対象の言葉の認識語とするデ
ータを記録したコンピュータ読みとり可能な記録媒体。4. In the speech recognition processing, data relating to a recognition word corresponding to a speech recognition target word for generating speech recognition data to be compared with sound data obtained by the speech input means, A first recognition word corresponding to the entire reading of the word of the word and a second recognition word corresponding only to a reading of a predetermined length from the beginning of the entire reading of the word to be speech-recognized. A computer-readable recording medium on which data used as a recognition word of the speech recognition target word is recorded.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25598299A JP2001083982A (en) | 1999-09-09 | 1999-09-09 | Speech recognition device, recording medium having data for speech recognition recorded therein and speech recognition navigation device |
EP00307745A EP1083545A3 (en) | 1999-09-09 | 2000-09-07 | Voice recognition of proper names in a navigation apparatus |
US09/659,679 US6708150B1 (en) | 1999-09-09 | 2000-09-11 | Speech recognition apparatus and speech recognition navigation apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25598299A JP2001083982A (en) | 1999-09-09 | 1999-09-09 | Speech recognition device, recording medium having data for speech recognition recorded therein and speech recognition navigation device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001083982A true JP2001083982A (en) | 2001-03-30 |
Family
ID=17286275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP25598299A Pending JP2001083982A (en) | 1999-09-09 | 1999-09-09 | Speech recognition device, recording medium having data for speech recognition recorded therein and speech recognition navigation device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001083982A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010008768A (en) * | 2008-06-27 | 2010-01-14 | Alpine Electronics Inc | Speech recognition device and speech recognition method |
WO2010100977A1 (en) | 2009-03-03 | 2010-09-10 | 三菱電機株式会社 | Voice recognition device |
JP2013195685A (en) * | 2012-03-19 | 2013-09-30 | Fuji Xerox Co Ltd | Language model generation program, language model generation device, and voice recognition apparatus |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0419700A (en) * | 1990-05-14 | 1992-01-23 | Ricoh Co Ltd | Method for matching voice pattern |
JPH0942988A (en) * | 1995-07-28 | 1997-02-14 | Mazda Motor Corp | On-vehicle map display |
-
1999
- 1999-09-09 JP JP25598299A patent/JP2001083982A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0419700A (en) * | 1990-05-14 | 1992-01-23 | Ricoh Co Ltd | Method for matching voice pattern |
JPH0942988A (en) * | 1995-07-28 | 1997-02-14 | Mazda Motor Corp | On-vehicle map display |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010008768A (en) * | 2008-06-27 | 2010-01-14 | Alpine Electronics Inc | Speech recognition device and speech recognition method |
WO2010100977A1 (en) | 2009-03-03 | 2010-09-10 | 三菱電機株式会社 | Voice recognition device |
JP2013195685A (en) * | 2012-03-19 | 2013-09-30 | Fuji Xerox Co Ltd | Language model generation program, language model generation device, and voice recognition apparatus |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6708150B1 (en) | Speech recognition apparatus and speech recognition navigation apparatus | |
US20060100871A1 (en) | Speech recognition method, apparatus and navigation system | |
JP4642953B2 (en) | Voice search device and voice recognition navigation device | |
JP4914632B2 (en) | Navigation device | |
JP2008089625A (en) | Voice recognition apparatus, voice recognition method and voice recognition program | |
JP4520555B2 (en) | Voice recognition device and voice recognition navigation device | |
JP2008076811A (en) | Voice recognition device, voice recognition method and voice recognition program | |
JP2000338993A (en) | Voice recognition device and navigation system using this device | |
JP2001083982A (en) | Speech recognition device, recording medium having data for speech recognition recorded therein and speech recognition navigation device | |
JP2002350146A (en) | Navigation device | |
JP4942406B2 (en) | Navigation device and voice output method thereof | |
US20040015354A1 (en) | Voice recognition system allowing different number-reading manners | |
KR101063607B1 (en) | Navigation system having a name search function using voice recognition and its method | |
JP4652504B2 (en) | Voice recognition device and voice recognition navigation device | |
JPH07319383A (en) | Map display device | |
JP4550207B2 (en) | Voice recognition device and voice recognition navigation device | |
US20110218809A1 (en) | Voice synthesis device, navigation device having the same, and method for synthesizing voice message | |
JP2003029778A (en) | Voice interactive interface processing method in navigation system | |
JP2005114964A (en) | Method and processor for speech recognition | |
JP2000193479A (en) | Navigation apparatus and recording medium | |
JP2005157166A (en) | Apparatus and method for speech recognition, and program | |
JP2006039954A (en) | Database retrieval system, program, and navigation system | |
JP2001306088A (en) | Voice recognition device and processing system | |
JP3706495B2 (en) | Speech synthesizer | |
JP4760200B2 (en) | Driving support device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060907 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090619 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090904 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20100212 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100427 |