JP4056546B2 - Search device, search method and database for compound nouns input by speech - Google Patents
Search device, search method and database for compound nouns input by speech Download PDFInfo
- Publication number
- JP4056546B2 JP4056546B2 JP2006130200A JP2006130200A JP4056546B2 JP 4056546 B2 JP4056546 B2 JP 4056546B2 JP 2006130200 A JP2006130200 A JP 2006130200A JP 2006130200 A JP2006130200 A JP 2006130200A JP 4056546 B2 JP4056546 B2 JP 4056546B2
- Authority
- JP
- Japan
- Prior art keywords
- beat
- search
- noun
- recognition
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、複数の単名詞で構成される複合名詞を、利用者が音声入力し、この音声入力された複合名詞を特定する複合名詞の検索装置および検索方法に関するものである。 The present invention relates to a compound noun search device and a search method in which a compound noun composed of a plurality of single nouns is inputted by a user and the compound noun inputted by voice is specified.
つまり、本発明において、検索対象となる検索語は、複数の単名詞の羅列で構成されている複合名詞であり、多数の検索語が、検索データベースに保持されている場合、音声認識処理と検索とに要する時間を利用者に感じさせることなく、しかも、音声認識処理の欠陥等による不自然な対話を利用者に生じさせることなく、検索語を特定する装置および方法に関するものである。
That is, in the present invention, the search term to be searched is a compound noun composed of a plurality of single nouns, and when a large number of search terms are held in the search database, the speech recognition process and the search are performed. The present invention relates to an apparatus and method for specifying a search term without causing the user to feel the time required for the above and without causing an unnatural conversation due to a defect in voice recognition processing or the like.
音声認識装置を利用した従来のデータベース検索処理では、ユーザが入力した音声と認識対象データベースとを照合し、認識対象データベース中の全語彙と入力音声との類似度を、認識尤度として算出する。 In a conventional database search process using a speech recognition device, a speech inputted by a user is compared with a recognition target database, and the similarity between all vocabularies in the recognition target database and the input speech is calculated as a recognition likelihood.
現在の認識技術では、対話処理実時間(検索装置と利用者とがやりとりする場合、上記利用者にストレスまたは不自然さを感じさせない時間)内に認識できる語彙数が限られ、この対話処理実時間を超える語彙数を認識対象にすると、処理時間が長くなり、利用者を待機させることになる。一方、認識対象語彙数が多ければ、また、認識対象が非常に似通った語彙で構成されていれば、人間同士の対話でさえも、聞き間違え、聞き損じが起こるように、認識精度の低下を避けることができない。 In the current recognition technology, the number of vocabulary that can be recognized within the real time of interactive processing (when the search device and the user interact, the time when the user does not feel stress or unnaturalness) is limited. If the vocabulary number exceeding the time is set as the recognition target, the processing time becomes long and the user is put on standby. On the other hand, if the number of vocabulary to be recognized is large, and if the recognition target is composed of very similar vocabularies, the recognition accuracy will be reduced so that even human dialogue may be mistaken or missed. Inevitable.
さらに、認識精度は、発話者や発話環境に大きく依存し、周囲の雑音等の影響によっては、常に100%の精度が得られるという保証はない。 Furthermore, the recognition accuracy greatly depends on the speaker and the speech environment, and there is no guarantee that 100% accuracy is always obtained depending on the influence of ambient noise and the like.
したがって、音声認識技術を利用する従来の検索装置では、利用者による入力音声を音声認識した結果の候補が、正しく認識できているか否かを判断する場合、利用者に上記候補の正誤確認を行い、認識尤度の高い順に正解が確認できるまで、上記候補の提示を繰り返す。
Therefore, in a conventional search device that uses voice recognition technology, when it is determined whether or not the candidate of the result of voice recognition of the input voice by the user is correctly recognized, the user is confirmed whether the candidate is correct or incorrect. The candidate presentation is repeated until correct answers can be confirmed in descending order of recognition likelihood.
音声認識装置を用い、所定のデータベースの中から、利用者が意図する検索語を検索し、確定する検索装置において、上記データベースを構成する検索語の数が、対話処理実時間内に処理可能な数よりも多ければ、認識処理の間、利用者を待機させ、この待機後に、認識装置が出力した候補を利用者に提示し、正誤確認を行うことによって、正しく認識できたか否かを判断する。 In a search device that uses a speech recognition device to search and determine a search term intended by a user from a predetermined database, the number of search terms constituting the database can be processed within the real time of interactive processing. If the number is greater than the number, the user is put on standby during the recognition process, and after this standby, the candidate output by the recognition device is presented to the user, and correctness is confirmed to determine whether or not the recognition has been correctly performed. .
利用者にとって、発話後に待たされ、この待たされた後に、正誤の確認を強いられることは、対話の不自然さにつながり、大きなストレスになるという問題がある。 There is a problem for the user that waiting after an utterance and being forced to confirm the correctness after this waiting leads to unnaturalness of the dialogue and causes great stress.
一方、オペレータ対応のシステムでは、聞き間違え、聞き損じが生じたとしても、自然な対話の流れの中で、自らの意図をオペレータに伝えることができるので、対話の不自然さがなく、大きなストレスは生じない。 On the other hand, in an operator-compatible system, even if a mistake is made or missed, the intention can be communicated to the operator in the course of a natural conversation. Does not occur.
音声入力された検索語を検索する検索装置において、利用者満足度を獲得するためには、オペレータ対応のように、リアルタイムに応答できること、しかも、利用者の意図を正確に把握できること、何よりも、利用者との間における自然な対話の流れの中で、利用者意図を確定することが必要である。 In a search device that searches for a search term input by voice, in order to acquire user satisfaction, it is possible to respond in real time like an operator, and moreover, it is possible to accurately grasp the intention of the user, above all, It is necessary to determine the user intention in the course of natural dialogue with the user.
本発明は、対話処理実時間内で処理可能な検索語数を超える数の複合名詞が検索データベースに登録され、しかも、互いに似通った候補が数多く存在する複合名詞が検索データベースに登録されている場合、利用者が音声入力した検索語を、短時間で効率良く検索することができる音声入力された複合名詞の検索装置、検索方法およびデータベースを提供することを目的とするものである。
In the present invention, when a compound noun exceeding the number of search words that can be processed in the real time of interactive processing is registered in the search database, and a compound noun having many similar candidates is registered in the search database, It is an object of the present invention to provide a search apparatus, a search method, and a database for a compound noun inputted by voice that can efficiently search for a search word inputted by a user in a short time.
本発明は、検索対象である文字情報である検索情報が格納されている検索情報データベースと、上記検索情報データベースに格納されている検索情報を分解して切り出された拍のうちで、上記各検索情報の先頭を構成する拍である先頭拍が、上記検索情報データベースの中で使用されている頻度順に格納され、上記先頭拍に続く拍についても、使用頻度順に格納されている拍データベースと、ユーザが検索情報を音声入力すると、上記拍データベース中の先頭拍について、上記検索情報データベースにおける使用頻度の高い拍から、優先的に認識処理する認識処理手段と、上記先頭拍を認識した結果、上記認識した先頭拍の認識スコアが第1の閾値を超えている先頭拍を有力先頭拍であると判断し、上記有力先頭拍に続く拍であって、使用頻度が高い拍から、優先的に認識処理し、有力2番目拍を抽出し、上記検索情報を構成する最後の拍まで、認識処理を繰り返す認識処理繰り返し手段と、全ての拍に対する認識処理が終了した時点で、出力された検索情報毎に、先頭拍のスコアと2番目拍のスコアとのトータルスコアを計算するトータルスコア計算手段と、上記トータルスコアが第2の閾値を超えている場合、実在検索語候補リスト中の検索語候補を所定のディスプレイに表示することによって、上記利用者との間で対話を実行し、上記検索情報を確定する対話手段とを有する音声対話型情報検索装置である。The present invention provides a search information database in which search information, which is character information to be searched, is stored, and beats extracted from the search information stored in the search information database. The first beat, which is the beat constituting the head of the information, is stored in the order of frequency used in the search information database, and the beat database that is stored in the order of frequency of use for the beat following the first beat, and the user When the search information is inputted by voice, the recognition processing means for preferentially processing the first beat in the beat database from the frequently used beats in the search information database, and the recognition result as a result of recognizing the first beat. The first beat whose first beat recognition score exceeds the first threshold is determined to be a leading first beat, and is a beat following the leading first beat, The recognition process is preferentially recognized from the high beats, the leading second beat is extracted, and the recognition process repeating means for repeating the recognition process until the last beat constituting the search information, and the recognition process for all beats are completed. A total score calculating means for calculating the total score of the first beat score and the second beat score for each search information output at the time, and if the total score exceeds the second threshold, the actual search word candidate list It is a voice interactive information search device having dialog means for executing a dialog with the user and confirming the search information by displaying the search word candidate in the predetermined display.
本発明によれば、利用者を待機させることなく、しかも、存在確率の高い検索語順に、認識結果を抽出することができるという効果を奏する。
According to the present invention, it is possible to extract recognition results in the order of search words having a high existence probability without causing the user to wait.
発明を実施するための最良の形態は、以下の実施例である。 The best mode for carrying out the invention is the following examples.
図1は、本発明の第1の実施例である音声入力された複合名詞の検索装置1を示すブロック図である。
FIG. 1 is a block diagram showing a
音声入力された複合名詞の検索装置1は、音声入力部2と、音声認識部3と、音声認識用ソフトウェア3Sと、音声認識結果出力部4と、実在検索語候補リスト作成部5と、対話制御部6と、音声出力部7と、音声出力用ソフトウェア7Sと、システムデータベース8とを有する。
The compound
音声入力された複合名詞の検索装置1において、音声入力部2を介して入力された利用者Pの音声が音声認識部3へ送られ、音声認識部3は、入力音声を音声認識処理する際に、システムデータベース8を利用する。また、音声認識部3は、利用者Pによる入力音声について、音声認識用ソフトウェア3Sを利用して、認識処理を実行する。
In the compound
システムデータベース8は、検索データベース81と、検索補助データベース82と、YES/NOデータベース83とによって構成されている。
The
検索データベース81は、複数の単名詞で構成されている複合名詞が検索語として登録され、しかも、上記検索語が各単名詞に区切られて登録されているデータベースである。
The
検索補助データベース82は、検索データベース81に登録されている全検索語を構成する単名詞が、その頻度の高い順に登録され、しかも、この頻度の高い順に登録されている単名詞が、その頻度の高い方から順に、所定の数(検索装置1では500)毎に分割されて、複数の単名詞集合群が形成されているデータベースである。
In the search
YES/NOデータベース83は、利用者Pが応答した内容(たとえば、はい/いいえ、YES/NO)を認識するデータベースである。
The YES /
音声認識用ソフトウェア3Sは、検索装置1の処理の場面に合わせて、検索データベース81または検索補助データベース82を、システムデータベース8から選択するものである。
The
検索語が音声入力されると、検索補助データベース82を参照し、また、利用者Pへの正誤確認に対する応答を認識する場合は、YES/NOデータベース83が参照される。
When the search term is inputted by voice, the search
また、音声認識部3は、音声認識処理の際に、音声認識用ソフトウェア3Sを使用し、音声出力部7は、音声出力の際に、音声出力用ソフトウェア7Sを使用する。
The
次に、検索装置1について、より具体的に説明する。
Next, the
なお、以下の説明では、企業名等、法人名義を確定するサービスの入力インタフェース部分に、音声入力された複合名詞の検索装置1が設けられている場合について説明する。
In the following description, a case will be described in which a
日本全国の電話帳に掲載されている法人名義は2200万件も存在し、2200万件の中から1つの法人名義を特定するには相当の時間がかかり、したがって、現行の音声認識技術では、対話処理実時間(検索装置と利用者Pとがやりとりする場合、上記利用者Pにストレスまたは不自然さを感じさせない時間)内で法人名義を認識処理することが不可能であり、しかも、この場合、非常に似通ったデータが多いので、認識精度が非常に低い。 There are 22 million corporate names listed in phone books across Japan, and it takes a considerable amount of time to identify one corporate name out of 22 million. Therefore, with current speech recognition technology, It is impossible to recognize and process the corporate name within the real time of dialogue processing (when the search device and the user P interact, the time when the user P does not feel stress or unnaturalness) In this case, since there are many very similar data, the recognition accuracy is very low.
図2は、検索データベース81中の法人名義が複合名詞で構成され、この複合名詞が、それを構成する単名詞毎に区切って登録されている具体例を示す図である。
FIG. 2 is a diagram showing a specific example in which the corporate name in the
検索データベース81に登録されている法人名義を構成している各名詞の頻度を調べ、単名詞を頻度順に記録し、検索補助データベース82を作成する。つまり、検索補助データベース82は、検索データベース81に登録されている法人名義を構成している各単名詞について、その頻度をカウントし、頻度順に登録してあるデータベースである。
The frequency of each noun constituting the corporate name registered in the
なお、上記2200万件の法人名義を構成する単名詞の総数は、650万種類である。 The total number of single nouns constituting the 22 million corporate names is 6.5 million.
図3は、検索装置1において、検索補助データベース82の具体例を示す図である。
FIG. 3 is a diagram showing a specific example of the
検索補助データベース82中の単名詞は、検索データベース812登録されている複合名詞を構成する単名詞であり、その使用頻度の高い順に並べられ、使用頻度が高い方から500個づつ取り出し、この500個の名詞を1つの単名詞集合群とする。
The single nouns in the
使用頻度が最も高い単名詞を含む集合群を、第1の単名詞集合群G1(他の単名詞集合群よりも優先して認識する対象である単名詞集合群)とし、その次に使用頻度が高い単名詞を含む単名詞集合群を、第2の単名詞集合群G2とし、以下、使用頻度が高い順に、第3の単名詞集合群G3、第4の単名詞集合群G4、……とする。 The set group including the single noun with the highest use frequency is set as the first single noun set group G1 (single noun set group that is a target to be recognized with priority over other single noun set groups), and then the use frequency A single noun set group including single nouns having a high value is referred to as a second single noun set group G2, and the third single noun set group G3, the fourth single noun set group G4,... And
1つの集合群を構成する名詞の数をnとすると、検索装置1では、n=500であり、この数は、次のようにして決められる。つまり、対話処理実時間(検索装置と利用者Pとがやりとりする場合、上記利用者Pにストレスまたは不自然さを感じさせない時間である)内に音声認識用ソフトウェア3Sが処理可能な単名詞の数をTとし、検索データベース81に登録されている全検索語の平均単名詞数をMとすると、n=T/Mである。
Assuming that the number of nouns constituting one set group is n, in the
具体的には、対話処理実時間内に音声認識用ソフトウェア3Sが処理可能な単名詞の数Tが1500であるとし、検索データベース81に登録されている全検索語の平均単名詞数Mが3であるとすると、n=T/M=1500/3=500である。
Specifically, the number T of single nouns that can be processed by the
なお、単名詞集合群G1、G2、G3、G4、……のそれぞれを構成する単名詞の数nは、500以外の数でもよいが、上記のように、対話処理実時間内に処理可能な単名詞の数T(音声認識用ソフトウェア3Sの性能)と、検索データベース81に登録されている検索語が有する単名詞の数の平均Mとによって定められる。
The number of single nouns constituting each single noun set group G1, G2, G3, G4,... May be a number other than 500, but can be processed within the real time of interactive processing as described above. It is determined by the number T of single nouns (the performance of the
図4は、検索装置1において、検索語を確定する処理プロセスを具体的に示すフローチャートである。
FIG. 4 is a flowchart specifically showing a processing process for determining a search word in the
この前提として、検索データベース81、検索補助データベース82が作成されているとする。
As this premise, it is assumed that a
まず、検索したい法人名義(複合名詞)を、単名詞に区切った形で音声入力するように、利用者Pに要求する(S0)。そして、単名詞集合群の順位を示す関数kを1とする。 First, the user P is requested to input the name of a corporation (compound noun) to be searched in a form divided into single nouns (S0). A function k indicating the rank of the single noun set group is set to 1.
ここで、複合名詞「横須賀/市民/病院」が検索語として音声入力された場合について考える。まず、音声入力された単名詞「横須賀」、「市民」、「病院」のそれぞれについて、第1の単名詞集合群G1を使用し、音声認識部3が認識処理を行う(S1)。つまり、第1の単名詞集合群G1の範囲内で、音声認識部3が認識処理を行う。そして、音声認識結果出力部4が、その認識結果を出力する。
Consider the case where the compound noun “Yokosuka / Citizen / Hospital” is input as a search term by voice. First, for each of the nouns “Yokosuka”, “Citizen”, and “Hospital” inputted by voice, the
音声入力された単名詞「横須賀」、「市民」、「病院」のうちで、単名詞「横須賀」、「病院」は、第1の単名詞集合群G1に含まれているが、「市民」の頻度順位は、図3に示すように、頻度順位790位であるので、第1の単名詞集合群G1には含まれ図、第2の単名詞集合群G2に含まれている。 Among the single nouns “Yokosuka”, “Citizens”, and “Hospitals” inputted by voice, the single nouns “Yokosuka” and “Hospital” are included in the first single noun set group G1, but “Citizens” As shown in FIG. 3, the frequency rank is 790, so it is included in the first single noun set group G1 and included in the second single noun set group G2.
図5は、検索装置1において、音声入力された検索語(複合名詞)を構成する各単名詞に対する認識結果と、その認識尤度とが対応している認識結果リストの具体例を示す図である。
FIG. 5 is a diagram showing a specific example of a recognition result list in which the recognition result for each single noun constituting the search word (compound noun) input by speech and the recognition likelihood correspond to each other in the
1つの単名詞が音声入力されると、この音声入力された単名詞に対する複数の構成名詞候補と、これら複数の構成名詞候補のそれぞれに対する認識尤度とを、音声認識結果出力部4が出力し、この出力された構成名詞候補と認識尤度とを対応させて、認識結果リストを作成する(S1)。このようにして作成された認識結果リストが、図5に示されている。
When one single noun is input by speech, the speech recognition
たとえば、単名詞「横須賀」を音声入力すると、この入力された音声を、音声認識部3が、図5に示すように、「横須賀」、「横浜」、「須加浜」、「横横」、……と認識し、「横須賀」の認識尤度が97であり、「横浜」の認識尤度が90であり、「須加浜」の認識尤度が89であり、「横横」の認識尤度が80である。
For example, when the simple noun “Yokosuka” is input by speech, the
なお、構成名詞候補についての認識尤度は、検索データベース81を作るときに、予め定められている。
Note that the recognition likelihood for the constituent noun candidates is determined in advance when the
ここで、認識尤度が所定の閾値以上である構成名詞候補を、有力構成名詞候補とする。なお、検索装置1では、上記所定の閾値を80とする。つまり、認識尤度が80以上である構成名詞候補が、有力構成名詞候補である。
Here, a constituent noun candidate having a recognition likelihood equal to or greater than a predetermined threshold is set as a dominant constituent noun candidate. In the
そして、図5に示す各認識結果から、認識尤度が80以上である単名詞を、有力構成名詞候補として選択する(S2)。 And from each recognition result shown in FIG. 5, the single noun whose recognition likelihood is 80 or more is selected as a leading constituent noun candidate (S2).
図5に示すように、音声入力された単名詞「横須賀」については、「横須賀」、「横浜」、「須加浜」、「横々」の4候補が有力構成名詞候補として選択され、音声入力された単名詞「市民」ついては、「市立」の1つの候補が有力構成名詞候補として選択され、音声入力された単名詞「病院」については、「病院」、「美容院」の2候補が有力構成名詞候補として選択される。これら有力構成名詞候補を利用し、実在検索語候補リストを作成する(S3)。なお、実在検索語候補リストは、検索データベース81に実在する検索語のうちで、利用者Pに提示し、確認を求める検索語の候補を集めたリストである。
As shown in FIG. 5, with respect to the single noun “Yokosuka” input as speech, four candidates “Yokosuka”, “Yokohama”, “Sukahama”, and “Yokosana” are selected as probable constituent noun candidates and input as speech For the single noun “Citizen”, one candidate of “City” was selected as a probable constituent noun candidate, and for the single noun “Hospital” input by voice, two candidates “Hospital” and “Beauty Salon” are prominent Selected as a noun candidate. Using these influential constituent noun candidates, an actual search word candidate list is created (S3). The actual search word candidate list is a list of search word candidates that are presented to the user P and requested to be checked among the search words actually existing in the
ところで、補助データベース82における単名詞「市民」の頻度順位は、図2に示すように、790位であるので、第1の単名詞集合群G1には、単名詞「市民」が含まれていない。したがって、図5に示す「市民」に対する認識結果には、単名詞「市民」が含まれていない。
By the way, since the frequency ranking of the single noun “citizen” in the
図6は、検索装置1において、実在検索語候補リスト作成の様子を示す図である。
FIG. 6 is a diagram showing how the
図5に示す認識結果のうちで認識尤度が80以上である単名詞を組み合わせた場合、この組み合わせのうちで、検索データベース81に登録されている単名詞の組み合わせは、「横須賀/市立/病院」と「横浜/市立/病院」との2つの組み合わせであり、この2つの組み合わせが、検索データベース81に実在する検索語候補である実在検索語候補として選択される。このようにして選択された実在検索語候補をリスト化すると、図6の下部に示す実在検索語候補リストが作成される(S3)。
When a single noun with a recognition likelihood of 80 or more is combined among the recognition results shown in FIG. 5, the combination of single nouns registered in the
検索装置1において、検索語認識尤度は、図6に示すように、各単名詞の認識尤度を加算したものである。なお、検索語認識尤度を算出する場合、各単名詞の認識尤度を乗算するようにしてもよい。
In the
そして、実在検索語候補リストの中に、利用者Pによる確認処理のみで検索語を確定することができる条件を満たす候補が存在する否かを、判断する(S21)。 Then, it is determined whether or not there exists a candidate in the real search word candidate list that satisfies a condition capable of determining the search word only by the confirmation process by the user P (S21).
ここで、検索語認識尤度の閾値が予め定められ、所定の検索語候補の検索語認識尤度が、検索語認識尤度の閾値を越えていれば、その検索語候補は、利用者Pによる確認処理のみで検索語を確定することができる条件を満たしていると判断する。なお、検索装置1においては、上記検索語認識尤度の閾値が270であると定められているとする。
Here, if a threshold value of the search word recognition likelihood is determined in advance and the search word recognition likelihood of the predetermined search word candidate exceeds the threshold value of the search word recognition likelihood, the search word candidate is determined to be the user P It is determined that the condition for determining the search term is satisfied only by the confirmation process by the above. In the
そして、検索語候補を利用者Pにディスプレイ等で提示し、確認を求め(S22)、利用者PがYESの応答をすれば(S23)、検索処理を終了する。 Then, the search word candidate is presented to the user P on a display or the like, and confirmation is requested (S22). If the user P responds YES (S23), the search process is terminated.
図6に示す実在検索語候補リスト中の検索語候補は、それらのどれも、検索語認識尤度の閾値270を越えないので、図6に示す実在検索語候補リスト中の検索語候補は、全て、利用者Pによる確認処理のみでは検索語を確定することができない。 Since none of the search word candidates in the real search word candidate list shown in FIG. 6 exceeds the threshold 270 of the search word recognition likelihood, the search word candidates in the real search word candidate list shown in FIG. In all cases, the search term cannot be determined only by the confirmation process by the user P.
このように検索語を確定することができない場合に備えて、第2の単名詞集合群G2の範囲で単名詞の認識、認識尤度の算出等の処理を、予め実行しておく。すなわち、検索語候補を利用者Pにディスプレイ等で提示し、確認を求める処理(S22)および利用者Pによる応答(S23)と並行して、第2の単名詞集合群G2の範囲で単名詞の認識、認識尤度の算出(S12)、有力構成名詞候補の再選出(S13)、実在検索語候補リストの更新(S14)を実行する。 In preparation for the case where the search term cannot be determined in this way, processing such as recognition of single nouns and calculation of recognition likelihood is performed in advance within the range of the second single noun set group G2. That is, in the range of the second single noun set group G2, a single noun is presented in parallel with the process of presenting search word candidates to the user P on a display or the like and requesting confirmation (S22) and the response by the user P (S23). Recognition, likelihood calculation (S12), re-selection of potential constituent noun candidates (S13), and update of the actual search word candidate list (S14).
つまり、まず、単名詞集合群の順位を示す関数kを1インクリメントし(S11)、k=2とし、認識処理が終了した第1の単名詞集合群G1の次に使用頻度が高い第2の単名詞集合群G2(頻度順位が500位〜1,000位である単名詞によって構成されている単名詞集合群)の範囲で、認識し、この認識結果を利用し、有力構成名詞候補の再抽出を試みる(S12、S13、S14)。 That is, first, the function k indicating the rank of the single noun set group is incremented by 1 (S11), k = 2, and the second most frequently used next to the first single noun set group G1 for which the recognition process is completed. Recognize in the range of the single noun set group G2 (single noun set group composed of single nouns having frequency ranks from 500 to 1,000), and use this recognition result to Extraction is attempted (S12, S13, S14).
図4に示すフローチャートにおいて、ステップS3の後に、ステップ21に進むルートとは別に、ステップS11に進むルートが破線で示されている。これは、ステップS21〜S23のルーチンと、ステップS11〜S15のルーチンとが並行処理されるという意味である。つまり、第1の単名詞集合群G1について利用者Pとの対話処理(S21〜S23)が実行されている間に、第2の単名詞集合群G2について、有力構成名詞候補の再選出、実在検索語候補リストの更新等(S11〜S15)が実行される。 In the flowchart shown in FIG. 4, after step S <b> 3, the route to step S <b> 11 is indicated by a broken line separately from the route to step 21. This means that the routine of steps S21 to S23 and the routine of steps S11 to S15 are processed in parallel. That is, while the dialogue process (S21 to S23) with the user P is being executed for the first single noun set group G1, re-selection and real existence of influential constituent noun candidates for the second single noun set group G2. The search word candidate list is updated (S11 to S15).
また、その後に、必要であれば、第2の単名詞集合群G2について利用者Pとの対話処理(S21〜S23)が実行されている間に、第3の単名詞集合群G3について、有力構成名詞候補の再選出、実在検索語候補リストの更新等(S11〜S15)が実行され、さらに、第3の単名詞集合群G3について利用者Pとの対話処理(S21〜S23)が実行されている間に、第4の単名詞集合群G4について、有力構成名詞候補の再選出、実在検索語候補リストの更新等(S11〜S15)が実行される。これらの並行処理が、必要に応じて、さらに繰り返される。 After that, if necessary, while the dialogue processing (S21 to S23) with the user P is being executed for the second single noun set group G2, the third single noun set group G3 is influential. Reselection of constituent noun candidates, update of the actual search word candidate list, etc. (S11 to S15) are executed, and further, dialogue processing with the user P (S21 to S23) is executed for the third single noun set group G3. In the meantime, for the fourth single noun set group G4, re-selection of probable constituent noun candidates, update of the actual search word candidate list, etc. (S11 to S15) are executed. These parallel processes are further repeated as necessary.
図7は、検索装置1において、更新された認識結果リストの具体例を示す図である。
FIG. 7 is a diagram illustrating a specific example of the updated recognition result list in the
図7では、第2の単名詞集合群G2の範囲で認識された認識結果が追加され、有力構成名詞候補が更新されたリストが示されている。 FIG. 7 shows a list in which recognition results recognized in the range of the second single noun set group G2 are added, and influential constituent noun candidates are updated.
なお、図2に示すように、補助データベース82における単名詞「市民」の頻度順位は、790位であるので、第2の単名詞集合群G2に単名詞「市民」が含まれ、したがって、図7に示す更新された認識結果リストには、音声入力された単名詞「市民」に対する認識結果の中に、有力構成名詞候補として、「市民」が含まれている。
As shown in FIG. 2, since the frequency ranking of the single noun “citizen” in the
図8は、検索装置1において、実在検索語候補リストを作成する処理を実行した結果、得られる実在検索語候補リストを示す図である。
FIG. 8 is a diagram illustrating the actual search word candidate list obtained as a result of executing the process of creating the actual search word candidate list in the
実在検索語候補リストを作成する処理を実行した結果、図8に示す実在検索語候補リストが得られ、上記閾値270を越える検索語認識尤度を有している検索語候補は、「横須賀/市民/病院」、「横浜/市民/病院」であり、これらのうちの「横須賀/市民/病院」について、利用者Pに提示し、その正誤確認を行う(S22)。 As a result of executing the process of creating the real search word candidate list, the real search word candidate list shown in FIG. 8 is obtained, and the search word candidates having the search word recognition likelihood exceeding the threshold value 270 are “Yokosuka / “Citizen / Hospital” and “Yokohama / Citizen / Hospital”. Of these, “Yokosuka / Citizen / Hospital” is presented to the user P and the correctness is confirmed (S22).
正誤確認において、利用者Pから肯定を示す応答(YES)が得られると(S23)、検索語が確定されたものとして処理を終了する。 In a right / wrong confirmation, if a response (YES) indicating affirmation is obtained from the user P (S23), the process is terminated as if the search word has been confirmed.
ところで、音声認識対象語彙数が大規模であり、しかも、似通った語彙が多い場合、従来の音声認識技術では認識処理時間が長くなるので、従来例では、利用者Pが音声入力した検索語を、その利用者Pにストレスを与えずに一定時間内で検索することは、非常に困難であり、また、認識装置の精度の低下が避けられない。 By the way, when the number of vocabulary for speech recognition is large and there are many similar vocabularies, the conventional speech recognition technology takes a long recognition processing time. It is very difficult to search within a certain time without giving stress to the user P, and the accuracy of the recognition apparatus is inevitably lowered.
そこで、検索装置1では、検索対象(検索語)を、単名詞の羅列からなる複合名詞だけに限定し、単名詞で1つづつ区切って、検索語を入力するように利用者Pに指示し、利用者Pが入力した各単名詞について、検索語を構成する単名詞を使用頻度順に保持している検索補助データベース82を認識対象として認識処理する。この点が、検索装置1の特徴である。
Therefore, the
検索データベース81に登録されている検索語の総数よりも、検索補助データベース82に登録されている単名詞の総数が少ないことが期待されるが、検索補助データベース82に登録されている単名詞の総数は、対話処理実時間内で処理不可能な数である場合が多い。このように、検索補助データベース82に登録されている単名詞の総数が、対話処理実時間内で処理不可能な数であり、しかも、検索補助データベース82に登録されている単名詞を一度に処理しようとすれば、利用者Pを待機させざるを得ない。
Although it is expected that the total number of single nouns registered in the search
そこで、検索装置1では、検索補助データベース82中の単名詞を、使用頻度順に並べ、これを、対話処理実時間内で処理可能な一定の所定数づつに分割して、複数の単名詞集合群を構成し、使用頻度の高い単名詞順に認識処理を行い、各単名詞集合群に対する認識結果を検索語候補選定対話する時間に、残りの単名詞集合群に対する認識処理を行う。これによって、1つの検索語について1回目の検索語候補選定対話が終わると、直ちに、2回目の検索語候補選定対話が行われ、必要ならば、3回目、4回目、……の検索語候補選定対話が引き続いておこなわれるので、利用者Pを待機させる暇がない。
Therefore, the
すわなち、検索装置1の内部の処理状況を利用者Pが一切見ることができないので、あたかも、検索データベース81に登録されている検索語を一括して認識処理を行っているかのように見える。
In other words, since the user P cannot see the processing status inside the
また、検索装置1によれば、各単名詞に対する認識結果から、有力構成名詞候補を選択し、これら選択された有力構成名詞候補の全組み合わせの中から、検索データベース81に実在する検索語候補のみを選択し、利用者Pによる確認処理のみで確定できる条件を満たすと判断できる検索語候補を、利用者Pに提示をする。したがって、検索装置1では、存在確率が高い検索語順に、認識結果を抽出することができる。
Moreover, according to the
すなわち、検索装置1では、1回で認識処理する単名詞の数を絞ることによって、利用者Pを待機させることがなく、しかも、使用される頻度の高い単名詞から順に、認識処理することによって、存在確率が高い検索語順に、認識結果を抽出することができる。
That is, in the
換言すれば、検索装置1では、音声認識を利用して複合名詞を検索する場合、認識対象が大多数であることから生じる認識処理時間の長さを利用者Pに感じさせず、誤認識によって正誤確認の繰り返しを余儀なくさせることによるストレスを、利用者Pに感じさせず、しかも、高精度な自然性を備えている。
In other words, in the
図9は、検索装置1における検索データベース81を一般的に示す図である。
FIG. 9 is a diagram generally showing a
検索データベース81は、対話処理実時間内で音声認識処理が不可能な数の検索語を保持し、各検索語は、単名詞に分割された形で登録されている。
The
つまり、たとえば検索語である複合名詞N1は、単名詞n1、n2、n3によって構成され、検索データベース81には、複合名詞N1として、単名詞n1、n2、n3が、単名詞毎に区切られた状態で登録されている。
That is, for example, a compound noun N 1 that is a search word is configured by single nouns n 1 , n 2 , and n 3 , and the
図10は、検索補助データベース82を一般的に示す図である。
FIG. 10 is a diagram generally showing the
検索補助データベース82は、検索データベース81に登録されている全検索語を構成する各単名詞の使用頻度をそれぞれ算出し、単名詞を頻度順に並べた状態で登録しているデータベースである。
The search
検索補助データベース82が登録している単名詞の数は、検索データベース81の検索語数よりも少ないことが予想されるが、対話処理実時間内には処理不可能な数で構成される。
Although the number of single nouns registered in the search
検索補助データベース82では、頻度が高い順に単名詞が並べられ(序列化し)、予め定められた対話処理実時間内に処理可能な単名詞の数づつ、単名詞を分割し(単名詞の上記序列を分割し)、単名詞集合群を形成した状態で登録されている。最も頻度の高い単名詞を含む単名詞集合群を、第1の単名詞集合群G1という。
In the
また、検索装置1を、記録媒体の発明として把握することができる。
Further, the
つまり、検索装置1は、複数の単名詞で構成されている複合名詞が検索語として登録され、しかも、上記検索語が各単名詞に区切られて登録されている検索データベースを作成する検索データベース作成手順と、上記検索データベースに登録されている全検索語を構成する単名詞が、その頻度の高い順に登録され、しかも、この頻度の高い順に登録されている単名詞が、その頻度の高い方から順に、所定の数毎に分割されて、複数の単名詞集合群が形成されている検索補助データベースを作成する検索補助データベース作成手順と、利用者Pが上記検索語を単名詞毎に入力すると、上記入力された単名詞毎に、上記複数の単名詞集合群のうちで、最も頻度が高い単名詞を含む第1の単名詞集合群の範囲内で認識処理し、認識尤度を対応させて、認識結果リストを作成する認識結果リスト作成手順と、上記認識処理された単名詞である構成名詞候補と、上記構成名詞候補についての認識尤度との組が認識尤度順に並べられている認識結果リストを、上記音声入力された単名詞のそれぞれついて作成し、上記認識結果リストに記載されている構成名詞候補のうちで、所定の閾値を超える認識尤度を具備する構成名詞候補を、有力構成名詞候補として選出する有力構成名詞候補選出手順と、上記有力構成名詞候補の全組み合わせの中から、上記検索データベースに実在する検索語のみを選択し、各有力構成名詞候補の認識尤度に所定の演算を行い、検索語認識尤度を算出し、この算出された検索語認識尤度の大きい順に並べた実在検索語候補リストを作成する実在検索語候補リスト作成手順と、上記実在検索語候補リスト中の検索語候補が、利用者Pによる確認処理のみで検索語を特定することができる条件を満たす場合は、上記利用者Pとの間で必要な対話を実行し、検索語を確定する検索語候補選定対話手順とをコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体の例である。
That is, the
なお、上記記録媒体として、FD、CD、DVD、HD、半導体メモリ等が考えられる。 As the recording medium, FD, CD, DVD, HD, semiconductor memory, and the like are conceivable.
なお、商品配送サービスや、電話番号検索や郵便番号検索等における入力インタフェース部分において、検索装置1で行った法人名義の確定作業を、幅広く適用することができる。
In addition, in the input interface part in the product delivery service, telephone number search, postal code search, etc., the corporate name determination work performed by the
図11は、本発明の第2の実施例である音声入力された複合名詞の検索装置101を示すブロック図である。 FIG. 11 is a block diagram showing a compound noun search device 101 with speech input according to the second embodiment of the present invention.
音声入力された複合名詞の検索装置101は、音声入力部102と、音声認識部103と、音声認識用ソフトウェア103Sと、音声認識結果出力部104と、実在検索語候補リスト作成部105と、対話制御部106と、音声出力部107と、音声出力用ソフトウェア107Sと、システムデータベース108とを有する。
The compound noun search device 101 input by speech includes a
音声入力された複合名詞の検索装置101において、音声入力部102を介して入力された利用者Pの音声が音声認識部103へ送られ、音声認識部103は、入力音声を音声認識処理する際に、システムデータベース108を利用する。また、音声認識部103は、利用者Pによる入力音声について、音声認識用ソフトウェア103Sを利用して、認識処理を実行する。
In the compound noun search device 101 input by voice, the voice of the user P input via the
システムデータベース108は、検索データベース181と、検索補助データベース182と、YES/NOデータベース183とによって構成されている。
The
検索データベース181は、複数の単名詞で構成されている複合名詞が検索語として登録され、しかも、上記検索語が各単名詞に区切られて登録されているデータベースである。
The
検索補助データベース182は、登録されている各複合名詞のn番目(nは整数値)に表記されている単名詞を集めた群を、n番目表記の単名詞集合群と呼び、上記n番目表記の単名詞集合群が、その頻度の高い順に登録され、しかも、この頻度の高い順に登録されている単名詞が、その頻度の高い方から順に、所定の数(第2の実施例では500個)毎にまとめられ、複数のサブ集合群が形成されている検索補助データベースである。
The search
YES/NOデータベース183は、利用者Pが応答した内容(たとえば、はい/いいえ、YES/NO)を認識するデータベースである。
The YES /
音声認識用ソフトウェア103Sは、検索装置101の処理の場面に合わせて、検索データベース181または検索補助データベース182を、システムデータベース108から選択するものである。
The
検索語が音声入力されると、検索補助データベース182を参照し、また、利用者Pへの正誤確認に対する応答を認識する場合は、YES/NOデータベース183が参照される。
When the search term is inputted by voice, the search
また、音声認識部103は、音声認識処理の際に、音声認識用ソフトウェア103Sを使用し、音声出力部107は、音声出力の際に、音声出力用ソフトウェア107Sを使用する。
The voice recognition unit 103 uses the
次に、第2の実施例について、より具体的に説明する。 Next, the second embodiment will be described more specifically.
なお、以下の説明では、企業名等、法人名義を確定するサービスの入力インタフェース部分に、音声入力された複合名詞の検索装置101が設けられている場合について説明する。 In the following description, a case will be described in which a search device 101 for compound nouns input by voice is provided in the input interface portion of a service for determining a corporate name such as a company name.
日本全国の電話帳に掲載されている法人名義は2200万件も存在し、2200万件の中から1つの法人名義を、入力した音声に基づいて、特定するには相当の時間がかかり、したがって、現行の音声認識技術では、対話処理実時間(検索装置と利用者Pとがやりとりする場合、上記利用者Pにストレスまたは不自然さを感じさせない時間)内で法人名義を認識処理することが不可能であり、しかも、この場合、非常に似通ったデータが多いので、認識精度が非常に低い。 There are as many as 22 million corporate names listed in phone books across Japan, and it takes a considerable amount of time to identify one corporate name out of 22 million based on the input voice. In the current speech recognition technology, the corporate name can be recognized and processed within the real time of dialogue processing (when the search device and the user P interact, the time when the user P does not feel stress or unnaturalness). In this case, the recognition accuracy is very low because there are many very similar data.
図12は、第2の実施例において、検索データベース181中の法人名義が複合名詞で構成され、この複合名詞が、それを構成する単名詞毎に区切って登録されている具体例を示す図である。
FIG. 12 is a diagram showing a specific example in which the corporate name in the
検索データベース181に登録されている法人名義を構成している各名詞の頻度を調べ、単名詞を頻度順に記録し、検索補助データベース182を作成する。
The frequency of each noun constituting the corporate name registered in the
なお、上記2200万件の法人名義を構成する単名詞の総数は、650万種類である。また、法人名義2,200万件を構成する名詞のうち、1番目表記の単名詞(法人名義中の第1単語目に位置する単名詞)の総数は、約360万種類であり、2番目表記の単名詞(法人名義中の第2単語目に位置する単名詞)の総数は、約250万種類であり、3番目表記の単名詞(法人名義中の第3単語目に位置する単名詞)の総数は、約270万種類であり、4番目表記の単名詞(法人名義中の第4単語目に位置する単名詞)の総数は、約100万種類、…(最長構成単語数7)であり、対話処理実時間内では、1つの複合名詞に対する各単名詞の認識処理は不可能であり、精度も低いことが予想される。 The total number of single nouns constituting the 22 million corporate names is 6.5 million. In addition, the total number of single nouns (single nouns located in the first word in the corporate name) of nouns constituting 22 million corporate names is about 3.6 million. The total number of single nouns (single nouns located in the second word in the corporate name) is about 2.5 million, and the third single noun (single noun located in the third word in the corporate name) ) Is about 2.7 million types, and the total number of single nouns in the fourth notation (single noun located in the fourth word in the corporate name) is about 1 million types, ... (the maximum number of constituent words is 7) In the real time of dialogue processing, it is impossible to recognize each single noun with respect to one compound noun, and it is expected that the accuracy is low.
図13は、第2の実施例において、検索補助データベース182に格納されているデータの具体例を示す図である。
FIG. 13 is a diagram showing a specific example of data stored in the
検索補助データベース182中の単名詞は、検索データベース181に登録されている複合名詞を構成する単名詞であり、複合名詞における表記の順番毎に、単名詞集合群が形成されている。複合名詞における表記の順番が最初である単名詞だけを集めて、1番目表記の単名詞集合群Ga1が形成され、1番目表記の単名詞集合群Ga1において、その使用頻度の高い順に単名詞が登録され、しかも、これら登録されている単名詞が、その頻度の高い方から順に、500個の単名詞毎にまとめられ、複数のサブ集合群が形成され、頻度の高い順に、第1サブ集合群Ga1−1、第2サブ集合群Ga1−2、……、第mサブ集合群Ga1−mが形成されている。
Single nouns in the search
なお、使用頻度が最も高い単名詞を含む第1サブ集合群Ga1−1は、他のサブ集合群Ga1−2〜Ga1−mよりも優先して認識する対象である。 The first subset group Ga1-1 including the single noun having the highest use frequency is a target to be recognized with priority over the other subset groups Ga1-2 to Ga1-m.
また、複合名詞における表記の順番が2番目である単名詞だけを集めて、2番目表記の単名詞集合群Ga2が形成され、2番目表記の単名詞集合群Ga2において、その使用頻度の高い順に単名詞が登録され、しかも、これら登録されている単名詞が、その頻度の高い方から順に、500個の単名詞毎にまとめられ、複数のサブ集合群が形成され、頻度の高い順に、第1サブ集合群Ga2−1、第2サブ集合群Ga2−2、……、第mサブ集合群Ga2−mが形成されている。 Further, only the single nouns with the second notation order in the compound nouns are collected to form the second notation single noun set group Ga2, and the second noun single noun set group Ga2 is used in descending order of frequency of use. Single nouns are registered, and these registered single nouns are grouped in units of 500 single nouns in descending order of their frequency, and a plurality of sub-set groups are formed. One sub-set group Ga2-1, second sub-set group Ga2-2,..., M-th sub-set group Ga2-m are formed.
なお、使用頻度が最も高い単名詞を含む第1サブ集合群Ga2−1は、他のサブ集合群Ga2−2〜Ga2−mよりも優先して認識する対象である。 The first subset group Ga2-1 including the single noun having the highest use frequency is a target to be recognized with priority over the other subset groups Ga2-2 to Ga2-m.
以下、上記と同様に、複合名詞における表記の順番がn番目である単名詞だけを集めて、n番目表記の単名詞集合群Ganが形成され、n番目表記の単名詞集合群Ganにおいて、その使用頻度の高い順に単名詞が登録され、しかも、これら登録されている単名詞が、その頻度の高い方から順に、500個の単名詞毎にまとめられ、複数のサブ集合群が形成され、頻度の高い順に、第1サブ集合群Gan1、第2サブ集合群Gan2、……、第nサブ集合群Gan−mが形成されている。 Hereinafter, in the same manner as described above, only the single nouns in which the order of the notation in the compound noun is n-th are collected to form the noun single-noun set group Gan. Single nouns are registered in descending order of frequency of use, and the registered single nouns are grouped in units of 500 single nouns in order from the highest frequency to form a plurality of sub-set groups. The first sub-set group Gan1, the second sub-set group Gan2,..., The n-th sub-set group Gan-m are formed in descending order.
なお、使用頻度が最も高い単名詞を含む第1サブ集合群Gan−1は、他のサブ集合群Gan−2〜Gn−mよりも優先して認識する対象である。 The first subset group Gan-1 including the single noun having the highest use frequency is a target to be recognized with priority over the other subset groups Gan-2 to Gn-m.
ところで、1つのサブ集合群を構成する名詞の数をNとすると、第2の実施例では、N=500であり、この数は、次のようにして決められる。つまり、対話処理実時間(検索装置と利用者Pとがやりとりする場合、上記利用者Pにストレスまたは不自然さを感じさせない時間である)内に音声認識用ソフトウェア103Sが処理可能な単名詞の数をTとし、検索データベース181に登録されている全検索語の平均単名詞数をMとすると、N=T/Mである。
By the way, when the number of nouns constituting one sub-set group is N, in the second embodiment, N = 500, and this number is determined as follows. That is, a single noun that can be processed by the
具体的には、対話処理実時間内に音声認識用ソフトウェア103Sが処理可能な単名詞の数Tが1500であるとし、検索データベース181に登録されている全検索語の平均単名詞数Mが3であるとすると、N=T/M=1500/3=500である。
Specifically, it is assumed that the number T of single nouns that can be processed by the
なお、各サブ集合群Ga1−1〜Gan−mのそれぞれを構成する単名詞の数Nは、500以外の数でもよいが、上記のように、対話処理実時間内に処理可能な単名詞の数T(音声認識用ソフトウェア103Sの性能)と、検索データベース181に登録されている検索語が有する単名詞の数の平均Mとによって定められる。
The number N of single nouns constituting each of the sub-groups Ga1-1 to Gan-m may be other than 500, but as described above, the single nouns that can be processed within the interactive processing real time. It is determined by the number T (performance of the
図14は、第2の実施例において、検索語を確定する処理プロセスを具体的に示すフローチャートである。 FIG. 14 is a flowchart specifically showing a processing process for determining a search term in the second embodiment.
この前提として、検索データベース181、検索補助データベース182が作成されているとする。
As this premise, it is assumed that a
まず、検索したい法人名義(複合名詞)を、単名詞に区切った形で音声入力するように、利用者Pに要求する(S100)。そして、検索語である複合名詞に関する各単名詞集合群におけるサブ集合群の関数(サブ集合群の順位を示す関数)kを1とする。つまり、サブ集合群の関数k=1であれば、複数のサブ集合群のうちで、サブ集合群Ga1−1、Ga2−1、Ga3−1、……を使用して、各単名詞が認識される。 First, the user P is requested to input the name of the corporation (compound noun) to be searched in a form divided into single nouns (S100). Then, the function k of the sub-group in each single-noun group related to the compound noun that is the search word (function indicating the rank of the sub-group) is set to 1. That is, if the function k = 1 of the subset group, each single noun is recognized using the subset groups Ga1-1, Ga2-1, Ga3-1,... Among the plurality of subset groups. Is done.
ここで、複合名詞「横浜/グランド/ホテル」が検索語として音声入力された場合について考える。 Consider the case where the compound noun “Yokohama / Grand / Hotel” is input as a search term by voice.
まず、音声入力された単名詞「横浜」、「グランド」、「ホテル」のそれぞれについて、1番目表記の単名詞集合群Ga1中の第1サブ集合群Ga1−1、2番目表記の単名詞集合群Ga2中の第1サブ集合群Ga2−1、3番目表記の単名詞集合群Ga3中の第1サブ集合群Ga3−1を使用し、音声認識部103が認識処理を行う(S101)。つまり、音声入力された単名詞「横浜」について、第1サブ集合群Ga1−1の範囲内で認識処理し、音声入力された単名詞「グランド」について、第1サブ集合群Ga2−1の範囲内で認識処理し、音声入力された単名詞「ホテル」について、第1サブ集合群Ga3−1の範囲内で認識処理する。そして、音声認識結果出力部104が、その認識結果を出力する。
First, for each of the nouns “Yokohama”, “Grand”, and “Hotel” inputted by speech, the first sub-noun group Ga1-1 and the second-noun single noun set in the first-noun single noun set group Ga1 The speech recognition unit 103 performs a recognition process using the first sub-set group Ga2-1 in the group Ga2 and the first sub-set group Ga3-1 in the third-named single noun set group Ga3 (S101). That is, the single noun “Yokohama” input by speech is recognized within the range of the first sub-set group Ga1-1, and the range of the first sub-set group Ga2-1 is determined for the single noun “Grand” input by speech. The single noun “hotel” input by voice recognition is recognized and processed within the range of the first sub-set group Ga 3-1. Then, the speech recognition
音声入力された単名詞「横浜」、「グランド」、「ホテル」のうちで、単名詞「横浜」は、図13に示すように、第1サブ集合群Ga1−1に含まれ、単名詞「ホテル」も、第1サブ集合群Ga3−1に含まれているとする。しかし、単名詞「グランド」の頻度順位は、図13に示すように、頻度順位951位であるので、第1サブ集合群Ga2−1には含まれず、第2サブ集合群Ga2−2に含まれている。 Of the single nouns “Yokohama”, “Grand”, and “Hotel” input by voice, the single noun “Yokohama” is included in the first sub-group G 1-1 as shown in FIG. It is assumed that “hotel” is also included in the first sub-group G <b> 3-1. However, as shown in FIG. 13, the frequency rank of the single noun “Grand” is the frequency rank 951, so it is not included in the first subset group Ga2-1 and included in the second subset group Ga2-2. It is.
図15は、第2の実施例において、音声入力された検索語(複合名詞)を構成する各単名詞に対する認識結果と、その認識尤度とが対応している認識結果リストの具体例を示す図である。 FIG. 15 shows a specific example of a recognition result list in which the recognition results for the single nouns constituting the search words (compound nouns) inputted by speech are associated with the recognition likelihoods in the second embodiment. FIG.
1つの単名詞が音声入力されると、この音声入力された単名詞に対する複数の構成名詞候補と、これら複数の構成名詞候補のそれぞれに対する認識尤度とを、音声認識結果出力部104が出力し、この出力された構成名詞候補と認識尤度とを対応させて、認識結果リストを作成する(S101)。このようにして作成された認識結果リストが、図15に示されている。
When one single noun is input by speech, the speech recognition
たとえば、単名詞「横浜」を音声入力すると、この入力された音声を、音声認識部103が、図15に示すように、「横浜」、「横須賀」、「横山」、「横山」、……と認識し、「横浜」の認識尤度が95であり、「横須賀」の認識尤度が90であり、「横溝」の認識尤度が81であり、「横山」の認識尤度が75である。 For example, when the single noun “Yokohama” is input by voice, the voice recognition unit 103 inputs the input voice as shown in FIG. 15 as “Yokohama”, “Yokosuka”, “Yokoyama”, “Yokoyama”,. The recognition likelihood of “Yokohama” is 95, the recognition likelihood of “Yokosuka” is 90, the recognition likelihood of “Yokomizo” is 81, and the recognition likelihood of “Yokoyama” is 75. is there.
なお、各単名詞についての認識尤度は、その単名詞が音声入力されたときに、音声認識装置3Sが、個々に判断する。
Note that the recognition likelihood for each single noun is individually determined by the
ここで、認識尤度が所定の閾値以上である構成名詞候補を、有力構成名詞候補とする。なお、第2の実施例では、上記所定の閾値を80とする。つまり、認識尤度が80以上である構成名詞候補が、有力構成名詞候補である。上記所定の閾値が80であることは、データベース81、82を作るときに、予め設定されている。
Here, a constituent noun candidate having a recognition likelihood equal to or greater than a predetermined threshold is set as a dominant constituent noun candidate. In the second embodiment, the predetermined threshold is 80. That is, a constituent noun candidate having a recognition likelihood of 80 or more is a dominant constituent noun candidate. That the predetermined threshold is 80 is set in advance when the
そして、図15に示す各認識結果から、認識尤度が80以上である単名詞を、有力構成名詞候補として選択する(S102)。 And from each recognition result shown in FIG. 15, the single noun whose recognition likelihood is 80 or more is selected as an influential constituent noun candidate (S102).
図15に示すように、音声入力された単名詞「横浜」については、「横浜」、「横須賀」、「横溝」の3候補が有力構成名詞候補として選択され、音声入力された単名詞「グランド」ついては、有力構成名詞候補として選択されたものがなく、音声入力された単名詞「ホテル」については、「ホテル」、「ホール」の2候補が有力構成名詞候補として選択される。 As shown in FIG. 15, with respect to the single noun “Yokohama” inputted by speech, three candidates “Yokohama”, “Yokosuka”, and “Yokomizo” are selected as potential constituent noun candidates, and the single noun “Grand” "Is not selected as a prominent constituent noun candidate, and for the single noun" hotel "input by speech, two candidates" hotel "and" hall "are selected as prominent constituent noun candidates.
そして、これら有力構成名詞候補を利用し、実在検索語候補リストを作成する(S103)。なお、実在検索語候補リストは、検索データベース181に実在する検索語のうちで、利用者Pに提示し、確認を求める検索語の候補を集めたリストである。
Then, an actual search word candidate list is created using these potential constituent noun candidates (S103). The actual search word candidate list is a list of search word candidates that are presented to the user P and asked for confirmation among the search words existing in the
ところで、2番目表記の単名詞「グランド」の頻度順位は、補助データベース82に格納されている2番目表記の単名詞集合群Ga2において、図12に示すように、951位であるので、2番目表記の単名詞集合群Ga2の第1サブ集合群Ga2−1には、単名詞「グランド」が含まれていない。よって、図15に示す音声入力された単名詞「グランド」に対する認識結果には、単名詞「グランド」が含まれていない。
By the way, the frequency ranking of the second noun single noun “Grand” is ranked 951 in the second noun single noun set group Ga2 stored in the
したがって、実在検索語候補リストを作成するステップ(S103)では、実在検索語候補リストが作成されない。 Therefore, in the step (S103) of creating the actual search word candidate list, the actual search word candidate list is not created.
そして、確認処理のみで検索語特定可能な条件を満たさないので(S121)、サブ集合群の関数kを1インクリメントし(S111)、検索対象のサブ集合群が、Ga1−2、Ga2−2、Ga3−1になり、音声入力された各単名詞について、新たな集合群Ga2−2を使用して、認識し、認識尤度を算出する(S112)。そして、新たに認識した認識結果を追加した状態で(更新された認識結果リストを使用して)、有力構成名詞候補を再選出し(S113)、実在検索語候補リストを更新する(S114)。 Since the condition for specifying the search word is not satisfied only by the confirmation process (S121), the function k of the subset group is incremented by 1 (S111), and the subset group to be searched is Ga1-2, Ga2-2, Each single noun that becomes Ga3-1 and is input by speech is recognized using the new set group Ga2-2, and the recognition likelihood is calculated (S112). Then, with the newly recognized recognition result added (using the updated recognition result list), the potential constituent noun candidates are re-selected (S113) and the actual search word candidate list is updated (S114).
図16は、第2の実施例において、更新された認識結果リストの具体例を示す図である。 FIG. 16 is a diagram illustrating a specific example of the updated recognition result list in the second embodiment.
図16では、第2サブ集合群Ga1−2、Ga2−2、Ga3−2の範囲で認識された認識結果が追加され、有力構成名詞候補が更新されたリストが示されている。 FIG. 16 shows a list in which recognition results recognized in the range of the second subset group Ga1-2, Ga2-2, and Ga3-2 are added, and influential constituent noun candidates are updated.
なお、図13に示すように、補助データベース82において、2番目表記の単名詞集合群Ga2における単名詞「グランド」の頻度順位は、951位であるので、第2サブ集合群Ga2−2に単名詞「グランド」が含まれ、したがって、図16に示す更新された認識結果リストには、音声入力された単名詞「グランド」に対する認識結果の中に、有力構成名詞候補として、「グランド」が含まれている。
As shown in FIG. 13, in the
図17は、第2の実施例において、実在検索語候補リスト作成の様子を示す図である。 FIG. 17 is a diagram showing how a real search word candidate list is created in the second embodiment.
有力構成名詞候補を選出できなかった音声入力単名詞「グランド」におけるサブ集合群を新たにして、認識し、この認識結果のうちで認識尤度が80以上である単名詞を組み合わせ、この組み合わせのうちで、検索データベース181に登録されている単名詞の組み合わせは、図17に示すように、「横浜/グランド/ホテル」と「横浜/ゴールド/ホール」との2つの組み合わせであり、この2つの組み合わせが、検索データベース181に実在する検索語候補である実在検索語候補として選択される。このようにして選択された実在検索語候補について、実在検索語候補リストを作成すると、図17の下部に示す実在検索語候補リストが更新される(S114)。
Recognize a new sub-set group in the speech input single noun “Grand” that could not select influential constituent noun candidates, and combine single nouns with a recognition likelihood of 80 or more among the recognition results. Among them, combinations of single nouns registered in the
第2の実施例において、検索語認識尤度は、図17に示すように、各単名詞の認識尤度を加算したものである。なお、検索語認識尤度を算出する場合、各単名詞の認識尤度を乗算するようにしてもよい。 In the second embodiment, the search word recognition likelihood is obtained by adding the recognition likelihood of each single noun as shown in FIG. When calculating the search word recognition likelihood, the recognition likelihood of each single noun may be multiplied.
そして、実在検索語候補リストの中に、利用者Pによる確認処理のみで検索語を確定することができる条件を満たす候補が存在する否かを、判断する(S121)。 Then, it is determined whether or not there exists a candidate in the real search word candidate list that satisfies a condition that can determine the search word only by the confirmation process by the user P (S121).
ここで、検索語認識尤度の閾値が予め定められ、所定の検索語候補の検索語認識尤度が、検索語認識尤度の閾値を越えていれば、その検索語候補は、利用者Pによる確認処理のみで検索語を確定することができる条件を満たしていると判断する。なお、第2の実施例においては、上記検索語認識尤度の閾値が280であると定められているとする。 Here, if a threshold value of the search word recognition likelihood is determined in advance and the search word recognition likelihood of the predetermined search word candidate exceeds the threshold value of the search word recognition likelihood, the search word candidate is determined to be the user P It is determined that the condition for determining the search term is satisfied only by the confirmation process by the above. In the second embodiment, it is assumed that the threshold for the search word recognition likelihood is 280.
そして、検索語候補を利用者Pにディスプレイ等で提示し、確認を求め(S122)、利用者PがYESの応答をすれば(S123)、検索処理を終了する。 Then, the search word candidate is presented to the user P on a display or the like, confirmation is requested (S122), and if the user P responds YES (S123), the search process is terminated.
図17に示す実在検索語候補リスト中の検索語候補のうちで1つの候補が、検索語認識尤度の閾値280以上であるという条件を満たすので、図17に示す実在検索語候補リスト中の検索語候補は、利用者Pによる確認処理のみで検索語を確定することができる。 Since one candidate among the search word candidates in the real search word candidate list shown in FIG. 17 satisfies the condition that the search word recognition likelihood threshold value is 280 or more, the candidate in the real search word candidate list shown in FIG. Search word candidates can be determined by only the confirmation process by the user P.
もし、実在検索語候補リスト中の検索語候補のいずれも、検索語認識尤度の閾値280以上であるという条件を満たしていなければ、それら実在検索語候補リスト中の検索語候補は、全て、利用者Pによる確認処理のみでは検索語を確定することができない。 If none of the search word candidates in the real search word candidate list satisfies the condition that the search word recognition likelihood threshold value is 280 or more, all the search word candidates in the real search word candidate list are The search term cannot be determined only by the confirmation process by the user P.
このように検索語を確定することができない場合に備えて、第3サブ集合群Ga1−3、G2−3、G3−3の範囲で単名詞の認識、認識尤度の算出等の処理を、予め実行しておく。すなわち、検索語候補を利用者Pにディスプレイ等で提示し、確認を求める処理(S122)および利用者Pによる応答(S123)と並行して、第3サブ集合群Ga1−3、Ga2−3、Ga3−3の範囲で単名詞の認識、認識尤度の算出(S112)、有力構成名詞候補の再選出(S113)、実在検索語候補リストの更新(S114)を実行する。 In preparation for the case where the search term cannot be determined in this manner, processing such as recognition of a single noun and calculation of recognition likelihood in the range of the third subset group Ga1-3, G2-3, G3-3, Perform in advance. In other words, in parallel with the process of presenting the search word candidate to the user P on the display and requesting confirmation (S122) and the response by the user P (S123), the third subset group Ga1-3, Ga2-3, In the range of Ga3-3, recognition of single nouns, calculation of recognition likelihood (S112), re-selection of potential constituent noun candidates (S113), and update of the actual search word candidate list (S114) are executed.
つまり、サブ集合群の順位を示す関数kをさらに1インクリメントし(S111)、k=3とし、認識処理が終了した第2サブ集合群の次に使用頻度が高い第3サブ集合群Ga1−3、Ga2−3、Ga3−3(頻度順位が1001位〜1,500位である単名詞によって構成されているサブ集合群Ga1−3、Ga2−3、Ga3−3の範囲で、認識し、この認識結果を利用し、有力構成名詞候補の再抽出を試みる(S112、S113、S114)。 That is, the function k indicating the order of the subset group is further incremented by 1 (S111), k = 3, and the third subset group Ga1-3 having the second highest usage frequency after the second subset group after the recognition process is completed. , Ga2-3, Ga3-3 (recognized in the range of sub-groups Ga1-3, Ga2-3, Ga3-3 composed of single nouns with frequency ranks of 1001 to 1,500, Using the recognition result, reextraction of probable constituent noun candidates is attempted (S112, S113, S114).
図14に示すフローチャートにおいて、ステップS3の後に、ステップ21に進むルートとは別に、ステップS111に進むルートが破線で示されている。これは、ステップS121〜S123のルーチンと、ステップS111〜S115のルーチンとが並行処理されるという意味である。 In the flowchart shown in FIG. 14, after step S <b> 3, the route to step S <b> 1111 is indicated by a broken line separately from the route to step 21. This means that the routine of steps S1 21 to S123 and the routine of steps S111 to S115 are processed in parallel.
つまり、第1サブ集合群Ga1−1、Ga2−1、Ga3−1について利用者Pとの対話処理(S121〜S123)が実行されている間に、第2サブ集合群Ga1−2、Ga2−2、Ga3−2について、有力構成名詞候補の再選出、実在検索語候補リストの更新等(S111〜S115)が実行される。
That is, while the dialogue processing (S121 to S123) with the user P is being performed on the first sub-groups Ga1-1, Ga2-1, Ga3-1, the second sub-groups Ga1-2, Ga2-
また、その後に、必要であれば、第2サブ集合群Ga1−2、Ga2−2、Ga3−2について利用者Pとの対話処理(S121〜S123)が実行されている間に、第3サブ集合群Ga1−3、Ga2−3、Ga3−3について、有力構成名詞候補の再選出、実在検索語候補リストの更新等(S111〜S115)が実行され、さらに、第3サブ集合群Ga1−3、Ga2−3、Ga3−3について利用者Pとの対話処理(S121〜S123)が実行されている間に、第4サブ集合群Ga1−4、Ga2−4、Ga3−4について、有力構成名詞候補の再選出、実在検索語候補リストの更新等(S111〜S115)が実行される。これらの並行処理が、必要に応じて、さらに繰り返される。 After that, if necessary, the third sub-group G1-2, Ga2-2, Ga3-2, while the dialog processing (S121 to S123) with the user P is being executed, For the set groups Ga1-3, Ga2-3, Ga3-3, re-selection of influential constituent noun candidates, update of the actual search word candidate list, etc. (S111 to S115) are executed, and further, the third sub-set group Ga1-3 , Ga2-3, Ga3-3, while the dialogue process (S121-S123) with the user P is being executed, the prominent constituent nouns for the fourth subset group Ga1-4, Ga2-4, Ga3-4 Re-selection of candidates, update of the actual search word candidate list, etc. (S111 to S115) are executed. These parallel processes are further repeated as necessary.
ところで、音声認識対象語彙数が大規模であり、しかも、似通った語彙が多い場合、従来の音声認識技術では認識処理時間が長くなるので、従来例では、利用者Pが音声入力した検索語を、その利用者Pにストレスを与えずに一定時間内で検索することは、非常に困難であり、また、認識装置の精度の低下が避けられない。 By the way, when the number of vocabulary for speech recognition is large and there are many similar vocabularies, the conventional speech recognition technology takes a long recognition processing time. It is very difficult to search within a certain time without giving stress to the user P, and the accuracy of the recognition apparatus is inevitably lowered.
そこで、第2の実施例では、検索対象(検索語)を、単名詞の羅列からなる複合名詞だけに限定し、単名詞で1つづつ区切って、検索語を入力するように利用者Pに指示し、利用者Pが入力した各単名詞について、上記複合名詞において表記されている位置毎に、単名詞集合群が形成され、しかも、上記単名詞集合群毎に、その頻度の高い順に登録され、この頻度の高い順に登録されている複数の単名詞が、その頻度の高い方から順に、所定の数毎にまとめられ、複数のサブ集合群が形成されている検索補助データベースとを有するデータベースを利用して、利用者が音声入力した複合名詞を検索するものである。 Therefore, in the second embodiment, the search target (search term) is limited to only a compound noun consisting of a single noun sequence, and the user P is requested to input the search term by separating the single noun one by one. For each single noun entered and entered by the user P, a single noun set group is formed for each position described in the compound noun, and the single noun set group is registered in descending order of frequency. A database having a plurality of single nouns registered in order from the highest frequency and a search assisting database in which a plurality of sub-set groups are formed in order from the highest frequency in a predetermined number. Is used to search for compound nouns input by the user.
上記のように、複合名詞における単名詞の位置に応じて、単名詞毎に、単名詞集合群が形成され、この単名詞集合群が、複数のサブ集合群に分割され、そのうちで、使用頻度が高い単名詞が含まれているものから、認識する点が、第2の実施例の特徴である。 As described above, a single noun set group is formed for each single noun according to the position of the single noun in the compound noun, and this single noun set group is divided into a plurality of sub-set groups, of which the frequency of use The feature of the second embodiment is that the single noun is recognized because it contains a high noun.
検索データベース181に登録されている検索語の総数よりも、検索補助データベース182に登録されている単名詞の総数が少ないことが期待されるが、検索補助データベース182に登録されている単名詞の総数は、対話処理実時間内で処理不可能な数である場合が多い。このように、検索補助データベース182に登録されている単名詞の総数が、対話処理実時間内で処理不可能な数であり、しかも、検索補助データベース182に登録されている単名詞を一度に処理しようとすれば、利用者Pを待機させざるを得ない。
Although it is expected that the total number of single nouns registered in the search
そこで、第2の実施例では、検索補助データベース182中の単名詞を、使用頻度順に並べ、これを、対話処理実時間内で処理可能な一定の所定数づつに分割して、複数のサブ集合群を構成し、使用頻度の高い単名詞順に認識処理を行い、各サブ集合群に対する認識結果を検索語候補選定対話する時間に、残りのサブ集合群に対する認識処理を行う。これによって、1つの検索語について1回目の検索語候補選定対話が終わると、直ちに、2回目の検索語候補選定対話が行われ、必要ならば、3回目、4回目、……の検索語候補選定対話が引き続いて行われるので、利用者Pを待機させる暇がない。
Therefore, in the second embodiment, the single nouns in the search
すなわち、検索装置101の内部の処理状況を利用者Pが一切見ることができないので、あたかも、検索データベース181に登録されている検索語を一括して認識処理を行っているかのように見える。
That is, since the user P cannot see the processing status inside the search device 101, it looks as if the search terms registered in the
また、第2の実施例によれば、各単名詞に対する認識結果から、有力構成名詞候補を選択し、これら選択された有力構成名詞候補の全組み合わせの中から、検索データベース181に実在する検索語候補のみを選択し、利用者Pによる確認処理のみで確定できる条件を満たすと判断できる検索語候補を、利用者Pに提示をする。したがって、第2の実施例では、存在確率が高い検索語順に、認識結果を抽出することができる。
Further, according to the second embodiment, a powerful constituent noun candidate is selected from the recognition result for each single noun, and a search word that exists in the
すなわち、第2の実施例では、1回で認識処理する単名詞の数を絞ることによって、利用者Pを待機させることがなく、しかも、使用される頻度の高い単名詞から順に、認識処理することによって、存在確率が高い検索語順に、認識結果を抽出することができる。 In other words, in the second embodiment, by reducing the number of single nouns to be recognized at a time, the user P is not put on standby, and the recognition processes are performed in order from the most frequently used single noun. Thus, recognition results can be extracted in the order of search terms having a high existence probability.
換言すれば、第2の実施例では、音声認識を利用して複合名詞を検索する場合、認識対象が大多数であることから生じる認識処理時間の長さを利用者Pに感じさせず、誤認識によって正誤確認の繰り返しを余儀なくさせることによるストレスを、利用者Pに感じさせず、しかも、高精度な自然性を備えている。 In other words, in the second embodiment, when searching for compound nouns using speech recognition, the length of the recognition processing time resulting from the majority of recognition targets is not perceived by the user P. The user P does not feel the stress caused by the necessity of repeating correct / incorrect confirmation through recognition, and has high-precision naturalness.
ところで、複合名詞「横浜/グランド/ホテル」の2番目表記の単名詞(複合名詞における2番目の単名詞)である「グランド」は、全検索語を構成する単名詞の全てを頻度順に並べた場合、2,450番目に位置するので、検索データベース181に格納されている全ての単名詞をその使用頻度順に並べて、500単語ずつの単名詞について認識処理すると、上位から5つ目の500単語の組に初めて出現することになる。この場合、少なくとも、認識処理と実在検索語リスト作成処理とを5回繰り返すことになり、その過程において、検索語認識尤度が規定閾値を超える実在検索語候補が存在した場合は、利用者への提示が行われることになり、利用者Pが違和感を抱く。ところが、第2の実施例では、「横浜/グランド/ホテル」の2番目表記の単名詞(複合名詞における2番目の単名詞)である「グランド」は、2番目表記の単名詞集合群Ga2では、頻度順位が951番目であるので、認識処理と実在検索語リスト作成処理とを2回実行すれば、検索語を確定することができ、利用者Pは違和感を抱かない。
By the way, “Grand”, which is the second single noun of the compound noun “Yokohama / Grand / Hotel” (the second single noun in the compound noun), arranges all the single nouns constituting all search words in order of frequency. In this case, since it is located at the 2,450th position, when all the single nouns stored in the
また、第2の実施例を、記録媒体の発明として把握することができる。 Further, the second embodiment can be grasped as an invention of a recording medium.
つまり、第2の実施例は、複数の単名詞で構成されている複合名詞が検索語として登録され、しかも、上記検索語が各単名詞に区切られて登録されている検索データベースを作成する検索データベース作成手順と、上記登録されている各複合名詞のn番目(nは整数値)に表記されている単名詞の群を、n番目表記の単名詞集合群と呼び、上記n番目表記の単名詞集合群が、その頻度の高い順に登録され、しかも、この頻度の高い順に登録されている単名詞が、その頻度の高い方から順に、所定の数毎にまとめられ、複数のサブ集合群が形成されている検索補助データベースを作成する検索補助データベース作成手順と、利用者が上記検索語である複合語を単名詞毎に入力すると、上記複合名詞のn番目表記の単名詞については、上記n番目表記の単名詞集合群で認識し、しかも上記n番目表記の単名詞集合群のうちで、最も頻度が高い単名詞を含む第1サブ集合群の範囲内で認識処理し、認識尤度を対応させて、認識結果リストを作成する認識結果リスト作成手順と、上記認識処理された単名詞である構成名詞候補と、上記構成名詞候補についての認識尤度との組が認識尤度順に並べられている認識結果リストを、上記音声入力された単名詞のそれぞれついて作成し、上記認識結果リストに記載されている構成名詞候補のうちで、所定の閾値を超える認識尤度を具備する構成名詞候補を、有力構成名詞候補として選出する有力構成名詞候補選出手順と、上記有力構成名詞候補の全組み合わせの中から、上記検索データベースに実在する検索語のみを選択し、各有力構成名詞候補の認識尤度に所定の演算を行い、検索語認識尤度を算出し、この算出された検索語認識尤度の大きい順に並べた実在検索語候補リストを作成する実在検索語候補リスト作成手順と、上記実在検索語候補リスト中の検索語候補が、利用者による確認処理のみで検索語を特定することができる条件を満たす場合は、上記利用者との間で必要な対話を実行し、検索語を確定する検索語候補選定対話手順とをコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体の例である。
That is, the second embodiment creates a search database in which compound nouns composed of a plurality of single nouns are registered as search terms, and the search terms are registered by being divided into single nouns. A group of simple nouns described in the database creation procedure and the nth (n is an integer value) of each registered compound noun is referred to as an nth single noun set group. Noun set groups are registered in descending order of frequency, and single nouns registered in order of increasing frequency are grouped into a predetermined number in order from the highest frequency. A search auxiliary database creation procedure for creating a formed search auxiliary database, and when a user inputs a compound word that is the search word for each single noun, the n noun of the compound noun Th Recognized by the single noun set group described above, and the recognition process is performed within the range of the first sub-set group including the single noun set group with the highest frequency among the above-mentioned single noun set groups. The recognition result list creation procedure for creating the recognition result list, the constituent noun candidates that are the recognized single nouns, and the recognition likelihood for the constituent noun candidates are arranged in the order of recognition likelihood. A recognition result list for each of the single nouns input by speech, and among the constituent noun candidates described in the recognition result list, the constituent noun candidates having a recognition likelihood exceeding a predetermined threshold are selected. , Select only the search words that exist in the search database from all possible combinations of the powerful constituent noun candidates and the probable constituent noun candidate selection procedure to be selected as the dominant constituent noun candidates, Performing a predetermined operation on the cognitive likelihood, calculating a search word recognition likelihood, and creating a real search word candidate list arranged in descending order of the calculated search word recognition likelihood; and If the search word candidate in the real search word candidate list satisfies the condition that the search word can be specified only by the confirmation process by the user, a necessary dialogue is executed with the user, and the
ここで、上記記録媒体として、FD、CD、DVD、HD、半導体メモリ等が考えられる。 Here, FD, CD, DVD, HD, semiconductor memory, etc. can be considered as the recording medium.
なお、商品配送サービスや、電話番号検索や郵便番号検索等における入力インタフェース部分において、第2の実施例で行った法人名義の確定作業を、幅広く適用することができる。 It should be noted that the corporate name determination work performed in the second embodiment can be widely applied to the input interface portion in the product delivery service, telephone number search, postal code search, and the like.
図18は、本発明の第3の実施例である音声入力された複合名詞の検索装置201を示すブロック図である。 FIG. 18 is a block diagram showing a search device 201 for compound nouns inputted by speech according to the third embodiment of the present invention.
音声入力された複合名詞の検索装置201は、音声入力部202と、音声認識部203と、音声認識用ソフトウェアを使用する音声認識装置203Sと、音声認識結果出力部204と、音声認識結果リスト作成部204aと、実在検索語候補リスト作成部205と、対話制御部206と、音声出力部207と、音声出力用ソフトウェアを使用する音声出力装置207Sと、システムデータベース208とを有する。
The compound noun search device 201 input by voice includes a
音声入力された複合名詞の検索装置201において、音声入力部202を介して入力された利用者210の音声が音声認識部203へ送られ、音声認識部203は、入力音声を音声認識処理する際に、システムデータベース208を利用する。また、音声認識部203は、利用者210による入力音声について、音声認識装置203Sにおける音声認識用ソフトウェアを利用して、認識処理を実行する。
In the compound noun search device 201 input by voice, the voice of the
システムデータベース208は、検索データベース281と、順序順序検索補助データベース282と、逆順検索補助データベース283と、YES/NOデータベース284とによって構成されている。
The system database 208 includes a
検索データベース281は、複数の単名詞で構成されている複合名詞が検索語として登録され、しかも、上記検索語が各単名詞に区切られて登録されているデータベースである。
The
順序検索補助データベース282は、検索データベース281に登録されている各複合名詞のn番目(nは整数値)に位置する単名詞の集合であるn単語目に位置する単名詞集合が、登録されているデータベースであり、上記n単語目に位置する単名詞集合に属する単名詞が、使用頻度の高い単名詞順にしかも所定数(たとえば500)毎に分割されることによって、複数のn番目の単名詞サブ集合が構成されている。
In the order search auxiliary database 282, a single noun set located in the nth word, which is a set of single nouns located in the nth (n is an integer value) of each compound noun registered in the
逆順検索補助データベース283は、検索データベース281に登録されている各複合名詞の逆順m単語目(mは整数値)に位置する単名詞の集合である逆順m単語目に位置する単名詞集合が、登録されているデータベースであり、上記逆順m単語目に位置する単名詞集合に属する単名詞が、使用頻度の高い単名詞順にしかも所定数毎に分割されることによって、複数の逆順m単語目の単名詞サブ集合が構成されている。
The reverse search
YES/NOデータベース284は、利用者210が応答した内容(たとえば、はい/いいえ、YES/NO)を認識するデータベースである。
The YES /
音声認識装置203Sで使用される音声認識用ソフトウェアは、検索装置201の処理の場面に合わせて、検索データベース281、順序検索補助データベース282または逆順検索補助データベース283を、システムデータベース208から選択するものである。
The speech recognition software used in the
検索語が音声入力されると、順序検索補助データベース282または逆順検索補助データベース283を参照し、また、利用者210への正誤確認に対する応答を認識する場合は、YES/NOデータベース284が参照される。
When the search term is inputted by voice, the order search auxiliary database 282 or the reverse order search
音声認識部203は、音声認識処理する際に、音声認識用ソフトウェア203Sを使用し、音声出力部207は、音声出力する際に、音声出力用ソフトウェア7Sを使用する。
The
なお、以下の説明では、企業名等、法人名義を確定するサービスの入力インタフェース部分に、音声入力された複合名詞の検索装置201が設けられている場合について説明する。 In the following description, a case will be described in which a speech noun search device 201 is provided in an input interface portion of a service for determining a corporate name such as a company name.
ところで、日本全国の電話帳に掲載されている法人名義は2200万件も存在し、2200万件の中から1つの法人名義を特定するには相当の時間がかかり、したがって、現行の音声認識技術では、対話処理実時間(検索装置201と利用者210とがやりとりする場合、上記利用者210にストレスまたは不自然さを感じさせない時間)内で法人名義を認識処理することが不可能であり、しかも、この場合、非常に似通ったデータが多いので、認識精度が非常に低い。
By the way, there are as many as 22 million corporate names listed in Japan's telephone directory, and it takes a considerable amount of time to identify one corporate name out of 22 million. Then, it is impossible to recognize and process the corporate name within the real time of dialogue processing (when the search device 201 and the
図19は、複合名詞の検索装置201において、検索データベース281中の法人名義が複合名詞で構成され、この複合名詞が、それを構成する単名詞毎に区切って登録されている具体例を示す図である。
FIG. 19 is a diagram showing a specific example in which the corporate name in the
検索データベース281に登録されている法人名義を構成している各名詞の頻度を調べ、単名詞を頻度順に記録し、順序検索補助データベース282を作成する。つまり、順序検索補助データベース282は、検索データベース281に登録されている法人名義を構成している各単名詞について、その頻度をカウントし、頻度順に登録してあるデータベースである。
The frequency of each noun constituting the corporate name registered in the
なお、上記2200万件の法人名義を構成する単名詞の総数は、650万種類である。 The total number of single nouns constituting the 22 million corporate names is 6.5 million.
音声認識部203は、利用者210が、検索語を単名詞毎に区切って音声入力すると、音声入力された複合名詞における1単語目に位置する単名詞(最初から1つ目の単名詞)、2単語目に位置する単名詞(最初から2つ目の単名詞)、……の順で、認識処理を実行するとともに、音声入力された複合名詞における逆順1単語目に位置する単名詞(最後から1つ目の単名詞)、逆順2単語目に位置する単名詞(最後から2つ目の単名詞)、……の順で、認識処理を実行する部分である。
When the
音声認識結果出力部204は、認識結果を音声認識結果リスト作成部204aへ送る部分である。
The voice recognition
音声認識結果リスト作成部204aは、順序検索補助データベース282を使用した場合における認識結果と、逆順検索補助データベース283を使用した場合における認識結果とを、単名詞毎に、音声認識装置203Sが算出した認識尤度を利用してマージし、認識結果リストを作成し、実在検索語候補リスト作成部205へ送る部分である。
The speech recognition result
この時点で、順序検索補助データベース282、逆順検索補助データベース283の中に、まだ認識処理が終了していない単名詞が存在する場合には、音声認識部203は、使用頻度が次に高い単名詞によって構成される単名詞の集合の範囲で認識処理を再びスタートさせ、音声認識結果出力部204は、認識結果を出力し、音声認識結果リスト作成部204aへ送り、認識結果リストを作成し、実在検索語候補リスト作成部205へ送る処理を繰り返す。
At this time, if there is a single noun for which recognition processing has not been completed yet in the order search auxiliary database 282 and reverse order search
実在検索語候補リスト作成部205は、認識結果に基づいて、有力構成名詞候補を選択し、有力構成名詞候補の全ての組み合わせを作成し、検索データベース281を参照しながら、実在する検索語を抽出した実在検索語候補リスト作成し、対話制御部206へ送る部分である。
The real search word candidate
対話制御部206は、実在検索語候補リストを参照し、実在検索語候補リスト中の検索語候補が、利用者210との確認処理のみで検索語特定可能な所定の条件を満たす場合は、確認処理ガイダンスの出力命令を音声出力部207へ送るものである。
The
実在検索語候補リスト中の検索語候補が、利用者210との確認処理のみでは検索語特定可能な条件を満たさない場合は、使用頻度が次に高い単名詞の集合について認識処理し、この認識処理結果が得られた有力構成名詞候補を利用して更新実在検索語候補リストを利用し、検索語候補選定対話の実行を繰り返す。
If the search word candidate in the actual search word candidate list does not satisfy the condition for specifying the search word only by the confirmation process with the
音声出力部207は、確認処理ガイダンス出力命令を受けると、検索語候補と指定された候補の正誤確認を、利用者210に行うガイダンスを出力する。
When the
そして、確認処理ガイダンスに対する応答が、音声入力部202に再び入力されると、音声認識部203は、YES/NOデータベース284を参照し、利用者210の応答を認識し、音声認識結果出力部11が認識結果を出力し、利用者210から肯定を表す応答が得られると、検索語特定が完了した旨を利用者210ヘガイダンスする命令を、対話制御部206が音声出力部207へ送る。
When a response to the confirmation processing guidance is input again to the
検索語が特定できるまで、実在検索語候補リストの更新と、検索語候補選定対話とを繰り返し、順序検索補助データベース282と逆順検案補助データベース283とに格納されている全ての単名詞の集合に対する認識処理が終了し、実在検索語候補リストの更新が、これ以上不可能な状態になった時点で、対話制御部206は、実在検索語候補リストの上位から、検索語候補を利用者210に提示するガイダンス出力命令を音声出力部207へ送る。
Until the search terms are identified, the updating of the actual search word candidate list and the search word candidate selection dialogue are repeated, and recognition of a set of all single nouns stored in the order search auxiliary database 282 and the reverse order check plan
検索装置201は、実在検索語候補リストの更新と検索語候補選定対話とが行われている間に、優先認識対象以外の単名詞のうちの少なくとも1集合に対して、認識処理が終了しているように、上記1集合を構成する単名詞の数を規定する。 The search device 201 completes the recognition process for at least one set of single nouns other than the priority recognition target while the actual search word candidate list is updated and the search word candidate selection dialogue is performed. As described above, the number of single nouns constituting the one set is defined.
次に、複合名詞の検索装置201における検索語確定の処理プロセスについて具体的に説明する。 Next, a processing process for determining a search word in the compound noun search apparatus 201 will be specifically described.
図20は、複合名詞の検索装置201における順序検索補助データベース282の具体例を示す図である。 FIG. 20 is a diagram illustrating a specific example of the order search auxiliary database 282 in the compound noun search apparatus 201.
順序検索補助データベース282に格納されている複数の単名詞は、n単語目に位置する単名詞集合Gbnに分割され、つまり、1単語目に位置する単名詞集合Gb1と、2単語目に位置する単名詞集合Gb2と、3単語目に位置する単名詞集合Gb3と、……に分類されている。 The plurality of single nouns stored in the order search auxiliary database 282 are divided into a single noun set Gbn located at the nth word, that is, a single noun set Gb1 located at the first word and a second word. The single noun set Gb2, the single noun set Gb3 located in the third word, and so on are classified.
また、n単語目に位置する単名詞集合に属する単名詞が、使用頻度の高い単名詞順に500個毎に分割されることによって、複数のn番目の単名詞サブ集合が構成され、つまり、1単語目に位置する単名詞集合Gb1は、使用頻度の高い単名詞順に500個毎に、単名詞サブ集合Gb1−1と、単名詞サブ集合Gb1−2と、単名詞サブ集合Gb1−3と、……に分割され、2単語目に位置する単名詞集合Gb2は、使用頻度の高い単名詞順に500個毎に、単名詞サブ集合Gb2−1と、単名詞サブ集合Gb2−2と、単名詞サブ集合Gb2−3と、……に分割されている。 In addition, a single noun belonging to a single noun set located in the nth word is divided into 500 single nouns in order of frequency of use, thereby forming a plurality of nth single noun sub-sets. The single noun set Gb1 located in the word includes a single noun sub-set Gb1-1, a single-noun sub-set Gb1-2, a single-noun sub-set Gb1-3, for every 500 single nouns in order of frequency of use. .., And the single noun set Gb2 located in the second word is divided into a single noun sub-set Gb2-1, a single noun sub-set Gb2-2, It is divided into sub-sets Gb2-3, and so on.
なお、上記分割する場合における数cとして、複合名詞の検索装置201では、500を設定しているが、上記分割する場合の数cは、使用する音声認識装置203Sの性能によって規定される。
In the compound noun search apparatus 201, 500 is set as the number c in the case of the division, but the number c in the case of the division is defined by the performance of the
図21は、複合名詞の検索装置201における逆順検索補助データベース283の具体例を示す図である。
FIG. 21 is a diagram showing a specific example of the reverse search
逆順検索補助データベース283に格納されている複数の単名詞は、逆順m単語目に位置する単名詞集合Gbmに分割されている。つまり、音声入力された複合名詞における逆順1単語目に位置する単名詞(最後から1つ目の単名詞)の集合である逆順単名詞集合H1と、音声入力された複合名詞における逆順2単語目に位置する単名詞(最後から2つ目の単名詞)の集合である逆順単名詞集合H2と、音声入力された複合名詞における逆順3単語目に位置する単名詞(最後から3つ目の単名詞)の集合である逆順単名詞集合H3と、……に分類されている。
A plurality of single nouns stored in the reverse search
また、逆順m単語目に位置する単名詞集合に属する単名詞が、使用頻度の高い単名詞順に500個毎に分割されることによって、複数の逆順m単語目に位置する逆順単名詞サブ集合が構成され、つまり、逆順1単語目に位置する逆順単名詞集合H1は、使用頻度の高い単名詞順に500個毎に、逆順単名詞サブ集合H1−1と、逆順単名詞サブ集合H1−2と、逆順単名詞サブ集合H1−3と、……に分割され、逆順2単語目に位置する逆順単名詞集合H2は、使用頻度の高い単名詞順に500個毎に、逆順単名詞サブ集合H2−1と、逆順単名詞サブ集合H2−2と、逆順単名詞サブ集合H2−3と、……に分割されている。 In addition, the single noun belonging to the single noun set located in the reverse m-th word is divided into 500 single nouns in descending order of frequency of use, so that the reverse single noun sub-set located in the multiple reverse m-words is obtained. The reverse single noun set H1 that is configured, that is, located in the reverse first word, is divided into the reverse single noun sub-set H1-1, reverse single noun sub-set H1-2, , The reverse single noun sub-set H1-3,... And the reverse single noun set H2 located in the second reverse reverse word is the reverse single noun sub-set H2- 1, a reverse single noun sub-set H2-2, a reverse single noun sub-set H2-3, and so on.
なお、上記分割する場合における数cとして、複合名詞の検索装置201では、500を設定しているが、上記分割する場合の数cは、使用する音声認識装置203Sの性能によって規定される。
In the compound noun search apparatus 201, 500 is set as the number c in the case of the division, but the number c in the case of the division is defined by the performance of the
図22は、複合名詞の検索装置201における検索語確定の処理プロセスを示すフローチャートである。 FIG. 22 is a flowchart showing a process for determining a search word in the compound noun search apparatus 201.
まず、利用者210は、検索目的である法人名義を、単名詞に区切って音声入力する(S200)。複合名詞の検索装置201では「横須賀/セントラル/ホテル」が検索語として入力された場合について考える。
First, the
ここで、複合名詞を構成する単名詞が、その複数名詞において何単語目に位置するかを示す変数nとして、「1」を設定し、そのn単語目に位置する単名詞集合Gbnを構成する単名詞サブ集合Gbn−pにおける順位(使用頻度の高さを示す順位)の変数pとして、「1」を設定する(S201)。 Here, “1” is set as a variable n indicating which word in the plural nouns the single noun constituting the compound noun is, and a single noun set Gbn located in the nth word is formed. “1” is set as the variable p of the rank (rank indicating the high usage frequency) in the single noun sub-group Gbn-p (S201).
そして、「横須賀」、「セントラル」、「ホテル」のそれぞれに対して、単名詞サブ集合Gb1−1、単名詞サブ集合Gb2−1、単名詞サブ集合Gb3−1について、認識処理を行う(S202、S203)。続いて、単名詞毎に、認識尤度を対応させて、順序検索した場合における認識結果リストを作成する(S204)。続いて、認識尤度が80以上である単名詞を、有力構成名詞候補として選出する(S205)。 Then, for each of “Yokosuka”, “Central”, and “Hotel”, recognition processing is performed for the single noun subset Gb1-1, single noun subset Gb2-1, and single noun subset Gb3-1 (S202). , S203). Subsequently, for each single noun, a recognition result list in the case of performing an order search is created by associating the recognition likelihood (S204). Subsequently, single nouns with a recognition likelihood of 80 or more are selected as potential constituent noun candidates (S205).
上記「有力構成名詞候補」は、認識尤度が所定の閾値以上である構成名詞候補であり、複合名詞の検索装置201では、上記閾値を80とする。つまり、認識尤度が80以上である構成名詞候補が、有力構成名詞候補である。なお、有力構成名詞候補を選択する場合に使用する認識尤度は、検索データベース281を作るときに、予め定められている。
The “influential constituent noun candidate” is a constituent noun candidate having a recognition likelihood equal to or greater than a predetermined threshold. In the compound noun search apparatus 201, the threshold is set to 80. That is, a constituent noun candidate having a recognition likelihood of 80 or more is a dominant constituent noun candidate. Note that the recognition likelihood used when selecting a potential constituent noun candidate is predetermined when the
図23は、複合名詞の検索装置201において、順序検索した場合における認識結果リストの具体例を示す図である。 FIG. 23 is a diagram illustrating a specific example of a recognition result list when an order search is performed in the compound noun search apparatus 201.
なお、「順序検索」は、順序検索補助データベース282を使用して、音声入力された複合名詞におけるn単語目に位置する単名詞を、n単語目に位置する単名詞集合Gbnの範囲で認識し、検索する動作である。 Note that “order search” uses the order search auxiliary database 282 to recognize a single noun located at the nth word in a compound noun input by speech within the range of the single noun set Gbn located at the nth word. , The search operation.
また、後述の「逆順検索」は、逆順検索補助データベース283を使用して、音声入力された複合名詞における逆順m単語目に位置する単名詞を、逆順m単語目に位置する単名詞集合Gbmの範囲で認識し、検索する動作である。
In addition, “reverse search” described later uses the reverse search
一方、上記順序検索における認識動作と並行して、逆順検索における認識動作が行われる。 On the other hand, the recognition operation in the reverse search is performed in parallel with the recognition operation in the order search.
つまり、複合名詞を構成する単名詞が、その複数名詞における逆順で何番目であるかを示す変数mとして、「1」を設定し、その逆順m単語目に位置する単名詞集合Gbmを構成する単名詞サブ集合Gbm−qにおける順位(使用頻度の高さを示す順位)の変数qとして、「1」を設定する(S211)。 That is, “1” is set as a variable m indicating the number of the single nouns constituting the compound noun in the reverse order in the plural nouns, and the single noun set Gbm located at the reverse m word is formed. “1” is set as the variable q of the rank (rank indicating the high usage frequency) in the single noun sub-group Gbm-q (S211).
そして、「横須賀」、「セントラル」、「ホテル」のそれぞれに対して、逆順単名詞サブ集合H1−1、逆順単名詞サブ集合H2−1、逆順単名詞サブ集合H3−1について、認識処理を行う(S212、S213)。続いて、単名詞毎に、認識尤度を対応させて、逆順検索した場合における認識結果リストを作成する(S214)。そして、認識尤度が80以上である単名詞を、有力構成名詞候補として選出する(S215)。 For each of “Yokosuka”, “Central”, and “Hotel”, recognition processing is performed for the reverse order noun sub-set H1-1, the reverse order noun sub-set H2-1, and the reverse order noun sub-set H3-1. Perform (S212, S213). Subsequently, for each single noun, a recognition result list in the case where a reverse search is performed in association with the recognition likelihood is created (S214). Then, single nouns with a recognition likelihood of 80 or more are selected as potential constituent noun candidates (S215).
複合名詞の検索装置201において、上記のように、順序検索における認識動作と並行して、逆順検索における認識動作が行われるが、この場合、順序検索(S201〜S205)を1つのCPUで実行し、逆順検索(S211〜S215)を別のCPUで実行するようにしてもよく、または、1つのCPUで、順序検索(S201〜S205)と逆順検索(S211〜S215)とを実行するようにしてもよい。 In the compound noun search apparatus 201, the recognition operation in the reverse search is performed in parallel with the recognition operation in the order search as described above. In this case, the order search (S201 to S205) is executed by one CPU. The reverse search (S211 to S215) may be executed by another CPU, or the single search may be used to execute the order search (S201 to S205) and the reverse search (S211 to S215). Also good.
図24は、複合名詞の検索装置201において、逆順検索した場合における認識結果リストの具体例を示す図である。 FIG. 24 is a diagram illustrating a specific example of a recognition result list when a reverse search is performed in the compound noun search apparatus 201.
順序検索補助データベース282における使用頻度順位は、音声入力した複合名詞における1単語目に位置する単名詞「横須賀」は、図20に示すように、420位であり、同2単語目に位置する単名詞「セントラル」は、1250位であり、同3単語目に位置する単名詞「ホテル」は、892位である。「セントラル」、「ホテル」は、500位以下であるので、優先認識対象である単名詞サブ集合Gb2−1、Gb3−1には含まれず、最初に認識する対象ではない。 The frequency of use in the order search auxiliary database 282 is as follows. The single noun “Yokosuka” located in the first word in the compound noun input by voice is ranked 420 as shown in FIG. The noun “Central” is ranked 1250, and the single noun “Hotel” located in the third word is ranked 892. Since “Central” and “Hotel” are ranked 500 or lower, they are not included in the single noun sub-groups Gb2-1 and Gb3-1 that are priority recognition targets, and are not initially recognized.
ところが、逆順検索補助データベース283における使用頻度順位は、音声入力した複合名詞における逆順2単語目に位置する単名詞「セントラル」は、図21に示すように、9位であり、同逆順1単語目の単名詞「ホテル」は、1位であるので、逆順単名詞サブ集合H2−1、H1−1に含まれ、優先認識対象であり、順序検索する場合よりも、早く認識される。
However, the frequency of use in the reverse search
図25は、複合名詞の検索装置201において、順序検索した場合における認識結果と、逆順検索した場合における認識結果とをマージした場合における認識結果リストの具体例を示す図である。 FIG. 25 is a diagram illustrating a specific example of a recognition result list in the case where the recognition result in the case of the order search and the recognition result in the case of the reverse search are merged in the compound noun search apparatus 201.
図23に示す順序検索した場合における認識結果と、図24に示す逆順検索した場合における認識結果とをマージする(S221)と、図25に示すように、統合された認識結果リストができ上がり、有力構成名詞候補を選択する。 When the recognition result in the case of the order search shown in FIG. 23 and the recognition result in the case of the reverse search shown in FIG. 24 are merged (S221), an integrated recognition result list is completed as shown in FIG. Select a constituent noun candidate.
複合名詞の検索装置201では、認識尤度が80以上である単名詞を、有力構成名詞候補と定め、これによって、図25に示すように、音声入力された単名詞「横須賀」に対して、「横浜」、「横須賀」の2候補が有力構成名詞候補として選択され、音声入力された単名詞「セントラル」に対して、「セントラル」が有力構成名詞候補として選択され、音声入力された単名詞「ホテル」に対して、「ホテル」、「ホール」の2候補が有力構成名詞候補として選択される。 In the compound noun search apparatus 201, a single noun having a recognition likelihood of 80 or more is determined as a prominent constituent noun candidate, and as a result, as shown in FIG. Two candidates “Yokohama” and “Yokosuka” are selected as probable constituent noun candidates, and for the single noun “Central” input as speech, “Central” is selected as a prominent constituent noun candidate and input as a single noun For “Hotel”, two candidates of “Hotel” and “Hall” are selected as probable constituent noun candidates.
図26は、複合名詞の検索装置201において、実在検索語候補リスト作成直前の状態を示す図である。 FIG. 26 is a diagram showing a state immediately before the real search word candidate list is created in the compound noun search apparatus 201.
検索装置201は、図25に示すマージされた認識結果における有力構成名詞候補を利用し、実在検索語リスト作成処理を行う(S222)。 The search device 201 uses the probable constituent noun candidates in the merged recognition result shown in FIG. 25 to perform a real search word list creation process (S222).
検索装置201は、有力構成名詞候補の全組み合わせと、検索データベース281に格納されている複合名詞とに基づいて、図26に示すように、実在する検索語候補をリストアップする。
The search device 201 lists actual search word candidates as shown in FIG. 26 based on all the combinations of leading constituent noun candidates and the compound nouns stored in the
複合名詞の検索装置201では、「横須賀/セントラル/ホテル」(検索語認識尤度90+95+95=280)が、実在検索語候補としてリストアップされる。複合名詞の検索装置201において、検索語認識尤度は、図26に示すように、各単名詞の認識尤度を加算する方式で計算する。
In the compound noun search apparatus 201, “Yokosuka / Central / Hotel” (search
複合名詞の検索装置201において、利用者210との確認処理のみで検索語確定可能か否かの判断(S223)の基準は、複合名詞の検索装置201が予め規定した閾値と上記検索語認識尤度とを比較し、上記規定した閾値を越える検索語認識尤度を持つ検索語候補は、「確認処理のみで検索語確定可能な条件を満たす」と判断する。 In the compound noun search apparatus 201, the criteria for determining whether or not the search word can be determined only by the confirmation process with the user 210 (S223) is based on the threshold defined in advance by the compound noun search apparatus 201 and the search word recognition likelihood. A search word candidate having a search word recognition likelihood exceeding the prescribed threshold is determined as “a condition that allows the search word to be determined only by the confirmation process”.
なお、実在検索語候補リストは、検索データベース281に実在する検索語のうちで、利用者210に提示し、確認を求める検索語の候補を集めたリストである。
The actual search word candidate list is a list of search word candidates that are presented to the
複合名詞の検索装置201では、検索語認識尤度に対する規定閾値を280と定める。複合名詞の検索装置201において、検索語認識尤度が280以上の検索語候補である「横須賀/セントラル/ホテル」が実在検索語リストから選択され、利用者210に提示される(S224)。正誤確認に対して利用者210から肯定を示す応答が得られると(S225)、検索語を確定することができたとして処理を終了する。
In the compound noun search apparatus 201, the prescribed threshold for the search word recognition likelihood is set to 280. In the compound noun search apparatus 201, “Yokosuka / Central / Hotel”, which is a search word candidate having a search word recognition likelihood of 280 or more, is selected from the actual search word list and presented to the user 210 (S224). If a response indicating affirmation is obtained from the
ところで、検索語である複合名詞を構成する単名詞の数が3、4、5、……、8であると仮定した場合、つまり、最多単名詞数が8であると仮定した場合、複合名詞の逆順1番目の単名詞(末尾の単名詞)として使用される可能性が高い「ホテル」、「銀行」、「センター」等の単名詞は、複合名詞が3つの単名詞で構成されていれば、3単語目に位置する単名詞としてカウントされ、複合名詞が4つの単名詞で構成されていれば、4単語目に位置する単名詞としてカウントされるので、使用されている「ホテル」、「銀行」、「センター」の単名詞の99%が、逆順1番目の単名詞(末尾の単名詞)として使用されているとしても、頻度統計は分散する。したがって、図20に示すように、「ホテル」、「銀行」、「センター」は、使用頻度の高い優先認識対象にはならず、このために、迅速な検索が行われないことが多い。 By the way, when it is assumed that the number of single nouns constituting the compound noun that is a search word is 3, 4, 5,..., 8, that is, when the number of single nouns is assumed to be 8, The single nouns such as “Hotel”, “Bank”, “Center”, etc., which are likely to be used as the first single noun in reverse order of, are compound nouns composed of three single nouns. For example, it is counted as a single noun located in the third word, and if a compound noun is composed of four single nouns, it is counted as a single noun located in the fourth word, Even if 99% of the single nouns of “Bank” and “Center” are used as the first single noun in the reverse order (single noun at the end), the frequency statistics are dispersed. Therefore, as shown in FIG. 20, “hotel”, “bank”, and “center” are not subject to priority recognition with high frequency of use, and therefore, a quick search is often not performed.
ところが、複合名詞の検索装置201において、末尾から数えた単名詞の位置(逆順番目)毎に頻度統計をカウントして、逆順検索補助データベース282に格納されるので、図21に示すように、末尾から1番目に使用される頻度が高い単名詞の集合である逆順1単語目に位置する逆順単名詞集合H1として、「ホテル」、「銀行」、「センター」等が登録され、優先認識対象となる。また、末尾から2番目に使用される頻度が高い単名詞の集合である逆順2単語目に位置する逆順単名詞集合H2として、「セントラル」「グランド」等が登録される。したがって、複合名詞の検索装置201では、短時間で認識動作が実行される。 However, in the compound noun search device 201, frequency statistics are counted for each single noun position (in reverse order) counted from the end and stored in the reverse search auxiliary database 282. As shown in FIG. "Hotel", "Bank", "Center", etc. are registered as a reverse single noun set H1 located in the reverse first word that is the set of single nouns that are used most frequently from Become. In addition, “central”, “grand”, and the like are registered as the reverse-order single noun set H2 that is located in the second reverse-order word that is the set of single nouns that is used second most frequently from the end. Therefore, in the compound noun search apparatus 201, the recognition operation is executed in a short time.
また、複合名詞の検索装置201において、実在検索語リスト作成処理(S222)と同時に、単名詞サブ集合Gbn−2、逆順単名詞サブ集合Hm−2について、認識処理をスタートするようにしてもよい。つまり、検索語候補を利用者210に提示し、確認を求めている(S224)間に、使用頻度が次に高い単名詞の範囲で認識を行うと、利用者210から見れば、認識する動作の合間に、何もせずに待つ必要がなく、認識動作をしないで、検索語候補が次々と提示されているように思える。
Further, in the compound noun search device 201, simultaneously with the real search word list creation process (S222), the recognition process may be started for the single noun sub-set Gbn-2 and the reverse-order single noun sub-set Hm-2. . That is, when a search term candidate is presented to the
検索装置201からの質問と、この質問に対する利用者210からの応答とを、1ターンとした場合、複合名詞の検索装置201では、利用者210との間で、できる限り少ない対話ターン数で、検索語特定を実現することができ、これによって、対話時間の減少を図り、より迅速に検索処理を行うことができる。
If the question from the search device 201 and the response from the
複合名詞の検索装置201における検索の基本方針は、検索語を単名詞毎に区切って音声入力し、先頭からの位置を考慮し、単名詞毎に頻度統計の大きい順に、優先的に認識処理を行い、各単名詞に対する認識結果を組み合わせ、実在する検索語のみを選択することによって、認識装置の処理時間と精度の不完全性とを補い、利用者210にストレスを与えずに検索語を特定することである。
The basic search policy in the compound noun search apparatus 201 is to input a search word divided into single nouns by voice input, consider the position from the top, and perform recognition processing preferentially in descending order of frequency statistics for each single noun. By combining the recognition results for each single noun and selecting only the actual search terms, the processing time and incompleteness of accuracy of the recognition device are compensated, and the search terms are identified without stressing the
上記基本方針に加えて、複合名詞の検索装置201の大きな特徴は、単名詞毎に行う認識処理と並行して、検索語である複合名詞の末尾から数えて、1単語目、2単語目、3単語目、……毎に、頻度統計を調べ、頻度統計順に並べた逆順検索補助データベース283について、音声入力が終了した時点で、優先的に認識処理を行い、各単名詞に対する認識結果を組み合わせ、実在する検索語のみを選択することによって、認識装置の処理時間と精度の不完全性とを補い、利用者210にストレスを与えずに検索語を特定する点である。
In addition to the basic policy described above, the major feature of the compound noun search apparatus 201 is that, in parallel with the recognition process performed for each single noun, the first word, the second word, For each third word,..., Frequency statistics are checked, and the reverse search
また、順序検索補助データベース282を利用した認識結果と、逆順検索補助データベース283を利用した認識結果とをマージするようにし、これによって、認識処理の精度をより向上させることができ、検索時間をさらに短縮することができる。
In addition, the recognition result using the order search auxiliary database 282 and the recognition result using the reverse order search
図27は、本発明の第4の実施例の動作を示すフローチャートである。 FIG. 27 is a flowchart showing the operation of the fourth embodiment of the present invention.
第4の実施例は、順序検索を実行せずに、逆順検索のみを実行する実施例である。 The fourth embodiment is an embodiment in which only reverse search is executed without executing the search.
図27において、まず、検索語を、単名詞毎に区切って音声入力することを要求し(S230),複合名詞を構成する単名詞が、その複数名詞における逆順で何単語目に位置するかを示す変数mとして、「1」を設定し、その逆順m単語目に位置する逆順単名詞集合Gbmを構成する単名詞サブ集合Gbm−qにおける順番qとして、「1」を設定する(S231)。そして、「横須賀」、「セントラル」、「ホテル」のそれぞれに対して、逆順単名詞サブ集合H1−1、逆順単名詞サブ集合H2−1、逆順単名詞サブ集合H3−1について、認識処理を行う(S232、S233)。続いて、単名詞毎に、認識尤度を対応させて、逆順検索した場合における認識結果リストを作成する(S234)。そして、有力構成名詞候補を選出し(S235)、実在検索語候補リストを作成し(S236)、確認処理のみで検索語を特定可能な条件を満たせば(S237)、検索語候補を利用者に提示し(S238)、利用者による応答がYESであれば(S239)、検索を終了し、一方、確認処理のみで検索語を特定可能な条件を満たす候補が存在しなければ(S237)、使用頻度が次に高い逆順単名詞サブ集合の範囲で認識を行う。 In FIG. 27, first, it is requested to input a search word by dividing it into single nouns (S230), and the number of words in which the single nouns constituting the compound noun are located in reverse order in the plural nouns is determined. “1” is set as the variable m to be shown, and “1” is set as the order q in the single noun sub-set Gbm-q constituting the reverse-order single noun set Gbm located at the reverse m-th word (S231). For each of “Yokosuka”, “Central”, and “Hotel”, recognition processing is performed for the reverse order noun sub-set H1-1, the reverse order noun sub-set H2-1, and the reverse order noun sub-set H3-1. Perform (S232, S233). Subsequently, for each single noun, a recognition result list is created in the case of performing reverse search by associating the recognition likelihood (S234). Then, influential constituent noun candidates are selected (S 235), an actual search word candidate list is created (S 236), and if the conditions for specifying the search words only by the confirmation process are satisfied (S 237), the search word candidates are given to the user. If it is presented (S238) and the response by the user is YES (S239), the search is terminated. On the other hand, if there is no candidate that satisfies the conditions for specifying the search word only by the confirmation process (S237), use Recognize in the range of the reverse most frequent noun subset.
つまり、上記第4の実施例は、音声入力された複合名詞における逆順m単語目に位置する単名詞については、データベースに登録されている各複合名詞の逆順m単語目(mは整数値)に位置する単名詞の集合である逆順m単語目に位置する単名詞集合の範囲で認識する音声入力された複合名詞の検索装置である。 That is, in the fourth embodiment, for the single noun located in the reverse m-th word in the compound noun input by speech, the reverse no. M word (m is an integer value) of each compound noun registered in the database. This is a search device for compound nouns that are input by speech recognition in the range of a single noun set located in the reverse order m word that is a set of single nouns that are positioned.
具体的には、上記第4の実施例は、複数の単名詞で構成されている複合名詞が検索語として登録され、しかも、上記検索語が各単名詞に区切られて登録されている検索データベースと、上記登録されている各複合名詞の逆順m単語目(mは整数値)に位置する単名詞の集合である逆順m単語目に位置する単名詞集合が、登録されている逆順検索補助データベースと、利用者が上記検索語である複合名詞を単名詞毎に音声入力し終わると、音声入力された複合名詞の逆順m単語目に位置する単名詞については、上記逆順m単語目に位置する単名詞集合の範囲で認識し、上記認識された単名詞である構成名詞候補と、上記構成名詞候補についての認識尤度との組が認識尤度順に並べられている逆順認識結果リストを作成する逆順認識結果リスト作成手段と、上記逆順認識結果リストを、上記音声入力された単名詞のそれぞれについて作成し、上記逆順認識結果リストに記載されている構成名詞候補のうちで、所定の閾値を超える認識尤度を具備する構成名詞候補を、逆順有力構成名詞候補として選出する逆順有力構成名詞候補選出手段と、上記逆順有力構成名詞候補の全組み合わせのそれぞれについて、上記有力構成名詞候補の認識尤度に所定の演算を行うことによって、検索語認識尤度を算出し、この演算された検索語認識尤度の大きい順に並べた実在検索語候補リストを作成する実在検索語候補リスト作成手段と、上記実在検索語候補のうちで、上記検索語認識尤度が所定の閾値以上である実在検索語について、上記利用者との間で必要な対話を実行し、検索語を確定する検索語候補選定対話手段とを有する音声入力された複合名詞の検索装置である。 Specifically, the fourth embodiment is a search database in which compound nouns composed of a plurality of single nouns are registered as search terms, and the search terms are registered by being divided into single nouns. And a reverse noun search auxiliary database in which a single noun set located in the reverse m word, which is a set of single nouns located in the reverse m word (m is an integer value) of each registered compound noun, is registered. When the user finishes inputting the compound noun, which is the search word, for each single noun, the single noun located in the reverse m word of the composite noun input is positioned in the reverse m word. Recognize in the range of a single noun set and create a reverse recognition result list in which pairs of constituent noun candidates that are the recognized single nouns and recognition likelihoods for the constituent noun candidates are arranged in order of recognition likelihood Reverse recognition result list And a reverse recognition result list for each of the single nouns input by voice, and among the constituent noun candidates described in the reverse recognition result list, the recognition likelihood exceeds a predetermined threshold. A candidate for a noun candidate to be selected as a candidate for a noun-possible component noun and a candidate for noun-possible noun component noun selection means and a combination of the above-mentioned noun-possible component noun candidates are subjected to a predetermined calculation on the recognition likelihood of the nominative noun candidate candidate. A search word recognition likelihood by calculating a search word recognition likelihood and creating a real search word candidate list arranged in descending order of the calculated search word recognition likelihood; and the real search word candidate Of these, a search term for executing a necessary dialogue with the user and confirming a search term for an existing search term having a search word recognition likelihood equal to or greater than a predetermined threshold. It is a search apparatus compound nouns which are voice input and a selection dialogue means.
なお、上記実施例を、プログラムの実施例として把握することができる。つまり、上記実施例は、複数の単名詞で構成されている複合名詞が検索語として登録され、しかも、上記検索語が各単名詞に区切られて登録されている検索データベースと、上記登録されている各複合名詞の逆順m単語目(mは整数値)に位置する単名詞の集合である逆順m単語目に位置する単名詞集合が、登録されている逆順検索補助データベースとを使用し、音声入力された複合名詞を検索する手順と、利用者が上記検索語である複合名詞を単名詞毎に音声入力し終わると、音声入力された複合名詞の逆順m単語目に位置する単名詞については、上記逆順m単語目に位置する単名詞集合の範囲で認識し、上記認識された単名詞である構成名詞候補と、上記構成名詞候補についての認識尤度との組が認識尤度順に並べられている逆順認識結果リストを作成する逆順認識結果リスト作成手順と、上記逆順認識結果リストを、上記音声入力された単名詞のそれぞれについて作成し、上記逆順認識結果リストに記載されている構成名詞候補のうちで、所定の閾値を超える認識尤度を具備する構成名詞候補を、逆順有力構成名詞候補として選出する逆順有力構成名詞候補選出手順と、上記逆順有力構成名詞候補の全組み合わせのそれぞれについて、上記有力構成名詞候補の認識尤度に所定の演算を行うことによって、検索語認識尤度を算出し、この演算された検索語認識尤度の大きい順に並べた実在検索語候補リストを作成する実在検索語候補リスト作成手順と、上記実在検索語候補のうちで、上記検索語認識尤度が所定の閾値以上である実在検索語について、上記利用者との間で必要な対話を実行し、検索語を確定する検索語候補選定対話手順とをコンピュータに実行させるプログラムの例である。 The above embodiment can be understood as an embodiment of the program. In other words, in the above embodiment, a compound noun composed of a plurality of single nouns is registered as a search word, and the search word is registered by being divided into each single noun, and the above registered A single noun set located in the reverse m-th word, which is a set of single nouns located in the reverse m-th word (where m is an integer value) of each compound noun, using a registered reverse order search auxiliary database, The procedure for searching for an input compound noun and when the user finishes inputting the compound noun as the search word for each single noun, the single noun located in the reverse m word of the input compound noun A pair of constituent noun candidates that are recognized as the recognized single noun and the recognition likelihoods for the constituent noun candidates are arranged in the order of recognition likelihood. Reverse order recognition A reverse recognition result list creation procedure for creating a list, and the reverse recognition result list are created for each of the single nouns input by speech, and among the constituent noun candidates described in the reverse recognition result list, predetermined The probable constituent noun candidates for each of the combinations of the reverse influential constituent noun candidates and the reverse influential constituent noun candidate selection procedure for selecting the constituent noun candidates having the recognition likelihood exceeding the threshold of Real search word candidate list creation that calculates a search word recognition likelihood by performing a predetermined calculation on the recognition likelihood of the search word, and creates a real search word candidate list arranged in descending order of the calculated search word recognition likelihood Among the actual search word candidates, the actual search word having a search word recognition likelihood equal to or higher than a predetermined threshold is necessary with the user. Run talk is an example of a program for executing a search word candidate selection dialogue procedure for determining the search term to the computer.
また、上記プログラムが記録されている記録媒体の実施例として、上記実施例を把握することができる。なお、上記記録媒体として、FD、CD、DVD、HD、半導体メモリ等が考えられる。 Moreover, the said Example can be grasped | ascertained as an Example of the recording medium with which the said program is recorded. As the recording medium, FD, CD, DVD, HD, semiconductor memory, and the like are conceivable.
なお、商品配送サービスや、電話番号検索や郵便番号検索等における入力インタフェース部分において、上記実施例で行った法人名義の確定作業を、幅広く適用することができる。 It should be noted that the corporate name determination work performed in the above-described embodiment can be widely applied to the input interface portion in the product delivery service, telephone number search, postal code search, and the like.
上記実施例によれば、先頭からの構成順序のみを考慮するのではなく、末尾に使用される頻度の高い構成名詞、末尾から2単語目に使用される頻度の高い構成名詞というように、頻度をカウントすることによって、同じ末尾に使われていても、構成単語数によって、先頭から数えると異なる単語目にカウントされ、使用頻度上位単語とは認識されない単語を、優先認識対象と捕らえることができる。 According to the above embodiment, not only the order of composition from the top is taken into account, but the frequent noun used at the end, the frequent noun used at the second word from the end, By counting the words, even if they are used at the same end, if they are counted from the beginning depending on the number of constituent words, the words that are not recognized as the most frequently used words can be caught as priority recognition objects. .
なお、上記実施例において、検索語認識尤度は、図26に示すように、各単名詞の認識尤度を加算したものであるが、検索語認識尤度を算出する場合、各単名詞の認識尤度を乗算するようにしてもよい。 In the above embodiment, the search word recognition likelihood is the sum of the recognition likelihoods of each single noun as shown in FIG. 26. However, when calculating the search word recognition likelihood, You may make it multiply recognition likelihood.
また、実在検索語候補リスト中の検索語候補における検索語認識尤度が、その閾値(たとえばその閾値が280であるとする)以上であれば、利用者210による確認処理のみで検索語を確定することができ、逆に、検索語認識尤度が上記閾値未満であれば、利用者210による確認処理のみで検索語を確定することができない。
If the search word recognition likelihood of the search word candidate in the actual search word candidate list is equal to or greater than the threshold (for example, the threshold is 280), the search word is determined only by the confirmation process by the
上記のように検索語を確定することができない場合に備えて、単名詞サブ集合Gb2−p、逆順単名詞サブ集合H2−qの範囲で単名詞の認識、認識尤度の算出等の処理を、予め実行しておくようにしてもよい。すなわち、検索語候補を利用者210にディスプレイ等で提示し、確認を求める処理(S224)および利用者210による応答(S225)と並行して、使用頻度が次に高い単名詞サブ集合、逆順単名詞サブ集合の範囲で単名詞の認識、認識尤度の算出(S202、S212)、有力構成名詞候補の再選出(S204、S214)、実在検索語候補リストの更新(S222)を実行する。
In preparation for the case where the search term cannot be determined as described above, processing such as recognition of a single noun and calculation of recognition likelihood in the range of the single noun sub-set Gb2-p and the reverse single noun sub-set H2-q are performed. Alternatively, it may be executed in advance. In other words, in parallel with the process of presenting the search word candidate to the
このようにすれば、検索装置201の内部の処理状況を利用者210が一切見ることができないので、利用者210には、あたかも、検索データベース281に登録されている検索語を一括してしかも非常に高速で認識処理を行っているかのように見える。
In this way, since the
図28は、本発明の第5の実施例である音声対話型複合名詞の検索装置301を示すブロック図である。 FIG. 28 is a block diagram showing a spoken dialogue compound noun search apparatus 301 according to the fifth embodiment of the present invention.
この音声対話型複合名詞の検索装置301は、音声入力部302と、音声認識部303と、音声認識用ソフトウェア303Sと、音声認識結果出力部304と、実在検索語候補リスト作成部305と、対話制御部306と、音声出力部307と、音声出力用ソフトウェア307Sとによって構成されている。
This speech interactive compound noun search device 301 includes a speech input unit 302, a
音声入力された複合名詞の検索装置301において、音声入力部302を介して入力された利用者Pの音声が音声認識部303へ送られ、音声認識部303は、入力音声を音声認識処理する際に、システムデータベース308を利用する。また、音声認識部303は、利用者Pによる入力音声について、音声認識用ソフトウェア303Sを利用して、認識処理を実行する。
In the compound noun search device 301 inputted by voice, the voice of the user P inputted through the voice input unit 302 is sent to the
システムデータベース308は、検索データベース381と、検索補助データベース382と、YES/NOデータベース383とを有する。
The system database 308 includes a
検索データベース381は、複数の単名詞で構成されている複合名詞が検索語として登録され、しかも、上記検索語が各単名詞に区切られて登録されているデータベースである。
The
検索補助データベース382は、登録されている各複合名詞のn番目(nは整数値)に表記されている単名詞の群を、n番目表記の単名詞集合群と呼び、上記n番目表記の単名詞集合群が、その頻度の高い順に登録され、しかも、この頻度の高い順に登録されている単名詞が、その頻度の高い方から順に、所定の数(検索装置301では500個)毎にまとめられ、複数のサブ集合群が形成されているデータベースである。
In the search
YES/NOデータベース383は、利用者Pが応答した内容(たとえば、はい/いいえ、YES/NO)を認識するデータベースである。
The YES /
音声認識用ソフトウェア303Sは、検索装置301の処理の場面に合わせて、検索データベース381または検索補助データベース382を、システムデータベース308から選択するものである。
The speech recognition software 303S selects the
検索語が音声入力されると、検索補助データベース382を参照し、また、利用者Pへの正誤確認に対する応答を認識する場合は、YES/NOデータベース383が参照される。
When the search term is inputted by voice, the search
また、音声認識部303は、音声認識処理の際に、音声認識用ソフトウェア303Sを使用し、音声出力部307は、音声出力の際に、音声出力用ソフトウェア307Sを使用する。
The
音声認識結果出力部304は、利用者が検索語である複合語を単名詞毎に入力すると、上記複合名詞のn番目表記の単名詞については、上記n番目表記の単名詞集合群で認識し、しかも上記n番目表記の単名詞集合群のうちで、最も頻度が高い単名詞を含む第1サブ集合群の範囲内で認識処理し、認識尤度を対応させて、認識結果リストを作成する認識結果リスト作成手段の例である。
When the user inputs a compound word, which is a search word, for each single noun, the speech recognition
また、音声認識結果出力部304は、上記認識処理された単名詞である構成名詞候補と、上記構成名詞候補についての認識尤度との組が認識尤度順に並べられている認識結果リストを、上記音声入力された単名詞のそれぞれについて作成し、上記認識結果リストに記載されている構成名詞候補のうちで、所定の第1の閾値を超える認識尤度を具備する構成名詞候補を、有力構成名詞候補として選出する有力構成名詞候補選出手段の例である。
Further, the speech recognition
実在検索語候補リスト作成部305は、実在検索語リスト作成部351と、部分一致検索語リスト作成部352とによって構成されている。
The real search word candidate list creation unit 305 includes a real search word
実在検索語リスト作成部351は、音声認識結果出力部304が出力した音声認識結果に基づいて、検索データベース381格納されている検索語から、実在検索語を抽出する部分である。
The real search word
部分一致検索語リスト作成部352は、上記検索語を構成する複数の単名詞のうちで一部の単名詞のみの尤度が上記第1の所定の閾値を超える場合、上記第1の閾値を超える尤度を具備する上記単名詞を備え、上記検索語を構成する単名詞と同じ数の単名詞を備えている部分一致検索語候補を、上記検索データベースから抽出する部分一致検索語候補抽出手段の例である。
When the likelihood of only some single nouns out of the plurality of single nouns constituting the search word exceeds the first predetermined threshold, the partial match search word
また、対話制御部306は、検索語候補選定対話部361と、部分一致検索語候補選定対話部362とによって構成されている。
The dialogue control unit 306 includes a search word candidate
部分一致検索語候補選定対話部362は、上記抽出された部分一致検索語候補を構成する各単名詞の尤度を所定の演算方法で演算して部分一致尤度を演算する部分一致尤度演算手段の例である。なお、上記部分一致尤度を演算する上記所定の演算方法は、検索装置301では、各単名詞の尤度を加算する方法であるが、上記加算の代わりに、乗算するようにしてもよい。
The partial match search word candidate
音声出力部307は、音声出力用ソフトウェア307Sを使用して、音声出力するものである。
The
なお、音声認識部303は、上記演算された部分一致尤度が、所定の第2の閾値を超えている上記部分一致検索語候補について、音声認識処理を行う部分一致検索語候補用音声認識処理手段の例である。
Note that the
次に、検索装置301について、より具体的に説明する。 Next, the search device 301 will be described more specifically.
なお、以下の説明では、企業名等、法人名義を確定するサービスの入力インタフェース部分に、音声入力された複合名詞の検索装置301が設けられている場合について説明する。 In the following description, a case will be described in which a speech noun search device 301 is provided in an input interface portion of a service for determining a corporate name such as a company name.
日本全国の電話帳に掲載されている法人名義は2200万件も存在し、2200万件の中から1つの法人名義を、入力した音声に基づいて、特定するには相当の時間がかかり、したがって、現行の音声認識技術では、対話処理実時間(検索装置と利用者Pとがやりとりする場合、上記利用者Pにストレスまたは不自然さを感じさせない時間)内で法人名義を認識処理することが不可能であり、しかも、この場合、非常に似通ったデータが多いので、認識精度が非常に低い。 There are as many as 22 million corporate names listed in phone books across Japan, and it takes a considerable amount of time to identify one corporate name out of 22 million based on the input voice. In the current speech recognition technology, the corporate name can be recognized and processed within the real time of dialogue processing (when the search device and the user P interact, the time when the user P does not feel stress or unnaturalness). In this case, the recognition accuracy is very low because there are many very similar data.
図29は、検索装置301において、検索データベース381中の法人名義が複合名詞で構成され、この複合名詞が、それを構成する単名詞毎に区切って登録されている具体例を示す図である。
FIG. 29 is a diagram showing a specific example in which the corporate name in the
検索データベース381に登録されている法人名義を構成している各名詞の頻度を調べ、単名詞を頻度順に記録し、検索補助データベース382を作成する。
The frequency of each noun constituting the corporate name registered in the
なお、上記2200万件の法人名義を構成する単名詞の総数は、650万種類である。また、法人名義2,200万件を構成する名詞のうち、1番目表記の単名詞(法人名義中の第1単語目に位置する単名詞)の総数は、約360万種類であり、2番目表記の単名詞(法人名義中の第2単語目に位置する単名詞)の総数は、約250万種類であり、3番目表記の単名詞(法人名義中の第3単語目に位置する単名詞)の総数は、約270万種類であり、4番目表記の単名詞(法人名義中の第4単語目に位置する単名詞)の総数は、約100万種類、…(最長構成単語数7)であり、対話処理実時間内では、1つの複合名詞に対する各単名詞の認識処理は不可能であり、精度も低いことが予想される。 The total number of single nouns constituting the 22 million corporate names is 6.5 million. In addition, the total number of single nouns (single nouns located in the first word in the corporate name) of nouns constituting 22 million corporate names is about 3.6 million. The total number of single nouns (single nouns located in the second word in the corporate name) is about 2.5 million, and the third single noun (single noun located in the third word in the corporate name) ) Is about 2.7 million types, and the total number of single nouns in the fourth notation (single noun located in the fourth word in the corporate name) is about 1 million types, ... (the maximum number of constituent words is 7) In the real time of dialogue processing, it is impossible to recognize each single noun with respect to one compound noun, and it is expected that the accuracy is low.
図30は、検索装置301において、検索補助データベース382に格納されているデータの具体例を示す図である。
FIG. 30 is a diagram illustrating a specific example of data stored in the search
検索補助データベース382中の単名詞は、検索データベース381に登録されている複合名詞を構成する単名詞であり、複合名詞における表記の順番毎に、単名詞集合群が形成されている。複合名詞における表記の順番が最初である単名詞だけを集めて、1番目表記の単名詞集合群Gc1が形成され、1番目表記の単名詞集合群Gc1において、その使用頻度の高い順に単名詞が登録され、しかも、これら登録されている単名詞が、その頻度の高い方から順に、500個の単名詞毎にまとめられ、複数のサブ集合群が形成され、頻度の高い順に、第1サブ集合群Gc1−1、第2サブ集合群Gc1−2、……、第mサブ集合群Gc1−mが形成されている。
The single nouns in the search
なお、使用頻度が最も高い単名詞を含む第1サブ集合群Gc1−1は、他のサブ集合群Gc1−2、……、Gc1−mよりも優先して認識する対象である。 The first subset group Gc1-1 including the single noun having the highest usage frequency is a target to be recognized with priority over the other subset groups Gc1-2,..., Gc1-m.
また、複合名詞における表記の順番が2番目である単名詞だけを集めて、2番目表記の単名詞集合群Gc2が形成され、2番目表記の単名詞集合群Gc2において、その使用頻度の高い順に単名詞が登録され、しかも、これら登録されている単名詞が、その頻度の高い方から順に、500個の単名詞毎にまとめられ、複数のサブ集合群が形成され、頻度の高い順に、第1サブ集合群Gc2−1、第2サブ集合群Gc2−2、……、第mサブ集合群Gc2−mが形成されている。 In addition, only single nouns with the second notation order in the compound noun are collected to form a second noun single noun set group Gc2, and in the second noun single noun set group Gc2, in descending order of frequency of use. Single nouns are registered, and these registered single nouns are grouped in units of 500 single nouns in descending order of their frequency, and a plurality of sub-set groups are formed. A first sub-set group Gc2-1, a second sub-set group Gc2-2,..., An m-th sub-set group Gc2-m are formed.
なお、使用頻度が最も高い単名詞を含む第1サブ集合群Gc2−1は、他のサブ集合群Gc2−2、……、Gc2−mよりも優先して認識する対象である。 The first subset group Gc2-1 including the single noun having the highest use frequency is a target to be recognized with priority over the other subset groups Gc2-2,..., Gc2-m.
以下、上記と同様に、複合名詞における表記の順番がn番目である単名詞だけを集めて、n番目表記の単名詞集合群Gcnが形成され、n番目表記の単名詞集合群Gcnにおいて、その使用頻度の高い順に単名詞が登録され、しかも、これら登録されている単名詞が、その頻度の高い方から順に、500個の単名詞毎にまとめられ、複数のサブ集合群が形成され、頻度の高い順に、第1サブ集合群Gcn1、第2サブ集合群Gcn2、……、第nサブ集合群Gcn−mが形成されている。 Hereinafter, in the same manner as described above, only the single nouns with the nth order of compound nouns are collected to form the nth single noun set group Gcn. In the nth single noun set group Gcn, Single nouns are registered in descending order of frequency of use, and the registered single nouns are grouped in units of 500 single nouns in order from the highest frequency to form a plurality of sub-set groups. The first sub-set group Gcn1, the second sub-set group Gcn2,..., The n-th sub-set group Gcn-m are formed in descending order.
なお、使用頻度が最も高い単名詞を含む第1サブ集合群Gcn−1は、他のサブ集合群Gcn−2、……、Gcn−mよりも優先して認識する対象である。 The first subset group Gcn-1 including the single noun having the highest usage frequency is a target to be recognized with priority over the other subset groups Gcn-2,..., Gcn-m.
ところで、1つのサブ集合群を構成する名詞の数をNとすると、検索装置301では、N=500であり、この数は、次のようにして決められる。つまり、対話処理実時間(検索装置と利用者Pとがやりとりする場合、上記利用者Pにストレスまたは不自然さを感じさせない時間である)内に音声認識用ソフトウェア303Sが処理可能な単名詞の数をTとし、検索データベース381に登録されている全検索語の平均単名詞数をMとすると、N=T/Mである。
By the way, if the number of nouns constituting one sub-set group is N, N = 500 in the search device 301, and this number is determined as follows. That is, a single noun that can be processed by the speech recognition software 303S within the real time of dialogue processing (when the search device and the user P interact, it is a time during which the user P does not feel stress or unnaturalness). When the number is T and the average number of single nouns of all search words registered in the
具体的には、対話処理実時間内に音声認識用ソフトウェア303Sが処理可能な単名詞の数Tが1500であるとし、検索データベース381に登録されている全検索語の平均単名詞数Mが3であるとすると、N=T/M=1500/3=500である。
Specifically, it is assumed that the number T of single nouns that can be processed by the speech recognition software 303S within the interactive processing real time is 1500, and the average number of single nouns M of all search words registered in the
なお、各サブ集合群Gc1−1、……、Gcn−mのそれぞれを構成する単名詞の数Nは、500以外の数でもよいが、上記のように、対話処理実時間内に処理可能な単名詞の数T(音声認識用ソフトウェア303Sの性能)と、検索データベース381に登録されている検索語が有する単名詞の数の平均Mとによって定められる。
Note that the number N of single nouns constituting each of the sub-groups Gc1-1,..., Gcn-m may be a number other than 500. It is determined by the number T of single nouns (the performance of the speech recognition software 303S) and the average number M of single nouns included in the search terms registered in the
次に、検索装置301の動作について説明する。 Next, the operation of the search device 301 will be described.
図31は、検索装置301において、検索語を確定する処理プロセスを具体的に示すフローチャートである。 FIG. 31 is a flowchart specifically illustrating a processing process for determining a search term in the search device 301.
この前提として、検索データベース381、検索補助データベース382が作成されているとする。
As this premise, it is assumed that a
まず、検索したい法人名義(複合名詞)を、単名詞に区切った形で音声入力するように、利用者Pに要求する(S300)。そして、検索語である複合名詞に関する各単名詞集合群におけるサブ集合群の関数(サブ集合群の順位を示す関数)kを1とする。つまり、サブ集合群の関数k=1であれば、複数のサブ集合群のうちで、サブ集合群Gc1−1、Gc2−1、Gc3−1、……を使用して、各単名詞が認識される。 First, the user P is requested to input a corporate name (compound noun) to be searched in a form divided into single nouns (S300). Then, the function k of the sub-group in each single-noun group related to the compound noun that is the search word (function indicating the rank of the sub-group) is set to 1. That is, if the function k = 1 of the subset group, each single noun is recognized using the subset groups Gc1-1, Gc2-1, Gc3-1,. Is done.
ここで、複合名詞「横浜/東急/ホテル」が検索語として音声入力された場合について考える。 Consider the case where the compound noun “Yokohama / Tokyu / Hotel” is input as a search term by voice.
まず、音声入力された単名詞「横浜」、「東急」、「ホテル」について、それぞれ、1番目表記の単名詞集合群Gc1中の第1サブ集合群Gc1−1、2番目表記の単名詞集合群Gc2中の第1サブ集合群Gc2−1、3番目表記の単名詞集合群Gc3中の第1サブ集合群Gc3−1を、使用し、音声認識部303が認識処理を行う(S301)。つまり、音声入力された単名詞「横浜」について、第1サブ集合群Gc1−1の範囲内で認識処理し、音声入力された単名詞「東急」について、第1サブ集合群Gc2−1の範囲内で認識処理し、音声入力された単名詞「ホテル」について、第1サブ集合群Gc3−1の範囲内で認識処理する。そして、音声認識結果出力部304が、その認識結果を出力する。
First, for the single nouns “Yokohama”, “Tokyu”, and “Hotel” input by speech, the first sub-noun group Gc1-1 and the second-notation single noun set in the first-nominated single noun set group Gc1, respectively. The
音声入力された単名詞「横浜」、「東急」、「ホテル」のうちで、単名詞「横浜」は、図30に示すように、第1サブ集合群Gc1−1に含まれており、単名詞「ホテル」が、第1サブ集合群Gc3−1に含まれているとする。ところが、単名詞「東急」の頻度順位は、図30に示すように、頻度順位951位であるので、第1サブ集合群Gc2−1には含まれず、第2サブ集合群Gc2−2に含まれている。 Of the single nouns “Yokohama”, “Tokyu” and “Hotel” input by voice, the single noun “Yokohama” is included in the first sub-group Gc1-1 as shown in FIG. It is assumed that the noun “hotel” is included in the first sub-group Gc3-1. However, since the frequency rank of the single noun “Tokyu” is the frequency rank 951 as shown in FIG. 30, it is not included in the first subset group Gc2-1 and included in the second subset group Gc2-2. It is.
図32は、検索装置301において、音声入力された検索語(複合名詞)を構成する各単名詞に対する認識結果と、その認識尤度とが対応している認識結果リストの具体例を示す図である。 FIG. 32 is a diagram showing a specific example of a recognition result list in which the recognition result for each single noun constituting the search word (compound noun) input by speech and the recognition likelihood correspond in the search device 301. is there.
1つの単名詞が音声入力されると、この音声入力された単名詞に対する複数の構成名詞候補と、これら複数の構成名詞候補のそれぞれに対する認識尤度とを、音声認識結果出力部304が出力し、この出力された構成名詞候補と認識尤度とを対応させて、認識結果リストを作成する(S301)。このようにして作成された認識結果リストの具体例を、図32に示してある。
When one single noun is input by speech, the speech recognition
たとえば、単名詞「横浜」を音声入力すると、この入力された音声を、音声認識部303が、図32に示すように、「横浜」、「横須賀」、「横溝」、「横山」、……と認識し、「横浜」の認識尤度が95であり、「横須賀」の認識尤度が90であり、「横溝」の認識尤度が81であり、「横山」の認識尤度が75である。
For example, when the single noun “Yokohama” is inputted by voice, the
なお、各単名詞についての認識尤度は、その単名詞が音声入力されたときに、音声認識用ソフトウェア303Sが、個々に判断する。 Note that the recognition likelihood for each single noun is individually determined by the speech recognition software 303S when the single noun is input by voice.
ここで、認識尤度が所定の閾値以上である構成名詞候補を、有力構成名詞候補とする。なお、検索装置301では、上記所定の閾値を80とする。つまり、認識尤度が80以上である構成名詞候補が、有力構成名詞候補である。上記所定の閾値が80であることは、データベース81、82を作るときに、予め設定されている。
Here, a constituent noun candidate having a recognition likelihood equal to or greater than a predetermined threshold is set as a dominant constituent noun candidate. In the search device 301, the predetermined threshold is set to 80. That is, a constituent noun candidate having a recognition likelihood of 80 or more is a dominant constituent noun candidate. That the predetermined threshold is 80 is set in advance when the
そして、図32に示す各認識結果から、認識尤度が80以上である単名詞を、有力構成名詞候補として選択する(S302)。 Then, from each recognition result shown in FIG. 32, a single noun having a recognition likelihood of 80 or more is selected as a potential constituent noun candidate (S302).
この時点で、各検索補助データベース382中に、認識処理がまだ終了していない第1サブ集合群が存在する場合、音声認識部2は、第1サブ集合群に対する認識処理を再びスタートさせ、音声認識結果出力部3は、認識結果を出力し、検索語候補リスト作成部305へ送る処理を繰り返す。
At this point, when there is a first sub-set group in which the recognition process has not yet been completed in each search
検索語候補リスト作成部305において、実在検索語候補リスト作成部3051は、認識結果に基づいて、有力構成名詞候補を選択し、有力構成名詞候補の全ての組み合わせを作成し、検索データベース381を参照しながら、実在する検索語を抽出した実在検索語候補リストを作成し(S303)、対話制御部306へ送る。
In the search word candidate list creation unit 305, the actual search word candidate list creation unit 3051 selects a potential constituent noun candidate based on the recognition result, creates all possible combinations of potential constituent noun candidates, and refers to the
なお、実在検索語候補リストは、検索データベース381に実在している検索語のうちで、利用者Pに提示し、確認を求める検索語の候補を集めたリストである。
The actual search word candidate list is a list of search word candidates that are presented to the user P and asked for confirmation among the search words existing in the
ところで、2番目表記の単名詞「東急」の頻度順位は、補助データベース82に格納されている2番目表記の単名詞集合群Gc2において、図29に示すように、951位であるので、2番目表記の単名詞集合群Gc2の第1サブ集合群Gc2−1には、単名詞「東急」が含まれていない。よって、図32に示す音声入力された単名詞「東急」に対する認識結果には、単名詞「東急」が含まれていない。
By the way, the frequency rank of the second noun single noun “Tokyu” is ranked 951 in the second noun single noun set group Gc2 stored in the
したがって、実在検索語候補リストを作成するステップ(S303)では、実在検索語候補リストが作成されない。 Therefore, the actual search word candidate list is not created in the step of creating the actual search word candidate list (S303).
これと同時に、部分一致検索語リスト作成部352は、部分一致検索語候補における部分一致尤度を計算し(S331)、部分一致検索語候補を、検索データベース381から抽出し、対話制御部306へ送る。
At the same time, the partial match search word
なお、部分一致検索語候補は、検索語を構成する複数の単名詞のうちで一部の単名詞のみの尤度が第1の所定の閾値を超える場合、上記第1の閾値を超える尤度を具備する上記単名詞を備え、上記検索語を構成する単名詞と同じ数の単名詞を備えている検索語候補である。 The partial match search word candidate is a likelihood that exceeds the first threshold when the likelihood of only some of the single nouns constituting the search word exceeds a first predetermined threshold. This is a search word candidate that includes the single nouns having the same number of single nouns as the search words.
また、部分一致尤度は、上記抽出された部分一致検索語候補を構成する各単名詞の尤度を所定の演算方法で演算して求めた尤度である。 The partial match likelihood is a likelihood obtained by calculating the likelihood of each single noun constituting the extracted partial match search word candidate by a predetermined calculation method.
対話制御部306は、実在検索語候補と、上記部分一致検索語候補とを利用して、検索語候補選定対話を実行する。 The dialogue control unit 306 executes a search word candidate selection dialogue using the actual search word candidates and the partial match search word candidates.
すなわち、実在検索語候補リスト中の検索語候補が、利用者との確認処理のみで、検索語特定可能な検索装置の規定条件を満たす場合は、確認処理ガイダンスの出力命令を、音声出力部307へ送る。
That is, if the search word candidate in the actual search word candidate list satisfies the specified conditions of the search device that can specify the search word only by the confirmation process with the user, the
逆に、実在検索語候補リスト中の検索語候補が、利用者との確認処理のみでは、検索語特定可能な条件を満たさない場合(S321)、または実在検索語候補が抽出されない場合は、それら部分一致検索語候補を利用して、音声入力部1に最初に入力された音声を、音声認識部303が、再度、音声認識処理し(S332)、認識尤度の算出を行う。
On the contrary, if the search word candidates in the real search word candidate list do not satisfy the conditions for specifying the search word only by the confirmation process with the user (S321), or if the real search word candidates are not extracted, Using the partial match search word candidate, the
そして、この算出された認識尤度が、利用者との確認処理のみで検索語特定可能な検索装置の規定状態を満たす場合(S321)は、確認処理ガイダンスの出力命令を音声出力部307へ送り、検索語候補を提示し、利用者Pに確認を求める(S322)。
When the calculated recognition likelihood satisfies the specified state of the search device that can specify the search word only by the confirmation process with the user (S321), an output command of the confirmation process guidance is sent to the
確認処理のみで特定可能な検索語候補が、実在検索語候補からも、部分一致検索語候補を利用した部分一致検索語処理からも抽出されない場合(S321)は、この時点で、認識処理を終了し、使用頻度が次に高い構成名詞集合群について(S311)、認識処理の結果得られた有力構成名詞候補を利用し(S312、S313)、実在検索語候補リストと部分一致検索語リストとを更新し(S314)、検索語候補選定対話と、部分一致検索語処理とを繰り返す(S315)。 If the search word candidate that can be specified only by the confirmation process is not extracted from the actual search word candidate or the partial match search word process using the partial match search word candidate (S321), the recognition process is terminated at this point. Then, for the constituent noun set group having the second highest usage frequency (S311), the effective constituent noun candidates obtained as a result of the recognition process are used (S312 and S313), and the real search word candidate list and the partial match search word list are obtained. Update (S314), and repeat the search word candidate selection dialogue and the partial match search word processing (S315).
音声出力部307は、確認処理ガイダンス出力命令を受けた場合は、利用者に検索語候補と指定された候補について正誤確認を行うガイダンスを出力する。
When the
そして、確認処理ガイダンスに対する応答が、音声入力部302から再び入力されると、音声認識部303は、YES/NOデータベース383を参照し、利用者の応答を認識し、音声認識結果出力部304から認識結果を出力し、利用者から、肯定を表す応答を得ることができた場合(S315)は、検索語特定が完了した旨を利用者へガイダンスする命令を、対話制御部306が音声出力部307へ送る。
Then, when a response to the confirmation processing guidance is input again from the voice input unit 302, the
検索語が特定できるまで、検索語候補リストの更新(S314)と、検索語候補選定対話と、部分一致検索語処理(部分一致検索語候補を検索データベース381から抽出し、この抽出された部分一致検索語候補を構成する単名詞の尤度の合計尤度である部分一致尤度を計算する処理)とを繰り返す。
Until the search term can be identified, the search word candidate list is updated (S314), the search word candidate selection dialogue, and the partial match search word processing (partial match search word candidates are extracted from the
検索補助データベース382中の全ての構成名詞集合群に対する認識処理が終了し、実在検索語候補リストをそれ以上更新不可能な場合(S315)は、対話制御部306は、実在検索語候補リストの上位から、検索語候補を利用者に提示するガイダンス出力命令を、音声出力部307へ送る。
When the recognition process for all the constituent noun sets in the search
すなわち、検索装置301は、実在検索語候補リストの更新と検索語候補選定対話とが行われている間、優先認識対象名詞群以外の構成名詞集合群の少なくとも1集合(規定数からなる集合1つ分)について、認識処理が終了しているように構成名詞数を規定する。 That is, the search device 301 updates at least one set of constituent noun sets other than the priority recognition target noun group (set 1 consisting of a specified number) during the update of the actual search word candidate list and the search word candidate selection dialogue. The number of constituent nouns is defined so that the recognition process is completed.
次に、検索装置301の動作をより具体的に説明する。 Next, the operation of the search device 301 will be described more specifically.
これら有力構成名詞候補を利用して、実在検索語候補リスト作成処理を行うが、2番目表記の単名詞に関する第1サブ集合群Gc2−1については、「東急」に関する有力構成名詞候補が選択されていないので、検索装置301は、第1サブ集合群Gc1−1、Gc3−1に対する認識処理が終了次第、部分一致検索処理を行う。 Using these influential constituent noun candidates, the actual search word candidate list creation process is performed. For the first sub-group Gc2-1 relating to the second notation single noun, the influential constituent noun candidate relating to “Tokyu” is selected. Therefore, the search device 301 performs a partial match search process as soon as the recognition process for the first sub-groups Gc1-1 and Gc3-1 is completed.
つまり、1番目の単名詞である1番目表記の単名詞集合群Gc1中の第1サブ集合群Gc1−1における有力構成名詞候補「横浜」または「横須賀」を、1番目の単名詞に持つ検索語候補であって、3番目の単名詞である3番目表記の単名詞集合群Gc3中の第1サブ集合群Gc3−1における有力構成名詞候補「ホテル」または「ホール」を、3番目の単名詞に持つ検索語候補を、検索データベース381から検索する。
That is, the search which has the prominent constituent noun candidate "Yokohama" or "Yokosuka" in the 1st subgroup Gc1-1 in the 1st single noun group Gc1 which is the 1st single noun in the 1st single noun A candidate word “hotel” or “hall” in the first sub-set group Gc3-1 in the third-notation single-noun set group Gc3 that is the third single noun is designated as the third single noun. Search word candidates for nouns are searched from the
図33(1)は、検索装置301において、部分一致検索語候補と部分一致尤度との例を示す図である。 FIG. 33A is a diagram illustrating an example of partial match search word candidates and partial match likelihoods in the search device 301.
検索装置301において、「横浜/グランド/ホテル」、「横浜/東急/ホテル」「横浜/東武/ホテル」、「横須賀/セントラル/ホテル」、「横浜/セントラル/ホール」、「横浜/グランド/ホール」、「横浜/音楽/ホール」、「横浜/中央/ホール」、「横須賀/芸術/ホール」の9候補が、部分一致検索語候補として、検索されている。 In the search device 301, “Yokohama / Grand / Hotel”, “Yokohama / Tokyu / Hotel”, “Yokohama / Tobu / Hotel”, “Yokosuka / Central / Hotel”, “Yokohama / Central / Hall”, “Yokohama / Grand / Hall” ”,“ Yokohama / Music / Hall ”,“ Yokohama / Chuo / Hall ”, and“ Yokosuka / Art / Hall ”are searched as partial match search word candidates.
上記例において、たとえば「横浜/グランド/ホテル」のうちで、「横浜」と「ホテル」とが、図32に示すように、有力構成名詞候補であり、「グランド」が有力構成名詞候補ではない。つまり、「横浜/グランド/ホテル」のうちで、一部の単名詞のみが有力構成名詞候補であり、したがって、「横浜/グランド/ホテル」は、部分一致検索語候補である。 In the above example, for example, among “Yokohama / Grand / Hotel”, “Yokohama” and “Hotel” are potential constituent noun candidates as shown in FIG. 32, and “Grand” is not a potential constituent noun candidate. . In other words, in “Yokohama / Grand / Hotel”, only some simple nouns are possible constituent noun candidates, and therefore “Yokohama / Grand / Hotel” is a partial match search word candidate.
また、たとえば「横浜/グランド/ホテル」のうちで、「横浜」の認識尤度が、図32に示すように95であり、「ホテル」の認識尤度が、図32に示すように88であり、これら有力構成名詞候補の各認識尤度を加算した値(95+88=183)である183が部分一致尤度である。 For example, in “Yokohama / Grand / Hotel”, the recognition likelihood of “Yokohama” is 95 as shown in FIG. 32, and the recognition likelihood of “Hotel” is 88 as shown in FIG. Yes, 183 which is a value (95 + 88 = 183) obtained by adding the respective recognition likelihoods of these prominent constituent noun candidates is the partial match likelihood.
検索装置301において、部分一致尤度における閾値(第2の閾値)が、130であるとする。 In the search device 301, it is assumed that the threshold value (second threshold value) in the partial match likelihood is 130.
そして、これら9候補を認識対象として、最初の入力検索語に対する音声認識処理を、音声認識部303において、再度、実行する。
Then, the speech recognition process for the first input search word is executed again by the
この結果、図33(2)に示すように、「横浜/東急/ホテル」、「横浜/東武/ホテル」の検索語認識尤度が、それぞれ、95、81であり、上記閾値(第2の閾値)である80を超え、したがって、「横浜/東急/ホテル」、「横浜/東武/ホテル」が検索語候補として抽出さる。上位から提示確認を行うことによって、検索語特定が完了する。 As a result, as shown in FIG. 33 (2), the search word recognition likelihoods of “Yokohama / Tokyu / Hotel” and “Yokohama / Tobu / Hotel” are 95 and 81, respectively. The threshold value) exceeds 80. Therefore, “Yokohama / Tokyu / Hotel” and “Yokohama / Tobu / Hotel” are extracted as search word candidates. The search term identification is completed by confirming the presentation from the top.
検索装置301において、上記部分一致検索語処理の結果について、利用者との確認処理のみで検索語確定可能か否かの判断基準は、複合名詞検索装置が予め規定した閾値と、検索語認識尤度とを比較し、再認識された結果についての閾値(第3の閾値)が80であるとした場合、第3の閾値80を越える検索語認識尤度を持つ検索語候補が、確認処理のみで検索語確定可能な条件を満たすと判断する。
In the search device 301, the criteria for determining whether or not the search word can be determined only by the confirmation process with the user for the result of the partial match search word processing are the threshold value specified in advance by the compound noun search device and the search word recognition likelihood. When the threshold value (third threshold value) for the re-recognized result is 80, the search word candidate having the search word recognition likelihood exceeding the
したがって、検索装置301において、再認識後において、確認処理のみで検索語確定可能な条件を満たす検索語候補は、図33(2)に示すように、「横浜/東急/ホテル」、「横浜/東武/ホテル」である。 Therefore, in the search device 301, after re-recognition, the search word candidates that satisfy the search word determinable condition only by the confirmation process are “Yokohama / Tokyu / Hotel”, “Yokohama / Tobu / Hotel.
検索装置301では、実在検索語リスト作成処理、検索語候補選定対話を行っている間を利用して、残りの構成名詞について認識処理するだけでなく、部分一致尤度を利用した部分一致検索語処理を行う。 In the search device 301, not only the remaining constituent nouns are recognized using the real search word list creation process and the search word candidate selection dialogue, but also the partial match search words using the partial match likelihood. Process.
部分一致検索語処理の結果、算出した部分一致尤度を利用して、検索語候補選定対話を行う。規定閾値(第3の閾値)を超える部分一致尤度を有する検索語候補が存在しない場合、または、部分一致検索語処理の結果、選定される検索語候補が存在しない場合は、第2サブ集合群について認識した結果を利用した実在検索語リスト作成処理、検索語候補選定対話を続ける。これと同時に、有力構成名詞リストを更新しながら、部分一致検索語処理、その結果に対する検索語候補選定対話を繰り返す。 As a result of the partial match search word processing, a search word candidate selection dialogue is performed using the calculated partial match likelihood. When there is no search word candidate having a partial match likelihood exceeding the specified threshold (third threshold), or when there is no search word candidate to be selected as a result of the partial match search word processing, the second sub-set Continue the actual search word list creation process and search word candidate selection dialogue using the results recognized for the group. At the same time, while updating the powerful constituent noun list, the partial match search word processing and the search word candidate selection dialogue for the result are repeated.
検索装置301において、第2サブ集合群Gc2−2に単名詞「東急」が含まれているので、第2サブ集合群について認識した結果を利用した実在検索語リスト作成処理を行うと、選定される検索語候補が存在するようになる。一方、部分一致検索語処理の結果、算出した部分一致尤度を利用して、検索語候補選定対話を行い、規定閾値(第3の閾値)を超える部分一致尤度を有する検索語候補が存在するようになる。この場合、これら2つの結果をマージするようにしてもよい。 In the search device 301, since the single noun “Tokyu” is included in the second subset group Gc2-2, it is selected when the real search word list creation process using the result recognized for the second subset group is performed. Search term candidates exist. On the other hand, as a result of the partial match search word processing, a search word candidate selection dialogue is performed using the calculated partial match likelihood, and there is a search word candidate having a partial match likelihood exceeding a specified threshold (third threshold). To come. In this case, these two results may be merged.
検索装置301は、構成順序毎の構成名詞の集合群に対する認識結果に基づいて実在検索語リスト作成処理を行う際、同時に、検索装置が予め定めた条件を満たす有力構成名詞候補における部分的な情報を利用した部分一致検索語リストの作成処理を行う。すなわち、有力構成名詞候補を利用して部分一致尤度を算出し、規定閾値以上の部分一致尤度を有する検索語を抽出し、この抽出された検索語を、認識対象と定め、最初に入力された検索語の認識処理を、再度実行し、認識尤度を算出する。 When the search device 301 performs the real search word list creation process based on the recognition result for the set group of the constituent nouns for each constituent order, at the same time, partial information on the potential constituent noun candidates that satisfy the conditions predetermined by the search device Create a partial match search term list using That is, the partial match likelihood is calculated by using the prominent constituent noun candidates, the search word having the partial match likelihood equal to or higher than the predetermined threshold is extracted, the extracted search word is determined as the recognition target, and is input first. The recognition process of the search term is executed again to calculate the recognition likelihood.
算出された認識尤度が、利用者との確認処理のみで検索語を特定することができる条件を満たすと判断できる場合は、検索語候補選定対話を行う。規定閾値以上の部分一致尤度を有する検索語候補が存在しない場合、または、検索語候補選定対話の結果、選定される検索語候補が存在しない場合は、残りの各第n構成名詞集合群について認識処理した結果、更新された有力構成名詞候補を利用し、実在検索語リスト作成処理と、検索語候補選定対話と、部分一致検索語処理と、検索語候補選定対話とを繰り返す。 When it is determined that the calculated recognition likelihood satisfies the condition for specifying the search word only by the confirmation process with the user, a search word candidate selection dialogue is performed. When there is no search word candidate having a partial match likelihood equal to or greater than the specified threshold value, or when no search word candidate to be selected exists as a result of the search word candidate selection dialogue, for each remaining nth component noun set group As a result of the recognition process, the updated effective constituent noun candidates are used, and the actual search word list creation process, the search word candidate selection dialog, the partial match search word processing, and the search word candidate selection dialog are repeated.
このように、構成名詞の部分的情報を利用することによって、各構成名詞の偏りに左右されずに、正確かつ迅速に、検索処理を実行することができる。 As described above, by using the partial information of the constituent nouns, the search process can be executed accurately and quickly without being influenced by the bias of the constituent nouns.
ところで、実際には、検索語を構成する各単名詞の全てが高頻度であることが少なく、また、検索語を構成する各単名詞の全てが低頻度であることが少なく、頻度に偏りがある場合が多く、各単名詞のうちで、高頻度で使用される単名詞は、第1サブ集合群に設定されるので、最初の認識処理結果で出力されるが、使用頻度の低い単名詞は、その単語が含まれるサブ集合群についての認識処理が行われるまで、認識結果として出力されないので、規定閾値以上の尤度を有する各構成名詞候補の組み合わせを作成し、実在する検索語候補を抽出しても、正解は存在しない。 By the way, in practice, all the single nouns constituting the search word are rarely frequent, and all the single nouns constituting the search word are rarely infrequent, and the frequency is biased. There are many cases, and among each single noun, single nouns that are used frequently are set in the first sub-set group, so they are output as the first recognition processing result, but single nouns that are used less frequently Is not output as a recognition result until the recognition processing for the subset group including the word is performed. Therefore, a combination of each constituent noun candidate having a likelihood equal to or greater than a predetermined threshold is created, and an actual search word candidate is selected. Even if it is extracted, there is no correct answer.
そこで、検索装置301では、全部を認識対象に定めて実時間内に正しく認識処理することが不可能である大語彙検索語の中から、部分的に有力構成名詞を含む検索語を、部分一致検索語候補として検索データベース381から抽出することによって、有力候補を絞込むことができる。この絞込みによって、利用者を待機させることなく、検索処理が可能になる。
Therefore, the search device 301 partially matches a search word partially including a prominent constituent noun from large vocabulary search words that cannot be recognized and processed correctly in real time by setting all of them as recognition targets. By extracting from the
つまり、検索装置301によれば、単名詞の部分的情報を併用することによって、正解検索語を絞り込み、さらに、認識精度を認識速度とを向上させることができる。 That is, according to the search device 301, by using partial information of single nouns together, it is possible to narrow down the correct search word and further improve the recognition accuracy and the recognition speed.
図31に示すフローチャートにおいて、ステップS303の後に、ステップS321に進むルートとは別に、ステップS311に進むルートと、ステップS331に進むルートとが破線で示されている。これは、ステップS321〜S323のルーチンと、ステップS311〜S315のルーチンと、ステップS331、S332のルートとが並行処理されるという意味である。 In the flowchart shown in FIG. 31, after step S303, apart from the route proceeding to step S321, the route proceeding to step S311 and the route proceeding to step S331 are indicated by broken lines. This means that the routine of steps S321 to S323, the routine of steps S311 to S315, and the routes of steps S331 and S332 are processed in parallel.
また、検索装置301を、プログラムの発明として把握することができる。 Further, the search device 301 can be grasped as a program invention.
つまり、検索装置301は、検索語を構成する複数の単名詞のうちで一部の単名詞のみの尤度が第1の所定の閾値を超える場合、上記第1の閾値を超える尤度を具備する上記単名詞を備え、上記検索語を構成する単名詞と同じ数の単名詞を備えている部分一致検索語候補を、検索データベースから抽出する部分一致検索語候補抽出手順と、上記抽出された部分一致検索語候補を構成する各単名詞の尤度を所定の演算方法で演算して部分一致尤度を計算する部分一致尤度計算手順と、上記計算された部分一致尤度が、所定の第2の閾値を超えている検索語候補について、音声認識処理を行う部分一致検索語候補用音声認識処理手順とをコンピュータに実行させるプログラムの例である。 That is, the search device 301 has a likelihood that exceeds the first threshold when the likelihood of only some of the single nouns constituting the search word exceeds the first predetermined threshold. A partial match search word candidate extraction procedure for extracting a partial match search word candidate from the search database, the partial match search word candidate having the same number of single nouns as the single noun constituting the search word, and the extracted The partial match likelihood calculation procedure for calculating the partial match likelihood by calculating the likelihood of each single noun constituting the partial match search word candidate by a predetermined calculation method, and the calculated partial match likelihood It is an example of the program which makes a computer perform the speech recognition processing procedure for partial matching search word candidates which performs a speech recognition process about the search word candidate exceeding the 2nd threshold value.
また、検索装置301は、複数の単名詞で構成されている複合名詞が検索語として登録され、しかも、上記検索語が各単名詞に区切られて登録されている検索データベースと、上記登録されている各複合名詞のn番目(nは整数値)に表記されている単名詞の群を、n番目表記の単名詞集合群と呼び、上記n番目表記の単名詞集合群が、その頻度の高い順に登録され、しかも、この頻度の高い順に登録されている単名詞が、その頻度の高い方から順に、所定の数毎にまとめられ、複数のサブ集合群が形成されている検索補助データベースとを使用して、複合名詞を検索するプログラムであって、利用者が上記検索語である複合語を単名詞毎に入力すると、上記複合名詞のn番目表記の単名詞については、上記n番目表記の単名詞集合群で認識し、しかも上記n番目表記の単名詞集合群のうちで、最も頻度が高い単名詞を含む第1サブ集合群の範囲内で認識処理し、認識尤度を対応させて、認識結果リストを作成する認識結果リスト作成手順と、上記認識処理された単名詞である構成名詞候補と、上記構成名詞候補についての認識尤度との組が認識尤度順に並べられている認識結果リストを、上記音声入力された単名詞のそれぞれについて作成し、上記認識結果リストに記載されている構成名詞候補のうちで、所定の第1の閾値を超える認識尤度を具備する構成名詞候補を、有力構成名詞候補として選出する有力構成名詞候補選出手順と、上記検索語を構成する複数の単名詞のうちで一部の単名詞のみの尤度が上記第1の所定の閾値を超える場合、上記第1の閾値を超える尤度を具備する上記単名詞を備え、上記検索語を構成する単名詞と同じ数の単名詞を備えている部分一致検索語候補を、上記検索データベースから抽出する部分一致検索語候補抽出手順と、上記抽出された部分一致検索語候補を構成する各単名詞の尤度を所定の演算方法で演算して部分一致尤度を演算する部分一致尤度演算手順と、上記演算された部分一致尤度が、所定の第2の閾値を超えている上記部分一致検索語候補について、音声認識処理を行う部分一致検索語候補用音声認識処理手順とをコンピュータに実行させるプログラムの例である。 Further, the search device 301 includes a search database in which compound nouns composed of a plurality of single nouns are registered as search terms, and the search terms are registered by dividing each single noun into the search nouns. A group of single nouns written in the nth (n is an integer value) of each compound noun is called an nth single noun set group, and the nth single noun set group has a high frequency. A single noun that is registered in order and that is registered in order from the highest frequency is collected into a predetermined number in order from the highest frequency, and a search auxiliary database in which a plurality of sub-set groups are formed A compound noun search program, when a user inputs a compound word that is the search word for each single noun, the n-th notation of the compound noun Recognized by a single noun group In addition, a recognition result list is created by performing recognition processing within the range of the first sub-set group including the most frequent single noun among the n-th notation single-noun set group, and corresponding the recognition likelihood. The speech input is a recognition result list in which a set of a recognition result list, a constituent noun candidate that is a single noun subjected to the recognition processing, and a recognition likelihood for the constituent noun candidate are arranged in order of recognition likelihood. Among the constituent noun candidates that are created for each single noun and are listed in the recognition result list, a constituent noun candidate having a recognition likelihood exceeding a predetermined first threshold is set as a potential constituent noun candidate. When the probable constituent noun candidate selection procedure to be selected and the likelihood of only some of the single nouns constituting the search word exceeds the first predetermined threshold, the first threshold is set to Has a likelihood that exceeds A partial match search word candidate extraction procedure for extracting partial match search word candidates from the search database, the partial match search word candidates having the same number of single nouns as the search words. The partial match likelihood calculation procedure for calculating the partial match likelihood by calculating the likelihood of each single noun constituting the partial match search word candidate by a predetermined calculation method, and the calculated partial match likelihood This is an example of a program that causes a computer to execute a partial matching search word candidate speech recognition processing procedure for performing speech recognition processing on the partial matching search word candidate exceeding the second threshold.
なお、商品配送サービスや、電話番号検索や郵便番号検索等における入力インタフェース部分において、検索装置301で行った法人名義の確定作業を、幅広く適用することができる。 It should be noted that the corporate name determination work performed by the search device 301 can be widely applied to the input interface portion in the product delivery service, telephone number search, postal code search, and the like.
図34は、本発明の第6の実施例である音声対話型音声対話型検索装置401を示すブロック図である。
FIG. 34 is a block diagram showing a voice interactive voice
この音声対話型検索装置401は、音声入力部402と、音声識別部403と、対話制御部404と、音声出力部405と、音声出力用ソフトウェア405Sと、音声認識装置406と、システムデータベース408とによって構成されている。
The voice
音声識別部403は、音声認識部431と、認識結果調整部432とによって構成されている。
The voice identification unit 403 includes a
音声識別部403では、音声認識装置406を使用し、音声出力部405では、音声出力用ソフトウェア405Sを使用している。また、音声識別部403での入力音声に対する音声認識処理と、対話制御部404とは、システムデータベース408を使用する。
The voice recognition unit 403 uses a
システムデータベース408は、検索対象である検索情報を記録した検索情報データベース481、拍データベース482,YES/NOデータベース483によって構成されている。
The
図35は、音声対話型検索装置401で使用されている検索情報データベース481の全体像の一例を示す図である。
FIG. 35 is a diagram showing an example of the entire image of the
検索情報データベース481には、検索対象である検索情報そのものが記録されている。
The
第36図は、音声対話型検索装置401で使用されている拍データベース482の一例を示す図である。
FIG. 36 is a diagram showing an example of the
拍データベース482には、検索対象である検索情報を、所定の方法で、先頭拍、2番目拍、3番目拍、……と、分割する。そして、先頭拍だけを取り出し、この取り出された先頭拍を、使用頻度順に並べ、各先頭拍に続く2番目拍を、使用頻度の高い順に並べ、各2番目拍に続く3番目拍を、使用頻度の高い順に並べ、これら並べた拍を、拍データベース482に格納する。
In the
対話処理実時間内に処理することができない大語彙によって検索情報データベース481が構成されている場合、拍データベース482を構成する各拍について、所定の対話処理実時間内に処理可能な数として、所定の数を定める。
When the
音声識別部403では、音声認識装置406を用いて、ユーザ入力について、認識処理する。音声認識装置406は、検索装置の処理の場面に合わせて、認識対象とするデータベースを、システムデータベース408から選択する。すなわち、ユーザが検索情報入力した場合、拍データベース482を参照し、候補の提示に対してユーザが応答した場合に、YES/NOデータベース483を参照する。
The voice identification unit 403 uses the
利用者が、検索対象である検索情報を入力すると、この入力された検索情報が、音声識別部403に送られる。音声識別部403では、音声認識部431が、拍データベース482に格納されている先頭拍について認識処理し、この認識処理結果を、認識結果調整部432へ送る。認識結果調整部432は、先頭拍の認識結果に基づいて、所定のスコア以上のスコアを有する先頭拍である有力先頭拍を抽出し、音声識別部403へ情報を送付する。
When the user inputs search information to be searched, the input search information is sent to the voice identification unit 403. In the voice identification unit 403, the
音声認識部431は、2番目拍認識対象に、上記各有力先頭拍に繋がる頻度が高い2番目拍の候補を、優先的に認識処理し、これと同様に、3番目拍、4拍目、……と、最後の拍まで、認識結果調整部432との間で情報やりとりをしながら、候補を絞込む。
The
対話制御部404は、送られてきた認識結果に対して、各拍の認識結果スコアを加算する等によって、トータルスコアを算出し、この算出されたトータルスコアが、利用者が確認処理するのみで確定可能であるスコアに達していると、検索装置401が判断すれば、ユーザに提示確認を行うように、音声出力部2に命令する。
The
そして、上記提示に対する正誤の応答の入力を、ユーザに求め、Yesという応答が認識できた時点で、検索は成功になる。 The search is successful when the user is prompted to input a correct / incorrect response to the presentation and the response of Yes is recognized.
確認処理するに値しないと判断された場合、音声識別部403に保管されている各拍の認識結果に基づいて、先頭拍のうちで、認識スコアの高い順に、提示するために、音声出力部405に、先頭拍候補の提示を指示する。
When it is determined that it is not worthy of the confirmation processing, based on the recognition result of each beat stored in the voice identification unit 403, a voice output unit is provided to present the first beat in the order of recognition score. In
先頭拍の提示に対する正誤の応答の入力を求め、Yesという応答が認識できたら、音声識別部403は、確定した先頭拍に続く2番目拍について、使用頻度の高い順に、優先的に認識処理し、上記と同様に、2番目拍を確定しというように、順次認識対象を絞込みながら、検索対象である検索情報を確定する。 When a correct / incorrect response to the presentation of the first beat is requested and a response of “Yes” is recognized, the voice identification unit 403 recognizes the second beat following the confirmed first beat in a descending order of frequency of use. In the same manner as described above, the search information as the search target is determined while narrowing down the recognition targets sequentially, such as determining the second beat.
提示確認に対するユーザの応答の際、音声認識部431は、YES/NOデータベース483を認識対象として、ユーザ応答を認識する。
When the user responds to the presentation confirmation, the
次に、個人姓の確定をタスクとする入力インタフェースに、音声対話型検索装置401を適用した場合における情報検索動作について、具体的に説明する。
Next, the information search operation when the voice
この場合における検索情報は、個人姓である。日本全国の個人姓の種類は、18万種類存在する。 The search information in this case is a personal surname. There are 180,000 personal surnames in Japan.
図37は、音声対話型検索装置401における検索情報データベース481の具体例を示す図である。
FIG. 37 is a diagram showing a specific example of the
この具体例において、個人姓を、拍で分割する場合、姓を漢字表記したときに、漢字1文字の読みを1拍と数えるようにして分割する。 In this specific example, when an individual surname is divided by a beat, when the surname is expressed in Kanji, it is divided so that the reading of one Kanji character is counted as one beat.
図38は、音声対話型検索装置401における拍データベース482の一例を示す図である。
FIG. 38 is a diagram showing an example of the
先頭拍の種類数は、3000種類あり、使用頻度の高い順に、拍データベース482に格納され、第39図に示すように、先頭拍のそれぞれについて、それに続く2番目拍を、使用頻度の高い順に格納し、これと同様に、2番目拍のそれぞれについて、2番目拍に続く3番目拍を、使用頻度の高い順に格納し、……というようにして、拍データベース482を作成する。
There are 3000 types of first beats, which are stored in the
ところで、音声認識技術の現状は、個人姓18万件について一括認識処理すると、膨大な認識処理時間を必要とし、また、非常に似通った姓が多く存在するので、認識精度が非常に低い。特に、18万件の認識対象数について、利用者が不自然を感じない時間内に認識処理を終了し、ある程度の精度を持った応答を返すことは、不可能であることが知られている。 By the way, the current state of speech recognition technology requires enormous recognition processing time when batch recognition processing is performed for 180,000 individual surnames, and there are many very similar surnames, so the recognition accuracy is very low. In particular, for 180,000 recognition targets, it is known that it is impossible to end the recognition process and return a response with a certain degree of accuracy within a time when the user does not feel unnatural. .
音声対話型検索装置401において、音声入力された検索情報について、認識した各拍の結果から有力候補を抽出する場合、認識スコアと閾値とを比較し、閾値を越える認識スコアを持つ候補を、有力候補と定める。これと同様に、ユーザが確認処理するのみで検索情報を特定することが可能であるか否かを判断する場合、検索対象である検索情報について計算されたトータルスコアが、閾値を超えれば、ユーザが確認処理するのみで検索情報を特定することが可能であると判断する。
In the voice
次に、音声対話型検索装置401について、より具体的に説明する。
Next, the voice
図39は、音声対話型検索装置401における検索情報を確定する動作を示すフローチャートである。
FIG. 39 is a flowchart showing an operation of determining search information in the voice
ユーザが「まつもと」を音声入力し(S401)、この音声入力された「まつもと」を、確定する場合の動作について説明する。 An operation when the user inputs “Matsumoto” by voice (S401) and the inputted “Matsumoto” is confirmed will be described.
ユーザによる音声入力について、拍データベース482中の先頭拍候補を、使用頻度の高い順に、優先的に認識処理する(S402)。
For voice input by the user, the leading beat candidate in the
図40は、音声対話型検索装置401において、ユーザが音声入力した検索情報を構成する先頭拍に対応する拍データベース482中の先頭拍候補を、使用頻度の高い(スコアが多い)順に並べ、この並べられた先頭拍候補のうちで、所定の数の先頭拍を、優先的に認識処理し、この認識理結果を示す図である。
In FIG. 40, in the voice
ここで、有力先頭拍としての閾値が80であると定めた場合、「ます」、「まつ」、「まさ」が、有力先頭拍として抽出される(S403)。 Here, when it is determined that the threshold value as a leading first beat is 80, “mas”, “matsu”, and “masa” are extracted as leading leading beats (S403).
これら各有力先頭拍に繋がる2番目拍候補を認識対象とし(S404)、上記2番目拍候補を、使用頻度の高い(スコアが多い)順に並べ、この並べられた2番目拍候補のうちで、所定の数の2番目拍を、優先的に認識処理する(S405)。 The second beat candidate connected to each leading first beat is set as a recognition target (S404), the second beat candidates are arranged in the order of frequency of use (the score is large), and among the arranged second beat candidates, A predetermined number of second beats are preferentially recognized (S405).
音声対話型検索装置401において、抽出された2番目拍候補を、図38に示してある。
The extracted second beat candidates in the voice
先頭拍候補(1番目拍)である「ます」に繋がり、頻度が最も高い2番目拍候補が「だ」であり、最優先順位であり、2番目の先頭拍候補である「まつ」に繋がり、頻度が最も高い2番目拍候補が「もと」であり、3番目の先頭拍候補である「まさ」に繋がり、頻度が最も高い2番目拍候補が「もと」であり、先頭拍候補である「ます」に繋がり、頻度が2番目に高い2番目拍候補が「た」であり、先頭拍候補である「まつ」に繋がり、頻度が2番目に高い2番目拍候補が「ざか」であり、……というように、2番目拍候補に対する認識処理を行う。 Connected to the first beat candidate (first beat) “mas”, the second most frequent beat candidate is “da”, the highest priority, and the second leading beat candidate “matsu” The second beat candidate with the highest frequency is “Moto”, which leads to “Masa”, the third first beat candidate, and the second beat candidate with the highest frequency is “Moto”. The second beat candidate with the second highest frequency is “Ta”, and the second beat candidate with the second highest frequency is “Zaka”. Then, recognition processing for the second beat candidate is performed.
そして、音声入力された検索情報の終端まで認識されていない場合、続けて認識処理を実行する(S406)。 If the end of the search information input by voice is not recognized, the recognition process is subsequently executed (S406).
図41は、音声対話型検索装置401において、先頭拍有力候補の認識結果であるスコアと、2番目拍候補の認識結果であるスコアとの統合結果(トータルスコア)を示す図である。
FIG. 41 is a diagram illustrating an integration result (total score) of a score that is a recognition result of the leading beat candidate and a score that is a recognition result of the second beat candidate in the voice
これらの結果が、対話制御部404へ送られ、先頭拍のスコアと2番目拍のスコアとのトータルスコアを算出し(S407)、確認処理のみで確定可能であるか否かを判断する(S411)。上記例においては、各拍の認識スコアを加算してトータルスコアを求め、ユーザが確認処理するのみで検索情報の確定が可能であると判断する閾値を160と定め、トータルスコアが上記閾値160を超えている検索情報候補を抽出する。
These results are sent to the
この結果、検索情報候補「まつもと」、「まさもと」、「まつのと」、……のうちで、閾値160を超える検索情報候補は、「まつもと」1候補であり、この検索情報候補「まつもと」について、ユーザに確認提示を行う(S412)。ユーザから、Yesの応答が得られると(S413)、検索、確定が終了する。 As a result, among the search information candidates “Matsumoto”, “Masamoto”, “Matsuto”,..., The search information candidate exceeding the threshold 160 is one “Matsumoto” candidate, and this search information candidate “ “Matsumoto” is confirmed and presented to the user (S412). When a Yes response is obtained from the user (S413), the search and determination are completed.
音声対話型検索装置401によれば、検索情報を構成する拍の使用頻度を考慮し、しかも、その拍同士の繋がりやすさを考慮しているので、認識対象が大語彙である場合でも、実時間内に処理可能である。また、ユーザにとって許容範囲と思われる精度を持った応答が可能な認識対象数づつ、認識処理を並行して行う(S421〜S427、S431)ことによって、待機時間によるユーザのストレス、誤認識によるユーザのストレスが軽減される。
According to the speech
個人姓は、非常に種類数が多く、似通った候補が多いが、この個人姓の認識は、コールセンタ受付け業務や、商品配送サービス等、幅広くカスタマケア全般で利用可能である。 There are many types of personal surnames, and there are many similar candidates. However, the recognition of personal surnames can be used in a wide range of customer care such as call center accepting operations and product delivery services.
音声対話型検索装置401は、認識対象語彙である検索情報を拍毎に分解し、拍毎に認識処理を施し、その際、全ての拍を均一に扱うのではなく、使用頻度の高い拍は、より発話される可能性が高いという予測のもとに、使用頻度の高いものほど優先して認識し、この場合、優先する方法としては認識結果に対して重み付けをする等の方法が考えられる。
The voice
加えて、拍同士の接続可能性と接続頻度とを利用して2番目拍、3番目拍に対しては、1つ前の拍毎に、次に繋がる拍のみを使用頻度の高い順に並べ、認識処理を前方拍から順に行うことによって、1つ前の拍に対する認識結果に基づいて、有力先頭拍として抽出された先頭拍に対して記録された2番目拍のみを、使用頻度の高い順に優先順位をつけ、認識対象と定め、認識処理を行い、同様に3番目拍、4番目拍、……、のように、最後の拍まで認識処理を続ける。 In addition, for the second beat and the third beat using the connectability between beats and the connection frequency, only the next connected beat is arranged in order of the highest use frequency for each previous beat, By performing recognition processing in order from the previous beat, only the second beat recorded for the first beat extracted as the leading first beat is prioritized in descending order of frequency of use based on the recognition result for the previous beat. A rank is assigned, it is determined as a recognition target, and recognition processing is performed. Similarly, the recognition processing is continued until the last beat such as the third beat, the fourth beat,.
万が一、前方拍の有力候補抽出を誤り、正解候補を導けない場合は、前方拍より順に確定することによって、拍の階層構造を利用した絞込み対話を進める機能を持ち、検索情報そのものを認識処理するよりも、性能良く効率的に、候補を絞込むことが期待できる。 In the unlikely event that the leading candidate is mistakenly extracted and the correct candidate cannot be derived, by confirming in order from the leading beat, it has the function of advancing the narrowing dialogue using the hierarchical structure of the beat, and the search information itself is recognized and processed Can be expected to narrow down candidates more efficiently and efficiently.
また、検索情報データベースが、対話処理実時間内に処理不可能な大語彙から構成される場合は、実時間内に処理可能であり、しかも、ユーザにとって許容可能な精度をもった応答を返すことが可能な、予め規定された対象数を、使用頻度の高い順に優先認識対象と定め、認識処理する。 If the search information database consists of large vocabularies that cannot be processed within the real time of interactive processing, the search information database can be processed in real time, and a response with an accuracy acceptable to the user can be returned. The number of objects that can be defined in advance is determined as a priority recognition object in descending order of frequency of use, and recognition processing is performed.
有力先頭拍候補が抽出できたら、それに繋がる2番目拍に対して、実時間内処理可能な規定数を優先認識対象と定め認識処理を行い、同様に3番目、4番目の拍に対して認識処理を進め、トータルスコアを計算する、優先認識対象先頭拍に対する認識処理が終了した時点で、残りの使用頻度の高い先頭拍から実時間内に処理可能な規定数に対して認識処理をスタートさせる、そこから新たに有力先頭拍候補が抽出された場合は、それに繋がる2番目拍、3番目拍に対して、処理を続ける。 Once a potential leading beat candidate has been extracted, the specified number that can be processed in real time is determined as a priority recognition target for the second beat connected to it, and recognition processing is performed similarly for the third and fourth beats. Advance the process, calculate the total score, and when the recognition process for the first recognition target first beat is completed, start the recognition process for the specified number that can be processed in real time from the first frequently used first beat, If a new leading first beat candidate is extracted from there, the processing is continued for the second and third beats connected to it.
トータルスコアが算出できた時点で、ユーザが確認処理するのみで確定が可能であると判断できる候補が存在すれば、提示確認を行い、ユーザが確認処理するのみで確定が可能であると判断できる候補が存在しない場合は、その時点で、次に使用頻度が高い各拍の認識対象リストに対する認識処理結果が、並行処理(S421〜S425)によって出ているはずであるので、そのトータルスコアを見て(S426)、確定処理をするか否かを判断し(S411)、確定できるまで繰り返す(S431)ことによって、目的情報の確定を行う認識エンジンの精度を、検索方法によって補う音声対話型情報検索装置である。 At the time when the total score can be calculated, if there is a candidate that can be determined to be determined only by confirmation processing by the user, the candidate that can be determined by performing presentation confirmation and only confirmation processing by the user Is not present, at that time, the recognition processing result for the recognition target list of the next most frequently used beat should have been output by parallel processing (S421 to S425). In S426), it is determined whether or not the confirmation process is to be performed (S411), and the process is repeated until it can be confirmed (S431), whereby the accuracy of the recognition engine for confirming the target information is compensated by the search method by the speech interactive information retrieval apparatus. is there.
ユーザには、システム内部の処理状態が一切見えず、検索情報データベース中の検索情報に対して、一様に音声認識処理が行われ、結果が提示されるのと何ら変わりはない。したがって、ユーザに、不自然さとストレスとを感じさせずに、適切な時間内に、入力された検索情報に対して認識処理を行い、確度の高い精度で認識結果を提示することができる。 The user does not see the processing state inside the system at all, and the speech recognition process is uniformly performed on the search information in the search information database, and the result is presented. Therefore, without causing the user to feel unnaturalness and stress, the input search information can be recognized within an appropriate time, and the recognition result can be presented with high accuracy.
なお、拍の切り出し方には、次の方法がある。つまり、上記検索情報を平仮名表記した場合における平仮名1文字を1拍とする切り出し方(拗音(ッャ、ュ、ョ)、撥音、長音は前の平仮名と合わせて1拍と数える)、上記検索情報を平仮名表記した場合に、先頭から順に、所定の平仮名文字数毎に、1拍とする切り出し方(拗音、撥音、長音は、前の平仮名と合わせて1文字と数える)、構成平仮名数に応じて、1拍を構成する文字数を規定する切り出し方(たとえば、4文字からなる検索情報は、先頭から2文字毎に1拍と数え、3文字からなる検索情報は、先頭から1文字毎に1拍と数える等)、上記検索情報を漢字表記した場合に、漢字1文字の読みを1拍とする切り出し方がある。 There are the following methods for extracting beats. That is, in the case where the search information is written in hiragana, how to cut out one hiragana character as one beat (the roaring sound, the sound repellent, and the long sound are counted as one beat together with the previous hiragana), the search information In hiragana notation, starting from the beginning, for each predetermined number of hiragana characters, cut out to be 1 beat (stuttering, repelling, long sound is counted as one character together with the previous hiragana), depending on the number of constituent hiragana characters How to cut out the number of characters that make up one beat (for example, search information consisting of 4 characters counts as 1 beat every 2 characters from the top, search information consisting of 3 characters is 1 beat per character from the top When the search information is expressed in Kanji, there is a method of extracting one Kanji character as one beat.
つまり、音声対話型検索装置401は、検索対象である検索情報が格納されている検索情報データベースと、上記検索情報データベースに格納されている検索情報を分解して切り出された拍のうちで、上記各検索情報の先頭を構成する拍である先頭拍が、上記検索情報データベースの中で使用されている頻度順に格納され、上記先頭拍に続く拍についても、使用頻度順に格納されている拍データベースと、ユーザが検索情報を音声入力すると、上記拍データベース中の先頭拍について、上記検索情報データベースにおける使用頻度の高い拍から、優先的に認識処理する認識処理手段と、上記先頭拍を認識した結果、利用者が入力した拍である可能性が高い有力先頭拍であると判断した場合、上記有力先頭拍に繋がり、使用頻度が高い拍から、優先的に認識処理し、有力2番目拍を抽出し、上記検索情報を構成する最後の拍まで、認識処理を繰り返す認識処理繰り返し手段と、全ての拍に対する認識処理が終了した時点で、出力された検索情報毎に、トータルスコアを計算するトータルスコア計算手段と、ユーザが確認処理するのみで上記検索情報を特定できる条件を、上記トータルスコアが満たす場合、ユーザとの間で必要な対話を行い、上記検索情報を確定する対話手段とを有する音声対話型情報検索装置の例である。
That is, the speech
この場合、先頭拍と2番目拍とについて認識処理した結果、ユーザが確認処理するのみで上記検索情報を特定できる上記条件を、上記トータルスコアが満たさない場合、2番目拍の認識結果と3番目拍の認識結果とを統合している間に、残りの各拍について、使用頻度の高い順に、実時間内に処理可能な数を認識対象と定め、先頭拍から順に並行処理する並行処理手段を有する。 In this case, as a result of recognition processing for the first beat and the second beat, if the total score does not satisfy the above-mentioned condition that the user can specify the search information only by performing confirmation processing, the second beat recognition result and the third beat During the integration of the recognition results, the remaining number of beats is defined as the number of objects that can be processed in real time in order of frequency of use, and has parallel processing means for parallel processing in order from the first beat. .
また、この場合、上記並行処理手段は、ユーザが確認処理する場合、確認処理の質疑応答時間内に残りの対象について並行処理を行う手段である。しかも、ユーザが確認処理しない場合、認識処理に要する時間を考慮して、認識対象として選択する各拍数を決定する。 In this case, the parallel processing means is means for performing parallel processing on the remaining objects within the question and answer time of the confirmation processing when the user performs confirmation processing. In addition, when the user does not perform the confirmation process, the number of beats to be selected as the recognition target is determined in consideration of the time required for the recognition process.
また、音声対話型検索装置401は、検索情報データベースに格納されている検索情報を分解して切り出された拍のうちで、上記各検索情報の先頭を構成する拍である先頭拍が、検索情報データベースの中で使用されている頻度順に格納され、上記先頭拍に続く拍についても、使用頻度順に格納されている拍データベース中の先頭拍について、検索情報データベースにおける使用頻度の高い拍から、優先的に認識処理する認識処理手段と、上記先頭拍を認識した結果、利用者が入力した拍である可能性が高い有力先頭拍であると判断した場合、上記有力先頭拍に繋がり、使用頻度が高い拍から、優先的に認識処理し、有力2番目拍を抽出し、上記検索情報を構成する最後の拍まで、認識処理を繰り返す認識処理繰り返し手段と、全ての拍に対する認識処理が終了した時点で、出力された検索情報毎に、トータルスコアを計算するトータルスコア計算手段と、ユーザが確認処理するのみで上記検索情報を特定できる条件を、上記トータルスコアが満たす場合、ユーザとの間で必要な対話を行い、上記検索情報を確定する対話手段とを有する音声対話型情報検索装置の例である。
Further, the voice
さらに、拍データベース482は、検索情報の先頭に位置している拍である先頭拍が、使用頻度の高い順に並べられている先頭拍群と、上記先頭拍のそれぞれについて、上記先頭拍の次に繋がる拍である2番目拍が、使用頻度の高い順に並べられている2番目拍群と、上記2番目拍のそれぞれについて、上記2番目拍の次に繋がる拍である3番目拍が、使用頻度の高い順に並べられている3番目拍群とを有する拍データベースの例である。
Further, the
これを、方法の発明として把握すれば、検索情報の先頭に位置している拍である先頭拍を、使用頻度の高い順に並べる段階と、上記先頭拍のそれぞれについて、上記先頭拍の次に繋がる拍である2番目拍を、使用頻度の高い順に並べる段階と、上記2番目拍のそれぞれについて、上記2番目拍の次に繋がる拍である3番目拍を、使用頻度の高い順に並べる段階とを有する拍データベース作成方法である。 If this is grasped as the invention of the method, the first beat, which is the beat located at the head of the search information, is arranged in order of frequency of use, and each of the head beats is connected next to the first beat. Arranging the second beat, which is a beat, in order of frequency of use, and for each of the second beats, arranging the third beat, the beat connected to the second beat, in order of frequency of use. This is a method for creating a beat database.
そして、音声対話型検索装置401をプログラムの発明として把握することができる。つまり、検索情報データベースに格納されている検索情報を分解して切り出された拍のうちで、上記各検索情報の先頭を構成する拍である先頭拍が、検索情報データベースの中で使用されている頻度順に格納され、上記先頭拍に続く拍についても、使用頻度順に格納されている拍データベース中の先頭拍について、検索情報データベースにおける使用頻度の高い拍から、優先的に認識処理する認識処理手順と、上記先頭拍を認識した結果、利用者が入力した拍である可能性が高い有力先頭拍であると判断した場合、上記有力先頭拍に繋がり、使用頻度が高い拍から、優先的に認識処理し、有力2番目拍を抽出し、上記検索情報を構成する最後の拍まで、認識処理を繰り返す認識処理繰り返し手順と、全ての拍に対する認識処理が終了した時点で、出力された検索情報毎に、トータルスコアを計算するトータルスコア計算手順と、ユーザが確認処理するのみで上記検索情報を特定できる条件を、上記トータルスコアが満たす場合、ユーザとの間で必要な対話を行い、上記検索情報を確定する対話手順とをコンピュータに実行させるプログラムとして把握することができる。
The voice
また、検索情報の先頭に位置している拍である先頭拍を、使用頻度の高い順に並べる手順と、上記先頭拍のそれぞれについて、上記先頭拍の次に繋がる拍である2番目拍を、使用頻度の高い順に並べる手順と、上記2番目拍のそれぞれについて、上記2番目拍の次に繋がる拍である3番目拍を、使用頻度の高い順に並べる手順とをコンピュータに実行させるプログラムとして把握することができる。 In addition, the first beat, which is the beat located at the beginning of the search information, is arranged in order of frequency of use, and the second beat that is the beat connected to the first beat is used for each of the first beats. Understanding as a program that causes a computer to execute the procedure of arranging in order of frequency of use and the procedure of arranging the third beat, which is the next beat after the second beat, in order of frequency of use for each of the second beats. Can do.
さらに、上記プログラムを、FD、CD、MD、DVD、HD、光ディスク、光磁気ディスク、半導体メモリ等の記録媒体に記録するようにしてもよい。
Furthermore, the program may be recorded on a recording medium such as an FD, CD, MD, DVD, HD, optical disk, magneto-optical disk, or semiconductor memory.
1…音声入力された複合名詞の検索装置、
2…音声入力部、
3…音声認識部、
4…音声認識結果出力部、
5…実在検索語候補リスト作成部、
6…対話制御部、
7…音声出力部、
8…システムデータベース、
81…検索データベース、
82…検索補助データベース、
83…YES/NOデータベース、
G1…第1の単名詞集合群、
G2…第2の単名詞集合群、
G3…第3の単名詞集合群、
G4…第4の単名詞集合群、
101…音声入力された複合名詞の検索装置、
102…音声入力部、
103…音声認識部、
104…音声認識結果出力部、
105…実在検索語候補リスト作成部、
106…対話制御部、
107…音声出力部、
108…システムデータベース、
181…検索データベース、
182…検索補助データベース、
183…YES/NOデータベース、
Ga1…1番目表記の単名詞集合群、
Ga1−1…1番目表記の単名詞集合群Ga1における第1サブ集合群、
Ga1−2…1番目表記の単名詞集合群Ga1における第2サブ集合群、
Ga1−3…1番目表記の単名詞集合群Ga1における第3サブ集合群、
Ga2…2番目表記の単名詞集合群、
Ga2−1…2番目表記の単名詞集合群Ga2における第1サブ集合群、
Ga2−2…2番目表記の単名詞集合群Ga2における第2サブ集合群、
Ga2−3…2番目表記の単名詞集合群Ga2における第3サブ集合群、
201…音声入力された複合名詞の検索装置、
202…音声入力部、
203…音声認識部、
203S…音声認識装置、
204…音声認識結果出力部、
204a…音声認識結果リスト作成部、
205…実在検索語候補リスト作成部、
206…対話制御部、
207…音声出力部、
207S…音声出力装置、
208…システムデータベース、
281…検索データベース、
282…順序検索補助データベース、
283…逆順検索補助データベース、
284…YES/NOデータベース、
301…音声対話型複合名詞の検索装置、
302…音声入力部、
303…音声認識部、
303S…音声認識用ソフトウェア、
304…音声認識結果出力部、
305…実在検索語候補リスト作成部、
306…対話制御部、
307…音声出力部、
307S…音声出力用ソフトウェア、
308…システムデータベース、
381…検索データベース、
382…検索補助データベース、
383…YES/NOデータベース、
Gc1…1番目表記の単名詞集合群、
Gc1−1…1番目表記の単名詞集合群Gc1における第1サブ集合群、
Gc1−2…1番目表記の単名詞集合群Gc1における第2サブ集合群、
Gc2…2番目表記の単名詞集合群、
Gc2−1…2番目表記の単名詞集合群Gc2における第1サブ集合群、
Gc2−2…2番目表記の単名詞集合群Gc2における第2サブ集合群、
401…音声対話型検索装置、
402…音声入力部、
403…音声識別部、
431…音声認識部、
432…認識結果調整部、
404…対話制御部、
405…音声出力部、
405S…音声出力用ソフトウェア、
406…音声認識装置、
408…システムデータベース、
481…検索情報データベース、
482…拍データベース。
1 ... Search device for compound nouns input by voice,
2 ... Voice input part,
3 ... voice recognition unit,
4 ... voice recognition result output unit,
5 ... Real search word candidate list creation part,
6 ... Dialogue control unit,
7 ... Audio output unit,
8 ... System database,
81 ... Search database,
82 ... Search auxiliary database,
83 ... YES / NO database,
G1 ... first single noun set group,
G2: second single noun set group,
G3: Third set of nouns,
G4 ... Fourth single noun set group,
101 ... Compound noun search device inputted by voice,
102 ... voice input unit,
103 ... voice recognition unit,
104 ... voice recognition result output unit,
105 ... Real search word candidate list creation unit,
106 ... Dialog control unit,
107: Audio output unit,
108 ... system database,
181 ... Search database,
182 ... Auxiliary search database,
183 ... YES / NO database,
Ga1 ... first noun set group,
Ga1-1 ... the first sub-set group in the first-stated single noun set group Ga1,
Ga1-2 ... the second sub-set group in the first-stated single noun set group Ga1,
Ga1-3 ... the third sub-set group in the first-stated single noun set group Ga1,
Ga2 ... the single noun group of the second notation,
Ga2-1 ... the first sub-set group in the second-stated single noun set group Ga2,
Ga2-2 ... the second sub-set group in the second-stated single noun set group Ga2,
Ga2-3 ... the third sub-set group in the second-stated single noun set group Ga2,
201 ... Search device for compound nouns input by voice,
202 ... voice input unit,
203 ... voice recognition unit,
203S ... voice recognition device,
204 ... voice recognition result output unit,
204a ... voice recognition result list creation unit,
205 ... Real search word candidate list creation unit,
206 ... Dialog controller,
207 ... Audio output unit,
207S ... audio output device,
208 ... System database,
281 ... Search database,
282 ... Order search auxiliary database,
283 ... Reverse search auxiliary database,
284 ... YES / NO database,
301 ... Voice interactive compound noun search device,
302 ... voice input unit,
303 ... voice recognition unit,
303S ... voice recognition software,
304 ... voice recognition result output unit,
305 ... Real search word candidate list creation unit,
306 ... Dialog control unit,
307: Audio output unit,
307S ... Audio output software,
308 ... System database,
381 ... Search database,
382 ... Search auxiliary database,
383 ... YES / NO database,
Gc1... First noun set group,
Gc1-1 ... the first sub-set group in the first-stated single noun set group Gc1,
Gc1-2 ... the second sub-set group in the first-stated single noun set group Gc1,
Gc2: the second-stated single noun set group,
Gc2-1 ... the first sub-set group in the second-stated single noun set group Gc2,
Gc2-2: a second sub-set group in the second-stated single noun set group Gc2,
401 ... voice interactive search device,
402: Voice input unit,
403 ... voice identification unit,
431 ... voice recognition unit,
432 ... Recognition result adjustment unit,
404 ... Dialog control unit,
405 ... Audio output unit,
405S: Audio output software,
406 ... voice recognition device,
408 ... system database,
481 ... Search information database,
482 ... Beat database.
Claims (10)
上記検索情報データベースに格納されている検索情報を分解して切り出された拍のうちで、上記各検索情報の先頭を構成する拍である先頭拍が、上記検索情報データベースの中で使用されている頻度順に格納され、上記先頭拍に続く拍についても、使用頻度順に格納されている拍データベースと;
ユーザが検索情報を音声入力すると、上記拍データベース中の先頭拍について、上記検索情報データベースにおける使用頻度の高い拍から、優先的に認識処理する認識処理手段と;
上記先頭拍を認識した結果、上記認識した先頭拍の認識スコアが第1の閾値を超えている先頭拍を有力先頭拍であると判断し、上記有力先頭拍に続く拍であって、使用頻度が高い拍から、優先的に認識処理し、有力2番目拍を抽出し、上記検索情報を構成する最後の拍まで、認識処理を繰り返す認識処理繰り返し手段と;
全ての拍に対する認識処理が終了した時点で、出力された検索情報毎に、先頭拍のスコアと2番目拍のスコアとのトータルスコアを計算するトータルスコア計算手段と;
上記トータルスコアが第2の閾値を超えている場合、実在検索語候補リスト中の検索語候補を所定のディスプレイに表示することによって、上記利用者との間で対話を実行し、上記検索情報を確定する対話手段と;
を有することを特徴とする音声対話型情報検索装置。 A search information database storing search information that is character information to be searched;
Of the beats extracted by disassembling the search information stored in the search information database, the first beat that is the beat constituting the head of each search information is used in the search information database. A beat database stored in order of frequency of use and also stored in order of frequency of use for the beat following the first beat;
Recognition processing means for preferentially recognizing the first beat in the beat database from the frequently used beat in the search information database when the user inputs the search information by voice;
As a result of recognizing the first beat, the first beat whose recognition score of the recognized first beat exceeds the first threshold is determined to be a leading first beat, and is a beat that follows the leading first beat and is used Recognition processing repeating means for performing recognition processing preferentially from high beats, extracting a leading second beat, and repeating the recognition processing until the last beat constituting the search information;
Total score calculating means for calculating a total score of the score of the first beat and the score of the second beat for each search information output at the time when recognition processing for all beats is completed;
When the total score exceeds the second threshold value, the search word candidate in the real search word candidate list is displayed on a predetermined display, and a dialog is executed with the user to confirm the search information. Interactive means to do;
A voice interactive information retrieval apparatus comprising:
ユーザが確認処理するのみで上記検索情報を特定できる上記条件を、上記トータルスコアが満たさない場合は、上記先頭拍から確認処理を、順次行い、拍毎の確定を行い、検索情報の確定を実現することを特徴とする音声対話型情報検索装置。 In claim 1,
If the total score does not satisfy the above-mentioned conditions that allow the user to specify the search information only by performing confirmation processing, the confirmation processing is performed sequentially from the first beat, and confirmation of the search information is realized by performing the confirmation for each beat. A voice interactive information retrieval apparatus characterized by that.
上記先頭拍と2番目拍とについて認識処理した結果、ユーザが確認処理するのみで上記検索情報を特定できる上記条件を、上記トータルスコアが満たさない場合、2番目拍の認識結果と3番目拍の認識結果とを統合している間に、残りの各拍について、使用頻度の高い順に、実時間内に処理可能な数を認識対象と定め、先頭拍から順に並行処理する並行処理手段を有することを特徴とする音声対話型情報検索装置。 In claim 1,
As a result of the recognition processing for the first beat and the second beat, if the total score does not satisfy the above-mentioned condition that the user can specify the search information only by performing confirmation processing, the recognition result of the second beat and the recognition of the third beat While integrating the results, for each remaining beat, set the number that can be processed in real time in the order of frequency of use as the recognition target, and having parallel processing means that performs parallel processing in order from the first beat A featured voice interactive information retrieval device.
上記並行処理手段は、ユーザが確認処理する場合、確認処理の質疑応答時間内に残りの対象について並行処理を行う手段であることを特徴とする音声対話型情報検索装置。 In claim 3,
The parallel processing means is a means for performing parallel processing on the remaining objects within a question and answer time of the confirmation processing when the user performs confirmation processing.
ユーザが確認処理しない場合、認識処理に要する時間に応じて、認識対象として選択する各拍数を決定することを特徴とする音声対話型情報検索装置。 In claim 3,
A voice interactive information retrieval apparatus, wherein when a user does not perform confirmation processing, each beat number to be selected as a recognition target is determined according to a time required for recognition processing.
上記検索情報を分解して拍を切り出す切り出し方は、上記検索情報を平仮名表記したときにおける平仮名1文字を1拍とする切り出し方(ただし、拗音、撥音、長音は前の平仮名と合わせて1拍と数える)、
上記検索情報を平仮名表記した場合に、先頭から順に、所定の平仮名文字数毎に、1拍とする切り出し方(ただし、拗音、撥音、長音は、前の平仮名と合わせて1文字と数える)、
上記検索情報を平仮名表記した場合に、上記表記された平仮名の構成数に応じて、1拍を構成する文字数を規定する切り出し方、
上記検索情報を漢字表記した場合に、漢字1文字の読みを1拍とする切り出し方、
のうちで、いずれか1つの切り出し方であることを特徴とする音声対話型情報検索装置。 In claim 1,
The method of extracting the beat by decomposing the search information is a method of extracting one hiragana character as one beat when the search information is expressed in hiragana (however, stuttering, sound repellent, and long sound are combined with the previous hiragana one beat. Counting),
When the above search information is written in hiragana, it is cut out in order from the beginning for each predetermined hiragana character number, with 1 beat (however, stuttering, sound repelling, and long sound are counted as one character together with the previous hiragana),
When the search information is written in hiragana, according to the number of constituents of the written hiragana, how to cut out the number of characters constituting one beat,
When the search information is expressed in Kanji, how to extract one Kanji character as one beat,
Among them, a voice interactive information search device characterized in that any one of them is cut out.
上記検索情報を平仮名表記した場合に、上記表記された平仮名の構成数に応じて、1拍を構成する文字数を規定する切り出し方は、4文字からなる検索情報は、先頭から2文字毎に1拍と数え、3文字からなる検索情報は、先頭から1文字毎に1拍と数えることによって切り出す切り出し方であることを特徴とする音声対話型情報検索装置。 In claim 6,
When the search information is written in hiragana, the cutout method for defining the number of characters constituting one beat in accordance with the number of hiragana written in the search is that search information consisting of 4 characters is 1 every 2 characters from the beginning. A voice interactive information search apparatus characterized in that the search information consisting of three beats is cut out by counting three letters from the beginning by counting one beat for each character.
上記先頭拍を認識した結果、上記認識した先頭拍の認識スコアが第1の閾値を超えている先頭拍を有力先頭拍であると判断し、上記有力先頭拍に続く拍であって、使用頻度が高い拍から、優先的に認識処理し、有力2番目拍を抽出し、上記検索情報を構成する最後の拍まで、認識処理を繰り返す認識処理繰り返し手段と;
全ての拍に対する認識処理が終了した時点で、出力された検索情報毎に、先頭拍のスコアと2番目拍のスコアとのトータルスコアを計算するトータルスコア計算手段と;
上記トータルスコアが第2の閾値を超えている場合、上記実在検索語候補リスト中の検索語候補を所定のディスプレイに表示することによって、上記利用者との間で対話を実行し、上記検索情報を確定する対話手段と;
を有することを特徴とする音声対話型情報検索装置。 Of the beats extracted by disassembling search information that is character information stored in the search information database, the first beat that is the beat constituting the top of each search information is used in the search information database. A recognition process for preferentially recognizing the first beat in the beat database stored in order of use frequency from the most frequently used beat in the search information database for the beats that are stored in the order of frequency of use and that follow the first beat. With means;
As a result of recognizing the first beat, the first beat whose recognition score of the recognized first beat exceeds the first threshold is determined to be a leading first beat, and is a beat that follows the leading first beat and is used Recognition processing repeating means for performing recognition processing preferentially from high beats, extracting a leading second beat, and repeating the recognition processing until the last beat constituting the search information;
Total score calculating means for calculating a total score of the score of the first beat and the score of the second beat for each search information output at the time when recognition processing for all beats is completed;
When the total score exceeds the second threshold, the search word candidate in the real search word candidate list is displayed on a predetermined display, thereby performing a dialogue with the user, and A means of dialogue to establish;
A voice interactive information retrieval apparatus comprising:
上記先頭拍を認識した結果、上記認識した先頭拍の認識スコアが第1の閾値を超えている先頭拍を有力先頭拍であると判断し、上記有力先頭拍に続く拍であって、使用頻度が高い拍から、優先的に認識処理し、有力2番目拍を抽出し、上記検索情報を構成する最後の拍まで、認識処理を繰り返す認識処理繰り返し段階と;
全ての拍に対する認識処理が終了した時点で、出力された検索情報毎に、先頭拍のスコアと2番目拍のスコアとのトータルスコアを計算するトータルスコア計算段階と;
上記トータルスコアが第2の閾値を超えている場合、実在検索語候補リスト中の検索語候補を所定のディスプレイに表示することによって、上記利用者との間で対話を実行し、上記検索情報を確定する対話段階と;
を有することを特徴とする音声対話型情報検索方法。 Of the beats extracted by disassembling search information that is character information stored in the search information database, the first beat that is the beat constituting the top of each search information is used in the search information database. For the first beat in the beat database stored in order of use frequency, the voice recognition unit preferentially selects the beat that is frequently used in the search information database. A recognition processing stage for performing speech recognition processing;
As a result of recognizing the first beat, the first beat whose recognition score of the recognized first beat exceeds the first threshold is determined to be a leading first beat, and is a beat that follows the leading first beat and is used A recognition processing repetition stage in which recognition processing is preferentially performed from beats having a high value, a leading second beat is extracted, and the recognition processing is repeated until the last beat constituting the search information;
A total score calculation stage for calculating a total score of the score of the first beat and the score of the second beat for each search information output when the recognition processing for all the beats is completed;
When the total score exceeds the second threshold value, the search word candidate in the real search word candidate list is displayed on a predetermined display, and a dialog is executed with the user to confirm the search information. A dialogue stage to do;
A voice interactive information retrieval method characterized by comprising:
上記先頭拍を認識した結果、上記認識した先頭拍の認識スコアが第1の閾値を超えている先頭拍を有力先頭拍であると判断し、上記有力先頭拍に続く拍であって、使用頻度が高い拍から、優先的に認識処理し、有力2番目拍を抽出し、上記検索情報を構成する最後の拍まで、認識処理を繰り返す認識処理繰り返し手順と;
全ての拍に対する認識処理が終了した時点で、出力された検索情報毎に、先頭拍のスコアと2番目拍のスコアとのトータルスコアを計算するトータルスコア計算手順と;
上記トータルスコアが第2の閾値を超えている場合、実在検索語候補リスト中の検索語候補を所定のディスプレイに表示することによって、上記利用者との間で対話を実行し、上記検索情報を確定する対話手順と;
をコンピュータに実行させるプログラム。
(以上) Of the beats extracted by disassembling search information that is character information stored in the search information database, the first beat that is the beat constituting the top of each search information is used in the search information database. For the first beat in the beat database stored in order of use frequency, the voice recognition unit preferentially selects the beat that is frequently used in the search information database. Recognition processing procedure for voice recognition processing;
As a result of recognizing the first beat, the first beat whose recognition score of the recognized first beat exceeds the first threshold is determined to be a leading first beat, and is a beat that follows the leading first beat and is used A recognition processing repetition procedure that performs recognition processing preferentially from high beats, extracts the dominant second beat, and repeats the recognition processing until the last beat constituting the search information;
A total score calculation procedure for calculating the total score of the score of the first beat and the score of the second beat for each output search information when the recognition processing for all beats is completed;
When the total score exceeds the second threshold value, the search word candidate in the real search word candidate list is displayed on a predetermined display, and a dialog is executed with the user to confirm the search information. Interactive steps to do;
A program that causes a computer to execute.
(more than)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006130200A JP4056546B2 (en) | 2000-10-13 | 2006-05-09 | Search device, search method and database for compound nouns input by speech |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000313098 | 2000-10-13 | ||
JP2000350622 | 2000-11-17 | ||
JP2001042101 | 2001-02-19 | ||
JP2001203164 | 2001-07-04 | ||
JP2006130200A JP4056546B2 (en) | 2000-10-13 | 2006-05-09 | Search device, search method and database for compound nouns input by speech |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005126969A Division JP3846896B2 (en) | 2000-10-13 | 2005-04-25 | Search device, search method and database for compound nouns input by speech |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006285265A JP2006285265A (en) | 2006-10-19 |
JP4056546B2 true JP4056546B2 (en) | 2008-03-05 |
Family
ID=37407176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006130200A Expired - Lifetime JP4056546B2 (en) | 2000-10-13 | 2006-05-09 | Search device, search method and database for compound nouns input by speech |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4056546B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107065679A (en) * | 2017-05-15 | 2017-08-18 | 佛山市顺德区美的洗涤电器制造有限公司 | Dish-washing machine and its control device and control method |
-
2006
- 2006-05-09 JP JP2006130200A patent/JP4056546B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2006285265A (en) | 2006-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7925506B2 (en) | Speech recognition accuracy via concept to keyword mapping | |
US20090112587A1 (en) | System and method for generating a phrase pronunciation | |
WO2006054724A1 (en) | Voice recognition device and method, and program | |
JP2008203559A (en) | Interaction device and method | |
EP2317507B1 (en) | Corpus compilation for language model generation | |
US20250036688A1 (en) | Search result display device, search result display method, and non-transitory computer readable recording medium | |
JP6675788B2 (en) | Search result display device, search result display method, and program | |
CN114168718A (en) | Information processing apparatus, method and information recording medium | |
CA2613154A1 (en) | Dictionary lookup for mobile devices using spelling recognition | |
JP3530109B2 (en) | Voice interactive information retrieval method, apparatus, and recording medium for large-scale information database | |
JP3682958B2 (en) | Search device, search method and database for compound nouns input by speech | |
JP3846896B2 (en) | Search device, search method and database for compound nouns input by speech | |
JP4056546B2 (en) | Search device, search method and database for compound nouns input by speech | |
JPH08248987A (en) | Voice recognition method | |
JP4634156B2 (en) | Voice dialogue method and voice dialogue apparatus | |
JP3678360B2 (en) | Kanji character string specifying apparatus and method using voice input | |
JP3340163B2 (en) | Voice recognition device | |
JP3663012B2 (en) | Voice input device | |
JP3748429B2 (en) | Speech input type compound noun search device and speech input type compound noun search method | |
JP3576511B2 (en) | Voice interaction device | |
JPS63163496A (en) | Parallel retrieval/collation type recognition system | |
JP3377684B2 (en) | Search device by voice recognition | |
JP2004085826A (en) | Retrieval apparatus and retrieval method for speech inputted compound noun | |
JP6828098B2 (en) | Search result display device, search result display method, and program | |
JP2001101000A (en) | Device and method for natural language conversation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070601 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070731 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070824 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070921 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20071030 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071211 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4056546 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101221 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101221 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111221 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111221 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121221 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121221 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131221 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |