[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JPH11352985A - Voice recognition device - Google Patents

Voice recognition device

Info

Publication number
JPH11352985A
JPH11352985A JP10158895A JP15889598A JPH11352985A JP H11352985 A JPH11352985 A JP H11352985A JP 10158895 A JP10158895 A JP 10158895A JP 15889598 A JP15889598 A JP 15889598A JP H11352985 A JPH11352985 A JP H11352985A
Authority
JP
Japan
Prior art keywords
language element
element code
voice
recognized
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP10158895A
Other languages
Japanese (ja)
Inventor
Kenichi Yamamoto
健一 山本
Satoru Oishi
哲 大石
Takahide Takahashi
隆英 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba TEC Corp
Original Assignee
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba TEC Corp filed Critical Toshiba TEC Corp
Priority to JP10158895A priority Critical patent/JPH11352985A/en
Publication of JPH11352985A publication Critical patent/JPH11352985A/en
Abandoned legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To prevent an unnecessary language element code outputted by voice recognition from being transferred to an application program. SOLUTION: This voice recognition device comprise a voice input 11 for inputting the voice of a speaker; a voice recognition source 12 for storing a plurality of words and phrases to be preliminarily recognized and a language element code corresponding to each word and phase, a voice recognition part 13 for recognizing the words and phrases from the voice inputted from the voice input 11 and extracting and outputting the language element code corresponding to each word and phrase from the recognition source 12 when the recognized words and phrases include the word and phrase to be preliminarily recognized, and a filter part 14 for removing all the language element codes when a necessary language element code is not included in a plurality of language element codes outputted from the voice recognition part 13 by one voice recognition.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、入力した音声によ
り語句を認識してコード化する音声認識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition apparatus for recognizing and coding words and phrases from input speech.

【0002】[0002]

【従来の技術】従来の音声認識装置は、図12に示すよ
うに音声を入力するマイク1aとこのマイクからの音声
をデジタル信号に変換するA/D変換器1bを備える音
声入力部1、予め認識されるべき語句に対して定義され
た言語要素コードの集合体である音声認識リソース2、
この音声入力部1からの出力に基づいて語句を認識し、
その語句に対応する言語要素コードを音声認識リソース
2に基づいて抽出する音声認識部3、音声認識部3で抽
出した言語要素コードのコード列を音声認識データとし
て利用するアプリケーションプログラム4から構成され
る。
2. Description of the Related Art As shown in FIG. 12, a conventional voice recognition apparatus has a voice input unit 1 having a microphone 1a for inputting voice and an A / D converter 1b for converting voice from the microphone into a digital signal. A speech recognition resource 2, which is a collection of language element codes defined for the phrase to be recognized;
Recognize words and phrases based on the output from the voice input unit 1,
The speech recognition unit 3 extracts a language element code corresponding to the phrase based on the speech recognition resource 2 and an application program 4 that uses a code string of the language element code extracted by the speech recognition unit 3 as speech recognition data. .

【0003】このような装置では、話者がマイク1aに
向って発声すると、その音声は音声入力部1でデジタル
信号に変換されて、音声認識部3に供給される。音声認
識部3では、発声した順に予め定義されている語句が認
識され、その順に言語要素コードのコード列がアプリケ
ーションプログラム4へ音声認識データとして渡され
る。
In such a device, when a speaker speaks toward the microphone 1a, the speech is converted into a digital signal by the speech input unit 1 and supplied to the speech recognition unit 3. The speech recognition unit 3 recognizes words and phrases defined in advance in the order in which they were uttered, and passes a code string of language element codes to the application program 4 as speech recognition data in that order.

【0004】[0004]

【発明が解決しようとする課題】しかし、このような音
声認識装置を例えば客と店員との会話から音声認識を行
う場合、アプリケーションプログラム4では不要な語
句、例えば挨拶や世間話、雑音などについてもマイク1
aから音声として取入れるので、必要な語句として誤っ
て認識してしまうおそれがあり、しかもその結果をアプ
リケーションプログラム4へ渡してしまうという問題が
考えられる。このことは、アプリケーションプログラム
4の誤作動の原因ともなる。
However, when such a voice recognition device performs voice recognition from, for example, a conversation between a customer and a clerk, the application program 4 does not recognize unnecessary words, such as greetings, small talk, and noise. Microphone 1
Since it is taken as a voice from "a", there is a possibility that it may be erroneously recognized as a necessary phrase, and the result may be passed to the application program 4. This causes a malfunction of the application program 4.

【0005】このため、上述したような音声認識装置
を、話者の会話の中から必要な語句だけを音声認識する
ような場合にそのまま使用することはできない。
[0005] For this reason, the above-described speech recognition apparatus cannot be used as it is in a case where only necessary words and phrases are recognized in a conversation between speakers.

【0006】そこで、本発明は、音声認識により出力さ
れた不要な言語要素コードをアプリケーションプログラ
ムに渡すことを防止できる音声認識装置を提供しようと
するものである。
Accordingly, an object of the present invention is to provide a speech recognition apparatus which can prevent an unnecessary language element code output by speech recognition from being passed to an application program.

【0007】[0007]

【課題を解決するための手段】請求項1の本発明は、話
者の音声を入力するための音声入力手段と、この音声入
力手段から入力した音声から語句を認識する音声認識手
段と、予め認識されるべき複数の語句と各語句に対応し
た言語要素コードを記憶する言語要素コード記憶手段
と、音声認識手段で認識された語句が予め認識されるべ
き語句を含むとき、各語句に対応する言語要素コードを
言語要素コード記憶手段から抽出して出力する言語要素
コード出力手段と、この言語要素コード出力手段から出
力された言語要素コードのうち不要なものを除去し、必
要なものを通過させるフィルタ手段とを備えたことを特
徴とする音声認識装置である。
According to a first aspect of the present invention, there is provided a voice input means for inputting a voice of a speaker, a voice recognition means for recognizing a phrase from a voice input from the voice input means, and A language element code storage unit for storing a plurality of words to be recognized and a language element code corresponding to each word, and a word corresponding to each word when the word recognized by the voice recognition unit includes a word to be recognized in advance. A language element code output means for extracting and outputting a language element code from the language element code storage means, and removing unnecessary language element codes from the language element code output from the language element code output means and passing necessary ones A speech recognition device comprising a filter unit.

【0008】請求項2の本発明は、話者の音声を入力す
るための音声入力手段と、この音声入力手段から入力し
た音声から語句を認識する音声認識手段と、予め認識さ
れるべき複数の語句と各語句に対応した言語要素コード
を記憶する言語要素コード記憶手段と、音声認識手段で
認識された語句が予め認識されるべき語句を含むとき、
各語句に対応する言語要素コードを言語要素コード記憶
手段から抽出して出力する言語要素コード出力手段と、
1回の音声認識処理で言語要素コード出力手段から出力
された複数の言語要素コードのうち、1つでも必要な言
語要素コードが含まれていない場合はすべての言語要素
コードを除去し、必要な言語要素コードがすべてそろっ
ている場合はそれらの言語要素コードを通過させるフィ
ルタ手段とを備えたことを特徴とする音声認識装置であ
る。
According to a second aspect of the present invention, there is provided a voice input means for inputting a voice of a speaker, a voice recognition means for recognizing a phrase from the voice input from the voice input means, and a plurality of voice recognition means to be recognized in advance. A language element code storage unit that stores a word and a language element code corresponding to each phrase, and when the phrase recognized by the speech recognition unit includes a phrase to be recognized in advance,
Language element code output means for extracting and outputting a language element code corresponding to each phrase from the language element code storage means,
If one of the plurality of language element codes output from the language element code output means in one speech recognition process does not include any necessary language element code, all language element codes are removed, and When all the language element codes are available, the speech recognition apparatus is provided with filter means for passing the language element codes.

【0009】請求項3の本発明は、話者の音声を入力す
るための音声入力手段と、この音声入力手段から入力し
た音声から語句を認識する音声認識手段と、予め認識さ
れるべき複数の語句と各語句に対応した所定の数値範囲
内の言語要素コードを記憶する言語要素コード記憶手段
と、音声認識手段で認識された語句が予め認識されるべ
き語句を含むとき、各語句に対応する言語要素コードを
言語要素コード記憶手段から抽出して出力する言語要素
コード出力手段と、言語要素コード出力手段から出力さ
れた言語要素コードが、所定の数値範囲外のものである
場合はその言語要素コードを除去し、所定の数値範囲内
のものである場合はその言語要素コードを通過させるフ
ィルタ手段とを備えたことを特徴とする音声認識装置で
ある。
According to a third aspect of the present invention, there is provided a voice input means for inputting a voice of a speaker, a voice recognition means for recognizing a phrase from a voice input from the voice input means, and a plurality of voice recognition means to be recognized in advance. A language element code storing means for storing a language element code within a predetermined numerical range corresponding to each of the words and phrases; and, when the words recognized by the speech recognition means include words to be recognized in advance, the words correspond to the respective words. A language element code output means for extracting and outputting a language element code from the language element code storage means, and a language element if the language element code output from the language element code output means is out of a predetermined numerical range. And a filter means for removing the code and passing the language element code when the code is within a predetermined numerical range.

【0010】請求項4の本発明は、話者の音声を入力す
るための音声入力手段と、この音声入力手段から入力し
た音声から語句を認識する音声認識手段と、客からの預
り金として音声認識手段で認識されるべき複数の金額を
示す語句と各語句に対応した金額を示す言語要素コード
を記憶する言語要素コード記憶手段と、音声認識手段で
認識された語句が予め認識されるべき語句を含むとき、
各語句に対応する言語要素コードを言語要素コード記憶
手段から抽出して出力する言語要素コード出力手段と、
外部から代金のデータを取込み、言語要素コード出力手
段から出力された言語要素コードが示す金額が、外部か
ら取込んだデータの代金よりも低い場合にその言語要素
コードを除去し、外部から取込んだデータの代金以上で
ある場合にその言語要素コードを通過させるフィルタ手
段とを備えたことを特徴とする音声認識装置である。
According to a fourth aspect of the present invention, there is provided a voice input means for inputting a voice of a speaker, a voice recognition means for recognizing a phrase from the voice input from the voice input means, and a voice as a deposit from a customer. Language element code storage means for storing words indicating a plurality of amounts to be recognized by the recognizing means and language element codes indicating the amounts corresponding to the respective words, and words to be recognized in advance by the speech recognition means When including
Language element code output means for extracting and outputting a language element code corresponding to each phrase from the language element code storage means,
When the price data is fetched from outside and the amount indicated by the language element code output from the language element code output means is lower than the price of the data fetched from outside, the language element code is removed and fetched from outside Filter means for passing the language element code when the price is equal to or more than the price of the data.

【0011】請求項5の本発明は、話者の音声を入力す
るための音声入力手段と、この音声入力手段から入力し
た音声から語句を認識する音声認識手段と、客からの預
り金として音声認識手段で認識されるべき複数の金額を
示す語句と各語句に対応した金額を示す言語要素コード
を記憶する言語要素コード記憶手段と、音声認識手段で
認識された語句が予め認識されるべき語句を含むとき、
各語句に対応する言語要素コードを言語要素コード記憶
手段から抽出して出力する言語要素コード出力手段と、
外部から代金のデータを取込み、言語要素コード出力手
段から出力された言語要素コードが示す金額が、外部か
ら取込んだデータの代金に基づいて導き出される条件を
満たさない場合はその言語要素コードを除去し、条件を
満たす場合はその言語要素コードを通過させるフィルタ
手段とを備えたことを特徴とする音声認識装置である。
According to a fifth aspect of the present invention, there is provided a voice input unit for inputting a voice of a speaker, a voice recognition unit for recognizing a phrase from the voice input from the voice input unit, and a voice as a deposit from a customer. Language element code storage means for storing words indicating a plurality of amounts to be recognized by the recognizing means and language element codes indicating the amounts corresponding to the respective words, and words to be recognized in advance by the speech recognition means When including
Language element code output means for extracting and outputting a language element code corresponding to each phrase from the language element code storage means,
The price data is taken in from the outside, and if the amount indicated by the language element code output from the language element code output means does not satisfy the conditions derived based on the price of the data taken in from the outside, the language element code is removed. And a filter means for passing the language element code when the condition is satisfied.

【0012】請求項6の本発明は、話者の音声を入力す
るための音声入力手段と、この音声入力手段から入力し
た音声から語句を認識する音声認識手段と、予め認識さ
れるべき複数の語句と各語句に対応した言語要素コード
を記憶する言語要素コード記憶手段と、言語要素コード
に関連づけられた商品情報を集めて構成された商品情報
記憶手段と、音声認識手段で認識された語句が予め認識
されるべき語句を含むとき、各語句に対応する言語要素
コードを言語要素コード記憶手段から抽出して出力する
言語要素コード出力手段と、この言語要素コード出力手
段から出力された言語要素コードをキーとして商品情報
記憶手段から商品情報を検索し、該当する商品情報がな
い場合はその言語要素コードを除去し、該当する商品情
報がある場合はその言語要素コードを通過させるフィル
タ手段とを備えたことを特徴とする音声認識装置であ
る。
According to a sixth aspect of the present invention, there is provided a voice input means for inputting a voice of a speaker, a voice recognition means for recognizing a phrase from the voice input from the voice input means, and a plurality of voice recognition means to be recognized in advance. Language element code storage means for storing words and language element codes corresponding to the respective words; product information storage means configured by collecting product information associated with the language element codes; and words recognized by the speech recognition means. A language element code output means for extracting and outputting a language element code corresponding to each word from the language element code storage means when including a word to be recognized in advance; and a language element code output from the language element code output means The product information is retrieved from the product information storage means using the key as a key. If there is no corresponding product information, the language element code is removed. A speech recognition apparatus characterized by comprising a filter means for passing the language elements code.

【0013】[0013]

【発明の実施の形態】以下、本発明を電子式キャッシュ
レジスタ、POS端末などの商品販売コード登録処理な
どを行う業務処理装置に適用した場合の第1の実施の形
態を図1ないし図3を参照して説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, a first embodiment in which the present invention is applied to a business processing device such as an electronic cash register, a POS terminal or the like which performs merchandise sales code registration processing will be described with reference to FIGS. It will be described with reference to FIG.

【0014】図1は、本実施の形態にかかる業務処理装
置の構成を示す機能ブロック図である。この業務処理装
置は、音声をアナログ信号として入力するマイク11a
とこのマイク11aからの音声をデジタル信号に変換す
るA/D変換器11bを備える音声入力部(音声入力手
段)11、予め認識されるべき語句に対して定義された
(関連づけられた)言語要素コードの集合体である言語
要素コード記憶手段としての音声認識リソース(言語要
素コード記憶手段)12、音声入力部11からの出力に
基づいて、入力した音声に対応する語句を認識し(音声
認識手段)、その語句に対応する言語要素コードを音声
認識リソース12から抽出して出力(言語要素コード出
力手段)する音声認識部13、音声認識部13で抽出し
た言語要素コードのうち、所定の規則に基づいて必要な
言語要素コードのみを出力するフィルタ部(フィルタ手
段)14、このフィルタ部14からの言語要素コードを
利用するアプリケーションプログラム15から構成され
る。
FIG. 1 is a functional block diagram showing the configuration of a business processing device according to the present embodiment. This business processing device includes a microphone 11a for inputting audio as an analog signal.
And an audio input unit (audio input means) 11 including an A / D converter 11b for converting audio from the microphone 11a into a digital signal, a language element defined (associated) with a phrase to be recognized in advance. A speech recognition resource (language element code storage unit) 12 as a language element code storage unit, which is a set of codes, and a phrase corresponding to the input speech is recognized based on an output from the voice input unit 11 (speech recognition unit). ), A speech recognition unit 13 that extracts a language element code corresponding to the phrase from the speech recognition resource 12 and outputs (language element code output means). Among the language element codes extracted by the speech recognition unit 13, A filter unit (filter means) 14 for outputting only necessary language element codes based on the language element codes from the filter unit 14; It consists of Deployment program 15.

【0015】上記音声認識リソース12は、例えばハー
ドディスク装置などの記憶装置で構成される。具体的に
は図2に示すような音声認識されるべき語句と、これら
に対応させた言語要素コードとから構成される。この言
語要素コードはすべて4桁のコードであって、音声認識
されるべき語句を「商品名」と「個数」に分類し、各分
類ごとに規則的にコードを対応させる。ここでは、所定
の規則として、「商品名」については下位2桁で表現す
るとともに上位2桁は01とし、「個数」については下
位2桁で表現するとともに上位2桁はすべて00とする
場合を例として挙げている。例えば、「商品A」の語句
には「0101」の言語要素コードを対応させ、「1
個」の語句に対しては「0001」の言語要素コードを
対応させる。
The speech recognition resource 12 is constituted by a storage device such as a hard disk device. Specifically, it is composed of words to be recognized as shown in FIG. 2 and language element codes corresponding to the words and phrases. The language element codes are all four-digit codes. Words to be voice-recognized are classified into "product names" and "quantities", and the codes are regularly associated with each classification. Here, as a predetermined rule, a case where the “product name” is expressed by the lower two digits and the upper two digits are set to 01, and the “number” is expressed by the lower two digits and all the upper two digits are set to 00 This is given as an example. For example, the language element code “0101” is associated with the phrase “product A”, and “1”
A language element code of “0001” is associated with the phrase “individual”.

【0016】なお、図示はしないが音声認識されるべき
語句については、予め標準話者の音声特徴データを関連
づけて記憶しておく(不特定話者対応型)。但し、使用
者に実際に発声してもらった音声特徴データを関連づけ
ておいてもよい(特定話者対応型)。
Although not shown, the words to be speech-recognized are stored in advance in association with the speech characteristic data of the standard speaker (unspecified speaker-compatible type). However, the voice feature data actually uttered by the user may be associated (specific speaker correspondence type).

【0017】また、上記音声認識部13、フィルタ部1
4、及びアプリケーションプログラム15は、CPU
(中央処理装置)・ROM(リード・オンリ・メモリ)
・RAM(ランダム・アクセス・メモリ)を備えたパー
ソナルコンピュータなどから構成される。これら音声認
識部13、フィルタ部14、及びアプリケーションプロ
グラム15は、具体的には例えばハードディスク装置な
どの記憶装置又はROMなどのメモリに記憶され、上記
パーソナルコンピュータのCPUが読取可能なソフトウ
エアプログラムで構成される。
The voice recognition unit 13 and the filter unit 1
4 and the application program 15 are CPU
(Central processing unit) · ROM (read only memory)
-It is composed of a personal computer having a RAM (random access memory). The voice recognition unit 13, the filter unit 14, and the application program 15 are specifically configured by a software program stored in a storage device such as a hard disk device or a memory such as a ROM and readable by the CPU of the personal computer. Is done.

【0018】このうち、音声認識部13は、上記音声入
力部11からの出力に基づいて入力された音声と予め音
声認識リソース12内で音声特徴データを定義(対応)
させた語句との類似性・近似性を検出(例えば音声認識
リソース12に同一の語句を意味する複数種類の言回し
の音声特徴データを同一の語句に対応させておき、これ
に基づいて入力された音声の認識を行って発声された語
句を特定)して音声認識を行い、音声認識して得られた
語句に対応する言語要素コードを音声認識リソース12
から抽出して出力する。
The speech recognition unit 13 defines (corresponds to) speech input based on the output from the speech input unit 11 and speech feature data in the speech recognition resource 12 in advance.
Detecting similarity / approximation with the word (for example, making the speech recognition resource 12 correspond to the same word with speech feature data of a plurality of types of phrases meaning the same word, and input based on this. The speech recognition is performed to identify the uttered phrase), and the speech recognition is performed. The language element code corresponding to the phrase obtained by the speech recognition is stored in the speech recognition resource 12.
Extract from and output.

【0019】また、上記フィルタ部14は、音声認識部
13で抽出した言語要素コードのうち、所定の規則に基
づいて不要な言語要素コードを取除き、必要な言語要素
コードのみをアプリケーションプログラム15へ渡すも
のである。
The filter unit 14 removes unnecessary language element codes from the language element codes extracted by the speech recognition unit 13 based on a predetermined rule, and sends only necessary language element codes to the application program 15. To pass.

【0020】本実施の形態では、1回の音声認識処理に
おいて、音声認識部13から「商品名」と「個数」の言
語要素コードが1つずつ出力されるのが正常であるた
め、それ以外の言語要素コードが出力された場合や言語
要素コードが足りない場合には言語要素コードを出力し
ないようにする必要がある。つまり、この場合は、1回
の音声認識処理において、音声認識部13から「商品
名」と「個数」の言語要素コードのいずれか一方のみし
か出力されなければ、その言語要素コードはアプリケー
ションプログラム15においては不要なコードであるた
め、これを除去する必要がある。
In the present embodiment, it is normal for the speech recognition unit 13 to output one language element code of "product name" and one "number" in one speech recognition process. When the language element code is output or when the language element code is insufficient, it is necessary not to output the language element code. That is, in this case, if only one of the “product name” and “number” language element codes is output from the voice recognition unit 13 in one voice recognition process, the language element code is output from the application program 15. Is unnecessary code, it is necessary to remove it.

【0021】そこで、フィルタ部14は、1回の音声認
識処理において各分類に割当てた桁数の言語要素コード
が1つずつ存在しない場合には、必要な言語要素コード
の組合せが足りないと判断し、言語要素コードを除去す
るという規則に基づいて言語要素コードの除去処理を行
う。
Therefore, if one language element code having the number of digits assigned to each classification does not exist in one speech recognition process, the filter unit 14 determines that the required combination of language element codes is not enough. Then, the language element code removal processing is performed based on the rule of removing the language element code.

【0022】例えば、本実施の形態では、「商品名」に
100以上の言語要素コードを割当て、「個数」には1
00未満の言語要素コードを割当てているので、音声認
識部13からの複数の言語要素コードの組合せとして、
100以上の言語要素コードと100未満の言語要素コ
ードが1つずつである場合以外は、言語要素コードを除
去するようにする。これにより、不要な言語要素コード
がアプリケーションプログラム15に渡されることはな
い。
For example, in the present embodiment, 100 or more language element codes are assigned to “product name”, and 1 is assigned to “number”.
Since a language element code of less than 00 is assigned, as a combination of a plurality of language element codes from the speech recognition unit 13,
Unless there is one language element code of 100 or more and one language element code of less than 100, the language element code is removed. Thus, unnecessary language element codes are not passed to the application program 15.

【0023】上記アプリケーションプログラム15は、
フィルタ部14を通過した言語要素コードに基づいて商
品販売コードの登録、代金の計算などの所定の業務処理
を行うソフトウエアプログラムで構成される。商品名と
個数を発声すると、言語要素コードが作成されてフィル
タ部14を通過して出力されるが、アプリケーションプ
ログラム15は、この言語要素コードによって対応する
商品名をディスプレイなどの画面に選択表示し、商品コ
ードの登録や代金の計算などその後の会計処理を実施す
るためのものである。
The application program 15 is:
It is composed of a software program that performs predetermined business processing such as registration of a product sales code and calculation of a price based on the language element code that has passed through the filter unit 14. When the product name and the number are uttered, a language element code is created and output through the filter unit 14. The application program 15 selects and displays the corresponding product name on a screen such as a display using the language element code. , And to execute subsequent accounting processes such as registration of a product code and calculation of a price.

【0024】このような構成の本発明の実施の形態にお
いては、例えば本装置の使用者が1回の音声認識処理に
おいて、図3(a)に示すように「商品Aが3個」と発
声すると、この音声は音声入力部11でデジタル信号に
変換されて音声認識部13に供給される。そして、音声
認識部13で音声認識リソース12が参照され、入力さ
れた音声と予め音声認識リソース内で定義された語句と
の類似性・近似性が検出され、「商品A」に対しては
「0101」なる言語要素コードが出力され、「3個」
に対しては「0003」なる言語要素コードが出力され
る。これらの言語要素コードは次のフィルタ部14に渡
される。すると、フィルタ部14では、100以上の言
語要素コードと100未満の言語要素コードが1つずつ
あるので、正常に音声認識されたと判断され、これらの
言語要素コードはアプリケーションプログラム15へ渡
される。
In the embodiment of the present invention having such a configuration, for example, in one speech recognition process, the user of the present apparatus utters "3 products A" as shown in FIG. Then, the voice is converted into a digital signal by the voice input unit 11 and supplied to the voice recognition unit 13. Then, the speech recognition unit 13 refers to the speech recognition resource 12 to detect the similarity / approximation between the input speech and a phrase defined in advance in the speech recognition resource. The language element code “0101” is output, and “3”
Is output as a language element code "0003". These language element codes are passed to the next filter unit 14. Then, the filter unit 14 determines that the speech recognition has been normally performed because there is one language element code of 100 or more and one language element code of less than 100, and these language element codes are passed to the application program 15.

【0025】これに対して、本装置の使用者が1回の音
声認識処理において、図3(b)に示すように「商品A
が××」(××は「個数」とは無関係な単語)と発声す
ると、この音声は音声入力部11でデジタル信号に変換
されて音声認識部13に供給される。そして、音声認識
部13で音声認識リソース12が参照され、入力された
音声と予め音声認識リソース内で定義された語句との類
似性・近似性が検出され、「商品A」に対しては「01
01」なる言語要素コードが出力され、「××」に対し
ては音声認識リソース12で定義されていない単語であ
るので、これに対する言語要素コードは出力されない。
すると、フィルタ部14では、100未満の言語要素コ
ードが1つ足りないので、正常に音声認識されなかった
と判断され、言語要素コードは除去される。従って、こ
の場合には言語要素コードがアプリケーションプログラ
ム15に渡されることはない。
On the other hand, in one speech recognition process, the user of the present apparatus uses "Product A" as shown in FIG.
Is XX (where XX is a word irrelevant to the “number”), this voice is converted into a digital signal by the voice input unit 11 and supplied to the voice recognition unit 13. Then, the speech recognition unit 13 refers to the speech recognition resource 12 to detect the similarity / approximation between the inputted speech and a phrase defined in advance in the speech recognition resource. 01
A language element code of “01” is output. Since “XX” is a word that is not defined in the speech recognition resource 12, no language element code is output.
Then, the filter unit 14 determines that the speech recognition was not performed normally because one language element code less than 100 is insufficient, and removes the language element code. Therefore, in this case, the language element code is not passed to the application program 15.

【0026】このように、音声認識部13からの言語要
素コードが、「商品」及び「個数」について1つずつあ
る場合にのみ、それらの言語要素コードをアプリケーシ
ョンプログラム15に渡すようなフィルタ部14を設け
たので、客と店員との会話から音声認識を行っても、ア
プリケーションプログラム15では不要な語句、例えば
挨拶や世間話、雑音などについては、たとえ誤認識され
て不要な言語要素コードが音声認識部13から出力され
たとしても、フィルタ部14によって除去され、アプリ
ケーションプログラム15には渡されないため、アプリ
ケーションプログラム15の誤作動を防止することがで
きる。従って、話者の会話の中から必要な語句だけを音
声認識するような場合に使用しても、音声を正確にコー
ド化できる音声認識装置を提供することができる。
As described above, only when there is one language element code from the speech recognition unit 13 for each of "commodity" and "quantity", the filter unit 14 passes those language element codes to the application program 15. Therefore, even if speech recognition is performed from a conversation between a customer and a clerk, unnecessary words and phrases such as greetings, small talk, and noise are not recognized by the application program 15 even if an unnecessary language element code is erroneously recognized. Even if output from the recognition unit 13, it is removed by the filter unit 14 and is not passed to the application program 15, so that malfunction of the application program 15 can be prevented. Therefore, it is possible to provide a speech recognition device that can accurately code speech even when used in a case where only necessary words and phrases are recognized from a speaker's conversation.

【0027】また、音声認識部13では、予め定義され
ている音声認識されるべき語句の中から最も近いものを
選択するが、不要な言語要素コードであればフィルタ部
14で除去することができるので、音声認識されるべき
語句について使用者の特徴的な言回しのすべてを音声認
識リソース12に定義しなくても、アプリケーションプ
ログラム15の誤動作を防止できる。なお、以降の実施
の形態においても不要な言語要素コードをフィルタ部1
4で除去することができるので、この効果を奏すること
ができる。
The speech recognition unit 13 selects the closest phrase from the predefined words to be recognized, but the filter unit 14 can remove unnecessary language element codes. Therefore, it is possible to prevent the application program 15 from malfunctioning without defining all of the user's characteristic wording of the phrase to be speech-recognized in the speech recognition resource 12. In the following embodiments, unnecessary language element codes are also added to the filter unit 1.
4, the effect can be obtained.

【0028】次に、本発明を電子式キャッシュレジス
タ、POS端末などの商品販売コード登録処理などを行
う業務処理装置に適用した場合の第2の実施の形態を図
4を参照して説明する。なお、本実施の形態における業
務処理装置の機能ブロック図、音声認識リソース12の
構成図は、それぞれ図1、図2に示すものと同様でるた
め、その詳細な説明を省略する。
Next, a second embodiment in which the present invention is applied to a business processing device such as an electronic cash register, a POS terminal or the like which performs a merchandise sales code registration process will be described with reference to FIG. The functional block diagram of the business processing device and the configuration diagram of the speech recognition resource 12 according to the present embodiment are the same as those shown in FIGS. 1 and 2, respectively, and therefore, detailed description thereof will be omitted.

【0029】本実施の形態におけるフィルタ部14は、
音声認識部13からの言語要素コードが予め割当てられ
ている数値範囲外のときにその言語要素コードを除去す
る点で、上記第1の実施の形態におけるフィルタ部14
と異なる。
The filter section 14 in the present embodiment is
When the language element code from the voice recognition unit 13 is out of the numerical range assigned in advance, the language element code is removed.
And different.

【0030】つまり、音声認識リソース12において、
使用される言語要素コードの数値範囲は予め決められて
いる(例えば図2に示すものであれば、「商品」につい
ての数値範囲は「0101」〜「0103」であり、
「個数」についての数値範囲は「0001」〜「000
3」である)ので、このような数値範囲外の言語要素コ
ードが音声認識部13のエラーなどによって出力された
ときに、その不要な言語要素コードを除去してアプリケ
ーションプログラム15に渡さないようにするものであ
る。
That is, in the speech recognition resource 12,
The numerical range of the language element code to be used is predetermined (for example, in the case of the one shown in FIG. 2, the numerical range of “product” is “0101” to “0103”,
The numerical range for “number” is “0001” to “000”.
3 "), when such a language element code out of the numerical range is output due to an error of the voice recognition unit 13 or the like, the unnecessary language element code is removed so as not to be passed to the application program 15. Is what you do.

【0031】このような構成の本発明の実施の形態にお
いては、例えば本装置の使用者が図4(a)に示すよう
に「商品Aが3個」と発声すると、この音声は音声入力
部11でデジタル信号に変換されて音声認識部13に供
給される。そして、音声認識部13で音声認識リソース
12が参照され、入力された音声と予め音声認識リソー
ス内で定義された語句との類似性・近似性が検出され、
「商品A」に対しては「0101」なる言語要素コード
が出力され、「3個」に対しては「0003」なる言語
要素コードが出力される。これらの言語要素コードは次
のフィルタ部14に渡される。すると、フィルタ部14
では、これらの言語要素コードは予め割当てられた数値
範囲であると判断され、アプリケーションプログラム1
5へ渡される。
In the embodiment of the present invention having such a configuration, for example, when the user of the apparatus utters "3 products A" as shown in FIG. At 11, it is converted into a digital signal and supplied to the voice recognition unit 13. Then, the speech recognition unit 13 refers to the speech recognition resource 12, and detects the similarity / approximation between the input speech and a phrase defined in advance in the speech recognition resource,
A language element code “0101” is output for “product A”, and a language element code “0003” is output for “3”. These language element codes are passed to the next filter unit 14. Then, the filter unit 14
In these cases, it is determined that these language element codes are in a numerical range assigned in advance, and the application program 1
Handed over to 5.

【0032】これに対して、本装置の使用者が図4
(b)に示すように「××が3個」(××は音声認識リ
ソースに登録していない「商品」)と発声すると、この
音声は音声入力部11でデジタル信号に変換されて音声
認識部13に供給される。そして、音声認識部13で音
声認識リソース12が参照され、入力された音声と予め
音声認識リソース内で定義された語句との類似性・近似
性が検出され、「3個」に対しては「0003」なる言
語要素コードが出力され、「××」に対しては音声認識
リソース12で定義されていない単語であるので、例え
ば音声認識部13の誤認識によって未定義の「010
5」なる言語要素コードが出力されたとすると、フィル
タ部14では、予め割当てられている数値範囲外の「0
105」なる言語要素コードが除去され、予め割当てら
れている数値範囲内にある「0003」なる言語要素コ
ードだけがアプリケーションプログラム15に渡され
る。
On the other hand, the user of this apparatus
As shown in (b), when "xx is three" (xx is "product" not registered in the voice recognition resource), this voice is converted into a digital signal by the voice input unit 11 and voice recognition is performed. It is supplied to the unit 13. Then, the speech recognition unit 13 refers to the speech recognition resource 12 to detect the similarity / approximation between the input speech and a phrase defined in advance in the speech recognition resource. 0003 "is output, and" xx "is a word that is not defined in the speech recognition resource 12, so that" 010 "is undefined due to erroneous recognition by the speech recognition unit 13, for example.
Assuming that the language element code “5” is output, the filter unit 14 outputs “0” outside the numerical range that is assigned in advance.
The language element code of “105” is removed, and only the language element code of “0003” within the numerical range that is assigned in advance is passed to the application program 15.

【0033】このように、音声認識部13からの言語要
素コードが、「商品」及び「個数」について1つずつあ
る場合にのみ、それらの言語要素コードをアプリケーシ
ョンプログラム15に渡すようなフィルタ部14を設け
たので、客と店員との会話から音声認識を行っても、ア
プリケーションプログラム4では不要な語句、例えば挨
拶や世間話、雑音などについては、たとえエラーなどに
よって誤認識されて不要な言語要素コードが音声認識部
13から出力されたとしても、フィルタ部14によって
除去され、アプリケーションプログラム15には渡され
ないため、アプリケーションプログラム15の誤作動を
防止することができる。従って、上記第1の実施の形態
と同様に、話者の会話の中から必要な語句だけを音声認
識するような場合に使用しても、音声を正確にコード化
できる音声認識装置を提供することができる。
As described above, only when there is one language element code from the speech recognition unit 13 for "product" and "quantity", the filter unit 14 passes those language element codes to the application program 15. Therefore, even if speech recognition is performed from a conversation between a customer and a clerk, unnecessary words and phrases such as greetings, small talk, and noise are not recognized by the application program 4 even if they are erroneously recognized due to an error. Even if the code is output from the speech recognition unit 13, the code is removed by the filter unit 14 and is not passed to the application program 15, so that the malfunction of the application program 15 can be prevented. Therefore, similarly to the first embodiment, a speech recognition apparatus capable of accurately encoding speech even when used for speech recognition of only a necessary phrase from a speaker's conversation is provided. be able to.

【0034】次に、本発明を電子式キャッシュレジス
タ、POS端末などで客からの預り金の処理を行うなど
を行う業務処理装置に適用した場合の第3の実施の形態
を図5ないし図7を参照して説明する。なお、上記第1
の実施の形態と同一部分には同一符号を付して詳細な説
明を省略する。
Next, a third embodiment in which the present invention is applied to a business processing apparatus for processing a deposit from a customer using an electronic cash register, a POS terminal, or the like will be described with reference to FIGS. This will be described with reference to FIG. In addition, the first
The same reference numerals are given to the same portions as those of the embodiment, and the detailed description is omitted.

【0035】本実施の形態にかかる業務処理装置は、図
5に示すように音声入力部11、音声認識リソース1
2′、音声認識部13、フィルタ部14、このフィルタ
部14を通過した言語要素コードを利用するアプリケー
ションプログラム15から構成され、図1に示すものと
異なるのは、フィルタ部14がアプリケーションプログ
ラム15から商品の合計金額(代金)のデータを受取り
可能な点である。
As shown in FIG. 5, the business processing device according to the present embodiment includes a voice input unit 11 and a voice recognition resource 1.
2 ', a speech recognition unit 13, a filter unit 14, and an application program 15 using language element codes passed through the filter unit 14. The difference from the one shown in FIG. The point is that data of the total price (price) of the product can be received.

【0036】また、本実施の形態における音声認識リソ
ース12′は、図6に示すように金額データから構成さ
れる点で、第1の実施の形態とは異なる。例えば、「千
円」の語句には「1000」の言語要素コードを対応さ
せ、「三千円」の語句に対しては「3000」の言語要
素コードを対応させて記憶する。
Further, the speech recognition resource 12 'in the present embodiment differs from the first embodiment in that the speech recognition resource 12' is constituted by money data as shown in FIG. For example, a language element code of “1000” is associated with a phrase of “1,000 yen”, and a language element code of “3000” is associated with a word of “3,000 yen” and stored.

【0037】ところで、客からの預り金の処理を行う業
務処理装置では、アプリケーションプログラム15が、
既に販売された商品の合計金額に関するデータをもって
おり、この合計金額より少ない預り金を客から預ること
は通常では考えられない。従って、商品の合計金額より
少ない預り金の言語要素コードが音声認識部13から出
力された場合は、誤認識したものと判断して、その言語
要素コードを除去することによって、不要な言語要素コ
ードをアプリケーションプログラム15に渡すことを防
止できる。
By the way, in a business processing device for processing a deposit from a customer, the application program 15
It has data on the total amount of goods already sold, and it is not usually conceivable to deposit less than this total amount from customers. Therefore, when the language element code of the deposit less than the total price of the product is output from the voice recognition unit 13, it is determined that the language element code is erroneously recognized, and the unnecessary language element code is removed by removing the language element code. To the application program 15 can be prevented.

【0038】このような原理に基づいて、本実施の形態
おけるフィルタ部14は、アプリケーションプログラム
15から受取った商品の合計金額を言語要素コードと比
較し、言語要素コードが商品の合計金額未満のときに
は、その言語要素コードを除去してアプリケーションプ
ログラム15に渡さないようにするように構成する。
Based on such a principle, the filter unit 14 in the present embodiment compares the total price of the product received from the application program 15 with the language element code, and when the language element code is less than the total price of the product, , The language element code is removed so as not to be passed to the application program 15.

【0039】このような構成の本発明の実施の形態にお
いては、例えば本装置の使用者が図7(a)に示すよう
に「三千円」と発声すると、この音声は音声入力部11
でデジタル信号に変換されて音声認識部13に供給され
る。そして、音声認識部13で音声認識リソース12′
が参照され、入力された音声と予め音声認識リソース内
で定義された語句との類似性・近似性が検出され、「三
千円」に対して「3000」なる言語要素コードが出力
される。
In the embodiment of the present invention having such a configuration, for example, when the user of the present apparatus utters "3,000 yen" as shown in FIG.
Is converted into a digital signal and supplied to the voice recognition unit 13. Then, the speech recognition unit 13 outputs a speech recognition resource 12 ′.
Is detected, the similarity / approximation between the input speech and the phrase defined in advance in the speech recognition resource is detected, and a language element code of “3000” is output for “3,000 yen”.

【0040】一方、フィルタ部14では、アプリケーシ
ョンプログラム15からの「2500」円なる商品の合
計金額と音声認識部13からの言語要素コード「300
0」とが比較される。この場合は、言語要素コードが商
品の合計金額以上となるので、正常に音声認識されたと
判断され、その言語要素コードはアプリケーションプロ
グラム15へ渡される。
On the other hand, in the filter unit 14, the total price of the product of “2500” yen from the application program 15 and the language element code “300” from the speech recognition unit 13
0 "is compared. In this case, since the language element code is equal to or more than the total price of the product, it is determined that the speech has been normally recognized, and the language element code is passed to the application program 15.

【0041】これに対して、例えば本装置の使用者が図
7(b)に示すように「×××」と発声すると、この音
声は音声入力部11でデジタル信号に変換されて音声認
識部13に供給される。そして、音声認識部13で音声
認識リソース12′が参照され、入力された音声と予め
音声認識リソース内で定義された語句との類似性・近似
性が検出され、「×××」に対して誤認識によって例え
ば「2000」なる言語要素コードが出力されたとす
る。
On the other hand, for example, when the user of the present apparatus utters “XXX” as shown in FIG. 7B, this voice is converted into a digital signal by the voice input unit 11 and 13 is supplied. Then, the speech recognition unit 13 refers to the speech recognition resource 12 ′, detects the similarity / approximation between the input speech and the phrase defined in advance in the speech recognition resource, and It is assumed that a language element code “2000” is output due to erroneous recognition.

【0042】一方、フィルタ部14では、アプリケーシ
ョンプログラム15からの「2500」円なる商品の合
計金額と音声認識部13からの言語要素コード「200
0」とが比較される。この場合は、言語要素コードが商
品の合計金額未満となるので、正常に音声認識されなか
ったと判断され、その言語要素コードはアプリケーショ
ンプログラム15には渡されない。
On the other hand, in the filter unit 14, the total price of the product of “2500” yen from the application program 15 and the language element code “200” from the voice recognition unit 13
0 "is compared. In this case, since the language element code is less than the total price of the product, it is determined that speech recognition has not been normally performed, and the language element code is not passed to the application program 15.

【0043】このように、音声認識部13からの言語要
素コードをアプリケーションプログラム15からの商品
の合計金額と比較し、言語要素コードがその合計金額未
満でないときにのみ、その言語要素コードをアプリケー
ションプログラム15に渡すようなフィルタ部14を設
けたので、客と店員との会話から音声認識を行っても、
アプリケーションプログラム15では不要な語句、例え
ば商品の合計金額からみれば通常では考えられないよう
な預り金額の音声、挨拶や世間話、雑音などについて
は、たとえ誤認識されて不要な言語要素コードが音声認
識部13から出力されたとしても、フィルタ部14によ
って除去され、アプリケーションプログラム15には渡
されないため、アプリケーションプログラム15の誤作
動を防止することができる。従って、話者の会話の中か
ら必要な語句だけを音声認識するような場合に使用して
も、音声を正確にコード化できる音声認識装置を提供す
ることができる。
As described above, the language element code from the voice recognition unit 13 is compared with the total price of the product from the application program 15, and only when the language element code is not less than the total price, the language element code is compared with the application program. Since the filter unit 14 is provided so as to be passed to a customer, even if speech recognition is performed from a conversation between a customer and a clerk,
Unnecessary words in the application program 15, for example, voices of deposit amounts, greetings, small talks, noises, etc., which are not normally considered from the viewpoint of the total price of products, are recognized as erroneous language element codes. Even if output from the recognition unit 13, it is removed by the filter unit 14 and is not passed to the application program 15, so that malfunction of the application program 15 can be prevented. Therefore, it is possible to provide a speech recognition device that can accurately code speech even when used in a case where only necessary words and phrases are recognized from a speaker's conversation.

【0044】次に、本発明を電子式キャッシュレジス
タ、POS端末などで客からの預り金の処理を行うなど
を行う業務処理装置に適用した場合の第4の実施の形態
を図8を参照して説明する。なお、本実施の形態におけ
る業務処理装置の機能ブロック図、音声認識リソース1
2の構成図は、それぞれ図5、図6に示すものと同様で
るため、その詳細な説明を省略する。
Next, with reference to FIG. 8, a fourth embodiment in which the present invention is applied to a business processing device for processing a deposit from a customer using an electronic cash register, a POS terminal, or the like. Will be explained. Note that the functional block diagram of the business processing device in the present embodiment, the speech recognition resource 1
2 are the same as those shown in FIGS. 5 and 6, respectively, and therefore, detailed description thereof will be omitted.

【0045】本実施の形態におけるフィルタ部14にお
いて、上記第3の実施の形態と異なるのは、客からの預
り金額を音声認識した言語要素コードがアプリケーショ
ンプログラム15からの商品の合計金額からみれば通常
では考えられないようなものか否かを、大小関係に基づ
いて判断する代りに、商品の合計金額からみれば通常は
満たすような条件を定め、この条件に基づいて判断する
点で異なる。
The difference between the filter unit 14 of the present embodiment and the third embodiment is that the language element code obtained by voice-recognizing the deposit amount from the customer is viewed from the total price of the products from the application program 15. Instead of judging whether or not it is something that cannot be considered normally based on the magnitude relationship, a condition that is usually satisfied from the viewpoint of the total price of the product is determined, and judgment is made based on this condition.

【0046】例えば、商品の合計金額が255円などの
5の倍数である場合には、預り金額としては、通常は1
005円、500円など5の倍数であることは考えられ
ても、1006円ということは考えられない。このよう
なことを考慮すると、フィルタ部14で設定する条件と
しては、例えば言語要素コード(預り金額)が5の倍数
であるとすればよい。ここでは、さらに条件を絞り込
み、その言語要素コード(預り金額)から商品の合計金
額を引いた値が5の倍数でもあるという条件を予め設定
しておく。なお、予め条件を複数用意しておき、合計金
額によって必要な条件を選択するようにしてもよい。
For example, when the total price of the product is a multiple of 5 such as 255 yen, the deposit amount is usually 1
Although it is conceivable that it is a multiple of 5 such as 005 yen or 500 yen, it is not considered that it is 1006 yen. In consideration of this, the condition set by the filter unit 14 may be, for example, that the language element code (deposit amount) is a multiple of five. Here, the condition is further narrowed down, and a condition is set in advance that the value obtained by subtracting the total price of the product from the language element code (deposit amount) is also a multiple of 5. A plurality of conditions may be prepared in advance, and a necessary condition may be selected according to the total amount.

【0047】このような構成の本発明の実施の形態にお
いては、例えば本装置の使用者が図8(a)に示すよう
に「千五円」と発声すると、この音声は音声入力部11
でデジタル信号に変換されて音声認識部13に供給され
る。そして、音声認識部13で音声認識リソース12が
参照され、入力された音声と予め音声認識リソース内で
定義された語句との類似性・近似性が検出され、「千五
円」に対して「1005」なる言語要素コードが出力さ
れる。
In the embodiment of the present invention having such a configuration, for example, when the user of the present apparatus utters “1000 yen” as shown in FIG.
Is converted into a digital signal and supplied to the voice recognition unit 13. Then, the speech recognition unit 13 refers to the speech recognition resource 12 to detect the similarity / approximation between the input speech and a phrase defined in advance in the speech recognition resource. The language element code “1005” is output.

【0048】一方、フィルタ部14では、アプリケーシ
ョンプログラム15からの「255」円なる商品の合計
金額により、上述した条件が選択され、音声認識部13
からの言語要素コード「1005」が上述した条件を満
たすか否かが判断される。この場合は、条件を満たすの
で、正常に音声認識されたと判断され、その言語要素コ
ードはアプリケーションプログラム15へ渡される。
On the other hand, in the filter unit 14, the above-described condition is selected based on the total amount of the product of “255” yen from the application program 15, and the speech recognition unit 13
It is determined whether the language element code “1005” from satisfies the above-described condition. In this case, since the condition is satisfied, it is determined that speech recognition has been normally performed, and the language element code is passed to the application program 15.

【0049】また、例えば本装置の使用者が図8(b)
に示すように「五百円」と発声すると、この音声は音声
入力部11でデジタル信号に変換されて音声認識部13
に供給される。そして、音声認識部13で音声認識リソ
ース12が参照され、入力された音声と予め音声認識リ
ソース内で定義された語句との類似性・近似性が検出さ
れ、「五百円」に対して「500」なる言語要素コード
が出力される。
Also, for example, the user of the present apparatus is shown in FIG.
When "500 yen" is uttered as shown in FIG. 7, this voice is converted into a digital signal by the voice input unit 11 and
Supplied to Then, the speech recognition unit 13 refers to the speech recognition resource 12 to detect the similarity / approximation between the input speech and a phrase defined in advance in the speech recognition resource. The language element code "500" is output.

【0050】一方、フィルタ部14では、アプリケーシ
ョンプログラム15からの「255」円なる商品の合計
金額により、上述した条件が選択され、音声認識部13
からの言語要素コード「500」が上述した条件を満た
すか否かが判断される。この場合は、条件を満たすの
で、正常に音声認識されたと判断され、その言語要素コ
ードはアプリケーションプログラム15へ渡される。
On the other hand, in the filter unit 14, the above-described condition is selected based on the total price of the product of “255” yen from the application program 15, and the voice recognition unit 13
It is determined whether or not the language element code “500” from satisfies the above condition. In this case, since the condition is satisfied, it is determined that speech recognition has been normally performed, and the language element code is passed to the application program 15.

【0051】これに対して、例えば本装置の使用者が図
8(c)に示すように「×××」と発声すると、この音
声は音声入力部11でデジタル信号に変換されて音声認
識部13に供給される。そして、音声認識部13で音声
認識リソース12が参照され、入力された音声と予め音
声認識リソース内で定義された語句との類似性・近似性
が検出され、「×××」に対して誤認識によって例えば
「1006」なる言語要素コードが出力されたとする。
On the other hand, for example, when the user of this apparatus utters “XXX” as shown in FIG. 8C, this voice is converted into a digital signal by the voice input unit 11 and 13 is supplied. Then, the speech recognition unit 13 refers to the speech recognition resource 12 and detects the similarity / approximation between the input speech and a phrase defined in advance in the speech recognition resource. It is assumed that a language element code “1006” is output by the recognition.

【0052】一方、フィルタ部14では、アプリケーシ
ョンプログラム15からの「255」円なる商品の合計
金額により、上述した条件が選択され、音声認識部13
からの言語要素コード「1006」が上述した条件を満
たすか否かが判断される。この場合は、条件を満たさな
いので、正常に音声認識されなかったと判断され、その
言語要素コードはアプリケーションプログラム15には
渡されない。
On the other hand, in the filter unit 14, the above-described conditions are selected based on the total price of the product of “255” yen from the application program 15, and the speech recognition unit 13
It is determined whether the language element code “1006” from satisfies the above-described condition. In this case, since the condition is not satisfied, it is determined that the speech has not been normally recognized, and the language element code is not passed to the application program 15.

【0053】このように、音声認識部13からの言語要
素コードをアプリケーションプログラム15からの商品
の合計金額に基づいて決められた所定の条件を満たして
いるときにのみ、その言語要素コードをアプリケーショ
ンプログラム15に渡すようなフィルタ部14を設けた
ので、客と店員との会話から音声認識を行っても、アプ
リケーションプログラム15では不要な語句、例えば商
品の合計金額からみれば通常では考えられないような預
り金額の音声、挨拶や世間話、雑音などについては、た
とえ誤認識されて不要な言語要素コードが音声認識部1
3から出力されたとしても、フィルタ部14によって除
去され、アプリケーションプログラム15には渡されな
いため、アプリケーションプログラム15の誤作動を防
止することができる。従って、上記第1の実施の形態と
同様に、話者の会話の中から必要な語句だけを音声認識
するような場合に使用しても、音声を正確にコード化で
きる音声認識装置を提供することができる。
As described above, only when the language element code from the voice recognition unit 13 satisfies the predetermined condition determined based on the total price of the product from the application program 15, the language element code is Since the filter unit 14 is provided so that it can be passed to the application program 15, even if speech recognition is performed from a conversation between the customer and the clerk, the application program 15 does not normally think of unnecessary words and phrases, for example, from the viewpoint of the total price of goods. Regarding the voice of the deposit amount, greetings, small talk, noise, etc., even if an erroneous recognition and unnecessary language element code
Even if it is output from 3, the filter is removed by the filter unit 14 and is not passed to the application program 15, so that malfunction of the application program 15 can be prevented. Therefore, similarly to the first embodiment, a speech recognition apparatus capable of accurately encoding speech even when used for speech recognition of only a necessary phrase from a speaker's conversation is provided. be able to.

【0054】なお、本実施の形態におけるフィルタ部1
4で設定する条件としては、商品の合計金額の下一桁が
0の場合、例えば1550円などの場合は、言語要素コ
ード(預り金額)が50の倍数であり、かつその言語要
素コード(預り金額)から商品の合計金額を引いた値が
50の倍数でもあるという条件を予め設定してもよい。
これにより、「5の倍数」とした場合に比して、預り金
額として通常では考えられない1560円なども除去す
ることができるようになる。
The filter unit 1 according to the present embodiment
The condition set in 4 is that if the last digit of the total price of the product is 0, for example, 1550 yen, the language element code (deposit amount) is a multiple of 50 and the language element code (deposit amount) The condition that the value obtained by subtracting the total price of the product from the price) is also a multiple of 50 may be set in advance.
This makes it possible to remove 1560 yen, which is not normally considered as a deposit amount, as compared with the case of “multiple of 5”.

【0055】次に、本発明を電子式キャッシュレジス
タ、POS端末などで客からの預り金の処理を行うなど
を行う業務処理装置に適用した場合の第5の実施の形態
を図9ないし図11を参照して説明する。なお、本実施
の形態において、第1の実施の形態と同一部分には同一
符号を付してその詳細な説明を省略する。
Next, a fifth embodiment in which the present invention is applied to a business processing device for processing a deposit from a customer using an electronic cash register, a POS terminal, or the like will be described with reference to FIGS. 9 to 11. This will be described with reference to FIG. Note that, in the present embodiment, the same portions as those in the first embodiment are denoted by the same reference numerals, and detailed description thereof will be omitted.

【0056】本実施の形態にかかる業務処理装置は、図
9に示すように音声入力部11、音声認識リソース1
2、音声認識部13、フィルタ部14、このフィルタ部
14からの言語要素コードを利用するアプリケーション
プログラム15の他、フィルタ部14で音声認識部13
からの言語要素コードを除去するか否かを判断する際に
参照する取扱い商品の商品情報を集めた商品情報データ
ベース(商品情報記憶手段)21から構成される。
As shown in FIG. 9, the business processing device according to the present embodiment includes a voice input unit 11 and a voice recognition resource 1.
2. Speech recognition unit 13, filter unit 14, application program 15 using the language element code from filter unit 14, and speech recognition unit 13
And a product information database (product information storage means) 21 which collects product information of the handled products to be referred to when determining whether to remove the language element code from the product.

【0057】本実施の形態における音声認識部13、フ
ィルタ部14、及びアプリケーションプログラム15
は、CPU・ROM・RAMを備えたパーソナルコンピ
ュータなどから構成される。これら音声認識部13、フ
ィルタ部14、及びアプリケーションプログラム15
は、具体的には例えばハードディスク装置などの記憶装
置又はROMなどのメモリに記憶され、上記パーソナル
コンピュータのCPUが読取可能なソフトウエアプログ
ラムで構成される。
The voice recognition unit 13, the filter unit 14, and the application program 15 in the present embodiment
Is composed of a personal computer having a CPU, ROM and RAM. These voice recognition unit 13, filter unit 14, and application program 15
Is, for example, a software program stored in a storage device such as a hard disk device or a memory such as a ROM and readable by the CPU of the personal computer.

【0058】上記音声認識リソース12は、例えばハー
ドディスク装置などの記憶装置で構成される。具体的な
構成は、図2に示すものと同様であるためその詳細な説
明を省略する。
The speech recognition resource 12 is constituted by a storage device such as a hard disk device. The specific configuration is the same as that shown in FIG. 2, and a detailed description thereof will be omitted.

【0059】上記商品情報データベース21は、例えば
ハードディスク装置などの記憶装置で構成される。具体
的には図10に示すような取扱い商品の商品名、言語要
素コード、単価、在庫数をそれぞれ関連づけた商品情報
を集めて構成される。例えば商品名が「商品A」には、
「101」なる言語要素コード、「100」円なる単
価、「1000」個なる在庫数が関連づけられている。
なお、この商品情報データベース21の商品情報は、商
品の販売処理などによって更新されるようになってい
る。
The product information database 21 is constituted by a storage device such as a hard disk device. Specifically, it is configured by collecting merchandise information in which the merchandise names, language element codes, unit prices, and stock quantities of the handled merchandise as shown in FIG. 10 are associated with each other. For example, if the product name is "Product A",
A language element code of “101”, a unit price of “100” yen, and a stock quantity of “1000” are associated.
The product information in the product information database 21 is updated by, for example, a sales process of the product.

【0060】本実施の形態におけるフィルタ部14は、
音声認識部13からの言語要素コードをキーとして商品
情報データベース21から商品情報を検索する。そし
て、該当する商品情報がないときにはその言語要素コー
ドを除去し、該当する商品情報があればその言語要素コ
ードをアプリケーションプログラム15へ渡す。
The filter section 14 in the present embodiment is
The product information is retrieved from the product information database 21 using the language element code from the voice recognition unit 13 as a key. When there is no corresponding product information, the language element code is removed, and when there is the corresponding product information, the language element code is passed to the application program 15.

【0061】つまり、音声認識部13で誤認識された場
合、出力される言語要素コードは実際に商品情報が存在
しないものである可能性が高い。このため、音声認識部
13からの言語要素コードを商品情報データベース21
で検索し、商品情報が存在する言語要素コードか否かを
判断することによって、商品情報が存在しないような不
要な言語要素コードを除去してアプリケーションプログ
ラム15に渡さないようにするものである。
That is, when the speech recognition unit 13 misrecognizes the language element code, it is highly likely that the output language element code does not actually include product information. Therefore, the language element code from the voice recognition unit 13 is stored in the product information database 21.
By determining whether or not the product information is a language element code in which the product information exists, unnecessary language element codes in which the product information does not exist are removed so as not to be passed to the application program 15.

【0062】このような構成の本発明の実施の形態にお
いては、例えば本装置の使用者が図11(a)に示すよ
うに「商品A」と発声すると、この音声は音声入力部1
1でデジタル信号に変換されて音声認識部13に供給さ
れる。そして、音声認識部13で音声認識リソース12
が参照され、入力された音声と予め音声認識リソース内
で定義された語句との類似性・近似性が検出され、「商
品A」に対して「0101」なる言語要素コードが出力
される。この言語要素コードは次のフィルタ部14に渡
される。すると、フィルタ部14では、その言語要素コ
ードをキーとして商品情報データベース21から商品情
報が検索される。この場合は、該当する商品情報がある
ので、その言語要素コードがアプリケーションプログラ
ム15へ渡される。
In the embodiment of the present invention having such a configuration, for example, when a user of the present apparatus utters “product A” as shown in FIG.
The signal is converted into a digital signal at 1 and supplied to the voice recognition unit 13. Then, the voice recognition resource 13
Is detected, the similarity / approximation between the input voice and the phrase defined in advance in the voice recognition resource is detected, and the language element code “0101” is output for “product A”. This language element code is passed to the next filter unit 14. Then, the filter unit 14 searches the product information database 21 for product information using the language element code as a key. In this case, since there is corresponding product information, the language element code is passed to the application program 15.

【0063】これに対して、本装置の使用者が図11
(b)に示すように「×××」と発声すると、この音声
は音声入力部11でデジタル信号に変換されて音声認識
部13に供給される。そして、音声認識部13で音声認
識リソース12が参照され、入力された音声と予め音声
認識リソース内で定義された語句との類似性・近似性が
検出され、「××」に対して誤認識によって例えば音声
認識部13によって未定義の「0105」なる言語要素
コードが出力されたとする。
On the other hand, the user of this apparatus
When “XXX” is uttered as shown in (b), this voice is converted into a digital signal by the voice input unit 11 and supplied to the voice recognition unit 13. Then, the speech recognition unit 13 refers to the speech recognition resource 12, detects the similarity / approximation between the input speech and a phrase defined in advance in the speech recognition resource, and incorrectly recognizes “xx”. For example, assume that the speech recognition unit 13 outputs an undefined language element code of “0105”.

【0064】すると、フィルタ部14では、その言語要
素コードをキーとして商品情報データベース21から商
品情報が検索される。この場合は、該当する商品情報が
ないので、その言語要素コードは除去され、アプリケー
ションプログラム15へ渡されない。
Then, the filter unit 14 searches the product information database 21 for product information using the language element code as a key. In this case, since there is no corresponding product information, the language element code is removed and is not passed to the application program 15.

【0065】このように、音声認識部13からの言語要
素コードをキーとして商品情報データベースから商品情
報を検索し、該当する商品情報があるときにのみ、その
言語要素コードをアプリケーションプログラム15に渡
すようなフィルタ部14を設けたので、客と店員との会
話から音声認識を行っても、アプリケーションプログラ
ム15では不要な語句、例えば挨拶や世間話、雑音など
については、たとえ誤認識されて不要な言語要素コード
が音声認識部13から出力されたとしても、フィルタ部
14によって除去され、アプリケーションプログラム1
5には渡されないため、アプリケーションプログラム1
5の誤作動を防止することができる。従って、上記第1
の実施の形態と同様に、話者の会話の中から必要な語句
だけを音声認識するような場合に使用しても、音声を正
確にコード化できる音声認識装置を提供することができ
る。
As described above, the product information is searched from the product information database using the language element code from the voice recognition unit 13 as a key, and the language element code is passed to the application program 15 only when there is the corresponding product information. Since the filter unit 14 is provided, even if speech recognition is performed from a conversation between a customer and a clerk, unnecessary words and phrases such as greetings, small talk, and noise are not recognized by the application program 15 even if the unnecessary language is recognized. Even if the element code is output from the voice recognition unit 13, it is removed by the filter unit 14 and the application program 1
5 is not passed to application program 1
5 can be prevented from malfunctioning. Therefore, the first
As in the case of the first embodiment, it is possible to provide a speech recognition apparatus capable of accurately encoding speech even when used in a case where only necessary words and phrases are recognized in a conversation between speakers.

【0066】なお、本実施の形態におけるフィルタ部1
4において、音声認識部13からの言語要素コードをキ
ーとして商品情報データベース21から検索したとき
に、商品情報が検索できたとしても、在庫数が0である
場合には、その言語要素コードを除去するようにしても
よい。これによって、在庫数が0の商品の言語要素コー
ドがアプリケーションプログラムへ渡されることを防止
できる。
The filter unit 1 according to the present embodiment
In step 4, when the product information is retrieved from the product information database 21 using the language element code from the voice recognition unit 13 as a key, if the stock quantity is 0, the language element code is removed. You may make it. As a result, it is possible to prevent the language element code of the product whose stock quantity is 0 from being passed to the application program.

【0067】上記第1〜第5の実施の形態までは、それ
ぞれ別々に適用する場合について説明したが、これらの
実施の形態を組合わせて適用してもよい。
Although the above first to fifth embodiments have been described with respect to the case where they are applied separately, these embodiments may be applied in combination.

【0068】[0068]

【発明の効果】以上詳述したように本発明によれば、客
と店員との会話から音声認識を行っても、アプリケーシ
ョンプログラムでは不要な語句、例えば挨拶や世間話、
雑音などについては、たとえ誤認識されて不要な言語要
素コードが音声認識手段から出力されたとしても、フィ
ルタ手段によって除去され、アプリケーションプログラ
ムには渡されないため、アプリケーションプログラムの
誤作動を防止することができる。従って、話者の会話の
中から必要な語句だけを音声認識するような場合に使用
しても、音声を正確にコード化できる音声認識装置を提
供することができる。
As described above in detail, according to the present invention, even when speech recognition is performed from a conversation between a customer and a clerk, unnecessary words and phrases such as greetings and small talks in an application program can be obtained.
Regarding noise, even if an unnecessary language element code is erroneously recognized and output from the speech recognition means, it is removed by the filter means and is not passed to the application program, so that malfunction of the application program can be prevented. it can. Therefore, it is possible to provide a speech recognition device that can accurately code speech even when used in a case where only necessary words and phrases are recognized from a speaker's conversation.

【0069】また、音声認識手段では、予め定義されて
いる音声認識されるべき語句の中から最も近いものを選
択するが、不要な言語要素コードであればフィルタ手段
で除去することができるので、音声認識されるべき語句
について使用者の特徴的な言回しのすべてを音声認識リ
ソースに定義しなくても、アプリケーションプログラム
の誤動作を防止できる。
The speech recognition means selects the closest one of the words to be recognized in advance, but unnecessary language element codes can be removed by the filter means. The malfunction of the application program can be prevented without defining all of the user's characteristic wording of the phrase to be speech-recognized in the speech recognition resource.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施の形態にかかる業務処理装
置の構成を示す機能ブロック図。
FIG. 1 is a functional block diagram showing a configuration of a business processing device according to a first embodiment of the present invention.

【図2】図1に示す音声認識リソースの構成を示す図。FIG. 2 is a diagram showing a configuration of a speech recognition resource shown in FIG.

【図3】本実施の形態の作用を説明する図。FIG. 3 is a diagram illustrating an operation of the embodiment.

【図4】本発明の第2の実施の形態にかかる業務処理装
置の作用を説明する図。
FIG. 4 is an exemplary view for explaining the operation of a business processing device according to a second embodiment of the present invention;

【図5】本発明の第3の実施の形態にかかる業務処理装
置の構成を示す機能ブロック図。
FIG. 5 is a functional block diagram showing a configuration of a business processing device according to a third embodiment of the present invention.

【図6】図5に示す音声認識リソースの構成を示す図。FIG. 6 is a diagram showing a configuration of a speech recognition resource shown in FIG. 5;

【図7】本実施の形態の作用を説明する図。FIG. 7 is a diagram illustrating the operation of the present embodiment.

【図8】本発明の第4の実施の形態にかかる業務処理装
置の構成を示す機能ブロック図。
FIG. 8 is a functional block diagram showing a configuration of a business processing device according to a fourth embodiment of the present invention.

【図9】本発明の第5の実施の形態にかかる業務処理装
置の構成を示す機能ブロック図。
FIG. 9 is a functional block diagram showing a configuration of a business processing device according to a fifth embodiment of the present invention.

【図10】図9に示す音声認識リソースの構成を示す
図。
FIG. 10 is a diagram showing a configuration of a speech recognition resource shown in FIG. 9;

【図11】本実施の形態の作用を説明する図。FIG. 11 is a diagram illustrating an operation of the present embodiment.

【図12】従来の音声認識装置を適用した業務処理装置
の構成を示す機能ブロック図。
FIG. 12 is a functional block diagram showing a configuration of a business processing device to which a conventional voice recognition device is applied.

【符号の説明】[Explanation of symbols]

11…音声入力部 11a…マイク 11b…A/D変換器 12…音声認識リソース 13…音声認識部 14…フィルタ部 15…アプリケーションプログラム 21…商品情報データベース DESCRIPTION OF SYMBOLS 11 ... Speech input part 11a ... Microphone 11b ... A / D converter 12 ... Speech recognition resource 13 ... Speech recognition part 14 ... Filter part 15 ... Application program 21 ... Product information database

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 話者の音声を入力するための音声入力手
段と、この音声入力手段から入力した音声から語句を認
識する音声認識手段と、予め認識されるべき複数の語句
と各語句に対応した言語要素コードを記憶する言語要素
コード記憶手段と、前記音声認識手段で認識された語句
が予め認識されるべき語句を含むとき、各語句に対応す
る言語要素コードを前記言語要素コード記憶手段から抽
出して出力する言語要素コード出力手段と、この言語要
素コード出力手段から出力された言語要素コードのうち
不要なものを除去し、必要なものを通過させるフィルタ
手段とを備えたことを特徴とする音声認識装置。
1. A speech input means for inputting a voice of a speaker, a speech recognition means for recognizing a phrase from speech inputted from the speech input means, and a plurality of phrases to be recognized in advance and corresponding to each phrase. Language element code storage means for storing the obtained language element code, and when the phrase recognized by the speech recognition means includes a phrase to be recognized in advance, a language element code corresponding to each phrase is stored from the language element code storage means. Language element code output means for extracting and outputting, and filter means for removing unnecessary ones of language element codes output from the language element code output means and passing necessary ones, Voice recognition device.
【請求項2】 話者の音声を入力するための音声入力手
段と、この音声入力手段から入力した音声から語句を認
識する音声認識手段と、予め認識されるべき複数の語句
と各語句に対応した言語要素コードを記憶する言語要素
コード記憶手段と、前記音声認識手段で認識された語句
が予め認識されるべき語句を含むとき、各語句に対応す
る言語要素コードを前記言語要素コード記憶手段から抽
出して出力する言語要素コード出力手段と、1回の音声
認識処理で前記言語要素コード出力手段から出力された
複数の言語要素コードのうち、1つでも必要な言語要素
コードが含まれていない場合はすべての言語要素コード
を除去し、必要な言語要素コードがすべてそろっている
場合はそれらの言語要素コードを通過させるフィルタ手
段とを備えたことを特徴とする音声認識装置。
2. A speech input means for inputting a voice of a speaker, a speech recognition means for recognizing a phrase from speech inputted from the speech input means, and a plurality of phrases to be recognized in advance and corresponding to each phrase. Language element code storage means for storing the obtained language element code, and when the phrase recognized by the speech recognition means includes a phrase to be recognized in advance, a language element code corresponding to each phrase is stored from the language element code storage means. A language element code output means for extracting and outputting, and at least one necessary language element code among a plurality of language element codes output from the language element code output means in one speech recognition process is not included. If necessary, filter means to remove all language element codes and, if all necessary language element codes are available, to pass those language element codes Characteristic speech recognition device.
【請求項3】 話者の音声を入力するための音声入力手
段と、この音声入力手段から入力した音声から語句を認
識する音声認識手段と、予め認識されるべき複数の語句
と各語句に対応した所定の数値範囲内の言語要素コード
を記憶する言語要素コード記憶手段と、前記音声認識手
段で認識された語句が予め認識されるべき語句を含むと
き、各語句に対応する言語要素コードを前記言語要素コ
ード記憶手段から抽出して出力する言語要素コード出力
手段と、前記言語要素コード出力手段から出力された言
語要素コードが、所定の数値範囲外のものである場合は
その言語要素コードを除去し、所定の数値範囲内のもの
である場合はその言語要素コードを通過させるフィルタ
手段とを備えたことを特徴とする音声認識装置。
3. A voice input means for inputting a voice of a speaker, a voice recognition means for recognizing a phrase from a voice inputted from the voice input means, and a plurality of words to be recognized in advance and a plurality of words. Language element code storage means for storing a language element code within a predetermined numerical range, and when the words recognized by the voice recognition means include words to be recognized in advance, the language element code corresponding to each word is stored in the language element code. A language element code output means for extracting and outputting the language element code from the language element code storage means, and removing the language element code if the language element code output from the language element code output means is out of a predetermined numerical range. And a filter means for passing the language element code when the value is within a predetermined numerical range.
【請求項4】 話者の音声を入力するための音声入力手
段と、この音声入力手段から入力した音声から語句を認
識する音声認識手段と、客からの預り金として前記音声
認識手段で認識されるべき複数の金額を示す語句と各語
句に対応した金額を示す言語要素コードを記憶する言語
要素コード記憶手段と、前記音声認識手段で認識された
語句が予め認識されるべき語句を含むとき、各語句に対
応する言語要素コードを前記言語要素コード記憶手段か
ら抽出して出力する言語要素コード出力手段と、外部か
ら代金のデータを取込み、前記言語要素コード出力手段
から出力された言語要素コードが示す金額が、前記外部
から取込んだデータの代金よりも低い場合にその言語要
素コードを除去し、前記外部から取込んだデータの代金
以上である場合にその言語要素コードを通過させるフィ
ルタ手段とを備えたことを特徴とする音声認識装置。
4. A voice input means for inputting a voice of a speaker, a voice recognition means for recognizing a phrase from a voice input from the voice input means, and a voice recognition means for recognizing a deposit from a customer. Language element code storage means for storing a plurality of words to be indicated and a language element code indicating an amount of money corresponding to each word, and when the words recognized by the voice recognition means include words to be recognized in advance, A language element code output means for extracting and outputting a language element code corresponding to each word from the language element code storage means, and a language element code output from the language element code output means which takes in data of the price from the outside. If the amount shown is lower than the price of the data imported from the outside, the language element code is removed, and if the amount is equal to or more than the price of the data imported from the outside, the price is reduced. And a filter means for passing the language element code.
【請求項5】 話者の音声を入力するための音声入力手
段と、この音声入力手段から入力した音声から語句を認
識する音声認識手段と、客からの預り金として前記音声
認識手段で認識されるべき複数の金額を示す語句と各語
句に対応した金額を示す言語要素コードを記憶する言語
要素コード記憶手段と、前記音声認識手段で認識された
語句が予め認識されるべき語句を含むとき、各語句に対
応する言語要素コードを前記言語要素コード記憶手段か
ら抽出して出力する言語要素コード出力手段と、外部か
ら代金のデータを取込み、前記言語要素コード出力手段
から出力された言語要素コードが示す金額が、前記外部
から取込んだデータの代金に基づいて導き出される条件
を満たさない場合はその言語要素コードを除去し、前記
条件を満たす場合はその言語要素コードを通過させるフ
ィルタ手段とを備えたことを特徴とする音声認識装置。
5. A voice input means for inputting a voice of a speaker, a voice recognition means for recognizing a phrase from a voice inputted from the voice input means, and a voice recognition means for recognizing a deposit from a customer. Language element code storage means for storing a plurality of words to be indicated and a language element code indicating an amount of money corresponding to each word, and when the words recognized by the voice recognition means include words to be recognized in advance, A language element code output means for extracting and outputting a language element code corresponding to each word from the language element code storage means, and a language element code output from the language element code output means which takes in data of the price from the outside. If the indicated amount does not satisfy the condition derived based on the price of the data taken from the outside, the language element code is removed, and if the condition is satisfied, And a filter means for passing the language element code.
【請求項6】 話者の音声を入力するための音声入力手
段と、この音声入力手段から入力した音声から語句を認
識する音声認識手段と、予め認識されるべき複数の語句
と各語句に対応した言語要素コードを記憶する言語要素
コード記憶手段と、言語要素コードに関連づけられた商
品情報を集めて構成された商品情報記憶手段と、前記音
声認識手段で認識された語句が予め認識されるべき語句
を含むとき、各語句に対応する言語要素コードを前記言
語要素コード記憶手段から抽出して出力する言語要素コ
ード出力手段と、この言語要素コード出力手段から出力
された言語要素コードをキーとして前記商品情報記憶手
段から商品情報を検索し、該当する商品情報がない場合
はその言語要素コードを除去し、該当する商品情報があ
る場合はその言語要素コードを通過させるフィルタ手段
とを備えたことを特徴とする音声認識装置。
6. A voice input means for inputting a voice of a speaker, a voice recognition means for recognizing a phrase from a voice input from the voice input means, and a plurality of words to be recognized in advance and corresponding to each word. Language element code storage means for storing the obtained language element code, product information storage means configured by collecting product information associated with the language element code, and the phrase recognized by the voice recognition means should be recognized in advance. A language element code output means for extracting and outputting a language element code corresponding to each word from the language element code storage means, and a language element code output from the language element code output means as a key The product information is retrieved from the product information storage means. If there is no corresponding product information, the language element code is removed. A speech recognition device comprising: a filter means for passing a raw code.
JP10158895A 1998-06-08 1998-06-08 Voice recognition device Abandoned JPH11352985A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10158895A JPH11352985A (en) 1998-06-08 1998-06-08 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10158895A JPH11352985A (en) 1998-06-08 1998-06-08 Voice recognition device

Publications (1)

Publication Number Publication Date
JPH11352985A true JPH11352985A (en) 1999-12-24

Family

ID=15681728

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10158895A Abandoned JPH11352985A (en) 1998-06-08 1998-06-08 Voice recognition device

Country Status (1)

Country Link
JP (1) JPH11352985A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142481A (en) * 1999-08-26 2001-05-25 Matsushita Electric Ind Co Ltd Control system for audio/video device and integrated access system for control of audio/video constitution
JP2009059286A (en) * 2007-09-03 2009-03-19 Nec Corp Information analysis system and information analyzing method
JP2017151665A (en) * 2016-02-24 2017-08-31 日本電気株式会社 Information processing device, information processing method, and program
WO2019022459A1 (en) * 2017-07-25 2019-01-31 주식회사 탑시스템 Voice recognition-type remote control device for tv screen position adjuster

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142481A (en) * 1999-08-26 2001-05-25 Matsushita Electric Ind Co Ltd Control system for audio/video device and integrated access system for control of audio/video constitution
JP2009059286A (en) * 2007-09-03 2009-03-19 Nec Corp Information analysis system and information analyzing method
JP2017151665A (en) * 2016-02-24 2017-08-31 日本電気株式会社 Information processing device, information processing method, and program
WO2019022459A1 (en) * 2017-07-25 2019-01-31 주식회사 탑시스템 Voice recognition-type remote control device for tv screen position adjuster
CN110651470A (en) * 2017-07-25 2020-01-03 Top系统株式会社 Speech recognition type remote control device for TV picture position regulator

Similar Documents

Publication Publication Date Title
US12198685B2 (en) Systems and methods for formatting informal utterances
US9025890B2 (en) Information classification device, information classification method, and information classification program
US20100121631A1 (en) Data detection
US20030172030A1 (en) Payee match positive pay banking
US20130246066A1 (en) Method and apparatus for providing services using voice recognition in pos system
JP5025353B2 (en) Dialog processing apparatus, dialog processing method, and computer program
CN100474331C (en) Character string identification device
JP7513161B2 (en) Information processing system, customer identification device, information processing method and program
CN111611358A (en) Information interaction method and device, electronic equipment and storage medium
JP5532781B2 (en) Waiting service server, waiting service system using the server, and expected end time calculation method for waiting service
JP5646675B2 (en) Information processing apparatus and method
JPH11352985A (en) Voice recognition device
Takeuchi et al. Getting insights from the voices of customers: Conversation mining at a contact center
CN110489517B (en) Automatic learning method and system of virtual assistant
JP7586290B2 (en) Price management system, price management method, and program
JP2000010585A (en) Speech recognizing device
JP6805503B2 (en) Information processing equipment, information processing methods, and programs
JP2006065651A (en) Program, apparatus and method for retrieving trademark name
JP2000181487A (en) Voice recognition device
JP5903414B2 (en) Information processing apparatus, store system, and program
JPH11316597A (en) Voice recognition device
JP3360030B2 (en) Character recognition device, character recognition method, and recording medium recording character recognition method in program form
JP2000132635A (en) Recognizing data confirming method
CN116886992A (en) Video data processing method and device, electronic equipment and storage medium
JP2023146216A (en) Conversion-into-text support device and conversion-into-text support method

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040706

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20040903