JPH11288297A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH11288297A JPH11288297A JP10093053A JP9305398A JPH11288297A JP H11288297 A JPH11288297 A JP H11288297A JP 10093053 A JP10093053 A JP 10093053A JP 9305398 A JP9305398 A JP 9305398A JP H11288297 A JPH11288297 A JP H11288297A
- Authority
- JP
- Japan
- Prior art keywords
- word
- unknown
- unknown word
- words
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 発声内に複数の未知語が含まれている場合に
それらが同一であるかを区別する。 【解決手段】 検出した未知語のそれぞれ最適な状態遷
移モデルを確定する未知語モデル決定手段104と、そ
れらの最適な状態遷移モデルを記憶する未知語モデル記
憶手段109と、それらの最適な状態遷移モデル同士を
比較し、それらの未知語が同一のものか、別種の未知語
であるかを判定する未知語判定手段105を備えた。発
声内に複数の未知語が含まれている場合にそれらが同一
であるかを区別することができるので、利用者は未知語
が同一のものであったか、異なったものであったを容易
に知ることができる。
それらが同一であるかを区別する。 【解決手段】 検出した未知語のそれぞれ最適な状態遷
移モデルを確定する未知語モデル決定手段104と、そ
れらの最適な状態遷移モデルを記憶する未知語モデル記
憶手段109と、それらの最適な状態遷移モデル同士を
比較し、それらの未知語が同一のものか、別種の未知語
であるかを判定する未知語判定手段105を備えた。発
声内に複数の未知語が含まれている場合にそれらが同一
であるかを区別することができるので、利用者は未知語
が同一のものであったか、異なったものであったを容易
に知ることができる。
Description
【0001】
【発明の属する技術分野】本発明は、音声認識装置に関
し、特に未知語を含んだ発声について、効率のよい認識
を行う音声認識装置に関するものである。
し、特に未知語を含んだ発声について、効率のよい認識
を行う音声認識装置に関するものである。
【0002】
【従来の技術】音声認識装置において、単語辞書に存在
しない単語(以下、未知語という)をどのように処理す
るかは、大きな課題である。図18は特開平9−127
978に開示された従来の未知語処理の手法である。以
下、本図を従来例として、その動作を説明する。図にお
いて、1は音声入力装置、2は音響処理部、3は第1出
力確率計算部、4はHMM(隠れマルコフモデル)、5
は第2出力確率計算部、6は文法・辞書、7は言語探索
部、8は表示部である。
しない単語(以下、未知語という)をどのように処理す
るかは、大きな課題である。図18は特開平9−127
978に開示された従来の未知語処理の手法である。以
下、本図を従来例として、その動作を説明する。図にお
いて、1は音声入力装置、2は音響処理部、3は第1出
力確率計算部、4はHMM(隠れマルコフモデル)、5
は第2出力確率計算部、6は文法・辞書、7は言語探索
部、8は表示部である。
【0003】つぎに図18をもとにして動作を説明す
る。音声入力装置1によって入力された音声は、音響処
理部2によって音声データ(特徴ベクトル)に分析され
る。つづいて第1出力確率計算部3においてHMM4を
用いて出力確率の計算を行う。ここでHMM4には音声
認識用HMMと未知語処理に用いるHMMが登録されて
いる。第1出力確率計算部3では、音声認識用HMMが
用いられ、既知の単語に関する尤度(出力確率)が決定
される。
る。音声入力装置1によって入力された音声は、音響処
理部2によって音声データ(特徴ベクトル)に分析され
る。つづいて第1出力確率計算部3においてHMM4を
用いて出力確率の計算を行う。ここでHMM4には音声
認識用HMMと未知語処理に用いるHMMが登録されて
いる。第1出力確率計算部3では、音声認識用HMMが
用いられ、既知の単語に関する尤度(出力確率)が決定
される。
【0004】第2出力確率計算部では、HMM4のうち
未知語処理用のHMMを用いて最大出力確率を与える状
態とその値を求める。この未知語処理はすべての音素の
HMMの最大出力確率の状態を遷移するGarbage
Modelを用いて構成することができる。
未知語処理用のHMMを用いて最大出力確率を与える状
態とその値を求める。この未知語処理はすべての音素の
HMMの最大出力確率の状態を遷移するGarbage
Modelを用いて構成することができる。
【0005】つぎに認識用文法と認識用HMM(Gar
bageModelを含む)を用いて、認識用ネットワ
ークを構成する。このネットワークと入力音声を用いて
一般的に知られているViterbi探索を行って認識
処理を進める。この際に各時刻において最大の尤度を有
する状態を抽出し、それらを用いて未知語モデルを形成
する。
bageModelを含む)を用いて、認識用ネットワ
ークを構成する。このネットワークと入力音声を用いて
一般的に知られているViterbi探索を行って認識
処理を進める。この際に各時刻において最大の尤度を有
する状態を抽出し、それらを用いて未知語モデルを形成
する。
【0006】
【発明が解決しようとする課題】しかし、このような手
法では、発声内に複数の未知語が含まれている場合にそ
れらを相互に同一かどうかを確認する手段がなく、それ
らが同一であるかどうか異なっているかどうかを区別す
ることはできなかった。また、利用者は検出した未知語
の表記が確認できず、複数の未知語が同一かどうかの確
認が容易にはできなかった。また、以前発声した1ない
し複数種類の未知語と今回発声した未知語が同一である
かの判定もできなかった。また、複数のまとまった発声
の後に、特定の未知語を登録して、発声内容の該未知語
を一括変換することができず、不便であった。また、未
知語が動詞などの用言であった場合に、別の未知語がそ
の用言の活用形であるのか、それともまったく別の未知
語であるのか判定できず、不便であった。
法では、発声内に複数の未知語が含まれている場合にそ
れらを相互に同一かどうかを確認する手段がなく、それ
らが同一であるかどうか異なっているかどうかを区別す
ることはできなかった。また、利用者は検出した未知語
の表記が確認できず、複数の未知語が同一かどうかの確
認が容易にはできなかった。また、以前発声した1ない
し複数種類の未知語と今回発声した未知語が同一である
かの判定もできなかった。また、複数のまとまった発声
の後に、特定の未知語を登録して、発声内容の該未知語
を一括変換することができず、不便であった。また、未
知語が動詞などの用言であった場合に、別の未知語がそ
の用言の活用形であるのか、それともまったく別の未知
語であるのか判定できず、不便であった。
【0007】本発明はこの欠点を改善するためのもの
で、発声内に複数の未知語が含まれている場合にそれら
が同一であるかを区別することを目的とするものであ
る。また、発声内に1ないし複数の未知語がふくまれて
いる場合にそれらを同一であるか区別するとともにそれ
らの表記を付加することを目的とするものである。ま
た、以前発声された1ないし複数種類の未知語のうちの
いずれかが、今後発声されても、どの未知語であるかを
特定することを目的とするものである。また、まとまっ
た発声の後に、1種類ないし複数種類の未知語を登録し
た場合、該当する同一の未知語が一括に変換されること
を目的とするものである。また、未知語の異なった活用
形に対しても、その未知語の活用形であると特定するこ
とを目的とするものである。
で、発声内に複数の未知語が含まれている場合にそれら
が同一であるかを区別することを目的とするものであ
る。また、発声内に1ないし複数の未知語がふくまれて
いる場合にそれらを同一であるか区別するとともにそれ
らの表記を付加することを目的とするものである。ま
た、以前発声された1ないし複数種類の未知語のうちの
いずれかが、今後発声されても、どの未知語であるかを
特定することを目的とするものである。また、まとまっ
た発声の後に、1種類ないし複数種類の未知語を登録し
た場合、該当する同一の未知語が一括に変換されること
を目的とするものである。また、未知語の異なった活用
形に対しても、その未知語の活用形であると特定するこ
とを目的とするものである。
【0008】
【課題を解決するための手段】この発明の音声認識装置
は、音声データを入力する音声取得手段と、前記音声デ
ータから音声特徴ベクトルを抽出する音響分析手段と、
登録単語の連鎖を定義する単語ネットワーク辞書と、登
録単語の状態遷移モデルを記憶する単語辞書と、未知語
用の状態遷移モデルを記憶する未知語用辞書と、前記音
声特徴ベクトルをもとに認識処理を行い認識中間結果を
出力する認識手段と、前記認識中間結果内の1ないし複
数の未知語のそれぞれ最適な状態遷移モデルを確定する
未知語モデル決定手段と、前記未知語モデル決定手段に
よって決定した1ないし複数の未知語のそれぞれ最適な
状態遷移モデルを記憶する未知語モデル記憶手段と、前
記未知語モデル記憶手段に記憶した複数の未知語のそれ
ぞれ最適な状態遷移モデル同士を比較し、それらの未知
語が同一のものか、別種の未知語であるかを判定する未
知語判定手段とを備えることを特徴とする。
は、音声データを入力する音声取得手段と、前記音声デ
ータから音声特徴ベクトルを抽出する音響分析手段と、
登録単語の連鎖を定義する単語ネットワーク辞書と、登
録単語の状態遷移モデルを記憶する単語辞書と、未知語
用の状態遷移モデルを記憶する未知語用辞書と、前記音
声特徴ベクトルをもとに認識処理を行い認識中間結果を
出力する認識手段と、前記認識中間結果内の1ないし複
数の未知語のそれぞれ最適な状態遷移モデルを確定する
未知語モデル決定手段と、前記未知語モデル決定手段に
よって決定した1ないし複数の未知語のそれぞれ最適な
状態遷移モデルを記憶する未知語モデル記憶手段と、前
記未知語モデル記憶手段に記憶した複数の未知語のそれ
ぞれ最適な状態遷移モデル同士を比較し、それらの未知
語が同一のものか、別種の未知語であるかを判定する未
知語判定手段とを備えることを特徴とする。
【0009】上記音声認識装置は、さらに、未知語の表
記を記憶する未知語表記記憶手段と、前記未知語表記記
憶手段が記憶している1ないし複数の未知語の表記を付
加して認識結果を出力する認識結果出力手段とを備える
ことを特徴とする。
記を記憶する未知語表記記憶手段と、前記未知語表記記
憶手段が記憶している1ないし複数の未知語の表記を付
加して認識結果を出力する認識結果出力手段とを備える
ことを特徴とする。
【0010】上記音声認識装置は、さらに、前記未知語
モデル決定手段によって決定した未知語の最適な状態遷
移モデルを前記単語辞書に追加し、未知語を単語ネット
ワークに付加する未知語追加手段を備えることを特徴と
する。
モデル決定手段によって決定した未知語の最適な状態遷
移モデルを前記単語辞書に追加し、未知語を単語ネット
ワークに付加する未知語追加手段を備えることを特徴と
する。
【0011】上記音声認識装置は、さらに、発声の認識
結果を記憶する認識結果格納手段と、未知語に対応する
単語を登録語として前記単語辞書に追加し、未知語を単
語ネットワークに付加するとともに、未知語を登録した
際に、認識結果格納手段に格納されている認識結果のう
ち、その未知語に対応する認識結果を登録語に一括変換
する未知語一括変換手段とを備えることを特徴とする。
結果を記憶する認識結果格納手段と、未知語に対応する
単語を登録語として前記単語辞書に追加し、未知語を単
語ネットワークに付加するとともに、未知語を登録した
際に、認識結果格納手段に格納されている認識結果のう
ち、その未知語に対応する認識結果を登録語に一括変換
する未知語一括変換手段とを備えることを特徴とする。
【0012】上記音声認識装置は、さらに、未知語の品
詞を推定する未知語品詞推定手段と、未知語の活用を行
う未知語活用手段と、未知語を活用したものを記憶する
未知語活用記憶手段とを備えることを特徴とする。
詞を推定する未知語品詞推定手段と、未知語の活用を行
う未知語活用手段と、未知語を活用したものを記憶する
未知語活用記憶手段とを備えることを特徴とする。
【0013】
【発明の実施の形態】実施の形態1.以下、実施の形態
をもとに説明する。図1は本発明の一実施の形態を示し
たものである。図において、101は音声取得手段、1
02は音響分析手段、103は認識手段、104は未知
語モデル決定手段、105は未知語判定手段、106は
単語辞書、107は未知語用辞書、108は単語ネット
ワーク辞書、109は未知語モデル記憶手段、110は
認識結果出力手段、111は制御手段である。また、図
2〜図6は本実施の形態の具体的な構成および動作を説
明する図である。
をもとに説明する。図1は本発明の一実施の形態を示し
たものである。図において、101は音声取得手段、1
02は音響分析手段、103は認識手段、104は未知
語モデル決定手段、105は未知語判定手段、106は
単語辞書、107は未知語用辞書、108は単語ネット
ワーク辞書、109は未知語モデル記憶手段、110は
認識結果出力手段、111は制御手段である。また、図
2〜図6は本実施の形態の具体的な構成および動作を説
明する図である。
【0014】図1を用いて、本実施の形態の動作を説明
する。まず、音声取得手段101は音声を取得する。つ
ぎに音響分析手段は、取得した音声を音響分析して特徴
抽出し、音声データを作成する。つぎに認識手段103
は音声データと、単語辞書106、未知語用辞書10
7、単語ネットワーク辞書をもとに、認識を行い、認識
中間結果を出力する。以下、具体的に説明する。
する。まず、音声取得手段101は音声を取得する。つ
ぎに音響分析手段は、取得した音声を音響分析して特徴
抽出し、音声データを作成する。つぎに認識手段103
は音声データと、単語辞書106、未知語用辞書10
7、単語ネットワーク辞書をもとに、認識を行い、認識
中間結果を出力する。以下、具体的に説明する。
【0015】単語辞書106には登録されている単語の
状態モデルが格納されている。図2は状態モデルをHM
M隠れマルコフモデルとした場合の登録単語「神奈川
(かながわ)」「逗子(ずし)」の状態モデルの例であ
る。図に示すように、各音素/k/,/a/、/n/,
/a/...に対して、それぞれ4状態3ループのHM
Mモデルが割り当てられ、それらが直列に接続されてい
る。
状態モデルが格納されている。図2は状態モデルをHM
M隠れマルコフモデルとした場合の登録単語「神奈川
(かながわ)」「逗子(ずし)」の状態モデルの例であ
る。図に示すように、各音素/k/,/a/、/n/,
/a/...に対して、それぞれ4状態3ループのHM
Mモデルが割り当てられ、それらが直列に接続されてい
る。
【0016】未知語用辞書107は登録されていない単
語(未知語)の状態モデルが格納されている。一般に未
知語の状態モデルは、特開平9−81181に開示され
ているように、ガーベジモデル(Garbage Mo
del、すべての音素の状態に合致するモデル)であら
わすことができる。図3は未知語の状態モデルの例を示
す図である。図に示すように、全音素/a/,/i/,
/u/,/e/,/o/,/k/...のHMMモデル
が並列に接続されており、認識の際には各HMMのモデ
ルの最大尤度をとるように構成されている。このように
構成されていることによって、どのような音素列の単語
も認識できる。ただし、このままでは認識の際にすべて
未知語が適合してしまうので、未知語の認識の場合には
尤度にペナルティを与えるのが普通である。
語(未知語)の状態モデルが格納されている。一般に未
知語の状態モデルは、特開平9−81181に開示され
ているように、ガーベジモデル(Garbage Mo
del、すべての音素の状態に合致するモデル)であら
わすことができる。図3は未知語の状態モデルの例を示
す図である。図に示すように、全音素/a/,/i/,
/u/,/e/,/o/,/k/...のHMMモデル
が並列に接続されており、認識の際には各HMMのモデ
ルの最大尤度をとるように構成されている。このように
構成されていることによって、どのような音素列の単語
も認識できる。ただし、このままでは認識の際にすべて
未知語が適合してしまうので、未知語の認識の場合には
尤度にペナルティを与えるのが普通である。
【0017】単語ネットワーク辞書108は登録されて
いる単語の接続条件を規定するものである。図4は単語
ネットワークの例を示した図である。図ではすべての単
語の接続を許す全接続のネットワークであるが、単語や
品詞などによって接続に制限を与えたり、ペナルティを
与えたりすることも可能である。図では単語ネットワー
クに未知語が付加されており、発声した単語列に未知語
が含まれていても、認識できるように構成されている。
なお、未知語として不必要に認識されるのを防ぐため、
単語連鎖にペナルティを与えるのが普通である。
いる単語の接続条件を規定するものである。図4は単語
ネットワークの例を示した図である。図ではすべての単
語の接続を許す全接続のネットワークであるが、単語や
品詞などによって接続に制限を与えたり、ペナルティを
与えたりすることも可能である。図では単語ネットワー
クに未知語が付加されており、発声した単語列に未知語
が含まれていても、認識できるように構成されている。
なお、未知語として不必要に認識されるのを防ぐため、
単語連鎖にペナルティを与えるのが普通である。
【0018】このように構成された単語辞書106、未
知語用辞書107、単語ネットワーク辞書108を用い
て、認識手段103は認識処理を行ない、認識結果を出
力する。認識処理は通常Viterbiアルゴリズム等
を用いるが、周知のアルゴリズムなのでここでは詳細を
説明しない。
知語用辞書107、単語ネットワーク辞書108を用い
て、認識手段103は認識処理を行ない、認識結果を出
力する。認識処理は通常Viterbiアルゴリズム等
を用いるが、周知のアルゴリズムなのでここでは詳細を
説明しない。
【0019】発声に未知語が含まれると、認識手段10
3は単語ネットワークに従って、未知語を含んだ認識中
間結果を出力する。つぎに認識中間結果に未知語が含ま
れる場合、未知語モデル決定手段104は、その未知語
区間について未知語用辞書のみを用いて再び認識を行
い、未知語用辞書のどのパスを通ったかを調べて、その
結果を記憶する。例えば、未知語区間が「よこはま」と
いう発声だった場合に、図3における未知語モデル内に
並列に並んでいるHMMモデルのうち、/y/→/o/
→/k/→/o/→/h/→/a/→/m/→/a/と
いうパスを通るので、そのパスに相当するHMMモデル
を直列に並べて未知語モデル記憶手段109に記憶す
る。図5はこのようにして決定され、未知語モデル記憶
手段109に記憶された未知語モデルの例を示した図で
ある。
3は単語ネットワークに従って、未知語を含んだ認識中
間結果を出力する。つぎに認識中間結果に未知語が含ま
れる場合、未知語モデル決定手段104は、その未知語
区間について未知語用辞書のみを用いて再び認識を行
い、未知語用辞書のどのパスを通ったかを調べて、その
結果を記憶する。例えば、未知語区間が「よこはま」と
いう発声だった場合に、図3における未知語モデル内に
並列に並んでいるHMMモデルのうち、/y/→/o/
→/k/→/o/→/h/→/a/→/m/→/a/と
いうパスを通るので、そのパスに相当するHMMモデル
を直列に並べて未知語モデル記憶手段109に記憶す
る。図5はこのようにして決定され、未知語モデル記憶
手段109に記憶された未知語モデルの例を示した図で
ある。
【0020】発声のうち、複数の個所に未知語が含まれ
ている場合には、以上の動作を未知語数分行う。したが
って未知語モデル記憶手段109には検出された未知語
数分だけ未知語モデルが存在することになる。
ている場合には、以上の動作を未知語数分行う。したが
って未知語モデル記憶手段109には検出された未知語
数分だけ未知語モデルが存在することになる。
【0021】未知語モデル決定手段104の処理が終了
した後、未知語判定手段105は、未知語モデル記憶手
段109に記憶されている未知語モデル同士を比較し、
それらが同一であるかを判定する。同一であると判定さ
れた未知語については、未知語モデルの重複を除くと同
時に、認識手段103が出力した認識中間結果のうち、
それらの未知語が同一であるように認識結果を出力す
る。
した後、未知語判定手段105は、未知語モデル記憶手
段109に記憶されている未知語モデル同士を比較し、
それらが同一であるかを判定する。同一であると判定さ
れた未知語については、未知語モデルの重複を除くと同
時に、認識手段103が出力した認識中間結果のうち、
それらの未知語が同一であるように認識結果を出力す
る。
【0022】図6は発声内容と認識結果の例を示したも
のである。図においては、「横浜(よこはま)」と「鎌
倉(かまくら)」は単語登録されていないものとする。
このような場合には、上述の手順にしたがって、認識結
果は図に示すようになる。このように、同一の未知語は
同一の認識結果「未知語1」として認識結果を出力する
ことができる。
のである。図においては、「横浜(よこはま)」と「鎌
倉(かまくら)」は単語登録されていないものとする。
このような場合には、上述の手順にしたがって、認識結
果は図に示すようになる。このように、同一の未知語は
同一の認識結果「未知語1」として認識結果を出力する
ことができる。
【0023】なお、上記説明した実施の形態では、未知
語モデル決定手段104は、認識処理終了後、再び未知
語についての認識を行うが、認識手段103の処理の途
中で未知語モデルを決定し、未知語用モデル記憶手段に
記憶してもよいことはいうまでもない。
語モデル決定手段104は、認識処理終了後、再び未知
語についての認識を行うが、認識手段103の処理の途
中で未知語モデルを決定し、未知語用モデル記憶手段に
記憶してもよいことはいうまでもない。
【0024】また、未知語判定手段105は、未知語モ
デル記憶手段109内の未知語モデルが完全に一致した
場合のみ同一の未知語であると判定するが、この制限を
ゆるめることも可能である。たとえば、「よこはま」の
発声の後で、ややなまって「よこあま」と発声した場
合、後者のHMMモデルは、/y/→/o/→/k/→
/o/→/a/→/m/→/a/となるが、前者のHM
Mモデルとの一致度や出力確率の比較により、これらの
発声が同一の未知語と判定することができる。
デル記憶手段109内の未知語モデルが完全に一致した
場合のみ同一の未知語であると判定するが、この制限を
ゆるめることも可能である。たとえば、「よこはま」の
発声の後で、ややなまって「よこあま」と発声した場
合、後者のHMMモデルは、/y/→/o/→/k/→
/o/→/a/→/m/→/a/となるが、前者のHM
Mモデルとの一致度や出力確率の比較により、これらの
発声が同一の未知語と判定することができる。
【0025】実施の形態2.つぎに、本発明の別の実施
の形態を示す。図7は、本発明の別の実施の形態の構成
を示した図である。図において、112は、未知語表記
記憶手段である。つぎに、動作を説明する。認識手段1
03が認識中間結果を出力するまでは実施の形態1と同
様の処理を行う。
の形態を示す。図7は、本発明の別の実施の形態の構成
を示した図である。図において、112は、未知語表記
記憶手段である。つぎに、動作を説明する。認識手段1
03が認識中間結果を出力するまでは実施の形態1と同
様の処理を行う。
【0026】つぎに認識中間結果に未知語が含まれる場
合、未知語モデル決定手段104は、その未知語区間に
ついて未知語用辞書を用いて再び認識を行い、未知語用
辞書のどのパスを通ったかを調べて、その結果を記憶す
ると同時に、その表記を未知語表記記憶手段112に記
憶する。例えば、未知語の発声が「よこはま」という発
声だった場合に、図5にあるような未知語用のHMMモ
デルの記憶を未知語モデルに記憶すると同時に、そのパ
スの表記、「yokohama」または、それをかなに
変換した「よこはま」を未知語表記記憶手段112に記
憶する。
合、未知語モデル決定手段104は、その未知語区間に
ついて未知語用辞書を用いて再び認識を行い、未知語用
辞書のどのパスを通ったかを調べて、その結果を記憶す
ると同時に、その表記を未知語表記記憶手段112に記
憶する。例えば、未知語の発声が「よこはま」という発
声だった場合に、図5にあるような未知語用のHMMモ
デルの記憶を未知語モデルに記憶すると同時に、そのパ
スの表記、「yokohama」または、それをかなに
変換した「よこはま」を未知語表記記憶手段112に記
憶する。
【0027】つぎに未知語判定手段105は実施の形態
1と同様の処理を行う。
1と同様の処理を行う。
【0028】つぎに認識結果出力手段110は、未知語
に対応する表記を未知語表記記憶手段112から取得し
て、認識結果を出力する。図8は発声例を認識結果例を
示した図であり、図に示すように未知語の表記を付加し
て認識結果を出力する。
に対応する表記を未知語表記記憶手段112から取得し
て、認識結果を出力する。図8は発声例を認識結果例を
示した図であり、図に示すように未知語の表記を付加し
て認識結果を出力する。
【0029】以上のように構成することで、複数の未知
語を発声しても、それらが同一であるか異なったものか
判定できるばかりでなく、それらの表記も出力すること
で、認識結果をより見やすくすることが可能となる。
語を発声しても、それらが同一であるか異なったものか
判定できるばかりでなく、それらの表記も出力すること
で、認識結果をより見やすくすることが可能となる。
【0030】実施の形態3.つぎに、本発明の別の実施
の形態を示す。図9は、本発明の別の実施の形態の構成
を示した図である。図において、113は未知語追加手
段である。また図10、図11は本実施の形態の動作を
説明する図である。
の形態を示す。図9は、本発明の別の実施の形態の構成
を示した図である。図において、113は未知語追加手
段である。また図10、図11は本実施の形態の動作を
説明する図である。
【0031】つぎに、図9〜図11を用いて本実施の形
態の動作を説明する。認識手段103が認識中間結果を
出力するまでは実施の形態1と同様の処理なので説明を
省略する。
態の動作を説明する。認識手段103が認識中間結果を
出力するまでは実施の形態1と同様の処理なので説明を
省略する。
【0032】つぎに、未知語追加手段113は、未知語
モデル決定手段104と未知語判定手段105によって
決定された1ないし複数種類のそれぞれ異なる未知語モ
デルを新しい単語として単語辞書に追加する。さらに、
未知語追加手段113は、これらの未知語を新しい単語
として単語ネットワークに追加する。なお、以前から存
在する未知語はそのまま存続させる。
モデル決定手段104と未知語判定手段105によって
決定された1ないし複数種類のそれぞれ異なる未知語モ
デルを新しい単語として単語辞書に追加する。さらに、
未知語追加手段113は、これらの未知語を新しい単語
として単語ネットワークに追加する。なお、以前から存
在する未知語はそのまま存続させる。
【0033】図10は未知語「よこはま」と発声され
て、未知語1として判定された単語が単語ネットワーク
に追加された状態を示したものである。また、同時に図
5に示すような未知語モデルが単語辞書に追加される。
て、未知語1として判定された単語が単語ネットワーク
に追加された状態を示したものである。また、同時に図
5に示すような未知語モデルが単語辞書に追加される。
【0034】図11は以上の処理により、「よこはま」
と「かまくら」がそれぞれ未知語1、未知語2として単
語ネットワークに登録された後に、「よこはま」を含む
発声を行った場合の認識結果を示した図である。ここで
示すように、以前発声された「よこはま」と同じ単語
(未知語1)として認識されるので、未知語同士の区別
が可能である。
と「かまくら」がそれぞれ未知語1、未知語2として単
語ネットワークに登録された後に、「よこはま」を含む
発声を行った場合の認識結果を示した図である。ここで
示すように、以前発声された「よこはま」と同じ単語
(未知語1)として認識されるので、未知語同士の区別
が可能である。
【0035】以上のように構成することにより、以前発
声された1ないし複数種類の未知語が以降発声されて
も、どの未知語であったかを特定することができる。
声された1ないし複数種類の未知語が以降発声されて
も、どの未知語であったかを特定することができる。
【0036】実施の形態4.つぎに、本発明の別の実施
の形態を示す。図12は、本発明の別の実施の形態の構
成を示した図である。図において、114は認識結果格
納手段、115は未知語一括変換手段である。図13、
図14は本実施の形態の説明のための図である。
の形態を示す。図12は、本発明の別の実施の形態の構
成を示した図である。図において、114は認識結果格
納手段、115は未知語一括変換手段である。図13、
図14は本実施の形態の説明のための図である。
【0037】つぎに、本実施の形態の動作を示す。認識
結果出力手段110が認識結果を出力するまでは実施の
形態1と同様であるので説明を省略する。認識結果格納
手段114は認識結果を記憶する。つぎに未知語一括変
換手段115は、未知語を登録する際に、未知語に対応
する単語を登録し、単語ネットワークを更新する。
結果出力手段110が認識結果を出力するまでは実施の
形態1と同様であるので説明を省略する。認識結果格納
手段114は認識結果を記憶する。つぎに未知語一括変
換手段115は、未知語を登録する際に、未知語に対応
する単語を登録し、単語ネットワークを更新する。
【0038】さらに、未知語一括変換手段は、登録以前
に発声された認識結果について、登録した単語に対応す
る未知語を一括して登録語に変換する。図13は未知語
1に対して、「横浜」を登録したときの単語ネットワー
クの構造の例を示したものである。図14は、複数の未
知語を含む発声について、認識結果格納手段の内容と、
未知語「横浜」と登録した後の認識結果例を示したもの
である。
に発声された認識結果について、登録した単語に対応す
る未知語を一括して登録語に変換する。図13は未知語
1に対して、「横浜」を登録したときの単語ネットワー
クの構造の例を示したものである。図14は、複数の未
知語を含む発声について、認識結果格納手段の内容と、
未知語「横浜」と登録した後の認識結果例を示したもの
である。
【0039】以上のような構成により、1ないし複数の
発声の後に、未知語1種類当たり1回の登録によって、
発声内に対応する未知語すべてを登録語に変換できるの
で変換効率が向上する。
発声の後に、未知語1種類当たり1回の登録によって、
発声内に対応する未知語すべてを登録語に変換できるの
で変換効率が向上する。
【0040】実施の形態5.つぎに、本発明のさらに別
の実施の形態を示す。図15は、本発明の別の実施の形
態の構成を示した図である。図において、116は未知
語の品詞を推定する未知語品詞推定手段、117は未知
語の活用を行う未知語活用手段、118は未知語の活用
を記憶する未知語活用記憶手段である。また、105B
は未知語判定手段105と同等のものである。図16、
図17は本実施の形態の説明のための図である。
の実施の形態を示す。図15は、本発明の別の実施の形
態の構成を示した図である。図において、116は未知
語の品詞を推定する未知語品詞推定手段、117は未知
語の活用を行う未知語活用手段、118は未知語の活用
を記憶する未知語活用記憶手段である。また、105B
は未知語判定手段105と同等のものである。図16、
図17は本実施の形態の説明のための図である。
【0041】つぎに図15〜図17を用いて本実施の形
態の動作を説明する。認識手段103が認識中間結果を
出力するまでは実施の形態1と同様であるので説明を省
略する。つぎに未知語品詞推定手段116は、未知語の
前後の単語から、未知語の品詞を推定する。未知語の品
詞の推定方法については、例えば、特開平6−1620
76に開示されている。
態の動作を説明する。認識手段103が認識中間結果を
出力するまでは実施の形態1と同様であるので説明を省
略する。つぎに未知語品詞推定手段116は、未知語の
前後の単語から、未知語の品詞を推定する。未知語の品
詞の推定方法については、例えば、特開平6−1620
76に開示されている。
【0042】つぎに未知語活用手段117は、用言であ
ると品詞判定された未知語について、その展開活用を行
う。図16は「歩く」という語が未知語である場合の処
理結果を示した図である。この場合、未知語モデル決定
手段104によって、表記が「あるく」ということが決
定され、未知語品詞推定手段116によって「動詞」で
あることが推定される。つぎに未知語活用手段117
は、「あるく」を「あるか」「あるき」「あるく」「あ
るけ」「あるけ」などと活用して、未知語活用記憶手段
118に記憶させる。
ると品詞判定された未知語について、その展開活用を行
う。図16は「歩く」という語が未知語である場合の処
理結果を示した図である。この場合、未知語モデル決定
手段104によって、表記が「あるく」ということが決
定され、未知語品詞推定手段116によって「動詞」で
あることが推定される。つぎに未知語活用手段117
は、「あるく」を「あるか」「あるき」「あるく」「あ
るけ」「あるけ」などと活用して、未知語活用記憶手段
118に記憶させる。
【0043】つぎに未知語判定手段105Bは、未知語
活用記憶手段118に記憶してある活用形を参照しなが
ら、未知語判定手段105により別の未知語であると判
定された未知語同士が、同じ語のことなった活用である
かを判定し、同じ語のことなった活用形であれば、その
旨認識結果出力手段から出力する。図17は「あるく」
という語が未知語である場合に、その活用形も同一の未
知語であると判定して認識結果を出力した例である。図
では同一の異なった活用形に対して、その活用形が付加
されて認識結果が出力されている。
活用記憶手段118に記憶してある活用形を参照しなが
ら、未知語判定手段105により別の未知語であると判
定された未知語同士が、同じ語のことなった活用である
かを判定し、同じ語のことなった活用形であれば、その
旨認識結果出力手段から出力する。図17は「あるく」
という語が未知語である場合に、その活用形も同一の未
知語であると判定して認識結果を出力した例である。図
では同一の異なった活用形に対して、その活用形が付加
されて認識結果が出力されている。
【0044】以上のように構成することで、未知語の活
用形の同一の語の異なった活用形であると判別すること
ができる。
用形の同一の語の異なった活用形であると判別すること
ができる。
【0045】さらに、本実施の形態と実施の形態4の未
知語一括変換手段とを組み合わせれば、未知語を登録す
る際にも1語を登録するのみで、すべての活用形につい
て一括して登録語に変換できるという利点があることは
言うまでもない。
知語一括変換手段とを組み合わせれば、未知語を登録す
る際にも1語を登録するのみで、すべての活用形につい
て一括して登録語に変換できるという利点があることは
言うまでもない。
【0046】
【発明の効果】以上述べたように、本発明によれば、発
声内に複数の未知語が含まれている場合にそれらが同一
であるかを区別することができるので、利用者は未知語
が同一のものであったか、ことなったものであったを容
易に知ることができる。
声内に複数の未知語が含まれている場合にそれらが同一
であるかを区別することができるので、利用者は未知語
が同一のものであったか、ことなったものであったを容
易に知ることができる。
【0047】また、発声内に1ないし複数の未知語がふ
くまれている場合にそれらを同一であるか区別するとと
もに表記を付加したので利用者は認識結果を確認しやす
いという効果がある。
くまれている場合にそれらを同一であるか区別するとと
もに表記を付加したので利用者は認識結果を確認しやす
いという効果がある。
【0048】また、以前発声された1種類ないし複数種
類の未知語のうちのいずれかが、今後発声されても、ど
の未知語であるかを特定できるので、利用者は未知語が
以前発声した未知語と同一のものであったか、ことなっ
たものであったを容易に判定することができる。
類の未知語のうちのいずれかが、今後発声されても、ど
の未知語であるかを特定できるので、利用者は未知語が
以前発声した未知語と同一のものであったか、ことなっ
たものであったを容易に判定することができる。
【0049】また、まとまった発声の後に、1種類ない
し複数種類の未知語を登録した場合、該当する同一の未
知語が一括に変換することができるので、手間がかから
ずに発声結果を修正することができる。
し複数種類の未知語を登録した場合、該当する同一の未
知語が一括に変換することができるので、手間がかから
ずに発声結果を修正することができる。
【0050】また、未知語の異なった活用形に対して
も、その未知語の活用形であると判定することができる
ので、利用者はことなった未知語が同一の未知語の別の
活用形であるかを容易に判定できるという利点がある。
も、その未知語の活用形であると判定することができる
ので、利用者はことなった未知語が同一の未知語の別の
活用形であるかを容易に判定できるという利点がある。
【図面の簡単な説明】
【図1】 本発明の実施の形態1の構成を示した図。
【図2】 単語HMMの例を示した図。
【図3】 未知語用のHMM例を示した図。
【図4】 単語ネットワークの例を示した図。
【図5】 検出した未知語1のHMMの例を示した図。
【図6】 未知語を含んだ発声例と、実施の形態1によ
る出力結果の例を示す図。
る出力結果の例を示す図。
【図7】 本発明の実施の形態2の構成を示した図。
【図8】 未知語を含んだ発声例と、実施の形態2によ
る出力結果の例を示す図。
る出力結果の例を示す図。
【図9】 本発明の実施の形態3の構成を示した図。
【図10】 単語ネットワークに未知語1を追加した
図。
図。
【図11】 未知語を含んだ発声例と、実施の形態3に
よる出力結果の例を示す図。
よる出力結果の例を示す図。
【図12】 本発明の実施の形態4の構成を示した図。
【図13】 単語ネットワークの未知語1を「横浜」に
登録した例を示す図。
登録した例を示す図。
【図14】 未知語を含んだ発声例と、実施の形態4に
よる出力結果の例を示す図。
よる出力結果の例を示す図。
【図15】 本発明の実施の形態5の構成を示した図。
【図16】 未知語の活用の例を示した図。
【図17】 未知語を含んだ発声例と、実施の形態5に
よる出力結果の例を示す図。
よる出力結果の例を示す図。
【図18】 従来の音声認識装置を示す図。
1 音声入力装置、2 音響処理部、3 第1出力確率
計算部、4 HMM、5 第2出力確率計算部、6 文
法・辞書、7 言語探索部、8 表示部、101 音声
取得手段、102 音響分析手段、103 認識手段、
104 未知語モデル手段、105 未知語判定手段、
106 単語辞書、107 未知語用辞書、108 単
語ネットワーク辞書、109 未知語用モデル記憶手
段、110認識結果出力手段、111 制御手段、11
2 未知語表記記憶手段、113未知語追加手段、11
4 認識結果格納手段、115 未知語一括変換手段、
116 未知語品詞推定手段、117 未知語活用手
段、118 未知語活用記憶手段。
計算部、4 HMM、5 第2出力確率計算部、6 文
法・辞書、7 言語探索部、8 表示部、101 音声
取得手段、102 音響分析手段、103 認識手段、
104 未知語モデル手段、105 未知語判定手段、
106 単語辞書、107 未知語用辞書、108 単
語ネットワーク辞書、109 未知語用モデル記憶手
段、110認識結果出力手段、111 制御手段、11
2 未知語表記記憶手段、113未知語追加手段、11
4 認識結果格納手段、115 未知語一括変換手段、
116 未知語品詞推定手段、117 未知語活用手
段、118 未知語活用記憶手段。
Claims (5)
- 【請求項1】 音声データを入力する音声取得手段と、 前記音声データから音声特徴ベクトルを抽出する音響分
析手段と、 登録単語の連鎖を定義する単語ネットワーク辞書と、 登録単語の状態遷移モデルを記憶する単語辞書と、 未知語用の状態遷移モデルを記憶する未知語用辞書と、 前記音声特徴ベクトルをもとに認識処理を行い認識中間
結果を出力する認識手段と、 前記認識中間結果内の1ないし複数の未知語のそれぞれ
最適な状態遷移モデルを確定する未知語モデル決定手段
と、 前記未知語モデル決定手段によって決定した1ないし複
数の未知語のそれぞれ最適な状態遷移モデルを記憶する
未知語モデル記憶手段と、 前記未知語モデル記憶手段に記憶した複数の未知語のそ
れぞれ最適な状態遷移モデル同士を比較し、それらの未
知語が同一のものか、別種の未知語であるかを判定する
未知語判定手段とを備えることを特徴とする音声認識装
置。 - 【請求項2】 上記音声認識装置は、さらに、 未知語の表記を記憶する未知語表記記憶手段と、 前記未知語表記記憶手段が記憶している1ないし複数の
未知語の表記を付加して認識結果を出力する認識結果出
力手段とを備えることを特徴とする請求項1記載の音声
認識装置。 - 【請求項3】 上記音声認識装置は、さらに、 前記未知語モデル決定手段によって決定した未知語の最
適な状態遷移モデルを前記単語辞書に追加し、未知語を
単語ネットワークに付加する未知語追加手段とを備える
ことを特徴とする請求項1記載の音声認識装置。 - 【請求項4】 上記音声認識装置は、さらに、 発声の認識結果を記憶する認識結果格納手段と、 未知語に対応する単語を登録語として前記単語辞書に追
加し、未知語を単語ネットワークに付加するとともに、
未知語を登録した際に、認識結果格納手段に格納されて
いる認識結果のうち、その未知語に対応する認識結果を
登録語に一括変換する未知語一括変換手段とを備えるこ
とを特徴とする請求項1の音声認識装置。 - 【請求項5】 上記音声認識装置は、さらに、 未知語の品詞を推定する未知語品詞推定手段と、 未知語の活用を行う未知語活用手段と、 未知語を活用したものを記憶する未知語活用記憶手段と
を備えることを特徴とする請求項1記載の音声認識装
置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10093053A JPH11288297A (ja) | 1998-04-06 | 1998-04-06 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10093053A JPH11288297A (ja) | 1998-04-06 | 1998-04-06 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11288297A true JPH11288297A (ja) | 1999-10-19 |
Family
ID=14071776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10093053A Pending JPH11288297A (ja) | 1998-04-06 | 1998-04-06 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH11288297A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009104156A (ja) * | 2001-12-17 | 2009-05-14 | Asahi Kasei Homes Kk | 電話通信端末 |
JP2013072974A (ja) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | 音声認識装置、方法及びプログラム |
JP2022010403A (ja) * | 2019-02-08 | 2022-01-14 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
-
1998
- 1998-04-06 JP JP10093053A patent/JPH11288297A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009104156A (ja) * | 2001-12-17 | 2009-05-14 | Asahi Kasei Homes Kk | 電話通信端末 |
JP2013072974A (ja) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | 音声認識装置、方法及びプログラム |
JP2022010403A (ja) * | 2019-02-08 | 2022-01-14 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0769184B1 (en) | Speech recognition methods and apparatus on the basis of the modelling of new words | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JPH08278794A (ja) | 音声認識装置および音声認識方法並びに音声翻訳装置 | |
JP2001503154A (ja) | 音声認識システムにおける隠れマルコフ音声モデルの適合方法 | |
US7653541B2 (en) | Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech | |
JP2001092496A (ja) | 連続音声認識装置および記録媒体 | |
US8219386B2 (en) | Arabic poetry meter identification system and method | |
JP2002215187A (ja) | 音声認識方法及びその装置 | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
JPH11288297A (ja) | 音声認識装置 | |
JP2005250071A (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
WO1999028898A1 (fr) | Systeme et procede de reconnaissance vocale | |
JP2008242059A (ja) | 音声認識辞書作成装置および音声認識装置 | |
JP3892173B2 (ja) | 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法 | |
JP4236502B2 (ja) | 音声認識装置 | |
JPH08241096A (ja) | 音声認識方法 | |
JP2000099084A (ja) | 音声認識方法及びその装置 | |
JPH0777998A (ja) | 連続単語音声認識装置 | |
KR100560916B1 (ko) | 인식 후 거리를 이용한 음성인식 방법 | |
JP2003263187A (ja) | 言語モデル学習方法、その装置、そのプログラムおよびそのプログラムの記録媒体ならびに言語モデル学習を用いた音声認識方法、その装置、そのプログラムおよびそのプログラムの記録媒体 | |
JPH0997095A (ja) | 音声認識装置 | |
JP2003345384A (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
Fotinea et al. | Emotion in speech: Towards an integration of linguistic, paralinguistic, and psychological analysis | |
JP2975540B2 (ja) | 自由発話音声認識装置 | |
JPH1115492A (ja) | 音声認識装置 |