[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2000250593A - 話者認識装置及び方法 - Google Patents

話者認識装置及び方法

Info

Publication number
JP2000250593A
JP2000250593A JP11055756A JP5575699A JP2000250593A JP 2000250593 A JP2000250593 A JP 2000250593A JP 11055756 A JP11055756 A JP 11055756A JP 5575699 A JP5575699 A JP 5575699A JP 2000250593 A JP2000250593 A JP 2000250593A
Authority
JP
Japan
Prior art keywords
speaker
recognition
recognized
statistical
continuous voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11055756A
Other languages
English (en)
Other versions
JP3735209B2 (ja
Inventor
Shoji Hayakawa
昭二 早川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP05575699A priority Critical patent/JP3735209B2/ja
Publication of JP2000250593A publication Critical patent/JP2000250593A/ja
Application granted granted Critical
Publication of JP3735209B2 publication Critical patent/JP3735209B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 従来の物理的特性に基づいた話者認識に加え
て、話者固有の統計的特性に基づいて話者認識すること
で、連続音声についての話者認識精度をより高めた話者
認識装置及び方法を提供することを目的とする。 【解決手段】 話者を認識すべき連続音声パターンを入
力し、入力された連続音声パターンの有する物理的特性
に基づいて、話者認識確率順に一又は複数の第1の認識
話者候補を選択する話者認識装置であって、入力された
連続音声パターンを連続音声文字列として認識し、認識
された連続音声文字列に基づいて統計的特性を算出し、
算出された統計的特性に基づいて、話者認識確率順に一
又は複数の第2の認識話者候補を選択し、第1の認識話
者候補と第2の認識話者候補を対比して、一致する認識
話者候補のうち、両者の話者認識確率の積が最大である
第3の認識話者候補を特定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、連続音声パターン
の物理的な特性に基づく認識結果に加えて、話者が使用
する語彙の頻度等の統計的な特性に基づく認識結果も考
慮して話者を特定する話者認識装置に関する。
【0002】
【従来の技術】近年の電子計算機におけるCPU高速化
に伴う計算速度の向上や連続音声認識技術の発展によ
り、従来は単語単位で行われていた連続音声認識が、連
続して単語が発生する会話文等においても正しく認識で
きるようになってきた。
【0003】特に、図1に示すように音素単位の音響モ
デルと統計的な情報である言語モデルとを併用すること
により、話者の連続音声の認識精度は格段の向上を見せ
ている。
【0004】例えば図1において、連続音声パターンX
が連続音声パターン入力部1から入力されると、連続音
声パターン認識部2が連続音声文字列認識用データベー
ス3を照会して、音響モデル31及び言語モデル33か
らそれぞれ確率値P(X|W)とP(W)を取得する。
ここで、確率値P(X|W)とは、入力された連続音声
XがWである確率を示し、確率値P(W)とは、Wの出
現確率を示す。
【0005】一般に言語モデル33には、サンプルデー
タから一般に使用されている言葉について統計的な確率
推定を行って得られた統計的言語モデルを用いている。
これは、音響的な情報だけを用いて認識すると、認識結
果として例えば、「行く」、「山」、「は」、「へ」、
「私」という結果を得られたとしても、日本語として何
を意味するのか理解できないからである。そこで、単語
の前後の共起関係を用いて日本語の文章らしく「私」、
「は」、「山」、「へ」、「行く」等に整列させるべ
く、統計的言語モデルを用いているのである。また、言
語モデル33に登録されている単語についてローマ字表
記によって単語辞書32に登録しておく。こうすること
で、音響モデル31を用いた認識の際に、ある程度の絞
り込みが可能となる。
【0006】一方、音響モデル31は、音素単位、すな
わち、/a/、/i/、/u/、…/p/、/py/、
/q/といった音素単位で構成されている。したがっ
て、単語辞書32から音素表記「AICHI」を受け取
った場合には、「a」、「i」、「ch」、「i」の4
つの音響モデルを連結することで、連続音声パターンの
認識を可能ならしめている。
【0007】そして、音声認識プログラム24によって
言語モデル33と音響モデル31で求められる確率値P
(X|W)とP(W)の積を求め、かかる積が最大とな
る文字列を認識文字列Wとして、認識文字列出力部22
へ出力することで、連続音声の認識を可能としている。
【0008】一方、音声認識の精度を向上させる他の手
段として、話者を特定する方法が考えられている。音響
モデルにおける音素が話者固有である場合が多く、話者
固有の音声ピッチや周波数等の物理的特性に基づいた話
者の連続音声パターンを事前に分析しておき、かかる物
理的特性を話者認識用のデータベースとして登録してお
く。このようにすることで、連続音声パターンが入力さ
れた場合にかかる物理的特性を検出し、話者認識用のデ
ータベースを照会することで、話者を特定することがで
き、ひいては連続音声パターンの認識精度を向上させる
ことが期待できる。
【0009】
【発明が解決しようとする課題】しかし、上述したよう
な連続音声パターンのピッチや周波数等の音響的な物理
的特性のみに基づいて話者が誰であるのかを判定する方
法では、よく似た声や、音声合成等による人工的に生成
された音声等については、物理的な特性が酷似している
ために、正確な話者の特定が困難な場合が生じるという
問題点があった。
【0010】また、たとえ音響的な物理特性を酷似させ
たとしても、その話者特有の言い回しや息継ぎの癖、話
の間等については容易に模倣することは困難であり、音
響的な物理的特性による話者判断に加えて、かかる統計
的な特性についても判断基準に加えることで、話者認識
の精度が向上するものと期待される。
【0011】本発明は、上記事情に鑑み、会話における
連続音声パターンに使用された語彙の種類と、会話中に
現れる特定の語彙の出現頻度等に表出する話者固有の統
計的特性に着目して、従来の物理的特性に基づいた話者
認識に加えて、統計的な話者認識のための情報を付加す
ることで、連続音声パターンについての話者認識精度を
より高めた話者認識装置及び方法を提供することを目的
とする。
【0012】
【課題を解決するための手段】上記目的を達成するため
に本発明にかかる話者認識装置は、話者を認識すべき連
続音声パターンを入力する連続音声パターン入力部と、
一又は複数の第1の認識話者候補を選択するべく参照す
る、物理的特性を格納した物理的話者認識用データベー
スと、連続音声パターン入力部において入力された連続
音声パターンの有する物理的特性に基づいて、物理的話
者認識用データベースを参照して、話者認識確率順に一
又は複数の第1の認識話者候補を選択する物理的話者選
択部とを含む話者認識装置であって、一又は複数の第2
の認識話者候補を選択するべく参照する、統計的特性を
格納した統計的話者認識用データベースを含み、連続音
声パターン入力部において入力された連続音声パターン
を連続音声文字列として認識する連続音声文字列認識部
と、連続音声文字列認識部において認識された連続音声
文字列に基づいて統計的特性を算出する統計的特性算出
部と、算出された統計的特性に基づいて、統計的話者認
識用データベースを参照して、話者認識確率順に一又は
複数の第2の認識話者候補を選択する統計的話者選択部
と、第1の認識話者候補と第2の認識話者候補を対比し
て、一致する認識話者候補のうち、両者の話者認識確率
の積が最大である第3の認識話者候補を特定する統合話
者特定部を含むことを特徴とする。
【0013】かかる構成により、連続音声パターンの物
理的な特性だけではなく、話者固有の統計的な特性も判
断基準に含めた上で話者を認識することができるので、
従来は困難であった音声の良く似ている話者との誤認
や、人工的に作り出された音声による話者の誤認等を回
避することが可能となる。
【0014】また、本発明にかかる話者認識装置は、統
計的特性算出部において算出された統計的特性を登録す
る統計的特性登録部をさらに含むことが好ましい。統計
的話者認識用データベースを生成するためである。
【0015】また、本発明にかかる話者認識装置は、統
計的特性算出部において、不要語として表出する語彙に
着目して統計的特性を算出することが好ましい。話を始
める前の「あー」という語彙であるとか、話の途中に表
出する「えー」というつなぎ言葉等の語彙は、話者に固
有の統計的特性を有することが経験的に明らかであるの
で、その出現頻度等を用いて話者を判断することで、よ
り話者認識の精度を向上することができるからである。
【0016】また、本発明にかかる話者認識装置は、統
計的特性算出部において、語尾に表出する語彙に着目し
て統計的特性を算出することが好ましい。話の語尾に顕
著に現れやすい方言等についても、話者に固有の統計的
特性を有することが経験的に明らかであるので、その出
現頻度等を用いて話者を判断することで、より話者認識
の精度を向上することができるからである。
【0017】また、本発明にかかる話者認識装置は、統
計的特性算出部において、接続語として表出する語彙に
着目して統計的特性を算出することが好ましい。話を繋
ぐ場合に、例えば「しかし」を良く用いるのか、「とこ
ろが」を良く用いるのか、「が」を良く用いるのか、と
いった話者の癖に着目し、その出現頻度等を用いて話者
を判断することで、より話者認識の精度を向上すること
ができるからである。
【0018】また、本発明にかかる話者認識装置は、統
計的特性算出部において、連続音声パターン認識部で誤
認されたために修正が行われた語彙に着目して統計的特
性を算出することが好ましい。音声認識において、誤認
されやすい連続音声パターンは話者ごとに固有であるの
で、その誤認された語彙の傾向を統計的に把握すること
で、より話者認識の精度を向上することができるからで
ある。
【0019】また、本発明は、上記のような話者認識装
置の機能をコンピュータの処理ステップとして実行する
ソフトウェアを特徴とするものであり、具体的には、話
者を認識すべき連続音声パターンを入力する工程と、入
力された連続音声パターンの有する物理的特性に基づい
て、話者認識確率順に一又は複数の前記第1の認識話者
候補を選択する工程とを含む話者認識方法であって、入
力された連続音声パターンを連続音声文字列として認識
する工程と、認識された連続音声文字列に基づいて統計
的特性を算出する工程と、算出された統計的特性に基づ
いて、話者認識確率順に一又は複数の第2の認識話者候
補を選択する工程と、第1の認識話者候補と第2の認識
話者候補を対比して、一致する認識話者候補のうち、両
者の話者認識確率の積が最大である第3の認識話者候補
を特定する工程を含む話者認識方法並びにそのような工
程をプログラムとして記録したコンピュータ読み取り可
能な記録媒体であることを特徴とする。
【0020】かかる構成により、連続音声の物理的な特
性だけではなく、話者固有の統計的な特性も判断基準に
含めた上で話者を認識することができるので、従来は困
難であった音声の良く似ている話者との誤認や、人工的
に作り出された音声による話者の誤認等を回避すること
が可能となる。
【0021】
【発明の実施の形態】以下、本発明の実施の形態にかか
る話者認識装置について、図面を参照しながら説明す
る。図2は本発明の実施の形態1にかかる話者認識装置
の構成図である。図2において、1は連続音声パターン
入力部を、2は連続音声文字列認識部を、3は連続音声
文字列認識用データベースを、4は統計的特性登録部
を、5は統計的話者認識用データベースを、6は物理的
話者選択部を、7は物理的話者認識用データベースを、
8は統計的特性算出部を、9は統計的話者選択部を、1
0は統合話者特定部を、それぞれ示す。
【0022】図2において、連続音声パターン入力部1
から認識の対象となる連続音声を、マイクロフォン等の
音声入力媒体を通じて入力する。話者を認識する場合の
みならず、話者の統計的な特性を求める場合において
も、同様に入力する。
【0023】なお、連続音声における話者固有の統計的
特性については、事前に統計的話者認識用データベース
5に登録しておく必要がある。この場合、まず連続音声
文字列認識部2において、入力された連続音声パターン
を連続音声文字列として認識する。一般に、連続音声パ
ターンに含まれる語彙数は非常に多く、連続的でない離
散音声における単語認識に比べて、その認識は困難では
あるが、図1に示すような音響モデル31と言語モデル
33を併用することで、より精度良く文字列として音声
認識をすることが可能である。
【0024】そして、統計的話者認識用データベース5
への登録時には、統計的特性登録部4において、統計的
特性算出部8において算出された統計的特性、例えば出
現頻度や出現するタイミング等に関する統計的特性を統
計的話者認識用データベース5に登録する。
【0025】次に、話者を特定する場合には、まず連続
音声パターン入力部1から入力された連続音声パターン
について、物理的話者選択部6において連続音声パター
ンの物理的特性に基づいて認識話者を選択する。この場
合、連続音声パターンの物理的特性についても同様に、
事前に物理的話者認識用データベース7に登録しておく
必要がある。例えば、話す言葉の音声ピッチや、声の周
波数特性等についての話者ごとのデータを登録しておく
必要がある。そして、物理的話者認識用データベース7
を照会することで、物理的特性が近似している度合いを
確率値として算出して、確率値の高いものから順に認識
話者候補として選択する。
【0026】一方、統計的特性からも話者を特定すべ
く、統計的特性算出部8において、連続音声文字列認識
部2で認識された連続音声文字列に基づいて、着目して
いる統計的特性に関する特徴量、例えば出現頻度や出現
するタイミング等に関する統計的特性を算出する。そし
て、統計的話者選択部9において、算出した統計的特性
に基づいて統計的話者認識用データベース5を照会す
る。
【0027】この場合、統計的特性が統計的話者認識用
データベース5に登録されている特性と一致するケース
はほとんど無いものと考えられるので、一定の範囲内に
含まれている確率を求め、かかる確率値の高い話者から
順に認識話者候補として選択する。
【0028】最後に、統合話者特定部10において、物
理的話者選択部6において選定された認識話者候補と、
統計的話者選択部9において選定された認識話者候補と
を対比する。双方の認識話者候補に共通する話者が含ま
れている場合には、物理的話者選択部6において算出さ
れた確率値と統計的話者選択部9において算出された確
率値との積が最大である話者を認識話者として出力す
る。双方に共通する話者が含まれていない場合には、認
識不十分として、再度連続音声パターンの入力を促すも
のとする。
【0029】なお、統計的特性算出部8において、着目
すべき統計的特性については、特に限定されるものでは
なく、話者を特定するのに有用な指標でありさえすれ
ば、どのような指標でも良い。
【0030】例えば、いわゆる不要語に着目することも
有用であろう。ここで不要語とは、不要語として表出す
る語彙一般を意味しており、例えば話を始める前の「あ
ー」という語彙であるとか、話の途中に表出する「え
ー」というつなぎ言葉等の語彙である。かかる語彙は、
話者に固有の特徴を有することが経験的に明らかだから
である。
【0031】図3は本発明の実施の形態にかかる話者認
識装置において、不要語に着目する場合の構成図であ
る。図3において、11は不要語検出部を、12は不要
語統計的特性登録部を、13は不要語統計的特性算出部
を、それぞれ示す。
【0032】図3において、不要語検出部11で不要語
の存在を確認・検出する。そして、不要語統計的特性登
録部12において、不要語が言葉の最初に付く傾向にあ
るのか、最後に付く傾向にあるのか、あるいは、単語数
に対して出現確率はどの程度か、等の統計的特性を算出
して、統計的話者認識用データベース5へ登録してお
く。
【0033】実際の話者認識時においては、不要語統計
的特性算出部13において、認識された連続音声パター
ンの不要語に関する統計的特性を算出し、統計的話者認
識用データベース5を照会することで、不要語の用い方
等の統計的特性に基づいた認識話者候補を選択すること
ができる。
【0034】また、会話の語尾に着目することも考えら
れる。会話の語尾に顕著に現れやすい抑揚の特徴や方言
が比較的語尾に現れやすい等の特徴を利用しようとする
ものである。
【0035】図4は本発明の実施の形態にかかる話者認
識装置において、語尾に着目する場合の構成図である。
図4において、41は語尾検出部を、42は語尾統計的
特性登録部を、43は語尾統計的特性算出部を、それぞ
れ示す。
【0036】図4において、語尾検出部41で不要語の
存在を確認・検出する。そして、語尾統計的特性算出部
43において、語尾に方言特有の言い回しがどの程度の
確率で付いているのか、等の統計的特性を算出して、語
尾統計的特性登録部42において統計的話者認識用デー
タベース5へ登録しておく。
【0037】実際の話者認識時においては、語尾統計的
特性算出部43で入力された連続音声パターンの語尾に
関する統計的特性を算出し、統計的話者認識用データベ
ース5を照会することで、語尾に用いる語彙等の統計的
特性に基づいた認識話者候補を選択することができる。
【0038】さらに、接続語に着目することも考えられ
る。話をつなげる場合に、例えば「しかし」を良く用い
るのか、「ところが」を良く用いるのか、「が」を良く
用いるのか、といった話者の癖に着目し、その出現頻度
等を用いて話者を判断することで、より話者認識の精度
を向上することができるからである。
【0039】図5は本発明の実施の形態にかかる話者認
識装置において、接続語に着目する場合の構成図であ
る。図5において、51は接続語検出部を、52は接続
語統計的特性登録部を、53は接続語統計的特性算出部
を、それぞれ示す。
【0040】図5において、接続語検出部51で接続語
の存在を確認・検出する。そして、接続語統計的特性算
出部53において、接続語として、逆接語としては
「が」を用いるのか、「しかし」を用いるのか、「とこ
ろが」を用いるのか、あるいは、各々の接続語の単語数
に対する出現確率はどの程度か、等の統計的特性を算出
して、接続語統計的特性登録部52において統計的話者
認識用データベース5へ登録しておく。
【0041】実際の話者認識時においては、接続語統計
的特性算出部53で入力された連続音声パターンの接続
語に関する統計的特性を算出し、統計的話者認識用デー
タベース5を照会することで、接続語の用い方等の統計
的特性に基づいた認識話者候補を選択することができ
る。
【0042】一方、誤認傾向に着目して話者を認識する
こともできる。連続音声文字列認識部2において誤認さ
れやすい連続音声パターンは話者ごとに固有であること
が経験的に明らかであるので、その誤認傾向を統計的に
把握することで、より話者認識の精度を向上することが
できるからである。
【0043】図6は本発明の実施の形態にかかる話者認
識装置において、誤認傾向に着目した場合の構成図であ
る。図6において、61は誤認傾向検出部を、62は誤
認傾向登録部を、63は誤認傾向算出部を、それぞれ示
す。
【0044】図6において、誤認傾向検出部61で連続
音声文字列認識部2において誤認されたと判断して、ユ
ーザの手で修正を加えた語彙を確認・検出する。そし
て、誤認傾向算出部63において、当該語彙が誤認され
る確率や、誤認される場合の周囲の他の語彙の条件、あ
るいは、誤認が生じるのは単語数に対してどの程度の確
率か、等の統計的特性を算出して、誤認傾向登録部62
において統計的話者認識用データベース5へ登録してお
く。
【0045】実際の話者認識時においては、誤認傾向算
出部63で入力された連続音声パターンの誤認傾向に関
する統計的特性を算出し、統計的話者認識用データベー
ス5を照会することで、誤認傾向に基づいた認識話者候
補を選択することができる。
【0046】上述したような本発明の実施の形態にかか
る話者認識装置によって話者を認識することで、例えば
音声電子メール装置等においては、送付されてきた相手
方を自動的に特定する等の応用ができ、また、会議内容
の録音テープ等を用いて、正確な会議議事録を作成する
ことも可能となる。また、話者が事前に特定されていな
い音声ディクテーションにおいても、話者を特定するこ
とでより適当な音響モデルを用いることができ、認識精
度の向上が期待できる。
【0047】以上のように本実施の形態によれば、連続
音声パターンの物理的な特性だけではなく、話者固有の
統計的な特性も判断基準に含めた上で話者を認識するこ
とができるので、従来は困難であった音声の良く似てい
る話者との誤認や、人工的に作り出された音声による話
者の誤認等を回避することが可能となる。
【0048】次に、本発明の実施の形態にかかる話者認
識装置を実現するプログラムの処理の流れについて説明
する。図7に本発明の実施の形態にかかる話者認識装置
において、統計的特性を事前登録する場合のプログラム
処理流れ図を示す。また、図8に本発明の実施の形態に
かかる話者認識装置において、話者を認識する場合のプ
ログラム処理流れ図を示す。
【0049】まず図7において、連続音声パターンが入
力されたら(ステップS71)、連続音声パターンを認
識して(ステップS72)、当該連続音声パターンに特
有の統計的特性を算出する(ステップS73)。
【0050】算出対象となっている話者に関する統計的
特性算出データが、統計的話者認識用データベースに既
に登録されている場合には(ステップS74)、統計的
特性算出データを置換するか否かを選択することになる
(ステップS75)。置換する場合には、統計的話者認
識用データベースに新たに算出した統計的特性算出デー
タを登録する(ステップS76)。
【0051】次に図8において、連続音声パターンが入
力されると(ステップS81)、以後2つの処理に分岐
される。すなわち、物理的な特性に基づいて話者を認識
する処理と、統計的特性に基づいて話者を認識する処理
である。
【0052】まず、物理的な特性に基づいて話者を認識
する処理においては、入力された連続音声パターン自体
の物理的な特性を抽出して、かかる特徴について物理的
話者認識用データベースと照会する(ステップS8
2)。そして、認識話者である確率値の高い話者から順
に認識話者候補として抽出する(ステップS83)。
【0053】一方、統計的特性に基づいて話者を認識す
る処理においては、入力された連続音声パターンを認識
して、当該連続音声パターンに特有の統計的特性を算出
する(ステップS85)。そして、かかる統計的特性に
基づいて統計的話者認識用データベースを照会する(ス
テップS86)。そして、認識話者である確率値の高い
話者から順に認識話者候補として抽出する(ステップS
87)。
【0054】最後に、求められた2つの認識話者候補を
比較して(ステップS88)、両者に共通する認識話者
候補が存在する場合には、確率値の積が最大である話者
を認識話者として出力し、共通する認識話者候補が存在
しない場合には認識不十分として再認識対象とする(ス
テップS89)。
【0055】なお、本発明の実施の形態にかかる話者認
識装置を実現するプログラムを記憶した記録媒体は、図
9に示す記録媒体の例に示すように、CD−ROMやフ
ロッピーディスク等の可搬型記録媒体だけでなく、通信
回線の先に備えられた他の記憶装置や、コンピュータの
ハードディスクやRAM等の記録媒体のいずれでも良
く、プログラム実行時には、プログラムはローディング
され、主メモリ上で実行される。
【0056】また、本発明の実施の形態にかかる話者認
識装置により生成された統計的特性値等を記録した記録
媒体も、図9に示す記録媒体の例に示すように、CD−
ROMやフロッピーディスク等の可搬型記録媒体だけで
なく、通信回線の先に備えられた他の記憶装置や、コン
ピュータのハードディスクやRAM等の記録媒体のいず
れでも良く、例えば本発明にかかる話者認識装置を利用
する際にコンピュータにより読み取られる。
【0057】
【発明の効果】以上のように本発明にかかる話者認識装
置によれば、連続音声パターンの物理的な特性だけでは
話者を特定することが困難な場合であっても、話者を特
定することができる。
【図面の簡単な説明】
【図1】 従来からの連続音声認識の例示図
【図2】 本発明の実施の形態にかかる話者認識装置の
構成図
【図3】 本発明の実施の形態にかかる話者認識装置に
おける一実施例の構成図
【図4】 本発明の実施の形態にかかる話者認識装置に
おける他の実施例の構成図
【図5】 本発明の実施の形態にかかる話者認識装置に
おける他の実施例の構成図
【図6】 本発明の実施の形態にかかる話者認識装置に
おける他の実施例の構成図
【図7】 本発明の実施の形態にかかる話者認識装置に
おける処理の流れ図
【図8】 本発明の実施の形態にかかる話者認識装置に
おける処理の流れ図
【図9】 記録媒体の例示図
【符号の説明】
1 連続音声パターン入力部 2 連続音声文字列認識部 3 連続音声文字列認識用データベース 4 統計的特性登録部 5 統計的話者認識用データベース 6 物理的話者選択部 7 物理的話者認識用データベース 8 統計的特性算出部 9 統計的話者選択部 10 統合話者特定部 11 不要語検出部 12 不要語統計的特性登録部 13 不要語統計的特性算出部 24 音声認識プログラム 25 認識単語列出力部 31 音響モデル 32 単語辞書 33 言語モデル 41 語尾検出部 42 語尾統計的特性登録部 43 語尾統計的特性算出部 51 接続語検出部 52 接続語統計的特性登録部 53 接続語統計的特性算出部 61 誤認傾向検出部 62 誤認傾向登録部 63 誤認傾向算出部 91 回線先の記憶装置 92 CD−ROMやフロッピーディスク等の可搬型記
録媒体 92−1 CD−ROM 92−2 フロッピーディスク 93 コンピュータ 94 コンピュータ上のRAM/ハードディスク等の記
録媒体

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 話者を認識すべき連続音声パターンを入
    力する連続音声パターン入力部と、 一又は複数の第1の認識話者候補を選択するべく参照す
    る、物理的特性を格納した物理的話者認識用データベー
    スと、 前記連続音声パターン入力部において入力された前記連
    続音声パターンの有する物理的特性に基づいて、前記物
    理的話者認識用データベースを参照して、話者認識確率
    順に一又は複数の前記第1の認識話者候補を選択する物
    理的話者選択部とを含む話者認識装置であって、 一又は複数の第2の認識話者候補を選択するべく参照す
    る、統計的特性を格納した統計的話者認識用データベー
    スを含み、 前記連続音声パターン入力部において入力された前記連
    続音声パターンを連続音声文字列として認識する連続音
    声文字列認識部と、 前記連続音声文字列認識部において認識された前記連続
    音声文字列に基づいて統計的特性を算出する統計的特性
    算出部と、 算出された前記統計的特性に基づいて、前記統計的話者
    認識用データベースを参照して、話者認識確率順に一又
    は複数の前記第2の認識話者候補を選択する統計的話者
    選択部と、 前記第1の認識話者候補と前記第2の認識話者候補を対
    比して、一致する認識話者候補のうち、両者の話者認識
    確率の積が最大である第3の認識話者候補を特定する統
    合話者特定部を含むことを特徴とした話者認識装置。
  2. 【請求項2】 前記統計的特性算出部において算出され
    た前記統計的特性を登録する統計的特性登録部をさらに
    含む請求項1記載の話者認識装置。
  3. 【請求項3】 前記統計的特性算出部において、不要語
    として表出する語彙に着目して前記統計的特性を算出す
    る請求項1記載の話者認識装置。
  4. 【請求項4】 前記統計的特性算出部において、語尾に
    表出する語彙に着目して前記統計的特性を算出する請求
    項1記載の話者認識装置。
  5. 【請求項5】 前記統計的特性算出部において、接続語
    として表出する語彙に着目して前記統計的特性を算出す
    る請求項1記載の話者認識装置。
  6. 【請求項6】 前記統計的特性算出部において、前記連
    続音声パターン認識部で誤認されたために修正が行われ
    た語彙に着目して前記統計的特性を算出する請求項1記
    載の話者認識装置。
  7. 【請求項7】 話者を認識すべき連続音声パターンを入
    力する工程と、 入力された前記連続音声パターンの有する物理的特性に
    基づいて、話者認識確率順に一又は複数の前記第1の認
    識話者候補を選択する工程とを含む話者認識方法であっ
    て、 入力された前記連続音声パターンを連続音声文字列とし
    て認識する工程と、 認識された前記連続音声文字列に基づいて統計的特性を
    算出する工程と、 算出された前記統計的特性に基づいて、話者認識確率順
    に一又は複数の前記第2の認識話者候補を選択する工程
    と、 前記第1の認識話者候補と前記第2の認識話者候補を対
    比して、一致する認識話者候補のうち、両者の話者認識
    確率の積が最大である第3の認識話者候補を特定する工
    程を含むことを特徴とする話者認識方法。
  8. 【請求項8】 話者を認識すべき連続音声パターンを入
    力するステップと、 入力された前記連続音声パターンの有する物理的特性に
    基づいて、話者認識確率順に一又は複数の前記第1の認
    識話者候補を選択するステップとを含むコンピュータに
    実行させるプログラムを記録したコンピュータ読み取り
    可能な記録媒体であって、 入力された前記連続音声パターンを連続音声文字列とし
    て認識するステップと、 認識された前記連続音声文字列に基づいて統計的特性を
    算出するステップと、 算出された前記統計的特性に基づいて、話者認識確率順
    に一又は複数の前記第2の認識話者候補を選択するステ
    ップと、 前記第1の認識話者候補と前記第2の認識話者候補を対
    比して、一致する認識話者候補のうち、両者の話者認識
    確率の積が最大である第3の認識話者候補を特定するス
    テップを含むことを特徴としたコンピュータに実行させ
    るプログラムを記録したコンピュータ読み取り可能な記
    録媒体。
JP05575699A 1999-03-03 1999-03-03 話者認識装置及び方法 Expired - Fee Related JP3735209B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05575699A JP3735209B2 (ja) 1999-03-03 1999-03-03 話者認識装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05575699A JP3735209B2 (ja) 1999-03-03 1999-03-03 話者認識装置及び方法

Publications (2)

Publication Number Publication Date
JP2000250593A true JP2000250593A (ja) 2000-09-14
JP3735209B2 JP3735209B2 (ja) 2006-01-18

Family

ID=13007700

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05575699A Expired - Fee Related JP3735209B2 (ja) 1999-03-03 1999-03-03 話者認識装置及び方法

Country Status (1)

Country Link
JP (1) JP3735209B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008117626A1 (ja) * 2007-03-27 2008-10-02 Nec Corporation 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
JP2013029690A (ja) * 2011-07-28 2013-02-07 Toshiba Corp 話者分類装置、話者分類方法および話者分類プログラム
JP2015200913A (ja) * 2015-07-09 2015-11-12 株式会社東芝 話者分類装置、話者分類方法および話者分類プログラム
JP2016018229A (ja) * 2014-07-04 2016-02-01 日本電信電話株式会社 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム
JP2016071068A (ja) * 2014-09-29 2016-05-09 ニフティ株式会社 通話解析装置、通話解析方法および通話解析プログラム
WO2019021953A1 (ja) * 2017-07-26 2019-01-31 日本電気株式会社 音声操作装置及びその制御方法
JP2019124835A (ja) * 2018-01-17 2019-07-25 トヨタ自動車株式会社 発話者推定装置
CN111583906A (zh) * 2019-02-18 2020-08-25 中国移动通信有限公司研究院 一种语音会话的角色识别方法、装置及终端
JP2021516356A (ja) * 2017-12-27 2021-07-01 ロヴィ ガイズ, インコーポレイテッド 音声データおよびメディア消費データに基づいてユーザを識別するためのシステムおよび方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008117626A1 (ja) * 2007-03-27 2008-10-02 Nec Corporation 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
US8452596B2 (en) 2007-03-27 2013-05-28 Nec Corporation Speaker selection based at least on an acoustic feature value similar to that of an utterance speaker
JP2013029690A (ja) * 2011-07-28 2013-02-07 Toshiba Corp 話者分類装置、話者分類方法および話者分類プログラム
US9251808B2 (en) 2011-07-28 2016-02-02 Kabushiki Kaisha Toshiba Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
JP2016018229A (ja) * 2014-07-04 2016-02-01 日本電信電話株式会社 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム
JP2016071068A (ja) * 2014-09-29 2016-05-09 ニフティ株式会社 通話解析装置、通話解析方法および通話解析プログラム
JP2015200913A (ja) * 2015-07-09 2015-11-12 株式会社東芝 話者分類装置、話者分類方法および話者分類プログラム
WO2019021953A1 (ja) * 2017-07-26 2019-01-31 日本電気株式会社 音声操作装置及びその制御方法
US11961534B2 (en) 2017-07-26 2024-04-16 Nec Corporation Identifying user of voice operation based on voice information, voice quality model, and auxiliary information
JPWO2019021953A1 (ja) * 2017-07-26 2020-04-16 日本電気株式会社 音声操作装置及びその制御方法
JP7127131B2 (ja) 2017-12-27 2022-08-29 ロヴィ ガイズ, インコーポレイテッド 音声データおよびメディア消費データに基づいてユーザを識別するためのシステムおよび方法
JP2021516356A (ja) * 2017-12-27 2021-07-01 ロヴィ ガイズ, インコーポレイテッド 音声データおよびメディア消費データに基づいてユーザを識別するためのシステムおよび方法
US11798565B2 (en) 2017-12-27 2023-10-24 Rovi Guides, Inc. Systems and methods for identifying users based on voice data and media consumption data
JP7143591B2 (ja) 2018-01-17 2022-09-29 トヨタ自動車株式会社 発話者推定装置
JP2019124835A (ja) * 2018-01-17 2019-07-25 トヨタ自動車株式会社 発話者推定装置
CN111583906A (zh) * 2019-02-18 2020-08-25 中国移动通信有限公司研究院 一种语音会话的角色识别方法、装置及终端
CN111583906B (zh) * 2019-02-18 2023-08-15 中国移动通信有限公司研究院 一种语音会话的角色识别方法、装置及终端

Also Published As

Publication number Publication date
JP3735209B2 (ja) 2006-01-18

Similar Documents

Publication Publication Date Title
US6618702B1 (en) Method of and device for phone-based speaker recognition
US10074363B2 (en) Method and apparatus for keyword speech recognition
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
US8532991B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
EP2048655A1 (en) Context sensitive multi-stage speech recognition
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
US20130289987A1 (en) Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition
CN107886968B (zh) 语音评测方法及系统
CN106875943A (zh) 一种用于大数据分析的语音识别系统
CN101452701B (zh) 基于反模型的置信度估计方法及装置
JP3735209B2 (ja) 話者認識装置及び方法
JPH10274996A (ja) 音声認識装置
Hirschberg et al. Generalizing prosodic prediction of speech recognition errors
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
JP2010044239A (ja) 音声認識装置およびプログラム
Prukkanon et al. F0 contour approximation model for a one-stream tonal word recognition system
KR100677224B1 (ko) 안티워드 모델을 이용한 음성인식 방법
JPH0997095A (ja) 音声認識装置
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JP2019095526A (ja) 音声処理プログラム、音声処理装置、及び音声処理方法
JP4297349B2 (ja) 音声認識システム
KR20050001684A (ko) 미등록어 처리를 지원하는 음성 인식 시스템과 방법 및이를 저장한 컴퓨터 판독 가능 기록매체
KR20180057315A (ko) 자연어 발화 음성 판별 시스템 및 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051021

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081028

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091028

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091028

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101028

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101028

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111028

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111028

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121028

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121028

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131028

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees