[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2003280683A - 音声認識装置、音声認識装置における音声認識制御方法、音声処理に関する辞書管理装置 - Google Patents

音声認識装置、音声認識装置における音声認識制御方法、音声処理に関する辞書管理装置

Info

Publication number
JP2003280683A
JP2003280683A JP2002077543A JP2002077543A JP2003280683A JP 2003280683 A JP2003280683 A JP 2003280683A JP 2002077543 A JP2002077543 A JP 2002077543A JP 2002077543 A JP2002077543 A JP 2002077543A JP 2003280683 A JP2003280683 A JP 2003280683A
Authority
JP
Japan
Prior art keywords
dictionary
voice
field
voice recognition
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002077543A
Other languages
English (en)
Inventor
Yuichiro Aso
裕一郎 麻生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002077543A priority Critical patent/JP2003280683A/ja
Publication of JP2003280683A publication Critical patent/JP2003280683A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 従来の音声認識装置では、予め決められた辞
書を用いて音声認識をおこなっており、ある程度の認識
結果は得られていたが、特定の専門分野に関する音声デ
ータを認識する際には、認識結果が満足できるものでは
なかった。 【解決手段】 そこで、本発明では、ユーザが必要に応
じて専門分野に関する辞書を追加登録したり、削除した
りし、認識させる音声データに応じた辞書構成を構築す
ることができ、更には、分野辞書をグループ単位に管理
することもできるので、最終的な音声認識結果も満足で
きるものとなる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識処理にお
ける各種分野辞書を用いた認識処理に関する。
【0002】
【従来の技術】入力された音声を認識してテキストデー
タに変換する音声認識装置としては、特開平1−193
900号公報や特開平1−142798号公報に示され
たものがある。これら音声認識装置においては、入力さ
れた音声を分析するための辞書や、単語と単語のつなが
り等の単語情報を解析するための辞書を使用している。
一般的な音声認識装置では、一般的なトピックに対して
認識率を挙げるために、新聞等で頻繁にしようされる単
語の情報を広く浅く集めて辞書に登録している。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
方法では、一般的なトピックに対してはある程度、期待
する認識結果を得ることができるが、スポーツ、映画、
医学などの特定の専門分野に対する認識を行うと、不本
意な認識結果しか得ることができず利用者にとって満足
できるものではなかった。
【0004】そこで、本発明では、各専門分野に対して
も十分満足できる認識結果を得ることの出来る音声認識
装置及び音声認識制御方法を提供することを目的とす
る。
【0005】
【課題を解決するための手段】本発明の音声認識装置
は、音声データを入力するための音声入力手段と、認識
用の辞書パターンを分野別に複数記憶する認識辞書と、
前記音声入力手段により入力された音声データを解析し
て入力パターンを得、この入力パターンと認識辞書に記
憶された辞書パターンとの照合を行って、認識結果であ
る文字データを出力する音声認識手段と、前記音声認識
手段にて使用する分野辞書の管理情報に基いて、分野辞
書の追加登録又は削除を行う辞書管理手段と具備するこ
とを特徴とした。
【0006】このような構成を取ることにより、入力音
声に応じた分野辞書を追加登録又は削除した認識を行う
ことができる。
【0007】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態を説明する。図1は、音声認識装置の基本構成を
示すブロック図である。制御部10は、装置全体の制御
を司るものである。音声入力部11は、各種音声データ
を装置に入力するためのものである。ここでは、マイク
により直接ユーザが発声したデータを入力したもの、電
話機などに接続して音声データを得るようにしたもの、
Wave形式の音声ファイル等のいずれかの入力方式を
用いる。
【0008】このようにして入力された音声データは、
制御部10を介して音声認識部12に渡される。音声認
識部12では、入力音声データについて音響分析、特徴
抽出、辞書とのマッチングを行って認識処理を行い、テ
キストデータを得る。音声認識部12での辞書とのマッ
チングの際には、辞書記憶領域14に記憶された辞書を
参照して、入力音声パターンと辞書パターンのマッチン
グ処理が行われる。表示部16は、認識結果や、辞書の
設定画面など各種データを表示するためのものである。
【0009】辞書記憶領域14には、各種分野に応じた
分野辞書が複数登録されている。実線で囲まれた部分
は、現在音声認識処理で使用されているもので、点線で
囲まれている部分は、未使用状態の辞書を示している。
また、各分野辞書はグループ別に管理することもでき
る。図1の場合では、使用状態ある辞書としてグループ
「一般」14a、「医用」14bがあり、未使用状態の
辞書として「一般」14c、「医用」14d、「工学」
14eがある。使用中辞書グループ「一般」14aは、
分野辞書として「一般」分野の辞書14a1、「コンピ
ュータ」分野の辞書14a2などの複数の辞書を有し、
またグループ「医用」14bは、分野辞書として「呼吸
器」分野の辞書14b2などの複数の辞書を有してい
る。未使用辞書グループ「一般」14cは、分野辞書と
して「料理」分野の辞書14c1、「ファッション」分
野の辞書14c2などの複数の辞書を有し、グループ
「医用」14dは、分野辞書として「アレルギー」分野
の辞書14d1、「心療内科」分野の辞書14d2など
の複数の辞書を有し、さらにグループ「工学」14e
は、分野辞書として「物理学」分野の辞書14e1を有
している。
【0010】分野辞書については、上記以外の他の分野
を適宜追加したり、上記分野辞書を削除して構成するよ
うにしても良い。未使用状態の辞書は、予め装置に複数
用意しておいても良いし、その場合記憶容量を減らすた
めに圧縮しておき必要に応じて伸張するようにしてもよ
いし、更に、辞書内容を外部記憶装置に保存しておき必
要に応じて装置にインストールしたり、回線を介して辞
書内容をダウンロードするようにしてもよい。
【0011】辞書管理部13は、認識処理時には、音声
認識部12からの要求に応じて、現在設定されている使
用中辞書を判別し、必要な辞書を展開する。分野別辞書
選択部15は、分野別辞書の登録や削除を管理する際の
各種設定を行うための機能モジュールである。
【0012】続いて、図6を用いて具体的な処理につい
て説明する。図6は、分野辞書の管理処理及び分野辞書
を用いての音声認識処理に関するフローチャートであ
る。音声認識装置上で、図示しない分野辞書の登録/削
除処理の機能が選択されたか否かの判定が行われ(ステ
ップS10)、登録/削除処理機能の選択であった場合
には所定のユーザインタフェース画面を通じて分野辞書
の登録/削除処理が行われる(ステップS11)。ユー
ザインタフェース画面を用いての具体的な処理は、後述
する。
【0013】続いて、図示しない辞書グループの選択処
理の機能が選択されたか否かの判定が行われ(ステップ
S12)、辞書グループ選択処理機能の選択であった場
合には所定のユーザインタフェース画面を通じて分野辞
書に対するグループ選択/管理処理が行われる(ステッ
プS13)。この場合のユーザインタフェース画面を用
いての具体的な処理についても、後述する。
【0014】図示しない音声認識処理機能の選択が行わ
れた後、音声入力があったか否かの判定が行われ(ステ
ップS14)、音声入力があった場合にはS15以下の
処理が行われる。まず、認識処理部12は、入力音声デ
ータに対して各種解析処理を行い(ステップS15)、
解析したデータに対して、辞書管理部13で管理された
現在選択されているグループに含まれる分野辞書を用い
て認識処理を行う(ステップS16)。続いて、音声認
識部12は認識結果を表示部16に表示出力させる(ス
テップS17)。そして、一定期間音声入力が無い場合
には、音声認識処理を終え、音声入力が継続して行われ
た場合には再びステップS15に戻り処理を行う。
【0015】続いて、辞書の登録/削除を行う辞書管理
処理に関して、具体例を示しながら説明を行う。図2
は、辞書管理用の表示画面内容を示す図である。図示し
ない分野辞書の登録/削除の機能が選択された場合に
は、この辞書管理用画面30が表示部16に表示され
る。この画面は、現在の設定内容を表示する領域と、各
種辞書管理を行うためのボタン領域から構成されてい
る。図2の例では、現在の設定内容として、グループ単
位に設定されている分野辞書の情報が示されると共に、
選択されているグループ名の項目は太字、下線で示され
ておりユーザが容易に選択グループを把握することが可
能になっている。また、ボタン領域には、グループ内で
の分野辞書を追加登録するためのボタン30a、グルー
プ内での既存の分野辞書を削除するためのボタン30
b、グループを新規登録するためのボタン30c、既存
のグループ(グループ内に登録された分野辞書も全て削
除される)を削除するためのボタン30dが用意されて
いる。
【0016】図3を用いて、辞書管理処理のひとつであ
るグループ内の辞書追加について説明する。図3は、グ
ループ内の辞書追加を行う手順を説明するための図であ
る。図2の音声辞書管理画面で、ボタン30aを操作す
ると、図3(a)に示される辞書追加のための設定画面
31が表示される。この設定画面31は、分野辞書を追
加したいグループを選択するための項目31aと、追加
したい分野辞書を選択する項目31bから構成されてい
る。ここで、追加する分野辞書として「料理」「音楽」
を選択したものとする。
【0017】図3(b)は、登録した辞書の内容を確認
するための画面である。確認画面32は、追加したいグ
ループに登録されている分野辞書の一覧を表示し、今回
新たに追加登録した分野辞書の名称は太字(下線)が付
され他のものとは区別されて表示している。さらに、一
覧表示された内容で登録して良いか否かのを指定するボ
タン32bが設けられ、「はい」を操作すると追加され
た分野辞書を登録し、「いいえ」を操作すると追加され
た分野辞書の登録は行わない。
【0018】これら辞書管理処理によって登録/削除さ
れた辞書の管理情報は、辞書管理部13に記憶される。
図4は、この辞書管理情報の記憶内容を示す図である。
図4(a)は、使用中の分野辞書の管理状況を示すもの
である。使用中辞書の管理テーブル33は、グループ名
を表す項目33aと、該グループに属する分野辞書名を
表す項目33bから成る。また、図4(b)は、未使用
の分野辞書の管理状況を示すものである。未使用辞書の
管理テーブル34は、グループ名を表す項目34aと、
該グループに属する分野辞書名を表す項目34bから成
る。
【0019】前記図3(a)に示した追加登録したい分
野辞書の一覧を表示させるには、前記図4(b)の未使
用辞書の管理テーブル34を参照して必要なデータを抜
き出す。そして、追加した分野辞書名は未使用辞書の管
理テーブル34から削除して、使用中辞書の管理テーブ
ル33の登録グループに追加登録する。これとは、逆に
分野辞書を削除する際には、使用中辞書の管理テーブル
33を参照して必要なデータを抜き出して、削除対象一
覧画面として表示する(図示せず)。そして、削除した
分野辞書名は使用中辞書の管理テーブル33から削除し
て、未使用辞書の管理テーブル34の所定のグループに
登録する(この場合は、元のグループ名を識別する情報
も考慮する必要がある)。
【0020】また、図5は、使用する分野辞書のグルー
プを選択する際の操作画面を示す。図示しない辞書グル
ープの選択機能を指示した場合には、図5に示されたグ
ループ選択画面35が表示される。グループ選択画面3
5は、各グループ毎に属する分野辞書の一覧が示されて
いる。各グループ名毎に、選択する部分が設けられ、こ
れを指示することでひとつのグループが選択される。図
5の例では、グループ名「一般」が選択された状態であ
る。ここで、選択されたグループ選択情報は、辞書管理
部13に記憶される。
【0021】このように本発明によれば、分野辞書を必
要に応じて追加登録や削除することや、更にグループ別
に分野辞書を管理することができるので、音声入力した
い内容に応じて適切な辞書を選択することで、ユーザの
望む認識結果を得られる可能性が高くなった。
【0022】また、上記実施形態では、音声認識用の分
野辞書を対象に説明を行ったが、同様の手法により、音
声合成装置の言語解析用の辞書に本発明を適用すること
で、分野に応じた読み間違いの少ない読み上げ機能を提
供することも可能となる。
【0023】
【発明の効果】本発明によれば、分野辞書を必要に応じ
て追加登録や削除することや、更にグループ別に分野辞
書を管理することができるので、音声入力したい内容に
応じて適切な辞書を選択することで、ユーザの望む認識
結果を得られる可能性が高くなった。
【図面の簡単な説明】
【図1】 音声認識装置の機能構成を示すブロック図。
【図2】 辞書管理画面を説明するための図。
【図3】 辞書追加画面を説明するための図。
【図4】 分野辞書の管理状況を記憶するテーブルを説
明するための図。
【図5】 辞書グループ選択の画面を説明するための
図。
【図6】 分野辞書の登録削除処理/辞書グループの選
択処理/音声認識処理に関するフローチャート。
【符号の説明】
10 制御部 11 音声入力部 12 音声認識部 13 辞書管理部 14 辞書記憶領域 15 分野別辞書選択部 16 表示部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 音声データを入力するための音声入力手
    段と、 認識用の辞書パターンを分野別に複数記憶する認識辞書
    と、 前記音声入力手段により入力された音声データを解析し
    て入力パターンを得、この入力パターンと認識辞書に記
    憶された辞書パターンとの照合を行って、認識結果であ
    る文字データを出力する音声認識手段と、 前記音声認識手段にて使用する分野辞書の管理情報に基
    いて、分野辞書の追加登録又は削除を行う辞書管理手段
    とを具備することを特徴とした音声認識装置。
  2. 【請求項2】 前記辞書管理手段は、分野辞書を複数有
    したグループを単位に管理することを特徴とした請求項
    1記載の音声認識装置。
  3. 【請求項3】 認識用の辞書パターンを分野別に複数記
    憶したメモリ及び入力された音声データを解析して入力
    パターンを得、この入力パターンと認識辞書に記憶され
    た辞書パターンとの照合を行って、認識結果である文字
    データを出力する音声認識手段を有した音声認識装置に
    おいて、 音声認識するに使用する分野辞書の管理情報に基いて、
    分野辞書の追加登録又は削除を行い、 前記音声認識手段による照合処理を行う際の辞書は、前
    記管理情報に基いて分野辞書として登録されたものを対
    象にして行うことを特徴とした音声認識装置における音
    声認識制御方法。
  4. 【請求項4】 前記分野辞書を複数有したグループを単
    位に管理することを特徴とした請求項3記載の音声認識
    装置における音声認識制御方法。
  5. 【請求項5】 音声処理に使用する際の辞書データを分
    野別に複数有した辞書と、 音声処理に使用する分野辞書の管理情報に基いて、追加
    登録又は削除を行う辞書管理手段とを具備することを特
    徴とした音声処理に関する辞書管理装置。
JP2002077543A 2002-03-20 2002-03-20 音声認識装置、音声認識装置における音声認識制御方法、音声処理に関する辞書管理装置 Withdrawn JP2003280683A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002077543A JP2003280683A (ja) 2002-03-20 2002-03-20 音声認識装置、音声認識装置における音声認識制御方法、音声処理に関する辞書管理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002077543A JP2003280683A (ja) 2002-03-20 2002-03-20 音声認識装置、音声認識装置における音声認識制御方法、音声処理に関する辞書管理装置

Publications (1)

Publication Number Publication Date
JP2003280683A true JP2003280683A (ja) 2003-10-02

Family

ID=29228019

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002077543A Withdrawn JP2003280683A (ja) 2002-03-20 2002-03-20 音声認識装置、音声認識装置における音声認識制御方法、音声処理に関する辞書管理装置

Country Status (1)

Country Link
JP (1) JP2003280683A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005215689A (ja) * 2004-02-02 2005-08-11 Fuji Xerox Co Ltd 情報源から情報を認識する方法およびシステム
JP2005326677A (ja) * 2004-05-14 2005-11-24 Toshiba Tec Corp 音声メモプリンタ
JP2006039342A (ja) * 2004-07-29 2006-02-09 Toshiba Tec Corp 音声メモプリンタ
JP2007127813A (ja) * 2005-11-02 2007-05-24 Canon Inc 音声認識装置およびその設定方法
JP2008158510A (ja) * 2006-11-30 2008-07-10 National Institute Of Advanced Industrial & Technology 音声認識システム及び音声認識システム用プログラム
WO2011045846A1 (ja) * 2009-10-16 2011-04-21 三菱電機株式会社 音声認識装置
CN106133826A (zh) * 2014-03-27 2016-11-16 微软技术许可有限责任公司 用于语言模型自定义的灵活模式
US10304448B2 (en) 2013-06-21 2019-05-28 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US10572602B2 (en) 2013-06-21 2020-02-25 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
US11042705B2 (en) 2018-09-20 2021-06-22 Dynabook Inc. Electronic device, recognition method, and non-transitory computer-readable storage medium
JP2022502713A (ja) * 2018-10-15 2022-01-11 美的集団股▲フン▼有限公司Midea Group Co., Ltd. 電気機器のためのポータブルの自然言語処理インターフェースをカスタマイズするためのシステム、及び方法
DE112021000751T5 (de) 2020-01-27 2022-12-22 Sony Group Corporation Informationsverarbeitungsvorrichtung, informationsverarbeitungssystem undinformationsverarbeitungsverfahren

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4678193B2 (ja) * 2004-02-02 2011-04-27 富士ゼロックス株式会社 音声データ認識装置、ノート表示装置、音声データ認識プログラム、及びノート表示プログラム
JP2005215689A (ja) * 2004-02-02 2005-08-11 Fuji Xerox Co Ltd 情報源から情報を認識する方法およびシステム
JP2005326677A (ja) * 2004-05-14 2005-11-24 Toshiba Tec Corp 音声メモプリンタ
JP2006039342A (ja) * 2004-07-29 2006-02-09 Toshiba Tec Corp 音声メモプリンタ
JP4544933B2 (ja) * 2004-07-29 2010-09-15 東芝テック株式会社 音声メモプリンタ
JP2007127813A (ja) * 2005-11-02 2007-05-24 Canon Inc 音声認識装置およびその設定方法
US8401847B2 (en) 2006-11-30 2013-03-19 National Institute Of Advanced Industrial Science And Technology Speech recognition system and program therefor
JP2008158510A (ja) * 2006-11-30 2008-07-10 National Institute Of Advanced Industrial & Technology 音声認識システム及び音声認識システム用プログラム
WO2011045846A1 (ja) * 2009-10-16 2011-04-21 三菱電機株式会社 音声認識装置
US10304448B2 (en) 2013-06-21 2019-05-28 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US10572602B2 (en) 2013-06-21 2020-02-25 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
CN106133826A (zh) * 2014-03-27 2016-11-16 微软技术许可有限责任公司 用于语言模型自定义的灵活模式
JP2017515141A (ja) * 2014-03-27 2017-06-08 マイクロソフト テクノロジー ライセンシング,エルエルシー 言語モデルカスタマイズのためのフレキシブルスキーマ
US10497367B2 (en) 2014-03-27 2019-12-03 Microsoft Technology Licensing, Llc Flexible schema for language model customization
CN106133826B (zh) * 2014-03-27 2019-12-17 微软技术许可有限责任公司 用于语言模型自定义的灵活模式
US11042705B2 (en) 2018-09-20 2021-06-22 Dynabook Inc. Electronic device, recognition method, and non-transitory computer-readable storage medium
JP2022502713A (ja) * 2018-10-15 2022-01-11 美的集団股▲フン▼有限公司Midea Group Co., Ltd. 電気機器のためのポータブルの自然言語処理インターフェースをカスタマイズするためのシステム、及び方法
JP7098056B2 (ja) 2018-10-15 2022-07-08 美的集団股▲フン▼有限公司 電気機器のためのポータブルの自然言語処理インターフェースをカスタマイズするためのシステム、及び方法
DE112021000751T5 (de) 2020-01-27 2022-12-22 Sony Group Corporation Informationsverarbeitungsvorrichtung, informationsverarbeitungssystem undinformationsverarbeitungsverfahren

Similar Documents

Publication Publication Date Title
CN109690481A (zh) 动态功能行定制
WO1999063425A1 (fr) Procede et appareil de traitement d'informations et support de fourniture d'informations
US20040044523A1 (en) Information processing apparatus and method, and program
JP2009140467A (ja) 編集可能な個人辞書を提供して活用する方法及びシステム
JP2003280683A (ja) 音声認識装置、音声認識装置における音声認識制御方法、音声処理に関する辞書管理装置
CN109428968B (zh) 控制终端的方法、装置及存储介质
JPH06266521A (ja) ユーザインタフェースカスタマイズ方式及び装置
JP2006244506A (ja) 記号入力方法、及び、これを用いた通信端末機
CN110008460A (zh) 信息编辑方法、装置、设备和计算机存储介质
JP2017102939A (ja) オーサリング装置、オーサリング方法、およびプログラム
JP2001188795A (ja) 電子辞書との通信機能を有する電子機器及び電子辞書及び電子機器制御プログラムを記憶した記憶媒体
JP2002091473A (ja) 情報処理装置
KR100620735B1 (ko) 글쓰기 학습 기능을 가진 이동통신 단말기 및 그 방법
JP2003122771A (ja) 情報処理装置及び情報処理方法、並びに情報処理プログラム
JPH08272388A (ja) 音声合成装置及びその方法
JP6080058B2 (ja) オーサリング装置、オーサリング方法、およびプログラム
JP2001109740A (ja) 中国語文書作成装置及び中国語文書作成方法
JP3018983B2 (ja) データベース構築装置
WO2023073886A1 (ja) 情報処理システム、情報処理装置、情報処理方法、及び記録媒体
US20050119888A1 (en) Information processing apparatus and method, and program
JP2003202890A (ja) 音声認識装置及びその方法、プログラム
JP7185866B2 (ja) 情報処理装置、情報処理方法、コンピュータプログラム
JP3592284B2 (ja) 日本語入力システム、そのプログラム、及び携帯情報端末
JP2006185342A (ja) 情報処理装置および文字列分類方法およびプログラムおよび記録媒体
JP2004029315A (ja) 携帯情報端末装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040106

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050414

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051202

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20060119