JP2009086207A

JP2009086207A - 議事録情報生成システム、議事録情報生成方法、及び議事録情報生成プログラム

Info

Publication number: JP2009086207A
Application number: JP2007254717A
Authority: JP
Inventors: Seiji Hirano; 誠治平野; Yoshie Arai; 美江新井; Kazue Arai; 和重荒井
Original assignee: Toppan Printing Co Ltd
Current assignee: Toppan Inc
Priority date: 2007-09-28
Filing date: 2007-09-28
Publication date: 2009-04-23

Abstract

【課題】情報の精度が高く、かつ手間をかけずに効率良く議事録情報を生成する議事録情報生成システムを提供する。
【解決手段】音声情報をテキスト情報にテキスト変換する音声認識手段を用いて議事録情報を生成する議事録情報生成システムであって、ユーザから入力される音声を音声情報に変換する音声入力手段を備え、ユーザを識別する情報を含むユーザ情報を予め記憶し、ユーザが利用する音声入力手段とユーザ情報とを対応付けて記憶し、音声情報が入力された音声入力手段に対応するユーザ情報を検出し、検出したユーザ情報と、音声情報が音声認識手段によってテキスト変換された情報であるテキスト情報とを対応づけた情報である議事録情報を生成する。
【選択図】図１

Description

本発明は、音声情報をテキスト情報にテキスト変換する音声認識手段を用いて議事録情報を生成する議事録情報生成システムに関する。

従来、コンピュータ端末によって形成されるネットワークを利用して、会議の映像や音声を遠隔地間で送受信して会議を行う電子会議システムが利用されている。
また、一方で、近年では、入力される音声情報をテキスト情報に変換する音声認識技術が発展しており（例えば、特許文献１参照）、様々な場面に応用されるようになってきた（例えば、特許文献２参照）。
そこで、このような電子会議システムと音声認識技術とを用いて、電子会議システムにおいて交わされる会議内容としての音声情報を、音声認識技術によってテキスト情報に変換し、保存することで、議事録情報を生成する電子会議システムが提案されている（例えば、特許文献３参照）。
特開２００４−３６１７６９号公報特開２００７−２０６０１１号公報特開２００５−３４１０１５号公報

しかしながら、このような議事録情報生成システムでは、会議中にどのような発言があったかを記憶することはできるが、誰がどの発言を行ったかを記憶できるものではない。
また、複数の会議参加ユーザが同時に発言した場合、重なった音声情報が音声情報として入力されるために音声認識エラーとなり、その間の発言は議事録が生成されないこととなる。

また、このような音声認識を精度良く行うために、個々のユーザが発するそれぞれの特徴を予め記憶する音声プロファイルと呼ばれる情報を予め作成しておき、音声情報が入力される場合には、このような音声プロファイル情報を指標として用い、音声情報のキャリブレーションを行ってテキスト情報に変換する音声認識処理が一般的に行われている。
しかしながら、そのような音声プロファイル情報を生成するためには、ユーザが定型文などをマイクに向かって発声しながら、入力された音声情報を解析して特徴を抽出する処理が必要である。会議の都度このような音声情報の特徴抽出処理を行うのは、ユーザにとって面倒であり、負担となっている。

また、このような音声情報をテキスト情報に変換する音声認識処理は、複雑な計算処理を必要とするため、コンピュータへの処理負荷が高いことが一般的である。このため、リアルタイムでの音声認識処理では、音声認識の計算処理が会議の進行に追いつかずに、計算処理が中断されてしまったり、エラーとなったりする場合がある。
また、このような議事録情報には、会議の発言内容に加えて、会議時間や会議参加者などの会議情報が記録されることが望ましい。

本発明は、このような状況に鑑みてなされたもので、情報の精度が高く、かつ手間をかけずに効率良く議事録情報を生成する議事録情報生成システムを提供する。

上述の課題を解決するために、本発明は、音声情報をテキスト情報にテキスト変換する音声認識手段を用いて議事録情報を生成する議事録情報生成システムであって、ユーザから入力される音声を音声情報に変換する音声入力手段と、ユーザを識別する情報を含むユーザ情報を予め記憶するユーザ情報記憶手段と、ユーザが利用する音声入力手段と、ユーザ情報記憶手段に記憶されたユーザのユーザ情報とを対応付けて記憶する対応情報記憶手段と、対応情報記憶手段から、音声が入力された音声入力手段に対応するユーザ情報を検出する対応情報検出手段と、音声情報が入力された音声入力手段に対応するユーザ情報を対応情報検出手段によって検出し、検出したユーザ情報と、音声情報が音声認識手段によってテキスト変換された情報であるテキスト情報とを対応づけた情報である議事録情報を生成する議事録情報生成手段と、を備えることを特徴とする議事録情報生成システムである。

本発明は、上述のユーザ情報記憶手段は、可搬記憶媒体が有しており、可搬記憶媒体がユーザによって接続されると、可搬記憶媒体に記憶されたユーザ情報を読み出すユーザ情報読出手段と、ユーザ情報読出手段が読み出したユーザ情報と、音声入力手段とを対応付けた情報を、対応情報記憶手段に記憶させる対応情報制御手段と、をさらに備えることを特徴とする。

本発明は、上述のユーザ情報記憶手段が記憶するユーザ情報は、ユーザ情報が示すユーザが発する音声の特徴を示す音声特徴情報を含み、音声認識手段は、音声情報が入力された音声入力手段に対応付けられた音声特徴情報に基づいて音声情報をテキスト情報に変換することを特徴とする。

本発明は、上述の対応情報記憶手段は、複数の音声入力手段のうちいずれかの音声入力手段と、複数のユーザ情報のうちいずれかのユーザ情報とを一対一で対応付ける情報を記憶することを特徴とする。

本発明は、上述の音声入力手段に入力される音声情報を記憶する音声情報記憶手段をさらに備え、上述の議事録情報生成手段は、音声情報記憶手段から読み出した音声情報に基づいて、議事録情報を生成することを特徴とする。

本発明は、会議参加ユーザ、会議場所、及び会議時間を示す情報である会議情報の入力を受け付ける会議情報入力手段をさらに備え、議事録情報生成手段が生成する議事録情報に、会議情報を付加することを特徴とする。

本発明は、音声情報をテキスト情報にテキスト変換する音声認識手段を用いて議事録情報を生成する議事録情報生成方法であって、ユーザ情報記憶手段が、ユーザを識別する情報を含むユーザ情報を予め記憶するステップと、音声入力手段が、ユーザから入力される音声を音声情報に変換するステップと、対応情報記憶手段が、ユーザが利用する音声入力手段と、ユーザ情報記憶手段に記憶されたユーザのユーザ情報とを対応付けて記憶するステップと、対応情報検出手段が、対応情報記憶手段から、音声が入力された音声入力手段に対応するユーザ情報を検出するステップと、議事録情報生成手段が、音声情報が入力された音声入力手段に対応するユーザ情報を対応情報検出手段によって検出し、検出されたユーザ情報と、音声情報が音声認識手段によってテキスト変換された情報であるテキスト情報とを対応づけた情報である議事録情報を生成するステップと、を備えることを特徴とする議事録情報生成方法である。

本発明は、ユーザから入力される音声を音声情報に変換する音声入力手段を備え、音声情報をテキスト情報にテキスト変換する音声認識手段を用いて議事録情報を生成する議事録情報生成装置としてのコンピュータに、ユーザ情報記憶手段が、ユーザを識別する情報を含むユーザ情報を予め記憶するステップと、対応情報記憶手段が、ユーザが利用する音声入力手段と、ユーザ情報記憶手段に記憶されたユーザのユーザ情報とを対応付けて記憶するステップと、対応情報検出手段が、対応情報記憶手段から、音声が入力された音声入力手段に対応するユーザ情報を検出するステップと、議事録情報生成手段が、音声情報が入力された音声入力手段に対応するユーザ情報を対応情報検出手段によって検出し、検出されたユーザ情報と、音声情報が音声認識手段によってテキスト変換された情報であるテキスト情報とを対応づけた情報である議事録情報を生成するステップと、を実行させるための議事録情報生成プログラムである。

以上説明したように、本発明によれば、ユーザの識別情報を含むユーザ情報を予め記憶し、音声入力手段にユーザ情報を対応付けておき、音声入力手段に入力される音声情報が音声認識手段によってテキスト変換された情報であるテキスト情報と、その音声情報が入力された音声入力手段に対応するユーザ情報とを対応付けた議事録情報を生成するようにしたので、ユーザを識別する情報と音声認識手段により生成されたテキスト情報とが対応付けられた議事録情報を生成することが可能となり、また、ユーザは予め自身のユーザ情報をユーザ情報記憶手段に記憶させておくことで、会議の都度、自身の情報を入力する必要がないので、詳細な議事録情報を効率よく生成することができる。

さらに、本発明によれば、ユーザ情報を可搬記憶媒体に記憶させることとしたので、ユーザは、予め自身のユーザ情報を記憶させた可般記憶媒体を携帯して持ち歩くことができ、その可搬記憶媒体の情報を議事録情報生成システムに読みこませることで、会議の都度ユーザ情報を入力する手間を省くことができる。

さらに、本発明によれば、ユーザ情報として、ユーザの音声特徴情報を記憶するようにしたので、音声認識手段は、音声特徴情報に基づいて音声情報をテキスト情報に変換することができ、より精度の高い音声認識が可能となる。

さらに、本発明によれば、複数の音声入力手段のうちいずれかの音声入力手段と、複数のユーザ情報のうちいずれかのユーザ情報とを一対一で対応付けるようにしたので、複数ユーザによる会議を行う場合にも、それぞれのユーザの発言を個別に取得することができ、同時に発言が行われた場合にも、それぞれの発言をテキスト情報に変換する精度を高くすることができる。

さらに、本発明によれば、音声入力手段に入力される音声情報を記憶する音声情報記憶手段を設け、音声情報記憶手段に記憶された音声情報に基づいた議事録情報の生成を行うことができるようにしたので、負荷の高い音声認識処理をリアルタイムに行うことが困難である場合でも、音声情報を記憶しておき、事後的に議事録情報を生成することができる。

さらに、本発明によれば、会議参加ユーザ、会議場所、及び会議時間を示す情報である会議情報の入力を受け付けて議事録情報に付加するようにしたので、議事録情報への情報追加や修正を行わなくても、議事録として必要な情報項目を含んだ議事録情報を生成することができる。

以下、本発明の一実施形態について、図面を参照して説明する。
＜第１の実施形態＞
図１は、本実施形態による議事録情報生成システム１０の構成を示すブロック図である。
本実施形態による議事録情報生成システム１０は、ユーザの個人情報を記憶するＩＣ（集積回路）カード１００と、会議に出席するユーザごとに用意され設置される会議端末２００と、会議端末２００から受信する情報に基づいて議事録情報を生成する３００とを備えている。

なお、図１には、一枚のＩＣカード１００を図示して本実施形態を説明するが、ＩＣカード１００は、複数のユーザがそれぞれ自身のユーザ情報を記憶するＩＣカード１００を所持して良い。また、図１には、一台の会議端末２００を図示して本実施形態を説明するが、会議端末２００は、ＩＣカード１００と一対一になるように複数台を設置する。本実施形態では、電子会議室の席ごとに、会議端末２００が設置されることを想定する。複数台の会議端末２００を利用する場合には、複数の会議端末２００が、一台の議事録生成サーバ３００にネットワークを介して接続されるようにしても良い。

ＩＣカード１００は、情報の記憶と演算が可能なＩＣチップを備える可搬記憶媒体であり、ユーザ情報記憶部１０１を備えている。ユーザ情報記憶部１０１は、ユーザ番号、氏名、音声プロファイルなどの情報を記憶する。ユーザ番号とは、本システムにおいてユーザを一意に特定するための識別情報であり、数値や、数値と文字とを組み合わせた情報である。氏名とは、ユーザの氏名を示す情報である。この他に、組織内におけるユーザの所属部署名などをさらに記憶させることとしても良い。

音声プロファイルとは、ユーザが発する音声の特徴を表す情報であり、その音声の周波数、速度、アクセント、イントネーションなどの特徴が数値化された情報である。ここで、ＩＣカード１００は、ＩＣカードリーダ２０１と接触して情報の読み書きを行う接触型でも良いし、無線通信で情報の読み書きを行う非接触型でも良い。また、ＩＣカード１００は、上述のようなユーザ情報記憶部１０１を備えるものであれば、ＩＣカード、ＳＩＭ（Subscriber Identity Module）、ＳＤ（Secure Digital）メモリ、ＲＦＩＤ（Radio Frequency IDentification）などの携帯媒体でも良い。このような携帯媒体は、対タンパ性のあるセキュアなＩＣを搭載した携帯媒体であることが望ましい。

会議端末２００は、本システムを利用して開催される会議に出席するユーザに利用される情報端末である。会議端末２００は、ＩＣカードリーダ２０１と、マイク２０２とを備えている。ＩＣカードリーダ２０１は、上述のＩＣカード１００に接続し、記憶された情報を読みだす。本実施形態の会議端末２００には、ＩＣカードリーダ２０１として、ＩＣカード１００の挿入口（スロット）が設けられていることとする。マイク２０２は、ユーザが発する音声を電気信号に変換し、音声情報を生成する。ここで、ユーザの数（ＩＣカード１００の数）と同数の会議端末２００が用意され、複数のユーザはそれぞれ１台の会議端末２００を利用することとする。会議端末２００は、少なくともこのような機能を備えていれば、ＰＣのような装置でも良いし、このようなＩＣカードリーダ２０１とマイク２０２とのみを備えた簡単な機器でも良い。

議事録生成サーバ３００は、会議端末２００とネットワークを介して情報通信を行い、会議端末２００から受信する情報に基づいて、議事録情報を生成する。ここで、会議端末２００と議事録生成サーバ３００とを接続するネットワークは、情報通信が可能であれば良く、いわゆるインターネットでも良いし、ＬＡＮ（Local Area Network）内のネットワークでも良いし、その他の情報通信ネットワークでも良い。会議端末２００と議事録生成サーバ３００とのインターフェイスは、ＵＳＢ等によるシリアル通信、赤外線等の無線通信のインターフェイスでも良い。議事録生成サーバ３００は、対応情報記憶部３０１と、対応情報制御部３０２と、音声認識部３０３と、議事録情報生成部３０４と、議事録情報記憶部３０５とを備えている。

対応情報記憶部３０１は、マイク２０２と、ＩＣカードリーダ２０１とを対応付ける情報を記憶する。対応情報記憶部３０１は、会議端末２００から、ＩＣカード１００のユーザ情報記憶部１０１に記憶されたユーザ情報と、その会議端末２００が備えるマイク２０２の識別情報とを受信し、対応させて記憶する。
対応情報制御部３０２は、対応情報記憶部３０１から、音声が入力されたマイク２０２に対応するユーザ情報を検出する。

音声認識部３０３は、入力される音声情報の周波数、速度、アクセント、イントネーションなどの音声特徴情報を解析した上で、予め記憶された単語辞書情報を参照して音声情報に対応するテキスト情報を生成する音声認識処理を行う。ここで、ユーザが発する音声情報には、個人によって傾向が異なり、ある程度の音声パターンがある。そこで、音声認識部３０３は、予めそのユーザの音声特徴情報を取得しておき、予め記憶された音声特徴情報と、入力される解析対象の音声情報を比較することで、より精度の高い音声認識処理を行うことができるものである。

議事録情報生成部３０４は、音声が入力されたマイク２０２に対応するユーザ情報を、対応情報制御部３０２を介して検出し、ユーザ情報と、音声情報が音声認識部３０３によってテキスト変換されたテキスト情報とを対応づけた議事録情報を生成する。議事録情報記憶部３０５は、議事録情報生成部３０４に生成された議事録情報を記憶する。

次に、本発明による議事録情報生成システムの動作例を説明する。
図２は、本実施形態による議事録情報生成システム１０の動作例を示すフローチャートである。
各ユーザは、会議端末２００が設置された会議室に集合し、予め自身のユーザ情報が記憶されたＩＣカード１００を、ＩＣカードリーダ２０１のスロットに挿入する。議事録情報生成システム１０は、音響モデル設定処理を開始する（ステップＳ１０）。ここで、音響モデル設定処理とは、解析対象の音声、音素がそれぞれどのような周波数特性を持っているか等を予め定める処理である。一般的には、音響モデルは、混合正規分布を出力確率とした隠れマルコフモデルなどによって表される。

図３は、音響モデル設定処理を詳細に示すフローチャートである。会議端末２００のＩＣカードリーダ２０１は、ＩＣカード１００のユーザ情報記憶部１０１に記憶されたユーザ情報から、音声プロファイルを読み出す（ステップＳ１１）。また、ＩＣカードリーダ２０１は、ＩＣカード１００のユーザ情報記憶部１０１に記憶されたユーザ情報から、氏名情報を読み出す（ステップＳ１２）。そして、会議端末２００は、ＩＣカードリーダ２０１が読み出したユーザ情報を、議事録生成サーバ３００に送信する（ステップＳ１３）。議事録生成サーバ３００は、受信する音声プロファイルと、氏名情報と、これらのユーザを送信してきた会議端末２００が備えるマイク２０２の識別情報とを対応付けて、対応情報記憶部３０１に記憶させる。

図２に戻り、議事録情報生成システム１０は、音声入力設定確認処理を行う（ステップＳ２０）。図４は、音声入力設定確認処理を詳細に示すフローチャートである。音声入力設定確認処理は、音声認識のために、議事録情報生成システム１０が予め行うキャリブレーションの処理である。例えば、会議端末２００は、ディスプレイを備えることとして、ユーザに、予め定められた文章を読み上げる音声入力を促すメッセージを表示する。

そして、ユーザが、マイク２０２に予め定められた音声を入力する（ステップＳ２１）。音声認識部３０３は、マイク２０２によって出力される音声情報の周波数や強弱等の音声特徴情報を解析し、マイク２０２に対応付けて対応情報記憶部３０１に記憶された対応情報に基づいて音声確認処理を行う（ステップＳ２２）。また、入力された文章に対応する単語を、予め記憶された単語辞書情報から検出する確認処理を行う（ステップＳ２３）。議事録情報生成システム１０は、このようにして行うステップＳ２２またはステップＳ２３の処理で、予め定められた異常を検知した場合は、以降の処理を行わないこととしても良いし、音響モデルの補正処理や、予め定められた単語辞書情報の補正処理などを行ってから、処理を継続することとしても良い。

そして、会議の主催者が、議事録情報生成システム１０に会議を開始する命令を入力すると、議事録情報生成システム１０は、音声情報の取得を開始する（ステップＳ３０）。また、ここで、議事録情報生成部３０４は、議事録情報を生成して、議事録情報生成部３０４に記憶させる。ここで、議事録情報には、例えば、会議開始時刻や会議場所等の情報を記憶させる。

マイク２０２に、音声が入力される（ステップＳ４０）と、会議端末２００は、マイク２０２が出力する音声情報を議事録生成サーバ３００に送信する。議事録生成サーバ３００は、会議端末２００から送信される音声情報を受信すると、音声認識部３０３が、受信する音声情報の音声分析を行う（ステップＳ５０）。

そして、音声認識部３０３は、対応情報制御部３０２を介して、入力された音声情報に対応するユーザ情報のうち、音声プロファイルを対応情報記憶部３０１から読み出し、読み出した音声プロファイルに基づいた音声情報の補正処理を行う（ステップＳ６０）。例えば、入力される音声情報の周波数特性から、ユーザの発声位置からマイク２０２までの距離を予測し、予測値に基づいて音声プロファイルの補正を行うようにしても良い。

音声認識部３０３は、音声情報から認識したそれぞれの単語について、予め記憶された単語辞書情報から最適な単語を検出する（ステップＳ７０）
そして、音声認識部３０３は、ステップＳ７０で検出された単語を結合し、テキスト情報を生成して、ユーザの氏名を示すテキスト情報ともに、議事録情報記憶部３０５に記憶された議事録情報に情報を追加して記憶させる（ステップＳ８０）。

議事録情報生成システム１０は、会議終了の命令が入力されるまで、ステップＳ４０からステップＳ８０までの処理を続ける。
議事録情報生成システム１０は、会議の主催者等から会議終了の指示情報が入力されると（ステップＳ９０：ＹＥＳ）、議事録情報記憶部３０５に記憶された議事録情報に、会議終了時間を記憶させ（ステップＳ１００）、議事録生成処理を終了する。

このように、本発明によれば、ユーザが、予め自身の氏名や音声プロファイルなどを記憶させたＩＣカード１００を用いることで、音声認識会議システムを利用して会議を行う際に、その都度、音声プロファイル情報や氏名などの情報入力を行わなくても、精度の高い音声認識による議事録情報を取得することができるものである。

さらに、複数ユーザの人数分のマイク２０２を設置し、それぞれを利用するユーザのユーザ情報とマイク２０２とを対応付けておくことで、複数ユーザが参加する会議でも、複数ユーザの発する音声が混じることを防ぐことができ、精度の高い音声認識を行うことができる。

このようにすれば、海外などの遠隔地から会議に参加するようなユーザでも、予め音声プロファイルを生成し、自身の氏名などの情報とともにユーザ情報としてＩＣカード１００に記憶させておき、会議参加時には、そのユーザ情報記憶部１０１に記憶された情報をシステムに読み込ませることで、自身のユーザ情報と音声プロファイルとを会議開始時に速やかに設定することが可能となる。

また、会議室の各個人の席に、マイクなどの音声入力装置と、音声プロファイル等のユーザ情報を読み取り可能な装置とを設置しておけば、複数のユーザの音声を識別し、同時に話した内容も、各個人の席ごとに認識できるため、認識エラーを削減することができる。また、会議端末が設置された会議室で行われる会議で、各ユーザの識別や音声の認識の精度を高め、会議をしながら会議議事録を生成し、議事録生成の時間を削減することができる。このように、信頼性の高い議事録生成システムを提供することができる。

また、上述のような音声認識処理は、隠れマルコフモデルなどによる複雑な計算処理が必要となることから、コンピュータへの処理負荷が高いことが一般的である。このため、リアルタイムでの音声認識処理は、処理が音声入力に追いつかない場合が考えられる。そこで、議事録生成サーバ３００は、マイク２０２から入力される音声情報を、そのまま記憶しておき、休憩時間や、会議終了後などに、音声認識部３０３が音声認識処理を行って、議事録情報生成部３０４が議事録情報を生成するようにしても良い。

また、近年では、ＩＣカード等を利用して組織内での会議室の利用予約などを行う会議予約システムが一般に利用されている。このようなＩＣカードによれば、会議室を予約する際にユーザから入力された会議場所、会議時間、会議参加ユーザなどの会議情報を参照することが可能である。そこで、議事録情報生成部３０４は、このようなＩＣカードから会議情報を読み込んで議事録情報記憶部３０５に追加して議事録情報を記憶させるようにしても良い。また、ＩＣカードリーダ２０１に挿入されたＩＣカード１００が記憶するユーザ情報を、実際に会議に出席したユーザであるとして会議出席者名簿を生成することも可能である。

また、ユーザの音声を取得する音声入力手段は、その周りの雑音をも取得してしまう。そこで、各個人の席に設ける音声入力手段とは別に、外部の雑音を主に取得するための音声入力手段を１台または複数台設置して、ユーザの音声を取得する音声入力手段が取得する音声から、外部の雑音を取得するための音声入力手段が取得する音声を差し引き、フィルタリングすることで、ユーザの音声をより正確に集音するようにしても良い。

なお、本実施形態では、複数のユーザがそれぞれ異なる会議端末２００を利用することとしたが、一台の会議端末２００を複数ユーザで利用した場合も、予め取得された音声プロファイルによるフィルタリングを行うことで、精度の高い音声認識が可能となる。
また、本実施形態では、対応情報記憶部、対応情報制御部、音声認識部などの機能部は、議事録生成サーバ３００が備えることとしたが、このような機能部は、会議端末２００が備えることとしても良い。本システムの管理者、実施者は、会議端末２００として用意するコンピュータ端末、ネットワーク、議事録生成サーバ３００としてのコンピュータ端末などの性能や特性、または本システムを利用する人数などによって、最適な端末構成を設計して良い。

また、本実施形態では、議事録生成サーバ３００の対応情報記憶部３０１には、ユーザ情報記憶部１０１に記憶されたユーザ情報を全て記憶することとしたが、例えば、識別情報としてのユーザ番号のみを記憶し、その他の情報はＩＣカード１００から都度読み出すようにしても良い。
また、本実施形態では、日本語による音声認識を前提として説明したが、英語、フランス語等による音声情報に対しても、同様の構成で同様の効果を得ることができる。

なお、本発明における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより議事録情報の生成を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

本発明の一実施形態による端末構成を示す図である。本発明の一実施形態による音声認識処理を示すフローチャートである。本発明の一実施形態による音響モデル設定処理を示すフローチャートである。本発明の一実施形態による音声入力設定確認処理を示すフローチャートである。

符号の説明

１０議事録情報生成システム
１００ＩＣカード
１０１ユーザ情報記憶部
２００会議端末
２０１ＩＣカードリーダ
２０２マイク
３００議事録生成サーバ
３０１対応情報記憶部
３０２対応情報制御部
３０３音声認識部
３０４議事録情報生成部
３０５議事録情報記憶部

Claims

音声情報をテキスト情報にテキスト変換する音声認識手段を用いて議事録情報を生成する議事録情報生成システムであって、
ユーザから入力される音声を音声情報に変換する音声入力手段と、
前記ユーザを識別する情報を含むユーザ情報を予め記憶するユーザ情報記憶手段と、
前記ユーザが利用する前記音声入力手段と、前記ユーザ情報記憶手段に記憶された前記ユーザのユーザ情報とを対応付けて記憶する対応情報記憶手段と、
前記対応情報記憶手段から、前記音声が入力された前記音声入力手段に対応する前記ユーザ情報を検出する対応情報検出手段と、
前記音声情報が入力された前記音声入力手段に対応するユーザ情報を前記対応情報検出手段によって検出し、検出した当該ユーザ情報と、当該音声情報が前記音声認識手段によってテキスト変換された情報であるテキスト情報とを対応づけた情報である議事録情報を生成する議事録情報生成手段と、
を備えることを特徴とする議事録情報生成システム。
前記ユーザ情報記憶手段は、可搬記憶媒体が有しており、
前記可搬記憶媒体がユーザによって接続されると、当該可搬記憶媒体に記憶されたユーザ情報を読み出すユーザ情報読出手段と、
前記ユーザ情報読出手段が読み出したユーザ情報と、前記音声入力手段とを対応付けた情報を、前記対応情報記憶手段に記憶させる対応情報制御手段と、
をさらに備えることを特徴とする請求項１に記載の議事録情報生成システム。
前記ユーザ情報記憶手段が記憶するユーザ情報は、当該ユーザ情報が示すユーザが発する音声の特徴を示す音声特徴情報を含み、
前記音声認識手段は、音声情報が入力された前記音声入力手段に対応付けられた前記音声特徴情報に基づいて前記音声情報をテキスト情報に変換する
ことを特徴とする請求項１または請求項２のいずれか１項に記載の議事録情報生成システム。
前記対応情報記憶手段は、複数の前記音声入力手段のうちいずれかの音声入力手段と、複数の前記ユーザ情報のうちいずれかのユーザ情報とを一対一で対応付ける情報を記憶する
ことを特徴とする請求項１から請求項３のうちいずれか１項に記載の議事録情報生成システム。
前記音声入力手段に入力される音声情報を記憶する音声情報記憶手段をさらに備え、
前記議事録情報生成手段は、前記音声情報記憶手段から読み出した音声情報に基づいて、前記議事録情報を生成する
ことを特徴とする請求項１から請求項４までのいずれか１項に記載の議事録情報生成システム。
会議参加ユーザ、会議場所、及び会議時間を示す情報である会議情報の入力を受け付ける会議情報入力手段をさらに備え、
前記議事録情報生成手段が生成する議事録情報に、前記会議情報を付加する
ことを特徴とする請求項１から請求項５までのいずれか１項に記載の議事録情報生成システム。
音声情報をテキスト情報にテキスト変換する音声認識手段を用いて議事録情報を生成する議事録情報生成方法であって、
ユーザ情報記憶手段が、前記ユーザを識別する情報を含むユーザ情報を予め記憶するステップと、
音声入力手段が、ユーザから入力される音声を音声情報に変換するステップと、
対応情報記憶手段が、前記ユーザが利用する前記音声入力手段と、前記ユーザ情報記憶手段に記憶された前記ユーザのユーザ情報とを対応付けて記憶するステップと、
対応情報検出手段が、前記対応情報記憶手段から、前記音声が入力された前記音声入力手段に対応する前記ユーザ情報を検出するステップと、
議事録情報生成手段が、前記音声情報が入力された前記音声入力手段に対応するユーザ情報を前記対応情報検出手段によって検出し、検出された当該ユーザ情報と、当該音声情報が前記音声認識手段によってテキスト変換された情報であるテキスト情報とを対応づけた情報である議事録情報を生成するステップと、
を備えることを特徴とする議事録情報生成方法。
ユーザから入力される音声を音声情報に変換する音声入力手段を備え、音声情報をテキスト情報にテキスト変換する音声認識手段を用いて議事録情報を生成する議事録情報生成装置としてのコンピュータに、
ユーザ情報記憶手段が、前記ユーザを識別する情報を含むユーザ情報を予め記憶するステップと、
対応情報記憶手段が、前記ユーザが利用する前記音声入力手段と、前記ユーザ情報記憶手段に記憶された前記ユーザのユーザ情報とを対応付けて記憶するステップと、
対応情報検出手段が、前記対応情報記憶手段から、前記音声が入力された前記音声入力手段に対応する前記ユーザ情報を検出するステップと、
議事録情報生成手段が、前記音声情報が入力された前記音声入力手段に対応するユーザ情報を前記対応情報検出手段によって検出し、検出された当該ユーザ情報と、当該音声情報が前記音声認識手段によってテキスト変換された情報であるテキスト情報とを対応づけた情報である議事録情報を生成するステップと、
を実行させるための議事録情報生成プログラム。