JP6233798B2

JP6233798B2 - データを変換する装置及び方法

Info

Publication number: JP6233798B2
Application number: JP2013188335A
Authority: JP
Inventors: 太郎讃井; 久恵椎木; 服部　洋一; 洋一服部; 健輔橋本
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-09-11
Filing date: 2013-09-11
Publication date: 2017-11-22
Anticipated expiration: 2033-09-11
Also published as: US20150073789A1; US20160180850A1; US9324325B2; JP2015055979A; US9542946B2

Description

本発明は、データを変換する装置及び方法に関する。特に、本発明は、複数のユーザがデータ交換を行うシステムにおけるデータを変換する装置及び方法に関する。

近年、インターネット等の普及により、複数のユーザがデータ交換を行うシステムが見られるようになっている。例えば、電子会議システム、チャットシステム等である。

このようなシステムにおいては、あるユーザが入力したデータを変換することがある。例えば、電子会議システムにおいては、あるユーザが入力した音声をテキストデータに変換することがあり、チャットシステムにおいては、あるユーザが入力した第１の言語のテキストデータを第２の言語のテキストデータに変換することがある。このようなデータ交換を行うシステムにおけるデータを変換する技術は知られている（例えば、特許文献１〜３参照）。

特許文献１は、発話者の入力を解釈する文解釈手段と、複数の知識を参照し対応関係より解釈レベルを確定する解釈知識参照手段と、一般的な知識を持つ一般知識保持手段と、発話者固有の表現と対話履歴と一般知識との対応知識を持つ発話者固有知識保持手段と、聴き手に固有な表現と対話履歴と一般知識との対応知識を持つ聴き手固有知識保持手段と、解釈結果から聴き手への文を生成する文生成手段と、複数の知識を参照し対応関係より適切な表現を示唆する生成知識参照手段と、聴き手毎に固有知識を参照して発話者固有知識と対応付ける話者／聴き手間伝達手段と、発話を聴き手に提示し指示された固有表現の解釈を表示する解釈文表示手段とから構成される対話表現変換方式を開示する。

特許文献２は、第１〜第３ユニット内にそれぞれカメラ、マイクロフォン、操作盤、モニタ及びイヤホンを設けると共にコーデックを通じて入力される相手局の言語を所定の言語に自動的に翻訳して音声信号と成す自動翻訳装置を設けたテレビ会議システムを開示する。

特許文献３は、音声情報を入力して音声の翻訳処理を行う第１の情報処理手段と、この第１の情報処理手段の処理とは異なる処理としての例文翻訳処理を行う第２の情報処理手段と、この第２の情報処理手段の例文翻訳に用いる場面ごとの例文をドメイン情報として格納したドメイン情報格納手段と、第１の情報処理手段の処理の履歴としての第１の履歴を格納する第１の履歴格納手段と、この第１の履歴格納手段の格納した第１の履歴を基にして例文の適用される場面を選択する場面選択手段と、この場面選択手段によって選択された場面のドメイン情報を例文翻訳の候補として供給する特定ドメイン情報供給手段とを具備する情報処理システムを開示する。

また、複数のユーザがデータ交換を行うシステムにおけるものに限定されてはいないが、この他にも、機械翻訳等のデータを変換する技術は知られている（例えば、特許文献４参照）。

特許文献４は、与えられる第一言語の文章を第二言語の文章に翻訳する機械翻訳装置において、複数辞書に登録されている同一見出し語の翻訳規則のうち、どの辞書のどの規則が最も優先度が高いかを判定し適用規則を決定する翻訳規則制御部を設け、標準辞書中の翻訳規則には、登録語が他の辞書と重なった場合にはその規則を優先するか否かの情報を付して構成する機械翻訳装置を開示する。

更に、複数のユーザがデータ交換を行うシステムにおいて情報を共有する技術も知られている（例えば、特許文献５、６参照）。

特許文献５は、各通信端末の音声入力部、映像入力部から入力されたユーザの音声情報、映像情報から、ユーザの発言単語、視線方向等を検出した解析結果が通信回線を介して対話管理部へ入力され、対話管理部は、各通信端末からの解析結果から、各ユーザの話題、ユーザの視線等の対話状態を解析し各通信端末へ入力し、注目情報解析伝達部は、対話管理部からの解析結果と、現時点でのユーザの音声及び映像に関する解析結果から、各ユーザの注目情報を検出し、出力制御信号を生成し注目情報伝達音声生成部及び注目情報伝達映像生成部へ出力するマルチモーダルコミュニケーション支援装置を開示する。

特許文献６は、対話環境を実現するユーザ端末には、ユーザＡログ表示領域，ユーザＢログ表示領域，共通言語ログ表示領域，ユーザＡ使用言語入力欄及び共通言語入力欄が表示され、ユーザＡはユーザＡ使用言語入力欄又は共通言語入力欄に検索したい語句を入力し、入力した語句及びこれの訳語はユーザＡログ表示領域，ユーザＢログ表示領域及び共通言語ログ表示領域に表示され、ユーザＡログ表示領域，ユーザＢログ表示領域及び共通言語ログ表示領域の表示内容が全てのユーザ端末において同一となるように、ユーザインタフェースへの操作情報を送受信する情報処理装置を開示する。

特開平８−７７１７４号公報特開平５−１４８８４号公報特開２００３−２６３１９２号公報特開平６−９６１１４号公報特開２０００−１８４３４５号公報特開２００５−１８４５８３号公報

このように、複数のユーザがデータ交換を行うシステムでデータを変換する技術や、複数のユーザがデータ交換を行うシステムで情報を共有する技術は、既に知られていた。

しかしながら、特許文献１〜６の発明では、複数のユーザがデータ交換を行うシステムでデータを変換する際にこのシステムで共有される情報を参照することは行われていなかった。従って、特許文献１〜６の発明は、複数のユーザがデータ交換を行うシステムにおけるデータの変換の精度を向上させるものではなかった。

本発明の目的は、複数のユーザがデータ交換を行うシステムにおけるデータの変換の精度を向上させることにある。

かかる目的のもと、本発明は、複数のユーザがデータ交換を行うシステムにおけるデータを変換する装置であって、複数のユーザのうちの何れかのユーザが使用する端末装置から第１のデータを受信する受信部と、複数のデータの各データに対して各データの少なくとも１つの変換候補を定義した変換辞書を参照することにより、第１のデータの少なくとも１つの変換候補を特定する特定部と、特定部により複数の変換候補が特定された場合に、複数の変換候補から、複数のユーザがデータ交換のセッション内で共通に閲覧する共通画面における複数の変換候補の表示状況に基づいて、第１のデータを変換した後の第２のデータを選択する選択部と、複数のユーザのうちの少なくとも１人のユーザが使用する少なくとも１つの端末装置に第２のデータを送信する送信部とを含む、装置を提供する。

ここで、選択部は、複数の変換候補から、セッションが行われている際に共通画面に表示されていた変換候補を、第２のデータとして選択する、ものであってよい。その場合、選択部は、複数の変換候補から、第１のデータが受信部により受信された際に共通画面に表示されていた変換候補を、第２のデータとして選択する、ものであっても、複数の変換候補から、第１のデータが受信部により受信された際に共通画面のカーソルの周囲の予め定められた範囲内に表示されていた変換候補を、第２のデータとして選択する、ものであってもよい。

また、選択部は、複数の変換候補から、第１のデータが受信部により受信された際に共通画面に少なくとも一部が表示されていた文書に含まれる変換候補を、第２のデータとして選択する、ものであってよい。

また、本発明は、複数のユーザが電子会議を行うシステムにおける音声データをテキストデータに変換する装置であって、複数のユーザのうちの何れかのユーザが使用する端末装置から音声データを受信する受信部と、音声データに対応する音素データを取得する取得部と、複数の音素データの各音素データに対して各音素データの少なくとも１つの変換候補を定義した変換辞書を参照することにより、音素データの少なくとも１つの変換候補を特定する特定部と、特定部により複数の変換候補が特定された場合に、複数のユーザが電子会議のセッション内で共通に閲覧する共通画面に表示されていた複数の変換候補のうち、音声データが受信部により受信された際に共通画面のカーソルの周囲の予め定められた範囲内に表示されていた第１の変換候補に第１の得点を付与し、音声データが受信部により受信された際に共通画面の範囲外に表示されていた第２の変換候補に第１の得点よりも低い第２の得点を付与し、音声データが受信部により受信される前に共通画面に表示されていた第３の変換候補に第２の得点よりも低い第３の得点を付与する付与部と、複数の変換候補から、第１の得点、第２の得点及び第３の得点に基づいて、第１の変換候補、第２の変換候補及び第３の変換候補の何れかを、テキストデータとして選択する選択部と、複数のユーザのうちの少なくとも１人のユーザが使用する少なくとも１つの端末装置にテキストデータを送信する送信部とを含む、装置も提供する。

更に、本発明は、複数のユーザがデータ交換を行うシステムにおけるデータを変換する方法であって、複数のユーザのうちの何れかのユーザが使用する端末装置から第１のデータを受信するステップと、複数のデータの各データに対して各データの少なくとも１つの変換候補を定義した変換辞書を参照することにより、第１のデータの少なくとも１つの変換候補を特定するステップと、特定するステップで複数の変換候補が特定された場合に、複数の変換候補から、複数のユーザがデータ交換のセッション内で共通に閲覧する共通画面における複数の変換候補の表示状況に基づいて、第１のデータを変換した後の第２のデータを選択するステップと、複数のユーザのうちの少なくとも１人のユーザが使用する少なくとも１つの端末装置に第２のデータを送信するステップとを含む、方法も提供する。

更にまた、本発明は、複数のユーザがデータ交換を行うシステムにおけるデータを変換する装置として、コンピュータを機能させるプログラムであって、コンピュータを、複数のユーザのうちの何れかのユーザが使用する端末装置から第１のデータを受信する受信部と、複数のデータの各データに対して各データの少なくとも１つの変換候補を定義した変換辞書を参照することにより、第１のデータの少なくとも１つの変換候補を特定する特定部と、特定部により複数の変換候補が特定された場合に、複数の変換候補から、複数のユーザがデータ交換のセッション内で共通に閲覧する共通画面における複数の変換候補の表示状況に基づいて、第１のデータを変換した後の第２のデータを選択する選択部と、複数のユーザのうちの少なくとも１人のユーザが使用する少なくとも１つの端末装置に第２のデータを送信する送信部として機能させる、プログラムも提供する。

本発明によれば、複数のユーザがデータ交換を行うシステムにおけるデータの変換の精度を向上させることができる。

本発明の実施の形態における電子会議システムの全体構成例を示した図である。本発明の実施の形態における電子会議システムがクライアントに表示する電子会議画面の一例を示した図である。本発明の実施の形態における電子会議システムの機能構成例を示したブロック図である。本発明の実施の形態における電子会議システムの選択候補抽出部の動作例を示したフローチャートである。本発明の実施の形態における電子会議システムの選択候補抽出部の動作例を示したフローチャートである。本発明の実施の形態において共有画面表示領域の共有画面に表示された共有資料の一例を示した図である。本発明の実施の形態において選択候補抽出部が出力する点数及び文字列のリストの一例を示した図である。本発明の実施の形態を適用可能なコンピュータのハードウェア構成例を示した図である。

以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。尚、本実施の形態は、電子会議システム、チャットシステム等、複数のユーザがデータ交換を行う如何なるシステムでも実現可能であるが、以下では、本実施の形態を電子会議システムで実現した場合について説明する。

企業のグローバル化の進行により、海外のメンバーを含む複数のメンバーが１つのプロジェクトに参画して遠隔地で作業を行うことが多くなっている。このように遠隔地で作業を行う際には、プロジェクトマネジメントにおけるコミュニケーションが問題となる。即ち、業務報告や技術トランスファー等を行うための縦のつながりや横のつながりが如何に潤滑であるかがプロジェクトの成功を左右する。コミュニケーションの計画において、プロジェクト全体の効率化やコスト削減のために、フェイストゥフェイスのコミュニケーションの機会は極めて限定せざるを得ない。そして、それを補う手段として、電話やインターネットを使用した電子会議システムが重要な役割を担う。

しかしながら、電子会議システムには、電子会議の参加者（以下、「会議参加者」という）が発言内容を共有する際に会議参加者の音声に頼らざるを得ないという問題がある。例えば、声の質、マイクや通信回線の質が悪いために、音声を聞き取り難く、何度も問い直すという状況が発生することがある。また、海外のメンバーが会議に参加している場合に、他の会議参加者が自身の母国語以外の言語での会話のスピードについていけず聞き取りが難しくなることもある。従って、プロジェクトマネジメントの観点ではコミュニケーション手段として設定した電子会議が逆にメンバーのストレスを増大させ、プロジェクト遂行上のマイナスリスクになってしまう可能性がある。

そこで、本実施の形態では、電子会議システムを使用した会議において、音声からテキストデータへの変換の精度を向上させるために、電子会議システムの共有画面で複数の会議参加者が共有している単語を抽出し、音声からテキストデータへの変換で活用する。これにより、会議参加者全員の音声による発言内容をリアルタイムに字幕のようにテキストで表示し記録することを可能とする。

［本実施の形態における電子会議システムの全体構成］
図１は、本実施の形態における電子会議システム１の全体構成例を示した図である。図示するように、電子会議システム１は、クライアント１０ａ，１０ｂ，１０ｃと、サーバ２０とが、ネットワーク８０を介して接続されている。

クライアント１０ａ，１０ｂ，１０ｃは、会議参加者が電子会議を行う際に情報を入力したり表示したりするために用いるコンピュータである。ここで、電子会議を行う際に入力する情報とは、各会議参加者の発言の音声等である。また、電子会議を行う際に表示する情報とは、各会議参加者に閲覧させる情報を表示する画面等である。この画面は、全ての会議参加者に閲覧させる同じ情報を表示するという意味で、全ての会議参加者が共有する画面と言えるので、以下では「共有画面」と称する。つまり、各会議参加者は異なる地点から同じ共有画面を見ながら電子会議に参加する。尚、クライアント１０ａは会議参加者Ｕａが地点Ｌａで使用し、クライアント１０ｂは会議参加者Ｕｂが地点Ｌｂで使用し、クライアント１０ｃは会議参加者Ｕｃが地点Ｌｃで使用することを前提として、図では、３つのクライアント示しているが、４つ以上のクライアントを設けてもよい。また、以下で、クライアント１０ａ，１０ｂ，１０ｃを区別しない場合は、単に「クライアント１０」ということもある。本実施の形態では、端末装置の一例として、クライアント１０を設けている。また、会議参加者は、ユーザの一例であり、共有画面は、複数のユーザが電子会議のセッション内で共通に閲覧する共通画面の一例である。

サーバ２０は、電子会議を管理するコンピュータである。例えば、あるテーマで電子会議を行うとの呼び掛けに対し、会議参加者Ｕａ，Ｕｂ，Ｕｃがそれぞれクライアント１０ａ，１０ｂ，１０ｃから参加すると（ログインすると）、サーバ２０は、電子会議のセッションを生成し、セッションの識別情報、会議参加者Ｕａ，Ｕｂ，Ｕｃの識別情報、クライアント１０ａ，１０ｂ，１０ｃの識別情報等を管理する。そして、会議参加者Ｕａ，Ｕｂ，Ｕｃがクライアント１０ａ，１０ｂ，１０ｃから情報を入力した場合にその情報を他のクライアント１０へ送信し、また、共有画面もクライアント１０ａ，１０ｂ，１０ｃへ送信する。その後、会議参加者Ｕａ，Ｕｂ，Ｕｃが電子会議のセッションから脱退すると（ログアウトすると）、セッションを消滅させる。

ネットワーク８０は、電子会議を行うための情報の交換に用いる通信手段である。このネットワーク８０としては、インターネットやＬＡＮ（Local Area Network）が例示される。

本実施の形態では、クライアント１０が発言の音声を取得し、サーバ２０が、音声をテキストデータに変換して、このテキストデータを電子会議システム１が提供する発言表示領域（後述）に表示する。

図２は、電子会議システム１が各クライアント１０に表示する電子会議画面１００の一例を示した図である。図示するように、電子会議画面１００は、共有画面表示領域１０１と、参加者一覧表示領域１０２と、発言表示領域１０３とを含む。

共有画面表示領域１０１は、複数の会議参加者が共有する共有画面を表示する領域である。会議参加者Ｕａ，Ｕｂ，Ｕｃが電子会議に参加していれば、会議参加者Ｕａ，Ｕｂ，Ｕｃが共有する共有画面を表示する。共有画面表示領域１０１が表示する共有画面には、例えば、会議参加者Ｕａ，Ｕｂ，Ｕｃが共有する資料（以下、「共有資料」という）が表示される。

参加者一覧表示領域１０２は、会議参加者の一覧を表示する領域である。会議参加者Ｕａ，Ｕｂ，Ｕｃが電子会議に参加していれば、会議参加者Ｕａ，Ｕｂ，Ｕｃの識別情報（例えば名前）の一覧を表示する。

発言表示領域１０３は、会議参加者の発言のテキストデータを表示する領域である。会議参加者Ｕａ，Ｕｂ，Ｕｃが電子会議に参加していれば、会議参加者Ｕａの発言がクライアント１０ａで、会議参加者Ｕｂの発言がクライアント１０ｂで、会議参加者Ｕｃの発言がクライアント１０ｃでそれぞれ取得され、サーバ２０でその発言の音声がテキストデータに変換され、このテキストデータが発言表示領域１０３に表示される。尚、この発言表示領域１０３は、サーバ２０が音声をテキストデータに変換して表示する本実施の形態において、電子会議画面１００に新たに追加されたものである。

［本実施の形態の概要］
ところで、本実施の形態では、発言表示領域１０３にテキストデータを表示する際に、サーバ２０が以下の処理を行う。即ち、音声認識の結果をテキストデータに変換する際の解析をスピーディにかつ高精度で実行するために、音声をテキストデータに変換する際に、既存の変換辞書に記憶された単語に加え、共有画面に表示された単語を優先的にピックアップする。

例えば、詳しくは後述するが、以下の優先順位で、音声認識した結果である単語の読みとのマッチングを実施させる単語を用いる。即ち、第１の優先順位で、会議参加者が共有画面上の共有資料においてポインタで指し示している位置の近傍の単語を用いる。第２の優先順位で、現在の共有画面上の単語を用いる。第３の優先順位で、現在表示されている共有資料の最初から現在の共有画面に表示されている部分の前までに出現した単語を用いる。第４の優先順位で、現在表示されている共有資料全体に含まれる単語を用いる。第５の優先順位で、音声をテキストデータに変換する際に参照される変換辞書に含まれる単語を用いる。尚、ここでは、音声をテキストデータに変換する際に共有画面からピックアップする単位を単語としたが、複数の単語からなる句等としてもよい。

また、音声を変換して得られたテキストデータは発言履歴として保持可能とする。更に、このテキストデータをクリップボードへコピーすることも可能とする。これにより、本実施の形態は、議事録を作成する際の補助としても利用することができるようになる。

［本実施の形態における電子会議システムの機能構成］
図３は、本実施の形態における電子会議システム１の機能構成例を示したブロック図である。図１では、クライアント１０ａ，１０ｂ，１０ｃを示したが、ここでは、これらをクライアント１０で代表させている。即ち、電子会議システム１は、クライアント１０と、サーバ２０とを含む。そして、クライアント１０は、マイクロフォン１１と、発言表示部１２と、共有画面表示部１３とを備える。また、サーバ２０は、音声データ取得部２１と、音声認識部２２と、変換辞書２３と、変換候補抽出部２４と、共有画面管理部２５と、共有資料記憶部２６と、共有履歴記憶部２７と、選択候補抽出部２８と、発言文字列決定部２９とを備える。

まず、クライアント１０の機能構成について説明する。

マイクロフォン１１は、音を電気信号に変換する機器であり、ここでは、会議参加者の発言の音声を、電気信号である音声データに変換する。

発言表示部１２は、サーバ２０の発言文字列決定部２９から送られた発言文字列を、電子会議画面１００の発言表示領域１０３に表示する。また、発言表示部１２は、発言文字列をテキストデータとして記録するようにしてもよい。

共有画面表示部１３は、サーバ２０の共有画面管理部２５から送られた共有画面を、電子会議画面１００の共有画面表示領域１０１に表示する。ここで、サーバ２０の共有画面管理部２５から送られた共有画面が共有資料を含む場合、共有画面表示部１３は、共有画面上に共有資料を表示する。

次に、サーバ２０の機能構成について説明する。

音声データ取得部２１は、全てのクライアント１０のマイクロフォン１１から音声データを受信し、音声データを受信した時刻を発言時刻として記録する。そして、音声データは音声認識部２２に送り、発言時刻は選択候補抽出部２８に送る。尚、音声データ取得部２１は、サーバ２０ではなく、クライアント１０に設けてもよい。本実施の形態では、音声データを受信する受信部の一例として、音声データ取得部２１を設けている。

音声認識部２２は、音声データ取得部２１から送られた音声データから、音素（認識対象とする言語の子音及び母音）を認識する。そして、認識した一連の音素を変換候補抽出部２４に送る。本実施の形態では、音声データに対応する音素データを取得する取得部の一例として、音声認識部２２を設けている。

変換辞書２３は、種々の単語に対して、その文字列表記と、読み方（音素表記）とが対応付けて登録されたデータベースである。

変換候補抽出部２４は、音声認識部２２から送られた音素に対応付けられた全ての単語、つまり、音素と読み方が一致する全ての単語の文字列表記を、変換辞書２３から抽出する。例えば、音素が「/kousei/」であるとすると、「構成」、「公正」、「校正」、「後世」、「攻勢」、「厚生」、「更生」、「恒星」、「鋼製」等を抽出する。そして、抽出された全ての文字列を、選択候補の文字列として発言文字列決定部２９に送る。本実施の形態では、少なくとも１つの変換候補を特定する特定部の一例として、変換候補抽出部２４を設けている。

共有画面管理部２５は、複数の会議参加者が１つ以上の共有画面を閲覧できるようにする。共有画面には、例えば、電子会議で使用する共有資料を表示する。その場合、共有画面管理部２５は、共有資料記憶部２６から共有資料を取り出し、クライアント１０の共有画面表示部１３へ送信する。また、共有画面には、各会議参加者のクライアント１０の画面や、各会議参加者がカメラで撮影した映像等を表示することも可能である。更に、共有画面管理部２５は、ポインタ（マウスやタッチパネルで画面上の特定の位置を指す印）も共有できるようにする。そして、共有画面管理部２５は、各時刻において共有画面に表示されていた共有資料のページ及びポインタの位置の情報を共有履歴記憶部２７に記憶する。

共有資料記憶部２６は、会議参加者がサーバ２０に事前にアップロードしておいた電子会議で使用する共有資料を記憶する。具体的には、共有資料の資料ＩＤに紐付けて共有資料を記憶する。

共有履歴記憶部２７は、電子会議中に共有画面に表示されていた共有資料の資料ＩＤ及びページ番号と、電子会議中に共有画面に表示されていたポインタの位置とを、時刻と共に記録した共有履歴を記憶する。即ち、時刻をキーとしてこの共有履歴を検索することにより、その時刻に共有されていた資料の資料ＩＤ及びページ番号と、ポインタの位置とを取得できるようになっている。

選択候補抽出部２８は、共有履歴記憶部２７に記憶された共有履歴（現在表示されている共有資料の資料ＩＤ及びページ番号、過去に表示した共有資料の資料ＩＤ及びページ番号、現在表示されているポインタの位置）と、共有資料記憶部２６に記憶された共有資料とに基づいて、発言時刻に話題になっている可能性のある文字列を抽出する。そして、各文字列に点数を与える。この点数は、話題になっている可能性が高い文字列ほど高くなるようにする。また、点数を与えられた全ての文字列を、変換候補から選択する選択候補の文字列として発言文字列決定部２９に送る。本実施の形態では、変換候補に得点を付与する付与部の一例として、選択候補抽出部２８を設けている。

発言文字列決定部２９は、変換候補抽出部２４から送られた変換候補の文字列と、選択候補抽出部２８から送られた選択候補の文字列とを比較する。一致する文字列が見つかれば、その文字列を、発言された文字列（以下、「発言文字列」という）に決定する。一致する文字列が複数見つかれば、選択候補の文字列に与えられた点数が高いものを、発言文字列に決定する。一致する文字列がなければ、辞書や統計的手法等を用いた既存の音声認識技術によって、発言文字列を決定する。そして、発言文字列を全てのクライアント１０の発言表示領域１０３に送る。本実施の形態では、テキストデータを選択する選択部の一例として、また、テキストデータを送信する送信部の一例として、発言文字列決定部２９を設けている。

［本実施の形態における電子会議システム１の動作］
まず、会議参加者が発言を行うと、クライアント１０では、マイクロフォン１１がその発言の音声を拾い、音声データをサーバ２０に送信する。尚、このとき、クライアント１０からサーバ２０へは、その発言を行った会議参加者の識別情報も送信される。

これにより、サーバ２０では、音声データ取得部２１が、音声データを受信すると共に、音声データを受信した時刻を発言時刻として記録する。そして、音声データを音声認識部２２に送り、発言時刻を選択候補抽出部２８に送る。

ここで、音声データ取得部２１から音声データを送られた音声認識部２２は、音声データから音素を認識し、その音素を変換候補抽出部２４に送る。

すると、変換候補抽出部２４は、音声認識部２２から送られた音素に対応付けられた全ての単語の文字列表記を変換辞書２３から抽出し、これを変換候補の文字列として発言文字列決定部２９に送る。

一方、音声データ取得部２１から発言時刻を送られた選択候補抽出部２８は、発言時刻に話題になっている可能性のある文字列を抽出し、これを選択候補の文字列として発言文字列決定部２９に送る。以下、このときの選択候補抽出部２８の動作について詳細に説明する。

図４及び図５は、選択候補抽出部２８の動作例を示したフローチャートである。

図４を参照すると、まず、選択候補抽出部２８は、音声データ取得部２１から発言時刻を受け取る（ステップ２０１）。

次に、選択候補抽出部２８は、共有履歴記憶部２７に記憶された共有履歴から、発言時刻に共有画面表示領域１０１に表示されていた共有資料のページについて資料ＩＤ（ＩＤｃ）及びページ番号（ＰＧｃ）を取得し、発言時刻よりも前に共有画面表示領域１０１に表示されていた共有資料のページについて資料ＩＤ（ＩＤｐ）及びページ番号（ＰＧｐ）のリストを取得し、発言時刻におけるポインタの位置（ＰＳｃ）を取得する（ステップ２０２）。

すると、選択候補抽出部２８は、ステップ２０２で取得した資料ＩＤ（ＩＤｃ及びＩＤｐ）の共有資料を、共有資料記憶部２６から取り出す（ステップ２０３）。そして、ステップ２０３で取り出した全ての共有資料から、全ての文字列を抽出する（ステップ２０４）。

次いで、選択候補抽出部２８は、ステップ２０４で抽出した文字列のうち、１つの文字列に着目し（ステップ２０５）、その文字列に対して点数を付与する処理を行う。即ち、まず、選択候補抽出部２８は、その文字列を含む共有資料の資料ＩＤ（ＩＤｓ）、その文字列を含む共有資料のページのページ番号（ＰＧｓ）、その文字列のページ内の位置（ＰＳｓ）の１つの組み合わせを取得する（ステップ２０６）。次に、選択候補抽出部２８は、後述する点数決定処理により、その組み合わせを用いた場合の文字列の点数を決定する（ステップ２０７）。次いで、選択候補抽出部２８は、ＩＤｓ、ＰＧｓ、ＰＳｓの他の組み合わせが存在するかどうかを判定する（ステップ２０８）。そして、ＩＤｓ、ＰＧｓ、ＰＳｓの他の組み合わせが存在すると判定すれば、その組み合わせについてステップ２０６，２０７の処理を実行し、ＩＤｓ、ＰＧｓ、ＰＳｓの他の組み合わせが存在しないと判定すれば、その文字列についてこれまでにステップ２０７で決定した点数のうち最も高い点数をその文字列に付与する（ステップ２０９）。

その後、選択候補抽出部２８は、ステップ２０４で抽出した文字列のうち、未処理の文字列が存在するかどうかを判定する（ステップ２１０）。そして、未処理の文字列が存在すると判定すれば、その未処理の文字列についてステップ２０５〜２０９の処理を実行し、未処理の文字列が存在しないと判定すれば、点数が付与された文字列を選択候補の文字列として、その点数と共に発言文字列決定部２９に送る（ステップ２１１）。

ここで、ステップ２０７の点数決定処理について述べる。

図５を参照すると、選択候補抽出部２８は、まず、着目する文字列が発言時刻におけるポインタの近傍にあるかどうかを判定する。即ち、条件「ＩＤｓ＝ＩＤｃ、かつ、ＰＧｓ＝ＰＧｃ、かつ、Ｄ（ＰＳｓ，ＰＳｃ）＜Ｒ」が成立するかどうかを判定する（ステップ２２１）。ここで、Ｄ（Ｘ，Ｙ）は位置Ｘと位置Ｙとの間の距離を示し、Ｒは予め定めたポインタの近傍を判定するための円（以下、「近傍判定円」という）の半径を示す。尚、近傍判定円の半径Ｒは、ユーザにより設定可能としてもよい。このステップ２２１での判定の結果、着目する文字列が発言時刻におけるポインタの近傍にあると判定すれば、つまり、上記条件が成立すると判定すれば、選択候補抽出部２８は、点数をＰ１に決定する（ステップ２２２）。

一方、着目する文字列が発言時刻におけるポインタの近傍にないと判定すれば、選択候補抽出部２８は、着目する文字列が発言時刻に表示されていた共有資料のページに含まれるかどうかを判定する。即ち、条件「ＩＤｓ＝ＩＤｃ、かつ、ＰＧｓ＝ＰＧｃ」が成立するかどうかを判定する（ステップ２２３）。その結果、着目する文字列が発言時刻に表示されていた共有資料のページに含まれると判定すれば、つまり、上記条件が成立すると判定すれば、点数をＰ２に決定する（ステップ２２４）。

一方、着目する文字列が発言時刻に表示されていた共有資料のページに含まれないと判定すれば、選択候補抽出部２８は、着目する文字列が発言時刻よりも前に表示されていた共有資料のページに含まれるかどうかを判定する。即ち、条件「ＩＤｓ＝ＩＤｐ、かつ、ＰＧｓ＝ＰＧｐ」が成立するかどうかを判定する（ステップ２２５）。その結果、着目する文字列が発言時刻よりも前に表示されていた共有資料のページに含まれると判定すれば、つまり、上記条件が成立すると判定すれば、点数をＰ３に決定する（ステップ２２６）。

一方、着目する文字列が発言時刻よりも前に表示されていた共有資料のページに含まれないと判定すれば、選択候補抽出部２８は、点数をＰ４に決定する（ステップ２２７）。

ところで、この動作例では、ステップ２２２，２２４，２２６，２２７で決定する点数を、それぞれ、Ｐ１，Ｐ２，Ｐ３，Ｐ４としたが、発言時刻におけるポインタの近傍にある文字列、発言時刻に表示されていた共有資料のページに含まれる文字列、発言時刻よりも前に表示されていた共有資料のページに含まれる文字列の順に、発言された文字列である可能性が高いことを考慮すると、Ｐ１，Ｐ２，Ｐ３，Ｐ４の順に高い点数とするのが望ましい。例えば、Ｐ１，Ｐ２，Ｐ３，Ｐ４をそれぞれ４点、３点、２点、１点とすればよい。

さて、このように、変換候補抽出部２４が変換候補の文字列を発言文字列決定部２９に送り、選択候補抽出部２８が選択候補の文字列を発言文字列決定部２９に送ると、発言文字列決定部２９は、変換候補の文字列の中から、最も高い点数が付与された選択候補の文字列を選択する。そして、この選択された文字列を発言文字列として全ての会議参加者のクライアント１０に送信する。すると、クライアント１０では、発言表示部１２が、この発言文字列を発言表示領域１０３に表示する。尚、このとき、サーバ２０からクライアント１０へはその発言を行った会議参加者の識別情報も送信されるので、発言表示部１２は、発言文字列を、その発言を行った会議参加者の識別情報と共に表示する。

尚、この動作例では、ステップ２２１の条件が成立した場合に点数をＰ１とし、ステップ２２１の条件が成立せずにステップ２２３の条件が成立した場合に点数をＰ２とし、ステップ２２１の条件もステップ２２３の条件も成立せずにステップ２２５の条件が成立した場合に点数をＰ３としたが、この限りではない。例えば、ステップ２２１の条件が成立するかどうかを判定することなく、ステップ２２３の条件又はステップ２２５の条件が成立した場合に点数をＰ１としてもよい。即ち、着目する文字列が電子会議のセッションで表示された共有資料のページに含まれていることを最優先の条件として、選択候補の文字列を抽出するようにしてもよい。

また、この動作例では、ステップ２２１の条件が成立した場合に点数をＰ１とし、ステップ２２１の条件が成立せずにステップ２２３の条件が成立した場合に点数をＰ２としたが、この限りではない。例えば、ステップ２２１の条件が成立するかどうかを判定することなく、ステップ２２３の条件が成立した場合に点数をＰ１としてもよい。即ち、着目する文字列が発言時刻に表示されていた共有資料のページに含まれていることを最優先の条件として、選択候補の文字列を抽出するようにしてもよい。

更に、この動作例では、共有資料に含まれる文字列であっても、ステップ２２１の条件、ステップ２２３の条件、及び、ステップ２２５の条件の何れも成立しなければ点数をＰ４としたが、この限りではない。例えば、共有資料に含まれる文字列は、その共有資料の少なくとも一部についてステップ２２３の条件が成立すれば点数をＰ１としてもよい。即ち、着目する文字列が発言時刻に少なくとも一部が表示されていた共有資料に含まれていることを最優先の条件として、選択候補の文字列を抽出するようにしてもよい。

［本実施の形態における選択候補抽出部の動作の具体例］
図６は、共有画面表示領域１０１の共有画面に表示された共有資料の一例を示した図である。ここでは、発言時刻に、図示する共有資料のページが共有画面に表示されていたものとする。また、実際のページに描かれた図形ではないが、図には、ポインタ１２１も示されている。この場合、発言時刻と共に、この共有資料のページの内容と、ポインタ１２１の位置とを示す情報が、共有履歴記憶部２７に記憶される。

尚、図には、発言時刻に共有画面に表示されていた共有資料のページのみを示している。実際には、発言時刻よりも前に共有画面に表示されていた同じ共有資料の別のページ又は別の共有資料もあるが、図示を省略している。

また、図には、これも実際のページに描かれた図形ではないが、ポインタ１２１を中心とする近傍判定円１２２が示されている。そして、図のページは、音素「/kousei/」に対応する文字列として「構成」、「公正」、「厚生」を含むが、このうち「構成」のみが近傍判定円１２２の内側に存在している。

この状態で、まず、会議参加者が「こうせい」と発言する。すると、会議参加者のクライアント１０のマイクロフォン１１が音声を拾い、音声データを送信する。

これにより、サーバ２０では、音声データ取得部２１が、音声データを受信し、受信した時刻を発言時刻として記録する。

まず、変換候補を抽出する処理が行われる。即ち、音声データ取得部２１は、音声データを音声認識部２２に送る。すると、音声認識部２２は、音声データを音素として認識し、音素「/kousei/」を変換候補抽出部２４に送る。これにより、変換候補抽出部２４は変換辞書２３から音素「/kousei/」に対応する文字列を抽出する。例えば、「構成」、「公正」、「校正」、「後世」、「攻勢」、「厚生」、「更生」、「恒星」、「鋼製」等が抽出されるので変換候補抽出部２４は、これらを発言文字列の候補として発言文字列決定部２９に送る。

一方で、選択候補を抽出する処理が行われる。即ち、音声データ取得部２１は、発言時刻を選択候補抽出部２８に送る。すると、選択候補抽出部２８は、共有履歴記憶部２７に記憶された共有履歴から、発言時刻及びそれ以前に共有画面に表示された共有資料のページの内容と、発言時刻における共有画面上のポインタの位置とを取得する。そして、発言時刻及びそれ以前に共有画面に表示された共有資料のページの内容から、文字列を抽出し、各文字列に点数を付与する。その後、選択候補抽出部２８は、文字列を点数と共に発言文字列決定部２９に送る。

図７は、この場合に選択候補抽出部２８が発言文字列決定部２９に送る点数と文字列のリストの一例を示した図である。図では、図５に関して述べたのと同様に、発言時刻におけるポインタの近傍にある文字列に４点、発言時刻に表示されていた共有資料のページに含まれる文字列に３点、発言時刻よりも前に表示されていた共有資料のページに含まれる文字列に２点、発言時刻よりも前に表示されていた共有資料のページに含まれないが共有資料に含まれる文字列に１点を付与している。従って、音素「/kousei/」に対応する文字列である「構成」、「公正」、「厚生」のうち、近傍判定円１２２内にある「構成」にのみ４点が付与され、発言時刻に表示されていた共有資料のページ内にあるが近傍判定円１２２外にある「公正」、「厚生」には３点が付与されている。

これにより、発言文字列決定部２９は、選択候補の文字列と変換候補の文字列とを突き合わせる。突き合わせた結果、「公正」と「構成」と「厚生」とが見つかる。発言文字列決定部２９は、点数の高い「構成」を選択し、全てのクライアント１０の発言表示部１２に送る。

クライアント１０では、発言表示部１２が、送られてきた「構成」を発言表示領域１０３に表示する。

尚、上記の動作のうち、変換候補を抽出する処理と、選択候補を抽出する処理とは、並列に実行することが可能である。

以上述べたように、本実施の形態では、音声認識で得られる音素に対応する複数の変換候補から、複数のユーザが共有画面で共有する共有資料に出現する変換候補を優先的にピックアップすることにより、変換後のテキストデータを決定するようにした。これにより、複数のユーザが電子会議を行うシステムにおける音声のテキスト化の精度を向上させることができるようになった。

尚、本実施の形態では、電子会議システムに発明を適用したが、この限りではない。例えば、チャットシステムにも発明は適用可能である。電子会議システムでは、あるユーザが入力した音声データをテキストデータに変換する際に共有資料を参照することが考えられるが、チャットシステムでは、あるユーザが入力した第１の言語のテキストデータを第２の言語のテキストデータに変換する際に共有資料を参照することが考えられる。そして、これを更に一般化すると、複数のユーザがデータ交換を行うシステムにおいてデータを変換する際に共有資料を参照するものとして発明を捉えることができる。その場合は、音声データを第１のデータとし、テキストデータを第２のデータとするとよい。また、そのような一般化したシステムでは、音声認識部２２に相当する構成は設けずに、第１のデータを直接第２のデータに変換するようにしてもよい。

また、本実施の形態では、データを変換する際に共有資料を参照するものとしたが、これには限らない。例えば、ある時刻に共有資料以外の情報が共有画面に表示されていたとしても、その時刻と、その情報に含まれる文字列と、その時刻にポインタが表示されていた位置とを共有履歴として記録しておけば、データを変換する際にその情報を参照して変換候補から文字列を選択することは可能である。この場合、本実施の形態は、更に一般化して、共通画面における文字列の表示状況に基づいて変換候補から文字列を選択するものと捉えることもできる。

最後に、本実施の形態を適用するのに好適なコンピュータのハードウェア構成について説明する。

図８は、このようなコンピュータのハードウェア構成例を示した図である。図示するように、コンピュータは、演算手段であるＣＰＵ（Central Processing Unit）９０ａと、Ｍ／Ｂ（マザーボード）チップセット９０ｂを介してＣＰＵ９０ａに接続されたメインメモリ９０ｃと、同じくＭ／Ｂチップセット９０ｂを介してＣＰＵ９０ａに接続された表示機構９０ｄとを備える。また、Ｍ／Ｂチップセット９０ｂには、ブリッジ回路９０ｅを介して、ネットワークインターフェイス９０ｆと、磁気ディスク装置（ＨＤＤ）９０ｇと、音声機構９０ｈと、キーボード／マウス９０ｉと、フレキシブルディスクドライブ９０ｊとが接続されている。

尚、図８において、各構成要素は、バスを介して接続される。例えば、ＣＰＵ９０ａとＭ／Ｂチップセット９０ｂの間や、Ｍ／Ｂチップセット９０ｂとメインメモリ９０ｃの間は、ＣＰＵバスを介して接続される。また、Ｍ／Ｂチップセット９０ｂと表示機構９０ｄとの間は、ＡＧＰ（Accelerated Graphics Port）を介して接続されてもよいが、表示機構９０ｄがＰＣＩＥｘｐｒｅｓｓ対応のビデオカードを含む場合、Ｍ／Ｂチップセット９０ｂとこのビデオカードの間は、ＰＣＩＥｘｐｒｅｓｓ（ＰＣＩｅ）バスを介して接続される。また、ブリッジ回路９０ｅと接続する場合、ネットワークインターフェイス９０ｆについては、例えば、ＰＣＩＥｘｐｒｅｓｓを用いることができる。また、磁気ディスク装置９０ｇについては、例えば、シリアルＡＴＡ（AT Attachment）、パラレル転送のＡＴＡ、ＰＣＩ（Peripheral Components Interconnect）を用いることができる。更に、キーボード／マウス９０ｉ、及び、フレキシブルディスクドライブ９０ｊについては、ＵＳＢ（Universal Serial Bus）を用いることができる。

即ち、本発明は、全てハードウェアで実現してもよいし、全てソフトウェアで実現してもよい。また、ハードウェア及びソフトウェアの両方により実現することも可能である。また、本発明は、コンピュータ、データ処理システム、コンピュータプログラムとして実現することができる。このコンピュータプログラムは、コンピュータにより読取り可能な媒体に記憶され、提供され得る。ここで、媒体としては、電子的、磁気的、光学的、電磁的、赤外線又は半導体システム（装置又は機器）、或いは、伝搬媒体が考えられる。また、コンピュータにより読取り可能な媒体としては、半導体、ソリッドステート記憶装置、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、リジッド磁気ディスク、及び光ディスクが例示される。現時点における光ディスクの例には、コンパクトディスク−リードオンリーメモリ（ＣＤ−ＲＯＭ）、コンパクトディスク−リード／ライト（ＣＤ−Ｒ／Ｗ）及びＤＶＤが含まれる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態には限定されない。本発明の精神及び範囲から逸脱することなく様々に変更したり代替態様を採用したりすることが可能なことは、当業者に明らかである。

１…電子会議システム、１０…クライアント、１１…マイクロフォン、１２…発言表示部、１３…共有画面表示部、２０…サーバ、２１…音声データ取得部、２２…音声認識部、２３…変換辞書、２４…変換候補抽出部、２５…共有画面管理部、２６…共有資料記憶部、２７…共有履歴記憶部、２８…選択候補抽出部、２９…発言文字列決定部

Claims

複数のユーザがデータ交換を行うシステムにおけるデータを変換する装置であって、
前記複数のユーザのうちの何れかのユーザが使用する端末装置から第１のデータを受信する受信部と、
複数のデータの各データに対して当該各データの少なくとも１つの変換候補を定義した変換辞書を参照することにより、前記第１のデータの少なくとも１つの変換候補を特定する特定部と、
前記特定部により複数の変換候補が特定された場合に、当該複数の変換候補から、前記複数のユーザが前記データ交換のセッション内で共通に閲覧する共通画面における当該複数の変換候補の表示状況に基づいて、前記第１のデータを変換した後の第２のデータを選択する選択部と、
前記複数のユーザのうちの少なくとも１人のユーザが使用する少なくとも１つの端末装置に前記第２のデータを送信する送信部と
を含む、装置。
前記選択部は、前記複数の変換候補から、前記セッションが行われている際に前記共通画面に表示されていた変換候補を、前記第２のデータとして選択する、請求項１の装置。
前記選択部は、前記複数の変換候補から、前記第１のデータが前記受信部により受信された際に前記共通画面に表示されていた変換候補を、前記第２のデータとして選択する、請求項２の装置。
前記選択部は、前記複数の変換候補から、前記第１のデータが前記受信部により受信された際に前記共通画面のカーソルの周囲の予め定められた範囲内に表示されていた変換候補を、前記第２のデータとして選択する、請求項２の装置。
前記選択部は、前記複数の変換候補から、前記第１のデータが前記受信部により受信された際に前記共通画面に少なくとも一部が表示されていた文書に含まれる変換候補を、前記第２のデータとして選択する、請求項１の装置。
複数のユーザが電子会議を行うシステムにおける音声データをテキストデータに変換する装置であって、
前記複数のユーザのうちの何れかのユーザが使用する端末装置から前記音声データを受信する受信部と、
前記音声データに対応する音素データを取得する取得部と、
複数の音素データの各音素データに対して当該各音素データの少なくとも１つの変換候補を定義した変換辞書を参照することにより、前記音素データの少なくとも１つの変換候補を特定する特定部と、
前記特定部により複数の変換候補が特定された場合に、前記複数のユーザが前記電子会議のセッション内で共通に閲覧する共通画面に表示されていた当該複数の変換候補のうち、
前記音声データが前記受信部により受信された際に前記共通画面のカーソルの周囲の予め定められた範囲内に表示されていた第１の変換候補に第１の得点を付与し、
前記音声データが前記受信部により受信された際に前記共通画面の前記範囲外に表示されていた第２の変換候補に当該第１の得点よりも低い第２の得点を付与し、
前記音声データが前記受信部により受信される前に前記共通画面に表示されていた第３の変換候補に当該第２の得点よりも低い第３の得点を付与する付与部と、
前記複数の変換候補から、前記第１の得点、前記第２の得点及び前記第３の得点に基づいて、前記第１の変換候補、前記第２の変換候補及び前記第３の変換候補の何れかを、前記テキストデータとして選択する選択部と、
前記複数のユーザのうちの少なくとも１人のユーザが使用する少なくとも１つの端末装置に前記テキストデータを送信する送信部と
を含む、装置。
複数のユーザがデータ交換を行うシステムにおけるデータを変換する方法であって、
前記複数のユーザのうちの何れかのユーザが使用する端末装置から第１のデータを受信するステップと、
複数のデータの各データに対して当該各データの少なくとも１つの変換候補を定義した変換辞書を参照することにより、前記第１のデータの少なくとも１つの変換候補を特定するステップと、
前記特定するステップで複数の変換候補が特定された場合に、当該複数の変換候補から、前記複数のユーザが前記データ交換のセッション内で共通に閲覧する共通画面における当該複数の変換候補の表示状況に基づいて、前記第１のデータを変換した後の第２のデータを選択するステップと、
前記複数のユーザのうちの少なくとも１人のユーザが使用する少なくとも１つの端末装置に前記第２のデータを送信するステップと
を含む、方法。
複数のユーザがデータ交換を行うシステムにおけるデータを変換する装置として、コンピュータを機能させるプログラムであって、
前記コンピュータを、
前記複数のユーザのうちの何れかのユーザが使用する端末装置から第１のデータを受信する受信部と、
複数のデータの各データに対して当該各データの少なくとも１つの変換候補を定義した変換辞書を参照することにより、前記第１のデータの少なくとも１つの変換候補を特定する特定部と、
前記特定部により複数の変換候補が特定された場合に、当該複数の変換候補から、前記複数のユーザが前記データ交換のセッション内で共通に閲覧する共通画面における当該複数の変換候補の表示状況に基づいて、前記第１のデータを変換した後の第２のデータを選択する選択部と、
前記複数のユーザのうちの少なくとも１人のユーザが使用する少なくとも１つの端末装置に前記第２のデータを送信する送信部と
して機能させる、プログラム。