JP2007157152A

JP2007157152A - 受信者候補を識別する方法および装置

Info

Publication number: JP2007157152A
Application number: JP2006326591A
Authority: JP
Inventors: Miquel Martin; マルティンミケル; Kovacs Ernoe; コワーチュエルノー
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-12-05
Filing date: 2006-12-04
Publication date: 2007-06-21
Also published as: CN1983942A; KR100943870B1; DE102005058110B4; DE102005058110A1; KR100918599B1; US20070130368A1; KR20080093954A; KR20070058990A

Abstract

【課題】できるだけ使いやすくユーザフレンドリな形でメッセージの受信者候補を識別する方法を提供する。
【解決手段】メッセージはテキストメッセージを含み、また、メッセージは電子的形態である。メッセージの内容をテキスト解析し、テキスト解析の結果に基づいて、受信者リストから受信者候補または受信者候補グループを識別する。具体的には、解析したメッセージから特徴を抽出し、これら特徴を受信者候補の特徴と比較して組み合わせる。これにより分類を実行し、理想的には、解析したメッセージの受信者である確率が最も高い受信者を識別する。特徴の抽出および／または分類は、多数の解析アルゴリズムや分類アルゴリズムによって実行できる。
【選択図】図１

Description

本発明は、メッセージの受信者候補を識別する方法および装置に関する。ここでメッセージは基本的にテキストメッセージを含み、また、メッセージは電子的形態である。

書面のメッセージは、人間のコミュニケーションにとって一般的で重要なツールである。手紙、ファクス等の形態の印字されたメッセージの他に、電子的形態のメッセージの数が増加している。例えば電子メール（ｅメール）、ＳＭＳ（ショートメッセージサービス）、インスタントメッセージング、あるいはインターネットのフォーラムが挙げられる。それぞれのメッセージは、作成者によって作成され、１または複数の受信者へ送信される。送信のためには、受信者のそれぞれの正しい識別子が必要である。電子メールの場合には正しい電子メールアドレスを入力しなければならず、ＳＭＳの場合には対応する電話番号を入力しなければならない。

それぞれの識別子の入力を簡略化するため、電話帳やアドレス帳が一般に用いられる。ここで、識別子は、リスト、データベース等に一度登録される。保存されている情報を読み出す際には、要求されたエントリのみを電話帳／アドレス帳から選択する必要がある。電話帳／アドレス帳に多数のエントリがある場合、正しい受信者識別子の検索には時間がかかることがある。

このため、現在利用可能な電子メールプログラムの多くは、電子メールアドレスの自動補完機能を備えている。ユーザは、アドレスフィールドに電子メールアドレスの最初の数文字を入力すれば、入力した文字列で始まるアドレス候補がプログラムから示される。しかしこの場合、ユーザは、それぞれのアドレスをかなり正確に知っていなければならないという問題がある。

O. De Vel, A. Anderson, M. Corney, and G. Mohay "Mining Email Content for Author Identification Forensics" SIGMOD Record, Vol. 30, No. 4, pp. 55-64, December 2001. Paul Graham, "A Plan for Spam" http://www.paulgraham.com/spam.html, August 2002. Bryan Klimt, Yiming Yang, "Introducing the Enron Corpus", First Conference on Email and Anti-Spam (CEAS), Proceedings. July 2004. I. Rish, "An empirical study of the Naive Bayes classifier" 17th International Joint Conference on Artificial Intelligence, August 2001. R.B. Segal, J.O. Kephart "MailCat: An Intelligent Assistant for Organizing E-Mail" Proceedings of the National Conference on Artificial Intelligence, 1999.

電子メールアドレスの作られ方はさまざまなので、アドレスを正確に知っていることは困難となるであろう。また、ある特定の電子メールアドレスがユーザによって利用されるのが極めてまれな場合、ユーザはそのアドレスを覚えていないであろうから、この自動補完は実際には役に立たなくなる。さらに、このような自動補完では、表示されたエントリが期待したエントリに似ている場合には、ユーザが文字を見過ごしがちなので、誤りを生じやすい。急いでいる場合には、電子メールが意図せずに誤った受信者へ送信されてしまうことが起こり得る。

そこで、本発明は、上記のような方法において、１または複数の受信者を選択する際にできるだけ使いやすくユーザフレンドリで誤り検出を行う形で受信者候補を識別する方法を実現し、さらに改良するという課題を解決しようとするものである。

本発明によれば、上記の課題は請求項１に記載の特徴を備えた方法によって解決される。これによれば、本方法は、メッセージの内容をテキスト解析し、テキスト解析の結果に基づいて、受信者リストから受信者候補または受信者候補グループを識別することを特徴とする。

本発明により初めて認識されたこととして、各メッセージはそれぞれの受信者に応じてスタイルおよび件名が異なるため、受信者候補を識別する際にこの情報を考慮することができる。ビジネス通信文はどちらかといえばよりフォーマルなスタイルであることが多く、仕事固有の内容に言及しているであろう。また、取引先宛の通信文は、同僚へのメッセージよりもフォーマルであろう。このような相違は私生活でも生じる。

本発明により認識されたこととして、受信者候補を識別するためにこの情報を考慮することができる。このために、メッセージの内容をテキスト解析し、テキスト解析の結果を用いて１または複数の受信者候補を識別する。この目的のため、対応して、受信者または受信者グループを受信者リストから選択する。

本明細書において、受信者リストという用語は一般的用語として理解されなければならない。リストとは、個々の連絡先情報の一覧のみを意味することも可能であるが、電話帳、アドレス帳、アドレスデータベース、あるいはその他の連絡先識別子を保存する手段も含み得る。同様に、「アドレス」あるいは「識別子」という用語は、受信者を一意的に識別するのに適したいかなる可能性も意味し得る。これに含まれるものとして、例えば、電話番号、携帯電話番号、電子メールアドレス、インターネットフォーラムでの識別子、インスタントメッセージング識別子等が挙げられる。

有利な点として、メッセージの個々の特徴がテキスト解析により抽出される。本明細書において特徴とは、メッセージのさまざまな特性を意味し得る。例えば特定の単語の出現を検索することができる。例えば、メッセージが会議に関する意見を含む場合、このことは、ビジネス関係のメッセージであることを強く示唆する。また、かなりインフォーマルなスタイルが用いられている場合、同僚とのミーティングに関するものである可能性が高い。さらに、特定の挨拶あるいは結びの句を検索することも可能である。対応する受信者を特徴づけるその他の性質も同様に特徴として使用可能である。例えば、文の最大長や平均長をチェックしてもよい。

私生活では一般に、ビジネスの場合よりも短い文が作成される。また、例えば、最大または平均の単語長、メッセージの特定の構成、署名の使用、ワードラップの個数等の特徴も重要となり得る。

すべての特徴は、それぞれのメッセージ作成者に応じて変わり得る。各ユーザは、メッセージを書く際にある一定の慣習を満たすであろうが、それでもなお特定の個性を示すであろう。したがって、テキスト解析は、共通して用いられる特徴の他に、ユーザ固有の特徴も参照することができる。

次に、解析したメッセージから抽出したこれらの特徴を、受信者候補の特徴と比較して組み合わせることができる。これにより分類を実行し、理想的には、解析したメッセージの受信者である確率が最も高い受信者を識別できる。特徴の抽出および／または分類は、多数の解析アルゴリズムや分類アルゴリズムによって実行できる。好ましくは、機械学習アルゴリズムが適用される。例えば、本方法を限定するものではないが、ニューラルネットワーク、サポートベクターマシン、ＭＦＵ（Most Frequently Used：最大使用頻度）アルゴリズム、あるいはベイジアンクラシファイア（Bayesian classifier、後述する。）の使用が挙げられる（非特許文献１〜５参照）。利用可能な計算パワー、抽出すべき特徴の数、識別された受信者候補に要求される精度等の補助条件に応じて、対応する適当なアルゴリズムを選択することができる。また、動作状況によって切替可能な複数のアルゴリズムの適用も考えられる。

ベイジアンクラシファイアを用いる場合、計算可能性を向上させるためには、ナイーブベイジアンクラシファイアを使用するのが賢明である。古典的なベイジアンクラシファイアとは異なり、ナイーブベイジアンクラシファイアの場合には、個々の特徴が互いに依存しているとはみなされないため、ベイジアンクラシファイアの計算公式における条件付き確率がそれぞれの特徴のみに依存する個々の条件付き確率に分解する。この仮定は現実にはめったに成り立たないとしても、ナイーブベイジアンクラシファイアは実際には良好な結果を達成することが多い。これは、個々の特徴の相関があまり高くない場合である。また、メッセージに関して、個々のテキスト特徴は完全には互いに独立でない。しかし、特徴は十分に無相関であるので、ナイーブベイジアンクラシファイアの適用が正当化される。

すべての既知の解析および／または分類アルゴリズムは、メッセージおよび受信者の既に計算された、そして好ましくは検証された相互相関から得られる知識を参照することで共通している。好ましくは、この知識は学習によって生成される。このためには、ユーザによって書かれた個々のメッセージは、テキスト解析してユーザが手動選択した受信者とマッチングさせることによって学習に使用される。

良好な分類結果を達成するためには、学習は一般に比較的多数のメッセージを必要とするので、システムもまた、ユーザによって既に書かれたメッセージで学習し、これにより受信者リストからの１または複数の受信者との相関をとることができる。新たに書かれたメッセージを使用することで知識は連続的に増大するため、この知識に基づく解析および／または分類はより良好な結果を与え、ユーザの習慣の変化に適応する。

特に、受信者に対する通信挙動が変化し得ることに関して、古い知識よりも新しい知識のほうに、より多く重み付けすることができる。例えば、取引先との間で、より個人的な関係が形成される可能性があるが、それによりメッセージの構造はよりインフォーマルになる。この場合、ユーザの変化した挙動を重視することができる。受信者候補の識別に対し、新しい知識のほうがより強い影響を及ぼす。

知識を確立する際の手間をさらに低減するため、ほとんどすべてのメッセージ作成者で生じる諸特徴を基本知識に含めることができる。この基本知識は、事前学習として使用され、または稼働中のシステムに直接入力されることが可能である。

本発明による方法の最初の利用の効率をさらに向上させるため、ユーザが受信者リストに受信者を入力する際に、ユーザに対して、その受信者に関する詳細事項を提示するよう促すことができる。この詳細事項としては、例えば、それぞれの受信者のカテゴリ（取引先、同僚、プライベート、友人、家族等）が挙げられる。また、ユーザに対して、受信者リスト内の既存のエントリを同様に分類するよう要求してもよい。これにより、最初の選択がメッセージの簡単な解析により実行でき、多くの受信者を非常に早い段階で除外することができる。

こうして、最も確率の高いメッセージ受信者を識別することができる。他方、これらの受信者は、解析されたメッセージの受信者である確率が比較的低いと識別することも可能である。

このようにして識別された受信者をユーザに対して提案として表示することができる。提案される受信者は、その確率に従ってソートして表示することができる。確率の低い受信者はリストから除外してもよい。

これにより、メッセージの受信者を入力する際に、その入力の正しさをチェックできる。テキスト解析により、メッセージが実際に、指示された受信者宛である確率を算出できる。他方、ユーザにより指示された受信者を、識別された受信者と比較してもよい。これにより、正しい受信者が指示された確率を算出することもできる。いずれの場合でも、確率が低すぎる場合には、適当な方法でユーザに通知し、あるいは受信者をより確率の高い受信者と入れ替えることができる。

別の実施例として、識別された受信者を、受信者の連絡先データの自動補完のために用いることも可能である。ユーザがメッセージを書き終えて連絡先データを入力した後、そのメッセージの最も確率の高い受信者であって、ユーザにより指示された文字の組合せで始まるような受信者を提示することができる。これにより、自動補完による受信者入力により誤った受信者へメッセージを送信することが効率的に回避できる。

本発明の別の実施形態として、ユーザがメッセージを書き終えた後、すべての受信者候補を含む受信者グループをユーザに提示することができる。

ユーザは、テキストから抽出された特徴が受信者の特徴と一致しなければならない程度を示す閾値を設定できる。この閾値よりも高い一致に達したすべての受信者を、受信者グループの候補メンバーとして表示することができる。これにより、ユーザが当初忘れていた受信者を受信者グループに含めることが可能である。

本発明のその他の実施形態として、システムは、同じ話題についてのメッセージを一貫して受け取るユーザをモニタするだけで一組の個人を事実上のトピックグループであると結論することができる。この情報は、ユーザあるいは他のアプリケーションに対して利用可能とされ、たとえばより好ましくはワーキンググループに関する情報を用いるユーザアプリケーションに対して必要とされるような方法で採用することができる。

別の実施例として、本発明による方法は、多数のメッセージを管理しなければならないインターネットフォーラム等の環境において適用可能である。サーバに入って来るメッセージを、その内容に関して解析することができる。解析の結果に基づいて、類似のメッセージを読み出すことが多い受信者を識別できる。これにより、これらのメッセージは、これらのユーザにとって興味のあるものとしてマークできる。好ましい内容に関する知識を連続的に更新することも可能である。

すべての実施例において、識別された受信者から個々の識別子を意図的に削除する可能性をユーザに提供できる。インターネットフォーラム等の環境では、識別された受信者から固有の受信者識別子を削除することができる。このような削除により、解析および／または分類を実行するための知識を同時に更新することができる。

本発明を有利な態様で実施し改良するためのいくつかの選択肢がある。これに関しては、一方で請求項１に従属する請求項を参照し、他方で本発明の方法の好ましい実施例に関する以下の説明を図面とともに参照されたい。

好ましい実施例および図面の説明においては、一般的に本発明の好ましい実施形態および改良形態も説明される。

図１は、本発明による方法の実施態様を示す流れ図である。個々のプロセスは一般に、特徴の抽出および／または分類を実行するために適用されるアルゴリズムとは独立である。まずステップ１で、ユーザがメッセージを作成する。ステップ２でメッセージの内容を解析した後、ステップ３で、解析の結果を分類アルゴリズムに供給する。最後にステップ４で、ユーザへの提案を生成し、ユーザは、提案された受信者のうちの１受信者を選択し、あるいは、提案に含まれない受信者で置換する。解析されるメッセージとユーザとの間でこのようにしてとられた相関を用いて、分類に必要な知識を更新する。このため、ステップ５で、知識の更新を開始する。抽出された特徴と選択された受信者との間の関係を確定し、対応する受信者に関して収集された情報と組み合わせる。その後、ステップ６で、次のメッセージを待機する。

図２は、ベイジアンクラシファイアから導出可能なナイーブベイジアンクラシファイアについて、本発明による方法を使用する流れ図である。ベイジアンクラシファイアは、原理的に、条件付き確率を関連づけるベイズの定理に基づく。実施例では、メッセージＭ_iが受信者Ｒ_j宛である確率を計算することができる。この確率は、特徴Ｔ_a，Ｔ_b，Ｔ_c，...がメッセージＭ_i中に現れるために条件付きとなる。したがって、条件付き確率は次式により計算される。

Ｐ（Ｔ_a，Ｔ_b，Ｔ_c，...｜Ｍ_i⊂Ｒ_j）は、特徴Ｔ_a，Ｔ_b，Ｔ_c，...が受信者Ｒ_j宛のメッセージに含まれる確率を計算する。一般に、特徴Ｔ_a，Ｔ_b，Ｔ_c，...の間には依存関係がある。しかし、ナイーブベイジアンクラシファイアの場合には、個々の特徴がメッセージ中に互いに独立に生起し得ると仮定される。条件付き確率Ｐ（Ｔ_a，Ｔ_b，Ｔ_c，...｜Ｍ_i⊂Ｒ_j）は、個々の特徴に対する条件付き確率の積で置き換えることができる。上記式中の分母Ｐ（Ｔ_a，Ｔ_b，Ｔ_c，...）は受信者とは独立なので、この部分は、受信者Ｒ_jに対するメッセージＭ_iの関連性を決定する際には無視できる。したがって、計算しなければならないのは次の項である。

各因子は、受信者Ｒ_jへのメッセージＭ_i中に個々の特徴Ｔ_a，Ｔ_b，Ｔ_c，...が生起する確率である。

図２（Ａ）は、このナイーブベイジアンクラシファイアを適用する場合の、本発明による方法の実施態様を示している。ここでは、本方法の適用について、共通するプロセスを流れ図で示している。まず、ユーザがメッセージを生成する（ステップ７）。その後ステップ８で、解析アルゴリズムによりメッセージの特徴を抽出する。特徴Ｔ_a，Ｔ_b，Ｔ_c，...が選択できた場合には、それらの特徴の少なくともいくつかがメッセージ中に含まれている。

その後、個々の特徴の関連性に関して、受信者候補リストに保存されている個々の受信者を解析し、これに基づいて、受信者に対するメッセージの関連性を計算する。まずステップ９で、受信者リストに含まれる受信者でまだチェックしていないものが存在するかどうかをチェックする。存在する場合、ステップ１０においてその未チェック受信者から特徴の関連性に対するデータを取得し、ステップ１１でそれをナイーブベイジアンクラシファイア（分類部）に供給する。この後、ステップ９の処理に続く。受信者リストの全受信者を処理したらループを抜け、ステップ１２で、ユーザへの提案を生成する。この提案は、解析および分類に従って、受信者とみなすべき１または複数の受信者候補を示す。

最後に、すべての計算されたデータを用いて知識を拡充し、特徴と、相関づけられた受信者との組合せを既存の知識と組み合わせる（ステップ１３）。その後、次のメッセージを処理することができる（ステップ１４）。

図２（Ｂ）は、学習手続きを実行するための流れ図を示している。この手続きは、最初の知識の構築と、知識の更新のために適用可能である。ステップ１５でメッセージを受け取る。ステップ１６で、受信者リストがそのメッセージの受信者を既に含んでいてその受信者が既知であるかどうかをチェックする。受信者が未知である場合、新たなエントリを生成する（ステップ１７）。その後、いずれの場合でも（受信者が既知でも未知でも）、受信者へ送信されるメッセージに対するカウンタを増加させる（ステップ１８）。次に、メッセージに含まれる個々の特徴を処理し、受信者に関連性があるとして分類する。このために、まずステップ１９で、まだ未処理の特徴が存在するかどうかをチェックする。存在する場合、ステップ２０で未処理の特徴を受信者に追加してから、処理はステップ１９に続く。このようにしてすべての特徴を処理した後、ループを抜ける。そして、プログラムフローは終了し、次のメッセージを処理することができる（ステップ２１）。

一例として、ユーザが次のようなメッセージをタイプ入力したものとする："Dear John, I am attaching the requested reports for our quality control test next Monday. I'll meet you directly at the testing facilities. Best regards, Andrew" （ジョン、次の月曜に品質制御テストの要求されたレポートを添付するつもり。実験棟で直接会いましょう。アンドリューより）。この場合、テキスト解析は、"John"（ジョン）, "quality"（品質）, "control"（制御）および "meet"（会う）という単語を検索し、（分類処理を通して）想定しうる受信者として「John@foo.com」を提案する。ユーザ（Andrew）はジョン(John)と品質制御問題についていつも議論しているからである。同様に、メッセージの形式、"meet"（会う）という単語および平日である"Monday"（月曜）という記述から、アンドリューの上司あるいは彼の秘書を受信者候補として提案することができる。

図３は本発明による方法の実施態様を実現する情報処理装置のブロック図である。情報処理装置にはメッセージングツール１０１が設けられ、メッセージングツール１０１はメッセージテキストを入力部１０２を通して供給し、入力部１０２によってユーザはメッセージの入力、可能な受信者の選択あるいは置き換えなどを行うことができる。情報処理装置が受信者を予見するだけでなくユーザ入力に基づいて訂正あるいは示唆することも期待されているならば、メッセージングツール１０１は、ユーザによって送信される仮の受信者リストを提供してもよい。入力されたメッセージはテキスト解析部１０３へ転送され、テキスト解析部１０３は選択された受信者に関するメッセージ特徴の出願頻度を頻度テーブル１０４に格納する。分類は、分類部１０５により実行され、受信者候補リストが生成され、結果通知部１０６を通してメッセージツール１０１へ戻される。ユーザが受信者候補を選択あるいは置き換えることによって、頻度テーブル１０４は更新される。なお、ベイジアンクラシファイア以外のメカニズムを使用する場合には、メッセージシーケンスが異なりうるし、ブロックのいくつかは実装が異なり、除去され、或いは新たなブロックが追加されるであろう。

最後に、留意すべき特に重要な点であるが、上記実施例は全く任意に選択されたものであり、本発明による教示の実例としての役割を果たすに過ぎず、本発明を上記実施例に限定するものでは全くない。

本発明による方法の実施態様を示すフローチャートである。ナイーブベイジアンクラシファイアについて、（Ａ）は本発明による方法の実施態様の適用例を示すフローチャート、（Ｂ）はその学習を示すフローチャートである。本発明による方法の実施態様を実現する情報処理装置のブロック図である。

符号の説明

１０１入力部
１０２メッセージメモリ
１０３表示部
１０４制御部
１０５テキスト解析部
１０６分類部
１０７受信者リスト

Claims

メッセージの受信者候補を識別する方法において、前記メッセージは基本的にテキストメッセージを含み、また、前記メッセージは電子的形態であり、
前記メッセージの内容をテキスト解析し、該テキスト解析の結果に基づいて、受信者リストから受信者候補または受信者候補グループを識別することを特徴とする、メッセージの受信者候補を識別する方法。
前記メッセージの個々の特徴が前記テキスト解析により抽出されることを特徴とする請求項１に記載の方法。
抽出した特徴が前記受信者リストの受信者の特徴と比較され、分類が実行されることを特徴とする請求項１または２に記載の方法。
特徴の抽出および／または分類のために、ニューラルネットワーク、サポートベクターマシン、ＭＦＵ（最大使用頻度）アルゴリズム、またはベイジアンクラシファイアのような機械学習アルゴリズムが使用されることを特徴とする請求項１〜３のいずれか１項に記載の方法。
前記ベイジアンクラシファイアがナイーブベイジアンクラシファイアに簡略化されることを特徴とする請求項４に記載の方法。
１または複数の最も確率の高い受信者および／または１または複数の最も確率の低い受信者（複数可）が識別されることを特徴とする請求項１〜５のいずれか１項に記載の方法。
前記解析および／または分類のために、以前に計算し検証したメッセージと受信者との相関からの知識が使用されることを特徴とする請求項１〜６のいずれか１項に記載の方法。
前記知識が学習手続きによって構築されることを特徴とする請求項７に記載の方法。
前記知識が、メッセージの受信者の選択および／または入力および／または削除によって生成および／または更新されることを特徴とする請求項７または８に記載の方法。
新しい知識が、古い知識よりも高く重み付けされることにより、受信者候補の識別に対する影響がより高くなることを特徴とする請求項７〜９のいずれか１項に記載の方法。
前記受信者に関するさらに詳細なデータおよび／またはユーザによって設定されたプレファレンスが、受信者候補を識別するために使用されることを特徴とする請求項１〜１０のいずれか１項に記載の方法。
前記さらに詳細なデータが、前記受信者リスト内の受信者に関する情報を含むことを特徴とする請求項１１に記載の方法。
前記識別された受信者がユーザへの提案として示されることを特徴とする請求項１〜１２のいずれか１項に記載の方法。
前記識別された受信者の提案が、識別された確率に従ってソートされて示されることを特徴とする請求項１３に記載の方法。
前記識別された受信者が、受信者の連絡先データの自動補完のために使用されることを特徴とする請求項１〜１４のいずれか１項に記載の方法。
前記識別された受信者に基づいて、受信者グループが生成されることを特徴とする請求項１〜１５のいずれか１項に記載の方法。
前記受信者のグループは、グループ関連ツールでの使用のためにユーザ或いは他のアプリケーションで共有されることを特徴とする請求項１６に記載の方法。
ユーザによって示された受信者が前記識別された受信者と比較されることを特徴とする請求項１〜１７のいずれか１項に記載の方法。
前記ユーザによって示された受信者が識別された確率に従って訂正され、または、前記ユーザに対して適切な形で誤りが指摘されることを特徴とする請求項１８に記載の方法。
受信者リストからメッセージの受信者候補を識別する装置において、
前記メッセージの内容をテキスト解析する解析手段と、
該テキスト解析の結果に基づいて、前記受信者リストから受信者候補または受信者候補グループを識別する分類手段と、
を有することを特徴とする、メッセージの受信者候補を識別する装置。