JP2007334429A

JP2007334429A - キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体

Info

Publication number: JP2007334429A
Application number: JP2006162462A
Authority: JP
Inventors: Tetsuo Amakasu; 哲郎甘粕; Katsutoshi Ofu; 克年大附; Yoshiaki Noda; 喜昭野田; Satoshi Takahashi; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-06-12
Filing date: 2006-06-12
Publication date: 2007-12-27
Anticipated expiration: 2026-06-12
Also published as: JP4724051B2

Abstract

【課題】複雑な計算を要しない簡便な方法によって、話題に対応した適切なキーワードの組み合わせを検出するキーワード生成方法や話題範囲推定方法、及びこれらの装置の提供。
【解決手段】キーワード検出処理部１０３は、入力される文字列からキーワードを検出して、そのキーワードとそのキーワードをカウントし、そのキーワードとカウント値をキーワード履歴記憶部１０５に記憶する。そして、カウント値とそのキーワードを入力として、話題区間推定処理部１０６がキーワード個々に対応した互いに異なる複数の検索語とそれらの検索語を含む文書とを対応付けた検索用データベースから、連続する検索語を含む話題区間を検索し、上記キーワードを含む最も長く連続するキーワードと対応した検索語を含む文書が検索できるキーワードの範囲を、話題区間の範囲として出力する。
【選択図】図１

Description

この発明は、例えばコールセンターにおけるオペレータとユーザとの会話中の最新の話題や一般の文書中の話題区間の推定に利用され、音声情報若しくはテキスト情報の中から話題範囲を推定する方法、話題の境界を推定する方法、話題範囲内のキーワードを生成する方法、生成したキーワードを含む文書を検索する方法、及びこれらの装置、そのプログラムを記録する記録媒体に関する。

従来、文書中の話題区間を推定する方法としては、例えば形態素解析を利用した方法が知られている。形態素解析とは、文書テキストを、意味を持つ最小単位の列である形態素に分割して品詞を見分けるものである。図１１に特許文献１に示された形態素解析を利用した話題区間推定方法の原理構成図を示す。形態素解析手段１０で文書テキストが単語に分割され、その分割された単語間の意味の類似の度合いを表す単語ベクトルが記憶された概念ベース３０から、単語ベクトル取得手段２０が単語ベクトルを読み出す。そして、最小コスト分割取得手段４０が複数の単語間の並びの最適値を選んで文章化し、最適分割取得手段５０がその文章を話題区間に分割するものである。話題区間を推定することで、文書テキスト全体の構造が分析でき、例えば要約文を自動的に生成するなどの応用が考えられる。また、音声認識技術と組み合わせることで、例えば顧客応対業務を行うコールセンターの業務支援装置への応用も考えられる。
特開２００４−２３４５１２号公報（図２）

しかしながら、この方法は常にテキスト全体を走査して話題区間に分割するもので、非常に計算コストがかかるものである。また、キーワードの抽出も可能であるが、その方法は、話題区間に分割した後に、その区間からキーワードを抽出するものであって、手順を要するものである。また、技術の対象とする範囲が例えば手入力された文書であり、顧客応対中の音声認識結果である未完全な文書や、音声認識に特有の誤認識の問題で単語の一部に誤りを含む様な場合について考慮されていない。たとえば、コールセンター等における顧客対応業務への応用を考えた場合、上記したような非常に計算コストが掛かり、また不完全な文書への対応が考慮されていない話題区間推定方法は向いていない。

顧客応対の初期段階においては、顧客が問い合わせて来る問題について、顧客自身が的確に説明できす曖昧さが残る説明になることが多い。よって、オペレータは、顧客から説明を受けると、用件の復唱や用件の状況を噛み砕いて確認する質問を返す問題把握応対を通して、徐々に回答すべき問題を突き止めて行くことになる。

問題把握応対の段階においては、その問題についての凡そのカテゴリが判明しても、最終的な回答までには更なる問題の詳細な切り分けが必要である。そのために、応対の進行に伴って、選択すべき回答文書の候補は徐々に変化する。例えば、「プリンターから印刷が出来ない」という質問があった場合でも、プリンターからエラーが出ているのか、パソコンの画面メッセージにエラーが出ているのかで回答の内容は大きく異なる。したがって、応答用文書の検索には、オペレータの質問の度に、つまり応答発声のたび毎に直前までの応対話題のカテゴリの推測や、文書候補の絞り込みの見直しをする必要がある。

オペレータの負担を最小限にするためには、自動検索結果となる応答用文書リストは的確に絞り込まれている必要がある。そのため、キーワードを元に検索をする場合には、そのキーワードの組み合わせは、適切に設定される必要がある。組み合わせたキーワードの中に話題と関係のないキーワードが含まれれば目的となる文書は検索結果に含まれない。また、組み合わせたキーワードが少ないと、検索結果に目的の文書が含まれていても、他の余分な検索結果も含むので、オペレータは多くの余分な文書の中から目的の文書を探すことになり、オペレータの負担が大きくなってしまう。

このように音声や電子メールによる応対の、一発話程度の短い期間に話題が変わるような即時性が求められるケース、或いは講演中の一部の音声や文書が表す話題を抽出する場合には、複雑な計算を要しない簡便な方法によって、話題に対応した適切なキーワードの組み合わせを検出するキーワード生成装置や、そのキーワードに対応した話題区間を推定する話題区間推定装置や、適切な応答用文書が提供できる文書検索装置が求められる。

この発明はこのような点に鑑みてなされたものであり、複雑な計算を要しないで、入力された文字列中の話題区間を見つける方法、話題区間の境界を推定する方法、さらには、話題に対応するキーワードの組み合わせを見つけ、所定のデータベースからキーワードに対応した文書を検索する方法、とこれらの装置、及びそのプログラムと記録媒体を提供することを目的とする。

この発明のキーワード生成装置は、キーワード検出処理部が入力される文字列からキーワードを検出して、そのキーワードとそのキーワードの出現順番をカウントし、キーワード履歴記憶部で記憶する。そして、そのキーワードの内、あるキーワードの出現順番又はそのキーワードを入力として、話題区間推定部処理部がキーワードの個々をそれぞれ検索語とし、複数の文書ごとに、少なくともその文書に含まれる検索語が記憶された検索用データベースから、入力されたキーワードと一致する検索語を含む文書を検索し、文書が検索できる上記入力されたキーワードを含み出現順番上で隣接して最も長く連続するキーワードの組み合わせのキーワード履歴記憶部に保存された出現順番上の範囲を、話題区間の範囲として出力する。そして、キーワード生成部が話題区間推定処理部の出力する話題区間内に含まれるキーワードを出力する。

また、この発明の話題範囲推定装置は、上記した話題区間の範囲を出力する。また、この発明の話題境界推定装置は、上記した話題区間と隣接するキーワードとの間の文字列中の位置情報を話題境界情報として出力する。

また、この発明の文書検索装置は、文書検索部が上記したキーワード生成装置からキーワードを受け取り、これらキーワードを含むキーワードと関連する文書タイトル若しくは要約文を文書記憶装置から検索し、表示信号変換部は文書検索部が検索した結果を映像信号に変換し、その映像信号を表示部に表示する。そして文書検索部に接続される選択入力部から、表示部に表示された文書タイトル若しくは要約文を選択する選択情報が入力され、文書検索部がその選択入力に基づいて文書記憶装置から文書本体を読み出す。

この発明のキーワード生成装置及び話題範囲推定装置によれば、キーワード個々をそれぞれ検索語とし、それらの検索語を含む文書とを対応付けた検索用データベースから、話題区間推定処理部が、ある出現順番を起点として出現順番上で連続した範囲にあるキーワードを組み合わせ、それら組み合わせたキーワードに対応する検索語を含む文書数の数が０になるまで検索することで、同一の話題に対応する話題区間を推定する。つまり、連続する複数のキーワードを含む文書数が０に変化した時を話題の切り替わり点としている。このように、複雑な計算をすることなく、キーワードと文書内の検索語を照合するだけの簡単な処理で、話題区間を推定することが出来る。

また、この発明による文書検索装置によれば、適切な話題区間及び適切なキーワードを元に文書が検索できるので、適切な文書検索を行うことができる。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１にこの発明によるキーワード生成装置の実施例１の機能構成を示す。実施例１は、例えば入力される音声情報を音声認識した認識文字列からキーワードと話題範囲を検出する例を示す。音声信号が音声認識処理部１０１に入力される。音声認識処理部１０１は、発話毎に、入力音声信号を音声認識して認識文字列をキーワード検出処理部１０３に出力する。

キーワード検出処理部１０３は、キーワード検出手段１０３ａが発話毎の認識文字列から検索の際のキーとなる単語であるキーワードを検出して経過時間順に取り出す。例えば、検索の際のキーとして用いる単語の候補の文字列を格納したキーワード辞書を記憶装置であるキーワード辞書格納部１０４に予め記憶しておき、認識文字列中にキーワード辞書に格納されたキーワード候補の文字列と合致するものがある場合に、その文字列をキーワードとして検出する。または、キーワード辞書格納部１０４に換えて、例えば特開９−３３０３３１号公報に開示されている方法のように、形態素解析部１０３ｄによって、認識文字列を形態素解析し、名詞と固定された単語が連続する文字列の部分で、同一の文字列パターンが同一文書内に２回以上現れたものをキーワードとして検出してもよい。この処理は、単語を検出する処理だけであるので、従来技術で示した話題区間を推定する方法に比べて処理時間は短くて済む。

時間順に取り出されたそのキーワードは、キーワードカウント手段１０３ｂによって出現順にカウントされる。出現順にカウントされたキーワードは、そのカウント値と組でキーワード履歴記憶部への格納手段１０３ｃによって、キーワード履歴記憶部１０５に記憶される。カウント値は、キーワードの出現順番を表す。以降、実施例１では出現順番をカウント値として動作を説明する。

ここでは、キーワード検出処理部１０３において最も新しく検出されたキーワードのカウント値が、話題区間推定処理部１０６の検索開始番号保持手段１０６ａと話題区間カウント手段１０６ｃにセットされたとして説明する。すると、話題区間推定処理手段１０６ｂが、キーワード履歴記憶部１０５からカウント値と組で記憶されているキーワードを読み出して、そのキーワードを含む文書が幾つ在るかについて、検索用データベース１０７を検索する。

検索用データベース１０７には、例えば、個々のキーワードと同じ複数の検索語ＫＷ_＊（＊は、１，２，３などの複数の数字を意味する）が列方向に配列記憶され、各文書を表すインデックスｄ_１，ｄ_２，…，ｄ_６が最上位置で行方向に配列記憶され、インデックスｄ_＊ごとに対応する文書内に検索語ＫＷ_＊が含まれているか否かが記憶されている。例えば、検索語が含まれていれば、その検索語の行に“１”、含まれていなければ“０”が記憶されている。この様な検索用の転置行列については、例えば非特許文献「情報検索と言語処理」の２６頁に述べられている。

便宜上、カウント値をＫとして以降説明する。上記カウント値Ｋのキーワードと同一の検索語を含む文書が在れば、話題区間カウント手段１０６ｃが、カウント値Ｋを、例えば、Ｋ−１にダウンカウントする。すると、再び話題区間推定処理手段１０６ｂは、話題区間カウント手段１０６ｃのカウント値を参照して、Ｋ−１番目のキーワードをキーワード履歴記憶部１０５から読み出し、Ｋ番目とＫ−１番目のキーワードとそれぞれ同一の検索語を両方含む文書の数が幾つ在るかを、検索用データベース１０７に対して検索する。この動作を、Ｋ番目のキーワードからＫ−１番目、Ｋ−２番目と、キーワードの数を増やして、その連続するキーワードと同一の検索語の全てを含む文書の数が０になるまで繰り返す。話題区間カウント手段１０６ｃの値が、例えばＫ−４になり、この時に初めてＫ番目〜Ｋ−４番目のキーワードと同一の検索語を含む検索で文書数が０になった場合、出現順番ＫからＫ−３番目までの区間において、それらのキーワードに関連する一つの話題が話されていたと推定する。

文書数の検索は、例えば検索用データベース１０７内に蓄積する文書集合の情報を非特許文献「情報検索と言語処理」の４０頁に述べられている転置ファイルの形式で表現したものを用いてand検索をした結果数を数えることで、高速に知ることが可能である。以後、この検索語を含む文書の数を関数NumDoc(X)と記す。（X）には検索語の組み合わせが入る。

簡単な具体例を示して更に上記した動作を説明する。今、例えば、音声認識処理部１０１に、次のような音声のディジタル化された信号が入力されたと仮定する。「データベースにクエリー出来るのにー」「え、ええ」「ブラウザからインターネットに、えー」「え、はい」「接続出来ないのですね」
そのように仮定すると、上記した動作によって、キーワード履歴記憶部１０５に、（１，データベース）（２，クエリー）（３，ブラウザ）（４，インターネット）（５，接続）（６，出来ない）の順番でキーワードが記憶される。

各キーワードと同じ検索語ＫＷ_＊と、その検索語を含む文書情報とが、検索用データベース１０７に記憶されている。以降の説明において、説明の都合で認識文字列から検出したものをキーワード、検索用データベース１０７に記憶された語を検索語ＫＷ_＊と称するが、どちらも、同じ語である。

話題区間推定処理部１０６の検索開始番号保持手段１０６ａと話題区間カウント手段１０６ｃに最後に出現したキーワードである（６,出来ない）のカウント値Ｋ＝６がセットされたとする。話題区間推定処理手段１０６ｂは、話題区間カウント手段１０６ｃのカウント値の出現順番であるキーワードをキーワード履歴記憶部１０５から読み出し、そのキーワードと同じ検索語ＫＷ_６「出来ない」を含む文書の数の検索を検索用データベース１０７に対しておこなう。この例では、その検索に対してインデックスｄ_６の１個の文書のみが検索され、検索結果文書数として１が得られる。

実際の検索では、検索すべきキーワード（検索語）が少ない時には多数の文書数になり、検索語を増やして行くにしたがって、検索文書数は減少し、ついには検索文書数は０になるように動作する。説明を簡単にする目的で、この例では検索開始の最初から文書検索数は１個であるとして説明する。

文書数が０より大であると、話題区間カウント手段１０６ｃは、カウント値ＫをダウンカウントしてＫ＝５にセットする。話題区間推定処理手段１０６ｂは、話題区間カウント手段１０６ｃのカウントを参照して、今度は、カウント値Ｋ＝５番目のキーワード（５，接続）に対応した検索語ＫＷ_５「接続」を増やして、ＫＷ_５＝「接続」and「ＫＷ_６＝出来ない」、の条件のand検索を検索用データベース１０７に対して行う。この時も検索した結果の文書数は１である。この動作をキーワード履歴記憶部１０５に記憶された出現順番順のキーワードを徐々に増やしながら、それら全てのキーワードを含む文書数が０になるまで繰り返す。

この例の場合は、カウント値Ｋ＝３のキーワード（３,ブラウザ）までのand検索の結果の文書数は１個である。カウント値Ｋ＝２にすると、キーワード（２,クエリー）に対応した検索語ＫＷ_２＝「クエリー」を文書ｄ_６は含まないので、and検索（ＫＷ_２andＫＷ_３andＫＷ_４andＫＷ_５andＫＷ_６）の結果、文書数は初めて０になる。この結果から、出現番号３〜６の区間において、そのキーワードに関連する話題が話されていたと推定する。以上の動作で話題区間を推定できる原理を以下に説明する。
〔話題区間の推定原理〕
複数の検索語ＫＷ_＊をand条件で検索した結果の文書数が０になるということは、最後に加えた検索語ＫＷ_iを含む文書の集合と、それまでに加えた検索語（ＫＷ_ｉ＋１,…,ＫＷ_Ｋ）を全て含む文書の集合とに交わりが無いことになる。文書の集合が交わらないということは、それぞれが異なる話題を扱った文書集合と考えられる。すなわち、最後に追加した検索語を含めた検索語で文書を検索したキーワード出現箇所と、その直前までに追加した検索語を含めた検索語で文書を検索した範囲では、異なる話題を扱っていると推定することが出来る。したがって、複数の検索語ＫＷ_＊をand条件で含む文書数が０になる直前のキーワードの両端を求め、そのキーワードの在る範囲を話題区間とすることができる。

話題区間推定処理部１０６の動作を一般化して示した動作フローの一例を図２に示して更に動作を詳しく説明する。ステップ２０１に示す変数Ｎは、キーワード履歴記憶部１０５に記憶されたキーワード数である。話題区間推定処理部１０６が動作を開始すると、最初にキーワード履歴記憶部１０５にキーワード履歴が記憶されているか否か、がチェックされる（ステップ２０１）。キーワード履歴が記憶されていない場合は、Ｎ＝０となりステップ２０２において、話題区間の開始側キーワード変数i＝０、話題区間の終了側キーワード変数ｊ＝０、つまり話題区間がないとして動作を終了する。

今、検索開始番号保持手段１０６ａと話題区間カウント手段１０６ｃに、上記した説明と異なり、検索開始キーワード選定手段１０９によって、キーワード履歴記憶部１０５に記憶されたキーワードの中の、あるキーワードを特定するカウント値Ｋ＝４が保持されたとする。検索開始キーワード選定手段１０９からは、そのあるキーワードそのものを入力してもよい。その場合、話題区間推定処理部１０６は、そのキーワードの出現番号を、キーワード履歴記憶部１０５から入手する。すると、話題区間推定処理手段１０６ｂは、キーワード出現番号Ｋ＝４のキーワード（４,インターネット）に対応する検索語ＫＷ_４「インターネット」を含む文書が検索用データベース１０７内に在るかどうかを検索してその有無を判断する（ステップ２０３）。検索語ＫＷ_４「インターネット」を含む文書数は{ｄ_６}の１個であるので、ステップ２０４で話題区間カウント手段１０６ｃが、初期値の４を開始側キーワード変数ｉに代入する。ステップ２０３で検索語ＫＷ_４「インターネット」を含む文書数が０の場合は、ステップ２１４においてi＝４、ｊ＝４、この場合、話題区間は無いとして動作を終了する。この場合は話題区間の両端が、キーワード出現順番４番目にあることを意味する。

話題区間カウント手段１０６ｃのカウント値が、キーワードの出現順番であり、話題区間の開始側のカウント値をｉ、終了側のカウント値をｊとして以降の説明を行う。話題区間カウント手段１０６ｃのカウント値がダウンカウントされ（ステップ２０６）、ｉ＝３になると、ステップ２０５において、話題区間推定処理手段１０６ｂは検索用データベースに対して、出現順番３番目のキーワード（３，ブラウザ）に対応した検索語ＫＷ_３「ブラウザ」を増やして、NumDoc(Ｓ)、Ｓは（ＫＷ_３,ＫＷ_４）のand検索を行う。この結果、その２つの検索語を含む文書数は{ｄ_６}の１個であるので、文書数は１である。この動作は、検索結果の文書数が０（ステップ２０５）か、i＝０になるまで（ステップ２０７）繰り返される。ｉ＝２になると、出現順番２番目のキーワード（２，クエリー）に対応した検索語ＫＷ_２「クエリー」を増やして、NumDoc(Ｓ)、Ｓは（ＫＷ_２,ＫＷ_３,ＫＷ_４）のand検索を行う。「クエリー」と「ブラウザ」と「インターネット」の３個の検索語を全て含む文書はないので、検索結果の文書数は０となる。

話題区間の開始側のキーワードを探すand検索の検索結果文書数が０になると、今度は、話題区間の終了側のキーワードを探す目的で話題区間の終了側の検索語の位置を特定する変数ｊを、話題区間カウント手段１０６ｃにセットする（ステップ２０８）。先ほど、話題区間の開始側の検索語の位置を特定する変数ｉの初期値をｉ＝４としたので、ステップ２０８では話題区間の終了側の検索語の位置を特定する変数ｊの初期値を、話題終了側隣のキーワード出現順番となるj＝Ｋ＋１＝５としている。そして、話題区間の開始側の検索語の位置を特定する変数ｉに＋１してｉ＝３とし、話題区間の開始側のキーワード位置を確定させ（ステップ２０９）、話題区間の終了側の検索語の検索が開始される。

ｊ＝５は、キーワード履歴記憶部１０５に記憶されているキーワード数Ｎを超えていないので、ステップ２１０をスルーして話題区間の終了側のキーワード位置検索ループＬｅの動作が開始される。そして、ステップ２１１において話題区間開始側の検索結果を踏まえたand検索が行われる。and検索NumDoc（Ｅ）は、（ＫＷ_３,ＫＷ_４,ＫＷ_５）、つまり、開始側キーワード位置検索ループＬｓで検索した「ブラウザ」と「インターネット」に、出現順５番目の（５,接続）のキーワードに対応した検索語「接続」を加えたand検索を行う。この検索語を全て含む文書は{ｄ_６}だけであるので文書数は１である。そして、ステップ２１２において、話題区間終了側の検索語の位置を特定する変数ｊである話題区間カウント手段１０６ｃがカウントアップされる。そして終了側方向の検索語が増やされて、再びand検索が行われる。「ブラウザ」and「インターネット」and「接続」and「出来ない」が行われる（ステップ２１１）。この動作は、ｊがキーワード数Ｎより大になるまで、又は、検索結果文書数が０になるまで続けられる（ループＬｅ）。この例の場合、話題区間終了側の検索語の位置を特定する変数ｊ＝７となると、キーワード履歴記憶部１０５に記憶されているキーワードの数Ｎ＝６よりｊが大きくなるので、ステップ２１０で話題区間終了側キーワード位置検索ループＬｅを抜ける。Ｎが大きな数の場合は、ステップ２１１で検索結果文書数が０になると話題区間終了側キーワード位置検索ループＬｅを抜ける。そして終了側キーワード変数ｊをｊ−１として確定させ、ｉとｊ−１を話題区間として出力する（ステップ２１３）。この例の場合ｊ＝７−１で確定する。以上の動作により、話題区間の開始側キーワード変数i＝３、話題区間の終了側キーワード変数ｊ＝６となる。

このように話題区間を推定するキーワード位置を、キーワード履歴記憶部１０５に記憶された任意の、あるキーワードから始めることも可能である。こうして推定した話題区間の範囲（ｉ＝３,ｊ＝６）は、キーワード生成部１０８に出力される。キーワード生成部１０８は、話題区間推定処理部１０６から与えられた話題区間情報に基づいて、キーワード履歴記憶部１０５からその区間内のキーワードを読み出してキーワード列として出力する。

以上説明したキーワード生成装置のキーワード生成方法を整理する。図３にキーワード生成方法の動作フローを示して説明する。まず始めに、キーワード検出処理過程３００において、キーワード検出手段１０３ａが、入力される文字列からキーワードを検出し、キーワードカウント手段１０３ｂがそのキーワードの出現順にカウントする。キーワード履歴記憶過程３０１において、キーワード履歴記憶部への格納手段１０３ｃは、キーワードカウント手段１０３ｂがカウントしたカウント値Ｋと、キーワード検出手段１０３ａが検出したキーワードとを組としたキーワード履歴を、キーワード履歴記憶部１０５に記憶する。

話題区間推定処理部１０６は、キーワード個々をそれぞれ検索語とし、それら検索語を含む文書とを対応付けた検索用データベース１０７を検索する。検索は、話題区間推定処理過程３０２において、キーワード履歴記憶部１０５に出現順にカウントされた或るカウント値Ｋを起点として、話題区間カウント手段１０６ｃがカウント値Ｋをカウントしてキーワードを可変し、その全てのキーワードに対応する検索語を含む文書数が０になるまで行われる。つまり、カウント値Ｋのキーワードと隣接して連続するキーワードを全て含む文書が見つかる最も長い区間を話題区間の範囲として出力する。このように話題区間推定処理部１０６によって、与えられた認識文字列中の、指定したキーワードを含む同じ話題について言及している範囲を得ることが出来る。また、顧客応対中の一発話以上の間、同じ話題が続くとすると、その分多くのキーワードを用いて話題区間を推定することができる。つまり、精度の高い推定が行える。キーワード生成処理過程３０３において、キーワード生成部１０８の話題区間キーワード抽出手段１０８ａは、話題区間推定処理部１０６が出力する話題区間内の全てのキーワードを、キーワード履歴記憶部１０５から読み出してキーワード列を生成する。

なお、検索用データベース１０７を転置行列で示した例で説明したが、データベースの構造は、文書がどの検索語を含むかを示せるものであればどの様なものであっても構わない。また検索データベース１０７に保存される情報の内容は、文書が検索語を含まなくても、話題として関係があることを示すものであっても良い。また、検索はand検索に限られない。例えば、キーワードを含む複数の文書そのものを文書データベース１０７ａとして、そのデータベース内の文書全体を検索して文書数を求める古典的な検索方法を用いてもよい。

図４にこの発明の実施例２として話題範囲推定装置の機能構成例を示す。実施例２は話題区間推定処理部１０６の出力である話題区間の範囲を入力とし、外部に話題区間の範囲を出力する話題範囲出力部４００を備える点が実施例１と異なる。動作は、実施例１と同じであるので説明は省略する。

話題範囲推定方法を整理する。図５に話題範囲推定方法の動作フローを示して説明する。キーワード検出処理過程３００から話題区間推定処理過程３０２までの動作は、キーワード生成方法と全く同じである。話題区間推定処理過程３０２において、カウント値Ｋを、キーワード履歴の最後の出現順番にすると最新の話題範囲を得ることが出来る。また、上記したようにキーワード履歴記憶部１０５内に記憶された任意のあるキーワードを特定する出現順番をセットすると、その出現順番のキーワードを含む任意の部分の話題区間の範囲を得ることができる。そうして得た話題区間の範囲を入力として、話題範囲出力過程５００で話題区間の開始側キーワードの出現順番Ｋ_iと、終了側のキーワードの出現順番Ｋ_ｊを外部に出力する。

なお、図示しないが、話題区間の範囲の他に、次に示す実施例３に示すように認識文字列の全てを記憶して置き、話題区間のテキスト情報を一緒に出力するようにしても良い。
また、通話の音声情報を録音しておき、話題範囲内の音声情報を出力するようにしても良い。

話題範囲と話題範囲との間の話題境界を出力するようにしたこの発明の実施例３である話題境界推定装置を図６に示す。実施例３の基本的な構成は、実施例１と２と一緒である。異なる点は、話題区間の範囲の外側になる他の話題のキーワードとの間の話題境界を得るために、キーワード検出処理部１０３内に句点・文章区間検出手段１０３ｅが新たに設けられた点である。句点・文章区間検出手段１０３ｅは、キーワード検出手段１０３ａで検出されたキーワードの直前と直後の句点（。）の認識文字列中の位置情報を検出するものである。位置情報は、句点の他に、音声認識処理によって特定された各発話の区間の始端、終端の認識文字列中の位置を用いても良い。その句点位置情報は、検出されたキーワードと共にキーワード履歴記憶部１０５に記憶される。話題境界出力部４５０は、話題区間推定処理部１０６が出力する話題区間の範囲、例えば（Ｋ_i＝３, Ｋ_ｊ＝６）のＫ_i＝３に対応するキーワードである（３,ブラウザ,直前句点位置,直後句点位置）の直前の句点位置情報と、Ｋ_ｊ＝６に対応する（６,出来ない,直前句点位置,直後句点位置）の直後の句点位置情報を、キーワード履歴記憶部１０５から読み出して話題境界として出力する。

話題境界推定方法を整理する。図７に話題境界推定方法の動作フローを示して説明する。キーワード検出処理過程３００から話題区間推定処理過程３０２までの動作は、キーワード生成方法と全く同じである。話題区間推定処理過程３０２において、カウント値Ｋをキーワード履歴の最後の出現順番にすると最新の話題境界を得ることが出来る。また、上記したようにキーワード履歴記憶部１０５内に記憶された任意のあるキーワードを特定する出現順番をセットすると、その出現順番のキーワードを含む任意の部分の話題境界を得ることが出来る点も同じである。

なお、音声認識処理部１０１からキーワード検出処理部１０３に入力される認識文字列を、全ての文書テキスト記憶部４０１にキーワード出現順番と句点位置情報と共に記憶して置き、上記した話題境界に挟まれた文書テキストを文書テキスト記憶部４０１から読み出して、話題境界情報と共に出力するようにしてもよい。

また、図示しないが、句点・文章区間検出手段１０３ｅに換えて、キーワード検出処理部１０３に入力される認識文字列の全てについて付番する文字列カウント手段として、認識文字列中の個々のキーワードの位置を明らかにしても良い。

また、通話の音声認識した音声情報を録音しておき、話題境界に挟まれた音声の区間を示す時間情報や音声情報を出力するようにしてもよい。

実施例１に示したキーワード生成装置を用いて構成した応対用文書検索装置を実施例４として図８に示す。ネットワーク８０２に顧客電話端末８０１とコールセンター６００内にある電話送受信部８０３が接続されている。電話送受信部８０３で送受信される音声情報は、文書検索装置５５０を構成するキーワード生成部８０５に接続されている。キーワード生成部８０５は実施例１で説明したキーワード生成装置そのものであり、認識文字列中から検出したキーワードは、文書検索部８０７で受信される。文書検索部８０７は、キーワード生成部８０５が検出したキーワードと関連する文書タイトル若しくは要約文を、文書記憶装置８０８から検索して読み出す。文書記憶装置８０８は、オペレータと顧客との間で交わす話題に関する回答例などの、応対の参考文書（以降、応対文書と称する）を電子的に記憶した文書記憶装置８０８である。

文書記憶装置８０８から読み出されたキーワードと関連する文書タイトル若しくは要約は、表示信号変換部８１１で映像信号に変換され、表示部８０９で表示される。オペレータは、表示部８０９に表示された検索結果のタイトル及び要約文を見て、その中から読みたい文書を、文書検索部８０７に接続されたキーボード若しくはマウスである選択入力部８１０を操作して選択する。文書検索部８０７は、その選択入力に基づいて文書記憶装置８０８から選択された応対文書を読み出して表示信号変換部８１１に出力する。表示信号変換部８１１に出力された応対文書は表示部８０９に表示される。

文書検索装置５５０の動作フローを図９に示して説明する。入力待ち処理９０８で、キーワード生成部８０５及び選択入力部８１０から入力信号を待ち受けている。入力があると、どちらからの入力であるかが入力判断処理９００で判断される。キーワード生成部３０５からの入力の場合、検出されたキーワードはキーワード受信過程９０１で文書検索部８０７に受信される。

文書検索部８０７は受信したキーワードを含む文書タイトル若しくは要約文の検索を文書記憶装置８０８に対して行い、文書タイトル若しくは要約文を取得する。文書記憶装置から取得した文書タイトル若しくは要約文は、文書タイトル表示過程９０３によって表示部８０９に表示される。

この文書タイトル検索過程９０２では、受信したキーワードに基づいて改めて検索処理を行っても構わないが、キーワード生成部３０５で検索した文書インデックス８０８ａも同時に受信するようにしておけば、その文書インデックス８０８ａに基づいて検索処理が行えるので検索処理にかかる計算コストを低減することができる。つまり、キーワード生成部３０５で行った検索処理の結果を保存し再利用することで、キーワード生成部３０５から出力したキーワードの組み合わせについて、検索処理の実行を省くことができ、実行時の処理時間を低減できる。文書タイトル表示過程９０３を終了すると、入力待ち処理９０８で入力待ち状態となる。

表示部８０９に表示された文書タイトル若しくは要約文の中の一つをオペレータが選択入力部８１０によって選択する。（文書タイトル選択過程９０５）。選択された文書タイトル若しくは要約文に対する文書本体を文書記憶装置８０８から読み出す（文書取得過程９０６）。そして、読み出した文書本体を文書表示過程９０７によって表示部８０９に表示する。

図１０に文書タイトル表示過程９０３が実行された後の表示部８０９の表示例を示す。検索候補処理の結果である応対文書の内容をオペレータが把握するための文書タイトル若しくは要約文が表示される５０２。５０１には、文書タイトル若しくは要約文５０２を表示する根拠となったキーワードの組み合わせが表示されている。オペレータは、文書タイトル若しくは要約文５０２のリストから、読みたい文書の何れか一つを選択し、表示ボタン５０３を選択入力部３１０でクリックすることで、選択した結果を文書検索部３０７に通知する。

なお、文書タイトル表示過程９０３において、表示されたキーワードの中からより適切な組み合わせのキーワードをオペレータが入力し、そのキーワードの組み合わせを用いて再度検索表示を行っても良い。例えば、表示されている４個のキーワードの内、「プリンター」と「故障」と「電源」の３個をマウス等で選択し、その３個のキーワードの組み合わせで再度検索を行えるようにしてもよい。５０５は選択され、例えば反転表示されている状態を表している。キーワードを選んで再検索が行えるので、不必要なキーワードの混入を防いで高い精度で文書検索を行うことが可能である。更に、ある一つの発声の間に二つの話題が入るようなケースでも、結論部分にあると思われる発声の最後の話題区間に述べられている話題に相当するキーワードのみを選び、異なる話題のキーワードの混入を防ぎながら高い精度で文書検索を行うことが可能となる。さらに音声認識の途中で誤認識によって湧き出し、話題に関係のないキーワードが出現した場合には、上記したようにそのキーワードを含めずに検索用のキーワードを組み合わせることができるので、文書の検索結果が無い、または不適切な文書が検索されることを防ぐことが出来る。

また、表示部３０９に表示されている以外のキーワードを入力出来るウインド５０７を用意して置き、選択入力部３１０のキーボードからのフリーキーワードで検索出来るようにしても良い。このようにキーワードの入力・修正を容易にすることで、コールセンターの応対業務を効率化することが出来る。全体として、オペレータが現在応対している話題に関する文書を選択する際に、現在の話題に関してより適切なキーワードで自動的に検索実行・提示することで、大規模な文書を応答用文書として利用するコールセンターの応対業務を効率化することが出来る。

選択入力部３１０で選択された選択入力は、文書タイトル選択過程９０５で受信され、その選択情報に基づいて文書記憶装置３０８から応対文書を取得する（文書取得過程９０６）。その文書は、文書表示過程９０７で表示部３０９に表示されるので、オペレータはその文書を参考にして、顧客からの問い合わせに的確に答えることが出来る。
上記したように、キーワード生成部３０５が認識文字列中の最新キーワードを検出するようにしておくことで、常に応対の最新の話題に沿った話題を適切に選択して見ることが可能である。

以上述べて来た様に、この発明は、複数の検索語を含む文書数が０になる点を、キーワードの照合と言う極めて簡単な処理によって見つけて、話題範囲を推定するものである。したがって、即時性が求められ、一発話程度の短い期間に話題が変わるような場面に適した話題範囲推定装置やキーワード生成装置を実現することができる。
以上の各実施形態の他、本発明である各装置及び方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記各装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記各装置における処理機能をコンピュータによって実現する場合、言語モデル作成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記言語モデル作成装置における処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

この発明によるキーワード生成装置の実施例１の機能構成例を示す図。図１の話題区間推定処理部１０６の動作フローの一例を示す。キーワード生成方法の動作フローの一例を示す。この発明による話題範囲推定装置の実施例２の機能構成例を示す図。話題範囲推定方法の動作フローの一例を示す。この発明による話題境界推定装置の実施例３の機能構成例を示す図。話題境界推定方法の動作フローの一例を示す。この発明による文書検索装置の実施例４の機能構成例を示す図。図８の文書検索装置の動作フローを示す。図８に示す表示部３０９の表示例を示す図。特許文献１に示された形態素解析を利用した話題区間推定方法の原理構成を示す図。

Claims

入力される文字列からキーワードを検出し、そのキーワードとそのキーワードの出現順番をカウントするキーワード検出処理部と、
上記キーワード検出処理部の出力するキーワードと出現順番を記憶するキーワード履歴記憶部と、
上記キーワードの個々をそれぞれ検索語とし、複数の文書ごとに、少なくともその文書に含まれる検索語が記憶された検索用データベースと、
上記キーワードの内、あるキーワードの出現順番またはそのキーワードを入力として、あるキーワードの出現順番若しくはそのキーワードと対応する検索語を含む文書を検索し、文書が検索できる上記入力されたキーワードを含み出現順番上で隣接して最も長く連続するキーワードの組み合わせの上記キーワード履歴記憶部に保存された出現順番上の範囲を話題区間の範囲として出力する話題区間推定処理部と、
上記話題区間推定処理部が出力する話題区間内のキーワードを出力するキーワード生成部と、
を具備することを特徴とするキーワード生成装置。
請求項１に記載のキーワード生成装置において、
上記話題区間推定処理部に入力される上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とするキーワード生成装置。
請求項１及び２に記載したキーワード生成装置（以下、キーワード生成部と称す）と、上記キーワード生成部から上記キーワードを受け取り、これらキーワードを含むキーワードと関連する文書タイトル若しくは要約文を文書記憶装置から検索する文書検索部と、
上記文書検索部により検索された結果を映像信号に変換する表示信号変換部と、
上記表示信号変換部で変換された映像信号を表示する表示部と、
上記文書検索部に接続され、上記表示部に表示された上記文書タイトル若しくは要約文を選択する選択入力部と、
を具備し、上記選択入力部からの選択入力に基づき上記文書検索部は、上記文書検索装置から文書を読み出し、その文書データを上記表示信号変換部に出力するものであることを特徴とする文書検索装置。
請求項３に記載の文書検索装置において、
上記キーワード生成部は出力キーワードに対応した文書の文書インデックスを出力するものであり、上記文書検索部は、文書インデックスに対する文書タイトル若しくは要約文、及び文書本体を上記文書記憶装置から検索するものであることを特徴とする文書検索装置。
入力される文字列からキーワードを検出し、そのキーワードとそのキーワードの出現順番をカウントするキーワード検出処理部と、
上記キーワード検出処理部の出力するキーワードと出現順番を記憶するキーワード履歴記憶部と、
上記キーワードの個々をそれぞれ検索語とし、複数の文書ごとに、少なくともその文書に含まれる検索語が記憶された検索用データベースと、
上記キーワードの内、あるキーワードの出現順番又はそのキーワードを入力として、あるキーワードの出現順番若しくはそのキーワードと対応する検索語を含む文書を検索し、文書が検索できる上記入力されたキーワードを含み出現順番上で隣接して最も長く連続するキーワードの組み合わせの上記キーワード履歴記憶部に保存された出現順番上の範囲を話題区間の範囲として出力する話題区間推定処理部と、
上記話題区間推定処理部の上記話題区間の範囲出力を外部に出力する話題範囲出力部と、
を具備することを特徴とする話題範囲推定装置。
請求項５に記載の話題範囲推定装置において、
上記話題区間推定処理部に入力される上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とする話題範囲推定装置。
入力される文字列からキーワードを検出し、そのキーワードとそのキーワードの出現順番をカウントするキーワード検出処理部と、
上記キーワード検出処理部の出力するキーワードと出現順番を記憶するキーワード履歴記憶部と、
上記キーワードの個々をそれぞれ検索語とし、複数の文書ごとに、少なくともその文書に含まれる検索語が記憶された検索用データベースと、
上記キーワードの内、あるキーワードの出現順番又はそのキーワードを入力として、あるキーワードの出現順番若しくはそのキーワードと対応する検索語を含む文書を検索し、文書が検索できる上記入力されたキーワードを含み出現順番上で隣接して最も長く連続するキーワードの組み合わせの上記キーワード履歴記憶部に保存された出現順番上の範囲を話題区間の範囲として出力する話題区間推定処理部と、
上記話題区間推定処理部の出力する話題区間と、その話題区間の外側で隣接するキーワードとの間の上記文字列中の位置情報を話題境界情報として生成する話題境界生成部と、
を具備することを特徴とする話題境界推定装置。
請求項７に記載の話題境界推定装置において、
上記話題区間推定処理部に入力される上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とする話題境界推定装置。
キーワード検出手段が入力される文字列からキーワードを検出し、キーワードカウント手段がそのキーワードの出現順番をカウントするキーワード検出処理過程と、
キーワード履歴記憶部への格納手段が、上記キーワード検出処理部の出力する出現順番とキーワードとを、キーワード履歴記憶部に記憶するキーワード履歴記憶過程と、
話題区間推定処理手段が、上記キーワード個々に対応した互いに異なる複数の検索語と、
それらの検索語を含む文書とを対応付けた検索用データベースを照合し、上記キーワードの内、あるキーワードの出現順番又はそのキーワードと一致する検索語を含む文書を探し、キーワード履歴記憶部に記憶される上記そのキーワード又はあるキーワードを含み出現順番上で隣接して最も長く連続するキーワードの組み合わせの上記キーワード履歴記憶部に保存された出現順番上の範囲を話題区間の範囲として出力する話題区間推定処理過程と、
話題区間キーワード抽出手段が、上記話題区間推定処理部が出力する話題区間内のキーワードを生成するキーワード生成処理過程と、
を有するキーワード生成方法。
請求項９に記載のキーワード生成方法において、
上記話題区間推定処理過程における上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とするキーワード生成方法。
請求項９又は１０に記載したキーワード生成方法により生成されたキーワードを受信するキーワード受信過程と、
受信したキーワードに対応する検索語を含む文書タイトル若しくは要約文を文書記憶装置から検索する文書タイトル検索過程と、
上記検索された文書タイトル若しくは要約文を表示信号変換手段が映像信号に変換して表示部に表示する文書タイトル表示過程と、
上記表示信号変換手段が映像信号を文字表示する過程と、
上記表示部に表示された文書タイトル若しくは要約文の一つを選択する文書タイトル選択過程と、
上記選択された文書タイトル若しくは要約文の一つに対応する文書本体を上記文書記憶装置から読み出し、上記表示部に表示する文書表示過程と、
を有する文書検索方法。
キーワード検出手段が入力される文字列からキーワードを検出し、キーワードカウント手段がそのキーワードの出現順番をカウントするキーワード検出処理過程と、
キーワード履歴記憶部への格納手段が、上記キーワード検出処理部の出力する出現順番とキーワードとを、キーワード履歴記憶部に記憶するキーワード履歴記憶過程と、
話題区間推定処理手段が、上記キーワード個々に対応した互いに異なる複数の検索語と、
それらの検索語を含む文書とを対応付けた検索用データベースを照合し、上記キーワードの内、あるキーワードの出現順番又はそのキーワードと一致する検索語を含む文書を探し、キーワード履歴記憶部に記憶される上記そのキーワード又はあるキーワードを含み出現順番上で隣接して最も長く連続するキーワードの組み合わせの上記キーワード履歴記憶部に保存された出現順番上の範囲を話題区間の範囲として出力する話題区間推定処理過程と、
上記話題区間推定処理部の出力する話題区間の範囲を入力として話題区間の開始側の出現順番Ｋ_ｉと終了側の出現順番Ｋ_ｊを外部に出力する話題範囲出力過程と、
を有する話題範囲推定方法。
請求項１２に記載のキーワード生成方法において、
上記話題区間推定処理過程における上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とするキーワード生成方法。
キーワード検出手段が入力される文字列からキーワードを検出し、キーワードカウント手段がそのキーワードの出現順番をカウントするキーワード検出処理過程と、
キーワード履歴記憶部への格納手段が、上記キーワード検出処理部の出力するカウント値とキーワードとを、キーワード履歴記憶部に記憶するキーワード履歴記憶過程と、
話題区間推定処理手段が、上記キーワード個々に対応した互いに異なる複数の検索語と、
それらの検索語を含む文書とを対応付けた検索用データベースを照合し、上記キーワードの内、あるキーワードの出現順番又はそのキーワードと一致する検索語を含む文書を探し、キーワード履歴記憶部に記憶される上記あるキーワード又はそのキーワードを含み出現順番上で隣接して最も長く連続するキーワードの組み合わせの上記キーワード履歴記憶部に保存された出現順番上の範囲を話題区間の範囲として出力する話題区間推定処理過程と、
話題境界推定手段が、上記話題区間推定処理部の出力する話題区間と隣接するキーワードとの間の上記文字列中の位置を話題境界情報として生成する話題境界推定過程と、
を有する話題境界推定方法。
請求項１４に記載の話題境界推定方法において、
上記話題区間推定処理過程における上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とするキーワード生成方法。
請求項１乃至８に記載した各装置としてコンピュータを機能させるための装置プログラム。
請求項１６に記載した何れかのプログラムを記録したコンピュータで読み取り可能な記録媒体。