[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5127553B2 - 情報処理装置、情報処理方法、プログラム及び記録媒体 - Google Patents

情報処理装置、情報処理方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP5127553B2
JP5127553B2 JP2008120634A JP2008120634A JP5127553B2 JP 5127553 B2 JP5127553 B2 JP 5127553B2 JP 2008120634 A JP2008120634 A JP 2008120634A JP 2008120634 A JP2008120634 A JP 2008120634A JP 5127553 B2 JP5127553 B2 JP 5127553B2
Authority
JP
Japan
Prior art keywords
search
classification information
search result
classification
acquired
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008120634A
Other languages
English (en)
Other versions
JP2009271671A (ja
Inventor
徹郎 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2008120634A priority Critical patent/JP5127553B2/ja
Publication of JP2009271671A publication Critical patent/JP2009271671A/ja
Application granted granted Critical
Publication of JP5127553B2 publication Critical patent/JP5127553B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、情報処理方法、プログラム及び記録媒体に関し、さらに詳しく言えば、検索された文書の分類情報毎に文書件数を求める情報処理装置、情報処理方法、プログラム及び記憶媒体に関する。
従来から、検索機能を有する情報処理装置において、検索キーワードをもとに、データベースから文書を検索し、検索結果を表示する場合、文書をある視点から捉えた分類情報毎に文書件数を表示する手法が提案されている。
例えば、特開平07−319905(特許文献1)には、検索キーによって検索された検索結果を表示する情報検索装置に関し、検索キーに一致するデータを複数の観点から分類して統合した分類結果をもとに、複数の観点からの分類結果を同時に識別できるように表示し、検索結果の絞込みを有効に支援する技術が開示されている。
特開平07−319905号公報
しかし、特許文献1の技術では、検索結果を複数の観点から分類するとき、検索結果全てに対して分類を行なうため、検索結果が多ければ多いほど検索結果の分類に時間がかかってしまうため、分類情報の表示に時間がかかってしまうという問題点があった。
本発明は、上記問題に鑑みて、検索結果を分類する場合、検索結果の分類情報に関する表示処理を高速に行うことができる情報処理装置、情報処理方法、プログラム及び記録媒体を提供することを目的とする。
本発明の一局面の情報処理装置は、文書と該文書の分類を示す分類情報とを関連付けて記憶する記憶手段を有し、前記文書を検索するための検索条件に基づいて前記記憶手段に記憶される文書を検索する情報処理装置であって、前記検索条件に基づいて検索された検索結果の総数を前記記憶手段から取得する総数取得手段と、前記検索条件に基づいて検索された所定数の検索結果を前記記憶手段から繰り返し取得する検索結果取得手段と、前記検索結果取得手段により検索結果が取得される毎に、前記総数取得手段により取得された総数と前記所定数と前記検索結果とに基づいて前記分類情報毎に分類される文書件数の概数を算出する算出手段と、前記算出手段により算出された概数を前記分類情報毎に表示するための表示データを生成する生成手段と、ユーザから検索結果を取得する指示を受け付ける受付手段とを備え、前記検索結果取得手段は、前記受付手段により指示が受け付けられた場合、残り全ての検索結果を前記記憶手段から取得し、前記算出手段は、前記検索結果取得手段により取得された全ての検索結果に基づいて、前記分類情報毎の文書件数を求め、前記生成手段は、前記算出手段により求められた文書件数を表示するための表示データを生成する。
また、本発明の他の局面の情報処理方法は、文書と該文書の分類を示す分類情報とを関連付けて記憶する記憶手段を有し、前記文書を検索するための検索条件に基づいて前記記憶手段に記憶される文書を検索する情報処理装置における情報処理方法であって、前記検索条件に基づいて検索された検索結果の総数を前記記憶手段から取得する総数取得ステップと、前記検索条件に基づいて検索された所定数の検索結果を前記記憶手段から繰り返し取得する検索結果取得ステップと、前記検索結果取得ステップにより検索結果が取得される毎に、前記総数取得ステップにより取得された総数と前記所定数と前記検索結果とに基づいて前記分類情報毎に分類される文書件数の概数を算出する算出ステップと、前記算出ステップにより算出された概数を前記分類情報毎に表示するための表示データを生成する生成ステップと、ユーザから検索結果を取得する指示を受け付ける受付ステップとを有し、前記検索結果取得ステップは、前記受付ステップで指示が受け付けられた場合、残り全ての検索結果を前記記憶手段から取得し、前記算出ステップは、前記検索結果取得ステップで取得された全ての検索結果に基づいて、前記分類情報毎の文書件数を求め、前記生成ステップは、前記算出ステップで求められた文書件数を表示するための表示データを生成する。
本発明によれば、検索結果を分類する場合、検索結果の分類情報に関する表示処理を高速に行うことができる。
以下、本発明の実施例を図面に基づいて説明する。
<システムの概略ハードウェア構成について>
まず、本発明に係るシステムの概略ハードウェア構成について説明する。図1は、本発明に係るシステムの概略ハードウェア構成の一例を示す図である。
図1に示すように、本発明に係るシステムは、ネットワークを介して情報処理装置100とクライアント105、106とが接続され、情報処理装置100は、CPU(Central Processing Unit)101、HDD(Hard Disk Drive)102、RAM(Random Access Memory)103、ネットワークI/F104を含んで構成される。
CPU101は、コンピュータの中で、各装置の制御やデータの演算、加工を行うCPUである。CPU101は、RAM103に記憶されたプログラムを実行する演算装置で、入力装置や記憶装置からデータを受け取り、演算、加工した上で、出力装置や記憶装置に出力する。
HDD102は、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。また、HDD102には、文書(テキストデータと同義)データが記憶されており、文書が検索されるたびに文書データが読み出されたり、新規に文書データが書き込まれたりする。文書データとは、文書IDやタイトル、テキストデータ、分類情報などの総称である。
RAM103は、CPU101が実行する基本ソフトウェアであるOS(オペレーティングシステム)やアプリケーションソフトウェアなどのプログラムやデータを記憶又は1時保存する記憶装置である。
ネットワークI/F104は、有線及び/又は無線回線などのデータ伝送路により構築されたLAN(Local Area Network)、WAN(Wide Area Network)などのネットワークを介して接続された通信機能を有するクライアント105、106と当該情報処理装置のインタフェースである。
クライアント105、106は、情報処理装置100にネットワークを介して接続された情報処理端末であり、例えば、PC(Personal Computer)やPDA(Personal Digital Assistant)、携帯端末などである。また、図1に示す例においてクライアント2つが、情報処理装置に接続されているが、クライアントは1つ又は複数情報処理装置に接続されるようにしてもよい。
以上のように構成されたシステムにおいて、情報処理装置100は、クライアント105、106から検索文字列などが入力され、取得した検索文字列などに基づく検索条件により検索を行い、検索結果をクライアントに表示させる。なお、情報処理装置100は、検索文字列の入力から検索結果の表示まで一連の検索処理全てを行なうように構成してもよい。
<実施例1に係る情報処理装置とクライアントの主要機能構成について>
実施例1に係る情報処理装置とクライアントの主要機能構成について説明する。図2は、実施例1に係る情報処理装置とクライアントの主要機能構成を示すブロック図である。
図2に示すように、実施例1の情報処理装置100は、検索条件生成手段203、検索結果取得手段204、分類情報取得手段205、検索結果総数取得手段206、記憶手段207、分類結果生成手段208を含んで構成される。クライアント105(クライアント106も同様)は、検索文字列入力手段201、分類条件取得手段202、検索結果表示手段209、分類結果表示手段210を含んで構成される。
まず、情報処理装置100の構成について説明する。検索条件生成手段203は、クライアント105側から入力される検索文字列を検索条件とし、検索結果取得手段204、分類情報取得手段205、検索結果総数取得手段206に検索条件を出力する。
また、検索条件生成手段203は、後述するファセットや分類情報を、分類条件指定手段202から入力された場合は、取得した検索文字列とファセットや分類情報とに基づいて検索条件を生成し、生成した検索条件を検索結果取得手段204、分類情報取得手段205、検索結果総数取得手段206に出力する。
ここで、検索文字列とは、単語やキーワード、文章などであり、数字や記号なども含めた文字列であるとする。なお、文章が入力された場合は、文章を形態素解析するなどして単語に分割し、分割された単語に基づいて検索が行なわれる。
検索結果取得手段204は、検索条件生成手段203より取得した検索条件に基づいて記憶手段207にアクセスして問合せを行い、検索結果を取得する。このとき、記憶手段207は、検索対象の文書に対し、全文索引を付与して記憶しているとし、検索条件に含まれる検索文字列を含むテキストデータなどが検索結果として検索条件取得手段204に取得される。
また、検索結果取得手段204は、検索条件に分類情報が含まれている場合は、B−tree索引を用いて検索を行なう。ただし、分類情報の異なり数が少ない場合は、B−tree索引を利用しない。なお、記憶手段207に記憶される文書データについては図3に示すが、詳細は後述する。
また、検索結果取得手段204は、検索結果を所定数nずつ記憶手段207から繰り返し取得するとし、検索結果を取得する度に検索結果をクライアント側の検索結果表示手段209に送信する。
なお、所定数nは、ユーザにより適宜設定されてもよいし、予め設定された値を用いるようにしてもよい。
分類情報取得手段205は、検索条件生成手段203より取得した検索条件に基づいて記憶手段207にアクセスして問合せを行い、分類情報を取得する。ここで、分類情報は、メタデータとして文書データに関連付けられて記憶手段207に記憶されているとしてもよい。
また、分類情報とは、文書の分類を示し、ファセット毎に与えられる。ファセットとは、文書の観点(視点)を示し、例えば、文書の種別、出版年、出版社などの情報である。分類情報は、例えば、ファセットが「文書の種別」である場合の文書情報は、書籍、論文、新聞などであり、ファセットが「出版年」である場合の文書情報は、2006年、2005年などの年度情報である。
また、分類情報取得手段205は、検索条件に含まれる検索文字列をテキストデータに含む文書データのメタデータを、検索結果取得手段204同様、所定数nずつ記憶手段207から繰り返し取得する。また、分類情報の検索においては、分類情報がユーザにより指定された場合は、B−tree索引を用いて検索を行う。ただし、分類情報の異なり数が少ない場合はB−tree索引を利用しない。
次に、分類情報取得手段205は、繰り返し取得したメタデータから分類情報を取得し、分類情報の文書件数をカウントし、メタデータを取得する度に、分類情報毎にカウント値を分類結果生成手段208に出力する。
ここで、分類情報取得手段205の処理について図4と図5とを用いて説明する。図4は、所定数nを5としたとき、記憶手段207から取得したメタデータに基づく分類情報の一例を示す図である。
図4に示すように、検索条件に含まれる検索文字列を含むテキストデータが5つ(文書IDが1、2、5、10、16)記憶手段207から読み出されている。また、文書IDに関連付けてファセット毎(種別、出版年、出版社など)に分類情報が記憶手段207から読み出されている。
例えば、図4に示す例では、文書ID「1」のファセット「種別」に対する分類情報は「書籍」であり、ファセット「出版年」に対する分類情報は「2006」であり、ファセット「出版社」に対する分類情報は「A社」であることを示している。
図5は、ファセットに着目したときの各分類情報の件数の一例を示す図である。図5に示すように、図4に示す分類情報をファセット毎に着目して各分類情報の件数をカウントする。
例えば、図5(A)は、図4に示す5つのデータを、ファセット「種別」に着目したときの各分類情報(書籍、論文など)の件数をカウントした結果を示す例である。図5(B)は、ファセット「出版年」に着目したときの各分類情報(2006、2005など)の件数をカウントした結果を示す例である。図5(C)は、ファセット「出版社」に着目したときの各分類情報(A社、B社)の件数をカウントした結果を示す例である。
図2に戻り、検索結果総数取得手段206は、検索条件生成手段203より取得した検索条件に基づいて、検索条件に含まれる検索文字列を含むテキストデータが、記憶手段207に全部で何件記憶されているかをカウントし、カウント値を総数として分類結果生成手段208に出力する。
記憶手段207は、検索対象の文書を分類情報などと関連付けて記憶する。テキストデータには、前述したように全文索引が付与され、さらに、ここでは、登録日、分類情報などのメタデータも付与されて記憶されているとする。これより、高速に検索ができるようになっている。
ここで、図3は記憶手段に記憶される文書データの一例を示す図である。図3に示すように、文書データは、文書ID、タイトル、テキストデータ、種別、出版年、出版社などの情報が関連付けられて記憶されている。ここで、文書の観点を示すファセットは、種別、出版年、出版社などであり、文書の分類を示す分類情報は、書籍、論文、2005、2006、A社、B社などである。
また、記憶手段207は、分類情報に対して、例えばB−tree索引を付して記憶してもよい。このとき、全ての分類情報に対して索引を付すのではなく、パラメータの異なり数が多いものに対してのみ索引を付す。パラメータの異なり数が少ないものに索引を付しても高速に検索ができない場合があるからである。
図2に戻り、分類結果生成手段208は、分類情報取得手段205より取得した分類情報毎のカウント値と、検索結果総数取得手段206より取得した検索結果の総数のカウント値と、所定数nとに基づいて、分類情報毎に分類される文書件数の概数を算出する。また、分類結果生成手段208は、算出した概数を分類情報毎に表示するため表示データを生成する。
ここで、分類結果生成手段208の詳細な機能について図6を用いて説明する。図6は、分類結果生成手段208の詳細な機能構成を示すブロック図である。分類結果生成手段208は、概数算出手段601と表示データ生成手段602とを含んで構成される。
概数算出手段601は、まず、分類情報取得手段205より取得した分類情報毎のカウント値と、検索結果総数取得手段206より取得した検索結果の総数のカウント値と、所定数nとを取得する。
所定数nに関しては、分類情報毎のカウント値の総和が所定数nとなるので、分類情報毎のカウント値を累積加算して取得してもよいし、分類情報取得手段205から取得するようにしてもよい。
次に、概数算出手段601は、取得した所定数nに占める分類情報毎のカウント値の割合を算出する。この割合は、分類情報毎のカウント値を所定数nで除算することにより求められる。
次に、概数算出手段601は、求めた割合に総数のカウント値を乗算した結果を、分類情報毎の概数として算出し、算出した分類情報毎の概数を表示データ生成手段602に出力する。なお、前述した算出の手順は問わず、結果的に、同じ値が算出されるのであれば、分類情報毎のカウント値に総数を乗算した後、所定数nで除算するようにしてもよい。
また、概数算出手段601は、分類情報取得手段205から分類情報毎のカウント値を取得する度に、所定数nと分類情報毎のカウント値とを累積加算して、前述したように概数を算出し、概数を算出する度に表示データ生成手段602に出力する。
表示データ生成手段602は、概数算出手段301より取得した分類情報毎の概数を、分類情報に関連付けて表示画面に表示されるよう表示データを生成し、生成した表示データをクライアント側の分類結果表示手段210に送信する。
また、表示データ生成手段602は、概数を取得する度に、前述した処理を行い、分類結果表示手段210に表示データを出力する。なお、表示データ生成手段602は、表示データを生成する際には、概数が整数で表示されるよう概数を整数に丸め込んで表示データを生成するようにすればよい。
図2に戻り、クライアント105の構成について説明する。検索文字列入力手段201は、キーボードやタッチパネルなどの入力装置を通して検索を行なうための文字列を入力する。また、検索文字列入力手段201は、入力された検索文字列を情報処理装置側の検索条件生成手段203に送信する。
分類条件指定手段202は、分類結果表示手段210により表示された分類情報やファセットがユーザにより選択された場合(ユーザが表示画面上の分類情報などをクリック、押下した場合)、選択された分類情報等を情報処理装置側の検索条件生成手段203に送信する。
検索結果表示手段209は、情報処理装置側の検索結果取得手段204より検索結果を取得すると、取得した検索結果を表示画面に表示する。
分類結果表示手段210は、情報処理装置側の分類結果生成手段208より表示データを取得すると、取得した表示データを表示画面に表示する。なお、分類情報はユーザによりクリック、又は押下可能なように表示画面に表示される。
図7は、実施例1における表示画面の一例を示す図である。図7に示すように、表示画面は、検索文字列を入力する表示領域701と、検索結果表示手段209による表示領域702と、分類結果表示手段210による表示領域703とを含んで構成される。
表示領域701は、検索文字列を入力する表示領域である。検索文字列は、キーボードやマウス、タッチパネルなどの入力装置により入力される。
表示領域702は、検索結果表示手段209によって表示される領域である。図7に示す例では、文書のタイトルとテキストデータの一部が表示されている。また、表示領域702には、他にも、文書のアイコンを表示したり、文書が書籍などの場合には、表紙を表示したりしてもよい。
表示領域703は、分類結果表示手段210によって表示される領域である。図7に示す例では、ファセット毎に分類情報が表示され、分類情報には文書件数が表示されている。なお、分類情報については、ユーザによりクリック、又は押下できるように構成されており、クリック、又は押下された分類情報は、検索条件生成手段203に送信されるように構成されている。
<実施例1における検索結果表示処理について>
図8は、実施例1における検索結果表示処理のフローチャートである。ステップ801では、検索結果総数取得手段206が、検索結果の総数であるtotalを取得し、分類結果生成手段208にtotalを出力する。
ステップ801に続いてステップ802に進み、検索結果取得手段204が、検索の開始位置であるstartからstart+n−1件の検索結果を、全文索引などを用いて取得し、取得した検索結果を検索結果表示手段209に出力する。このあと、検索結果は、検索結果表示手段209により表示画面に表示される。
このとき、検索結果取得手段209は、ユーザにより入力された文字列で最初に検索を行なうときは、全文索引を用いて検索を行う。次に、検索結果取得手段209は、ユーザにより分類情報などが指定され、検索結果を絞り込むときは、B−tree索引を用いて検索結果を絞り込む。ただし、分類情報の異なり数が少ない場合は、B−tree索引を利用しない。
なお、startの初期値は、検索条件に一致する文書データの中で最初の文書からということで1が設定されているとする。また、件数nは、ユーザにより取得したい件数を設定されるようにしてもよいし、情報処理装置で適宜設定されるようにしてもよい。
ステップ802に続いてステップ803に進み、分類情報取得手段205が、全文索引などを用いて検索を行い、startからstart+n−1件の分類情報を取得する。このとき、ユーザにより分類情報が指定された場合は、B−tree索引を用いて分類情報を取得してもよい。なお、前述したように、分類情報の異なり数が少ない場合は、B−tree索引を利用しない。
なお、ステップ802、803において、取得する件数がn件に満たない場合がある。この場合には、n件未満の取得可能な件数を取得することにする。なお、取得する件数がn件に満たない条件としては、検索条件に一致する文書が、n件未満の場合又はn件の倍数ではない場合が考えられる。
ステップ803に続いてステップ804に進み、分類情報取得手段205が、取得した分類情報のうち、分類情報vごとに同じ分類情報が何件あるかをカウントすることで文書件数f(v)を取得する。
ステップ804に続いてステップ805に進み、分類情報取得手段205が、facet(v)にf(v)を加算し、facet(v)を概数算出手段601に出力する。なお、facet(v)には、初期値として0が設定されている。これより、分類情報毎の文書件数を累積加算していくことになる。
ステップ805に続いてステップ806に進み、概数算出手段205が、start+n≧totalか否か判定する。
ステップ806の判定結果がNOである場合、ステップ807に進み、概数算出手段807が、
total×facet(v)/(start+n−1) ・・・式(1)
を計算して分類情報毎の文書件数の概数を算出し、算出した概数を表示データ生成手段602に出力する。次に表示データ生成手段602は、取得した概数に基づいて表示データを生成し、生成した表示データを分類結果表示手段210に出力する。次に、分類結果表示手段210が、取得した表示データを表示画面に表示する。
ステップ807に続いてステップ808に進み、検索結果取得手段204、分類情報取得手段205は、
start=start+n ・・・式(2)
を計算し、startの開始位置を更新し、ステップ802に戻る。
ステップ806の判定結果がYESである場合、ステップ809に進み、概数算出手段601が、facet(v)は、概数ではなく正確な件数であると判断して、facet(v)を表示データ生成手段602に出力し、前述したようにfacet(v)が表示画面に表示される。
なお、ステップ801、ステップ802、ステップ803の各処理については、必ずしもこの順序で行なう必要はなく、並列に処理してもよいし、順序は特に関係ない。
以上、実施例1に係る情報処理装置によれば、検索結果を分類する場合、分類情報の文書件数の概数を算出することで、検索結果の分類情報に関する表示処理を高速に行うことができる。
また、図8に示す処理において、ステップ806の判定結果がYESとなるまで、表示画面に分類情報の文書件数に対して更新中を示す情報を表示するようにしてもよい。例えば、ステップ806の判定結果がNOである場合は、「更新中」という文字を表示画面に表示させ、ステップ806の判定結果がYESとなった場合に「更新終了」という文字を表示画面に表示させるようにしてもよい。これより、ユーザは、分類情報の文書件数がまだ更新中であることを視覚的に理解することができる。
また、ステップ807の後に、所定時間待機する処理を付加してもよいし、ユーザによりn件取得する指示がなされたかどうかの判定を行なって、指示がなされたときにステップ808の指示を行なうようにしてもよい。これより、次のn件の情報を必要とするときだけ、次のn件の情報を取得することができ、ユーザにとって無駄な処理を省くことができる。
なお、実施例1では、情報処理装置100とクライアント105、106は区別した構成にしたが、これらを一体として構成し、検索文字列の入力から検索結果の表示まで全て1つの装置によって行うようにしてもよい。
[変形例1]
実施例1に係る情報処理装置の変形例1について説明する。変形例1に係る情報処理装置は、ユーザにより、残り全ての検索結果を取得する指示を受けた場合に、残り全ての検索結果を取得して、分類情報の正確な文書件数を表示させる。
<変形例1に係る情報処理装置とクライアントの主要機能構成について>
図9は、変形例1に係る情報処理装置とクライアントの主要機能構成を示すブロック図である。なお、図9に示す構成要素において、図2に示す構成要素と同様の機能のものは、図2と同じ符号を付し、その説明を省略する。
図9に示すように、クライアント905は、図2に示すクライアント104と比較して新たに検索結果取得指示手段901が追加されている。検索結果取得指示手段901は、ユーザにより残り全ての検索結果を取得するためにクリック、又は押下されるボタンなどである。
図10は、変形例1における表示画面の一例を示す図である。図10に示す取得ボタン1001は、検索結果取得手段901であり、この取得ボタン1001がクリック、又は押下されると、指示受付手段902にその旨通知する。また、図10に示すように、変形例1ではファセット1002である種別、出版年、出版社なども、これらの正確な文書件数を取得するためにクリック、又は押下可能となっている。
図9に戻り、情報処理装置900は、図2に示す情報処理装置100と比較して新たに指示受付手段902が追加されている。指示受付手段902は、検索結果取得指示手段901より通知を受けると、検索結果取得手段903、分類情報取得手段904に残り全ての検索結果、分類情報をそれぞれ取得するよう指示する。
検索結果取得手段903、分類情報取得手段904は、検索結果総数取得手段206よりtotalを取得し、nにtotal−startを代入する。これより、次に検索結果、分類情報を取得するときは、残り全ての情報を取得することができる。残り全ての情報を取得した後の処理は、件数が違うのみで図2と同様の処理を行なう。
なお、指示受付手段902は、検索結果取得手段903、分類情報取得手段904に指示を出すのではなく、検索結果総数取得手段206に検索結果取得手段903、分類情報取得手段904に総数を出力するよう指示を出してもよい。このとき、検索結果総数取得手段206は、指示受付手段902から指示を受けた場合、総数を検索結果取得手段903、分類情報取得手段904に出力する。
ここで、図10に示すように、ファセット1002がクリック、又は押下された場合には、クリック、又は押下されたファセットのみ、残り全ての検索結果に基づく正確な分類情報毎の文書件数が表示されるようにしてもよい。
例えば、ファセット「種別」がクリック、又は押下された場合には、分類結果の表示領域703には、「種別」の分類情報(書籍、論文、新聞、雑誌)のみを表示し、表示された分類情報毎に、全ての検索結果に基づく正確な文書件数を表示するようにしてもよい。
<変形例1における検索結果表示処理の一部について>
変形例1における検索結果表示処理の一部について説明する。図11は、変形例1における検索結果表示処理の一部のフローチャートである。具体的には、図11は、ユーザから検索結果取得指示があった場合のフローチャートである。なお、ユーザから検索結果取得指示がなかった場合は図8に示す処理と同様であるため省略する。
ステップ1101では、指示受付手段902が、検索結果取得指示手段901から、検索結果を取得する旨の通知が来たか否かを判定する。
ステップ1101の判定結果がNOである場合は、ステップ1101に戻る。ステップ1101の判定結果がYESである場合は、ステップ1102に進み、分類情報取得手段904が残り全ての分類情報vを取得し、検索結果取得手段903が、残り全ての検索結果を取得する。
ステップ1102に続いてステップ1103に進み、分類情報取得手段904は、取得した残り全てのデータのうち、同じ分類情報vが何件あるかをカウントすることで文書件数f(v)を取得する。
ステップ1103に続いてステップ805に進み、後は図8に示す処理と同様の処理を行なう。
以上、変形例1に係る情報処理装置によれば、ユーザから残り全ての検索結果を取得する指示を受けた場合に、残り全ての検索結果、分類情報を取得することにより、ユーザに対し、分類情報の文書件数の中間値を省いて、正確な文書件数を表示画面に表示させることができる。変形例1は、ユーザが分類情報の文書件数の概数を必要とせず、正確な文書件数を必要とするときに有効である。
[変形例2]
実施例1に係る情報処理装置の変形例2について説明する。変形例2では、文書件数の概数の信頼性に係る情報を表示画面に表示する。
図12は、変形例2における表示画面の一例を示す図である。図12に示すように、表示領域1201が文書件数の概数の信頼性に係る情報を表示する領域である。図12に示す例では、totalが12345件であり、現在2000件に基づいて文書件数の概数を算出していることを示している。
これは、表示データ生成手段602が、所定数nの累積数とtotalに基づいて、表示画面における所定の位置に、文書件数の概数の信頼性に係る情報を表示させるよう表示データを生成すればよい。
なお、表示領域1201に表示する情報としては、概数を算出した実際の件数(n件の累積件数)やtotalに対するパーセンテージ(%)などでもよい。
以上、変形例2に係る情報処理装置によれば、分類結果の表示領域に表示されている文書件数の概数が、どれくらい信頼できるものなのかを視覚的に理解することができる。これより、ユーザは、信頼性に係る情報を見ることにより、十分な件数に基づく文書件数の概数だと判断すれば、分類情報をクリックするなどしてさらに条件を絞ればよいし、不十分な件数に基づく文書件数の概数だと判断すれば、さらに、検索結果を取得するようにすればよい。
[変形例3]
実施例1に係る情報処理装置の変形例3について説明する。変形例3では、特定の分類情報について、文書件数の概数が算出されなくても、この特定の分類情報は表示画面に表示されるようにする。つまり、変形例3では、表示画面に対して常に表示される固定の分類情報を設定する。
図13は、変形例3における表示画面の一例を示す図である。図13に示すように、ファセット「種別」の分類情報1301は、常に表示領域703に表示されるように設定されている。よって、図13に示すように、文書件数の概数を表示している段階であっても、分類情報「雑誌」のように0件を表示させることができる。
これは、表示データ生成手段602が、予め特定の分類情報を記憶しておき、この分類情報に対しては、概数算出手段601より概数を取得した場合、概数を表示するようにし、概数を取得しなかった場合、「0」を表示するようにする。なお、特定の分類情報については、情報処理装置の管理者などが予め設定しておけばよい。
また、変形例3において、概数を表示する段階で、文書件数が0件の分類情報もユーザによりクリック、又は押下可能なように構成する。これは、現時点では文書件数は0件かもしれないが、残りの検索結果によっては、この分類情報に分類される文書が存在するかも知れないからである。これより、概数を表示する段階で文書件数が0件の分類情報をユーザがクリック、又は押下した場合に、この分類情報は本当に文書件数が0件なのかどうかを、ユーザはいち早く知ることができる。
なお、全ての検索結果を分類した結果も文書件数が0件である場合は、この分類情報は、0件であることがわかった時点でユーザによりクリック、又は押下不可能なようにすればよい。これより、ユーザによる無意味な検索条件の絞込み、誤操作を防ぐことができる。
以上、変形例3に係る情報処理装置によれば、特定の分類情報に対しては、概数が算出されていなくても表示画面に表示されるようにしたことにより、特に重要なファセットに対していかなる分類情報があるかをユーザに表示することができる。
[変形例4]
実施例1に係る情報処理装置の変形例4について説明する。変形例4では、検索結果取得手段204に分類情報取得手段205を一体化して構成する。
変形例4では、検索結果取得手段204は、記憶手段207からn件ずつ検索結果として文書データを繰り返し読み出して取得する。検索結果取得手段204は、取得したn件の検索結果から、表示領域702に必要なデータ(タイトル、テキストデータの一部)のみを抽出し、抽出したデータを検索結果表示手段209に出力する。
次に、検索結果取得手段204は、取得したn件の検索結果から、分類情報毎に、同じ分類情報が何件あるかをカウントする。カウントした値は、分類情報毎に分類結果生成手段208に出力する。上記処理を、記憶手段207から検索結果をn件取得する度に行なう。
以上、変形例4に係る情報処理装置は、検索結果取得手段と分類情報取得手段とを一体化した構成であっても、検索結果を分類する場合、分類情報の文書件数の概数を算出することで、検索結果の分類情報に関する表示処理を高速に行うことができる。
以上、本発明の実施例について詳述したが、本発明は係る特定の実施例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、上記変形例以外にも種々の変形・変更が可能である。また、各変形例は、複数又は全部を組み合わせることが可能である。なお、実施例1又は各変形例において説明した処理内容をプログラムとして記録媒体に記録し、このプログラムが記録された記録媒体をコンピュータに読み取らせて前述した処理を情報処理装置に実行させることも可能である。
本発明に係るシステムの概略ハードウェア構成の一例を示す図。 実施例1に係る情報処理装置とクライアントの主要機能構成を示すブロック図。 分類結果生成手段の詳細な機能構成を示すブロック図。 記憶手段に記憶される文書データの一例を示す図。 分類情報の一例を示す図。 分類情報毎の件数の一例を示す図。 実施例1における表示画面の一例を示す図。 実施例1における検索処理のフローチャート。 変形例1に係る情報処理装置とクライアントの主要機能構成を示すブロック図。 変形例1における表示画面の一例を示す図。 変形例1における検索処理の一部のフローチャート。 変形例2における表示画面の一例を示す図。 変形例3における表示画面の一例を示す図。
符号の説明
100、900 情報処理装置
101 CPU
102 HDD
103 RAM
104 ネットワークI/F部
105、106 クライアント
201 検索文字列入力手段
202 分類条件指定手段
203 検索条件生成手段
204、903 検索結果取得手段
205、904 分類情報取得手段
206 検索結果総数取得手段
207 記憶手段
208 分類結果生成手段
209 検索結果表示手段
210 分類結果表示手段
601 概数算出手段
602 表示データ生成手段
701、702、703 表示領域
901 検索結果取得指示手段
902 指示受付手段

Claims (7)

  1. 文書と該文書の分類を示す分類情報とを関連付けて記憶する記憶手段を有し、前記文書を検索するための検索条件に基づいて前記記憶手段に記憶される文書を検索する情報処理装置であって、
    前記検索条件に基づいて検索された検索結果の総数を前記記憶手段から取得する総数取得手段と、
    前記検索条件に基づいて検索された所定数の検索結果を前記記憶手段から繰り返し取得する検索結果取得手段と、
    前記検索結果取得手段により検索結果が取得される毎に、前記総数取得手段により取得された総数と前記所定数と前記検索結果とに基づいて前記分類情報毎に分類される文書件数の概数を算出する算出手段と、
    前記算出手段により算出された概数を前記分類情報毎に表示するための表示データを生成する生成手段と
    ユーザから検索結果を取得する指示を受け付ける受付手段とを備え、
    前記検索結果取得手段は、
    前記受付手段により指示が受け付けられた場合、残り全ての検索結果を前記記憶手段から取得し、
    前記算出手段は、
    前記検索結果取得手段により取得された全ての検索結果に基づいて、前記分類情報毎の文書件数を求め、
    前記生成手段は、
    前記算出手段により求められた文書件数を表示するための表示データを生成する情報処理装置。
  2. 前記算出手段は、前記検索結果取得手段より取得する検索結果に基づいて、前記所定数を累積した累積数に占める前記分類情報毎に分類される文書件数の割合を算出し、該割合と前記総数とを乗算して前記概数を算出する請求項1記載の情報処理装置。
  3. 前記生成手段は、
    前記所定数から求められる前記概数の信頼性に係る情報を前記表示データに含める請求項1又は2記載の情報処理装置。
  4. 前記生成手段は、
    特定の分類情報については、前記算出手段により前記概数が算出されない場合でも前記分類情報を表示するよう表示データを生成する請求項1乃至いずれか一項に記載の情報処理装置。
  5. 文書と該文書の分類を示す分類情報とを関連付けて記憶する記憶手段を有し、前記文書を検索するための検索条件に基づいて前記記憶手段に記憶される文書を検索する情報処理装置における情報処理方法であって、
    前記検索条件に基づいて検索された検索結果の総数を前記記憶手段から取得する総数取得ステップと、
    前記検索条件に基づいて検索された所定数の検索結果を前記記憶手段から繰り返し取得する検索結果取得ステップと、
    前記検索結果取得ステップにより検索結果が取得される毎に、前記総数取得ステップにより取得された総数と前記所定数と前記検索結果とに基づいて前記分類情報毎に分類される文書件数の概数を算出する算出ステップと、
    前記算出ステップにより算出された概数を前記分類情報毎に表示するための表示データを生成する生成ステップと、
    ユーザから検索結果を取得する指示を受け付ける受付ステップとを有し、
    前記検索結果取得ステップは、
    前記受付ステップで指示が受け付けられた場合、残り全ての検索結果を前記記憶手段から取得し、
    前記算出ステップは、
    前記検索結果取得ステップで取得された全ての検索結果に基づいて、前記分類情報毎の文書件数を求め、
    前記生成ステップは、
    前記算出ステップで求められた文書件数を表示するための表示データを生成する情報処理方法。
  6. 請求項記載の情報処理方法を、コンピュータに実行させるためのプログラム。
  7. 請求項記載のプログラムが記録された、コンピュータにより読み取り可能な記録媒体。
JP2008120634A 2008-05-02 2008-05-02 情報処理装置、情報処理方法、プログラム及び記録媒体 Expired - Fee Related JP5127553B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008120634A JP5127553B2 (ja) 2008-05-02 2008-05-02 情報処理装置、情報処理方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008120634A JP5127553B2 (ja) 2008-05-02 2008-05-02 情報処理装置、情報処理方法、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2009271671A JP2009271671A (ja) 2009-11-19
JP5127553B2 true JP5127553B2 (ja) 2013-01-23

Family

ID=41438177

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008120634A Expired - Fee Related JP5127553B2 (ja) 2008-05-02 2008-05-02 情報処理装置、情報処理方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP5127553B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5581857B2 (ja) * 2010-07-07 2014-09-03 日本電気株式会社 情報検索装置、情報検索方法および情報検索プログラム
JP2015185012A (ja) * 2014-03-25 2015-10-22 株式会社野村総合研究所 金融情報検索システム
US10956470B2 (en) * 2018-06-26 2021-03-23 International Business Machines Corporation Facet-based query refinement based on multiple query interpretations

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185764A (ja) * 1997-09-05 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 検索結果件数の統計的推定方法及び装置及び検索結果件数の統計的推定プログラムを格納した記憶媒体
JP3701197B2 (ja) * 2000-12-28 2005-09-28 松下電器産業株式会社 分類への帰属度計算基準作成方法及び装置
JP4116601B2 (ja) * 2004-02-20 2008-07-09 株式会社ジャストシステム タキソノミー表示装置、タキソノミー表示方法、およびタキソノミー表示プログラム

Also Published As

Publication number Publication date
JP2009271671A (ja) 2009-11-19

Similar Documents

Publication Publication Date Title
TWI524193B (zh) 用於搜尋結果之語義目錄的電腦可讀取媒體及電腦實現方法
US7769771B2 (en) Searching a document using relevance feedback
US9430573B2 (en) Coherent question answering in search results
US20040133566A1 (en) Data searching apparatus capable of searching with improved accuracy
JP4746439B2 (ja) 文書検索サーバおよび文書検索方法
JP6390139B2 (ja) 文書検索装置、文書検索方法、プログラム、及び、文書検索システム
US20120179709A1 (en) Apparatus, method and program product for searching document
JP2010128928A (ja) 検索システム及び検索方法
US20060179039A1 (en) Method and system for performing secondary search actions based on primary search result attributes
JP5048852B2 (ja) 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
JP2011203776A (ja) 類似画像検索装置、方法及びプログラム
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
US8904272B2 (en) Method of multi-document aggregation and presentation
JP2004348771A (ja) 技術文書検索装置
JP4912384B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP5179564B2 (ja) クエリセグメント位置決定装置
JP2011100208A (ja) 行動推定装置、行動推定方法および行動推定プログラム
JP2012104051A (ja) 文書インデックス作成装置
JP6534454B2 (ja) 情報検索方法及び情報検索装置並びに情報検索システム
JP2012027841A (ja) 検索プログラム、検索装置、検索システム、検索方法及び記録媒体
JP2012043258A (ja) 検索システム、検索装置、検索プログラム、記録媒体及び検索方法
JP2010282403A (ja) 文書検索方法
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム
JP2009003731A (ja) 特許検索システム
JP6237334B2 (ja) クエリ生成方法、クエリ生成プログラム、及び、クエリ生成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121002

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121030

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5127553

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151109

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees