JP2008015694A - Document taste learning system, method, and program - Google Patents
Document taste learning system, method, and program Download PDFInfo
- Publication number
- JP2008015694A JP2008015694A JP2006184767A JP2006184767A JP2008015694A JP 2008015694 A JP2008015694 A JP 2008015694A JP 2006184767 A JP2006184767 A JP 2006184767A JP 2006184767 A JP2006184767 A JP 2006184767A JP 2008015694 A JP2008015694 A JP 2008015694A
- Authority
- JP
- Japan
- Prior art keywords
- document
- user
- feature amount
- interest
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title description 31
- 230000006870 function Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は文書嗜好学習システム、方法及びプログラムに関し、例えば、ユーザの所望する文書を効率良く検索する場合に適用し得るものである。 The present invention relates to a document preference learning system, method, and program, and can be applied to, for example, efficiently searching for a document desired by a user.
近年、コンピュータやインターネットの普及により、多くのWebページが生成されている。その結果、Webページの数が膨大になったことで、ユーザの求めるWebページを効率良く検索する要求が高まってきている。その解決方法として、ベイズ推定を用いたWebマイニングなどの手法も研究されつつある(非特許文献1、非特許文献2参照)。 In recent years, with the spread of computers and the Internet, many Web pages have been generated. As a result, since the number of Web pages has become enormous, there is an increasing demand for efficiently searching for Web pages requested by users. As a solution, a technique such as Web mining using Bayesian estimation is being studied (see Non-Patent Document 1 and Non-Patent Document 2).
この従来方法では、ユーザのお気に入りのWebページ(関心があるWebページ)の特徴を学習することで、ユーザがキーワードなどの検索用情報を考えることなく、ユーザが同様に関心を向けるWebページ(同じ趣味嗜好のWebページ)を収集するシステムの実現を目標として、お気に入りのWebページの学習方法を含めた検索手法を提案している。
しかしながら、従来方法では、ユーザはお気に入りのページと関係のあるページと関係のないページを手作業で収集して分類しておく必要がある。すなわち、ユーザの文書嗜好(関心ある文書)を学習するためには、ユーザ自身が、そのWebページ(URL)の情報に対し、各々、好き(関心有り)、嫌い(関心無し)を選択する必要があり、事前学習において、大変な手間がかかってしまう。例えば、Webページを表示しているWebブラウザ画面の一部に、「好き」アイコンや「嫌い」アイコンを表示させ、いずれかのアイコンのクリックにより、ユーザは自己の嗜好をシステムに学習させる。 However, according to the conventional method, the user needs to manually collect and classify pages that are not related to a favorite page. That is, in order to learn the user's document preferences (documents of interest), the user himself / herself needs to select the likes (interests) and dislikes (no interests) for the information on the Web page (URL). And it takes a lot of work in advance learning. For example, a “like” icon or a “dislike” icon is displayed on a part of a web browser screen displaying a web page, and the user learns his / her preference by clicking on either icon.
検索の精度を向上させようとすると、学習しておくWebページも多い方が好ましく、学習するページ数を多くしようとすると、ユーザによる手作業の負担もかなり大きなものとなる。 In order to improve the accuracy of the search, it is preferable that there are many Web pages to be learned, and if the number of pages to be learned is increased, the burden of manual work by the user becomes considerably large.
本発明は、上記問題に鑑みてなされたものであり、ユーザの文書嗜好を学習するためにユーザに意図して実行させる動作(作業)を軽減若しくはなくすことができる文書嗜好学習システム、方法及びプログラムを提供することを目的とする。 The present invention has been made in view of the above problems, and a document preference learning system, method, and program capable of reducing or eliminating an operation (work) that a user intentionally executes in order to learn a user's document preference. The purpose is to provide.
第1の本発明の文書嗜好学習システムは、入力文書の特徴量を得る特徴量取得手段と、上記入力文書に係る情報を、将来の上記入力文書の利用、使用のために保存する行為がなされたか否かを判別し、上記保存する行為がなされたことをユーザが関心ある文書と判別する1条件として、上記入力文書に対するユーザの関心有無を判別する関心判別手段と、上記入力文書の特徴量を、ユーザが関心ある文書か否かに振り分けて記憶する文書特徴量記憶手段とを有することを特徴とする。 In the document preference learning system according to the first aspect of the present invention, a feature amount obtaining unit for obtaining a feature amount of an input document and an act of storing information related to the input document for future use and use of the input document are performed. An interest discriminating means for discriminating whether or not the user is interested in the input document, and a feature amount of the input document as one condition for discriminating whether or not the act of saving is performed as a document in which the user is interested. And a document feature amount storage means for storing the information according to whether the user is interested in the document.
第2の本発明の文書嗜好学習システムは、入力文書の特徴量を得る特徴量取得手段と、上記入力文書をユーザが閲覧している時間が閾値を超えたことをユーザが関心ある文書と判別する1条件として、上記入力文書に対するユーザの関心有無を判別する関心判別手段と、上記入力文書の特徴量を、ユーザが関心ある文書か否かに振り分けて記憶する文書特徴量記憶手段とを有することを特徴とする。 A document preference learning system according to a second aspect of the present invention is characterized in that a feature amount acquisition unit that obtains a feature amount of an input document, and that a user is interested in a document whose time during which the input document is browsed exceeds a threshold. As one condition, there is an interest determination unit that determines whether or not the user is interested in the input document, and a document feature amount storage unit that stores the feature amount of the input document according to whether the user is interested in the document. It is characterized by that.
第3の本発明の文書嗜好学習方法は、特徴量取得手段、関心判別手段、及び、文書特徴量記憶手段を有し、上記特徴量取得手段は、入力文書の特徴量を得、上記関心判別手段は、上記入力文書に係る情報を、将来の上記入力文書の利用、使用のために保存する行為がなされたか否かを判別し、上記保存する行為がなされたことをユーザが関心ある文書と判別する1条件として、上記入力文書に対するユーザの関心有無を判別し、上記文書特徴量記憶手段は、上記入力文書の特徴量を、ユーザが関心ある文書か否かに振り分けて記憶することを特徴とする。 A document preference learning method according to a third aspect of the present invention includes a feature amount acquisition unit, an interest determination unit, and a document feature amount storage unit. The feature amount acquisition unit obtains a feature amount of an input document, and the interest determination The means determines whether or not an act of storing the information related to the input document for the future use and use of the input document is performed, and the user is interested in the fact that the act of storing is performed. As one condition for determining, whether or not the user is interested in the input document is determined, and the document feature amount storage means distributes and stores the feature amount of the input document according to whether the user is interested in the document. And
第4の本発明の文書嗜好学習方法は、特徴量取得手段、関心判別手段、及び、文書特徴量記憶手段を有し、上記特徴量取得手段は、入力文書の特徴量を得、上記関心判別手段は、上記入力文書をユーザが閲覧している時間が閾値を超えたことをユーザが関心ある文書と判別する1条件として、上記入力文書に対するユーザの関心有無を判別し、上記文書特徴量記憶手段は、上記入力文書の特徴量を、ユーザが関心ある文書か否かに振り分けて記憶することを特徴とする。 A document preference learning method according to a fourth aspect of the present invention includes a feature amount acquisition unit, an interest determination unit, and a document feature amount storage unit. The feature amount acquisition unit obtains a feature amount of an input document, and performs the interest determination. The means determines whether or not the user is interested in the input document as one condition for determining that the user's browsing time of the input document exceeds a threshold as a document of interest to the user, and stores the document feature value storage. The means is characterized in that the feature quantity of the input document is sorted and stored according to whether the user is interested in the document.
第5の本発明の文書嗜好学習プログラムは、コンピュータを、入力文書の特徴量を得る特徴量取得手段と、上記入力文書に係る情報を、将来の上記入力文書の利用、使用のために保存する行為がなされたか否かを判別し、上記保存する行為がなされたことをユーザが関心ある文書と判別する1条件として、上記入力文書に対するユーザの関心有無を判別する関心判別手段と、上記入力文書の特徴量を、ユーザが関心ある文書か否かに振り分けて記憶する文書特徴量記憶手段として機能させるように記述されていることを特徴とする。 In the document preference learning program of the fifth aspect of the present invention, the computer stores feature quantity acquisition means for obtaining the feature quantity of the input document, and information related to the input document for future use and use of the input document. An interest discriminating means for discriminating whether or not the user is interested in the input document as one condition for discriminating whether or not an act has been performed, and discriminating that the act of saving has been performed as a document of interest to the user, and the input document The feature amount is described so as to function as a document feature amount storage unit that stores the feature amount according to whether the user is interested in the document.
第6の本発明の文書嗜好学習プログラムは、コンピュータを、入力文書の特徴量を得る特徴量取得手段と、上記入力文書をユーザが閲覧している時間が閾値を超えたことをユーザが関心ある文書と判別する1条件として、上記入力文書に対するユーザの関心有無を判別する関心判別手段と、上記入力文書の特徴量を、ユーザが関心ある文書か否かに振り分けて記憶する文書特徴量記憶手段として機能させるように記述されていることを特徴とする。 In the document preference learning program of the sixth aspect of the present invention, the user is interested in the feature amount obtaining means for obtaining the feature amount of the input document and the time that the user is browsing the input document exceeds the threshold. As one condition for discriminating a document, an interest discriminating unit that discriminates whether or not the user is interested in the input document, and a document feature amount storage unit that stores the feature amount of the input document according to whether the user is interested in the document. It is described to function as.
本発明によれば、ユーザの文書嗜好を学習するためにユーザに意図して実行させる動作(作業)を軽減若しくはなくすことができる。 ADVANTAGE OF THE INVENTION According to this invention, in order to learn a user's document preference, the operation | movement (work | work) which a user intends to perform can be reduced or eliminated.
(A)第1の実施形態
以下、本発明による文書嗜好学習システム、方法及びプログラムを、Webページ閲覧システム、方法及びプログラムに適用した第1の実施形態を、図面を参照しながら詳述する。
(A) First Embodiment Hereinafter, a first embodiment in which a document preference learning system, method and program according to the present invention are applied to a Web page browsing system, method and program will be described in detail with reference to the drawings.
(A−1)第1の実施形態の構成
図1は、第1の実施形態におけるWebページ閲覧システムの機能的構成を示すブロック図である。第1の実施形態のWebページ閲覧システムは、パソコン、携帯電話端末、PDAなどの情報処理装置上に、第1の実施形態のWebページ閲覧プログラム(固定データを含む;いわゆるWebブラウザ)をインストールすることにより、構築されるものであるが、機能的には、図1で表すことができる。
(A-1) Configuration of First Embodiment FIG. 1 is a block diagram illustrating a functional configuration of a Web page browsing system according to the first embodiment. The Web page browsing system of the first embodiment installs the Web page browsing program (including fixed data; so-called Web browser) of the first embodiment on an information processing apparatus such as a personal computer, a mobile phone terminal, or a PDA. Although it is constructed by this, it can be functionally represented in FIG.
図1において、第1の実施形態のWebページ閲覧システム1は、入力部10、表示部11、通信部12、閲覧制御部13、ページ特徴量形成部14、ページ特徴量記憶部15、嗜好文書判定部16及びブックマーク記憶部17を有する。
In FIG. 1, a Web page browsing system 1 according to the first embodiment includes an
入力部10は、ハードウェア的にはキーボードやマウスなどが該当し、Webページの閲覧の起動を指示したり、ユーザ嗜好文書の検索を指示したり、ブックマーク(お気に入りURL)への登録を指示したりなどするものである。
The
表示部11は、ハードウェア的にはディスプレイが該当し、閲覧に供するWebページを表示したり、各種の操作用アイコンを表示したりするものである。
The
通信部12は、通信回路や通信用ソフトウェアなどが該当し、閲覧制御部13から指示されたWebページを、インターネット20から取り出すための通信を実行するものである。
The
閲覧制御部13は、入力部10から与えられた信号やそのときの処理段階などに応じて、Webページの閲覧に係る各種の動作を制御するものである。
The
ページ特徴量形成部14は、閲覧制御部13から指示されたWebページの特徴量を形成するものである。Webページの特徴量の形成は、ユーザの文書嗜好を学習する場合や、検索されたWebページがユーザの文書嗜好に合致するか否かを判定する場合などに実行される。
The page feature
ページ特徴量記憶部15は、ユーザの文書嗜好を反映させたページ特徴量を記憶するものである。ページ特徴量記憶部15は、ユーザが好きな(関心有り)Webページの特徴量と、ユーザが嫌いな(関心無し)Webページの特徴量とを区別して記憶しているものである。ページ特徴量記憶部15は、その全体又は一部が補助記憶装置上に構成されても良い。
The page feature
嗜好文書判定部16は、閲覧制御部13から指示されたWebページがユーザの文書嗜好に合致するか否かを判定するものである。嗜好文書判定部16は、判定時には、ページ特徴量形成部14から判定に供するWebページの特徴量を取得し、ページ特徴量記憶部15の記憶内容をも参酌する。
The preference
ブックマーク記憶部17は、閲覧制御部13の制御下で、ユーザがブックマーク指定したURLを記憶するものである。
The
(A−2)第1の実施形態の動作
次に、第1の実施形態のWebページ閲覧システムにおける動作(Webページ閲覧方法)を説明する。
(A-2) Operation of First Embodiment Next, an operation (Web page browsing method) in the Web page browsing system of the first embodiment will be described.
まず、ユーザの文書嗜好を学習する際の動作を、図2及び図3のフローチャートを参照しながら説明する。図2は、あるWebページについて、ユーザの文書嗜好を学習する際の全体の動作の流れを示しており、図3は、ページ特徴量の作成動作の流れを示している。なお、図2や図3の処理の途中では、キー入力などによって他の処理に割り込むことがあるが、図2及び図3ではそのような割り込み処理を省略して記述している。 First, the operation when learning the user's document preference will be described with reference to the flowcharts of FIGS. FIG. 2 shows the flow of the overall operation when learning the user's document preference for a certain Web page, and FIG. 3 shows the flow of the page feature value creation operation. In the middle of the processing of FIG. 2 and FIG. 3, other processing may be interrupted by key input or the like, but in FIG. 2 and FIG. 3, such interrupt processing is omitted.
第1の実施形態のWebページ閲覧システムにおいては、ユーザの閲覧に供するために、インターネット20から新たなWebページを取得すると、閲覧制御部13は、図2に示す処理を開始し、まず、取得したWebページを表示(閲覧)させる(ステップ101)。この表示処理は、既に、インターネット20から取得し、他のWebページの表示により、キャッシュメモリに格納されたWebページを再表示する場合をも含んで良く、逆に、このような場合を排除するようにしても良い。
In the Web page browsing system of the first embodiment, when a new Web page is acquired from the Internet 20 for use by the user, the
その後、閲覧制御部13は、表示(閲覧)とは無関係に、ページ特徴量形成部14に、そのWebページの特徴量の形成処理を実行させる(ステップ102)。図3は、上述したように、このようなWebページの特徴量の具体的な形成処理を示している。
Thereafter, the
次に、閲覧制御部13は、対象となっているWebページのURLを、ブックマークに追加する操作がユーザによってなされたか否かを判別する(ステップ103)。
Next, the
閲覧制御部13は、このような判別を、例えば、以下のようなタイミングで行う。例えば、Webページの閲覧(表示)を終了させるタイミングで行う。終了させるタイミングとは、他のWebページの表示に切り替えられた場合やブラウザを閉じる操作がなされた場合などが該当する。なお、追加する操作がなされたことを、実際に追加操作がなされたタイミングで捉え、追加する操作がなされないことを、Webページの閲覧(表示)を終了させるタイミングで行うようにしても良い。
The
閲覧制御部13は、URLがブックマークに追加されると、そのページ特徴量を、ページ特徴量記憶部15に、ユーザが好きな(関心有り)Webページの特徴量として記憶し、URLがブックマークに追加されることがないと、そのページ特徴量を、ページ特徴量記憶部15に、ユーザが嫌いな(関心無し)Webページの特徴量として記憶し(ステップ104)、図2に示す一連の処理を終了する。
When the URL is added to the bookmark, the
次に、Webページの特徴量の具体的な形成処理を、図3を参照しながら説明する。 Next, a specific process for forming the feature amount of the Web page will be described with reference to FIG.
この第1の実施形態の場合、Webページの特徴量を、単語(例えば名詞)若しくは単語列(例えば名詞句)などのトークン毎の出現回数若しくは出現率の集合としており、図3は、このようなWebページの特徴量を抽出する処理となっている。 In the case of the first embodiment, the feature amount of the Web page is a set of the number of appearances or the appearance rate for each token such as a word (for example, a noun) or a word string (for example, a noun phrase), and FIG. This is a process for extracting the feature amount of a simple Web page.
処理を開始すると、処理対象のWebページ(HTML文書)の先頭側から、1個のトークンを抽出しようとし、抽出できたか否かを判別する(ステップ201)。 When the process is started, one token is to be extracted from the head side of the Web page (HTML document) to be processed, and it is determined whether or not the token has been extracted (step 201).
抽出できると、その抽出したトークンは、初めて抽出されたものか否かを判別する(ステップ202)。言い換えると、ページの特徴量の要素として、今回、抽出されたトークンが既に登録されているか否かを判別する。既に登録されているトークンであれば、その出現回数を1インクリメントして(ステップ203)、上述したステップ201に戻る。一方、初めて、抽出されたものであると、ページの特徴量要素のトークンとして追加し(ステップ204)、上述したステップ201に戻る。なお、新トークンを追加する際には、その出現回数を1とする。 If it can be extracted, it is determined whether or not the extracted token is extracted for the first time (step 202). In other words, it is determined whether or not the currently extracted token is already registered as an element of the feature amount of the page. If the token is already registered, the number of appearances is incremented by 1 (step 203), and the process returns to step 201 described above. On the other hand, if it is extracted for the first time, it is added as a token of the feature element of the page (step 204), and the process returns to step 201 described above. When a new token is added, the number of appearances is set to 1.
処理対象のWebページ(HTML文書)の先頭側から、ステップ201〜204でなる処理を繰り返し実行すると、やがて、トークンを抽出できない状態になる。このときには、Webページの特徴量の作成処理を終了する。なお、各トークンに対する頻度情報を、出現回数ではなく、出現率とする場合であれば、トークンを抽出できなくなったときに、各トークンの出現回数の総和を求めた後、出現率を求める処理を行う。
If the processing in
以上では、一般的なWebページの閲覧に並行して実行される、ユーザ嗜好の学習動作を説明した。 The user preference learning operation executed in parallel with the browsing of a general Web page has been described above.
このような学習データは、Webページの検索時に利用される。例えば、検索候補となったWebページが、ユーザが関心あるものであるか否かを判断する際に利用される。まず、このような判断対象となったWebページに対しても特徴量を作成する。その後、判断対象となったWebページの特徴量が、統計的に見て、ページ特徴量記憶部15に記憶されているユーザが好きな(関心有り)複数のWebページの特徴量のグループに近いか、ページ特徴量記憶部15に記憶されているユーザが嫌いな(関心無し)複数のWebページの特徴量のグループに近いかを判別し、ユーザが関心あるものであるか否かを決定する。判別のための統計的手法については、非特許文献2に記載の方法を適用できるので、ここでは、詳細説明は省略する。
Such learning data is used when searching for Web pages. For example, it is used when determining whether or not a Web page that is a search candidate is of interest to the user. First, a feature amount is also created for such a Web page that has been determined. Thereafter, the feature quantity of the Web page that is the determination target is close to a group of feature quantities of a plurality of Web pages that the user stores (interests) that the user stores in the page feature
(A−3)第1の実施形態の効果
第1の実施形態によれば、ユーザ嗜好をWebページから学習する際、対象となっているWebページに対するユーザの好き嫌い(関心の有無)を、ブックマークへのURLへの登録有無により判定するようにしたので、ユーザがWebページの好き嫌いをシステムに教えるためだけに行う動作(作業)をなくすことができる。
(A-3) Effect of First Embodiment According to the first embodiment, when learning user preferences from a Web page, the user's likes and dislikes (presence of interest) for the target Web page are bookmarked. Since the determination is made based on the presence / absence of registration in the URL, the operation (work) that the user performs only to teach the system about the likes and dislikes of the Web page can be eliminated.
(B)第2の実施形態
次に、本発明による文書嗜好学習システム、方法及びプログラムを、Webページ閲覧システム、方法及びプログラムに適用した第2の実施形態を、図面を参照しながら詳述する。
(B) Second Embodiment Next, a second embodiment in which the document preference learning system, method and program according to the present invention are applied to a Web page browsing system, method and program will be described in detail with reference to the drawings. .
図4は、第2の実施形態におけるWebページ閲覧システムの機能的構成を示すブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一、対応符号を付して示している。 FIG. 4 is a block diagram showing a functional configuration of the Web page browsing system in the second embodiment. The same and corresponding parts as those in FIG. 1 according to the first embodiment are assigned the same and corresponding reference numerals. Show.
図4において、第2の実施形態のWebページ閲覧システム1Aは、入力部10、表示部11、通信部12、閲覧制御部13A、ページ特徴量形成部14、ページ特徴量記憶部15、嗜好文書判定部16及び閲覧時間計時部18を有する。なお、ブックマーク記憶部17も存在するが、第2の実施形態の特徴から離れているので、図4では図示を省略している。
In FIG. 4, the web page browsing system 1A of the second embodiment includes an
閲覧時間計時部18は、閲覧制御部13Aの制御下で、あるWebページがユーザの閲覧に供している時間(URLへの滞在時間)を計時するものである。閲覧時間計時部18は、例えば、あるWebページを表示部11に表示させた開始時点から、表示を終了させる時点までの時間を閲覧時間として計時する。終了時点は、他のWebページの表示に切り替えられた時点やブラウザを閉じる操作がなされた時点などが該当する。
The browsing
この第2の実施形態では、Webページの閲覧時間(URLへの滞在時間)は、ユーザの関心が高いページが、低いページより長くことに基づいて、ユーザの好き嫌い(関心の有無)を自動的に捉える指標に採用したものである。 In this second embodiment, the browsing time (stay time at URL) of the Web page is automatically set to the user's likes and dislikes (presence / absence of interest) based on the fact that the user's high interest page is longer than the low page. It is adopted as an index to grasp.
図5は、第2の実施形態に関し、あるWebページについて、ユーザの文書嗜好を学習する際の全体の動作の流れを示しており、第1の実施形態に係る図2との同一ステップには、同一符号を付して示している。 FIG. 5 shows the flow of the entire operation when learning the user's document preference for a certain Web page regarding the second embodiment, and the same steps as FIG. 2 according to the first embodiment include These are shown with the same reference numerals.
この第2の実施形態の場合、図5に示すように、ユーザの好き嫌いを判別するステップ303が、ブックマークの登録有無(ステップ103)ではなく、閲覧時間が閾値を超えたか否かで行うようになっている。その他の処理ステップは、第1の実施形態と同様である。
In the case of the second embodiment, as shown in FIG. 5, the
第2の実施形態の閲覧制御部13Aは、閲覧時間が閾値を超えていると、対象となっているWebページの特徴量を、ページ特徴量記憶部15に、ユーザが好きな(関心有り)Webページの特徴量として記憶し、閲覧時間が閾値以下であると、対象となっているWebページの特徴量を、ページ特徴量記憶部15に、ユーザが嫌いな(関心無し)Webページの特徴量として記憶し(ステップ104)、図5に示す一連の処理を終了する。
When the browsing time exceeds the threshold, the
第2の実施形態によれば、ユーザ嗜好をWebページから学習する際、対象となっているWebページに対するユーザの好き嫌い(関心の有無)を、URLへの滞在時間の長短により判定するようにしたので、ユーザがWebページの好き嫌いをシステムに教えるためだけに行う動作(作業)をなくすことができる。 According to the second embodiment, when learning user preferences from a web page, the user's likes and dislikes (presence of interest) for the target web page are determined based on the length of stay in the URL. Therefore, it is possible to eliminate the operation (work) that the user performs only to teach the system about the likes and dislikes of the Web page.
(C)他の実施形態
上記各実施形態におけるユーザの嗜好を自動的に判定する方法は、実施形態のように単独としてWebページ閲覧システムに適用するだけでなく、他の方法と組み合わせて、Webページ閲覧システムに適用するようにしても良い。
(C) Other Embodiments The method for automatically determining the user's preference in each of the above embodiments is not only applied to the web page browsing system as a single unit as in the embodiment, but also in combination with other methods. You may make it apply to a page browsing system.
例えば、自動判定モードを設定できるようにしておき、自動判定モードがオンのときには、上記各実施形態の判定方法を適用し、自動判定モードがオフのときには、従来のように、「好き」アイコンや「嫌い」アイコンを表示させ、ユーザに指定させるようにしても良い。 For example, the automatic determination mode can be set, and when the automatic determination mode is on, the determination method of each of the above embodiments is applied. When the automatic determination mode is off, the “like” icon or A “dislike” icon may be displayed and designated by the user.
また例えば、ページ特徴量記憶部15に特徴量を記憶させたページ数が好き嫌い合わせて所定ページ数になるまでは、「好き」アイコンや「嫌い」アイコンを表示させる方法を適用し、それ以降は、上記各実施形態の判定方法を適用するようにしても良い。
In addition, for example, a method of displaying a “like” icon or a “dislike” icon is applied until the number of pages in which the feature amount is stored in the page feature
さらに例えば、第1及び第2の実施形態の方法を組み合わせるようにしても良い。例えば、URLがブックマーク登録されたWebページは直ちに好きと判定すると共に、ブックマーク登録されなかったものについては、さらに、閲覧時間を確認して好き嫌いの判定を行うようにしても良い。 Further, for example, the methods of the first and second embodiments may be combined. For example, it may be determined that a Web page whose URL is bookmarked is immediately liked, and for those that are not bookmarked, the browsing time may be confirmed to determine whether or not the user likes or dislikes.
上記各実施形態では、好き嫌いという2分類で判定するものを示したが、分類を増加させるようにしても良い。例えば、ブックマークの登録に関し、複数のフォルダのいずれかに登録し得る場合には、好きに関し、複数のサブ分類を設けるようにしても良い。また例えば、閲覧時間を、3つ以上の分けて捉えるようにしても良い。 In each of the above-described embodiments, what is determined by two categories of likes and dislikes is shown, but the number of categories may be increased. For example, when bookmarks can be registered in any of a plurality of folders, a plurality of sub-classes may be provided for likes. Further, for example, the browsing time may be divided into three or more.
上記各実施形態では、学習モードでは、全種類のWebページを好き嫌いの判別対象としたが、種類によっては、好き嫌いの判断対象から除外するようにしても良い。例えば、画像(動画像を含む)の面積が全面積の所定割合を超えるWebページを対象外とするようにしても良く、また、Webページの総トークン数が所定数以下のWebページを対象外とするようにしても良い。 In each of the above embodiments, in the learning mode, all types of Web pages are determined as likes and dislikes, but depending on the types, they may be excluded from likes and dislikes. For example, Web pages in which the area of an image (including moving images) exceeds a predetermined percentage of the total area may be excluded, and Web pages in which the total number of tokens in the Web page is equal to or less than a predetermined number are excluded. You may make it.
上記第1の実施形態では、ブックマークへURLが登録されたWebページを好きと判定するものを示したが、後での処理のために、閲覧に供しているWebページをユーザがファイル保存(ファイル登録)した場合には、そのWebページを好きと扱うようにしても良い。すなわち、将来の処理、利用のために、Webページに係る情報の少なくとも一部を保存する行為をユーザが実行したWebページを好きと判断するようにする。 In the first embodiment, the Web page whose URL is registered in the bookmark is determined to be liked. However, for later processing, the user saves the Web page being browsed as a file (file In the case of registration), the user may treat the Web page as likes. That is, it is determined that the user likes the Web page in which the user has performed the act of saving at least part of the information related to the Web page for future processing and use.
上記第2の実施形態では、閲覧時間に応じた好き嫌いを判断する閾値が固定値のものを示したが、ユーザが可変設定できるようにしても良い。また、システムが、Webページの種類に応じて、複数種類の中から、閾値を選択するようにしても良い。例えば、企業などのトップページと、そのトップページからの木構造の階層において下位のWebページ
とでは、閾値を自動的に切り替えるようにしても良い。トップページか否かは、所定のキーワードの有無やURLの構造などによって判別することができる。
In the second embodiment, the threshold for determining likes and dislikes according to the viewing time is a fixed value. However, the user may be able to variably set the threshold. Further, the system may select a threshold value from a plurality of types according to the type of the Web page. For example, the threshold value may be automatically switched between a top page of a company or the like and a lower Web page in a tree structure hierarchy from the top page. Whether the page is a top page can be determined by the presence of a predetermined keyword, the structure of a URL, and the like.
第2の実施形態に関して言えば、ユーザが、あるWebページの閲覧後、他のWebページの閲覧に移り、その後、閲覧を最初のWebページに戻した場合には(キャッシュにメモリされたものを再表示する)、以下のように取り扱うようにしても良い。最初の閲覧で好き判定されている場合には、後での閲覧を判定外にする。最初の閲覧で嫌い判定された場合には、(1)戻った後の閲覧時間をも閲覧時間に組み入れて判定し直す、又は、(2)当初の閲覧とは無関係に再表示の閲覧時間に基づいて判定し直す。(1)及び(2)の場合共に、再表示を反映させて好き判定された場合には、当初の嫌い判定の情報をページ特徴量記憶部から削除する。 As for the second embodiment, when a user moves to another web page after browsing a certain web page and then returns to the first web page (the one stored in the cache). It may be handled as follows. If it is determined that the user likes the first browsing, the subsequent browsing is excluded from the determination. If it is determined that the user dislikes the first browsing, (1) the browsing time after returning is also included in the browsing time and re-determination is performed, or (2) the viewing time is displayed again regardless of the initial browsing. Re-determine based on. In both cases (1) and (2), when a determination is made that the re-display is reflected, the initial dislike information is deleted from the page feature amount storage unit.
上記各実施形態に記載した方法は、インターネット上に接続されるパソコン、携帯端末機器(例えば、携帯電話、PDA)などが接続されるLAN、電話回線、専用線、無線ネットワークなどの回線を使って構築される通信ネットワークから利用可能であり、あらゆるシステムへの最適な嗜好判定のための情報収集を提供することができる。 The method described in each of the above embodiments uses a line such as a personal computer connected to the Internet, a mobile terminal device (for example, a mobile phone, a PDA) or the like, a LAN, a telephone line, a dedicated line, or a wireless network. It can be used from the constructed communication network, and can provide information collection for optimum preference determination to any system.
上記各実施形態では、Webを例に説明したが、本発明はWebに限定せず、任意の通信アプリケーションを用いることができる。例えば、電子メールを用いることも可能である。 In each of the above embodiments, the Web has been described as an example. However, the present invention is not limited to the Web, and any communication application can be used. For example, electronic mail can be used.
また、本発明では、任意の文書を対象とすることが可能である。従って、ネットワーク経由の通信を行うことは必ずしも要件ではない。例えば、CD−ROMなどの記憶媒体から読み出した文書を対象とすることも可能である。 In the present invention, any document can be targeted. Therefore, it is not always a requirement to perform communication via the network. For example, it is possible to target a document read from a storage medium such as a CD-ROM.
1、1A…Webページ閲覧システム、10…入力部、11…表示部、12…通信部、13、13A…閲覧制御部、14…ページ特徴量形成部、15…ページ特徴量記憶部、16…嗜好文書判定部、17…ブックマーク記憶部、18…閲覧時間計時部、20…インターネット。
DESCRIPTION OF SYMBOLS 1, 1A ... Web page browsing system, 10 ... Input part, 11 ... Display part, 12 ... Communication part, 13, 13A ... Browsing control part, 14 ... Page feature-value formation part, 15 ... Page feature-value memory | storage part, 16 ... Preference document determination unit, 17 ... bookmark storage unit, 18 ... browsing time counter, 20 ... Internet.
Claims (6)
上記入力文書に係る情報を、将来の上記入力文書の利用、使用のために保存する行為がなされたか否かを判別し、上記保存する行為がなされたことをユーザが関心ある文書と判別する1条件として、上記入力文書に対するユーザの関心有無を判別する関心判別手段と、
上記入力文書の特徴量を、ユーザが関心ある文書か否かに振り分けて記憶する文書特徴量記憶手段と
を有することを特徴とする文書嗜好学習システム。 A feature quantity acquisition means for obtaining a feature quantity of the input document;
It is determined whether or not an action to save the information related to the input document for the future use and use of the input document has been performed, and it is determined that the action to be stored is a document in which the user is interested 1 As a condition, interest discriminating means for discriminating whether the user is interested in the input document,
A document preference learning system comprising: a document feature amount storage unit that stores a feature amount of the input document according to whether the document is a document of interest to a user.
上記入力文書をユーザが閲覧している時間が閾値を超えたことをユーザが関心ある文書と判別する1条件として、上記入力文書に対するユーザの関心有無を判別する関心判別手段と、
上記入力文書の特徴量を、ユーザが関心ある文書か否かに振り分けて記憶する文書特徴量記憶手段と
を有することを特徴とする文書嗜好学習システム。 A feature quantity acquisition means for obtaining a feature quantity of the input document;
An interest discriminating means for discriminating whether or not the user is interested in the input document, as one condition for discriminating that the user's browsing time of the input document exceeds a threshold as a document of interest to the user;
A document preference learning system comprising: a document feature amount storage unit that stores a feature amount of the input document according to whether the document is a document of interest to a user.
上記特徴量取得手段は、入力文書の特徴量を得、
上記関心判別手段は、上記入力文書に係る情報を、将来の上記入力文書の利用、使用のために保存する行為がなされたか否かを判別し、上記保存する行為がなされたことをユーザが関心ある文書と判別する1条件として、上記入力文書に対するユーザの関心有無を判別し、
上記文書特徴量記憶手段は、上記入力文書の特徴量を、ユーザが関心ある文書か否かに振り分けて記憶する
ことを特徴とする文書嗜好学習方法。 A feature amount acquisition unit, an interest determination unit, and a document feature amount storage unit;
The feature amount acquisition means obtains the feature amount of the input document,
The interest discriminating unit determines whether or not an act of storing the information related to the input document for future use or use of the input document has been performed, and the user is interested in performing the storing operation. As one condition for discriminating from a certain document, the user's interest in the input document is discriminated,
The document feature amount storage means stores the feature amount of the input document according to whether the document is a document of interest to the user or not.
上記特徴量取得手段は、入力文書の特徴量を得、
上記関心判別手段は、上記入力文書をユーザが閲覧している時間が閾値を超えたことをユーザが関心ある文書と判別する1条件として、上記入力文書に対するユーザの関心有無を判別し、
上記文書特徴量記憶手段は、上記入力文書の特徴量を、ユーザが関心ある文書か否かに振り分けて記憶する
ことを特徴とする文書嗜好学習方法。 A feature amount acquisition unit, an interest determination unit, and a document feature amount storage unit;
The feature amount acquisition means obtains the feature amount of the input document,
The interest determination means determines whether the user is interested in the input document as one condition for determining that the time when the user is browsing the input document exceeds a threshold as a document of interest to the user,
The document feature amount storage means stores the feature amount of the input document according to whether the document is a document of interest to the user or not.
入力文書の特徴量を得る特徴量取得手段と、
上記入力文書に係る情報を、将来の上記入力文書の利用、使用のために保存する行為がなされたか否かを判別し、上記保存する行為がなされたことをユーザが関心ある文書と判別する1条件として、上記入力文書に対するユーザの関心有無を判別する関心判別手段と、
上記入力文書の特徴量を、ユーザが関心ある文書か否かに振り分けて記憶する文書特徴量記憶手段と
して機能させるように記述されていることを特徴とする文書嗜好学習プログラム。 Computer
A feature quantity acquisition means for obtaining a feature quantity of the input document;
It is determined whether or not an action to save the information related to the input document for the future use and use of the input document has been performed, and it is determined that the action to be stored is a document in which the user is interested 1 As a condition, interest discriminating means for discriminating whether the user is interested in the input document,
A document preference learning program characterized in that it is described so as to function as a document feature amount storage unit that stores the feature amount of the input document according to whether the document is a document of interest to the user.
入力文書の特徴量を得る特徴量取得手段と、
上記入力文書をユーザが閲覧している時間が閾値を超えたことをユーザが関心ある文書と判別する1条件として、上記入力文書に対するユーザの関心有無を判別する関心判別手段と、
上記入力文書の特徴量を、ユーザが関心ある文書か否かに振り分けて記憶する文書特徴量記憶手段と
して機能させるように記述されていることを特徴とする文書嗜好学習プログラム。
Computer
A feature quantity acquisition means for obtaining a feature quantity of the input document;
An interest discriminating means for discriminating whether or not the user is interested in the input document, as one condition for discriminating that the user's browsing time of the input document exceeds a threshold as a document of interest to the user;
A document preference learning program characterized in that it is described so as to function as a document feature amount storage unit that stores the feature amount of the input document according to whether the document is a document of interest to the user.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006184767A JP2008015694A (en) | 2006-07-04 | 2006-07-04 | Document taste learning system, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006184767A JP2008015694A (en) | 2006-07-04 | 2006-07-04 | Document taste learning system, method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008015694A true JP2008015694A (en) | 2008-01-24 |
Family
ID=39072659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006184767A Pending JP2008015694A (en) | 2006-07-04 | 2006-07-04 | Document taste learning system, method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008015694A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021128553A (en) * | 2020-02-13 | 2021-09-02 | ヤフー株式会社 | Apparatus, method and program for information processing |
-
2006
- 2006-07-04 JP JP2006184767A patent/JP2008015694A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021128553A (en) * | 2020-02-13 | 2021-09-02 | ヤフー株式会社 | Apparatus, method and program for information processing |
JP7145901B2 (en) | 2020-02-13 | 2022-10-03 | ヤフー株式会社 | Information processing device, information processing method and information processing program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020140360A1 (en) | Clipboard-based information pushing method and system, and terminal device | |
JP4806178B2 (en) | Annotation management in pen-based computing systems | |
US6697838B1 (en) | Method and system for annotating information resources in connection with browsing, in both connected and disconnected states | |
US9031885B2 (en) | Technologies for encouraging search engine switching based on behavior patterns | |
US7797635B1 (en) | Electronic search interface technology | |
EP2473937B1 (en) | Table of contents for search query refinement | |
US8135692B2 (en) | Information retrieval apparatus and computer program | |
US7974964B2 (en) | Context based search and document retrieval | |
US20050222981A1 (en) | Systems and methods for weighting a search query result | |
US20070276801A1 (en) | Systems and methods for constructing and using a user profile | |
US10191995B2 (en) | Providing auto-focus for a search field in a user interface | |
JP2004126840A (en) | Document retrieval method, program, and system | |
JP2010503923A (en) | Efficient navigation of search results | |
JP2005115790A (en) | Information retrieval method, information display and program | |
KR20110099225A (en) | Previewing search results for suggested refinement terms and vertical searches | |
CN106708905B (en) | Video content searching method and device | |
WO2022052817A1 (en) | Search processing method and apparatus, and terminal and storage medium | |
JP2009509266A (en) | Structured data navigation | |
JP2002073677A (en) | Device for collecting personal preference information on reader and information reading support device using the information collecting device | |
WO2021129122A1 (en) | Display method for book query page, electronic device and computer storage medium | |
CN106708885A (en) | Method and device for achieving searching | |
JP2009026249A (en) | Browsing-history-editing terminal, program, and its method | |
KR100913733B1 (en) | Method for Providing Search Result Using Template | |
CN110309324A (en) | A kind of searching method and relevant apparatus | |
JP2018537737A (en) | Cumulative search processing method and apparatus, terminal, and storage medium |