[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5311378B2 - 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法 - Google Patents

特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法 Download PDF

Info

Publication number
JP5311378B2
JP5311378B2 JP2008167639A JP2008167639A JP5311378B2 JP 5311378 B2 JP5311378 B2 JP 5311378B2 JP 2008167639 A JP2008167639 A JP 2008167639A JP 2008167639 A JP2008167639 A JP 2008167639A JP 5311378 B2 JP5311378 B2 JP 5311378B2
Authority
JP
Japan
Prior art keywords
feature word
category
keyword
computer
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008167639A
Other languages
English (en)
Other versions
JP2010009307A (ja
Inventor
禎夫 黒橋
知秀 柴田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyoto University
Original Assignee
Kyoto University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyoto University filed Critical Kyoto University
Priority to JP2008167639A priority Critical patent/JP5311378B2/ja
Publication of JP2010009307A publication Critical patent/JP2010009307A/ja
Application granted granted Critical
Publication of JP5311378B2 publication Critical patent/JP5311378B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法に関するものである。
近年、ブログやソーシャルネットワーキングシステムなどのCGM(Consumer Generated Media)が注目を浴び、ネット上の「クチコミ」が消費者の購買行動に大きな影響を与えている。
CGMの普及に伴い、消費者の興味・関心に即した広告を提示するコンテンツ連動型広告の市場がますます大きくなってきている。
現在運用されているコンテンツ連動型広告としては、Googleアドセンス(非特許文献1参照)、マイクロアド(非特許文献2参照)などがある。
従来のコンテンツ連動型広告の配信システムでは、まず広告主が、広告に対応するキーワードを設定しておく。すると、システムがWebコンテンツを解析し、それに基づき最適な広告を掲載している。
Googleアドセンスホームページ、[online]、[平成20年6月23日検索]、インターネット < http://www.googole.com/adsense/?hl=ja> 株式会社マイクロアドホームページ、[online]、[平成20年6月23日検索]、インターネット < http://www.microad.jp/>
さて、本発明者らは、商品カテゴリそれぞれに対応する特徴語を取得しておき、Webサイトに含まれる特徴語(キーワード)から、当該Webサイトを商品カテゴリによって分類し、その商品カテゴリに応じて広告を表示するという着想を得た。
このようなシステムでは、個々の広告に対して、想定される多種多様なキーワードを設定する必要がなく、個々の広告には予め決まった商品カテゴリを付与すれば足りる。したがって、広告配信システムの運用が容易となる。
ところが、このようなシステムを構築するには、商品カテゴリそれぞれに対応する特徴語を予め用意する必要が生じる。
例えば、「マスカラ」というカテゴリに対しては「アイライナー」、「アイブロウ」、「ビューラー」、「まつ毛」などといった特徴語が必要となる。
各商品カテゴリの特徴語は、カテゴリの多さや新規カテゴリの出現の問題から人手で整備するには大きなコストがかかり、自動獲得が要望される。
そこで、本発明では、カテゴリに対応した特徴語を自動的に学習するためのシステムや、カテゴリに対応した特徴語を用いて広告配信などを行うシステムを提供することを目的とする。
(1)本発明は、所定のカテゴリそれぞれに対応した特徴語を自動的に学習するシステムであって、カテゴリを示す主キーワードをクエリとして、検索エンジンによって複数のWebテキストを取得するWebテキスト取得手段と、前記主キーワードをクエリとして得られた前記複数のWebテキストから、特徴語候補を抽出する特徴語候補抽出手段と、抽出された特徴語候補とカテゴリとの関連度を算出する関連度算出手段と、各カテゴリについて、前記関連度が所定の閾値よりも高い特徴語候補を、当該カテゴリに対応した特徴語として関連付けて記憶する特徴語デーベースと、を備えることを特徴とする特徴語自動学習システムである。
上記本発明によれば、カテゴリに対応した特徴語を自動的に得ることができる。
なお、本発明において、カテゴリを示す主キーワードは、カテゴリの名前が好ましいが、カテゴリの名前に限られるものではない。また、一つのカテゴリについて、主キーワードが一つでもよいし、複数でもよい。
(2)前記関連度算出手段は、検索エンジンが検索対象とするWebテキスト群において、前記主キーワードと前記特徴語候補とが共に出現する度合いを示す共起度を、前記関連度として算出するのが好ましい。
(3)前記関連度算出手段は、前記主キーワードおよび前記特徴語候補をクエリとして検索エンジンによって検索した場合のヒットカウントに基づいて、前記関連度を算出するのが好ましい。
(4)前記関連度算出手段は、前記主キーワードおよび前記特徴語候補をクエリとして検索エンジンによって検索した場合の第1ヒットカウントと、前記主キーワードをクエリとして検索エンジンによって検索した場合の第2ヒットカウントと、前記特徴語候補をクエリとして検索エンジンによって検索した場合の第3ヒットカウントと、に基づいて、前記主キーワードと前記特徴語候補との自己相互情報量を算出するのが好ましい。
(5)一つのカテゴリについて抽出された複数の特徴語候補を絞り込んで、抽出された特徴語候補の数を少なくするための絞込処理手段を更に備え、前記関連度算出手段は、前記絞込処理手段によって絞り込まれた特徴語候補について、前記主キーワードとの関連度を算出するのが好ましい。この場合、抽出された全ての特徴語候補について、主キーワードとの関連度を算出する必要がなく、演算負荷を低減できる。
(6)前記絞込処理手段は、前記Webテキスト取得手段によって取得された前記複数のWebテキストにおいて、前記特徴語候補が出現する頻度に基づいて、一つのカテゴリについて抽出された複数の特徴語候補を絞り込む処理を行うのが好ましい。
(7)前記絞込処理手段は、前記Webテキスト取得手段によって取得された前記複数のWebテキストにおいて、前記特徴語候補が出現する第1頻度と、検索エンジンが検索対象とするWebテキスト群において、前記特徴語候補が出現する第2頻度と、に基づいて、一つのカテゴリについて抽出された複数の特徴語候補を絞り込む処理を行うのが好ましい。
(8)前記絞込処理手段は、抽出された特徴語候補それぞれについて、絞込用演算式によって絞込用スコアを算出し、当該絞込用スコアが、所定の絞込用閾値よりも大きいものを、絞り込まれた特徴語とするよう構成され、前記絞込用演算式は、第1頻度が高いと絞込用スコアが高くなり、第2頻度が高いと前記絞込用スコアが低くなるよう構成されているのが好ましい。
(9)前記特徴語候補抽出手段は、検索エンジンが検索対象とするWebテキスト群における出現頻度が、所定の頻度閾値よりも高い高頻度語を、特徴語候補から除外する手段を有するのが好ましい。この場合、一般的な語を、特徴語候補から除外することができる。
(10)他の観点からみた本発明は、Webコンテンツの内容に関連した広告を配信するコンテンツ連動型広告配信コンピュータシステムであって、カテゴリそれぞれに対応する特徴語を記憶した特徴語データベースと、カテゴリそれぞれに対応する広告データを記憶した広告データベースと、広告配信対象のWebコンテンツを解析してキーワードを抽出するキーワード抽出手段と、抽出されたキーワードに基づいて前記特徴語データベースを参照し、前記Webコンテンツに対応する1又は複数のカテゴリを選択する選択手段と、選択されたカテゴリに基づいて前記広告データベースを参照し、選択されたカテゴリの広告データを、広告配信対象のWebコンテンツとともに表示させる手段と、を備え、前記特徴語データベースとして、上述の特徴語自動学習システムによって得られた特徴語データベースを用いることを特徴とするコンテンツ連動型広告配信コンピュータシステムである。
(11)さて、キーワード抽出手段(口語調コンテンツ解析システム)は、解析対象であるWebテキストなどのテキストに対して、形態素解析を行ってキーワードとなる形態素を抽出する形態素解析手段と、Webテキストなどのテキストに口語調テキストが含まれていることによる形態素解析誤りの可能性を検出する検出手段と、形態素解析誤りの可能性が検出された形態素を、キーワードから除外する手段と、を備えることができる。このようにすることで、口語調テキストから適切にキーワードを抽出することができる。
(12)前記検出手段は、前記キーワードとなる形態素の前または後にある形態素に基づいて、形態素解析誤りの可能性を検出するのが好ましい。
(13)前記検出手段は、前記キーワードとなる形態素の前または後にある形態素が、ひらがな1文字、またはカタカナ1文字であって、品詞不明であると判別された場合に、前記キーワードの候補となる形態素形の態素解析誤りの可能性を検出するのが好ましい。
(14)前記検出手段は、前記キーワードとなる形態素の前または後にある形態素が、小文字のひらがな、または小文字のカタカナ1文字である場合に、前記キーワードとなる形態素形の態素解析誤りの可能性を検出するのが好ましい。
(15)他の観点からみた本発明は、検索キーワードに関連した広告を配信する検索連動型広告配信コンピュータシステムであって、カテゴリそれぞれに対応する特徴語を記憶した特徴語データベースと、カテゴリそれぞれに対応する広告データを記憶した広告データベースと、検索キーワードに基づいて前記特徴語データベースを参照し、前記検索キーワードに対応する1又は複数の商品カテゴリを選択する選択手段と、選択されたカテゴリに基づいて前記広告データベースを参照し、選択されたカテゴリの広告データを、Webサイトに表示させる手段と、を備え、前記特徴語データベースとして、上述の特徴語自動学習システムによって得られた特徴語データベースを用いることを特徴とする検索連動型広告配信コンピュータシステムである。
(16)さらに他の観点からみた本発明は、テキストデータの分類コンピュータシステムであって、所定のカテゴリそれぞれに対応する特徴語を記憶した特徴語データベースと、分類対象のテキストデータを解析してキーワードを抽出するキーワード抽出手段と、抽出されたキーワードに基づいて前記特徴語データベースを参照し、前記テキストデータに対応するカテゴリを選択する選択手段と、を備え、前記特徴語データベースとして、上述の特徴語自動学習システムによって得られた特徴語データベースを用いることを特徴とするテキスト分類コンピュータシステムである。
(17)さらに他の観点からみた本発明は、コンピュータを、上述の特徴語自動学習システムとして機能させるためのコンピュータプログラムである。
(18)さらに他の観点からみた本発明は、コンピュータを、上述のコンテンツ連動型広告配信コンピュータシステムとして機能させるためのコンピュータプログラムである。
(19)さらに他の観点からみた本発明は、コンピュータを、上述の検索連動型広告配信コンピュータシステムとして機能させるためのコンピュータプログラムである。
(20)さらに他の観点からみた本発明は、コンピュータを、上述のテキスト分類コンピュータシステムとして機能させるためのコンピュータプログラムである。
(21)さらに他の観点からみた本発明は、所定のカテゴリそれぞれに対応した特徴語が記憶された特徴語データベースをコンピュータによって自動的に生成する方法であって、コンピュータが、カテゴリを示す主キーワードをクエリとして、検索エンジンによって複数のwebテキストを取得するステップと、コンピュータが、前記主キーワードをクエリとして得た前記複数のWebテキストから、特徴語候補を抽出するステップと、コンピュータが、前記主キーワードと前記特徴語候補との関連度を算出するステップと、コンピュータが、各カテゴリについて、前記関連度が所定の閾値よりも高い特徴語候補を、当該カテゴリに対応した特徴語として関連付けて特徴語データベースに記憶するステップと、を含むことを特徴とする特徴語データベース自動生成方法である。
(22)さらに他の観点からみた本発明は、Webコンテンツの内容に関連した広告をコンピュータによって配信する方法であって、コンピュータが、広告配信対象のWebコンテンツを解析してキーワードを抽出するステップと、コンピュータが、抽出されたキーワードに基づいて、上述の特徴語データベース自動生成方法で得られた前記特徴語データベースを参照し、前記Webコンテンツに対応する1又は複数のカテゴリを選択するステップと、コンピュータが、選択されたカテゴリに基づいて、カテゴリそれぞれに対応する広告データを記憶した広告データベースを参照し、選択されたカテゴリの広告データを、広告配信対象のWebコンテンツとともに表示させるステップと、を含むことを特徴とする方法である。
(23)さらに他の観点からみた本発明は、検索キーワードに関連した広告をコンピュータによって配信する方法であって、コンピュータが、検索キーワードに基づいて、上述の特徴語データベース自動生成方法で得られた前記特徴語データベースを参照し、前記検索キーワードに対応する1又は複数のカテゴリを選択するステップと、コンピュータが、選択された商品カテゴリに基づいて、カテゴリそれぞれに対応する広告データを記憶した広告データベースを参照し、選択されたカテゴリの広告データを、Webサイトに表示させるステップと、を含むことを特徴とする方法である。
(24)さらに他の観点からみた本発明は、テキストデータをコンピュータによって分類する方法であって、分類対象のテキストデータを解析してキーワードを抽出するステップと、抽出されたキーワードに基づいて、上述の特徴語データベース自動生成方法で得られた前記特徴語データベースを参照し、前記テキストデータに対応するカテゴリを選択するステップと、を含むことを特徴とする方法である。
本発明によれば、カテゴリに対応した特徴語データベースを自動的に生成することができる。
以下、本発明の実施形態を図面に基づいて説明する。なお、本発明の第1の実施形態としてコンテンツ連動型広告配信コンピュータシステムを説明し、本発明の第2の実施形態として検索連動型広告配信コンピュータシステムを説明する。
[1.コンテンツ連動型広告配信コンピュータシステム]
[1.1 システム全体構成]
図1〜図7は、第1実施形態に係るコンテンツ連動型広告配信コンピュータシステム(以下、単に「本システム」という)1を示している。
本システム1は、ブログ(ウェブログ;weblog)などのCGM型のWebコンテンツとともに広告(広告データ)を、インターネット経由で配信し、ユーザ端末2の画面上にブログなどのWebコンテンツと共に広告を表示させるためのものである。
本システム1は、ブログサービスを提供するための処理を行うブログサーバ11、ブログを解析してブログを商品カテゴリにマッピングする処理を行うマッピングサーバ12、ブログとともに表示させる広告データを管理する広告サーバ13、商品カテゴリそれぞれに対応する特徴語を自動学習する特徴語学習サーバ14を備えている。
また、ブログサーバ11はブログテキストのデータを蓄積するためのブログデータベース11aを備え、広告サーバ13は広告データを蓄積した広告データベース13aを備え、特徴語学習サーバ14は、特徴語データベース14aを備えている。
本システムにおける上記の各機能は、コンピュータプログラムがコンピュータによって実行されることによって実現される。
なお、本システム1を構成する各サーバやデータベースは、それぞれが別々のコンピュータによって構成され、それらがネットワークによって接続されていてもよいし、一つのコンピュータの中に複数のサーバやデータベースの機能を実現するコンピュータプログラムが搭載されていてもよい。
[1.2 特徴語学習サーバ(特徴語自動学習システム)]
図2は、特徴語学習サーバ14の機能ブロックを示している。本システム1では、広告配信のため各ブログ記事に商品カテゴリを付与する。このため、特徴語学習サーバ14では、各カテゴリに対応した特徴語を生成する。
図3に示すように、特徴語学習サーバ14は、所定の商品カテゴリのカテゴリ名をクエリ(検索キーワード)として、検索エンジンによって検索を行って、インターネット上から所定数のWebテキストを収集する。そして、特徴語学習サーバ14は、あるカテゴリ名で収集されたWebテキストから特徴語を抽出し、それらの特徴語を前記カテゴリに対応付ける。
さて、本実施形態では、商品カテゴリとして、財団法人流通システム開発センターのJICFS(JAN Item Code File Service)分類を用いる。JICFSとは、商品情報を一元的に管理するためのデータベースシステムである。JICFS分類は、大分類、中分類、小分類、細分類の4レベルで構成されており、例えば、細分類「醤油」は、(食品)−(加工食品)−(調味料)−(醤油)という分類となっている。本実施形態では、前記細分類(2161カテゴリ)を商品カテゴリとして採用する。
図2に戻り、特徴語学習サーバ14は、検索エンジン141と、Webテキストから特徴語の候補を抽出する特徴語候補抽出部142と、抽出された特徴語候補の絞り込みを行う絞込処理部143と、絞り込まれた特徴語候補それぞれとカテゴリ名との関連度(自己相互情報量)を算出する関連度算出部144と、関連度(自己相互情報量)と閾値との比較を行ってカテゴリに対応する特徴語を決定するための閾値比較部145と、を備えている。
検索エンジン141は、本システムに予め記憶された商品カテゴリ(JICFS分類)の各カテゴリ名Cをクエリ(検索キーワード)として、インターネット上のWebサーバ3、または検索エンジン自身が保有するWebテキストから所定数(最大1000件)を取得する。
なお、商用の検索エンジンAPIでは十分なテキスト量を得ることができないため、本実施形態では、本発明者らが開発した検索エンジン基盤TSUBAKI(http://tsubaki.ixnlp.nii.ac.jp/index.cgi)を、本システム1の検索エンジン141として採用した。
前記特徴語候補抽出部142は、検索エンジン141によって取得したWebテキストから特徴語候補の抽出を行う。特徴語候補抽出部142は、Webテキストの形態素解析を行って所定の語を抽出する形態素解析器142aと、形態素解析器によって抽出された語のうち、特徴語候補として明らかに不適切な語を除外する除外部142bと、を備えている。
形態素解析器142aは、取得した最大1000件のWebテキストに対して、形態素解析を行い、Webテキストを形態素(基本的語彙)に分解するとともに、各形態素の品詞を決定する。なお、この形態素解析器142aでは、品詞の決定できない形態素については未定義語とする。
本実施形態では、形態素解析器142aとして、日本語形態素解析システムJUMAN(http://nlp.kuee.kyoto-u.ac.jp/nl-resource/juman.html)を採用した。
形態素解析器142aは、形態素である語のうち、品詞が名詞または未定義語である語と、その連続である複合名詞を抽出する(ただし、細分類が時相名詞のもの、ひらがな1文字、カタカナ1文字を除く)。
ここで、形態素解析器142aが抽出した語は、JUMANが出力する代表表記で扱う。これにより、例えば、「喉」、「のど」、「ノド」を、同一の代表表記「喉」で扱うことができ、表記の揺れを解消することができる。
形態素解析器142aが抽出した多数の語(名詞、未定義語、複合名詞)には、一般的な語であって、特徴語として適切でない語(例えば、「俺」)が含まれている場合がある。このような一般的な語は、Web文書における出現頻度が非常に多い。
そこで、特徴語候補抽出部142の除外部142では、形態素解析器142aが抽出した多数の語のうち、Webテキストにおける高頻度語を特徴語の候補として不適切な語であるとして除外する。
具体的には、除外部142bは、形態素解析器142aが抽出した多数の単語(形態素)それぞれを検索キーワード(クエリ)として、検索エンジン141によって検索を実行させる。そして、図4に示すように、形態素解析器142aが抽出した各単語について、検索エンジン141によるヒットカウント(検索エンジンでヒットした文書数;Webテキストにおける出現頻度)を求める。そして、ヒットカウントが頻度閾値である2,000,000以上である単語については、高頻度語として破棄する。
以上の処理により、特徴語候補抽出部142からは、カテゴリ名Cによって得た所定数のWebテキストに含まれる名詞、未定義語、または複合名詞であって、高頻度語を除いたものが、カテゴリ名Cについての特徴語候補wとして出力される。
前記絞込処理部143では、特徴語候補抽出部142から出力された多数の特徴語候補wの絞り込みを行って、一つのカテゴリについて抽出された特徴語候補wの数を少なくする。前記関連度算出部144では、絞り込まれた特徴語候補wそれぞれについて、カテゴリとの関連度を計算する。
ここで、関連度算出部144では、特徴語候補抽出部142によって抽出された全特徴語候補wについて、カテゴリCとの関連度を計算してもよいが、全てのカテゴリCについて多数の特徴語候補との関連度を計算することは計算コストがかかるため、上記のように、絞込処理によって、特徴語候補wの数を減らした上で、関連度を計算するのが好ましい。
本実施形態の絞込処理部143は、絞込用スコアであるLDF・IGDF値を計算するためのLDF・IGDF計算部143aを有して構成されている。絞込処理部143aでは、LDF・IGDF値が大きい上位L件(=50件)の特徴語候補wに絞り込む。
LDF・IGDF計算部143aは、下記式(1)によって、絞込用スコアであるLDF・IGDF値を計算する。
Figure 0005311378
ここで、LDF(w)は、検索エンジン141によってカテゴリCでヒットした上位1000件のWebテキストにおいて、特徴語候補wが出現する文書(テキスト)数(第1頻度)である。
GDF(w)は、検索エンジン141が検索対象とする全てのWebテキスト(Webテキスト群)において、特徴語候補wが出現する文書(テキスト)数(第2頻度)である。
Nは、検索エンジン141が検索対象とする全てのWebテキストの数であり、本実施形態では、N=100,000,000である。
式(1)に示すように、第1頻度を示すLDF(w)が大きくなると、絞込用スコアであるLDF・IGDF値は大きくなる。これは、カテゴリCでヒットしたWebテキストにおける出現頻度が高いということは、カテゴリCとの関連性が高いことを示唆していると考えられるからである。
一方、第2頻度を示すGDF(w)が大きくなると、絞込用スコアであるLDF・IGDF値は大きくなる。これは、検索エンジン141が検索対象とする全てのWebテキストにおける出現頻度が高いということは、特定のカテゴリとの関連性が低いことを示唆していると考えられるからである。
そして、関連度算出部(PMI算出部)144は、絞込処理部143によって絞り込まれた上位50件の特徴語候補wと、カテゴリ名Cとの関連度の算出を行う。
この関連度算出部144は、検索エンジン141が検索対象とするWebテキスト群において、カテゴリ名Cと特徴語候補wとが共に出現する度合い(共起度)を、関連度として算出する。この関連度が高いものが、カテゴリCに対応する特徴語として採用される。
具体的には、関連度算出部144は、各カテゴリ名Cについて、カテゴリ名Cと特徴語候補wとの自己相互情報量(Pointwise Mutual Information, PMI)を算出する。
PMIは、以下の式(2)に従って計算される。
Figure 0005311378
ここで、P(X)は、語Xの生起する確率を示し、Hc(X)は、語Xをクエリ(検索キーワード)として検索エンジン141で検索した場合のヒットカウント(ヒット件数)を示す。なお、Hc(X1,X2)は、語X1と語X2のAND検索のヒットカウントである。
関連度算出部144で算出された関連度(PMI)は、閾値比較部145において、閾値th(=4)と比較される。カテゴリ名Cとの関連度が閾値th=4よりも大きい特徴語候補wが、カテゴリCについての特徴語となる。
特徴語は、カテゴリに対応付けられて特徴語データベース14aに記憶される。なお、特徴語データベース14aの特徴語は、関連度(PMI)の値とともに記憶される。
図5は、特徴語データベース14aの例を示している。例えば、カテゴリ「鼻炎用剤」には、特徴語として「ヒスタミン」、「鎮痛」、「気管支」、「花粉」など23の単語が登録されている。なお、「ヒスタミン」、「鎮痛」、「気管支」、「花粉」の関連度(PMI)は、それぞれ「5.687」、「5.410」、「5.075」、「4.010」である。
なお、特徴語とみなすためのPMIの閾値thは、すべてのカテゴリで同一のため、カテゴリごとに特徴語の数が異なっている。また、ある単語が、複数のカテゴリの特徴語となる場合もある。
以上説明した処理を、各商品カテゴリについて実行することで、各カテゴリに対応する特徴語を記憶した特徴語データベース14aを生成することができる。
なお、特徴語データベース14aを生成する処理を、定期的に実行して、特徴語データベース14aを随時更新しても良い。
[1.3 マッピングサーバ(テキスト分類機能)]
図6は、マッピングサーバ12の機能ブロックを示している。このマッピングサーバ12は、個々のブログ記事(ブログテキスト)を商品カテゴリにマッピングするためのものである。
マッピングサーバ12は、ブログテキスト(携帯ブログテキスト)からマッピング用キーワードを抽出するキーワード抽出部121と、抽出されたキーワードに基づいて、ブログテキストと商品カテゴリとのマッピング情報を生成するマッピング処理部122と、を備えている。
キーワード抽出部121は、ブログテキストの形態素解析を行う形態素解析器(JUMAN)121aと、形態素解析器による形態素解析の誤りの可能性を検出する検出部121bと、解析誤りの可能性がある「あやしい」形態素をキーワードから除外する除外部121cと、を備えている。
形態素解析器121aは、特徴語の学習時と同様に、品詞が名詞(ただし、細分類が時相名詞のもの、ひらがな1文字、カタカナ1文字を除く)または未定義語の形態素(語)を抽出する。
抽出された形態素(語)は、基本的に、マッピング処理部122におけるスコア計算に用いられるキーワードとなる。ただし、本実施形態でマッピング対象(分類対象)とするテキストは、CGMであるブログテキスト(携帯ブログテキスト)であるため、口語調の表現が多い。このような口語調テキストに対して形態素解析を行うと、新聞テキスト等に比べて、形態素解析の誤りが多くみられる。
形態素解析誤りは、以下の例のように、特にひらがな表記の場合に目立つ
(口語調テキストの例1) 言われてたんだな
上記例1の場合、形態素解析を行うと「だな」がキーワードとして抽出される可能性がある。そして、キーワード「だな」は、商品カテゴリ「たな一般」の特徴語となっているため、カテゴリ「たな一般」にスコアが与えられてしまう。
(口語調テキストの例2) 絵をぺそり
上記例2の場合も、形態素解析を行うと「そり」がキーワードとして抽出される可能性がある。
そこで、検出部121bでは、形態素解析誤りの典型的なパターンである「あやしい」ひらがな語(形態素)を検出する。「あやしい」(=形態素解析誤りの可能性がある)とは、以下のようなものである。
解析誤り可能性の検出規則1:前後いずれかの形態素にひらがな1文字またはカタカナ1文字の未定義語(品詞が不明の語)がある。
解析誤り可能性の検出規則2:前後いずれかの形態素が、小文字のひらがな(っ、ゃ、ゅ、ょ、ぁ、ぃ、ぅ、ぇ、ぉ)、または小文字のカタカナ(ッ、ャ、ュ、ョ、ァ、ィ、ゥ、ェ、ォ)である。
上記規則1によれば、上記例2における「そり」は、「そり」の前の「ぺ」が未定義語となるため、「そり」を「あやしい」形態素であると検出することができる。したがって、除外部121cによって「そり」がキーワードから除外される。
また、上記規則2によれば、上記例1における「だな」は、「だな」の後の「ぁ」が小さいひらがなであるため、「だな」を「あやしい」形態素であると検出することができる。したがって、除外部121cによって「だな」がキーワードから除外される。
以上のようにして抽出された語のうち、特徴語データベース14aにおいていずれかのカテゴリCで特徴語となっているものがマッピング用キーワードとされ、マッピング処理部122に与えられる。
マッピング処理部122は、スコア計算部122aと、マッピング部122bとを備えており、マッピング用キーワードに基づいて、スコアを計算し、スコアに基づいてブログ記事を商品カテゴリにマッピングするためのマッピング情報を生成する。
スコア計算部122aは、各カテゴリCについて、Score(C)を、以下の式(3)に従って計算する。
Figure 0005311378
ここで、PMI(C,w)は、カテゴリCとキーワード(特徴語)wとの相互情報量(関連度)であり、特徴語データベースから取得される。tf(w)は、ブログテキスト中におけるキーワードwの頻度を示す。
式(3)によれば、ブログテキスト中に含まれるキーワードが、特徴語データベース14aに特徴語として多く登録されているカテゴリほど、高いスコアとなる。高いスコアのカテゴリほど、そのブログテキストとの関連性が高いとみなすことができる。
マッピング部122bでは、スコアの高い順にカテゴリをソートし、スコア上位の1又は複数のカテゴリ(ここでは、3件のカテゴリ)を、ブログに対応するカテゴリとして選択する。選択されたカテゴリは、スコアとともに、マッピング情報として出力され、広告サーバ13に与えられる。
図7は、ブログテキストの商品カテゴリへのマッピング例を示している。ただし、図7ではマッピング用キーワード以外の大部分の文章を省略している。図中のブログテキストにおいて下線部を付した「ノド」と「カラオケ」がマッピング用キーワードとして抽出された。そして、図示のブログテキストに対応する商品カテゴリとして、「カラオケ・歌集・歌謡曲楽譜」(スコア4.726)、「トローチ剤」(スコア4.554)、「うがい薬」(スコア4.019)が選択されている。
マッピング情報を受け取った広告サーバ13は、当該マッピング情報に基づいて、広告データベース13aを参照し、ブログとともに表示する1又は複数の広告データを選択する。広告データベース13aには、広告データが商品カテゴリごとに分類して蓄積されており、広告サーバ13は、マッピング情報が示す商品カテゴリの広告データを選択することで、ブログとともに表示する1又は複数の広告データ決定することができる。
広告サーバ13が選択した広告データは、ブログテキスト等とともにユーザ端末2へ配信され、ブログ上に表示される。
[1.4 実験例]
上記した特徴語学習サーバ14によって、JICFSカテゴリの特徴語を自動学習した。ここで、JICFSカテゴリのうち、「その他」という文字を含むものを除いた1771カテゴリを用いた。なお、カテゴリ名から「その他」を除いた文字列が別のカテゴリとして存在していることが多いため、「その他」という文字を含むものを除いた。例えば「電子ゲーム」と「電子ゲームその他」というカテゴリがあるので、「電子ゲームその他」は除いた。
1771カテゴリのうち、一つ以上の特徴語が学習されたカテゴリが1464カテゴリであり、1カテゴリあたりの特徴語の平均数は9.5語であった。
次に、上記したマッピングサーバ12によるブログの自動マッピングの解析結果を評価した。ここでは、ブログとして、ロックウェーブ社の携帯ブログサイトaimew(http://aimew.jp/)を用いた。50件のブログ記事に対して最大3カテゴリを人手で付与し、同じ50件のブログ記事に対してマッピングサーバ12が選択した上位3件のカテゴリと比較して、評価した。評価は、適合率・再現率・F値で行った。結果は、適合率81.0%(64/79)、再現率80.0%(64/80)、F値0.805であり、比較的良好な結果を示した。
[2.検索連動型広告配信コンピュータシステム]
図8および図9は、第2実施形態に係る検索連動型広告配信コンピュータシステム(以下、単に「本システム」という)101を示している。
本システム101は、検索エンジンに対する検索キーワードに関連する広告(広告データ)を、インターネット経由で配信し、ユーザ端末2の画面上に、検索結果などを示すwebコンテンツなどと共に広告を表示させるためのものである。
本システム101は、ユーザに対してインターネットの検索サービスを提供するための処理を行う検索エンジン111、検索エンジン111へ入力された検索キーワードを解析して検索結果画面を商品カテゴリにマッピングする処理を行うマッピングサーバ112、検索結果とともに表示させる広告データを管理する広告サーバ13、商品カテゴリそれぞれに対応する特徴語を自動学習する特徴語学習サーバ14などを備えている。
なお、第2実施形態に係る本システム101において、特に説明をしない点については、第1実施形態のものと同様である。また、第1実施形態と同様の機能については、図面において同じ符号を付している。
第2実施形態の本システム101が、第1実施形態の本システム1と異なる点は、第1実施形態におけるブログサーバ11が検索エンジン111に置き換わっている点と、マッピングサーバ112が図9に示す構成となっている点である。
第2実施形態におけるマッピングサーバ112は、検索エンジン111から検索キーワードが、マッピング用キーワードとして与えられるため、キーワード抽出部121が必要ない。
このため、マッピングサーバ112は、マッピング処理122だけを有して構成されている。
マッピング処理部122は、与えられた1又は複数の検索キーワードをマッピング用キーワードとして、第1実施形態と同様の処理を行ってマッピング情報を生成する。
広告サーバ13は、マッピング情報に基づいて、広告データベース13aを参照し、検索結果等とともに表示する1又は複数の広告データを選択する。
広告サーバ13が選択した広告データは、検索結果等とともにユーザ端末2へ配信され、検索結果とともに表示される。
[3.その他のシステムへの応用]
第1実施形態および第2実施形態の本システム1,101は、広告配信に関するシステムであったが、マッピングサーバ12,112および特徴語学習サーバ14の機能は、Webテキストなどの文章を所定のカテゴリに分類することが必要な他のシステムにも利用できる。つまり、第1実施形態および第2実施形態の本システム1,101は、テキストの分類コンピュータシステムとして捉えることもできる。
なお、本発明は、上記実施形態に限定されるものではなく、様々な変形が可能である。
例えば、カテゴリは、商品カテゴリに限られるものではなく、どのようなカテゴリであってもよい。
また、上記実施形態では、最大1000件のWebテキストを検索エンジン141によって収集する際のクエリ(検索キーワード)を「カテゴリ名」自体としたが、クエリは、カテゴリ名そのものである必要はなく、検索に適した用語を採用してもよい。例えば、カテゴリ「スキー防具」のようにカテゴリ名から具体的な商品が連想しにくい場合、カテゴリ名そのものをクエリとすると、収集されるWebテキストが不適切となる可能性がある。このような場合に対処するため、クエリ(主キーワード)としては、そのカテゴリにおける具体的な製品名など、別の用語を採用してもよい。また、カテゴリ名と具体的な製品名などのAND検索を行っても良い。
さらに、形態素の解析誤りの可能性を検出するための規則は、例示したものに限られず、他の規則を含めても良い。他の規則としては、例えば、「雷は見てるんは綺麗やけど音は嫌い。」といったテキストにおける「やけど」を、「あやしい」形態素としてみなすもの含めることができる。
さらに、「スパイダース」の「ダース」が、カテゴリ「ラクロスボール」の特徴語となっている場合、「ダース」をマッピング用キーワードとして抽出しない方がよい。このため、ブログテキストの固有表現解析を行い、固有表現内の形態素は、マッピング用キーワードとみなさないようにすることができる。
さらに、ブログ記事中の多義語の曖昧性を解消する処理を行うのが好ましい。例えば、「・・・ブランコに乗る」の「ブランコ」が、カテゴリ「遊具」だけでなく、カテゴリ「釣用履物」の特徴語となっている(釣りで、ブランコ仕掛けというものがある)。この問題は、多義語の曖昧性を解消することで対処できる。
コンテンツ連動型広告配信コンピュータシステムの構成図である。 特徴語学習サーバの構成図である。 特徴語学習サーバの処理の概念図である。 単語のヒットカウントを示す表である。 特徴語データベースの構成図である。 マッピングサーバの構成図である。 マッピング処理実行結果の具体例を示す図である。 検索連動型広告配信コンピュータシステム マッピングサーバの構成図である。
符号の説明
1 コンテンツ連動型広告配信コンピュータシステム(テキスト分類システム)
2 ユーザ端末
3 Webサーバ
11 ブログサーバ
11a ブログデータベース
12 マッピングサーバ
13 広告サーバ
13a 広告データベース
14 特徴語学習サーバ(特徴語自動学習システム)
14a 特徴語データベース(特徴語自動学習システム)
141 検索エンジン
142 特徴語候補抽出部
143 絞込処理部
144 関連度算出部
145 閾値比較部
121 キーワード抽出部
121a 形態素解析器
121b 形態素解析誤り検出部
121c 解析誤り形態素除外部
122 マッピング処理部
122a スコア計算部
122b マッピング部
101 検索連動型広告配信コンピュータシステム(テキスト分類システム)
111 検索エンジン
112 マッピングサーバ
C カテゴリ名
w 特徴語(候補)

Claims (22)

  1. 所定のカテゴリそれぞれに対応した特徴語を自動的に学習するシステムであって、
    カテゴリを示す主キーワードをクエリとして、検索エンジンによって複数のWebテキストを取得するWebテキスト取得手段と、
    前記主キーワードをクエリとして得られた前記複数のWebテキストから、特徴語候補を抽出する特徴語候補抽出手段と、
    抽出された特徴語候補とカテゴリとの関連度を算出する関連度算出手段と、
    各カテゴリについて、前記関連度が所定の閾値よりも高い特徴語候補を、当該カテゴリに対応した特徴語として関連付けて記憶する特徴語データベースと、
    を備え
    前記関連度算出手段は、検索エンジンが検索対象とするWebテキスト群において、前記主キーワードと前記特徴語候補とが共に出現する度合いを示す共起度を、前記主キーワードおよび前記特徴語候補をクエリとして検索エンジンによって検索した場合のヒットカウントに基づいて、前記関連度として算出する
    ことを特徴とする特徴語自動学習システム。
  2. 前記関連度算出手段は、
    前記主キーワードおよび前記特徴語候補をクエリとして検索エンジンによって検索した場合の第1ヒットカウントと、
    前記主キーワードをクエリとして検索エンジンによって検索した場合の第2ヒットカウントと、
    前記特徴語候補をクエリとして検索エンジンによって検索した場合の第3ヒットカウントと、
    に基づいて、前記主キーワードと前記特徴語候補との自己相互情報量を算出する請求項1記載の特徴語自動学習システム。
  3. 一つのカテゴリについて抽出された複数の特徴語候補を絞り込んで、抽出された特徴語候補の数を少なくするための絞込処理手段を更に備え、
    前記関連度算出手段は、前記絞込処理手段によって絞り込まれた特徴語候補について、前記主キーワードとの関連度を算出する
    請求項1又は2記載の特徴語自動学習システム。
  4. 前記絞込処理手段は、前記Webテキスト取得手段によって取得された前記複数のWebテキストにおいて、前記特徴語候補が出現する頻度に基づいて、一つのカテゴリについて抽出された複数の特徴語候補を絞り込む処理を行う請求項記載の特徴語自動学習システム。
  5. 前記絞込処理手段は、
    前記Webテキスト取得手段によって取得された前記複数のWebテキストにおいて、前記特徴語候補が出現する第1頻度と、
    検索エンジンが検索対象とするWebテキスト群において、前記特徴語候補が出現する第2頻度と、
    に基づいて、一つのカテゴリについて抽出された複数の特徴語候補を絞り込む処理を行う請求項記載の特徴語自動学習システム。
  6. 前記絞込処理手段は、抽出された特徴語候補それぞれについて、絞込用演算式によって絞込用スコアを算出し、当該絞込用スコアが、所定の絞込用閾値よりも大きいものを、絞り込まれた特徴語候補とするよう構成され、
    前記絞込用演算式は、第1頻度が高いと絞込用スコアが高くなり、第2頻度が高いと前記絞込用スコアが低くなるよう構成されている
    請求項記載の特徴語自動学習システム。
  7. 前記特徴語候補抽出手段は、検索エンジンが検索対象とするWebテキスト群における出現頻度が、所定の頻度閾値よりも高い高頻度語を、特徴語候補から除外する手段を有する
    請求項1〜のいずれか1項に記載の特徴語自動学習システム。
  8. Webコンテンツの内容に関連した広告を配信するコンテンツ連動型広告配信コンピュータシステムであって、
    カテゴリそれぞれに対応する特徴語を記憶した特徴語データベースと、
    カテゴリそれぞれに対応する広告データを記憶した広告データベースと、
    広告配信対象のWebコンテンツを解析してキーワードを抽出するキーワード抽出手段と、
    抽出されたキーワードに基づいて前記特徴語データベースを参照し、前記Webコンテンツに対応する1又は複数のカテゴリを選択する選択手段と、
    選択されたカテゴリに基づいて前記広告データベースを参照し、選択されたカテゴリの広告データを、広告配信対象のWebコンテンツとともに表示させる手段と、
    を備え、
    前記特徴語データベースとして、請求項1〜のいずれか1項に記載の特徴語自動学習システムによって得られた特徴語データベースを用いる
    ことを特徴とするコンテンツ連動型広告配信コンピュータシステム。
  9. 前記キーワード抽出手段は、広告配信対象のWebコンテンツに含まれるテキストに対して、形態素解析を行って前記キーワードとなる形態素を抽出する形態素解析手段と、
    前記Webコンテンツに口語調テキストが含まれていることによる形態素解析誤りの可能性を検出する検出手段と、
    形態素解析誤りの可能性が検出された形態素を、前記キーワードから除外する手段と、
    を備える請求項記載のコンテンツ連動型広告配信コンピュータシステム。
  10. 前記検出手段は、前記キーワードとなる形態素の前または後にある形態素に基づいて、形態素解析誤りの可能性を検出する請求項記載のコンテンツ連動型広告配信コンピュータシステム。
  11. 前記検出手段は、前記キーワードとなる形態素の前または後にある形態素が、ひらがな1文字、またはカタカナ1文字であって、品詞不明であると判別された場合に、前記キーワードの候補となる形態素形の態素解析誤りの可能性を検出する請求項10記載のコンテンツ連動型広告配信コンピュータシステム。
  12. 前記検出手段は、前記キーワードとなる形態素の前または後にある形態素が、小文字のひらがな、または小文字のカタカナ1文字である場合に、前記キーワードとなる形態素形の態素解析誤りの可能性を検出する請求項10または11記載のコンテンツ連動型広告配信コンピュータシステム。
  13. 検索キーワードに関連した広告を配信する検索連動型広告配信コンピュータシステムであって、
    カテゴリそれぞれに対応する特徴語を記憶した特徴語データベースと、
    カテゴリそれぞれに対応する広告データを記憶した広告データベースと、
    検索キーワードに基づいて前記特徴語データベースを参照し、前記検索キーワードに対応する1又は複数の商品カテゴリを選択する選択手段と、
    選択されたカテゴリに基づいて前記広告データベースを参照し、選択されたカテゴリの広告データを、Webサイトに表示させる手段と、
    を備え、
    前記特徴語データベースとして、請求項1〜のいずれか1項に記載の特徴語自動学習システムによって得られた特徴語データベースを用いる
    ことを特徴とする検索連動型広告配信コンピュータシステム。
  14. テキストデータの分類コンピュータシステムであって、
    所定のカテゴリそれぞれに対応する特徴語を記憶した特徴語データベースと、
    分類対象のテキストデータを解析してキーワードを抽出するキーワード抽出手段と、
    抽出されたキーワードに基づいて前記特徴語データベースを参照し、前記テキストデータに対応するカテゴリを選択する選択手段と、
    を備え、
    前記特徴語データベースとして、請求項1〜のいずれか1項に記載の特徴語自動学習システムによって得られた特徴語データベースを用いる
    ことを特徴とするテキスト分類コンピュータシステム。
  15. コンピュータを、請求項1〜のいずれか1項に記載の特徴語自動学習システムとして機能させるためのコンピュータプログラム。
  16. コンピュータを、請求項8〜12のいずれか1項に記載のコンテンツ連動型広告配信コンピュータシステムとして機能させるためのコンピュータプログラム。
  17. コンピュータを、請求項13に記載の検索連動型広告配信コンピュータシステムとして機能させるためのコンピュータプログラム。
  18. コンピュータを、請求項14に記載のテキスト分類コンピュータシステムとして機能させるためのコンピュータプログラム。
  19. 所定のカテゴリそれぞれに対応した特徴語が記憶された特徴語データベースをコンピュータによって自動的に生成する方法であって、
    コンピュータが、カテゴリを示す主キーワードをクエリとして、検索エンジンによって複数のwebテキストを取得するステップと、
    コンピュータが、前記主キーワードをクエリとして得た前記複数のWebテキストから、特徴語候補を抽出するステップと、
    コンピュータが、前記主キーワードと前記特徴語候補との関連度を算出するステップと、
    コンピュータが、各カテゴリについて、前記関連度が所定の閾値よりも高い特徴語候補を、当該カテゴリに対応した特徴語として関連付けて特徴語データベースに記憶するステップと、
    を含み、
    前記主キーワードと前記特徴語候補との関連度を算出するステップでは、検索エンジンが検索対象とするWebテキスト群において、前記主キーワードと前記特徴語候補とが共に出現する度合いを示す共起度を、前記主キーワードおよび前記特徴語候補をクエリとして検索エンジンによって検索した場合のヒットカウントに基づいて、前記関連度として算出する
    ことを特徴とする特徴語データベース自動生成方法。
  20. Webコンテンツの内容に関連した広告をコンピュータによって配信する方法であって、
    コンピュータが、広告配信対象のWebコンテンツを解析してキーワードを抽出するステップと、
    コンピュータが、抽出されたキーワードに基づいて、請求項19記載の生成方法で得られた前記特徴語データベースを参照し、前記Webコンテンツに対応する1又は複数のカテゴリを選択するステップと、
    コンピュータが、選択されたカテゴリに基づいて、カテゴリそれぞれに対応する広告データを記憶した広告データベースを参照し、選択されたカテゴリの広告データを、広告配信対象のWebコンテンツとともに表示させるステップと、
    を含むことを特徴とする方法。
  21. 検索キーワードに関連した広告をコンピュータによって配信する方法であって、
    コンピュータが、検索キーワードに基づいて、請求項19記載の生成方法で得られた前記特徴語データベースを参照し、前記検索キーワードに対応する1又は複数のカテゴリを選択するステップと、
    コンピュータが、選択された商品カテゴリに基づいて、カテゴリそれぞれに対応する広告データを記憶した広告データベースを参照し、選択されたカテゴリの広告データを、Webサイトに表示させるステップと、
    を含むことを特徴とする方法。
  22. テキストデータをコンピュータによって分類する方法であって、
    分類対象のテキストデータを解析してキーワードを抽出するステップと、
    抽出されたキーワードに基づいて、請求項19記載の生成方法で得られた前記特徴語データベースを参照し、前記テキストデータに対応するカテゴリを選択するステップと、
    を含むことを特徴とする方法。
JP2008167639A 2008-06-26 2008-06-26 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法 Active JP5311378B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008167639A JP5311378B2 (ja) 2008-06-26 2008-06-26 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008167639A JP5311378B2 (ja) 2008-06-26 2008-06-26 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法

Publications (2)

Publication Number Publication Date
JP2010009307A JP2010009307A (ja) 2010-01-14
JP5311378B2 true JP5311378B2 (ja) 2013-10-09

Family

ID=41589727

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008167639A Active JP5311378B2 (ja) 2008-06-26 2008-06-26 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法

Country Status (1)

Country Link
JP (1) JP5311378B2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9104779B2 (en) 2005-03-30 2015-08-11 Primal Fusion Inc. Systems and methods for analyzing and synthesizing complex knowledge representations
US10002325B2 (en) 2005-03-30 2018-06-19 Primal Fusion Inc. Knowledge representation systems and methods incorporating inference rules
JP5477006B2 (ja) * 2010-01-15 2014-04-23 三菱電機株式会社 検索装置、及び、プログラム
CN102253936B (zh) * 2010-05-18 2013-07-24 阿里巴巴集团控股有限公司 记录用户访问商品信息的方法及搜索方法和服务器
US10474647B2 (en) 2010-06-22 2019-11-12 Primal Fusion Inc. Methods and devices for customizing knowledge representation systems
JP2012138027A (ja) * 2010-12-27 2012-07-19 Toshiba Corp 情報検索システム、検索キーワード提示方法、およびプログラム
AU2012205031A1 (en) * 2011-01-07 2013-07-18 Primal Fusion Inc. Systems and methods for analyzing and synthesizing complex knowledge representations
JP5670490B2 (ja) * 2012-02-15 2015-02-18 楽天株式会社 カテゴリ判定装置、検索装置、カテゴリ判定方法、カテゴリ判定プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
CN103368986B (zh) 2012-03-27 2017-04-26 阿里巴巴集团控股有限公司 一种信息推荐方法及信息推荐装置
JP5571145B2 (ja) * 2012-10-03 2014-08-13 ヤフー株式会社 広告配信装置および広告配信方法
US20160055526A1 (en) * 2013-03-29 2016-02-25 Rakuten, Inc. Information processing device, information processing method, and information processing program
JP6228425B2 (ja) * 2013-10-25 2017-11-08 株式会社Nttドコモ 広告生成装置および広告生成方法
US10423613B2 (en) 2013-12-20 2019-09-24 Hitachi, Ltd. Data search method and data search system
JP6342678B2 (ja) 2014-03-07 2018-06-13 クラリオン株式会社 関連データ生成装置、関連データ生成方法およびプログラム
CN105488025B (zh) 2015-11-24 2019-02-12 小米科技有限责任公司 模板构建方法和装置、信息识别方法和装置
JP2018072983A (ja) * 2016-10-26 2018-05-10 ヤフー株式会社 検索装置、検索方法および検索プログラム
WO2018163321A1 (ja) * 2017-03-08 2018-09-13 マクセル株式会社 情報処理装置および情報提供方法
JP6967412B2 (ja) * 2017-09-20 2021-11-17 株式会社Screenホールディングス サジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法
JP7365602B2 (ja) * 2021-10-22 2023-10-20 株式会社ソケッツ 広告提供対象設定情報管理装置および方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003132332A (ja) * 2001-10-26 2003-05-09 Fujitsu Ltd 学習データ作成支援装置
JP4219122B2 (ja) * 2002-06-25 2009-02-04 富士通株式会社 特徴語抽出システム
JP2004206391A (ja) * 2002-12-25 2004-07-22 Mitsubishi Electric Corp 文書情報分析装置
JP4613346B2 (ja) * 2004-09-01 2011-01-19 独立行政法人産業技術総合研究所 キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置
JP2007157009A (ja) * 2005-12-08 2007-06-21 Dainippon Printing Co Ltd メール送受信支援システム、サーバ、プログラム、及び、記録媒体
WO2007069663A1 (ja) * 2005-12-13 2007-06-21 Intellectual Property Bank Corp. 技術文書属性の関連性分析支援装置
JP4940399B2 (ja) * 2006-10-12 2012-05-30 株式会社野村総合研究所 広告配信装置およびプログラム

Also Published As

Publication number Publication date
JP2010009307A (ja) 2010-01-14

Similar Documents

Publication Publication Date Title
JP5311378B2 (ja) 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法
US8676827B2 (en) Rare query expansion by web feature matching
US8103650B1 (en) Generating targeted paid search campaigns
US8321278B2 (en) Targeted advertisements based on user profiles and page profile
JP5117379B2 (ja) オンライン会話コンテンツを用いて表示のために広告コンテンツ及び/又は他の関連情報を選択するシステム及び方法
US20130110839A1 (en) Constructing an analysis of a document
US7925610B2 (en) Determining a meaning of a knowledge item using document-based information
US9881059B2 (en) Systems and methods for suggesting headlines
US20120303444A1 (en) Semantic advertising selection from lateral concepts and topics
US20130232154A1 (en) Social network message categorization systems and methods
US20070299815A1 (en) Automatically Displaying Keywords and Other Supplemental Information
US20080319746A1 (en) Keyword outputting apparatus and method
US20120158693A1 (en) Method and system for generating web pages for topics unassociated with a dominant url
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
CN102982153A (zh) 一种信息检索方法及其装置
US20120036144A1 (en) Information and recommendation device, method, and program
JPWO2007108529A1 (ja) 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム
US20130339364A1 (en) Method and system for automatically identifying related content to an electronic text
JP2011108053A (ja) ニュース記事評価システム
JP2011107826A (ja) 行動情報抽出システム及び抽出方法
US20130332276A1 (en) Advertisement management device, advertisement selection device, advertisement management method, advertisement management program and storage medium storing advertisement management program
KR20060025726A (ko) 내용 기반 분류를 이용한 웹사이트 광고 제공 방법 및 그시스템
US8943101B2 (en) Keyword acquiring device, content providing system, keyword acquiring method, a computer-readable recording medium and content providing method
TWI447662B (zh) An ad management apparatus, an advertisement selecting apparatus, an advertisement management method, an advertisement management program, and a recording medium on which an advertisement management program is recorded
JP2011253256A (ja) 関連コンテンツ提示装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110602

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130626

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5311378

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250