[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4015661B2 - 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体 - Google Patents

固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体 Download PDF

Info

Publication number
JP4015661B2
JP4015661B2 JP2004373532A JP2004373532A JP4015661B2 JP 4015661 B2 JP4015661 B2 JP 4015661B2 JP 2004373532 A JP2004373532 A JP 2004373532A JP 2004373532 A JP2004373532 A JP 2004373532A JP 4015661 B2 JP4015661 B2 JP 4015661B2
Authority
JP
Japan
Prior art keywords
morpheme
candidate
probability
expression
specific expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004373532A
Other languages
English (en)
Other versions
JP2006178865A (ja
Inventor
邦子 齋藤
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004373532A priority Critical patent/JP4015661B2/ja
Publication of JP2006178865A publication Critical patent/JP2006178865A/ja
Application granted granted Critical
Publication of JP4015661B2 publication Critical patent/JP4015661B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、膨大なDBから効率良く情報を検索する技術やテキストを要約する技術などにおいては重要な役割を果たす、テキストから人名・地名・組織名などの固有表現を抽出する固有表現抽出処理の技術に関する。
まず、本願で述べる固有表現抽出処理について説明する。最初に、本明細書中の固有表現抽出処理で用いる位置及び文頭文末の特殊記号について定義する。位置とは、文字列の文字と文字の間を指し示し、0から始まり、文頭から文末まで1文字ずつ増えていく数値である。また、固有表現抽出処理における入力文には文頭と文末を意味する特殊記号<s>,</s>を挿入し、これ自身が1つの候補であるとみなす。例えば、入力文が「NTT持株会社社長の和田氏」の場合、文頭文末に特殊記号を挿入すると、各位置と入力文との対応関係は以下のようになる。
Figure 0004015661
本例では、位置0とは、<s>とNの間を、位置3とはTと持との間を、位置13とは氏と</s>の間を指す。位置が入力文の文字数と一致した時が文末に達した時である。また、本例では位置13に達していれば文末と判断する。
各位置における、その位置の直後の文字から始まる形態素候補,固有表現付形態素候補をそれぞれ、その位置の右側形態素候補,右側固有表現付形態素候補と呼ぶ。また、その位置の直前の文字で終了する形態素候補,固有表現付形態素候補をそれぞれ、その位置の左側形態素候補,左側固有表現付形態素候補と呼ぶ。例えば、上記表1では、位置3の右側形態素候補は持株/モチカブ/名詞、左側形態素候補はNTT/NTT/名詞:ntとなる。なお、ここで形態素候補を、「表記/読み/品詞」という形式で表している。
固有表現抽出処理で抽出対象とする固有表現の代表的な例としては、日本語の固有表現抽出技術のワークショップ(略称IREX)で定義されている人名,地名,組織名,金額,日付,割合,固有物名の9種がある。以下、本願ではそれぞれ<PSN>,<LOC>,<ORG>,<MNY>,<DAT>,<PCT>,<ART>と表し、さらにいずれの固有表現でもないことを表すためにNILを追加することにする。以上の10種を固有表現状態と呼ぶ。各固有表現状態は1つ以上の形態素から構成されることを考慮し、固有表現状態の冒頭の形態素とそれ以外の形態素を識別するために、固有表現状態の開始、途中を区別する。以下、本願ではそれぞれB−,I−で表すことにする。なお、NILはこの区別をしない。B−,I−の区別をした固有表現状態を固有表現識別子と呼ぶ。即ち、本願はB−<PSN>,I−<PSN>,B−<LOC>,I−<LOC>,B−<ORG>,I−<ORG>,…,B−<ART>,I−<ART>,NILの19種の固有表現識別子を使用する。例えば、NTT/NTT/名詞:nt/B−<ORG>の固有表現識別子はB−<ORG>であり、固有表現状態は<ORG>である。
上記の条件で固有表現識別子を付与した例を示すと以下のようになる。
NTT/NTT/名詞:nt/B−<ORG>
持株/モチカブ/名詞/I−<ORG>
会社/ガイシャ/名詞/I−<ORG>
社長/シャチョウ/名詞/NIL
の/ノ/助詞/NIL
和田/ワダ/名詞:nr/B−<PSN>
氏/シ/名詞/NIL
「NTT/NTT/名詞:nt 持株/モチカブ/名詞 会社/ガイシャ/名詞」の部分が3つの形態素から構成される固有表現状態<ORG>、「和田/ワダ/名詞:nr」が1つの形態素から構成される固有表現状態<PSN>である。
固有表現抽出処理とは、入力文中の形態素を認定し、1つ以上の形態素から構成される固有表現状態を認定して該当固有表現識別子を付与する処理である。入力文中の形態を認定する処理は、形態素解析処理と呼ばれる。固有表現抽出の手法としては、大きく分けると人手で設定した規則に基づくものと、予めデータから学習した統計的モデルに基づくものがある。前者は、対象とする領域や、固有表現状態の定義の違いにより、改めて設定しなおさなければならないためコストがかかる。一方後者は、学習データを用意しておけば自動学習を用いることにより低コストで実現でき、近年では様々な学習モデルに基づく固有表現抽出法が研究されている。
学習モデルには最大エントロピー法,サポートベクトルマシン,隠れマルコフモデルなど幾つかの手法がある。隠れマルコフモデルは、他の学習モデルと比べて解析精度はやや劣るが、学習時間と解析処理速度が高速で、情報検索のように実時間処理が要求されるアプリケーションに適しているのが特徴である。本件では、隠れマルコフモデルを学習モデルとして利用する固有表現抽出技術に主眼を置くこととする。
隠れマルコフモデルを用いた固有表現抽出の従来技術には、特開2004−46775「固有表現抽出装置並びに固有表現抽出プログラム」(特許文献1)がある。これは、尤度の高い順に上位N個の形態素列候補、即ちNbest形態素列候補を出力する形態素解析部と、Nbest形態素列候補に対して形態素と固有表現状態の同時確率を隠れマルコフモデルに基づいて計算する固有表現抽出部により、従来手法で問題であった形態素候補が1つに限定されることにより形態素と固有表現状態の区切りが一致しない問題、および英語では成果をあげていたが日本語では形態素解析の精度が低くなる問題を解決した固有表現抽出装置である。なお、Nは1以上の整数で予め設定しておく。
従来技術の処理では、Nbest形態素列候補の出力に含まれる全ての形態素候補に対して、前述の19種の固有表現識別子を付与して固有表現付形態素候補を生成する。そして、連続する2つの固有表現付形態素候補の全ての組合せについて、連接確率を隠れマルコフモデルに基づいて計算し、最終的に文全体での連接確率値の積が最大のものから上位M個にあるNbest固有表現付形態素列を得ている。なおMは1以上の整数で予め設定しておく。
このような処理で、連接確率計算が行われる組合せ数を概算すると、入力文を構成する形態素数×固有表現識別子の種類(=19)×Nの2乗となり、処理全体に占める確率計算回数が増大して処理速度が落ちるという問題がある。しかも、実際の組合せを見ると、可能性の非常に低い固有表現付形態素候補が登場したり、明らかにありえない固有表現付形態素候補の組合せが大半を占め、無駄が多い。ここでいう可能性の非常に低い固有表現付形態素候補とは、例えばNTT/NTT/名詞:nt/B−<DAT>となることで、NTTが日付である可能性は非常に低い。また、ありえない固有表現付形態素候補の組合せとは、例えばNTT/NTT/名詞:nt/B−<ORG>、持株/モチカブ/名詞/I−<LOC>となることで、B−<ORG>の次にI−<LOC>が登場することはありえない。
また、固有表現抽出技術の利用目的によっては、抽出する固有表現状態をさらに細かく分類して、例えば組織名を企業名,学校名,政治団体名,…、地名を国名,県名,市名,地形名,…、のようにして、更に種類の数を増やして固有表現抽出をしたいという要求も十分想定される。その場合は益々処理中の候補数が増大し、更なる計算量の増加及び処理速度の低下を招く。
特開2004−46775号公報
隠れマルコフモデルを用いた従来技術には、処理中、各位置での右側及び左側固有表現付形態素候補の組合せ数が多く、計算量が増大して処理速度の低下を招くこと、及び計算する右側及び左側固有表現付形態素候補の組合せには、明らかにありえない、即ち計算することに意味のない組合せが非常に多く含まれ、計算機資源の無駄が多いという問題点がある。
本願発明は、これら2つの問題点を解決することを目的とする。具体的には本願発明の第1の目的は、入力文における各位置での固有表現付形態素候補から尤度の低い候補を減らすことである。また、本願発明の第2の目的は、入力文の各位置で連接する固有表現付形態素候補の組合せから明らかにありえない組合せを削除することで候補数を減らすことである。
本願発明は、前記第1の目的を達成するために、形態素の品詞及び単語タイプに対して当該品詞及び単語タイプをとる固有表現状態の出現確率(尤度)を予め記憶した品詞及び単語タイプ別固有表現出現確率記憶手段と、先行する形態素に対して他の形態素が後続している条件下において先行する形態素のとる固有表現状態の出現確率(尤度)を予め記録した次形態素別固有表現出現確率記憶手段と、入力文を形態素解析して該入力文に含まれる形態素の列の候補(形態素列候補)を抽出する形態素解析手段と、形態素解析手段で抽出した各形態素列候補中の各形態素について該形態素の取りうる固有表現識別子を付することにより固有表現付形態素候補を作成する候補作成手段と、入力文の各位置において、当該位置から始まり且つ前記候補作成手段で作成された固有表現付形態素候補について、前記品詞及び単語タイプ別固有表現出現確率記憶手段に記憶されている出現確率及び前記次形態素別固有表現出現確率記憶手段に記憶されている出現確率を参照して固有表現付形態素候補の出現確率(尤度)を求めて、出現確率が最大のものの一定割合以上の出現確率をもつ固有表現付形態素候補、または、出現確率の最大のものから上位少なくとも1つの固有表現付形態素候補を抽出する第1の絞込実行部と、第1の絞込実行部で抽出された固有表現付形態素候補と、その直前に位置する前記候補作成手段で作成された固有表現付形態素候補との組み合わせを連接ペアデータとして出力する第2の絞込実行部と、第2の絞込実行部の出力した連接ペアデータに対して連接確率値を計算し、更に文頭から当該位置の固有表現付形態素候補までの連接確率値積算値の最大のもの(最大途中確率値)を、当該位置及び当該連接ペアデータとともに最大途中確率データ記憶部に記憶する連接確率計算手段と、前記最大途中確率データ記憶部に記憶されている連接ペアデータを探索して入力文を構成し且つ出現確率の最大のものから上位少なくとも1つの固有表現付形態素候補の列を出力する探索手段とを備えたことを特徴とする。
また、本願発明は、前記第2の目的を達成するために、2つの連続する固有表現付形態素候補の固有表現識別子について接続が許可される組を予め記録した固有表現連接ペア記憶手段を備え、前記第2の絞込実行部は、更に、前記候補作成手段で作成された各固有表現付形態素候補について、固有表現連接ペア記憶手段を参照して当該固有表現付形態素候補の直前に位置し且つ前記候補作成手段で作成された固有表現付形態素候補との接続が許可されている固有表現付形態素候補のみを出力することを特徴とする。
本願発明によれば、入力文の各位置での固有表現付形態素候補から尤度の低い候補が削除されるので、従来技術より少ない演算処理量で入力文の各形態素の固有表現を抽出することができる。
さらに、連接する2つの固有表現付形態素候補の組合せから明らかに有り得ない組合せを取り除くことで候補数を減らすことができるので、さらに少ない演算処理量で入力文の各形態素の固有表現を抽出することができる。
本発明の一実施の形態に係る固有表現抽出装置について図面を参照して説明する。図1は固有表現抽出装置の機能構成図である。
固有表現抽出装置1は、図1に示すように、入力文を形態素解析して形態素候補列を出力する形態素解析部100と、形態素候補列に固有表現状態を付して更に絞込を行うことにより固有表現付形態素候補を作成する絞込部200と、固有表現付形態素候補から最終的な固有表現付形態素候補列を出力する探索処理部300とを備えている。入力文はキーボード等の入力装置や所定の記憶装置やネットワークを介して他の機器から入力されるが具体的な手段は不問である。また、固有表現付形態素候補列はディスプレイ等の出力装置や所定の記憶装置やネットワークを介して他の機器に出力されるが具体的な手段は不問である。
この固有表現抽出装置1は、コンピュータにプログラムをインストールすることにより実現する。プログラムはCD−ROMなどの記録媒体や通信回線等を介してインストールされる。以下、固有表現抽出装置1の各部について詳述する。
形態素解析部100は、形態素解析モデル記憶部110に記憶された形態素解析モデルを参照して、入力文から尤度が最上位のものから順にN個の形態素列候補を抽出してNbest形態素列候補を出力する。この形態素解析処理については従来既知の種々のものと同様なので詳述は省略する。本実施の形態では、出願人が提案した特開平9−288673号公報に記載の技術を用いるものとする。なお、Nbest形態素解析候補を出力する形態素解析装置ならば他のものに差し替えても良い。また、ここで出力するNbest形態素列候補の数であるN(Nは1以上の整数)は、予め設定しておく(本実施形態の例ではN=3)。さらに、本実施の形態では各形態素列候補は、「表記/読み/品詞」で表した形態素候補の組合せで入力文の表記を表したものとするが、「表記/品詞」や「表記/原形/品詞」など、他の組合せを用いても良い。図2に「<s>NTT持株会社社長の和田氏</s>」を入力文とした場合のNbest形態素列候補の一例を示す。
絞込部200は、Nbest形態素列候補から固有表現付形態素候補を作成する候補作成部210と、処理対象とする入力文中の位置を制御する前向制御部220と、入力文中の各位置における右側及び左側固有表現付形態素候補を出力する候補列挙部230と、右側及び左側固有表現付形態素候補を絞り込んで連接する両者の組である連接ペアデータを出力する候補絞込部240と、各連接ペアデータの確率値を抽出計算する連接確率計算部250とを備えている。
候補作成部210の機能構成図を図3に示す。同図に示すように、候補作成部210は、形態素候補作成部211と、固有表現付形態素候補作成部212とからなる。
形態素候補作成部211は、Nbest形態素列候補を入力としてNbest形態素列候補に含まれる各位置の形態素候補をまとめて、各位置を示す番号とこの位置に対応するNbest形態素列候補中の形態素候補を対応付けた形態素候補データを生成して出力し、後段の固有表現付形態素候補作成部212に渡す。
形態素候補データの一例を図4に示す。図4に示すように形態素候補データは、それぞれの位置において、各Nbest形態素列候補中の形態素候補がすべて異なる場合は形態素候補を全て併記する。それぞれの位置において、各Nbest形態素列候補中の形態素候補の全てが同一である場合は、同一となった1つの形態素候補のみを記載する。
固有表現付形態素候補作成部211は、形態素候補データを入力とし、各位置における各形態素候補に予め指定した固有表現識別子を付した固有表現付形態素候補を固有表現付形態素候補データを作成して出力する。固有表現付形態素候補データの一例を図5に示す。図5の例は、図4に例示した形態素候補データを入力とした場合の固有表現付形態素候補データである。
図5の例に示すように、固有表現付形態素候補作成部211は、位置0においては「NTT/NTT/名詞:nt」という形態素候補には上記の固有表現識別子を全て付して計19個の固有表現付形態素候補を生成する。同様に、位置5では2種の形態素候補である「会社/ガイシャ/名詞接尾辞,会社/カイシャ/名詞」にそれぞれ19種の固有表現識別子を付与して計38個の固有表現付形態素候補を生成する。なお文頭文末における特殊記号<s>、</s>に対しては固有表現識別子は付与せずに、このままの状態で1つの固有表現付形態素候補として扱う。
前向制御部220は、以下のステップ1〜6の処理を実行する。なお、本処理の詳細については後述する。
(ステップ1)現位置を文頭(=0)に設定し、ステップ2に進む。
(ステップ2)現位置において、右側固有表現付形態素候補の有無を調べ、あればステップ3に進み、なければステップ5に進む。
(ステップ3)候補列挙部230、候補絞込部240、連接確率計算部250による一連の処理(後述する)を実施させ、ステップ4に進む。
(ステップ4)現位置が文末であるかを調べ、文末でなければステップ5に進み、文末であればステップ6に進む。
(ステップ5)文字位置を1文字進め、ステップ2へ戻る。
(ステップ6)後段の探索処理部300に処理を移す。
候補列挙部230の機能構成図を図6に示す。同図に示すように、候補列挙部230は、右側固有表現付形態素候補列挙部231と、左側固有表現付形態素候補列挙部231とからなる。
右側固有表現付形態素候補列挙部231は、固有表現付形態素候補データを入力として、前向制御部220で制御されている現位置における右側固有表現付形態素候補を列挙し、これを右側データとして出力する。図7に、図5で例示した固有表現付形態素候補データを入力データとした場合の位置3における右側データの一部を例示する。
左側固有表現付形態素候補列挙部231は、右側終了位置データ記憶部261に記憶された右側終了位置データを入力とし、現位置における左側固有表現付形態素候補を列挙し、これを左側データとして出力する。すなわち、左側固有表現付形態素候補列挙部231は、現位置の直前に位置する固有表現付形態素候補を取得する直前候補取得手段として機能する。図8に、位置3における左側データの一例を示す。なお、右側終了位置データ記憶部261には、前記前向制御部220により、初期状態として終了位置0、文頭を表す特殊記号<s>が登録されている。また、右側終了位置データ記憶部261には、後述の処理により新しいデータが追加更新される。
候補絞込部240の機能構成図を図9に示す。候補絞込部240は、2段階の絞込処理を行う。また、この絞込処理に先立ち2種類(ここでは便宜的に絞込Aと絞込Bと称する)の事前処理を行う。このような処理を実現するため、候補絞込部240は、図9に示すように、絞込A:検索キー抽出部241と、絞込A:確率付与部242と、絞込B:次形態素列挙部243と、絞込B:確率付与部244と、第1絞込実行部245と、第2絞込実行部246とを備えている。
絞込A:検索キー抽出部241は、右側データを入力とし、後段の検索処理で用いる検索キーを抽出する。具体的には、各右側固有表現付形態素候補の品詞、単語タイプ、固有表現状態を検索キーとして抽出して、該右側固有表現付形態素候補とそれに対応する検索キーの対を右側検索キーデータとして出力する。図10に右側検索キーデータの一例を示す。
ここで各右側固有表現付形態素候補の単語タイプは、形態素の表記に基づいて予め決められた単語タイプの中から選択して決める。ここでは、予め決められた単語タイプは、漢字、ひらがな、カタカナ、英文字、数字、記号、その他のそれぞれを<kan>,<hira>,<kata>,<alpha>,<num>,<sym>,<misc>と表したものとする。例えば、右側固有表現付形態素候補の表記「NTT」の単語タイプは<alpha>、右側固有表現付形態素候補の表記「社長」の単語タイプは<kan>、のように決定する。形態素の表記から予め定められた単語タイプを選択する方法はパタンマッチなどの従来技術を用いて自由に設定しておけばよく、例えば表記が数字+ある特定の漢字(例えば、年、月、日)である場合には<date>という単語タイプを選択するというパタンマッチ規則を定義しておいた場合には、表記「10月」の単語タイプは<date>と決定する。
絞込A:確率付与部242は、右側検索キーデータを入力とし、各右側固有表現付形態素候補の検索キーを用いて品詞及び単語タイプ別固有表現出現確率記憶部262に記憶されている品詞及び単語タイプ別固有表現出現確率テーブルを参照し、検索キーと合致するインデックスがあれば、対応する確率値(確率A値)を抽出し、右側固有表現付形態素候補と共に右側データAとして出力する。品詞及び単語タイプ別固有表現出現確率テーブルのインデックスに検索キーと合致するものが存在しない場合は、確率A値は0として出力する。図11に右側データAの一例を示す。
ここで、品詞及び単語タイプ別固有表現出現確率記憶部262について説明する。品詞及び単語タイプ別固有表現出現確率とは、形態素が、ある品詞pos及び単語タイプ<type>である条件下で、その形態素がどの固有表現状態NCをとるかの尤度を表した条件付確率P(NC|pos,<type>)である。図12に品詞及び単語タイプ別固有表現出現確率テーブルの一例を示す。同図に示すように、品詞及び単語タイプ別固有表現出現確率テーブルは、形態素の品詞、単語タイプ、固有表現状態の組からなるインデックスと、該インデックスに対応する品詞及び単語タイプ別固有表現出現確率値が格納されたテーブルである。品詞及び単語タイプ別固有表現出現確率テーブルは、予め作成しておき、品詞及び単語タイプ固有表現出現確率記憶部262に記憶しておく。
絞込B:次形態素列挙部243は、右側データ及び固有表現付形態素候補データを入力とし、右側データの各右側固有表現付形態素候補に対して、それぞれの右側固有表現付形態素候補野の次に接続する形態素候補をすべて列挙し、それぞれの右側固有表現付形態素候補について、該右側固有表現付形態素候補と接続するすべての次形態素候補とを対応付けたデータを次形態素データとして出力する。図13に次形態素データの一例を示す。
絞込B:確率付与部244は、次形態素データを入力とし、各右側固有表現付形態素候補の固有表現状態と次形態素との組それぞれを検索キーとして次形態素別固有表現出現確率記憶部263に記憶されている次形態素別固有表現出現確率テーブルを参照し、検索キーと合致するインデックスがあれば、対応する確率値をそれぞれ取得する。次形態素別固有表現出現確率テーブルのインデックスに検索キーと合致するものが存在しない場合は確率値0とする。次に、絞込B:確率付与部244は、各右側固有表現付形態素候補それぞれについて、後続する全ての次形態素の前記確率値の和をとったものを確率B値として求め、該右側固有表現付形態素候補と共に対応する確率B値を右側データBとして出力する。図14に右側データBの一例を示す。
ここで、次形態素別固有表現出現確率記憶部263について説明する。次形態素別固有表現出現確率とは、形態素の次形態素nextが出現している条件下で、その形態素がどの固有表現状態NCをとるかの尤度を表した条件付確率P(NC|next)である。図15に次形態素別固有表現出現確率テーブルの一例を示す。同図に示すように、次形態素別固有表現出現確率テーブルは、形態素の次形態素、形態素の固有表現状態の組からなるインデックスと、該インデックスに対応する次形態素別固有表現出現確率値が格納されたテーブルである。次形態素別固有表現出現確率テーブルは、予め作成しておき、次形態素別固有表現出現確率記憶部263に記憶しておく。
第1絞込実行部245は、前記右側データA及び右側データBを入力とし、各右側固有表現付形態素候補に対する確率A値及び確率B値を取得し、確率A値と確率B値とを重み付け加算したものを、各右側固有表現付形態素候補の絞込AB重み付け確率値として求める。重み付け係数をkとすると絞込AB重み付け確率値の算出式は下記の通りである。重み付け係数kは例えば0.2を用いる。
絞込AB重み付け確率値=k×確率A値+(1−k)×確率B値
次に、第1絞込実行部245は、全右側固有表現付形態素候補のうち、前記絞込AB重み付け確率値が最大の右側固有表現付形態素候補から、絞込AB重み付け確率値が前記最大値の1/10である右側固有表現付形態素候補まで、を抽出することによって第1の絞込みを実施する。そして、抽出した第1絞込後右側固有表現付形態素候補とそれに対応する絞込AB重み付け確率値との組を第1絞込後右側データとして出力し、右側終了位置データ記憶部261に記憶する。図16に第1絞込後右側データの一例を示す。
さらに、前記抽出した第1絞込後右側固有表現付形態素候補について、それぞれの表記の終了位置を求め、終了位置と第1絞込後右側固有表現付形態素候補の組を右側終了位置データ記憶部261に記憶された右側終了位置データに追加して記録する。図17に右側終了位置データ記憶部261に記憶された右側終了位置データの一例を示す。
なお、上記の例では、第1の絞込みは、全ての絞込AB重み付け確率値のうち絞込AB重み付け確率値が最大の右側固有表現付形態素候補から絞込AB重み付け確率値が前記最大のものの1/10である右側固有表現付形態素候補までを抽出する規則により行っている他の規則に従って抽出するようにしてもよい。例えば、絞込AB重み付け確率値が最大のものから上位N個の右側固有表現付形態素候補を抽出する規則としてもよい。すなわち、全右側固有表現付形態素候補から、絞込AB重み付け確率値が上位であるものを抽出する規則であれば、どのような規則を用いてもよい。なお、Nは1以上の整数であり、この数値はルール内で設定する。
第2絞込実行部246は、左側データと第1絞込後右側データとを入力とし、左側データから左側固有表現付形態素候補、第1絞込後右側データから第1絞込後右側固有表現付形態素候補を取得して、全ての組合せの連接ペアを生成する。ここで、第2絞込実行部246は、固有表現連接ペア記憶部264に記憶されている固有表現連接ペアテーブルを参照して、固有表現識別子の接続が固有表現連接ペアテーブルに記録された場合の連接ペアのみを、第2絞込後左側固有表現付形態素候補と第2絞込後右側固有表現付形態素候補との組として、この組を連接ペアデータとして出力する。図18に連接ペアデータの一例を示す。候補絞込部240の絞込処理により得られた連接ペアデータは、後述するように連接確率計算部250を介して最大途中確率データ記憶部268に記憶される。
前記固有表現連接ペアテーブルは、図19に例示するように、2つの連続する固有表現付形態素候補の固有表現識別子の連接パタンの中で、接続が許可される組合せを記録したテーブルである。例えば、B−<ORG> I−<ORG>の連接はテーブルに存在するが、B−<ORG> I−<PSN>の連接はテーブルに存在しない。固有表現連接ペアテーブルは、予め作成しておき、固有表現連接ペア記憶部264に記憶しておく。
なお、本発明に係る固有表現抽出装置は、第1絞込実行部245の処理を行っていれば、第2絞込実行部246の処理は必ずしも行う必要はない。この場合の固有表現抽出装置は、図1から固有表現連接ペア記憶部264が取り除かれた構成となる。また、候補絞込部240は、第2絞込実行部246の処理の代わりに、左側データと第1絞込後右側データを入力とし、連接ペアデータとして前者から左側固有表現付形態素候補、後者から第1絞込後右側固有表現付形態素候補を取得して、全ての組合せの連接ペアを生成し、これら全ての組を連接ペアデータとして出力する連接ペアデータ生成処理を行えばよい。さらにこの場合、候補絞込部240の出力である連接ペアデータは、第2絞込後左側固有表現付形態素候補と第2絞込後右側固有表現付形態素候補との組ではなく、左側固有表現付形態素候補と第1絞込後右側固有表現付形態素候補との組合せから構成されるため、後述の連接確率計算部250、探索処理部300では、第2絞込後左側固有表現付形態素候補、第2絞込後右側固有表現付形態素候補、と記載されているところを、それぞれ、左側固有表現付形態素候補、第1絞込後右側固有表現付形態素候補と読み替えて処理を行えばよい。
連接確率計算部250の機能構成図を図20に示す。同図に示すように、連接確率計算部250は、連接確率抽出計算部251と、最大途中確率計算部252とからなる。
連接確率抽出計算部251は、連接ペアデータを入力とし、連接ペアデータ中の各連接ペアについて、まず後述の条件判定を行って、次に前記条件判定の判定結果に基づいて3つの確率テーブルの適切なものを参照して連接確率値を抽出計算し、各連接ペアと共に対応する連接確率値を連接ペア確率データとして出力する(後述の連接確率抽出処理)。図21に連接ペア確率データの一例を示す。
まず、条件判定処理について説明する。連接確率抽出計算部251は、連接ペアデータ中のそれぞれの連接ペアについて、連接ペアの第2絞込後左側固有表現付形態素候補の固有表現識別子と第2絞込後右側固有表現付形態素候補の固有表現識別子を抽出し、どちらの固有表現識別子もNILである場合と、第2絞込後右側固有表現付形態素候補の固有表現識別子がI−で始まっている場合は、この連接ペアの形態素候補は同じ固有表現のまとまりに属すると判定し、条件Sとの判定結果を得る。例えば、NTT/NTT/名詞:nt/B−<ORG> 持株/モチカブ/名詞/I−<ORG>の連接ペアは条件Sである。これが意味するのはこの2つの形態素候補は、「NTT/NTT/名詞:nt 持株/モチカブ/名詞」でまとまって組織名を表す同じ固有表現状態<ORG>に属しているということである。
これ以外の場合は、この連接ペアの形態素候補は異なる固有表現のまとまりに属すると判定し、条件Cとの判定結果を得る。例えば、NTT/NTT/名詞:nt/B−<ORG> 持株/モチカブ/名詞/B−<ORG>の連接ペアは条件Cである。これらはどちらも組織名であるが、「NTT/NTT/名詞:nt」と「持株/モチカブ/名詞」で、それぞれ別個の固有表現状態<ORG>に属しているということである。
次に連接確率抽出処理について説明する。この処理において参照するテーブルには、固有表現遷移確率テーブルと、先頭単語出現確率テーブルと、非先頭単語出現確率テーブルの3種類がある。条件Cでは上記3つの確率テーブル全てを参照する。条件Sでは、非先頭単語出現確率テーブルのみを参照する。
以下の説明では、連接する2つの固有表現付形態素のうち、先行する形態素をwi-1 、固有表現状態をNCi-1 、後続する形態素をwi 、固有表現状態をNCi と表すことにする。
固有表現遷移確率テーブルの一例を図22に示す。同図に示すように、固有表現遷移確率テーブルは、固有表現識別子の状態遷移確率を表すものであり、後続する形態素の固有表現状態NCi 、先行する形態素の固有表現状態NCi-1 、先行する形態素wi-1 の組からなるインデックスに対して、固有表現遷移確率P(NCi |NCi-1 ,wi-1 )が記録されているテーブルである。固有表現遷移確率テーブルは、予め作成しておき、固有表現遷移確率記憶部265に記憶しておく。
先頭単語出現確率テーブルの一例を図23に示す。同図に示すように、先頭単語出現確率テーブルは、ある固有表現状態下における単語のbigram出現確率のうち先頭単語の出現確率を表すものであり、後続する形態素wi 、後続する形態素の固有表現状態NCi 、先行する形態素の固有表現状態NCi-1 の組からなるインデックスに対して、先頭単語出現確率P(wi |NCi ,NCi-1 )が記録されているテーブルである。ここで先頭単語とは、前記条件判定処理において条件Cと判定されたときの右側形態素候補に該当する。先頭単語出現確率テーブルは、予め作成しておき、先頭単語出現確率記憶部266に記憶しておく。
非先頭単語出現確率テーブルの一例を図24に示す。同図に示すように、非先頭単語出現確率テーブルは、ある固有表現状態下における単語bigram出現確率のうち、非先頭単語の出現確率を表すものであり、後続する形態素wi 、先行する形態素wi-1 、先行する形態素の固有表現状態NCi-1 のインデックスに対して非先頭単語出現確率P(wi |wi-1 ,NCi-1 )が記録されているテーブルである。ここで非先頭単語とは、前記条件判定処理において条件Sと判定されたときの右側形態素候補に該当する。非先頭単語出現確率テーブルは、予め作成しておき、非先頭単語出現確率記憶部267に記憶しておく。
連接確率抽出計算部251は、連接ペアデータ中の各連接ペアについて、前記条件判定の判定結果が条件Cの場合は、以下の処理を行う。
連接確率抽出計算部251は、第2絞込後右側固有表現付形態素候補の固有表現状態、第2絞込後左側固有表現付形態素候補の固有表現状態、第2絞込後左側固有表現付形態素候補の形態素候補を検索キーとして固有表現遷移確率テーブルを参照し、検索キーと合致するインデックスがあれば、対応する確率値を第1の確率値として取得する。検索キーと合致するインデックスがなければe-10 を第1の確率値とする。
また、第2絞込後右側固有表現付形態素候補の形態素候補、第2絞込後右側固有表現付形態素候補の固有表現状態、第2絞込後左側固有表現付形態素候補の固有表現状態を検索キーとして先頭単語出現確率テーブルを参照し、検索キーと合致するインデックスがあれば、対応する確率値を第2の確率値として取得する。検索キーと合致するインデックスがなければe-10 を第2の確率値とする。
更に、特殊記号<end>、第2絞込後左側固有表現付形態素候補の形態素候補、第2絞込後左側固有表現付形態素候補の固有表現状態を検索キーとして非先頭単語出現確率テーブルを参照し、検索キーと合致するインデックスがあれば、対応する確率値を第3の確率値として取得する。検索キーと合致するインデックスがなければe-10 を第3の確率値とする。
次に、連接確率抽出計算部251は、第1の確率値、第2の確率値、第3の確率値を全て積算して該連接ペアの連接確率値として、対応する連接ペアと共に連接ペア確率データとして出力する。
一方、連接確率抽出計算部251は、連接ペアデータ中の各連接ペアについて、前記条件判定の判定結果が条件Sの場合は、以下の処理を行う。
連接確率抽出計算部251は、第2絞込後右側固有表現付形態素候補の形態素候補、第2絞込後左側固有表現付形態素候補の形態素候補、第2絞込後左側固有表現付形態素候補の固有表現状態を検索キーとして非先頭単語出現確率テーブルを参照し、検索キーと合致するインデックスがあれば、対応する確率値を連接確率値として取得する。検索キーと合致するインデックスがなければe-10 を連接確率値とする。この連接確率値を、対応する連接ペアと共に連接ペア確率データとして出力する。
最大途中確率計算部252の処理について説明する。ここで、最大途中確率とは、ある位置において、文頭から第2絞込後右側固有表現付形態素候補までの連接確率値の積の中で最大の値のものを意味する。
また、最大途中確率データとは、ある位置における第2絞込後右側固有表現付形態素候補に接続する全ての第2絞込後左側固有表現付形態素候補のうち、最大途中確率をとるときの第2絞込後左側固有表現付形態素候補と、そのときの最大途中確率値、及びそのときの位置を、該第2絞込後左側固有表現付形態素候補と共に記録したデータである。位置0では、連接ペア確率データに記録された内容がそのまま最大途中確率データに記録される。それ以降の位置では、直前の位置までの連接ペアについての最大途中確率データが記録されており、その中には現在位置における第2絞込後左側固有表現付形態素候補が第2絞込後右側固有表現付形態素候補だったときの最大途中確率データが存在する。この最大途中確率データは、最大途中確率データ記憶部268に記憶されている。図25に最大途中確率データの一例を示す。
最大途中確率計算部252は、この最大途中確率データ記憶部268に記憶された最大途中確率データを参照して文頭から第2絞込後左側固有表現付形態素候補までの連接確率値の積の最大値と、入力された連接ペア確率データの各連接ペアの連接確率値を積算し、その位置における文頭から連接ペア確率データ中の第2絞込後右側固有表現付形態素候補までの連接確率値の積を全て計算する。そして、全ての第2絞込後右側固有表現付形態素候補それぞれについて、ある第2絞込後右側固有表現付形態素候補に接続する全ての第2絞込後左側固有表現付形態素候補のうち、連接確率値の積が最大となる第2絞込後左側固有表現付形態素候補を調べ、位置と第2絞込後右側固有表現付形態素候補とその連接確率値の積が最大となる第2絞込後左側固有表現付形態素候補と前記計算した連接確率値の積の組を最大途中確率データに追加し、最大途中確率データ記憶部268に記録する。
探索処理部300は、絞込部200が文頭から文末までの処理を行った後に、最大途中確率データ記憶部に格納された最大途中確率データを入力として、固有表現付形態素候補列を出力する。以下、具体的な処理について詳述する。
探索処理部300は、文頭から文末までの全ての最大途中確率データが記録された最大途中確率データを入力とし、位置が文末(上記表1の例では位置13)である組の中から、最大途中確率値が最大である組を選択する。そして、選択した組の第2絞込後左側固有表現付形態素候補を固有表現付形態素候補として抽出する。また、この文末の位置を現在の位置とする。
また、以降、位置が文頭(=位置0)に達するまで下記(a)、(b)、(c)の処理を繰り返す。
(a)選択した組の第2絞込後左側固有表現付形態素候補の表記の文字数を数え、現在の位置を示す数字から前記文字数を示す数字を差し引いた値の位置に存在し、かつ、選択した組の第2絞込後左側固有表現付形態素候補が第2絞込後右側固有表現付形態素候補である組を選択する。また、現在の位置を前記差し引いた位置とする。例えば現在の位置が5であり、選択した組の第2絞込後左側固有表現付形態素候補が「持株/モチカブ/名詞/I−<ORG>」である場合、位置を示す数字5から表記の文字数を示す数字2を差し引いて3、即ち、位置3に存在し、「持株/モチカブ/名詞/I−<ORG>」が第2絞込後右側固有表現付形態素候補である組を選択する。また、現在の位置を3とする。
(b)前記(a)で選択した組の位置、即ち現在の位置、が文頭(=位置0)であるか否かを判定し、文頭でない場合は(c)に、文頭である場合は(d)に進む。
(c)前記(a)で選択した組の第2絞込後左側固有表現付形態素候補を固有表現付形態素候補として抽出し、前記(a)に戻る。
(d)得られた固有表現付形態素候補の全てを組み合わせて固有表現付形態素候補列として出力する。
以上の処理により、探索処理部300は、最終的に文頭から文末までの連接確率値の積が最大となる固有表現付形態素候補列を出力することができる。図26に上記表1を入力文とした場合の固有表現付形態素候補列の一例を示す。
なお、探索処理部300の処理は、最終的に文頭から文末までの連接確率値の積が最大となる固有表現付形態素候補列、または、最大のものから上位M個の固有表現付形態素候補列を出力する処理であれば、どのような処理を用いてもよい。例えば、従来技術の後向きA* アルゴリズムを利用して文頭から文末までの連接確率値の積が最大のものから上位M個の固有表現付形態素候補列を探索して出力しても良い。なお、Mの値は1以上の整数であり、予め設定しておく。
次に、この固有表現抽出装置1の動作について図27のフローチャートを参照して説明する。まず、形態素解析部100が入力文に対する形態素解析処理を行いNbest形態素列候補を得る(ステップS1)。次に、絞込部200の候補作成部210が、Nbest形態素列候補から形態素候補作成処理及び固有表現付形態素候補作成処理を行い固有表現付形態素候補データを得る(ステップS2,S3)。次に、前向制御部220は現位置を文頭に設定し(ステップS4)、現位置において右側固有表現付形態素候補が存在するかを判定する(ステップS5)。現位置において右側固有表現付形態素候補が存在するかを判定しない場合には、当該位置について以下の処理を行う。
まず、候補列挙部230が、右側固有表現付形態素候補の列挙処理及び左側固有表現付形態素候補の列挙処理を行い、右側データ及び左側データを得る(ステップS6,S7)。次に、候補絞込部240が、右側データ及び左側データ並びに固有表現付形態素候補データを入力として、絞込A:検索キー抽出処理(ステップS8)、絞込A:確率付与処理(ステップS9)、絞込B:次形態素列挙処理(ステップS10)、絞込B:確率付与処理(ステップS11)を行う。次いで、候補絞込部240は、第1絞込実行処理(ステップS12)、第2絞込実行処理(ステップS13)を行うことにより連接ペアデータを出力する。次に、連接確率計算部250は、連接ペアデータを入力として、連接確率抽出計算処理(ステップS14)、最大途中確率計算処理(ステップS15)を行うことにより、最大途中確率データを最大途中確率データ記憶部268に記録する。
前向制御部220は、前記ステップS6において右側固有表現付形態素候補が現位置において存在していない場合、又は、上記ステップS6〜S15が終了した場合には、現位置が文末であるかを判定する(ステップS16)。現位置が文末でない場合には、現位置を1つ増加させ(ステップS17)、上記ステップS5に処理を移す。これにより、最大途中確率データが最大途中確率データ記憶部268に蓄積される。現位置が文末の場合には、探索処理部300が最大途中確率データ記憶部268の探索処理を行い、固有表現付形態素候補列が得られる(ステップS18)。
ここで、本発明で用いるモデル及びその作成方法について説明する。本発明で用いるモデルはいずれも予め人手で文章データを形態素解析し、各形態素に固有表現識別子を付与したコーパスを用いて作成する。ここでのモデルとは以下の5つである。
・品詞及び単語タイプ別固有表現出現確率P(NC|pos,<type>)
・次形態素別固有表現出現確率P(NC|next)
・固有表現遷移確率P(NCi |NCi-1 ,wi-1
・先頭単語出現確率P(wi |NCi ,NCi-1
・非先頭単語出現確率P(wi |wi-1 ,NCi-1
一般的に、確率P(A|B)はコーパス中の出現頻度C(* )を用いて以下のように計算できる。
P(A|B)=C(B,A)/C(B)
従って、上記の各モデルは以下のように計算できる。
・P(NC|pos,<type>)=C(pos,<type>,NC)/C(pos,<type>)
・P(NC|next)=C(next,NC)/C(next)
・P(NCi |NCi-1 ,wi-1 )=C(NCi-1 ,wi-1 ,NCi )/C(NCi-1 ,wi-1
・P(wi |NCi ,NCi-1 )=C(NCi ,NCi-1 ,wi )/C(NCi ,NCi-1
・P(wi |wi-1 ,NCi-1 )=C(wi-1 ,NCi-1 ,wi )/C(wi-1 ,NCi-1
コーパス中の上式右辺で必要となる頻度を求め、それぞれの確率値を計算し、テーブル化しておく。この処理は予め行い、各確率テーブルは各確率記憶部に記憶しておく。以下、各モデルについて詳述する。
まず、固有表現抽出モデルについて説明する。本実施形態では、固有表現遷移確率記憶部265に記憶する固有表現遷移確率テーブル、先頭単語出現確率記憶部266に記憶する先頭単語出現確率テーブル、非先頭単語出現確率記憶部267に記憶する非先頭単語出現確率テーブルが該当する。
本発明で用いる固有表現抽出モデルは隠れマルコフモデル(HMM)に基づくモデルで、固有表現情報の状態遷移確率と、ある状態における単語の出現確率から構成される。なお、HMMに基づく英語固有表現抽出モデルは、Daniel M.Bikel and Scott Miller and Richard Schwartz and Ralph Weischedel: Nymble: a High-performance Learning Name Finder, Fifth Conference on Applied Natural Language Processing, pp.194-201(1997)を参照されたい。
ある文章が、形態素列W=w1 ・・・wn 、固有表現情報列NC=NC1 ・・・NCn で構成されるとすると、固有表現情報抽出は形態素列と固有表現情報列の同時確率P(W,NC)=ΠP(wi ,NCi )を最大化することである。各P(wi ,NCi )はHMMを用いて以下のように表される。
1.NCi ≠NCi-1 の時 P(wi ,NCi )=P(NCi |NCi-1 ,wi-1 )×P(wi |NCi ,NCi-1
2.NCi =NCi-1 且つNCi =NCi+1 の時 P(wi ,NCi )=P(wi |wi-1 ,NCi
3.NCi =NCi-1 且つNCi ≠NCi+1 の時 P(wi ,NCi )=P(wi |wi-1 ,NCi )×P(<end>|wi ,NCi
式1は、固有表現が変化した時の確率モデルであり、固有表現情報の状態遷移確率P(NCi |NCi-1 ,wi-1 )とその状態遷移における最初の形態素の出現確率P(wi |NCi ,NCi-1 )の積で表される。式2及び3はある同じ固有表現の状態の中における単語bigram出現確率を示しており、特に3は、単語wi がある固有表現の状態で最後の単語であったことを表すものである(既出の例では、例えばNTT持株会社の「会社」は<ORG>の最後の単語である)。<end>はある状態での終端を表す特殊記号である。上記の式に基づいて各位置における連接出現確率を計算する。
確率式右辺の項の種類はP(NCi |NCi-1 ,wi-1 )、P(wi |NCi ,NCi-1 )、P(wi |wi-1 ,NCi-1 )の3種類である(3番目の項にはP(<end>|wi ,NC)も含まれている)。この3種類をそれぞれ、固有表現遷移確率、先頭単語出現確率、非先頭単語出現確率と呼んでいる。
計算した固有表現遷移確率については、後続する形態素の固有表現状態NCi 、先行する形態素の固有表現状態NCi-1 、先行する形態素wi-1 の組からなるインデックスと、そのインデックスに対応する固有表現遷移確率P(NCi |NCi-1 ,wi-1 )とをそれぞれ対応させて固有表現遷移確率テーブルとし、固有表現遷移確率記憶部265に記憶する。
計算した先頭単語出現確率については、後続する形態素wi 、後続する形態素の固有表現状態NCi 、先行する形態素の固有表現状態NCi-1 の組からなるインデックスと、そのインデックスに対応する先頭単語出現確率P(wi |NCi ,NCi-1 )とをそれぞれ対応させて先頭単語出現確率テーブルとし、先頭単語出現確率記憶部266に記憶する。
計算した非先頭単語出現確率については、後続する形態素wi 、先行する形態素wi-1 、先行する形態素の固有表現状態NCi-1 の組からなるインデックスと、そのインデックスに対応する非先頭単語出現確率 P(wi |wi-1 ,NCi-1 )とをそれぞれ対応させて非先頭単語出現確率テーブルとし、非先頭単語出現確率記憶部267に記憶する。
次に、絞込モデルについて説明する。本実施形態では、品詞及び単語タイプ別固有表現出現確率記憶部262に記憶する品詞及び単語タイプ別固有表現出現確率テーブル、次形態素別固有表現出現確率記憶部263に記憶する次形態素別固有表現出現確率テーブルが該当する。
まず、品詞及び単語タイプ別固有表現出現確率について説明する。形態素自身の単語タイプと品詞は、その形態素の固有表現を左右する要素となる。例えば名詞で<kan>ならば、人名、地名、組織名に多く、同じ<kan>でも動詞では固有表現とはなりにくい。また<num>は金額、日付などの数値表現にかかわる固有表現になりやすいが、人名、地名になることは少ない。このような性質を絞り込みのためにモデル化したものが絞込モデルAであり、次式であらわされる。
P(NC|pos,<type>)
形態素の品詞pos、単語タイプ<type>、固有表現状態NCの組それぞれについてこの条件付確率P(NC|pos,<type>)を求めたものを品詞及び単語タイプ別固有表現出現確率値とする。
求めた品詞及び単語タイプ別固有表現出現確率値については、形態素の品詞、単語タイプ、固有表現状態の組からなるインデックスと、そのインデックスに対応する品詞及び単語タイプ別固有表現出現確率値P(NC|pos,<type>)とをそれぞれ対応させて品詞及び単語タイプ別固有表現出現確率テーブルとし、品詞及び単語タイプ別固有表現出現確率記憶部262に記憶する。
一方、ある形態素が、どの固有表現を構成するかを左右するもう1つの要素として、更に次の形態素が何であるか、というのがある。例えば、同じ「齋藤」であっても、次に「氏」があれば、人名であるだろうし、「医院」があれば組織名であろう。実際にはNbest形態素解析候補列を処理対象としているので、次の形態素は複数存在することがありうる。そこで、右側候補列の次の形態素集合(次形態素集合と呼び、Nextと表すことにする)に着目して絞り込みのためにモデル化したものが絞込モデルBであり、次式で表される。
P(NC|Next)=ΣP(NC|next) ただしnextはNext
に含まれる1形態素
この右辺は、次形態素集合Nextに含まれる次形態素がnextである時に、固有表現はNCであるという条件付確率P(NC|Next)を、Nextに含まれる全ての次形態素について計算して和をとったものである。形態素の次形態素、形態素の固有表現状態の組それぞれについてこの条件付確率P(NC|Next)を求めたものを次形態素別固有表現出現確率とする。
求めた次形態素別固有表現出現確率については、形態素の次形態素、形態素の固有表現状態の組からなるインデックスと、そのインデックスに対応する次形態素別固有表現出現確率P(NC|Next)とをそれぞれ対応させて次形態素別固有表現出現確率テーブルとし、次形態素別固有表現出現確率記憶部263に記憶する。
以上詳述したように本実施の形態に係る固有表現抽出装置によれば、第1絞込実行部245において、入力文の各位置での固有表現付形態素候補から尤度の低い候補が削除されるので、従来技術より少ない演算処理量で入力文の各形態素の固有表現を抽出することができる。また、第2絞込実行部246において、連接する2つの固有表現付形態素候補の組合せから明らかに有り得ない組合せが取り除かれるので候補数を減らすことができるので、さらに少ない演算処理量で入力文の各形態素の固有表現を抽出することができる。
以上本発明の一実施の形態について詳述したが本発明はこれに限定されるものではない。本発明の範囲は特許請求の範囲に記載されたものであり、その範囲内に含まれる種々の形態で本発明を実施できる。例えば、上記実施形態で用いた固有表現状態,固有表現識別子,品詞,単語タイプ等は一例であり、他のものを用いてもよい。
なお、上記実施の形態において各機能部でのデータの受け渡し(例えば、形態素候補作成部211と固有表現付形態素候補作成部212間の形態素候補データの受け渡し)は、一般的にはコンピュータのメモリなどの記憶手段を介して行われる。また、これらのデータは、固有表現の抽出を最終目的とする場合には一時的なものとして取り扱えば足りるが、必要に応じて別途他の装置等で利用できるよう記憶装置に保存しておいてもよい。
固有表現抽出装置の機能構成図 Nbest形態素列候補の一例 候補作成部の機能構成図 形態素候補データの一例 固有表現付形態素候補データの一例 候補列挙部の機能構成図 右側データの一例 左側データの一例 候補絞込部の機能構成図 右側検索キーデータの一例 右側データAの一例 品詞及び単語タイプ別固有表現出現確率テーブルの一例 次形態素データの一例 右側データBの一例 次形態素別固有表現出現確率テーブルの一例 第1絞込後右側データの一例 右側終了位置データの一例 連接ペアデータの一例 固有表現連接ペアテーブルの一例 連接確率計算部の機能構成図 連接ペア確率データの一例 固有表現遷移確率テーブルの一例 先頭単語出現確率テーブルの一例 非先頭単語出現確率テーブルの一例 最大途中確率データの一例 固有表現付形態素列候補の一例 固有表現抽出装置の動作を説明するフローチャート
符号の説明
1…固有表現抽出装置、100…形態素解析部、110…形態素解析モデル記憶部、200…絞込部、210…候補作成部、211…形態素候補作成部、212…固有表現付形態素候補作成部、220…前向制御部、230…候補列挙部、231…右側固有表現付形態素候補列挙部、232…左側固有表現付形態素候補列挙部、240…候補絞込部、241…絞込A:検索キー抽出部、242…検索A:確率付与部、243…絞込B:次形態素列挙部、244…絞込B:確率付与部、245…第1絞込実行部、246…第2絞込実行部、250…連接確率計算部、251…連接確率抽出計算部、252…最大途中確率計算部、261…右側終了位置データ記憶部、262…品詞及び単語別固有表現出現確率記憶部、263…次形態素別固有表現出現確率記憶部、264…固有表現連接ペア記憶部、265…固有表現遷移確率記憶部、266…先頭単語出現確率記憶部、267…非先頭単語出現確率記憶部、268…最大途中確率データ記憶部、300…探索処理部

Claims (10)

  1. 入力文から該入力文に含まれる固有表現を抽出する装置において、
    形態素の品詞及び単語タイプに対して当該品詞及び単語タイプをとる固有表現状態の出現確率(尤度)を予め記憶した品詞及び単語タイプ別固有表現出現確率記憶手段と、
    先行する形態素に対して他の形態素が後続している条件下において先行する形態素のとる固有表現状態の出現確率(尤度)を予め記録した次形態素別固有表現出現確率記憶手段と、
    入力文を形態素解析して該入力文に含まれる形態素の列の候補(形態素列候補)を抽出する形態素解析手段と、
    形態素解析手段で抽出した各形態素列候補中の各形態素について該形態素の取りうる固有表現識別子を付することにより固有表現付形態素候補を作成する候補作成手段と、
    入力文の各位置において、当該位置から始まり且つ前記候補作成手段で作成された固有表現付形態素候補について、前記品詞及び単語タイプ別固有表現出現確率記憶手段に記憶されている出現確率及び前記次形態素別固有表現出現確率記憶手段に記憶されている出現確率を参照して固有表現付形態素候補の出現確率(尤度)を求めて、出現確率が最大のものの一定割合以上の出現確率をもつ固有表現付形態素候補、または、出現確率の最大のものから上位少なくとも1つの固有表現付形態素候補を抽出する第1の絞込実行部と、
    第1の絞込実行部で抽出された固有表現付形態素候補と、その直前に位置する前記候補作成手段で作成された固有表現付形態素候補との組み合わせを連接ペアデータとして出力する第2の絞込実行部と、
    第2の絞込実行部の出力した連接ペアデータに対して連接確率値を計算し、更に文頭から当該位置の固有表現付形態素候補までの連接確率値積算値の最大のもの(最大途中確率値)を、当該位置及び当該連接ペアデータとともに最大途中確率データ記憶部に記憶する連接確率計算手段と、
    前記最大途中確率データ記憶部に記憶されている連接ペアデータを探索して入力文を構成し且つ出現確率の最大のものから上位少なくとも1つの固有表現付形態素候補の列を出力する探索手段とを備えた
    ことを特徴とする固有表現抽出装置。
  2. 2つの連続する固有表現付形態素候補の固有表現識別子について接続が許可される組を予め記録した固有表現連接ペア記憶手段を備え、
    前記第2の絞込実行部は、更に、前記候補作成手段で作成された各固有表現付形態素候補について、固有表現連接ペア記憶手段を参照して当該固有表現付形態素候補の直前に位置し且つ前記候補作成手段で作成された固有表現付形態素候補との接続が許可されている固有表現付形態素候補のみを出力する
    ことを特徴とする請求項1記載の固有表現抽出装置。
  3. 前記第1の絞込実行部は、入力文の各位置において、当該位置から始まり且つ前記候補作成手段で作成された固有表現付形態素候補について、該固有表現付形態素候補の品詞及び単語タイプ並びに固有表現状態をキーとして前記品詞及び単語タイプ別固有表現出現確率記憶手段から第1の出現確率を取得する第1の出現確率取得手段と、前記固有表現付形態素候補の固有表現状態及び該固有表現付形態素候補に後続する形態素をキーとして前記次形態素別固有表現出現確率記憶手段に記憶されている第2の出現確率を取得する第2の出現確率取得手段と、第1の出現確率と第2の出現確率とを重み付け加算して重み付け確率値を算出し、重み付け確率値が最大のものの一定の割合以上の重み付け確率値をもつ固有表現付形態素候補、または、重み付け確率値の最大のものから上位少なくとも1つの固有表現付形態素候補を抽出する
    ことを特徴とする請求項1記載の固有表現抽出装置。
  4. 前記第2の絞込実行部は、入力文の各位置において、当該位置の直前に位置する固有表現付形態素候補を取得する直前候補取得手段と、取得した固有表現付形態素候補の固有表現識別子と当該位置における固有表現付形態素候補の固有表現識別子の組をキーとして固有表現連接ペア記憶手段を検索し、当該組が固有表現連接ペア記憶手段に予め記憶されている場合にのみ当該位置における固有表現付形態素候補を出力する
    ことを特徴とする請求項2記載の固有表現抽出装置。
  5. コンピュータを用いて入力文から該入力文に含まれる固有表現を抽出する方法において、
    前記コンピュータは、
    形態素の品詞及び単語タイプに対して当該品詞及び単語タイプをとる固有表現状態の出現確率(尤度)を予め記憶した品詞及び単語タイプ別固有表現出現確率記憶手段と、
    先行する形態素に対して他の形態素が後続している条件下において先行する形態素のとる固有表現状態の出現確率(尤度)を予め記録した次形態素別固有表現出現確率記憶手段とを備えるとともに、
    該コンピュータの形態素解析手段が、入力文を形態素解析して該入力文に含まれる形態素の列の候補(形態素列候補)を抽出し、
    該コンピュータの候補作成手段が、形態素解析手段で抽出した各形態素列候補中の各形態素について該形態素の取りうる固有表現識別子を付することにより固有表現付形態素候補を作成し、
    該コンピュータの第1の絞込実行部が、入力文の各位置において、当該位置から始まり且つ前記候補作成手段で作成された固有表現付形態素候補について、前記品詞及び単語タイプ別固有表現出現確率記憶手段に記憶されている出現確率及び前記次形態素別固有表現出現確率記憶手段に記憶されている出現確率を参照して固有表現付形態素候補の出現確率(尤度)を求めて、出現確率が最大のものの一定割合以上の出現確率をもつ固有表現付形態素候補、または、出現確率の最大のものから上位少なくとも1つの固有表現付形態素候補を抽出し、
    該コンピュータの第2の絞込実行部が、第1の絞込実行部で抽出された固有表現付形態素候補と、その直前に位置する前記候補作成手段で作成された固有表現付形態素候補との組み合わせを連接ペアデータとして出力し、
    該コンピュータの連接確率計算手段が、第2の絞込実行部の出力した連接ペアデータに対して連接確率値を計算し、更に文頭から当該位置の固有表現付形態素候補までの連接確率値積算値の最大のもの(最大途中確率値)を、当該位置及び当該連接ペアデータとともに最大途中確率データ記憶部に記憶し、
    該コンピュータの探索手段が、前記最大途中確率データ記憶部に記憶されている連接ペアデータを探索して入力文を構成し且つ出現確率の最大のものから上位少なくとも1つの固有表現付形態素候補の列を出力する
    ことを特徴とする固有表現抽出方法。
  6. 前記コンピュータは、
    2つの連続する固有表現付形態素候補の固有表現識別子について接続が許可される組を予め記録した固有表現連接ペア記憶手段を備えるとともに、
    前記第2の絞込実行部は、更に、前記候補作成手段で作成された各固有表現付形態素候補について、固有表現連接ペア記憶手段を参照して当該固有表現付形態素候補の直前に位置し且つ前記候補作成手段で作成された固有表現付形態素候補との接続が許可されている固有表現付形態素候補のみを出力する
    ことを特徴とする請求項5記載の固有表現抽出方法。
  7. 前記第1の絞込実行部は、入力文の各位置において、当該位置から始まり且つ前記候補作成手段で作成された固有表現付形態素候補について、該固有表現付形態素候補の品詞及び単語タイプ並びに固有表現状態をキーとして前記品詞及び単語タイプ別固有表現出現確率記憶手段から第1の出現確率を取得し、前記固有表現付形態素候補の固有表現状態及び該固有表現付形態素候補に後続する形態素をキーとして前記次形態素別固有表現出現確率記憶手段に記憶されている第2の出現確率を取得し、前記第1の出現確率と第2の出現確率とを重み付け加算して重み付け確率値を算出し、重み付け確率値が最大のものの一定の割合以上の重み付け確率値をもつ固有表現付形態素候補、または、重み付け確率値の最大のものから上位少なくとも1つの固有表現付形態素候補を抽出する
    ことを特徴とする請求項5記載の固有表現抽出方法。
  8. 前記第2の絞込実行部は、入力文の各位置において、当該位置の直前に位置する固有表現付形態素候補を取得し、取得した固有表現付形態素候補の固有表現識別子と当該位置における固有表現付形態素候補の固有表現識別子の組をキーとして固有表現連接ペア記憶手段を検索し、当該組が固有表現連接ペア記憶手に予め記憶されている場合にのみ当該位置における固有表現付形態素候補を出力する
    ことを特徴とする請求項6記載の固有表現抽出方法。
  9. コンピュータに前記請求項5乃至8何れか1項の固有表現抽出方法を実行させる固有表現抽出プログラム。
  10. 請求項9記載の固有表現抽出プログラムを記録した記録媒体。
JP2004373532A 2004-12-24 2004-12-24 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体 Active JP4015661B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004373532A JP4015661B2 (ja) 2004-12-24 2004-12-24 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004373532A JP4015661B2 (ja) 2004-12-24 2004-12-24 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2006178865A JP2006178865A (ja) 2006-07-06
JP4015661B2 true JP4015661B2 (ja) 2007-11-28

Family

ID=36732919

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004373532A Active JP4015661B2 (ja) 2004-12-24 2004-12-24 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP4015661B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5057916B2 (ja) * 2007-09-28 2012-10-24 日本電信電話株式会社 固有表現抽出装置、その方法、プログラム及び記録媒体
JP5212725B2 (ja) * 2009-01-30 2013-06-19 大日本印刷株式会社 電子書籍作成支援装置
JP5326781B2 (ja) * 2009-04-30 2013-10-30 日本電気株式会社 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
CN109710927B (zh) * 2018-12-12 2022-12-20 东软集团股份有限公司 命名实体的识别方法、装置、可读存储介质及电子设备
CN118152590B (zh) * 2024-05-08 2024-08-16 支付宝(杭州)信息技术有限公司 基于文本语料生成医疗知识图谱的方法及装置

Also Published As

Publication number Publication date
JP2006178865A (ja) 2006-07-06

Similar Documents

Publication Publication Date Title
US8892420B2 (en) Text segmentation with multiple granularity levels
JP3983265B1 (ja) 辞書作成支援システム、方法及びプログラム
Lee et al. Deep learning-based context-sensitive spelling typing error correction
US8606779B2 (en) Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
US8356065B2 (en) Similar text search method, similar text search system, and similar text search program
JP4687089B2 (ja) 重複レコード検出システム、および重複レコード検出プログラム
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP2007334429A (ja) キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体
JP2005135113A (ja) 電子機器装置、関連語抽出方法及びプログラム
JP4015661B2 (ja) 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体
CN114298048A (zh) 命名实体识别方法及装置
JP4005477B2 (ja) 固有表現抽出装置及び方法並びに固有表現抽出プログラム
JP2002297660A (ja) 文字列類似度算出方法、装置、プログラム及び記録媒体
JP5293607B2 (ja) 略語生成装置およびプログラム、並びに、略語生成方法
JP3983000B2 (ja) 複合語分割装置、及び日本語辞書作成装置
WO2003046765A1 (fr) Procede d&#39;extraction automatique de mot associe
JP2002278982A (ja) 情報抽出方法および情報検索方法
CN115831117A (zh) 实体识别方法、装置、计算机设备和存储介质
JP5583230B2 (ja) 情報検索装置及び情報検索方法
JP2002108888A (ja) ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体
JP5120749B2 (ja) 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム
JPH08339376A (ja) 外国語検索装置及び情報検索システム
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JPS63228326A (ja) キ−ワ−ド自動抽出方式
JP2002091961A (ja) コーパス誤りの検出・修正システム,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070605

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070911

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070913

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100921

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4015661

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100921

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110921

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120921

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130921

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350