JP2004046775A

JP2004046775A - 固有表現抽出装置及び方法並びに固有表現抽出プログラム

Info

Publication number: JP2004046775A
Application number: JP2002317435A
Authority: JP
Inventors: Kuniko Saito; 齋藤　邦子; Masaaki Nagata; 永田　昌明
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-05-15
Filing date: 2002-10-31
Publication date: 2004-02-12
Anticipated expiration: 2022-10-31
Also published as: JP4005477B2

Abstract

【課題】入力文から固有表現を適切に抽出することができる固有表現抽出装置及び方法並びにプログラムを提供する。
【解決手段】形態素解析モデル１４を用いて入力文を形態素解析し、入力文全体の形態素列について出現確率が高い上位Ｎ個（Ｎは１より大きい自然数）の形態素列を抽出する形態素解析部１０と、固有表現抽出モデル２４を用いて前記形態素解析部１０で抽出されたＮ個の形態素列から固有表現を含む形態素列について出現確率が高い上位Ｍ個（Ｍは１以上の自然数）の固有表現を含む形態素列を抽出する固有表現抽出部２０とを備えた。
【選択図】　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、テキストから人名・地名・組織名などの固有表現を抽出する技術に関するものであり、膨大なＤＢなどから効率良く情報を検索する技術やテキストを要約する技術などにおいて重要な役割を果たす。
【０００２】
【従来の技術】
固有表現抽出の手法としては、大きく分けると人手で設定した規則に基づくものと、予めデータから学習した統計的モデルに基づくものがある。前者の手法では、対象とする領域や固有表現の定義が変更となった場合には、改めて規則を人手で設定し直さなければならないためコストがかかる。一方、後者の手法では、学習データを用意しておけば自動学習できるため、低コストで実現できる。そこで、近年では様々な学習モデルに基づく固有表現抽出法が研究されている。
【０００３】
日本語の場合、英語など予め単語で分かち書きされている言語とは異なり、文字を続けてべた書きするため、そもそも単語認定が困難であるという問題がある。そのため、従来の技術では、予め入力文を形態素解析処理をしておき、その結果に対して固有表現を付与する処理が主流である。
【０００４】
ところで、形態素解析の区切りと固有表現の区切りは通常１：１には対応せず、複数の形態素が１つの固有表現を構成する多：１の対応や、１つの形態素が複数の固有表現を校正する１：多の構成を取ることがある。このうち、１：多の対応では、形態素と固有表現の区切りがずれるために、処理誤りの重大な原因となる。
【０００５】
従来の技術では、形態素解析と固有表現抽出は全く独立しており、形態素解析の品詞体系及び区切り基準から、固有表現の区切りと種類を判定する規則やモデルを考案するのが技術的課題であった。特に、形態素と固有表現の区切りの差をいかに埋めるかが１つの技術的課題である。そのため、予め形態素解析処理した結果が誤っていると、固有表現抽出に失敗する原因となる。特に日本語のように形態素解析に複数の正解があり得る言語では、１つの結果だけでは誤りの確率が高い。
【０００６】
英語の固有表現抽出では、予め単語を空白で区切って分かち書きをするため、単語区切りのずれの問題がなく、形態素解析（英語の場合は品詞付け）と固有表現抽出を同時に行うモデルも提案され、高い精度をあげている。この手法では、形態素の区切りと固有表現の区切りは１：１又は多：１に絞られ、また形態素解析と固有表現抽出を同時に行うために、区切りのずれを考慮する必要がない。この手法を日本語にそのまま適用しようとすると、学習データを十分な量収集することが困難なことが原因となり、形態素解析、特に単語分割に失敗して固有表現抽出に悪影響を及ぼす。
【０００７】
ところで、固有表現とは、その性質上、分野（新聞記事、Ｗｅｂ文書、技術文書等）や時代が変われば新しい語が登場してくるものである。そのため、いずれの固有表現抽出の方法の場合も、一度作成した規則又は統計的モデルのままでは新しく出現する固有表現に対応できないという問題がある。新しく規則又は統計的モデル用学習データを作成するのは時間・コストがかかるという問題もある。そのため、できるだけ低コストで新しい規則又は統計的モデル用学習データを作成したいという要求は常に存在する。従来技術では、人手で規則を作成するコストを下げるもの（特許文献１参照）や、決定リストを用いた学習において低コストを実現するもの（非特許文献１参照）などがある。
【０００８】
【特許文献１】
特開２００１−３１８７９２号公報
【非特許文献１】
宇津呂武仁、颯々野学，「ブートストラップによる低人手コスト日本語固有表現抽出」，情報処理学会研究報告，Ｖｏｌ．２０００，Ｎｏ２０００−ＮＬ−１３９，ｐｐ．９−１６，２０００
【０００９】
【発明が解決しようとする課題】
上述した従来技術では、形態素解析と固有表現抽出は全く独立しており、予め形態素解析した結果（１位のみ）に対して、規則やモデルを用いて固有表現を抽出していた。しかし、形態素解析の結果には複数の正解（区切りの単位／品詞など）が考えられることが多いので、１つの結果だけから固有表現抽出を行うと、形態素解析の曖昧性を考慮できず、特に区切りのずれの違いによりうまく抽出できないという問題がある。また、英語で成果を上げている形態素解析と固有表現抽出を同時に行うモデルでは、日本語については形態素解析部分、特に単語分割の技術的困難性があり、形態素解析に失敗して固有表現抽出がうまくできないという問題がある。
【００１０】
本発明は、上記事情に鑑みてなされたものであり、その目的とするところは、入力文から固有表現を適切に抽出することができる固有表現抽出装置及び方法並びにプログラムを提供することにある。
【００１１】
【課題を解決するための手段】
本発明では、予め形態素解析を一度行い、１位の結果だけでなく上位Ｎ個（Ｎは１より大きい自然数）の形態素列候補（Ｎｂｅｓｔ形態素列候補）を求め、そのＮｂｅｓｔ形態素列候補に対して形態素解析と固有表現抽出を同時に行うモデルを適用して固有表現抽出を行う手法を提案する。
【００１２】
すなわち、本発明では、１以上の単語からなる単語列とその出現確率の組を含む形態素解析モデル、並びに、固有表現を含む単語列とその出現確率の組，非終端単語列とその出現確率の組及び終端単語列とその出現確率の組を含む固有表現抽出モデルを予め記憶手段に記憶しておき、前記記憶手段に記憶されている形態素解析モデルを用いて入力文を形態素解析し、入力文全体の形態素列について出現確率が高い上位Ｎ個（Ｎは１より大きい自然数）の形態素列を抽出する。そして、前記記憶手段に記憶されている固有表現抽出モデルを用いて、抽出されたＮ個の形態素列から固有表現を含む形態素列について出現確率が高い上位Ｍ個（Ｍは１以上の自然数）の固有表現を含む形態素列を抽出する。
【００１３】
本発明によれば、入力文から、文全体の形態素列出現確率の値の高い順に上位Ｎ個の形態素列が抽出され、このＮ個の形態素列から、固有表現を含む形態素列（固有表現付形態素列）について出現確率が高い上位Ｍ個の固有表現付形態素列が抽出される。すなわち、入力文から固有表現の抽出が行える。
【００１４】
これにより、本発明では、従来の日本語固有表現抽出で問題であった、
・形態素の区切りが１種類に限定されるため、固有表現抽出との区切りと一致しない時（特に１：多）の処理が困難である
・英語特有表現抽出で成果を上げる手法では形態素解析部分の精度が低い
という２点を解決できる。
【００１５】
さらに、本発明では、抽出されたＭ個（Ｍは２以上の自然数）の固有表現を含む形態素列及びその出現確率のうち、１位の固有表現を含む形態素列の出現確率と他の固有表現を含む形態素列の出現確率との偏差が所定基準より大きい場合に該１位の固有表現を含む出願確率に係る形態素列を選択し、該選択した固有表現を含む形態素列における、固有表現を含む単語列とその出現確率の組，非終端単語列とその出現確率の組及び終端単語列とその出現確率の組の頻度に基づき前記固有表現抽出モデルを更新する。本発明によれば、学習に適した固有表現抽出モデルが生成されるので固有表現の抽出精度が向上するとともに、モデル学習のための言語データを低コストで作成することができる。
【００１６】
【発明の実施の形態】
（第１の実施の形態）
本発明の第１の実施の形態に係る固有表現抽出装置について図面を参照して説明する。図１は固有表現抽出装置の構成図、図２は固有表現抽出装置の動作を説明するフローチャートである。
【００１７】
固有表現抽出装置１は、図１に示すように、形態素解析部１０と、固有表現抽出部２０とに大別される。
【００１８】
形態素解析部１０は、形態素候補作成部１１と、形態素連接確率算出部１２と、Ｎｂｅｓｔ形態素列候補探索部１３と、形態素頻度テーブル１４ａ及び形態素連接頻度テーブル１４ｂを有する形態素解析モデル１４と、形態素解析モデル作成部１５とを備えている。
【００１９】
形態素解析モデル作成部１５は、単語分割情報及び品詞その他の単語属性情報が対応付けられている学習データから、形態素頻度テーブル１４ａ及び形態素連接頻度テーブル１４ｂを作成する。形態素頻度テーブル１４ａは、１つの形態素の出現頻度が格納してある。また、形態素連接頻度テーブル１４ｂは、連続する２つの形態素の出現頻度が格納してある。
【００２０】
形態素候補作成部１１は、入力文の各位置での形態素候補を形態素頻度テーブル１４ａの形態素インデクスから列挙する。
【００２１】
形態素連接確率算出部１２は、単語ｂｉｇｒａｍ確率モデルに基づき、形態素連接頻度テーブル１４ｂ及び形態素頻度テーブル１４ａを用いて、連続する形態素の出現確率を算出する。
【００２２】
Ｎｂｅｓｔ形態素列候補探索部１３は、前向きＤＰ探索及び後ろ向きＡ^＊アルゴリズムを用いて、文全体の形態素出現確率の最も大きいものから上位Ｎ個（Ｎは１より大きい自然数）の候補を求める。
【００２３】
固有表現抽出部２０は、固有表現付形態素候補作成部２１と、固有表現付形態素連接確率算出部２２と、Ｎｂｅｓｔ固有表現付形態素列候補探索部２３と、固有表現付形態素頻度テーブル２４ａ及び固有表現付形態素連接頻度テーブル２４ｂを有する固有表現抽出モデル２４と、固有表現抽出モデル作成部２５とを備えている。
【００２４】
固有表現抽出モデル作成部２５は、形態素情報と固有表現情報が対応付けられている学習データから、固有表現付形態素頻度テーブル２４ａ及び固有表現付形態素連接頻度テーブル２４ｂを作成する。固有表現付形態素頻度テーブル２４ａは、１つの固有表現付形態素の出現頻度が格納してある。固有表現付形態素連接頻度テーブル２４ｂは、連続する２つの固有表現付形態素の出現頻度が格納してある。
【００２５】
固有表現付形態素候補作成部２１は、形態素解析部１０で作成されたＮ個の形態列候補を入力として、各形態素に固有表現を付した固有表現付形態素列候補を作成する。
【００２６】
固有表現付形態素連接確率算出部２２は、固有表現抽出モデル２４に基づき、固有表現付形態素連接頻度テーブル２４ｂ及び固有表現付形態素頻度テーブル２４ａを用いて、連続する固有表現付形態素列の出現確率を算出する。
【００２７】
Ｎｂｅｓｔ固有表現付形態素列候補探索部２３は、前向きＤＰ探索及び後ろ向きＡ^＊アルゴリズムを用いて、文全体の連続する固有表現付形態素列の出現確率を値の高い順に上位Ｍ個（Ｍは１以上の自然数）まで求める。なお、ここではＭ個の固有表現付形態素列候補を求めるが、便宜上名称は「Ｎｂｅｓｔ」と記載することにする。
【００２８】
なお、この固有表現抽出装置は、コンピュータ上にプログラムとして実装されており、上記各部はプログラムモジュールとして構成される。
【００２９】
次に、固有表現抽出装置１の動作について図２を参照して説明する。なお、形態解析処理及び固有表現抽出モデルの詳細については後述し、ここでは全体の流れについて説明する。
【００３０】
まず、形態素解析部１０では、予め、形態素解析モデル作成部１５が単語分割情報及び品詞その他単語属性情報が対応付けられている学習データから形態素解析モデル１４を作成しておく（ステップＳ１）。また、固有表現抽出部２０では、固有表現抽出モデル作成部２５が形態素と固有表現が対応付けられている学習データから固有表現抽出モデル２４を作成しておく（ステップＳ２）。
【００３１】
固有表現抽出装置１に入力文が入力されると、当該入力文に対して、形態素候補作成部１１が形態素解析モデル１４に基づいて形態素候補を作成し（ステップＳ３）、形態素連接確率算出部１２が形態素解析モデル１４に基づいて形態素の連接出現確率を計算し（ステップＳ４）、Ｎｂｅｓｔ形態素列候補探索部１３が文全体の形態素列出現確率を値の高い順に上位Ｎ個（Ｎは１より大きい自然数）まで求める（ステップＳ５）。
【００３２】
次に、固有表現抽出部２０では、Ｎｂｅｓｔ形態素候補を入力として、固有表現付形態素候補作成部２１が固有表現付形態素を生成し（ステップＳ６）、固有表現付形態素連接確率算出部２２が固有表現抽出モデル２４に基づいて固有表現付形態素間の連接出現確率を計算する（ステップＳ７）。そして、Ｎｂｅｓｔ固有表現付形態素候補探索部２３が文全体の固有表現付形態素列出現確率を値の高い順に上位Ｍ個（Ｍは１以上の自然数）まで求める（ステップＳ８）。ステップＳ１及びステップＳ３からＳ５までが形態素解析部１０が行う処理であり、ステップＳ２及びステップＳ６からＳ８が固有表現抽出部２０が行う処理である。
【００３３】
以下では、形態素解析処理及び固有表現抽出モデルについて詳述する。本実施の形態では、形態素解析部１０の形態素解析処理として、単語ｂｉｇｒａｍ確率モデルに基づき統計的手法で行う。この解析処理については出願人が提案した特開平９−２８８６７３号公報に記載の技術を用いている。すなわち、形態素解析モデルとして、単語２つ組確率から文を構成する単語列の同時確率を与える単語分割モデルと、単語長確率と単語内文字列２つ組確率から単語を構成する文字列の同時確率を与える単語モデルとを利用して、入力文を構成する単語列の候補を確率が高い順番にＮ個求める。このモデルにおいては、文字列Ｃ＝ｃ_１ｃ_２…ｃ_ｎから構成される入力文が、単語列Ｗ＝ｗ_１ｗ_２…ｗ_ｎに分割されるとすると、文字列Ｗが与えられた時の単語列の同時確率Ｐ（Ｗ｜Ｃ）は以下の式で表される。
【００３４】
【数１】

【００３５】
前向きＤＰ探索及び後ろ向きＡ^＊アルゴリズムにより、入力文章の文頭から文末まで１文字ずつ探査し、確率値上位Ｎ個の形態素列候補を得る。なお、本形態素解析処理については、Ｍ．Ｎａｇａｔａ：　Ａ　ｓｔｏｃｈａｓｔｉｃ　Ｊａｐａｎｅｓｅ　ｍｏｒｐｈｏｌｏｇｉｃａｌ　ａｎａｌｙｚｅｒ　ｕｓｉｎｇ　ａ　ｆｏｒｗａｒｄ−ｄｐ　ｂａｃｋｗａｒｄ　Ａ^＊　ｎ−ｂｅｓｔ　ｓｅａｒｃｈ　ａｌｇｏｒｉｔｈｍ，　Ｐｒｏｃ．　ｏｆ　ｔｈｅ　１５ｔｈ　Ｃｏｎｆ．　ｏｎ　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ，　ｐｐ．２０１−２０７（１９９４）を参照されたい。
【００３６】
固有表現抽出部２０では、このようにして得られたＮｂｅｓｔ形態素列候補を入力として、次に示す固有表現抽出モデルを用いて固有表現抽出を行う。
【００３７】
本発明で用いる固有表現抽出モデルは隠れマルコフモデル（ＨＭＭ）に基づくモデルであり、固有表現情報の状態遷移確率と、ある状態における単語の出現確率から構成される。なお、ＨＭＭに基づく固有表現抽出モデルについては、Ｄａｎｉｅｌ　Ｍ．　Ｂｉｋｅｌ　ａｎｄ　Ｓｃｏｔｔ　Ｍｉｌｌｅｒ　ａｎｄ　Ｒｉｃｈａｒｄ　Ｓｃｈｗａｒｔｚ　ａｎｄ　Ｒａｌｐｈ　Ｗｅｉｓｃｈｅｄｅｌ：　Ｎｙｍｂｌｅ：　ａ　Ｈｉｇｈ−Ｐｅｒｆｏｒｍａｎｃｅ　Ｌｅａｒｎｉｎｇ　Ｎａｍｅ　Ｆｉｎｄｅｒ，　Ｆｉｆｔｈ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｐｐｌｉｅｄ　Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ，　ｐｐ．１９４−２０１（１９９７）を参照されたい。
【００３８】
入力文が、形態素列Ｗ＝ｗ_１…ｗ_ｎ、固有表現情報列ＮＣ＝ＮＣ_１…ＮＣ_ｎで構成されるとすると、固有表現情報抽出は形態素列と固有表現情報列の同時確率Ｐ（Ｗ，ＮＣ）＝ΠＰ（ｗ_ｉ，ＮＣ_ｉ）を最大化することである。Ｐ（Ｗ，ＮＣ）はＨＭＭを用いて以下のように表される。
【００３９】
【数２】

【００４０】
式１．は固有表現を含む単語列と出現確率の組を、式２．は非終端単語列と出現確率の組を、式３．は終端単語列と出現確率の組についての、確率を意味する。
【００４１】
また、式３．の最終項は、単語ｗｉがあるＮＣの状態で最後の単語であったことを表すものである。＜ｅｎｄ＞はある状態での終端を表す特殊記号である。上記の式に基づいて各位置における出現確率を計算し、文全体で確率値が上位Ｍ個の候補を求める。
【００４２】
前向きＤＰ探索及び後ろ向きＡ^＊アルゴリズムは従来の形態素解析と同様に、各位置（文字単位）において、（１）現在の位置から始まる形態素候補（右側候補）と、（２）現在の位置で終わる形態素候補（左側候補）とを列挙し、確率テーブルを参照しながら形態素候補毎に出現確率を計算する。また、固有表現抽出では、既にＮｂｅｓｔ形態素解析が求まっているので、各文字位置で、（１）現在の位置から始まる形態素候補を列挙してそれぞれに全ての固有表現情報を仮に付与した固有表現つき形態素候補とする（右側）、（２）現在の位置で終わる形態素候補を列挙してそれぞれに全ての固有表現情報を仮に付与した固有表現つき形態素候補とする（左側）、という処理を行う。
【００４３】
ここで、固有表現情報には、組織名，地名などの他に、特定の固有表現ではなないことを意味する情報も含まれる。例えば、これらを各々記号、ＯＲＧ，ＬＯＣ，ＮＩＬで表したとすると、ＮＴＴ／名詞という形態素について想定している固有表現情報を全て付与した、ＮＴＴ／名詞／ＯＲＧ，ＮＴＴ／名詞／ＬＯＣ，ＮＴＴ／名詞／ＰＳＮ（人名），ＮＴＴ／名詞／ＮＩＬ、が固有表現付き形態素候補となる。そして、これらの候補とその位置で終わる左側候補との連接確率を固有表現抽出モデルで計算する。なお、連接確率とは、単語列のｉ−１番目，ｉ番目についてのＰ（ｗ_ｉ｜ｗ_ｉ−１）で現れ、ｗ_ｉ−１が出現した条件下でｗ_ｉが出現するという条件付き確率を意味する。すなわち、Ｐ（ｗ_ｉ｜ｗ_ｉ−１）＝Ｃ（ｗ_ｉ，ｗ_ｉ−１）／Ｃ（ｗ_ｉ−１）で計算される（Ｃ（＊）は学習データ中の頻度）。
【００４４】
実際の処理の流れについて説明する。形態素解析部１０により得られたＮｂｅｓｔ形態素列候補を入力とする。文頭から１文字ずつ進みながら以下の処理をする。
【００４５】
１．現在の位置から始まる形態素を列挙する。もし、形態素が１つも存在しなければ次の位置へ一文字すすむ
２．各形態素に固有表現情報の全ての種類について付与したものを、固有表現付形態素候補としておく（右側候補）
３．現在の位置で終わる固有表現付形態素候補を列挙する（左側候補）
４．上記２，３であがっている候補の全組み合わせについて確率を計算し、その値と右側候補の終端位置を記憶する
５．一文字すすむ。
【００４６】
以上を文頭から文末まで行い（前向きＤＰ探索）、次に後ろ向きＡ^＊アルゴリズムにより、Ｎｂｅｓｔ固有表現付形態素候補を求める。なお、ここで求める候補数はＭ個（Ｍは１以上の自然数）である。
【００４７】
図３に固有表現付形態素連接頻度テーブル２４ｂの例を示す。固有表現付形態素は「表記／品詞／固有表現」という形で表されている。図４に実施例として、［ａ］入力文、［ｂ］Ｎｂｅｓｔ形態素列候補（３位まで）、［ｃ］Ｎｂｅｓｔ固有表現付形態素列候補（１位のみ）を確率の対数値とともに示す。ＯＲＧは組織名、ＬＯＣは地名を表しており、ＮＴＴサイバースペース研究所が組織名として、神奈川県、横須賀市、三浦半島が地名として固有表現抽出されていることが分かる。形態素解析では横須賀市を「横須賀市」「横須賀＋市」とどちらにも区切る可能性があるが、本発明のようにＮｂｅｓｔ形態素列候補を入力とする場合、このような複数の候補に対して固有表現抽出モデルを適応することができる。
【００４８】
以上のようにして求められた上位Ｍ個（図４の例では１個）の固有表現付形態列候補から固有表現を抽出するには、形態素に付された固有表現情報を参照して該固有表現情報がＮＩＬ（固有表現でないことを表すタグ）が付いていないものを抽出すればよい。例えば、図４の例では、ＮＩＬが付されている助詞・助動詞は固有表現でないことが判別でき、一方、ＯＲＧ，ＬＯＣが付されている形態素が各々組織名・地名を示す固有表現であることがわかる。
【００４９】
（第２の実施の形態）
本発明の第２の実施の形態に係る固有表現抽出装置について図面を参照して説明する。図５は固有表現抽出装置の構成図、図２は固有表現抽出装置の動作を説明するフローチャートである。図中、第１の実施の形態と同じ構成については同じ符号を付した。
【００５０】
本実施の形態に係る固有表現抽出装置が、第１の実施の形態と相違する点は、抽出された固有表現付き形態素列から学習に適したものを選択し、これを固有表現抽出モデル作成部の学習データとして用いる点にある。
【００５１】
図５に示すように、本実施の形態に係る固有表現抽出装置２は、入力された文章に対して上位Ｎ個の形態素列解析候補を出力する形態素解析部１０と、さらに該形態素解析部１０の出力を元に、各形態素に固有表現を付与した固有表現付き形態素列を上位Ｍ個出力する固有表現抽出部２０とを備えている。この形態素解析部１０及び固有表現抽出部２０の構成は、第１の実施の形態と同様である。なお図５においては、解析処理部１６は第１の実施の形態における形態素候補作成部１１・形態素連接確率算出部１２・Ｎｂｅｓｔ形態素列候補探索部１３に相当し、抽出処理部２６は第１の実施の形態における固有表現付形態素候補作成部２１・固有表現付形態素連接確率算出部２２・Ｎｂｅｓｔ固有表現付形態素列候補探索部２３に相当する。
【００５２】
また、この固有表現抽出装置２は、固有表現抽出部２０が出力するＭ個のＮｂｅｓｔ固有表現付き形態素列候補に対し、学習モデルとして追加可能な結果を選択する学習データ選択部３１と、選択されたデータを固有表現抽出モデル作成部３へ渡す学習データ追加部３２とからなる学習装置３０を備えている。
【００５３】
学習データ選択部３１における具体的な選択方法について説明する。固有表現抽出部２０が、上位Ｍ個（Ｍ＞１）の固有表現付き形態素列候補を出力し、それぞれの確率がＰ_ｋであるとする（Ｍ≧ｋ≧１）。ここで、１位の結果に着目し、これが学習データとして適切かどうかを判断する上では、２位以下の確率と１位の確率の差に着目するのが簡単且つ有効である。すなわち、１位の確率が２位以下を圧倒的に引き離している場合、その結果は固有表現抽出部２０がいわば確信をもって解析できた結果であると判断できる。逆に、たとえ１位のデータであっても２位以下の確率と競っているものは、１位とそれ以外との出力のうちどれが確実に正確なのか判断しかねるデータであると言える。
【００５４】
ところで、確率値は入力文の長さによって大きく変わるため、Ｐ_１とＰ_２の値の差による比較では毎回条件が変わってしまう。そこで、本実施の形態では、１位の確率値が全体の確率値の和に占める割合により正規化した。
【００５５】
【数３】

【００５６】
また、本実施の形態に係る固有表現抽出部２０は実際の確率値の対数を取った値を出力するものとしたので、Ｐ_ｋは負の値をとる（絶対値が小さいものほど高い確率であることを示す）。そのためＱを計算したときに、その値が小さいほどより確実に１位が正解であることを意味する。そこで、１位のデータのＱ値が所定の閾値より小さい場合には、その１位のデータを固有表現抽出モデルに追加するためのデータとして選択する。
【００５７】
このようにして選択されたデータを学習データ追加部３２が固有表現抽出モデル作成部２５に渡し、該作成部２５において新しいモデルを作成する。具体的には新たに収集されたデータから、固有表現抽出モデル２４である前述の数２に記載した３つの確率を計算するために、それぞれ必要な項目に関し、学習データ中の頻度を求める。そして、今まで格納してあった頻度テーブルの情報と、新しいデータから学習した頻度を合計して改めて頻度テーブルに格納し直すことにより固有表現抽出モデル２４を更新する。
【００５８】
なお、この固有表現抽出装置は、コンピュータ上にプログラムとして実装されており、上記各部はプログラムモジュールとして構成される。
【００５９】
次に、この固有表現抽出装置２の動作について図６を参照して説明する。図６は固有表現抽出装置の動作を説明するフローチャートである。
【００６０】
まず、形態素解析部１０では、入力文に対して、予めモデル作成部１５で作成したモデル１４に基づいて形態素解析を行い、形態素列出現確率の値の高い順に上位Ｎ個まで求める（ステップＳ１１）。次いで、固有表現抽出部２０が、予めモデル作成部２５で生成したモデル２４に基づいて固有表現抽出を行い、文全体の固有表現付形態素列出現確率の値の高い順に上位Ｍ個まで求める（ステップＳ１２）。次に、学習装置３０が、この上位Ｍ個の結果から、学習モデルとして追加可能な結果を選択して固有表現抽出部２０のモデル作成部２４へ渡す（ステップＳ１３）。そして、新たに追加されたデータから固有表現抽出モデルを再学習することにより固有表現抽出モデル２４を更新する（ステップＳ１４）。
【００６１】
以上のステップにより、固有表現抽出処理を行いながら学習データが選別されモデルに反映されるので、解析精度の向上が図れる。
【００６２】
次に、本発明の実施例について図７〜図１２を参照して説明する。図７〜図９は、「札幌はまなすＬＣ杯全国少年ジャンプ大会が三日、　札幌・荒井山シャンツェで開かれた。」を入力文（第一文）としたときの固有表現付き形態素列候補であり、各候補について上記Ｑ値及びＰ_ｍ値とともに示している。図１０〜図１２は、「同日午前六時九分ごろ、青森、盛岡で震度１の地震があった。」を入力文（第二文）としたときの固有表現付き形態素列候補であり、各候補について上記Ｑ値及び確率値Ｐ_ｋとともに示している。
【００６３】
この解析結果をみると、第一文と比較して第二文の１位の結果はＱ値が小さいことがわかる。また、第一文では「ＬＣ杯全国少年ジャンプ大会」のところで形態素解析に失敗し、結果として固有表現抽出もできておらず、これを学習データとして追加するのは不適切である。一方、第二文では、時間表現を表す＜ＴＩＭ＞や地名を表す＜ＬＯＣ＞も正しく抽出され、学習データとして追加するのに適したデータとなっている。従って、選択基準となるＱ値の閾値を適当に設定することで適切な学習データを得ることができる。
【００６４】
なお、本実施の形態で用いたＱ値の算出式は一例に過ぎず、１位の確率が２位以下を圧倒的に引き離していることを表すものであれば他の式によってもよい。
【００６５】
以上本発明の実施形態について説明したが本発明はこれに限定されるものではない。本発明の範囲は特許請求の範囲によって示されており、全ての変形例は本発明に含まれるものである。
【００６６】
例えば、上記実施の形態では、形態素解析モデルとして単語２つ組出現確率に相当する単語ｂｉｇｒａｍモデルを用いたが、他のモデルを用いてもよい。例えば、３単語からなる単語列とその出現確率の組や、単語列間とその遷移確率の組からなる隠れマルコフモデル（ＨＭＭ）等を用いてもよい。
【００６７】
なお、上記実施形態では、固有表現抽出装置はコンピュータ上のプログラムとして実装されているが、このプログラムはＣＤ−ＲＯＭ・ＤＶＤ−ＲＯＭ等の記録媒体に記録したものをコンピュータにインストールしてもよいし、通信回線を介してコンピュータにインストールしてもよい。そして、上記各モデル，テーブルを記憶した記憶手段を用い、インストールしたプログラムをＣＰＵ等の制御手段で実行することにより本発明を実施することができる。
【００６８】
【発明の効果】
以上のように、Ｎｂｅｓｔ形態素列候補を出力する形態素解析部と、そのＮｂｅｓｔ形態素列候補に対して形態素と固有表現の同時確率を計算する固有表現抽出部により、従来手法で問題であった「形態素候補が１つに限定されることにより形態素と固有表現の区切りが一致しない問題」及び「英語では成果を上げていたが日本語では形態素解析の精度が低くなる問題」を解決した。
【図面の簡単な説明】
【図１】固有表現抽出装置の構成図
【図２】固有表現抽出装置の動作を説明するフローチャート
【図３】固有表現付形態素連接頻度テーブルの一例を示す図
【図４】入力文とＮｂｅｓｔ形態素列候補とＮｂｅｓｔ固有表現付形態素列候補の一例を示す図
【図５】固有表現抽出装置の構成図
【図６】固有表現抽出装置の動作を説明するフローチャート
【図７】入力文とＮｂｅｓｔ固有表現付形態素列候補の一例を示す図
【図８】入力文とＮｂｅｓｔ固有表現付形態素列候補の一例を示す図
【図９】入力文とＮｂｅｓｔ固有表現付形態素列候補の一例を示す図
【図１０】入力文とＮｂｅｓｔ固有表現付形態素列候補の一例を示す図
【図１１】入力文とＮｂｅｓｔ固有表現付形態素列候補の一例を示す図
【図１２】入力文とＮｂｅｓｔ固有表現付形態素列候補の一例を示す図
【符号の説明】
１…固有表現抽出装置、１０…形態解析部、１１…形態素候補作成部、１２…形態素連接確率算出部、１３…Ｎｂｅｓｔ形態素列候補探索部、１４…形態素解析モデル、１５…形態素解析モデル作成部、２０…固有表現抽出部、２１…固有表現付形態候補作成部、２２…固有表現付形態素連接確率算出部、２３…Ｎｂｅｓｔ固有表現付形態素列候補探索部、２４…固有表現抽出モデル、２５…固有表現抽出モデル作成部、３０…学習装置、３１…学習データ選択部、３２…学習データ追加部

Claims

入力文から固有表現を抽出する装置において、
１以上の単語からなる単語列とその出現確率の組を含む形態素解析モデル、並びに、固有表現を含む単語列とその出現確率の組，非終端単語列とその出現確率の組及び終端単語列とその出現確率の組を含む固有表現抽出モデルを予め記憶した記憶手段と、
前記記憶手段に記憶されている形態素解析モデルを用いて入力文を形態素解析し、入力文全体の形態素列について出現確率が高い上位Ｎ個（Ｎは１より大きい自然数）の形態素列を抽出する第１の抽出手段と、
前記記憶手段に記憶されている固有表現抽出モデルを用いて前記第１の抽出手段で抽出されたＮ個の形態素列から固有表現を含む形態素列について出現確率が高い上位Ｍ個（Ｍは１以上の自然数）の固有表現を含む形態素列を抽出する第２の抽出手段とを備えた
ことを特徴とする固有表現抽出装置。
前記第１の抽出手段では前向きＤＰ探索及び後向きＡ^＊アルゴリズムを用いて上位Ｎ個の形態素列を抽出する
ことを特徴とする請求項１記載の固有表現抽出装置。
前記第２の抽出手段では前向きＤＰ探索及び後向きＡ^＊アルゴリズムを用いて上位Ｍ個の固有表現を含む形態素列を抽出する
ことを特徴とする請求項１記載の固有表現抽出装置。
前記第２の抽出手段により抽出されたＭ個（Ｍは２以上の自然数）の固有表現を含む形態素列及びその出現確率のうち、１位の固有表現を含む形態素列の出現確率と他の固有表現を含む形態素列の出現確率との偏差が所定基準より大きい場合に該１位の出願確率に係る固有表現を含む形態素列を選択する手段と、
該選択した固有表現を含む形態素列における、固有表現を含む単語列とその出現確率の組，非終端単語列とその出現確率の組及び終端単語列とその出現確率の組の頻度に基づき前記固有表現抽出モデルに更新する手段とを備えた
ことを特徴とする請求項１乃至３何れか１項記載の固有表現抽出装置。
入力文から固有表現を抽出する方法において、
記憶手段に予め記憶されている１以上の単語からなる単語列とその出現確率の組を含む形態素解析モデルを用いて入力文を形態素解析して、入力文全体の形態素列について出現確率が高い上位Ｎ個（Ｎは１より大きい自然数）の形態素列を抽出する第１の抽出ステップと、
記憶手段に予め記憶されている固有表現を含む単語列とその出現確率の組，非終端単語列とその出現確率の組及び終端単語列とその出現確率の組を含む固有表現抽出モデルを用いて、前記抽出されたＮ個の形態素列から固有表現を含む形態素列について出現確率が高い上位Ｍ個（Ｍは１以上の自然数）の固有表現を含む形態素列を抽出する第２の抽出ステップとを備えた
ことを特徴とする固有表現抽出方法。
前記第１の抽出ステップでは前向きＤＰ探索及び後向きＡ^＊アルゴリズムを用いて上位Ｎ個の形態素列を抽出する
ことを特徴とする請求項５記載の固有表現抽出方法。
前記第２の抽出ステップでは前向きＤＰ探索及び後向きＡ^＊アルゴリズムを用いて上位Ｍ個の固有表現を含む形態素列を抽出する
ことを特徴とする請求項５記載の固有表現抽出方法。
前記第２の抽出ステップにより抽出されたＭ個（Ｍは２以上の自然数）の固有表現を含む形態素列及びその出現確率のうち、１位の固有表現を含む形態素列の出現確率と他の固有表現を含む形態素列の出現確率との偏差が所定基準より大きい場合に該１位の固有表現を含む出願確率に係る形態素列を選択するステップと、
該選択した固有表現を含む形態素列における、固有表現を含む単語列とその出現確率の組，非終端単語列とその出現確率の組及び終端単語列とその出現確率の組の頻度に基づき前記固有表現抽出モデルを更新するステップとを備えた
ことを特徴とする請求項５乃至７何れか１項記載の固有表現抽出方法。
コンピュータに、
記憶手段に予め記憶されている１以上の単語からなる単語列とその出現確率の組を含む形態素解析モデルを用いて入力文を形態素解析して、入力文全体の形態素列について出現確率が高い上位Ｎ個（Ｎは１より大きい自然数）の形態素列を抽出する第１の抽出手段と、
記憶手段に予め記憶されている固有表現を含む単語列とその出現確率の組，非終端単語列とその出現確率の組及び終端単語列とその出現確率の組を含む固有表現抽出モデルを用いて、前記抽出されたＮ個の形態素列から固有表現を含む形態素列について出現確率が高い上位Ｍ個（Ｍは１以上の自然数）の固有表現を含む形態素列を抽出する第２の抽出手段として機能させることにより、入力文から固有表現を抽出する
ことを特徴とする固有表現抽出プログラム。
前記第１の抽出手段では前向きＤＰ探索及び後向きＡ^＊アルゴリズムを用いて上位Ｎ個の形態素列を抽出する
ことを特徴とする請求項９記載の固有表現抽出プログラム。
前記第２の抽出手段では前向きＤＰ探索及び後向きＡ^＊アルゴリズムを用いて上位Ｍ個の固有表現を含む形態素列を抽出する
ことを特徴とする請求項９記載の固有表現抽出プログラム。
コンピュータに、
前記第２の抽出手段により抽出されたＭ個（Ｍは２以上の自然数）の固有表現を含む形態素列及びその出現確率のうち、１位の固有表現を含む形態素列の出現確率と他の固有表現を含む形態素列の出現確率との偏差が所定基準より大きい場合に該１位の固有表現を含む出願確率に係る形態素列を選択する手段と、
該選択した固有表現を含む形態素列における、固有表現を含む単語列とその出現確率の組，非終端単語列とその出現確率の組及び終端単語列とその出現確率の組の頻度に基づき前記固有表現抽出モデルを更新する手段として機能させる
ことを特徴とする請求項９乃至１１何れか１項記載の固有表現抽出プログラム。