JP4015661B2 - 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体 - Google Patents
固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体 Download PDFInfo
- Publication number
- JP4015661B2 JP4015661B2 JP2004373532A JP2004373532A JP4015661B2 JP 4015661 B2 JP4015661 B2 JP 4015661B2 JP 2004373532 A JP2004373532 A JP 2004373532A JP 2004373532 A JP2004373532 A JP 2004373532A JP 4015661 B2 JP4015661 B2 JP 4015661B2
- Authority
- JP
- Japan
- Prior art keywords
- morpheme
- candidate
- probability
- expression
- specific expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
持株/モチカブ/名詞/I−<ORG>
会社/ガイシャ/名詞/I−<ORG>
社長/シャチョウ/名詞/NIL
の/ノ/助詞/NIL
和田/ワダ/名詞:nr/B−<PSN>
氏/シ/名詞/NIL
特開2004−46775号公報
(ステップ1)現位置を文頭(=0)に設定し、ステップ2に進む。
(ステップ2)現位置において、右側固有表現付形態素候補の有無を調べ、あればステップ3に進み、なければステップ5に進む。
(ステップ3)候補列挙部230、候補絞込部240、連接確率計算部250による一連の処理(後述する)を実施させ、ステップ4に進む。
(ステップ4)現位置が文末であるかを調べ、文末でなければステップ5に進み、文末であればステップ6に進む。
(ステップ5)文字位置を1文字進め、ステップ2へ戻る。
(ステップ6)後段の探索処理部300に処理を移す。
次に、第1絞込実行部245は、全右側固有表現付形態素候補のうち、前記絞込AB重み付け確率値が最大の右側固有表現付形態素候補から、絞込AB重み付け確率値が前記最大値の1/10である右側固有表現付形態素候補まで、を抽出することによって第1の絞込みを実施する。そして、抽出した第1絞込後右側固有表現付形態素候補とそれに対応する絞込AB重み付け確率値との組を第1絞込後右側データとして出力し、右側終了位置データ記憶部261に記憶する。図16に第1絞込後右側データの一例を示す。
・次形態素別固有表現出現確率P(NC|next)
・固有表現遷移確率P(NCi |NCi-1 ,wi-1 )
・先頭単語出現確率P(wi |NCi ,NCi-1 )
・非先頭単語出現確率P(wi |wi-1 ,NCi-1 )
従って、上記の各モデルは以下のように計算できる。
・P(NC|next)=C(next,NC)/C(next)
・P(NCi |NCi-1 ,wi-1 )=C(NCi-1 ,wi-1 ,NCi )/C(NCi-1 ,wi-1 )
・P(wi |NCi ,NCi-1 )=C(NCi ,NCi-1 ,wi )/C(NCi ,NCi-1 )
・P(wi |wi-1 ,NCi-1 )=C(wi-1 ,NCi-1 ,wi )/C(wi-1 ,NCi-1 )
2.NCi =NCi-1 且つNCi =NCi+1 の時 P(wi ,NCi )=P(wi |wi-1 ,NCi )
3.NCi =NCi-1 且つNCi ≠NCi+1 の時 P(wi ,NCi )=P(wi |wi-1 ,NCi )×P(<end>|wi ,NCi )
形態素の品詞pos、単語タイプ<type>、固有表現状態NCの組それぞれについてこの条件付確率P(NC|pos,<type>)を求めたものを品詞及び単語タイプ別固有表現出現確率値とする。
に含まれる1形態素
この右辺は、次形態素集合Nextに含まれる次形態素がnextである時に、固有表現はNCであるという条件付確率P(NC|Next)を、Nextに含まれる全ての次形態素について計算して和をとったものである。形態素の次形態素、形態素の固有表現状態の組それぞれについてこの条件付確率P(NC|Next)を求めたものを次形態素別固有表現出現確率とする。
Claims (10)
- 入力文から該入力文に含まれる固有表現を抽出する装置において、
形態素の品詞及び単語タイプに対して当該品詞及び単語タイプをとる固有表現状態の出現確率(尤度)を予め記憶した品詞及び単語タイプ別固有表現出現確率記憶手段と、
先行する形態素に対して他の形態素が後続している条件下において先行する形態素のとる固有表現状態の出現確率(尤度)を予め記録した次形態素別固有表現出現確率記憶手段と、
入力文を形態素解析して該入力文に含まれる形態素の列の候補(形態素列候補)を抽出する形態素解析手段と、
形態素解析手段で抽出した各形態素列候補中の各形態素について該形態素の取りうる固有表現識別子を付することにより固有表現付形態素候補を作成する候補作成手段と、
入力文の各位置において、当該位置から始まり且つ前記候補作成手段で作成された固有表現付形態素候補について、前記品詞及び単語タイプ別固有表現出現確率記憶手段に記憶されている出現確率及び前記次形態素別固有表現出現確率記憶手段に記憶されている出現確率を参照して固有表現付形態素候補の出現確率(尤度)を求めて、出現確率が最大のものの一定割合以上の出現確率をもつ固有表現付形態素候補、または、出現確率の最大のものから上位少なくとも1つの固有表現付形態素候補を抽出する第1の絞込実行部と、
第1の絞込実行部で抽出された固有表現付形態素候補と、その直前に位置する前記候補作成手段で作成された固有表現付形態素候補との組み合わせを連接ペアデータとして出力する第2の絞込実行部と、
第2の絞込実行部の出力した連接ペアデータに対して連接確率値を計算し、更に文頭から当該位置の固有表現付形態素候補までの連接確率値積算値の最大のもの(最大途中確率値)を、当該位置及び当該連接ペアデータとともに最大途中確率データ記憶部に記憶する連接確率計算手段と、
前記最大途中確率データ記憶部に記憶されている連接ペアデータを探索して入力文を構成し且つ出現確率の最大のものから上位少なくとも1つの固有表現付形態素候補の列を出力する探索手段とを備えた
ことを特徴とする固有表現抽出装置。 - 2つの連続する固有表現付形態素候補の固有表現識別子について接続が許可される組を予め記録した固有表現連接ペア記憶手段を備え、
前記第2の絞込実行部は、更に、前記候補作成手段で作成された各固有表現付形態素候補について、固有表現連接ペア記憶手段を参照して当該固有表現付形態素候補の直前に位置し且つ前記候補作成手段で作成された固有表現付形態素候補との接続が許可されている固有表現付形態素候補のみを出力する
ことを特徴とする請求項1記載の固有表現抽出装置。 - 前記第1の絞込実行部は、入力文の各位置において、当該位置から始まり且つ前記候補作成手段で作成された固有表現付形態素候補について、該固有表現付形態素候補の品詞及び単語タイプ並びに固有表現状態をキーとして前記品詞及び単語タイプ別固有表現出現確率記憶手段から第1の出現確率を取得する第1の出現確率取得手段と、前記固有表現付形態素候補の固有表現状態及び該固有表現付形態素候補に後続する形態素をキーとして前記次形態素別固有表現出現確率記憶手段に記憶されている第2の出現確率を取得する第2の出現確率取得手段と、第1の出現確率と第2の出現確率とを重み付け加算して重み付け確率値を算出し、重み付け確率値が最大のものの一定の割合以上の重み付け確率値をもつ固有表現付形態素候補、または、重み付け確率値の最大のものから上位少なくとも1つの固有表現付形態素候補を抽出する
ことを特徴とする請求項1記載の固有表現抽出装置。 - 前記第2の絞込実行部は、入力文の各位置において、当該位置の直前に位置する固有表現付形態素候補を取得する直前候補取得手段と、取得した固有表現付形態素候補の固有表現識別子と当該位置における固有表現付形態素候補の固有表現識別子の組をキーとして固有表現連接ペア記憶手段を検索し、当該組が固有表現連接ペア記憶手段に予め記憶されている場合にのみ当該位置における固有表現付形態素候補を出力する
ことを特徴とする請求項2記載の固有表現抽出装置。 - コンピュータを用いて入力文から該入力文に含まれる固有表現を抽出する方法において、
前記コンピュータは、
形態素の品詞及び単語タイプに対して当該品詞及び単語タイプをとる固有表現状態の出現確率(尤度)を予め記憶した品詞及び単語タイプ別固有表現出現確率記憶手段と、
先行する形態素に対して他の形態素が後続している条件下において先行する形態素のとる固有表現状態の出現確率(尤度)を予め記録した次形態素別固有表現出現確率記憶手段とを備えるとともに、
該コンピュータの形態素解析手段が、入力文を形態素解析して該入力文に含まれる形態素の列の候補(形態素列候補)を抽出し、
該コンピュータの候補作成手段が、形態素解析手段で抽出した各形態素列候補中の各形態素について該形態素の取りうる固有表現識別子を付することにより固有表現付形態素候補を作成し、
該コンピュータの第1の絞込実行部が、入力文の各位置において、当該位置から始まり且つ前記候補作成手段で作成された固有表現付形態素候補について、前記品詞及び単語タイプ別固有表現出現確率記憶手段に記憶されている出現確率及び前記次形態素別固有表現出現確率記憶手段に記憶されている出現確率を参照して固有表現付形態素候補の出現確率(尤度)を求めて、出現確率が最大のものの一定割合以上の出現確率をもつ固有表現付形態素候補、または、出現確率の最大のものから上位少なくとも1つの固有表現付形態素候補を抽出し、
該コンピュータの第2の絞込実行部が、第1の絞込実行部で抽出された固有表現付形態素候補と、その直前に位置する前記候補作成手段で作成された固有表現付形態素候補との組み合わせを連接ペアデータとして出力し、
該コンピュータの連接確率計算手段が、第2の絞込実行部の出力した連接ペアデータに対して連接確率値を計算し、更に文頭から当該位置の固有表現付形態素候補までの連接確率値積算値の最大のもの(最大途中確率値)を、当該位置及び当該連接ペアデータとともに最大途中確率データ記憶部に記憶し、
該コンピュータの探索手段が、前記最大途中確率データ記憶部に記憶されている連接ペアデータを探索して入力文を構成し且つ出現確率の最大のものから上位少なくとも1つの固有表現付形態素候補の列を出力する
ことを特徴とする固有表現抽出方法。 - 前記コンピュータは、
2つの連続する固有表現付形態素候補の固有表現識別子について接続が許可される組を予め記録した固有表現連接ペア記憶手段を備えるとともに、
前記第2の絞込実行部は、更に、前記候補作成手段で作成された各固有表現付形態素候補について、固有表現連接ペア記憶手段を参照して当該固有表現付形態素候補の直前に位置し且つ前記候補作成手段で作成された固有表現付形態素候補との接続が許可されている固有表現付形態素候補のみを出力する
ことを特徴とする請求項5記載の固有表現抽出方法。 - 前記第1の絞込実行部は、入力文の各位置において、当該位置から始まり且つ前記候補作成手段で作成された固有表現付形態素候補について、該固有表現付形態素候補の品詞及び単語タイプ並びに固有表現状態をキーとして前記品詞及び単語タイプ別固有表現出現確率記憶手段から第1の出現確率を取得し、前記固有表現付形態素候補の固有表現状態及び該固有表現付形態素候補に後続する形態素をキーとして前記次形態素別固有表現出現確率記憶手段に記憶されている第2の出現確率を取得し、前記第1の出現確率と第2の出現確率とを重み付け加算して重み付け確率値を算出し、重み付け確率値が最大のものの一定の割合以上の重み付け確率値をもつ固有表現付形態素候補、または、重み付け確率値の最大のものから上位少なくとも1つの固有表現付形態素候補を抽出する
ことを特徴とする請求項5記載の固有表現抽出方法。 - 前記第2の絞込実行部は、入力文の各位置において、当該位置の直前に位置する固有表現付形態素候補を取得し、取得した固有表現付形態素候補の固有表現識別子と当該位置における固有表現付形態素候補の固有表現識別子の組をキーとして固有表現連接ペア記憶手段を検索し、当該組が固有表現連接ペア記憶手に予め記憶されている場合にのみ当該位置における固有表現付形態素候補を出力する
ことを特徴とする請求項6記載の固有表現抽出方法。 - コンピュータに前記請求項5乃至8何れか1項の固有表現抽出方法を実行させる固有表現抽出プログラム。
- 請求項9記載の固有表現抽出プログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004373532A JP4015661B2 (ja) | 2004-12-24 | 2004-12-24 | 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004373532A JP4015661B2 (ja) | 2004-12-24 | 2004-12-24 | 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006178865A JP2006178865A (ja) | 2006-07-06 |
JP4015661B2 true JP4015661B2 (ja) | 2007-11-28 |
Family
ID=36732919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004373532A Active JP4015661B2 (ja) | 2004-12-24 | 2004-12-24 | 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4015661B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5057916B2 (ja) * | 2007-09-28 | 2012-10-24 | 日本電信電話株式会社 | 固有表現抽出装置、その方法、プログラム及び記録媒体 |
JP5212725B2 (ja) * | 2009-01-30 | 2013-06-19 | 大日本印刷株式会社 | 電子書籍作成支援装置 |
JP5326781B2 (ja) * | 2009-04-30 | 2013-10-30 | 日本電気株式会社 | 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム |
CN109710927B (zh) * | 2018-12-12 | 2022-12-20 | 东软集团股份有限公司 | 命名实体的识别方法、装置、可读存储介质及电子设备 |
CN118152590B (zh) * | 2024-05-08 | 2024-08-16 | 支付宝(杭州)信息技术有限公司 | 基于文本语料生成医疗知识图谱的方法及装置 |
-
2004
- 2004-12-24 JP JP2004373532A patent/JP4015661B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2006178865A (ja) | 2006-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8892420B2 (en) | Text segmentation with multiple granularity levels | |
JP3983265B1 (ja) | 辞書作成支援システム、方法及びプログラム | |
Lee et al. | Deep learning-based context-sensitive spelling typing error correction | |
US8606779B2 (en) | Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof | |
US8356065B2 (en) | Similar text search method, similar text search system, and similar text search program | |
JP4687089B2 (ja) | 重複レコード検出システム、および重複レコード検出プログラム | |
JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
JP2007334429A (ja) | キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体 | |
JP2005135113A (ja) | 電子機器装置、関連語抽出方法及びプログラム | |
JP4015661B2 (ja) | 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体 | |
CN114298048A (zh) | 命名实体识别方法及装置 | |
JP4005477B2 (ja) | 固有表現抽出装置及び方法並びに固有表現抽出プログラム | |
JP2002297660A (ja) | 文字列類似度算出方法、装置、プログラム及び記録媒体 | |
JP5293607B2 (ja) | 略語生成装置およびプログラム、並びに、略語生成方法 | |
JP3983000B2 (ja) | 複合語分割装置、及び日本語辞書作成装置 | |
WO2003046765A1 (fr) | Procede d'extraction automatique de mot associe | |
JP2002278982A (ja) | 情報抽出方法および情報検索方法 | |
CN115831117A (zh) | 实体识别方法、装置、计算机设备和存储介质 | |
JP5583230B2 (ja) | 情報検索装置及び情報検索方法 | |
JP2002108888A (ja) | ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体 | |
JP5120749B2 (ja) | 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム | |
JPH08339376A (ja) | 外国語検索装置及び情報検索システム | |
JP2005025555A (ja) | シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 | |
JPS63228326A (ja) | キ−ワ−ド自動抽出方式 | |
JP2002091961A (ja) | コーパス誤りの検出・修正システム,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070605 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070803 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070911 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070913 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100921 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4015661 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100921 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110921 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120921 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130921 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |