JP5597653B2 - Word extraction apparatus, method, and program - Google Patents
Word extraction apparatus, method, and program Download PDFInfo
- Publication number
- JP5597653B2 JP5597653B2 JP2012000459A JP2012000459A JP5597653B2 JP 5597653 B2 JP5597653 B2 JP 5597653B2 JP 2012000459 A JP2012000459 A JP 2012000459A JP 2012000459 A JP2012000459 A JP 2012000459A JP 5597653 B2 JP5597653 B2 JP 5597653B2
- Authority
- JP
- Japan
- Prior art keywords
- pair
- document
- word
- score
- place name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、単語抽出方法及び装置及びプログラムに係り、特に、文書集合の中から、地名と単語やフレーズの対を抽出するための単語抽出方法及び装置及びプログラムに関する。 The present invention relates to a word extraction method, apparatus, and program, and more particularly, to a word extraction method, apparatus, and program for extracting a place name, word, and phrase pair from a document set.
詳しくは、地理的な条件を受け付けるような文書検索や、地理的観点での文書の分類、あるいは特定の地理範囲で有用な検索用キーワード等の推薦等に用いるための単語抽出方法及び装置及びプログラムに関する。 Specifically, a word extraction method, apparatus, and program for use in document search that accepts geographical conditions, classification of documents from a geographical perspective, or recommendation of search keywords that are useful in a specific geographic range, etc. About.
従来より、インターネットから得られる情報等、大規模な文書を対象として、キーワードを入力することにより、キーワードと関連のある文書を出力する技術が知られている。 2. Description of the Related Art Conventionally, a technique for outputting a document related to a keyword by inputting a keyword for a large document such as information obtained from the Internet is known.
近年、インターネット上での地図サービス等の普及や、GPS等により現在の端末の位置を取得可能なデバイスの普及を背景に、検索条件の一部として位置や地図の範囲を加え、キーワードと地理条件の双方と関連のある文書を出力する技術(地理情報検索)が知られている(例えば、非特許文献1参照)。 In recent years, with the spread of map services on the Internet, and the spread of devices that can acquire the current terminal position by GPS, etc., keywords and geographic conditions are added as part of the search conditions, adding the location and map range. There is known a technique (geographic information search) for outputting a document related to both (see, for example, Non-Patent Document 1).
また、上記のような検索は地図を閲覧しながら、その範囲で興味対象のキーワードに関する情報を検索することに利用することが可能である。その際、利用者がキーワードを想起せずとも、その地図範囲における特徴的な情報を得ることができるような単語やフレーズをシステム側が推薦することが考えられる。その場合、文書集合中で特定の地域と特定の単語が他に比べて有意に多く出現しているような対を用いて、キーワードを選出することになるであろう。 In addition, the above search can be used to search information related to a keyword of interest within a range while browsing a map. At that time, it is conceivable that the system side recommends a word or phrase that allows the user to obtain characteristic information in the map range without recalling the keyword. In that case, a keyword will be selected using a pair in which a specific region and a specific word appear significantly more than others in the document set.
上記のような地理情報検索や、検索キーワードの推薦等を実現するためには、文書中に出現する地名と単語やフレーズの対が必要となる。 In order to implement the above-described geographic information search, search keyword recommendation, etc., a pair of a place name and a word or phrase appearing in a document is required.
このような文書中に出現する地名と単語やフレーズの対の抽出方法としては、大きく2つの方法が考えられる。一つは、文書内での共起を利用する方法であり、地名と単語やフレーズが同一の文書中に出現していれば対と見做すという方法である。例えば、非特許文献1で示されているような、地名と指定されたキーワードの双方が出現した文書について処理するという方式は、この文書内共起を間接的に利用していることになる。また、もう一つの抽出方法としては、文書内の共起ではなく、もっと小さな単位、例えば、文や段落といった単位を用いる方法である。 There are two major methods for extracting pairs of place names and words or phrases that appear in such documents. One is a method of using co-occurrence in a document, in which a place name and a word or phrase appear as a pair if they appear in the same document. For example, a method of processing a document in which both a place name and a designated keyword appear as shown in Non-Patent Document 1 indirectly uses this intra-document co-occurrence. Another extraction method is a method that uses smaller units, for example, units such as sentences and paragraphs, instead of co-occurrence in a document.
しかし、これまでの方法により、文書内での共起を対象に対を抽出し、処理をした場合には、意味的繋がりがない、あるいは意味的繋がりが希薄な対も抽出してしまうという問題があった。例えば、以下のような文があったとする。 However, when pairs are extracted and processed for co-occurrence in a document by the conventional methods, there is a problem that even if there is no semantic connection or a semantic connection is rare, a pair is extracted. was there. For example, consider the following sentence:
『昨日は横須賀でセパタクローの試合がありました。惜敗でした。ただ、その後自宅でやった打ち上げのヤキソバが美味しかったので満足です!』
この文において、{横須賀−ヤキソバ}という対は意味的には繋がりがないにもかかわらず、文書内での共起を対象とした場合、対として抽出することになってしまう。
“There was a Sepak Takraw match yesterday in Yokosuka. It was a defeat. However, since the yakisoba launched at home was delicious, I was satisfied! ]
In this sentence, the {Yokosuka-Yakisoba} pair is not connected semantically, but it is extracted as a pair when co-occurrence in the document is targeted.
また、一方で、同一文内といった狭い範囲での共起に限定してしまっては、取り扱い対が極端に減ってしまうという問題があった。これは、地名は文書中で頻繁に出現するわけではなく、一度の出現で長い範囲にわたって関連するように用いられることが多いためである。 On the other hand, if the co-occurrence is limited to a narrow range such as in the same sentence, there is a problem that handling pairs are extremely reduced. This is because place names do not appear frequently in documents, but are often used to relate over a long range with a single appearance.
例えば、以下のような文があったとする。 For example, consider the following sentence:
『3年前に横須賀に越して以来、すっかりこの街が気に入っています。山がちな地形で、トンネルが多く、道路が渋滞しやすいのはたまに傷ですが、四方を海に囲まれているおかげでしょうか。温暖な気候で冬でもあまり暖房がいりません。京急で都内に出やすいのもよいですね』
この文において、{横須賀−温暖}や{横須賀−京急}という対は、意味的繋がりが深いと考えられるが、一文内での共起に限定してしまっては対として抽出されないことになる。
“I have really liked this city since I moved to Yokosuka three years ago. It is a mountainous terrain, there are many tunnels, and roads tend to be congested. Sometimes it is a scar, but it is thanks to being surrounded by the sea on all sides. It has a mild climate and does not require much heating even in winter. It ’s also easy to go to Tokyo with Keikyu. ”
In this sentence, the {Yokosuka-warm} and {Yokosuka-Keikyu} pairs are considered to be deeply connected, but if they are limited to co-occurrence within a sentence, they will not be extracted as pairs. .
これらの問題点をまとめると、抽出する対を増やすと意味的繋がりがない対が増えてしまい、逆に絞ると十分な量の対が抽出できないという問題であった。 To sum up these problems, if the number of pairs to be extracted is increased, the number of pairs having no semantic connection is increased. On the other hand, if the number of pairs is narrowed down, a sufficient amount of pairs cannot be extracted.
また、利用の用途によっては、地域と関係していれば任意の語でよいというわけではなく、目的に合致した好ましい語に限った検索や、検索語の推薦を行いたい場合がある。例えば、地域の観光に関する情報を中心とした情報検索、検索語の推薦に用いた場合、それらの地域でたまたま選挙に立候補していた立候補者の氏名ような観光と関係なさそうな語を含む対は抽出しないようにしたい。 In addition, depending on the usage, it is not necessary to use arbitrary words as long as they are related to the region, but there are cases where it is desired to search only for preferred words that match the purpose or to recommend search words. For example, when it is used to search for information centered on information about local tourism and recommend search terms, a pair that includes words that are unlikely to be related to tourism, such as the name of a candidate who was running for an election in those areas. Do not want to extract.
しかし、従来の技術によればこのような目的に好適な対を選別するということはできなかった。 However, according to the prior art, it was not possible to select a pair suitable for such a purpose.
本発明は、上記の点に鑑みなされたもので、文書から利用目的に沿った地名と語の対を抽出することが可能な単語抽出方法及び装置及びプログラムを提供することを目的とする。 The present invention has been made in view of the above points, and an object of the present invention is to provide a word extraction method, apparatus, and program capable of extracting a place name and word pair from a document according to the purpose of use.
上記の課題を解決するため、本発明(請求項1)は、入力された文書集合の中から地名と単語やフレーズの対を抽出する単語抽出装置であって、
入力された対抽出対象文書及び対候補を選出するための文書集合の文書内の単語の区切りを決定し、語を出力する文書解析手段と、
前記対抽出対象文書及び前記対候補を選出するための文書集合から地名表現を抽出し、地名が該文書中に存在する位置情報を特定し、該位置情報、該地名の代表点の緯度・経度、該地名の含意する範囲を出力する地理情報付与手段と、
前記対候補を選出するための文書集合について、前記文書解析手段、前記地理情報付与手段から出力された情報と、入力された好適と見做す典型的な対の例群(以下、「典型対例群」と記す)を用いて、文書集合中で該典型対例群に似た語と地名の対と、該対の好適度スコアを求め、好適対記憶手段に格納する好適対決定手段と、
前記抽出対象文書について、前記文書解析手段、前記地理情報付与手段から出力された情報の語と地名の対が前記好適対記憶手段に含まれていれば、該抽出対象文書内での該語と該地名との距離を求め、該対に対する好適度スコアを取得し、該距離が大きいほど小さく、かつ、該好適度スコアが大きいほど大きくなる値の判定スコアを算出し、該判定スコアが所定の値の以上の対を抽出する対抽出手段と、を有する。
In order to solve the above problems, the present invention (Claim 1) is a word extraction device that extracts a pair of a place name and a word or phrase from an input document set,
Document analysis means for determining word breaks in the documents of the document set for selecting the input pair extraction target document and pair candidates, and outputting the words;
The place name expression is extracted from the document set for selecting the pair extraction target document and the pair candidate, the position information where the place name exists in the document is specified, and the position information, the latitude / longitude of the representative point of the place name , Geographic information giving means for outputting a range implied by the place name;
With respect to the document set for selecting the pair candidate, the information output from the document analysis unit and the geographic information adding unit, and an exemplary group of typical pairs that are considered to be input (hereinafter referred to as “typical pairs”). A pair of words and place names that are similar to the typical pair of examples in the document set, and a suitable pair determination unit that obtains a suitability score of the pair and stores it in the preferred pair storage unit; ,
With respect to the extraction target document, if the preferred pair storage means includes a pair of a word and a place name of information output from the document analysis unit and the geographic information providing unit, the word in the extraction target document The distance to the place name is obtained, and an appropriateness score for the pair is obtained. A determination score having a value that decreases as the distance increases and increases as the appropriateness score increases is calculated. Pair extraction means for extracting pairs of values or more.
また、本発明(請求項2)は、前記好適対決定手段において、
前記対の好適度スコアを算出する際に、該対の一方が地名であることに限定して、ブートストラッピングアルゴリズムを用いる。
In the present invention (Claim 2), in the preferred pair determining means,
When calculating the suitability score of the pair, a bootstrapping algorithm is used only when one of the pair is a place name.
また、本発明(請求項3)は、前記対抽出手段において、
前記抽出対象の文書内での前記語wiと前記地名gjとの距離を、該語Wiが出現した文と該地名gjが出現した文の間に含まれる文の数とする手段を含む。
In the present invention (Claim 3), in the pair extraction means,
Means in which the distance between the word w i and the place name g j in the document to be extracted is the number of sentences included between the sentence in which the word W i appears and the sentence in which the place name g j appears including.
また、本発明(請求項4)は、前記対抽出手段において、
前記判定スコアを、文書内での距離が一文以内であれば、前記好適度スコアが所定の値より低くとも対となるに算出する手段、
または、
前記判定スコアを、前記好適度スコアが所定の値より高ければ、前記距離が所定の値より遠くても対となるように算出する手段
のいずれかを含む。
In the present invention (Claim 4), in the pair extraction means,
Means for calculating the judgment score to be paired even if the score in the document is less than a predetermined value if the distance in the document is within one sentence;
Or
If the determination score is higher than a predetermined value, the determination score includes any means that calculates a pair even if the distance is longer than the predetermined value.
本発明によれば、文書集合を対象に、利用目的に沿った典型対例群を与え、既存技術により典型対例群に似た地名と単語の対とそのスコア(好適度スコア)を求めて格納しておき、入力された文書から単語(語)と地名を取り出して、語と地名の距離が大きいほど小さく、かつ、語の好適度スコアが大きいほど大きくなる値の判定スコアを算出し、判定スコアが所定値以上であれば、語と地名の対を出力することにより、文書中での意味的繋がりが希薄な対を抽出してしまうことを避けながら、かつ、利用者が目的に応じて好適と見做す例のみに限定した文書内の多数の対を抽出することができる。 According to the present invention, a typical group of examples according to the purpose of use is given to a document set, and a pair of place name and word similar to the typical group of examples and a score (preferability score) are obtained by existing technology. Store a word (word) and place name from the input document, calculate a determination score with a value that decreases as the distance between the word and the place name increases and increases as the word suitability score increases, If the judgment score is greater than or equal to a predetermined value, outputting pairs of words and place names avoids extracting pairs with a weak semantic connection in the document and allows the user to It is possible to extract a large number of pairs in a document limited to only examples that are considered suitable.
以下図面と共に、本発明の実施の形態を説明する。 Embodiments of the present invention will be described below with reference to the drawings.
図1は、本発明の一実施の形態における単語抽出装置の構成を示す。 FIG. 1 shows a configuration of a word extraction device according to an embodiment of the present invention.
同図に示す単語抽出装置10は、文書解析部11、地理情報付与部12、好適対決定部13、対好適度記憶部14、対抽出部15から構成される。
A
なお、好適な対候補を選出するための文書集合は都度与えるのではなく、事前にデータベース等に登録しておいても構わない。 It should be noted that a document set for selecting a suitable pair candidate is not given each time, but may be registered in advance in a database or the like.
対項適度記憶部14は、図2に示すように、好適対決定部13によって得られた好適対(地名と語)とその対の好適度スコアを格納する。
As shown in FIG. 2, the paired
以下に、上記の構成における処理を説明する。 Hereinafter, processing in the above configuration will be described.
図3は、本発明の一実施の形態における概要動作のフローチャートである。 FIG. 3 is a flowchart of an outline operation in one embodiment of the present invention.
ステップ100)文書解析部11は、抽出対象文書と、好適な対候補を選出するための文書集合を入力として、文書内の単語の区切りを決定する。これには、当業者に公知の形態素解析技術を用いることができる。さらに、必要に応じて、単語に限らず、統語的なまとまりとして句を取り出すチャンキング、固有表現抽出(人名地名といった固有名詞や時間表現等の抽出)等を行ってもよい。これらも当業者に公知の技術を用いることができる。 Step 100) The document analysis unit 11 inputs a document to be extracted and a document set for selecting a suitable pair candidate, and determines word breaks in the document. For this, morphological analysis techniques known to those skilled in the art can be used. Furthermore, as necessary, not only words but also chunking for extracting phrases as a syntactic unit, extraction of proper expressions (extraction of proper nouns such as names of person names and time expressions), and the like may be performed. A technique known to those skilled in the art can also be used for these.
以後、これらの区切られた単語やチャンク、固有表現等をまとめて単に「語」と呼ぶ。 Hereinafter, these separated words, chunks, specific expressions, and the like are collectively referred to as “words”.
もし、好適な対候補を選出するための文書集合が都度変わるのでなければ、当該処理を1度だけ行った結果をデータベース等に格納しておいても構わない。 If the document set for selecting a suitable pair candidate does not change each time, the result of performing the process only once may be stored in a database or the like.
さらに、地理情報付与部12は、文書解析部11によって解析された各文書を入力として、文書中に記述された地名と思われる表現を特定し、地名の文書中での位置、地名の代表点の緯度・経度、地名の含意する範囲を出力する。地名の特定、その地名の代表点の緯度・経度の特定には、文献1"平野徹,松尾義博,菊井玄一郎,「地理的距離と有名度を用いた地名の曖昧性解消」、情報処理学会全国大会論文集,2008"等で示される従来の手法を用いることができる。また、地名の含意する範囲については、非特許文献1で示されているような従来法や、既存の数値地図を使うことができる。もし、好適な対候補を選出するための文書集合が都度変わるのでなければ、当該処理を1度だけ行った結果をデータベース等に格納しておいても構わない。
Further, the geographic
ステップ200) 好適対決定部13は、好適な対候補を選出するための文書集合に対して、文書解析部11、地理情報付与部12が付与した解析済み文書集合、及び好適とみなす典型的な対の例群を入力とする。好適対決定部13では、文献2"Patrick Pantel and Marco Pennacchiotti. 2006. Espresso: leveraging generic patterns for automatically harvesting semantic relations. In Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics (ACL-44). Associations for Computational Linguistics, Stroudsburg. PA, USA, 113-120."に代表されるような、ブートストラッピングアルゴリズムと呼ばれる種類の公知の技術を用いることができる。これは、少量の好適な対を種データとして与え、文書集合中でこれらの種データ対が出現するパターンを求める。次にこのパターンに合致する対集合を求める。これらを繰り返し適用するアルゴリズムである。なお、単純にブートストラッピングアルゴリズムを利用するのではなく、対の一方が地名であることに限定して処理をすることにより、無関係な対を避けることが可能である。次に、好適対決定部13は、ブートストラッピングによって得られた対を好適対記憶部14へ格納する。その際、得られた対の信頼性スコア(例えば、文献2におけるri(i))を、好適度スコアとして格納する。好適対の決定は、好適な対候補を選出するための文書集合が変わらなくても、好適とみなす典型的な対の例群が変わる度に実行する。
Step 200) The suitable
ステップ300) 対抽出部15は、抽出対象の文書に対して文書解析部11、地理情報付与部12が処理した結果を入力とし、文書中の各語wiと各地名gjの全ての対について、図4に示す手順により、本装置10で抽出すべき対か同かを判定する。
Step 300) The
ステップ301) 対抽出部15は、まず、メモリ(図示せず)上の出力対集合を初期化する。
Step 301) The
ステップ302) 以下の処理を、文書中の全ての地名g−語wについて繰り返す。 Step 302) The following processing is repeated for all place names g-words w in the document.
ステップ303) 好適対記憶部14を参照し、語wiと地名gjの対が含まれていれば、ステップ304に移行し、含まれていなければ当該対を出力に含むことがないので次の対の処理に移行する。
Step 303) Referring to the preferred
ステップ304) 語wiと地名gjとの文書内での距離d(wi,gj)を、語wiが出現した文と、地名gjが出現した文の間に含まれる文の数とする。特にwiとgjが同一文内で出現すればd(wi,gj)=0とする。もし、wiあるいはgjが文書内で複数回出現する場合、最も距離が小さいものをd(wi,gj)とする。 Step 304) word w i and place names g j the distance d (w i in the document, the g j), the sentence word w i has appeared, the statements contained between sentences places g j appeared It is a number. In particular, if w i and g j appear in the same sentence, d (w i , g j ) = 0. If w i or g j appears multiple times in the document, the one with the smallest distance is defined as d (w i , g j ).
ステップ305) 好適対記憶部14中の当該対の好適度スコアp(wi,gj)を取得する。
Step 305) The suitability score p (w i , g j ) of the pair in the preferred
ステップ306) 以下の式により判定スコアs(wi,gj)を求める。 Determined by step 306) following expression score s (w i, determining the g j).
なお、判定スコアs(wi,gj)の算出は、上記の式に限定されることなく、定性的には、文書内での距離が一文以内など所定の値よりに短ければ、好適度スコアが所定の値より低くても対として認定し、好適度スコアが所定の値より高ければ、文書内での距離が所定の値より大きくとも対として認定するようなものであればよい。 The calculation of the determination score s (w i , g j ) is not limited to the above formula, and qualitatively, if the distance in the document is shorter than a predetermined value such as within one sentence, the degree of preference Even if the score is lower than a predetermined value, it is recognized as a pair, and if the suitability score is higher than a predetermined value, the pair may be recognized even if the distance in the document is larger than the predetermined value.
例えば、上記で求めた方法以外に、事前に設定した定数パラメータβと、以下で定めるような階段状の関数によって判定してもよい。 For example, in addition to the method obtained above, the determination may be made by using a constant parameter β set in advance and a step-like function as defined below.
ステップ308) 判定スコアs(wi,gj)≧1の対をメモリ(図示せず)の出力対集合に追加する。 Step 308) Add the pair of judgment scores s (w i , g j ) ≧ 1 to the output pair set of the memory (not shown).
ステップ309) 全ての地名g−語wについてステップ303以降の処理が終了すればステップ310に移行し、まだ終了していない場合はステップ303に移行する。
Step 309) If the processing after
ステップ310) メモリ(図示せず)の出力対集合を出力する。 Step 310) Output an output pair set of a memory (not shown).
本発明は、上記のように、利用目的に沿った典型対例群を文書集合に与え、典型対例群に似た地名と語の対とその項適度スコアを求める。文書が入力されると、当該文書から語と地名を抽出し、その語と地名の距離が大きい程に小さく、かつ、語の項適度スコアが大木ほどに大きくなる判定スコアを算出し、当該判定スコアが所定値以上であれば、語と地名の対を出力する。これにより、利用目的に対して好適な対を選別することが可能となる。 As described above, the present invention gives a typical group of examples according to the purpose of use to a document set, and obtains a pair of place name and word similar to the typical group of examples and its term moderate score. When a document is input, a word and place name are extracted from the document, and a determination score is calculated so that the smaller the distance between the word and the place name is, the larger the term appropriate score of the word is. If the score is greater than or equal to a predetermined value, a pair of word and place name is output. This makes it possible to select a pair suitable for the purpose of use.
図1に示す単語抽出装置の各構成要素の動作をプログラムとして構築し、単語抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることも可能である。 It is also possible to construct the operation of each component of the word extraction device shown in FIG. 1 as a program, install it on a computer used as the word extraction device, execute it, or distribute it via a network.
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。 The present invention is not limited to the above-described embodiments, and various modifications and applications are possible within the scope of the claims.
10 単語抽出装置
11 文書解析部
12 地理情報付与部
13 好適対決定部
14 対好適度記憶部
15 対抽出部
DESCRIPTION OF
Claims (8)
入力された対抽出対象文書及び対候補を選出するための文書集合の文書内の単語の区切りを決定し、語を出力する文書解析手段と、
前記対抽出対象文書及び前記対候補を選出するための文書集合から地名表現を抽出し、地名が該文書中に存在する位置情報を特定し、該位置情報、該地名の代表点の緯度・経度、該地名の含意する範囲を出力する地理情報付与手段と、
前記対候補を選出するための文書集合について、前記文書解析手段、前記地理情報付与手段から出力された情報と、入力された好適と見做す典型的な対の例群(以下、「典型対例群」と記す)を用いて、文書集合中で該典型対例群に似た語と地名の対と、該対の好適度スコアを求め、好適対記憶手段に格納する好適対決定手段と、
前記抽出対象文書について、前記文書解析手段、前記地理情報付与手段から出力された情報の各語と各地名の対が前記好適対記憶手段に含まれていれば、該抽出対象文書内での該語と該地名との距離を求め、該対に対する好適度スコアを取得し、該距離が大きいほど小さく、かつ、該好適度スコアが大きいほど大きくなる値の判定スコアを算出し、該判定スコアが所定の値の以上の対を抽出する対抽出手段と、
を有することを特徴とする単語抽出装置。 A word extraction device for extracting a pair of a place name and a word or phrase from an input document set,
Document analysis means for determining word breaks in the documents of the document set for selecting the input pair extraction target document and pair candidates, and outputting the words;
The place name expression is extracted from the document set for selecting the pair extraction target document and the pair candidate, the position information where the place name exists in the document is specified, and the position information, the latitude / longitude of the representative point of the place name , Geographic information giving means for outputting a range implied by the place name;
With respect to the document set for selecting the pair candidate, the information output from the document analysis unit and the geographic information adding unit, and an exemplary group of typical pairs that are considered to be input (hereinafter referred to as “typical pairs”). A pair of words and place names that are similar to the typical pair of examples in the document set, and a suitable pair determination unit that obtains a suitability score of the pair and stores it in the preferred pair storage unit; ,
For the extraction target document, if a pair of each word and each name of information output from the document analysis unit and the geographic information providing unit is included in the suitable pair storage unit, A distance between a word and the place name is obtained, and a suitable score for the pair is obtained. A determination score having a value that decreases as the distance increases and increases as the suitable score increases is calculated. A pair extracting means for extracting a pair having a predetermined value or more;
A word extraction device characterized by comprising:
前記対の好適度スコアを算出する際に、該対の一方が地名であることに限定して、ブートストラッピングアルゴリズムを用いる
請求項1記載の単語抽出装置。 The suitable pair determining means includes
The word extraction device according to claim 1, wherein when calculating the suitability score of the pair, a bootstrapping algorithm is used by limiting to one of the pairs being a place name.
前記抽出対象の文書内での前記語wiと前記地名gjとの距離を、該語Wiが出現した文と該地名gjが出現した文の間に含まれる文の数とする手段を含む
請求項1記載の単語抽出装置。 The pair extraction means includes
Means in which the distance between the word w i and the place name g j in the document to be extracted is the number of sentences included between the sentence in which the word W i appears and the sentence in which the place name g j appears The word extraction device according to claim 1, comprising:
前記判定スコアを、文書内での距離が一文以内であれば、前記好適度スコアが所定の値より低くとも対となるに算出する手段、
または、
前記判定スコアを、前記好適度スコアが所定の値より高ければ、前記距離が所定の値より遠くても対となるように算出する手段
のいずれかを含む
請求項1記載の単語抽出装置。 The pair extraction means includes
Means for calculating the judgment score to be paired even if the score in the document is less than a predetermined value if the distance in the document is within one sentence;
Or
The word extraction device according to claim 1, further comprising: means for calculating the determination score so that if the suitability score is higher than a predetermined value, the determination score is paired even if the distance is longer than the predetermined value.
文書解析手段が、入力された対抽出対象文書及び対候補を選出するための文書集合の文書内の単語の区切りを決定し、語を出力する文書解析ステップと、
地理情報付与手段が、前記対抽出対象文書及び前記対候補を選出するための文書集合から地名表現を抽出し、地名が該文書中に存在する位置情報を特定し、該位置情報、該地名の代表点の緯度・経度、該地名の含意する範囲を出力する地理情報付与ステップと、
好適対決定手段が、典型対例群が入力されると、前記対候補を選出するための文書集合について、前記文書解析ステップ、前記地理情報付与ステップにより出力された情報を用いて、ブートストラッピングアルゴリズムにより、文書集合中で該典型対例群に似た語と、地名の対と該対の好適度スコアを求め、好適対記憶手段に格納する好適対決定ステップと、
対抽出手段が、前記抽出対象文書について、前記文書解析ステップ、前記地理情報付与ステップにより出力された情報の各語と各地名の対が前記好適対記憶手段に含まれていれば、該抽出対象文書内での該語と該地名との距離を求め、該対に対する好適度スコアを取得し、該距離が大きいほど小さく、かつ、該好適度スコアが大きいほど大きくなる値の判定スコアを算出し、該判定スコアが所定の値の以上の対を抽出する対抽出ステップと、
を行うことを特徴とする単語抽出方法。 A word extraction method for extracting a pair of a place name and a word or phrase from an input document set,
A document analysis step in which the document analysis means determines word breaks in the documents of the document set for selecting the input pair extraction target document and pair candidates, and outputs the words;
Geographic information adding means extracts a place name expression from the document set for selecting the pair extraction target document and the pair candidate, specifies the position information in which the place name exists in the document, the position information, the place name Geographic information giving step for outputting the latitude / longitude of the representative point and the range implied by the place name;
When a typical pair of examples is input, the preferred pair determination unit uses the information output in the document analysis step and the geographic information addition step for the document set for selecting the pair candidates, and bootstrapping A suitable pair determination step of obtaining a word similar to the typical pair group in the document set, a pair of place names, and a suitability score of the pair by an algorithm, and storing the pair in a suitable pair storage unit;
If the pair extraction unit includes a pair of each word and each name of the information output by the document analysis step and the geographic information addition step for the extraction target document in the suitable pair storage unit, the extraction target The distance between the word and the place name in the document is obtained, and a suitable score for the pair is obtained, and a determination score having a value that decreases as the distance increases and increases as the suitable score increases is calculated. A pair extraction step for extracting a pair whose determination score is equal to or greater than a predetermined value;
A word extraction method characterized by:
前記抽出対象の文書内での前記語wiと前記地名gjとの距離を、該語Wiが出現した文と該地名gjが出現した文の間に含まれる文の数とする
請求項5記載の単語抽出方法。 In the pair extraction step,
The distance between the word w i and the place name g j in the document to be extracted is the number of sentences included between the sentence in which the word W i appears and the sentence in which the place name g j appears. Item 6. The word extraction method according to Item 5.
前記判定スコアを、文書内での距離が一文以内であれば、前記好適度スコアが所定の値より低くとも対となるに算出する、
または、
前記判定スコアを、前記好適度スコアが所定の値より高ければ、前記距離が所定の値より遠くても対となるように算出する
請求項5記載の単語抽出方法。 In the pair extraction step,
If the distance in the document is within one sentence, the determination score is calculated as a pair even if the suitability score is lower than a predetermined value.
Or
The word extraction method according to claim 5, wherein the determination score is calculated so as to be paired even if the distance is longer than a predetermined value if the suitability score is higher than a predetermined value.
請求項1乃至4のいずれか1項に記載の単語抽出装置の各手段として機能させるための単語抽出プログラム。 Computer
The word extraction program for functioning as each means of the word extraction apparatus of any one of Claims 1 thru | or 4.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012000459A JP5597653B2 (en) | 2012-01-05 | 2012-01-05 | Word extraction apparatus, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012000459A JP5597653B2 (en) | 2012-01-05 | 2012-01-05 | Word extraction apparatus, method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013140500A JP2013140500A (en) | 2013-07-18 |
JP5597653B2 true JP5597653B2 (en) | 2014-10-01 |
Family
ID=49037878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012000459A Expired - Fee Related JP5597653B2 (en) | 2012-01-05 | 2012-01-05 | Word extraction apparatus, method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5597653B2 (en) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3607462B2 (en) * | 1997-07-02 | 2005-01-05 | 松下電器産業株式会社 | Related keyword automatic extraction device and document search system using the same |
US20080033935A1 (en) * | 2006-08-04 | 2008-02-07 | Metacarta, Inc. | Systems and methods for presenting results of geographic text searches |
JP5167546B2 (en) * | 2006-08-21 | 2013-03-21 | 国立大学法人京都大学 | Sentence search method, sentence search device, computer program, recording medium, and document storage device |
JP5042268B2 (en) * | 2009-04-28 | 2012-10-03 | ヤフー株式会社 | Proper word acquisition device, machine learning device and method |
JP5382651B2 (en) * | 2009-09-09 | 2014-01-08 | 独立行政法人情報通信研究機構 | Word pair acquisition device, word pair acquisition method, and program |
JP5513929B2 (en) * | 2010-03-02 | 2014-06-04 | 日本電信電話株式会社 | Experience information reusability evaluation apparatus, method and program |
-
2012
- 2012-01-05 JP JP2012000459A patent/JP5597653B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013140500A (en) | 2013-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108319627B (en) | Keyword extraction method and keyword extraction device | |
CN106649818B (en) | Application search intention identification method and device, application search method and server | |
CN106960030B (en) | Information pushing method and device based on artificial intelligence | |
CN107102981B (en) | Word vector generation method and device | |
CN107145545B (en) | Top-k area user text data recommendation method in social network based on position | |
CN112100396B (en) | Data processing method and device | |
CN109388743B (en) | Language model determining method and device | |
CN105975558A (en) | Method and device for establishing statement editing model as well as method and device for automatically editing statement | |
CN105302882B (en) | Obtain the method and device of keyword | |
US9892110B2 (en) | Automated discovery using textual analysis | |
CN114207604A (en) | System and method for extracting scientific measurement context using targeted question answers | |
CN110377684A (en) | A kind of spatial key personalization semantic query method based on user feedback | |
CN113515589B (en) | Data recommendation method, device, equipment and medium | |
CN106528676A (en) | Entity semantic retrieval processing method and device based on artificial intelligence | |
JP6759824B2 (en) | Providing adaptive electronic reading support | |
Blanco et al. | Overview of NTCIR-13 Actionable Knowledge Graph (AKG) Task. | |
Derungs et al. | Mining nearness relations from an n-grams Web corpus in geographical space | |
WO2015065719A1 (en) | Computerized systems and methods for identifying a character string for a point of interest | |
JP5597653B2 (en) | Word extraction apparatus, method, and program | |
JP5798086B2 (en) | Device, method and program for extracting pairs of place names and words from a document | |
CN112000495A (en) | Method, electronic device and storage medium for point of interest information management | |
US9104755B2 (en) | Ontology enhancement method and system | |
JP5595426B2 (en) | Word extraction method, apparatus and program | |
CN114706841B (en) | Query content library construction method and device, electronic equipment and readable storage medium | |
Attique et al. | Efficient Processing of Moving Top‐k Spatial Keyword Queries in Directed and Dynamic Road Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20131001 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140204 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140625 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140805 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140811 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5597653 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |