JP2011159100A - 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム - Google Patents
逐次類似文書検索装置、逐次類似文書検索方法およびプログラム Download PDFInfo
- Publication number
- JP2011159100A JP2011159100A JP2010020137A JP2010020137A JP2011159100A JP 2011159100 A JP2011159100 A JP 2011159100A JP 2010020137 A JP2010020137 A JP 2010020137A JP 2010020137 A JP2010020137 A JP 2010020137A JP 2011159100 A JP2011159100 A JP 2011159100A
- Authority
- JP
- Japan
- Prior art keywords
- search
- similar document
- sequential
- word boundary
- index word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】類似文書を逐次的に検索する逐次的類似文書検索手段と、上記逐次的類似文書検索手段が検索した検索結果を更新する更新手段とを有することを特徴とする逐次類似文書検索装置である。
【選択図】図3
Description
図4は、実施例1の動作を示すフローチャートである。
[例1]:形態素解析し、「名詞」と「サ変動詞」とを用いることによって、文書集合を索引付けする(索引語境界であると判断する)方法
上記[例1]では、検索文qを形態素解析し、形態素解析した末尾が、名詞またはサ変動詞であれば、検索語境界であると判断する。たとえば、検索文qとして「今日の天気は、いまい」を形態素解析すると、「今日:名詞、の:格助詞、天気:名詞、は:連用助詞、い、:動詞語幹、まい:動詞接尾辞」である。この検索文qの末尾「まい」は、動詞接尾辞であり、名詞、サ変動詞のいずれでもないので、上記検索文qの末尾は、索引語境界ではないと判断する。
・今日の天(名詞)…索引語境界x
つまり、「今日の」に引き続いて、「天」を逐次的に入力した場合、入力された「天」は名詞であり、名詞は、索引付け対象の品詞であるので、入力された「天」は、索引語境界であり、この境界を索引語境界xと表現する。
・今日の天気(名詞)…索引語境界y
つまり、「今日の天」に引き続いて、「気」を逐次的に入力した場合、入力された「気」は名詞であり、名詞は、索引付け対象の品詞であるので、入力された「気」は、索引語境界であり、この境界を索引語境界yと表現する。
・今日の天気は(連用助詞)
つまり、「今日の天気」に引き続いて、「は」を逐次的に入力した場合、入力された「は」は連用動詞であり、連用動詞名詞は、索引付け対象の品詞ではないので、入力された「は」は、索引語境界ではない。
・今日の天気は、い(動詞語幹)
・今日の天気は、いま(名詞)…索引語境界z
つまり、「今日の天気は、」に引き続いて、「いま」を逐次的に入力した場合、入力された「いま」は名詞であり、名詞は、索引付け対象の品詞であるので、入力された「いま」は、索引語境界であり、この境界を索引語境界zと表現する。
・今日の天気は、いまい(動詞接尾辞)
・今日の天気は、いまいち(連用詞)
・今日の天気は、いまいちだ(判定詞)
・今日の天気は、いまいちだっ(終助詞)
・今日の天気は、いまいちだった(判定詞)
[例2]:索引語データベースDB2を用いて索引語境界であるかどうかを判断する方法
上記[例2]は、分かち書きのみの結果を用いて、分かち書き結果の最後の単語が、索引語データベースDB2に含まれていれば、索引語境界であると判断する方法である。[例2]では、形態素解析まで実行する必要はない。なお、索引語データベースDB2は、HDD193等に格納されている。
・今日の「天」(含まれる)索引語境界
つまり、「今日の」に引き続いて、「天」を逐次的に入力した場合、入力された最後の単語「天」が、索引語データベースDB2に含まれているので、入力された「天」は、索引語境界であり、この境界を索引語境界xと表現する。
・今日の「天気」(含まれる)索引語境界
つまり、「今日の天」に引き続いて、「気」を逐次的に入力した場合、入力された最後の単語「天気」が、索引語データベースDB2に含まれているので、入力された「気」は、索引語境界である。
・今日の天気「は」(含まれない)
つまり、「今日の天気」に引き続いて、「は」を逐次的に入力した場合、入力された最後の単語「は」が、索引語データベースDB2に含まれていないので、入力された「は」は、索引語境界ではない。
・今日の天気は、「い」(含まれない)
・今日の天気は、「いま」(含まれない)
「いま」が、漢字の「今」であれば、「今」が索引語データベースDB2に含まれているので、入力された「今」は、索引語境界である。しかし、「いま」は、索引語データベースDB2に含まれていないので、入力された「いま」は、索引語境界ではない。
・今日の天気は、い「まい」(含まれない)
・今日の天気は、「いまいち」(含まれる)索引語境界
・今日の天気は、いまいち「だ」(含まれない)
・今日の天気は、「いまいちだっ」(含まれない)
・今日の天気は、いまいち「だった」(含まれない)
なお、上記「(含まれる)」は、分かち書き結果の最後の単語が、索引語データベースDB2に含まれていることを意味する。また、上記「(含まれない)」は、分かち書き結果の最後の単語が、索引語データベースDB2に含まれていないことを意味する。
つまり、索引語境界xまでの検索文qである「今日の天」で検索すると、この検索結果(ランキングの上位2つの検索結果)は、「今日は天気が良いね」、「今日、天に召されました」であったとする。
つまり、索引語境界xまでの検索文qである「今日の天気」で検索すると、この検索結果(ランキングの上位2つの検索結果)は、「今日の天気はいかが?」、「今日は天気が良いね」であったとする。
検索文が追記されればされる程、より多くのキーワードの特徴を利用できるので、検索結果の精度が高くなることが期待できる。
逐次類似文書検索システム200のハードウェアは、図1、図2に示す逐次類似文書検索システム100と同様である。
と表すことができる。なお、mは、単語概念ベクトルの数である。S13で、この重心ベクトルGqを検索キーとして、LSH索引idxに対して検索処理を行い、S14で、検索結果を逐次的にインタフェースに追加する。さらに、検索文qに更新があれば、S2に戻り、再度検索を行い、結果を逐次的に更新する。
本発明の実施例3である逐次類似文書検索システム300は、索引語単位で検索し、概念ベース法を用い、しかも、直前の重心ベクトルと単語とを記憶し、差分のみによって、次の重心ベクトルを更新する実施例である。
10…類似文書検索アプリケーション、
16…類似文書検索エンジン、
18…制御手段、
181…LSH構築手段、
182…問合せ処理手段、
DB1ああ文書データベース、
DB2…索引語データベース、
D1…元の文書集合、
D2…類似文書集合。
Claims (10)
- 類似文書を逐次的に検索する逐次的類似文書検索手段と;
上記逐次的類似文書検索手段が検索した検索結果を更新する更新手段と;
を有することを特徴とする逐次類似文書検索装置。 - 請求項1において、
検索文の索引語境界を検出する索引語境界検出手段を有し、
上記逐次的類似文書検索手段は、上記索引語境界検出手段が上記検索文の索引語境界を検出する度に、索引語単位で逐次的に類似文書を検索する手段であることを特徴とする逐次類似文書検索装置。 - 請求項2において、
上記索引語境界検出手段は、局所性検知可能ハッシングを利用して、検索文の索引語境界を検出する手段であることを特徴とする逐次類似文書検索装置。 - 請求項2において、
上記索引語境界検出手段は、概念ベース法による類似文書検索を実現する手段であることを特徴とする逐次類似文書検索装置。 - 請求項4において、
検索文の索引語境界を検出する直前における上記検索文の重心ベクトルと上記検索文における単語ベクトルとを記憶する記憶手段を有し、
上記索引語境界検出手段は、上記直前の状態から新規追加、削除された索引語のみを検索する手段であり、
上記更新手段は、上記重心ベクトルを更新する手段であることを特徴とする逐次類似文書検索装置。 - 逐次的類似文書検索手段が、類似文書を逐次的に検索し、記憶手段に記憶する逐次的類似文書検索段階と;
上記逐次的類似文書検索段階で検索された検索結果を更新する更新段階と;
を有することを特徴とする逐次類似文書検索方法。 - 請求項6において、
検索語境界検索手段が、検索文の索引語境界を検出し、記憶手段に記憶する検索語境界検索段階を有し、
上記逐次的類似文書検索段階は、上記索引語境界検出段階で上記検索文の索引語境界が検出される度に、索引語単位で逐次的に類似文書を検索する段階であることを特徴とする逐次類似文書検索方法。 - 請求項7において、
上記索引語境界検出段階は、局所性検知可能ハッシングを利用して、検索文の索引語境界を検出する段階であることを特徴とする逐次類似文書検索方法。 - 請求項7において、
上記索引語境界検出段階は、概念ベース法による類似文書検索を実現する段階であることを特徴とする逐次類似文書検索方法。 - 請求項6〜請求項9のいずれか1項に記載の逐次類似文書検索方法をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010020137A JP2011159100A (ja) | 2010-02-01 | 2010-02-01 | 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010020137A JP2011159100A (ja) | 2010-02-01 | 2010-02-01 | 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011159100A true JP2011159100A (ja) | 2011-08-18 |
Family
ID=44590996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010020137A Pending JP2011159100A (ja) | 2010-02-01 | 2010-02-01 | 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011159100A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9489041B2 (en) | 2012-08-23 | 2016-11-08 | Sony Corporation | Input device, input system, electronic apparatus, and sense presentation method |
CN110321551A (zh) * | 2019-05-30 | 2019-10-11 | 泰康保险集团股份有限公司 | GloVe词向量模型增量训练方法、装置、介质及电子设备 |
JP2020154681A (ja) * | 2019-03-20 | 2020-09-24 | 株式会社Lifull | オンラインブレスト時のダブり投稿防止機能 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004234512A (ja) * | 2003-01-31 | 2004-08-19 | Nippon Telegr & Teleph Corp <Ntt> | トピック境界決定方法及び装置及びトピック境界決定プログラム |
JP2005216139A (ja) * | 2004-01-30 | 2005-08-11 | Toshiba Corp | 文書検索システム、文書検索方法及びプログラム |
JP2006092136A (ja) * | 2004-09-22 | 2006-04-06 | Fuji Xerox Co Ltd | 文書検索装置および方法 |
JP2007334429A (ja) * | 2006-06-12 | 2007-12-27 | Nippon Telegr & Teleph Corp <Ntt> | キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体 |
JP2008520037A (ja) * | 2004-11-12 | 2008-06-12 | グーグル インコーポレイテッド | 表意文字と表音文字とを有する言語のための自動補完方法およびシステム |
JP2009054133A (ja) * | 2007-07-27 | 2009-03-12 | Aisin Aw Co Ltd | ナビゲーション装置及びナビゲーション用プログラム |
-
2010
- 2010-02-01 JP JP2010020137A patent/JP2011159100A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004234512A (ja) * | 2003-01-31 | 2004-08-19 | Nippon Telegr & Teleph Corp <Ntt> | トピック境界決定方法及び装置及びトピック境界決定プログラム |
JP2005216139A (ja) * | 2004-01-30 | 2005-08-11 | Toshiba Corp | 文書検索システム、文書検索方法及びプログラム |
JP2006092136A (ja) * | 2004-09-22 | 2006-04-06 | Fuji Xerox Co Ltd | 文書検索装置および方法 |
JP2008520037A (ja) * | 2004-11-12 | 2008-06-12 | グーグル インコーポレイテッド | 表意文字と表音文字とを有する言語のための自動補完方法およびシステム |
JP2007334429A (ja) * | 2006-06-12 | 2007-12-27 | Nippon Telegr & Teleph Corp <Ntt> | キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体 |
JP2009054133A (ja) * | 2007-07-27 | 2009-03-12 | Aisin Aw Co Ltd | ナビゲーション装置及びナビゲーション用プログラム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9489041B2 (en) | 2012-08-23 | 2016-11-08 | Sony Corporation | Input device, input system, electronic apparatus, and sense presentation method |
JP2020154681A (ja) * | 2019-03-20 | 2020-09-24 | 株式会社Lifull | オンラインブレスト時のダブり投稿防止機能 |
CN110321551A (zh) * | 2019-05-30 | 2019-10-11 | 泰康保险集团股份有限公司 | GloVe词向量模型增量训练方法、装置、介质及电子设备 |
CN110321551B (zh) * | 2019-05-30 | 2022-12-06 | 泰康保险集团股份有限公司 | GloVe词向量模型增量训练方法、装置、介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Dense text retrieval based on pretrained language models: A survey | |
Rahman et al. | Effective reformulation of query for code search using crowdsourced knowledge and extra-large data analytics | |
US7895195B2 (en) | Method and apparatus for constructing a link structure between documents | |
CN102236640B (zh) | 命名实体的消歧 | |
US20090292685A1 (en) | Video search re-ranking via multi-graph propagation | |
CN101567011A (zh) | 文档处理装置和文档处理方法 | |
CN107180045A (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
CN107844493B (zh) | 一种文件关联方法及系统 | |
Zhou et al. | Resolving surface forms to wikipedia topics | |
KR102256007B1 (ko) | 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법 | |
Barrio et al. | Sampling strategies for information extraction over the deep web | |
US8229970B2 (en) | Efficient storage and retrieval of posting lists | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
JP2011159100A (ja) | 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム | |
Chang et al. | Enhancing POI search on maps via online address extraction and associated information segmentation | |
CN112100500A (zh) | 范例学习驱动的内容关联网站发掘方法 | |
KR100659370B1 (ko) | 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법 | |
Zhang et al. | Map search via a factor graph model | |
WO2021237082A1 (en) | Neural network-based semantic information retrieval | |
AU2021100441A4 (en) | A method of text mining in ranking of web pages using machine learning | |
Asfoor et al. | Unleash the Potential of Upstream Data Using Search, AI and Computer Vision | |
Harris et al. | The anatomy of a search and mining system for digital humanities | |
Grbić | A three-phase mapreduce-based algorithm for searching biomedical document databases | |
Dadure et al. | Mathematical Information Retrieval: A Review | |
Shannaq | Adapt clustering methods for arabic documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130530 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130607 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130723 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130816 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130905 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140307 |