JP5039159B2 - 情報分類システム、情報分類方法及びプログラム - Google Patents
情報分類システム、情報分類方法及びプログラム Download PDFInfo
- Publication number
- JP5039159B2 JP5039159B2 JP2010042947A JP2010042947A JP5039159B2 JP 5039159 B2 JP5039159 B2 JP 5039159B2 JP 2010042947 A JP2010042947 A JP 2010042947A JP 2010042947 A JP2010042947 A JP 2010042947A JP 5039159 B2 JP5039159 B2 JP 5039159B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- important
- specific range
- unnecessary
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明に係る情報分類システムは、文書データにおける第一の特定範囲および第二の特定範囲のテキスト情報に関して、前記各特定範囲に含まれる各単語の相関関係に基づいて重要語または不要語を抽出する重要語・不要語抽出処理部と、記憶装置に記憶された各文書データについて前記各特定範囲の前記重要語または前記不要語に基づいてクラスタリングを行うクラスタ生成処理部とを実行する処理装置を備える。
M={ml,…,mkk}を、文書取得部207を経由して読出して取得し、バッファメ
モリ(図示せず)に記憶した後(S501)、第1のカウンタ(図示せず)にi=1を設
定した後(S502)、ある1つの文書の形態素miに対する出現文書の数Niを計数す
る(S503)。
ているか否かを判断し(S504)、形態素miがP1個以上出現している場合は(S4
05:YES)、該当形態素mi及び出現文書数ciをバッファメモリなどに格納して記
憶する(S505)。
にてバッファメモリに該当形態素mi及び出現文書数ci(=c1)を格納した後、最後
の形態素mkkまで出現文書数を調べたか否かを判断し(S506)、まだ未処理の形態
素が残っている場合は(S506:NO)、第1のカウンタに+1をインクリメントし(
S507)、ステップS503に戻り、同様の処理を繰り返し実行する。
P3 = P3 * 2
A = A * 0.5
このように、閾値をゆるく(すなわちP2とP3との幅を大きく、かつ、下限Aを小さく)設定することにより、S708において、E Rへ形態素miが追加されやすくなる。
Claims (6)
- 文書データにおける第一の特定範囲および第二の特定範囲のテキスト情報に関して、前記
各特定範囲に含まれる各単語の相関関係に基づいて重要語または不要語を抽出する重要語
・不要語抽出処理部と、
記憶装置に記憶された各文書データについて前記各特定範囲の前記重要語または前記不要
語に基づいてクラスタリングを行うクラスタ生成処理部と、
第一の単語が第一の特定範囲に出現する文書の集合と第二の単語が第二の特定範囲に出現
する文書の集合との積集合を各単語の組合せについてそれぞれ計算し、これら積集合にお
ける文書数をそれぞれ集計する文書数集計部とを備え、
前記重要語・不要語抽出処理部は、前記積集合における文書数が所定値以上であるものに
おいて、第一の単語と第二の単語とが異なる場合に、当該第一の単語を第一の特定範囲に
おける重要語とし、当該第二の単語を第二の特定範囲における重要語として、それぞれ抽
出する情報分類システム。 - 前記重要語・不要語抽出処理部は、前記積集合における文書数が所定値以上であるものに
おいて、第一の単語と第二の単語とが同一であって、かつ、前記抽出された重要語と異な
る場合に、当該第一の単語を第一の特定範囲における不要語とし、当該第二の単語を第二
の特定範囲における不要語として、それぞれ抽出することを特徴とする請求項1に記載の
情報分類システム。 - 文書データにおける第一の特定範囲および第二の特定範囲のテキスト情報に関して、前記
各特定範囲に含まれる各単語の相関関係に基づいて重要語または不要語を抽出する重要語
・不要語抽出処理ステップと、
記憶装置に記憶された各文書データについて前記各特定範囲の前記重要語または前記不要
語に基づいてクラスタリングを行うクラスタ生成処理ステップと、
第一の単語が第一の特定範囲に出現する文書の集合と第二の単語が第二の特定範囲に出現
する文書の集合との積集合を各単語の組合せについてそれぞれ計算し、これら積集合にお
ける文書数をそれぞれ集計する文書数集計ステップとを有し、
前記重要語・不要語抽出処理ステップは、前記積集合における文書数が所定値以上である
ものにおいて、第一の単語と第二の単語とが異なる場合に、当該第一の単語を第一の特定
範囲における重要語とし、当該第二の単語を第二の特定範囲における重要語として、それ
ぞれ抽出するコンピュータによる情報分類方法。 - 前記重要語・不要語抽出処理ステップは、前記積集合における文書数が所定値以上である
ものにおいて、第一の単語と第二の単語とが同一であって、かつ、前記抽出された重要語
と異なる場合に、当該第一の単語を第一の特定範囲における不要語とし、当該第二の単語
を第二の特定範囲における不要語として、それぞれ抽出することを特徴とする請求項3に
記載の情報分類方法。 - 文書データにおける第一の特定範囲および第二の特定範囲のテキスト情報に関して、前記
各特定範囲に含まれる各単語の相関関係に基づいて重要語または不要語を抽出する重要語
・不要語抽出処理手順と、
記憶装置に記憶された各文書データについて前記各特定範囲の前記重要語または前記不要
語に基づいてクラスタリングを行うクラスタ生成処理手順と、
第一の単語が第一の特定範囲に出現する文書の集合と第二の単語が第二の特定範囲に出現
する文書の集合との積集合を各単語の組合せについてそれぞれ計算し、これら積集合にお
ける文書数をそれぞれ集計する文書数集計手順と、
前記重要語・不要語抽出処理手順において、前記積集合における文書数が所定値以上であ
るものにおいて、第一の単語と第二の単語とが異なる場合に、当該第一の単語を第一の特
定範囲における重要語とし、当該第二の単語を第二の特定範囲における重要語として、そ
れぞれ抽出する手順とをコンピュータに実行させるためのプログラム。 - 前記重要語・不要語抽出処理手順は、前記積集合における文書数が所定値以上であるもの
において、第一の単語と第二の単語とが同一であって、かつ、前記抽出された重要語と異
なる場合に、当該第一の単語を第一の特定範囲における不要語とし、当該第二の単語を第
二の特定範囲における不要語として、それぞれ抽出することを特徴とする請求項5に記載
のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010042947A JP5039159B2 (ja) | 2010-02-26 | 2010-02-26 | 情報分類システム、情報分類方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010042947A JP5039159B2 (ja) | 2010-02-26 | 2010-02-26 | 情報分類システム、情報分類方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011180748A JP2011180748A (ja) | 2011-09-15 |
JP5039159B2 true JP5039159B2 (ja) | 2012-10-03 |
Family
ID=44692201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010042947A Active JP5039159B2 (ja) | 2010-02-26 | 2010-02-26 | 情報分類システム、情報分類方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5039159B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5963328B2 (ja) | 2014-10-30 | 2016-08-03 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 生成装置、生成方法、およびプログラム |
-
2010
- 2010-02-26 JP JP2010042947A patent/JP5039159B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011180748A (ja) | 2011-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5316158B2 (ja) | 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 | |
KR102055899B1 (ko) | 맥락을 이용하여 문서를 검색하는 시스템 및 방법 | |
US9454602B2 (en) | Grouping semantically related natural language specifications of system requirements into clusters | |
US11204707B2 (en) | Scalable binning for big data deduplication | |
US20140095493A1 (en) | Document relevancy analysis within machine learning systems | |
WO2008103961A1 (en) | Diverse topic phrase extraction | |
AU2018205185A1 (en) | Scalable font pairing with asymmetric metric learning | |
US20150324091A1 (en) | Detecting valuable sections in webpage | |
CN106156357A (zh) | 文本数据定向搜索方法 | |
WO2011001584A1 (ja) | 情報分類装置、情報分類方法及び情報分類プログラム | |
WO2020157728A1 (en) | Search and ranking of records across different databases | |
CN111373386A (zh) | 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序 | |
JP6772478B2 (ja) | 情報検索プログラム及び情報検索装置 | |
KR101710010B1 (ko) | 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템 | |
Komninos et al. | Structured generative models of continuous features for word sense induction | |
JP5039159B2 (ja) | 情報分類システム、情報分類方法及びプログラム | |
JP2009252185A (ja) | 情報検索装置、情報検索方法、制御プログラム及び記録媒体 | |
CN106934007B (zh) | 关联信息的推送方法及装置 | |
CN112650869B (zh) | 图像检索重排序方法、装置、电子设备及存储介质 | |
CN110020195A (zh) | 文章推荐方法及装置、存储介质、电子设备 | |
EP4002151A1 (en) | Data tagging and synchronisation system | |
WO2015159702A1 (ja) | 部分情報抽出システム | |
JP2004326600A (ja) | 構造化文書のクラスタリング装置 | |
JP6707410B2 (ja) | 文献検索装置、文献検索方法およびコンピュータプログラム | |
US11755818B2 (en) | Computer-readable recording medium storing design document management program, design document management method, and information processing apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111025 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20111128 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20111206 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120615 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120706 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150713 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5039159 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |