JP2018501540A - ストップワード識別方法および装置 - Google Patents
ストップワード識別方法および装置 Download PDFInfo
- Publication number
- JP2018501540A JP2018501540A JP2017521535A JP2017521535A JP2018501540A JP 2018501540 A JP2018501540 A JP 2018501540A JP 2017521535 A JP2017521535 A JP 2017521535A JP 2017521535 A JP2017521535 A JP 2017521535A JP 2018501540 A JP2018501540 A JP 2018501540A
- Authority
- JP
- Japan
- Prior art keywords
- query
- word
- change
- stop
- relative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000008859 change Effects 0.000 claims abstract description 156
- 239000013598 vector Substances 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 27
- 230000015654 memory Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 16
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 28
- 238000004891 communication Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Fuzzy Systems (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1は、ストレージデバイス206と、検索デバイス202とを備える、情報検索システム200の実施様態である。ストレージデバイス206は、情報検索システムにおいて検索を行うために必要となるデータを記憶する。ストレージデバイス206は、通信ネットワーク204を使用して検索デバイス202との通信を確立し得る。ストレージデバイス206はまた、検索デバイス202に直接配置されてもよく、入力/出力ユニット2021を使用して検索デバイス202との通信を確立してもよい。検索デバイス202は、入力/出力ユニット2021と、処理ユニット2022とを備える。ユーザが入力/出力ユニット2021を使用してクエリを検索デバイス202に送信した後に、検索デバイス202は、クエリに従って検索を行い、対応する検索結果をユーザに返す。一般的に、情報検索システムは、一連のファイルを使用してユーザに検索結果を表示する。ユーザが通信ネットワーク204を使用してクエリを検索デバイス202に送信する場合には、入力/出力ユニット2021は、ネットワークインターフェースであり得る。ユーザが検索デバイス202においてローカルでクエリを検索デバイス202に送信する場合には、入力/出力ユニット2021はまた、検索デバイス202の入力/出力(英語表記:input/output、略して、I/O)インターフェースであり得る。
Query
{
//属性情報
String sessionID;
String queryContent;
Word wordList[];
...
//関数定義
static public isInTheSameSession(){};
static public isInTheSameQueryChain(){};
...
}
Word
{
//クエリにおける、単語、統計的特徴、および単語のクエリベースの特徴についての内容を含む属性情報
String wordContent;
int wordPosition;
int wordFrequency;
long wordVariance;
...
//動的情報
Boolean newWord;
Int positionChange;
Long posChange;
...
//関数定義
static public Boolean newWord(){};
static public Int positionChange(){};
...
}
ここで、isInTheSameSession(){}は、入力されたクエリのセッションIDに従って、2つのクエリが同一のセッションに属しているかどうかを判定するものとして定義されている。
2021 入力/出力ユニット
2022 処理ユニット
202 検索デバイス
204 通信ネットワーク
206 ストレージデバイス
202 検索デバイス
206 ストレージデバイス
200 情報検索システム
400 コンピュータデバイス
402 プロセッサ
404 メモリ
406 通信インターフェース
408 バス
800 ストップワード識別装置
802 入力モジュール
804 処理モジュール
Claims (21)
- ストップワード識別方法であって、前記方法は、コンピュータデバイス上で動作する情報検索システムによって実行され、
第1のクエリを受信し、前記第1のクエリに対応するセッション識別子IDを獲得するステップと、
前記セッションIDに従って、前記第1のクエリと同一のセッションに属する第2のクエリを獲得するステップと、
前記第2のクエリに対する前記第1のクエリにおける各単語の変化ベースの特徴を獲得するステップと、
前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおけるストップワードを識別するステップとを含む、方法。 - 前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴は、前記第2のクエリに対する前記第1のクエリにおける各単語が新規単語であるかどうかを示すために使用される、第1の変化ベースの特徴、前記第2のクエリにおける前記単語の位置に対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の位置の変化を示すために使用される、第2の変化ベースの特徴、前記第2のクエリにおける前記単語の品詞に対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の品詞の変化を示すために使用される、第3の変化ベースの特徴、前記第2のクエリにおける前記単語の構文クラスに対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の構文クラスの変化を示すために使用される、第4の変化ベースの特徴、または、前記第2のクエリにおける前記単語の両端にある句読記号に対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の両端にある句読記号の変化を示すために使用される、第5の変化ベースの特徴のうちのいずれか1つを含む、請求項1に記載の方法。
- 前記獲得した第2のクエリは、
前記第1のクエリと前記第2のクエリとの最長の共通の節の長さが第1の閾値より大きい、または、
前記第1のクエリを前記第2のクエリに変換するために要する操作の最小回数が第2の閾値未満である、または、
前記第1のクエリが第1のベクトルにマッピングされており、前記第1のクエリが第2のベクトルにマッピングされており、前記第1のベクトルと前記第2のベクトルとの間の夾角または距離が第3の閾値未満である、という条件のうちのいずれか1つを満たす、請求項1または2に記載の方法。 - 前記方法は、
前記第1のクエリにおける各単語に従って前記情報検索システムの単語特徴データベースにクエリを行い、前記第1のクエリにおける各単語の統計的特徴を獲得するステップをさらに含み、
前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおけるストップワードを判定するステップは、前記第1のクエリにおける各単語の前記統計的特徴および前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおける前記ストップワードを識別するステップを含む、請求項1から3のいずれか一項に記載の前記方法。 - 前記情報検索システムは、識別モデルをさらに備え、
前記第1のクエリにおける各単語の前記統計的特徴および前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおける前記ストップワードを識別するステップは、
前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴および前記第1のクエリにおける各単語の前記統計的特徴を前記識別モデルに入力し、前記第1のクエリにおける、前記識別モデルによって識別された前記ストップワードを取得するステップを含む、請求項4に記載の方法。 - 前記方法は、
正例として前記第1のクエリにおける前記ストップワードの統計的特徴および前記第2のクエリに対する前記第1のクエリにおける前記ストップワードの変化ベースの特徴を使用し、負例として前記第1のクエリにおける前記ストップワードを除いた任意の単語の統計的特徴および前記第2のクエリに対する前記第1のクエリにおける前記ストップワードを除いた任意の単語の変化ベースの特徴を使用し、前記正例および前記負例に従って前記識別モデルを訓練するステップをさらに含む、請求項5に記載の方法。 - 前記訓練を行う前に、前記方法は、
前記第1のクエリから前記識別モデルによって識別された前記ストップワードを除去して候補検索語を取得し、前記候補検索語に従って検索を行って検索結果を取得するステップと、
前記検索結果の精度が判定されると前記訓練を行うステップとをさらに含む、請求項6に記載の方法。 - ストップワード識別装置であって、
第1のクエリを受信し、前記第1のクエリに対応するセッション識別子IDを獲得するように構成される、入力モジュールと、
前記セッションIDに従って、前記第1のクエリと同一のセッションに属する第2のクエリを獲得するように構成され、前記第2のクエリに対する前記第1のクエリにおける各単語の変化ベースの特徴を獲得するようにさらに構成される、処理モジュールとを備え、
前記処理モジュールは、前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおけるストップワードを識別するようにさらに構成される、装置。 - 前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴は、前記第2のクエリに対する前記第1のクエリにおける各単語が新規単語であるかどうかを示すために使用される、第1の変化ベースの特徴、前記第2のクエリにおける前記単語の位置に対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の位置の変化を示すために使用される、第2の変化ベースの特徴、前記第2のクエリにおける前記単語の品詞に対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の品詞の変化を示すために使用される、第3の変化ベースの特徴、前記第2のクエリにおける前記単語の構文クラスに対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の構文クラスの変化を示すために使用される、第4の変化ベースの特徴、または、前記第2のクエリにおける前記単語の両端にある句読記号に対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の両端にある句読記号の変化を示すために使用される、第5の変化ベースの特徴のうちのいずれか1つを含む、請求項8に記載の装置。
- 前記獲得した第2のクエリは、
前記第1のクエリと前記第2のクエリとの最長の共通の節の長さが第1の閾値より大きい、または、
前記第1のクエリを前記第2のクエリに変換するために要する操作の最小回数が第2の閾値未満である、または、
前記第1のクエリが第1のベクトルにマッピングされており、前記第1のクエリが第2のベクトルにマッピングされており、前記第1のベクトルと前記第2のベクトルとの間の夾角または距離が第3の閾値未満である、という条件のうちのいずれか1つを満たす、請求項8または9に記載の装置。 - 前記処理モジュールは、前記第1のクエリにおける各単語に従って前記情報検索システムの単語特徴データベースにクエリを行い、前記第1のクエリにおける各単語の統計的特徴を獲得するようにさらに構成され、
前記処理モジュールが前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおけるストップワードを判定することは、前記第1のクエリにおける各単語の前記統計的特徴および前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおける前記ストップワードを識別することを含む、請求項8から10のいずれか一項に記載の前記装置。 - 前記処理モジュールは、識別モデルをさらに含み、
前記処理モジュールが前記第1のクエリにおける各単語の前記統計的特徴および前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおける前記ストップワードを識別することは、前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴および前記第1のクエリにおける各単語の前記統計的特徴を前記識別モデルに入力し、前記第1のクエリにおける、前記識別モデルによって識別された前記ストップワードを取得することを含む、請求項11に記載の装置。 - 前記処理モジュールは、正例として前記第1のクエリにおける前記ストップワードの統計的特徴および前記第2のクエリに対する前記第1のクエリにおける前記ストップワードの変化ベースの特徴を使用し、負例として前記第1のクエリにおける前記ストップワードを除いた任意の単語の統計的特徴および前記第2のクエリに対する前記第1のクエリにおける前記ストップワードを除いた任意の単語の変化ベースの特徴を使用し、前記正例および前記負例に従って前記識別モデルを訓練するようにさらに構成される、請求項12に記載の装置。
- 前記訓練を行う前に、前記方法は、
前記第1のクエリから前記識別モデルによって識別された前記ストップワードを除去して候補検索語を取得し、前記候補検索語に従って検索を行って検索結果を取得するステップと、
前記検索結果の精度が判定されると前記訓練を行うステップとをさらに含む、請求項13に記載の装置。 - プロセッサと、メモリとを備える、コンピュータデバイスであって、
前記プロセッサは、前記メモリにあるプログラムを読み出して、第1のクエリを受信し、前記第1のクエリに対応するセッション識別子IDを獲得する動作を行い、前記セッションIDに従って、前記第1のクエリと同一のセッションに属する第2のクエリを獲得するようにさらに構成され、前記第2のクエリに対する前記第1のクエリにおける各単語の変化ベースの特徴を獲得するようにさらに構成され、前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおけるストップワードを識別するようにさらに構成される、コンピュータデバイス。 - 前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴は、前記第2のクエリに対する前記第1のクエリにおける各単語が新規単語であるかどうかを示すために使用される、第1の変化ベースの特徴、前記第2のクエリにおける前記単語の位置に対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の位置の変化を示すために使用される、第2の変化ベースの特徴、前記第2のクエリにおける前記単語の品詞に対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の品詞の変化を示すために使用される、第3の変化ベースの特徴、前記第2のクエリにおける前記単語の構文クラスに対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の構文クラスの変化を示すために使用される、第4の変化ベースの特徴、または、前記第2のクエリにおける前記単語の両端にある句読記号に対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の両端にある句読記号の変化を示すために使用される、第5の変化ベースの特徴のうちのいずれか1つを含む、請求項15に記載のコンピュータデバイス。
- 前記プロセッサによって獲得された前記第2のクエリは、前記第1のクエリと前記第2のクエリとの最長の共通の節の長さが第1の閾値より大きい、または、前記第1のクエリを前記第2のクエリに変換するために要する操作の最小回数が第2の閾値未満である、または、前記第1のクエリが第1のベクトルにマッピングされており、前記第1のクエリが第2のベクトルにマッピングされており、前記第1のベクトルと前記第2のベクトルとの間の夾角または距離が第3の閾値未満である、という条件のうちのいずれか1つを満たす、請求項15または16に記載のコンピュータデバイス。
- 前記プロセッサは、前記第1のクエリにおける各単語に従って前記情報検索システムの単語特徴データベースにクエリを行い、前記第1のクエリにおける各単語の統計的特徴を獲得するようにさらに構成され、
前記プロセッサが前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおけるストップワードを判定することは、前記第1のクエリにおける各単語の前記統計的特徴および前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおける前記ストップワードを識別することを含む、請求項15から17のいずれか一項に記載の前記コンピュータデバイス。 - 前記プロセッサが前記第1のクエリにおける各単語の前記統計的特徴および前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおける前記ストップワードを識別することは、前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴および前記第1のクエリにおける各単語の前記統計的特徴を前記識別モデルに入力し、前記第1のクエリにおける、前記識別モデルによって識別された前記ストップワードを取得することを含む、請求項18に記載のコンピュータデバイス。
- 前記プロセッサは、正例として前記第1のクエリにおける前記ストップワードの統計的特徴および前記第2のクエリに対する前記第1のクエリにおける前記ストップワードの変化ベースの特徴を使用し、負例として前記第1のクエリにおける前記ストップワードを除いた任意の単語の統計的特徴および前記第2のクエリに対する前記第1のクエリにおける前記ストップワードを除いた任意の単語の変化ベースの特徴を使用し、前記正例および前記負例に従って前記識別モデルを訓練するようにさらに構成される、請求項19に記載のコンピュータデバイス。
- 前記訓練を行う前に、前記プロセッサは、前記第1のクエリから前記識別モデルによって識別された前記ストップワードを除去して候補検索語を取得し、前記候補検索語に従って検索を行って検索結果を取得し、前記検索結果の精度が判定されると前記訓練を行うようにさらに構成される、請求項20に記載のコンピュータデバイス。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2015/096179 WO2017091985A1 (zh) | 2015-12-01 | 2015-12-01 | 停用词识别方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018501540A true JP2018501540A (ja) | 2018-01-18 |
JP6355840B2 JP6355840B2 (ja) | 2018-07-11 |
Family
ID=58796113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017521535A Active JP6355840B2 (ja) | 2015-12-01 | 2015-12-01 | ストップワード識別方法および装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10019492B2 (ja) |
EP (1) | EP3232336A4 (ja) |
JP (1) | JP6355840B2 (ja) |
CN (1) | CN108027814B (ja) |
WO (1) | WO2017091985A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491462B (zh) * | 2018-03-05 | 2021-09-14 | 昆明理工大学 | 一种基于word2vec的语义查询扩展方法及装置 |
CN109947803B (zh) * | 2019-03-12 | 2021-11-19 | 成都全景智能科技有限公司 | 一种数据处理方法、系统及存储介质 |
CN110765239B (zh) * | 2019-10-29 | 2023-03-28 | 腾讯科技(深圳)有限公司 | 热词识别方法、装置及存储介质 |
CN111159526B (zh) * | 2019-12-26 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 查询语句处理方法、装置、设备及存储介质 |
CN111191450B (zh) * | 2019-12-27 | 2023-12-01 | 深圳市优必选科技股份有限公司 | 语料清洗方法、语料录入设备及计算机可读存储介质 |
EP3901875A1 (en) | 2020-04-21 | 2021-10-27 | Bayer Aktiengesellschaft | Topic modelling of short medical inquiries |
CN114519090B (zh) * | 2020-11-20 | 2023-11-21 | 马上消费金融股份有限公司 | 一种停用词的管理方法、装置及电子设备 |
EP4036933A1 (de) | 2021-02-01 | 2022-08-03 | Bayer AG | Klassifizierung von mitteilungen über arzneimittel |
US11914664B2 (en) | 2022-02-08 | 2024-02-27 | International Business Machines Corporation | Accessing content on a web page |
US12130790B1 (en) * | 2023-07-20 | 2024-10-29 | Elm | Method for accelerated long document search using Hilbert curve mapping |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11175541A (ja) * | 1997-12-09 | 1999-07-02 | Toshiba Corp | 自然言語検索入力装置及び入力方法並びに入力処理プログラムを記録した記録媒体 |
JP2001325104A (ja) * | 2000-05-12 | 2001-11-22 | Mitsubishi Electric Corp | 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体 |
US20060253427A1 (en) * | 2005-05-04 | 2006-11-09 | Jun Wu | Suggesting and refining user input based on original user input |
US9110975B1 (en) * | 2006-11-02 | 2015-08-18 | Google Inc. | Search result inputs using variant generalized queries |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6252988B1 (en) * | 1998-07-09 | 2001-06-26 | Lucent Technologies Inc. | Method and apparatus for character recognition using stop words |
US6514140B1 (en) * | 1999-06-17 | 2003-02-04 | Cias, Inc. | System for machine reading and processing information from gaming chips |
US7409383B1 (en) | 2004-03-31 | 2008-08-05 | Google Inc. | Locating meaningful stopwords or stop-phrases in keyword-based retrieval systems |
US20080141278A1 (en) * | 2006-12-07 | 2008-06-12 | Sybase 365, Inc. | System and Method for Enhanced Spam Detection |
US8498980B2 (en) * | 2007-02-06 | 2013-07-30 | Nancy P. Cochran | Cherry picking search terms |
US8131735B2 (en) * | 2009-07-02 | 2012-03-06 | Battelle Memorial Institute | Rapid automatic keyword extraction for information retrieval and analysis |
US8352469B2 (en) * | 2009-07-02 | 2013-01-08 | Battelle Memorial Institute | Automatic generation of stop word lists for information retrieval and analysis |
US8688727B1 (en) * | 2010-04-26 | 2014-04-01 | Google Inc. | Generating query refinements |
CN102567371A (zh) * | 2010-12-27 | 2012-07-11 | 上海杉达学院 | 自动过滤停用词的方法 |
US9009144B1 (en) * | 2012-02-23 | 2015-04-14 | Google Inc. | Dynamically identifying and removing potential stopwords from a local search query |
CN103902552B (zh) * | 2012-12-25 | 2019-03-26 | 深圳市世纪光速信息技术有限公司 | 停用词的挖掘方法和装置、搜索方法和装置、评测方法和装置 |
CA2899314C (en) * | 2013-02-14 | 2018-11-27 | 24/7 Customer, Inc. | Categorization of user interactions into predefined hierarchical categories |
CN103914445A (zh) * | 2014-03-05 | 2014-07-09 | 中国人民解放军装甲兵工程学院 | 数据语义处理方法 |
-
2015
- 2015-12-01 EP EP15909502.5A patent/EP3232336A4/en not_active Ceased
- 2015-12-01 CN CN201580029727.5A patent/CN108027814B/zh active Active
- 2015-12-01 WO PCT/CN2015/096179 patent/WO2017091985A1/zh active Application Filing
- 2015-12-01 JP JP2017521535A patent/JP6355840B2/ja active Active
-
2017
- 2017-09-01 US US15/693,971 patent/US10019492B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11175541A (ja) * | 1997-12-09 | 1999-07-02 | Toshiba Corp | 自然言語検索入力装置及び入力方法並びに入力処理プログラムを記録した記録媒体 |
JP2001325104A (ja) * | 2000-05-12 | 2001-11-22 | Mitsubishi Electric Corp | 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体 |
US20060253427A1 (en) * | 2005-05-04 | 2006-11-09 | Jun Wu | Suggesting and refining user input based on original user input |
US9110975B1 (en) * | 2006-11-02 | 2015-08-18 | Google Inc. | Search result inputs using variant generalized queries |
Non-Patent Citations (1)
Title |
---|
高野敦子: "自然語を用いた対話形式による文書検索における辞典情報の利用", 電子情報通信学会技術研究報告, vol. 100, no. 100, JPN6018016706, 22 May 2000 (2000-05-22), JP, pages 49 - 54, ISSN: 0003793250 * |
Also Published As
Publication number | Publication date |
---|---|
CN108027814B (zh) | 2020-06-16 |
EP3232336A4 (en) | 2018-03-21 |
JP6355840B2 (ja) | 2018-07-11 |
US10019492B2 (en) | 2018-07-10 |
EP3232336A1 (en) | 2017-10-18 |
US20180004815A1 (en) | 2018-01-04 |
WO2017091985A1 (zh) | 2017-06-08 |
CN108027814A (zh) | 2018-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6355840B2 (ja) | ストップワード識別方法および装置 | |
CN107729336B (zh) | 数据处理方法、设备及系统 | |
JP5540079B2 (ja) | 知識ベース構築の方法および装置 | |
TWI544351B (zh) | Extended query method and system | |
CN110019658B (zh) | 检索项的生成方法及相关装置 | |
CN104199965B (zh) | 一种语义信息检索方法 | |
CN101131706B (zh) | 一种查询修正方法及系统 | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
CN109947902B (zh) | 一种数据查询方法、装置和可读介质 | |
CN101169780A (zh) | 一种基于语义本体的检索系统和方法 | |
CN116738065B (zh) | 一种企业搜索方法、装置、设备及存储介质 | |
CN109885651B (zh) | 一种问题推送方法和装置 | |
CN103226601B (zh) | 一种图片搜索的方法和装置 | |
US9336280B2 (en) | Method for entity-driven alerts based on disambiguated features | |
CN111324705A (zh) | 自适应性调整关连搜索词的系统及其方法 | |
CN108509449B (zh) | 一种信息处理的方法及服务器 | |
CN106407332B (zh) | 基于人工智能的搜索方法和装置 | |
CN105512270B (zh) | 一种确定相关对象的方法和装置 | |
CN109918661B (zh) | 同义词获取方法及装置 | |
CN108776705B (zh) | 一种文本全文精确查询的方法、装置、设备及可读介质 | |
WO2021103859A1 (zh) | 一种信息搜索方法、装置、设备及存储介质 | |
US11726972B2 (en) | Directed data indexing based on conceptual relevance | |
TWI490713B (zh) | Information navigation method, information navigation server and information processing system | |
CN116701737A (zh) | 一种文档搜索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170420 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170420 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180423 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180514 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180612 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6355840 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |