JP7522157B2 - 情報検索のためのスパース表現を生成するニューラルランキングモデル - Google Patents
情報検索のためのスパース表現を生成するニューラルランキングモデル Download PDFInfo
- Publication number
- JP7522157B2 JP7522157B2 JP2022109749A JP2022109749A JP7522157B2 JP 7522157 B2 JP7522157 B2 JP 7522157B2 JP 2022109749 A JP2022109749 A JP 2022109749A JP 2022109749 A JP2022109749 A JP 2022109749A JP 7522157 B2 JP7522157 B2 JP 7522157B2
- Authority
- JP
- Japan
- Prior art keywords
- input sequence
- vocabulary
- model
- token
- neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001537 neural effect Effects 0.000 title claims description 92
- 238000000034 method Methods 0.000 claims description 109
- 238000012549 training Methods 0.000 claims description 44
- 230000004913 activation Effects 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 31
- 230000015654 memory Effects 0.000 claims description 26
- 238000010606 normalization Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000000116 mitigating effect Effects 0.000 claims 1
- 238000001994 activation Methods 0.000 description 19
- 238000013459 approach Methods 0.000 description 13
- 238000003860 storage Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 10
- 238000011176 pooling Methods 0.000 description 10
- 230000008901 benefit Effects 0.000 description 7
- 230000001976 improved effect Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000000670 limiting effect Effects 0.000 description 5
- 230000002860 competitive effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013140 knowledge distillation Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001522316 Pyrrhula pyrrhula Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Description
トークン-レベル重要度は206で予測される。トークン-レベル重要度は、入力シーケンスの各トークン(例えば、「ローカル」重要度)に関する語彙において各トークンの重要度(または加重値、または表現)を示す。例えば、トークン化された入力シーケンス306の各トークンは、コンテキスト埋め込みトークンh1・・・hN(312)のシーケンスを提供するために208で埋め込まれてよい。トークン化された入力シーケンス306の各トークンの埋め込みは、例えば、語彙と入力シーケンス内のトークンの位置に基づいてよい。コンテキスト埋め込みトークンh1・・・hN(312)は、埋め込み入力シーケンス内のトークンのコンテキスト特徴を表してよい。例示的なコンテキスト埋め込み208は、事前訓練済みのLM320のBERT層308などのトランスフォーマ基盤の層に実現された1つ以上の埋め込み層を使用してよい。
第1実験セットにおいて、例示的なモデルは、完全なランキング設定でサンプルモデルが訓練され、MS MARCO句節ランキングデータセット(https://github.com/microsoft/MSMARCO-Passage-Ranking)で評価された。このようなデータセットには、約880万個の句節と短い注釈を使用した数十万個の訓練クエリが含まれている(クエリあたり平均1.1個の関連句節)。開発セット(development set)には類似のラベルが付いた6980個のクエリが含まれているが、TREC DL 2019評価セットは、43個のクエリのセットに対して評価者が細分化した注釈を提供する。
モデルは、BERT基盤のチェックポイントで初期化された。モデルは、線形スケジューリング、6000ステップのウオーミングアップを有する2e-5の学習速度、および124のバッチサイズを使用するADAM最適化プログラムによって訓練された。最高のチェックポイントは、150,000回の訓練を繰り返した後、500個のクエリの有効性検証セットに対して使用を維持した。実験が再ランキング作業で検証されたが、例示的な方法では他の検証が使用されてもよい。入力シーケンスの最大長は256と見なされた。
Recall@1000は、MS MARCO開発セットおよびTREC DL 2019のそれぞれに対する公式マトリックMRR@10およびNDCG@10と同様に、両方のデータセットに対して評価された。評価の焦点が第1検索段階にあるため、BERTを基盤としたリランカーは考慮されず、例示的な方法と第1段階ランカーだけを比較した。例示的な方法は、次のようなスパースアプローチと比較された。1)BM25、2)DeepCT、3)doc2query-T5(Nogueira and Lin,2019.From doc2query to docTTTTTquery)、4)SparTerm、および周知の密集アプローチANCE(Xiong et al.,2020,Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval,arXiv:2007.00808[cs.IR])、およびTCT-ColBERT(Lin et al.,2020,Distilling Dense Representations for Ranking using Tightly-Coupled Teachers.arXiv:2010.11386[cs.IR])。結果は各アプローチに対する開示から提供された。例示的なランキングパイプライン(ST語彙専用)で訓練された純粋語彙SparTermが含まれていた。ログ飽和の利点を説明するために、前記式(2)(ST exp-l1およびST exp-lFLOPS)を使用する代わりに、バイナリゲーティング
最大プーリングの影響
MS MARCOおよびTRECに対して、最大プーリング(SPLADEmax)を含むモデルは、最大プーリングを使用しない例示的なモデル(SPLADE)に比べてMRRおよびNDCGでほぼ2ポイントを得た。このようなモデルは、COILやDeepImpactなどのモデルと競合する。図8は、MS MARCOデータセットで多様な正規化強度λで訓練された実験モデルに対するFLOPSとの対比性能を示している。図8は、SPLADEmaxがSPLADEよりも優れた性能を発揮し、効率性とスパース性のトレードオフも調整できることを示している。また、SPLADEmaxは、BEIRベンチマークで改善された性能を示した(表3:NDCG@10結果、表4;Recall@100結果)。
精製を追加すると、表2の例示的なモデル(DistilSPLADEmax)に示すように、SPLADEモデルの性能が大幅に向上した。図8は、有効性と効率性のトレードオフ分析を示している。一般的に、例示的な精製モデルは、より高い値のフロップ(≒4フロップで0.368MRR)に対してさらに改善されたが、低い領域(≒0.3フロップで0.35MRR)では依然として極めて効率的であった。さらに、例示的な精製モデル(DistilSPLADEmax)は、大部分のデータセットで他のすべての実験方法よりも優れた性能を発揮した。理論に高速されることは望まないが、例示的なモデルの利点は、例示的なモデルが提供する埋め込みが、密集ベクトルに比べて本質的な意味をもつトークンを使用するため、より適切に転送されるという事実に少なくとも部分的に起因すると考えられる。
例示的なシステム、方法、および実施形態は、図9に示すようなネットワークアキテクチャ900内で実現されてよく、これは、サーバ902およびデータ交換のためにインターネットのような無線および/または有線であるネットワーク906を介して通信する1つ以上のクライアント装置904を含む。サーバ902およびクライアント装置904a、904bはそれぞれ、プロセッサ、例えばプロセッサ908と、メモリ、例えばRAM(random-access memory)、ROM(Read-Only Memory)、ハードディスク、SSD(Solid State Disks)、またはその他の不揮発性記憶媒体であるが、これに制限されないメモリ910(サーバ902に例示)を含んでよい。メモリ910は、プロセッサ908と通信する外部記憶装置に全体的または部分的に提供されてもよい。
Claims (34)
- ニューラル情報検索モデルのランカーで語彙に対する入力シーケンスの表現を提供するためのプロセッサおよびメモリを備えたコンピュータによって実現される方法であって、
前記方法は、
埋め込み入力シーケンスを提供するために、少なくとも前記語彙に基づいてトークン化された入力シーケンスの各トークンを埋め込む段階、
前記埋め込み入力シーケンスの各トークンと関連して、前記語彙に対する各トークンの重要度の予測を決定する段階、
前記語彙に対する各トークンの重要度に対して、ラジカル関数である活性化関数を用いる活性化を実行することにより、前記語彙に対する入力シーケンスの表現として前記入力シーケンスの予測された用語重要度を取得する段階、および
前記ニューラル情報検索モデルの前記ランカーにおいて、前記語彙に対する前記入力シーケンスの前記表現として前記入力シーケンスの前記予測された用語重要度を出力する段階
を含み、
前記埋め込む段階および前記予測を決定する段階は、事前訓練済みの言語モデルによって実行される
方法。 - 前記語彙を使用して受信されたクエリをトークン化する段階、
複数の候補シーケンスそれぞれに対するランキング点数を決定する段階、
前記決定されたランキング点数に基づいて前記複数の候補シーケンスをランキング化する段階、および
最高ランキングを有する候補文書のサブセットを検索する段階
をさらに含み、
前記候補シーケンスは、候補文書とそれぞれ関連し、
前記ランキング化する段階は、
前記トークン化されたクエリの各語彙トークンに対して、前記候補シーケンスに対する出力予測用語重要度(output predicted term importance)を決定する段階、および
前記決定された出力予測用語重要度を結合する段階を含む、
請求項1に記載の方法。 - 前記ランカーは、前記ニューラル情報検索モデルの第1段階にあり、
前記ニューラル情報検索モデルは、リランカー段階(re-ranker stage)である第2段階をさらに含む、
請求項1に記載の方法。 - 前記入力シーケンスに対する出力予測用語重要度と複数の候補シーケンスそれぞれに対して予め決定された予測用語重要度(predicted term importance)を比較する段階であって、前記候補シーケンスは候補文書とそれぞれ関連する、段階、
前記比較する段階に基づいて前記複数の候補シーケンスをランキング化する段階、および
最高ランキングを有する前記候補文書のサブセットを検索する段階
をさらに含む、
請求項1に記載の方法。 - 前記比較する段階は、前記入力シーケンスの出力予測用語重要度と前記複数の候補シーケンスそれぞれに対する前記予測用語重要度の間の内積を計算する段階を含む、
請求項4に記載の方法。 - 前記トークン化された入力シーケンスの各トークンを埋め込む段階は、コンテキスト埋め込みトークン(context embedded tokens)を提供するために、少なくとも語彙および前記入力シーケンス内のトークンの位置に基づく、
請求項1に記載の方法。 - 前記予測を決定する段階は、
前記埋め込み入力シーケンスの各トークンに関する前記語彙の各トークンの重要度を予測するために、少なくとも1つのロジット関数(logit function)を使用して前記コンテキスト埋め込みトークンを変換する段階を含む、
請求項6に記載の方法。 - 前記少なくとも1つのロジット関数は、活性化および正規化層をそれぞれ含む1つ以上の線形層によって提供され、
前記1つ以上の線形層は、前記埋め込み入力シーケンスの各語彙トークンを有する変換(transformation)とトークンレベルバイアス(token-level bias)を結合する、
請求項7に記載の方法。 - 前記事前訓練済みの言語モデルは、トランスフォーマーアキテクチャ(transformer architecture)を含む、
請求項1に記載の方法。 - 前記言語モデルは、マスキングされた言語モデリング方法によって予め訓練される、
請求項9に記載の方法。 - 前記活性化を実行する段階は、
前記埋め込み入力シーケンスの各トークンに対して、前記決定された各トークンの重要度の正値性(positivity)を保証するために、前記埋め込み入力シーケンスに対する前記語彙の決定されたトークン重要度にReLUを適用する段階、および
前記ReLUの結果に対して前記ラジカル関数を適用する段階
を含む、
請求項1に記載の方法。 - ニューラル情報検索モデルのランカーで語彙に対する入力シーケンスの表現を提供するためのプロセッサおよびメモリを備えるコンピュータによって実現されるニューラルモデルであって、
前記ニューラルモデルは、
コンテキスト埋め込みトークン(context embedded tokens)を提供するために、埋め込み入力シーケンス内のコンテキスト特徴(contextual features)によってトークン化された入力シーケンスの各トークンを埋め込み、1つ以上の線形層を使用して前記コンテキスト埋め込みトークンを変換することによって前記語彙に対して前記埋め込み入力シーケンスの各トークンに関する重要度を予測するように構成される事前訓練済みの言語モデル層であって、前記トークン化された入力シーケンスは前記語彙を使用してトークン化される、言語モデル層、および
前記語彙に対する各トークンに関して予測された重要度を受信し、前記語彙に対する各トークンの重要度に対してラジカル関数である活性化関数を用いる活性化を実行することにより、前記語彙に対する前記入力シーケンスの予測された用語重要度を取得するように構成される表現層であって、前記表現層は、前記語彙に対する各トークンの重要度に対してラジカル関数である活性化関数を用いる活性化を実行するように構成された活性化層を含む、表現層、
を含み、
前記表現層は、前記ニューラル情報検索モデルのランカーにおいて、前記語彙に対する前記入力シーケンスの表現として前記入力シーケンスの予測された用語重要度を出力する、
ように前記コンピュータを動作させる、ニューラルモデル。 - 前記入力シーケンスの予測された用語重要度は、文書を検索するために使用され、
前記事前訓練済みの言語モデル層は、前記入力シーケンス内のトークンの位置上に少なくとも部分的に基づいてトークン化された入力シーケンスの各トークンを埋め込むように追加で構成される、
請求項12に記載のニューラルモデル。 - 前記事前訓練済みの言語モデル層は、MLM(Masked Language Model)訓練方法によって予め訓練される、
請求項12に記載のニューラルモデル。 - 前記事前訓練済みの言語モデル層は、BERT(Bidirectional Encoder Representations from Transformers)モデルを含む、
請求項12に記載のニューラルモデル。 - 前記1つ以上の線形層それぞれは、活性化および正規化層を含むロジット関数(logit function)を含み、
前記線形層は、前記埋め込み入力シーケンスの各語彙トークンを有する変換(transformation)とトークンレベルバイアス(token-level bias)を結合する、
請求項12に記載のニューラルモデル。 - 前記活性化層は、前記埋め込み入力シーケンスに対する前記語彙の決定されたトークン重要度の正値性(positivity)を保証するために、前記決定されたトークン重要度にReLUを適用し、前記ReLUの結果に対して前記ラジカル関数を適用するように構成される
請求項12に記載のニューラルモデル。 - 前記ニューラルモデルは第1段階ランカー(first-stage ranker)に統合され、
前記第1段階ランカーは、
前記入力シーケンスに対して予測された用語重要度と前記ニューラルモデルによって生成される複数の候補シーケンスそれぞれに対して予測された用語重要度を比較し、
前記候補シーケンスは候補文書とそれぞれ関連し、
前記比較に基づいて前記複数の候補シーケンスをランキングし、
最高ランキングを有する文書のサブセットを検索するように追加で構成される、
請求項12に記載のニューラルモデル。 - 前記比較は、前記複数の候補シーケンスそれぞれに対して前記予測された用語重要度と出力予測用語重要度(output predicted term importance)の間の内積を計算することを含む、
請求項18に記載のニューラルモデル。 - 前記ニューラルモデルは、第1段階ランカーに統合され、
前記第1段階ランカーは、
前記ニューラルモデルを使用して複数の候補文書それぞれに対するランキング点数を決定し、
前記決定されたランキング点数に基づいて前記複数の候補文書をランキング化するように追加で構成され、
前記ランキング点数を決定する段階は、
前記語彙に対する各候補文書の表現を決定し、
前記ランキング点数を決定するために、前記決定された表現と受信した入力シーケンスの表現を比較し、
前記第1段階ランカーは、最高ランキングを有する前記候補文書のサブセットを検索するように追加で構成される、
請求項12に記載のニューラルモデル。 - 新たな入力シーケンスの表現は、前記ニューラルモデルを使用して決定される、
請求項20に記載のニューラルモデル。 - 新たな入力シーケンスの表現は、少なくとも前記語彙に対して前記新たな入力シーケンスをトークン化することによって決定される、
請求項20に記載のニューラルモデル。 - 前記語彙の各候補文書に対する表現を決定する段階は、オフラインで実行される、
請求項20に記載のニューラルモデル。 - 情報検索器のランカーで語彙に対する入力シーケンスの表現を提供するためのニューラルモデルを訓練するためのコンピュータ実現方法であって、
前記方法は、
前記ニューラルモデルを提供する段階であって、前記ニューラルモデルは、(i)前記語彙を使用して入力シーケンスをトークン化するように構成されるトークナイザー層、(ii)少なくとも前記語彙に基づいて前記トークン化された入力シーケンスの各トークンを埋め込むように構成される入力埋め込み層、(iii)前記語彙に対する前記入力シーケンスの各トークンに対する重要度を予測するように構成される予測器層、および(iv)前記語彙に対する各トークンに対して前記予測された重要度を受信し、前記語彙に対する各トークンの重要度に対してラジカル関数である活性化関数を用いる活性化を実行することにより、前記語彙に対する前記入力シーケンスの予測された用語重要度を取得するように構成される表現層を備え、前記表現層は、前記入力シーケンスに対して予測された重要度のラジカル関数である活性化関数を用いる活性化を実行するように構成される活性化層を含む、段階、
前記ニューラルモデルのパラメータを初期化する段階、および
複数の文書を含むデータセットを使用して前記ニューラルモデルを訓練する段階
を含み、
前記ニューラルモデルを訓練する段階は、ランキング損失および少なくとも1つのスパース正規化損失を含む損失を共同で最適化し、
前記ランキング損失および/または前記少なくとも1つのスパース正規化損失は、加重値パラメータによって加重される、
方法。 - 前記データセットは、複数の文書を含む、
請求項24に記載の方法。 - 前記データセットは、複数のクエリを含み、
各クエリに対して、前記クエリと関連する少なくとも1つの肯定(positive)文書および前記クエリと関連しない少なくとも1つの否定(negative)文書を含む、
請求項24に記載の方法。 - 前記訓練は、複数のバッチを使用し、
各バッチは複数のクエリを含み、各クエリに対してそれぞれは、前記クエリと関連する肯定文書、他のクエリと関連する肯定文書である少なくとも1つの否定文書、および前記バッチ内のいずれのクエリとも関連しない少なくとも1つのハード否定(hard negative)文書を含み、
前記少なくとも1つのハード否定文書は、モデルをサンプリングして生成される、
請求項26に記載の方法。 - 前記クエリと関連しない前記少なくとも1つのハード否定文書は、ランキングモデルによって生成される、
請求項27に記載の方法。 - 前記スパース正規化損失が各クエリおよび文書に対して計算され、それぞれは加重値パラメータによって加重される、
請求項24に記載の方法。 - 前記スパース正規化損失は、
前記ニューラルモデルによって生成されるスパース表現のl1ノーム(norm)を最小化するためのl1正規化損失、または
文書の点数を計算するための浮動小数点演算(floating-point operations)の平均数を緩和するためのFLOPS正規化損失のうちの1つ以上を含む、
請求項24に記載の方法。 - 生成された訓練トリプレット(triplets)を使用して第1段階ランカーおよびリランカーを精製(distillation)訓練する段階であって、各トリプレットは、クエリ、関連句節、および非関連句節を含む、段階、
新たな訓練トリプレットを生成するために前記訓練された第1段階ランカーを使用する段階であって、前記生成されたトリプレットは、よりハードな否定(harder negatives)を含む、段階、
前記生成された新たなトレーニングトリプレットから目的とする点数を生成するために前記訓練されたリランカーを使用する段階、および
前記生成された新たな訓練トリプレットおよび希望する点数を使用して第1段階ランカーを2次訓練する段階を含む、
請求項24に記載の方法。 - 前記2次訓練ははじめ(scratch)から始まる、
請求項31に記載の方法。 - 前記訓練はオフラインで実行される、
請求項31に記載の方法。 - ニューラル情報検索モデルの第1段階ランカーの語彙に対する入力シーケンスの表現を提供する方法を実現するためのプロセッサおよびメモリによって実行可能な命令語が記録された非一時的コンピュータ読み取り可能な媒体であって、
前記方法は、
トークンの埋め込み入力シーケンスを提供するために、少なくとも前記語彙に基づいてトークン化された入力シーケンスの各トークンを埋め込む段階であって、前記トークン化された入力シーケンスは、前記語彙を使用してトークン化される、段階、
前記埋め込み入力シーケンスの各トークンと関連して、前記語彙に対する各トークンの重要度の予測決定段階、
前記語彙に対する各トークンの重要度に対してラジカル関数である活性化関数を用いる活性化を実行することにより、前記語彙に対する入力シーケンスの表現として前記入力シーケンスの予測された用語重要度を取得する段階、および
前記予測された用語重要度を出力する段階
を含み、
前記埋め込み段階および前記予測決定段階は、事前訓練済みの言語モデルによって実行される、
非一時的コンピュータ読み取り可能な媒体。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163266194P | 2021-12-30 | 2021-12-30 | |
US63/266194 | 2021-12-30 | ||
US17/804,983 US20230214633A1 (en) | 2021-12-30 | 2022-06-01 | Neural ranking model for generating sparse representations for information retrieval |
US17/804983 | 2022-06-01 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023099283A JP2023099283A (ja) | 2023-07-12 |
JP7522157B2 true JP7522157B2 (ja) | 2024-07-24 |
Family
ID=86991807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022109749A Active JP7522157B2 (ja) | 2021-12-30 | 2022-07-07 | 情報検索のためのスパース表現を生成するニューラルランキングモデル |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230214633A1 (ja) |
JP (1) | JP7522157B2 (ja) |
KR (1) | KR20230103895A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240330264A1 (en) * | 2023-03-29 | 2024-10-03 | International Business Machines Corporation | Retrieval-based, self-supervised augmentation using transformer models |
-
2022
- 2022-06-01 US US17/804,983 patent/US20230214633A1/en active Pending
- 2022-07-06 KR KR1020220083229A patent/KR20230103895A/ko unknown
- 2022-07-07 JP JP2022109749A patent/JP7522157B2/ja active Active
Non-Patent Citations (1)
Title |
---|
FORMAL, Thibault et al.,"SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval" [online],Cornell University,2021年09月21日,pp.1-6,[検索日:2023.09.26], doi: 10.48550/arXiv.2109.10086 |
Also Published As
Publication number | Publication date |
---|---|
KR20230103895A (ko) | 2023-07-07 |
JP2023099283A (ja) | 2023-07-12 |
US20230214633A1 (en) | 2023-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guu et al. | Retrieval augmented language model pre-training | |
Jia et al. | Label distribution learning with label correlations on local samples | |
US11544474B2 (en) | Generation of text from structured data | |
Sordoni et al. | A hierarchical recurrent encoder-decoder for generative context-aware query suggestion | |
Hofmann | The cluster-abstraction model: Unsupervised learning of topic hierarchies from text data | |
US8010535B2 (en) | Optimization of discontinuous rank metrics | |
CN112368697A (zh) | 经由对偶分解评估损失函数或损失函数的梯度的系统和方法 | |
Li et al. | Improving the efficiency and effectiveness for bert-based entity resolution | |
KR20220114495A (ko) | 탐색, 검색 및 순위화를 위한 상호작용 계층 신경망 | |
CN110727839A (zh) | 自然语言查询的语义解析 | |
US20230418848A1 (en) | Neural ranking model for generating sparse representations for information retrieval | |
Sachan | Knowledge graph embedding compression | |
Gao et al. | Jointly learning topics in sentence embedding for document summarization | |
CN111309878A (zh) | 检索式问答方法、模型训练方法、服务器及存储介质 | |
Peng et al. | ABC: Attention with bounded-memory control | |
CN116662502A (zh) | 基于检索增强的金融问答文本生成方法、设备及存储介质 | |
JP7522157B2 (ja) | 情報検索のためのスパース表現を生成するニューラルランキングモデル | |
CN117494815A (zh) | 面向档案的可信大语言模型训练、推理方法和装置 | |
Wang et al. | A lightweight knowledge graph embedding framework for efficient inference and storage | |
Wong et al. | Feature selection and feature extraction: highlights | |
Pal et al. | Parameter-efficient sparse retrievers and rerankers using adapters | |
Qi et al. | A Multiple Kernel Learning Model Based on p‐Norm | |
US11755671B2 (en) | Projecting queries into a content item embedding space | |
WO2021214935A1 (ja) | 学習装置、検索装置、学習方法、検索方法及びプログラム | |
KR20240007078A (ko) | 정보 검색을 위한 희소 표현을 생성하는 뉴럴 랭킹모델 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20220725 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220902 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231010 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240109 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240514 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20240527 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240611 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240711 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7522157 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |