JP2024505909A

JP2024505909A - モデルインターセクションを使用したドキュメント分析

Info

Publication number: JP2024505909A
Application number: JP2023545904A
Authority: JP
Inventors: イー．ブラッドレイザサードジョン
Original assignee: エーオンリスクサービシズインコーポレイテッドオブメリーランド
Priority date: 2021-02-03
Filing date: 2022-02-02
Publication date: 2024-02-08
Also published as: US11928879B2; KR20230142754A; WO2022169795A1; EP4288848A1; US20240282137A1; CN116848490A; US20220245378A1

Abstract

モデルインターセクションを使用したドキュメント分析のためのシステムおよび方法が開示される。予測モデルは、所与のドキュメントが所与のモデルに関してクラス内にあるかどうかを予測するために構築および訓練される。各予測モデルは、識別されたテクノロジーのサブカテゴリに関連付けられていてもよい。複数の予測モデルによってクラス内にあるように決定されたドキュメントは、識別されサブセットにグループ化されてもよい。ドキュメントのこれらのサブセットは、問題のテクノロジーに関連しているとして識別されてもよい。

Description

関連出願に対する相互参照
本願は、２０２１年２月３日に出願された「モデルインターセクションを使用したドキュメント分析」と題された米国特許出願第１７／１６６，１９９号の優先権を主張し、その内容全体が参照により本明細書に組み込まれる。

他の情報と関連付けて、ドキュメントのような情報の類似性、相違点、および分類を決定することは、価値があり得る。しかしながら、ドキュメント分析の属性を定量化することは、特に大規模なコーパスのドキュメントにおいては困難である。本明細書では、とりわけ、モデリング技術を利用してドキュメントを分析するために使用され得るテクノロジー上の改善および技術的問題に対する解決策が記載されている。

詳細な説明は、添付の図面を参照して以下に記載される。図面において、参照番号の左端の数字（複数可）は、その参照番号が最初に出現する図面を識別する。異なる図面における同じ参照番号の使用は、類似または同一のアイテムを示す。添付の図面に示されるシステムは、縮尺比に従って拡大縮小されず、図面内のコンポーネントは、互いに縮尺比に従って拡大縮小されないように示されてもよい。

モデルインターセクションを使用したドキュメント分析のための例示的な環境の概略図である。ドキュメント表現（document representations）およびモデル表現（model representations）の概念図である。異なる信頼度値閾値を有するモデル表現の概念図である。モデルインターセクションによるドキュメント分析のために利用され、クレーム幅（claim breadth）スコアリングを利用するコンポーネントの概念図である。ドキュメント分析のための訓練モデル（training models）に利用されるユーザインターフェースおよびコンポーネントの概念図である。訓練されたモデルに関連付けられたキーワードを示すユーザインターフェースの概念図である。モデル分類法（taxonomy）の概念図である。モデルインターセクションを使用したドキュメント分析のために利用される例示的なプロセスのフロー図である。モデルインターセクションを使用したドキュメント分析のために利用される別の例示的なプロセスのフロー図である。

モデルインターセクションを利用するドキュメント分析のためのシステムおよび方法が開示される。例えば、ドキュメントのセット内のどのドキュメントが所与の目的のためのクラス内（in class）にあるか、およびドキュメントのセット内のどのドキュメントがその所与の目的のためのクラス外（out of class）にあるかを判断するためにプラットフォームを利用することが有益であると思われるエンティティを例にとる。例えば、エンティティは、どの特許および／または特許出願が、特許性判定、侵害判定、資産取得目的、研究開発目的、保険目的などに最も関連しているかを知りたい場合がある。一般に、ユーザは、キーワード検索を利用して、そのようなドキュメントのデータベースを検索してもよい。これらの結果におけるドキュメントを過度に制限しない合理的な数の結果を収集するために、ユーザは、幅広いキーワード検索を使用し、次いで各ドキュメントを見直して、各ドキュメントがクラス内またはクラス外にあると考えられるべきであるかどうかを決定してもよい。しかしながら、特許や特許出願を例にとってみると、米国で出願された特許および特許出願だけを見ても、ドキュメントの潜在的なコーパスは、数万以上ではないにしても数千に容易に達する。これに照らして、ドキュメントを取り込み、分類モデル（classification models）を訓練するための限界ユーザ入力を受信し、次いでそれらの分類モデルを使用して、ドキュメントのセット内のどのドキュメントがクラス内にあるかを決定するように構成されるドキュメント分析プラットフォームは、有益であろう。

しかしながら、特定の識別されたテクノロジー（certain identified technologies）は、所与のテクノロジー（a given technology）のサブカテゴリ内で異なる主題を有し得る。これらの例では、所与のサブカテゴリに関連付けられた陽性（positive）の訓練データが別のサブカテゴリに陰性（negative）の影響をもたらす可能性があるため、分類モデルの訓練は困難であり得る。これらの例では、モデル訓練は不正確であり得、無関係なドキュメントがモデル結果に含まれる、および／または関連するドキュメントがモデル結果から除外される分析につながり得る。これらの陰性の結果を制限するのを助けるために、本明細書に開示されるのは、ドキュメント分析を改善するためにモデルインターセクションを利用するためのシステムおよびプロセスである。例えば、検索クエリ（search query）は、その検索クエリに関連するドキュメントのセットを識別するために、受信され得る。検索クエリは、検索クエリに関連するものを定義する１つまたは複数のキーワードおよび／またはフレーズを含み得る。

本明細書に記載されるドキュメント分析プラットフォームを利用して、検索クエリに対応するキーワードを有するドキュメントのセットが識別されてもよい。その後、所与のドキュメントがクラス内にあるかクラス外にあるかを示すユーザ入力を利用して、１つまたは複数のドキュメント分類モデルが構築および／または訓練されてもよい。以下により詳細に説明されるように、ユーザは、ユーザインターフェースを利用して、所与のドキュメントの全部または一部を表示し、ユーザインターフェース上の要素を選択して、クラス内またはクラス外として所与のドキュメントを識別してもよい。閾値数のドキュメントがユーザによってクラス内またはクラス外としてマークされると、１つまたは複数の分類モデルは、クラス内としてマークされるドキュメントの陽性の訓練データセットに基づいて訓練されてもよく、いくつかの例では、クラス外としてマークされるドキュメントの陰性の訓練データセットに基づいて訓練されてもよい。その後、訓練された分類モデルは、どちらとも決まらない（in the balance of）ドキュメントのセット内のどのドキュメントがクラス内にあるかまたはクラス外にあるかを予測するために利用され得る。しかしながら、上述されるように、特定のテクノロジーについては、これらの訓練された分類モデルの結果は正確ではない可能性があり、誤って無関係なドキュメントを含み、および／または関連ドキュメントを除外する可能性がある。

これらのシナリオでは、ドキュメント分類を予測するために単一のモデルを訓練する代わりに、識別されたテクノロジーは、２つ以上のサブカテゴリによって表されてもよい。サブカテゴリは、識別されたテクノロジーの一部を表してもよい。この方法論を利用して、第１の分類モデルは、識別されたテクノロジーの第１のサブカテゴリについての陽性および／または陰性の訓練データセットを利用して訓練されてもよく、第２の分類モデルは、識別されたテクノロジーの第２のサブカテゴリについての陽性および／または陰性の訓練データセットを利用して訓練されてもよい。また、識別されたテクノロジーの追加のサブカテゴリの追加のモデルも、訓練されてもよい。
その後、分類モデルの各々は、モデルの各々についてクラス内にあるドキュメントのサブセットを決定するために利用されてもよい。例えば、３つのサブカテゴリを持つ識別されたテクノロジーに関して、それらのドキュメントのどれがクラス内にあるかを決定するために分析される１０，０００個のドキュメントのサンプルドキュメントセットを例にとる。第１のサブカテゴリのための第１の分類モデルは、第１のサブカテゴリに関してクラス内にある１０，０００個のドキュメントのうちの５００個を識別してもよく、第２のサブカテゴリのための第２の分類モデルは、第２のサブカテゴリに関してクラス内にある１０，０００個のドキュメントのうちの７５０個を識別してもよく、第３のサブカテゴリのための第３の分類モデルは、第３のサブカテゴリに関してクラス内にある１０，０００個のドキュメントのうちの４００個を識別してもよい。

本明細書に記載されるモデルインターセクション技術を利用して、クラス内として識別されるドキュメントの異なるグループが、結果として生成されてもよい。例えば、第１のグループは、分類モデルのうちの少なくとも１つによってクラス内として識別される任意のドキュメントを含んでもよい。第２のグループは、分類モデルのうちの少なくとも２つによってクラス内として識別される任意のドキュメントを含んでもよい。第３のグループは、分類モデルの各々によってクラス内として識別される任意のドキュメントを含んでもよい。上記の例から理解されるように、第１のグループに関して、クラス内ドキュメントの数は第２のグループよりも多くなり、第２のグループにおけるクラス内ドキュメントの数は第３のグループよりも多くなる。このようにして、分類モデルの各々によってクラス内にあると示されたドキュメントの第３のグループは、識別されたテクノロジーの各サブカテゴリに関連するドキュメントのサンプルグループ内のそれらのドキュメントを表す。また、モデル結果のインターセクションに関して、ドキュメントの他のグループも含まれることを理解されたい。これらのモデルインターセクション分析の結果は、検索クエリに関連付けられたコンピューティングデバイスに提供されてもよい。例えば、グループの一部またはすべてのクラス内ドキュメントは、コンピューティングデバイスのユーザに表示されてもよく、および／またはドキュメントおよび／またはグループの識別は、提供されてもよい。

いくつかの例では、ユーザインターフェースは、本明細書に記載されるモデルインターセクションの表現を表示するために利用されてもよい。例として、モデルインターセクションの表現は、クラス内またはクラス外としてそれらのモデルによって予測されるようなモデルの識別子およびドキュメントの識別子を含む図を含んでいてもよい。例えば、モデルの識別子は、クラス内として予測するようにモデルが訓練されたものの境界を示す円または他の形状を含んでいてもよい。ドキュメントの識別子は、１つまたは複数のモデル識別子内に配置された点または他の表現を含んでいてもよい。ドキュメント識別子の位置は、分類モデルに関連付けられたサブカテゴリ（単数）および／またはサブカテゴリ（複数）へのドキュメントの関連性を表し得る。

所与のドキュメントがクラス内にあるかクラス外にあるかの決定は、所与の分類モデルによるクラス内にあるようにそのドキュメントの予測に関連付けられた信頼度スコアに少なくとも部分的に基づいてもよい。例えば、信頼度スコアの閾値は０．９０などに設定されてもよく、少なくとも０．９０の信頼度でクラス内として予測されるドキュメントはクラス内とみなされ、一方、分析されたドキュメントの残りはクラス外とみなされる。ある特定の例では、識別されたテクノロジーのサブカテゴリに関連付けられた分類モデルのすべては、同じ信頼度スコア閾値を有していてもよい。これらの例では、ユーザインターフェース上に表示されるモデルの識別子は、サイズが等しくてもよい。しかしながら、他の例では、信頼度スコア閾値は互いに異なっていてもよい。例えば、第１のサブカテゴリに対応する分類モデルは、０．９０の閾値信頼度スコアを有していてもよく、第２のサブカテゴリに対応するモデルは、０．８０の閾値信頼度スコアを有していてもよく、第３のサブカテゴリに対応するモデルは、０．９７の閾値信頼度スコアを有していてもよい。これらの例では、信頼度スコア閾値は動的であってもよく、いくつのドキュメントが本明細書に記載されるモデルインターセクショングループによってクラス内にあると決定されるかを変更してもよい。このようにして、ユーザおよび／または本明細書に記載されるシステムは、モデルに関連付けられた信頼度スコア閾値を変更することによって、結果として生じるクラス内ドキュメントの数を増加または減少させてもよい。

上記に加えて、本明細書に記載されるユーザインターフェースは、陽性の訓練データセットおよび／または陰性の訓練データセットのための訓練された分類モデルに最も関連することが示されるキーワードを提示するために利用されてもよい。そうすることによって、ユーザは、キーワードを視覚化し、キーワードのグループが包括的すぎる（例えば、関連性のないキーワードを含む）か、または排他的すぎる（例えば、関連性のあるキーワードを含まない）かを決定してもよい。この機能性を利用して、モデルの追加の訓練が実行されてもよく、および／またはモデルの信頼度スコア閾値が変更されてもよい。

１つまたは複数の目的のためのドキュメントの関連性を決定するためにモデルインターセクションを利用することに加えて、所与のドキュメントが関連性があると決定されるべきか、および/またはハイライトされるべきかどうかを決定するために追加の要因が適用されてもよい。例として、適用される１つの要因は、特に、問題のドキュメントが特許および／または特許出願を表す場合に、クレーム幅スコアであってもよい。本明細書により完全に説明されるように、ドキュメントのクレームセクションは、クレームの幅を決定するために分析されてもよく、広いクレームを有するドキュメントは、より好ましいスコアを受け取り、狭いクレームを有するドキュメントは、より好ましくないスコアを受け取る。クレームの幅以外の追加の要因は、分析され、同様に、ドキュメントをスコアリングするために適用されてもよい。これらの例では、本明細書に記載されるモデルインターセクション分析は、本明細書に記載されるドキュメントのグループを識別するために利用されてもよい。その後、結果として生じるドキュメントは、それらのドキュメントのうちのどれが所与の検索クエリに応答するものとして識別されるべきであるか、および／またはそれらのドキュメントのうちのどれがハイライトされまたは別の方法で強調されるべきであるかを決定するために、１つまたは複数の追加の要因について分析されてもよい。

追加的に、または代替的に、本明細書に記載されるドキュメント分析プラットフォームは、訓練および／または利用された分類モデルのモデル分類法を含んでいてもよい。このモデル分類法は、モデル間の関係を示し、および／またはモデルによる検索機能性（search-by-model functionality）を提供するために利用され得る。本明細書に記載されるモデルインターセクション分析のインジケータは、モデル分類法に含まれてもよく、後続のモデル分析のために利用されてもよい。これらのインジケータは、モデル分類法のノード間の視覚的インジケータを含んでいてもよく、各ノードは、分類モデルを表す。ノード間のラインまたは別のコネクタは、どのモデルが問題のテクノロジーに関するドキュメントグループを開発するために利用されたかを示すために提供されてもよい。

ドキュメント分析プラットフォームは、本明細書に記載されるように、１つまたは複数の他のシステムおよび／またはデバイスに接続されてもよいシステムによって、ホストされてもよくまたは別の方法で利用されてもよい。例えば、システムは、ネットワークを介して、ドキュメントを表すデータを格納するドキュメントデータベースを含む第三者システムからドキュメントを受信するように構成されてもよい。プラットフォームはまた、ネットワークを介して、１つまたは複数のクライアントデバイスからドキュメントを表すデータを受信するように構成されてもよく、これは、インターネットにアクセスし、情報を表示し、ユーザ入力を受信するように構成されたコンピューティングデバイスであってもよい。クライアントデバイスは、本明細書に記載される１つまたは複数のユーザインターフェースを含んでもよく、および／またはクライアントデバイスのメモリ上に存在するアプリケーションを介して、および／またはインターネットブラウザを介してなど、ドキュメント分析プラットフォームに関連付けられたシステムによって提供されるように、クライアントデバイスのプロセッサにユーザインターフェースを表示するように指示するように構成されたアプリケーションを含んでもよい。クライアントデバイスは、ユーザインターフェースからのユーザ入力のような、ユーザ入力を受信してもよく、そのユーザ入力に対応するユーザ入力データをドキュメント分析プラットフォームに関連付けられたシステムに提供してもよい。システムは、本明細書に記載される様々な動作のためにそのユーザ入力データを利用してもよい。本明細書に記載されるように、モデル構築コンポーネントおよびモデルライブラリコンポーネントは、システムのメモリに格納されてもよく、例えば、分類モデルを訓練し、ドキュメント分類を予測し、モデルを検索するために利用されてもよい。

本明細書に記載されるように、ドキュメント分析プラットフォームは、所与のドキュメントの分類に関連付けられたユーザ入力データを受信するように構成されてもよい。このユーザ入力データを利用して分類モデルを訓練するために、ドキュメント分析プラットフォームは、１つまたは複数の操作を実行してもよい。いくつかの例では、プラットフォームは、ユーザによってクラス内とマークされたドキュメントに関連付けられたクラス内キーワードを示す陽性の訓練データセットを生成してもよい。例えば、プラットフォームは、そのドキュメントの主題を表す所与のドキュメントに関連付けられた１つまたは複数のキーワードを決定してもよい。これは、例えば、用語頻度逆数ドキュメント頻度技術（term frequency inverse document frequency techniques）のような１つまたは複数のドキュメント処理技術を利用して実行されてもよい。プラットフォームはまた、ユーザ入力によってクラス外とマークされたドキュメントからのキーワードを示す陰性の訓練データセットを生成してもよい。これらの訓練データセットの各々は、次いで、分類モデルが、所与のドキュメントがクラス外キーワードよりもクラス内キーワードにより類似したキーワードを有するかどうかを決定するように構成されるように、分類モデルを訓練するために利用されてもよい。他の例では、キーワードに基づいて訓練データセットを生成する代わりに、またはそれに加えて、プラットフォームは、所与のドキュメントのためのベクトルを決定してもよい。ベクトルは、座標系に関連付けられてもよく、ベクトルの形態でドキュメントの主題を表してもよい。ベクトルは、クラス内にラベル付けされたドキュメントおよびクラス外にラベル付けされたドキュメントに対して生成されてもよい。分類モデルは、所与のドキュメントのベクトル表現が、座標系においてクラス外ベクトルよりもクラス内ベクトルに近いかどうかを決定するように訓練されてもよい。ドキュメントを表すベクトルを生成するための技術は、Ｄｏｃ２Ｖｅｃのようなベクトル化技術、または他の同様の技術を含んでいてもよい。

追加的に、または代替的に、ドキュメント表現は、ドキュメントのテキストコンテンツに少なくとも部分的に基づいて、ドキュメントを取り出し、それをベクトル形式に浮動小数点数（floating point numbers）のリストとして変換する方法を含んでいてもよい。このベクトル形式は、埋め込み（embedding）と呼ばれてもよい。この埋め込みは、ドキュメント間の、距離、したがって類似性を計算するために使用されてもよい。これらの埋め込みは、上述のキーワードおよび／またはベクトルに加えて、またはそれらの置き換えとして、分類モデルと関連付けられて使用され得る。埋め込みは、セットを有するドキュメントのテーマ別グループ（thematic groups）を作成するために利用されてもよい。ドキュメントのセットは、あるキーワード、ＣＰＣ、所有者（複数可）などであり得、結果は、同様のテーマを共有するドキュメントグループ（例えば、クラスタ）の視覚的な表示であってもよい。クラスタリングプロセスには、どのドキュメントがどのクラスタにグループ化されるかについて何らかの人間の制御を可能にし得る、ある程度の監視があってもよい。

さらなる例では、分類モデルは、転移学習を利用してもよい。これらの例では、汎用モデル（general-purpose model）は生成および／または受信されてもよく、各特定の分類モデルは、汎用モデルを出発点として使用してもよい。分類モデルをゼロから訓練する必要があるのではなく、モデルは、モデル化されている特定のシナリオに関して、そのモデルがまだ訓練されていないものに対して、汎用モデルから微調整され得る。これらの転移学習技術は、とりわけ、ＵＬＭＦｉｔ、ＢＥＲＴ、ＥＬＭｏ、およびＴ５のユーザを含んでいてもよい。

上述の分類モデルを訓練するための技術に加えて、分類モデルはまた、ドキュメントの分類に少なくとも部分的に基づいて訓練および／または編成されてもよい。例えば、ドキュメントが特許および特許出願である場合、所与のドキュメントの主題を分類するための所定の分類システムが確立されてもよい。分類システムは、プラットフォームによって、１つまたは複数のユーザによって、および／または第三者によって決定されてもよい。例えば、特許および特許出願は、協同特許分類（ＣＰＣ）システムのような事前定義された分類システムに関連付けられてもよい。ＣＰＣシステムは、本明細書でより詳細に説明されるように、異なる主題に対応するＣＰＣコードを採用する。所与のドキュメントに対するＣＰＣコードは識別されてもよく、それらのコードに関連付けられたカテゴリは決定されてもよい。ユーザインターフェースは、ユーザに提示されてもよく、決定されたカテゴリを提示し、ユーザが所与の目的のためにクラス内と見出したカテゴリを選択することを可能にする。選択されたカテゴリは、分類モデルを訓練するための特徴として利用されてもよい。追加的または代替的に、プラットフォームは、クラス内としてマークされたドキュメントのＣＰＣコードを決定してもよく、分類を決定するために分析されるドキュメントに関連付けられたＣＰＣコードとそれらのＣＰＣコードを比較するように分類モデルを訓練してもよい。

本開示は、本明細書に開示されるシステムおよび方法の構造、機能、製造、および使用の原理の全体的な理解を提供する。本開示の１つまたは複数の例は、添付の図面に示される。当業者は、本明細書に具体的に記載され、添付の図面に例示されるシステムおよび方法が非限定的な実施形態であることを理解するであろう。１つの実施形態に関連して図示または説明される特徴は、システムと方法との間のものとして含む、他の実施形態の特徴と組み合わされてもよい。そのような修正および変形は、添付の特許請求の範囲内に含まれることが意図される。

追加の詳細は、いくつかの例示的な実施形態を参照して以下に記載される。

図１は、ドキュメント分析アーキテクチャのための例示的なアーキテクチャ１００の概略図を示す。アーキテクチャ１００は、例えば、電子デバイス１０２としても本明細書に記載される１つまたは複数のクライアント側デバイス１０２、ドキュメント分析プラットフォームに関連付けられたドキュメント分析システム１０４、および／または１つまたは複数のドキュメントデータベース１３６に関連付けられたドキュメントデータベースシステム１０６を含んでいてもよい。デバイスおよびシステムの一部またはすべては、ネットワーク１０８を介して互いに通信するように構成されていてもよい。

電子デバイス１０２は、例えば、１つまたは複数のプロセッサ１１０、１つまたは複数のネットワークインターフェース１１２、および／またはメモリ１１４のようなコンポーネントを含んでいてもよい。メモリ１１４は、例えば、１つまたは複数のユーザインターフェース１１６および／または１つまたは複数のドキュメントデータベース１１８のようなコンポーネントを含んでいてもよい。図１に示されるように、電子デバイス１０２は、例えば、コンピューティングデバイス、携帯電話、タブレット、ラップトップ、および／または１つまたは複数のサーバを含んでいてもよい。電子デバイス１０２のコンポーネントは、例として以下に記載される。本明細書で提供される例は例示的なものであり、電子デバイス１０２のコンポーネントの排他的な例と見なされるべきではないことを理解されたい。

例として、ユーザインターフェース（複数可）１１６は、モデルビルダユーザインターフェースに対応するユーザインターフェース、ドキュメント要約ユーザインターフェース、完全ドキュメントユーザインターフェース、ドキュメント投票のために利用されるユーザインターフェース、信頼度値ユーザインターフェース、キーワードユーザインターフェース、検索クエリユーザインターフェース、モデル分類法ユーザインターフェースのような、本明細書の他の場所に記載されるユーザインターフェースのうちの１つまたは複数を含んでいてもよい。ユーザインターフェース１１６は、クライアント側デバイス１０２のメモリ１１４のコンポーネントとして描写されているが、ユーザインターフェース１１６は、追加的または代替的に、ドキュメント分析システム１０４に関連付けられていてもよいことを理解されたい。ユーザインターフェース１１６は、ドキュメント分析プラットフォームに関連付けられた情報を表示し、ドキュメント分析プラットフォームに関連付けられたユーザ入力を受信するように構成されていてもよい。クライアント側デバイス１０２のドキュメントデータベース１１８、および／またはドキュメントデータベースシステム１０６のドキュメントデータベース１３６は、ユーザがドキュメント分析プラットフォームを使用して分析されることを望み得るドキュメントに対応するデータを含んでいてもよい。これらのドキュメントは、例えば、特許および特許出願を含んでもよく、および／またはドキュメントは、非特許ドキュメントを含んでもよい。ドキュメントは、ドキュメントデータベースシステム１０６のドキュメントデータベース１３６に関して記憶されてもよく、および／またはドキュメントは、クライアント側デバイス１０２のドキュメントデータベース１１８に関して記憶されてもよい。

ドキュメント分析システム１０４は、例えば、１つまたは複数のプロセッサ１２０、１つまたは複数のネットワークインターフェース１２２、および／またはメモリ１２４のような１つまたは複数のコンポーネントを含んでいてもよい。メモリ１２４は、例えば、モデルビルダコンポーネント１２６、モデル分類法コンポーネント１２８、インターセクションコンポーネント１３０、信頼度コンポーネント１３２、および／またはクレーム幅コンポーネント１３４のような１つまたは複数のコンポーネントを含んでいてもよい。モデルビルダコンポーネント１２６は、クラス内またはクラス外のドキュメントにラベル付けするために本明細書に記載されるようにユーザ入力データを受信するように構成されてもよい。モデルビルダコンポーネント１２６はまた、問題のドキュメントセットに関連付けられた他のデータと同様に、ユーザ入力データを利用して、所与のドキュメントの分類を決定するための分類モデルを訓練するように構成されてもよい。モデルビルダコンポーネント１２６はまた、訓練された分類モデルを利用して、ドキュメント分類を予測し、分類モデルの使用の結果を表示するように構成されてもよい。モデル分類法コンポーネント１２８は、訓練された分類モデルを含むモデル分類法を生成および利用するように構成されてもよい。モデル分類法コンポーネント１２８はまた、分類モデルの使用のためのユーザクエリを表すユーザ入力データを受信し、検索クエリに関連付けられた１つまたは複数のモデルを示す検索クエリに検索結果を表示するように構成されてもよい。クライアント側デバイス１０２および／またはドキュメント分析システム１０４の追加のコンポーネントは、例として以下に記載される。

例えば、本明細書に記載されるドキュメント分析プラットフォームを利用して、検索クエリに対応するキーワードを有するドキュメントのセットは、識別されてもよい。これらのドキュメントは、ドキュメントデータベース１３６、１１８から識別されてもよい。その後、１つまたは複数のドキュメント分類モデルは、所与のドキュメントがクラス内にあるかクラス外にあるかを示すユーザ入力を利用するモデルビルダコンポーネント１２６を利用して、構築および／または訓練されてもよい。ユーザは、ユーザインターフェースを利用して、所与のドキュメントの全部または一部を閲覧（view）し、ユーザインターフェース１１６上の要素を選択して、所与のドキュメントをクラス内またはクラス外として識別してもよい。閾値数のドキュメントがユーザによってクラス内またはクラス外としてマークされると、１つまたは複数の分類モデルは、クラス内としてマークされるドキュメントの陽性の訓練データセットに基づいて、およびいくつかの例では、クラス外としてマークされるドキュメントの陰性の訓練データセットに基づいて、訓練されてもよい。その後、訓練された分類モデルは、どちらとも決まらないドキュメントのセット内のどのドキュメントがクラス内にあるかまたはクラス外にあるかを予測するために利用されてもよい。しかしながら、上述されるように、特定のテクノロジーについては、これらの訓練された分類モデルの結果は正確ではない可能性があり、誤って無関係なドキュメントを含み、および／または関連ドキュメントを除外する可能性がある。

これらのシナリオでは、ドキュメント分類を予測するために単一のモデルを訓練する代わりに、識別されたテクノロジーは、２つ以上のサブカテゴリによって表されてもよい。インターセクションコンポーネント１３０は、サブカテゴリを識別するように、および／またはサブカテゴリを示すユーザ入力を受信するように構成されてもよい。サブカテゴリは、識別されたテクノロジーの一部を表してもよい。この方法論を利用して、第１の分類モデルは、識別されたテクノロジーの第１のサブカテゴリについての陽性および／または陰性の訓練データセットを利用して訓練されてもよく、第２の分類モデルは、識別されたテクノロジーの第２のサブカテゴリについての陽性および／または陰性の訓練データセットを利用して訓練されてもよい。また、識別されたテクノロジーの追加のサブカテゴリの追加のモデルも、訓練されてもよい。その後、分類モデルの各々は、インターセクションコンポーネント１３０によって、モデルの各々についてクラス内にあるドキュメントのサブセットを決定するために利用されてもよい。例えば、３つのサブカテゴリを持つ識別されたテクノロジーに関して、それらのドキュメントのどれがクラス内にあるかを決定するために分析される１０，０００個のドキュメントのサンプルドキュメントセットを例にとる。第１のサブカテゴリのための第１の分類モデルは、第１のサブカテゴリに関してクラス内にある１０，０００個のドキュメントのうちの５００個を識別してもよく、第２のサブカテゴリのための第２の分類モデルは、第２のサブカテゴリに関してクラス内にある１０，０００個のドキュメントのうちの７５０個を識別してもよく、第３のサブカテゴリのための第３の分類モデルは、第３のサブカテゴリに関してクラス内にある１０，０００個のドキュメントのうちの４００個を識別してもよい。

モデルインターセクションコンポーネント１３０を利用して、クラス内として識別されたドキュメントの異なるグループは、結果として生成されてもよい。例えば、第１のグループは、分類モデルの少なくとも１つによってクラス内として識別される任意のドキュメントを含んでいてもよい。第２のグループは、分類モデルのうちの少なくとも２つによってクラス内として識別される任意のドキュメントを含んでいてもよい。第３のグループは、分類モデルの各々によってクラス内として識別される任意のドキュメントを含んでいてもよい。上記の例から理解されるように、第１のグループに関して、クラス内ドキュメントの数は第２のグループよりも多くなり、第２のグループにおけるクラス内ドキュメントの数は第３のグループよりも多くなる。このようにして、分類モデルの各々によってクラス内にあると示されたドキュメントの第３のグループは、識別されたテクノロジーの各サブカテゴリに関連するドキュメントのサンプルグループ内のそれらのドキュメントを表す。これらのモデルインターセクション分析の結果は、検索クエリに関連付けられたクライアント側デバイス１０２のようなコンピューティングデバイスに提供されてもよい。例えば、グループの一部またはすべてのクラス内ドキュメントは、コンピューティングデバイスのユーザに表示されてもよく、および／またはドキュメントおよび／またはグループの識別は、提供されてもよい。

いくつかの例では、ユーザインターフェースは、本明細書に記載されるモデルインターセクションの表現を表示するために利用されてもよい。例として、モデルインターセクションの表現は、クラス内またはクラス外としてそれらのモデルによって予測されるようなモデルの識別子およびドキュメントの識別子を含む図を含んでもよい。例えば、モデルの識別子は、クラス内として予測するようにモデルが訓練されたものの境界を示す円または他の形状を含んでいてもよい。ドキュメントの識別子は、１つまたは複数のモデル識別子内に配置された点または他の表現を含んでいてもよい。ドキュメント識別子の位置は、分類モデルに関連付けられたサブカテゴリ（単数）および／またはサブカテゴリ（複数）へのドキュメントの関連性を表してもよい。

所与のドキュメントがクラス内にあるかクラス外にあるかの決定は、所与の分類モデルによるクラス内にあるようにそのドキュメントの予測に関連付けられた信頼度スコアに少なくとも部分的に基づいてもよい。例えば、信頼度スコアの閾値は、信頼度コンポーネント１３２を利用して、０．９０などに設定されてもよく、少なくとも０．９０の信頼度でクラス内として予測されるドキュメントはクラス内とみなされ、一方、分析されたドキュメントの残りはクラス外とみなされる。ある特定の例では、識別されたテクノロジーのサブカテゴリに関連付けられた分類モデルのすべては、同じ信頼度スコア閾値を有していてもよい。これらの例では、ユーザインターフェース上に表示されるモデルの識別子は、サイズが等しくてもよい。しかしながら、他の例では、信頼度スコア閾値は互いに異なっていてもよい。例えば、第１のサブカテゴリに対応する分類モデルは、０．９０の閾値信頼度スコアを有していてもよく、第２のサブカテゴリに対応するモデルは、０．８０の閾値信頼度スコアを有していてもよく、第３のサブカテゴリに対応するモデルは、０．９７の閾値信頼度スコアを有していてもよい。これらの例では、信頼度スコア閾値は動的であってもよく、いくつのドキュメントが本明細書に記載されるモデルインターセクショングループによってクラス内にあると決定されるかを変更してもよい。このようにして、ユーザおよび／または本明細書に記載されるシステムは、モデルに関連付けられた信頼度コンポーネント１３２を利用して信頼度スコア閾値を変更することによって、結果として生じるクラス内ドキュメントの数を増加または減少させてもよい。

上記に加えて、本明細書に記載されるユーザインターフェース１１６は、陽性の訓練データセットおよび／または陰性の訓練データセットのための訓練された分類モデルに最も関連することが示されるキーワードを提示するために利用されてもよい。そうすることによって、ユーザは、キーワードを視覚化し、キーワードのグループが包括的すぎる（例えば、関連性のないキーワードを含む）か、または排他的すぎる（例えば、関連性のあるキーワードを含まない）かを決定してもよい。この機能性を利用して、モデルの追加の訓練が実行されてもよく、および／またはモデルの信頼度スコア閾値が変更されてもよい。

１つまたは複数の目的のためのドキュメントの関連性を決定するためにモデルインターセクションを利用することに加えて、所与のドキュメントが関連性があると決定されるべきか、および/またはハイライトされるべきかどうかを決定するために、追加の要因が適用されてもよい。例として、適用される１つの要因は、特に、問題のドキュメントが特許および／または特許出願を表す場合に、クレーム幅スコアであってもよい。これらの例では、クレーム幅コンポーネント１３４は、ドキュメントのクレームセクションを分析してクレームの幅を決定するように構成されてもよく、広いクレームを有するドキュメントは、より有利なスコアを受信し、狭いクレームを有するドキュメントは、より不利なスコアを受信する。クレームの幅以外の追加の要因は、分析され、その上（as well）、ドキュメントをスコアリングするために適用されてもよい。これらの例では、本明細書に記載されるモデルインターセクション分析は、本明細書に記載されるドキュメントのグループを識別するために利用されてもよい。その後、結果として生じるドキュメントは、それらのドキュメントのうちのどれが所与の検索クエリに応答するものとして識別されるべきであるか、および／またはそれらのドキュメントのうちのどれがハイライトされまたは別の方法で強調されるべきであるかを決定するために、１つまたは複数の追加の要因について分析されてもよい。

クレーム幅コンポーネント１３４は、クレーム幅スコアを決定するために本明細書に記載されるプロセスを利用してもよい。例えば、いくつかの例では、ドキュメントは、ドキュメントの各々について１つまたは複数の処理されたドキュメント部分を生成するために前処理される。例えば、処理されたドキュメントは、前処理後のドキュメントを参照してもよい。いくつかの例では、前処理自体は、ドキュメントを２つ以上の処理されたドキュメント部分に分割してもよい。例えば、特許クレーム（patent claims）を含むテキストを分析するとき、ドキュメントは、ピリオドの後で数字の前の場所でドキュメント部分（例えば、個々の特許クレーム）に分割されてもよい。いくつかの例では、ドキュメントの各部分は、ソースドキュメントの一意のドキュメント識別番号に関連付けられる。例えば、特許からの各特許クレームは、特許番号に関連付けられる。処理されたドキュメント部分は、ソースドキュメントからのテキストの一部を含む。特定の前処理技術は、テキストを構文解析（parsing）してワード（words）を分離すること、ストップワード（stop words）を削除すること、重複ワード（duplicate words）を削除すること、および句読点を削除することを含んでいてもよい。いくつかの例では、ストップワードの一部またはすべては、ドキュメントのドキュメント分類に特有であってもよい。例えば、すべてのドキュメントが同じ特許分類に関連付けられており、その分類のための特定のストップワードがある場合、それらの特定のストップワードは、一般的なストップワードの代わりに、または一般的なストップワードに加えて使用されてもよい。いくつかの例では、前処理は、略語および／または頭字語を対応する完全なワードに置き換えるような追加の前処理技術を含んでいてもよい。

その後、ドキュメント部分（例えば、処理済みまたは未処理のドキュメント部分）の各々についてワードカウント（word count）が生成される。例えば、各ドキュメント部分についてのワードカウントは、それぞれのドキュメント部分におけるいくつかの（a number of）別個のワードをカウントすることによって生成されてもよい。いくつかの例では、これは、ストップワードおよび重複ワードがカウントから省略されるように、前処理の後に実行されてもよい。重複ワードを削除した後に実行されるワードカウントは、ユニークワード（unique words）のワードカウントと称される。いくつかの例では、各ドキュメント部分（例えば、特許クレームが含む）について生成されるワードカウントは、整数（例えば、１、２、３など）である）。

次いで、参照ワードカウント（referential word count）が識別される。いくつかの例では、参照ワードカウントは数であるが、必ずしも整数ではない。参照ワードカウントは、分析中の個々のドキュメント部分のワードカウントに由来する特徴に基づいてもよい。例えば、参照ワードカウントは、すべての分析されたドキュメント部分のうち最大のワードカウントを有するドキュメント部分のワードカウントであってもよい。別の例では、参照ワードカウントは、すべての分析されたドキュメント部分の中で最短の（shortest）ワードカウントを有するドキュメント部分のワードカウントであってもよい。

いくつかの例では、他の特性もまた、分析されたドキュメント部分の平均または中央値のワードカウントのような参照ワードカウントを生成するために使用されてもよい。例えば、分析されたドキュメント部分が特許クレームである場合、参照ワードカウントは、最長の特許クレームのワードカウント、最短の特許クレームのワードカウント、すべての分析された特許クレームの平均ワードカウント、すべての分析された特許クレームの中央値ワードカウント、またはいくつかの他のメトリックであってもよい。いくつかの例では、参照ワードカウントは、同じコーパスにおいて一緒に分析されたすべてのドキュメント部分について同じである。しかしながら、いくつかの例では、分析されたドキュメントの各コーパスの異なる特性のために、参照ワードカウントは、異なる分析において異なることとなる。

さらに、ワードカウント比は、ドキュメント部分について計算される。例えば、ワードカウント比は、参照ワードカウントをそれぞれのドキュメント部分についてのワードカウントによって割ることによって、各ドキュメント部分について計算されてもよい。したがって、いくつかの例では、各分析されたドキュメント部分は、ワードカウント比に関連付けられることとなる。いくつかの例では、分子は、所与のコーパスにおいて各ドキュメント部分について同じであるが、分母は、そのドキュメント部分の個々のワードカウントに応じて異なる。例えば、所与のドキュメント部分についてのワードカウントが２５であり、参照ワードカウントが７２である場合（例えば、すべての分析されたドキュメント部分の最長ワードカウント）、その特定のドキュメント部分についてのワードカウント比は７２／２５または２．８８である。

次いで、個々のワードについてワード頻度（word frequency）が決定される。例えば、コーパスに基づくワード頻度は、ドキュメント部分のいずれかに含まれる各ワードについて決定されてもよい。いくつかの例では、ワード頻度は、ワードに固有であって、ワードが見出されるドキュメント部分に固有ではない。ワードの頻度は、特定のワードが、分析されたドキュメント部分のすべてを通してどの程度一般的（common）であるかの尺度として考えられてもよい。いくつかの例では、ワード頻度は、分析されたドキュメント部分のすべてにおいてワードが何回現れるかをカウントすることによって決定される。したがって、ワード頻度は、重複ワードの削除前に、分析中のコンテンツのセット全体にわたってワードが見つかったインスタンスの数を表す。例えば、分析されているドキュメントのコーパスに１０００件の特許が含まれており、それらの特許の各々が平均で２０個の特許クレームを有する場合、分析中のドキュメント部分は２０，０００個になる。「マシン」のような所与のワードが２０，０００個のドキュメント部分すべてを通して現れる回数は、そのワードの頻度である。したがって、特定のコーパスにおいて一般的であるワードはより高いワード頻度値を有することとなり、特定のコーパスにおいて一般的でないワードはより低いワード頻度値を有することとなる。したがって、この時点で、各ドキュメント部分は、ワードカウントに関連付けられ、各ワード（各ドキュメント部分におけるワードを必然的に含む）は、ワード頻度に関連付けられる。

その後、ドキュメント部分について共通性スコア（commonness score）が生成される。例えば、各ドキュメント部分は、それ自身の共通性スコアに関連付けられてもよい。共通性スコアは、特定のドキュメント部分における個々のワードが、分析中のドキュメント部分のコーパス全体を通して見出される頻度に基づいている。したがって、ドキュメント部分についての共通性スコアは、そのドキュメント部分におけるワードのワード頻度に基づいている。いくつかの例では、処理されたドキュメント部分についての共通性スコアは、その処理されたドキュメント部分における別個のワード（separate words）のそれぞれについてのワード頻度の逆数の二乗の合計の平方根に基づいている。例えば、それぞれがｗｆ^１からｗｆ^ｎによって表される関連するワード頻度を有するワード１からｎを有するドキュメント部分についての共通性スコア（ｃｓ）は、以下の式によって計算されてもよい。

この計算により、より一般的なワードを有するドキュメント部分は、より低い共通性スコアを受け取り、より非一般的なワードを有するドキュメント部分は、より高い共通性スコアを受け取る。このようにして、共通性スコアは、より一般的なワードを有する特許クレームは、より一般的でないワードを有するクレームよりも広い傾向があるという根底にある仮定または前提を表す。これは、必ずしも常に当てはまるとは限らないが、自動ドキュメント分析のための有用な一般化である。

次いで、参照（reference）共通性スコアが識別される。いくつかの例では、参照共通性スコアは、分析を受けている処理されたドキュメント部分のすべてのうちの最高共通性スコアとして識別される。ドキュメント部分のそれぞれについての共通性スコアは、計算され、並べ替えられてもよく、次いで、それらのうちの最高のものが最高共通性スコアとして格納される。これは、そのドキュメント部分に含まれるワードの頻度および数に基づいて、「最も一般的（most common）」であるドキュメント部分のスコアを表す。したがって、他のすべてのドキュメント部分は、最高共通性スコアよりも低い共通性スコアを有することとなる。

次いで、システムは、処理されたドキュメント部分の共通性スコア比を計算する。例えば、共通性スコア比は、参照共通性スコア（例えば、最高共通性スコア）を処理されたドキュメント部分の個々についての共通性スコアで除算することによって計算されてもよい。いくつかの例では、最高共通性スコア（「最も非一般的な（most uncommon）」ワード）を有するドキュメント部分は、１の共通性スコア比を有する（すなわち、それは、それ自身の共通性スコア値によって除算される）。加えて、最高共通性スコアの半分（より少ない「非一般的な」ワードおよびより多くの「一般的な」ワード）を有するドキュメント部分は、２の共通性スコア比を有する。ドキュメント部分のワードのセットがより「一般的」になるにつれて、共通性スコア比は増大する。したがって、より高い共通性スコア比は、処理されたドキュメント部分における、より「一般的」または頻繁なワードを示す。特許クレームの文脈では、共通性比（commonness ratio）は、固有のワード（unique words）の数が少ないクレームは、より多くの固有のワードのあるクレームよりも広い傾向があり、したがって、共通性スコア比は、クレーム内のワードがより一般的になるにつれて増大するという根底にある仮定または前提を表す。

次いで、ドキュメント部分の幅スコア（breadth scores）は、ワードカウント比および共通性スコア比を使用して計算される。例えば、幅スコアは、処理されたドキュメント部分の個々について、ワードカウント比（ｗｃｒ）の平方と共通性スコア比（ｃｓｒ）の平方との和の平方根を取ることによって計算されてもよい。いくつかの例では、ワードカウント比および共通性スコアの相対的な重み（relative weight）は、正規化されてもよい。正規化のための１つの技術は、ワードカウント比および共通性スコア比の両方について、それぞれの最高値を１００に設定することである。例えば、最高ワードカウント比がｈ－ｗｃｒの場合、コーパスについてのｗｃｒの全ては、１００／ｈ－ｗｃｒが乗算されることとなる。同様に、いくつかの例では、最高共通性スコア比（ｈ－ｃｓｒ）を使用して、共通性スコア比について正規化が実行されてもよい。もちろん、１００以外の正規化値、例えば１０００、５００、５０、１０等が使用されてもよい。両方とも数値であるが、幅スコアに対する相対的な効果は、それぞれの数値に直接対応しない場合がある。例えば、１０のワードカウント比は、１０の共通性スコア比よりも最終的な（ultimate）幅に多かれ少なかれ影響を与え得る。しかしながら、正規化なしでは、両方とも幅スコアに等しく寄与する。したがって、ワードカウント比は、第１の正規化値Ｋ（例えば、１００／ｈ－ｗｃｒ）によって重み付けされてもよく、共通性スコア比は、第２の正規化値Ｌ（例えば、１００／ｈ－ｃｓｒ）によって重み付けされてもよい。方程式に書かれている場合：

したがって、各ドキュメント部分は、それ自身の幅スコアを割り当てられてもよい。幅スコアは、ワードカウントおよびワード共通性の尺度に基づいているため、ドキュメント部分の幅を測定すると考えられ得る。幅スコアを決定するためのこの技術はまた、ワードカウント比および共通性比の背後にある基礎となる仮定または前提のそれぞれを緩和（moderates）する。例えば、特許クレームが比較的短いが、非常に非一般的な用語を使用している場合、特許実務家（patent practitioner）は、クレーム内の制限的な文言のために、やはりクレームは狭いと見なすかもしれない。これらの２つの基礎となる仮定に基づいて幅スコアを定義することによって、オントロジーが十分に発達しているクラス内で限定的または特徴的であると見なされる用語を使用する場合、より短いクレームでさえもそれほど広くランク付けされない可能性がある。

さらに、ドキュメントについての全体的な幅スコアが計算されてもよい。例えば、全体的な幅スコアは、それぞれのドキュメントからのドキュメント部分についての幅スコアを使用して、分析されている各ドキュメントについて計算されてもよい。いくつかの例では、ドキュメントについての全体的な幅スコアを計算することは、ドキュメント内の１つまたは複数のドキュメント部分の幅スコア（複数可）の平均を取ることを含み得る。いくつかの例では、ドキュメントについての全体的な幅スコアを計算することは、１つまたは複数のドキュメント部分の幅スコア（複数可）の最高、最低、範囲、代表値（average）、中央値、平均値（mean）などを取得し、複合スコアを生成するか、またはそれらを個別に保存することを含み得る。追加的に、いくつかの例では、ドキュメントについてのドキュメント部分のうちの１つまたは複数についての幅スコアのうちの１つまたは複数は、１つまたは複数の他のドキュメント部分についての１つまたは複数の他の幅スコアよりも重みが与えられてもよい。例えば、ドキュメントが特許である場合、特許内の従属クレーム（複数可）の幅スコア（複数可）よりも全体的な幅スコアを決定するときに、特許の独立クレーム（複数可）（例えば、最も広い独立クレーム）の幅スコア（複数可）は、より重みが与えられてもよい。

いくつかの例では、ドキュメントが特許および／または公開出願を含む場合、１つまたは複数の規則が、特許および／または公開出願の全体的な幅スコアを計算するために利用されてもよい。例えば、ドキュメントが特許を含む場合、規則は、上記の技術（例えば、代表値、中央値など）を使用して特許についての全体的な幅スコアを計算するために、最も広い独立クレームおよび最も広い独立クレームに従属する任意の従属クレームに関連付けられた幅スコアのみが利用されることを特定してもよい。例えば、ドキュメントが特許を含む場合、規則は、上記の技術（例えば、代表値、中央値など）を使用して特許についての全体的な幅スコアを計算するために、独立クレームに関連付けられた幅スコアのみが利用されることを特定してもよい。

いくつかの例では、ドキュメントについての比較幅スコアは、全体的な幅スコアに少なくとも部分的に基づいて計算される。例えば、比較幅スコアは、ドキュメントの全体的な幅スコアに基づいて分析されている各ドキュメントについて計算されてもよい。例えば、全体的な幅スコアが単一のドキュメント部分（例えば、最も広いまたは最も狭い）のスコアに基づいている場合、計算は、そのスコアを、分析内にある他のドキュメントの対応する単一のドキュメント部分のスコアと比較する。全体的な幅スコアが、複数のドキュメント部分のスコア（例えば、代表値として表される、最も広い、代表値、および範囲スコアの重み付けされたまたは重み付けされていない複合、または最も広い、代表値、および範囲のような個々のコンポーネントスコアのような）に基づいている場合、計算は、そのスコア（単数）またはスコア（複数）を、分析内の他のドキュメントの対応する複数のドキュメント部分のスコア（単数）またはスコア（複数）と比較する。いくつかの例では、ドキュメントの比較幅スコアは、ドキュメントの全体的な幅スコアに等しいか、またはそれ未満である全体的な幅スコアを含むドキュメントの割合（percentage）に対応する。いくつかの例では、ドキュメントについての比較幅スコアは、ドキュメントの全体的な幅スコアよりも小さい全体的な幅スコアを含むドキュメントの割合に対応する。いくつかの例では、ドキュメントについての比較幅スコアは、ドキュメントの全体的な幅スコアに等しいか、またはそれを超える全体的な幅スコアを含むドキュメントの割合に対応する。さらに、いくつかの例では、ドキュメントについての比較幅スコアは、ドキュメントの全体的な幅スコアよりも大きい全体的な幅スコアを含むドキュメントの割合に対応する。

全体的な幅スコアが複数のドキュメント部分のスコアに基づいており、ドキュメント部分の最も広い、代表値、および範囲に関連付けられたスコアのような個々のコンポーネントスコアとして維持される場合、計算は、それらのスコアのそれぞれを、分析内の他のドキュメントの複数のドキュメント部分の対応するスコアと比較してもよい。例えば、ドキュメントが特許であり、部分がクレームである文脈では、計算は、特許における最も広いクレームの幅スコアを、景観（landscape）内のすべての特許における最も広いクレームの幅スコアと比較して、最も広いクレームによる特許のランク順序を提供してもよい。計算はさらに、特許におけるクレームの代表値幅を景観内の特許の各々におけるクレームの代表値幅と比較し、代表値クレーム幅による特許のランク順序を提供してもよい。計算は、特許におけるクレームの幅の範囲を、景観内の特許の各々におけるクレームの幅の範囲とさらに比較し、クレーム幅の範囲による特許のランク順序を提供してもよい。次いで、計算は、最終的な幅スコアを決定するために、各コンポーネントスコアのランク順序を均等に重み付けしてもよい。そのようなアプローチは、比較的広いクレームが潜在的に侵害する製品を包含する可能性がより高いという仮定に基づいており、比較的高い代表値クレーム幅は、一連の独立および従属クレームにわたる可能性を反映し、比較的高い範囲の幅は、少なくともいくつかのクレームが、有効性を主張する潜在的な課題の生存率（viability）を低下させる制限を包含する可能性がより高いという仮定に基づいている。

モデル分類法コンポーネント１２８は、訓練および／または利用された分類モデルのモデル分類法を生成するように構成されてもよい。このモデル分類法は、モデル間の関係を示し、および／またはモデルによる検索機能性を提供するために利用されてもよい。本明細書に記載されるモデルインターセクション分析のインジケータは、モデル分類法に含まれてもよく、後続のモデル分析のために利用されてもよい。これらのインジケータは、モデル分類法のノード間のインジケータを含んでいてもよく、各ノードは、分類モデルを表す。ノード間のラインまたは別のコネクタは、どのモデルが問題のテクノロジーに関するドキュメントグループを開発するために利用されたかを示すために提供されてもよい。

本明細書に記載されるように、ドキュメント分析プラットフォームは、クライアント側デバイス１０２のような１つまたは複数の他のシステムおよび／またはデバイスに接続されてもよいドキュメント分析システム１０４によってホストされまたは利用されてもよい。クライアントデバイス１０２は、本明細書に記載される１つまたは複数のユーザインターフェース１１６を含んでもよく、および／またはクライアントデバイス１０２のメモリ１１４上に存在するアプリケーションを介して、および／またはインターネットブラウザを介してのように、ドキュメント分析プラットフォームに関連付けられたシステム１０４によって提供されるように、クライアントデバイス１０２のプロセッサ１１０にユーザインターフェース１１６を表示するように指示するように構成されたアプリケーションを含んでもよい。クライアントデバイス１０２は、ユーザインターフェース１１６からのユーザ入力のような、ユーザ入力を受信してもよく、そのユーザ入力に対応するユーザ入力データをドキュメント分析プラットフォームに関連付けられたシステム１０４に提供してもよい。システム１０４は、本明細書に記載される様々な動作のためにそのユーザ入力データを利用してもよい。

本明細書に記載されるように、ドキュメント分析プラットフォームは、所与のドキュメントの分類に関連付けられたユーザ入力データを受信するように構成されていてもよい。このユーザ入力データを利用して分類モデルを訓練するために、ドキュメント分析プラットフォームは、１つまたは複数の操作を実行してもよい。いくつかの例では、プラットフォームは、ユーザによってクラス内とマークされたドキュメントに関連付けられたクラス内キーワードを示す陽性の訓練データセットを生成してもよい。例えば、プラットフォームは、そのドキュメントの主題を表す所与のドキュメントに関連付けられた１つまたは複数のキーワードを決定してもよい。これは、例えば、用語頻度逆数ドキュメント頻度技術のような１つまたは複数のドキュメント処理技術を利用して実行されてもよい。プラットフォームはまた、ユーザ入力によってクラス外とマークされたドキュメントからのキーワードを示す陰性の訓練データセットを生成してもよい。これらの訓練データセットの各々は、次いで、分類モデルが、所与のドキュメントがクラス外キーワードよりもクラス内キーワードにより類似したキーワードを有するかどうかを決定するように構成されるように、分類モデルを訓練するために利用されてもよい。他の例では、キーワードに基づいて訓練データセットを生成する代わりに、またはそれに加えて、プラットフォームは、所与のドキュメントのベクトルを決定してもよい。ベクトルは、座標系に関連付けられてもよく、ベクトルの形態でドキュメントの主題を表してもよい。ベクトルは、クラス内にラベル付けされたドキュメントに対しておよびクラス外にラベル付けされたドキュメントに対して生成されてもよい。分類モデルは、所与のドキュメントのベクトル表現が、座標系においてクラス外ベクトルよりもクラス内ベクトルに近いかどうかを決定するように訓練されてもよい。ドキュメントを表すベクトルを生成するための技術は、Ｄｏｃ２Ｖｅｃのようなベクトル化技術、または他の同様の技術を含んでいてもよい。

追加的に、または代替的に、ドキュメント表現は、ドキュメントのテキストコンテンツに少なくとも部分的に基づいて、ドキュメントを取り出し、それをベクトル形式に浮動小数点数のリストとして変換する方法を含んでいてもよい。このベクトル形式は、埋め込みと呼ばれてもよい。この埋め込みは、ドキュメント間の、距離、したがって類似性を計算するために使用されてもよい。これらの埋め込みは、上述のキーワードおよび／またはベクトルに加えて、またはそれらの置き換えとして、分類モデルと関連付けられて使用され得る。埋め込みは、セットを有するドキュメントのテーマ別グループを作成するために利用されてもよい。ドキュメントのセットは、あるキーワード、ＣＰＣ、所有者（複数可）などであり得、結果は、同様のテーマを共有するドキュメントグループ（例えば、クラスタ）の視覚的な表示であってもよい。クラスタリングプロセスには、どのドキュメントがどのクラスタにグループ化されるかについて何らかの人間の制御を可能にし得る、ある程度の監視があってもよい。

さらなる例では、分類モデルは、転移学習を利用してもよい。これらの例では、汎用モデルは生成および／または受信されてもよく、各特定の分類モデルは、汎用モデルを出発点として使用してもよい。分類モデルをゼロから訓練する必要があるのではなく、モデルは、モデル化されている特定のシナリオに関して、そのモデルがまだ訓練されていないものに対して、汎用モデルから微調整され得る。これらの転移学習技術は、とりわけ、ＵＬＭＦｉｔ、ＢＥＲＴ、ＥＬＭｏ、およびＴ５のユーザを含んでいてもよい。

上述の分類モデルを訓練するための技術に加えて、分類モデルはまた、ドキュメントの分類に少なくとも部分的に基づいて訓練および／または編成されてもよい。例えば、ドキュメントが特許および特許出願である場合、所与のドキュメントの主題を分類するための所定の分類システムが確立されてもよい。分類システムは、プラットフォームによって、１つまたは複数のユーザによって、および／または第三者によって決定されてもよい。例えば、特許および特許出願は、ＣＰＣシステムのような事前定義された分類システムに関連付けられてもよい。ＣＰＣシステムは、本明細書でより詳細に説明されるように、異なる主題に対応するＣＰＣコードを採用する。所与のドキュメントに対するＣＰＣコードは識別されてもよく、それらのコードに関連付けられるようなカテゴリは決定されてもよい。ユーザインターフェースは、ユーザに提示されてもよく、決定されたカテゴリを提示し、ユーザが所与の目的のためにクラス内と見出したカテゴリを選択することを可能にする。選択されたカテゴリは、分類モデルを訓練するための特徴として利用されてもよい。追加的に、または代替的に、プラットフォームは、クラス内としてマークされたドキュメントのＣＰＣコードを決定してもよく、それらのＣＰＣコードを、分類を決定するために分析されるドキュメントに関連付けられたＣＰＣコードと比較するように分類モデルを訓練してもよい。

図１に示されるように、ドキュメント分析システム１０４および／またはクライアント側デバイス１０２のいくつかのコンポーネントおよび本明細書に記載されるようなそれらのコンポーネントの関連する機能性は、他のシステムの１つまたは複数によっておよび／またはクライアント側デバイス１０２によって実行されてもよい。追加的に、または代替的に、クライアント側デバイス１０２に関連付けられたコンポーネントおよび／または機能性の一部またはすべては、ドキュメント分析システム１０４によって実行されてもよい。

本明細書に記載されるようなデータおよび／または情報の交換は、ユーザがそのような情報の交換のために同意を提供した状況でのみ実行され得ることに留意されたい。例えば、ユーザは、デバイス間および／またはリモートシステムとの間のデータ交換をオプトインおよび／またはオプトアウトする機会、および／または本明細書に記載される機能性の実行のための機会を提供されてもよい。加えて、デバイスのうちの１つが第１のユーザアカウントに関連付けられ、デバイスのうちの別のものが第２のユーザアカウントに関連付けられている場合、ユーザの同意は、本明細書で説明される動作および／またはプロセスのいくつか、いずれか、またはすべてを実行する前に得られてもよい。

本明細書で使用されるように、プロセッサ（複数可）１１０および／または１２０のようなプロセッサは、複数のプロセッサおよび／または複数のコアを有するプロセッサを含んでいてもよい。さらに、プロセッサは、異なるタイプの１つまたは複数のコアを含んでいてもよい。例えば、プロセッサは、アプリケーションプロセッサユニット、グラフィックプロセッサユニット、その他を含んでいてもよい。１つの実装では、プロセッサは、マイクロコントローラおよび／またはマイクロプロセッサを含んでいてもよい。プロセッサ（複数可）１１０および／または１２０は、グラフィックスプロセッシングユニット（ＧＰＵ）、マイクロプロセッサ、デジタル信号プロセッサ、または当技術分野で知られている他の処理ユニットまたはコンポーネントを含んでいてもよい。代替的に、または追加的に、本明細書で説明される機能性は、少なくとも部分的に、１つまたは複数のハードウェアロジックコンポーネントによって実行され得る。例えば、限定されないが、使用することができる例示的なタイプのハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、複雑なプログラマブルロジックデバイス（ＣＰＬＤ）などを含む。加えて、プロセッサ１（複数可）１１０および／または１２０の各々は、それ自身のローカルメモリを有していてもよく、これはまた、プログラムコンポーネント、プログラムデータ、および／または１つまたは複数のオペレーティングシステムを格納してもよい。

メモリ１１４および／または１２４は、コンピュータ可読命令、データ構造、プログラムコンポーネント、または他のデータのような情報を格納するための任意の方法またはテクノロジーで実装される揮発性および不揮発性メモリ、取り外し可能および取り外し不可能な媒体を含んでいてもよい。そのようなメモリ１１４および／または１２４は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたは他のメモリテクノロジー、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）または他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、ＲＡＩＤ記憶装置システム、または所望の情報を記憶するために使用することができ、コンピューティングデバイスによってアクセスすることができる任意の他の媒体を含むが、これらに限定されない。メモリ１１４および／または１２４は、コンピュータ可読記憶媒体（「ＣＲＳＭ」）として実装されてもよく、これは、メモリ１１４および／または１２４に記憶された命令を実行するためにプロセッサ（複数可）１１０および／または１２０によってアクセス可能な任意の利用可能な物理媒体であってもよい。１つの基本的な実装では、ＣＲＳＭは、ランダムアクセスメモリ（「ＲＡＭ」）およびフラッシュメモリを含んでいてもよい。他の実装形態では、ＣＲＳＭは、読み取り専用メモリ（「ＲＯＭ」）、電気的に消去可能なプログラム可能な読み取り専用メモリ（「ＥＥＰＲＯＭ」）、または所望の情報を記憶するために使用することができ、プロセッサ（複数可）によってアクセスすることができる任意の他の有形媒体を含んでいてもよいが、これらに限定されない。

さらに、機能コンポーネントは、それぞれのメモリに格納されてもよく、または同じ機能性は、代替的に、ハードウェア、ファームウェア、アプリケーション固有の集積回路、フィールドプログラマブルゲートアレイ、またはチップ上のシステム（ＳｏＣ）として実装されてもよい。さらに、図示されていないが、本明細書で説明されるメモリ１１４および／または１２４のような各々のそれぞれのメモリは、ネットワークインターフェース（複数可）、それぞれの装置のＩ／Ｏデバイス、その他のようなハードウェアリソースデバイスを管理し、プロセッサ上で実行するアプリケーションまたはコンポーネントに様々なサービスを提供するように構成される少なくとも１つのオペレーティングシステム（ＯＳ）コンポーネントを含んでいてもよい。そのようなＯＳコンポーネントは、ＦｒｅｅＢＳＤプロジェクトによって公布されたＦｒｅｅＢＳＤオペレーティングシステムのバリアント、他のＵＮＩＸ（登録商標）またはＵＮＩＸ（登録商標）のようなバリアント、ＬｉｎｕｓＴｏｒｖａｌｄｓによって公布されたＬｉｎｕｘ（登録商標）オペレーティングシステムのバリアント、米国ワシントン州シアトルのＡｍａｚｏｎ.ｃｏｍＩｎｃ.由来のＦｉｒｅＯＳオペレーティングシステム、米国ワシントン州レドモンドのＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎ由来のＷｉｎｄｏｗｓオペレーティングシステム、カリフォルニア州サンノゼのＬｙｎｘＳｏｆｔｗａｒｅＴｅｃｈｎｏｌｏｇｉｅｓ, Ｉｎｃ.によって公布されたＬｙｎｘＯＳ、スウェーデンのＥＮＥＡＡＢによって公布されたオペレーティングシステム埋め込み（ＥｎｅａＯＳＥ）、その他を実装し得る。

ネットワークインターフェース（複数可）１１２および／または１２２は、システム１００内に示されるコンポーネントおよび／またはデバイス、および／または１つまたは複数の他のリモートシステム、ならびに他のネットワークデバイス間のメッセージを有効にし得る。そのようなネットワークインターフェース（複数可）１１２および／または１２２は、ネットワーク１０８を介してメッセージを送受信するための１つまたは複数のネットワークインタフェースコントローラ（ＮＩＣ）または他のタイプのトランシーバデバイスを含んでいてもよい。

例えば、ネットワークインターフェース（複数可）１１２および／または１２２のそれぞれは、１つまたは複数の短距離無線メッセージチャネルを介してメッセージを有効にするためのパーソナルエリアネットワーク（ＰＡＮ）コンポーネントを含んでいてもよい。例えば、ＰＡＮコンポーネントは、次の標準ＩＥＥＥ８０２．１５.４（ＺｉｇＢｅｅ）、ＩＥＥＥ８０２．１５.１（Ｂｌｕｅｔｏｏｔｈ）、ＩＥＥＥ８０２．１１（ＷｉＦｉ）、または任意の他のＰＡＮメッセージプロトコルのうちの少なくとも１つに準拠したメッセージを有効にし得る。さらに、ネットワークインターフェース１１２および／または１２２のそれぞれは、ワイドエリアネットワーク（ＷＡＮ）を介してメッセージを有効にするためのワイドエリアネットワークコンポーネントを含んでいてもよい。

いくつかの例では、ドキュメント分析システム１０４は、電子デバイス１０２に関連付けられた環境に対してローカルであってもよい。例えば、ドキュメント分析システム１０４は、電子デバイス１０２内に配置されてもよい。いくつかの例では、ドキュメント分析システム１０４の機能性の一部またはすべては、電子デバイス１０２によって実行されてもよい。また、ドキュメント分析システム１０４の様々なコンポーネントが本開示においてラベル付けされ、命名されており、各コンポーネントは、プロセッサ（複数可）に特定の動作を実行させるように構成されていると説明されているが、説明された動作は、該コンポーネントおよび／または具体的には図示されていない他のコンポーネントの一部またはすべてによって実行されてもよいことを理解されたい。

図２は、ドキュメント表現およびモデル表現の概念図２００を示す。図２００は、例としてベン図として説明されるが、モデルおよびドキュメントの他の表現も本開示に含まれることを理解されたい。図２００は、２つ以上のモデル表現２０２（ａ）～（ｃ）を含んでいてもよい。モデル表現２０２（ａ）～（ｃ）は、識別されたテクノロジーの１つまたは複数のサブカテゴリに関連付けられた訓練された分類モデルを表現してもよい。これらの分類モデルの訓練は、本明細書の他の箇所でより詳細に説明される。

モデル表現２０２（ａ）～（ｃ）のそれぞれは、所与のサブカテゴリに関連付けられてもよい。図２に示されるように、モデル表現２０２（ａ）はサブカテゴリＡ２０４に関連付けられ、モデル表現２０２（ｂ）はサブカテゴリＢ２０６に関連付けられ、モデル表現２０２（ｃ）はサブカテゴリＣ２０８に関連付けられる。これらのサブカテゴリのそれぞれは、識別されたテクノロジーに関連付けられてもよい。図２に示されるように、各モデル表現２０２（ａ）～（ｃ）は円として示されるが、モデル表現２０２（ａ）～（ｃ）の他の視覚化が本開示に含まれることを理解されたい。また、図２は、３つのモデルが利用される例を示すが、本開示は、モデルインターセクションを決定するための２つ、３つ、またはそれ以上のモデルの使用を含むことも理解されたい。

図２００はまた、ドキュメント表現２１０を含んでいてもよい。これらのドキュメント表現２１０は、訓練された分類モデルのうちの１つまたは複数が、ドキュメント表現２１０に対応するドキュメントをクラス内にあると決定したかどうかに基づいて、モデル表現２０２（ａ）～（ｃ）に対して配置されてもよい。例として図２を利用して、サブカテゴリＡ２０４に関連付けられた訓練された分類モデルについて、モデルは、サンプルドキュメントセットからの１０個のドキュメントが少なくとも閾値信頼度値によってクラス内にあると予測した。サブカテゴリＢ２０６に関連付けられた訓練された分類モデルについて、モデルは、サンプルドキュメントセットからの１１個のドキュメントが少なくとも閾値信頼度値によってクラス内にあると予測した。サブカテゴリＣ２０８に関連付けられた訓練された分類モデルについて、モデルは、サンプルドキュメントセットからの１１個のドキュメントが少なくとも閾値信頼度値によってクラス内にあると予測した。

本明細書に記載のインターセクションコンポーネントを利用して、訓練された分類モデルのうちの１つ以上についてクラス内にあると予測されるドキュメントが決定され得る。再び、図２を例として利用すると、分類モデルの少なくとも１つによってクラス内にあると予測される任意のドキュメントを含むドキュメントの第１のグループが識別されてもよい。この例では、図２に表される３２個すべてのドキュメントは、ドキュメントのこの第１のグループに含まれ得る。分類モデルのうちの少なくとも２つによってクラス内にあると予測される任意のドキュメントを含むドキュメントの第２のグループが識別され得る。ここで、第２のグループは、サブカテゴリＡ２０４およびサブカテゴリＢ２０６によってクラス内として予測されるドキュメント、およびサブカテゴリＡ２０４およびサブカテゴリＣ２０８によってクラス内として予測されるドキュメント、およびサブカテゴリＢ２０６およびサブカテゴリＣ２０８によってクラス内として予測されるドキュメントを含み得る。この第２のグループは、３２個のドキュメントのうちの８個を含む。また、分類モデルのうちのすべてによってクラス内にあると予測される任意のドキュメントを含むドキュメントの第３のグループが識別されてもよい。ここで、その第３のグループは、訓練された分類モデルの３つすべてによってクラス内として予測された１つのドキュメントを含んでいてもよい。ドキュメントのこれらの様々なグループは、本明細書に記載されるようなインターセクションコンポーネントによって識別されてもよい。

図３は、異なる信頼度値閾値を有するモデル表現の概念図３００を示す。図３００は、例としてベン図として説明されるが、モデルおよびドキュメントの他の表現も本開示に含まれることを理解されたい。図３００は、２つ以上のモデル表現２０２（ａ）～（ｃ）を含んでいてもよい。モデル表現２０２（ａ）～（ｃ）は、識別されたテクノロジーの１つまたは複数のサブカテゴリに関連付けられた訓練された分類モデルを表現してもよい。これらの分類モデルの訓練は、本明細書の他の箇所でより詳細に説明される。

モデル表現２０２（ａ）～（ｃ）のそれぞれは、所与のサブカテゴリに関連付けられてもよい。図３に示されるように、モデル表現２０２（ａ）はサブカテゴリＡ２０４に関連付けられ、モデル表現２０２（ｂ）はサブカテゴリＢ２０６に関連付けられ、モデル表現２０２（ｃ）はサブカテゴリＣ２０８に関連付けられる。これらのサブカテゴリのそれぞれは、識別されたテクノロジーに関連付けられてもよい。図２に示されるように、各モデル表現２０２（ａ）～（ｃ）は円として示されるが、モデル表現２０２（ａ）～（ｃ）の他の視覚化が本開示に含まれることを理解されたい。

図２００はまた、ドキュメント表現２１０を含んでいてもよい。これらのドキュメント表現２１０は、訓練された分類モデルのうちの１つまたは複数が、ドキュメント表現２１０に対応するドキュメントをクラス内にあると決定したかどうかに基づいて、モデル表現２０２（ａ）～（ｃ）に対して配置されてもよい。例として図３を利用して、サブカテゴリＡ２０４に関連付けられた訓練された分類モデルについて、モデルは、サンプルドキュメントセットからの８個のドキュメントが少なくとも第１の閾値信頼度値によってクラス内にあると予測した。サブカテゴリＢ２０６に関連付けられた訓練された分類モデルについて、モデルは、サンプルドキュメントセットからの１１個のドキュメントが少なくとも第２の閾値信頼度値によってクラス内にあると予測した。サブカテゴリＣ２０８に関連付けられた訓練された分類モデルについて、モデルは、サンプルドキュメントセットからの１１個のドキュメントが少なくとも第３の閾値信頼度値によってクラス内にあると予測した。

本明細書で説明されるインターセクションコンポーネントを利用して、ドキュメントグループは、図２に関して説明されるように決定されてもよい。さらに、本明細書に記載の信頼度コンポーネントは、訓練された分類モデルのうちの１つまたは複数に関連付けられた信頼度スコア閾値を調整するために利用されてもよい。図３を例として使用すると、サブカテゴリＡ２０４は、サブカテゴリＢ２０６およびサブカテゴリＣ２０８よりも高い信頼度スコア閾値に関連付けられ得る。これは、図３００内の他の円よりも小さい半径を有する円によって示される。サブカテゴリＢ２０６は、サブカテゴリＡ２０４およびサブカテゴリＣ２０８よりも低い信頼度スコア閾値を有し得る。これは、図３００内の他の円よりも大きな半径を有する円によって示される。サブカテゴリＣ２０８は、サブカテゴリＡ２０４よりも低いが、サブカテゴリＢ２０６よりも高い信頼度スコア閾値を有し得る。これは、サブカテゴリＡ２０４の円よりも大きいが、サブカテゴリＣ２０８の円よりも小さい半径を有する円によって示される。ドキュメント分析プラットフォームのユーザ、および／またはプラットフォーム自体は、信頼度スコア閾値を調整し得、これは、特定のドキュメントが本明細書で説明されるグループに含まれるおよび／またはそれから除外されることを引き起こし得る。モデルの各々の閾値が個別に調整されることを可能にすることによって、所与のサブカテゴリに多かれ少なかれ関連するドキュメントが識別され得る。

図４は、モデルインターセクションによるドキュメント分析のために利用され、クレーム幅スコアリングを利用するコンポーネントの概念図４００を示す。図４００は、ドキュメントＡ～Ｋに対応するドキュメント表現４０２～４２２を含む。これらのドキュメントは、本明細書で説明されるドキュメント分析プラットフォームによって分析されるサンプルドキュメントセットを表していてもよい。上記に、より詳細に図示されるように、モデルビルダコンポーネントは、サンプルドキュメントセット内のドキュメントが所与のモデルについてクラス内にあるかどうかを予測するために、分類モデルを構築および／または訓練し得る。

インターセクションコンポーネント１３０は、分類モデル間のインターセクションの異なるグループのために、どのドキュメントがクラス内として予測されるかを決定するように構成され得る。インターセクションコンポーネント１３０は、所与のテクノロジーのサブカテゴリを識別するように、および／またはサブカテゴリを示すユーザ入力を受信するように構成されてもよい。サブカテゴリは、識別されたテクノロジーの一部を表してもよい。この方法論を利用して、第１の分類モデルは、識別されたテクノロジーの第１のサブカテゴリについての陽性および／または陰性の訓練データセットを利用して訓練されてもよく、第２の分類モデルは、識別されたテクノロジーの第２のサブカテゴリについての陽性および／または陰性の訓練データセットを利用して訓練されてもよい。また、識別されたテクノロジーの追加のサブカテゴリの追加のモデルも、訓練されてもよい。その後、分類モデルの各々は、インターセクションコンポーネント１３０によって、モデルの各々についてクラス内にあるドキュメントのサブセットを決定するために利用されてもよい。例えば、３つのサブカテゴリを持つ識別されたテクノロジーに関して、それらのドキュメントのどれがクラス内にあるかを決定するために分析される１０，０００個のドキュメントのサンプルドキュメントセットを例にとる。第１のサブカテゴリのための第１の分類モデルは、第１のサブカテゴリに関してクラス内にある１０，０００個のドキュメントのうちの５００個を識別してもよく、第２のサブカテゴリのための第２の分類モデルは、第２のサブカテゴリに関してクラス内にある１０，０００個のドキュメントのうちの７５０個を識別してもよく、第３のサブカテゴリのための第３の分類モデルは、第３のサブカテゴリに関してクラス内にある１０，０００個のドキュメントのうちの４００個を識別してもよい。

モデルインターセクションコンポーネント１３０を利用して、クラス内として識別されたドキュメントの異なるグループは、結果として生成されてもよい。例えば、第１のグループは、分類モデルの少なくとも１つによってクラス内として識別される任意のドキュメントを含んでいてもよい。第２のグループは、分類モデルのうちの少なくとも２つによってクラス内として識別される任意のドキュメントを含んでいてもよい。第３のグループは、分類モデルのうちの各々によってクラス内として識別される任意のドキュメントを含んでいてもよい。上記の例から理解されるように、第１のグループに関して、クラス内ドキュメントの数は第２のグループよりも多くなり、第２のグループにおけるクラス内ドキュメントの数は第３のグループよりも多くなる。このようにして、分類モデルの各々によってクラス内にあると示されたドキュメントの第３のグループは、識別されたテクノロジーの各サブカテゴリに関連するドキュメントのサンプルグループ内のそれらのドキュメントを表す。これらのモデルインターセクション分析の結果は、検索クエリに関連付けられたクライアント側デバイス１０２のようなコンピューティングデバイスに提供されてもよい。例えば、グループの一部またはすべてのクラス内ドキュメントは、コンピューティングデバイスのユーザに表示されてもよく、および／またはドキュメントおよび／またはグループの識別は、提供されてもよい。

図４に示されるように、インターセクションコンポーネント１３０を利用して実行された動作の結果は、サンプルドキュメント、特にドキュメントＣ４０６、ドキュメントＥ４１０、ドキュメントＩ４１８、ドキュメントＪ４２０、およびドキュメントＫ４２２のサブセットである。その後、クレーム幅コンポーネント１３４は、ドキュメントの１つまたは複数の追加の要因を決定し、それらの要因を利用して、サブセット内のドキュメントの一部またはすべてを強調するように構成され得る。例として、適用される１つの要因は、特に、問題のドキュメントが特許および／または特許出願を表す場合に、クレーム幅スコアであってもよい。本明細書に、より完全に説明されるように、ドキュメントのクレームセクションは、クレームの幅を決定するために分析されてもよく、広いクレームを有するドキュメントは、より好ましいスコアを受け取り、狭いクレームを有するドキュメントは、あまり好ましくないスコアを受け取る。クレームの幅以外の追加の要因は、分析され、同様に、ドキュメントをスコアリングするために適用されてもよい。これらの例では、本明細書に記載されるモデルインターセクション分析は、本明細書に記載されるドキュメントのグループを識別するために利用されてもよい。その後、結果として生じるドキュメントは、それらのドキュメントのうちのどれが所与の検索クエリに応答するものとして識別されるべきであるか、および／またはそれらのドキュメントのうちのどれがハイライトされまたは別の方法で強調されるべきであるかを決定するために、１つまたは複数の追加の要因について分析されてもよい。図４に示されるように、このプロセスの例示的な結果は、ドキュメントのサブセットが、ここではドキュメントＣ４０６、ドキュメントＩ４１８、およびドキュメントＫ４２２に、さらにペアリング（paired down）されることである。

図５は、ドキュメント分析のための訓練モデル（training models）のために利用されるユーザインターフェースおよびコンポーネントの概念図を示す。図５は、１つまたは複数のユーザインターフェース上に表示される情報および／または１つまたは複数のユーザインターフェースとの相互作用の左から右へおよび上から下への進行を示す。

例では、完全なドキュメントユーザインターフェースは、ドキュメントタイトル、公開番号、要約、クレーム、およびクラス内およびクラス外にマークされたドキュメントの数、スキップされたドキュメントの数、ラベル付けされたドキュメントの数、およびドキュメントの分析の詳細のようなカテゴリノートなど、ユーザによってレビューされているドキュメントに関する情報を含み得る。ユーザインターフェースは、所与のドキュメントの態様の一部またはすべてに関する追加情報を提供し得る。例えば、要約および／または追加のクレームおよび／またはクレームの言語の追加の部分が表示されてもよい。さらに、カテゴリ進行状況情報および分析の詳細は、カテゴリノートウィンドウに表示されてもよい。分析の詳細は、分類モデルがドキュメントがクラス内またはクラス外であると決定したかどうか、その決定に関連付けられた信頼度値、およびドキュメントのクレームに関連付けられたクレームスコアのような、ドキュメントに関して行われた予測を含んでいてもよい。

上記に加えて、ユーザインターフェースは、ユーザが、ドキュメントが関連があるまたはそうでなければ「クラス内（in class）」、または無関係またはそうでなければ「クラス外(out of class)」としてラベル付けされるべきであるかどうかを示すユーザ入力を提供することを可能にし得る投票ウィンドウ５０２を提供してもよい。追加のオプションは、例えば、「スキップ(skip)」および「元に戻す(undo)」を含んでいてもよい。投票ウィンドウ５０２はまた、１つまたは複数のキーワードを提示して、「ホットキー（hotkeys）」またはそうでなければショートカットキーを有効にして、マウスがスクロールしてオプションの１つをクリックするのとは対照的に、キーボードまたは同様のデバイスを介したユーザ入力を可能にし、不確実性サンプリングを利用するオプションを提供するために利用されてもよい。例えば、ユーザは、ユーザインターフェース内のドキュメントに関する情報を閲覧し得る。表示されている情報の一部またはすべてをレビューした後、ユーザは、ドキュメントがクラス内またはクラス外のいずれかであると決定してもよい（またはドキュメントがスキップされることを決定してもよい）。ドキュメントがクラス内としてラベル付けされる例では、ユーザは、１つまたは複数の入力手段を利用して、「内（in）」オプションに対応する画面の一部を選択してもよい。ドキュメントがクラス外としてラベル付けされる例では、ユーザは、１つまたは複数の入力手段を利用して、「外（out）」オプションに対応する画面の一部を選択してもよい。あるいはまた、ホットキーが有効にされるとき、ユーザは、キーボード上の対応するホットキー（物理的なものであれデジタルなものであれ）を選択してもよい。投票ウィンドウ５０２内のオプションのうちの１つを選択すると、ユーザインターフェースは、ユーザがそのドキュメントをレビューし、そのドキュメントの分類に関連付けられたユーザ入力を提供することを可能にするために、次のラベル付けされていないドキュメントをドキュメントセット内に表示させることができる。

図５に示されるように、ユーザがユーザインターフェースの「内（in）」部分を選択するとき、および／または所与のドキュメントがクラス内にあることを他の方法で示すとき、そのドキュメントおよび／またはそのドキュメントの特徴および／または属性は、陽性のデータセット５０４に保存されてもよい。例えば、モデルが本明細書に記載されるようにドキュメント比較のためにキーワードを利用するとき、「内（in）」とラベル付けされたドキュメントに関連付けられたーワードは、キーワードに関連付けられた重み付け値（weighting values）および／またはキーワードの決定に関連付けられた信頼度値のような追加情報と共に、陽性のデータセット５０４に関連付けて記憶されてもよい。本明細書に記載されるように、モデルがドキュメント比較のためにベクトルを利用する例では、「内（in）」とラベル付けされたドキュメントに関連付けられたベクトルは、重み付け値および／または信頼度値のような追加情報とともに、陽性のデータセット５０４と関連付けて記憶されてもよい。ユーザが、ドキュメントがクラス内にあることを示す追加のドキュメントも、陽性のデータセット５０４と関連付けて記憶されてもよい。

ユーザがユーザインターフェースの「外（out）」部分を選択するとき、および／または所与のドキュメントがクラス外であることを他の方法で示すとき、そのドキュメントおよび／またはそのドキュメントの特徴および／または属性は、陰性のデータセット５０６に保存されてもよい。例えば、モデルが本明細書に記載されるようにドキュメント比較のためにキーワードを利用するとき、「内（in）」とラベル付けされたドキュメントに関連付けられたーワードは、キーワードに関連付けられた重み付け値および／またはキーワードの決定に関連付けられた信頼度値のような追加情報と共に、陰性のデータセット５０６に関連付けて記憶されてもよい。本明細書に記載されるように、モデルがドキュメント比較のためにベクトルを利用する例では、「外（out）」とラベル付けされたドキュメントに関連付けられたベクトルは、重み付け値および／または信頼度値のような追加情報とともに、陰性のデータセット５０６と関連付けて記憶されてもよい。ユーザがドキュメントがクラス外にあることを示す追加のドキュメントも、陰性のデータセット５０６と関連付けて記憶されてもよい。

本明細書においてより完全に説明されるように、分類モデルは、ラベル付けされたドキュメントを利用して訓練されてもよい。例えば、データセット５０４、５０６は、ラベル付けされていないドキュメントについて、所与のドキュメントがクラス内にあるかクラス外にあるかを識別する方法を分類モデルに訓練するために利用されてもよい。そうするために、データセット５０４、５０６は、クラス内およびクラス外のキーワードをサンプルドキュメントを表すキーワードと比較するように、および／またはクラス内およびクラス外のベクトルをサンプルドキュメントを表すベクトルと比較するように、分類モデルを訓練するために、モデルビルダコンポーネント１２６によって利用されてもよい。

図６は、訓練されたモデルに関連付けられたキーワードを示すユーザインターフェース６００の概念図を示す。

ユーザインターフェース６００は、所与の分類モデルがクラス内に含まれると決定したキーワード、およびモデルがクラス外として除外されると決定したそれらのキーワードの視覚的表示を提供し得る。例えば、本明細書の他の場所でより完全に説明されるように、モデルは、どのドキュメントがクラス内にラベル付けされ、どのドキュメントがクラス外にラベル付けされるかを示す訓練データセットを利用してもよい。ドキュメントを表すこれらのドキュメントの特徴は、識別され得、それらの特徴は、モデルを訓練するために利用され得る。例では、特徴は、ドキュメントのテキストを表すキーワードを含んでいてもよい。ユーザインターフェース６００におけるこれらのキーワードの提示は、図６に示されるようなリストのような、１つまたは複数の形式をとってもよい。他の形式は、ワードクラウドを含んでいてもよく、ここで、互いからのキーワードのサイズ、フォント、強調、および間隔は、含まれるおよび除外されるグループに対する所与のキーワードの相対的重要性を示していてもよい。例えば、ユーザインターフェース６００は、含まれたキーワードウィンドウ６０２および除外されたキーワードウィンドウ６０４を含んでいてもよい。含まれたキーワードウィンドウ６０２は、クラス内としてラベル付けされたドキュメントを表すとモデルが決定したキーワードの視覚的表示を提供してもよい。除外されたキーワードウィンドウ６０４は、クラス外としてラベル付けされたドキュメントを表すとモデルが決定したキーワードの視覚的表示を提供してもよい。キーワードはそれぞれ、異なる重み付け値に関連付けられてもよく、またはそうでなければ、ドキュメント分類を決定するために多かれ少なかれ重要であってもよい。これらの重み付け値の視覚的表示は、含まれたキーワードウィンドウ６０２および除外されたキーワードウィンドウ６０４に提供されてもよい。例えば、他のキーワードよりも大きく、より暗く、より強調されたフォントを有する単語クラウドの中心に位置するキーワードは、グループに最も関連性の高いキーワードであってもよい。図６に示されるように、例示的なリストは、キーワード「ＷｏｒｄＡ」が関連ドキュメントを決定するために最も重要である一方で、キーワード「Ｗｏｒｄ１」がクラス外ドキュメントを決定するために最も重要であることを示す。リストビューでは、所与のウィンドウに含まれているキーワードに関連付けられた重要度および／または信頼度値の表示が表示されてもよい。これは、キーワードのランク付けだけでなく、それらのキーワードが分類モデルによって決定された重要性の表示をユーザに提供してもよい。

例では、ユーザインターフェース６００は、キーワードに関連付けられたユーザ入力を受信するように構成されていてもよい。例えば、ユーザ入力は、ユーザが、含まれたキーワードウィンドウ６０２および除外されたキーワードウィンドウ６０４のうちの１つまたは複数にキーワードが含まれるべきであることを確認することを含んでいてもよい。ユーザ入力はまた、ユーザが、所与のキーワードが現在そうであるよりも多く削除される、強調されない、または強調されるべきであることを示すことを含んでいてもよい。ユーザ入力に対応するユーザ入力データは、分類モデルを再訓練するために利用されてもよい。さらに、ユーザは、所与のウィンドウに含まれていないワードが含まれるべきであることを示すユーザ入力を提供してもよく、分類モデルは、そのユーザ入力データに少なくとも部分的に基づいて再訓練されてもよい。

さらに、図６に示されるように、信頼度コンポーネント１３２によってユーザ入力を利用して、信頼度スコア閾値が所与のモデルに対して調整されるべきかどうかを決定してもよい。例として、ユーザ入力データは、信頼スコア閾値が増大されるべきことを示し得、これは、陽性のデータセットおよび陰性のデータセットにおいてより少ないキーワードが識別されることをもたらし得る。この例では、ユーザは、ＷｏｒｄＣおよびＷｏｒｄＦが肯定的な訓練データセットの代表的なワードに含まれるべきではなく、Ｗｏｒｄ２、Ｗｏｒｄ３、およびＷｏｒｄ６が陰性の訓練データセットについての代表的なワードに含まれるべきではないことを示す入力を提供することができた。この変更は、所与のモデルについてクラス内として識別されるドキュメント、および／またはそれらのドキュメントのうちのどれが、２つ以上のモデルに関してクラス内であるとしてインターセクションコンポーネントによって識別されるかに影響を与える可能性がある。

図７は、モデル分類法の概念図である。例えば、上述されるような分類モデルの訓練に加えて、訓練された分類を正確に予測するようにモデルが決定されるように分類モデルが訓練されると、モデルはモデル分類法７００に配置されてもよい。モデル分類法７００は、分類ツリーまたはそうでなければ、モデル間の関係および／またはモデルに関連付けられた特異性のレベルを示すモデル階層を表していてもよい。例えば、図７に示されるように、「テクノロジーＡ」に関してドキュメントがクラス内にあるかどうかを決定することに関連付けられた第１のモデル７０２は、「テクノロジーＢ」、「テクノロジーＣ」、および「テクノロジーＤ」に関してドキュメントがクラスにあるかどうかをそれぞれ決定するように訓練された他のモデル７０４、７１０、７１６に関連付けられてもよい。これらのモデルのそれぞれはまた、これらのコンポーネントのより具体的な態様を決定するように訓練された他のモデル７０６、７０８、７１２、７１４、７１８、７２０に関連付けられてもよい。この分類法７００は、検索可能であってもよく、ユーザがモデルについての検索クエリを提供することを可能にする機能性を提供してもよい。検索クエリからのキーワードは、検索クエリに適用可能であり得るモデルを識別するために、および／または検索クエリに関連付けられた分類法の「分岐（branches）」を強調するために利用されてもよい。

図７に示されるように、モデル分類法７００内のモデルは、１つまたは複数の方法で互いにリンクされてもよい。例えば、１つのモデルの主題が別のモデルの主題に関連する場合、それらのモデルは、分類法７００内でリンクされてもよい。いくつかの例では、モデルを表す分類法のノードは、本明細書に記載されるＣＰＣシステムのような所定の主題分類システムを利用して決定されてもよい。

さらに、モデル分類法７００は、本明細書に記載されるようなモデルインターセクションの１つまたは複数のインジケータを含んでいてもよい。例えば、インターセクションＡ７５０は、より多くのモデルのうちの２つについてのインターセクションインジケータを表していてもよい。図７に示されるように、インターセクションＡ７５０は、テクノロジーＢ７０４、テクノロジーＣ７１０、およびテクノロジーＦ７０８の間のインターセクションをマークする。インジケータは、モデルによる検索の例（a search-by-model example）におけるように、選択可能であってもよく、サンプルドキュメントは、関連付けられたモデルによって分析されてもよい。インターセクションコンポーネントは、その分析の結果を利用して、ドキュメントが複数のモデルによってクラス内にあると予測されるモデルインターセクションを決定してもよい。

図８および図９は、モデルインターセクションを使用したドキュメント分析に関連付けられたプロセスを示す。本明細書で説明されるプロセスは、一連の動作を表す論理フロー図におけるブロックの集合として図示され、そのうちのいくつかまたはすべては、ハードウェア、ソフトウェア、またはそれらの組み合わせで実装されてもよい。ソフトウェアとの関連では、ブロックは、１つまたは複数のプロセッサによって実行されたときに、列挙された動作を実行するようにプロセッサをプログラムする、１つまたは複数のコンピュータ可読媒体に記憶されたコンピュータ実行可能命令を表していてもよい。概して、コンピュータ実行可能命令は、特定の機能を実行し、または特定のデータタイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、およびデータ構造などを含む。ブロックが記載される順序は、特に明記されていない限り、限定として解釈されるべきではない。任意の数の記載されたブロックは、プロセスまたは代替プロセスを実装するために、任意の順序および／または並行して組み合わされてもよく、すべてのブロックが実行される必要はない。議論の目的のために、プロセスは、例えば、図１から図７に関して説明されたもののような、本明細書の実施例に記載された環境、アーキテクチャ、およびシステムを参照して説明されるが、プロセスは、多種多様な他の環境、アーキテクチャ、およびシステムで実装されてもよい。

図８は、モデルインターセクションを使用したドキュメント分析のために利用される実例プロセス８００のフロー図を示す。動作または工程が記載される順序は、限定として解釈されることを意図したものではなく、任意の数の記載された動作は、プロセス８００を実行するために任意の順序で、および／または並行して、組み合わされてもよい。プロセス８００に関して記載された動作は、クライアントデバイス、および／またはドキュメント分析プラットフォームに関連付けられたシステムによって実行されているとして記載されている。しかしながら、これらの動作の一部またはすべては、本明細書に記載されるコンポーネント、デバイス、および／またはシステムの一部またはすべてによって実行され得ることを理解されたい。

ブロック８０２において、プロセス８００は、ユーザクエリを表現する第１のデータを受信して、識別されたテクノロジーに関連付けられた特許ドキュメントを識別する工程を含んでいてもよい。例えば、検索クエリ（search query）は、その検索クエリに関連するドキュメントのセットを識別するために、受信されてもよい。検索クエリは、検索クエリに関連するものを定義する１つまたは複数のキーワードおよび／またはフレーズを含んでいてもよい。本明細書に記載されるドキュメント分析プラットフォームを利用して、検索クエリに対応するキーワードを有するドキュメントのセットが識別されてもよい。

ブロック８０４において、プロセス８００は、識別されたテクノロジーに関連付けられた第１のサブカテゴリを識別する工程を含んでいてもよい。例えば、システムは、識別されたテクノロジーからのキーワードを利用して、それらのキーワードのいくつかが、識別されたテクノロジーの個々のコンポーネントとして存在することができるサブカテゴリに関連付けられていることを決定してもよい。他の例では、ユーザ入力データは、識別されたテクノロジーに関連付けられた所与のサブカテゴリを示し得る。

ブロック８０６において、プロセス８００は、第１のサブカテゴリに関連する特許ドキュメントを識別するように構成された第１の予測モデルを生成する工程を含んでいてもよい。例えば、１つまたは複数のドキュメント分類モデルは、所与のドキュメントがクラス内にあるかクラス外にあるかを示すユーザ入力を利用して、構築および／または訓練されてもよい。本明細書においてより完全に説明されるように、ユーザは、ユーザインターフェースを利用して、所与のドキュメントの全部または一部を閲覧し、ユーザインターフェース上の要素を選択して、所与のドキュメントをクラス内またはクラス外として識別してもよい。閾値数のドキュメントがユーザによってクラス内またはクラス外としてマークされると、１つまたは複数の分類モデルは、クラス内としてマークされるドキュメントの陽性の訓練データセットに基づいて訓練されてもよく、いくつかの例では、クラス外としてマークされるドキュメントの陰性の訓練データセットに基づいて訓練されてもよい。その後、訓練された分類モデルは、どちらとも決まらないドキュメントのセット内のどのドキュメントがクラス内またはクラス外にあるかを予測するために利用されてもよい。

ブロック８０８において、プロセス８００は、識別されたテクノロジーに関連付けられた第２のサブカテゴリを識別する工程を含んでいてもよい。第２のサブカテゴリを識別する工程は、ブロック８０４に関して記載されるように、第１のサブカテゴリを識別する工程と同じまたは同様の方法で実行されてもよい。

ブロック８１０において、プロセス８００は、第２のサブカテゴリに関連する特許ドキュメントを識別するように構成された第２の予測モデルを生成する工程を含んでいてもよい。第２の予測モデルを生成する工程は、ブロック８０６に関して記載されるように、第１の予測モデルを生成する工程と同じまたは同様の方法で実行されてもよい。

ブロック８１２において、プロセス８００は、第１の予測モデルに対する第１の入力として、サンプル特許ドキュメントを表現する第２のデータを提供する工程を含んでいてもよい。例えば、第三者システムからのおよび／またはユーザクエリに関連付けられたデバイスからのようなドキュメントデータベースは、ユーザクエリからのキーワードに応答するサンプルドキュメントに関してクエリされてもよい。

ブロック８１４において、プロセス８００は、第１の予測モデルからの第１の出力として、第１の予測モデルによってクラス内にあると決定されたサンプル特許ドキュメントの第１のサブセットを識別する第３のデータを生成する工程を含んでいてもよい。例えば、モデルは、所与のドキュメントが、クラス外キーワードよりもクラス内キーワードに類似しているキーワードを有するかどうかを決定するように構成されてもよい。他の例では、キーワードに基づいて訓練データセットを生成する代わりに、またはそれに加えて、プラットフォームは、所与のドキュメントのためのベクトルを決定してもよい。ベクトルは、座標系に関連付けられてもよく、ベクトルの形態でドキュメントの主題を表現してもよい。ベクトルは、クラス内にラベル付けされたドキュメントおよびクラス外にラベル付けされたドキュメントに対して生成されてもよい。分類モデルは、所与のドキュメントのベクトル表現が、座標系においてクラス外ベクトルよりもクラス内ベクトルに近いかどうかを決定するように訓練されてもよい。ドキュメントを表現するベクトルを生成するための技術は、Ｄｏｃ２Ｖｅｃのようなベクトル化技術、または他の同様の技術を含んでいてもよい。

ブロック８１６において、プロセス８００は、第２の予測モデルに対する第２の入力として、サンプル特許ドキュメントを表現する第２のデータを提供する工程を含んでいてもよい。第２のデータを提供する工程は、ブロック８１２に関して記載されるように、第１のデータを提供する工程と同じまたは同様の方法で実行されてもよい。

ブロック８１８において、プロセス８００は、第２の予測モデルからの第２の出力として、第２の予測モデルによってクラス内にあると決定されたサンプル特許ドキュメントの第２のサブセットを識別する第４のデータを生成する工程を含んでいてもよい。第２のサブセットを生成する工程は、ブロック８１４に関して記載されるように、第１のサブセットを生成する工程と同じまたは同様の方法で実行されてもよい。

ブロック８２０において、プロセス８００は、第１のサブセットおよび第２のサブセット内にあるサンプル特許ドキュメントの第３のサブセットを決定する工程を含んでいてもよい。例えば、３つのサブカテゴリを持つ識別されたテクノロジーに関して、それらのドキュメントのどれがクラス内にあるかを決定するために分析される１０，０００個のドキュメントのサンプルドキュメントセットの例を取る。第１のサブカテゴリのための第１の分類モデルは、第１のサブカテゴリに関してクラス内にある１０，０００個のドキュメントのうちの５００個を識別してもよく、第２のサブカテゴリのための第２の分類モデルは、第２のサブカテゴリに関してクラス内にある１０，０００個のドキュメントのうちの７５０個を識別してもよい。

モデルインターセクションコンポーネントを利用して、クラス内として識別されたドキュメントの異なるグループは、結果として生成されてもよい。例えば、第１のグループは、分類モデルの少なくとも１つによってクラス内として識別される任意のドキュメントを含んでいてもよい。第２のグループは、分類モデルのうちの少なくとも２つによってクラス内として識別される任意のドキュメントを含んでいてもよい。第３のグループは、特に３つのモデルが利用される場合、分類モデルの各々によってクラスとして識別される任意のドキュメントを含んでいてもよい。上記の例から理解されるように、第１のグループに関して、クラス内ドキュメントの数は第２のグループよりも多くなり、第２のグループにおけるクラス内ドキュメントの数は第３のグループよりも多くなる。このようにして、分類モデルの各々によってクラス内にあると示されたドキュメントの第３のグループは、識別されたテクノロジーの各サブカテゴリに関連するドキュメントのサンプルグループ内のそれらのドキュメントを表現する。

ブロック８２２において、プロセス８００は、ユーザクエリに関連付けられたデバイスに、識別されたテクノロジーに関連するようなサンプル特許ドキュメントの第３のサブセットの少なくとも識別子を表示させる工程を含んでいてもよい。これらのモデルインターセクション分析の結果は、ユーザクエリに関連付けられたクライアント側デバイスのようなコンピューティングデバイスに提供されてもよい。例えば、グループの一部またはすべてのクラス内ドキュメントは、コンピューティングデバイスのユーザに表示されてもよく、および／またはドキュメントおよび／またはグループの識別は、提供されてもよい。

追加的に、または代替的に、プロセス８００は、識別されたテクノロジーに関連付けられた第３のサブカテゴリを識別することを含んでいてもよい。プロセス８００はまた、第３のサブカテゴリに関連する特許ドキュメントを識別するように構成された第３の予測モデルを生成する工程を含んでいてもよい。プロセス８００はまた、第３の予測モデルからの出力として、第３の予測モデルによってクラス内にあると決定されたサンプル特許ドキュメントの第４のサブセットを識別する第５のデータを生成する工程を含んでいてもよい。これらの例では、第３のサブセットは、第１のサブセット、第２のサブセット、および第４のサブセット内にあるか、または第１のサブセット、第２のサブセット、および第４のサブセットのうちの少なくとも２つ内にあるサンプル特許ドキュメントを含む。

追加的に、または代替的に、プロセス８００は、第１の予測モデルに適用するための第１の信頼度閾値を決定する工程を含んでいてもよく、第１の信頼度閾値は、クラス内として所与の特許ドキュメンを予測するための第１の信頼度を示す。プロセス８００はまた、第２の予測モデルに適用するための第２の信頼度閾値を決定する工程を含んでいてもよく、第２の信頼度閾値は、クラス内として所与の特許ドキュメントを予測するための第２の信頼度を示し、第１の信頼度閾値は、第２の信頼度閾値とは異なる。これらの例では、第３のデータを生成する工程は、第１の信頼度閾値に少なくとも部分的に基づいており、第４のデータを生成する工程は、第２の信頼度閾値に少なくとも部分的に基づいている。

追加的に、または代替的に、プロセス８００は、第３のサブセット内のサンプル特許ドキュメントの個々のクレームのクレーム幅を示すクレーム幅値を決定する工程を含んでいてもよい。プロセス８００はまた、第３のサブセット内にあり閾値クレーム幅値を満たすクレーム幅値を有するサンプル特許ドキュメントの第４のサブセットを決定する工程を含んでいてもよい。プロセス８００はまた、デバイスに、サンプル特許ドキュメントの第４のサブセットのための識別子の表示を優先させる工程を含んでいてもよい。

図９は、モデルインターセクションを使用したドキュメント分析のために利用される別の実例プロセス９００のフロー図を示す。動作または工程が記載される順序は、限定として解釈されることを意図したものではなく、任意の数の記載された動作は、プロセス８００を実行するために任意の順序で、および／または並行して、組み合わされてもよい。プロセス８００に関して記載された動作は、クライアントデバイス、および／またはドキュメント分析プラットフォームに関連付けられたシステムによって実行されているとして記載されている。しかしながら、これらの動作の一部またはすべては、本明細書に記載されるコンポーネント、デバイス、および／またはシステムの一部またはすべてによって実行されてもよいことを理解されたい。

ブロック９０２において、プロセス９００は、識別されたテクノロジーに関連付けられた第１のサブカテゴリに関連するドキュメントを識別するように構成された第１の予測モデルを生成する工程を含んでいてもよい。例えば、システムは、識別されたテクノロジーからのキーワードを利用して、それらのキーワードのいくつかが、識別されたテクノロジーの個々のコンポーネントとして存在することができるサブカテゴリに関連付けられていることを決定してもよい。他の例では、ユーザ入力データは、識別されたテクノロジーに関連付けられた所与のサブカテゴリを示してもよい。その後、所与のドキュメントがクラス内にあるかクラス外にあるかを示すユーザ入力を利用して、１つまたは複数のドキュメント分類モデルが構築および／または訓練されてもよい。本明細書においてより完全に説明されるように、ユーザは、ユーザインターフェースを利用して、所与のドキュメントの全部または一部を閲覧し、ユーザインターフェース上の要素を選択して、所与のドキュメントをクラス内またはクラス外として識別してもよい。閾値数のドキュメントがユーザによってクラス内またはクラス外としてマークされると、１つまたは複数の分類モデルは、クラス内としてマークされるドキュメントの陽性の訓練データセットに基づいて訓練されてもよく、いくつかの例では、クラス外としてマークされるドキュメントの陰性の訓練データセットに基づいて訓練されてもよい。その後、訓練された分類モデルは、どちらとも決まらない一連のドキュメント内のどのドキュメントがクラス内またはクラス外にあるかを予測するために利用されてもよい。

ブロック９０４において、プロセス９００は、識別されたテクノロジーに関連付けられた第２のサブカテゴリに関連するドキュメントを識別するように構成された第２の予測モデルを生成する工程を含んでいてもよい。第２の予測モデルを生成する工程は、ブロック９０２に関して記載されるように、第１の予測モデルを生成する工程と同じまたは同様の方法で実行されてもよい。

ブロック９０６において、プロセス９００は、第１の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第１のサブセットを識別する第１のデータを生成する工程を含んでいてもよい。例えば、モデルは、所与のドキュメントが、クラス外キーワードよりもクラス内キーワードに類似しているキーワードを有するかどうかを決定するように構成されていてもよい。他の例では、キーワードに基づいて訓練データセットを生成する代わりに、またはそれに加えて、プラットフォームは、所与のドキュメントのためのベクトルを決定してもよい。ベクトルは、座標系に関連付けられてもよく、ベクトルの形態でドキュメントの主題を表現してもよい。ベクトルは、クラス内にラベル付けされたドキュメントおよびクラス外にラベル付けされたドキュメントに対して生成されてもよい。分類モデルは、所与のドキュメントのベクトル表現が、座標系においてクラス外ベクトルよりもクラス内ベクトルに近いかどうかを決定するように訓練されてもよい。ドキュメントを表現するベクトルを生成するための技術は、Ｄｏｃ２Ｖｅｃのようなベクトル化技術、または他の同様の技術を含んでいてもよい。

ブロック９０８において、プロセス９００は、第２の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第２のサブセットを識別する第２のデータを生成する工程を含んでいてもよい。第２のデータを生成する工程は、ブロック９０６に関して記載された第１のデータを生成する工程と同じまたは同様の方法で実行されてもよい。

ブロック９１０において、プロセス９００は、第１のサブセットおよび第２のサブセット内にあるサンプルドキュメントの第３のサブセットを示す第３のデータを生成する工程を含んでいてもよい。例えば、３つのサブカテゴリを持つ識別されたテクノロジーに関して、それらのドキュメントのどれがクラス内にあるかを決定するために分析される１０，０００個のドキュメントのサンプルドキュメントセットを例にとる。第１のサブカテゴリのための第１の分類モデルは、第１のサブカテゴリに関してクラス内にある１０，０００個のドキュメントのうちの５００個を識別してもよく、第２のサブカテゴリのための第２の分類モデルは、第２のサブカテゴリに関してクラス内にある１０，０００個のドキュメントのうちの７５０個を識別してもよい。

モデルインターセクションコンポーネントを利用して、クラス内として識別されたドキュメントの異なるグループは、結果として生成されてもよい。例えば、第１のグループは、分類モデルの少なくとも１つによってクラス内として識別される任意のドキュメントを含んでいてもよい。第２のグループは、分類モデルのうちの少なくとも２つによってクラス内として識別される任意のドキュメントを含んでもよい。第３のグループは、特に３つのモデルが利用される場合、分類モデルの各々によってクラス内として識別される任意のドキュメントを含んでいてもよい。上記の例から理解されるように、第１のグループに関して、クラス内ドキュメントの数は第２のグループよりも多くなり、第２のグループにおけるクラス内ドキュメントの数は第３のグループよりも多くなる。このようにして、分類モデルの各々によってクラス内にあると示されたドキュメントの第３のグループは、識別されたテクノロジーの各サブカテゴリに関連するドキュメントのサンプルグループ内のそれらのドキュメントを表現する。

追加的に、または代替的に、プロセス９００は、識別されたテクノロジーに関連付けられた第３のサブカテゴリに関連するドキュメントを識別するように構成された第３の予測モデルを生成する工程を含んでいてもよい。プロセス９００はまた、第３の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第４のサブセットを識別する第４のデータを生成する工程を含んでいてもよい。これらの例では、第３のサブセットは、第１のサブセット、第２のサブセット、および第４のサブセット内にあるサンプルドキュメントを含む。

追加的に、または代替的に、プロセス９００は、第１の予測モデルに適用するための第１の信頼度閾値を決定する工程を含んでいてもよい。プロセス９００はまた、第２の予測モデルに適用するための第２の信頼度閾値を決定する工程を含んでいてもよく、第１の信頼度閾値は、第２の信頼度閾値とは異なる。これらの例では、第１のデータを生成する工程は、第１の信頼度閾値に少なくとも部分的に基づいており、第２のデータを生成する工程は、第２の信頼度閾値に少なくとも部分的に基づいている。

追加的に、または代替的に、プロセス９００は、サンプルドキュメントの個々について、サンプルドキュメントの個々のクレームに関するクレームスコアを決定する工程を含んでいてもよい。プロセス９００はまた、第３のサブセット内にあり閾値クレームスコアを満たすクレームスコアを有するサンプルドキュメントの第４のサブセットを決定する工程を含んでいてもよい。

追加的に、または代替的に、プロセス９００は、第１の信頼度閾値を利用する第１の予測モデルによってクラス内として予測されるドキュメントからキーワードを表示するように構成されたユーザインターフェースを生成する工程を含んでいてもよい。プロセス９００はまた、第１の予測モデルに適用するための第２の信頼度閾値を示すユーザ入力データを受信する工程を含んでいてもよく、ユーザ入力データは、ユーザインターフェースを介して表示されるようなキーワードに応答している。プロセス９００はまた、第１の信頼度閾値の代わりに第２の信頼度閾値を第１の予測モデルに適用する工程を含んでいてもよい。

追加的に、または代替的に、プロセス９００は、座標系内の第３のサブセットに関連付けられたドキュメントを表現する第１のベクトルを生成する工程を含んでいてもよい。プロセス９００はまた、第１のベクトルに関連付けられた座標系の領域を決定する工程を含んでいてもよい。プロセス９００はまた、領域内にある座標系内の第２のベクトルによって表現される追加のドキュメントを識別する工程を含んでいてもよい。

追加的に、または代替的に、プロセス９００は、識別されたテクノロジーに関連付けられた第３のサブカテゴリに関連するドキュメントを識別するように構成された第３の予測モデルを生成する工程を含んでいてもよい。プロセス９００はまた、第３の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第４のサブセットを識別する第４のデータを生成する工程を含んでいてもよい。これらの例では、第３のサブセットは、第１のサブセットおよび第２のサブセット、第２のサブセットおよび第４のサブセット、または第１のサブセットおよび第４のサブセットのうちの少なくとも１つにあるサンプルドキュメントを含む。

追加的に、または代替的に、プロセス９００は、第１の予測モデルおよび第２の予測モデルを含む予測モデルのモデル階層を格納することを含んでいてもよく、モデル階層は、予測モデル間の関係を示す。プロセス９００はまた、識別されたテクノロジーに関するドキュメントのクラス内予測が、第１の予測モデルおよび第２の予測モデルを利用して実行されるインジケータを生成する工程を含んでいてもよい。プロセス９００はまた、モデル階層から利用するモデルについての検索クエリを受信する工程と、検索クエリが識別されたテクノロジーに対応することを決定する工程と、を含んでいてもよい。プロセス９００はまた、第１の予測モデルおよび第２の予測モデルの代わりに、インジケータを表す検索クエリに応答データを提供する工程を含んでいてもよい。

例示的な条項

１．方法であって、ユーザクエリを表現する第１のデータを受信して、識別されたテクノロジーに関連付けられた特許ドキュメントを識別する工程と、識別されたテクノロジーに関連付けられた第１のサブカテゴリを識別する工程と、第１のサブカテゴリに関連する特許ドキュメントを識別するように構成された第１の予測モデルを生成する工程と、識別されたテクノロジーに関連付けられた第２のサブカテゴリを識別する工程と、第２のサブカテゴリに関連する特許ドキュメントを識別するように構成された第２の予測モデルを生成する工程と、第１の予測モデルに対する第１の入力として、サンプル特許ドキュメントを表現する第２のデータを提供する工程と、第１の予測モデルからの第１の出力として、第１の予測モデルによってクラス内にあると決定されたサンプル特許ドキュメントの第１のサブセットを識別する第３のデータを生成する工程と、第２の予測モデルに対する第２の入力として、サンプル特許ドキュメントを表現する第２のデータを提供する工程と、第２の予測モデルからの第２の出力として、第２の予測モデルによってクラス内にあると決定されたサンプル特許ドキュメントの第２のサブセットを識別する第４のデータを生成する工程と、第１のサブセットおよび第２のサブセット内にあるサンプル特許ドキュメントの第３のサブセットを決定する工程と、ユーザクエリに関連付けられたデバイスに、識別されたテクノロジーに関連するようなサンプル特許ドキュメントの第３のサブセットの少なくとも識別子を表示させる工程と、を含む方法。

２．条項１に記載の方法であって、識別されたテクノロジーに関連付けられた第３のサブカテゴリを識別する工程と、第３のサブカテゴリに関連する特許ドキュメントを識別するように構成された第３の予測モデルを生成する工程と、第３の予測モデルからの出力として、第３の予測モデルによってクラス内にあると決定されたサンプル特許ドキュメントの第４のサブセットを識別する第５のデータを生成する工程と、をさらに含み、第３のサブセットは、第１のサブセット、第２のサブセット、および第４のサブセット内にあるか、または第１のサブセット、第２のサブセット、および第４のサブセットのうちの少なくとも２つ内にある、サンプル特許ドキュメントを含む方法。

３．条項１および／または２に記載の方法であって、第１の予測モデルに適用するための第１の信頼度閾値を決定する工程であって、第１の信頼度閾値はクラス内として所与の特許ドキュメントを予測するための第１の信頼度を示す工程と、第２の予測モデルに適用するための第２の信頼度閾値を決定する工程であって、第２の信頼度閾値は、クラス内として所与の特許ドキュメントを予測するための第２の信頼度を示す工程と、をさらに含み、第１の信頼度閾値は、第２の信頼度閾値とは異なり、第３のデータを生成する工程は、第１の信頼度閾値に少なくとも部分的に基づいており、第４のデータを生成する工程は、第２の信頼度閾値に少なくとも部分的に基づいている方法。

４．条項１、２、および／または３のいずれかに記載の方法であって、第３のサブセット内のサンプル特許ドキュメントの個々のクレームのクレーム幅を示すクレーム幅値を決定する工程と、第３のサブセット内にあり閾値クレーム幅値を満たすクレーム幅値を有するサンプル特許ドキュメントの第４のサブセットを決定する工程と、デバイスに、サンプル特許ドキュメントの第４のサブセットのための識別子の表示を優先させる工程と、をさらに含む方法。

５．システムであって、１つまたは複数のプロセッサと、１つまたは複数のプロセッサによって実行されたときに、１つまたは複数のプロセッサに、識別されたテクノロジーに関連付けられた第１のサブカテゴリに関連するドキュメントを識別するように構成された第１の予測モデルを生成する工程と、識別されたテクノロジーに関連付けられた第２のサブカテゴリに関連するドキュメントを識別するように構成された第２の予測モデルを生成する工程と、第１の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第１のサブセットを識別する第１のデータを生成する工程と、第２の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントを識別する第２のデータの第２のサブセットを生成する工程と、第１のサブセットおよび第２のサブセット内にあるサンプルドキュメントの第３のサブセットを示す第３のデータを生成する工程と、を含む動作を実行させるコンピュータ実行可能命令を格納する非一時的コンピュータ可読媒体と、を含むシステム。

６．条項５に記載のシステムであって、動作は、識別されたテクノロジーに関連付けられた第３のサブカテゴリに関連するドキュメントを識別するように構成された第３の予測モデルを生成する工程と、第３の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第４のサブセットを識別する第４のデータを生成する工程と、をさらに含み、第３のサブセットは、第１のサブセット、第２のサブセット、および第４のサブセット内にあるサンプルドキュメントを含むシステム。

７．条項５および／または６に記載のシステムであって、動作は、第１の予測モデルに適用するための第１の信頼度閾値を決定する工程と、第２の予測モデルに適用するための第２の信頼度閾値を決定する工程と、をさらに含み、第１の信頼度閾値は、第２の信頼度閾値とは異なり、第１のデータを生成する工程は、第１の信頼度閾値に少なくとも部分的に基づいており、第２のデータを生成する工程は、第２の信頼度閾値に少なくとも部分的に基づいているシステム。

８．条項５、６および／または７のいずれかに記載のシステムであって、動作は、サンプルドキュメントの個々について、サンプルドキュメントの個々のクレームに関するクレームスコアを決定する工程と、第３のサブセット内にあり閾値クレームスコアを満たすクレームスコアを有するサンプルドキュメントの第４のサブセットを決定する工程と、をさらに含むシステム。

９．条項５、６、７および／または８のいずれかに記載のシステムであって、第１の予測モデルは、クラス内として所与の特許ドキュメントを予測するための第１の信頼度を示す第１の信頼度閾値に関連付けられ、動作は、第１の信頼度閾値を利用して第１の予測モデルによってクラス内として予測されるドキュメントからキーワードを表示するように構成されたユーザインターフェースを生成する工程と、第１の予測モデルに適用するための第２の信頼度閾値を示すユーザ入力データを受信する工程であって、ユーザ入力データは、ユーザインターフェースを介して表示されるようなキーワードに応答する、工程と、第１の信頼度閾値の代わりに第２の信頼度閾値を第１の予測モデルに適用する工程と、をさらに含むシステム。

１０．条項５、６、７、８、および／または９のいずれかに記載のシステムであって、動作は、座標系内の第３のサブセットに関連付けられたドキュメントを表現する第１のベクトルを生成する工程と、第１のベクトルに関連付けられた座標系の領域を決定する工程と、領域内にある座標系内の第２のベクトルによって表現される追加のドキュメントを識別する工程と、をさらに含むシステム。

１１．条項５、６、７、８、９、および／または１０のいずれかに記載のシステムであって、動作は、識別されたテクノロジーに関連付けられた第３のサブカテゴリに関連するドキュメントを識別するように構成された第３の予測モデルを生成する工程と、第３の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第４のサブセットを識別する第４のデータを生成する工程と、をさらに含み、第３のサブセットは、第１のサブセットおよび第２のサブセット、第２のサブセットおよび第４のサブセット、または第１のサブセットおよび第４のサブセットのうちの少なくとも１つにあるサンプルドキュメントを含むシステム。

１２．条項５、６、７、８、９、１０、および／または１１のいずれかに記載のシステムであって、動作は、第１の予測モデルおよび第２の予測モデルを含む予測モデルのモデル階層を格納する工程であって、モデル階層は予測モデル間の関係を示す、工程と、識別されたテクノロジーに関するドキュメントのクラス内予測が第１の予測モデルおよび第２の予測モデルを利用して実行されるインジケータを生成する工程と、モデル階層から利用するためのモデルについての検索クエリを受信する工程と、検索クエリが識別されたテクノロジーに対応することを決定する工程と、第１の予測モデルおよび第２の予測モデルの代わりにインジケータを表す検索クエリに応答データを提供する工程と、をさらに含むシステム。

１３．方法であって、識別されたテクノロジーに関連付けられた第１のサブカテゴリに関連するドキュメントを識別するように構成された第１の予測モデルを生成する工程と、識別されたテクノロジーに関連付けられた第２のサブカテゴリに関連するドキュメントを識別するように構成された第２の予測モデルを生成する工程と、第１の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第１のサブセットを識別する第１のデータを生成する工程と、第２の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントを識別する第２のデータの第２のサブセットを生成する工程と、第１のサブセットおよび第２のサブセット内にあるサンプルドキュメントの第３のサブセットを示す第３のデータを生成する工程と、を含む方法。

１４．条項１３に記載の方法であって、識別されたテクノロジーに関連付けられた第３のサブカテゴリに関連するドキュメントを識別するように構成された第３の予測モデルを生成する工程と、第３の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第４のサブセットを識別する第４のデータを生成する工程と、をさらに含み、第３のサブセットは、第１のサブセット、第２のサブセット、および第４のサブセット内にあるサンプルドキュメントを含む方法。

１５．条項１３および／または１４に記載の方法であって、第１の予測モデルに適用するための第１の信頼度閾値を決定する工程と、第２の予測モデルに適用するための第２の信頼度閾値を決定する工程と、をさらに含み、第１の信頼度閾値は、第２の信頼度閾値とは異なり、第１のデータを生成する工程は、第１の信頼度閾値に少なくとも部分的に基づいており、第２のデータを生成する工程は、第２の信頼度閾値に少なくとも部分的に基づいている方法。

１６．条項１３、１４および／または１５のいずれかに記載の方法であって、サンプルドキュメントの個々について、サンプルドキュメントの個々のクレームに関するクレームスコアを決定する工程と、第３のサブセット内にあり閾値クレームスコアを満たすクレームスコアを有するサンプルドキュメントの第４のサブセットを決定する工程と、をさらに含む方法。

１７．条項１３、１４、１５および／または１６のいずれかに記載の方法であって、第１の予測モデルは、クラス内として所与の特許ドキュメントを予測するための第１の信頼度を示す第１の信頼度閾値に関連付けられ、方法は、第１の信頼度閾値を利用して第１の予測モデルによってクラス内として予測されるドキュメントからキーワードを表示するように構成されたユーザインターフェースを生成する工程と、第１の予測モデルに適用するための第２の信頼度閾値を示すユーザ入力データを受信する工程であって、ユーザ入力データは、ユーザインターフェースを介して表示されるようなキーワードに応答する、工程と、第１の信頼度閾値の代わりに第２の信頼度閾値を第１の予測モデルに適用する工程と、をさらに含む。

１８．条項１３、１４、１５、１６、および／または１７に記載の方法であって、座標系内の第３のサブセットに関連付けられたドキュメントを表現する第１のベクトルを生成する工程と、第１のベクトルに関連付けられた座標系の領域を決定する工程と、領域内にある座標系内の第２のベクトルによって表現される追加のドキュメントを識別する工程と、をさらに含む方法。

１９．条項１３、１４、１５、１６、１７、および／または１８のいずれかに記載の方法であって、識別されたテクノロジーに関連付けられた第３のサブカテゴリに関連するドキュメントを識別するように構成された第３の予測モデルを生成する工程と、第３の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第４のサブセットを識別する第４のデータを生成する工程と、をさらに含み、第３のサブセットは、第１のサブセットおよび第２のサブセット、第２のサブセットおよび第４のサブセット、または第１のサブセットおよび第４のサブセットのうちの少なくとも１つにあるサンプルドキュメントを含む方法。

２０．条項１３、１４、１５、１６、１７、１８、および／または１９のいずれかに記載の方法であって、第１の予測モデルおよび第２の予測モデルを含む予測モデルのモデル階層を格納する工程であって、モデル階層は予測モデル間の関係を示す、工程と、識別されたテクノロジーに関するドキュメントのクラス内予測が第１の予測モデルおよび第２の予測モデルを利用して実行されるインジケータを生成する工程と、モデル階層から利用するためのモデルについての検索クエリを受信する工程と、検索クエリが識別されたテクノロジーに対応することを決定する工程と、第１の予測モデルおよび第２の予測モデルの代わりにインジケータを表す検索クエリに応答データを提供する工程と、をさらに含む方法。

前述の発明は、特定の実施例に関して説明されるが、本発明の範囲は、これらの特定の実施例に限定されないことを理解されたい。特定の動作要件および環境に適合するように変更された他の修正および変更は、当業者には明らかであるため、本発明は、開示の目的のために選択された例に限定されるものではなく、本発明の真の精神および範囲からの逸脱を構成しないすべての変更および修正を対象とする。

本出願は、特定の構造的特徴および／または方法論的行為を有する実施形態を記載するが、特許請求の範囲は、必ずしも記載された特定の特徴または行為に限定されるものではないことを理解されたい。むしろ、特定の特徴および行為は、特許請求の範囲の範囲内に入るいくつかの実施形態を例示するだけである。

Claims

ユーザクエリを表現する第１のデータを受信して、識別されたテクノロジーに関連付けられた特許ドキュメントを識別する工程と、
前記識別されたテクノロジーに関連付けられた第１のサブカテゴリを識別する工程と、
前記第１のサブカテゴリに関連する前記特許ドキュメントを識別するように構成された第１の予測モデルを生成する工程と、
前記識別されたテクノロジーに関連付けられた第２のサブカテゴリを識別する工程と、
前記第２のサブカテゴリに関連する前記特許ドキュメントを識別するように構成された第２の予測モデルを生成する工程と、
前記第１の予測モデルに対する第１の入力として、サンプル特許ドキュメントを表現する第２のデータを提供する工程と、
前記第１の予測モデルからの第１の出力として、前記第１の予測モデルによってクラス内にあると決定された前記サンプル特許ドキュメントの第１のサブセットを識別する第３のデータを生成する工程と、
前記第２の予測モデルに対する第２の入力として、前記サンプル特許ドキュメントを表現する前記第２のデータを提供する工程と、
前記第２の予測モデルからの第２の出力として、前記第２の予測モデルによってクラス内にあると決定された前記サンプル特許ドキュメントの第２のサブセットを識別する第４のデータを生成する工程と、
前記第１のサブセットおよび前記第２のサブセット内にある前記サンプル特許ドキュメントの第３のサブセットを決定する工程と、
前記ユーザクエリに関連付けられたデバイスに、前記識別されたテクノロジーに関連するような前記サンプル特許ドキュメントの前記第３のサブセットの少なくとも識別子を表示させる工程と、
を含むことを特徴とする方法。
前記識別されたテクノロジーに関連付けられた第３のサブカテゴリを識別する工程と、前記第３のサブカテゴリに関連する前記特許ドキュメントを識別するように構成された第３の予測モデルを生成する工程と、
前記第３の予測モデルからの出力として、前記第３の予測モデルによってクラス内にあると決定された前記サンプル特許ドキュメントの第４のサブセットを識別する第５のデータを生成する工程と、
をさらに含み、
前記第３のサブセットは、
前記第１のサブセット、前記第２のサブセット、および前記第４のサブセット内にあるか、または
前記第１のサブセット、前記第２のサブセット、および前記第４のサブセットのうちの少なくとも２つ内にある
前記サンプル特許ドキュメントを含むことを特徴とする請求項１に記載の方法。
前記第１の予測モデルに適用するための第１の信頼度閾値を決定する工程であって、前記第１の信頼度閾値は、クラス内として所与の特許ドキュメントを予測するための第１の信頼度を示す工程と、
前記第２の予測モデルに適用するための第２の信頼度閾値を決定する工程であって、前記第２の信頼度閾値はクラス内として前記所与の特許ドキュメントを予測するための第２の信頼度を示し、前記第１の信頼度閾値は前記第２の信頼度閾値とは異なる工程と、
をさらに含み、
前記第３のデータを生成する工程は、前記第１の信頼度閾値に少なくとも部分的に基づいており、
前記第４のデータを生成する工程は、前記第２の信頼度閾値に少なくとも部分的に基づいていることを特徴とする請求項１に記載の方法。
前記第３のサブセット内の前記サンプル特許ドキュメントの個々のクレームのクレーム幅を示すクレーム幅値を決定する工程と、
前記第３のサブセット内にあり、閾値クレーム幅値を満たすクレーム幅値を有する前記サンプル特許ドキュメントの第４のサブセットを決定する工程と、
前記デバイスに、前記サンプル特許ドキュメントの前記第４のサブセットのための識別子の表示を優先させる工程と、
をさらに含むことを特徴とする請求項１に記載の方法。
１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサによって実行されたときに、前記１つまたは複数のプロセッサに、
識別されたテクノロジーに関連付けられた第１のサブカテゴリに関連するドキュメントを識別するように構成された第１の予測モデルを生成する工程と、
前記識別されたテクノロジーに関連付けられた第２のサブカテゴリに関連する前記ドキュメントを識別するように構成された第２の予測モデルを生成する工程と、
前記第１の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第１のサブセットを識別する第１のデータを生成する工程と、
前記第２の予測モデルを利用して、クラス内にあると決定された前記サンプルドキュメントの第２のサブセットを識別する第２のデータを生成する工程と、
前記第１のサブセットおよび前記第２のサブセット内にある前記サンプルドキュメントの第３のサブセットを示す第３のデータを生成する工程と、
を含む動作を実行させるコンピュータ実行可能命令を格納する非一時的コンピュータ可読媒体と、
を含むことを特徴とするシステム。
前記動作は、
前記識別されたテクノロジーに関連付けられた第３のサブカテゴリに関連する前記ドキュメントを識別するように構成された第３の予測モデルを生成する工程と、
前記第３の予測モデルを利用して、クラス内にあると決定された前記サンプルドキュメントの第４のサブセットを識別する第４のデータを生成する工程と、
をさらに含み、
前記第３のサブセットは、前記第１のサブセット、前記第２のサブセット、および前記第４のサブセット内にある前記サンプルドキュメントを含むことを特徴とする請求項５に記載のシステム。
前記動作は、
前記第１の予測モデルに適用するための第１の信頼度閾値を決定する工程と、
前記第２の予測モデルに適用するための第２の信頼度閾値を決定する工程であって、前記第１の信頼度閾値は前記第２の信頼度閾値とは異なる工程と、
をさらに含み、
前記第１のデータを生成する工程は、前記第１の信頼度閾値に少なくとも部分的に基づいており、
前記第２のデータを生成する工程は、前記第２の信頼度閾値に少なくとも部分的に基づいていることを特徴とする請求項５に記載のシステム。
前記動作は、
前記サンプルドキュメントの個々について、前記サンプルドキュメントの個々のクレームに関するクレームスコアを決定する工程と、
前記第３のサブセット内にあり閾値クレームスコアを満たすクレームスコアを有する前記サンプルドキュメントの第４のサブセットを決定する工程と、
をさらに含むことを特徴とする請求項５に記載のシステム。
前記第１の予測モデルは、クラス内として所与の特許ドキュメントを予測するための第１の信頼度を示す第１の信頼度閾値に関連付けられ、前記動作は、
前記第１の信頼度閾値を利用して前記第１の予測モデルによってクラス内として予測されるドキュメントからキーワードを表示するように構成されたユーザインターフェースを生成する工程と、
前記第１の予測モデルに適用するための第２の信頼度閾値を示すユーザ入力データを受信する工程であって、前記ユーザ入力データは前記ユーザインターフェースを介して表示されるような前記キーワードに応答する、工程と、
前記第１の信頼度閾値の代わりに前記第２の信頼度閾値を前記第１の予測モデルに適用する工程と、
をさらに含むことを特徴とする請求項５に記載のシステム。
前記動作は、
座標系内の前記第３のサブセットに関連付けられた前記ドキュメントを表現する第１のベクトルを生成する工程と、
前記第１のベクトルに関連付けられた前記座標系の領域を決定する工程と、
前記領域内にある前記座標系内の第２のベクトルによって表現される追加のドキュメントを識別する工程と、
をさらに含むことを特徴とする請求項５に記載のシステム。
前記動作は、
前記識別されたテクノロジーに関連付けられた第３のサブカテゴリに関連する前記ドキュメントを識別するように構成された第３の予測モデルを生成する工程と、
前記第３の予測モデルを利用して、クラス内にあると決定された前記サンプルドキュメントの第４のサブセットを識別する第４のデータを生成する工程と、
をさらに含み、
前記第３のサブセットは、
前記第１のサブセットおよび前記第２のサブセット、
前記第２のサブセットおよび前記第４のサブセット、または
前記第１のサブセットおよび前記第４のサブセット、
のうちの少なくとも１つ内にある前記サンプルドキュメントを含むことを特徴とする請求項５に記載のシステム。
前記動作は、
前記第１の予測モデルおよび前記第２の予測モデルを含む予測モデルのモデル階層を格納する工程であって、前記モデル階層は前記予測モデル間の関係を示す、工程と、
前記識別されたテクノロジーに関するドキュメントのクラス内予測が前記第１の予測モデルおよび前記第２の予測モデルを利用して実行されるインジケータを生成する工程と、
前記モデル階層から利用するためのモデルについての検索クエリを受信する工程と、
前記検索クエリが前記識別されたテクノロジーに対応することを決定する工程と、
前記第１の予測モデルおよび前記第２の予測モデルの代わりに前記インジケータを表す前記検索クエリに応答データを提供する工程と、
をさらに含むことを特徴とする請求項５に記載のシステム。
識別されたテクノロジーに関連付けられた第１のサブカテゴリに関連するドキュメントを識別するように構成された第１の予測モデルを生成する工程と、
前記識別されたテクノロジーに関連付けられた第２のサブカテゴリに関連する前記ドキュメントを識別するように構成された第２の予測モデルを生成する工程と、
前記第１の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第１のサブセットを識別する第１のデータを生成する工程と、
前記第２の予測モデルを利用して、クラス内にあると決定された前記サンプルドキュメントの第２のサブセットを識別する第２のデータを生成する工程と、
前記第１のサブセットおよび前記第２のサブセット内にある前記サンプルドキュメントの第３のサブセットを示す第３のデータを生成する工程と、
を含むことを特徴とする方法。
前記識別されたテクノロジーに関連付けられた第３のサブカテゴリに関連する前記ドキュメントを識別するように構成された第３の予測モデルを生成する工程と、
前記第３の予測モデルを利用して、クラス内にあると決定された前記サンプルドキュメントの第４のサブセットを識別する第４のデータを生成する工程と、
をさらに含み、
前記第３のサブセットは、前記第１のサブセット、前記第２のサブセット、および前記第４のサブセット内にある前記サンプルドキュメントを含むことを特徴とする請求項１３に記載の方法。
前記第１の予測モデルに適用するための第１の信頼度閾値を決定する工程と、
前記第２の予測モデルに適用するための第２の信頼度閾値を決定する工程であって、前記第１の信頼度閾値は前記第２の信頼度閾値とは異なる工程と、
をさらに含み、
前記第１のデータを生成する工程は、前記第１の信頼度閾値に少なくとも部分的に基づいており、
前記第２のデータを生成する工程は、前記第２の信頼度閾値に少なくとも部分的に基づいていることを特徴とする請求項１３に記載の方法。