[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2024505909A - モデルインターセクションを使用したドキュメント分析 - Google Patents

モデルインターセクションを使用したドキュメント分析 Download PDF

Info

Publication number
JP2024505909A
JP2024505909A JP2023545904A JP2023545904A JP2024505909A JP 2024505909 A JP2024505909 A JP 2024505909A JP 2023545904 A JP2023545904 A JP 2023545904A JP 2023545904 A JP2023545904 A JP 2023545904A JP 2024505909 A JP2024505909 A JP 2024505909A
Authority
JP
Japan
Prior art keywords
documents
subset
class
document
predictive model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023545904A
Other languages
English (en)
Inventor
イー.ブラッドレイ ザ サード ジョン
Original Assignee
エーオン リスク サービシズ インコーポレイテッド オブ メリーランド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エーオン リスク サービシズ インコーポレイテッド オブ メリーランド filed Critical エーオン リスク サービシズ インコーポレイテッド オブ メリーランド
Publication of JP2024505909A publication Critical patent/JP2024505909A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

モデルインターセクションを使用したドキュメント分析のためのシステムおよび方法が開示される。予測モデルは、所与のドキュメントが所与のモデルに関してクラス内にあるかどうかを予測するために構築および訓練される。各予測モデルは、識別されたテクノロジーのサブカテゴリに関連付けられていてもよい。複数の予測モデルによってクラス内にあるように決定されたドキュメントは、識別されサブセットにグループ化されてもよい。ドキュメントのこれらのサブセットは、問題のテクノロジーに関連しているとして識別されてもよい。

Description

関連出願に対する相互参照
本願は、2021年2月3日に出願された「モデルインターセクションを使用したドキュメント分析」と題された米国特許出願第17/166,199号の優先権を主張し、その内容全体が参照により本明細書に組み込まれる。
他の情報と関連付けて、ドキュメントのような情報の類似性、相違点、および分類を決定することは、価値があり得る。しかしながら、ドキュメント分析の属性を定量化することは、特に大規模なコーパスのドキュメントにおいては困難である。本明細書では、とりわけ、モデリング技術を利用してドキュメントを分析するために使用され得るテクノロジー上の改善および技術的問題に対する解決策が記載されている。
詳細な説明は、添付の図面を参照して以下に記載される。図面において、参照番号の左端の数字(複数可)は、その参照番号が最初に出現する図面を識別する。異なる図面における同じ参照番号の使用は、類似または同一のアイテムを示す。添付の図面に示されるシステムは、縮尺比に従って拡大縮小されず、図面内のコンポーネントは、互いに縮尺比に従って拡大縮小されないように示されてもよい。
モデルインターセクションを使用したドキュメント分析のための例示的な環境の概略図である。 ドキュメント表現(document representations)およびモデル表現(model representations)の概念図である。 異なる信頼度値閾値を有するモデル表現の概念図である。 モデルインターセクションによるドキュメント分析のために利用され、クレーム幅(claim breadth)スコアリングを利用するコンポーネントの概念図である。 ドキュメント分析のための訓練モデル(training models)に利用されるユーザインターフェースおよびコンポーネントの概念図である。 訓練されたモデルに関連付けられたキーワードを示すユーザインターフェースの概念図である。 モデル分類法(taxonomy)の概念図である。 モデルインターセクションを使用したドキュメント分析のために利用される例示的なプロセスのフロー図である。 モデルインターセクションを使用したドキュメント分析のために利用される別の例示的なプロセスのフロー図である。
モデルインターセクションを利用するドキュメント分析のためのシステムおよび方法が開示される。例えば、ドキュメントのセット内のどのドキュメントが所与の目的のためのクラス内(in class)にあるか、およびドキュメントのセット内のどのドキュメントがその所与の目的のためのクラス外(out of class)にあるかを判断するためにプラットフォームを利用することが有益であると思われるエンティティを例にとる。例えば、エンティティは、どの特許および/または特許出願が、特許性判定、侵害判定、資産取得目的、研究開発目的、保険目的などに最も関連しているかを知りたい場合がある。一般に、ユーザは、キーワード検索を利用して、そのようなドキュメントのデータベースを検索してもよい。これらの結果におけるドキュメントを過度に制限しない合理的な数の結果を収集するために、ユーザは、幅広いキーワード検索を使用し、次いで各ドキュメントを見直して、各ドキュメントがクラス内またはクラス外にあると考えられるべきであるかどうかを決定してもよい。しかしながら、特許や特許出願を例にとってみると、米国で出願された特許および特許出願だけを見ても、ドキュメントの潜在的なコーパスは、数万以上ではないにしても数千に容易に達する。これに照らして、ドキュメントを取り込み、分類モデル(classification models)を訓練するための限界ユーザ入力を受信し、次いでそれらの分類モデルを使用して、ドキュメントのセット内のどのドキュメントがクラス内にあるかを決定するように構成されるドキュメント分析プラットフォームは、有益であろう。
しかしながら、特定の識別されたテクノロジー(certain identified technologies)は、所与のテクノロジー(a given technology)のサブカテゴリ内で異なる主題を有し得る。これらの例では、所与のサブカテゴリに関連付けられた陽性(positive)の訓練データが別のサブカテゴリに陰性(negative)の影響をもたらす可能性があるため、分類モデルの訓練は困難であり得る。これらの例では、モデル訓練は不正確であり得、無関係なドキュメントがモデル結果に含まれる、および/または関連するドキュメントがモデル結果から除外される分析につながり得る。これらの陰性の結果を制限するのを助けるために、本明細書に開示されるのは、ドキュメント分析を改善するためにモデルインターセクションを利用するためのシステムおよびプロセスである。例えば、検索クエリ(search query)は、その検索クエリに関連するドキュメントのセットを識別するために、受信され得る。検索クエリは、検索クエリに関連するものを定義する1つまたは複数のキーワードおよび/またはフレーズを含み得る。
本明細書に記載されるドキュメント分析プラットフォームを利用して、検索クエリに対応するキーワードを有するドキュメントのセットが識別されてもよい。その後、所与のドキュメントがクラス内にあるかクラス外にあるかを示すユーザ入力を利用して、1つまたは複数のドキュメント分類モデルが構築および/または訓練されてもよい。以下により詳細に説明されるように、ユーザは、ユーザインターフェースを利用して、所与のドキュメントの全部または一部を表示し、ユーザインターフェース上の要素を選択して、クラス内またはクラス外として所与のドキュメントを識別してもよい。閾値数のドキュメントがユーザによってクラス内またはクラス外としてマークされると、1つまたは複数の分類モデルは、クラス内としてマークされるドキュメントの陽性の訓練データセットに基づいて訓練されてもよく、いくつかの例では、クラス外としてマークされるドキュメントの陰性の訓練データセットに基づいて訓練されてもよい。その後、訓練された分類モデルは、どちらとも決まらない(in the balance of)ドキュメントのセット内のどのドキュメントがクラス内にあるかまたはクラス外にあるかを予測するために利用され得る。しかしながら、上述されるように、特定のテクノロジーについては、これらの訓練された分類モデルの結果は正確ではない可能性があり、誤って無関係なドキュメントを含み、および/または関連ドキュメントを除外する可能性がある。
これらのシナリオでは、ドキュメント分類を予測するために単一のモデルを訓練する代わりに、識別されたテクノロジーは、2つ以上のサブカテゴリによって表されてもよい。サブカテゴリは、識別されたテクノロジーの一部を表してもよい。この方法論を利用して、第1の分類モデルは、識別されたテクノロジーの第1のサブカテゴリについての陽性および/または陰性の訓練データセットを利用して訓練されてもよく、第2の分類モデルは、識別されたテクノロジーの第2のサブカテゴリについての陽性および/または陰性の訓練データセットを利用して訓練されてもよい。また、識別されたテクノロジーの追加のサブカテゴリの追加のモデルも、訓練されてもよい。
その後、分類モデルの各々は、モデルの各々についてクラス内にあるドキュメントのサブセットを決定するために利用されてもよい。例えば、3つのサブカテゴリを持つ識別されたテクノロジーに関して、それらのドキュメントのどれがクラス内にあるかを決定するために分析される10,000個のドキュメントのサンプルドキュメントセットを例にとる。第1のサブカテゴリのための第1の分類モデルは、第1のサブカテゴリに関してクラス内にある10,000個のドキュメントのうちの500個を識別してもよく、第2のサブカテゴリのための第2の分類モデルは、第2のサブカテゴリに関してクラス内にある10,000個のドキュメントのうちの750個を識別してもよく、第3のサブカテゴリのための第3の分類モデルは、第3のサブカテゴリに関してクラス内にある10,000個のドキュメントのうちの400個を識別してもよい。
本明細書に記載されるモデルインターセクション技術を利用して、クラス内として識別されるドキュメントの異なるグループが、結果として生成されてもよい。例えば、第1のグループは、分類モデルのうちの少なくとも1つによってクラス内として識別される任意のドキュメントを含んでもよい。第2のグループは、分類モデルのうちの少なくとも2つによってクラス内として識別される任意のドキュメントを含んでもよい。第3のグループは、分類モデルの各々によってクラス内として識別される任意のドキュメントを含んでもよい。上記の例から理解されるように、第1のグループに関して、クラス内ドキュメントの数は第2のグループよりも多くなり、第2のグループにおけるクラス内ドキュメントの数は第3のグループよりも多くなる。このようにして、分類モデルの各々によってクラス内にあると示されたドキュメントの第3のグループは、識別されたテクノロジーの各サブカテゴリに関連するドキュメントのサンプルグループ内のそれらのドキュメントを表す。また、モデル結果のインターセクションに関して、ドキュメントの他のグループも含まれることを理解されたい。これらのモデルインターセクション分析の結果は、検索クエリに関連付けられたコンピューティングデバイスに提供されてもよい。例えば、グループの一部またはすべてのクラス内ドキュメントは、コンピューティングデバイスのユーザに表示されてもよく、および/またはドキュメントおよび/またはグループの識別は、提供されてもよい。
いくつかの例では、ユーザインターフェースは、本明細書に記載されるモデルインターセクションの表現を表示するために利用されてもよい。例として、モデルインターセクションの表現は、クラス内またはクラス外としてそれらのモデルによって予測されるようなモデルの識別子およびドキュメントの識別子を含む図を含んでいてもよい。例えば、モデルの識別子は、クラス内として予測するようにモデルが訓練されたものの境界を示す円または他の形状を含んでいてもよい。ドキュメントの識別子は、1つまたは複数のモデル識別子内に配置された点または他の表現を含んでいてもよい。ドキュメント識別子の位置は、分類モデルに関連付けられたサブカテゴリ(単数)および/またはサブカテゴリ(複数)へのドキュメントの関連性を表し得る。
所与のドキュメントがクラス内にあるかクラス外にあるかの決定は、所与の分類モデルによるクラス内にあるようにそのドキュメントの予測に関連付けられた信頼度スコアに少なくとも部分的に基づいてもよい。例えば、信頼度スコアの閾値は0.90などに設定されてもよく、少なくとも0.90の信頼度でクラス内として予測されるドキュメントはクラス内とみなされ、一方、分析されたドキュメントの残りはクラス外とみなされる。ある特定の例では、識別されたテクノロジーのサブカテゴリに関連付けられた分類モデルのすべては、同じ信頼度スコア閾値を有していてもよい。これらの例では、ユーザインターフェース上に表示されるモデルの識別子は、サイズが等しくてもよい。しかしながら、他の例では、信頼度スコア閾値は互いに異なっていてもよい。例えば、第1のサブカテゴリに対応する分類モデルは、0.90の閾値信頼度スコアを有していてもよく、第2のサブカテゴリに対応するモデルは、0.80の閾値信頼度スコアを有していてもよく、第3のサブカテゴリに対応するモデルは、0.97の閾値信頼度スコアを有していてもよい。これらの例では、信頼度スコア閾値は動的であってもよく、いくつのドキュメントが本明細書に記載されるモデルインターセクショングループによってクラス内にあると決定されるかを変更してもよい。このようにして、ユーザおよび/または本明細書に記載されるシステムは、モデルに関連付けられた信頼度スコア閾値を変更することによって、結果として生じるクラス内ドキュメントの数を増加または減少させてもよい。
上記に加えて、本明細書に記載されるユーザインターフェースは、陽性の訓練データセットおよび/または陰性の訓練データセットのための訓練された分類モデルに最も関連することが示されるキーワードを提示するために利用されてもよい。そうすることによって、ユーザは、キーワードを視覚化し、キーワードのグループが包括的すぎる(例えば、関連性のないキーワードを含む)か、または排他的すぎる(例えば、関連性のあるキーワードを含まない)かを決定してもよい。この機能性を利用して、モデルの追加の訓練が実行されてもよく、および/またはモデルの信頼度スコア閾値が変更されてもよい。
1つまたは複数の目的のためのドキュメントの関連性を決定するためにモデルインターセクションを利用することに加えて、所与のドキュメントが関連性があると決定されるべきか、および/またはハイライトされるべきかどうかを決定するために追加の要因が適用されてもよい。例として、適用される1つの要因は、特に、問題のドキュメントが特許および/または特許出願を表す場合に、クレーム幅スコアであってもよい。本明細書により完全に説明されるように、ドキュメントのクレームセクションは、クレームの幅を決定するために分析されてもよく、広いクレームを有するドキュメントは、より好ましいスコアを受け取り、狭いクレームを有するドキュメントは、より好ましくないスコアを受け取る。クレームの幅以外の追加の要因は、分析され、同様に、ドキュメントをスコアリングするために適用されてもよい。これらの例では、本明細書に記載されるモデルインターセクション分析は、本明細書に記載されるドキュメントのグループを識別するために利用されてもよい。その後、結果として生じるドキュメントは、それらのドキュメントのうちのどれが所与の検索クエリに応答するものとして識別されるべきであるか、および/またはそれらのドキュメントのうちのどれがハイライトされまたは別の方法で強調されるべきであるかを決定するために、1つまたは複数の追加の要因について分析されてもよい。
追加的に、または代替的に、本明細書に記載されるドキュメント分析プラットフォームは、訓練および/または利用された分類モデルのモデル分類法を含んでいてもよい。このモデル分類法は、モデル間の関係を示し、および/またはモデルによる検索機能性(search-by-model functionality)を提供するために利用され得る。本明細書に記載されるモデルインターセクション分析のインジケータは、モデル分類法に含まれてもよく、後続のモデル分析のために利用されてもよい。これらのインジケータは、モデル分類法のノード間の視覚的インジケータを含んでいてもよく、各ノードは、分類モデルを表す。ノード間のラインまたは別のコネクタは、どのモデルが問題のテクノロジーに関するドキュメントグループを開発するために利用されたかを示すために提供されてもよい。
ドキュメント分析プラットフォームは、本明細書に記載されるように、1つまたは複数の他のシステムおよび/またはデバイスに接続されてもよいシステムによって、ホストされてもよくまたは別の方法で利用されてもよい。例えば、システムは、ネットワークを介して、ドキュメントを表すデータを格納するドキュメントデータベースを含む第三者システムからドキュメントを受信するように構成されてもよい。プラットフォームはまた、ネットワークを介して、1つまたは複数のクライアントデバイスからドキュメントを表すデータを受信するように構成されてもよく、これは、インターネットにアクセスし、情報を表示し、ユーザ入力を受信するように構成されたコンピューティングデバイスであってもよい。クライアントデバイスは、本明細書に記載される1つまたは複数のユーザインターフェースを含んでもよく、および/またはクライアントデバイスのメモリ上に存在するアプリケーションを介して、および/またはインターネットブラウザを介してなど、ドキュメント分析プラットフォームに関連付けられたシステムによって提供されるように、クライアントデバイスのプロセッサにユーザインターフェースを表示するように指示するように構成されたアプリケーションを含んでもよい。クライアントデバイスは、ユーザインターフェースからのユーザ入力のような、ユーザ入力を受信してもよく、そのユーザ入力に対応するユーザ入力データをドキュメント分析プラットフォームに関連付けられたシステムに提供してもよい。システムは、本明細書に記載される様々な動作のためにそのユーザ入力データを利用してもよい。本明細書に記載されるように、モデル構築コンポーネントおよびモデルライブラリコンポーネントは、システムのメモリに格納されてもよく、例えば、分類モデルを訓練し、ドキュメント分類を予測し、モデルを検索するために利用されてもよい。
本明細書に記載されるように、ドキュメント分析プラットフォームは、所与のドキュメントの分類に関連付けられたユーザ入力データを受信するように構成されてもよい。このユーザ入力データを利用して分類モデルを訓練するために、ドキュメント分析プラットフォームは、1つまたは複数の操作を実行してもよい。いくつかの例では、プラットフォームは、ユーザによってクラス内とマークされたドキュメントに関連付けられたクラス内キーワードを示す陽性の訓練データセットを生成してもよい。例えば、プラットフォームは、そのドキュメントの主題を表す所与のドキュメントに関連付けられた1つまたは複数のキーワードを決定してもよい。これは、例えば、用語頻度逆数ドキュメント頻度技術(term frequency inverse document frequency techniques)のような1つまたは複数のドキュメント処理技術を利用して実行されてもよい。プラットフォームはまた、ユーザ入力によってクラス外とマークされたドキュメントからのキーワードを示す陰性の訓練データセットを生成してもよい。これらの訓練データセットの各々は、次いで、分類モデルが、所与のドキュメントがクラス外キーワードよりもクラス内キーワードにより類似したキーワードを有するかどうかを決定するように構成されるように、分類モデルを訓練するために利用されてもよい。他の例では、キーワードに基づいて訓練データセットを生成する代わりに、またはそれに加えて、プラットフォームは、所与のドキュメントのためのベクトルを決定してもよい。ベクトルは、座標系に関連付けられてもよく、ベクトルの形態でドキュメントの主題を表してもよい。ベクトルは、クラス内にラベル付けされたドキュメントおよびクラス外にラベル付けされたドキュメントに対して生成されてもよい。分類モデルは、所与のドキュメントのベクトル表現が、座標系においてクラス外ベクトルよりもクラス内ベクトルに近いかどうかを決定するように訓練されてもよい。ドキュメントを表すベクトルを生成するための技術は、Doc2Vecのようなベクトル化技術、または他の同様の技術を含んでいてもよい。
追加的に、または代替的に、ドキュメント表現は、ドキュメントのテキストコンテンツに少なくとも部分的に基づいて、ドキュメントを取り出し、それをベクトル形式に浮動小数点数(floating point numbers)のリストとして変換する方法を含んでいてもよい。このベクトル形式は、埋め込み(embedding)と呼ばれてもよい。この埋め込みは、ドキュメント間の、距離、したがって類似性を計算するために使用されてもよい。これらの埋め込みは、上述のキーワードおよび/またはベクトルに加えて、またはそれらの置き換えとして、分類モデルと関連付けられて使用され得る。埋め込みは、セットを有するドキュメントのテーマ別グループ(thematic groups)を作成するために利用されてもよい。ドキュメントのセットは、あるキーワード、CPC、所有者(複数可)などであり得、結果は、同様のテーマを共有するドキュメントグループ(例えば、クラスタ)の視覚的な表示であってもよい。クラスタリングプロセスには、どのドキュメントがどのクラスタにグループ化されるかについて何らかの人間の制御を可能にし得る、ある程度の監視があってもよい。
さらなる例では、分類モデルは、転移学習を利用してもよい。これらの例では、汎用モデル(general-purpose model)は生成および/または受信されてもよく、各特定の分類モデルは、汎用モデルを出発点として使用してもよい。分類モデルをゼロから訓練する必要があるのではなく、モデルは、モデル化されている特定のシナリオに関して、そのモデルがまだ訓練されていないものに対して、汎用モデルから微調整され得る。これらの転移学習技術は、とりわけ、ULMFit、BERT、ELMo、およびT5のユーザを含んでいてもよい。
上述の分類モデルを訓練するための技術に加えて、分類モデルはまた、ドキュメントの分類に少なくとも部分的に基づいて訓練および/または編成されてもよい。例えば、ドキュメントが特許および特許出願である場合、所与のドキュメントの主題を分類するための所定の分類システムが確立されてもよい。分類システムは、プラットフォームによって、1つまたは複数のユーザによって、および/または第三者によって決定されてもよい。例えば、特許および特許出願は、協同特許分類(CPC)システムのような事前定義された分類システムに関連付けられてもよい。CPCシステムは、本明細書でより詳細に説明されるように、異なる主題に対応するCPCコードを採用する。所与のドキュメントに対するCPCコードは識別されてもよく、それらのコードに関連付けられたカテゴリは決定されてもよい。ユーザインターフェースは、ユーザに提示されてもよく、決定されたカテゴリを提示し、ユーザが所与の目的のためにクラス内と見出したカテゴリを選択することを可能にする。選択されたカテゴリは、分類モデルを訓練するための特徴として利用されてもよい。追加的または代替的に、プラットフォームは、クラス内としてマークされたドキュメントのCPCコードを決定してもよく、分類を決定するために分析されるドキュメントに関連付けられたCPCコードとそれらのCPCコードを比較するように分類モデルを訓練してもよい。
本開示は、本明細書に開示されるシステムおよび方法の構造、機能、製造、および使用の原理の全体的な理解を提供する。本開示の1つまたは複数の例は、添付の図面に示される。当業者は、本明細書に具体的に記載され、添付の図面に例示されるシステムおよび方法が非限定的な実施形態であることを理解するであろう。1つの実施形態に関連して図示または説明される特徴は、システムと方法との間のものとして含む、他の実施形態の特徴と組み合わされてもよい。そのような修正および変形は、添付の特許請求の範囲内に含まれることが意図される。
追加の詳細は、いくつかの例示的な実施形態を参照して以下に記載される。
図1は、ドキュメント分析アーキテクチャのための例示的なアーキテクチャ100の概略図を示す。アーキテクチャ100は、例えば、電子デバイス102としても本明細書に記載される1つまたは複数のクライアント側デバイス102、ドキュメント分析プラットフォームに関連付けられたドキュメント分析システム104、および/または1つまたは複数のドキュメントデータベース136に関連付けられたドキュメントデータベースシステム106を含んでいてもよい。デバイスおよびシステムの一部またはすべては、ネットワーク108を介して互いに通信するように構成されていてもよい。
電子デバイス102は、例えば、1つまたは複数のプロセッサ110、1つまたは複数のネットワークインターフェース112、および/またはメモリ114のようなコンポーネントを含んでいてもよい。メモリ114は、例えば、1つまたは複数のユーザインターフェース116および/または1つまたは複数のドキュメントデータベース118のようなコンポーネントを含んでいてもよい。図1に示されるように、電子デバイス102は、例えば、コンピューティングデバイス、携帯電話、タブレット、ラップトップ、および/または1つまたは複数のサーバを含んでいてもよい。電子デバイス102のコンポーネントは、例として以下に記載される。本明細書で提供される例は例示的なものであり、電子デバイス102のコンポーネントの排他的な例と見なされるべきではないことを理解されたい。
例として、ユーザインターフェース(複数可)116は、モデルビルダユーザインターフェースに対応するユーザインターフェース、ドキュメント要約ユーザインターフェース、完全ドキュメントユーザインターフェース、ドキュメント投票のために利用されるユーザインターフェース、信頼度値ユーザインターフェース、キーワードユーザインターフェース、検索クエリユーザインターフェース、モデル分類法ユーザインターフェースのような、本明細書の他の場所に記載されるユーザインターフェースのうちの1つまたは複数を含んでいてもよい。ユーザインターフェース116は、クライアント側デバイス102のメモリ114のコンポーネントとして描写されているが、ユーザインターフェース116は、追加的または代替的に、ドキュメント分析システム104に関連付けられていてもよいことを理解されたい。ユーザインターフェース116は、ドキュメント分析プラットフォームに関連付けられた情報を表示し、ドキュメント分析プラットフォームに関連付けられたユーザ入力を受信するように構成されていてもよい。クライアント側デバイス102のドキュメントデータベース118、および/またはドキュメントデータベースシステム106のドキュメントデータベース136は、ユーザがドキュメント分析プラットフォームを使用して分析されることを望み得るドキュメントに対応するデータを含んでいてもよい。これらのドキュメントは、例えば、特許および特許出願を含んでもよく、および/またはドキュメントは、非特許ドキュメントを含んでもよい。ドキュメントは、ドキュメントデータベースシステム106のドキュメントデータベース136に関して記憶されてもよく、および/またはドキュメントは、クライアント側デバイス102のドキュメントデータベース118に関して記憶されてもよい。
ドキュメント分析システム104は、例えば、1つまたは複数のプロセッサ120、1つまたは複数のネットワークインターフェース122、および/またはメモリ124のような1つまたは複数のコンポーネントを含んでいてもよい。メモリ124は、例えば、モデルビルダコンポーネント126、モデル分類法コンポーネント128、インターセクションコンポーネント130、信頼度コンポーネント132、および/またはクレーム幅コンポーネント134のような1つまたは複数のコンポーネントを含んでいてもよい。モデルビルダコンポーネント126は、クラス内またはクラス外のドキュメントにラベル付けするために本明細書に記載されるようにユーザ入力データを受信するように構成されてもよい。モデルビルダコンポーネント126はまた、問題のドキュメントセットに関連付けられた他のデータと同様に、ユーザ入力データを利用して、所与のドキュメントの分類を決定するための分類モデルを訓練するように構成されてもよい。モデルビルダコンポーネント126はまた、訓練された分類モデルを利用して、ドキュメント分類を予測し、分類モデルの使用の結果を表示するように構成されてもよい。モデル分類法コンポーネント128は、訓練された分類モデルを含むモデル分類法を生成および利用するように構成されてもよい。モデル分類法コンポーネント128はまた、分類モデルの使用のためのユーザクエリを表すユーザ入力データを受信し、検索クエリに関連付けられた1つまたは複数のモデルを示す検索クエリに検索結果を表示するように構成されてもよい。クライアント側デバイス102および/またはドキュメント分析システム104の追加のコンポーネントは、例として以下に記載される。
例えば、本明細書に記載されるドキュメント分析プラットフォームを利用して、検索クエリに対応するキーワードを有するドキュメントのセットは、識別されてもよい。これらのドキュメントは、ドキュメントデータベース136、118から識別されてもよい。その後、1つまたは複数のドキュメント分類モデルは、所与のドキュメントがクラス内にあるかクラス外にあるかを示すユーザ入力を利用するモデルビルダコンポーネント126を利用して、構築および/または訓練されてもよい。ユーザは、ユーザインターフェースを利用して、所与のドキュメントの全部または一部を閲覧(view)し、ユーザインターフェース116上の要素を選択して、所与のドキュメントをクラス内またはクラス外として識別してもよい。閾値数のドキュメントがユーザによってクラス内またはクラス外としてマークされると、1つまたは複数の分類モデルは、クラス内としてマークされるドキュメントの陽性の訓練データセットに基づいて、およびいくつかの例では、クラス外としてマークされるドキュメントの陰性の訓練データセットに基づいて、訓練されてもよい。その後、訓練された分類モデルは、どちらとも決まらないドキュメントのセット内のどのドキュメントがクラス内にあるかまたはクラス外にあるかを予測するために利用されてもよい。しかしながら、上述されるように、特定のテクノロジーについては、これらの訓練された分類モデルの結果は正確ではない可能性があり、誤って無関係なドキュメントを含み、および/または関連ドキュメントを除外する可能性がある。
これらのシナリオでは、ドキュメント分類を予測するために単一のモデルを訓練する代わりに、識別されたテクノロジーは、2つ以上のサブカテゴリによって表されてもよい。インターセクションコンポーネント130は、サブカテゴリを識別するように、および/またはサブカテゴリを示すユーザ入力を受信するように構成されてもよい。サブカテゴリは、識別されたテクノロジーの一部を表してもよい。この方法論を利用して、第1の分類モデルは、識別されたテクノロジーの第1のサブカテゴリについての陽性および/または陰性の訓練データセットを利用して訓練されてもよく、第2の分類モデルは、識別されたテクノロジーの第2のサブカテゴリについての陽性および/または陰性の訓練データセットを利用して訓練されてもよい。また、識別されたテクノロジーの追加のサブカテゴリの追加のモデルも、訓練されてもよい。その後、分類モデルの各々は、インターセクションコンポーネント130によって、モデルの各々についてクラス内にあるドキュメントのサブセットを決定するために利用されてもよい。例えば、3つのサブカテゴリを持つ識別されたテクノロジーに関して、それらのドキュメントのどれがクラス内にあるかを決定するために分析される10,000個のドキュメントのサンプルドキュメントセットを例にとる。第1のサブカテゴリのための第1の分類モデルは、第1のサブカテゴリに関してクラス内にある10,000個のドキュメントのうちの500個を識別してもよく、第2のサブカテゴリのための第2の分類モデルは、第2のサブカテゴリに関してクラス内にある10,000個のドキュメントのうちの750個を識別してもよく、第3のサブカテゴリのための第3の分類モデルは、第3のサブカテゴリに関してクラス内にある10,000個のドキュメントのうちの400個を識別してもよい。
モデルインターセクションコンポーネント130を利用して、クラス内として識別されたドキュメントの異なるグループは、結果として生成されてもよい。例えば、第1のグループは、分類モデルの少なくとも1つによってクラス内として識別される任意のドキュメントを含んでいてもよい。第2のグループは、分類モデルのうちの少なくとも2つによってクラス内として識別される任意のドキュメントを含んでいてもよい。第3のグループは、分類モデルの各々によってクラス内として識別される任意のドキュメントを含んでいてもよい。上記の例から理解されるように、第1のグループに関して、クラス内ドキュメントの数は第2のグループよりも多くなり、第2のグループにおけるクラス内ドキュメントの数は第3のグループよりも多くなる。このようにして、分類モデルの各々によってクラス内にあると示されたドキュメントの第3のグループは、識別されたテクノロジーの各サブカテゴリに関連するドキュメントのサンプルグループ内のそれらのドキュメントを表す。これらのモデルインターセクション分析の結果は、検索クエリに関連付けられたクライアント側デバイス102のようなコンピューティングデバイスに提供されてもよい。例えば、グループの一部またはすべてのクラス内ドキュメントは、コンピューティングデバイスのユーザに表示されてもよく、および/またはドキュメントおよび/またはグループの識別は、提供されてもよい。
いくつかの例では、ユーザインターフェースは、本明細書に記載されるモデルインターセクションの表現を表示するために利用されてもよい。例として、モデルインターセクションの表現は、クラス内またはクラス外としてそれらのモデルによって予測されるようなモデルの識別子およびドキュメントの識別子を含む図を含んでもよい。例えば、モデルの識別子は、クラス内として予測するようにモデルが訓練されたものの境界を示す円または他の形状を含んでいてもよい。ドキュメントの識別子は、1つまたは複数のモデル識別子内に配置された点または他の表現を含んでいてもよい。ドキュメント識別子の位置は、分類モデルに関連付けられたサブカテゴリ(単数)および/またはサブカテゴリ(複数)へのドキュメントの関連性を表してもよい。
所与のドキュメントがクラス内にあるかクラス外にあるかの決定は、所与の分類モデルによるクラス内にあるようにそのドキュメントの予測に関連付けられた信頼度スコアに少なくとも部分的に基づいてもよい。例えば、信頼度スコアの閾値は、信頼度コンポーネント132を利用して、0.90などに設定されてもよく、少なくとも0.90の信頼度でクラス内として予測されるドキュメントはクラス内とみなされ、一方、分析されたドキュメントの残りはクラス外とみなされる。ある特定の例では、識別されたテクノロジーのサブカテゴリに関連付けられた分類モデルのすべては、同じ信頼度スコア閾値を有していてもよい。これらの例では、ユーザインターフェース上に表示されるモデルの識別子は、サイズが等しくてもよい。しかしながら、他の例では、信頼度スコア閾値は互いに異なっていてもよい。例えば、第1のサブカテゴリに対応する分類モデルは、0.90の閾値信頼度スコアを有していてもよく、第2のサブカテゴリに対応するモデルは、0.80の閾値信頼度スコアを有していてもよく、第3のサブカテゴリに対応するモデルは、0.97の閾値信頼度スコアを有していてもよい。これらの例では、信頼度スコア閾値は動的であってもよく、いくつのドキュメントが本明細書に記載されるモデルインターセクショングループによってクラス内にあると決定されるかを変更してもよい。このようにして、ユーザおよび/または本明細書に記載されるシステムは、モデルに関連付けられた信頼度コンポーネント132を利用して信頼度スコア閾値を変更することによって、結果として生じるクラス内ドキュメントの数を増加または減少させてもよい。
上記に加えて、本明細書に記載されるユーザインターフェース116は、陽性の訓練データセットおよび/または陰性の訓練データセットのための訓練された分類モデルに最も関連することが示されるキーワードを提示するために利用されてもよい。そうすることによって、ユーザは、キーワードを視覚化し、キーワードのグループが包括的すぎる(例えば、関連性のないキーワードを含む)か、または排他的すぎる(例えば、関連性のあるキーワードを含まない)かを決定してもよい。この機能性を利用して、モデルの追加の訓練が実行されてもよく、および/またはモデルの信頼度スコア閾値が変更されてもよい。
1つまたは複数の目的のためのドキュメントの関連性を決定するためにモデルインターセクションを利用することに加えて、所与のドキュメントが関連性があると決定されるべきか、および/またはハイライトされるべきかどうかを決定するために、追加の要因が適用されてもよい。例として、適用される1つの要因は、特に、問題のドキュメントが特許および/または特許出願を表す場合に、クレーム幅スコアであってもよい。これらの例では、クレーム幅コンポーネント134は、ドキュメントのクレームセクションを分析してクレームの幅を決定するように構成されてもよく、広いクレームを有するドキュメントは、より有利なスコアを受信し、狭いクレームを有するドキュメントは、より不利なスコアを受信する。クレームの幅以外の追加の要因は、分析され、その上(as well)、ドキュメントをスコアリングするために適用されてもよい。これらの例では、本明細書に記載されるモデルインターセクション分析は、本明細書に記載されるドキュメントのグループを識別するために利用されてもよい。その後、結果として生じるドキュメントは、それらのドキュメントのうちのどれが所与の検索クエリに応答するものとして識別されるべきであるか、および/またはそれらのドキュメントのうちのどれがハイライトされまたは別の方法で強調されるべきであるかを決定するために、1つまたは複数の追加の要因について分析されてもよい。
クレーム幅コンポーネント134は、クレーム幅スコアを決定するために本明細書に記載されるプロセスを利用してもよい。例えば、いくつかの例では、ドキュメントは、ドキュメントの各々について1つまたは複数の処理されたドキュメント部分を生成するために前処理される。例えば、処理されたドキュメントは、前処理後のドキュメントを参照してもよい。いくつかの例では、前処理自体は、ドキュメントを2つ以上の処理されたドキュメント部分に分割してもよい。例えば、特許クレーム(patent claims)を含むテキストを分析するとき、ドキュメントは、ピリオドの後で数字の前の場所でドキュメント部分(例えば、個々の特許クレーム)に分割されてもよい。いくつかの例では、ドキュメントの各部分は、ソースドキュメントの一意のドキュメント識別番号に関連付けられる。例えば、特許からの各特許クレームは、特許番号に関連付けられる。処理されたドキュメント部分は、ソースドキュメントからのテキストの一部を含む。特定の前処理技術は、テキストを構文解析(parsing)してワード(words)を分離すること、ストップワード(stop words)を削除すること、重複ワード(duplicate words)を削除すること、および句読点を削除することを含んでいてもよい。いくつかの例では、ストップワードの一部またはすべては、ドキュメントのドキュメント分類に特有であってもよい。例えば、すべてのドキュメントが同じ特許分類に関連付けられており、その分類のための特定のストップワードがある場合、それらの特定のストップワードは、一般的なストップワードの代わりに、または一般的なストップワードに加えて使用されてもよい。いくつかの例では、前処理は、略語および/または頭字語を対応する完全なワードに置き換えるような追加の前処理技術を含んでいてもよい。
その後、ドキュメント部分(例えば、処理済みまたは未処理のドキュメント部分)の各々についてワードカウント(word count)が生成される。例えば、各ドキュメント部分についてのワードカウントは、それぞれのドキュメント部分におけるいくつかの(a number of)別個のワードをカウントすることによって生成されてもよい。いくつかの例では、これは、ストップワードおよび重複ワードがカウントから省略されるように、前処理の後に実行されてもよい。重複ワードを削除した後に実行されるワードカウントは、ユニークワード(unique words)のワードカウントと称される。いくつかの例では、各ドキュメント部分(例えば、特許クレームが含む)について生成されるワードカウントは、整数(例えば、1、2、3など)である)。
次いで、参照ワードカウント(referential word count)が識別される。いくつかの例では、参照ワードカウントは数であるが、必ずしも整数ではない。参照ワードカウントは、分析中の個々のドキュメント部分のワードカウントに由来する特徴に基づいてもよい。例えば、参照ワードカウントは、すべての分析されたドキュメント部分のうち最大のワードカウントを有するドキュメント部分のワードカウントであってもよい。別の例では、参照ワードカウントは、すべての分析されたドキュメント部分の中で最短の(shortest)ワードカウントを有するドキュメント部分のワードカウントであってもよい。
いくつかの例では、他の特性もまた、分析されたドキュメント部分の平均または中央値のワードカウントのような参照ワードカウントを生成するために使用されてもよい。例えば、分析されたドキュメント部分が特許クレームである場合、参照ワードカウントは、最長の特許クレームのワードカウント、最短の特許クレームのワードカウント、すべての分析された特許クレームの平均ワードカウント、すべての分析された特許クレームの中央値ワードカウント、またはいくつかの他のメトリックであってもよい。いくつかの例では、参照ワードカウントは、同じコーパスにおいて一緒に分析されたすべてのドキュメント部分について同じである。しかしながら、いくつかの例では、分析されたドキュメントの各コーパスの異なる特性のために、参照ワードカウントは、異なる分析において異なることとなる。
さらに、ワードカウント比は、ドキュメント部分について計算される。例えば、ワードカウント比は、参照ワードカウントをそれぞれのドキュメント部分についてのワードカウントによって割ることによって、各ドキュメント部分について計算されてもよい。したがって、いくつかの例では、各分析されたドキュメント部分は、ワードカウント比に関連付けられることとなる。いくつかの例では、分子は、所与のコーパスにおいて各ドキュメント部分について同じであるが、分母は、そのドキュメント部分の個々のワードカウントに応じて異なる。例えば、所与のドキュメント部分についてのワードカウントが25であり、参照ワードカウントが72である場合(例えば、すべての分析されたドキュメント部分の最長ワードカウント)、その特定のドキュメント部分についてのワードカウント比は72/25または2.88である。
次いで、個々のワードについてワード頻度(word frequency)が決定される。例えば、コーパスに基づくワード頻度は、ドキュメント部分のいずれかに含まれる各ワードについて決定されてもよい。いくつかの例では、ワード頻度は、ワードに固有であって、ワードが見出されるドキュメント部分に固有ではない。ワードの頻度は、特定のワードが、分析されたドキュメント部分のすべてを通してどの程度一般的(common)であるかの尺度として考えられてもよい。いくつかの例では、ワード頻度は、分析されたドキュメント部分のすべてにおいてワードが何回現れるかをカウントすることによって決定される。したがって、ワード頻度は、重複ワードの削除前に、分析中のコンテンツのセット全体にわたってワードが見つかったインスタンスの数を表す。例えば、分析されているドキュメントのコーパスに1000件の特許が含まれており、それらの特許の各々が平均で20個の特許クレームを有する場合、分析中のドキュメント部分は20,000個になる。「マシン」のような所与のワードが20,000個のドキュメント部分すべてを通して現れる回数は、そのワードの頻度である。したがって、特定のコーパスにおいて一般的であるワードはより高いワード頻度値を有することとなり、特定のコーパスにおいて一般的でないワードはより低いワード頻度値を有することとなる。したがって、この時点で、各ドキュメント部分は、ワードカウントに関連付けられ、各ワード(各ドキュメント部分におけるワードを必然的に含む)は、ワード頻度に関連付けられる。
その後、ドキュメント部分について共通性スコア(commonness score)が生成される。例えば、各ドキュメント部分は、それ自身の共通性スコアに関連付けられてもよい。共通性スコアは、特定のドキュメント部分における個々のワードが、分析中のドキュメント部分のコーパス全体を通して見出される頻度に基づいている。したがって、ドキュメント部分についての共通性スコアは、そのドキュメント部分におけるワードのワード頻度に基づいている。いくつかの例では、処理されたドキュメント部分についての共通性スコアは、その処理されたドキュメント部分における別個のワード(separate words)のそれぞれについてのワード頻度の逆数の二乗の合計の平方根に基づいている。例えば、それぞれがwfからwfによって表される関連するワード頻度を有するワード1からnを有するドキュメント部分についての共通性スコア(cs)は、以下の式によって計算されてもよい。
この計算により、より一般的なワードを有するドキュメント部分は、より低い共通性スコアを受け取り、より非一般的なワードを有するドキュメント部分は、より高い共通性スコアを受け取る。このようにして、共通性スコアは、より一般的なワードを有する特許クレームは、より一般的でないワードを有するクレームよりも広い傾向があるという根底にある仮定または前提を表す。これは、必ずしも常に当てはまるとは限らないが、自動ドキュメント分析のための有用な一般化である。
次いで、参照(reference)共通性スコアが識別される。いくつかの例では、参照共通性スコアは、分析を受けている処理されたドキュメント部分のすべてのうちの最高共通性スコアとして識別される。ドキュメント部分のそれぞれについての共通性スコアは、計算され、並べ替えられてもよく、次いで、それらのうちの最高のものが最高共通性スコアとして格納される。これは、そのドキュメント部分に含まれるワードの頻度および数に基づいて、「最も一般的(most common)」であるドキュメント部分のスコアを表す。したがって、他のすべてのドキュメント部分は、最高共通性スコアよりも低い共通性スコアを有することとなる。
次いで、システムは、処理されたドキュメント部分の共通性スコア比を計算する。例えば、共通性スコア比は、参照共通性スコア(例えば、最高共通性スコア)を処理されたドキュメント部分の個々についての共通性スコアで除算することによって計算されてもよい。いくつかの例では、最高共通性スコア(「最も非一般的な(most uncommon)」ワード)を有するドキュメント部分は、1の共通性スコア比を有する(すなわち、それは、それ自身の共通性スコア値によって除算される)。加えて、最高共通性スコアの半分(より少ない「非一般的な」ワードおよびより多くの「一般的な」ワード)を有するドキュメント部分は、2の共通性スコア比を有する。ドキュメント部分のワードのセットがより「一般的」になるにつれて、共通性スコア比は増大する。したがって、より高い共通性スコア比は、処理されたドキュメント部分における、より「一般的」または頻繁なワードを示す。特許クレームの文脈では、共通性比(commonness ratio)は、固有のワード(unique words)の数が少ないクレームは、より多くの固有のワードのあるクレームよりも広い傾向があり、したがって、共通性スコア比は、クレーム内のワードがより一般的になるにつれて増大するという根底にある仮定または前提を表す。
次いで、ドキュメント部分の幅スコア(breadth scores)は、ワードカウント比および共通性スコア比を使用して計算される。例えば、幅スコアは、処理されたドキュメント部分の個々について、ワードカウント比(wcr)の平方と共通性スコア比(csr)の平方との和の平方根を取ることによって計算されてもよい。いくつかの例では、ワードカウント比および共通性スコアの相対的な重み(relative weight)は、正規化されてもよい。正規化のための1つの技術は、ワードカウント比および共通性スコア比の両方について、それぞれの最高値を100に設定することである。例えば、最高ワードカウント比がh-wcrの場合、コーパスについてのwcrの全ては、100/h-wcrが乗算されることとなる。同様に、いくつかの例では、最高共通性スコア比(h-csr)を使用して、共通性スコア比について正規化が実行されてもよい。もちろん、100以外の正規化値、例えば1000、500、50、10等が使用されてもよい。両方とも数値であるが、幅スコアに対する相対的な効果は、それぞれの数値に直接対応しない場合がある。例えば、10のワードカウント比は、10の共通性スコア比よりも最終的な(ultimate)幅に多かれ少なかれ影響を与え得る。しかしながら、正規化なしでは、両方とも幅スコアに等しく寄与する。したがって、ワードカウント比は、第1の正規化値K(例えば、100/h-wcr)によって重み付けされてもよく、共通性スコア比は、第2の正規化値L(例えば、100/ h-csr)によって重み付けされてもよい。方程式に書かれている場合:
したがって、各ドキュメント部分は、それ自身の幅スコアを割り当てられてもよい。幅スコアは、ワードカウントおよびワード共通性の尺度に基づいているため、ドキュメント部分の幅を測定すると考えられ得る。幅スコアを決定するためのこの技術はまた、ワードカウント比および共通性比の背後にある基礎となる仮定または前提のそれぞれを緩和(moderates)する。例えば、特許クレームが比較的短いが、非常に非一般的な用語を使用している場合、特許実務家(patent practitioner)は、クレーム内の制限的な文言のために、やはりクレームは狭いと見なすかもしれない。これらの2つの基礎となる仮定に基づいて幅スコアを定義することによって、オントロジーが十分に発達しているクラス内で限定的または特徴的であると見なされる用語を使用する場合、より短いクレームでさえもそれほど広くランク付けされない可能性がある。
さらに、ドキュメントについての全体的な幅スコアが計算されてもよい。例えば、全体的な幅スコアは、それぞれのドキュメントからのドキュメント部分についての幅スコアを使用して、分析されている各ドキュメントについて計算されてもよい。いくつかの例では、ドキュメントについての全体的な幅スコアを計算することは、ドキュメント内の1つまたは複数のドキュメント部分の幅スコア(複数可)の平均を取ることを含み得る。いくつかの例では、ドキュメントについての全体的な幅スコアを計算することは、1つまたは複数のドキュメント部分の幅スコア(複数可)の最高、最低、範囲、代表値(average)、中央値、平均値(mean)などを取得し、複合スコアを生成するか、またはそれらを個別に保存することを含み得る。追加的に、いくつかの例では、ドキュメントについてのドキュメント部分のうちの1つまたは複数についての幅スコアのうちの1つまたは複数は、1つまたは複数の他のドキュメント部分についての1つまたは複数の他の幅スコアよりも重みが与えられてもよい。例えば、ドキュメントが特許である場合、特許内の従属クレーム(複数可)の幅スコア(複数可)よりも全体的な幅スコアを決定するときに、特許の独立クレーム(複数可)(例えば、最も広い独立クレーム)の幅スコア(複数可)は、より重みが与えられてもよい。
いくつかの例では、ドキュメントが特許および/または公開出願を含む場合、1つまたは複数の規則が、特許および/または公開出願の全体的な幅スコアを計算するために利用されてもよい。例えば、ドキュメントが特許を含む場合、規則は、上記の技術(例えば、代表値、中央値など)を使用して特許についての全体的な幅スコアを計算するために、最も広い独立クレームおよび最も広い独立クレームに従属する任意の従属クレームに関連付けられた幅スコアのみが利用されることを特定してもよい。例えば、ドキュメントが特許を含む場合、規則は、上記の技術(例えば、代表値、中央値など)を使用して特許についての全体的な幅スコアを計算するために、独立クレームに関連付けられた幅スコアのみが利用されることを特定してもよい。
いくつかの例では、ドキュメントについての比較幅スコアは、全体的な幅スコアに少なくとも部分的に基づいて計算される。例えば、比較幅スコアは、ドキュメントの全体的な幅スコアに基づいて分析されている各ドキュメントについて計算されてもよい。例えば、全体的な幅スコアが単一のドキュメント部分(例えば、最も広いまたは最も狭い)のスコアに基づいている場合、計算は、そのスコアを、分析内にある他のドキュメントの対応する単一のドキュメント部分のスコアと比較する。全体的な幅スコアが、複数のドキュメント部分のスコア(例えば、代表値として表される、最も広い、代表値、および範囲スコアの重み付けされたまたは重み付けされていない複合、または最も広い、代表値、および範囲のような個々のコンポーネントスコアのような)に基づいている場合、計算は、そのスコア(単数)またはスコア(複数)を、分析内の他のドキュメントの対応する複数のドキュメント部分のスコア(単数)またはスコア(複数)と比較する。いくつかの例では、ドキュメントの比較幅スコアは、ドキュメントの全体的な幅スコアに等しいか、またはそれ未満である全体的な幅スコアを含むドキュメントの割合(percentage)に対応する。いくつかの例では、ドキュメントについての比較幅スコアは、ドキュメントの全体的な幅スコアよりも小さい全体的な幅スコアを含むドキュメントの割合に対応する。いくつかの例では、ドキュメントについての比較幅スコアは、ドキュメントの全体的な幅スコアに等しいか、またはそれを超える全体的な幅スコアを含むドキュメントの割合に対応する。さらに、いくつかの例では、ドキュメントについての比較幅スコアは、ドキュメントの全体的な幅スコアよりも大きい全体的な幅スコアを含むドキュメントの割合に対応する。
全体的な幅スコアが複数のドキュメント部分のスコアに基づいており、ドキュメント部分の最も広い、代表値、および範囲に関連付けられたスコアのような個々のコンポーネントスコアとして維持される場合、計算は、それらのスコアのそれぞれを、分析内の他のドキュメントの複数のドキュメント部分の対応するスコアと比較してもよい。例えば、ドキュメントが特許であり、部分がクレームである文脈では、計算は、特許における最も広いクレームの幅スコアを、景観(landscape)内のすべての特許における最も広いクレームの幅スコアと比較して、最も広いクレームによる特許のランク順序を提供してもよい。計算はさらに、特許におけるクレームの代表値幅を景観内の特許の各々におけるクレームの代表値幅と比較し、代表値クレーム幅による特許のランク順序を提供してもよい。計算は、特許におけるクレームの幅の範囲を、景観内の特許の各々におけるクレームの幅の範囲とさらに比較し、クレーム幅の範囲による特許のランク順序を提供してもよい。次いで、計算は、最終的な幅スコアを決定するために、各コンポーネントスコアのランク順序を均等に重み付けしてもよい。そのようなアプローチは、比較的広いクレームが潜在的に侵害する製品を包含する可能性がより高いという仮定に基づいており、比較的高い代表値クレーム幅は、一連の独立および従属クレームにわたる可能性を反映し、比較的高い範囲の幅は、少なくともいくつかのクレームが、有効性を主張する潜在的な課題の生存率(viability)を低下させる制限を包含する可能性がより高いという仮定に基づいている。
モデル分類法コンポーネント128は、訓練および/または利用された分類モデルのモデル分類法を生成するように構成されてもよい。このモデル分類法は、モデル間の関係を示し、および/またはモデルによる検索機能性を提供するために利用されてもよい。本明細書に記載されるモデルインターセクション分析のインジケータは、モデル分類法に含まれてもよく、後続のモデル分析のために利用されてもよい。これらのインジケータは、モデル分類法のノード間のインジケータを含んでいてもよく、各ノードは、分類モデルを表す。ノード間のラインまたは別のコネクタは、どのモデルが問題のテクノロジーに関するドキュメントグループを開発するために利用されたかを示すために提供されてもよい。
本明細書に記載されるように、ドキュメント分析プラットフォームは、クライアント側デバイス102のような1つまたは複数の他のシステムおよび/またはデバイスに接続されてもよいドキュメント分析システム104によってホストされまたは利用されてもよい。クライアントデバイス102は、本明細書に記載される1つまたは複数のユーザインターフェース116を含んでもよく、および/またはクライアントデバイス102のメモリ114上に存在するアプリケーションを介して、および/またはインターネットブラウザを介してのように、ドキュメント分析プラットフォームに関連付けられたシステム104によって提供されるように、クライアントデバイス102のプロセッサ110にユーザインターフェース116を表示するように指示するように構成されたアプリケーションを含んでもよい。クライアントデバイス102は、ユーザインターフェース116からのユーザ入力のような、ユーザ入力を受信してもよく、そのユーザ入力に対応するユーザ入力データをドキュメント分析プラットフォームに関連付けられたシステム104に提供してもよい。システム104は、本明細書に記載される様々な動作のためにそのユーザ入力データを利用してもよい。
本明細書に記載されるように、ドキュメント分析プラットフォームは、所与のドキュメントの分類に関連付けられたユーザ入力データを受信するように構成されていてもよい。このユーザ入力データを利用して分類モデルを訓練するために、ドキュメント分析プラットフォームは、1つまたは複数の操作を実行してもよい。いくつかの例では、プラットフォームは、ユーザによってクラス内とマークされたドキュメントに関連付けられたクラス内キーワードを示す陽性の訓練データセットを生成してもよい。例えば、プラットフォームは、そのドキュメントの主題を表す所与のドキュメントに関連付けられた1つまたは複数のキーワードを決定してもよい。これは、例えば、用語頻度逆数ドキュメント頻度技術のような1つまたは複数のドキュメント処理技術を利用して実行されてもよい。プラットフォームはまた、ユーザ入力によってクラス外とマークされたドキュメントからのキーワードを示す陰性の訓練データセットを生成してもよい。これらの訓練データセットの各々は、次いで、分類モデルが、所与のドキュメントがクラス外キーワードよりもクラス内キーワードにより類似したキーワードを有するかどうかを決定するように構成されるように、分類モデルを訓練するために利用されてもよい。他の例では、キーワードに基づいて訓練データセットを生成する代わりに、またはそれに加えて、プラットフォームは、所与のドキュメントのベクトルを決定してもよい。ベクトルは、座標系に関連付けられてもよく、ベクトルの形態でドキュメントの主題を表してもよい。ベクトルは、クラス内にラベル付けされたドキュメントに対しておよびクラス外にラベル付けされたドキュメントに対して生成されてもよい。分類モデルは、所与のドキュメントのベクトル表現が、座標系においてクラス外ベクトルよりもクラス内ベクトルに近いかどうかを決定するように訓練されてもよい。ドキュメントを表すベクトルを生成するための技術は、Doc2Vecのようなベクトル化技術、または他の同様の技術を含んでいてもよい。
追加的に、または代替的に、ドキュメント表現は、ドキュメントのテキストコンテンツに少なくとも部分的に基づいて、ドキュメントを取り出し、それをベクトル形式に浮動小数点数のリストとして変換する方法を含んでいてもよい。このベクトル形式は、埋め込みと呼ばれてもよい。この埋め込みは、ドキュメント間の、距離、したがって類似性を計算するために使用されてもよい。これらの埋め込みは、上述のキーワードおよび/またはベクトルに加えて、またはそれらの置き換えとして、分類モデルと関連付けられて使用され得る。埋め込みは、セットを有するドキュメントのテーマ別グループを作成するために利用されてもよい。ドキュメントのセットは、あるキーワード、CPC、所有者(複数可)などであり得、結果は、同様のテーマを共有するドキュメントグループ(例えば、クラスタ)の視覚的な表示であってもよい。クラスタリングプロセスには、どのドキュメントがどのクラスタにグループ化されるかについて何らかの人間の制御を可能にし得る、ある程度の監視があってもよい。
さらなる例では、分類モデルは、転移学習を利用してもよい。これらの例では、汎用モデルは生成および/または受信されてもよく、各特定の分類モデルは、汎用モデルを出発点として使用してもよい。分類モデルをゼロから訓練する必要があるのではなく、モデルは、モデル化されている特定のシナリオに関して、そのモデルがまだ訓練されていないものに対して、汎用モデルから微調整され得る。これらの転移学習技術は、とりわけ、ULMFit、BERT、ELMo、およびT5のユーザを含んでいてもよい。
上述の分類モデルを訓練するための技術に加えて、分類モデルはまた、ドキュメントの分類に少なくとも部分的に基づいて訓練および/または編成されてもよい。例えば、ドキュメントが特許および特許出願である場合、所与のドキュメントの主題を分類するための所定の分類システムが確立されてもよい。分類システムは、プラットフォームによって、1つまたは複数のユーザによって、および/または第三者によって決定されてもよい。例えば、特許および特許出願は、CPCシステムのような事前定義された分類システムに関連付けられてもよい。CPCシステムは、本明細書でより詳細に説明されるように、異なる主題に対応するCPCコードを採用する。所与のドキュメントに対するCPCコードは識別されてもよく、それらのコードに関連付けられるようなカテゴリは決定されてもよい。ユーザインターフェースは、ユーザに提示されてもよく、決定されたカテゴリを提示し、ユーザが所与の目的のためにクラス内と見出したカテゴリを選択することを可能にする。選択されたカテゴリは、分類モデルを訓練するための特徴として利用されてもよい。追加的に、または代替的に、プラットフォームは、クラス内としてマークされたドキュメントのCPCコードを決定してもよく、それらのCPCコードを、分類を決定するために分析されるドキュメントに関連付けられたCPCコードと比較するように分類モデルを訓練してもよい。
図1に示されるように、ドキュメント分析システム104および/またはクライアント側デバイス102のいくつかのコンポーネントおよび本明細書に記載されるようなそれらのコンポーネントの関連する機能性は、他のシステムの1つまたは複数によっておよび/またはクライアント側デバイス102によって実行されてもよい。追加的に、または代替的に、クライアント側デバイス102に関連付けられたコンポーネントおよび/または機能性の一部またはすべては、ドキュメント分析システム104によって実行されてもよい。
本明細書に記載されるようなデータおよび/または情報の交換は、ユーザがそのような情報の交換のために同意を提供した状況でのみ実行され得ることに留意されたい。例えば、ユーザは、デバイス間および/またはリモートシステムとの間のデータ交換をオプトインおよび/またはオプトアウトする機会、および/または本明細書に記載される機能性の実行のための機会を提供されてもよい。加えて、デバイスのうちの1つが第1のユーザアカウントに関連付けられ、デバイスのうちの別のものが第2のユーザアカウントに関連付けられている場合、ユーザの同意は、本明細書で説明される動作および/またはプロセスのいくつか、いずれか、またはすべてを実行する前に得られてもよい。
本明細書で使用されるように、プロセッサ(複数可)110および/または120のようなプロセッサは、複数のプロセッサおよび/または複数のコアを有するプロセッサを含んでいてもよい。さらに、プロセッサは、異なるタイプの1つまたは複数のコアを含んでいてもよい。例えば、プロセッサは、アプリケーションプロセッサユニット、グラフィックプロセッサユニット、その他を含んでいてもよい。1つの実装では、プロセッサは、マイクロコントローラおよび/またはマイクロプロセッサを含んでいてもよい。プロセッサ(複数可)110および/または120は、グラフィックスプロセッシングユニット(GPU)、マイクロプロセッサ、デジタル信号プロセッサ、または当技術分野で知られている他の処理ユニットまたはコンポーネントを含んでいてもよい。代替的に、または追加的に、本明細書で説明される機能性は、少なくとも部分的に、1つまたは複数のハードウェアロジックコンポーネントによって実行され得る。例えば、限定されないが、使用することができる例示的なタイプのハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、複雑なプログラマブルロジックデバイス(CPLD)などを含む。加えて、プロセッサ1(複数可)110および/または120の各々は、それ自身のローカルメモリを有していてもよく、これはまた、プログラムコンポーネント、プログラムデータ、および/または1つまたは複数のオペレーティングシステムを格納してもよい。
メモリ114および/または124は、コンピュータ可読命令、データ構造、プログラムコンポーネント、または他のデータのような情報を格納するための任意の方法またはテクノロジーで実装される揮発性および不揮発性メモリ、取り外し可能および取り外し不可能な媒体を含んでいてもよい。そのようなメモリ114および/または124は、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリテクノロジー、CD-ROM、デジタル多用途ディスク(DVD)または他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、RAID記憶装置システム、または所望の情報を記憶するために使用することができ、コンピューティングデバイスによってアクセスすることができる任意の他の媒体を含むが、これらに限定されない。メモリ114および/または124は、コンピュータ可読記憶媒体(「CRSM」)として実装されてもよく、これは、メモリ114および/または124に記憶された命令を実行するためにプロセッサ(複数可)110および/または120によってアクセス可能な任意の利用可能な物理媒体であってもよい。1つの基本的な実装では、CRSMは、ランダムアクセスメモリ(「RAM」)およびフラッシュメモリを含んでいてもよい。他の実装形態では、CRSMは、読み取り専用メモリ(「ROM」)、電気的に消去可能なプログラム可能な読み取り専用メモリ(「EEPROM」)、または所望の情報を記憶するために使用することができ、プロセッサ(複数可)によってアクセスすることができる任意の他の有形媒体を含んでいてもよいが、これらに限定されない。
さらに、機能コンポーネントは、それぞれのメモリに格納されてもよく、または同じ機能性は、代替的に、ハードウェア、ファームウェア、アプリケーション固有の集積回路、フィールドプログラマブルゲートアレイ、またはチップ上のシステム(SoC)として実装されてもよい。さらに、図示されていないが、本明細書で説明されるメモリ114および/または124のような各々のそれぞれのメモリは、ネットワークインターフェース(複数可)、それぞれの装置のI/Oデバイス、その他のようなハードウェアリソースデバイスを管理し、プロセッサ上で実行するアプリケーションまたはコンポーネントに様々なサービスを提供するように構成される少なくとも1つのオペレーティングシステム(OS)コンポーネントを含んでいてもよい。そのようなOSコンポーネントは、FreeBSDプロジェクトによって公布されたFreeBSDオペレーティングシステムのバリアント、他のUNIX(登録商標)またはUNIX(登録商標)のようなバリアント、Linus Torvaldsによって公布されたLinux(登録商標)オペレーティングシステムのバリアント、米国ワシントン州シアトルのAmazon.com Inc.由来のFireOSオペレーティングシステム、米国ワシントン州レドモンドのMicrosoft Corporation由来のWindowsオペレーティングシステム、カリフォルニア州サンノゼのLynx Software Technologies, Inc.によって公布されたLynxOS、スウェーデンのENEA ABによって公布されたオペレーティングシステム埋め込み(Enea OSE)、その他を実装し得る。
ネットワークインターフェース(複数可)112および/または122は、システム100内に示されるコンポーネントおよび/またはデバイス、および/または1つまたは複数の他のリモートシステム、ならびに他のネットワークデバイス間のメッセージを有効にし得る。そのようなネットワークインターフェース(複数可)112および/または122は、ネットワーク108を介してメッセージを送受信するための1つまたは複数のネットワークインタフェースコントローラ(NIC)または他のタイプのトランシーバデバイスを含んでいてもよい。
例えば、ネットワークインターフェース(複数可)112および/または122のそれぞれは、1つまたは複数の短距離無線メッセージチャネルを介してメッセージを有効にするためのパーソナルエリアネットワーク(PAN)コンポーネントを含んでいてもよい。例えば、PANコンポーネントは、次の標準IEEE802.15.4(ZigBee)、IEEE802.15.1(Bluetooth)、IEEE 802.11(WiFi)、または任意の他のPANメッセージプロトコルのうちの少なくとも1つに準拠したメッセージを有効にし得る。さらに、ネットワークインターフェース112および/または122のそれぞれは、ワイドエリアネットワーク(WAN)を介してメッセージを有効にするためのワイドエリアネットワークコンポーネントを含んでいてもよい。
いくつかの例では、ドキュメント分析システム104は、電子デバイス102に関連付けられた環境に対してローカルであってもよい。例えば、ドキュメント分析システム104は、電子デバイス102内に配置されてもよい。いくつかの例では、ドキュメント分析システム104の機能性の一部またはすべては、電子デバイス102によって実行されてもよい。また、ドキュメント分析システム104の様々なコンポーネントが本開示においてラベル付けされ、命名されており、各コンポーネントは、プロセッサ(複数可)に特定の動作を実行させるように構成されていると説明されているが、説明された動作は、該コンポーネントおよび/または具体的には図示されていない他のコンポーネントの一部またはすべてによって実行されてもよいことを理解されたい。
図2は、ドキュメント表現およびモデル表現の概念図200を示す。図200は、例としてベン図として説明されるが、モデルおよびドキュメントの他の表現も本開示に含まれることを理解されたい。図200は、2つ以上のモデル表現202(a)~(c)を含んでいてもよい。モデル表現202(a)~(c)は、識別されたテクノロジーの1つまたは複数のサブカテゴリに関連付けられた訓練された分類モデルを表現してもよい。これらの分類モデルの訓練は、本明細書の他の箇所でより詳細に説明される。
モデル表現202(a)~(c)のそれぞれは、所与のサブカテゴリに関連付けられてもよい。図2に示されるように、モデル表現202(a)はサブカテゴリA 204に関連付けられ、モデル表現202(b)はサブカテゴリB 206に関連付けられ、モデル表現202(c)はサブカテゴリC 208に関連付けられる。これらのサブカテゴリのそれぞれは、識別されたテクノロジーに関連付けられてもよい。図2に示されるように、各モデル表現202(a)~(c)は円として示されるが、モデル表現202(a)~(c)の他の視覚化が本開示に含まれることを理解されたい。また、図2は、3つのモデルが利用される例を示すが、本開示は、モデルインターセクションを決定するための2つ、3つ、またはそれ以上のモデルの使用を含むことも理解されたい。
図200はまた、ドキュメント表現210を含んでいてもよい。これらのドキュメント表現210は、訓練された分類モデルのうちの1つまたは複数が、ドキュメント表現210に対応するドキュメントをクラス内にあると決定したかどうかに基づいて、モデル表現202(a)~(c)に対して配置されてもよい。例として図2を利用して、サブカテゴリA 204に関連付けられた訓練された分類モデルについて、モデルは、サンプルドキュメントセットからの10個のドキュメントが少なくとも閾値信頼度値によってクラス内にあると予測した。サブカテゴリB 206に関連付けられた訓練された分類モデルについて、モデルは、サンプルドキュメントセットからの11個のドキュメントが少なくとも閾値信頼度値によってクラス内にあると予測した。サブカテゴリC 208に関連付けられた訓練された分類モデルについて、モデルは、サンプルドキュメントセットからの11個のドキュメントが少なくとも閾値信頼度値によってクラス内にあると予測した。
本明細書に記載のインターセクションコンポーネントを利用して、訓練された分類モデルのうちの1つ以上についてクラス内にあると予測されるドキュメントが決定され得る。再び、図2を例として利用すると、分類モデルの少なくとも1つによってクラス内にあると予測される任意のドキュメントを含むドキュメントの第1のグループが識別されてもよい。この例では、図2に表される32個すべてのドキュメントは、ドキュメントのこの第1のグループに含まれ得る。分類モデルのうちの少なくとも2つによってクラス内にあると予測される任意のドキュメントを含むドキュメントの第2のグループが識別され得る。ここで、第2のグループは、サブカテゴリA 204およびサブカテゴリB 206によってクラス内として予測されるドキュメント、およびサブカテゴリA 204およびサブカテゴリC 208によってクラス内として予測されるドキュメント、およびサブカテゴリB 206およびサブカテゴリC 208によってクラス内として予測されるドキュメントを含み得る。この第2のグループは、32個のドキュメントのうちの8個を含む。また、分類モデルのうちのすべてによってクラス内にあると予測される任意のドキュメントを含むドキュメントの第3のグループが識別されてもよい。ここで、その第3のグループは、訓練された分類モデルの3つすべてによってクラス内として予測された1つのドキュメントを含んでいてもよい。ドキュメントのこれらの様々なグループは、本明細書に記載されるようなインターセクションコンポーネントによって識別されてもよい。
図3は、異なる信頼度値閾値を有するモデル表現の概念図300を示す。図300は、例としてベン図として説明されるが、モデルおよびドキュメントの他の表現も本開示に含まれることを理解されたい。図300は、2つ以上のモデル表現202(a)~(c)を含んでいてもよい。モデル表現202(a)~(c)は、識別されたテクノロジーの1つまたは複数のサブカテゴリに関連付けられた訓練された分類モデルを表現してもよい。これらの分類モデルの訓練は、本明細書の他の箇所でより詳細に説明される。
モデル表現202(a)~(c)のそれぞれは、所与のサブカテゴリに関連付けられてもよい。図3に示されるように、モデル表現202(a)はサブカテゴリA 204に関連付けられ、モデル表現202(b)はサブカテゴリB 206に関連付けられ、モデル表現202(c)はサブカテゴリC 208に関連付けられる。これらのサブカテゴリのそれぞれは、識別されたテクノロジーに関連付けられてもよい。図2に示されるように、各モデル表現202(a)~(c)は円として示されるが、モデル表現202(a)~(c)の他の視覚化が本開示に含まれることを理解されたい。
図200はまた、ドキュメント表現210を含んでいてもよい。これらのドキュメント表現210は、訓練された分類モデルのうちの1つまたは複数が、ドキュメント表現210に対応するドキュメントをクラス内にあると決定したかどうかに基づいて、モデル表現202(a)~(c)に対して配置されてもよい。例として図3を利用して、サブカテゴリA 204に関連付けられた訓練された分類モデルについて、モデルは、サンプルドキュメントセットからの8個のドキュメントが少なくとも第1の閾値信頼度値によってクラス内にあると予測した。サブカテゴリB 206に関連付けられた訓練された分類モデルについて、モデルは、サンプルドキュメントセットからの11個のドキュメントが少なくとも第2の閾値信頼度値によってクラス内にあると予測した。サブカテゴリC 208に関連付けられた訓練された分類モデルについて、モデルは、サンプルドキュメントセットからの11個のドキュメントが少なくとも第3の閾値信頼度値によってクラス内にあると予測した。
本明細書で説明されるインターセクションコンポーネントを利用して、ドキュメントグループは、図2に関して説明されるように決定されてもよい。さらに、本明細書に記載の信頼度コンポーネントは、訓練された分類モデルのうちの1つまたは複数に関連付けられた信頼度スコア閾値を調整するために利用されてもよい。図3を例として使用すると、サブカテゴリA 204は、サブカテゴリB 206およびサブカテゴリC 208よりも高い信頼度スコア閾値に関連付けられ得る。これは、図300内の他の円よりも小さい半径を有する円によって示される。サブカテゴリB 206は、サブカテゴリA 204およびサブカテゴリC 208よりも低い信頼度スコア閾値を有し得る。これは、図300内の他の円よりも大きな半径を有する円によって示される。サブカテゴリC 208は、サブカテゴリA 204よりも低いが、サブカテゴリB 206よりも高い信頼度スコア閾値を有し得る。これは、サブカテゴリA 204の円よりも大きいが、サブカテゴリC 208の円よりも小さい半径を有する円によって示される。ドキュメント分析プラットフォームのユーザ、および/またはプラットフォーム自体は、信頼度スコア閾値を調整し得、これは、特定のドキュメントが本明細書で説明されるグループに含まれるおよび/またはそれから除外されることを引き起こし得る。モデルの各々の閾値が個別に調整されることを可能にすることによって、所与のサブカテゴリに多かれ少なかれ関連するドキュメントが識別され得る。
図4は、モデルインターセクションによるドキュメント分析のために利用され、クレーム幅スコアリングを利用するコンポーネントの概念図400を示す。図400は、ドキュメントA~Kに対応するドキュメント表現402~422を含む。これらのドキュメントは、本明細書で説明されるドキュメント分析プラットフォームによって分析されるサンプルドキュメントセットを表していてもよい。上記に、より詳細に図示されるように、モデルビルダコンポーネントは、サンプルドキュメントセット内のドキュメントが所与のモデルについてクラス内にあるかどうかを予測するために、分類モデルを構築および/または訓練し得る。
インターセクションコンポーネント130は、分類モデル間のインターセクションの異なるグループのために、どのドキュメントがクラス内として予測されるかを決定するように構成され得る。インターセクションコンポーネント130は、所与のテクノロジーのサブカテゴリを識別するように、および/またはサブカテゴリを示すユーザ入力を受信するように構成されてもよい。サブカテゴリは、識別されたテクノロジーの一部を表してもよい。この方法論を利用して、第1の分類モデルは、識別されたテクノロジーの第1のサブカテゴリについての陽性および/または陰性の訓練データセットを利用して訓練されてもよく、第2の分類モデルは、識別されたテクノロジーの第2のサブカテゴリについての陽性および/または陰性の訓練データセットを利用して訓練されてもよい。また、識別されたテクノロジーの追加のサブカテゴリの追加のモデルも、訓練されてもよい。その後、分類モデルの各々は、インターセクションコンポーネント130によって、モデルの各々についてクラス内にあるドキュメントのサブセットを決定するために利用されてもよい。例えば、3つのサブカテゴリを持つ識別されたテクノロジーに関して、それらのドキュメントのどれがクラス内にあるかを決定するために分析される10,000個のドキュメントのサンプルドキュメントセットを例にとる。第1のサブカテゴリのための第1の分類モデルは、第1のサブカテゴリに関してクラス内にある10,000個のドキュメントのうちの500個を識別してもよく、第2のサブカテゴリのための第2の分類モデルは、第2のサブカテゴリに関してクラス内にある10,000個のドキュメントのうちの750個を識別してもよく、第3のサブカテゴリのための第3の分類モデルは、第3のサブカテゴリに関してクラス内にある10,000個のドキュメントのうちの400個を識別してもよい。
モデルインターセクションコンポーネント130を利用して、クラス内として識別されたドキュメントの異なるグループは、結果として生成されてもよい。例えば、第1のグループは、分類モデルの少なくとも1つによってクラス内として識別される任意のドキュメントを含んでいてもよい。第2のグループは、分類モデルのうちの少なくとも2つによってクラス内として識別される任意のドキュメントを含んでいてもよい。第3のグループは、分類モデルのうちの各々によってクラス内として識別される任意のドキュメントを含んでいてもよい。上記の例から理解されるように、第1のグループに関して、クラス内ドキュメントの数は第2のグループよりも多くなり、第2のグループにおけるクラス内ドキュメントの数は第3のグループよりも多くなる。このようにして、分類モデルの各々によってクラス内にあると示されたドキュメントの第3のグループは、識別されたテクノロジーの各サブカテゴリに関連するドキュメントのサンプルグループ内のそれらのドキュメントを表す。これらのモデルインターセクション分析の結果は、検索クエリに関連付けられたクライアント側デバイス102のようなコンピューティングデバイスに提供されてもよい。例えば、グループの一部またはすべてのクラス内ドキュメントは、コンピューティングデバイスのユーザに表示されてもよく、および/またはドキュメントおよび/またはグループの識別は、提供されてもよい。
図4に示されるように、インターセクションコンポーネント130を利用して実行された動作の結果は、サンプルドキュメント、特にドキュメントC 406、ドキュメントE 410、ドキュメントI 418、ドキュメントJ 420、およびドキュメントK 422のサブセットである。その後、クレーム幅コンポーネント134は、ドキュメントの1つまたは複数の追加の要因を決定し、それらの要因を利用して、サブセット内のドキュメントの一部またはすべてを強調するように構成され得る。例として、適用される1つの要因は、特に、問題のドキュメントが特許および/または特許出願を表す場合に、クレーム幅スコアであってもよい。本明細書に、より完全に説明されるように、ドキュメントのクレームセクションは、クレームの幅を決定するために分析されてもよく、広いクレームを有するドキュメントは、より好ましいスコアを受け取り、狭いクレームを有するドキュメントは、あまり好ましくないスコアを受け取る。クレームの幅以外の追加の要因は、分析され、同様に、ドキュメントをスコアリングするために適用されてもよい。これらの例では、本明細書に記載されるモデルインターセクション分析は、本明細書に記載されるドキュメントのグループを識別するために利用されてもよい。その後、結果として生じるドキュメントは、それらのドキュメントのうちのどれが所与の検索クエリに応答するものとして識別されるべきであるか、および/またはそれらのドキュメントのうちのどれがハイライトされまたは別の方法で強調されるべきであるかを決定するために、1つまたは複数の追加の要因について分析されてもよい。図4に示されるように、このプロセスの例示的な結果は、ドキュメントのサブセットが、ここではドキュメントC 406、ドキュメントI 418、およびドキュメントK 422に、さらにペアリング(paired down)されることである。
図5は、ドキュメント分析のための訓練モデル(training models)のために利用されるユーザインターフェースおよびコンポーネントの概念図を示す。図5は、1つまたは複数のユーザインターフェース上に表示される情報および/または1つまたは複数のユーザインターフェースとの相互作用の左から右へおよび上から下への進行を示す。
例では、完全なドキュメントユーザインターフェースは、ドキュメントタイトル、公開番号、要約、クレーム、およびクラス内およびクラス外にマークされたドキュメントの数、スキップされたドキュメントの数、ラベル付けされたドキュメントの数、およびドキュメントの分析の詳細のようなカテゴリノートなど、ユーザによってレビューされているドキュメントに関する情報を含み得る。ユーザインターフェースは、所与のドキュメントの態様の一部またはすべてに関する追加情報を提供し得る。例えば、要約および/または追加のクレームおよび/またはクレームの言語の追加の部分が表示されてもよい。さらに、カテゴリ進行状況情報および分析の詳細は、カテゴリノートウィンドウに表示されてもよい。分析の詳細は、分類モデルがドキュメントがクラス内またはクラス外であると決定したかどうか、その決定に関連付けられた信頼度値、およびドキュメントのクレームに関連付けられたクレームスコアのような、ドキュメントに関して行われた予測を含んでいてもよい。
上記に加えて、ユーザインターフェースは、ユーザが、ドキュメントが関連があるまたはそうでなければ「クラス内(in class)」、または無関係またはそうでなければ「クラス外(out of class)」としてラベル付けされるべきであるかどうかを示すユーザ入力を提供することを可能にし得る投票ウィンドウ502を提供してもよい。追加のオプションは、例えば、「スキップ(skip)」および「元に戻す(undo)」を含んでいてもよい。投票ウィンドウ502はまた、1つまたは複数のキーワードを提示して、「ホットキー(hotkeys)」またはそうでなければショートカットキーを有効にして、マウスがスクロールしてオプションの1つをクリックするのとは対照的に、キーボードまたは同様のデバイスを介したユーザ入力を可能にし、不確実性サンプリングを利用するオプションを提供するために利用されてもよい。例えば、ユーザは、ユーザインターフェース内のドキュメントに関する情報を閲覧し得る。表示されている情報の一部またはすべてをレビューした後、ユーザは、ドキュメントがクラス内またはクラス外のいずれかであると決定してもよい(またはドキュメントがスキップされることを決定してもよい)。ドキュメントがクラス内としてラベル付けされる例では、ユーザは、1つまたは複数の入力手段を利用して、「内(in)」オプションに対応する画面の一部を選択してもよい。ドキュメントがクラス外としてラベル付けされる例では、ユーザは、1つまたは複数の入力手段を利用して、「外(out)」オプションに対応する画面の一部を選択してもよい。あるいはまた、ホットキーが有効にされるとき、ユーザは、キーボード上の対応するホットキー(物理的なものであれデジタルなものであれ)を選択してもよい。投票ウィンドウ502内のオプションのうちの1つを選択すると、ユーザインターフェースは、ユーザがそのドキュメントをレビューし、そのドキュメントの分類に関連付けられたユーザ入力を提供することを可能にするために、次のラベル付けされていないドキュメントをドキュメントセット内に表示させることができる。
図5に示されるように、ユーザがユーザインターフェースの「内(in)」部分を選択するとき、および/または所与のドキュメントがクラス内にあることを他の方法で示すとき、そのドキュメントおよび/またはそのドキュメントの特徴および/または属性は、陽性のデータセット504に保存されてもよい。例えば、モデルが本明細書に記載されるようにドキュメント比較のためにキーワードを利用するとき、「内(in)」とラベル付けされたドキュメントに関連付けられたーワードは、キーワードに関連付けられた重み付け値(weighting values)および/またはキーワードの決定に関連付けられた信頼度値のような追加情報と共に、陽性のデータセット504に関連付けて記憶されてもよい。本明細書に記載されるように、モデルがドキュメント比較のためにベクトルを利用する例では、「内(in)」とラベル付けされたドキュメントに関連付けられたベクトルは、重み付け値および/または信頼度値のような追加情報とともに、陽性のデータセット504と関連付けて記憶されてもよい。ユーザが、ドキュメントがクラス内にあることを示す追加のドキュメントも、陽性のデータセット504と関連付けて記憶されてもよい。
ユーザがユーザインターフェースの「外(out)」部分を選択するとき、および/または所与のドキュメントがクラス外であることを他の方法で示すとき、そのドキュメントおよび/またはそのドキュメントの特徴および/または属性は、陰性のデータセット506に保存されてもよい。例えば、モデルが本明細書に記載されるようにドキュメント比較のためにキーワードを利用するとき、「内(in)」とラベル付けされたドキュメントに関連付けられたーワードは、キーワードに関連付けられた重み付け値および/またはキーワードの決定に関連付けられた信頼度値のような追加情報と共に、陰性のデータセット506に関連付けて記憶されてもよい。本明細書に記載されるように、モデルがドキュメント比較のためにベクトルを利用する例では、「外(out)」とラベル付けされたドキュメントに関連付けられたベクトルは、重み付け値および/または信頼度値のような追加情報とともに、陰性のデータセット506と関連付けて記憶されてもよい。ユーザがドキュメントがクラス外にあることを示す追加のドキュメントも、陰性のデータセット506と関連付けて記憶されてもよい。
本明細書においてより完全に説明されるように、分類モデルは、ラベル付けされたドキュメントを利用して訓練されてもよい。例えば、データセット504、506は、ラベル付けされていないドキュメントについて、所与のドキュメントがクラス内にあるかクラス外にあるかを識別する方法を分類モデルに訓練するために利用されてもよい。そうするために、データセット504、506は、クラス内およびクラス外のキーワードをサンプルドキュメントを表すキーワードと比較するように、および/またはクラス内およびクラス外のベクトルをサンプルドキュメントを表すベクトルと比較するように、分類モデルを訓練するために、モデルビルダコンポーネント126によって利用されてもよい。
図6は、訓練されたモデルに関連付けられたキーワードを示すユーザインターフェース600の概念図を示す。
ユーザインターフェース600は、所与の分類モデルがクラス内に含まれると決定したキーワード、およびモデルがクラス外として除外されると決定したそれらのキーワードの視覚的表示を提供し得る。例えば、本明細書の他の場所でより完全に説明されるように、モデルは、どのドキュメントがクラス内にラベル付けされ、どのドキュメントがクラス外にラベル付けされるかを示す訓練データセットを利用してもよい。ドキュメントを表すこれらのドキュメントの特徴は、識別され得、それらの特徴は、モデルを訓練するために利用され得る。例では、特徴は、ドキュメントのテキストを表すキーワードを含んでいてもよい。ユーザインターフェース600におけるこれらのキーワードの提示は、図6に示されるようなリストのような、1つまたは複数の形式をとってもよい。他の形式は、ワードクラウドを含んでいてもよく、ここで、互いからのキーワードのサイズ、フォント、強調、および間隔は、含まれるおよび除外されるグループに対する所与のキーワードの相対的重要性を示していてもよい。例えば、ユーザインターフェース600は、含まれたキーワードウィンドウ602および除外されたキーワードウィンドウ604を含んでいてもよい。含まれたキーワードウィンドウ602は、クラス内としてラベル付けされたドキュメントを表すとモデルが決定したキーワードの視覚的表示を提供してもよい。除外されたキーワードウィンドウ604は、クラス外としてラベル付けされたドキュメントを表すとモデルが決定したキーワードの視覚的表示を提供してもよい。キーワードはそれぞれ、異なる重み付け値に関連付けられてもよく、またはそうでなければ、ドキュメント分類を決定するために多かれ少なかれ重要であってもよい。これらの重み付け値の視覚的表示は、含まれたキーワードウィンドウ602および除外されたキーワードウィンドウ604に提供されてもよい。例えば、他のキーワードよりも大きく、より暗く、より強調されたフォントを有する単語クラウドの中心に位置するキーワードは、グループに最も関連性の高いキーワードであってもよい。図6に示されるように、例示的なリストは、キーワード「Word A」が関連ドキュメントを決定するために最も重要である一方で、キーワード「Word 1」がクラス外ドキュメントを決定するために最も重要であることを示す。リストビューでは、所与のウィンドウに含まれているキーワードに関連付けられた重要度および/または信頼度値の表示が表示されてもよい。これは、キーワードのランク付けだけでなく、それらのキーワードが分類モデルによって決定された重要性の表示をユーザに提供してもよい。
例では、ユーザインターフェース600は、キーワードに関連付けられたユーザ入力を受信するように構成されていてもよい。例えば、ユーザ入力は、ユーザが、含まれたキーワードウィンドウ602および除外されたキーワードウィンドウ604のうちの1つまたは複数にキーワードが含まれるべきであることを確認することを含んでいてもよい。ユーザ入力はまた、ユーザが、所与のキーワードが現在そうであるよりも多く削除される、強調されない、または強調されるべきであることを示すことを含んでいてもよい。ユーザ入力に対応するユーザ入力データは、分類モデルを再訓練するために利用されてもよい。さらに、ユーザは、所与のウィンドウに含まれていないワードが含まれるべきであることを示すユーザ入力を提供してもよく、分類モデルは、そのユーザ入力データに少なくとも部分的に基づいて再訓練されてもよい。
さらに、図6に示されるように、信頼度コンポーネント132によってユーザ入力を利用して、信頼度スコア閾値が所与のモデルに対して調整されるべきかどうかを決定してもよい。例として、ユーザ入力データは、信頼スコア閾値が増大されるべきことを示し得、これは、陽性のデータセットおよび陰性のデータセットにおいてより少ないキーワードが識別されることをもたらし得る。この例では、ユーザは、Word CおよびWord Fが肯定的な訓練データセットの代表的なワードに含まれるべきではなく、Word 2、Word 3、およびWord 6が陰性の訓練データセットについての代表的なワードに含まれるべきではないことを示す入力を提供することができた。この変更は、所与のモデルについてクラス内として識別されるドキュメント、および/またはそれらのドキュメントのうちのどれが、2つ以上のモデルに関してクラス内であるとしてインターセクションコンポーネントによって識別されるかに影響を与える可能性がある。
図7は、モデル分類法の概念図である。例えば、上述されるような分類モデルの訓練に加えて、訓練された分類を正確に予測するようにモデルが決定されるように分類モデルが訓練されると、モデルはモデル分類法700に配置されてもよい。モデル分類法700は、分類ツリーまたはそうでなければ、モデル間の関係および/またはモデルに関連付けられた特異性のレベルを示すモデル階層を表していてもよい。例えば、図7に示されるように、「テクノロジーA」に関してドキュメントがクラス内にあるかどうかを決定することに関連付けられた第1のモデル702は、「テクノロジーB」、「テクノロジーC」、および「テクノロジーD」に関してドキュメントがクラスにあるかどうかをそれぞれ決定するように訓練された他のモデル704、710、716に関連付けられてもよい。これらのモデルのそれぞれはまた、これらのコンポーネントのより具体的な態様を決定するように訓練された他のモデル706、708、712、714、718、720に関連付けられてもよい。この分類法700は、検索可能であってもよく、ユーザがモデルについての検索クエリを提供することを可能にする機能性を提供してもよい。検索クエリからのキーワードは、検索クエリに適用可能であり得るモデルを識別するために、および/または検索クエリに関連付けられた分類法の「分岐(branches)」を強調するために利用されてもよい。
図7に示されるように、モデル分類法700内のモデルは、1つまたは複数の方法で互いにリンクされてもよい。例えば、1つのモデルの主題が別のモデルの主題に関連する場合、それらのモデルは、分類法700内でリンクされてもよい。いくつかの例では、モデルを表す分類法のノードは、本明細書に記載されるCPCシステムのような所定の主題分類システムを利用して決定されてもよい。
さらに、モデル分類法700は、本明細書に記載されるようなモデルインターセクションの1つまたは複数のインジケータを含んでいてもよい。例えば、インターセクションA 750は、より多くのモデルのうちの2つについてのインターセクションインジケータを表していてもよい。図7に示されるように、インターセクションA 750は、テクノロジーB 704、テクノロジーC 710、およびテクノロジーF 708の間のインターセクションをマークする。インジケータは、モデルによる検索の例(a search-by-model example)におけるように、選択可能であってもよく、サンプルドキュメントは、関連付けられたモデルによって分析されてもよい。インターセクションコンポーネントは、その分析の結果を利用して、ドキュメントが複数のモデルによってクラス内にあると予測されるモデルインターセクションを決定してもよい。
図8および図9は、モデルインターセクションを使用したドキュメント分析に関連付けられたプロセスを示す。本明細書で説明されるプロセスは、一連の動作を表す論理フロー図におけるブロックの集合として図示され、そのうちのいくつかまたはすべては、ハードウェア、ソフトウェア、またはそれらの組み合わせで実装されてもよい。ソフトウェアとの関連では、ブロックは、1つまたは複数のプロセッサによって実行されたときに、列挙された動作を実行するようにプロセッサをプログラムする、1つまたは複数のコンピュータ可読媒体に記憶されたコンピュータ実行可能命令を表していてもよい。概して、コンピュータ実行可能命令は、特定の機能を実行し、または特定のデータタイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、およびデータ構造などを含む。ブロックが記載される順序は、特に明記されていない限り、限定として解釈されるべきではない。任意の数の記載されたブロックは、プロセスまたは代替プロセスを実装するために、任意の順序および/または並行して組み合わされてもよく、すべてのブロックが実行される必要はない。議論の目的のために、プロセスは、例えば、図1から図7に関して説明されたもののような、本明細書の実施例に記載された環境、アーキテクチャ、およびシステムを参照して説明されるが、プロセスは、多種多様な他の環境、アーキテクチャ、およびシステムで実装されてもよい。
図8は、モデルインターセクションを使用したドキュメント分析のために利用される実例プロセス800のフロー図を示す。動作または工程が記載される順序は、限定として解釈されることを意図したものではなく、任意の数の記載された動作は、プロセス800を実行するために任意の順序で、および/または並行して、組み合わされてもよい。プロセス800に関して記載された動作は、クライアントデバイス、および/またはドキュメント分析プラットフォームに関連付けられたシステムによって実行されているとして記載されている。しかしながら、これらの動作の一部またはすべては、本明細書に記載されるコンポーネント、デバイス、および/またはシステムの一部またはすべてによって実行され得ることを理解されたい。
ブロック802において、プロセス800は、ユーザクエリを表現する第1のデータを受信して、識別されたテクノロジーに関連付けられた特許ドキュメントを識別する工程を含んでいてもよい。例えば、検索クエリ(search query)は、その検索クエリに関連するドキュメントのセットを識別するために、受信されてもよい。検索クエリは、検索クエリに関連するものを定義する1つまたは複数のキーワードおよび/またはフレーズを含んでいてもよい。本明細書に記載されるドキュメント分析プラットフォームを利用して、検索クエリに対応するキーワードを有するドキュメントのセットが識別されてもよい。
ブロック804において、プロセス800は、識別されたテクノロジーに関連付けられた第1のサブカテゴリを識別する工程を含んでいてもよい。例えば、システムは、識別されたテクノロジーからのキーワードを利用して、それらのキーワードのいくつかが、識別されたテクノロジーの個々のコンポーネントとして存在することができるサブカテゴリに関連付けられていることを決定してもよい。他の例では、ユーザ入力データは、識別されたテクノロジーに関連付けられた所与のサブカテゴリを示し得る。
ブロック806において、プロセス800は、第1のサブカテゴリに関連する特許ドキュメントを識別するように構成された第1の予測モデルを生成する工程を含んでいてもよい。例えば、1つまたは複数のドキュメント分類モデルは、所与のドキュメントがクラス内にあるかクラス外にあるかを示すユーザ入力を利用して、構築および/または訓練されてもよい。本明細書においてより完全に説明されるように、ユーザは、ユーザインターフェースを利用して、所与のドキュメントの全部または一部を閲覧し、ユーザインターフェース上の要素を選択して、所与のドキュメントをクラス内またはクラス外として識別してもよい。閾値数のドキュメントがユーザによってクラス内またはクラス外としてマークされると、1つまたは複数の分類モデルは、クラス内としてマークされるドキュメントの陽性の訓練データセットに基づいて訓練されてもよく、いくつかの例では、クラス外としてマークされるドキュメントの陰性の訓練データセットに基づいて訓練されてもよい。その後、訓練された分類モデルは、どちらとも決まらないドキュメントのセット内のどのドキュメントがクラス内またはクラス外にあるかを予測するために利用されてもよい。
ブロック808において、プロセス800は、識別されたテクノロジーに関連付けられた第2のサブカテゴリを識別する工程を含んでいてもよい。第2のサブカテゴリを識別する工程は、ブロック804に関して記載されるように、第1のサブカテゴリを識別する工程と同じまたは同様の方法で実行されてもよい。
ブロック810において、プロセス800は、第2のサブカテゴリに関連する特許ドキュメントを識別するように構成された第2の予測モデルを生成する工程を含んでいてもよい。第2の予測モデルを生成する工程は、ブロック806に関して記載されるように、第1の予測モデルを生成する工程と同じまたは同様の方法で実行されてもよい。
ブロック812において、プロセス800は、第1の予測モデルに対する第1の入力として、サンプル特許ドキュメントを表現する第2のデータを提供する工程を含んでいてもよい。例えば、第三者システムからのおよび/またはユーザクエリに関連付けられたデバイスからのようなドキュメントデータベースは、ユーザクエリからのキーワードに応答するサンプルドキュメントに関してクエリされてもよい。
ブロック814において、プロセス800は、第1の予測モデルからの第1の出力として、第1の予測モデルによってクラス内にあると決定されたサンプル特許ドキュメントの第1のサブセットを識別する第3のデータを生成する工程を含んでいてもよい。例えば、モデルは、所与のドキュメントが、クラス外キーワードよりもクラス内キーワードに類似しているキーワードを有するかどうかを決定するように構成されてもよい。他の例では、キーワードに基づいて訓練データセットを生成する代わりに、またはそれに加えて、プラットフォームは、所与のドキュメントのためのベクトルを決定してもよい。ベクトルは、座標系に関連付けられてもよく、ベクトルの形態でドキュメントの主題を表現してもよい。ベクトルは、クラス内にラベル付けされたドキュメントおよびクラス外にラベル付けされたドキュメントに対して生成されてもよい。分類モデルは、所与のドキュメントのベクトル表現が、座標系においてクラス外ベクトルよりもクラス内ベクトルに近いかどうかを決定するように訓練されてもよい。ドキュメントを表現するベクトルを生成するための技術は、Doc2Vecのようなベクトル化技術、または他の同様の技術を含んでいてもよい。
追加的に、または代替的に、ドキュメント表現は、ドキュメントのテキストコンテンツに少なくとも部分的に基づいて、ドキュメントを取り出し、それをベクトル形式に浮動小数点数のリストとして変換する方法を含んでいてもよい。このベクトル形式は、埋め込みと呼ばれてもよい。この埋め込みは、ドキュメント間の、距離、したがって類似性を計算するために使用されてもよい。これらの埋め込みは、上述のキーワードおよび/またはベクトルに加えて、またはそれらの置き換えとして、分類モデルと関連付けられて使用され得る。埋め込みは、セットを有するドキュメントのテーマ別グループを作成するために利用されてもよい。ドキュメントのセットは、あるキーワード、CPC、所有者(複数可)などであり得、結果は、同様のテーマを共有するドキュメントグループ(例えば、クラスタ)の視覚的な表示であってもよい。クラスタリングプロセスには、どのドキュメントがどのクラスタにグループ化されるかについて何らかの人間の制御を可能にし得る、ある程度の監視があってもよい。
ブロック816において、プロセス800は、第2の予測モデルに対する第2の入力として、サンプル特許ドキュメントを表現する第2のデータを提供する工程を含んでいてもよい。第2のデータを提供する工程は、ブロック812に関して記載されるように、第1のデータを提供する工程と同じまたは同様の方法で実行されてもよい。
ブロック818において、プロセス800は、第2の予測モデルからの第2の出力として、第2の予測モデルによってクラス内にあると決定されたサンプル特許ドキュメントの第2のサブセットを識別する第4のデータを生成する工程を含んでいてもよい。第2のサブセットを生成する工程は、ブロック814に関して記載されるように、第1のサブセットを生成する工程と同じまたは同様の方法で実行されてもよい。
ブロック820において、プロセス800は、第1のサブセットおよび第2のサブセット内にあるサンプル特許ドキュメントの第3のサブセットを決定する工程を含んでいてもよい。例えば、3つのサブカテゴリを持つ識別されたテクノロジーに関して、それらのドキュメントのどれがクラス内にあるかを決定するために分析される10,000個のドキュメントのサンプルドキュメントセットの例を取る。第1のサブカテゴリのための第1の分類モデルは、第1のサブカテゴリに関してクラス内にある10,000個のドキュメントのうちの500個を識別してもよく、第2のサブカテゴリのための第2の分類モデルは、第2のサブカテゴリに関してクラス内にある10,000個のドキュメントのうちの750個を識別してもよい。
モデルインターセクションコンポーネントを利用して、クラス内として識別されたドキュメントの異なるグループは、結果として生成されてもよい。例えば、第1のグループは、分類モデルの少なくとも1つによってクラス内として識別される任意のドキュメントを含んでいてもよい。第2のグループは、分類モデルのうちの少なくとも2つによってクラス内として識別される任意のドキュメントを含んでいてもよい。第3のグループは、特に3つのモデルが利用される場合、分類モデルの各々によってクラスとして識別される任意のドキュメントを含んでいてもよい。上記の例から理解されるように、第1のグループに関して、クラス内ドキュメントの数は第2のグループよりも多くなり、第2のグループにおけるクラス内ドキュメントの数は第3のグループよりも多くなる。このようにして、分類モデルの各々によってクラス内にあると示されたドキュメントの第3のグループは、識別されたテクノロジーの各サブカテゴリに関連するドキュメントのサンプルグループ内のそれらのドキュメントを表現する。
ブロック822において、プロセス800は、ユーザクエリに関連付けられたデバイスに、識別されたテクノロジーに関連するようなサンプル特許ドキュメントの第3のサブセットの少なくとも識別子を表示させる工程を含んでいてもよい。これらのモデルインターセクション分析の結果は、ユーザクエリに関連付けられたクライアント側デバイスのようなコンピューティングデバイスに提供されてもよい。例えば、グループの一部またはすべてのクラス内ドキュメントは、コンピューティングデバイスのユーザに表示されてもよく、および/またはドキュメントおよび/またはグループの識別は、提供されてもよい。
追加的に、または代替的に、プロセス800は、識別されたテクノロジーに関連付けられた第3のサブカテゴリを識別することを含んでいてもよい。プロセス800はまた、第3のサブカテゴリに関連する特許ドキュメントを識別するように構成された第3の予測モデルを生成する工程を含んでいてもよい。プロセス800はまた、第3の予測モデルからの出力として、第3の予測モデルによってクラス内にあると決定されたサンプル特許ドキュメントの第4のサブセットを識別する第5のデータを生成する工程を含んでいてもよい。これらの例では、第3のサブセットは、第1のサブセット、第2のサブセット、および第4のサブセット内にあるか、または第1のサブセット、第2のサブセット、および第4のサブセットのうちの少なくとも2つ内にあるサンプル特許ドキュメントを含む。
追加的に、または代替的に、プロセス800は、第1の予測モデルに適用するための第1の信頼度閾値を決定する工程を含んでいてもよく、第1の信頼度閾値は、クラス内として所与の特許ドキュメンを予測するための第1の信頼度を示す。プロセス800はまた、第2の予測モデルに適用するための第2の信頼度閾値を決定する工程を含んでいてもよく、第2の信頼度閾値は、クラス内として所与の特許ドキュメントを予測するための第2の信頼度を示し、第1の信頼度閾値は、第2の信頼度閾値とは異なる。これらの例では、第3のデータを生成する工程は、第1の信頼度閾値に少なくとも部分的に基づいており、第4のデータを生成する工程は、第2の信頼度閾値に少なくとも部分的に基づいている。
追加的に、または代替的に、プロセス800は、第3のサブセット内のサンプル特許ドキュメントの個々のクレームのクレーム幅を示すクレーム幅値を決定する工程を含んでいてもよい。プロセス800はまた、第3のサブセット内にあり閾値クレーム幅値を満たすクレーム幅値を有するサンプル特許ドキュメントの第4のサブセットを決定する工程を含んでいてもよい。プロセス800はまた、デバイスに、サンプル特許ドキュメントの第4のサブセットのための識別子の表示を優先させる工程を含んでいてもよい。
図9は、モデルインターセクションを使用したドキュメント分析のために利用される別の実例プロセス900のフロー図を示す。動作または工程が記載される順序は、限定として解釈されることを意図したものではなく、任意の数の記載された動作は、プロセス800を実行するために任意の順序で、および/または並行して、組み合わされてもよい。プロセス800に関して記載された動作は、クライアントデバイス、および/またはドキュメント分析プラットフォームに関連付けられたシステムによって実行されているとして記載されている。しかしながら、これらの動作の一部またはすべては、本明細書に記載されるコンポーネント、デバイス、および/またはシステムの一部またはすべてによって実行されてもよいことを理解されたい。
ブロック902において、プロセス900は、識別されたテクノロジーに関連付けられた第1のサブカテゴリに関連するドキュメントを識別するように構成された第1の予測モデルを生成する工程を含んでいてもよい。例えば、システムは、識別されたテクノロジーからのキーワードを利用して、それらのキーワードのいくつかが、識別されたテクノロジーの個々のコンポーネントとして存在することができるサブカテゴリに関連付けられていることを決定してもよい。他の例では、ユーザ入力データは、識別されたテクノロジーに関連付けられた所与のサブカテゴリを示してもよい。その後、所与のドキュメントがクラス内にあるかクラス外にあるかを示すユーザ入力を利用して、1つまたは複数のドキュメント分類モデルが構築および/または訓練されてもよい。本明細書においてより完全に説明されるように、ユーザは、ユーザインターフェースを利用して、所与のドキュメントの全部または一部を閲覧し、ユーザインターフェース上の要素を選択して、所与のドキュメントをクラス内またはクラス外として識別してもよい。閾値数のドキュメントがユーザによってクラス内またはクラス外としてマークされると、1つまたは複数の分類モデルは、クラス内としてマークされるドキュメントの陽性の訓練データセットに基づいて訓練されてもよく、いくつかの例では、クラス外としてマークされるドキュメントの陰性の訓練データセットに基づいて訓練されてもよい。その後、訓練された分類モデルは、どちらとも決まらない一連のドキュメント内のどのドキュメントがクラス内またはクラス外にあるかを予測するために利用されてもよい。
ブロック904において、プロセス900は、識別されたテクノロジーに関連付けられた第2のサブカテゴリに関連するドキュメントを識別するように構成された第2の予測モデルを生成する工程を含んでいてもよい。第2の予測モデルを生成する工程は、ブロック902に関して記載されるように、第1の予測モデルを生成する工程と同じまたは同様の方法で実行されてもよい。
ブロック906において、プロセス900は、第1の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第1のサブセットを識別する第1のデータを生成する工程を含んでいてもよい。例えば、モデルは、所与のドキュメントが、クラス外キーワードよりもクラス内キーワードに類似しているキーワードを有するかどうかを決定するように構成されていてもよい。他の例では、キーワードに基づいて訓練データセットを生成する代わりに、またはそれに加えて、プラットフォームは、所与のドキュメントのためのベクトルを決定してもよい。ベクトルは、座標系に関連付けられてもよく、ベクトルの形態でドキュメントの主題を表現してもよい。ベクトルは、クラス内にラベル付けされたドキュメントおよびクラス外にラベル付けされたドキュメントに対して生成されてもよい。分類モデルは、所与のドキュメントのベクトル表現が、座標系においてクラス外ベクトルよりもクラス内ベクトルに近いかどうかを決定するように訓練されてもよい。ドキュメントを表現するベクトルを生成するための技術は、Doc2Vecのようなベクトル化技術、または他の同様の技術を含んでいてもよい。
追加的に、または代替的に、ドキュメント表現は、ドキュメントのテキストコンテンツに少なくとも部分的に基づいて、ドキュメントを取り出し、それをベクトル形式に浮動小数点数のリストとして変換する方法を含んでいてもよい。このベクトル形式は、埋め込みと呼ばれてもよい。この埋め込みは、ドキュメント間の、距離、したがって類似性を計算するために使用されてもよい。これらの埋め込みは、上述のキーワードおよび/またはベクトルに加えて、またはそれらの置き換えとして、分類モデルと関連付けられて使用され得る。埋め込みは、セットを有するドキュメントのテーマ別グループを作成するために利用されてもよい。ドキュメントのセットは、あるキーワード、CPC、所有者(複数可)などであり得、結果は、同様のテーマを共有するドキュメントグループ(例えば、クラスタ)の視覚的な表示であってもよい。クラスタリングプロセスには、どのドキュメントがどのクラスタにグループ化されるかについて何らかの人間の制御を可能にし得る、ある程度の監視があってもよい。
ブロック908において、プロセス900は、第2の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第2のサブセットを識別する第2のデータを生成する工程を含んでいてもよい。第2のデータを生成する工程は、ブロック906に関して記載された第1のデータを生成する工程と同じまたは同様の方法で実行されてもよい。
ブロック910において、プロセス900は、第1のサブセットおよび第2のサブセット内にあるサンプルドキュメントの第3のサブセットを示す第3のデータを生成する工程を含んでいてもよい。例えば、3つのサブカテゴリを持つ識別されたテクノロジーに関して、それらのドキュメントのどれがクラス内にあるかを決定するために分析される10,000個のドキュメントのサンプルドキュメントセットを例にとる。第1のサブカテゴリのための第1の分類モデルは、第1のサブカテゴリに関してクラス内にある10,000個のドキュメントのうちの500個を識別してもよく、第2のサブカテゴリのための第2の分類モデルは、第2のサブカテゴリに関してクラス内にある10,000個のドキュメントのうちの750個を識別してもよい。
モデルインターセクションコンポーネントを利用して、クラス内として識別されたドキュメントの異なるグループは、結果として生成されてもよい。例えば、第1のグループは、分類モデルの少なくとも1つによってクラス内として識別される任意のドキュメントを含んでいてもよい。第2のグループは、分類モデルのうちの少なくとも2つによってクラス内として識別される任意のドキュメントを含んでもよい。第3のグループは、特に3つのモデルが利用される場合、分類モデルの各々によってクラス内として識別される任意のドキュメントを含んでいてもよい。上記の例から理解されるように、第1のグループに関して、クラス内ドキュメントの数は第2のグループよりも多くなり、第2のグループにおけるクラス内ドキュメントの数は第3のグループよりも多くなる。このようにして、分類モデルの各々によってクラス内にあると示されたドキュメントの第3のグループは、識別されたテクノロジーの各サブカテゴリに関連するドキュメントのサンプルグループ内のそれらのドキュメントを表現する。
追加的に、または代替的に、プロセス900は、識別されたテクノロジーに関連付けられた第3のサブカテゴリに関連するドキュメントを識別するように構成された第3の予測モデルを生成する工程を含んでいてもよい。プロセス900はまた、第3の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第4のサブセットを識別する第4のデータを生成する工程を含んでいてもよい。これらの例では、第3のサブセットは、第1のサブセット、第2のサブセット、および第4のサブセット内にあるサンプルドキュメントを含む。
追加的に、または代替的に、プロセス900は、第1の予測モデルに適用するための第1の信頼度閾値を決定する工程を含んでいてもよい。プロセス900はまた、第2の予測モデルに適用するための第2の信頼度閾値を決定する工程を含んでいてもよく、第1の信頼度閾値は、第2の信頼度閾値とは異なる。これらの例では、第1のデータを生成する工程は、第1の信頼度閾値に少なくとも部分的に基づいており、第2のデータを生成する工程は、第2の信頼度閾値に少なくとも部分的に基づいている。
追加的に、または代替的に、プロセス900は、サンプルドキュメントの個々について、サンプルドキュメントの個々のクレームに関するクレームスコアを決定する工程を含んでいてもよい。プロセス900はまた、第3のサブセット内にあり閾値クレームスコアを満たすクレームスコアを有するサンプルドキュメントの第4のサブセットを決定する工程を含んでいてもよい。
追加的に、または代替的に、プロセス900は、第1の信頼度閾値を利用する第1の予測モデルによってクラス内として予測されるドキュメントからキーワードを表示するように構成されたユーザインターフェースを生成する工程を含んでいてもよい。プロセス900はまた、第1の予測モデルに適用するための第2の信頼度閾値を示すユーザ入力データを受信する工程を含んでいてもよく、ユーザ入力データは、ユーザインターフェースを介して表示されるようなキーワードに応答している。プロセス900はまた、第1の信頼度閾値の代わりに第2の信頼度閾値を第1の予測モデルに適用する工程を含んでいてもよい。
追加的に、または代替的に、プロセス900は、座標系内の第3のサブセットに関連付けられたドキュメントを表現する第1のベクトルを生成する工程を含んでいてもよい。プロセス900はまた、第1のベクトルに関連付けられた座標系の領域を決定する工程を含んでいてもよい。プロセス900はまた、領域内にある座標系内の第2のベクトルによって表現される追加のドキュメントを識別する工程を含んでいてもよい。
追加的に、または代替的に、プロセス900は、識別されたテクノロジーに関連付けられた第3のサブカテゴリに関連するドキュメントを識別するように構成された第3の予測モデルを生成する工程を含んでいてもよい。プロセス900はまた、第3の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第4のサブセットを識別する第4のデータを生成する工程を含んでいてもよい。これらの例では、第3のサブセットは、第1のサブセットおよび第2のサブセット、第2のサブセットおよび第4のサブセット、または第1のサブセットおよび第4のサブセットのうちの少なくとも1つにあるサンプルドキュメントを含む。
追加的に、または代替的に、プロセス900は、第1の予測モデルおよび第2の予測モデルを含む予測モデルのモデル階層を格納することを含んでいてもよく、モデル階層は、予測モデル間の関係を示す。プロセス900はまた、識別されたテクノロジーに関するドキュメントのクラス内予測が、第1の予測モデルおよび第2の予測モデルを利用して実行されるインジケータを生成する工程を含んでいてもよい。プロセス900はまた、モデル階層から利用するモデルについての検索クエリを受信する工程と、検索クエリが識別されたテクノロジーに対応することを決定する工程と、を含んでいてもよい。プロセス900はまた、第1の予測モデルおよび第2の予測モデルの代わりに、インジケータを表す検索クエリに応答データを提供する工程を含んでいてもよい。
例示的な条項
1. 方法であって、ユーザクエリを表現する第1のデータを受信して、識別されたテクノロジーに関連付けられた特許ドキュメントを識別する工程と、識別されたテクノロジーに関連付けられた第1のサブカテゴリを識別する工程と、第1のサブカテゴリに関連する特許ドキュメントを識別するように構成された第1の予測モデルを生成する工程と、識別されたテクノロジーに関連付けられた第2のサブカテゴリを識別する工程と、第2のサブカテゴリに関連する特許ドキュメントを識別するように構成された第2の予測モデルを生成する工程と、第1の予測モデルに対する第1の入力として、サンプル特許ドキュメントを表現する第2のデータを提供する工程と、第1の予測モデルからの第1の出力として、第1の予測モデルによってクラス内にあると決定されたサンプル特許ドキュメントの第1のサブセットを識別する第3のデータを生成する工程と、第2の予測モデルに対する第2の入力として、サンプル特許ドキュメントを表現する第2のデータを提供する工程と、第2の予測モデルからの第2の出力として、第2の予測モデルによってクラス内にあると決定されたサンプル特許ドキュメントの第2のサブセットを識別する第4のデータを生成する工程と、第1のサブセットおよび第2のサブセット内にあるサンプル特許ドキュメントの第3のサブセットを決定する工程と、ユーザクエリに関連付けられたデバイスに、識別されたテクノロジーに関連するようなサンプル特許ドキュメントの第3のサブセットの少なくとも識別子を表示させる工程と、を含む方法。
2. 条項1に記載の方法であって、識別されたテクノロジーに関連付けられた第3のサブカテゴリを識別する工程と、第3のサブカテゴリに関連する特許ドキュメントを識別するように構成された第3の予測モデルを生成する工程と、第3の予測モデルからの出力として、第3の予測モデルによってクラス内にあると決定されたサンプル特許ドキュメントの第4のサブセットを識別する第5のデータを生成する工程と、をさらに含み、第3のサブセットは、第1のサブセット、第2のサブセット、および第4のサブセット内にあるか、または第1のサブセット、第2のサブセット、および第4のサブセットのうちの少なくとも2つ内にある、サンプル特許ドキュメントを含む方法。
3. 条項1および/または2に記載の方法であって、第1の予測モデルに適用するための第1の信頼度閾値を決定する工程であって、第1の信頼度閾値はクラス内として所与の特許ドキュメントを予測するための第1の信頼度を示す工程と、第2の予測モデルに適用するための第2の信頼度閾値を決定する工程であって、第2の信頼度閾値は、クラス内として所与の特許ドキュメントを予測するための第2の信頼度を示す工程と、をさらに含み、第1の信頼度閾値は、第2の信頼度閾値とは異なり、第3のデータを生成する工程は、第1の信頼度閾値に少なくとも部分的に基づいており、第4のデータを生成する工程は、第2の信頼度閾値に少なくとも部分的に基づいている方法。
4. 条項1、2、および/または3のいずれかに記載の方法であって、第3のサブセット内のサンプル特許ドキュメントの個々のクレームのクレーム幅を示すクレーム幅値を決定する工程と、第3のサブセット内にあり閾値クレーム幅値を満たすクレーム幅値を有するサンプル特許ドキュメントの第4のサブセットを決定する工程と、デバイスに、サンプル特許ドキュメントの第4のサブセットのための識別子の表示を優先させる工程と、をさらに含む方法。
5. システムであって、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行されたときに、1つまたは複数のプロセッサに、識別されたテクノロジーに関連付けられた第1のサブカテゴリに関連するドキュメントを識別するように構成された第1の予測モデルを生成する工程と、識別されたテクノロジーに関連付けられた第2のサブカテゴリに関連するドキュメントを識別するように構成された第2の予測モデルを生成する工程と、第1の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第1のサブセットを識別する第1のデータを生成する工程と、第2の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントを識別する第2のデータの第2のサブセットを生成する工程と、第1のサブセットおよび第2のサブセット内にあるサンプルドキュメントの第3のサブセットを示す第3のデータを生成する工程と、を含む動作を実行させるコンピュータ実行可能命令を格納する非一時的コンピュータ可読媒体と、を含むシステム。
6. 条項5に記載のシステムであって、動作は、識別されたテクノロジーに関連付けられた第3のサブカテゴリに関連するドキュメントを識別するように構成された第3の予測モデルを生成する工程と、第3の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第4のサブセットを識別する第4のデータを生成する工程と、をさらに含み、第3のサブセットは、第1のサブセット、第2のサブセット、および第4のサブセット内にあるサンプルドキュメントを含むシステム。
7. 条項5および/または6に記載のシステムであって、動作は、第1の予測モデルに適用するための第1の信頼度閾値を決定する工程と、第2の予測モデルに適用するための第2の信頼度閾値を決定する工程と、をさらに含み、第1の信頼度閾値は、第2の信頼度閾値とは異なり、第1のデータを生成する工程は、第1の信頼度閾値に少なくとも部分的に基づいており、第2のデータを生成する工程は、 第2の信頼度閾値に少なくとも部分的に基づいているシステム。
8. 条項5、6および/または7のいずれかに記載のシステムであって、動作は、サンプルドキュメントの個々について、サンプルドキュメントの個々のクレームに関するクレームスコアを決定する工程と、第3のサブセット内にあり閾値クレームスコアを満たすクレームスコアを有するサンプルドキュメントの第4のサブセットを決定する工程と、をさらに含むシステム。
9. 条項5、6、7および/または8のいずれかに記載のシステムであって、第1の予測モデルは、クラス内として所与の特許ドキュメントを予測するための第1の信頼度を示す第1の信頼度閾値に関連付けられ、動作は、第1の信頼度閾値を利用して第1の予測モデルによってクラス内として予測されるドキュメントからキーワードを表示するように構成されたユーザインターフェースを生成する工程と、第1の予測モデルに適用するための第2の信頼度閾値を示すユーザ入力データを受信する工程であって、ユーザ入力データは、ユーザインターフェースを介して表示されるようなキーワードに応答する、工程と、第1の信頼度閾値の代わりに第2の信頼度閾値を第1の予測モデルに適用する工程と、をさらに含むシステム。
10. 条項5、6、7、8、および/または9のいずれかに記載のシステムであって、動作は、座標系内の第3のサブセットに関連付けられたドキュメントを表現する第1のベクトルを生成する工程と、第1のベクトルに関連付けられた座標系の領域を決定する工程と、領域内にある座標系内の第2のベクトルによって表現される追加のドキュメントを識別する工程と、をさらに含むシステム。
11. 条項5、6、7、8、9、および/または10のいずれかに記載のシステムであって、動作は、識別されたテクノロジーに関連付けられた第3のサブカテゴリに関連するドキュメントを識別するように構成された第3の予測モデルを生成する工程と、第3の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第4のサブセットを識別する第4のデータを生成する工程と、をさらに含み、第3のサブセットは、第1のサブセットおよび第2のサブセット、第2のサブセットおよび第4のサブセット、または第1のサブセットおよび第4のサブセットのうちの少なくとも1つにあるサンプルドキュメントを含むシステム。
12. 条項5、6、7、8、9、10、および/または11のいずれかに記載のシステムであって、動作は、第1の予測モデルおよび第2の予測モデルを含む予測モデルのモデル階層を格納する工程であって、モデル階層は予測モデル間の関係を示す、工程と、識別されたテクノロジーに関するドキュメントのクラス内予測が第1の予測モデルおよび第2の予測モデルを利用して実行されるインジケータを生成する工程と、モデル階層から利用するためのモデルについての検索クエリを受信する工程と、検索クエリが識別されたテクノロジーに対応することを決定する工程と、第1の予測モデルおよび第2の予測モデルの代わりにインジケータを表す検索クエリに応答データを提供する工程と、をさらに含むシステム。
13. 方法であって、識別されたテクノロジーに関連付けられた第1のサブカテゴリに関連するドキュメントを識別するように構成された第1の予測モデルを生成する工程と、識別されたテクノロジーに関連付けられた第2のサブカテゴリに関連するドキュメントを識別するように構成された第2の予測モデルを生成する工程と、第1の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第1のサブセットを識別する第1のデータを生成する工程と、第2の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントを識別する第2のデータの第2のサブセットを生成する工程と、第1のサブセットおよび第2のサブセット内にあるサンプルドキュメントの第3のサブセットを示す第3のデータを生成する工程と、を含む方法。
14. 条項13に記載の方法であって、識別されたテクノロジーに関連付けられた第3のサブカテゴリに関連するドキュメントを識別するように構成された第3の予測モデルを生成する工程と、第3の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第4のサブセットを識別する第4のデータを生成する工程と、をさらに含み、第3のサブセットは、第1のサブセット、第2のサブセット、および第4のサブセット内にあるサンプルドキュメントを含む方法。
15. 条項13および/または14に記載の方法であって、第1の予測モデルに適用するための第1の信頼度閾値を決定する工程と、第2の予測モデルに適用するための第2の信頼度閾値を決定する工程と、をさらに含み、第1の信頼度閾値は、第2の信頼度閾値とは異なり、第1のデータを生成する工程は、第1の信頼度閾値に少なくとも部分的に基づいており、第2のデータを生成する工程は、 第2の信頼度閾値に少なくとも部分的に基づいている方法。
16. 条項13、14および/または15のいずれかに記載の方法であって、サンプルドキュメントの個々について、サンプルドキュメントの個々のクレームに関するクレームスコアを決定する工程と、第3のサブセット内にあり閾値クレームスコアを満たすクレームスコアを有するサンプルドキュメントの第4のサブセットを決定する工程と、をさらに含む方法。
17. 条項13、14、15および/または16のいずれかに記載の方法であって、第1の予測モデルは、クラス内として所与の特許ドキュメントを予測するための第1の信頼度を示す第1の信頼度閾値に関連付けられ、方法は、第1の信頼度閾値を利用して第1の予測モデルによってクラス内として予測されるドキュメントからキーワードを表示するように構成されたユーザインターフェースを生成する工程と、第1の予測モデルに適用するための第2の信頼度閾値を示すユーザ入力データを受信する工程であって、ユーザ入力データは、ユーザインターフェースを介して表示されるようなキーワードに応答する、工程と、第1の信頼度閾値の代わりに第2の信頼度閾値を第1の予測モデルに適用する工程と、をさらに含む。
18. 条項13、14、15、16、および/または17に記載の方法であって、座標系内の第3のサブセットに関連付けられたドキュメントを表現する第1のベクトルを生成する工程と、第1のベクトルに関連付けられた座標系の領域を決定する工程と、領域内にある座標系内の第2のベクトルによって表現される追加のドキュメントを識別する工程と、をさらに含む方法。
19. 条項13、14、15、16、17、および/または18のいずれかに記載の方法であって、識別されたテクノロジーに関連付けられた第3のサブカテゴリに関連するドキュメントを識別するように構成された第3の予測モデルを生成する工程と、第3の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第4のサブセットを識別する第4のデータを生成する工程と、をさらに含み、第3のサブセットは、第1のサブセットおよび第2のサブセット、第2のサブセットおよび第4のサブセット、または第1のサブセットおよび第4のサブセットのうちの少なくとも1つにあるサンプルドキュメントを含む方法。
20. 条項13、14、15、16、17、18、および/または19のいずれかに記載の方法であって、第1の予測モデルおよび第2の予測モデルを含む予測モデルのモデル階層を格納する工程であって、モデル階層は予測モデル間の関係を示す、工程と、識別されたテクノロジーに関するドキュメントのクラス内予測が第1の予測モデルおよび第2の予測モデルを利用して実行されるインジケータを生成する工程と、モデル階層から利用するためのモデルについての検索クエリを受信する工程と、検索クエリが識別されたテクノロジーに対応することを決定する工程と、第1の予測モデルおよび第2の予測モデルの代わりにインジケータを表す検索クエリに応答データを提供する工程と、をさらに含む方法。
前述の発明は、特定の実施例に関して説明されるが、本発明の範囲は、これらの特定の実施例に限定されないことを理解されたい。特定の動作要件および環境に適合するように変更された他の修正および変更は、当業者には明らかであるため、本発明は、開示の目的のために選択された例に限定されるものではなく、本発明の真の精神および範囲からの逸脱を構成しないすべての変更および修正を対象とする。
本出願は、特定の構造的特徴および/または方法論的行為を有する実施形態を記載するが、特許請求の範囲は、必ずしも記載された特定の特徴または行為に限定されるものではないことを理解されたい。むしろ、特定の特徴および行為は、特許請求の範囲の範囲内に入るいくつかの実施形態を例示するだけである。

Claims (15)

  1. ユーザクエリを表現する第1のデータを受信して、識別されたテクノロジーに関連付けられた特許ドキュメントを識別する工程と、
    前記識別されたテクノロジーに関連付けられた第1のサブカテゴリを識別する工程と、
    前記第1のサブカテゴリに関連する前記特許ドキュメントを識別するように構成された第1の予測モデルを生成する工程と、
    前記識別されたテクノロジーに関連付けられた第2のサブカテゴリを識別する工程と、
    前記第2のサブカテゴリに関連する前記特許ドキュメントを識別するように構成された第2の予測モデルを生成する工程と、
    前記第1の予測モデルに対する第1の入力として、サンプル特許ドキュメントを表現する第2のデータを提供する工程と、
    前記第1の予測モデルからの第1の出力として、前記第1の予測モデルによってクラス内にあると決定された前記サンプル特許ドキュメントの第1のサブセットを識別する第3のデータを生成する工程と、
    前記第2の予測モデルに対する第2の入力として、前記サンプル特許ドキュメントを表現する前記第2のデータを提供する工程と、
    前記第2の予測モデルからの第2の出力として、前記第2の予測モデルによってクラス内にあると決定された前記サンプル特許ドキュメントの第2のサブセットを識別する第4のデータを生成する工程と、
    前記第1のサブセットおよび前記第2のサブセット内にある前記サンプル特許ドキュメントの第3のサブセットを決定する工程と、
    前記ユーザクエリに関連付けられたデバイスに、前記識別されたテクノロジーに関連するような前記サンプル特許ドキュメントの前記第3のサブセットの少なくとも識別子を表示させる工程と、
    を含むことを特徴とする方法。
  2. 前記識別されたテクノロジーに関連付けられた第3のサブカテゴリを識別する工程と、 前記第3のサブカテゴリに関連する前記特許ドキュメントを識別するように構成された第3の予測モデルを生成する工程と、
    前記第3の予測モデルからの出力として、前記第3の予測モデルによってクラス内にあると決定された前記サンプル特許ドキュメントの第4のサブセットを識別する第5のデータを生成する工程と、
    をさらに含み、
    前記第3のサブセットは、
    前記第1のサブセット、前記第2のサブセット、および前記第4のサブセット内にあるか、または
    前記第1のサブセット、前記第2のサブセット、および前記第4のサブセットのうちの少なくとも2つ内にある
    前記サンプル特許ドキュメントを含むことを特徴とする請求項1に記載の方法。
  3. 前記第1の予測モデルに適用するための第1の信頼度閾値を決定する工程であって、前記第1の信頼度閾値は、クラス内として所与の特許ドキュメントを予測するための第1の信頼度を示す工程と、
    前記第2の予測モデルに適用するための第2の信頼度閾値を決定する工程であって、前記第2の信頼度閾値はクラス内として前記所与の特許ドキュメントを予測するための第2の信頼度を示し、前記第1の信頼度閾値は前記第2の信頼度閾値とは異なる工程と、
    をさらに含み、
    前記第3のデータを生成する工程は、前記第1の信頼度閾値に少なくとも部分的に基づいており、
    前記第4のデータを生成する工程は、前記第2の信頼度閾値に少なくとも部分的に基づいていることを特徴とする請求項1に記載の方法。
  4. 前記第3のサブセット内の前記サンプル特許ドキュメントの個々のクレームのクレーム幅を示すクレーム幅値を決定する工程と、
    前記第3のサブセット内にあり、閾値クレーム幅値を満たすクレーム幅値を有する前記サンプル特許ドキュメントの第4のサブセットを決定する工程と、
    前記デバイスに、前記サンプル特許ドキュメントの前記第4のサブセットのための識別子の表示を優先させる工程と、
    をさらに含むことを特徴とする請求項1に記載の方法。
  5. 1つまたは複数のプロセッサと、
    前記1つまたは複数のプロセッサによって実行されたときに、前記1つまたは複数のプロセッサに、
    識別されたテクノロジーに関連付けられた第1のサブカテゴリに関連するドキュメントを識別するように構成された第1の予測モデルを生成する工程と、
    前記識別されたテクノロジーに関連付けられた第2のサブカテゴリに関連する前記ドキュメントを識別するように構成された第2の予測モデルを生成する工程と、
    前記第1の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第1のサブセットを識別する第1のデータを生成する工程と、
    前記第2の予測モデルを利用して、クラス内にあると決定された前記サンプルドキュメントの第2のサブセットを識別する第2のデータを生成する工程と、
    前記第1のサブセットおよび前記第2のサブセット内にある前記サンプルドキュメントの第3のサブセットを示す第3のデータを生成する工程と、
    を含む動作を実行させるコンピュータ実行可能命令を格納する非一時的コンピュータ可読媒体と、
    を含むことを特徴とするシステム。
  6. 前記動作は、
    前記識別されたテクノロジーに関連付けられた第3のサブカテゴリに関連する前記ドキュメントを識別するように構成された第3の予測モデルを生成する工程と、
    前記第3の予測モデルを利用して、クラス内にあると決定された前記サンプルドキュメントの第4のサブセットを識別する第4のデータを生成する工程と、
    をさらに含み、
    前記第3のサブセットは、前記第1のサブセット、前記第2のサブセット、および前記第4のサブセット内にある前記サンプルドキュメントを含むことを特徴とする請求項5に記載のシステム。
  7. 前記動作は、
    前記第1の予測モデルに適用するための第1の信頼度閾値を決定する工程と、
    前記第2の予測モデルに適用するための第2の信頼度閾値を決定する工程であって、前記第1の信頼度閾値は前記第2の信頼度閾値とは異なる工程と、
    をさらに含み、
    前記第1のデータを生成する工程は、前記第1の信頼度閾値に少なくとも部分的に基づいており、
    前記第2のデータを生成する工程は、前記第2の信頼度閾値に少なくとも部分的に基づいていることを特徴とする請求項5に記載のシステム。
  8. 前記動作は、
    前記サンプルドキュメントの個々について、前記サンプルドキュメントの個々のクレームに関するクレームスコアを決定する工程と、
    前記第3のサブセット内にあり閾値クレームスコアを満たすクレームスコアを有する前記サンプルドキュメントの第4のサブセットを決定する工程と、
    をさらに含むことを特徴とする請求項5に記載のシステム。
  9. 前記第1の予測モデルは、クラス内として所与の特許ドキュメントを予測するための第1の信頼度を示す第1の信頼度閾値に関連付けられ、前記動作は、
    前記第1の信頼度閾値を利用して前記第1の予測モデルによってクラス内として予測されるドキュメントからキーワードを表示するように構成されたユーザインターフェースを生成する工程と、
    前記第1の予測モデルに適用するための第2の信頼度閾値を示すユーザ入力データを受信する工程であって、前記ユーザ入力データは前記ユーザインターフェースを介して表示されるような前記キーワードに応答する、工程と、
    前記第1の信頼度閾値の代わりに前記第2の信頼度閾値を前記第1の予測モデルに適用する工程と、
    をさらに含むことを特徴とする請求項5に記載のシステム。
  10. 前記動作は、
    座標系内の前記第3のサブセットに関連付けられた前記ドキュメントを表現する第1のベクトルを生成する工程と、
    前記第1のベクトルに関連付けられた前記座標系の領域を決定する工程と、
    前記領域内にある前記座標系内の第2のベクトルによって表現される追加のドキュメントを識別する工程と、
    をさらに含むことを特徴とする請求項5に記載のシステム。
  11. 前記動作は、
    前記識別されたテクノロジーに関連付けられた第3のサブカテゴリに関連する前記ドキュメントを識別するように構成された第3の予測モデルを生成する工程と、
    前記第3の予測モデルを利用して、クラス内にあると決定された前記サンプルドキュメントの第4のサブセットを識別する第4のデータを生成する工程と、
    をさらに含み、
    前記第3のサブセットは、
    前記第1のサブセットおよび前記第2のサブセット、
    前記第2のサブセットおよび前記第4のサブセット、または
    前記第1のサブセットおよび前記第4のサブセット、
    のうちの少なくとも1つ内にある前記サンプルドキュメントを含むことを特徴とする請求項5に記載のシステム。
  12. 前記動作は、
    前記第1の予測モデルおよび前記第2の予測モデルを含む予測モデルのモデル階層を格納する工程であって、前記モデル階層は前記予測モデル間の関係を示す、工程と、
    前記識別されたテクノロジーに関するドキュメントのクラス内予測が前記第1の予測モデルおよび前記第2の予測モデルを利用して実行されるインジケータを生成する工程と、
    前記モデル階層から利用するためのモデルについての検索クエリを受信する工程と、
    前記検索クエリが前記識別されたテクノロジーに対応することを決定する工程と、
    前記第1の予測モデルおよび前記第2の予測モデルの代わりに前記インジケータを表す前記検索クエリに応答データを提供する工程と、
    をさらに含むことを特徴とする請求項5に記載のシステム。
  13. 識別されたテクノロジーに関連付けられた第1のサブカテゴリに関連するドキュメントを識別するように構成された第1の予測モデルを生成する工程と、
    前記識別されたテクノロジーに関連付けられた第2のサブカテゴリに関連する前記ドキュメントを識別するように構成された第2の予測モデルを生成する工程と、
    前記第1の予測モデルを利用して、クラス内にあると決定されたサンプルドキュメントの第1のサブセットを識別する第1のデータを生成する工程と、
    前記第2の予測モデルを利用して、クラス内にあると決定された前記サンプルドキュメントの第2のサブセットを識別する第2のデータを生成する工程と、
    前記第1のサブセットおよび前記第2のサブセット内にある前記サンプルドキュメントの第3のサブセットを示す第3のデータを生成する工程と、
    を含むことを特徴とする方法。
  14. 前記識別されたテクノロジーに関連付けられた第3のサブカテゴリに関連する前記ドキュメントを識別するように構成された第3の予測モデルを生成する工程と、
    前記第3の予測モデルを利用して、クラス内にあると決定された前記サンプルドキュメントの第4のサブセットを識別する第4のデータを生成する工程と、
    をさらに含み、
    前記第3のサブセットは、前記第1のサブセット、前記第2のサブセット、および前記第4のサブセット内にある前記サンプルドキュメントを含むことを特徴とする請求項13に記載の方法。
  15. 前記第1の予測モデルに適用するための第1の信頼度閾値を決定する工程と、
    前記第2の予測モデルに適用するための第2の信頼度閾値を決定する工程であって、前記第1の信頼度閾値は前記第2の信頼度閾値とは異なる工程と、
    をさらに含み、
    前記第1のデータを生成する工程は、 前記第1の信頼度閾値に少なくとも部分的に基づいており、
    前記第2のデータを生成する工程は、 前記第2の信頼度閾値に少なくとも部分的に基づいていることを特徴とする請求項13に記載の方法。
JP2023545904A 2021-02-03 2022-02-02 モデルインターセクションを使用したドキュメント分析 Pending JP2024505909A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/166,199 US11928879B2 (en) 2021-02-03 2021-02-03 Document analysis using model intersections
US17/166,199 2021-02-03
PCT/US2022/014826 WO2022169795A1 (en) 2021-02-03 2022-02-02 Document analysis using model intersections

Publications (1)

Publication Number Publication Date
JP2024505909A true JP2024505909A (ja) 2024-02-08

Family

ID=82612051

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023545904A Pending JP2024505909A (ja) 2021-02-03 2022-02-02 モデルインターセクションを使用したドキュメント分析

Country Status (6)

Country Link
US (2) US11928879B2 (ja)
EP (1) EP4288848A1 (ja)
JP (1) JP2024505909A (ja)
KR (1) KR20230142754A (ja)
CN (1) CN116848490A (ja)
WO (1) WO2022169795A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4295244A1 (en) * 2021-02-18 2023-12-27 Xero Limited Systems and method for generating labelled datasets
US12135936B2 (en) * 2021-06-03 2024-11-05 Capital One Services, Llc Systems and methods for natural language processing
US11568276B1 (en) * 2021-08-25 2023-01-31 International Business Machines Corporation Adaptive document understanding
US20230087206A1 (en) * 2021-09-17 2023-03-23 Aon Risk Services, Inc. Of Maryland Intellectual-property analysis platform
US20230214582A1 (en) * 2022-01-05 2023-07-06 Cars.Com, Llc Automatic identifying and emphasizing of key text

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233575B1 (en) * 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
GB2371901B (en) * 1999-09-21 2004-06-23 Andrew E Borthwick A probabilistic record linkage model derived from training data
US7451065B2 (en) * 2002-03-11 2008-11-11 International Business Machines Corporation Method for constructing segmentation-based predictive models
US7644360B2 (en) * 2003-11-07 2010-01-05 Spore, Inc. Patent claims analysis system and method
US20050182755A1 (en) * 2004-02-14 2005-08-18 Bao Tran Systems and methods for analyzing documents over a network
US7716226B2 (en) * 2005-09-27 2010-05-11 Patentratings, Llc Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects
US8065307B2 (en) * 2006-12-20 2011-11-22 Microsoft Corporation Parsing, analysis and scoring of document content
US20090132522A1 (en) * 2007-10-18 2009-05-21 Sami Leino Systems and methods for organizing innovation documents
US20090132496A1 (en) * 2007-11-16 2009-05-21 Chen-Kun Chen System And Method For Technique Document Analysis, And Patent Analysis System
KR20110027729A (ko) * 2008-06-24 2011-03-16 샤론 벨렌손 특허 문헌에 적용 가능한 검색 엔진 및 그 방법
US20100131513A1 (en) * 2008-10-23 2010-05-27 Lundberg Steven W Patent mapping
US20100287148A1 (en) * 2009-05-08 2010-11-11 Cpa Global Patent Research Limited Method, System, and Apparatus for Targeted Searching of Multi-Sectional Documents within an Electronic Document Collection
US8396870B2 (en) * 2009-06-25 2013-03-12 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling
US9367814B1 (en) * 2011-12-27 2016-06-14 Google Inc. Methods and systems for classifying data using a hierarchical taxonomy
EP3030216B1 (en) * 2013-08-09 2019-12-18 The Chemours Company FC, LLC Skin care compositions having cyclic diesters and methods thereof
US10133791B1 (en) * 2014-09-07 2018-11-20 DataNovo, Inc. Data mining and analysis system and method for legal documents
US10019442B2 (en) * 2015-05-31 2018-07-10 Thomson Reuters Global Resources Unlimited Company Method and system for peer detection
US20180268015A1 (en) * 2015-09-02 2018-09-20 Sasha Sugaberry Method and apparatus for locating errors in documents via database queries, similarity-based information retrieval and modeling the errors for error resolution
TWI578242B (zh) * 2015-11-13 2017-04-11 財團法人資訊工業策進會 技術趨勢預測方法及系統及非暫態電腦可讀取記錄媒體
US10909188B2 (en) * 2018-10-12 2021-02-02 Black Hills Ip Holdings, Llc Machine learning techniques for detecting docketing data anomalies
KR102367135B1 (ko) * 2018-11-14 2022-02-24 삼성전자주식회사 무선 통신 네트워크의 seal 시스템에서 서비스 간 통신을 프로비저닝하기 위한 seal 시스템 및 방법
US10452902B1 (en) * 2018-12-21 2019-10-22 Capital One Services, Llc Patent application image generation systems
WO2020227434A1 (en) * 2019-05-07 2020-11-12 Cerebri AI Inc. Predictive, machine-learning, locale-aware computer models suitable for location- and trajectory-aware training sets
US11776291B1 (en) * 2020-06-10 2023-10-03 Aon Risk Services, Inc. Of Maryland Document analysis architecture
US11893505B1 (en) * 2020-06-10 2024-02-06 Aon Risk Services, Inc. Of Maryland Document analysis architecture
US11373424B1 (en) * 2020-06-10 2022-06-28 Aon Risk Services, Inc. Of Maryland Document analysis architecture
US11379665B1 (en) * 2020-06-10 2022-07-05 Aon Risk Services, Inc. Of Maryland Document analysis architecture
US11893065B2 (en) * 2020-06-10 2024-02-06 Aon Risk Services, Inc. Of Maryland Document analysis architecture
US11893537B2 (en) * 2020-12-08 2024-02-06 Aon Risk Services, Inc. Of Maryland Linguistic analysis of seed documents and peer groups

Also Published As

Publication number Publication date
US11928879B2 (en) 2024-03-12
KR20230142754A (ko) 2023-10-11
WO2022169795A1 (en) 2022-08-11
EP4288848A1 (en) 2023-12-13
US20240282137A1 (en) 2024-08-22
CN116848490A (zh) 2023-10-03
US20220245378A1 (en) 2022-08-04

Similar Documents

Publication Publication Date Title
US20240282137A1 (en) Document analysis using model intersections
KR102564144B1 (ko) 텍스트 관련도를 확정하기 위한 방법, 장치, 기기 및 매체
WO2022116537A1 (zh) 一种资讯推荐方法、装置、电子设备和存储介质
US11379665B1 (en) Document analysis architecture
US11373424B1 (en) Document analysis architecture
JP5391633B2 (ja) オントロジー空間を規定するタームの推奨
JP5391634B2 (ja) 文書の段落分析によるその文書のタグの選択
WO2021139262A1 (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN110147421B (zh) 一种目标实体链接方法、装置、设备及存储介质
US9928284B2 (en) File recognition system and method
WO2021252419A1 (en) Document analysis architecture
CN107391682B (zh) 知识验证方法、知识验证设备以及存储介质
CN113924582A (zh) 机器学习处理流水线优化
CN110232185A (zh) 面向金融行业软件测试基于知识图谱语义相似度计算方法
US11776291B1 (en) Document analysis architecture
CN109509517A (zh) 一种医学检验检查指标自动修正的方法
WO2021142968A1 (zh) 面向多语种的通用地名语义相似度计算方法及其应用
US11893505B1 (en) Document analysis architecture
US11893065B2 (en) Document analysis architecture
JP7138981B1 (ja) 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム
CN116933130A (zh) 一种基于大数据的企业行业分类方法、系统、设备及介质
CN112818221B (zh) 实体的热度确定方法、装置、电子设备及存储介质
CN110413782B (zh) 一种表自动主题分类方法、装置、计算机设备及存储介质
JP5890413B2 (ja) 多数のデータレコードをサーチする方法及びサーチエンジン
JP2015203960A (ja) 部分情報抽出システム