CN116848490A - 使用模型相交进行文档分析 - Google Patents
使用模型相交进行文档分析 Download PDFInfo
- Publication number
- CN116848490A CN116848490A CN202280012001.0A CN202280012001A CN116848490A CN 116848490 A CN116848490 A CN 116848490A CN 202280012001 A CN202280012001 A CN 202280012001A CN 116848490 A CN116848490 A CN 116848490A
- Authority
- CN
- China
- Prior art keywords
- documents
- subset
- document
- class
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title abstract description 68
- 238000000034 method Methods 0.000 claims abstract description 128
- 238000005516 engineering process Methods 0.000 claims abstract description 86
- 239000013598 vector Substances 0.000 claims description 65
- 230000004044 response Effects 0.000 claims description 11
- 238000013145 classification model Methods 0.000 description 137
- 230000008569 process Effects 0.000 description 61
- 238000012549 training Methods 0.000 description 48
- 230000015654 memory Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 24
- 230000000007 visual effect Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000002349 favourable effect Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013526 transfer learning Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 4
- 239000013589 supplement Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000000711 locust bean gum Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/11—Patent retrieval
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了用于使用模型相交进行文档分析的系统和方法。构建并训练预测模型以预测给定文档相对于给定模型是否为类内。每个预测模型都可以与已识别技术的子类别相关联。可以识别由预测模型中的多个预测模型确定为类内的文档并将其分组到子集中。可以将文档的这些子集识别为与所讨论的技术相关。
Description
相关申请的交叉引用
本申请要求享有于2021年2月3日提交的名为“DOCUMENT ANALYSIS USING MODELINTERSECTIONS”的美国专利申请第17/166,199号的优先权,该美国专利申请的全部内容通过引用并入本文。
背景技术
确定诸如文档之类的信息与其他信息相关联的相似性、差异性、和分类可以是有价值的。然而,量化文档分析的属性很困难,特别是在大型文档语料库中。本文描述的是对技术问题的技术改进和解决方案,尤其可以用于利用建模技术来分析文档以及其他。
附图说明
下面参考附图来阐述详细描述。在附图中,附图标记的最左边的数字标识该附图标记首次在其中出现的图。在不同的图中使用相同的附图标记指示相似或相同的项目。附图中描绘的系统不是按比例绘制的,并且图中的组件可能不是彼此按比例描绘的。
图1示出了用于使用模型相交进行文档分析的示例环境的示意图。
图2示出了文档表示和模型表示的概念图。
图3示出了具有不同置信值阈值的模型表示的概念图。
图4示出了用于通过模型相交进行文档分析并利用权利要求宽度评分的组件的概念图。
图5示出了用于训练文档分析的模型的用户界面和组件的概念图。
图6示出了用户界面的概念图,其显示与经训练的模型相关联的关键字。
图7示出了模型分类法(taxonomy)的概念图。
图8示出了用于使用模型相交进行文档分析的示例方法的流程图。
图9示出了用于使用模型相交进行文档分析的另一示例方法的流程图。
具体实施方式
公开了用于利用模型相交进行文档分析的系统和方法。举例来说,实体会发现利用平台来确定一组文档中的哪些文档对于给定目的为类内(in class),以及一组文档中的哪些文档对于该给定目的为类外(out of class)是有益的。例如,实体可能希望知道哪些专利和/或专利申请与专利性确定、侵权确定、资产收购目的、研究和开发目的、保险目的等最相关。通常,用户可以利用关键字搜索来搜索这种文档的数据库。为了收集的合理数量的结果,而不过度限制那些结果中的文档,用户可以采用宽关键字搜索,并且然后审阅每个文档,以确定每个文档对于当前目的而言应被考虑为类内还是类外。然而,以专利和专利申请为例,即使只看在美国提交的专利和专利申请,潜在的文档语料库的数量也很容易达到数千甚至数万甚至更多。鉴于此,被配置为进行以下操作的文档分析平台将是有益的:接纳文档、接收边际用户输入以训练分类模型、并且然后使用这些分类模型来确定一组文档中的哪些文档为类内。
然而,某些已识别的技术可以在给定技术的子类别内具有不同的主题。在这些示例中,分类模型的训练可能很困难,因为与给定子类别相关联的正训练数据可能对另一子类别产生负面影响。在这些示例中,模型训练可能不精确并导致这样的分析:其中不相关的文档被包括在模型结果中和/或相关的文档被从模型结果中排除。为了帮助限制这些负面结果,本文公开了用于利用模型相交来改进文档分析的系统和过程。例如,可以接收搜索查询以识别与该搜索查询相关的一组文档。搜索查询可以包括定义与搜索查询相关的内容的一个或多个关键字和/或短语。
利用本文描述的文档分析平台,可以识别具有对应于搜索查询的关键字的一组文档。此后,可以利用指示给定文档是在类内还是类外的用户输入来构建和/或训练一个或多个文档分类模型。如将在下面更详细地描述的,用户可以利用用户界面来查看给定文档的全部或一部分,并选择用户界面上的元素以将该给定文档识别为类内或类外。一旦用户已经将阈值数量的文档标记为类内或类外,可以基于被标记为类内的文档的正训练数据集、以及在一些示例中被标记为类外的文档的负训练数据集来训练一个或多个分类模型。此后,可以利用经训练的分类模型来预测一组文档中其余的哪些文档为类内或类外。然而,如上所述,对于某些技术,这些经训练的分类模型的结果可能不精确,并且可能错误地包括不相关的文档和/或排除相关的文档。
在这些场景中,已识别技术可以由两个或更多个子类别表示,而不是训练单个模型来预测文档分类。子类别可以表示已识别技术的一部分。利用这种方法,可以利用已识别技术的第一子类别的正和/或负训练数据集来训练第一分类模型,并且可以利用已识别技术的第二子类别的正和/或负训练数据集来训练第二分类模型。还可以训练已识别技术的附加子类别的附加模型。此后,可以利用分类模型中的每一个来确定针对模型中的每一个的在类内的文档的子集。例如,要分析包含10000个文档的样本文档集,以确定这些文档中的哪些文档相对于具有三个子类别的已识别技术为类内。第一子类别的第一分类模型可以识别10000个文档中的500个文档相对于第一子类别为类内;第二子类别的第二分类模型可以识别10000个文档中的750个文档相对于第二子类别为类内;并且第三子类别的第三分类模型可以识别10000个文档中的400个文档相对于第三子类别为类内。
利用本文描述的模型相交技术,可以生成被识别为在类内的文档的不同组作为结果。例如,第一组可以包括由分类模型中的至少一个识别为类内的任何文档。第二组可以包括由分类模型中的至少两个识别为类内的任何文档。第三组可以包括由分类模型中的每一个识别为类内的任何文档。从上文提供的示例应当理解,对于第一组,类内文档的数量将多于第二组,并且第二组中的类内文档的数量将多于第三组。以这种方式,由分类模型中的每一个指示为类内的文档的第三组表示文档的样本组中与已识别技术的每个子类别相关的那些文档。应当理解,还包括相对于模型结果的相交的文档的其他分组。这些模型相交分析的结果可以被提供给与搜索查询相关联的计算设备。例如,可以向计算设备的用户显示分组中的一些或全部分组中的类内文档,和/或可以提供文档和/或分组的标识。
在一些示例中,可以利用用户界面来显示本文描述的模型相交的表示。通过示例的方式,模型相交的表示可以包括具有模型的标识符和文档的标识符的图表,这些文档由那些模型预测为类内或类外。例如,模型的标识符可以包括圆形或其他形状,从而示出模型已经被训练为将其预测为类内的内容的边界。文档的标识符可以包括位于模型标识符中的一个或多个模型标识符内的点或其他表示。文档标识符的位置可以表示文档与关联于分类模型的子类别和/或多个子类别的相关性。
确定给定文档为类内还是类外可以至少部分地基于与通过给定分类模型将该文档预测为类内相关联的置信分数。例如,可以设置置信分数阈值(例如,设置为0.90),并且以至少0.90的置信度被预测为类内的文档将被认为是类内,而经分析的文档的其余部分将被认为是类外。在某些示例中,与已识别技术的子类别相关联的所有分类模型可以具有相同的置信分数阈值。在这些示例中,显示在用户界面上的模型的标识符可以大小相等。然而,在其他示例中,置信分数阈值可以彼此不同。例如,对应于第一子类别的分类模型可以具有0.90的阈值置信分数,而对应于第二子类别的模型可以具有0.80的阈值置信分数,并且对应于第三子类别的模型可以具有0.97的阈值置信分数。在这些示例中,置信分数阈值可以是动态的并且可以改变有多少文档由本文描述的模型相交组确定为类内。以这种方式,本文描述的用户和/或系统可以通过改变与模型相关联的置信分数阈值来增加或减少所得的类内文档的数量。
除了以上内容之外,本文描述的用户界面可以用于呈现关键字,该关键字被指示为与针对正训练数据集和/或负训练数据集的经训练的分类模型最相关。通过这样做,用户可以可视化关键字并确定关键字组是否过于包容(例如,包括不相关的关键字)或过于排他(例如,不包括相关的关键字)。利用此功能,可以执行模型的附加训练和/或可以改变模型的置信分数阈值。
除了为了一个或多个目的,利用模型相交来确定文档的相关性之外,还可以应用附加因素来确定给定文档是否应该被确定为相关的和/或突出显示。通过示例的方式,要应用的一个因素可以是权利要求宽度分数,特别是在所讨论的文档表示专利和/或专利申请的实例中。如本文将更全面地描述的,可以分析文档的权利要求部分以确定权利要求的宽度,其中具有宽权利要求的文档获得较有利的分数,并且具有窄权利要求的文档获得不太有利的分数。可以分析除了权利要求宽度之外的附加因素并且也将其应用于对文档评分。在这些示例中,本文描述的模型相交分析可以用于识别本文描述的文档分组。此后,可以针对一个或多个附加因素分析所得的文档以确定那些文档中的哪些应该响应于给定的搜索查询而被识别和/或那些文档中的哪些应该被突出显示或以其他方式强调。
另外地或可替代地,本文描述的文档分析平台可以包括已经训练和/或利用的分类模型的模型分类法。该模型分类法可以用于显示模型之间的关系和/或提供按模型搜索的功能。本文描述的模型相交分析的指示符可以被包括在模型分类法中并且可以用于后续的模型分析。这些指示符可以包括模型分类法的节点之间的视觉指示符,其中每个节点表示分类模型。可以提供节点之间的线或其他连接符以显示哪些模型被用来针对所讨论的技术开发文档分组。
如本文所描述的文档分析平台可以由可以连接到一个或多个其他系统和/或设备的系统托管或以其他方式利用。例如,该系统可以被配置为通过网络从第三方系统接收文档,该第三方系统包括存储表示文档的数据的文档数据库。该平台还可以被配置为通过网络从一个或多个客户端设备接收表示文档的数据,这些客户端设备可以是被配置为访问互联网、显示信息、和接收用户输入的计算设备。客户端设备可以包括本文描述的一个或多个用户界面和/或可以包括被配置为(例如,经由驻留在客户端设备的存储器中的应用和/或经由互联网浏览器)指示客户端设备的处理器显示由与文档分析平台相关联的系统提供的用户界面的应用。客户端设备可以接收用户输入(例如,来自用户界面的用户输入),并且可以将对应于该用户输入的用户输入数据提供给与文档分析平台相关联的系统。系统可以利用该用户输入数据进行本文描述的各种操作。如本文所述的模型构建组件和模型库组件可以存储在系统的存储器中并且可以用于例如训练分类模型、预测文档分类、以及搜索模型。
如本文所述,文档分析平台可以被配置为接收与给定文档的分类相关联的用户输入数据。为了利用该用户输入数据来训练分类模型,文档分析平台可以执行一个或多个操作。在一些示例中,该平台可以生成正训练数据集,其指示与被用户标记为类内的文档相关联的类内关键字。例如,该平台可以确定与给定文档相关联的一个或多个关键字,这些关键字表示该文档的主题。这可以利用一种或多种文档处理技术(例如,词频逆文档频率(termfrequency inverse document frequency)技术)来执行。该平台还可以生成负训练数据集,其指示来自被用户输入标记为类外的文档的关键字。然后可以利用这些训练数据集中的每一个来训练分类模型,使得分类模型被配置为确定给定文档是否具有与类外关键字相比更类似于类内关键字的关键字。在其他示例中,代替或除了基于关键字生成训练数据集之外,平台可以确定给定文档的向量。向量可以与坐标系相关联并且可以按向量的形式表示文档的主题。可以针对标记为类内的文档和标记为类外的文档生成向量。可以训练分类模型以确定给定文档的向量表示是否在坐标系中与类外向量相比更接近类内向量。用于生成表示文档的向量的技术可以包括向量化技术,例如,Doc2Vec或其他类似技术。
另外地或可替代地,文档表示可以包括一种方法,该方法获取文档,并至少部分地基于文档的文本内容将其转换为向量形式,作为浮点数的列表。这种向量形式可以称为嵌入。这种嵌入可以用于计算文档之间的距离,并且因此计算文档之间的相似性。这些嵌入可以与分类模型结合使用,以补充或替换上述关键字和/或向量。嵌入可以用于使用集合来创建文档的主题组。文档集可以是一些关键字、CPC、所有者等,并且结果可以是共享相似主题的文档组(例如,聚类)的视觉显示。在聚类过程中可以存在一定程度的监督,这可以允许对哪些文档被分组到哪些聚类中进行一些人为控制。
在进一步的示例中,分类模型可以利用迁移学习(transfer learning)。在这些示例中,可以生成和/或接收通用模型,并且每个特定分类模型可以使用通用模型作为起点。与必须从头开始训练分类模型相反,该模型将根据通用模型针对模型尚未关于正在建模的特定场景进行训练的任何内容进行微调。这些迁移学习技术可以包括ULMFit的用户、BERT、ELMo、和T5等。
除了上述用于训练分类模型的技术之外,还可以至少部分地基于文档的分类来训练和/或组织分类模型。例如,当文档是专利和专利申请时,可以建立预定的分类系统来对给定文档的主题进行分类。分类系统可以由平台、由一个或多个用户、和/或由第三方确定。例如,专利和专利申请可以与预定义的分类系统(例如,合作专利分类(CPC)系统)相关联。CPC系统采用对应于不同主题的CPC码,如本文更详细描述的。可以识别给定文档的CPC码,并且可以确定与这些码相关联的类别。可以给用户呈现用户界面,其呈现确定的类别并且允许用户选择用户为了给定目的找到为类内的类别。所选择的类别可以用作用于训练分类模型的特征。另外地或可替代地,该平台可以确定被标记为类内的文档的CPC码,并且可以训练分类模型以将这些CPC码与关联于要分析的文档的CPC代码进行比较以确定分类。
本公开提供对本文公开的系统和方法的结构、功能、制造和使用的原理的全面理解。附图中示出了本公开内容的一个或多个示例。本领域的技术人员将理解,本文具体描述和附图中示出的系统和方法是非限制性实施例。结合一个实施例示出或描述的特征可以与其他实施例的特征进行组合,包括在系统和方法之间进行组合。此类修改和变化旨在被包括在所附权利要求的范围内。
下面参照若干示例实施例描述附加细节。
图1示出了用于文档分析架构的示例架构100的示意图。架构100可以包括例如一个或多个客户端侧设备102(在本文中也被描述为电子设备102)、与文档分析平台相关联的文档分析系统104和/或与一个或多个文档数据库136相关联的文档数据库系统106。设备和系统中的一些或全部可以被配置为经由网络108相互通信。
电子设备102可以包括组件,例如,一个或多个处理器110、一个或多个网络接口112和/或存储器114。存储器114可以包括组件,例如,一个或多个用户界面116和/或一个或多个文档数据库118。如图1所示,电子设备102可以包括例如计算设备、移动电话、平板计算机、膝上型计算机和/或一个或多个服务器。下面将通过示例的方式描述电子设备102的组件。应当理解,本文提供的示例是说明性的,并且不应被认为是电子设备102的组件的排他性示例。
通过示例的方式,用户界面116可以包括本文其他地方描述的用户界面中的一个或多个用户界面,例如,对应于模型构建器用户界面的用户界面、文档概要用户界面、完整文档用户界面、用于文档投票的用户界面、置信值用户界面、关键字用户界面、搜索查询用户界面、模型分类法用户界面等。应当理解,虽然用户界面116被描绘为客户端侧设备102的存储器114的组件,但是用户界面116可以另外地或可替代地与文档分析系统104相关联。用户界面116可以被配置为显示与文档分析平台相关联的信息以及接收与文档分析平台相关联的用户输入。客户端侧设备102的文档数据库118和/或文档数据库系统106的文档数据库136可以包括与用户可能希望使用文档分析平台进行分析的文档相对应的数据。那些文档可以包括例如专利和专利申请,和/或文档可以包括非专利文档。可以相对于文档数据库系统106的文档数据库136存储文档和/或可以相对于客户端侧设备102的文档数据库118存储文档。
文档分析系统104可以包括一个或多个组件,例如,一个或多个处理器120、一个或多个网络接口122和/或存储器124。存储器124可以包括一个或多个组件,例如,模型构建器组件126、模型分类法组件128、相交组件130、置信度组件132和/或权利要求宽度组件134。模型构建器组件126可以被配置为接收用户输入数据,如本文描述的用于将文档标记为类内或类外。模型构建器组件126还可以被配置为利用用户输入数据以及与所讨论的文档集相关联的其他数据,以训练分类模型以确定给定文档的分类。模型构建器组件126还可以被配置为利用经训练的分类模型来预测文档分类并显示分类模型的使用结果。模型分类法组件128可以被配置为生成和利用包括经训练的分类模型的模型分类法。模型分类法组件128还可以被配置为接收表示针对分类模型的使用的用户查询的用户输入数据,并且向搜索查询显示指示与该搜索查询相关联的一个或多个模型的搜索结果。客户端侧设备102和/或文档分析系统104的附加组件在下面通过示例的方式描述。
例如,利用本文描述的文档分析平台,可以识别具有对应于搜索查询的关键字的一组文档。可以将那些文档从文档数据库136、118中识别出来。此后,可以利用模型构建器组件126构建和/或训练一个或多个文档分类模型,该模型构建器组件126利用指示给定文档为类内或类外的用户输入。用户可以利用用户界面来查看给定文档的全部或一部分并选择用户界面116上的元素以将给定文档识别为类内或类外。一旦用户已经将阈值数量的文档标记为类内或类外,就可以基于标记为类内的文档的正训练数据集、以及在一些示例中标记为类外的文档的负训练数据集来训练一个或多个分类模型。此后,可以利用经训练的分类模型来预测一组文档中其余的哪些文档为类内或类外。然而,如本文所述,对于某些技术,这些经训练的分类模型的结果可能不精确,并且可能错误地包括不相关的文档和/或排除相关的文档。
在这些场景中,已识别技术可以由两个或更多个子类别表示,而不是训练单个模型来预测文档分类。相交组件130可以被配置为识别子类别和/或接收指示子类别的用户输入。子类别可以表示已识别技术的一部分。利用这种方法,可以利用已识别技术的第一子类别的正和/或负训练数据集来训练第一分类模型,并且可以利用已识别技术的第二子类别的正和/或负训练数据集来训练第二分类模型。还可以训练已识别技术的附加子类别的附加模型。此后,可以利用分类模型中的每一个,通过相交组件130来确定针对模型中的每一个的在类内的文档的子集。例如,要分析包含10000个文档的样本文档集,以确定这些文档中的哪些文档相对于具有三个子类别的已识别技术为类内。第一子类别的第一分类模型可以识别10000个文档中的500个文档相对于第一子类别为类内;第二子类别的第二分类模型可以识别10000个文档中的750个文档相对于第二子类别为类内;并且第三子类别的第三分类模型可以识别10000个文档中的400个文档相对于第三子类别为类内。
利用模型相交组件130,可以生成被识别为在类内的文档的不同组作为结果。例如,第一组可以包括由分类模型中的至少一个识别为类内的任何文档。第二组可以包括由分类模型中的至少两个识别为类内的任何文档。第三组可以包括由分类模型中的每一个识别为类内的任何文档。从上文提供的示例应当理解,对于第一组,类内文档的数量将多于第二组,并且第二组中的类内文档的数量将多于第三组。以这种方式,由分类模型中的每一个指示为类内的文档的第三组表示文档的样本组中与已识别技术的每个子类别相关的那些文档。可以将这些模型相交分析的结果提供给与搜索查询相关联的计算设备,例如,客户端侧设备102。例如,可以向计算设备的用户显示分组中的一些或全部分组中的类内文档,和/或可以提供文档和/或分组的标识。
在一些示例中,可以利用用户界面116来显示本文描述的模型相交的表示。通过示例的方式,模型相交的表示可以包括具有模型的标识符和文档的标识符的图表,这些文档由那些模型预测为类内或类外。例如,模型的标识符可以包括圆形或其他形状,从而示出模型已经被训练为将其预测为类内的内容的边界。文档的标识符可以包括位于模型标识符中的一个或多个模型标识符内的点或其他表示。文档标识符的位置可以表示文档与关联于分类模型的子类别和/或多个子类别的相关性。
确定给定文档为类内还是类外可以至少部分地基于与通过给定分类模型将该文档预测为类内相关联的置信分数。例如,可以利用置信度组件132设置置信分数阈值(例如,0.90),并且以至少0.90的置信度被预测为类内的文档将被认为是类内,而经分析的文档的其余部分将被认为是类外。在某些示例中,与已识别技术的子类别相关联的所有分类模型可以具有相同的置信分数阈值。在这些示例中,显示在用户界面上的模型的标识符可以大小相等。然而,在其他示例中,置信分数阈值可以彼此不同。例如,对应于第一子类别的分类模型可以具有0.90的阈值置信分数,而对应于第二子类别的模型可以具有0.80的阈值置信分数,并且对应于第三子类别的模型可以具有0.97的阈值置信分数。在这些示例中,置信分数阈值可以是动态的并且可以改变有多少文档由本文描述的模型相交组确定为类内。以这种方式,本文描述的用户和/或系统可以通过利用与模型相关联的置信度组件132改变置信分数阈值来增加或减少所得的类内文档的数量。
除了以上内容之外,本文描述的用户界面116可以用于呈现关键字,该关键字被指示为与针对正训练数据集和/或负训练数据集的经训练的分类模型最相关。通过这样做,用户可以可视化关键字并确定关键字组是否过于包容(例如,包括不相关的关键字)或过于排他(例如,不包括相关的关键字)。利用此功能,可以执行模型的附加训练和/或可以改变模型的置信分数阈值。
除了为了一个或多个目的,利用模型相交来确定文档的相关性之外,还可以应用附加因素来确定给定文档是否应该被确定为相关的和/或突出显示。通过示例的方式,要应用的一个因素可以是权利要求宽度分数,特别是在所讨论的文档表示专利和/或专利申请的实例中。在这些示例中,权利要求宽度组件134可以被配置为分析文档的权利要求部分以确定权利要求的宽度,其中具有宽权利要求的文档获得较有利的分数,并且具有窄权利要求的文档获得不太有利的分数。可以分析除了权利要求宽度之外的附加因素并且也将其应用于对文档评分。在这些示例中,本文描述的模型相交分析可以用于识别本文描述的文档分组。此后,可以针对一个或多个附加因素分析所得的文档以确定那些文档中的哪些应该响应于给定的搜索查询而被识别和/或那些文档中的哪些应该被突出显示或以其他方式强调。
权利要求宽度组件134可以利用本文描述的来确定权利要求宽度分数。例如,在一些实例中,对文档进行预处理以针对文档中的每一个生成一个或多个经处理的文档部分。例如,经处理的文档可以指代预处理后的文档。在一些实例中,预处理本身可以将文档分成两个或更多个经处理的文档部分。例如,当分析包含专利权利要求的文本时,可以在句号之后并且在数字之前的位置处将文档分成文档部分(例如,单独的专利权利要求)。在一些实例中,文档的每个部分都与源文档的唯一文档标识号相关联。例如,来自专利的每项专利权利要求都与专利号相关联。经处理的文档部分包括来自源文档的文本的一部分。具体的预处理技术可以包括解析文本以分离词、去除停止词(stop word)、去除重复词、和去除标点符号。在一些实例中,停止词中的一些或全部可能是特定于文档的文档分类的。例如,如果所有文档都与相同的专利分类相关联,并且该分类有特定的停止词,则可以使用这些特定的停止词来代替通用停止词或作为补充。在一些实例中,预处理可以包括附加的预处理技术,例如,利用对应的完整词替换缩写词和/或首字母缩略词。
此后,针对文档部分中的每一个(例如,经处理或未处理的文档部分)生成字词计数。例如,针对每个文档部分的字词计数可以通过对相应的文档部分中的单独字词的数量进行计数来生成。在一些实例中,这可以在预处理之后执行,以便从计数中省略停止词和重复词。去除重复词后执行的字词计数被称为唯一字词的字词计数。在一些实例中,针对每个文档部分(例如,专利权利要求)生成的字词计数是整数(例如,一、二、三等)。
然后,识别参考字词计数。在一些实例中,参考字词计数是数量,但不一定是整数。参考字词计数可以基于从被分析的相应的文档部分的字词计数得出的特性。例如,参考字词计数可以是所有所分析的文档部分中具有最大字词计数的文档部分的字词计数。又例如,参考字词计数可以是所有所分析的文档部分中具有最短字词计数的文档部分的字词计数。
在一些实例中,也可以使用其他特性来生成参考字词计数,例如,所分析的文档部分的平均字词计数或中位数字词计数。例如,如果所分析的文档部分是专利权利要求,则参考字词计数可以是最长的专利权利要求的字词计数、最短的专利权利要求的字词计数、所有所分析的专利权利要求的平均字词计数、所有所分析的专利权利要求的中位数字词计数、或某种其他度量。在一些实例中,对于在同一语料库中一起分析的所有文档部分,参考字词计数是相同的。但是,在一些实例中,由于所分析的文档的每个语料库的特性不同,因此在不同的分析中参考字词计数会有所不同。
另外地,针对文档部分计算字词计数比率。例如,可以通过将参考字词计数除以相应的文档部分的字词计数来针对每个文档部分计算字词计数比率。因此,在一些实例中,每个所分析的文档部分将与字词计数比率相关联。在一些实例中,对于给定语料库中每个文档部分的分子相同,但分母取决于该文档部分的单独的字词计数而不同。例如,如果给定文档部分的字词计数为25,并且参考字词计数为72(例如,所有所分析的文档部分的最长字词计数),则该特定文档部分的字词计数比率为72/25或2.88。
然后,针对单独的字词确定词频(word frequency)。例如,可以针对文档部分中的任一个文档部分中包括的每个字词确定基于语料库的词频。在一些实例中,词频特定于该字词而不是该字词所在的文档部分。词频可以被认为是对特定字词在所有所分析的文档部分中有多常见的测量。在一些实例中,通过对字词在所有所分析的文档部分中出现的次数进行计数来确定词频。因此,词频表示在删除重复词之前,在分析的整个内容集中发现字词的实例的数量。例如,如果要分析的文档的语料库包括1000个专利,这些专利中的每一个平均每个有20项专利权利要求,那么将有20000个文档部分待分析。给定字词(例如,“机器”)在所有20000个文档部分中出现的次数是该字词的频率。因此,在特定语料库中常见的字词将具有较高的词频值,并且在特定语料库中不常见的字词将具有较低的词频值。因此,在这一点上,每个文档部分都与字词计数相关联,并且每个字词(其必然包括每个文档部分中的字词)都与词频相关联。
此后,针对文档部分生成常见性分数(commonness score)。例如,每个文档部分可以与其自己的常见性分数相关联。常见性分数基于特定文档部分中的单独字词在进行分析的文档部分的整个语料库中出现的频率。因此,针对文档部分的常见性分数基于在该文档部分中的字词的词频。在一些实例中,经处理的文档部分的常见性分数基于该经处理的文档部分中的单独字词中的每一个字词的词频的倒数平方和的平方根。例如,针对具有字词1至n的文档部分的常见性分数(cs)可以通过以下等式计算,这些字词中的每一个具有由wf1至wfn表示的相关联的词频:
利用该计算,具有更多常见字词的文档部分将获得较低的常见性分数,并且具有更多不常见字词的文档部分将获得更高的常见性分数。以这种方式,常见性分数表示这样的潜在的假设或前提:具有更多常用字词的专利权利要求往往比具有更少常用词的权利要求更宽泛。这可能并非总是如此,但对于自动文档分析来说是有用的概括。
然后,识别参考常见性分数。在一些实例中,将参考常见性分数识别为所有正在分析的经处理的文档部分中的最高常见性分数。可以对文档部分中的每一个的常见性分数进行计算、排序,并且然后将其中最高的存储为最高常见性分数。这表示基于文档部分中包括的字词的频率和数量的“最常见”文档部分的分数。因此,每个其他文档部分的常见性分数都将低于该最高常见性分数。
系统然后针对经处理的文档部分计算常见性分数比率。例如,可以通过将参考常见性分数(例如,最高常见性分数)除以经处理的文档部分中的单独的文档部分的常见性分数来计算常见性分数比率。在一些实例中,具有最高常见性分数(“最不常见”的字词)的文档部分的常见性分数比率为1(即,它除以其自己的常见性分数值)。此外,具有最高常见性分数一半的文档部分(更少的“不常见”词和更多“常见”词)的常见性分数比率为2。随着文档部分中的字词集合变得更“常见”,常见性分数比率增加。因此,较高的常见性分数比率指示经处理的文档部分中有更多“常见”或频繁出现的词。在专利权利要求的上下文中,常见性比率表示这样的潜在的假设或前提:具有较少独特字词的权利要求往往比具有更多独特字词的权利要求更宽泛,因此,随着权利要求中的字词变得更常见,常见性分数比率增加。
然后,使用字词计数比率和常见性分数比率来计算文档部分的宽度分数。例如,可以通过针对经处理文档部分的单独的文档部分取字词计数比率的平方(wcr)与常见性分数比率(csr)的平方之和的平方根来计算宽度分数。在一些实例中,可以对字词计数比率和常见性分数的相对加权进行归一化。一种用于归一化的技术是将字词计数比率和常见性分数比率两者的最高相应值设置为100。例如,如果最高字词计数比率为h-wcr,那么针对语料库的所有wcr将乘以100/h-wcr。类似地,在一些实例中,可以使用最高常见性分数比率(h-csr)对常见性分数比率执行归一化。当然,可以使用除100以外的归一化值,例如,1000、500、50、10等。两者都是数字,但对宽度分数的相对影响可能并不直接对应于相应的数值。例如,字词计数比率为10对最终宽度的影响可能比常见性分数比率为10的影响更大或更小。然而,在没有归一化的情况下,两者对宽度得分的贡献相同。因此,字词计数比率可以由第一归一化值K(例如,100/h-wcr)加权并且常见性分数比可以由第二归一化值L(例如,100/h-csr)加权。当写为等式时:
因此,每个文档部分可以被指派有其自己的宽度分数。宽度分数可以被认为测量文档部分的宽度,因为宽度分数是基于字词计数和字词常见性的测量的。这种用于确定宽度分数的技术还缓和了字词计数比率和常见性比率背后的每个潜在的假设或前提。例如,如果专利权利要求相对较短,但使用了非常不常见的术语,则由于权利要求中的限制性语言,专利从业者仍可能认为权利要求范围窄。通过基于这两个潜在的假设定义宽度分数,即使较短的权利要求在其中本体论(ontology)发展良好的类内使用被认为具有限制性或独特性的术语,也可能被认为不那么宽泛。
另外,可以针对文档计算总体宽度分数。例如,可以使用来自相应的文档的文档部分的宽度分数来针对每个所分析的文档计算总体宽度分数。在一些示例中,计算文档的总体宽度分数可以包括取文档内的一个或多个文档部分的宽度分数的平均值。在一些实例中,计算文档的总体宽度分数可以包括取一个或多个文档部分的宽度分数的最高值、最低值、范围、平均数、中位数、均值等,并产生综合分数或单独保存它们。另外,在一些实例中,可以给予文档的文档部分中的一个或多个文档部分的一个或多个宽度分数比一个或多个其他文档部分的一个或多个其他宽度分数更多的加权。例如,如果文档是专利,则在确定总体宽度得分时,可以给予专利的独立权利要求(例如,最宽泛的独立权利要求)的宽度分数比专利内的从属权利要求的宽度分数更多的加权。
在一些实例中,当文档包括专利和/或公开的申请时,可以使用一个或多个规则来计算专利和/或公开的申请的总体宽度分数。例如,如果文档包含专利,则规则可以指定仅与最宽泛的独立权利要求相关联的宽度分数以及依赖于该最宽泛的独立权利要求的任何从属权利要求用于使用上述技术计算专利的总体宽度分数(例如、平均数、中位数等)。例如,如果文档包括专利,则规则可以指定仅使用与独立权利要求相关联的宽度分数用于使用上述技术计算专利的总体宽度分数(例如,平均数、中位数等)。
在一些示例中,文档的比较宽度分数至少部分地基于总体宽度分数来计算。例如,可以基于文档的总体宽度分数针对每个所分析的文档计算比较宽度分数。例如,在总体宽度分数基于单个文档部分的分数(例如,最宽或最窄)的情况下,计算将该分数与正在分析的其他文档的对应的单个文档部分的分数进行比较。在总体宽度分数基于多个文档部分的分数(例如,表示为平均值;最宽泛、平均和范围分数的经加权或未加权的组合;或作为单个分量分数,例如,最宽泛、平均数、和范围)的情况下,该计算将一个或多个分数与正在分析的其他文档的对应的多个文档部分的一个或多个分数进行比较。在一些实例中,文档的比较宽度分数对应于包括等于或小于文档的总体宽度分数的总体宽度分数的文档的百分比。在一些实例中,文档的比较宽度分数对应于包括小于文档的总体宽度分数的总体宽度分数的文档的百分比。在一些实例中,文档的比较宽度分数对应于包括等于或大于文档的总体宽度分数的总体宽度分数的文档的百分比。尽管如此,在一些实例中,文档的比较宽度分数对应于包括大于文档的总体宽度分数的总体宽度分数的文档的百分比。
在总体宽度分数基于多个文档部分的分数并且被维护为单独的分量分数(例如,与文档部分的最宽泛、平均数和范围相关联的分数)的情况下,计算可以将那些分数中的每一个与正在分析其他文档的多个文档部分的对应分数进行比较。例如,在文档是专利而部分是权利要求的上下文中,计算可以将专利中最宽泛的权利要求的宽度分数与情形(landscape)内所有专利中最宽泛的权利要求的宽度分数进行比较,从而提供按最宽泛的权利要求的专利的排序。该计算可以对专利中权利要求的平均宽度与情形内的专利中的每一个专利中的权利要求的平均宽度进行进一步比较,从而提供按平均权利要求宽度的专利的排序。该计算可以对专利中权利要求的宽度范围与情形内的专利中的每一个专利中的权利要求的宽度范围进行进一步比较,从而提供按权利要求宽度范围的专利的排序。然后,计算可以对每个分量分数的排名顺序进行平均加权,以确定最终的宽度分数。这种方法基于这样的假设:相对宽泛的权利要求更有可能涵盖潜在侵权的产品,相对高的平均权利要求宽度反映跨独立和从属权利要求的范围的可能性,而相对高的宽度范围至少反映了一些权利要求更有可能涵盖限制,这些限制会降低对权利要求有效性提出潜在质疑的可行性。
模型分类法组件128可以被配置为生成已经被训练和/或使用的分类模型的模型分类法。该模型分类法可以用于显示模型之间的关系和/或提供按模型搜索的功能。本文描述的模型相交分析的指示符可以被包括在模型分类法中并且可以用于后续的模型分析。这些指示符可以包括模型分类法的节点之间的指示符,其中每个节点表示分类模型。可以提供节点之间的线或其他连接符以显示哪些模型被用来针对所讨论的技术开发文档分组。
如本文所描述的文档分析平台可以由可以连接到一个或多个其他系统和/或设备(例如,客户端侧设备102)的文档分析系统104托管或以其他方式利用。客户端设备102可以包括本文描述的一个或多个用户界面116和/或可以包括被配置为(例如,经由驻留在客户端设备102的存储器114上的应用和/或经由互联网浏览器)指示客户端设备102的处理器110显示由与文档分析平台相关联的系统104提供的用户界面116的应用。客户端设备102可以接收用户输入(例如,来自用户界面116的用户输入),并且可以将对应于该用户输入的用户输入数据提供给与文档分析平台相关联的系统104。系统104可以利用该用户输入数据进行本文描述的各种操作。
如本文所述,文档分析平台可以被配置为接收与给定文档的分类相关联的用户输入数据。为了利用该用户输入数据来训练分类模型,文档分析平台可以执行一个或多个操作。在一些示例中,该平台可以生成正训练数据集,其指示与被用户标记为类内的文档相关联的类内关键字。例如,该平台可以确定与给定文档相关联的一个或多个关键字,这些关键字表示该文档的主题。这可以利用一种或多种文档处理技术(例如,词频逆文档频率技术)来执行。该平台还可以生成负训练数据集,其指示来自被用户输入标记为类外的文档的关键字。然后可以利用这些训练数据集中的每一个来训练分类模型,使得分类模型被配置为确定给定文档是否具有与类外关键字相比更类似于类内关键字的关键字。在其他示例中,代替或除了基于关键字生成训练数据集之外,平台可以确定给定文档的向量。向量可以与坐标系相关联并且可以按向量的形式表示文档的主题。可以针对标记为类内的文档和标记为类外的文档生成向量。可以训练分类模型以确定给定文档的向量表示是否在坐标系中与类外向量相比更接近类内向量。用于生成表示文档的向量的技术可以包括向量化技术,例如,Doc2Vec或其他类似技术。
另外地或可替代地,文档表示可以包括一种方法,该方法获取文档,并至少部分地基于文档的文本内容将其转换为向量形式,作为浮点数的列表。这种向量形式可以称为嵌入。这种嵌入可以用于计算文档之间的距离,并且因此计算文档之间的相似性。这些嵌入可以与分类模型结合使用,以补充或替换上述关键字和/或向量。嵌入可以用于使用集合来创建文档的主题组。文档集可以是一些关键字、CPC、所有者等,并且结果可以是共享相似主题的文档组(例如,聚类)的视觉显示。在聚类过程中可以存在一定程度的监督,这可以允许对哪些文档被分组到哪些聚类中进行一些人为控制。
在进一步的示例中,分类模型可以利用迁移学习。在这些示例中,可以生成和/或接收通用模型,并且每个特定分类模型可以使用通用模型作为起点。与必须从头开始训练分类模型相反,该模型将根据通用模型针对模型尚未关于正在建模的特定场景进行训练的任何内容进行微调。这些迁移学习技术可以包括ULMFit的用户、BERT、ELMo、和T5等。
除了上述用于训练分类模型的技术之外,还可以至少部分地基于文档的分类来训练和/或组织分类模型。例如,当文档是专利和专利申请时,可以建立预定的分类系统来对给定文档的主题进行分类。分类系统可以由平台、由一个或多个用户、和/或由第三方确定。例如,专利和专利申请可以与预定义的分类系统(例如,CPC系统)相关联。CPC系统采用对应于不同主题的CPC码,如本文更详细描述的。可以识别给定文档的CPC码,并且可以确定与这些码相关联的类别。可以给用户呈现用户界面,其呈现确定的类别并且允许用户选择用户为了给定目的找到为类内的类别。所选择的类别可以用作用于训练分类模型的特征。另外地或可替代地,该平台可以确定被标记为类内的文档的CPC码,并且可以训练分类模型以将这些CPC码与关联于要分析的文档的CPC代码进行比较以确定分类。
如图1所示,如本文所述的文档分析系统104和/或客户端侧设备102的组件中的若干组件以及这些组件的相关联功能可以由其他系统中的一个或多个和/或由客户端侧设备102执行。另外地或可替代地,与客户端侧设备102相关联的组件和/或功能中的一些和/或全部可以由文档分析系统104执行。
应当注意的是,本文描述的数据和/或信息交换只能在用户同意交换此类信息的情况下执行。例如,可以向用户提供选择加入和/或选择退出设备之间和/或与远程系统的数据交换和/或执行本文描述的功能的机会。另外,当设备中的一个设备与第一用户账户相关联并且设备中的另一设备与第二用户账户相关联时,可以在执行本文描述的操作和/或过程中的一些、任何或全部之前获得用户同意。
如本文所使用的,诸如处理器110和/或处理器120之类的处理器可以包括多个处理器和/或具有多个核心的处理器。此外,处理器可以包括一个或多个不同类型的核心。例如,处理器可以包括应用处理器单元、图形处理单元等。在一种实现方式中,处理器可以包括微控制器和/或微处理器。处理器110和/或处理器120可以包括图形处理单元(GPU)、微处理器、数字信号处理器或本领域已知的其他处理单元或组件。可替代地或另外地,可以至少部分地通过一个或多个硬件逻辑组件来执行本文描述的功能。例如但不限于,可以使用的说明性类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统的系统(SOC)、复杂可编程逻辑器件(CPLD)等。此外,处理器110和/或处理器120中的每一个可以具有其自己的本地存储器,该本地存储器也可以存储程序组件、程序数据和/或一个或多个操作系统。
存储器114和/或存储器124可以包括以用于存储信息(例如,计算机可读指令、数据结构、程序组件或其他数据)的任何方法或技术实现的易失性存储器和非易失性存储器、可移除介质和不可移除介质。这样的存储器114和/或存储器124包括但不限于RAM、ROM、EEPROM、闪速存储器或其他存储技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、磁带盒、磁带、磁盘存储装置或其他磁性存储设备、RAID存储系统、或可以用于存储期望的信息并可以由计算设备访问的任何其他介质。存储器114和/或存储器124可以被实现为计算机可读存储介质(“CRSM”),其可以是可由处理器110和/或处理器120访问的任何可用物理介质,以执行存储在存储器114和/或存储器124上的指令。在一种基本实现方式中,CRSM可以包括随机存取存储器(“RAM”)和闪速存储器。在其他实现方式中,CRSM可以包括但不限于只读存储器(“ROM”)、电可擦除可编程只读存储器(“EEPROM”)或可以用于存储期望的信息并可以由处理器访问的任何其他有形介质。
此外,功能组件可以存储在相应的存储器中,或者相同的功能可以可替代地以硬件、固件、专用集成电路、现场可编程门阵列或作为片上系统(SoC)来实现。此外,虽然未示出,但本文讨论的相应的存储器(例如,存储器114和/或存储器124)可以包括至少一个操作系统(OS)组件,其被配置为管理硬件资源设备(例如,网络接口、相应的装置的I/O设备等),并向在处理器上执行的应用或组件提供各种服务。这种OS组件可以实现:由FreeBSD项目发布的FreeBSD操作系统的变型;其他UNIX或类UNIX变型;由Linus Torvalds发布的Linux操作系统的变型;来自美国华盛顿州西雅图的Amazon.com公司的FireOS操作系统;来自美国华盛顿州雷德蒙市的微软公司的Windows操作系统;由加利福尼亚州圣何塞的LynxSoftware Technologies公司发布的LynxOS;由瑞典的ENEA AB发布的嵌入式操作系统(Enea OSE);等等。
网络接口112和/或网络接口122可以实现系统100中所示的组件和/或设备之间和/或与一个或多个其他远程系统以及其他联网设备之间的消息。这样的网络接口112和/或网络接口122可以包括一个或多个网络接口控制器(NIC)或其他类型的收发机设备,以通过网络108发送和接收消息。
例如,网络接口112和/或网络接口122中的每一个可以包括个域网(PAN)组件,以实现一个或多个短程无线消息信道上的消息。例如,PAN组件可以实现符合以下标准中的至少一个的消息:IEEE 802.15.4(ZigBee)、IEEE 802.15.1(蓝牙)、IEEE 802.11(WiFi)或任何其他PAN消息协议。此外,网络接口112和/或网络接口122中的每一个可以包括广域网(WAN)组件,以实现广域网上的消息。
在一些实例中,文档分析系统104对于与电子设备102相关联的环境而言可以是本地的。例如,文档分析系统104可以位于电子设备102内。在一些实例中,文档分析系统104的功能中的一些或全部可以由电子设备102执行。而且,虽然文档分析系统104的各种组件在本公开中已经被标记和命名,并且每个组件已经被描述为被配置为使处理器执行某些操作,但是应当理解,所描述的操作可以由组件和/或未具体示出的其他组件中的一些或全部执行。
图2示出了文档表示和模型表示的概念图200。通过示例的方式,图200被描述为维恩图,但是应当理解,模型和文档的其他表示也包括在本公开中。图200可以包括两个或更多个模型表示202(a)-200(c)。模型表示202(a)-200(c)可以表示与已识别技术的一个或多个子类别相关联的经训练的分类模型。这些分类模型的训练在本文其他地方更详细地描述。
模型表示202(a)-200(c)中的每一个可以与给定的子类别相关联。如图2所示,模型表示202(a)与子类别A 204相关联,模型表示202(b)与子类别B 206相关联,并且模型表示202(c)与子类别C208相关联。这些子类别中的每一个都可以与已识别技术相关联。如图2所示,每个模型表示202(a)-200(c)被图示为圆圈,然而应当理解,模型表示202(a)-200(c)的其他可视化也被包括在本公开中。还应当理解的是,虽然图2示出了利用三个模型的示例,但是本公开包括使用两个、三个、或更多个模型来确定模型相交。
图200还可以包括文档表示210。这些文档表示210可以基于经训练的分类模型中的一个或多个是否已经确定了对应于文档表示210的文档为类内,而相对于文档表示202(a)-200(c)来定位。利用图2为例,对于与子类别A 204相关联的经训练的分类模型,该模型通过至少阈值置信值来预测样本文档集中的10个文档为类内。对于与子类别B 206相关联的经训练的分类模型,该模型通过至少阈值置信值来预测样本文档集中的11个文档为类内。对于与子类别C 208相关联的经训练的分类模型,该模型通过至少阈值置信值来预测样本文档集中的11个文档为类内。
利用本文描述的相交组件,可以确定中的多于一个经训练的分类模型被预测为类内的文档。再次利用图2为例,可以识别第一组文档,其包括被分类模型中的至少一个预测为类内的任何文档。在该示例中,图2中表示的所有32个文档都可以包括在该第一组文档中。可以识别第二组文档,其包括被分类模型中的至少两个预测为类内的任何文档。在此,第二组可以包括被子类别A 204和子类别B 206预测为类内的那些文档,以及还包括被子类别A 204和子类别C 208预测为类内的那些文档,以及还包括被子类别B 206和子类别C 208预测为类内的那些文档。该第二组包括32个文档中的8个。还可以识别第三组文档,其包括被所有分类模型预测为类内的任何文档。在此,第三组可以包括被全部三个经训练的分类模型预测为类内的1个文档。这些不同的文档分组可以由本文描述的相交组件来识别。
图3示出了具有不同置信值阈值的模型表示的概念图300。通过示例的方式,图300被描述为维恩图,但是应当理解,模型和文档的其他表示也包括在本公开中。图300可以包括两个或更多个模型表示202(a)-200(c)。模型表示202(a)-200(c)可以表示与已识别技术的一个或多个子类别相关联的经训练的分类模型。这些分类模型的训练在本文其他地方更详细地描述。
模型表示202(a)-200(c)中的每一个可以与给定的子类别相关联。如图3所示,模型表示202(a)与子类别A 204相关联,模型表示202(b)与子类别B 206相关联,并且模型表示202(c)与子类别C208相关联。这些子类别中的每一个都可以与已识别技术相关联。如图3所示,每个模型表示202(a)-200(c)被图示为圆圈,然而应当理解,模型表示202(a)-200(c)的其他可视化也被包括在本公开中。
图200还可以包括文档表示210。这些文档表示210可以基于经训练的分类模型中的一个或多个是否已经确定了对应于文档表示210的文档为类内,而相对于文档表示202(a)-200(c)来定位。利用图3为例,对于与子类别A 204相关联的经训练的分类模型,该模型通过至少第一阈值置信值来预测样本文档集中的8个文档为类内。对于与子类别B 206相关联的经训练的分类模型,该模型通过至少第二阈值置信值来预测样本文档集中的11个文档为类内。对于与子类别C 208相关联的经训练的分类模型,该模型通过至少第三阈值置信值来预测样本文档集中的11个文档为类内。
利用本文描述的相交组件,可以如关于图2所描述的确定文档分组。另外,本文描述的置信度组件可以用于调整与经训练的分类模型中的一个或多个相关联的置信分数阈值。使用图3为例,子类别A 204可以与子类别B 206和子类别C 208相比与更高的置信分数阈值相关联。这在图300中由具有比其他圆更小的半径的圆来示出。子类别B 206可以具有比子类别A 204和子类别C 208更低的置信分数阈值。这在图300中由具有比其他圆更大的半径的圆来示出。子类别C 208可以具有比子类别A 204更低、但比子类别B 206更高的置信分数阈值。这由具有比子类别A 204的圆更大、但比子类别C 208的圆更小的半径的圆来示出。文档分析平台的用户和/或平台本身可以调整置信分数阈值,这可以导致某些文档被包括和/或被排除在本文描述的分组之外。通过允许单独调整模型中的每一个的阈值,可以识别与给定子类别更相关或更不相关的文档。
图4示出了用于通过模型相交进行文档分析并利用权利要求宽度评分的组件的概念图400。图400包括对应于文档A-文档K的文档表示402-文档表示422。这些文档可以表示将由本文描述的文档分析平台分析的样本文档集。如上文更详细地说明的,模型构建器组件可以构建和/或训练分类模型以预测样本文档集中的文档对于给定模型是否为类内。
相交组件130可以被配置为对于分类模型之间的相交的不同分组确定文档中的哪些文档被预测为类内。相交组件130可以被配置为识别给定技术的子类别和/或接收指示子类别的用户输入。子类别可以表示已识别技术的一部分。利用这种方法,可以利用已识别技术的第一子类别的正和/或负训练数据集来训练第一分类模型,并且可以利用已识别技术的第二子类别的正和/或负训练数据集来训练第二分类模型。还可以训练已识别技术的附加子类别的附加模型。此后,可以利用分类模型中的每一个,通过相交组件130来确定针对模型中的每一个的在类内的文档的子集。例如,要分析包含10000个文档的样本文档集,以确定这些文档中的哪些文档相对于具有三个子类别的已识别技术为类内。第一子类别的第一分类模型可以识别10000个文档中的500个文档相对于第一子类别为类内;第二子类别的第二分类模型可以识别10000个文档中的750个文档相对于第二子类别为类内;并且第三子类别的第三分类模型可以识别10000个文档中的400个文档相对于第三子类别为类内。
利用模型相交组件130,可以生成被识别为在类内的文档的不同组作为结果。例如,第一组可以包括由分类模型中的至少一个识别为类内的任何文档。第二组可以包括由分类模型中的至少两个识别为类内的任何文档。第三组可以包括由分类模型中的每一个识别为类内的任何文档。从上文提供的示例应当理解,对于第一组,类内文档的数量将多于第二组,并且第二组中的类内文档的数量将多于第三组。以这种方式,由分类模型中的每一个指示为类内的文档的第三组表示文档的样本组中与已识别技术的每个子类别相关的那些文档。这些模型相交分析的结果可以被提供给与搜索查询相关联的计算设备,例如,客户端侧设备。例如,可以向计算设备的用户显示分组中的一些或全部分组中的类内文档,和/或可以提供文档和/或分组的标识。
如图4所示,使用相交组件130执行的操作的结果是样本文档的子集,具体地,是文档C 406、文档E 410、文档I 418、文档J 420和文档K 422。此后,权利要求宽度组件134可以被配置为确定文档的一个或多个附加因素,并利用这些因素来强调子集中的一些或所有文档。通过示例的方式,要应用的一个因素可以是权利要求宽度分数,特别是在所讨论的文档表示专利和/或专利申请的实例中。如本文将更全面地描述的,可以分析文档的权利要求部分以确定权利要求的宽度,其中具有宽权利要求的文档获得较有利的分数,并且具有窄权利要求的文档获得不太有利的分数。可以分析除了权利要求宽度之外的附加因素并且也将其应用于对文档评分。在这些示例中,本文描述的模型相交分析可以用于识别本文描述的文档分组。此后,可以针对一个或多个附加因素分析所得的文档以确定那些文档中的哪些应该响应于给定的搜索查询而被识别和/或那些文档中的哪些应该被突出显示或以其他方式强调。如图4所示,该过程的示例结果是文档的子集进一步向下配对,在这里是文档C406、文档I 418和文档K 422。
图5示出了用于训练文档分析的模型的用户界面和组件的概念图。图5示出了在一个或多个用户界面上显示和/或与其交互的信息从左到右和从上到下的进展。
在示例中,完整的文档用户界面可以包括关于用户正在审阅的文档的信息,例如,文档标题、公开号、摘要、权利要求、和类别注释,例如,被标记为类内和类外的文档的数量、跳过的文档数量、已标记的文档数量、以及文档的分析细节。用户界面可以提供关于给定文档的一些或所有方面的附加信息。例如,可以显示摘要的附加部分和/或附加权利要求和/或权利要求语言。另外地,类别进度信息和分析细节可以显示在类别注释窗口中。分析细节可以包括关于文档所做的预测,例如,分类模型确定该文档为类别还是类外、与该确定相关联的置信值、以及与文档的权利要求相关联的权利要求分数。
除了以上之外,用户界面可以提供投票窗口502,该投票窗口502可以允许用户提供指示文档是否应该被标记为相关(或以其他方式“类内”)或不相关(或以其他方式“类外”)的用户输入。附加选项可以包括例如“跳过”和“撤销”。投票窗口502也可以用于呈现关键字中的一个或多个,以启用“热键”或其他快捷键,以允许用户经由键盘或类似设备输入而不是鼠标滚动并单击选项中的一个,并且投票窗口502也可以用于呈现利用不确定性采样的选项。例如,用户可以在用户界面中查看关于文档的信息。在审阅被显示的信息中的一些或全部之后,用户可以确定该文档是类内还是类外(或者确定要跳过该文档)。在文档将被标记为类内的示例中,用户可以利用一个或多个输入手段来选择屏幕的对应于“内(in)”选项的部分。在文档将被标记为类外的示例中,用户可以利用一个或多个输入手段来选择屏幕的对应于“外(out)”选项的部分。可替代地,当启用热键时,用户可以选择键盘(无论是物理键盘还是数字键盘)上的对应热键。在选择投票窗口502中的选项中的一个选项后,可以使用户界面显示文档集中的下一个未标记文档,以允许用户审阅该文档并提供与该文档的分类相关联的用户输入。
如图5所示,当用户选择用户界面的“内”部分和/或以其他方式指示给定文档为类内时,可以将该文档和/或该文档的特征和/或属性保存到正数据集504。例如,当模型如本文所述利用关键字进行文档比较时,可以将与标记为“内”的文档相关联的关键字连同附加信息(例如,与关键字相关联的加权值和/或与关键字的确定相关联的置信值)一起与正数据集504相关联地存储。在模型如本文所述利用向量进行文档比较的示例中,可以将与标记为“内”的文档相关联的向量连同附加信息(例如,加权值和/或置信值)一起与正数据集504相关联地存储。也可以将其中用户指示文档为类内的附加文档与正数据集504相关联地存储。
当用户选择用户界面的“外”部分和/或以其他方式指示给定文档为类外时,可以将该文档和/或该文档的特征和/或属性保存到负数据集506。例如,当模型如本文所述利用关键字进行文档比较时,可以将与标记为“外”的文档相关联的关键字连同附加信息(例如,与关键字相关联的加权值和/或与关键字的确定相关联的置信值)一起与负数据集506相关联地存储。在模型如本文所述利用向量进行文档比较的示例中,可以将与标记为“外”的文档相关联的向量连同附加信息(例如,加权值和/或置信值)一起与负数据集506相关联地存储。也可以将其中用户指示文档为类内的附加文档与负数据集506相关联地存储。
如本文更全面地描述的,可以利用标记的文档来训练分类模型。例如,数据集504、506可以用于训练分类模型如何针对尚未标记的文档识别给定文档为类内还是类外。为此,模型构建器组件126可以利用数据集504、506来训练分类模型以将类内和类外关键字与表示样本文档的关键字进行比较,和/或将类内和类外向量与表示样本文档的向量进行比较。
图6示出了用户界面600的概念图,其示出了与经训练的模型相关联的关键字。
用户界面600可以提供给定分类模型已经确定将其包括作为类内的关键字和该模型已经确定将其排除作为类外的那些关键字的视觉指示。例如,如本文其他地方更全面地描述的,模型可以利用指示哪些文档被标记为类内以及哪些文档被标记为类外的训练数据集。可以识别那些文档的表示文档的特征,并且可以利用这些特征来训练模型。在示例中,特征可以包括表示文档的文本的关键字。这些关键字在用户界面600中的表示可以采用一种或多种形式,例如,图6中所示的列表。其他形式可以包括字词云,其中关键字的大小、字体、重点、和与彼此的间距可以指示给定关键字对包括和排除的分组的相对重要性。例如,用户界面600可以包括被包括的关键字窗口602和被排除的关键字窗口604。被包括的关键字窗口602可以提供模型已经确定的表示被标记为类内的文档的关键字的视觉指示。被排除的关键字窗口604可以提供模型已经确定的表示被标记为类外的文档的关键字的视觉指示。关键字可以各自与不同的加权值相关联,或者可以以其他方式对确定文档分类是或多或少重要的。这些加权值的视觉指示可以在被包括的关键字窗口602和被排除的关键字窗口604中提供。例如,位于字词云中心的关键字具有比其他关键字更大、更暗、更强调的字体,该位于字词云中心的关键字可以是与分组最相关的关键字。如图6所示,示例列表示出了关键字“字词A”对于确定相关文档最重要,而关键字“字词1”对于确定类外文档最重要。在列表视图中,可以显示与被包括在给定窗口中的关键字相关联的重要性和/或置信值的指示。这不仅可以给用户提供关键字的排名的指示,还可以提供已经由分类模型确定的这些关键字的重要性。
在示例中,用户界面600可以被配置为接收与关键字相关联的用户输入。例如,用户输入可以包括用户确认关键字应该被包括在被包括的关键字窗口602和被排除的关键字窗口604中的一个或多个中。用户输入还可以包括用户指示给定关键字应该被移除、不再强调、或者比现在更加强调。可以利用对应于用户输入的用户输入数据来重新训练分类模型。此外,用户可以提供指示未包括在给定窗口中的字词应当被包括的用户输入,并且可以至少部分地基于该用户输入数据来重新训练分类模型。
另外,如图6所示,用户输入可以由置信度组件132利用以确定是否要相对于给定模型来调整置信分数阈值。通过示例的方式,用户输入数据可以指示置信分数阈值要增加,这可以导致在正数据集和负数据集中识别出更少的关键字。在此示例中,用户能够提供输入,该输入指示字词C和字词F不应被包含在正训练数据集的表示字词中,并且字词2、字词3、和字词6不应被包含在负训练数据集的表示字词中。此改变可以影响针对给定模型将哪些文档识别为类内,和/或这些文档中的哪些文档被交叉组件识别为相对于模型中的两个或更多个模型为类内。
图7示出了模型分类法的概念图。例如,除了如上所述训练分类模型之外,一旦分类模型被训练使得模型被确定为如训练那样准确地预测分类,就可以将模型放置在模型分类法700中。模型分类法700可以表示分类树或模型层次结构,其指示模型之间的关系和/或与模型相关联的特异水平。例如,如图7所示,与确定文档相对于“技术A”是否为类内相关联的第一模型702可以分别与被训练以确定文档是否相对于“技术B”、“技术C”和“技术D”为类内的其他模型704、710、716相关联。这些模型中的每一个也可以与其他模型706、708、712、714、718、720相关联,该其他模型706、708、712、714、718、720被训练以确定这些组件的更具体的方面。该分类法700可以是可搜索的并且可以提供允许用户提供针对模型的搜索查询的功能。来自搜索查询的关键字可以用于识别可适用于搜索查询的模型和/或突出显示与搜索查询相关联的分类的“分支”。
如图7所示,模型分类法700中的模型可以按一种或多种方式相互链接。例如,当一个模型的主题与另一个模型的主题相关时,这些模型可以在分类法700中链接。在一些示例中,表示模型的分类的节点可以利用预定义的主题分类系统(例如,本文描述的CPC系统)来确定。
另外,模型分类法700可以包括如本文所述的模型相交的一个或多个指示符。例如,相交A750可以表示模型中的两个或更多个模型的相交指示符。如图7所示,相交A 750标记技术B 704、技术C 710、和技术F 708之间的相交。该指示符可以是可选择的(例如,在按模型搜索的示例中),并且样本文档可以由相关联的模型进行分析。相交组件可以利用该分析的结果来确定模型相交,其中文档由多个模型预测为类内。
图8和图9示出了与使用模型相交进行文档分析相关联的过程。本文描述的过程被示出为逻辑流程图中的一系列框,其表示操作序列,这些操作中的一些或全部可以以硬件、软件或其组合来实现。在软件的上下文中,框可以表示存储在一个或多个计算机可读介质上的计算机可执行指令,该计算机可执行指令当由一个或多个处理器执行时,对处理器进行编程以执行所引述的操作。通常,计算机可执行指令包括执行特定功能或实现特定数据类型的例程、程序、对象、组件、数据结构等。除非具体指出,否则描述框的次序不应被解释为限制。可以按任何次序和/或并行地组合任何数量的所描述的框,以实现该过程或替代过程,并且不需要执行所有框。出于讨论的目的,这些过程是参照本文示例中描述的环境、体系结构和系统(例如,关于图1-图7描述的那些)来描述的,虽然这些过程可以在各种各样的其他环境、架构和系统中实现。
图8示出了用于使用模型相交进行文档分析的示例过程800的流程图。描述操作或步骤的次序不旨在被解释为限制,并且可以按任何次序和/或并行地组合任何数量的所描述的操作以实现过程800。相对于过程800描述的操作被描述为由客户端设备和/或与文档分析平台相关联的系统执行。然而,应当理解,这些操作中的一些或全部可以由本文描述的组件、设备和/或系统中的一些或全部来执行。
在框802处,过程800可以包括接收表示用于识别与已识别技术相关的专利文档用户查询的第一数据。例如,可以接收搜索查询以识别与该搜索查询相关的一组文档。搜索查询可以包括定义与搜索查询相关的内容的一个或多个关键字和/或短语。利用本文描述的文档分析平台,可以识别具有对应于搜索查询的关键字的一组文档。
在框804处,过程800可以包括识别与已识别技术相关联的第一子类别。例如,系统可以利用来自已识别技术的关键字来确定这些关键字中的一些关键字与可以作为已识别技术的单独组件的子类别相关联。在其他示例中,用户输入数据可以指示与已识别技术相关联的给定子类别。
在框806处,过程800可以包括生成第一预测模型,该第一预测模型被配置为识别与第一子类别相关的专利文档。例如,可以利用指示给定文档是类内还是类外的用户输入来构建和/或训练一个或多个文档分类模型。如本文更全面地描述的,用户可以利用用户界面来查看给定文档的全部或一部分,并选择用户界面上的元素以将该给定文档识别为类内或类外。一旦用户已经将阈值数量的文档标记为类内或类外,可以基于被标记为类内的文档的正训练数据集、以及在一些示例中被标记为类外的文档的负训练数据集来训练一个或多个分类模型。此后,可以利用经训练的分类模型来预测一组文档中其余的哪些文档为类内或类外。
在框808处,过程800可以包括识别与已识别技术相关联的第二子类别。识别第二子类别可以按与关于框804描述的识别第一子类别相同或相似的方式执行。
在框810处,过程800可以包括生成第二预测模型,该第二预测模型被配置为识别与第二子类别相关的专利文档。生成第二预测模型可以按与关于框806描述的生成第一预测模型相同或相似的方式执行。
在框812处,过程800可以包括将表示样本专利文档的第二数据作为第一输入提供给第一预测模型。例如,可以向文档数据库(例如,来自第三方系统和/或来自与用户查询相关联的设备)查询响应于来自用户查询的关键字的样本文档。
在框814处,过程800可以包括生成第三数据作为来自第一预测模型的第一输出,该第三数据识别由第一预测模型确定为类内的样本专利文档的第一子集。例如,模型可以被配置为确定给定文档是否具有与类外关键字相比更类似于类内关键字的关键字。在其他示例中,代替或除了基于关键字生成训练数据集之外,平台可以确定给定文档的向量。向量可以与坐标系相关联并且可以按向量的形式表示文档的主题。可以针对标记为类内的文档和标记为类外的文档生成向量。可以训练分类模型以确定给定文档的向量表示是否在坐标系中与类外向量相比更接近类内向量。用于生成表示文档的向量的技术可以包括向量化技术,例如,Doc2Vec或其他类似技术。
另外地或可替代地,文档表示可以包括一种方法,该方法获取文档,并至少部分地基于文档的文本内容将其转换为向量形式,作为浮点数的列表。这种向量形式可以称为嵌入。这种嵌入可以用于计算文档之间的距离,并且因此计算文档之间的相似性。这些嵌入可以与分类模型结合使用,以补充或替换上述关键字和/或向量。嵌入可以用于使用集合来创建文档的主题组。文档集可以是一些关键字、CPC、所有者等,并且结果可以是共享相似主题的文档组(例如,聚类)的视觉显示。在聚类过程中可以存在一定程度的监督,这可以允许对哪些文档被分组到哪些聚类中进行一些人为控制。
在框816处,过程800可以包括将表示样本专利文档的第二数据作为第二输入提供给第二预测模型。提供第二数据可以按与关于框812描述的提供第一数据相同或相似的方式执行。
在框818处,过程800可以包括生成第四数据作为来自第二预测模型的第二输出,该第四数据识别由第二预测模型确定为类内的样本专利文档的第二子集。生成第二子集可以按与关于框814描述的生成第一子集相同或相似的方式执行。
在框820处,过程800可以包括确定在第一子集和第二子集中的样本专利文档的第三子集。例如,要分析包含10000个文档的样本文档集,以确定这些文档中的哪些文档相对于具有三个子类别的已识别技术为类内。第一子类别的第一分类模型可以识别10000个文档中的500个文档相对于第一子类别为类内;并且第二子类别的第二分类模型可以识别10000个文档中的750个文档相对于第二子类别为类内。
利用模型相交组件,可以生成被识别为在类内的文档的不同组作为结果。例如,第一组可以包括由分类模型中的至少一个识别为类内的任何文档。第二组可以包括由分类模型中的至少两个识别为类内的任何文档。第三组可以包括由分类模型中的每一个识别为类内的任何文档,特别是在利用三个模型的情况下。从上文提供的示例应当理解,对于第一组,类内文档的数量将多于第二组,并且第二组中的类内文档的数量将多于第三组。以这种方式,由分类模型中的每一个指示为类内的文档的第三组表示文档的样本组中与已识别技术的每个子类别相关的那些文档。
在框822处,过程800可以包括使与用户查询相关联的设备至少显示与已识别技术相关的样本专利文档的第三子集的标识符。例如,可以将这些模型相交分析的结果提供给与搜索查询相关联的计算设备,例如,客户端侧设备。例如,可以向计算设备的用户显示一些或所有分组中的类内文档,和/或可以提供文档和/或分组的标识。
另外地或可替代地,过程800可以包括识别与已识别技术相关联的第三子类别。过程800可以包括生成第三预测模型,该第三预测模型被配置为识别与第三子类别相关的专利文档。过程800还可以包括生成第五数据作为来自第三预测模型的输出,该第五数据识别由第三预测模型确定为类内的样本专利文档的第四子集。在这些示例中,第三子集包括以下各项:在第一子集、第二子集、和第四子集中的样本专利文档;或在第一子集、第二子集、和第四子集中的至少两个中的样本专利文档。
另外地或可替代地,过程800可以包括确定用于应用于第一预测模型的第一置信阈值,该第一置信阈值指示用于将给定专利文档预测为类内的第一置信度。过程800还可以包括确定用于应用于第二预测模型的第二置信阈值,该第二置信阈值指示用于将给定专利文档预测为类内的第二置信度,其中,第一置信阈值不同于第二置信阈值。在这些示例中,生成第三数据是至少部分地基于第一置信阈值的;并且生成第四数据是至少部分地基于第二置信阈值的。
另外地或可替代地,过程800可以包括确定权利要求宽度值,该权利要求宽度值指示第三子集中的样本专利文档中的各个专利文档的权利要求的权利要求宽度。过程800还可以包括确定在第三子集中并且具有满足阈值权利要求宽度值的权利要求宽度值的样本专利文档的第四子集。过程800还可以包括使设备优先显示样本专利文档的第四子集的标识符。
图9示出了用于使用模型相交进行文档分析的另一示例过程900的流程图。描述操作或步骤的次序不旨在被解释为限制,并且可以按任何次序和/或并行地组合任何数量的所描述的操作以实现过程900。相对于过程900描述的操作被描述为由客户端设备和/或与文档分析平台相关联的系统执行。然而,应当理解,这些操作中的一些或全部可以由本文描述的组件、设备和/或系统中的一些或全部来执行。
在框902处,过程900可以包括生成第一预测模型,该第一预测模型被配置为识别与关联于已识别技术的第一子类别相关的文档。例如,系统可以利用来自已识别技术的关键字来确定这些关键字中的一些关键字与可以作为已识别技术的单独组件的子类别相关联。在其他示例中,用户输入数据可以指示与已识别技术相关联的给定子类别。然后,可以利用指示给定文档是类内还是类外的用户输入来构建和/或训练一个或多个文档分类模型。如本文更全面地描述的,用户可以利用用户界面来查看给定文档的全部或一部分,并选择用户界面上的元素以将该给定文档识别为类内或类外。一旦用户已经将阈值数量的文档标记为类内或类外,可以基于被标记为类内的文档的正训练数据集、以及在一些示例中被标记为类外的文档的负训练数据集来训练一个或多个分类模型。此后,可以利用经训练的分类模型来预测一组文档中其余的哪些文档为类内或类外。
在框904处,过程900可以包括生成第二预测模型,该第二预测模型被配置为识别与关联于已识别技术的第二子类别相关的文档。生成第二预测模型可以按与关于框902描述的生成第一预测模型相同或相似的方式执行。
在框906处,过程900可以包括利用第一预测模型生成第一数据,该第一数据识别被确定为类内的样本文档的第一子集。例如,模型可以被配置为确定给定文档是否具有与类外关键字相比更类似于类内关键字的关键字。在其他示例中,代替或除了基于关键字生成训练数据集之外,平台可以确定给定文档的向量。向量可以与坐标系相关联并且可以按向量的形式表示文档的主题。可以针对标记为类内的文档和标记为类外的文档生成向量。可以训练分类模型以确定给定文档的向量表示是否在坐标系中与类外向量相比更接近类内向量。用于生成表示文档的向量的技术可以包括向量化技术,例如,Doc2Vec或其他类似技术。
另外地或可替代地,文档表示可以包括一种方法,该方法获取文档,并至少部分地基于文档的文本内容将其转换为向量形式,作为浮点数的列表。这种向量形式可以称为嵌入。这种嵌入可以用于计算文档之间的距离,并且因此计算文档之间的相似性。这些嵌入可以与分类模型结合使用,以补充或替换上述关键字和/或向量。嵌入可以用于使用集合来创建文档的主题组。文档集可以是一些关键字、CPC、所有者等,并且结果可以是共享相似主题的文档组(例如,聚类)的视觉显示。在聚类过程中可以存在一定程度的监督,这可以允许对哪些文档被分组到哪些聚类中进行一些人为控制。
在框908处,过程900可以包括利用第二预测模型生成第二数据,该第二数据识别被确定为类内的样本文档的第二子集。生成第二数据可以按与关于框906描述的生成第一数据相同或相似的方式执行。
在框910处,过程900可以包括生成第三数据,该第三数据指示在第一子集和第二子集中的样本文档的第三子集。例如,要分析包含10000个文档的样本文档集,以确定这些文档中的哪些文档相对于具有三个子类别的已识别技术为类内。第一子类别的第一分类模型可以识别10000个文档中的500个文档相对于第一子类别为类内;并且第二子类别的第二分类模型可以识别10000个文档中的750个文档相对于第二子类别为类内。
利用模型相交组件,可以生成被识别为在类内的文档的不同组作为结果。例如,第一组可以包括由分类模型中的至少一个识别为类内的任何文档。第二组可以包括由分类模型中的至少两个识别为类内的任何文档。第三组可以包括由分类模型中的每一个识别为类内的任何文档,特别是在利用三个模型的情况下。从上文提供的示例应当理解,对于第一组,类内文档的数量将多于第二组,并且第二组中的类内文档的数量将多于第三组。以这种方式,由分类模型中的每一个指示为类内的文档的第三组表示文档的样本组中与已识别技术的每个子类别相关的那些文档。
另外地或可替代地,过程900可以包括生成第三预测模型,该第三预测模型被配置为识别与关联于已识别技术的第三子类别相关的文档。过程900还可以包括利用第三预测模型生成第四数据,该第四数据识别被确定为类内的样本文档的第四子集。在这些示例中,第三子集包括在第一子集、第二子集和第四子集中的样本文档。
另外地或可替代地,过程900可以包括确定用于应用于第一预测模型的第一置信阈值。过程900还可以包括确定用于应用于第二预测模型的第二置信阈值,第一置信阈值不同于第二置信阈值。在这些示例中,生成第一数据是至少部分地基于第一置信阈值的;并且生成第二数据是至少部分地基于第二置信阈值的。
另外地或可替代地,过程900可以包括对于样本文档中的各个文档,确定样本文档中的各个文档的权利要求的权利要求分数。过程900还可以包括确定在第三子集中并且具有满足阈值权利要求分数的权利要求分数的样本文档的第四子集。
另外地或可替代地,过程900可以包括生成用户界面,该用户界面被配置为显示来自文档的关键字,该文档由第一预测模型利用第一置信阈值预测为类内。过程900还可以包括接收用户输入数据,该用户输入数据指示用于应用于第一预测模型的第二置信阈值,该用户输入数据响应于经由用户界面显示的关键字。过程900还可以包括将第二置信阈值而不是第一置信阈值应用于第一预测模型。
另外地或可替代地,过程900可以生成坐标系中的第一向量,该第一向量表示与第三子集相关联的文档。过程900还可以包括确定与第一向量相关联的坐标系的区域。过程900还可以包括识别由坐标系中的在区域内的第二向量表示的附加文档。
另外地或可替代地,过程900可以包括生成第三预测模型,该第三预测模型被配置为识别与关联于已识别技术的第三子类别相关的文档。过程900还可以包括利用第三预测模型生成第四数据,该第四数据识别被确定为类内的样本文档的第四子集。在这些示例中,第三子集包括在以下各项中的至少一个中的样本文档:第一子集和第二子集;第二子集和第四子集;或第一子集和第四子集。
另外地或可替代地,过程900可以包括存储预测模型的模型层次结构,该预测模型包括第一预测模型和第二预测模型,该模型层次结构指示预测模型之间的关系。过程900还可以包括生成已识别技术的文档的类内预测是利用第一预测模型和第二预测模型执行的指示符。过程900还可以包括从模型层次结构接收针对要利用的模型的搜索查询并且确定该搜索查询对应于已识别技术。过程900还可以包括将响应数据提供给搜索查询,其中,该响应数据表示指示符而不是第一预测模型和第二预测模型。
示例条款
1、一种方法,包括:接收表示用于识别与已识别技术相关的专利文档的用户查询的第一数据;识别与所述已识别技术相关联的第一子类别;生成第一预测模型,所述第一预测模型被配置为识别与所述第一子类别相关的专利文档;识别与所述已识别技术相关联的第二子类别;生成第二预测模型,所述第二预测模型被配置为识别与所述第二子类别相关的专利文档;将表示样本专利文档的第二数据作为第一输入提供给所述第一预测模型;生成第三数据作为来自所述第一预测模型的第一输出,所述第三数据识别由所述第一预测模型确定为类内的所述样本专利文档的第一子集;将表示所述样本专利文档的所述第二数据作为第二输入提供给所述第二预测模型;生成第四数据作为来自所述第二预测模型的第二输出,所述第四数据识别由所述第二预测模型确定为类内的所述样本专利文档的第二子集;确定在所述第一子集和所述第二子集中的所述样本专利文档的第三子集;以及使与所述用户查询相关联的设备至少显示与所述已识别技术相关的所述样本专利文档的所述第三子集的标识符。
2、根据条款1所述的方法,进一步包括:识别与所述已识别技术相关联的第三子类别;生成第三预测模型,所述第三预测模型被配置为识别与所述第三子类别相关的专利文档;生成第五数据作为来自所述第三预测模型的输出,所述第五数据识别由所述第三预测模型确定为类内的所述样本专利文档的第四子集;并且其中,所述第三子集包括以下各项:在所述第一子集、所述第二子集、和所述第四子集中的所述样本专利文档;或在所述第一子集、所述第二子集、和所述第四子集中的至少两个中的所述样本专利文档。
3、根据条款1和/或2所述的方法,进一步包括:确定用于应用于所述第一预测模型的第一置信阈值,所述第一置信阈值指示用于将给定专利文档预测为类内的第一置信度;确定用于应用于所述第二预测模型的第二置信阈值,所述第二置信阈值指示用于将所述给定专利文档预测为类内的第二置信度,其中,所述第一置信阈值不同于所述第二置信阈值;并且其中:生成所述第三数据是至少部分地基于所述第一置信阈值的;并且生成所述第四数据是至少部分地基于所述第二置信阈值的。
4、根据条款1、2和/或3中任一项所述的方法,进一步包括:确定权利要求宽度值,所述权利要求宽度值指示所述第三子集中的所述样本专利文档中的各个专利文档的权利要求的权利要求宽度;确定在所述第三子集中并且具有满足阈值权利要求宽度值的权利要求宽度值的所述样本专利文档的第四子集;以及使所述设备优先显示所述样本专利文档的所述第四子集的标识符。
5、一种系统,包括:一个或多个处理器;以及存储计算机可执行指令的非暂时性计算机可读介质,所述计算机可执行指令当由所述一个或多个处理器执行时,使所述一个或多个处理器执行包括以下各项的操作:生成第一预测模型,所述第一预测模型被配置为识别与关联于已识别技术的第一子类别相关的文档;生成第二预测模型,所述第二预测模型被配置为识别与关联于所述已识别技术的第二子类别相关的文档;利用所述第一预测模型生成第一数据,所述第一数据识别被确定为类内的样本文档的第一子集;利用所述第二预测模型生成第二数据,所述第二数据识别被确定为类内的所述样本文档的第二子集;以及生成第三数据,所述第三数据指示在所述第一子集和所述第二子集中的所述样本文档的第三子集。
6、根据条款5所述的系统,所述操作进一步包括:生成第三预测模型,所述第三预测模型被配置为识别与关联于所述已识别技术的第三子类别相关的文档;利用所述第三预测模型生成第四数据,所述第四数据识别被确定为类内的所述样本文档的第四子集;并且其中,所述第三子集包括在所述第一子集、所述第二子集和所述第四子集中的所述样本文档。
7、根据条款5和/或6所述的系统,所述操作进一步包括:确定用于应用于所述第一预测模型的第一置信阈值;确定用于应用于所述第二预测模型的第二置信阈值,所述第一置信阈值不同于所述第二置信阈值;并且其中:生成所述第一数据是至少部分地基于所述第一置信阈值的;并且生成所述第二数据是至少部分地基于所述第二置信阈值的。
8、根据条款5、6和/或7中任一项所述的系统,所述操作进一步包括:对于所述样本文档中的各个文档,确定所述样本文档中的所述各个文档的权利要求的权利要求分数;以及确定在所述第三子集中并且具有满足阈值权利要求分数的权利要求分数的所述样本文档的第四子集。
9、根据条款5、6、7和/或8中任一项所述的系统,其中:所述第一预测模型与第一置信阈值相关联,所述第一置信阈值指示用于将给定专利文档预测为类内的第一置信度,并且所述操作进一步包括:生成用户界面,所述用户界面被配置为显示来自文档的关键字,所述文档由所述第一预测模型利用所述第一置信阈值预测为类内;接收用户输入数据,所述用户输入数据指示用于应用于所述第一预测模型的第二置信阈值,所述用户输入数据响应于经由所述用户界面显示的所述关键字;以及将所述第二置信阈值而不是所述第一置信阈值应用于所述第一预测模型。
10、根据条款5、6、7、8和/或9中任一项所述的系统,所述操作进一步包括:生成坐标系中的第一向量,所述第一向量表示与所述第三子集相关联的所述文档;确定与所述第一向量相关联的所述坐标系的区域;以及识别由所述坐标系中的在所述区域内的第二向量表示的附加文档。
11、根据条款5、6、7、8、9和/或10中任一项所述的系统,所述操作进一步包括:生成第三预测模型,所述第三预测模型被配置为识别与关联于所述已识别技术的第三子类别相关的文档;利用所述第三预测模型生成第四数据,所述第四数据识别被确定为类内的所述样本文档的第四子集;并且其中,所述第三子集包括在以下各项中的至少一个中的所述样本文档:所述第一子集和所述第二子集;所述第二子集和所述第四子集;或所述第一子集和所述第四子集。
12、根据条款5、6、7、8、9、10和/或11中任一项所述的系统,所述操作进一步包括:存储预测模型的模型层次结构,所述预测模型包括所述第一预测模型和所述第二预测模型,所述模型层次结构指示所述预测模型之间的关系;生成所述已识别技术的文档的类内预测是利用所述第一预测模型和所述第二预测模型执行的指示符;从所述模型层次结构接收针对要利用的模型的搜索查询;确定所述搜索查询对应于所述已识别技术;以及将响应数据提供给所述搜索查询,其中,所述响应数据表示所述指示符而不是所述第一预测模型和所述第二预测模型。
13、一种方法,包括:生成第一预测模型,所述第一预测模型被配置为识别与关联于已识别技术的第一子类别相关的文档;生成第二预测模型,所述第二预测模型被配置为识别与关联于所述已识别技术的第二子类别相关的文档;利用所述第一预测模型生成第一数据,所述第一数据识别被确定为类内的样本文档的第一子集;利用所述第二预测模型生成第二数据,所述第二数据识别被确定为类内的所述样本文档的第二子集;以及生成第三数据,所述第三数据指示在所述第一子集和所述第二子集中的所述样本文档的第三子集。
14、根据条款13所述的方法,进一步包括:生成第三预测模型,所述第三预测模型被配置为识别与关联于所述已识别技术的第三子类别相关的文档;利用所述第三预测模型生成第四数据,所述第四数据识别被确定为类内的所述样本文档的第四子集;并且其中,所述第三子集包括在所述第一子集、所述第二子集和所述第四子集中的所述样本文档。
15、根据条款13和/或14所述的方法,进一步包括:确定用于应用于所述第一预测模型的第一置信阈值;确定用于应用于所述第二预测模型的第二置信阈值,所述第一置信阈值不同于所述第二置信阈值;并且其中:生成所述第一数据是至少部分地基于所述第一置信阈值的;以及生成所述第二数据是至少部分地基于所述第二置信阈值的。
16、根据条款13、14和/或15中任一项所述的方法,进一步包括:对于所述样本文档中的各个文档,确定所述样本文档中的所述各个文档的权利要求的权利要求分数;以及确定在所述第三子集中并且具有满足阈值权利要求分数的权利要求分数的所述样本文档的第四子集。
17、根据条款13、14、15和/或16中任一项所述的系统,其中:所述第一预测模型与第一置信阈值相关联,所述第一置信阈值指示用于将给定专利文档预测为类内的第一置信度,并且所述方法进一步包括:生成用户界面,所述用户界面被配置为显示来自文档的关键字,所述文档由所述第一预测模型利用所述第一置信阈值预测为类内;接收用户输入数据,所述用户输入数据指示用于应用于所述第一预测模型的第二置信阈值,所述用户输入数据响应于经由所述用户界面显示的所述关键字;以及将所述第二置信阈值而不是所述第一置信阈值应用于所述第一预测模型。
18、根据条款13、14、15、16和/或17中任一项所述的方法,进一步包括:生成坐标系中的第一向量,所述第一向量表示与所述第三子集相关联的所述文档;确定与所述第一向量相关联的所述坐标系的区域;以及识别由所述坐标系中的在所述区域内的第二向量表示的附加文档。
19、根据条款13、14、15、16、17和/或18中任一项所述的方法,进一步包括:生成第三预测模型,所述第三预测模型被配置为识别与关联于所述已识别技术的第三子类别相关的文档;利用所述第三预测模型生成第四数据,所述第四数据识别被确定为类内的所述样本文档的第四子集;并且其中,所述第三子集包括在以下各项中的至少一个中的所述样本文档:所述第一子集和所述第二子集;所述第二子集和所述第四子集;或所述第一子集和所述第四子集。
20、根据条款13、14、15、16、17、18和/或19中任一项所述的方法,进一步包括:存储预测模型的模型层次结构,所述预测模型包括所述第一预测模型和所述第二预测模型,所述模型层次结构指示所述预测模型之间的关系;生成所述已识别技术的文档的类内预测是利用所述第一预测模型和所述第二预测模型执行的指示符;从所述模型层次结构接收针对要利用的模型的搜索查询;确定所述搜索查询对应于所述已识别技术;以及将响应数据提供给所述搜索查询,其中,所述响应数据表示所述指示符而不是所述第一预测模型和所述第二预测模型。
虽然相对于特定示例描述了前述发明,但是应当理解本发明的范围不限于这些特定示例。由于为适应特定操作要求和环境而变化的其他修改和改变对于本领域的技术人员将是显而易见的,因此本发明不被认为限于出于本公开的目的而选择的示例,并且涵盖不构成脱离本发明的真正精神和范围的全部改变和修改。
虽然本申请描述了具有特定结构特征和/或方法动作的实施例,但是应当理解,权利要求不一定限于所描述的特定特征或动作。而是,特定特征和动作仅仅用于说明落入权利要求的范围内的一些实施例。
Claims (15)
1.一种方法,包括:
接收表示用于识别与已识别技术相关的专利文档的用户查询的第一数据;
识别与所述已识别技术相关联的第一子类别;
生成第一预测模型,所述第一预测模型被配置为识别与所述第一子类别相关的专利文档;
识别与所述已识别技术相关联的第二子类别;
生成第二预测模型,所述第二预测模型被配置为识别与所述第二子类别相关的专利文档;
将表示样本专利文档的第二数据作为第一输入提供给所述第一预测模型;
生成第三数据作为来自所述第一预测模型的第一输出,所述第三数据识别由所述第一预测模型确定为类内的所述样本专利文档的第一子集;
将表示所述样本专利文档的所述第二数据作为第二输入提供给所述第二预测模型;
生成第四数据作为来自所述第二预测模型的第二输出,所述第四数据识别由所述第二预测模型确定为类内的所述样本专利文档的第二子集;
确定在所述第一子集和所述第二子集中的所述样本专利文档的第三子集;以及
使与所述用户查询相关联的设备至少显示与所述已识别技术相关的所述样本专利文档的所述第三子集的标识符。
2.根据权利要求1所述的方法,进一步包括:
识别与所述已识别技术相关联的第三子类别;
生成第三预测模型,所述第三预测模型被配置为识别与所述第三子类别相关的专利文档;
生成第五数据作为来自所述第三预测模型的输出,所述第五数据识别由所述第三预测模型确定为类内的所述样本专利文档的第四子集;并且
其中,所述第三子集包括以下各项:
在所述第一子集、所述第二子集、和所述第四子集中的所述样本专利文档;或
在所述第一子集、所述第二子集、和所述第四子集中的至少两个中的所述样本专利文档。
3.根据权利要求1所述的方法,进一步包括:
确定用于应用于所述第一预测模型的第一置信阈值,所述第一置信阈值指示用于将给定专利文档预测为类内的第一置信度;
确定用于应用于所述第二预测模型的第二置信阈值,所述第二置信阈值指示用于将所述给定专利文档预测为类内的第二置信度,其中,所述第一置信阈值不同于所述第二置信阈值;并且
其中:
生成所述第三数据是至少部分地基于所述第一置信阈值的;并且
生成所述第四数据是至少部分地基于所述第二置信阈值的。
4.根据权利要求1所述的方法,进一步包括:
确定权利要求宽度值,所述权利要求宽度值指示所述第三子集中的所述样本专利文档中的各个专利文档的权利要求的权利要求宽度;
确定在所述第三子集中并且具有满足阈值权利要求宽度值的权利要求宽度值的所述样本专利文档的第四子集;以及
使所述设备优先显示所述样本专利文档的所述第四子集的标识符。
5.一种系统,包括:
一个或多个处理器;以及
存储计算机可执行指令的非暂时性计算机可读介质,所述计算机可执行指令当由所述一个或多个处理器执行时,使所述一个或多个处理器执行包括以下各项的操作:
生成第一预测模型,所述第一预测模型被配置为识别与关联于已识别技术的第一子类别相关的文档;
生成第二预测模型,所述第二预测模型被配置为识别与关联于所述已识别技术的第二子类别相关的文档;
利用所述第一预测模型生成第一数据,所述第一数据识别被确定为类内的样本文档的第一子集;
利用所述第二预测模型生成第二数据,所述第二数据识别被确定为类内的所述样本文档的第二子集;以及
生成第三数据,所述第三数据指示在所述第一子集和所述第二子集中的所述样本文档的第三子集。
6.根据权利要求5所述的系统,所述操作进一步包括:
生成第三预测模型,所述第三预测模型被配置为识别与关联于所述已识别技术的第三子类别相关的文档;
利用所述第三预测模型生成第四数据,所述第四数据识别被确定为类内的所述样本文档的第四子集;并且
其中,所述第三子集包括在所述第一子集、所述第二子集和所述第四子集中的所述样本文档。
7.根据权利要求5所述的系统,所述操作进一步包括:
确定用于应用于所述第一预测模型的第一置信阈值;
确定用于应用于所述第二预测模型的第二置信阈值,所述第一置信阈值不同于所述第二置信阈值;并且
其中:
生成所述第一数据是至少部分地基于所述第一置信阈值的;并且
生成所述第二数据是至少部分地基于所述第二置信阈值的。
8.根据权利要求5所述的系统,所述操作进一步包括:
对于所述样本文档中的各个文档,确定所述样本文档中的所述各个文档的权利要求的权利要求分数;以及
确定在所述第三子集中并且具有满足阈值权利要求分数的权利要求分数的所述样本文档的第四子集。
9.根据权利要求5所述的系统,其中,所述第一预测模型与第一置信阈值相关联,所述第一置信阈值指示用于将给定专利文档预测为类内的第一置信度,并且所述操作进一步包括:
生成用户界面,所述用户界面被配置为显示来自文档的关键字,所述文档由所述第一预测模型利用所述第一置信阈值预测为类内;
接收用户输入数据,所述用户输入数据指示用于应用于所述第一预测模型的第二置信阈值,所述用户输入数据响应于经由所述用户界面显示的所述关键字;以及
将所述第二置信阈值而不是所述第一置信阈值应用于所述第一预测模型。
10.根据权利要求5所述的系统,所述操作进一步包括:
生成坐标系中的第一向量,所述第一向量表示与所述第三子集相关联的文档;
确定与所述第一向量相关联的所述坐标系的区域;以及
识别由所述坐标系中的在所述区域内的第二向量表示的附加文档。
11.根据权利要求5所述的系统,所述操作进一步包括:
生成第三预测模型,所述第三预测模型被配置为识别与关联于所述已识别技术的第三子类别相关的文档;
利用所述第三预测模型生成第四数据,所述第四数据识别被确定为类内的所述样本文档的第四子集;并且
其中,所述第三子集包括在以下各项中的至少一个中的所述样本文档:
所述第一子集和所述第二子集;
所述第二子集和所述第四子集;或
所述第一子集和所述第四子集。
12.根据权利要求5所述的系统,所述操作进一步包括:
存储预测模型的模型层次结构,所述预测模型包括所述第一预测模型和所述第二预测模型,所述模型层次结构指示所述预测模型之间的关系;
生成所述已识别技术的文档的类内预测是利用所述第一预测模型和所述第二预测模型执行的指示符;
从所述模型层次结构接收针对要利用的模型的搜索查询;
确定所述搜索查询对应于所述已识别技术;以及
将响应数据提供给所述搜索查询,其中,所述响应数据表示所述指示符而不是所述第一预测模型和所述第二预测模型。
13.一种方法,包括:
生成第一预测模型,所述第一预测模型被配置为识别与关联于已识别技术的第一子类别相关的文档;
生成第二预测模型,所述第二预测模型被配置为识别与关联于所述已识别技术的第二子类别相关的文档;
利用所述第一预测模型生成第一数据,所述第一数据识别被确定为类内的样本文档的第一子集;
利用所述第二预测模型生成第二数据,所述第二数据识别被确定为类内的所述样本文档的第二子集;以及
生成第三数据,所述第三数据指示在所述第一子集和所述第二子集中的所述样本文档的第三子集。
14.根据权利要求13所述的方法,进一步包括:
生成第三预测模型,所述第三预测模型被配置为识别与关联于所述已识别技术的第三子类别相关的文档;
利用所述第三预测模型生成第四数据,所述第四数据识别被确定为类内的所述样本文档的第四子集;并且
其中,所述第三子集包括在所述第一子集、所述第二子集和所述第四子集中的所述样本文档。
15.根据权利要求13所述的方法,进一步包括:
确定用于应用于所述第一预测模型的第一置信阈值;
确定用于应用于所述第二预测模型的第二置信阈值,所述第一置信阈值不同于所述第二置信阈值;并且
其中:
生成所述第一数据是至少部分地基于所述第一置信阈值的;以及
生成所述第二数据是至少部分地基于所述第二置信阈值的。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/166,199 US11928879B2 (en) | 2021-02-03 | 2021-02-03 | Document analysis using model intersections |
US17/166,199 | 2021-02-03 | ||
PCT/US2022/014826 WO2022169795A1 (en) | 2021-02-03 | 2022-02-02 | Document analysis using model intersections |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116848490A true CN116848490A (zh) | 2023-10-03 |
Family
ID=82612051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280012001.0A Pending CN116848490A (zh) | 2021-02-03 | 2022-02-02 | 使用模型相交进行文档分析 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11928879B2 (zh) |
EP (1) | EP4288848A1 (zh) |
JP (1) | JP2024505909A (zh) |
KR (1) | KR20230142754A (zh) |
CN (1) | CN116848490A (zh) |
WO (1) | WO2022169795A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4295244A1 (en) * | 2021-02-18 | 2023-12-27 | Xero Limited | Systems and method for generating labelled datasets |
US12135936B2 (en) * | 2021-06-03 | 2024-11-05 | Capital One Services, Llc | Systems and methods for natural language processing |
US11568276B1 (en) * | 2021-08-25 | 2023-01-31 | International Business Machines Corporation | Adaptive document understanding |
US20230087206A1 (en) * | 2021-09-17 | 2023-03-23 | Aon Risk Services, Inc. Of Maryland | Intellectual-property analysis platform |
US20230214582A1 (en) * | 2022-01-05 | 2023-07-06 | Cars.Com, Llc | Automatic identifying and emphasizing of key text |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6233575B1 (en) * | 1997-06-24 | 2001-05-15 | International Business Machines Corporation | Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values |
GB2371901B (en) * | 1999-09-21 | 2004-06-23 | Andrew E Borthwick | A probabilistic record linkage model derived from training data |
US7451065B2 (en) * | 2002-03-11 | 2008-11-11 | International Business Machines Corporation | Method for constructing segmentation-based predictive models |
US7644360B2 (en) * | 2003-11-07 | 2010-01-05 | Spore, Inc. | Patent claims analysis system and method |
US20050182755A1 (en) * | 2004-02-14 | 2005-08-18 | Bao Tran | Systems and methods for analyzing documents over a network |
US7716226B2 (en) * | 2005-09-27 | 2010-05-11 | Patentratings, Llc | Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects |
US8065307B2 (en) * | 2006-12-20 | 2011-11-22 | Microsoft Corporation | Parsing, analysis and scoring of document content |
US20090132522A1 (en) * | 2007-10-18 | 2009-05-21 | Sami Leino | Systems and methods for organizing innovation documents |
US20090132496A1 (en) * | 2007-11-16 | 2009-05-21 | Chen-Kun Chen | System And Method For Technique Document Analysis, And Patent Analysis System |
KR20110027729A (ko) * | 2008-06-24 | 2011-03-16 | 샤론 벨렌손 | 특허 문헌에 적용 가능한 검색 엔진 및 그 방법 |
US20100131513A1 (en) * | 2008-10-23 | 2010-05-27 | Lundberg Steven W | Patent mapping |
US20100287148A1 (en) * | 2009-05-08 | 2010-11-11 | Cpa Global Patent Research Limited | Method, System, and Apparatus for Targeted Searching of Multi-Sectional Documents within an Electronic Document Collection |
US8396870B2 (en) * | 2009-06-25 | 2013-03-12 | University Of Tennessee Research Foundation | Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling |
US9367814B1 (en) * | 2011-12-27 | 2016-06-14 | Google Inc. | Methods and systems for classifying data using a hierarchical taxonomy |
EP3030216B1 (en) * | 2013-08-09 | 2019-12-18 | The Chemours Company FC, LLC | Skin care compositions having cyclic diesters and methods thereof |
US10133791B1 (en) * | 2014-09-07 | 2018-11-20 | DataNovo, Inc. | Data mining and analysis system and method for legal documents |
US10019442B2 (en) * | 2015-05-31 | 2018-07-10 | Thomson Reuters Global Resources Unlimited Company | Method and system for peer detection |
US20180268015A1 (en) * | 2015-09-02 | 2018-09-20 | Sasha Sugaberry | Method and apparatus for locating errors in documents via database queries, similarity-based information retrieval and modeling the errors for error resolution |
TWI578242B (zh) * | 2015-11-13 | 2017-04-11 | 財團法人資訊工業策進會 | 技術趨勢預測方法及系統及非暫態電腦可讀取記錄媒體 |
US10909188B2 (en) * | 2018-10-12 | 2021-02-02 | Black Hills Ip Holdings, Llc | Machine learning techniques for detecting docketing data anomalies |
KR102367135B1 (ko) * | 2018-11-14 | 2022-02-24 | 삼성전자주식회사 | 무선 통신 네트워크의 seal 시스템에서 서비스 간 통신을 프로비저닝하기 위한 seal 시스템 및 방법 |
US10452902B1 (en) * | 2018-12-21 | 2019-10-22 | Capital One Services, Llc | Patent application image generation systems |
WO2020227434A1 (en) * | 2019-05-07 | 2020-11-12 | Cerebri AI Inc. | Predictive, machine-learning, locale-aware computer models suitable for location- and trajectory-aware training sets |
US11776291B1 (en) * | 2020-06-10 | 2023-10-03 | Aon Risk Services, Inc. Of Maryland | Document analysis architecture |
US11893505B1 (en) * | 2020-06-10 | 2024-02-06 | Aon Risk Services, Inc. Of Maryland | Document analysis architecture |
US11373424B1 (en) * | 2020-06-10 | 2022-06-28 | Aon Risk Services, Inc. Of Maryland | Document analysis architecture |
US11379665B1 (en) * | 2020-06-10 | 2022-07-05 | Aon Risk Services, Inc. Of Maryland | Document analysis architecture |
US11893065B2 (en) * | 2020-06-10 | 2024-02-06 | Aon Risk Services, Inc. Of Maryland | Document analysis architecture |
US11893537B2 (en) * | 2020-12-08 | 2024-02-06 | Aon Risk Services, Inc. Of Maryland | Linguistic analysis of seed documents and peer groups |
-
2021
- 2021-02-03 US US17/166,199 patent/US11928879B2/en active Active
-
2022
- 2022-02-02 KR KR1020237029557A patent/KR20230142754A/ko unknown
- 2022-02-02 JP JP2023545904A patent/JP2024505909A/ja active Pending
- 2022-02-02 CN CN202280012001.0A patent/CN116848490A/zh active Pending
- 2022-02-02 EP EP22750276.2A patent/EP4288848A1/en active Pending
- 2022-02-02 WO PCT/US2022/014826 patent/WO2022169795A1/en active Application Filing
-
2024
- 2024-03-11 US US18/601,321 patent/US20240282137A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US11928879B2 (en) | 2024-03-12 |
KR20230142754A (ko) | 2023-10-11 |
WO2022169795A1 (en) | 2022-08-11 |
EP4288848A1 (en) | 2023-12-13 |
JP2024505909A (ja) | 2024-02-08 |
US20240282137A1 (en) | 2024-08-22 |
US20220245378A1 (en) | 2022-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11520812B2 (en) | Method, apparatus, device and medium for determining text relevance | |
US11562012B2 (en) | System and method for providing technology assisted data review with optimizing features | |
WO2022116537A1 (zh) | 一种资讯推荐方法、装置、电子设备和存储介质 | |
CN116848490A (zh) | 使用模型相交进行文档分析 | |
WO2021139262A1 (zh) | 文献主题词聚合方法、装置、计算机设备及可读存储介质 | |
US11373424B1 (en) | Document analysis architecture | |
US11379665B1 (en) | Document analysis architecture | |
CN110147421B (zh) | 一种目标实体链接方法、装置、设备及存储介质 | |
CN107391682B (zh) | 知识验证方法、知识验证设备以及存储介质 | |
WO2021252419A1 (en) | Document analysis architecture | |
CN112182145A (zh) | 文本相似度确定方法、装置、设备和存储介质 | |
CN116644148A (zh) | 关键词识别方法、装置、电子设备及存储介质 | |
CN115795030A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
US11776291B1 (en) | Document analysis architecture | |
Priandini et al. | Categorizing document by fuzzy C-Means and K-nearest neighbors approach | |
Ataman et al. | Transforming large-scale participation data through topic modelling in urban design processes | |
CN112818221B (zh) | 实体的热度确定方法、装置、电子设备及存储介质 | |
CN116933130A (zh) | 一种基于大数据的企业行业分类方法、系统、设备及介质 | |
US11893065B2 (en) | Document analysis architecture | |
CN112215006B (zh) | 机构命名实体归一化方法和系统 | |
US11893505B1 (en) | Document analysis architecture | |
CN105373521B (zh) | 一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法 | |
CN110413782B (zh) | 一种表自动主题分类方法、装置、计算机设备及存储介质 | |
CN115129890A (zh) | 回馈数据图谱生成方法、生成设备、问答设备及冰箱 | |
CN117556118B (zh) | 基于科研大数据预测的可视化推荐系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20231003 |
|
WD01 | Invention patent application deemed withdrawn after publication |