JP2022541199A

JP2022541199A - データテーブルの画像表現に基づいて構造化されたデータベースにデータ挿入するためのシステムおよび方法。

Info

Publication number: JP2022541199A
Application number: JP2022502444A
Authority: JP
Inventors: プラサド，アシム; バブ，メルウィン; サハ，ディバカラ
Original assignee: Nference Inc
Current assignee: Nference Inc
Priority date: 2019-07-16
Filing date: 2020-07-16
Publication date: 2022-09-22
Also published as: EP3999929A1; US20210019287A1; US12032546B2; WO2021011776A1; EP3999929A4; US20240220468A1

Abstract

構造データベースにデータ挿入するためのシステムおよび方法であって、行および列に配置された１つ以上のセルを含むデータテーブルの画像表現にアクセスすることと、画像表現をニューラルネットワークモデルへの入力として提供することと、ニューラルネットワークモデルを実行して、画像表現内の第１のコンテンツオブジェクトの場所を識別することと、第１のコンテンツオブジェクトの場所に基づいて、第１のセルの場所を識別することと、複数のコンテンツオブジェクトと関連して第１のセルおよび第１のコンテンツオブジェクトの場所に基づいて、第１のセルが第１の行および第１の列に属すると判定することと、第１のコンテンツオブジェクトを１つ以上の分類識別子と関連付けることと、構造化されたデータベースに第１のコンテンツオブジェクトおよび１つ以上の分類識別子をデータ挿入することと、を含む、システムおよび方法。【選択図】図３

Description

関連出願の相互参照
本出願は、「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＰｏｐｕｌａｔｉｎｇａＳｔｒｕｃｔｕｒｅｄＤａｔａｂａｓｅＢａｓｅｄｏｎａｎＩｍａｇｅＲｅｐｒｅｓｅｎｔａｔｉｏｎｏｆａＤａｔａＴａｂｌｅ」と題する、２０１９年７月１６日出願の米国仮出願第６２／８７４，８３０号に対する米国特許法第１１９条（ｅ）の優先権を主張し、その内容全体が本明細書に組み込まれる。

本出願は、概して、データベースに関するものであり、具体的には、データテーブルの画像表現に基づいて、構造化されたデータベースにデータ挿入するための技術に関する。

データベース技術は、膨大な量のデータが効率的な様式でデジタル的に保存され、アクセスされることを可能にする。例えば、多くの新興の「ビッグデータ」アプリケーションは、データベース技術の発展によって可能にされる。データベースは、データセンタ内に、および／またはクラウド内にローカルに記憶され得る。データベースはまた、複数の施設にまたがって分散され得る。

データベースは、様々なやり方で構造化され得る。例えば、関係データベースは、データを、データの各々が行および列に配置されるテーブルセットとしてモデル化する。クエリ言語は、データベースからのデータにプログラム的にアクセスし、データベース内に記憶されたデータを操作するために使用され得る。

しかしながら、データベースに情報をデータ挿入し、その情報を正確かつ最新の状態に保つことは、困難なタスクであり得る。したがって、データベース内の情報の大規模な収集および記憶に好適な自動化された技術を含む、データベースにデータ挿入するための改善された技術を開発することが望ましい。

本開示の実施形態による、データテーブルの画像表現に基づいて、構造化されたデータベースにデータ挿入するためのシステムおよび方法は、１つ以上のコンピュータプロセッサによって、データテーブルの画像表現にアクセスすることであって、データテーブルが、１つ以上の行および１つ以上の列に配置された１つ以上のセルを含み、１つ以上のセルが、少なくとも１つの第１の行および少なくとも１つの第１の列に属する第１のセルを含み、第１のセルには、第１のコンテンツオブジェクトが挿入されている、アクセスすることと、１つ以上のコンピュータプロセッサによって、画像表現を、画像表現内のコンテンツオブジェクトの場所を識別するように訓練されているニューラルネットワークモデルへの入力として提供することと、１つ以上のコンピュータプロセッサによって、ニューラルネットワークモデルを実行して、画像表現内の第１のコンテンツオブジェクトの場所を識別することと、１つ以上のコンピュータプロセッサによって、第１のコンテンツオブジェクトの場所に基づいて、第１のセルの場所を識別することと、１つ以上のコンピュータプロセッサによって、
第１のセルの場所、および１つ以上の行および１つ以上の列と関連付けられた複数のコンテンツオブジェクトとの関連での第１のコンテンツオブジェクトのうちの１つ以上に基づいて、第１のセルが少なくとも１つの第１の行および第１の列に属すると判定することと、第１のコンテンツオブジェクトを１つ以上の分類識別子と関連付けることと、１つ以上のコンピュータプロセッサによって、第１のセルが、少なくとも１つの第１の行および少なくとも１つの第１の列に属すると判定することに基づいて、第１のコンテンツオブジェクトおよび１つ以上の分類識別子と関連付けられた情報を構造化されたデータベースにデータ挿入することであって、構造化されたデータベースが、少なくとも１つの第１の行と関連付けられた少なくとも１つのデータテーブル行、および少なくとも１つの第１の列と関連付けられた少なくとも１つのデータテーブル列を含む、データ挿入することと、を含む。

いくつかの実施形態では、システムおよび方法はまた、第１のセルが、少なくとも１つの第１の行および少なくとも１つの第１の列に属さないと判定することに基づいて、構造化されたデータベース内の少なくとも１つの第２の列および少なくとも１つの第２の行のうちの１つを作成することを含み得る。いくつかの実施形態では、画像表現にアクセスすることが、１つ以上のコンピュータプロセッサによって、コンピュータネットワークを介してデジタルドキュメントを受信することであって、デジタルドキュメントが、データテーブルを含む、受信することと、１つ以上のコンピュータプロセッサによって、デジタルドキュメントをデジタル画像としてレンダリングすることと、１つ以上のコンピュータプロセッサによって、レンダリングされたデジタル画像内のデータテーブルの画像表現を位置特定することと、を含む。他の実施形態では、第１のコンテンツオブジェクトの場所が、第１のコンテンツオブジェクトの少なくとも一部分に対応する第１の領域を含み、第１のコンテンツオブジェクトの場所に基づいて、第１のセルの場所を識別することが、第１の領域を少なくとも１つの方向に拡張することと、拡張された第１の領域が、行の境界および列の境界のうちの１つ以上をマークするグラフィカルマーカを含むと判定することと、拡張された第１の領域がグラフィカルマーカを含むと判定することに応答して、拡張された第１の領域を、第１のセルの場所に対応するとして識別することと、を含む。

いくつかの実施形態では、拡張された第１の領域がグラフィカルマーカを含むと判定することが、拡張された第１の領域の縁に対応する複数の画素位置を識別することと、複数の画素位置内の各画素位置について、画素位置が、第１の所定の閾値を超える少なくとも１つの拡張方向に沿った色および強度のうちの１つ以上の変化と関連付けられているか否かを判定することと、色または強度の変化と関連付けられている複数の画素位置のカウントが、第２の所定の閾値を超えると判定することと、複数の画素位置の数が第２の所定の閾値を超えると判定することに応答して、拡張された第１の領域がグラフィカルマーカを含むと判定することと、を含む。他の実施形態では、第１のセルの場所が、行軸に沿った行スパンおよび列軸に沿った列スパンを含み、第１のセルの場所に基づいて、第１のセルが少なくとも１つの第１の行および少なくとも１つの第１の列に属すると判定することが、複数のセルの複数の場所に基づいて、データテーブル内の１つ以上のセルの少なくともサブセットをソートすることと、１つ以上のセルのサブセットのうちの選択されたセルから開始し、第１の行に属する１つ以上の第２のセルを識別するための動作を再帰的に実施することと、を含み、動作が、選択されたセルの行スパンと重なる行スパンを有する少なくとも１つの他のセルを判定することと、少なくとも１つの他のセルのうちの選択されたセルに最も近いセルを識別することと、最も近いセルを、少なくとも１つの第１の行に属するものとして識別することと、最も近いセルを次の選択されたセルとして選択することと、ヘッダ行の１つ以上のヘッダセルにデータ挿入されている１つ以上のヘッダコンテンツオブジェクトに基づいて、データテーブルの１つ以上の行のうちのヘッダ行を識別することと、第１のセルの列スパンが、１つ以上のヘッダセルのうちの第１のヘッダセルの列スパンと重なると判定することと、第１のセルを第１の列に属するものとして識別することであって、第１の列が、第１のヘッダセルと関連付けられている、識別することと、を含む。

いくつかの実施形態では、データテーブルの１つ以上の行の中からヘッダ行を識別することが、１つ以上のヘッダコンテンツオブジェクトに対応する１つ以上のテキスト表現を生成することと、１つ以上のテキスト表現の各々をヘッダ辞書に照会することであって、１つ以上のテキスト表現に対応する１つ以上の信頼スコアを含むスコアベクトルをもたらし、各信頼スコアが、照会の強度に基づく、照会することと、スコアベクトルに基づいて行スコアを決定することと、行スコアに基づいてヘッダ行を選択することと、を含む。他の実施形態では、スコアベクトルに基づいて行スコアを判定することが、スコアベクトルおよび１つ以上の信頼スコアのうちの１つ以上に基づいて、集計メトリックを計算することを含む。さらに他の実施形態では、ヘッダ行を選択することが、行スコアを、データテーブルの１つ以上の行と関連付けられた少なくとも１つの二次行スコアと比較することと、行スコアおよび少なくとも１つの二次行スコアの相対値に基づいて、ヘッダ行を選択することと、を含む。

いくつかの実施形態では、システムおよび方法は、１つ以上のコンピュータプロセッサによって、ヘッダ行の一部となるのに適格ではない、除外されたヘッダコンテンツオブジェクトのリストを取得することと、１つ以上のコンピュータプロセッサによって、ヘッダ行の１つ以上のヘッダセルにデータ挿入されている１つ以上のヘッダコンテンツオブジェクトが、除外されたヘッダコンテンツオブジェクトと一致するか否かを判定することと、１つ以上のヘッダコンテンツオブジェクトが、除外されたヘッダコンテンツオブジェクトのリスト上にある場合、１つ以上のコンピュータプロセッサによって、ヘッダ行の１つ以上のヘッダセルにデータ挿入されている１つ以上のヘッダコンテンツオブジェクトに基づいて、データテーブルの１つ以上の行のうちの置換ヘッダ行を識別することと、を含む。他の実施形態では、第１のコンテンツオブジェクトが、グラフィカルシーケンスオブジェクトを含み、構造化されたデータベースにデータ挿入することが、グラフィカルシーケンスオブジェクトからシーケンス情報を抽出することを含み、第１のコンテンツオブジェクトと関連付けられた情報が、シーケンス情報を含む。

いくつかの実施形態による、データテーブルの画像表現に基づいて、構造化されたデータベースにデータ挿入するためのシステムの簡略化された図である。いくつかの実施形態による、データテーブルの簡略化された図である。いくつかの実施形態による、データテーブルの画像表現に基づいて、構造化されたデータベースにデータ挿入するための方法の簡略化された図である。いくつかの実施形態による、データテーブルの画像表現にアクセスするための方法の簡略化された図である。いくつかの実施形態による、コンテンツオブジェクトの場所に基づいて、セルの場所を識別するための方法の簡略化された図である。いくつかの実施形態による、領域がグラフィカルマーカを含むと判定するための方法の簡略化された図である。いくつかの実施形態による、セルの場所に基づいて、セルが少なくとも１つの行および少なくとも１つの列に属すると判定するための方法の簡略化された図である。いくつかの実施形態による、データテーブルの１つ以上の行の中からヘッダ行を識別するための方法の簡略化された図である。いくつかの実施形態による、医薬品情報テーブルの簡略化された図である。いくつかの実施形態による、医薬品情報テーブルの簡略化された図である。いくつかの実施形態による、医薬品情報テーブルの簡略化された図である。いくつかの実施形態による、医薬品情報テーブルの簡略化された図である。いくつかの実施形態による、医薬品情報テーブルの簡略化された図である。いくつかの実施形態による、医薬品情報テーブルの簡略化された図である。いくつかの実施形態による、医薬品情報テーブルの簡略化された図である。いくつかの実施形態による、テキストの論理グループが自動的に識別された、医薬品情報テーブルの簡略化された図である。いくつかの実施形態による、テキストの論理グループが自動的に識別された、医薬品情報テーブルの簡略化された図である。いくつかの実施形態による、テキストの論理グループが自動的に識別された、医薬品情報テーブルの簡略化された図である。いくつかの実施形態による、テキストの論理グループが自動的に識別された、医薬品情報テーブルの簡略化された図である。いくつかの実施形態による、セルが特定の行および列に属するものとして識別された医薬品情報テーブルの簡略化された図である。いくつかの実施形態による、セルが特定の行および列に属するものとして識別された医薬品情報テーブルの簡略化された図である。いくつかの実施形態による、セルが特定の行および列に属するものとして識別された医薬品情報テーブルの簡略化された図である。いくつかの実施形態による、セルが特定の行および列に属するものとして識別された医薬品情報テーブルの簡略化された図である。いくつかの実施形態による、セルが特定の行および列に属するものとして識別された医薬品情報テーブルの簡略化された図である。いくつかの実施形態による、セルが特定の行および列に属するものとして識別された医薬品情報テーブルの簡略化された図である。

開示された主題の種々の目的、特徴および利点は、同様の参照符号が同様の要素を特定する以下の図面に関連して考慮された場合に、開示された主題の以下の詳細な説明を参照しながらより完全に明らかにされ得る。

表の様々な形式および構造を理由に、表のデータから情報を抽出することは、困難なタスクである可能性がある。データテーブルの行および列は、幅、高さ、および間隔を変更することを有し得る。データテーブルは、隣接する行または列間の境界を識別するための行または列マーカを有してもよく、または有していなくてもよい。いくつかのデータテーブルは、結合されたセルを含む。さらに、データテーブルは、複雑な背景またはセル変色スキームを含み得る。

例えば、バイオ医薬品会社は、医薬品パイプライン情報を含むウェブページまたはダウンロード可能なレポートを提供することがある。この情報は、多くの場合、表形式で提示される。例えば、医薬品パイプライン情報テーブルは、薬物名、標的、作用機序、疾患、および現在の開発のフェーズのような、開発中の製品に関する様々な情報を含み得る。開発のフェーズは、例えば、異なる形状、サイズ、および色の進捗バーを使用して、グラフィカルに提示され得る。特定の進捗バーは、複数の列にまたがり得、列マーカが進捗バーを含むセルを複数の列に分割するように見える場合でも、セルは、結合されたセルとして処理されるべきである。

本開示は、上記に説明されたものなどの、データテーブルから情報を抽出し、後続の取得および分析のための構造化されたデータベースにそれらを記憶するためのシステムおよび方法を説明する。

図１は、いくつかの実施形態による、データテーブルの画像表現に基づいて、構造化されたデータベースにデータ挿入するためのシステム１００の簡略化された図である。システム１００は、ネットワーク１１０を介して通信可能に連結される複数のデバイス１０１～１０９を含む。デバイス１０１～１０９は、概して、パーソナルコンピュータ、モバイルデバイス、サーバなどの、コンピュータデバイスまたはシステムを含む。ネットワーク１１０は、１つ以上のローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、有線ネットワーク、無線ネットワーク、インターネットなどを含み得る。例示的に、デバイス１０１～１０９は、ＴＣＰ／ＩＰプロトコルまたは他の好適なネットワークプロトコルを使用してネットワーク１１０を介して通信し得る。

デバイス１０１～１０９のうちの１つ以上は、ネットワーク１１０を介して、デジタルドキュメント１２１～１２９を記憶する、および／またはデジタルドキュメント１２１～１２９にアクセスし得る。例えば、図１に図示されるように、デバイス１０１、１０２、および１０９は、それぞれデジタルドキュメント１２１、１２２、および１２９を記憶し、デバイス１０３は、ネットワーク１１０を介してデジタルドキュメント１２１～１２９にアクセスする。デジタルドキュメント１２１～１２９は、ウェブページ、デジタルファイル、デジタル画像（ビデオまたはアニメーションの１つ以上のフレームを含む）などを含み得る。例示的に、デジタルドキュメント１２１～１２９は、ＨＴＭＬ／ＣＳＳドキュメント、ＰＤＦドキュメント、ワードプロセッサドキュメント（例えば、Ｗｏｒｄドキュメント）、テキストドキュメント、スライドショープレゼンテーション（例えば、ＰｏｗｅｒＰｏｉｎｔプレゼンテーション）、画像ファイル（例えば、ＪＰＥＧ、ＰＮＧ、またはＴＩＦＦ画像）などとして形式化され得る。効率的な記憶および／またはネットワーク１１０を介した送信のために、ドキュメント１２１～１２９は、ネットワーク１１０を介した送信の前または送信中に圧縮され得る。暗号化、認証（多要素認証を含む）、ＳＳＬ、ＨＴＴＰＳ、および他のセキュリティ技術などのセキュリティ対策もまた、適用され得る。

いくつかの実施形態によると、デバイス１０３は、デバイス１０１、１０２、および１０９からデジタルドキュメント１２１～１２９をダウンロードすることによって、デジタルドキュメント１２１～１２９のうちの１つ以上にアクセスし得る。さらに、デバイス１０１、１０２、または１０９のうちの１つ以上は、デジタルドキュメント１２１～１２９をデバイス１０３にアップロードし得る。デジタルドキュメント１２１～１２９は、様々な時間に更新され得る。したがって、デバイス１０３は、最新のコピーを取得するために、様々な間隔で（例えば、周期的に）デジタルドキュメント１２１～１２９に複数回アクセスし得る。

デジタルドキュメント１２１～１２９の少なくとも１つは、１つ以上のデータテーブル１３１～１３９を含み得る。例えば、データテーブル１３１～１３９は、デジタルドキュメント１２１～１２９内に埋め込まれるか、デジタルドキュメント１２１～１２９内からリンクされるなどであってもよい。データテーブル１３１～１３９は、画像形式、テキスト形式（例えば、ＣＳＶまたはＴＳＶファイル）、マークアップ言語形式（例えば、ＸＭＬまたはＨＴＭＬ／ＣＳＳ）などの、様々な形式で記憶され得る。

図１に図示されるように、デバイス１０３は、メモリ１５０（例えば、１つ以上の非一時的メモリ）に連結されたプロセッサ１４０（例えば、１つ以上のハードウェアプロセッサ）を含む。メモリ１５０は、処理パイプライン１６０およびニューラルネットワークモデル１７０（または複数のニューラルネットワークモデル）に対応する命令および／またはデータを記憶する。プロセッサ１４０によって実行されるとき、処理パイプライン１６０は、データテーブル１３１～１３９の画像表現に基づいてデータベース１８０にデータ挿入する。デジタルドキュメント１２１～１２９は、概して、様々な形式で記憶され、アクセスされ得るため、処理パイプライン１６０は、処理の準備において、デジタルドキュメント１２１～１２９および／またはデータテーブル１３１～１３９を画像表現に変換し得る。この予備変換ステップは、処理パイプライン１６０が、例えば、同じ技術を使用して、ＨＴＭＬ／ＣＳＳ形式およびＰＤＦ形式で受信されたデータテーブルを処理することを可能にする。

データベース１８０は、スキームまたは他の論理関係に従って編成されたコンテンツを有する構造化されたデータベースとして構成され得る。例えば、データベース１８０は、関係データベースであり得る。データベース１８０は、デバイス１０３に直接連結されるように図示されるが、様々な他の構成が可能であることが理解されるべきである。例えば、データベース１８０は、メモリ１０３内に記憶されるか、ネットワーク１１０を介してアクセスされるなどであってもよい。

処理パイプライン１６０の実行中、プロセッサ１４０は、ニューラルネットワークモデル１７０を実行する。ニューラルネットワークモデル１７０は、入力データに基づいて予測を行うように訓練される。ニューラルネットワークモデル１７０は、ニューラルネットワークモデル１７０の複数の層および層間の関係を画定する構成１７２を含む。層の例示的な例としては、入力層、出力層、畳み込み層、密に接続された層、マージ層などが挙げられる。いくつかの実施形態では、ニューラルネットワークモデル１７０は、入力層と出力層との間に少なくとも１つの隠れ層を有する深層ニューラルネットワークとして構成され得る。層間の接続は、フィードフォワード接続またはリカレント接続を含み得る。

ニューラルネットワークモデル１７０の１つ以上の層は、訓練されたモデルパラメータ１７４と関連付けられる。訓練されたモデルパラメータ１７４は、機械学習プロセスに従って学習される、パラメータ（例えば、人工ニューロンの重みおよびバイアスパラメータ）のセットである。機械学習プロセスの間、ラベル付けされた訓練データが、ニューラルネットワークモデル１７０への入力として提供され、訓練されたモデルパラメータ１７４の値は、ニューラルネットワーク１７０によって生成された予測が所望のレベルの精度で対応するラベルと一致するまで、繰り返し調整される。

改善されたパフォーマンスのために、プロセッサ１４０は、グラフィカルプロセッシングユニット、テンソルプロセッシングユニット、特定用途向け集積回路などを使用してニューラルネットワークモデル１７０を実行し得る。

図２は、いくつかの実施形態による、データテーブル２００の簡略化された図である。図１と一致するいくつかの実施形態では、データテーブル２００は、概して、データテーブル１３１～１３９のうちの少なくとも１つに対応し得る。

データテーブル２２０は、１つ以上の行２４１～２４９および１つ以上の列２５１～２５９に配置された１つ以上のセル２３１～２３９を含む。一般に、各セルは、少なくとも１つの行および少なくとも１つの列に属する。さらに、セル２３１～２３９のうちの１つ以上は、複数の行、複数の列、またはその両方を占有する結合されたセルに対応し得る。例えば、図２に図示されるように、セル２３５は、列２５２～２５９にわたる結合されたセルに対応する。

セル２３１～２３９のうちの１つ以上には、コンテンツオブジェクト２６１～２６９がデータ挿入される。コンテンツオブジェクト２６１～２６９は、テキスト、グラフィック、方程式、アニメ化されたコンテンツ、またはそれらの組み合わせなどの様々なタイプのコンテンツを含み得る。

いくつかの実施形態によると、コンテンツオブジェクト２６１～２６９のうちの１つ以上は、グラフィカルシーケンスオブジェクトを含み得る。例えば、図２に図示されるように、セル２３５には、グラフィカルシーケンスオブジェクト２７０を含むコンテンツオブジェクト２６９がデータ挿入される。グラフィカルシーケンスオブジェクト２７０は、タイミングまたはフェーズ情報などのシーケンス情報を表す。例えば、グラフィカルシーケンスオブジェクト２７０は、プロジェクトの開発ステージ、医薬品の臨床試験フェーズなどを表し得る。いくつかの実施形態では、グラフィカルシーケンスオブジェクト２７０は、進捗バーを使用してシーケンス情報を図示し得、進捗バーの長さ（例えば、進捗バーがまたがっている列の数）は、シーケンス情報を伝達する。一般に、グラフィカルシーケンスオブジェクト２７０などのグラフィカルシーケンスオブジェクトは、多種多様な形状、サイズ、色、テクスチャ、パターンなどで提供され得る。

行２４１～２４９のうちの１つ以上は、データテーブル２００のヘッダ行として指定され得る。例えば、図２に図示されるように、最上部行２４１は、ヘッダ行として指定される。ヘッダ行の内容は、ヘッダ行の個々のセルの下の列のセル内に含まれるテキストラベルなどの、他の行の内容を説明する情報を含む。例えば、ヘッダ行２４１内のセル２３２および２３３には、それぞれ、ヘッダコンテンツオブジェクト２８２および２８４を含むコンテンツオブジェクト２６１および２６２がデータ挿入される。ヘッダコンテンツオブジェクト２８２は、列２５２の他の行の内容を説明する情報を含み、ヘッダコンテンツオブジェクト２８４は、列２５９の他の行の内容を説明する情報を含む。

いくつかの実施形態では、データテーブル２００の隣接する列または行は、グラフィカル列マーカ２９２またはグラフィカル行マーカ２９４などのグラフィカルマーカを使用して区切られ得る。グラフィカル列マーカ２９２およびグラフィカル行マーカ２９４は、実線として図２に図示されるが、多くの代替案が可能である。例えば、グラフィカルマーカは、様々なスタイル（例えば、破線、点線、二重線など）の線、背景色またはスタイルの遷移（例えば、隣接する行または列は、明るい背景色と暗い背景色との間、または異なるテクスチャ間で交互にすることによって区切られ得る）などを含み得る。当業者によって認識されるように、グラフィカルマーカは、データテーブル２００のスタイルおよび内容に応じて、多種多様なやり方で適用され得る。いくつかの行および／または列にグラフィカルマーカが含まれ、他の行および／または列については省略されてもよい。

図３は、いくつかの実施形態による、データテーブルの画像表現に基づいて、構造化されたデータベースにデータ挿入するための方法３００の簡略化された図である。図１および図２と一致するいくつかの実施形態によると、方法３００は、メモリ１５０などのメモリに記憶された命令および／またはデータに基づいて、プロセッサ１４０などのコンピュータプロセッサによって実施され得る。

プロセス３０１では、データテーブル２００などのデータテーブルの画像表現がアクセスされる。画像表現は、データテーブルを表す画素データを含む。データテーブルの画像表現にアクセスする例示的な実施形態が、図４を参照して以下に説明される。

プロセス３０２では、ニューラルネットワークモデル１７０などのニューラルネットワークモデルがアクセスされる。ニューラルネットワークモデルは、画像表現におけるコンテンツオブジェクトの場所を識別するように訓練される。例示的に、コンテンツオブジェクトは、テキストの論理グループ、例えば、テキストボックスに対応し得る。したがって、ニューラルネットワークモデルは、画像表現内のテキストの論理グループを識別するように訓練され得る。例えば、ニューラルネットワークモデルは、画像表現における単語を検出するテキスト検出器を含み得、ヒューリスティックアプローチは、検出された単語の論理グループを識別するために使用され得る。

いくつかの実施形態では、ニューラルネットワークモデルは、テキストの論理グループを直接識別するように訓練され得る。このようにしてテキストの論理グループを識別し得るニューラルネットワークモデルの例は、ＹＯＬＯｖ３ニューラルネットワークであり、これは、ＪｏｓｅｐｈＲｅｄｍｏｎａｎｄＡｌｉＦａｒｈａｄｉ，ＹＯＬＯｖ３：ＡｎＩｎｃｒｅｍｅｎｔａｌＩｍｐｒｏｖｅｍｅｎｔ，Ｔｅｃｈｎｉｃａｌｒｅｐｏｒｔ，２０１８に説明され、これは、参照によりその全体が本明細書に組み込まれる。

いくつかの実施形態では、ニューラルネットワークモデルは、データテーブル内に見出されると予想されるコンテンツオブジェクトの１つ以上のタイプを識別するために、転移学習を使用して訓練され得る。例えば、ニューラルネットワークは、（１）セル内のテキストの論理グループ（例えば、テキストボックス）、および（２）グラフィカルシーケンスオブジェクト（例えば、進捗またはフェーズバー）を識別するように訓練され得る。方法３００の後続のプロセスは、ニューラルネットワークモデルによって識別される各タイプのコンテンツオブジェクトに対して実施され得る。

プロセス３０３では、画像表現は、ニューラルネットワークモデルへの入力として提供される。ニューラルネットワークモデルの画像表現を準備するために、様々な前処理ステップが実施され得る。これらの前処理ステップは、所定のアスペクト比に適合するように画像表現をトリミングおよび／またはパディングすること、所定のサイズに適合するように画像表現の寸法をスケーリングすること、画像表現内の画素の色または強度を正規化すること、画像表現の色チャネルの数を低減すること（例えば、画像表現をカラーからグレースケールに変換すること）などを含み得る。

プロセス３０４では、ニューラルネットワークモデルは、画像表現内の第１のコンテンツオブジェクトの場所を識別するために実行される。第１のコンテンツオブジェクトは、テキストの論理グループ、グラフィカルシーケンスオブジェクトなどを含み得る。いくつかの実施形態によると、ニューラルネットワークモデルは、グラフィックスプロセッシングユニット（ＧＰＵ）または特定用途向け集積回路（ＡＳＩＣ）などの専用コンピューティングハードウェアを使用して実行され得る。第１のコンテンツオブジェクトの場所は、第１のコンテンツオブジェクトと関連付けられた点（例えば、第１のコンテンツオブジェクトの中心位置）の座標、第１のコンテンツオブジェクトの水平および垂直スパン、第１のコンテンツオブジェクトを取り囲む境界矩形（または他の好適な形状）などを含み得る。

より一般的に、ニューラルネットワークモデルを実行することは、画像表現内の複数のコンテンツオブジェクトの場所を識別し得る。方法３００のプロセス３０４および後続のプロセスは、複数のコンテンツオブジェクトのうちの第１のコンテンツを参照して説明されるが、これらのプロセスは、複数の識別されたコンテンツオブジェクトの各々に対して繰り返され得る。

プロセス３０５では、第１のセルの場所が、第１のコンテンツオブジェクトの場所に基づいて識別される。第１のセルは、第１のコンテンツオブジェクトがデータ挿入されたデータテーブルのセルに対応する。第１のセルは、第１のコンテンツオブジェクトが第１のセル内に含まれるため、概して、第１のコンテンツオブジェクト以上である画像表現の領域に対応する。したがって、第１のセルの場所を識別することは、拡張された領域が第１のセルと関連付けられた境界に到達するまで、第１のコンテンツオブジェクトに対応する領域を拡張することによって達成され得る。このようにして第１のセルの場所を識別するための方法の例示的な実施形態は、図５および図６を参照して以下に説明される。いくつかの実施形態によると、プロセス３０５は、プロセス３０４で識別された複数のコンテンツオブジェクトの各々について繰り返され得、データテーブル内の対応する複数のセルの場所をもたらす。この点に関して、複数のセルの各々は、異なるコンテンツオブジェクトと関連付けられ得、異なる場所を有し得る。

プロセス３０６では、第１のセルは、第１のセルの場所に基づいて、少なくとも１つの第１の行および少なくとも１つの第１の列に属すると判定される。一般的に、データテーブル内のセルは、単一の行および単一の列に属する。しかしながら、第１のセルは、結合されたセルに対応し得、この場合、第１のセルは、複数の行、複数の列、または両方にまたがり得る。第１のセルが少なくとも１つの第１の行および少なくとも１つの第１の列に属すると判定するための方法の例示的な実施形態は、図７を参照して以下に説明される。

プロセス３０７では、データベース１８０などの構造化されたデータベースには、第１のセルが第１の行および第１の列に属すると判定することに基づいて、第１のコンテンツオブジェクトと関連付けられた情報がデータ挿入される。構造化されたデータベースにデータ挿入することは、第１のコンテンツオブジェクトに基づいて、情報を抽出することを含み得る。例えば、第１のコンテンツオブジェクトがテキストの論理グループを含むとき、構造化されたデータベースにデータ挿入することは、テキストの論理グループを画像表現からデジタル文字のシーケンスに変換することを含み得る。

第１のコンテンツオブジェクトがグラフィカルシーケンスオブジェクトを含むとき、構造化されたデータベースにデータ挿入することは、グラフィカルシーケンスオブジェクトからシーケンス情報を抽出することを含み得る。例えば、グラフィカルシーケンスオブジェクトが進捗またはフェーズバーを含むとき、シーケンス情報は、進捗もしくはフェーズバーの長さ、または進捗もしくはフェーズバーがまたがっている行または列の数に基づいて判定され得る。いくつかの実施形態では、進捗またはフェーズバーの長さは、シーケンス情報を判定する前に、まず、テーブルの列または行に整列される。いくつかの実施形態では、進捗またはフェーズバーの長さを判定することは、バーの塗りつぶされた部分と塗りつぶされていない部分との間を区別することと、塗りつぶされた部分の長さを識別することと、を含み得る。進捗またはフェーズバーが列または行の一部分にまたがるシナリオでは、重なりのパーセンテージが判定され得る。例えば、フェーズバーがフェーズＩＩに対応する列の６０％にまたがる場合、フェーズＩＩが６０％完了していると判定され得る。

いくつかの実施形態によると、構造化されたデータベースにデータテーブル内の各コンテンツオブジェクトと関連付けられた情報がデータ挿入されるまで、方法３００の１つ以上のプロセスが繰り返され得る。一度データ挿入されると、次いで、様々なタイプの分析または視覚化が、構造化されたデータベース内に記憶された情報に基づいて実施され得る。例示的な例として、いくつかの実施形態では、意味解析は、構造化されたデータベース内に記憶された情報に基づいて、例えば、「Ｓｙｓｔｅｍｓ，Ｍｅｔｈｏｄｓ，ａｎｄＣｏｍｐｕｔｅｒＲｅａｄａｂｌｅＭｅｄｉａｆｏｒＶｉｓｕａｌｉｚａｔｉｏｎｏｆＳｅｍａｔｉｃＩｎｆｏｒｍａｔｉｏｎａｎｄＩｎｆｅｒｅｎｃｅｏｆＴｅｍｐｏｒａｌＳｉｇｎａｌｓＩｎｄｉｃａｔｉｎｇＳａｌｉｅｎｔＡｓｓｏｃｉａｔｉｏｎｓＢｅｔｗｅｅｎＬｉｆｅＳｃｉｅｎｃｅＥｎｔｉｔｉｅｓ」と題された、２０１７年９月２２日出願の米国特許第１０，３６０，５０７号に説明されている技術を使用して、実施され得、その全体が参照により本明細書に組み込まれる。

図４は、いくつかの実施形態による、データテーブルの画像表現にアクセスするための方法４００の簡略化された図である。図１～図３と一致するいくつかの実施形態によると、方法４００は、方法３００のプロセス３０１を実装するために使用され得る。

プロセス４０１では、デジタルドキュメント１２１～１２９などのデジタルドキュメントは、ネットワーク１１０などのコンピュータネットワークを介して受信される。デジタルドキュメントは、様々な形式で送信および受信され得る。例えば、デジタルドキュメントは、ＨＴＭＬ／ＣＳＳドキュメント、画像ファイル（例えば、ＪＰＥＧ、ＰＮＧ、またはＴＩＦＦ画像）、ＰＤＦドキュメント、テキストまたはワードプロセッシングドキュメント、スライドショープレゼンテーション、スプレッドシートなどを含み得る。

プロセス４０２では、デジタルドキュメントは、デジタル画像としてレンダリングされる。例えば、デジタルドキュメントをレンダリングすることは、デジタルドキュメントを、さらなる処理のために使用され得る（および任意選択的に、ディスプレイ画面上に表示され得る）画素値の配列に変換することを含み得る。レンダリングエンジンは、デジタルドキュメントが受信される形式に基づいて、デジタルドキュメントを均一な画像形式にレンダリングするように選択され得る。例えば、デジタルドキュメントがＨＴＭＬ／ＣＳＳドキュメントを含むとき、ウェブブラウザが、ドキュメントをレンダリングするために選択され得る。同様に、デジタルドキュメントがＰＤＦドキュメントを含むとき、ＰＤＦビューアが、ドキュメントをレンダリングするために選択され得る。いずれの場合も、デジタルドキュメントは、受信されたデジタルドキュメントの形式とは無関係に、均一なデジタル画像形式にレンダリングされ得る。このようにして、多種多様なタイプの受信されたデジタルドキュメントを取り扱うための柔軟性が提供される。いくつかの実施形態では、受信されたデジタルドキュメントと関連付けられたメタデータ（例えば、ＰＤＦファイル内に含まれるデータテーブルの内容を説明するＰＤＦファイルからのメタデータ）は、レンダリングされたデジタル画像から除去されてもよく、別様に含まれなくてもよい。

プロセス４０３では、データテーブルの画像表現は、レンダリングされたデジタル画像内に位置する。当業者は、多種多様なオブジェクト検出技術が、デジタル画像内のデータテーブルの画像表現を位置特定するために使用され得ることを理解するであろう。いくつかの実施形態によると、第２のニューラルネットワークモデルは、デジタル画像内のデータテーブルを検出およびローカライズするように訓練され得る。次いで、この第２のニューラルネットワークモデルは、データテーブルの画像表現の場所を予測するための入力としてレンダリングされたデジタル画像を使用して実行され得る。例示的な実施形態では、ニューラルネットワークモデルは、データテーブルの画像表現を検出およびローカライズするために転移学習を使用して訓練されるＳＳＤ５１２ニューラルネットワークモデルに対応し得る。ＳＳＤ５１２ニューラルネットワークモデルは、ＷｅｉＬｉｕｅｔａｌ．，ＳＳＤ：ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉＢｏｘＤｅｔｅｃｔｏｒ，ＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２０１６にさらに詳細に説明され、その全体が参照により本明細書に組み込まれる。

いくつかの実施形態では、方法４００は、経時的にデータテーブルを更新するために複数回実施され得る。例えば、データテーブルが、経時的に変化または進展するフェーズまたは進捗情報を含むとき、方法４００は、示されたフェーズまたは進捗を追跡するために周期的に実施され得る。次いで、方法３００などの方法は、データテーブルの更新された内容に基づいて構造化されたデータベースにデータ挿入するために、データテーブルが更新されるたびに、実施され得る。

図５は、いくつかの実施形態による、コンテンツオブジェクトの場所に基づいて、セルの場所を識別するための方法５００の簡略化された図である。図１～図３と一致するいくつかの実施形態によると、方法５００は、方法３００のプロセス３０５を実装するために使用され得る。

プロセス５０１では、第１のコンテンツオブジェクトの少なくとも一部分に対応する第１の領域は、少なくとも１つの方向に拡張される。例えば、第１の領域は、第１のコンテンツオブジェクトを取り囲む境界矩形、例えば、テキストの論理グループの周りのボックスに対応し得る。いくつかの実施形態では、境界矩形の縁は、データテーブルの行および／または列の予想される方向と平行になるように整列され得る。例えば、行および列が、それぞれ、画像表現の横軸および縦軸に対応する場合、境界矩形の縁は、同様に、画像表現の横軸および縦軸と整列され得る。しかしながら、第１の領域の他の形状（例えば、非矩形形状）および／または配向は、本明細書に説明されるシステムおよび方法に等しく適用可能である。第１の領域が境界矩形に対応するとき、この第１の領域を拡張するために、境界矩形の４つの縁のうちの少なくとも１つが、境界矩形の中心から外側にシフトされ得る。拡張は、所定のサイズのステップで、例えば、１画素の増分で生じ得る。

プロセス５０２では、拡張された第１の領域が行の境界または列の境界を区切るグラフィカルマーカを含むか否かが判定される。グラフィカルマーカは、行の境界または列の境界を区切る線を含み得る。線は、概して、任意の好適なスタイル（例えば、ソリッド、破線、パターン化、着色など）を有し得る。グラフィカルマーカはまた、背景色またはテクスチャの変化などの、行の境界または列の境界を伝達する遷移を含み得る。より一般的に、グラフィカルマーカは、行または列の間の境界が画像内の所与の位置に存在することを伝達する、任意の好適なタイプの不連続性を含み得る。そのようなグラフィカルマーカが、拡張された第１の領域内に含まれるか否かを検出するために様々な画像処理技術が使用され得る。拡張された第１の領域がグラフィカルマーカを含むと判定するための方法の例示的な実施形態が、図６を参照して以下に説明される。

プロセス５０３では、拡張された第１の領域が第２のコンテンツオブジェクトの少なくとも一部分に対応する第２の領域と重なるか否かが判定される。例えば、拡張された第１の領域は、第１のコンテンツオブジェクトおよび第２のコンテンツオブジェクトが隣接する行または列にあり、かつ隣接する行または列の間にグラフィカルマーカがないときに、第２の領域と重なり得る。これらのシナリオでは、第１および第２の領域は、プロセス５０１の間に拡張し得、それらが互いに重なるまで増大し続け得る。したがって、第１の領域を、第２の領域を含む画像内の他の識別された領域と比較することが、それらの境界を画定するグラフィカルマーカを有していないセルを検出するために実施され得る。

プロセス５０４では、（ａ）プロセス５０２で、拡張された第１の領域がグラフィカルマーカを含むと判定すること、または（ｂ）プロセス５０３で、拡張された第１の領域が第２の領域と重なると判定することに応答して、拡張された第１の領域は、第１のセルの場所に対応するものとして識別される。いくつかの実施形態では、方法５００の１つ以上のプロセスは、セルの各境界（例えば、２行の境界および２列の境界）が同様の様式で判定されるまで繰り返され得る。

図６は、いくつかの実施形態による、領域がグラフィカルマーカを含むと判定するための方法６００の簡略化された図である。図１～図５と一致するいくつかの実施形態によると、方法６００は、方法５００のプロセス５０２を実装するために使用され得る。

プロセス６０１では、拡張された第１の領域の縁に対応する複数の画素位置が識別される。例えば、拡張された第１の領域がＮ×Ｍの矩形に対応するとき、複数の画素位置は、拡張された第１の領域の右または左縁に沿ったＮ個の画素、または拡張された第１の領域の上または下縁に沿ったＭ個の画素を含み得る。いくつかの実施形態によると、拡張された第１の領域は、概して、プロセス５０１と関連付けられた拡張された第１の領域に対応する。

プロセス６０２では、各画素位置について、画素位置が、第１の所定の閾値を超える少なくとも１つの拡張方向に沿った色または強度の変化と関連付けられているか否かが判定される。例えば、複数の画素位置がＮ×Ｍの境界矩形の左端に対応する場合、各画素は、その右側の隣接画素と比較され得る。比較中、画素と隣接画素との差（例えば、強度差、色差など）が算出され得る。差は、絶対差、相対差などであってもよい。次いで、差が第１の所定の閾値と比較される。第１の所定の閾値は、好ましくは、偽陽性（例えば、漸進的な背景勾配に基づいて行または列の境界を誤って検出すること）を回避するのに十分に高い値と、緻密なタイプのグラフィカルマーカ（例えば、交互に行間の背景色の小さいが突然の遷移）を検出するのに十分に低い値とに設定される。

プロセス６０３では、プロセス６０２で判定されるように、色または強度の変化と関連付けられている複数の画素位置のカウントが、第２の所定の閾値を超えるか否かが判定される。カウントは、画素数の絶対的なカウントまたは相対的なカウント（例えば、画素の総数のパーセンテージ）に対応し得る。いくつかのタイプのグラフィカルマーカは、連続的であってもよく（例えば、実線）、その場合、複数の画素の各々は、数に含まれる可能性が高い。しかしながら、他のタイプのグラフィカルマーカは、不連続であってもよく（例えば、破線）、複数の画素のうちの全てよりも少ない画素が、数に含まれる可能性が高い。したがって、第２の所定の閾値は、好ましくは、偽陽性を導入することなく、不連続タイプのグラフィカルマーカを検出するのに十分に低い数値に設定される。

プロセス６０４では、複数の画素位置のカウントが第２の所定の閾値を超えると判定したことに応答して、拡張された第１の領域がグラフィカルマーカを含むと判定される。この判定に際して、方法５００などの方法は、プロセス５０４に説明されるように、セルの場所に対応するものとして領域を識別するように進み得る。

図７は、いくつかの実施形態による、セルの場所に基づいて、セルが少なくとも１つの行および少なくとも１つの列に属すると判定するための方法７００の簡略化された図である。図１～図３と一致するいくつかの実施形態によると、方法７００は、方法３００のプロセス３０６を実装するために使用され得る。

プロセス７０１では、データテーブル内の複数のセル（例えば、方法３００のプロセス３０５で識別された複数のセル）は、それらの識別された場所に基づいてソートされる。例えば、複数のセルは、列軸（例えば、左から右または右から左）および行軸（例えば、上から下または下から上）に沿って順番にソートされ得る。

プロセス７０２では、少なくとも１つの行に属する複数のソートされたセルのうちの１つ以上のセルが、再帰的に識別される。いくつかの実施形態によると、少なくとも１つの行に属する１つ以上のセルを再帰的に識別することは、第１の選択されたセルで始まる、次の動作を再帰的に実行することを含み得る：（１）現在選択されているセルの行スパンに重なる行スパンを有するセルのセットを決定すること、（２）セルのセットの中で最も近いセルを識別すること、（３）最も近いセルを少なくとも１つの行に属するものとして識別すること、（４）最も近いセルを次の選択されたセルとして選択すること。行スパンは、行軸（例えば、データテーブルの垂直軸）に沿ったセルによって占有される位置の範囲に対応する。これらの動作は、少なくとも１つの行の各セルが識別されるまで、左から右へ（選択されたセルの右側に最も近いセルを識別する）、および右から左へ（選択されたセルの左側に最も近いセルを識別する）実施され得る。

プロセス７０３では、ヘッダ行は、ヘッダ行の１つ以上のヘッダセルにデータ挿入されている１つ以上のヘッダコンテンツオブジェクトに基づいて識別される。ヘッダコンテンツオブジェクトは、概して、例えば、インジケータまたはラベルを提供することによって、対応する列の内容を説明する。したがって、データテーブルの所与の列は、その列の対応するヘッダコンテンツオブジェクトに基づいて識別され得る。その後、その列内の対応する個々のセルは、その列のヘッダコンテンツオブジェクトによって識別される共通の特性またはデータタイプを共有する類似のコンテンツオブジェクトを有することになる。ヘッダ行を識別するための方法の例示的な実施形態が、図８を参照して以下に説明される。

プロセス７０４では、第１のセルの列スパンが、１つ以上のヘッダセル間の少なくとも１つの第１のヘッダセルの列スパンと重なることが判定される。列スパンは、列軸（例えば、データテーブルの水平軸）に沿ってセルによって占有される位置の範囲に対応する。異なるセルの列スパンが互いに重なるとき、２つのセルは、同じ列に属している可能性が高い。結合されたセルの場合、第１のセルの列スパンは、複数のヘッダセルと重なり得る。

プロセス７０５では、第１のセルは、少なくとも１つの第１の列に属すると識別され、少なくとも１つの第１の列は、少なくとも１つの第１のヘッダセルと関連付けられる。しかしながら、ヘッダ行が存在しない場合、または少なくとも１つの第１の列のヘッダセルが存在しないとき、代替のアプローチが使用され得る。例えば、少なくとも１つの第１の列は、ヘッダセルが存在しないときに、特徴のないプレースホルダヘッダテキストなどの、デフォルトヘッダに割り当てられ得る。

さらに、少なくとも１つの第１の列に対する識別子またはラベルが、少なくとも１つの第１の列の内容の意味解析に基づいて、予測され、割り当てられ得る。例えば、少なくとも１つの第１の列に対するヘッダセルが存在しないとき、列のセル内に含まれるテキストが、列内に含まれる実体のタイプを判定するために、実体抽出エンジンを使用して抽出および解析され得る。いくつかの実施形態では、実体抽出エンジンは、データ構造内にコンテキストを提供するためにヘッダセルを有することなく、エンティティのタイプに基づいて、セル内に含まれるテキストを関連付け得る。例えば、とりわけ、米国特許第１０，３６０，５０７号に開示されている実体タイプの識別のための技術が、この目的のために使用され得る。次いで、列に対する識別子またはラベルが、列内の実体のタイプに基づいて割り当てられ得、構造化されたデータベースは、識別子またはラベルに基づいてデータ挿入され得る。識別子またはラベルは、とりわけ、薬物のタイプ、標的、疾患、作用機序、または試験のフェーズを注記するなどの、定性ラベルの形態であってもよい。実体抽出エンジンにテキストを送信するための準備において、様々な前処理ステップがテキストに適用され得る。例えば、テキストは、実体抽出エンジンのための準備において、スペルミスまたは不規則にスペリングされたテキストを補正するために、スペル補正エンジンに送信され得る。例示的に、薬学的または生物医学的用途の文脈において、スペル補正エンジンは、生物医学的スペル補正エンジンを含み得、実体抽出エンジンは、生物医学的実体抽出エンジンを含み得る。生物医学的実体抽出によって認識される実体タイプの例示的な例としては、限定されるものではないが、遺伝子、薬物、組織、疾患、有機化学物質、会社、診断手順、および生理学的機能が挙げられ得る。

図８は、いくつかの実施形態による、データテーブルの１つ以上の行の中からヘッダ行を識別するための方法８００の簡略化された図である。図１～図７と一致するいくつかの実施形態によると、方法８００は、方法７００のプロセス７０２を実装するために使用され得る。

プロセス８０１では、１つ以上のヘッダコンテンツオブジェクトに対応する１つ以上のテキスト表現が生成される。１つ以上のテキスト表現は、デジタル文字のセットを含み得る。いくつかの実施形態によると、光学的文字認識（ＯＣＲ）が、データテーブルの画像表現に基づいて１つ以上のテキスト表現を生成するために使用され得る。

プロセス８０２では、１つ以上のテキスト表現の各々は、ヘッダ辞書に照会される。これは、１つ以上のテキスト表現に対応する１つ以上の信頼スコアを含むスコアベクトルをもたらす。各信頼スコアは、照会の強度に基づく。例えば、各信頼スコアは、以前のプロセスステップにおける誤差および不確実性（例えば、ＯＣＲエラー）を説明する機構を提供する、レーベンシュタイン距離に基づいて決定され得る。例示的に、医薬品情報テーブルの文脈では、ヘッダ辞書は、薬物名、疾患／標的、作用機序、フェーズなどの、そのようなテーブル内に含まれることが予想されるヘッダに対応する実体を含む。いくつかの実施形態では、ヘッダ辞書は、データシステム内で予想される共通のエントリを手動で識別するために、専門家（「ＳＭＥ」）によって作成される。ヘッダ辞書は、手動または自動テキスト認識システムのいずれかを使用して、時間が進むにつれて新しい共通実体タイプを考慮するように更新され得る。上記の議論と同様、いくつかの実施形態では、意味解析は、構造化されたデータベース内に記憶された情報に基づいて、例えば、「Ｓｙｓｔｅｍｓ，Ｍｅｔｈｏｄｓ，ａｎｄＣｏｍｐｕｔｅｒＲｅａｄａｂｌｅＭｅｄｉａｆｏｒＶｉｓｕａｌｉｚａｔｉｏｎｏｆＳｅｍａｔｉｃＩｎｆｏｒｍａｔｉｏｎａｎｄＩｎｆｅｒｅｎｃｅｏｆＴｅｍｐｏｒａｌＳｉｇｎａｌｓＩｎｄｉｃａｔｉｎｇＳａｌｉｅｎｔＡｓｓｏｃｉａｔｉｏｎｓＢｅｔｗｅｅｎＬｉｆｅＳｃｉｅｎｃｅＥｎｔｉｔｉｅｓ」と題された、２０１７年９月２２日出願の米国特許第１０，３６０，５０７号に説明されている技術を使用して、実施され得、その全体が参照により本明細書に組み込まれる。

プロセス８０３では、行スコアが、スコアベクトルに基づいて決定される。行スコアは、スコアベクトルを構成する１つ以上の信頼スコアに基づく集計メトリックである。例えば、行スコアは、スコアベクトルの平方根の合計として算出され得る。

プロセス８０４では、ヘッダ行は、行スコアに基づいて選択される。例えば、ヘッダ行の行スコアは、データテーブル内の他の候補行の行スコアと比較され得る。候補行は、所定の閾値（例えば、ゼロ）よりも大きい行スコアを有する他の行を含み得る。特定のタイプのコンテンツオブジェクトを含む行は、候補行のセットから除外され得る。例えば、グラフィカルシーケンスオブジェクト（例えば、フェーズバー）を含む行は、ヘッダ行として選択されるのに不適格であり得る。行はまた、行が特定のコンテンツオブジェクトを含むか否かに基づいて、適格なヘッダ行として除外され得、これは、ヘッダ行にデータ挿入されるのに不適格な除外されたコンテンツオブジェクトのリストを使用して、ＳＭＥによって定義され得る。次いで、ヘッダ行は、候補行の中で最も高い行スコアを有することに応答して選択され得る。

図９Ａ～図９Ｇは、いくつかの実施形態による、医薬品情報テーブル９００ａ～ｇの簡略化された図である。図１～図８と一致するいくつかの実施形態では、医薬品情報テーブル９００ａ～ｇは、データテーブル１３１～１３９に対応し得る。図９Ａ～図９Ｇに図示されるように、医薬品情報テーブル９００ａ～ｇの間に示される視覚的および実質的な差は、医薬品情報がどのように配信され得るかにおける現実世界の差を反映する。情報がどのように配信されるかのこの広範な変動性にもかかわらず、システム１００および方法２００～８００は、医薬品情報テーブル９００ａ～ｇを自動的に構文解析および解釈し、テーブル内の情報に基づいて、データベース１８０などの構造化されたデータベースにデータ挿入するように構成され得る。いくつかの実施形態では、医薬品生産情報テーブル９００ａ～ｇから取得された情報は、宛先ウェブサイトまたはＵＲＬ、薬物または開発プログラム名、試験の標的集団または疾患、試験薬物に対する作用機序、フェーズ番号、日付、またはシーケンスなどの試験のフェーズ情報値、および医薬品情報テーブル９００ａ～ｇから解釈され得る他の情報についての列または行を含み得る。

医薬品情報テーブル９００ａ～ｇの各々は、行および列内に配置される。表９００ｇは、隣接する行を区切るためのグラフィカル行マーカ９１２を含み、表９００ｃは、隣接列を区切るためのグラフィカル列マーカ９１４を含み、表９００ｂ、９００ｃ、９００ｅ、および９００ｆは、グラフィカル行マーカ９１２およびグラフィカル列マーカ９１４の両方を含む。図示されるように、グラフィカルマーカは、背景色、背景色の急激な変化（例えば、表９００ｄ）などよりも明るい（例えば、表９００ｃ）または暗い（例えば、表９００ｅ）実線を含み得る。表９００ａは、グラフィカルマーカを含まず、他のテーブルは、グラフィカルマーカを一貫性なく使用し、いくつかの行または列を区切るが、他の行または列を区切らない。例えば、テーブル９００ｃは、最上部行を除いて、各行に対するグラフィカル列マーカ９１４を含む。いくつかの実施形態では、データテーブル内の各個々の行は、上記の情報タイプを含む、単一の薬物または候補トピックと関連付けられ得る。薬物または候補トピックと関連付けられた任意の追加情報は、名前－値ペアの形態の別個の列を使用して表内に提示され得る。例えば、名前－値ペアは、識別された列と関連付けられたヘッダテキストから名前を導出し得、値は、個々のセル内のコンテキストであり得る。いくつかの実施形態では、例えば、データテーブル内の列が非標準（すなわち、ヘッディング辞書内にない）として識別される場合、そのデータテーブル列の内容は、名前－値ペアのリストを含む「他」というタイトルのデータベーステーブル列内に記憶され得る。そのデータの形式は、［｛’名前’：’列名１’，値’：’列値１’｝，｛’名前’：’列名２’，’値’：’列値２’｝］。いくつかの実施形態では、データベーステーブルは、実体タイプの作成された辞書内に存在しない名前を含み得る。追加情報はまた、他のデータタイプの中でも、研究または試験を実装するために使用されるデータテーブルまたは技術の流通を含む、データ構造化と関連付けられたメタデータの形態で記憶され得る。

加えて、医薬品情報テーブル９００ａ～ｇの各々は、所与の薬物候補の開発のステージ（例えば、発見、前臨床、フェーズＩ、フェーズＩＩ、フェーズＩＩＩなど）を示す複数の進捗バー９２０を含む。進捗バー９２０は、様々なスタイルで図示され、様々な形状および色の矢印またはバーを含む。概して、進捗バー９２０は、複数のセルにまたがり得る。

いくつかの実施形態では、データベーステーブルは、マニュアルヘッディング辞書の一部として以前に作成されていないデータテーブルの列または行を定義することを意味する、新しい分類エンティティを定義することによって作成され得る。このようにして、システムは、新たに識別された画像表現内の分類エンティティの認識に基づいて、データベース構造化されたデータエントリテンプレートを作成し得る。

図１０Ａ～図１０Ｄは、いくつかの実施形態による、テキストの論理グループ１０１０が自動的に識別された、医薬品情報テーブル１０００ａ～ｄの簡略化された図である。図１～図８と一致するいくつかの実施形態によると、論理グループ１０１０の場所は、例えば、プロセス３０２～３０４を参照して上記で説明されたように、ニューラルネットワークモデルを使用して識別され得る。特に、表１０００ａ～ｆの注釈は、方法３００のプロセス３０４で生成された出力に対応する。医薬品情報テーブル１０００ａ～ｄの描写は、システム１００と一致する特徴を有する実験システムを使用して決定され、実験システムは、方法３００と一致する方法を実施するように構成されている。コンテンツオブジェクトの場所を識別するために使用されるニューラルネットワークモデルは、ＹＯＬＯｖ３ニューラルネットワークモデルに対応する。論理グループ１０１０の各々は、テキストの周囲に境界矩形（破線）を伴って示される。

図１１Ａ～図１１Ｆは、いくつかの実施形態による、セルが特定の行および列に属するものとして識別された医薬品情報テーブル１１００ａ～ｆの簡略化された図である。医薬品情報テーブル１１００ａ～ｆの描写は、図１０を参照して上記に説明された実験システムによって生成された。特に、表１１００ａ～ｆの注釈は、方法３００のプロセス３０５で生成された出力に対応する。セルの場所は、ボックス１１１０（破線）によって識別され、進捗バーの場所は、ボックス１１２０（破線）によって識別される。図１～図８と一致するいくつかの実施形態によると、ボックス１１１０および１１２０は、プロセス３０５、方法５００、および／または方法６００のうちの１つ以上を使用して識別され得る。矢印１１３０（破線）は、ヘッダ行に属すると識別されたセルを接続する。矢印１１４０（実線）は、所与の列に属すると識別されたセルを接続する。矢印１１５０（点線）は、所与の行に属すると識別されたセルおよびフェーズバーを接続する。図１～図８と一致するいくつかの実施形態によると、矢印１１４０～１１５０は、プロセス３０６、方法７００、および／または方法８００を使用して識別され得る。表１１００ｂでは、第１の列は、ヘッダコンテンツオブジェクトを含まないため、デフォルトヘッダセル１１６０が第１の列に割り当てられる。

本明細書に説明される主題は、本明細書に開示される構造的手段およびその構造的等価物を含む、デジタル電子回路において、またはコンピュータソフトウェア、ファームウェア、もしくはハードウェアにおいて、あるいはそれらの組み合わせにおいて実装され得る。本明細書に説明される主題は、データ処理装置（例えば、プログラマブルプロセッサ、コンピュータ、または複数のコンピュータ）による実行のために、またはその動作を制御するために、情報キャリア内（例えば、機械可読記憶デバイス内）に有形に具現化されたか、または伝播された信号内に具現化された１つ以上のコンピュータプログラム製品などの１つ以上のコンピュータプログラム製品として実装され得る。コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる）は、コンパイルされたかまたはインタプリタされた言語を含む、任意の形態のプログラミング言語で書き込まれ得、それは、スタンドアロンプログラムとして、またはモジュール、コンポーネント、サブルーチン、もしくはコンピューティング環境における使用に好適な他のユニットとして、を含む、任意の形態で展開され得る。コンピュータプログラムは、必ずしもファイルに対応しない。プログラムは、他のプログラムまたはデータを保持するファイルの一部分、該当するプログラム専用の単一のファイル、または複数の協調するファイル（例えば、１つ以上のモジュール、サブプログラム、またはコードの一部分を記憶するファイル）に記憶され得る。コンピュータプログラムは、１つのコンピュータ上で、または１つの現場の複数のコンピュータ上で実行されるか、または複数のサイトにわたって分散され、通信ネットワークによって相互接続されるように展開され得る。

本明細書に説明される主題の方法ステップを含む、本明細書に説明されるプロセスおよび論理フローは、入力データ上で動作し、出力を生成することによって、本明細書に説明される主題の機能を実施するために、１つ以上のコンピュータプログラムを実行する１つ以上のプログラマブルプロセッサによって実施され得る。プロセスおよび論理フローはまた、特殊目的論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）によって実施され得、本明細書に説明された主題の装置は、特殊目的論理回路、例えば、ＦＰＧＡまたはＡＳＩＣとして実装され得る。

コンピュータプログラムの実行に好適なプロセッサは、例として、汎用および専用マイクロプロセッサの両方、ならびに任意の種類のデジタルコンピュータの任意の１つ以上のプロセッサを含む。一般に、プロセッサは、読み出し専用メモリもしくはランダムアクセスメモリまたはその両方から命令およびデータを受信することになる。コンピュータの本質的な要素は、命令を実行するためのプロセッサ、ならびに命令およびデータを記憶するための１つ以上のメモリデバイスである。一般に、コンピュータはまた、データを記憶するための１つ以上の大容量記憶デバイス、例えば、磁気、磁気光ディスク、または光ディスクを含むか、あるいはそれらからデータを受信するか、もしくはそれらにデータを送信するか、またはその両方を行うように動作可能に連結されることになる。コンピュータプログラム命令およびデータを具現化するのに好適な情報キャリアは、例として、半導体メモリデバイス（例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス）、磁気ディスク（例えば、内部ハードディスクまたはリムーバブルディスク）、磁気光ディスク、ならびに光ディスク（例えば、ＣＤおよびＤＶＤディスク）を含む、全ての形態の不揮発性メモリを含む。プロセッサおよびメモリは、特殊目的論理回路によって補完されてもよく、またはそれに組み込まれてもよい。

ユーザとの相互作用を提供するために、本明細書に説明される主題は、ユーザに情報を表示するためのディスプレイデバイス、例えば、ＣＲＴ（ブラウン管）またはＬＣＤ（液晶ディスプレイ）モニタ、およびユーザがコンピュータに入力を提供し得るキーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）を有するコンピュータ上で実装され得る。他の種類のデバイスが、同様にユーザとの対話を提供するために使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であり得、ユーザからの入力は、音響、発話、または触覚入力を含む任意の形態で受信され得る。

本明細書に説明される主題は、バックエンドコンポーネント（例えば、データサーバ）、ミドルウェアコンポーネント（例えば、アプリケーションサーバ）、またはフロントエンドコンポーネント（例えば、ユーザが本明細書に説明される主題の実装と対話し得るためのグラフィカルユーザインタフェースまたはウェブブラウザを有するクライアントコンピュータ）、またはそのようなバックエンド、ミドルウェア、およびフロントエンドコンポーネントの任意の組み合わせを含む、コンピューティングシステム内で実装され得る。システムの構成要素は、任意の形態または媒体のデジタルデータ通信、例えば、通信ネットワークによって相互接続され得る。通信ネットワークの例としては、ローカルエリアネットワーク（「ＬＡＮ」）およびワイドエリアネットワーク（「ＷＡＮ」）、例えば、インターネットが挙げられる。

開示された主題は、その適用において、構成の詳細および以下の説明に記載されるかまたは図面に示される構成要素の配置に限定されないことが理解されるべきである。開示された主題は、他の実施形態が可能であり、様々な方法で実施および実行されることが可能である。また、本明細書で用いられる言い回しおよび用語は、説明の目的のためのものであり、限定と見なされるべきでないことが理解されるべきである。

したがって、当業者は、本開示の基礎となる概念が、開示された主題のいくつかの目的を実行するための他の構造、方法、およびシステムの設計の基礎として、容易に利用され得ることを認識されよう。したがって、特許請求の範囲は、それらが開示された主題の趣旨および範囲から逸脱しない限り、そのような同等の構成を含むと見なされることが重要である。

開示された主題は前述の例示的な実施形態において説明および例示されたが、本開示は、実施例としてのみなされたものであり、開示された主題の実装の細部における多くの変更は、以下の特許請求の範囲のみによって限定される、開示された主題の趣旨および範囲から逸脱することなくなされ得ることが理解される。

Claims

方法であって、
１つ以上のコンピュータプロセッサによって、データテーブルの画像表現にアクセスすることであって、前記データテーブルが、１つ以上の行および１つ以上の列に配置された１つ以上のセルを含み、前記１つ以上のセルが、少なくとも１つの第１の行および少なくとも１つの第１の列に属する第１のセルを含み、前記第１のセルには、第１のコンテンツオブジェクトが挿入されている、アクセスすることと、
前記１つ以上のコンピュータプロセッサによって、前記画像表現を、画像表現内のコンテンツオブジェクトの場所を識別するように訓練されているニューラルネットワークモデルへの入力として提供することと、
前記１つ以上のコンピュータプロセッサによって、前記ニューラルネットワークモデルを実行して、前記画像表現内の前記第１のコンテンツオブジェクトの場所を識別することと、
前記１つ以上のコンピュータプロセッサによって、前記第１のコンテンツオブジェクトの前記場所に基づいて、前記第１のセルの場所を識別することと、
前記１つ以上のコンピュータプロセッサによって、前記第１のセルの前記場所、および前記１つ以上の行および前記１つ以上の列と関連付けられた複数のコンテンツオブジェクトとの関連での前記第１のコンテンツオブジェクトのうちの１つ以上に基づいて、前記第１のセルが前記少なくとも１つの第１の行および前記第１の列に属すると判定することと、
前記１つ以上のコンピュータプロセッサによって、前記第１のコンテンツオブジェクトを１つ以上の分類識別子と関連付けることと、
前記１つ以上のコンピュータプロセッサによって、前記第１のセルが、前記少なくとも１つの第１の行および前記少なくとも１つの第１の列に属すると判定することに基づいて、前記第１のコンテンツオブジェクトおよび前記１つ以上の分類識別子と関連付けられた情報を構造化されたデータベースにデータ挿入することであって、前記構造化されたデータベースが、前記少なくとも１つの第１の行と関連付けられた少なくとも１つのデータテーブル行、および前記少なくとも１つの第１の列と関連付けられた少なくとも１つのデータテーブル列を含む、データ挿入することと、を含む、方法。
前記第１のセルが、前記少なくとも１つの第１の行および前記少なくとも１つの第１の列に属さないと判定することに基づいて、前記構造化されたデータベース内の少なくとも１つの第２の列および少なくとも１つの第２の行のうちの１つを作成すること、をさらに含む、請求項１に記載の方法。
前記画像表現にアクセスすることが、
前記１つ以上のコンピュータプロセッサによって、コンピュータネットワークを介してデジタルドキュメントを受信することであって、前記デジタルドキュメントが、前記データテーブルを含む、受信することと、
前記１つ以上のコンピュータプロセッサによって、前記デジタルドキュメントをデジタル画像としてレンダリングすることと、
前記１つ以上のコンピュータプロセッサによって、前記レンダリングされたデジタル画像内の前記データテーブルの前記画像表現を位置特定することと、を含む、請求項１に記載の方法。
前記第１のコンテンツオブジェクトの前記場所が、前記第１のコンテンツオブジェクトの少なくとも一部分に対応する第１の領域を含み、
前記第１のコンテンツオブジェクトの前記場所に基づいて、前記第１のセルの前記場所を識別することが、
前記第１の領域を少なくとも１つの方向に拡張することと、
前記拡張された第１の領域が、行の境界および列の境界のうちの１つ以上をマークするグラフィカルマーカを含むと判定することと、
前記拡張された第１の領域が前記グラフィカルマーカを含むと判定することに応答して、前記拡張された第１の領域を、前記第１のセルの前記場所に対応するとして識別することと、を含む、請求項１に記載の方法。
前記拡張された第１の領域が前記グラフィカルマーカを含むと判定することが、
前記拡張された第１の領域の縁に対応する複数の画素位置を識別することと、
前記複数の画素位置内の各画素位置について、前記画素位置が、第１の所定の閾値を超える前記少なくとも１つの拡張方向に沿った色および強度のうちの１つ以上の変化と関連するか否かを判定することと、
色または強度の前記変化と関連する前記複数の画素位置のカウントが、第２の所定の閾値を超えると判定することと、
前記複数の画素位置の前記数が前記第２の所定の閾値を超えると判定することに応答して、前記拡張された第１の領域が前記グラフィカルマーカを含むと判定することと、を含む、請求項３に記載の方法。
前記第１のセルの前記場所が、行軸に沿った行スパンおよび列軸に沿った列スパンを含み、
前記第１のセルの前記場所に基づいて、前記第１のセルが前記少なくとも１つの第１の行および前記少なくとも１つの第１の列に属すると判定することが、
前記複数のセルの複数の場所に基づいて、前記データテーブル内の前記１つ以上のセルの少なくともサブセットをソートすることと、
前記１つ以上のセルの前記サブセットのうちの選択されたセルから開始し、前記第１の行に属する１つ以上の第２のセルを識別するための動作を再帰的に実施することと、を含み、前記動作が、
前記選択されたセルの行スパンと重なる行スパンを有する少なくとも１つの他のセルを判定することと、
前記少なくとも１つの他のセルのうちの前記選択されたセルに最も近いセルを識別することと、
前記最も近いセルを、前記少なくとも１つの第１の行に属するものとして識別することと、
前記最も近いセルを次の選択されたセルとして選択することと、
ヘッダ行の１つ以上のヘッダセルにデータ挿入されている１つ以上のヘッダコンテンツオブジェクトに基づいて、前記データテーブルの前記１つ以上の行のうちの前記ヘッダ行を識別することと、
前記第１のセルの前記列スパンが、前記１つ以上のヘッダセルのうちの第１のヘッダセルの列スパンと重なると判定することと、
前記第１のセルを前記第１の列に属するものとして識別することであって、前記第１の列が、前記第１のヘッダセルと関連付けられている、識別することと、を含む、請求項１に記載の方法。
前記データテーブルの前記１つ以上の行の中から前記ヘッダ行を識別することが、
前記１つ以上のヘッダコンテンツオブジェクトに対応する１つ以上のテキスト表現を生成することと、
１つ以上のテキスト表現の各々をヘッダ辞書に照会することであって、前記１つ以上のテキスト表現に対応する１つ以上の信頼スコアを含むスコアベクトルをもたらし、各信頼スコアが、前記照会の強度に基づく、照会することと、
前記スコアベクトルに基づいて行スコアを決定することと、
前記行スコアに基づいて前記ヘッダ行を選択することと、を含む、請求項５に記載の方法。
前記スコアベクトルに基づいて行スコアを判定することが、前記スコアベクトルおよび前記１つ以上の信頼スコアのうちの１つ以上に基づいて、集計メトリックを計算することを含む、請求項６に記載の方法。
前記ヘッダ行を選択することが、
前記行スコアを、前記データテーブルの前記１つ以上の行と関連付けられた少なくとも１つの二次行スコアと比較することと、
前記行スコアおよび前記少なくとも１つの二次行スコアの相対値に基づいて、前記ヘッダ行を選択することと、を含む、請求項６に記載の方法。
前記１つ以上のコンピュータプロセッサによって、前記ヘッダ行の一部となるのに適格ではない、除外されたヘッダコンテンツオブジェクトのリストを取得することと、
前記１つ以上のコンピュータプロセッサによって、前記ヘッダ行の１つ以上のヘッダセルにデータ挿入されている前記１つ以上のヘッダコンテンツオブジェクトが、前記除外されたヘッダコンテンツオブジェクトと一致するか否かを判定することと、
前記１つ以上のヘッダコンテンツオブジェクトが、除外されたヘッダコンテンツオブジェクトの前記リスト上にある場合、前記１つ以上のコンピュータプロセッサによって、前記ヘッダ行の１つ以上のヘッダセルにデータ挿入されている１つ以上のヘッダコンテンツオブジェクトに基づいて、前記データテーブルの前記１つ以上の行のうちの置換ヘッダ行を識別することと、をさらに含む、請求項５に記載の方法。
前記第１のコンテンツオブジェクトが、グラフィカルシーケンスオブジェクトを含み、
前記構造化されたデータベースにデータ挿入することが、前記グラフィカルシーケンスオブジェクトからシーケンス情報を抽出することを含み、
前記第１のコンテンツオブジェクトと関連付けられた前記情報が、前記シーケンス情報を含む、請求項１に記載の方法。
構造化データセットにデータ挿入するコンピューティングシステムであって、
データテンプレートシーケンスを含む、モデルベースのプロビジョニングされたデータテンプレートを記憶することができるメモリと、
前記メモリと通信するプロセッサであって、前記メモリに記憶された前記モデルベースのプロビジョニングされたデータテンプレートを読み出し、前記プロセッサに、
データテーブルの画像表現にアクセスすることであって、前記データテーブルが、１つ以上の行および１つ以上の列に配置された１つ以上のセルを含み、前記１つ以上のセルが、少なくとも１つの第１の行および少なくとも１つの第１の列に属する第１のセルを含み、前記第１のセルには、第１のコンテンツオブジェクトが挿入されている、アクセスすることと、
前記画像表現を、画像表現内のコンテンツオブジェクトの場所を識別するように訓練されているニューラルネットワークモデルへの入力として提供することと、
前記ニューラルネットワークモデルを実行して、前記画像表現内の前記第１のコンテンツオブジェクトの場所を識別することと、
前記第１のコンテンツオブジェクトの前記場所に基づいて、前記第１のセルの場所を識別することと、
前記第１のセルの前記場所、および前記１つ以上の行および前記１つ以上の列と関連付けられた複数のコンテンツオブジェクトとの関連での前記第１のコンテンツオブジェクトのうちの１つ以上に基づいて、前記第１のセルが前記少なくとも１つの第１の行および前記第１の列に属すると判定することと、
前記第１のコンテンツオブジェクトを１つ以上の分類識別子と関連付けることと、
前記第１のセルが、前記少なくとも１つの第１の行および前記少なくとも１つの第１の列に属すると判定することに基づいて、前記第１のコンテンツオブジェクトおよび前記１つ以上の分類識別子と関連付けられた情報を構造化されたデータベースにデータ挿入することであって、前記構造化されたデータベースが、前記少なくとも１つの第１の行と関連付けられた少なくとも１つのデータテーブル行、および前記少なくとも１つの第１の列と関連付けられた少なくとも１つのデータテーブル列を含む、データ挿入することと、を行わせる、プロセッサと、を備える、コンピューティングシステム。
前記プロセッサが、
前記第１のセルが、前記少なくとも１つの第１の行および前記少なくとも１つの第１の列に属さないと判定することに基づいて、前記構造化されたデータベース内の少なくとも１つの第２の列および少なくとも１つの第２の行のうちの１つを作成するようにさらに構成されている、請求項１２に記載のコンピューティングシステム。
前記画像表現にアクセスすることが、
前記１つ以上のコンピュータプロセッサによって、コンピュータネットワークを介してデジタルドキュメントを受信することであって、前記デジタルドキュメントが、前記データテーブルを含む、受信することと、
前記１つ以上のコンピュータプロセッサによって、前記デジタルドキュメントをデジタル画像としてレンダリングすることと、
前記１つ以上のコンピュータプロセッサによって、前記レンダリングされたデジタル画像内の前記データテーブルの前記画像表現を位置特定することと、を含む、請求項１２に記載のコンピューティングシステム。
前記第１のコンテンツオブジェクトの前記場所が、前記第１のコンテンツオブジェクトの少なくとも一部分に対応する第１の領域を含み、
前記第１のコンテンツオブジェクトの前記場所に基づいて、前記第１のセルの前記場所を識別することが、
前記第１の領域を少なくとも１つの方向に拡張することと、
前記拡張された第１の領域が、行の境界および列の境界のうちの１つをマークするグラフィカルマーカを含むと判定することと、
前記拡張された第１の領域が前記グラフィカルマーカを含むと判定することに応答して、前記拡張された第１の領域を、前記第１のセルの前記場所に対応するとして識別することと、を含む、請求項１２に記載のコンピューティングシステム。
前記拡張された第１の領域が前記グラフィカルマーカを含むと判定することが、
前記拡張された第１の領域の縁に対応する複数の画素位置を識別することと、
前記複数の画素位置内の各画素位置について、前記画素位置が、第１の所定の閾値を超える前記少なくとも１つの拡張方向に沿った色および強度のうちの１つ以上の変化と関連付けられているか否かを判定することと、
色または強度の前記変化と関連付けられている前記複数の画素位置のカウントが、第２の所定の閾値を超えると判定することと、
前記複数の画素位置の数が前記第２の所定の閾値を超えると判定することに応答して、前記拡張された第１の領域が前記グラフィカルマーカを含むと判定することと、を含む、請求項１５に記載のコンピューティングシステム。
前記第１のセルの前記場所が、行軸に沿った行スパンおよび列軸に沿った列スパンを含み、
前記第１のセルの前記場所に基づいて、前記第１のセルが前記少なくとも１つの第１の行および前記少なくとも１つの第１の列に属すると判定することが、
前記複数のセルの複数の場所に基づいて、前記データテーブル内の前記１つ以上のセルの少なくともサブセットをソートすることと、
前記１つ以上のセルの前記サブセットのうちの選択されたセルから開始し、前記第１の行に属する１つ以上の第２のセルを識別するための動作を再帰的に実施することであって、前記１つ以上の第２のセルが、前記第１のセルを含む、再帰的に実施することと、を含み、前記動作が、
前記選択されたセルの行スパンと重なる行スパンを有する少なくとも１つの他のセルを判定することと、
セルの前記セットのうちの前記第１のセルに最も近いセルを識別することと、
前記最も近いセルを、前記少なくとも１つの第１の行に属するものとして識別することと、
前記最も近いセルを次の選択されたセルとして選択することと、
ヘッダ行の１つ以上のヘッダセルにデータ挿入されている１つ以上のヘッダコンテンツオブジェクトに基づいて、前記データテーブルの前記１つ以上の行のうちの前記ヘッダ行を識別することと、
前記第１のセルの前記列スパンが、前記１つ以上のヘッダセルのうちの第１のヘッダセルの列スパンと重なると判定することと、
前記第１のセルを前記第１の列に属するものとして識別することであって、前記第１の列が、前記第１のヘッダセルと関連付けられている、識別することと、を含む、請求項１２に記載のコンピューティングシステム。
前記データテーブルの前記１つ以上の行の中から前記ヘッダ行を識別することが、
前記１つ以上のヘッダコンテンツオブジェクトに対応する１つ以上のテキスト表現を生成することと、
１つ以上のテキスト表現の各々をヘッダ辞書に照会することであって、前記１つ以上のテキスト表現に対応する１つ以上の信頼スコアを含むスコアベクトルをもたらし、各信頼スコアが、前記照会の強度に基づく、照会することと、
前記スコアベクトルに基づいて行スコアを決定することと、
前記行スコアに基づいて前記ヘッダ行を選択することと、を含む、請求項１７に記載のコンピューティングシステム。
前記スコアベクトルに基づいて行スコアを判定することが、前記スコアベクトルおよび前記１つ以上の信頼スコアのうちの１つ以上に基づいて、集計メトリックを計算することを含む、請求項１８に記載のコンピューティングシステム。
前記ヘッダ行を選択することが、
前記行スコアを、前記データテーブルの前記１つ以上の行と関連付けられた少なくとも１つの二次行スコアと比較することと、
前記行スコアおよび前記少なくとも１つの二次行スコアの相対値に基づいて、前記ヘッダ行を選択することと、を含む、請求項１８に記載のコンピューティングシステム。
前記１つ以上のコンピュータプロセッサによって、前記ヘッダ行の一部となるのに適格ではない、除外されたヘッダコンテンツオブジェクトのリストを取得することと、
前記１つ以上のコンピュータプロセッサによって、前記ヘッダ行の１つ以上のヘッダセルにデータ挿入されている前記１つ以上のヘッダコンテンツオブジェクトが、前記除外されたヘッダコンテンツオブジェクトと一致するか否かを判定することと、
前記１つ以上のヘッダコンテンツオブジェクトが、除外されたヘッダコンテンツオブジェクトの前記リスト上にある場合、前記１つ以上のコンピュータプロセッサによって、前記ヘッダ行の１つ以上のヘッダセルにデータ挿入されている１つ以上のヘッダコンテンツオブジェクトに基づいて、前記データテーブルの前記１つ以上の行のうちの置換ヘッダ行を識別することと、をさらに含む、請求項１７に記載のコンピューティングシステム。
前記第１のコンテンツオブジェクトが、グラフィカルシーケンスオブジェクトを含み、
前記構造化されたデータベースにデータ挿入することが、前記グラフィカルシーケンスオブジェクトからシーケンス情報を抽出することを含み、
前記第１のコンテンツオブジェクトと関連付けられた前記情報が、前記シーケンス情報を含む、請求項１２に記載のコンピューティングシステム。