JP2022541199A - データテーブルの画像表現に基づいて構造化されたデータベースにデータ挿入するためのシステムおよび方法。 - Google Patents
データテーブルの画像表現に基づいて構造化されたデータベースにデータ挿入するためのシステムおよび方法。 Download PDFInfo
- Publication number
- JP2022541199A JP2022541199A JP2022502444A JP2022502444A JP2022541199A JP 2022541199 A JP2022541199 A JP 2022541199A JP 2022502444 A JP2022502444 A JP 2022502444A JP 2022502444 A JP2022502444 A JP 2022502444A JP 2022541199 A JP2022541199 A JP 2022541199A
- Authority
- JP
- Japan
- Prior art keywords
- row
- cell
- header
- column
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 133
- 238000003062 neural network model Methods 0.000 claims abstract description 40
- 239000013598 vector Substances 0.000 claims description 16
- 239000003550 marker Substances 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 5
- 238000009877 rendering Methods 0.000 claims description 5
- 238000003780 insertion Methods 0.000 abstract description 2
- 230000037431 insertion Effects 0.000 abstract description 2
- 210000004027 cell Anatomy 0.000 description 128
- 230000008569 process Effects 0.000 description 57
- 229940079593 drug Drugs 0.000 description 41
- 239000003814 drug Substances 0.000 description 41
- 238000012545 processing Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 239000003086 colorant Substances 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000010534 mechanism of action Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 229960000074 biopharmaceutical Drugs 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 229940000406 drug candidate Drugs 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 239000000825 pharmaceutical preparation Substances 0.000 description 1
- 229940127557 pharmaceutical product Drugs 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
- G06F16/287—Visualization; Browsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/235—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Image Analysis (AREA)
Abstract
Description
本出願は、「Systems and Methods for Populating a Structured Database Based on an Image Representation of a Data Table」と題する、2019年7月16日出願の米国仮出願第62/874,830号に対する米国特許法第119条(e)の優先権を主張し、その内容全体が本明細書に組み込まれる。
第1のセルの場所、および1つ以上の行および1つ以上の列と関連付けられた複数のコンテンツオブジェクトとの関連での第1のコンテンツオブジェクトのうちの1つ以上に基づいて、第1のセルが少なくとも1つの第1の行および第1の列に属すると判定することと、第1のコンテンツオブジェクトを1つ以上の分類識別子と関連付けることと、1つ以上のコンピュータプロセッサによって、第1のセルが、少なくとも1つの第1の行および少なくとも1つの第1の列に属すると判定することに基づいて、第1のコンテンツオブジェクトおよび1つ以上の分類識別子と関連付けられた情報を構造化されたデータベースにデータ挿入することであって、構造化されたデータベースが、少なくとも1つの第1の行と関連付けられた少なくとも1つのデータテーブル行、および少なくとも1つの第1の列と関連付けられた少なくとも1つのデータテーブル列を含む、データ挿入することと、を含む。
Claims (22)
- 方法であって、
1つ以上のコンピュータプロセッサによって、データテーブルの画像表現にアクセスすることであって、前記データテーブルが、1つ以上の行および1つ以上の列に配置された1つ以上のセルを含み、前記1つ以上のセルが、少なくとも1つの第1の行および少なくとも1つの第1の列に属する第1のセルを含み、前記第1のセルには、第1のコンテンツオブジェクトが挿入されている、アクセスすることと、
前記1つ以上のコンピュータプロセッサによって、前記画像表現を、画像表現内のコンテンツオブジェクトの場所を識別するように訓練されているニューラルネットワークモデルへの入力として提供することと、
前記1つ以上のコンピュータプロセッサによって、前記ニューラルネットワークモデルを実行して、前記画像表現内の前記第1のコンテンツオブジェクトの場所を識別することと、
前記1つ以上のコンピュータプロセッサによって、前記第1のコンテンツオブジェクトの前記場所に基づいて、前記第1のセルの場所を識別することと、
前記1つ以上のコンピュータプロセッサによって、前記第1のセルの前記場所、および前記1つ以上の行および前記1つ以上の列と関連付けられた複数のコンテンツオブジェクトとの関連での前記第1のコンテンツオブジェクトのうちの1つ以上に基づいて、前記第1のセルが前記少なくとも1つの第1の行および前記第1の列に属すると判定することと、
前記1つ以上のコンピュータプロセッサによって、前記第1のコンテンツオブジェクトを1つ以上の分類識別子と関連付けることと、
前記1つ以上のコンピュータプロセッサによって、前記第1のセルが、前記少なくとも1つの第1の行および前記少なくとも1つの第1の列に属すると判定することに基づいて、前記第1のコンテンツオブジェクトおよび前記1つ以上の分類識別子と関連付けられた情報を構造化されたデータベースにデータ挿入することであって、前記構造化されたデータベースが、前記少なくとも1つの第1の行と関連付けられた少なくとも1つのデータテーブル行、および前記少なくとも1つの第1の列と関連付けられた少なくとも1つのデータテーブル列を含む、データ挿入することと、を含む、方法。 - 前記第1のセルが、前記少なくとも1つの第1の行および前記少なくとも1つの第1の列に属さないと判定することに基づいて、前記構造化されたデータベース内の少なくとも1つの第2の列および少なくとも1つの第2の行のうちの1つを作成すること、をさらに含む、請求項1に記載の方法。
- 前記画像表現にアクセスすることが、
前記1つ以上のコンピュータプロセッサによって、コンピュータネットワークを介してデジタルドキュメントを受信することであって、前記デジタルドキュメントが、前記データテーブルを含む、受信することと、
前記1つ以上のコンピュータプロセッサによって、前記デジタルドキュメントをデジタル画像としてレンダリングすることと、
前記1つ以上のコンピュータプロセッサによって、前記レンダリングされたデジタル画像内の前記データテーブルの前記画像表現を位置特定することと、を含む、請求項1に記載の方法。 - 前記第1のコンテンツオブジェクトの前記場所が、前記第1のコンテンツオブジェクトの少なくとも一部分に対応する第1の領域を含み、
前記第1のコンテンツオブジェクトの前記場所に基づいて、前記第1のセルの前記場所を識別することが、
前記第1の領域を少なくとも1つの方向に拡張することと、
前記拡張された第1の領域が、行の境界および列の境界のうちの1つ以上をマークするグラフィカルマーカを含むと判定することと、
前記拡張された第1の領域が前記グラフィカルマーカを含むと判定することに応答して、前記拡張された第1の領域を、前記第1のセルの前記場所に対応するとして識別することと、を含む、請求項1に記載の方法。 - 前記拡張された第1の領域が前記グラフィカルマーカを含むと判定することが、
前記拡張された第1の領域の縁に対応する複数の画素位置を識別することと、
前記複数の画素位置内の各画素位置について、前記画素位置が、第1の所定の閾値を超える前記少なくとも1つの拡張方向に沿った色および強度のうちの1つ以上の変化と関連するか否かを判定することと、
色または強度の前記変化と関連する前記複数の画素位置のカウントが、第2の所定の閾値を超えると判定することと、
前記複数の画素位置の前記数が前記第2の所定の閾値を超えると判定することに応答して、前記拡張された第1の領域が前記グラフィカルマーカを含むと判定することと、を含む、請求項3に記載の方法。 - 前記第1のセルの前記場所が、行軸に沿った行スパンおよび列軸に沿った列スパンを含み、
前記第1のセルの前記場所に基づいて、前記第1のセルが前記少なくとも1つの第1の行および前記少なくとも1つの第1の列に属すると判定することが、
前記複数のセルの複数の場所に基づいて、前記データテーブル内の前記1つ以上のセルの少なくともサブセットをソートすることと、
前記1つ以上のセルの前記サブセットのうちの選択されたセルから開始し、前記第1の行に属する1つ以上の第2のセルを識別するための動作を再帰的に実施することと、を含み、前記動作が、
前記選択されたセルの行スパンと重なる行スパンを有する少なくとも1つの他のセルを判定することと、
前記少なくとも1つの他のセルのうちの前記選択されたセルに最も近いセルを識別することと、
前記最も近いセルを、前記少なくとも1つの第1の行に属するものとして識別することと、
前記最も近いセルを次の選択されたセルとして選択することと、
ヘッダ行の1つ以上のヘッダセルにデータ挿入されている1つ以上のヘッダコンテンツオブジェクトに基づいて、前記データテーブルの前記1つ以上の行のうちの前記ヘッダ行を識別することと、
前記第1のセルの前記列スパンが、前記1つ以上のヘッダセルのうちの第1のヘッダセルの列スパンと重なると判定することと、
前記第1のセルを前記第1の列に属するものとして識別することであって、前記第1の列が、前記第1のヘッダセルと関連付けられている、識別することと、を含む、請求項1に記載の方法。 - 前記データテーブルの前記1つ以上の行の中から前記ヘッダ行を識別することが、
前記1つ以上のヘッダコンテンツオブジェクトに対応する1つ以上のテキスト表現を生成することと、
1つ以上のテキスト表現の各々をヘッダ辞書に照会することであって、前記1つ以上のテキスト表現に対応する1つ以上の信頼スコアを含むスコアベクトルをもたらし、各信頼スコアが、前記照会の強度に基づく、照会することと、
前記スコアベクトルに基づいて行スコアを決定することと、
前記行スコアに基づいて前記ヘッダ行を選択することと、を含む、請求項5に記載の方法。 - 前記スコアベクトルに基づいて行スコアを判定することが、前記スコアベクトルおよび前記1つ以上の信頼スコアのうちの1つ以上に基づいて、集計メトリックを計算することを含む、請求項6に記載の方法。
- 前記ヘッダ行を選択することが、
前記行スコアを、前記データテーブルの前記1つ以上の行と関連付けられた少なくとも1つの二次行スコアと比較することと、
前記行スコアおよび前記少なくとも1つの二次行スコアの相対値に基づいて、前記ヘッダ行を選択することと、を含む、請求項6に記載の方法。 - 前記1つ以上のコンピュータプロセッサによって、前記ヘッダ行の一部となるのに適格ではない、除外されたヘッダコンテンツオブジェクトのリストを取得することと、
前記1つ以上のコンピュータプロセッサによって、前記ヘッダ行の1つ以上のヘッダセルにデータ挿入されている前記1つ以上のヘッダコンテンツオブジェクトが、前記除外されたヘッダコンテンツオブジェクトと一致するか否かを判定することと、
前記1つ以上のヘッダコンテンツオブジェクトが、除外されたヘッダコンテンツオブジェクトの前記リスト上にある場合、前記1つ以上のコンピュータプロセッサによって、前記ヘッダ行の1つ以上のヘッダセルにデータ挿入されている1つ以上のヘッダコンテンツオブジェクトに基づいて、前記データテーブルの前記1つ以上の行のうちの置換ヘッダ行を識別することと、をさらに含む、請求項5に記載の方法。 - 前記第1のコンテンツオブジェクトが、グラフィカルシーケンスオブジェクトを含み、
前記構造化されたデータベースにデータ挿入することが、前記グラフィカルシーケンスオブジェクトからシーケンス情報を抽出することを含み、
前記第1のコンテンツオブジェクトと関連付けられた前記情報が、前記シーケンス情報を含む、請求項1に記載の方法。 - 構造化データセットにデータ挿入するコンピューティングシステムであって、
データテンプレートシーケンスを含む、モデルベースのプロビジョニングされたデータテンプレートを記憶することができるメモリと、
前記メモリと通信するプロセッサであって、前記メモリに記憶された前記モデルベースのプロビジョニングされたデータテンプレートを読み出し、前記プロセッサに、
データテーブルの画像表現にアクセスすることであって、前記データテーブルが、1つ以上の行および1つ以上の列に配置された1つ以上のセルを含み、前記1つ以上のセルが、少なくとも1つの第1の行および少なくとも1つの第1の列に属する第1のセルを含み、前記第1のセルには、第1のコンテンツオブジェクトが挿入されている、アクセスすることと、
前記画像表現を、画像表現内のコンテンツオブジェクトの場所を識別するように訓練されているニューラルネットワークモデルへの入力として提供することと、
前記ニューラルネットワークモデルを実行して、前記画像表現内の前記第1のコンテンツオブジェクトの場所を識別することと、
前記第1のコンテンツオブジェクトの前記場所に基づいて、前記第1のセルの場所を識別することと、
前記第1のセルの前記場所、および前記1つ以上の行および前記1つ以上の列と関連付けられた複数のコンテンツオブジェクトとの関連での前記第1のコンテンツオブジェクトのうちの1つ以上に基づいて、前記第1のセルが前記少なくとも1つの第1の行および前記第1の列に属すると判定することと、
前記第1のコンテンツオブジェクトを1つ以上の分類識別子と関連付けることと、
前記第1のセルが、前記少なくとも1つの第1の行および前記少なくとも1つの第1の列に属すると判定することに基づいて、前記第1のコンテンツオブジェクトおよび前記1つ以上の分類識別子と関連付けられた情報を構造化されたデータベースにデータ挿入することであって、前記構造化されたデータベースが、前記少なくとも1つの第1の行と関連付けられた少なくとも1つのデータテーブル行、および前記少なくとも1つの第1の列と関連付けられた少なくとも1つのデータテーブル列を含む、データ挿入することと、を行わせる、プロセッサと、を備える、コンピューティングシステム。 - 前記プロセッサが、
前記第1のセルが、前記少なくとも1つの第1の行および前記少なくとも1つの第1の列に属さないと判定することに基づいて、前記構造化されたデータベース内の少なくとも1つの第2の列および少なくとも1つの第2の行のうちの1つを作成するようにさらに構成されている、請求項12に記載のコンピューティングシステム。 - 前記画像表現にアクセスすることが、
前記1つ以上のコンピュータプロセッサによって、コンピュータネットワークを介してデジタルドキュメントを受信することであって、前記デジタルドキュメントが、前記データテーブルを含む、受信することと、
前記1つ以上のコンピュータプロセッサによって、前記デジタルドキュメントをデジタル画像としてレンダリングすることと、
前記1つ以上のコンピュータプロセッサによって、前記レンダリングされたデジタル画像内の前記データテーブルの前記画像表現を位置特定することと、を含む、請求項12に記載のコンピューティングシステム。 - 前記第1のコンテンツオブジェクトの前記場所が、前記第1のコンテンツオブジェクトの少なくとも一部分に対応する第1の領域を含み、
前記第1のコンテンツオブジェクトの前記場所に基づいて、前記第1のセルの前記場所を識別することが、
前記第1の領域を少なくとも1つの方向に拡張することと、
前記拡張された第1の領域が、行の境界および列の境界のうちの1つをマークするグラフィカルマーカを含むと判定することと、
前記拡張された第1の領域が前記グラフィカルマーカを含むと判定することに応答して、前記拡張された第1の領域を、前記第1のセルの前記場所に対応するとして識別することと、を含む、請求項12に記載のコンピューティングシステム。 - 前記拡張された第1の領域が前記グラフィカルマーカを含むと判定することが、
前記拡張された第1の領域の縁に対応する複数の画素位置を識別することと、
前記複数の画素位置内の各画素位置について、前記画素位置が、第1の所定の閾値を超える前記少なくとも1つの拡張方向に沿った色および強度のうちの1つ以上の変化と関連付けられているか否かを判定することと、
色または強度の前記変化と関連付けられている前記複数の画素位置のカウントが、第2の所定の閾値を超えると判定することと、
前記複数の画素位置の数が前記第2の所定の閾値を超えると判定することに応答して、前記拡張された第1の領域が前記グラフィカルマーカを含むと判定することと、を含む、請求項15に記載のコンピューティングシステム。 - 前記第1のセルの前記場所が、行軸に沿った行スパンおよび列軸に沿った列スパンを含み、
前記第1のセルの前記場所に基づいて、前記第1のセルが前記少なくとも1つの第1の行および前記少なくとも1つの第1の列に属すると判定することが、
前記複数のセルの複数の場所に基づいて、前記データテーブル内の前記1つ以上のセルの少なくともサブセットをソートすることと、
前記1つ以上のセルの前記サブセットのうちの選択されたセルから開始し、前記第1の行に属する1つ以上の第2のセルを識別するための動作を再帰的に実施することであって、前記1つ以上の第2のセルが、前記第1のセルを含む、再帰的に実施することと、を含み、前記動作が、
前記選択されたセルの行スパンと重なる行スパンを有する少なくとも1つの他のセルを判定することと、
セルの前記セットのうちの前記第1のセルに最も近いセルを識別することと、
前記最も近いセルを、前記少なくとも1つの第1の行に属するものとして識別することと、
前記最も近いセルを次の選択されたセルとして選択することと、
ヘッダ行の1つ以上のヘッダセルにデータ挿入されている1つ以上のヘッダコンテンツオブジェクトに基づいて、前記データテーブルの前記1つ以上の行のうちの前記ヘッダ行を識別することと、
前記第1のセルの前記列スパンが、前記1つ以上のヘッダセルのうちの第1のヘッダセルの列スパンと重なると判定することと、
前記第1のセルを前記第1の列に属するものとして識別することであって、前記第1の列が、前記第1のヘッダセルと関連付けられている、識別することと、を含む、請求項12に記載のコンピューティングシステム。 - 前記データテーブルの前記1つ以上の行の中から前記ヘッダ行を識別することが、
前記1つ以上のヘッダコンテンツオブジェクトに対応する1つ以上のテキスト表現を生成することと、
1つ以上のテキスト表現の各々をヘッダ辞書に照会することであって、前記1つ以上のテキスト表現に対応する1つ以上の信頼スコアを含むスコアベクトルをもたらし、各信頼スコアが、前記照会の強度に基づく、照会することと、
前記スコアベクトルに基づいて行スコアを決定することと、
前記行スコアに基づいて前記ヘッダ行を選択することと、を含む、請求項17に記載のコンピューティングシステム。 - 前記スコアベクトルに基づいて行スコアを判定することが、前記スコアベクトルおよび前記1つ以上の信頼スコアのうちの1つ以上に基づいて、集計メトリックを計算することを含む、請求項18に記載のコンピューティングシステム。
- 前記ヘッダ行を選択することが、
前記行スコアを、前記データテーブルの前記1つ以上の行と関連付けられた少なくとも1つの二次行スコアと比較することと、
前記行スコアおよび前記少なくとも1つの二次行スコアの相対値に基づいて、前記ヘッダ行を選択することと、を含む、請求項18に記載のコンピューティングシステム。 - 前記1つ以上のコンピュータプロセッサによって、前記ヘッダ行の一部となるのに適格ではない、除外されたヘッダコンテンツオブジェクトのリストを取得することと、
前記1つ以上のコンピュータプロセッサによって、前記ヘッダ行の1つ以上のヘッダセルにデータ挿入されている前記1つ以上のヘッダコンテンツオブジェクトが、前記除外されたヘッダコンテンツオブジェクトと一致するか否かを判定することと、
前記1つ以上のヘッダコンテンツオブジェクトが、除外されたヘッダコンテンツオブジェクトの前記リスト上にある場合、前記1つ以上のコンピュータプロセッサによって、前記ヘッダ行の1つ以上のヘッダセルにデータ挿入されている1つ以上のヘッダコンテンツオブジェクトに基づいて、前記データテーブルの前記1つ以上の行のうちの置換ヘッダ行を識別することと、をさらに含む、請求項17に記載のコンピューティングシステム。 - 前記第1のコンテンツオブジェクトが、グラフィカルシーケンスオブジェクトを含み、
前記構造化されたデータベースにデータ挿入することが、前記グラフィカルシーケンスオブジェクトからシーケンス情報を抽出することを含み、
前記第1のコンテンツオブジェクトと関連付けられた前記情報が、前記シーケンス情報を含む、請求項12に記載のコンピューティングシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962874830P | 2019-07-16 | 2019-07-16 | |
US62/874,830 | 2019-07-16 | ||
PCT/US2020/042336 WO2021011776A1 (en) | 2019-07-16 | 2020-07-16 | Systems and methods for populating a structured database based on an image representation of a data table |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022541199A true JP2022541199A (ja) | 2022-09-22 |
Family
ID=74211345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022502444A Pending JP2022541199A (ja) | 2019-07-16 | 2020-07-16 | データテーブルの画像表現に基づいて構造化されたデータベースにデータ挿入するためのシステムおよび方法。 |
Country Status (4)
Country | Link |
---|---|
US (2) | US12032546B2 (ja) |
EP (1) | EP3999929A4 (ja) |
JP (1) | JP2022541199A (ja) |
WO (1) | WO2021011776A1 (ja) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021144656A1 (en) | 2020-01-15 | 2021-07-22 | Monday.Com | Digital processing systems and methods for graphical dynamic table gauges in collaborative work systems |
WO2021161104A1 (en) | 2020-02-12 | 2021-08-19 | Monday.Com | Enhanced display features in collaborative network systems, methods, and devices |
US11410129B2 (en) | 2010-05-01 | 2022-08-09 | Monday.com Ltd. | Digital processing systems and methods for two-way syncing with third party applications in collaborative work systems |
CN109964224A (zh) | 2016-09-22 | 2019-07-02 | 恩芙润斯公司 | 用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质 |
US11436359B2 (en) | 2018-07-04 | 2022-09-06 | Monday.com Ltd. | System and method for managing permissions of users for a single data type column-oriented data structure |
US11698890B2 (en) | 2018-07-04 | 2023-07-11 | Monday.com Ltd. | System and method for generating a column-oriented data structure repository for columns of single data types |
US11487902B2 (en) | 2019-06-21 | 2022-11-01 | nference, inc. | Systems and methods for computing with private healthcare data |
EP3987426B1 (en) | 2019-06-21 | 2024-07-24 | nference, inc. | Systems and methods for computing with private healthcare data |
US11775890B2 (en) | 2019-11-18 | 2023-10-03 | Monday.Com | Digital processing systems and methods for map-based data organization in collaborative work systems |
EP4062313A1 (en) | 2019-11-18 | 2022-09-28 | Monday.com Ltd. | Collaborative networking systems, methods, and devices |
US11410446B2 (en) | 2019-11-22 | 2022-08-09 | Nielsen Consumer Llc | Methods, systems, apparatus and articles of manufacture for receipt decoding |
US11615244B2 (en) | 2020-01-30 | 2023-03-28 | Oracle International Corporation | Data extraction and ordering based on document layout analysis |
US11475686B2 (en) * | 2020-01-31 | 2022-10-18 | Oracle International Corporation | Extracting data from tables detected in electronic documents |
US11328178B2 (en) * | 2020-03-12 | 2022-05-10 | Fujifilm Business Innovation Corp. | System and method for automated photo-ideophone matching and placement |
US11501255B2 (en) | 2020-05-01 | 2022-11-15 | Monday.com Ltd. | Digital processing systems and methods for virtual file-based electronic white board in collaborative work systems |
US20240184989A1 (en) | 2020-05-01 | 2024-06-06 | Monday.com Ltd. | Digital processing systems and methods for virtualfile-based electronic white board in collaborative work systems systems |
US11277361B2 (en) | 2020-05-03 | 2022-03-15 | Monday.com Ltd. | Digital processing systems and methods for variable hang-time for social layer messages in collaborative work systems |
US11810380B2 (en) * | 2020-06-30 | 2023-11-07 | Nielsen Consumer Llc | Methods and apparatus to decode documents based on images using artificial intelligence |
US11557140B2 (en) * | 2020-11-30 | 2023-01-17 | Sap Se | Model-independent confidence values for extracted document information using a convolutional neural network |
US11928315B2 (en) | 2021-01-14 | 2024-03-12 | Monday.com Ltd. | Digital processing systems and methods for tagging extraction engine for generating new documents in collaborative work systems |
US11537605B2 (en) * | 2021-03-30 | 2022-12-27 | Konica Minolta Business Solutions U.S.A., Inc. | Method, apparatus, and system for auto-registration of nested tables from unstructured cell association for table-based documentation |
US11768591B2 (en) | 2021-04-23 | 2023-09-26 | Lucid Software, Inc | Dynamic graphical containers |
US11822216B2 (en) | 2021-06-11 | 2023-11-21 | Nielsen Consumer Llc | Methods, systems, apparatus, and articles of manufacture for document scanning |
US12056664B2 (en) | 2021-08-17 | 2024-08-06 | Monday.com Ltd. | Digital processing systems and methods for external events trigger automatic text-based document alterations in collaborative work systems |
US12105948B2 (en) | 2021-10-29 | 2024-10-01 | Monday.com Ltd. | Digital processing systems and methods for display navigation mini maps |
US11741071B1 (en) | 2022-12-28 | 2023-08-29 | Monday.com Ltd. | Digital processing systems and methods for navigating and viewing displayed content |
US11886683B1 (en) | 2022-12-30 | 2024-01-30 | Monday.com Ltd | Digital processing systems and methods for presenting board graphics |
US11893381B1 (en) | 2023-02-21 | 2024-02-06 | Monday.com Ltd | Digital processing systems and methods for reducing file bundle sizes |
US12056255B1 (en) | 2023-11-28 | 2024-08-06 | Monday.com Ltd. | Digital processing systems and methods for facilitating the development and implementation of applications in conjunction with a serverless environment |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7464043B1 (en) * | 2000-02-28 | 2008-12-09 | Dussia Evan E | Computerized method and system for obtaining, storing and accessing medical records |
US20040013302A1 (en) | 2001-12-04 | 2004-01-22 | Yue Ma | Document classification and labeling using layout graph matching |
US7720783B2 (en) | 2007-03-28 | 2010-05-18 | Palo Alto Research Center Incorporated | Method and system for detecting undesired inferences from documents |
US8601361B2 (en) * | 2007-08-06 | 2013-12-03 | Apple Inc. | Automatically populating and/or generating tables using data extracted from files |
US20090116757A1 (en) * | 2007-11-06 | 2009-05-07 | Copanion, Inc. | Systems and methods for classifying electronic documents by extracting and recognizing text and image features indicative of document categories |
US20190171714A1 (en) * | 2008-03-21 | 2019-06-06 | Safermed, LLC d/b/a SaferMD, LLC | Artificial Intelligence Quality Measures Data Extractor |
US20110258182A1 (en) * | 2010-01-15 | 2011-10-20 | Singh Vartika | Systems and methods for automatically extracting data from electronic document page including multiple copies of a form |
US20130198118A1 (en) | 2010-03-08 | 2013-08-01 | Adam Kowalczyk | Annotation of a biological sequence |
CN101976170B (zh) * | 2010-10-28 | 2016-02-10 | 中兴通讯股份有限公司 | 一种多媒体终端开机界面的显示方法及其装置 |
US20120323590A1 (en) * | 2011-06-17 | 2012-12-20 | Sanjay Udani | Methods and systems for electronic medical source |
US9141906B2 (en) | 2013-03-13 | 2015-09-22 | Google Inc. | Scoring concept terms using a deep network |
US9324022B2 (en) * | 2014-03-04 | 2016-04-26 | Signal/Sense, Inc. | Classifying data with deep learning neural records incrementally refined through expert input |
RU2671047C2 (ru) * | 2014-06-30 | 2018-10-29 | МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи | Понимание таблиц для поиска |
JP6541353B2 (ja) * | 2015-01-08 | 2019-07-10 | キヤノン株式会社 | 情報処理システム、情報処理方法およびプログラム |
CN109964224A (zh) | 2016-09-22 | 2019-07-02 | 恩芙润斯公司 | 用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质 |
US10838941B2 (en) * | 2017-06-14 | 2020-11-17 | Salesforce.Com, Inc. | Automated image-based record creation and related database systems |
-
2020
- 2020-07-16 JP JP2022502444A patent/JP2022541199A/ja active Pending
- 2020-07-16 US US16/931,074 patent/US12032546B2/en active Active
- 2020-07-16 EP EP20841481.3A patent/EP3999929A4/en active Pending
- 2020-07-16 WO PCT/US2020/042336 patent/WO2021011776A1/en unknown
-
2024
- 2024-03-14 US US18/605,550 patent/US20240220468A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP3999929A1 (en) | 2022-05-25 |
US20210019287A1 (en) | 2021-01-21 |
US12032546B2 (en) | 2024-07-09 |
WO2021011776A1 (en) | 2021-01-21 |
EP3999929A4 (en) | 2023-06-21 |
US20240220468A1 (en) | 2024-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12032546B2 (en) | Systems and methods for populating a structured database based on an image representation of a data table | |
JP5134628B2 (ja) | 連続する記事部分の媒体資料解析 | |
Khusro et al. | On methods and tools of table detection, extraction and annotation in PDF documents | |
US11782928B2 (en) | Computerized information extraction from tables | |
US20240078826A1 (en) | Methods and systems of field detection in a document | |
US11816138B2 (en) | Systems and methods for parsing log files using classification and a plurality of neural networks | |
CN112434691A (zh) | 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质 | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
CN110196945B (zh) | 一种基于LSTM与LeNet融合的微博用户年龄预测方法 | |
US12118813B2 (en) | Continuous learning for document processing and analysis | |
CN112035675A (zh) | 医疗文本标注方法、装置、设备及存储介质 | |
Xiong et al. | Oracle bone inscriptions information processing based on multi-modal knowledge graph | |
US12118816B2 (en) | Continuous learning for document processing and analysis | |
KR20110039900A (ko) | 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법 | |
He et al. | Identifying genes and their interactions from pathway figures and text in biomedical articles | |
CN116721713B (zh) | 一种面向化学结构式识别的数据集构建方法和装置 | |
CN117034948B (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
EP3640861A1 (en) | Systems and methods for parsing log files using classification and a plurality of neural networks | |
Souza et al. | ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF | |
Xu et al. | Estimating similarity of rich internet pages using visual information | |
JP2006309347A (ja) | 対象文書からキーワードを抽出する方法、システムおよびプログラム | |
Kashevnik et al. | An Approach to Engineering Drawing Organization: Title Block Detection and Processing | |
Maath et al. | Extensive Review of State-of-the-Art Classification Techniques for Cuneiform Symbol Imaging: Open Issues and Challenges | |
Hamplová et al. | Character Segmentation in the Development of Palmyrene Aramaic OCR | |
Nguyen et al. | Medical Prescription Recognition Using Heuristic Clustering and Similarity Search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20230629 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230704 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20230725 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240717 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240827 |