JP5952428B2 - ボーダレステーブル検出エンジン - Google Patents
ボーダレステーブル検出エンジン Download PDFInfo
- Publication number
- JP5952428B2 JP5952428B2 JP2014553620A JP2014553620A JP5952428B2 JP 5952428 B2 JP5952428 B2 JP 5952428B2 JP 2014553620 A JP2014553620 A JP 2014553620A JP 2014553620 A JP2014553620 A JP 2014553620A JP 5952428 B2 JP5952428 B2 JP 5952428B2
- Authority
- JP
- Japan
- Prior art keywords
- row
- text
- borderless
- separator
- separators
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 99
- 238000000034 method Methods 0.000 claims description 24
- 238000009877 rendering Methods 0.000 claims description 16
- 238000004891 communication Methods 0.000 description 16
- 230000015654 memory Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000033458 reproduction Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000007723 transport mechanism Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000003490 calendering Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000010454 slate Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Document Processing Apparatus (AREA)
- Character Input (AREA)
- Machine Translation (AREA)
Description
minWhitespaceHeight=tableHeight×[1-2/π×arctan(tableHeight/avgTextHeight×factor)]
を用いて計算される最小空白高さ/テーブル高さ比をグラフにしたものであり、因数は定数である。グラフからわかるように、最小空白高さ/テーブル高さ比は、テーブル高さが増加するにつれて減少する。したがって、検出された空白は高さに基づいてスクリーニングされ、しかるべきものが廃棄される。
max(renderingOrder)(X)|X∈textAboveTheRowSeparater)
<min(renderingOrder(Y)|Y∈textBelowTheRowSepartor)
をチェックする。この不等式に当てはまらない場合、この行セパレータは廃棄される。レンダリング順に基づく行セパレータが、列セパレータ検出中に作成された行セパレータと重なるときは、テーブル候補の幅全体に及ぶレンダリング順に基づく行セパレータが優先され、列セパレータ検出中に作成された行セパレータは廃棄される。
Claims (17)
- 固定フォーマット文書から解析されたデータに含まれるボーダレステーブルを検出するためのボーダレステーブル検出方法であって、前記方法は、
互いに垂直オーバラップを有する空白を、上境界及び下境界を有する空白グループにグループ化するステップと、
前記空白グループの上境界と下境界との間にあるテキストを、被収集テキストとして収集するステップと、
前記被収集テキストを含むとともに上境界、下境界、左境界、右境界を有するテーブル候補内で検出された空白のそれぞれの右端に位置する列セパレータを作成するステップであって、前記列セパレータのそれぞれは一対の終端を画定している、ステップと、
複数の個別セルを形成するために、選択された前記終端にある行セパレータを含む第1の行セパレータのセットを作成するステップと、
被収集テキストを、前記複数の個別セルのうちの対応する1つに割り当てるステップと、
レンダリング順の情報が前記固定フォーマット文書から利用可能なとき、前記固定フォーマット文書から取得された前記レンダリング順に基づいて、前記テーブル候補内のテキストの連続するラインの間に第2の行セパレータのセットを作成するステップと、
前記行セパレータより上にある前記被収集テキストの最大の垂直位置又はレンダリング順が、前記行セパレータより下にある前記被収集テキストの最小の垂直位置又は前記レンダリング順よりも大きいとき、前記第2の行セパレータのセットのうちの前記行セパレータを廃棄するステップと、
前記第1の行セパレータのセットのうちの第1の前記行セパレータが、前記第2の行セパレータのセットのうちの第2の前記行セパレータと同一線上にあるとき、前記第1の行セパレータを廃棄するステップと、
を含む、ボーダレステーブル検出方法。 - 固定フォーマット文書から解析されたデータに含まれるボーダレステーブルを検出するためのボーダレステーブル検出方法であって、前記方法は、
互いに垂直オーバラップを有する空白を、上境界及び下境界を有する空白グループにグループ化するステップと、
前記空白グループの上境界と下境界との間にあるテキストを、被収集テキストとして収集するステップと、
前記被収集テキストを含むとともに上境界、下境界、左境界、右境界を有するテーブル候補内で検出された空白のそれぞれの右端に位置する列セパレータを作成するステップであって、前記列セパレータのそれぞれは一対の終端を画定している、ステップと、
複数の個別セルを形成するために、選択された前記終端にある行セパレータを含む第1の行セパレータのセットを作成するステップと、
被収集テキストを、前記複数の個別セルのうちの対応する1つに割り当てるステップと、
前記テーブル候補内で黒丸付きリスト及び番号付きリストの双方又は一方を検出するステップと、
前記テーブル候補が前記黒丸付きリスト及び番号付きリストの双方又は一方を、1つしか含まない場合、前記テーブル候補を廃棄するステップと
を含む、ボーダレステーブル検出方法。 - 請求項1又は2に記載のボーダレステーブル検出方法であって、前記テーブル候補内で検出された前記空白のそれぞれが、前記テーブル候補の高さの大部分に対応する高さ閾値を超える高さを有する、方法。
- 請求項3に記載のボーダレステーブル検出方法であって、前記高さ閾値は、前記テーブル候補の高さ及び前記被収集テキストの平均高さに応じて変化する、方法。
- 請求項1〜4のいずれか一項に記載のボーダレステーブル検出方法であって、第1の行セパレータのセットを作成する前記ステップは、
前記上境界及び前記下境界のいずれにもかからない前記終端のそれぞれから、別の前記列セパレータ又は前記左境界と交わるまで左へ延びる水平な線を引くステップと、
前記上境界及び前記下境界のいずれにもかからない前記終端のそれぞれから、別の前記列セパレータ又は前記右境界と交わるまで右へ延びる水平な線を引くステップと
をさらに含む、方法。 - 請求項1〜5のいずれか一項に記載のボーダレステーブル検出方法であって、
前記被収集テキストによりカバーされる前記テーブル候補の領域に対応するテキストカバレッジパーセンテージを計算するステップと、
前記テキストカバレッジパーセンテージが、選択されたテキストカバレッジパーセンテージ閾値に満たない場合、前記テーブル候補を廃棄するステップと、
をさらに含む、方法。 - 請求項1〜6のいずれか一項に記載のボーダレステーブル検出方法であって、前記列セパレータにより画定された各行が最初のセル及び最後のセルを有し、前記方法は、前記被収集テキストが行の前記最初のセル又は前記最後のセルのみに割り当てられている場合その行を廃棄するステップ、をさらに含む方法。
- 請求項1〜7のいずれか一項に記載のボーダレステーブル検出方法であって、一列しか含まないテーブルを廃棄するステップ、をさらに含む方法。
- 請求項1〜8のいずれか一項に記載の方法を実行するためのプログラム。
- 請求項1〜8のいずれか一項に記載の方法を実行するためのプログラムを記録した記録媒体。
- 固定フォーマット文書に現れるボーダレステーブルを検出するためのシステムであって、前記システムはボーダレステーブル検出エンジンアプリケーションを含み、該アプリケーションは、
第1の最小空白幅閾値を用いて、ページ上の空白を検出するよう動作し、
互いに垂直オーバラップを有する空白を、上境界及び下境界を有する空白グループにグループ化するよう動作し、
前記空白グループの上境界と下境界との間にあるテキストを、被収集テキストとして収集するよう動作し、
テーブル候補を形成するために前記被収集テキストの周りに境界ボックスを作成するよう動作し、前記境界ボックスは上境界、下境界、左境界、右境界を有するものであり、
第2の最小空白幅閾値を用いて、前記テーブル候補内の空白を検出するよう動作し、前記第2の最小空白幅閾値は前記第1の最小空白幅閾値よりも小さいものであり、
前記テーブル候補内の前記空白のそれぞれの右端に位置する列セパレータを作成するよう動作し、前記列セパレータのそれぞれは一対の終端を画定しており、
複数の個別セルを形成するために、前記境界ボックスの前記上境界及び前記境界ボックスの前記下境界のいずれにもかからない前記終端のそれぞれにある行セパレータを含む第1の行セパレータのセットを作成するよう動作し、かつ
被収集テキストを、前記複数の個別セルのうちの対応する1つに割り当てるよう動作し、前記行セパレータにより画定された各行は最初のセル及び最後のセルを有するものである、
システム。 - 請求項11に記載のシステムであって、前記ボーダレステーブル検出エンジンアプリケーションは、前記テーブル候補の高さの大部分に対応する高さ閾値を超えるとともに前記テーブル候補の高さ及び前記被収集テキストの平均高さに応じて変化する高さ、を有する前記テーブル候補内で検出された空白から、列セパレータを作成するよう動作する、システム。
- 請求項11又は12に記載のシステムであって、前記ボーダレステーブル検出エンジンアプリケーションは、前記境界ボックスの上境界及び前記境界ボックスの下境界のいずれにもかからない前記終端の各側へ、前記終端の各側上の別の前記列セパレータと交わるまで延びる、水平な線を引くように動作する、システム。
- 請求項11〜13のいずれか一項に記載のシステムであって、前記ボーダレステーブル検出エンジンアプリケーションは、レンダリング順の情報が前記固定フォーマット文書から利用可能なとき、前記固定フォーマット文書から取得された前記レンダリング順の情報に基づいて、前記テーブル候補内のテキストの連続するラインの間に第2の行セパレータのセットを作成するよう動作し、
前記行セパレータより上にある前記被収集テキストの最大の垂直位置又はレンダリング順が、前記行セパレータより下にある前記被収集テキストの最小の垂直位置又はレンダリング順よりも大きいとき、前記第2の行セパレータのセットのうちの前記行セパレータを廃棄するよう動作し、かつ
前記第1の行セパレータのセットのうちの第1の前記行セパレータが、前記第2の行セパレータのセットのうちの第2の前記行セパレータと同一線上にあるとき、前記第1の行セパレータを廃棄するよう動作する、
システム。 - 請求項11〜14のいずれか一項に記載のシステムであって、前記ボーダレステーブル検出エンジンアプリケーションは、前記被収集テキストによりカバーされる前記テーブル候補の領域に対応するテキストカバレッジパーセンテージが、選択されたテキストカバレッジパーセンテージ閾値に満たない場合、前記テーブル候補を廃棄するよう動作する、
システム。 - 請求項11〜15のいずれか一項に記載のシステムであって、前記ボーダレステーブル検出エンジンアプリケーションは、複数の個別セルを含むセルレイアウトを形成するために、前記境界ボックスの前記上境界及び前記境界ボックスの前記下境界のいずれにもかからない前記終端のそれぞれ、及び前記固定フォーマット文書から取得されたレンダリング順の情報を用いて決定される前記テーブル候補内のテキストの連続するライン、からなる群より選択された垂直位置に位置する行セパレータを作成するステップ、をさらに含むシステム。
- 請求項11〜16のいずれか一項に記載のシステムであって、前記ボーダレステーブル検出エンジンアプリケーションは、前記被収集テキストが、行の前記最初のセル又は前記最後のセルのみに割り当てられている場合、その行を廃棄するように動作する、システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2012/000289 WO2013110289A1 (en) | 2012-01-23 | 2012-01-23 | Borderless table detection engine |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015510177A JP2015510177A (ja) | 2015-04-02 |
JP5952428B2 true JP5952428B2 (ja) | 2016-07-13 |
Family
ID=48803220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014553620A Active JP5952428B2 (ja) | 2012-01-23 | 2012-01-23 | ボーダレステーブル検出エンジン |
Country Status (6)
Country | Link |
---|---|
US (1) | US9990347B2 (ja) |
EP (1) | EP2807608B1 (ja) |
JP (1) | JP5952428B2 (ja) |
KR (1) | KR101872564B1 (ja) |
CN (1) | CN104094282B (ja) |
WO (1) | WO2013110289A1 (ja) |
Families Citing this family (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9032283B2 (en) * | 2008-09-29 | 2015-05-12 | Apple Inc. | Rendering common cell formatting for adjacent cells |
WO2013110287A1 (en) | 2012-01-23 | 2013-08-01 | Microsoft Corporation | Vector graphics classification engine |
WO2013110286A1 (en) * | 2012-01-23 | 2013-08-01 | Microsoft Corporation | Paragraph property detection and style reconstruction engine |
WO2014005609A1 (en) | 2012-07-06 | 2014-01-09 | Microsoft Corporation | Paragraph alignment detection and region-based section reconstruction |
US9953008B2 (en) | 2013-01-18 | 2018-04-24 | Microsoft Technology Licensing, Llc | Grouping fixed format document elements to preserve graphical data semantics after reflow by manipulating a bounding box vertically and horizontally |
US9251413B2 (en) * | 2013-06-14 | 2016-02-02 | Lexmark International Technology, SA | Methods for automatic structured extraction of data in OCR documents having tabular data |
WO2016000115A1 (en) | 2014-06-30 | 2016-01-07 | Microsoft Technology Licensing, Llc | Understanding tables for search |
CN104123270B (zh) * | 2014-07-29 | 2018-03-06 | 广东能龙教育股份有限公司 | 一种基于内容的逆向表格布局方法 |
US9513671B2 (en) | 2014-08-01 | 2016-12-06 | Microsoft Technology Licensing, Llc | Peripheral retention device |
US10191986B2 (en) | 2014-08-11 | 2019-01-29 | Microsoft Technology Licensing, Llc | Web resource compatibility with web applications |
US9705637B2 (en) | 2014-08-19 | 2017-07-11 | Microsoft Technology Licensing, Llc | Guard band utilization for wireless data communication |
US9805483B2 (en) | 2014-08-21 | 2017-10-31 | Microsoft Technology Licensing, Llc | Enhanced recognition of charted data |
US9524429B2 (en) | 2014-08-21 | 2016-12-20 | Microsoft Technology Licensing, Llc | Enhanced interpretation of character arrangements |
US9397723B2 (en) | 2014-08-26 | 2016-07-19 | Microsoft Technology Licensing, Llc | Spread spectrum wireless over non-contiguous channels |
US9424048B2 (en) | 2014-09-15 | 2016-08-23 | Microsoft Technology Licensing, Llc | Inductive peripheral retention device |
US20160139783A1 (en) * | 2014-11-13 | 2016-05-19 | Microsoft Technology Licensing, Llc | Detecting sidebar in document |
US9984471B2 (en) * | 2016-07-26 | 2018-05-29 | Intuit Inc. | Label and field identification without optical character recognition (OCR) |
WO2018175686A1 (en) * | 2017-03-22 | 2018-09-27 | Drilling Info, Inc. | Extracting data from electronic documents |
US10339212B2 (en) * | 2017-08-14 | 2019-07-02 | Adobe Inc. | Detecting the bounds of borderless tables in fixed-format structured documents using machine learning |
US11775814B1 (en) | 2019-07-31 | 2023-10-03 | Automation Anywhere, Inc. | Automated detection of controls in computer applications with region based detectors |
US11650970B2 (en) | 2018-03-09 | 2023-05-16 | International Business Machines Corporation | Extracting structure and semantics from tabular data |
CN108446264B (zh) * | 2018-03-26 | 2022-02-15 | 阿博茨德(北京)科技有限公司 | Pdf文档中的表格矢量解析方法及装置 |
CN108470021B (zh) * | 2018-03-26 | 2022-06-03 | 阿博茨德(北京)科技有限公司 | Pdf文档中表格的定位方法及装置 |
US10878195B2 (en) * | 2018-05-03 | 2020-12-29 | Microsoft Technology Licensing, Llc | Automated extraction of unstructured tables and semantic information from arbitrary documents |
CN110532834B (zh) * | 2018-05-24 | 2022-12-23 | 北京庖丁科技有限公司 | 基于富文本格式文档的表格提取方法、装置、设备和介质 |
US10691936B2 (en) * | 2018-06-29 | 2020-06-23 | Konica Minolta Laboratory U.S.A., Inc. | Column inferencer based on generated border pieces and column borders |
US11200413B2 (en) * | 2018-07-31 | 2021-12-14 | International Business Machines Corporation | Table recognition in portable document format documents |
CN109284495B (zh) * | 2018-11-03 | 2023-02-07 | 上海犀语科技有限公司 | 一种对文本进行无表格线切表的方法及装置 |
CN109635268B (zh) * | 2018-12-29 | 2023-05-05 | 南京吾道知信信息技术有限公司 | Pdf文件中表格信息的提取方法 |
US11113095B2 (en) | 2019-04-30 | 2021-09-07 | Automation Anywhere, Inc. | Robotic process automation system with separate platform, bot and command class loaders |
US11301224B1 (en) | 2019-04-30 | 2022-04-12 | Automation Anywhere, Inc. | Robotic process automation system with a command action logic independent execution environment |
US11243803B2 (en) | 2019-04-30 | 2022-02-08 | Automation Anywhere, Inc. | Platform agnostic robotic process automation |
US11614731B2 (en) | 2019-04-30 | 2023-03-28 | Automation Anywhere, Inc. | Zero footprint robotic process automation system |
JP7379876B2 (ja) * | 2019-06-17 | 2023-11-15 | 株式会社リコー | 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム |
US11113518B2 (en) | 2019-06-28 | 2021-09-07 | Eygs Llp | Apparatus and methods for extracting data from lineless tables using Delaunay triangulation and excess edge removal |
US11915465B2 (en) | 2019-08-21 | 2024-02-27 | Eygs Llp | Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks |
US11048867B2 (en) * | 2019-09-06 | 2021-06-29 | Wipro Limited | System and method for extracting tabular data from a document |
US11256913B2 (en) | 2019-10-10 | 2022-02-22 | Adobe Inc. | Asides detection in documents |
US11481304B1 (en) | 2019-12-22 | 2022-10-25 | Automation Anywhere, Inc. | User action generated process discovery |
US11348353B2 (en) | 2020-01-31 | 2022-05-31 | Automation Anywhere, Inc. | Document spatial layout feature extraction to simplify template classification |
US11625934B2 (en) * | 2020-02-04 | 2023-04-11 | Eygs Llp | Machine learning based end-to-end extraction of tables from electronic documents |
US11182178B1 (en) | 2020-02-21 | 2021-11-23 | Automation Anywhere, Inc. | Detection of user interface controls via invariance guided sub-control learning |
US12111646B2 (en) | 2020-08-03 | 2024-10-08 | Automation Anywhere, Inc. | Robotic process automation with resilient playback of recordings |
CN112380812B (zh) * | 2020-10-09 | 2022-02-22 | 北京中科凡语科技有限公司 | Pdf不完整框线表格提取方法、装置、设备及存储介质 |
US11734061B2 (en) | 2020-11-12 | 2023-08-22 | Automation Anywhere, Inc. | Automated software robot creation for robotic process automation |
US11782734B2 (en) | 2020-12-22 | 2023-10-10 | Automation Anywhere, Inc. | Method and system for text extraction from an application window for robotic process automation |
US11887393B2 (en) | 2021-03-02 | 2024-01-30 | Claritrics Inc. | End-to-end system for extracting tabular data present in electronic documents and method thereof |
CN112860258A (zh) * | 2021-03-16 | 2021-05-28 | 京东方科技集团股份有限公司 | 会议系统界面的布局方法、装置及存储介质 |
CN112906695B (zh) * | 2021-04-14 | 2022-03-08 | 数库(上海)科技有限公司 | 适配多类ocr识别接口的表格识别方法及相关设备 |
US20220335240A1 (en) * | 2021-04-15 | 2022-10-20 | Microsoft Technology Licensing, Llc | Inferring Structure Information from Table Images |
ES2972232T3 (es) | 2021-06-03 | 2024-06-11 | Telefonica Cibersecurity & Cloud Tech S L U | Método de visión por ordenador para detectar regiones de documentos que serán excluidas de un proceso de incrustación y programas informáticos del mismo |
US12056948B2 (en) | 2021-07-19 | 2024-08-06 | International Business Machines Corporation | Line item detection in borderless tabular structured data |
US11820020B2 (en) | 2021-07-29 | 2023-11-21 | Automation Anywhere, Inc. | Robotic process automation supporting hierarchical representation of recordings |
US12097622B2 (en) | 2021-07-29 | 2024-09-24 | Automation Anywhere, Inc. | Repeating pattern detection within usage recordings of robotic process automation to facilitate representation thereof |
US11968182B2 (en) | 2021-07-29 | 2024-04-23 | Automation Anywhere, Inc. | Authentication of software robots with gateway proxy for access to cloud-based services |
WO2023026166A1 (en) * | 2021-08-27 | 2023-03-02 | L&T Technology Services Limited | System and method for meta-data extraction from documents |
US20230095673A1 (en) * | 2021-09-28 | 2023-03-30 | Oracle International Corporation | Extracting key information from document using trained machine-learning models |
US20230139004A1 (en) * | 2021-10-29 | 2023-05-04 | Samsung Electronics Co., Ltd. | Methods and systems for semantically segmenting a source text image based on a text area threshold determination |
CN114417792A (zh) * | 2021-12-31 | 2022-04-29 | 北京金山办公软件股份有限公司 | 一种表格图像的处理方法、装置、电子设备及介质 |
CN117894018A (zh) * | 2023-11-27 | 2024-04-16 | 南京爱福路汽车科技有限公司 | 一种采购单ocr识别方法及系统 |
Family Cites Families (87)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4648067A (en) | 1982-05-17 | 1987-03-03 | International Business Machines Corporation | Footnote management for display and printing |
US4503515A (en) | 1982-05-17 | 1985-03-05 | International Business Machines Corporation | Footnote assembly management |
JPS63304387A (ja) | 1987-06-04 | 1988-12-12 | Mitsubishi Electric Corp | 文書読取装置 |
US5111397A (en) | 1989-12-11 | 1992-05-05 | Wang Laboratories, Inc. | Managing lengthy footnotes in a work processing document |
US5680479A (en) | 1992-04-24 | 1997-10-21 | Canon Kabushiki Kaisha | Method and apparatus for character recognition |
US5574802A (en) | 1994-09-30 | 1996-11-12 | Xerox Corporation | Method and apparatus for document element classification by analysis of major white region geometry |
DE69637073T2 (de) | 1995-07-31 | 2007-08-30 | Fujitsu Ltd., Kawasaki | Prozessor und verarbeitungsverfahren für dokumente |
US5848186A (en) | 1995-08-11 | 1998-12-08 | Canon Kabushiki Kaisha | Feature extraction system for identifying text within a table image |
US5737442A (en) * | 1995-10-20 | 1998-04-07 | Bcl Computers | Processor based method for extracting tables from printed documents |
JP3814320B2 (ja) | 1995-12-14 | 2006-08-30 | キヤノン株式会社 | 画像処理方法及び装置 |
US5784487A (en) | 1996-05-23 | 1998-07-21 | Xerox Corporation | System for document layout analysis |
US5870767A (en) | 1996-11-22 | 1999-02-09 | International Business Machines Corporation | Method and system for rendering hyper-link information in a printable medium from a graphical user interface |
US6289121B1 (en) | 1996-12-30 | 2001-09-11 | Ricoh Company, Ltd. | Method and system for automatically inputting text image |
JPH11134058A (ja) | 1997-10-27 | 1999-05-21 | Canon Inc | 課金装置、課金方法、及び記憶媒体 |
US6173073B1 (en) | 1998-01-05 | 2001-01-09 | Canon Kabushiki Kaisha | System for analyzing table images |
US6377704B1 (en) | 1998-04-30 | 2002-04-23 | Xerox Corporation | Method for inset detection in document layout analysis |
JP3912463B2 (ja) | 1998-09-29 | 2007-05-09 | 富士ゼロックス株式会社 | 論理構造抽出装置及び論理構造抽出方法 |
US6336124B1 (en) | 1998-10-01 | 2002-01-01 | Bcl Computers, Inc. | Conversion data representing a document to other formats for manipulation and display |
US6493694B1 (en) | 1999-04-01 | 2002-12-10 | Qwest Communications Interational Inc. | Method and system for correcting customer service orders |
US6757870B1 (en) * | 2000-03-22 | 2004-06-29 | Hewlett-Packard Development Company, L.P. | Automatic table detection method and system |
US20050091576A1 (en) | 2003-10-24 | 2005-04-28 | Microsoft Corporation | Programming interface for a computer platform |
JP2002024306A (ja) * | 2000-07-05 | 2002-01-25 | Suzuki Motor Corp | 解析モデルデータ作成方法及び装置並びに解析モデルデータ作成用プログラムを記録した記録媒体。 |
US6915484B1 (en) | 2000-08-09 | 2005-07-05 | Adobe Systems Incorporated | Text reflow in a structured document |
US20020181779A1 (en) | 2001-06-04 | 2002-12-05 | Hansen Von L. | Character and style recognition of scanned text |
US7307642B2 (en) | 2001-06-28 | 2007-12-11 | Ideaworks 3D Ltd. | Graphics compression |
US20030167271A1 (en) | 2001-08-28 | 2003-09-04 | Wolfram Arnold | RDO-to-PDF conversion tool |
US20040205568A1 (en) | 2002-03-01 | 2004-10-14 | Breuel Thomas M. | Method and system for document image layout deconstruction and redisplay system |
US7027071B2 (en) | 2002-07-02 | 2006-04-11 | Hewlett-Packard Development Company, L.P. | Selecting elements from an electronic document |
JP4322509B2 (ja) | 2003-01-16 | 2009-09-02 | 株式会社東芝 | 故障検出率算出装置及び故障検出率算出方法 |
US7272258B2 (en) | 2003-01-29 | 2007-09-18 | Ricoh Co., Ltd. | Reformatting documents using document analysis information |
US8014013B2 (en) | 2004-06-24 | 2011-09-06 | Sharp Laboratories Of America, Inc. | Systems and methods for segmenting pages and changing settings for graphical elements in printing |
US20040240735A1 (en) * | 2003-04-29 | 2004-12-02 | Mitchell Medina | Intelligent text selection tool and method of operation |
US7218783B2 (en) | 2003-06-13 | 2007-05-15 | Microsoft Corporation | Digital ink annotation process and system for recognizing, anchoring and reflowing digital ink annotations |
US7616333B2 (en) | 2003-08-21 | 2009-11-10 | Microsoft Corporation | Electronic ink processing and application programming interfaces |
US7340685B2 (en) | 2004-01-12 | 2008-03-04 | International Business Machines Corporation | Automatic reference note generator |
US7418652B2 (en) | 2004-04-30 | 2008-08-26 | Microsoft Corporation | Method and apparatus for interleaving parts of a document |
US7519899B2 (en) | 2004-05-03 | 2009-04-14 | Microsoft Corporation | Planar mapping of graphical elements |
US7574048B2 (en) | 2004-09-03 | 2009-08-11 | Microsoft Corporation | Freeform digital ink annotation recognition |
ATE501487T1 (de) | 2004-12-21 | 2011-03-15 | Canon Kk | Segmentierung eines digitalen bildes und herstellung einer kompakten repräsentation |
US7386558B2 (en) | 2005-04-22 | 2008-06-10 | Microsoft Corporation | Methods and systems for filtering an Extensible Application Markup Language (XAML) file to facilitate indexing of the logical content contained therein |
US7644356B2 (en) | 2005-06-10 | 2010-01-05 | Hewlett-Packard Development Company, L.P. | Constraint-based albuming of graphic elements |
JP2006350867A (ja) | 2005-06-17 | 2006-12-28 | Ricoh Co Ltd | 文書処理装置、文書処理方法、プログラム及び情報記録媒体 |
US20070035780A1 (en) | 2005-08-02 | 2007-02-15 | Kabushiki Kaisha Toshiba | System and method for defining characteristic data of a scanned document |
US20070079236A1 (en) | 2005-10-04 | 2007-04-05 | Microsoft Corporation | Multi-form design with harmonic composition for dynamically aggregated documents |
US7836390B2 (en) | 2006-01-26 | 2010-11-16 | Microsoft Corporation | Strategies for processing annotations |
US7676741B2 (en) | 2006-01-31 | 2010-03-09 | Microsoft Corporation | Structural context for fixed layout markup documents |
US8509563B2 (en) * | 2006-02-02 | 2013-08-13 | Microsoft Corporation | Generation of documents from images |
US8023738B1 (en) | 2006-03-28 | 2011-09-20 | Amazon Technologies, Inc. | Generating reflow files from digital images for rendering on various sized displays |
US7788580B1 (en) | 2006-03-28 | 2010-08-31 | Amazon Technologies, Inc. | Processing digital images including headers and footers into reflow content |
US7433548B2 (en) | 2006-03-28 | 2008-10-07 | Amazon Technologies, Inc. | Efficient processing of non-reflow content in a digital image |
US7966557B2 (en) | 2006-03-29 | 2011-06-21 | Amazon Technologies, Inc. | Generating image-based reflowable files for rendering on various sized displays |
US7715635B1 (en) | 2006-09-28 | 2010-05-11 | Amazon Technologies, Inc. | Identifying similarly formed paragraphs in scanned images |
US8200009B2 (en) | 2007-04-22 | 2012-06-12 | Bo-In Lin | Control of optical character recognition (OCR) processes to generate user controllable final output documents |
US8023740B2 (en) | 2007-08-13 | 2011-09-20 | Xerox Corporation | Systems and methods for notes detection |
US8861856B2 (en) | 2007-09-28 | 2014-10-14 | Abbyy Development Llc | Model-based methods of document logical structure recognition in OCR systems |
US20090110288A1 (en) | 2007-10-29 | 2009-04-30 | Kabushiki Kaisha Toshiba | Document processing apparatus and document processing method |
US8250469B2 (en) | 2007-12-03 | 2012-08-21 | Microsoft Corporation | Document layout extraction |
US8209355B2 (en) * | 2008-07-28 | 2012-06-26 | Microsoft Corporation | Automatic user interface generation for entity interaction |
US7925683B2 (en) | 2008-12-18 | 2011-04-12 | Copiun, Inc. | Methods and apparatus for content-aware data de-duplication |
US8443278B2 (en) | 2009-01-02 | 2013-05-14 | Apple Inc. | Identification of tables in an unstructured document |
US8249356B1 (en) | 2009-01-21 | 2012-08-21 | Google Inc. | Physical page layout analysis via tab-stop detection for optical character recognition |
US8254681B1 (en) | 2009-02-05 | 2012-08-28 | Google Inc. | Display of document image optimized for reading |
US8819541B2 (en) | 2009-02-13 | 2014-08-26 | Language Technologies, Inc. | System and method for converting the digital typesetting documents used in publishing to a device-specfic format for electronic publishing |
US8311330B2 (en) | 2009-04-06 | 2012-11-13 | Accenture Global Services Limited | Method for the logical segmentation of contents |
US9135249B2 (en) | 2009-05-29 | 2015-09-15 | Xerox Corporation | Number sequences detection systems and methods |
JP5465015B2 (ja) | 2010-01-06 | 2014-04-09 | キヤノン株式会社 | 文書を電子化する装置及び方法 |
US9081412B2 (en) | 2010-07-31 | 2015-07-14 | Hewlett-Packard Development Company, L.P. | System and method for using paper as an interface to computer applications |
US8340425B2 (en) | 2010-08-10 | 2012-12-25 | Xerox Corporation | Optical character recognition with two-pass zoning |
US20120096345A1 (en) | 2010-10-19 | 2012-04-19 | Google Inc. | Resizing of gesture-created markings for different display sizes |
US20130205202A1 (en) | 2010-10-26 | 2013-08-08 | Jun Xiao | Transformation of a Document into Interactive Media Content |
US8542926B2 (en) | 2010-11-19 | 2013-09-24 | Microsoft Corporation | Script-agnostic text reflow for document images |
US9042653B2 (en) | 2011-01-24 | 2015-05-26 | Microsoft Technology Licensing, Llc | Associating captured image data with a spreadsheet |
US9690770B2 (en) | 2011-05-31 | 2017-06-27 | Oracle International Corporation | Analysis of documents using rules |
US8560937B2 (en) * | 2011-06-07 | 2013-10-15 | Xerox Corporation | Generate-and-test method for column segmentation |
US8645819B2 (en) | 2011-06-17 | 2014-02-04 | Xerox Corporation | Detection and extraction of elements constituting images in unstructured document files |
US8910039B2 (en) | 2011-09-09 | 2014-12-09 | Accenture Global Services Limited | File format conversion by automatically converting to an intermediate form for manual editing in a multi-column graphical user interface |
WO2013110287A1 (en) | 2012-01-23 | 2013-08-01 | Microsoft Corporation | Vector graphics classification engine |
US20130191732A1 (en) | 2012-01-23 | 2013-07-25 | Microsoft Corporation | Fixed Format Document Conversion Engine |
US20130198599A1 (en) * | 2012-01-30 | 2013-08-01 | Formcept Technologies and Solutions Pvt Ltd | System and method for analyzing a resume and displaying a summary of the resume |
US9471550B2 (en) | 2012-10-16 | 2016-10-18 | Linkedin Corporation | Method and apparatus for document conversion with font metrics adjustment for format compatibility |
US9953008B2 (en) | 2013-01-18 | 2018-04-24 | Microsoft Technology Licensing, Llc | Grouping fixed format document elements to preserve graphical data semantics after reflow by manipulating a bounding box vertically and horizontally |
US9703759B2 (en) | 2013-01-18 | 2017-07-11 | Microsoft Technology Licensing, Llc | Footnote zone detection in a fixed format document using number of paragraphs in footnote description |
US9251413B2 (en) | 2013-06-14 | 2016-02-02 | Lexmark International Technology, SA | Methods for automatic structured extraction of data in OCR documents having tabular data |
US9355313B2 (en) | 2014-03-11 | 2016-05-31 | Microsoft Technology Licensing, Llc | Detecting and extracting image document components to create flow document |
US20160026858A1 (en) | 2014-07-28 | 2016-01-28 | Microsoft Corporation | Image based search to identify objects in documents |
US9588952B2 (en) | 2015-06-22 | 2017-03-07 | International Business Machines Corporation | Collaboratively reconstituting tables |
US20170220858A1 (en) | 2016-02-01 | 2017-08-03 | Microsoft Technology Licensing, Llc | Optical recognition of tables |
-
2012
- 2012-01-23 US US13/521,424 patent/US9990347B2/en active Active
- 2012-01-23 KR KR1020147020613A patent/KR101872564B1/ko active IP Right Grant
- 2012-01-23 JP JP2014553620A patent/JP5952428B2/ja active Active
- 2012-01-23 EP EP12701224.3A patent/EP2807608B1/en active Active
- 2012-01-23 WO PCT/EP2012/000289 patent/WO2013110289A1/en active Application Filing
- 2012-01-23 CN CN201280067898.3A patent/CN104094282B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN104094282B (zh) | 2017-11-21 |
WO2013110289A1 (en) | 2013-08-01 |
KR20140114394A (ko) | 2014-09-26 |
US9990347B2 (en) | 2018-06-05 |
EP2807608A1 (en) | 2014-12-03 |
US20130191715A1 (en) | 2013-07-25 |
EP2807608B1 (en) | 2024-04-10 |
JP2015510177A (ja) | 2015-04-02 |
KR101872564B1 (ko) | 2018-06-28 |
CN104094282A (zh) | 2014-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5952428B2 (ja) | ボーダレステーブル検出エンジン | |
US9965444B2 (en) | Vector graphics classification engine | |
JP5974115B2 (ja) | 式検出エンジン | |
US10025979B2 (en) | Paragraph property detection and style reconstruction engine | |
US9953008B2 (en) | Grouping fixed format document elements to preserve graphical data semantics after reflow by manipulating a bounding box vertically and horizontally | |
US20130191732A1 (en) | Fixed Format Document Conversion Engine | |
US20130191366A1 (en) | Pattern Matching Engine | |
JP2021504781A (ja) | ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム | |
US9703759B2 (en) | Footnote zone detection in a fixed format document using number of paragraphs in footnote description | |
US20140258852A1 (en) | Detection and Reconstruction of Right-to-Left Text Direction, Ligatures and Diacritics in a Fixed Format Document |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160511 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160609 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5952428 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |