[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP7295189B2 - ドキュメントコンテンツの抽出方法、装置、電子機器及び記憶媒体 - Google Patents

ドキュメントコンテンツの抽出方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP7295189B2
JP7295189B2 JP2021153319A JP2021153319A JP7295189B2 JP 7295189 B2 JP7295189 B2 JP 7295189B2 JP 2021153319 A JP2021153319 A JP 2021153319A JP 2021153319 A JP2021153319 A JP 2021153319A JP 7295189 B2 JP7295189 B2 JP 7295189B2
Authority
JP
Japan
Prior art keywords
document
anchor
information
determining
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021153319A
Other languages
English (en)
Other versions
JP2022006172A (ja
Inventor
カイ ズン
フア ル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022006172A publication Critical patent/JP2022006172A/ja
Application granted granted Critical
Publication of JP7295189B2 publication Critical patent/JP7295189B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本出願はコンピュータ技術分野に関し、具体的に自然言語処理、深層学習、知識グラフなどの人工知能技術分野に関し、特にドキュメンコンテンツの抽出方法、装置、電子機器及び記憶媒体に関する。
人工知能はコンピュータに人間のある思考過程及び知能行為(学習、推理、思考、計画など)をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能ハードウェア技術は通常、センサー、専用人工知能チップ、クラウド計算、分散記憶、ビッグデータ処理などの技術を含む。人工知能ソフトウェア技術は主にコンピュータ視覚技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、知識グラフ技術などのいくつかの方向を含む。
ドキュメントには通常、キーと値のペアや表などが含まれており、ドキュメント抽出とは、即ちドキュメントコンテンツを認識して、必要なキーと値のペアやテーブルなどの対応する実際のコンテンツを取得することである。
ドキュメントコンテンツの抽出方法、装置、電子機器、記憶媒体およびコンピュータプログラム製品を提供する。
第1の態様によれば、ドキュメントコンテンツの抽出方法を提供し、ドキュメントを取得するステップと、前記ドキュメントに対してアンカー検索を行って、前記ドキュメントに対応するアンカー情報を取得するステップと、前記アンカー情報に基づいて、抽出対象のコンテンツの領域情報を決定するステップと、前記領域情報に基づいて、前記ドキュメントから前記抽出対象のコンテンツを抽出するステップと、を含む。
第2の態様によれば、ドキュメントコンテンツの抽出装置を提供し、ドキュメントを取得するための取得モジュールと、前記ドキュメントに対してアンカー検索を行って、前記ドキュメントに対応するアンカー情報を取得するための検索モジュールと、前記アンカー情報に基づいて、抽出対象のコンテンツの領域情報を決定するための決定モジュールと、前記領域情報に基づいて、前記ドキュメントから前記抽出対象のコンテンツを抽出するための抽出モジュールと、を含む。
本出願の第3の態様によれば、電子機器を提供し、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが本出願の実施例によって提供されるドキュメントコンテンツの抽出方法を実行する。
第4態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに本出願の実施例により開示されるドキュメントコンテンツの抽出方法を実行させる。
第5の態様によれば、コンピュータプログラムが含まれるコンピュータプログラム製品を提供し、前記コンピュータプログラムがプロセッサによって実行される場合、本出願の実施例によって開示されたドキュメントコンテンツの抽出方法が実現される。
第6の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに本出願の実施例により開示されるドキュメントコンテンツの抽出方法を実行させる。
なお、この部分に記載されている内容は、本出願の実施例の主要なまたは重要な特徴を限定することを意図しておらず、本出願の範囲を限定することも意図していないことを理解されたい。本出願の他の特徴は、以下の説明を通して容易に理解される。
図面は、本技術案をよりよく理解するために使用され、本出願を限定するものではない。
本出願の第1の実施例に係る概略図である。 本出願の実施例における空間インデックス検索ツリーの構成図である。 本出願の第2の実施例に係る概略図である。 本出願の第3の実施例に係る概略図である。 本出願の第4の実施例に係る概略図である。 本発明の実施例に係るドキュメントコンテンツの抽出方法を実現するための電子機器のブロック図である。
以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項を含んでおり、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
図1は本出願の第1の実施例に係る概略図である。
ここで、本実施例のドキュメントコンテンツの抽出方法の実行主体は、ドキュメントコンテンツの抽出装置であり、この装置はソフトウェアおよび/またはハードウェアによって実現されてもよく、電子機器に構成されても良い。電子機器は端末、サーバ端などを含むことができるが、これらに限定されない。
本出願の実施例は、自然言語処理、深層学習、知識グラフなどの人工知能技術分野に関する。
ここで、人工知能(Artficial Intelligence)は英語でAIと省略される。これは人間の知能を模擬、延長、拡張するための理論、方法、技術及び応用システムを研究、開発するための新しい技術科学である。
深層学習はサンプルデータの内的規則と表示レベルを学習するものであり、これらの学習プロセスにおいて取得された情報は文字、画像及び音声などのデータの解釈に大きいに役立つ。深度学習の最終的な目標は、ロボットが人間のように分析学習能力を持ち、文字、画像及び音声などのデータを認識できるようにすることである。
自然言語処理は、人間とコンピュータとの間で自然言語を利用して効果的に通信するさまざまな理論と方法を実現することができる。
知識グラフは、応用数学、コンピュータグラフィックス、情報の可視化技術、情報科学などの科学理論、方法及び計量学の引用分析、共起分析などの方法を組み合わせて、可視化の図鑑を利用して、学科の中心となる構成、発展の歴史、先端領域及び全体的な知識アーキテクチャを象徴的に表して多学科融合の目的を達成する現代の理論である。
図1に示すように、このドキュメントコンテンツの抽出方法は以下のステップ101~ステップ104を含む、
ステップ101、ドキュメントを取得する。
ここで、このドキュメントは、任意のコンテンツ抽出対象のドキュメントであり、このドキュメントはキーと値のペア、表、写真文字などの内容を含むことができるが、これらに限定されない。
本出願の実施例では、電子機器を介してテキスト入力インターフェースを提供し、ユーザから入力されたテキストを受信し、この部分のテキストに基づいて標準化されたドキュメントを生成することができる。または、ユーザによって入力された音声を解析して、この部分の音声を対応する標準化されたドキュメントに変換することができる。ここでは限定されない。
ステップ102、ドキュメントに対してアンカー検索を行って、ドキュメントに対応するアンカー情報を取得する。
上記ドキュメントを取得した後に、ドキュメントに対してアンカー検索を行って、ドキュメントに対応する情報を取得することができる。
ここで、アンカーは、例えば、ドキュメントにおけるキーと値のペアにおけるキーであってもよく、キーと値のペアは、例えば:銀行名-工商銀行である場合、キーは「銀行名」になり、値は「工商銀行」になり、キーと値のペアはまた、例えば、ヘッダーとヘッダーに対応するテーブルの内容である場合、キーはヘッダーになり、値は対応するテーブルの内容になり、これでは限定されない。
本出願の実施例におけるアンカーは、上記2つの例のキーであってもよく、キーである「銀行名」は文字キーと呼ぶことができ、ヘッダー形式のキーは、ヘッダーキーと呼ぶことができ、文字キーとヘッダーキーは、本出願の実施例において説明されたキーの概念を認識することができ、これでは限定されない。
これにより、ドキュメントに対してアンカー検索を行うことは、具体的には、ドキュメントにおける文字キーと表頭キーを検索することであってもよく、すなわち、本出願は、ドキュメントコンテンツを抽出する際に、まず、ドキュメントにおける文字キーとヘッダーキーを検索し、その後、ドキュメント全体に含まれるすべての実際の内容を検索することではなく、検索された文字キーとヘッダーキーに基づいて、コンテンツ抽出をサポートすることにより、抽出効率を効率的に向上させることができる。
いくつかの実施例では、ドキュメントに対してアンカー検索を行って、ドキュメントに対応するアンカー情報を取得することは、予め生成された空間インデックス検索ツリーを使用して、ドキュメントに対してアンカー検索を行って、ドキュメントに対応するアンカー情報を取得することであってもよく、それによって検索効率を効果的に向上させ、検索の正確性を保障することができる。
ここで、空間インデックス検索ツリーは、予め生成されたものであってもよく、例えば、大容量のサンプルドキュメント(テンプレートドキュメントとも呼ぶ)を取得し、各サンプルドキュメントのコンテンツを認識して、抽出する必要があるコンテンツを四角枠で選択し、抽出する必要があるコンテンツに対応する参照キー(サンプルドキュメントにおいて予めマークされたキー、参照キーと呼ぶことができる)、及び参照キーに対応する参照値(サンプルドキュメントでは、予めマークされた参照キーに対応する値、参照値と呼ぶことができ、具体的に、参照キーと参照値の例は上記を参照すればよく、ここでは説明を省略する)を決定し、上記各サンプルドキュメントに対応する参照キーと参照値を抽出した後、参照キーを参照アンカーとすることができ、これにより、各参照アンカー内の文字をノードとし、かつ、相互間に検索相関性を有する文字間にエッジを構築し、各参照アンカー内の文字及び対応するエッジに基づいて、空間インデックス検索ツリーを形成する。
上記空間インデックス検索ツリーを構築するプロセスは、人工的にマークするプロセスと呼ぶことができ、例えば、人工的にマークするプロセスとは、マークツールを介して、各サンプルドキュメントに抽出したい構造化内容をマークすることを指し、例えば、四角枠の描画+ラベルの入力によって実現することができる。文字キーと値のペア(文字キー-対応する値)に対して、文字キー部分のすべての内容を四角枠で選択して、k1のラベルを入力し、対応する値部分のすべての内容を四角枠で選択して、v1のラベルを入力することで実現することができる。2番目の文字のキーと値のペアに対して、上記のステップを繰り返し、相違は入力ラベルがk2とv2に変化したことであり、同じ数字は文字キーと対応する値との一対一のマッチング関係を表す。
また、例えば、ヘッダー形式のキー(ヘッダーキー-対応する値)に対して、ヘッダーキーに対応するヘッダーセルのすべての内容を四角枠で選択して、h1のラベルを入力し、このヘッダーキーに対応する行及び/または列の残りセルの全部内容を四角枠で選択して、v1のラベルを入力することで実現することができ、ヘッダーの2番目のヘッダーセルのマークについては、上記のステップを繰り返し、相違は入力ラベルがh2とv2になったことであり、同じ数字はヘッダーと行及び/又は列との一対一のマッチング関係を表す。
前記サンプルドキュメントに文字キーとヘッダーキーをマークした後に、対応して文字キーとヘッダーキーにおける文字をノードとして空間インデックス検索ツリーを構築することができる。
例えば、同じ種類のドキュメントに対して、人工的にマークされた文字キーとヘッダーキーは変化しないものとして見なすことができ、変化したのは対応する内容である。そのため、文字キーと表頭キーを参照アンカーとして、文字キーとヘッダーキーにおける文字に基づいて、空間インデックス検索ツリーを構築することができ、これにより、後でこの空間引検索ツリーに基づいて、実際のドキュメントにおいてアンカー検索して、ドキュメントにおける文字キーとヘッダーキーを検索することができる。
選択可能に、いくつかの実施例では、空間インデックス検索ツリーは、参照アンカーの文字を表す複数のノードと、接続されているノードに対応する文字間の相関ベクトルを表す複数のエッジとを含む。
例えば、空間インデックス検索ツリーは、プレフィクスツリーとして定義することができ、ツリー上のノードは参照アンカーの文字を表し、ツリーにおけるルートノードからリーフノードへの1つのパスは1つの参照アンカーを表し、同じプレフィクスの参照キーは、空間インデックス検索ツリー上のルートノードから開始する部分パスを共有することができる。ツリー上のノード間のエッジは前の文字から後ろの文字までのベクトルを表す(このベクトルは文字間の相関性を説明できるため、このベクトルは相関ベクトルと呼ぶことができる。)
また、いくつかの実施例において、上記のような空間インデックス検索ツリーの構築は、空間インデックス検索ツリーが複数のノード及び複数のエッジを含み、ノードが参照アンカーの文字を表し、エッジがこれに接続されたノードに対応する文字間の相関ベクトルを表するようにし、また、文字のサイズに応じて相関ベクトルを正規化することができ、マークすることが容易であるため、マークするデータ量を減少させることができ、ドキュメント抽出に必要なソフトハードウェアのリソースの消費を効果的に低減し、ドキュメントレイアウト中のサイズのスケーリングがコンテンツ抽出に影響を与えることを回避し、空間インデックス検索ツリーを実際のドキュメントコンテンツの抽出プロセスに応用する際に、より良い汎用性を持ち、ドキュメントのコンテンツ抽出の柔軟性を向上させる。
図2を参照すると、図2は、本出願の実施例における空間インデックス検索ツリーの構成図であり、図2のモジュール21ではサンプルドキュメントからマークされた文字を表し、各文字間に相関ベクトルが配置されているため、各文字をノードとして、相関性がある文字間の相関ベクトルをエッジとして空間インデックス検索ツリーを構築する(図2のモジュール22)。その後、実際の応用では、図2の空間インデックス検索ツリーと併せて、ドキュメントのコンテンツを1文字ずつにマッチングして、ドキュメントにおけるアンカーを認識して取得する。
また、いくつかの実施例では、参照アンカーが参照キーを含む場合、予め生成された空間インデックス検索ツリーを使用してドキュメントに対してアンカー検索を行って、ドキュメントに対応するアンカー情報を取得することは、空間インデックス検索ツリーを使用してドキュメントにおける各文字を検索して、ドキュメントから参照キーにマッチングするターゲットキーを検索して取得し、参照キーとそれに対応する参照値とのサンプルドキュメントにおける相対的レイアウト情報を決定し、ターゲットキーを検索によって取得されたドキュメントに対応するアンカーとして、対応するレイアウト情報をアンカーに対応するアンカー情報とすることであってもよい。
すなわち、本出願の実施例では、参照アンカーとして参照キーを構成でき、且つ、参照キーと参照値が、サンプルドキュメントにおける対応するキーと値のペアをマッチングすることで取得されたものであるため、これに応じて、参照キーと参照値は、サンプルドキュメントにマッピングされて対応するレイアウト及びサイズ情報が存在し、例えば、参照キー及び参照値がサンプルドキュメントにマッピングされた相対的レイアウト位置やサイズ情報などであり、これらの対応するレイアウト位置及びサイズ情報などは対応レイアウト情報と呼ぶことができる。
参照キーと参照値は、予め大量のサンプルドキュメントに基づいてマークして取得され、且つ参照キーと参照値との間にサンプルドキュメントにマッピングされる対応する相対的レイアウト情報があるため、本出願の実施例では、空間インデックス検索ツリーを使用してドキュメントにおける各文字を検索して、ドキュメントから参照キーにマッチするターゲットキー(ドキュメントにおいて、参照キーにマッチするキーはターゲットキーと呼ぶことができます)を検索して取得して、参照キーと参照値のサンプルドキュメントにおける相対的レイアウト情報を決定することができる。ターゲットキーを検索によって取得されたドキュメントに対応するアンカーとし、相対的レイアウト情報をアンカーに対応するアンカー情報とする。
相対的レイアウト情報とターゲットキーを使用して、後のドキュメントコンテンツの抽出をサポートすることができ、例えば、空間インデックス検索ツリーを使用して、ドキュメントにおける各単語から記録された次の文字の相関ベクトルに沿って検索を開始し、この関連性ベクトルに沿って次の文字が見つかった場合、次の単語の相関ベクトルに沿って検索を続けて、各文字間の相関ベクトルに基づいて完全なターゲットキー(文字キーまたはヘッダーキー)を検索した場合、ターゲットキーを検索されたアンカーとして、対応する参照キーと参照値に対応する相対的レイアウト情報をそのアンカーのアンカー情報として記録して、次のステップの抽出に用いる。
各ターゲットキーを開始として検索した後、アンカーシーケンス(アンカーシーケンスに複数のアンカーが含まれることができる)を取得することができ、このアンカーシーケンスにおける各アンカーのアンカー情報は、次のステップのコンテンツ抽出プロセスを指導することに用いられる。
空間インデックス検索ツリーを使用して各文字からアンカーを検索するため、各アンカーが相互に独立していると考えられ、様々な要因によるドキュメントレイアウトの変更は、空間インデックス検索ツリーによるアンカーの検索に影響を及ぼさない。また、検索するときに、各アンカーは、大小文字マッチングの検索方法をサポートすることもでき、英語文字の大小文字がドキュメントのレイアウトに与える影響を回避し、ページ上の絶対位置、スケーリングサイズ、回転角度、英字大小文字などが抽出効果に影響しないようにし、アンカーを認識する柔軟性を保障して、ドキュメントコンテンツの抽出方法の適用範囲を拡張した。
また、別の実施例では、参照アンカーの数は複数であり、ここで、ドキュメントから参照キーにマッチングするターゲットキーを検索して取得することは、相関ベクトルに基づいて少なくとも2つの参照アンカーを含むマッチングパスを決定し、相関ベクトルに基づいてマッチングパス上の各参照アンカー点をトラバースし、ドキュメントから各参照キーにマッチングするターゲットキーを検索して取得することであってもよい。
すなわち、本出願の実施例は、ドキュメントからアンカーを検索する別の方法も提供し、まず、各相関ベクトルに基づいて適合パスを決定し(このマッチングパスは、相関ベクトルを有する各エッジから構成されてもよい)、その後、マッチングパス上の各参照アンカー(参照アンカー、即ち参照キーである)の文字に直接基づいて検索してドキュメントにおけるターゲットキーを決定して、検索されたアンカーとし、検索用のマーク済みの参照アンカーのデータ量を減少させ、検索効率を向上させることができる。
ステップ103、アンカー情報に基づいて、抽出対象のコンテンツの領域情報を決定する。
ターゲットキーを検索されたアンカーとして、対応する参照キーと参照値に対応する相対的レイアウト情報(この相対的レイアウト情報は、参照キーと参照値を予め表示している場合でもよいし、一括して表示してもよいので、これについては制限しない)を当該アンカーのアンカー情報として記録する上記ステップは、直接ターゲットキーと対応するレイアウト情報に基づいて、抽出対象のコンテンツの領域情報を決定することができる。
なお、ドキュメントに対して抽出したい内容は、抽出対象のコンテンツと呼ぶことができる。
例えば、ターゲットキーと相対的レイアウト情報を予め訓練されたモデルに入力して、モデルの出力に基づいて抽出対象のコンテンツの領域情報を決定しても良いし、あるいは、他の任意の可能な方法を用い、アンカー情報に基づいて、抽出対象のコンテンツの領域情報、例えば、プロジェクトの方式、数学演算の方式などを決定しても良い。これに対しては限定しない。
ステップ104、領域情報に基づいて、ドキュメントから抽出対象のコンテンツを抽出する。
抽出対象のコンテンツの領域情報を特定する上記ステップの後、ドキュメントをコンテンツ認識し、識別されたコンテンツにおける、領域情報がカバーする領域にマッピングされたコンテンツを抽出対象のコンテンツとし、これに対しては制限しない。
本実施例では、ドキュメントを取得し、ドキュメントに対してアンカー検索を行って、ドキュメントに対応するアンカー情報を取得し、アンカー情報に基づいて、抽出対象のコンテンツの領域情報を決定し、領域情報に基づいて、ドキュメントから抽出対象のコンテンツを抽出する。以上により、ドキュメントのコンテンツレイアウトに制限されることを効果的に回避することができ、ドキュメンコンテンツの抽出精度と抽出効率を効果的に向上させ、ドキュメンコンテンツの抽出効果を向上させる。
図3は本出願の第2の実施例の概略図である。
図3に示すように、このドキュメントコンテンツの抽出方法は、以下のステップ301~ステップ306を含む。
ステップ301、ドキュメントを取得する。
ステップ302、ドキュメントに対してアンカー検索を行って、ドキュメントに対応するアンカー情報を取得する。
ステップ301~ステップ302の説明は、具体的には、上記実施例を参照すればよく、ここでは説明を省略する。
ステップ303、対応する候補アンカー情報を有する候補抽出テンプレートを決定する。
ここで、候補抽出テンプレートは、予めマークされたものであってもよく、この候補抽出テンプレートは抽出処理ロジックを含むことができ、すなわち、この候補抽出テンプレートは呼び出すことが可能であり、それに含まれる抽出ロジック基づいて、キュメントから抽出対象のコンテンツを抽出する。
候補抽出モジュールに対応するアンカー情報は、候補アンカー情報と呼ぶことができ、候補抽出テンプレートは、候補アンカー情報にマッチングするアンカー情報が属するドキュメントコンテンツを抽出することに用いることができる。
候補抽出テンプレートの数は複数であってもよく、本実施例では、複数の候補抽出テンプレートから検索されたアンカー情報にマッチングするターゲット抽出テンプレートを選択することができる。
ステップ304、アンカー情報にマッチングする候補アンカー情報が属する候補抽出テンプレートを決定し、属する候補抽出テンプレートをターゲット抽出テンプレートとする。
複数の候補抽出テンプレートを決定し、各候補抽出テンプレートに対応する候補アンカー情報を決定する上記ステップの後、検索されたアンカー情報にマッチングするターゲット抽出テンプレートを複数の候補抽出テンプレートから選択することができる。
ここで、検索されたアンカー情報にマッチングする候補アンカー情報が属する候補抽出テンプレートは、ターゲット抽出テンプレートと呼ぶことができ、ターゲット抽出テンプレートの候補アンカー情報は、ドキュメントから検索されたアンカー情報にマッチングするため、候補抽出テンプレートの自動管理を実現し、抽出効果の最も良いターゲット抽出テンプレートを自動的に選択することを実現することができる。
いくつかの実施例では、アンカー情報にマッチングする候補アンカー情報が属する候補抽出テンプレートを決定することは、アンカー情報と候補アンカー情報を予め訓練されたグラフモデルに入力して、グラフモデルから出力された、属する候補抽出テンプレートを取得することであってもよい。
ここで、グラフモデルは、深層学習におけるグラフモデルであってもよく、または、人工知能技術分野における他の任意の可能なアーキテクチャ形式のグラフモデルであってもよく、ここでは限定されない。
本出願の実施例で採用されたグラフモデルは確率分布のグラフであり、1つの図はノードとそれらの間のリンクから構成され、確率グラフモデルにおいて、各ノードはランダム変数(または1組のランダム変数)を表し、リンクはこれらの変数の間の確率関係を表す。このように、グラフモデルは、連合確率分布がすべてのランダム変数において1セットの因子積に分解できるように説明しており、各因子はランダム変数の1つのサブセットにのみ依存している。
例えば、まず、アンカー情報と候補アンカー情報を予め訓練されたグラフモデルに入力して、予め訓練されたグラフモデルに基づいて、アンカー情報をノードとし、2つずつのアンカー情報の接続ラインをエッジとしグラフG(V,E)を作成し、ここで、Vはノードを表し、Eはエッジを表し、同じ方法ですべての候補抽出テンプレートを図として抽象することができ、その後、予め訓練されたグラフモデルに基づいてドキュメントG(V,E)と候補抽出テンプレートG(V,E)の類似度(iはドュメントにおいて検索されたアンカーの数を示し、jは各候補抽出テンプレートにおける候補アンカーの数を示している)を計量し、その後、類似度が最も大きい候補抽出テンプレートをターゲット抽出テンプレートとする。
予め訓練されたグラフモデルに基づいてドキュメントG(V,E)と候補抽出テンプレートG(V,E)の類似度を計量する公式は、関連技術における任意の可能な類似度計算式であってもよく、これでは限定されない。
別の実施例において、グラフ類似マッチングアルゴリズムを採用しているため、ドキュメントと候補抽出テンプレートの類似度を計量できるだけではなく、テキストコンテンツが同じであるアンカーに対して、ドキュメントにおけるアンカーのレイアウトの違いに基づいて、衝突アンカーを中心とするサブグラフを構築し、且つグラフ類似度アルゴリズムに従って各衝突のアンカーを区別することにより、複数の同じキーの存在を可能にし、衝突アンカーを区別して検出することを実現する。
候補抽出テンプレートを決定し、アンカー情報にマッチングする候補アンカー情報が属する候補抽出テンプレートを決定し、属する候補抽出テンプレートをターゲット抽出テンプレートとする上記ステップの後は、直接このターゲット抽出テンプレートに基づいてドキュメントから抽出対象のコンテンツを抽出することができて、1つのターゲット抽出テンプレートを採用して、ドキュメントコンテンツを抽出することを実現し、且つ、このターゲット抽出テンプレートの候補アンカーとドキュメントにおけるアンカーのレイアウトは、比較的適合的な類似度を有するため、抽出精度を効果的に向上させる。
ステップ305、ターゲット抽出テンプレートに基づいて、抽出対象のコンテンツの領域情報を決定する。
ここで、領域情報とは、例えば、抽出対象のコンテンツがドキュメントにおいて占有している領域の位置、サイズなどの情報であり、例えば、抽出対象のコンテンツが占有している領域Aが、ドキュメントの全領域に対する相対位置座標、アスペクト比などに対応する。
いくつの実施例では、ターゲット抽出テンプレートに基づいて、抽出対象のコンテンツの領域情報を決定することは、ターゲット抽出テンプレートに対応するターゲットキーの基準レイアウト情報を決定し、基準レイアウト情報及び相対的レイアウト情報に基づいて、領域情報を決定することであってもよい。
ターゲットキーはドキュメントから検索されたアンカーであるため、検索されたアンカーとターゲット抽出テンプレートの候補アンカーとの類似度が高いため、本実施例では、抽出プロセスにおいて、直接ターゲット抽出テンプレートに基づいてドキュメントにおけるコンテンツを迅速に抽出するために、ドキュメントから検索されたアンカーをターゲット抽出テンプレートとマッチングすることができ、ドキュメントから検索されたターゲットキーのターゲット抽出テンプレートに対応するレイアウト位置、サイズなどを基準レイアウト情報とし、その後、相対的レイアウト情報(参照キーと参照値がサンプルドキュメントにマッピングされている相対的レイアウト位置、サイズ情報など)と併せて領域情報を決定する。
例えば、基準レイアウトと相対的レイアウト情報とを加算して、抽出対象のコンテンツがドキュメントにおいて占用する領域位置、サイズなどの情報を算出することができ、ここでは制限されない。
ステップ306、領域情報に基づいて、ドキュメントから抽出対象のコンテンツを抽出する。
例えば、ターゲット抽出テンプレートを決定した後に、各ターゲットキーが対応する1つの適合される参照キーを有し、この参照キーに対して、参照値、及び参照キーと対応する参照値との間の相対的レイアウト情報が予めマークされているため、ターゲット抽出テンプレートにおけるアンカーの基準レイアウトに基づいて、参照キーと対応する参照値との相対的レイアウト情報と併せて、ドキュメントにおいて抽出対象のコンテンツの領域情報(コンテンツ占有領域の大きさと位置)を算出することができ、その後、その領域情報で説明された領域から抽出対象のコンテンツを抽出することができる。(例えば、この領域情報に説明されている領域におけるキーと値のペアとテーブルのヘッダー、行または列の構造における実際内容)。
ターゲットキーに対応するターゲット抽出テンプレートにおける基準レイアウト情報を決定し、基準レイアウト情報及び相対的レイアウト情報に基づいて、領域情報を決定することにより、後で領域情報によって説明された領域における抽出対象のコンテンツを抽出することを直接サポートし、実現しやすく、より良い適用性と実用性を有し、抽出効率と精度を向上させる。
本出願の実施例では、候補抽出テンプレートの数が複数である場合、実際応用のニーズに基づいて、複数の候補抽出テンプレートを組み合わせ、結合し、または候補抽出テンプレートを分割することができ、本出願の実施例において、抽出テンプレートにマッチングする際に、一部のテンプレートのマッチングをサポートすることもできるため、より良い抽出柔軟性を持つ。
本実施例において、ターゲット抽出テンプレートの候補アンカー情報は、ドキュメントから検索されたアンカー情報とマッチングしているため、候補抽出テンプレートの自動管理を実現し、抽出効果の最もよいターゲット抽出テンプレートを自動的に選択することを達成できる。グラフ類似マッチングアルゴリズムを採用するため、ドキュメントと候補抽出テンプレートの類似度を計量できるだけでなく、テキストコンテンツが同じであるアンカーに対して、ドキュメントにおけるアンカーのレイアウトの違いに基づいて、衝突アンカーを中心とするサブグラフを構築し、且つグラフ類似度アルゴリズムに基づいて、各衝突したアンカーを区別することで、複数の同じキーが存在することを可能にすることができ、衝突アンカーを区別して検出することを実現できる。候補抽出テンプレートを決定し、且つアンカー情報にマッチングされる候補アンカー情報が属する候補抽出テンプレートを決定し、属する候補抽出テンプレートをターゲット抽出テンプレートとした後、直接このターゲット抽出テンプレートに基づいて、ドキュメントから抽出対象のコンテンツを抽出することができ、1枚のターゲット抽出テンプレートを採用してドキュメントコンテンツを抽出することを実現し、また、このターゲット抽出テンプレートの候補アンカーとドキュメントにおけるアンカーのレイアウトは、比較的適合的な類似度を有するため、抽出精度を効果的に向上させる。
図4は、本出願の第3の実施例に係る概略図である。
図4に示すように、このドキュメントコンテンツの抽出装置40は、
ドキュメントを取得するための取得モジュール401と
ドキュメントに対してアンカー検索を行って、ドキュメントに対応するアンカー情報を取得するための検索モジュール402と、
アンカー情報に基づいて、抽出対象のコンテンツの領域情報を決定するための決定モジュール403と、
領域情報に基づいて、ドキュメントから抽出対象のコンテンツを抽出するための抽出モジュール404と、を含む。
本出願のいくつかの実施例では、検索モジュール402は、具体的に、
予め生成された空間インデックスツリーを使用して、ドキュメントに対してアンカー検索を行って、ドキュメントに対応するアンカー情報を取得するように構成される。
本出願のいくつかの実施例では、ここで、空間インデックス検索ツリーは、参照アンカー内の文字を表す複数のノードと、接続されているノードに対応する文字間の相関ベクトルを表す複数のエッジと、を含む。
本出願のいくつかの実施例では、参照アンカーは、参照キーを含み、
ここで、検索モジュール402は、具体的に、
空間インデックス検索ツリーを使用して、ドキュメントにおける各文字を検索し、ドキュメントから参照キーにマッチするターゲットキーを検索して取得し、
参照キーとそれに対応する参照値とのサンプルドキュメントにおける相対的レイアウト情報を決定し、
ターゲットキーを検索によって取得されたドキュメントに対応するアンカーとし、相対的レイアウト情報をアンカーに対応するアンカー情報とするように構成される。
本出願のいくつかの実施例では、参照アンカーの数は複数であり、ここで、検索モジュール402は、さらに、
相関ベクトルに基づいて、少なくとも2つの参照アンカーを含むマッチングパスを決定し、
相関ベクトルに基づいてマッチングパス上の各参照アンカー点をトラバースし、
ドキュメントから各参照キーにマッチングするターゲットキーを検索して取得するように構成される。
本出願のいくつかの実施例では、図5に示すように、図5は、本出願の第4の実施例に係る概略図である。このドキュメントコンテンツの抽出装置50は取得モジュール501と、検索モジュール502と、決定モジュール503と、抽出モジュール504とを含み、ここで、決定モジュール503は、
対応する候補アンカー情報を有する候補抽出テンプレートを決定するための第1の決定サブモジュール5031と、
アンカー情報にマッチングされる候補アンカー情報が属する候補抽出テンプレートを決定し、属する候補抽出テンプレートをターゲット抽出テンプレートとするための第2の決定サブモジュール5032と、
ターゲット抽出テンプレートに基づいて、抽出対象のコンテンツの領域情報を決定するための第3の決定サブモジュール5033と、を含む。
本出願のいくつかの実施例では、第3の決定サブモジュール5033は、具体的に、
ターゲットキーに対応するターゲット抽出テンプレートにおける基準レイアウト情報を決定し、
基準レイアウト情報及び相対的レイアウト情報に基づいて、領域情報を決定するように構成される。
本出願のいくつかの実施例では、ここで、第2の決定サブモジュール5032は、具体的に、
アンカー情報と候補アンカー情報を予め訓練されたグラフモデルに入力して、グラフモデルから出力された、属する候補抽出テンプレートを取得するように構成される。
本実施例の図5におけるドキュメントコンテンツの抽出装置50と上記実施例のドキュメントコンテンツの抽出装置40と、取得モジュール501と上記実施例の取得モジュール401と、検索モジュール502と上記実施例の検索モジュール402と、モジュール503と上記実施例の決定モジュール403と、抽出モジュール504と上記実施例の抽出モジュール404とは、同じ機能および構造を有してもよいことは理解できる。
なお、上記ドキュメントコンテンツの抽出方法の説明は、本実施形態のドキュメントコンテンツの抽出装置にも適用され、ここでは、説明を省略する。
本実施例では、ドキュメントを取得し、ドキュメントに対してアンカー検索を行って、ドキュメントに対応するアンカー情報を取得し、アンカー情報に基づいて、抽出対象のコンテンツの領域情報を決定し、領域情報に基づいて、ドキュメントから抽出対象のコンテンツを抽出する。以上により、ドキュメントのコンテンツレイアウトに制限されることを効果的に回避することができ、ドキュメンコンテンツの抽出精度と抽出効率を効果的に向上させ、ドキュメンコンテンツの抽出効果を向上させる。
本出願の実施例によれば、本出願は、電子機器、読み取り可能な記憶媒体とコンピュータプログラム製品を提供する。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供されるドキュメントコンテンツの抽出方法を実行させる。
図6に示すように、それは本出願の実施例に係るドキュメントコンテンツの抽出方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
図6に示すように、装置600は、計算ユニット601を含み、これは読み取り専用メモリ(ROM)602に記憶されているコンピュータプログラムまたは記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに従って、様々な適切な動作および処理を実行することができる。RAM603において、デバイス600が動作するために必要な各種プログラムおよびデータも記憶することができる。計算ユニット601、ROM602、およびRAM603は、バス604を介して互いに接続されている。バス604には、入力/出力(I/O)インターフェース605も接続されている。
デバイス600における複数のコンポーネントは、キーボード、マウスなどの入力ユニット606と、様々なタイプのディスプレイ、スピーカなどの出力ユニット607と、磁気ディスク、光ディスクなどの記憶ユニット608と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット609と、を含む入出力(I/O)インターフェース605に接続されている。通信ユニット609は、デバイス600がインターネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
計算ユニット601は、各処理および計算能力を有する様々な汎用および/または専用の処理コンポーネントであってもよい。計算ユニット601のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、各種専用の人工知能(AI)計算チップ、各種の運転機器学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ(DSP)、およびどのような適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット601は上記様々な方法及び処理、例えば、ドキュメントコンテンツの抽出方法を実行する。
例えば、いくつかの実施例では、ドキュメントコンテンツの抽出方法は、記憶ユニット608などの機械読み込み可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部は、ROM602および/または通信ユニット609を介してデバイス600にロードおよび/またはインストールされることができる。コンピュータプログラムがRAM603にロードされ、計算ユニット601によって実行される場合、上記ドキュメントコンテンツの抽出方法の1つ以上のステップが実行されることができる。代替的に、別の実施例では、計算ユニット601は、ドキュメントコンテンツの抽出方法を実行するように、他の任意の適切な方法(例えば、ファームウェアを介して)によって配置されることができる
本明細書で上記システムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップ(SOC)、負荷プログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現できる。これらの様々な実施形態は、1つまたは複数のコンピュータプログラムにおいて、この1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能システム上で実行および/または解釈することができ、このプログラマブルプロセッサは、専用または共用プログラム可能プロセッサであっても良く、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令をこの記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置に送信する。
本出願のドキュメントコンテツン抽出方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャート及び/又はブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行され、部分的に機械上で実行され、スタンドアロンパッケージとして、部分的に機械上で実行され、かつ部分的にリモート機械上で実行され、又は完全にリモート機械又はサーバ上で実行されてもよい。
本出願の文脈では、機械読み取り可能な媒体は、命令実行システム、装置、又はデバイスによって使用されるために、又は命令実行システム、装置、又はデバイスと組み合わせて使用するためのプログラムを含むか、又は格納することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、又はこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供することもでき、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。
なお、上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本出願に対する保護範囲を限定するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (17)

  1. ドキュメントコンテンツの抽出装置によって実行されるドキュメントコンテンツの抽出方法であって、
    ドキュメントを取得するステップと、
    前記ドキュメントに対してアンカー検索を行って、前記ドキュメントに対応するアンカー情報を取得するステップと、
    前記アンカー情報に基づいて、抽出対象のコンテンツの領域情報を決定するステップと、
    前記領域情報に基づいて、前記ドキュメントから前記抽出対象のコンテンツを抽出するステップと、を含み、
    前記ドキュメントに対してアンカー検索を行って、前記ドキュメントに対応するアンカー情報を取得するステップは、
    予め生成された空間インデックス検索ツリーを使用して、前記ドキュメントに対してアンカー検索を行って、前記ドキュメントに対応するアンカー情報を取得するステップを含む、
    ことを特徴とするドキュメントコンテンツの抽出方法。
  2. 前記空間インデックス検索ツリーは、参照アンカー内の文字を表す複数のノードと、接続されているノードに対応する文字間の相関ベクトルを表す複数のエッジと、を含む、
    ことを特徴とする請求項に記載の方法。
  3. 前記参照アンカーは参照キーであり、
    前記予め生成された空間インデックス検索ツリーを使用して、前記ドキュメントに対してアンカー検索を行って、前記ドキュメントに対応するアンカー情報を取得するステップは、
    前記空間インデックス検索ツリーを使用して、前記ドキュメント内の各文字を検索して、前記ドキュメントから前記参照キーにマッチングするターゲットキーを検索して取得するステップと、
    前記参照キーとそれに対応する参照値とのサンプルドキュメントにおける相対的レイアウト情報を決定するステップと、
    前記ターゲットキーを、検索によって取得された前記ドキュメントに対応するアンカーとし、前記相対的レイアウト情報を前記アンカーに対応するアンカー情報とするステップと、を含む、
    ことを特徴とする請求項に記載の方法。
  4. 前記参照アンカーの数は複数であり、
    前記ドキュメントから前記参照キーにマッチングするターゲットキーを検索して取得するステップは、
    前記相関ベクトルに基づいて、少なくとも2つの前記参照アンカーを含むマッチングパスを決定するステップと、
    前記相関ベクトルに基づいて、前記マッチングパスにおける各前記参照アンカーをトラバースするステップと、
    前記ドキュメントから各前記参照キーにマッチングするターゲットキーを検索して取得するステップと、を含む、
    ことを特徴とする請求項に記載の方法。
  5. 前記アンカー情報に基づいて、抽出対象のコンテンツの領域情報を決定するステップは、
    対応する候補アンカー情報を有する候補抽出テンプレートを決定するステップと、
    前記アンカー情報にマッチングする候補アンカー情報が属する候補抽出テンプレートを決定し、前記属する候補抽出テンプレートをターゲット抽出テンプレートとするステップと、
    前記ターゲット抽出テンプレートに基づいて、前記抽出対象のコンテンツの領域情報を決定するステップと、を含む、
    ことを特徴とする請求項に記載の方法。
  6. 前記ターゲット抽出テンプレートに基づいて、前記抽出対象のコンテンツの領域情報を決定するステップは、
    前記ターゲットキーに対応する前記ターゲット抽出テンプレートにおける基準レイアウト情報を決定するステップと、
    前記基準レイアウト情報及び前記相対的レイアウト情報に基づいて、前記領域情報を決定するステップと、を含む、
    ことを特徴とする請求項に記載の方法。
  7. 前記アンカー情報にマッチングする候補アンカー情報が属する候補抽出テンプレートを決定するステップは、
    前記アンカー情報及び前記候補アンカー情報を予め訓練されたグラフモデルに入力して、前記グラフモデルから出力された前記属する候補抽出テンプレートを取得するステップを含む、
    ことを特徴とする請求項に記載の方法。
  8. ドキュメントコンテンツの抽出装置であって、
    ドキュメントを取得するための取得モジュールと
    前記ドキュメントに対してアンカー検索を行って、前記ドキュメントに対応するアンカー情報を取得するための検索モジュールと、
    前記アンカー情報に基づいて、抽出対象のコンテンツの領域情報を決定するための決定モジュールと、
    前記領域情報に基づいて、前記ドキュメントから前記抽出対象のコンテンツを抽出するための抽出モジュールと、を含み、
    前記検索モジュールが、
    予め生成された空間インデックス検索ツリーを使用して、前記ドキュメントに対してアンカー検索を行って、前記ドキュメントに対応するアンカー情報を取得する、
    ことを特徴とするドキュメントコンテンツの抽出装置。
  9. 前記空間インデックス検索ツリーは、参照アンカー内の文字を表す複数のノードと、接続されているノードに対応する文字間の相関ベクトルを表す複数のエッジと、を含む、
    ことを特徴とする請求項に記載の装置。
  10. 前記参照アンカーは参照キーであり、
    前記検索モジュールが、
    前記空間インデックス検索ツリーを使用して、前記ドキュメント内の各文字を検索して、前記ドキュメントから前記参照キーにマッチングするターゲットキーを検索して取得し、
    前記参照キーとそれに対応する参照値とのサンプルドキュメントにおける相対的レイアウト情報を決定し、
    前記ターゲットキーを、検索によって取得された前記ドキュメントに対応するアンカーとし、前記相対的レイアウト情報を前記アンカーに対応するアンカー情報とする、
    ことを特徴とする請求項に記載の装置。
  11. 前記参照アンカーの数は複数であり、
    前記検索モジュールが、さらに、
    前記相関ベクトルに基づいて、少なくとも2つの前記参照アンカーを含むマッチングパスを決定し、
    前記相関ベクトルに基づいて、前記マッチングパスにおける各前記参照アンカーをトラバースし、
    前記ドキュメントから各前記参照キーにマッチングするターゲットキーを検索して取得する、
    ことを特徴とする請求項10に記載の装置。
  12. 前記決定モジュールが、
    対応する候補アンカー情報を有する候補抽出テンプレートを決定するための第1の決定サブモジュールと、
    前記アンカー情報にマッチングする候補アンカー情報が属する候補抽出テンプレートを決定し、前記属する候補抽出テンプレートをターゲット抽出テンプレートとするための第2の決定サブモジュールと、
    前記ターゲット抽出テンプレートに基づいて、前記抽出対象のコンテンツの領域情報を決定するための第3の決定サブモジュールと、を含む、
    ことを特徴とする請求項10に記載の装置。
  13. 前記第3の決定サブモジュールが、
    前記ターゲットキーに対応する前記ターゲット抽出テンプレートにおける基準レイアウト情報を決定し、
    前記基準レイアウト情報及び前記相対的レイアウト情報に基づいて、前記領域情報を決定する、
    ことを特徴とする請求項12に記載の装置。
  14. 前記第2の決定サブモジュールが、
    前記アンカー情報及び前記候補アンカー情報を予め訓練されたグラフモデルに入力して、前記グラフモデルから出力された前記属する候補抽出テンプレートを取得する、
    ことを特徴とする請求項12に記載の装置。
  15. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~のいずれかに記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  16. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~のいずれかに記載の方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  17. コンピュータプログラムであって、
    前記コンピュータプログラムは、コンピュータ請求項1~のいずれかに記載の方法を実行させる、
    ことを特徴とするコンピュータプログラム。
JP2021153319A 2020-12-16 2021-09-21 ドキュメントコンテンツの抽出方法、装置、電子機器及び記憶媒体 Active JP7295189B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011487916.6 2020-12-16
CN202011487916.6A CN112579727B (zh) 2020-12-16 2020-12-16 文档内容的提取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022006172A JP2022006172A (ja) 2022-01-12
JP7295189B2 true JP7295189B2 (ja) 2023-06-20

Family

ID=75135492

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021153319A Active JP7295189B2 (ja) 2020-12-16 2021-09-21 ドキュメントコンテンツの抽出方法、装置、電子機器及び記憶媒体

Country Status (3)

Country Link
US (1) US20220188509A1 (ja)
JP (1) JP7295189B2 (ja)
CN (1) CN112579727B (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991403A (zh) * 2019-12-19 2020-04-10 同方知网(北京)技术有限公司 一种基于视觉深度学习的文档信息碎片化抽取方法
CN113094508A (zh) * 2021-04-27 2021-07-09 平安普惠企业管理有限公司 数据检测方法、装置、计算机设备和存储介质
CN113127058B (zh) * 2021-04-28 2024-01-16 北京百度网讯科技有限公司 数据标注方法、相关装置及计算机程序产品
CN113177541B (zh) * 2021-05-17 2023-12-19 上海云扩信息科技有限公司 一种计算机程序提取pdf文档及图片中文字内容的方法
CN113449118B (zh) * 2021-06-29 2022-09-20 华南理工大学 一种基于标准知识图谱的标准文档冲突检测方法及系统
CN113407745B (zh) * 2021-06-30 2024-09-20 北京百度网讯科技有限公司 数据标注方法、装置、电子设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011221701A (ja) 2010-04-07 2011-11-04 Canon Inc 画像処理装置、画像処理方法、コンピュータプログラム
JP2013509663A (ja) 2009-11-02 2013-03-14 ビーデージービー・エンタープライズ・ソフトウェア・エスエーアールエル 動的変動ネットワークを使用するシステムおよび方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8150824B2 (en) * 2003-12-31 2012-04-03 Google Inc. Systems and methods for direct navigation to specific portion of target document
US7743327B2 (en) * 2006-02-23 2010-06-22 Xerox Corporation Table of contents extraction with improved robustness
US7788253B2 (en) * 2006-12-28 2010-08-31 International Business Machines Corporation Global anchor text processing
US8205153B2 (en) * 2009-08-25 2012-06-19 International Business Machines Corporation Information extraction combining spatial and textual layout cues
US8572062B2 (en) * 2009-12-21 2013-10-29 International Business Machines Corporation Indexing documents using internal index sets
GB2487600A (en) * 2011-01-31 2012-08-01 Keywordlogic Ltd System for extracting data from an electronic document
CN104111913B (zh) * 2013-04-16 2017-10-03 北大方正集团有限公司 一种流式文档的处理方法及装置
US20180329873A1 (en) * 2015-04-08 2018-11-15 Google Inc. Automated data extraction system based on historical or related data
US10360294B2 (en) * 2015-04-26 2019-07-23 Sciome, LLC Methods and systems for efficient and accurate text extraction from unstructured documents
US11481550B2 (en) * 2016-11-10 2022-10-25 Google Llc Generating presentation slides with distilled content
US10956679B2 (en) * 2017-09-20 2021-03-23 University Of Southern California Linguistic analysis of differences in portrayal of movie characters
US10878195B2 (en) * 2018-05-03 2020-12-29 Microsoft Technology Licensing, Llc Automated extraction of unstructured tables and semantic information from arbitrary documents
CN110334346B (zh) * 2019-06-26 2020-09-29 京东数字科技控股有限公司 一种pdf文件的信息抽取方法和装置
CN110659346B (zh) * 2019-08-23 2024-04-12 平安科技(深圳)有限公司 表格提取方法、装置、终端及计算机可读存储介质
US11087123B2 (en) * 2019-08-24 2021-08-10 Kira Inc. Text extraction, in particular table extraction from electronic documents
CN110516048A (zh) * 2019-09-02 2019-11-29 苏州朗动网络科技有限公司 pdf文档中表格数据的提取方法、设备和存储介质
US11270065B2 (en) * 2019-09-09 2022-03-08 International Business Machines Corporation Extracting attributes from embedded table structures
CN110888965A (zh) * 2019-10-22 2020-03-17 深圳市迪博企业风险管理技术有限公司 一种文档数据提取方法及装置
CN111325031B (zh) * 2020-02-17 2023-06-23 抖音视界有限公司 简历解析方法及装置
CN111832396B (zh) * 2020-06-01 2023-07-25 北京百度网讯科技有限公司 文档布局的解析方法、装置、电子设备和存储介质
CN111930895B (zh) * 2020-08-14 2023-11-07 中国工商银行股份有限公司 基于mrc的文档数据检索方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013509663A (ja) 2009-11-02 2013-03-14 ビーデージービー・エンタープライズ・ソフトウェア・エスエーアールエル 動的変動ネットワークを使用するシステムおよび方法
JP2011221701A (ja) 2010-04-07 2011-11-04 Canon Inc 画像処理装置、画像処理方法、コンピュータプログラム

Also Published As

Publication number Publication date
US20220188509A1 (en) 2022-06-16
JP2022006172A (ja) 2022-01-12
CN112579727A (zh) 2021-03-30
CN112579727B (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
JP7295189B2 (ja) ドキュメントコンテンツの抽出方法、装置、電子機器及び記憶媒体
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
US20160300139A1 (en) Automatic data interpretation and answering analytical questions with tables and charts
KR20220005416A (ko) 다항 관계 생성 모델의 트레이닝 방법, 장치, 전자 기기 및 매체
EP3916634A2 (en) Text recognition method and device, and electronic device
CN110399547B (zh) 用于更新模型参数的方法、装置、设备和存储介质
CN110795572A (zh) 一种实体对齐方法、装置、设备及介质
CN111611452A (zh) 搜索文本的歧义识别方法、系统、设备及存储介质
US20230005283A1 (en) Information extraction method and apparatus, electronic device and readable storage medium
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
CN113792153B (zh) 问答推荐方法及其装置
JP2023007373A (ja) 意図識別モデルの訓練及び意図識別の方法及び装置
CN114281968A (zh) 一种模型训练及语料生成方法、装置、设备和存储介质
US20230206522A1 (en) Training method for handwritten text image generation mode, electronic device and storage medium
US12056184B2 (en) Method and apparatus for generating description information of an image, electronic device, and computer readable storage medium
CN112559711B (zh) 一种同义文本提示方法、装置及电子设备
JP7390442B2 (ja) 文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラム
CN115510203B (zh) 问题答案确定方法、装置、设备、存储介质及程序产品
CN114490709B (zh) 文本生成方法、装置、电子设备及存储介质
CN113536751B (zh) 表格数据的处理方法、装置、电子设备和存储介质
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
US20220300836A1 (en) Machine Learning Techniques for Generating Visualization Recommendations
CN116069914B (zh) 训练数据的生成方法、模型训练方法以及装置
CN115168599B (zh) 多三元组抽取方法、装置、设备、介质及产品
CN114091483B (zh) 翻译处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210921

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230530

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230608

R150 Certificate of patent or registration of utility model

Ref document number: 7295189

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150