[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP7169389B2 - 文書タイトルツリーの構築方法、装置、電子設備、記憶媒体、及びプログラム - Google Patents

文書タイトルツリーの構築方法、装置、電子設備、記憶媒体、及びプログラム Download PDF

Info

Publication number
JP7169389B2
JP7169389B2 JP2021049630A JP2021049630A JP7169389B2 JP 7169389 B2 JP7169389 B2 JP 7169389B2 JP 2021049630 A JP2021049630 A JP 2021049630A JP 2021049630 A JP2021049630 A JP 2021049630A JP 7169389 B2 JP7169389 B2 JP 7169389B2
Authority
JP
Japan
Prior art keywords
paragraph
document
title
level
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021049630A
Other languages
English (en)
Other versions
JP2021108153A (ja
Inventor
ジェン ジャン
イーポン ジャン
ミンハオ リウ
ジアンリアン グオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021108153A publication Critical patent/JP2021108153A/ja
Application granted granted Critical
Publication of JP7169389B2 publication Critical patent/JP7169389B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明はコンピュータ技術分野、特に人工知能分野に応用することができる。
従来技術における文書タイトルの識別は、通常、レイアウトフォーマットの比較とシンタックスの比較に基づく方法である。レイアウトフォーマットの比較に基づく方法は、主に予め定義されたレイアウトフォーマットのテンプレート規則を通して、処理されるべき文書とテンプレート規則との関係を比較することにより、タイトルの識別を完了する。シンタックスの比較に基づく方法は、まずシンタックスの関係を表すツリーまたは図形を定義し、次に文書タイトルのシンタックス構造を構築し、処理されるべき文書における段落が文書タイトルのシンタックス構造に相応しいか否かを比較することにより、タイトルの識別を完了する。しかし、現在、多くの文書は、作成過程において、例えば、要旨レベルを設定していない、または要旨レベルの設定が間違っている、タイトルフォーマットが間違っているなど、多くの非規範的な現象が存在し、いずれの状況も文書タイトルの識別を困難にする可能性がある。そのため、上記の方法を用いるとフォールトトレランスが低いという問題が存在する可能性がある。
本発明は、文書タイトルツリーの構築方法、装置、電子設備および記憶媒体を提供し、従来技術における上記の技術問題のうちの少なくとも1つを解決する。
本発明の第1態様は、文書タイトルツリーの構築方法を提供し、当該方法は、
予め定義された規則に基づいて、処理されるべき文書における各段落のテキスト特徴と前記予め定義された規則における段落特徴とを規則マッチングすることと、
規則マッチングが成功した場合に、前記規則マッチングの結果に基づいて、前記処理されるべき文書における各段落の段落レベルを決定することと、
規則マッチングが失敗した場合に、機械学習モデルを用いて、処理されるべき文書における各段落の段落レベルを決定することと、
各段落の段落レベルに基づき、処理されるべき文書の文書タイトルツリーを構築することと、を含む。
本発明の第2態様は、文書タイトルツリーの構築装置を提供し、当該装置は、
予め定義された規則に基づいて、処理されるべき文書における各段落のテキスト特徴と予め定義された規則における段落特徴とを規則マッチングするためのマッチングユニットと、
規則マッチングが成功した場合に、規則マッチングの結果に基づいて、処理されるべき文書における各段落の段落レベルを決定するための第1決定ユニットと、
規則マッチングが失敗した場合に、機械学習モデルを用いて、処理されるべき文書における各段落の段落レベルを決定するための第2決定ユニットと、
前記各段落の段落レベルに基づき、処理されるべき文書の文書タイトルツリーを構築するための構築ユニットと、を備える。
本発明の第3態様は、電子設備をさらに提供し、当該電子設備は、
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサに通信接続されるメモリと、を備え、
メモリには、少なくとも1つのプロセッサにより実行可能な命令が記憶されており、
命令は、少なくとも1つのプロセッサにより実行される場合、本発明の実施形態における任意の文書タイトルツリーの構築方法を実行させることを特徴とする。
本発明の第4態様は、コンピュータ命令を記憶した非一過性のコンピュータ可読記憶媒体をさらに提供し、当該コンピュータ命令を記憶した非一過性のコンピュータ可読記憶媒体は、
本発明の実施形態における任意の文書タイトルツリーの構築方法をコンピュータに実行させる。
本発明の実施形態は、以下のメリットまたは有益な効果を有する。
様々な構造化されていない文書のタイトルの識別と文書タイトルツリーの構築とに適応でき、予め定義された規則と機械学習モデルとの組み合わせに基づく方式は、比較的強いフォールトトレランスを有し、識別結果がさらに正確となる。
本発明の選択可能な実施形態が有する他の効果については、下記を通じて具体的な実施形態と関連して説明する。
本発明の実施形態による文書タイトルツリーの構築方法のフローチャート図である。 本発明の実施形態による文書タイトルツリーの構築方法における文書タイトルツリーを示す図である。 本発明の実施形態による文書タイトルツリーの構築方法における段落レベル識別フローチャート図である。 本発明の実施形態による文書タイトルツリーの構築方法における機械学習モデルを用いて段落レベルを決定するフローチャート図である。 本発明の実施形態による文書タイトルツリーの構築方法における文書タイトルツリー構築フローチャート図である。 本発明の実施形態による文書タイトルツリーの構築方法における文書タイトルツリーを示す図である。 本発明の実施形態による文書タイトルツリーの構築方法のフローチャート図である。 本発明の実施形態による文書タイトルツリーの構築装置を示す図である。 本発明の他の実施形態による文書タイトルツリーの構築装置における構築ユニットを示す図である。 本発明の実施形態による文書タイトルツリーの構築方法を実現するための電子設備のブロック図である。
添付図面は、本方案をより良く理解するためのものであり、本発明を限定するものではない。
以下において、本発明の例示的な実施形態を、理解を容易にするために本発明の実施形態の様々な詳細を含む添付の図面に関連して説明するが、これらは単に例示的なものであると考えるべきである。したがって、当業者は、本発明の範囲および精神を逸脱することなく、本発明に記載された実施形態に様々な変更および修正を加えることができることを認識すべきである。同様に、以下の説明では、周知の機能および構成については、明確化および簡明化のために説明を省略する。
図1は、本発明の実施形態による文書タイトルツリーの構築方法のフローチャート図である。図1を参照し、該文書タイトルツリーの構築方法は以下を含む。
ステップS112において、予め定義された規則に基づいて、処理されるべき文書における各段落のテキスト特徴と予め定義された規則における段落特徴とを規則マッチングする。
ステップS114において、規則マッチングが成功した場合に、規則マッチングの結果に基づいて、処理されるべき文書における各段落の段落レベルを決定する。
ステップS116において、規則マッチングが失敗した場合に、機械学習モデルを用いて、処理されるべき文書における各段落の段落レベルを決定する。
ステップS120において、各段落の段落レベルに基づき、処理されるべき文書の文書タイトルツリーを構築する。
本発明の実施形態は、様々な構造化されていない文書のタイトルの識別と文書タイトルツリーの構築に適応する。構造化されていない文書は、Word文書、HTML(HyperTextMarkupLanguage、ハイパーテキストマークアップランゲージ)文書、OCR(OpticalCharacterRecognition、光学文字認識)変換文書などを含むことができる。このような文書は、若干の基本ユニットで構成されており、各ユニットは文章において、例えば、タイトルや本文などの異なる役割を有する。通常、1つの段落は、テキストの1つの基本ユニットである。文書タイトルツリーの構築とは、文書におけるタイトルを識別し、識別結果に基づいてタイトルツリーを樹立することである。文書タイトルツリーを用いることで、文書に含まれる情報を効率的にマイニングすることができ、レイアウトフォーマット検査などの多くの応用の基礎である。また、文書タイトルツリー構築は、文書分類、構造化検索、文書理解などの自然言語処理応用にも重要な役割を果たす。
文書タイトルツリーの構築タスクは、与えられた処理されるべき文書に基づいて、処理されるべき文書における対応するタイトルの構造化情報を与えるよう要求する。処理されるべき文書における各段落の出現順序および入れ子構造を決定することにより、最終的に規則シンタックスツリーを形成する。つまり、該規則シンタックスツリーは、文書タイトルおよび文書本文の階層構造を表す文書タイトルツリーである。図2は、本発明の実施形態による文書タイトルツリーの構築方法における文書タイトルツリーを示す図である。図2は、入力文書例に基づいて再構成された文書タイトルツリーを示す。図2における「ROOT」は仮想のルートノードであり、ルートノードは文書そのものを表す。図2における「T」はタイトルノードである。図2における「C」は文書本文ノードである。本文ノードは通常、子ノードである。
word文書を例とすると、word文書において要旨レベルが正しく設定されている場合、Apache POIやLibreofficeなどのword文書解析ツールを用いて、文書タイトルツリーをエクスポートすることができる。しかし、文書の作成が規範的ではない場合、文書タイトルツリーを構築することはできない。
以上の問題に対して、本発明では、構造化されていない文書に適応するタイトルツリー構築方法を提案する。本発明の実施形態において、予め定義された規則に基づく規則マッチングと機械学習モデルとを用いて、処理されるべき文書うちの少なくとも1つの段落に対して段落役割識別を行い、即ち処理されるべき文書における各段落がタイトルであるか否かを識別する。さらに、各段落の段落レベルを判定することもできる。例えば、図2において、「T:2.アルゴリズム設計」が1級タイトルであり、「T:2.1規則マッチング」が2級タイトルである。ステップS120において、ステップS114またはS116にて得られた各段落の段落レベルに基づいて文書タイトルツリーを構築する。図2の例を参照すると、構築された文書タイトルツリーは、文書段落間の階層入れ子関係を明確に表すことができる。
ステップS112において、まず、予め定義された規則の規則マッチングの方法に基づき、処理されるべき文書における各段落に対してタイトルの識別を行う。具体的に、処理されるべき文書における各段落のテキスト特徴と、予め定義された規則における段落特徴との規則マッチングを行う。規則マッチングが成功した場合に、ステップS114を実行し、規則マッチングの結果に基づいて処処理されるべき文書における各段落の段落レベルを決定する。例えば、記予め定義された規則における段落特徴は、段落テキスト中にコンマまたはピリオドなどの予め定められた句読点が含まれることを含む。即ち、処理されるべき文書における現在の段落にコンマまたはピリオドなどの予め定められた句読点が含まれていると識別した場合、現在の段落の段落レベルを文書本文として識別する。規則マッチングが失敗した場合に、ステップ116を実行し、機械学習モデルを用いて処理されるべき文書における各段落の段落レベルを決定する。例えば、LSTM(Long Short-term Memory、長・短期記憶ネットワーク)モデルを用いて、処理されるべき文書における各段落の段落レベルに対して識別を行うことができる。
上記実施形態において、予め定義された規則に基づく規則マッチングと機械学習モデルとを組み合わせ、処理されるべき文書における各段落に対してタイトルの識別を行い、各段落の段落レベルを得る。予め定義された規則に基づく規則マッチングと機械学習モデルとを組み合わせる方法は、多方面から段落の段落レベルを判定することができ、テンプレート規則のみを用いる比較に存在するフォールトトレランス不足の問題を解消し、タイトルの認識能力を向上する。
他の実施形態において、予め定義された規則の規則マッチングおよび機械学習モデルのどちらかに基づき、処理されるべき文書における各段落に対してタイトルの識別行い、各段落の段落レベルを得ることもできる。また、各段落の段落レベルを通して文書タイトルツリーを構築することにより、文書全体の段落間の階層入れ子関係を表す。
従来技術におけるレイアウトフォーマットの比較に基づく方法は、タイトルの識別過程においてテンプレートと処理されるべき文書との間の類似度を計算する必要があり、類似度の大小関係を通して処理されるべき文書とテンプレートにおけるタイトルとの関係を判定する。処理されるべき文書のレイアウトフォーマットが規範のものでなければ、類似度の大小を通してタイトルの識別を行うことは困難である。従来技術におけるシンタックスの比較の方法についても同様の問題があり、処理されるべき文書のシンタックスフォーマットが規範のものでなければ、タイトルの識別を行うことはできない。現在、多くの文書は、作成過程において、例えば、要旨レベルを設定していない、または、要旨レベルの設定が間違っている、タイトルフォーマットが間違っているなどのような、多くの非規範的な現象が存在し、いずれの状況も文書タイトルの識別を困難にする可能性がある。
これを考慮して、本発明の実施形態は、文書タイトルツリーの構築方法を提供し、該方法は
様々な構造化されていない文書のタイトルの識別および文書タイトルツリーの構築に適応し、予め定義された規則と機械学習モデルとの組み合わせに基づく方式は、比較的強いフォールトトレランスを有するため、識別結果がさらに正確となる。
本発明の実施形態において、段落レベルは、文書本文および文書タイトルのタイトルレベルを含むことができる。ここで、文書タイトルのタイトルレベルは、1級レベル、2級レベル、3級レベルなどのレベルの高い順の一連のタイトルを含むことができる。図2の例を参照すると、「C」は文書本文ノードであり、「T:2.アルゴリズム設計」が1級タイトルであり、「T:2.1規則マッチング」が2級タイトルである。
1つの実施形態において、各段落レベルの対応する重み値を予め設定してもよい。ここで、重み値の小さいものの対応するタイトルレベルは高く、最大の重み値は文書本文に対応する。例えば、図2の例において、1級タイトルを表すノード「T:2.アルゴリズム設計」には重み値1を付与し、2級タイトルを表すノード「T:2.1規則マッチング」には重み値2を付与し、文書本文を表すノード「C」には重み値100を付与してもよい。
本発明の実施形態において、予め定義された規則に基づく規則マッチングの方法は、文書本文特徴に基づくタイトルフォーマット制限、タイトル数字マッチング、およびキーワードマッチングのうちの少なくとも1つを含むことができる。上記のいくつかの方法の具体的な実施形態は以下の通りである。
1)文書本文特徴に基づくタイトルフォーマット制限
1つの実施形態において、予め定義された規則における段落特徴は、文書本文特徴を含む。文書本文特徴として、段落テキストにおいて予め定められた句読点、予め定められた段落の長さの閾値が含まれている、段落テキストにおいて予め定められた文字が含まれている、段落テキストにおいて数字以外の文字が含まれていない、などを含むことができる。
1つの実施形態において、図1におけるステップS114:規則マッチングが成功した場合に、規則マッチングの結果に基づいて、処理されるべき文書における各段落の段落レベルを決定することは、具体的に、処理されるべき文書内における現在の段落と文書本文特徴とのマッチングが成功した場合、現在の段落の段落レベルを文書本文として決定することを含むことができる。
通常の場合、文書のタイトル段落は、特殊なタイトルフォーマットの制限条件を有する。例えば、タイトルに句読点符号が含まれていない、タイトルの内容に長さ制限がある、「公式」などの特殊文字がタイトルに出現しない、などである。以上の特徴に基づき、上記のタイトルフォーマットの制限条件に基づいて、処理されるべき現在の段落の内容について検査を行うことができる。上記のタイトルフォーマットの制限条件を満たしている場合、該段落を非タイトル段落、即ち文書本文として識別し、重み100を付与する。1つの例として、タイトルフォーマット制約条件は具体的に表1のように示される。
Figure 0007169389000001
本発明の実施形態は、明らかな文書本文特徴を有する段落を文書本文として識別することができ、正確な識別の基に、後続に構築される文書タイトルツリーにおいて文書構造を明確に表すことができる。
2)タイトル数字マッチング
1つの実施形態において、予め定義された規則における段落特徴は、文書タイトルのタイトル内容より前の数字符号のフォーマットを含む、
図1におけるステップS114:規則マッチングが成功した場合に、規則マッチングの結果に基づいて、処理されるべき文書における各段落の段落レベルを決定することは具体的に以下を含む。
文書タイトルのタイトル内容より前に数字符号が含まれていると識別した場合に、サンプル文書に基づき、各タイトルレベルからなるタイトルレベル集合を取得し、かつ、各タイトルレベルの対応する数字符号のフォーマットの正規表現を取得する。
現在の段落におけるタイトル内容より前の数字符号のフォーマットと、各タイトルレベルの対応する正規表現とをマッチングし、マッチングした結果に基づいて、現在の段落のタイトルレベルを決定する。
このような実施形態において、タイトル内容より前の数字符号のフォーマットを用いてタイトルレベルを決定することができる。例えば、様々なシーンにおいて使用されるサンプル文書を予め収集することができる。また、サンプル文書において、数字から始まる複数のタイトル段落を抽出し、かつ、複数のタイトル段落から各種の異なる数字符号のフォーマットを取得する。詳細は、以下の表2における「第1章」、「(1.1)」などの、数字符号のフォーマットを参照する。
さらに、表2に示すように、サンプル文書から取得される様々な異なる数字符号のフォーマットを正規表現で表すことができる。異なる数字符号のフォーマットは異なるタイトルレベルを表し、さらに、異なるタイトルレベルは異なる重み値に対応するため、各正規表現の対応する重み値を得ることができる。表2の3列目に各数字符号のフォーマットの対応する重み値を示す。例えば、「第1章」は1級タイトルである確率が高く、対応するタイトルの重み値は1である。「(1.1)」は2級タイトルある確率が高く、対応するタイトルの重み値は5である。表2は、あらかじめサンプル文書を用いてまとめた汎用性のある表である。表2には、異なる数字符号のフォーマットに異なる重みが付与されていることが示されている。ここで、重みが小さいほど、その対応するタイトルレベルが高いことを表す。
Figure 0007169389000002
上記の表のデータを基に、正規マッチングの方法を通して、文書タイトルのタイトル内容より前に数字符号が含まれていると識別した場合、現在の段落におけるタイトル内容より前の数字符号のフォーマットと、各タイトルレベルの対応する正規表現とをマッチングする。現在の段落が上記の正規マッチング条件を満たしている場合、タイトルの重み値を出力し、プログラムは識別を終了する。
本発明の実施形態は、数字符号のフォーマットの正規表現を通して各段落のタイトルレベルを正確に識別することができ、即ち、上記の方法を用いて汎用的なタイトル数字マッチング表をまとめることができ、さらに特定のシーンに対して個性的な応用に適応する表をまとめることができ、該方式は可操作性が高く、精度が高い。
3)キーワードマッチング
1つの実施形態において、予め定義された規則における段落特徴は、キーワード集合を含み、キーワード集合は、ブラックリストとホワイトリストとを含み、ブラックリストは、文書タイトルに含まれるキーワードを含み、ホワイトリストは、文書タイトルに含まれないキーワードを含む。
規則マッチングが成功した場合に、規則マッチングの結果に基づいて、処理されるべき文書における各段落の段落レベルを決定することは、以下を含む。
現在の段落のテキストとキーワード集合とをマッチングする。
現在の段落のテキストとホワイトリストとのマッチングが成功した場合に、現在の段落の段落レベルを予め設定された、ホワイトリストに対応するタイトルレベルとして決定する。
現在の段落のテキストとブラックリストとのマッチングが成功した場合に、現在の段落の段落レベルを文書本文として決定する。
文書タイトルの内容は章節全体の中心思想を表して、特定のキーワードを通して文書タイトルであるか否かを判断することができる。例えば、「基本情報」、「背景紹介」、「方法説明」などのキーワードを含む段落は、文書タイトルである可能性が高い。本発明の実施形態は、表3に示すように、段落内容に対して判定を行うためにホワイトリストとブラックリストとを予め定義することができる。表3の3列目は、ホワイトリスト及びブラックリストの対応する重み値をさらに示す。ここで、現在の段落のテキストとブラックリストとのマッチングが成功した場合に、現在の段落の段落レベルを文書本文として決定し、現在の段落の対応する重み値を100と設定する。現在の段落のテキストとホワイトリストとのマッチングが成功した場合に、現在の段落の段落レベルを文書タイトルと決定する。1つの実施形態において、ホワイトリストとのマッチングに成功した文書段落の対応する重み値を、すべて第1の予め定められた数値に設定し、例えば、該数値は2であってもよい。
Figure 0007169389000003
本発明の実施形態において、リストは実際のニーズに応じて自由に適合することができ、ニーズに基づいて随時拡張および更新することができ、該方式はシーンおよびニーズに応じて柔軟に運用することができ、拡張性に優れている。
前述のように、本発明の実施形態において、予め定義された規則に基づく規則マッチングの方法は、文書本文特徴に基づくタイトルフォーマット制限、タイトル数字マッチング、およびキーワードマッチングのうちの少なくとも1つを含むことができる。1つの例において、上述のいくつかの予め定義された規則に基づく規則マッチングの方法を組み合わせて、タイトルの識別の精度をさらに向上することができる。図3は、本発明の実施形態による文書タイトルツリーの構築方法における段落レベル識別フローチャート図である。図3に示すように、まず、文書本文特徴に基づくタイトルフォーマット制限を用いて文書段落に対して識別を行い、識別に結果を得られた場合、該文書段落を文書本文として決定し、かつ、重みを出力することができる。上記識別に結果を得られなかった場合、タイトル数字マッチングの方式を用いて、文書段落に対して識別を行い、識別に結果を得られた場合、該文書段落を文書本文として決定し、かつ、重みを出力する。上記識別に結果を得られなかった場合、キーワードマッチングの方式を用いて、文書段落に対して識別を行い、識別に結果を得られた場合、該文書段落を文書本文または文書タイトルとして決定し、かつ、重みを出力する。記識別に結果を得られなかった場合、機械学習モデルを用いて文書段落に対して識別を行い、最終的に該文書段落の対応する重みを出力する。本発明の実施形態は、文書段落のタイトルの特徴について、予め定義された規則および機械学習モデルから多方面に段落役割を識別し、識別の精度を保証することができる。
図4は、本発明の実施形態による文書タイトルツリーの構築方法における機械学習モデルを用いて段落レベルを決定するフローチャート図である。図1および図4を参照し、ステップS116における規則マッチングが失敗した場合に、機械学習モデルを用いて、処理されるべき文書における各段落の段落レベルを決定することは、具体的に以下を含む。
ステップS310において、現在の段落から単語ベクトルシーケンス特徴と品詞シーケンス特徴とを抽出する。
ステップS320において、単語ベクトルシーケンス特徴と品詞シーケンス特徴とを機械学習モデルに入力する。
ステップS330において、機械学習モデルを用いて処理されるべき文書における各段落の段落レベルを出力する。
1つの例において、機械学習モデルを用いて、現在の段落について二項分類判定、即ち、現在の段落が文書タイトルであるか否かを判定することができる。
文書タイトルのテキストは通常、内容においてまとめ的な語句として体現されるため、一方では、単語ベクトルシーケンスを用いて特徴とし、語義情報の抽出に用いることができる。ここで、単語ベクトルは単語をベクトルとして処理する技術であり、ベクトルの間の相対的類似度と語義類似度とが相関することを保証する。単語ベクトルは、単語を1つの語彙空間にマッピングし得られたベクトルである。もう一方で、文書タイトルのテキストは品詞にも対応する特徴があり、通常は名詞と動名詞の組み合わせであり、例えば「経験のまとめ」、「法則の要約」などである。そのため、機械学習モデルの入力特徴として品詞シーケンスを同時に追加することにより、機械学習モデルが単語ベクトルシーケンス特徴と品詞シーケンス特徴とを用いて学習を行うことができるようにすることができる。
ステップS310において、機械学習モデルに入力されるべき現在の段落に対して単語分割処理を行い、現在の段落の単語ベクトルシーケンス特徴と品詞シーケンス特徴とを得る。ステップS320において、上記の特徴を機械学習モデルに入力する。1つの例において、LSTMモデルを用いて、処理されるべき文書における各段落の段落レベルを判定することができる。LSTMモデルの判定式は以下の通りである。
y=LSTM(x_emb、x_pos)
ここで、x_embは単語分割後の単語ベクトルシーケンス特徴を表し、x_posは単語分割後の品詞シーケンス特徴を表し、yは最終的に得られた出力結果を表す。ここで、yが1のとき、予測結果は、現在の段落が文書タイトルであることを表す。1つの実施形態において、LSTMモデルによりタイトルとして識別された文書段落の対応する重み値を、すべて第2の予め定められた数値と設定することができ、例えば、該数値は7であってもよい。yが0のとき、予測結果は、現在の段落が文書タイトルでないことを表し、重み値100を付与する。
本発明の実施形態において用いられた機械学習モデルは、シーケンス特徴に関する問題を処理する上で元から有する優性があり、機械学習モデルを用いて単語ベクトルシーケンス特徴と品詞シーケンス特徴とを学習し、収束したモデルを得て予測に用いることにより、理想的な予測効果を得ることがで
1つの実施形態において、図1におけるステップS120において、各段落の段落レベルに基づき、処理されるべき文書の文書タイトルツリーを構築することは、以下を含む。
文書タイトルツリーのルートノードを作成し、かつ、ルートノードの対応する段落レベルを最高レベルとして割り当てる。
処理されるべき文書における各段落の段落レベルに基づいて、各段落の対応する段落ノードを文書タイトルツリーに追加する。
前述のように、文書タイトルツリーにおけるルートノードは文書そのものを表す。まずルートノードを作成し、かつ、ルートノードの対応する段落レベルを最高レベルと割り当て、それに応じてルートノードに最小の重み値を付与することができる。例えば、ルートノードに重み値0を付与することができる。次に、処理されるべき文書における各段落の対応する段落ノードを文書タイトルツリーに追加する。前述のステップにおいて、処理されるべき文書における各段落の段落レベルを既に識別し、各段落の対応する重み値を得ることができる。重み値に基づいて、各段落の対応する段落ノードを文書タイトルツリーに追加し、ソートツリーを構築することができる。ソートツリーでは、ルートノードの重み値は最小であり、ルートノードの子ノードは1級タイトルの対応するノードであり、1級タイトルの対応するノードの子ノードは2級タイトルの対応するノードであり、最下層の子ノードが文書本文に対応するまで順次類推する。
本発明の実施形態では、階層構造を有する文書タイトルツリーを取得することができ、例えば、word分書、txt分書、html文書などのような様々な構造化されていない文書に適応することができる。生成したタイトルツリーを用いることで、文書に含まれる情報を効率的にマイニングすることができ、レイアウトフォーマット検査、文書分類、構造化検索、文書理解などの多くの応用の基礎である。
図5は、本発明の実施形態による文書タイトルツリーの構築方法における文書タイトルツリー構築フローチャート図である。図5に示すように、1つの実施形態において、処理されるべき文書における各段落の段落レベルに基づいて、各段落の対応する段落ノードを文書タイトルツリーに追加することは、以下を含む。
ステップS510において、処理されるべき文書における1番目の段落を現在の段落とし、ルートノードを前記文書タイトルツリーの最後のノードとする。
ステップS520において、現在の段落の段落レベルと最後のノードの段落レベルとを比較する。
ステップS530において、比較の結果に基づいて、現在の段落の対応する段落ノードを文書タイトルツリーに追加する。
ステップS540において、現在の段落の次の段落を新たな現在の段落とし、現在の段落の対応する段落ノードを新たな最後のノードとする。
ステップS550において、新たな現在の段落と新たな最後のノードとについて、現在の段落の段落レベルと最後のノードの段落レベルとを比較し、比較の結果に基づいて、現在の段落の対応する段落ノードを文書タイトルツリーに追加するステップを繰り返し実行する。
本発明の実施形態は、ループ構造を用いて階層構造を有する文書タイトルツリーを構築し、構築された文書タイトルツリーは、文書段落の間の階層入れ子関係を明確に表すことができ、文書全体を構造化し、構造化されていない文書の処理及び情報マイニングが困難であるという問題を克服することができる。
1つの実施形態において、ステップS530において、比較の結果に基づいて、現在の段落の対応する段落ノードを文書タイトルツリーに追加することは、以下を含む。
現在の段落の段落レベルが最後のノードの段落レベルよりも高い場合に、最後のノードの親ノードを新たな最後のノードとし、現在の段落の段落レベルと最後のノードの段落レベルとを比較するステップ繰り返し実行する。
現在の段落の段落レベルが最後のノードの段落レベルよりも低い場合に、現在の段落の対応する段落ノードを最後のノードの子ノードとする。
本発明の実施形態は、1層ずつ逐次的な比較を通して、現在の段落に対応する段落ノードを文書タイトルツリーに挿入し、最終的にソートのある順序付けられた文書タイトルツリーとして構築し、後続の文書検査、文書検索、文書理解、および情報マイニングなどの応用のために頼りのある基礎を提供する。
本発明の実施形態において、文書タイトルツリーの階層関係を取得するために、現在の段落の文書タイトルの対応する重みを比較することにより、文書タイトルツリー内に入れるノードの位置を決定する。例として、構築過程は以下の通りになる。
1)文書ルートノードを新たに作成し、かつ、重み0を付与する。
2)文書段落の集合をトラバーサルし、入力された現在の段落の対応する重みを判定し、該重みに基づいて現在の段落の対応するノードを新たに作成する。
3)文書タイトルツリーの最後のノードと現在の段落のノードとの重みの大小を比較する。ここで、初期状態では、処理されるべき文書における1番目の段落を現在の段落とし、ルートノードを文書タイトルツリーの最後のノードとする。次の各ループでは、現在の段落と最後のノードとを改めて決定することができる。
具体的な比較方法は以下の通りとなる。
現在の段落ノードの重みが文書タイトルツリーの最後のノードの重みよりも小さい場合に、現在の段落の段落レベルは最後のノードの段落レベルよりも高くなる。即ち最後のノードの親ノードを新たな最後のノードとし、続けて最後のノードの親ノードの重みと現在の段落ノードの重みとを比較し、最後のノードの重みが現在の段落のノードの重みよりも小さくなるまで続ける。比較結果に基づいて、現在の段落のノードを文書タイトルツリーに統合する。
図6は、本発明の実施形態による文書タイトルツリーの構築方法における文書タイトルツリーを示す図である。図6に示すように、現在のタイトルツリーにおいて、「root:0」はルートノードを表し、「node1:1」はnode1ノードの重みが1であることを表し、「node3:1」はnode3ノードの重みが1であることを表し、「node2:100」はnode2ノードの重みが100であることを表し、「node4:100」は、node4ノードの重みが100であることを表す。現在結合する必要のある段落ノードnode5の重みが3だとすると、node5より前の、結合される最後の文書タイトルのノードはnode4である。即ち、まず文書タイトルツリーの最後のノードnode4とnode5との重みを比較し、node4の重み100はnode5の重み3よりも大きいため、引き続きnode4の親ノードであるnode3とnode5との重みを比較する。node3の重みはnode5の重みよりも小さいため、比較を終了する。node5をツリーに統合し、即ち、node5の親ノードはnode3を指し、node3は子ノードnode5を追加する。
4)文書段落の集合におけるすべての段落が統合されたか否かを判定し、すべての段落の統合が終了している場合、プログラムを終了し、そうでない場合、ステップ2)とステップ3)を繰り返し実行する。
図7は、本発明の実施形態による文書タイトルツリーの構築方法のフローチャート図である。図7に示すように、処理されるべきword文書を段落の集合に分割し、まず、予め定義された規則の規則マッチングの方法を用いて段落の識別を行う。ここで、規則マッチングは、タイトルフォーマット制限、タイトルデータマッチング、キーワードマッチングを含む。規則マッチングが失敗した場合に、モデル判定の方法を通して段落の識別を行う。例えば、具体的にはLTSMモデルを用いて、品詞特徴と単語ベクトル特徴とを学習することを通して段落を識別することができる。規則マッチングが成功した場合に、段落の内容を文書タイトルツリーに統合し、具体的なステップとして、ルートノードの作成、ノードタイトルレベルの比較、および親ノードの関連を含む。段落の集合がすべて統合された場合に、文書タイトルツリーの構築を完了する。以上のプロセスの具体的な方法および実現方式は前述したとおりであり、ここでは再度言及しない。
図8は、本発明の実施形態による文書タイトルツリーの構築装置を示す図である。図8に示すように、本実施形態に係る文書タイトルツリーの構築装置は、以下を含む。
予め定義された規則に基づいて、処理されるべき文書における各段落のテキスト特徴と前記予め定義された規則における段落特徴とを規則マッチングするためのマッチングユニット100。
規則マッチングが成功した場合に、規則マッチングの結果に基づいて、処理されるべき文書における各段落の段落レベルを決定するための第1決定ユニット200。
規則マッチングが失敗した場合に、機械学習モデルを用いて、処理されるべき文書における各段落の段落レベルを決定するための第2決定ユニット300。
各段落の段落レベルに基づき、処理されるべき文書の文書タイトルツリーを構築するための構築ユニット400。
1つの実施形態において、前記機械学習モデルは、長・短期記憶ネットワークモデルを含み、
前記第2決定ユニット300は、
現在の段落から単語ベクトルシーケンス特徴と品詞シーケンス特徴とを抽出することと、
単語ベクトルシーケンス特徴と品詞シーケンス特徴とを機械学習モデルに入力することと、
機械学習モデルを用いて処理されるべき文書における各段落の段落レベルを出力することと、に用いられる。
1つの実施形態において、予め定義された規則における段落特徴は、文書本文特徴を含み、
第1決定ユニット200は、
処理されるべき文書における現在の段落と文書本文特徴とのマッチングが成功した場合に、現在の段落の段落レベルを文書本文として決定すること、に用いられる。
1つの実施形態において、予め定義された規則における段落特徴は、文書タイトルのタイトル内容より前の数字符号のフォーマットを含み、
第1決定ユニット200は、
文書タイトルのタイトル内容より前に数字符号が含まれると識別した場合に、サンプル文書に基づき、各タイトルレベルからなるタイトルレベル集合を取得し、かつ、各タイトルレベルの対応する数字符号のフォーマットの正規表現を取得することと、
現在の段落におけるタイトル内容より前の数字符号のフォーマットと各タイトルレベルの対応する正規表現とをマッチングし、マッチングした結果に基づいて、現在の段落のタイトルレベルを決定することと、に用いられる。
1つの実施形態において、予め定義された規則における段落特徴は、キーワード集合を含み、キーワード集合は、ブラックリストとホワイトリストとを含み、ブラックリストは、文書タイトルに含まれるキーワードを含み、ホワイトリストは、文書タイトルに含まれないキーワードを含み、
第1決定ユニット200は、
現在の段落のテキストとキーワード集合とをマッチングすることと、
現在の段落のテキストとホワイトリストとのマッチングが成功した場合に、現在の段落の段落レベルを予め設定された、ホワイトリストに対応するタイトルレベルとして決定することと、
現在の段落のテキストとブラックリストとのマッチングが成功した場合に、現在の段落の段落レベルを文書本文として決定することと、に用いられる。
図9は、本発明の他の実施形態による文書タイトルツリーの構築装置における構築ユニットを示す図である。図9に示すように、1つの実施形態において、構築ユニット400は、以下を含む。
文書タイトルツリーのルートノードを作成し、かつ、ルートノードの対応する段落レベルを最高レベルとして割り当てるための作成サブユニット410。
処理されるべき文書における各段落の段落レベルに基づいて、各段落の対応する段落ノードを文書タイトルツリーに追加するための追加サブユニット420。
1つの実施形態において、追加サブユニット420は、
処理されるべき文書における1番目の段落を現在の段落とし、ルートノードを文書タイトルツリーの最後のノードとすることと、
現在の段落の段落レベルと最後のノードの段落レベルとを比較することと、
比較の結果に基づいて、現在の段落の対応する段落ノードを文書タイトルツリーに追加することと、
現在の段落の次の段落を新たな現在の段落とし、現在の段落の対応する段落ノードを新たな最後のノードとすることと、
新たな現在の段落と新たな最後のノードとについて、現在の段落の段落レベルと最後のノードの段落レベルとを比較し、比較の結果に基づいて、現在の段落の対応する段落ノードを文書タイトルツリーに追加するステップを繰り返し実行することと、に用いられる。
1つの実施形態において、追加サブユニット420は、
現在の段落の段落レベルが最後のノードの段落レベルよりも高い場合に、最後のノードの親ノードを新たな最後のノードとし、現在の段落の段落レベルと最後のノードの段落レベルとを比較するステップ繰り返し実行することと、
現在の段落の段落レベルが最後のノードの段落レベルよりも低い場合に、現在の段落の対応する段落ノードを最後のノードの子ノードとすることと、に用いられる。
本発明の実施形態における各装置の各モジュールの機能は、上述の方法の対応する説明を参照してもよく、ここでは繰り返し説明することを省略する。
本発明の実施形態によれば、本発明は、電子設備および可読記憶媒体をさらに提供する。
図10に示すよう、本発明の実施形態による文書タイトルツリーの構築方法を実現する電子設備のブロック図である。電子設備は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことができる。また、電子設備は携帯情報端末、携帯電話、スマートフォン、装着可能デバイス、およびその他の類似のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。ここで示した構成要素、それらの接続と関係、およびそれらの機能は例示的なものに過ぎず、本発明で説明されたものおよび/または要求される本発明の実施を制限することは意図されない。
図10に示すよう、当該電子設備は、1つ又は複数のプロセッサ1001と、メモリ1002と、高速インターフェースと低速インターフェースとを含む各構成要素を接続するためのインターフェースとを含む。各構成要素は、異なるバスを利用して互いに接続し、共通のマザーボードに取り付けられてもよいし、必要に応じて他の方法で取り付けられてもよい。プロセッサは、電子設備内で実行される命令を処理してもよく、また、外部入出力デバイス(例えば、インターフェースに接続された表示デバイス)にグラフィックユーザインターフェース(Graphical User Interface、GUI)を表示するための、メモリまたはメモリ上に記憶されたグラフィカル情報の命令を含む。他の実施形態において、必要に応じて、複数のプロセッサおよび/または複数のバスを複数のメモリおよび複数のメモリとともに使用することができる。同様に、複数の電子設備を接続してもよく、各デバイスは、部分的に必要な動作、例えば、サーバアレイ、ブレードサーバの集合、またはマルチプロセッサシステムとして、提供する。図10においてプロセッサ1001を例とする。
メモリ1002は、本発明にて提供された非一過性のコンピュータ可読記憶媒体である。メモリは、本発明で提供される文書タイトルツリーの構築方法を少なくとも1つのプロセッサに実行させるように、少なくとも1つのプロセッサによって実行されることができる命令を記憶する。本発明における非一過性のコンピュータ可読記憶媒体は、本発明で提供された文書タイトルツリーの構築方法をコンピュータに実行させるためのコンピュータ命令を記憶する。
メモリ1002は、非一過性のコンピュータ可読記憶媒体として、非一過性のソフトウェアプログラム、非一過性のコンピュータ実行可能なプログラムおよびモジュールを記憶するために使用されてもよく、本発明の実施形態における文書タイトルツリーの構築方法に対応するプログラム命令/モジュール、(例えば、図8に示される、マッチングユニット100、第1決定ユニット200、第2決定ユニット300、構築ユニット400及び図9に示される、作成サブユニット410、追加サブユニット420)である。プロセッサ1001は、メモリ1002に記憶されている非一過性のソフトウェアプログラム、命令およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理、即ち上述した方法に関する実施形態に係る文書タイトルツリーの構築方法を実行する。
メモリ1002は、オペレーティングシステムや少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラムの記憶領域と、文書タイトルツリーの構築方法に係る電子設備の使用によって生成されたデータなどを記憶することができるデータの記憶領域と、を含むことができる。さらに、メモリ1002は、高速ランダムアクセスメモリを含んでもよく、非一過性の固体記憶装置を含んでもよい。例えば、少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の非一過性の固体記憶装置を含むことができる。いくつかの実施形態において、メモリ1002はオプションとして、プロセッサ1001に対して遠隔的に設定されたメモリを含み、これらの遠隔メモリは、ネットワークを介して文書タイトルツリーの構築方法に係る電子設備に接続されてもよい。上記のネットワークの例は、インターネット、企業内ネットワーク、ローカルネットワーク、モバイル通信ネットワークおよびその組み合わせを含むが、これらに限定されない。
本発明の実施形態の文書タイトルツリーの構築方法に対応する電子設備は、入力装置1003と出力装置1004とをさらに含むことができる。プロセッサ1001、メモリ1002、入力装置1003、および出力装置1004は、バスまたは他の方法で接続されてもよく、図10ではバスを介して接続されている。
入力装置1003は、入力された数字または文字を受信し、文書タイトルツリーの構築方法に係る電子設備のユーザ設定および機能制御に関するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックボード、タッチパッド、指示棒、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどを含むことができる。出力装置1004は、表示装置、補助照明装置(例えばLED)、および触覚フィードバック装置(例えば、振動モータ)などを含むことができる。この表示装置は、液晶ディスプレイ(Liquid Crystal Display、LCD)、発光ダイオード(Light Emitting Diode、LED)ディスプレイおよびプラズマディスプレイを含むことができるがこれらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。
本発明におけるシステムおよび技術に係る様々な実施形態は、デジタル電子回路システム、集積回路システム、専用集積回路(Application Specific Integrated Circuits、ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはこれらの組み合わせによって実現されることができる。これらの様々な実施形態は、1つまたは複数のコンピュータプログラムにおいて実装されてもよく、この1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステム上で実行されてもよく、および/または解釈されてもよく、このプログラマブルプロセッサは、専用または汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置より、データと命令を受信し、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置に、データと命令を送信する。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードともいう)は、プログラマブルプロセッサのマシン命令を含み、過程指向および/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/マシン言語を用いてこれらの計算プログラムを実施することができる。本発明で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、マシン命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、編集可能論理デバイス(programmable logic device、PLD)を意味し、機械読み取り可能な信号としてのマシン命令を受信する機械可読媒体を含む。「機械読み取り可能な信号」という用語は、マシン命令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。
ユーザとのイントラクションを提供するために、本発明で説明されているシステムや技術は、コンピュータ上で実施されてもよく、また、ユーザに情報を表示するための表示装置(例えば、CRT(Cathode Ray Tube、ブラウン管)またはLCD(液晶ディスプレイ)モニタ)と、入力をコンピュータに提供するためのキーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えてもよい。他の種類の装置も、ユーザとのイントラクションを提供するために使用され得る。例えば、ユーザに提供されたフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、ユーザからの入力は、いかなる形式(音響入力、音声入力、または触覚入力を含む)で受信されてもよい。
本発明で説明されているシステムおよび技術は、バックグラウンド構成要素を含む計算システム(例えば、データサーバとして)、または中間部構成要素を含む計算システム(例えば、アプリケーションサーバ)、または、フロントエンド構成要素を含む計算システム(例えば、グラフィカルユーザインタフェースまたはネットワークブラウザを備えたユーザコンピュータであって、ユーザがこのグラフィカルユーザインタフェースまたはネットワークブラウザを介して本発明で説明されたシステムおよび技術に係る実施形態とインタラクションを行うことができるユーザコンピュータ)に実行されてもよく、または、このようなバックグラウンド構成要素、中間部構成要素、またはフロントエンド構成要素の任意の組合せを含む計算システムにおいて実行されてもよい。システムの構成要素は、任意の形態または媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されてもよい。通信ネットワークの例えとして、ローカルネットワーク(Local Area Network、LAN)、広域ネットワーク(Wide Area Network、WAN)およびインターネットを含む。
コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントとサーバは一般的に相互に離れており、通信ネットワークを介してインタラクションを行う。クライアントとサーバとの関係を持つコンピュータプログラムがそれぞれのコンピュータ上で実行されることによって、クライアントとサーバとの関係は構築される。
本発明の実施形態は、様々な構造化されていない文書のタイトルの識別と文書タイトルツリーの構築に適応し、予め定義された規則と機械学習モデルとの組み合わせに基づく方式は、比較的強いフォールトトレランスを有し、識別結果がさらに正確となる。
上記の様々な態様のフローを使用して、ステップを新たに順序付け、追加、または削除することが可能であることを理解すべきである。例えば、本発明で記載された各ステップは、並列に実行しても良いし、順次に実行しても良いし、異なる順序で実行しても良い。本発明で開示された技術案が所望する結果を実現することができる限り、本発明ではこれに限定されない。
上記具体的な実施形態は、本発明の保護範囲に対する限定を構成するものではない。当業者は、設計事項やその他の要因によって、様々な修正、組み合わせ、サブ組み合わせ、および代替が可能であることを理解するべきである。本発明の要旨および原則内における変更、均等な置換および改善等は、いずれも本発明の保護範囲に含まれるべきである。

Claims (17)

  1. 文書タイトルツリーの構築装置により実行される、文書タイトルツリーの構築方法であって、
    予め定義された規則に基づいて、処理されるべき文書における各段落のテキスト特徴と前記予め定義された規則における段落特徴とを規則マッチングすることと、
    規則マッチングが成功した場合に、前記規則マッチングの結果に基づいて、前記処理されるべき文書における各段落の段落レベルを決定することと、
    規則マッチングが失敗した場合に、機械学習モデルを用いて、前記処理されるべき文書における各段落の段落レベルを決定することと、
    前記各段落の段落レベルに基づき、前記処理されるべき文書の文書タイトルツリーを構築することと、を含み、
    前記予め定義された規則における段落特徴は、文書タイトルのタイトル内容より前の数字符号のフォーマットを含み、
    前記規則マッチングが成功した場合に、前記規則マッチングの結果に基づいて、前記処理されるべき文書における各段落の段落レベルを決定することは、
    様々なシーンにおいて使用されるサンプル文書を予め収集し、サンプル文書から、数字から始まる複数のタイトル段落を抽出し、前記複数のタイトル段落から、各種の異なる数字符号のフォーマットを取得し、前記数字符号のフォーマットの各々によって表れた異なるタイトルレベルの各々の取得によって、前記タイトルレベルの各々からなるタイトルレベル集合及び前記タイトルレベルの各々に対応する数字符号のフォーマットの正規表現を取得し、前記文書タイトルのタイトル内容より前に数字符号が含まれると識別した場合に、現在の段落におけるタイトル内容より前の数字符号のフォーマットと前記タイトルレベルの各々の対応する正規表現とをマッチングし、マッチングした結果に基づいて、現在の段落のタイトルレベルを決定すること、を含む、
    ことを特徴とする文書タイトルツリーの構築方法。
  2. 前記機械学習モデルは、長・短期記憶ネットワークモデルを含み、
    前記規則マッチングが失敗した場合に、機械学習モデルを用いて、前記処理されるべき文書における各段落の段落レベルを決定することは、
    現在の段落から単語ベクトルシーケンス特徴と品詞シーケンス特徴とを抽出することと、
    前記単語ベクトルシーケンス特徴と前記品詞シーケンス特徴とを機械学習モデルに入力することと、
    前記機械学習モデルを用いて前記処理されるべき文書における各段落の段落レベルを出力することと、を含む
    ことを特徴とする請求項1に記載の文書タイトルツリーの構築方法。
  3. 前記予め定義された規則における段落特徴は、文書本文特徴を含み、
    前記規則マッチングが成功した場合に、前記規則マッチングの結果に基づいて、前記処理されるべき文書における各段落の段落レベルを決定することは、
    前記処理されるべき文書における現在の段落と前記文書本文特徴とのマッチングが成功した場合に、前記現在の段落の段落レベルを文書本文として決定すること、を含む
    ことを特徴とする請求項1または2に記載の文書タイトルツリーの構築方法。
  4. 前記予め定義された規則における段落特徴は、キーワード集合を含み、
    前記キーワード集合は、ブラックリストとホワイトリストとを含み、
    前記ブラックリストは、文書タイトルに含まれるキーワードを含み、
    前記ホワイトリストは、文書タイトルに含まれないキーワードを含み、
    前記規則マッチングが成功した場合に、前記規則マッチングの結果に基づいて、前記処理されるべき文書における各段落の段落レベルを決定することは、
    前記現在の段落のテキストと前記キーワード集合とをマッチングすることと、
    前記現在の段落のテキストと前記ホワイトリストとのマッチングが成功した場合に、前記現在の段落の段落レベルを予め設定された、ホワイトリストに対応するタイトルレベルとして決定することと、
    前記現在の段落のテキストと前記ブラックリストとのマッチングが成功した場合に、前記現在の段落の段落レベルを文書本文として決定することと、を含む
    ことを特徴とする請求項1~のいずれか一項に記載の文書タイトルツリーの構築方法。
  5. 前記各段落の段落レベルに基づき、前記処理されるべき文書の文書タイトルツリーを構築することは、
    文書タイトルツリーのルートノードを作成し、かつ、前記ルートノードの対応する段落レベルを最高レベルとして割り当てることと、
    前記処理されるべき文書における各段落の段落レベルに基づいて、前記各段落の対応する段落ノードを前記文書タイトルツリーに追加することと、を含む
    ことを特徴とする請求項1~のいずれか一項に記載の文書タイトルツリーの構築方法。
  6. 前記処理されるべき文書における各段落の段落レベルに基づいて、前記各段落の対応する段落ノードを前記文書タイトルツリーに追加することは、
    処理されるべき文書における1番目の段落を現在の段落とし、前記ルートノードを前記文書タイトルツリーの最後のノードとすることと、
    前記現在の段落の段落レベルと前記最後のノードの段落レベルとを比較することと、
    前記比較の結果に基づいて、前記現在の段落の対応する段落ノードを前記文書タイトルツリーに追加することと、
    前記現在の段落の次の段落を新たな現在の段落とし、前記現在の段落の対応する段落ノードを新たな最後のノードとすることと、
    前記新たな現在の段落と前記新たな最後のノードとについて、前記現在の段落の段落レベルと前記最後のノードの段落レベルとを比較し、前記比較の結果に基づいて、前記現在の段落の対応する段落ノードを前記文書タイトルツリーに追加することを繰り返し実行することと、を含む
    ことを特徴とする請求項に記載の文書タイトルツリーの構築方法。
  7. 前記比較の結果に基づいて、前記現在の段落の対応する段落ノードを前記文書タイトルツリーに追加することは、
    前記現在の段落の段落レベルが前記最後のノードの段落レベルよりも高い場合に、前記最後のノードの親ノードを新たな最後のノードとし、前記現在の段落の段落レベルと前記最後のノードの段落レベルとを比較することを繰り返し実行することと、
    前記現在の段落の段落レベルが前記最後のノードの段落レベルよりも低い場合に、前記現在の段落の対応する段落ノードを前記最後のノードの子ノードとすることと、を含む
    ことを特徴とする請求項に記載の文書タイトルツリーの構築方法。
  8. 予め定義された規則に基づいて、処理されるべき文書における各段落のテキスト特徴と前記予め定義された規則における段落特徴とを規則マッチングするためのマッチングユニットと、
    規則マッチングが成功した場合に、前記規則マッチングの結果に基づいて、前記処理されるべき文書における各段落の段落レベルを決定するための第1決定ユニットと、
    規則マッチングが失敗した場合に、機械学習モデルを用いて、前記処理されるべき文書における各段落の段落レベルを決定するための第2決定ユニットと、
    前記各段落の段落レベルに基づき、前記処理されるべき文書の文書タイトルツリーを構築するための構築ユニットと、を備え
    前記予め定義された規則における段落特徴は、文書タイトルのタイトル内容より前の数字符号のフォーマットを含み、
    前記第1決定ユニットは、
    様々なシーンにおいて使用されるサンプル文書を予め収集し、サンプル文書から、数字から始まる複数のタイトル段落を抽出し、前記複数のタイトル段落から、各種の異なる数字符号のフォーマットを取得し、前記数字符号のフォーマットの各々によって表れた異なるタイトルレベルの各々の取得によって、前記タイトルレベルの各々からなるタイトルレベル集合及び前記タイトルレベルの各々に対応する数字符号のフォーマットの正規表現を取得し、前記文書タイトルのタイトル内容より前に数字符号が含まれると識別した場合に、現在の段落におけるタイトル内容より前の数字符号のフォーマットと前記タイトルレベルの各々の対応する正規表現とをマッチングし、マッチングした結果に基づいて、現在の段落のタイトルレベルを決定することに用いられる、 ことを特徴とする文書タイトルツリーの構築装置。
  9. 前記機械学習モデルは、長・短期記憶ネットワークモデルを含み、
    前記第2決定ユニットは、
    現在の段落から単語ベクトルシーケンス特徴と品詞シーケンス特徴とを抽出することと、
    前記単語ベクトルシーケンス特徴と前記品詞シーケンス特徴とを機械学習モデルに入力することと、
    前記機械学習モデルを用いて前記処理されるべき文書における各段落の段落レベルを出力することと、に用いられる
    ことを特徴とする請求項に記載の文書タイトルツリーの構築装置。
  10. 前記予め定義された規則における段落特徴は、文書本文特徴を含み、
    前記第1決定ユニットは、
    前記処理されるべき文書における現在の段落と前記文書本文特徴とのマッチングが成功した場合に、前記現在の段落の段落レベルを文書本文として決定すること、に用いられる
    ことを特徴とする請求項8又は9に記載の文書タイトルツリーの構築装置。
  11. 前記予め定義された規則における段落特徴は、キーワード集合を含み、
    前記キーワード集合は、ブラックリストとホワイトリストとを含み、
    前記ブラックリストは、文書タイトルに含まれるキーワードを含み、
    前記ホワイトリストは、文書タイトルに含まれないキーワードを含み、
    前記第1決定ユニットは、
    前記現在の段落のテキストと前記キーワード集合とをマッチングすることと、
    前記現在の段落のテキストと前記ホワイトリストとのマッチングが成功した場合に、前記現在の段落の段落レベルを予め設定された、ホワイトリストに対応するタイトルレベルとして決定することと、
    前記現在の段落のテキストと前記ブラックリストとのマッチングが成功した場合に、前記現在の段落の段落レベルを文書本文として決定することと、に用いられる
    ことを特徴とする請求項10のいずれか一項に記載の文書タイトルツリーの構築装置。
  12. 前記構築ユニットは、
    文書タイトルツリーのルートノードを作成し、かつ、前記ルートノードの対応する段落レベルを最高レベルとして割り当てるための作成サブユニットと、
    前記処理されるべき文書における各段落の段落レベルに基づいて、前記各段落の対応する段落ノードを前記文書タイトルツリーに追加するための追加サブユニットと、を備える
    ことを特徴とする請求項11のいずれか一項に記載の文書タイトルツリーの構築装
    置。
  13. 前記追加サブユニットは、
    処理されるべき文書における1番目の段落を現在の段落とし、前記ルートノードを前記文書タイトルツリーの最後のノードとすることと、
    前記現在の段落の段落レベルと前記最後のノードの段落レベルとを比較することと、
    前記比較の結果に基づいて、前記現在の段落の対応する段落ノードを前記文書タイトルツリーに追加することと、
    前記現在の段落の次の段落を新たな現在の段落とし、前記現在の段落の対応する段落ノードを新たな最後のノードとすることと、
    前記新たな現在の段落と前記新たな最後のノードとについて、前記現在の段落の段落レベルと前記最後のノードの段落レベルとを比較し、前記比較の結果に基づいて、前記現在の段落の対応する段落ノードを前記文書タイトルツリーに追加することを繰り返し実行することと、に用いられる
    ことを特徴とする請求項12に記載の文書タイトルツリーの構築装置。
  14. 前記追加サブユニットは、
    前記現在の段落の段落レベルが前記最後のノードの段落レベルよりも高い場合に、前記最後のノードの親ノードを新たな最後のノードとし、前記現在の段落の段落レベルと前記最後のノードの段落レベルとを比較することを繰り返し実行することと、
    前記現在の段落の段落レベルが前記最後のノードの段落レベルよりも低い場合に、前記現在の段落の対応する段落ノードを前記最後のノードの子ノードとすることと、に用いられる
    ことを特徴とする請求項13に記載の文書タイトルツリーの構築装置。
  15. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されるメモリと、を備え、
    前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、
    前記命令は、前記少なくとも1つのプロセッサにより実行されると、請求項1~のいずれか一項に記載の文書タイトルツリーの構築方法を実行させることを特徴とする電子設備。
  16. 請求項1~のいずれか一項に記載の文書タイトルツリーの構築方法をコンピュータに実行させるためのコンピュータ命令を記憶した非一過性のコンピュータ可読記憶媒体。
  17. コンピュータにおいて、プロセッサにより実行されると、請求項1~のいずれか一項に記載の文書タイトルツリーの構築方法を実現することを特徴とするプログラム。
JP2021049630A 2020-03-31 2021-03-24 文書タイトルツリーの構築方法、装置、電子設備、記憶媒体、及びプログラム Active JP7169389B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010247461.4A CN111460083B (zh) 2020-03-31 2020-03-31 文档标题树的构建方法、装置、电子设备及存储介质
CN202010247461.4 2020-03-31

Publications (2)

Publication Number Publication Date
JP2021108153A JP2021108153A (ja) 2021-07-29
JP7169389B2 true JP7169389B2 (ja) 2022-11-10

Family

ID=71681599

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021049630A Active JP7169389B2 (ja) 2020-03-31 2021-03-24 文書タイトルツリーの構築方法、装置、電子設備、記憶媒体、及びプログラム

Country Status (5)

Country Link
US (1) US20210303772A1 (ja)
EP (1) EP3889823A1 (ja)
JP (1) JP7169389B2 (ja)
KR (1) KR102509836B1 (ja)
CN (1) CN111460083B (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984589A (zh) * 2020-08-14 2020-11-24 维沃移动通信有限公司 文档处理方法、文档处理装置和电子设备
CN112507666B (zh) * 2020-12-21 2023-07-11 北京百度网讯科技有限公司 文档转换方法、装置、电子设备及存储介质
CN113568901B (zh) * 2021-01-29 2024-04-19 腾讯科技(深圳)有限公司 一种数据处理方法、装置及存储介质
CN112818687B (zh) * 2021-03-25 2022-07-08 杭州数澜科技有限公司 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质
CN112908487B (zh) * 2021-04-19 2023-09-22 中国医学科学院医学信息研究所 一种临床指南更新内容的自动识别方法及系统
CN113361256A (zh) * 2021-06-24 2021-09-07 上海真虹信息科技有限公司 一种基于Aspose技术的Word文档快速解析方法
CN113378539B (zh) * 2021-06-29 2023-02-14 华南理工大学 一种面向标准文档编写的模板推荐方法
CN113723078A (zh) * 2021-09-07 2021-11-30 杭州叙简科技股份有限公司 一种文本逻辑信息结构化方法、装置及电子设备
CN113779235B (zh) * 2021-09-13 2024-02-02 北京市律典通科技有限公司 一种Word文档大纲识别处理方法及装置
CN113918512B (zh) * 2021-10-22 2024-08-13 国家电网公司华中分部 电网运行规则知识图谱构建系统及方法
KR102601932B1 (ko) * 2021-11-08 2023-11-14 (주)사람인 핑거프린트와 머신러닝을 활용한 기업별 문서의 데이터 추출 시스템 및 방법
CN114065745A (zh) * 2021-11-29 2022-02-18 平安资产管理有限责任公司 文档标题树的生成方法、系统、设备及可读存储介质
CN115438628B (zh) * 2022-11-08 2023-03-17 宏景科技股份有限公司 结构化文档协作管理方法、系统及文档结构
CN115983244A (zh) * 2023-02-28 2023-04-18 北京字跳网络技术有限公司 信息处理方法、装置、电子设备和存储介质
CN117763206B (zh) * 2024-02-20 2024-06-11 暗物智能科技(广州)有限公司 知识树的生成方法、装置、电子设备及存储介质
CN118313352A (zh) * 2024-03-28 2024-07-09 华院计算技术(上海)股份有限公司 文档处理方法及装置、存储介质、终端、计算机程序产品

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020024516A (ja) 2018-08-06 2020-02-13 コニカミノルタ株式会社 情報処理装置および情報処理プログラム

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5289375A (en) * 1990-01-22 1994-02-22 Sharp Kabushiki Kaisha Translation machine
JP2680540B2 (ja) * 1994-05-09 1997-11-19 株式会社東芝 文書レイアウト方法
US6298357B1 (en) * 1997-06-03 2001-10-02 Adobe Systems Incorporated Structure extraction on electronic documents
US7493253B1 (en) * 2002-07-12 2009-02-17 Language And Computing, Inc. Conceptual world representation natural language understanding system and method
JP2007164705A (ja) * 2005-12-16 2007-06-28 S Ten Nine Kyoto:Kk 電子化文書の変換方法及びプログラム
US20080221892A1 (en) * 2007-03-06 2008-09-11 Paco Xander Nathan Systems and methods for an autonomous avatar driver
US8521512B2 (en) * 2008-04-30 2013-08-27 Deep Sky Concepts, Inc Systems and methods for natural language communication with a computer
US8180629B2 (en) * 2008-07-10 2012-05-15 Trigent Softward Ltd. Automatic pattern generation in natural language processing
CN102541948A (zh) * 2010-12-23 2012-07-04 北大方正集团有限公司 用于提取文档结构的方法和装置
US9361049B2 (en) * 2011-11-01 2016-06-07 Xerox Corporation Systems and methods for appearance-intent-directed document format conversion for mobile printing
US9262404B2 (en) * 2012-01-12 2016-02-16 Accenture Global Services Limited System for generating test scenarios and test conditions and expected results
US9424233B2 (en) * 2012-07-20 2016-08-23 Veveo, Inc. Method of and system for inferring user intent in search input in a conversational interaction system
US20140156264A1 (en) * 2012-11-19 2014-06-05 University of Washington through it Center for Commercialization Open language learning for information extraction
US9880997B2 (en) * 2014-07-23 2018-01-30 Accenture Global Services Limited Inferring type classifications from natural language text
US10169453B2 (en) * 2016-03-28 2019-01-01 Microsoft Technology Licensing, Llc Automatic document summarization using search engine intelligence
CN106776495B (zh) * 2016-11-23 2020-06-09 北京信息科技大学 一种文档逻辑结构重建方法
US10783262B2 (en) * 2017-02-03 2020-09-22 Adobe Inc. Tagging documents with security policies
CN110892399B (zh) * 2017-06-16 2023-05-09 爱思唯尔有限公司 自动生成主题内容摘要的系统和方法
CN107391650B (zh) * 2017-07-14 2018-09-07 北京神州泰岳软件股份有限公司 一种文档的结构化拆分方法,装置及系统
US10783314B2 (en) * 2018-06-29 2020-09-22 Adobe Inc. Emphasizing key points in a speech file and structuring an associated transcription
CN109992761A (zh) * 2019-03-22 2019-07-09 武汉工程大学 一种基于规则的自适应文本信息提取方法及软件存储器
CN110427614B (zh) * 2019-07-16 2023-08-08 深圳追一科技有限公司 段落层级的构建方法、装置、电子设备及存储介质
CN110598191B (zh) * 2019-11-18 2020-04-07 江苏联著实业股份有限公司 一种基于神经网络的复杂pdf结构解析方法及装置
CN111274815B (zh) * 2020-01-15 2024-04-12 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
US11544456B2 (en) * 2020-03-05 2023-01-03 Adobe Inc. Interpretable label-attentive encoder-decoder parser

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020024516A (ja) 2018-08-06 2020-02-13 コニカミノルタ株式会社 情報処理装置および情報処理プログラム

Also Published As

Publication number Publication date
KR20210040862A (ko) 2021-04-14
US20210303772A1 (en) 2021-09-30
KR102509836B1 (ko) 2023-03-14
CN111460083A (zh) 2020-07-28
JP2021108153A (ja) 2021-07-29
EP3889823A1 (en) 2021-10-06
CN111460083B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
JP7169389B2 (ja) 文書タイトルツリーの構築方法、装置、電子設備、記憶媒体、及びプログラム
KR102448129B1 (ko) 엔티티 연결 방법, 장치, 기기 및 저장 매체
KR102504699B1 (ko) 엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램
CN110717327B (zh) 标题生成方法、装置、电子设备和存储介质
JP7108675B2 (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
AU2017408800B2 (en) Method and system of mining information, electronic device and readable storable medium
CN111563385B (zh) 语义处理方法、装置、电子设备和介质
CN108628834B (zh) 一种基于句法依存关系的词语表示学习方法
JP7397903B2 (ja) インテリジェント対話方法、装置、電子機器及び記憶媒体
CN103927329A (zh) 一种即时搜索方法和系统
CN111831814A (zh) 摘要生成模型的预训练方法、装置、电子设备和存储介质
JP7286737B2 (ja) テキスト誤り訂正方法、装置、電子デバイス、記憶媒体及びプログラム
CN103927330A (zh) 一种在搜索引擎中确定形近字的方法和装置
CN114444462B (zh) 模型训练方法及人机交互方法、装置
Ali et al. Genetic approach for Arabic part of speech tagging
JP7352640B2 (ja) 検索項目書き換え方法、装置、機器および記憶媒体
CN111738015B (zh) 文章情感极性分析方法、装置、电子设备及存储介质
CN107111607A (zh) 用于语言检测的系统和方法
CN111984774A (zh) 搜索方法、装置、设备以及存储介质
CN111523019A (zh) 用于输出信息的方法、装置、设备以及存储介质
CN110990569B (zh) 文本聚类方法、装置及相关设备
CN111832313A (zh) 文本中情感搭配集合的生成方法、装置、设备和介质
CN112329429A (zh) 文本相似度学习方法、装置、设备以及存储介质
CN107203512B (zh) 用于从用户的自然语言输入中提取关键元素的方法
KR102717117B1 (ko) 사용자의 의도를 반영한 코드 생성 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220518

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20220518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220524

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220729

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221028

R150 Certificate of patent or registration of utility model

Ref document number: 7169389

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150