[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP7409102B2 - 情報処理装置及び画像形成装置 - Google Patents

情報処理装置及び画像形成装置 Download PDF

Info

Publication number
JP7409102B2
JP7409102B2 JP2020005402A JP2020005402A JP7409102B2 JP 7409102 B2 JP7409102 B2 JP 7409102B2 JP 2020005402 A JP2020005402 A JP 2020005402A JP 2020005402 A JP2020005402 A JP 2020005402A JP 7409102 B2 JP7409102 B2 JP 7409102B2
Authority
JP
Japan
Prior art keywords
text
unit
group
interest
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020005402A
Other languages
English (en)
Other versions
JP2021114049A (ja
Inventor
デニス・アリオラ
ロエル・オルバネハ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Priority to JP2020005402A priority Critical patent/JP7409102B2/ja
Priority to US17/142,991 priority patent/US20210227081A1/en
Publication of JP2021114049A publication Critical patent/JP2021114049A/ja
Application granted granted Critical
Publication of JP7409102B2 publication Critical patent/JP7409102B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • H04N1/00328Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
    • H04N1/00331Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/137Hierarchical processing, e.g. outlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/171Editing, e.g. inserting or deleting by use of digital ink
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Document Processing Apparatus (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Machine Translation (AREA)
  • Processing Or Creating Images (AREA)

Description

本発明は、情報処理装置及び画像形成装置に関し、特に、原稿の画像を読み取ってテキストデータに加工する技術に関する。
情報処理装置には、原稿の画像をスキャナー等で読み取り、当該読取で得た原稿画像をOCR(Optical character recognition)でテキストに変換する技術が採用されている。例えば、下記特許文献1には、このようにテキスト変換したデータを元原稿のレイアウトに準ずるようにして出力させる技術が開示されている。また、下記特許文献2には、手書き文字を含む文字が記載された原稿を読み取って得た原稿画像をテキストに変換した後、手書き文字からテキストに変換された部分について文字パターンの修正を行う技術が開示されている。
特開2006-196976公報 特開2012-190357公報
しかしながら、上記各特許文献に記載された技術では、原稿に記載されている内容に応じて、原稿に記載されている文章の記載順序を入れ換えたテキストデータを作成することはできない。上記各特許文献に記載された技術の場合、原稿に記載されている内容に応じて文章の記載順序を入れ換えたいときは、ユーザー自身が原稿に記載されている内容を把握した上で、テキスト変換されたデータを、ワードプロセッサー等のアプリケーションを用いてユーザー自身が編集する必要がある。
本発明は係る事情に鑑みてなされたものであり、ユーザーによる操作を要さずに、原稿に記載されている内容に応じて、原稿に記載されている文章の記載順序を入れ換えたテキストデータを作成可能にすることを目的とする。
本発明の一局面に係る情報処理装置は、原稿の画像を読み取る画像読取部と、前記画像読取部による原稿の読取で得られた原稿画像をテキストデータに変換するテキスト変換部と、前記テキスト変換部によって変換されたテキストデータを、予め定められた基準を用いて、複数のテキストグループに分割する分割部と、前記分割部によって分割された前記複数のテキストグループから、前記複数のテキストグループをなすテキストデータに含まれる単語から予め定められた規則により特定された特定単語が含まれる注目テキストグループを抽出する抽出部と、前記注目テキストグループを先頭にして、前記注目テキストグループに続けて、前記複数のテキストグループのうち前記注目テキストグループ以外となる残留テキストグループを配置した加工テキストデータを作成するテキスト加工部と、を備えるものである。
本発明の一局面に係る画像形成装置は、上記本発明の一局面に係る情報処理装置と前記加工テキストデータを記録媒体に画像形成する画像形成部と、を備えたものである。
本発明によれば、ユーザーによる操作を要さずに、原稿に記載されている内容に応じて、原稿に記載されている文章の記載順序を入れ換えたテキストデータを作成することができる。
本発明に係る情報処理装置の一実施形態としての画像形成装置の構造を示す正面断面図である。 画像形成装置の主要内部構成を示す機能ブロック図である。 画像形成装置によるデータ加工処理を示すフローチャートである。 表示部に表示される操作画面の一例を示す図である。 手書き原稿の一例を示す図である。 画像形成装置において行われるデータ加工処理を示すフローチャートである。 テキスト変換部による変換処理で作成されたテキストデータの一例を示す図である。 (A)は分割されたテキストグループを示す図、(B)(C)は注目テキストグループ及び残留テキストグループが作成される様子を示す図である。 抽出処理を終えた注目テキストグループ及び残留テキストグループからなるテキストデータを示す図である。 注目テキストグループ及び残留テキストグループが合体されて鳴るテキストデータを示す図である。 データ加工処理により作成された加工テキストデータの一例を示す図である。 データ加工処理の一部をなす編集処理を示すフローチャートである。 表示部の表示画面に対する操作の一例を示す図である。 表示部の表示画面に対する操作の他の一例を示す図である。 表示部の表示画面に対する操作及びこれに応じた表示の一例を示す図である。 データ加工処理及び編集処理がされたテキストデータの一例を示す図である。
以下、本発明に係る情報処理装置及び画像形成装置を、図面を参照して説明する。図1は、本発明に係る情報処理装置の一実施形態としての画像形成装置の構造を示す正面断面図である。画像形成装置1は、例えば、コピー機能、プリンター機能、スキャナー機能、及びファクシミリ機能等の複数の機能を兼ね備えた複合機である。
画像形成装置1は、装置本体11と、装置本体11の上方に対向配置された原稿読取装置20と、原稿読取装置20と装置本体11との間に設けられた連結部30とから概略構成される。
原稿読取装置20は、画像読取部5、原稿搬送部6等を備えて構成されている。画像読取部5は、画像読取部筐体の上面開口に装着された、原稿を載置するためのコンタクトガラス161を備えている。コンタクトガラス161には、載置された原稿を読み取る原稿固定読取部(図略)と、原稿搬送部6により搬送される原稿を読み取る原稿搬送読取部(図略)とがある。画像読取部5は、さらに、コンタクトガラス161に載置された原稿を押さえる開閉自在の原稿押さえカバー162と、コンタクトガラス161の原稿固定読取部に載置された原稿、及びコンタクトガラス161の原稿搬送読取部へ搬送される原稿の各画像を読み取る読取ユニット163とを備えている。読取ユニット163は、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)等のイメージセンサーを用いて原稿の画像を光学的に読み取り、画像データを生成する。
原稿搬送部6は、原稿が載置される原稿載置台61と、画像読み取り済みの原稿が排出される原稿排出部66と、原稿搬送機構65と、を備える。原稿搬送機構65は、図略の給紙ローラー、搬送ローラー、及び用紙反転機構を備えている。原稿搬送機構65は、給紙ローラー及び搬送ローラーの駆動により、原稿載置台61に載置された原稿を1枚ずつ繰り出してコンタクトガラス161の原稿搬送読取部へ搬送して読取ユニット163による読取を可能とした後、原稿排出部66へと排出する。また、原稿搬送機構65は、用紙反転機構が原稿を表裏反転させてコンタクトガラス161の原稿搬送読取部へ再搬送することで、当該原稿の両面の画像を読取ユニット163により読取可能にしている。
さらに原稿搬送部6は、その前面側が上方に移動可能となるように画像読取部5に対して回動自在に設けられている。原稿搬送部6の前面側を上方に移動させて原稿台としてのコンタクトガラス161上面を開放することにより、コンタクトガラス161の上面に読み取り原稿をユーザーが載置できる。
原稿読取装置20の前面に操作部47が配置されている。操作部47は、画像形成装置1が実行可能な各種動作及び処理についてユーザーから画像形成動作実行指示や原稿読取動作実行指示等の指示を受け付ける。操作部47は、ユーザーへの操作案内等を表示する表示部473を備えている。
装置本体11は、画像形成部12、定着部13、給紙部14、用紙排出部15等を備えて構成されている。
画像形成装置1が原稿読取動作を行う場合、原稿搬送部6により搬送されてくる原稿、又はコンタクトガラス161に載置された原稿の画像を画像読取部5が光学的に読み取り、画像データを生成する。画像読取部5により生成された画像データはHDD92(図2)又はネットワーク接続されたコンピューター等に保存される。
画像形成装置1が画像形成動作を行う場合は、上記原稿読取動作により生成された画像データ、又はネットワーク接続されたコンピューターやスマートフォン等のユーザー端末装置から受信した画像データ、又は内蔵HDDに記憶されている画像データ等に基づいて、画像形成部12が、給紙部14から給紙される記録媒体としての記録紙Pにトナー像を形成する。画像形成部12の画像形成ユニット12M、12C、12Y、及び12Bは、感光体ドラムと、感光体ドラムへトナーを供給する現像装置と、トナーを収容するトナーカートリッジと、帯電装置と、露光装置と、1次転写ローラー126とをそれぞれ備えている。
中間転写ベルト125上に転写される各色のトナー画像は、転写タイミングを調整して中間転写ベルト125上で重ね合わされ、カラーのトナー像となる。2次転写ローラー210は、中間転写ベルト125の表面に形成されたカラーのトナー像を、中間転写ベルト125を挟んで駆動ローラー125Aとのニップ部Nにおいて、給紙部14から搬送ローラー対により搬送路190を搬送されてきた記録紙Pに転写させる。この後、定着部13が、記録紙P上のトナー像を熱圧着により記録紙Pに定着させる。定着処理の完了したカラー画像形成済みの記録紙Pは、原稿排出部151に排出される。
次に、画像形成装置1の構成を説明する。図2は画像形成装置1の主要内部構成を示す機能ブロック図である。
画像読取部5は、制御ユニット10による制御の下、光照射部及びCCDセンサー等を有する上記の読取ユニット163を備える。画像読取部5は、光照射部により原稿を照射し、その反射光をCCDセンサーで受光することにより、原稿から画像を読み取る。
画像メモリー32は、画像読取部5による読取で得られた原稿画像のデータを一時的に記憶し、画像形成部12のプリント対象となるデータを一時的に保存する領域である。
画像処理部31は、画像メモリー32から画像読取部5で読み取られた画像を読み出して画像処理する。例えば、画像処理部31は、画像読取部5により読み取られた画像が画像形成部12により画像形成された後の品質を向上させるために、シェーディング補正等の予め定められた画像処理を行う。
画像形成部12は、画像読取部5で読み取られた印刷データ、ネットワーク接続されたコンピューターから受信した印刷データ等の画像形成を行う。
操作部47は、画像形成装置1が実行可能な各種動作及び処理についてユーザーからの指示を受け付ける。操作部47は、液晶表示装置を有するタッチパネル式の表示部473を備える。表示部473の画面には、タッチパネルが配置されている。タッチパネルは、所謂抵抗膜方式や静電容量方式などのタッチパネルであって、タッチパネルに対するユーザーの指などの接触(タッチ)をその接触位置とともに検知して、その接触位置の座標を示す検知信号を制御部100に出力する。
HDD(ハードディスクドライブ)92は、画像読取部5によって読み取られた原稿画像等を記憶する大容量の記憶装置である。
制御ユニット10は、プロセッサー、RAM、ROM及び専用のハードウェア回路等から構成される。プロセッサーは、例えば、CPU、MPU、又はASIC等である。制御ユニット10は、制御部100、テキスト変換部101、分割部102、抽出部103、及びテキスト加工部104を備えている。なお、HDD92又は上記ROMにデータ加工プログラムが記憶されており、制御ユニット10は、当該データ加工プログラムに従って動作することにより、制御部100、テキスト変換部101、分割部102、抽出部103、及びテキスト加工部104として行う。なお、当該データ加工プログラムによらず、制御ユニット10が、ハード回路としての制御部100、テキスト変換部101、分割部102、抽出部103、及びテキスト加工部104を備えるようにしてもよい。
制御部100は、画像形成装置1の全体的な動作を司る。制御部100は、画像読取部5、原稿搬送部6、画像メモリー32、画像処理部31、画像形成部12、操作部47、及びHDD92等と接続され、これら各部の駆動制御を行う。また、制御部100は、後述するデータ加工処理を実行する。更に、制御部100は、表示部473の表示動作を制御する。制御部100は、データ加工処理の遂行において必要な表示画面を表示部473に表示させる制御を行う。
テキスト変換部101は、画像読取部5による原稿の読取で得られた原稿画像を、既知のOCR(Optical character recognition)の処理を行うことで、テキストデータに変換する。
分割部102は、テキスト変換部101によって変換されたテキストデータを、予め定められた基準を用いて、複数のテキストグループに分割する処理を行う。分割部102は、当該予め定められた基準として、例えば、特定の字体が用いられているテキストから、これに続いて次に出現する当該特定の字体のテキストの直前のテキストまでを1つのテキストグループとするという基準を用いる。上記特定の字体は、例えば、アルファベット大文字である。本実施形態では、上記特定の字体がアルファベット大文字である場合を例にして説明する。
分割部102は、当該予め定められた基準に基づく処理として、更に、特定の字体が用いられているテキストに続いて次に当該特定の字体のテキストが出現しても、この続いて出現した特定の字体のテキストの前に、予め定められた番号付がされている場合には、更に次に当該番号付がされていない当該特定の字体のテキストが出現するまでは、前記1つのテキストグループにするというグループ分けを行わない、という処理を行う。また、予め定められた番号付けとは、例えば、「1.」「2.」「3.」等の数字の連番付け、「A.」「B.」「C.」等のアルファベットの連番付け、等である。
また、分割部102は、上記予め定められた基準として、ピリオド「.」が出現するまでを1つのセンテンス(テキストグループ)として分割するようにしてもよい。また、分割部102は、ピリオドがなくても、テキスト(文字)間に、予め定められた大きさ以上のスペースが存在する場合は、当該スペースの前でセンテンスが終了し、ここまでを1つのテキストグループとし、当該空間の次から新たなセンテンスが開始されるとして分割するようにしてもよい。
抽出部103は、分割部102によって分割された上記複数のテキストグループから、上記複数のテキストグループをなすテキストデータに含まれる単語から予め定められた規則により特定された特定単語が含まれるテキストグループである注目テキストグループを抽出する処理を行う。抽出部103は、当該規則を、上記テキストデータに含まれる単語のうち最初に出現する単語又は最頻出の単語を特定単語とするものとして上記抽出を行う。
テキスト加工部104は、抽出部103により抽出された注目テキストグループを先頭にして、当該注目テキストグループに続けて、分割部102により分割された上記複数のテキストグループのうち注目テキストグループ以外となるテキストグループである残留テキストグループを配置した加工テキストデータを作成する。
次に、画像形成装置1によるデータ加工処理を説明する。図3は画像形成装置1によるデータ加工処理を示すフローチャートである。まずは、図3を参照して当該データ加工処理の概略を説明する。
制御部100は、ユーザーからデータ加工処理の実行指示が入力される前、すなわち、当該実行指示の入力を待機しているとき、表示部473に、図4に例を示すような操作画面D1を表示させている。この操作画面D1には、ユーザーからのデータ加工処理の実行指示を受け付けるための受付ボタンB1が表示されている。
ここで、ユーザーは、図5に例を示すような、手書きの文字を記載した手書き原稿DCを作成したものとする。ユーザーは、当該手書き原稿を画像形成装置1の画像読取部5の原稿載置台61又はコンタクトガラス161上に載置する。
この状態で、ユーザーが表示部473に表示されている操作画面D1において受付ボタンB1をタッチ操作すると、タッチパネルを介して、操作部47にデータ加工処理の実行指示が入力され、制御部100が当該データ加工処理の実行指示を受け付ける(S1)。制御部100は、当該データ加工処理の実行指示に従って、画像読取部5に載置された手書き原稿DCを読み取らせる(S2)。続いて、制御部100は、既知の技術により、画像読取部5による手書き原稿DCの読取で得られた原稿画像に基づいて、読取対象となった原稿が手書き原稿であるか否かを判定する(S3)。
制御部100は、読取対象となった原稿が手書き原稿ではないと判定した場合(S3でNO)、当該原稿読取で得られた原稿画像を画像形成部12により記録紙Pに画像を形成させる(S11)。
一方、制御部100が、読取対象となった原稿が手書き原稿であると判定した場合には(S3でYES)、テキスト変換部101、分割部102、抽出部103、及びテキスト加工部104により原稿画像に対するデータ加工処理が行われる(S4)。
上記データ加工処理により上記原稿画像に基づく加工テキストデータが作成されると、制御部100は、当該加工テキストデータを表示部473に表示させる(S5)。この表示時には、テキスト加工部104は、タッチパネルを介して、ユーザーからの編集指示を受け付け、この編集指示で指定されたテキスト群をこの編集指示で指定された字体に変換し、或いは、この編集指示で指定されたテキスト群を、当該指示により指定された位置に移動させる編集処理を行う(S6)。
上記編集処理後、制御部100は、当該編集処理後の加工テキストデータを表示部473にプレビュー表示させる(S7)。この後、制御部100は、当該編集処理後の加工テキストデータを、(i)画像形成部12により記録紙Pに画像を形成させる、或いは、(ii)HDD92に記憶させる(S8)。
次に、上記データ加工処理を構成する処理の1つである上記S4におけるデータ加工処理を説明する。図6は上記データ加工処理を示すフローチャートである。
S4におけるデータ加工処理の実行時、まず、テキスト変換部101が、当該原稿読取で得られた原稿画像をテキストデータに変換する(S41)。続いて、分割部102は、当該変換されたテキストデータを、上記予め定められた基準を用いて、複数のテキストグループに分割する(S42)。
ここで、分割部102は、上記予め定められた基準として、(i)特定の字体をアルファベット大文字とし、アルファベット大文字が用いられているテキストから、これに続いて次に出現するアルファベット大文字のテキストの直前のテキストまでを1つのテキストグループとする、(ii) 特定の字体としてのアルファベット大文字であるテキスト、又はピリオド「.」の次のテキストから、次に出現するピリオド「.」までを1つのテキストグループとする、という処理により上記分割を行う。
更に、分割部102は、特定の字体としてのアルファベット大文字が用いられているテキストに続いて次に当該特定の字体のテキストが出現しても、この続いて出現した特定の字体のテキストの前に、「1.」「2.」「3.」等の数字の連番付けがある場合には、更に次に当該番号付がされていない当該特定の字体のテキスト又はピリオド「.」が出現するまでは、1つのテキストグループにするというグループ分けを行わない。
分割部102による当該分割処理によって、テキスト変換部101による変換処理で作成されたテキストデータ(図7)は、図8(A)に示すように、テキストグループ0~5に分割される。
続いて、抽出部103は、分割部102によって分割された上記複数のテキストグループから、上記複数のテキストグループをなすテキストデータに含まれる単語から予め定められた規則により特定された特定単語が含まれる1つ又は複数のテキストグループを注目テキストグループとして抽出する処理を行う(S43)。ここでは、抽出部103は、当該規則に基づき、上記テキストデータに含まれる単語のうち最初に出現する単語を特定単語として抽出を行うものとする。
テキスト加工部104は、抽出部103による上記抽出の後、注目テキストグループを先頭に配置し、更に、分割部102により分割された上記複数のテキストグループのうち、注目テキストグループ以外のテキストグループである残留テキストグループが存在するか否かを判定する(S44)。
ここで、テキスト加工部104が、残留テキストグループが存在すると判定した場合(S44でYES)、抽出部103は、当該残留テキストグループに対して、残留テキストグループをなすテキストデータに含まれる単語の中から上記規則により特定される新たな特定単語を含む新たな注目テキストグループを更に抽出する(S43)。
そして、テキスト加工部104は、抽出部103による当該抽出の後、先に作成された先頭の注目テキストグループに続けて当該新たな注目テキストグループを配置し、当該新たな注目テキストグループとされずに残留した残留テキストグループが存在するか否かを判定する(S44)。
抽出部103及びテキスト加工部104は、残留テキストグループが存在しないか、或いは抽出部103による上記抽出ができなくなるまで(S44でNO)、S43及びS44の処理を続ける。テキスト加工部104は、残留テキストグループが存在しないか、或いは抽出部103による上記抽出ができなくなったとき(S44でNO)、この時点で配置を設定した各テキストグループを合体させる(S45)。
すなわち、新たな残留テキストグループが作成される度に、抽出部103は新たな注目テキストグループを抽出し、テキスト加工部104は加工テキストデータを作成する。
例えば、抽出部103による上記抽出の後、残留テキストグループが存在する場合、図8(B)に示すように、テキスト加工部104は、注目テキストグループG1(特定単語を「glycolysis」として抽出したテキストグループ0,2)を先頭に配置し、これに続けて、残留テキストグループZ1(テキストグループ1,3,4,5)を配置する。そして、抽出部103は、図8(C)に示すように、残留テキストグループZ1から、例えば新たな特定単語を「catabolic」として新たな注目テキストグループG2(テキストグループ1,4,3)を更に抽出する。この図8(C)では、当該抽出後に作成された新たな残留テキストグループZ2(テキストグループ5)に対しては、テキストグループが1つとなり、抽出部103による上記抽出ができなくなった例を示している。
S45の後、図9に例を示すように配置されるテキストデータT1ができるので、テキスト加工部104は、図10に例を示すように、これら各テキストグループを合体させて、図11に例を示すような加工テキストデータGTを作成する(S46)。
次に、上記データ加工処理を構成する処理の1つである、上記S6における編集処理を説明する。図12は上記編集処理を示すフローチャートである。
S6における編集処理の実行時、テキスト加工部104は、制御部100が表示部473に前記加工テキストデータを表示させているときに、タッチパネルに編集指示が入力されるのを待機する(S61でNO)。そして、テキスト加工部104は、タッチパネルに編集指示が入力されたとき(S61でYES)、当該編集指示を解析する(S62)。
テキスト加工部104は、図13に例を示すように、当該編集指示が表示画面上で、右から左へのスライド操作であった場合(S63で「右から左」)、当該スライド操作が行われた位置に表示している一行分のテキストデータT2をタイトルとして認識し、タイトルとして対応付けられている予め定められた字体、ここでは、太字(ボールド)に当該一行分のテキストデータを変換する(S64)。
また、テキスト加工部104は、図14に例を示すように、当該編集指示が表示画面上で、左から右へのスライド操作であった場合(S63で「左から右」)、当該スライド操作が行われた位置に表示している一行分のテキストデータT3を、当該スライド操作によるスライド量だけ、スライド方向に移動させた位置に配置する(S65)。なお、図14では、テキスト「Aerobic」にルビ「(oxygen)」が付され、テキスト「Anaerobic」にルビ「(no oxygen present)」が付されて、これらテキスト及びルビが一行として扱われる例を示している。
また、制御部100は、図15のPart1に例を示すように当該編集指示が表示画面上でのある地点P1での長押し操作であった場合(S63で「長押し」)、図15のPart2に例を示すように、表示部473の表示画面における地点P1に字体選択用メニューMNを表示させる(S66)。なお、図15のPart3は図15のPart2を拡大して示す図である。ユーザーが、当該字体選択用メニューMNから、所望の字体を表示している部分にタッチ操作して、当該所望の字体を選択すると(S67でYES)、テキスト加工部104は、上記長押し操作が行われた位置に表示している一行分のテキストデータT3に対して、当該選択された字体、すなわち、太字、斜め文字、又は下線付与のいずれかとする処理を行う(S68)。
更に、テキスト加工部104は、S2(図3)の原稿読取で得られた上記原稿画像が示す例えば各画素の画素値に基づいて、テキスト変換処理により生成された各テキストが何色で記載されていたかを判別する(S69)。テキスト加工部104は、当該判別した色に、各テキストの色を変換する(S610)。
この後、ユーザーが編集完了を示す指示を操作部47から入力するまで、内容確定指示の入力を待機し(S611でNO)、ユーザーにより当該内容確定指示が操作部47に入力されたときに(S611でYES)、テキスト加工部104は、編集後の加工テキストデータを確定させる(S612)。
これにより、図16に示すように、上記データ加工処理及び編集処理がされたテキストデータが完成する。図16では、テキスト「Glycolysis-TCA(Tricarboxylic Acid)」が太字とされ、テキスト「Glycolysis-occurs in cytoplasm.」のうち「Glycolysis」の部分に下線が付与され、テキスト「STAGES of CATABOLISM」が斜体とされる編集が行われて編集後のテキストデータが確定された例を示している。
なお、テキスト加工部104は、上述のS63~S68の処理に代えて、以下に示す処理を行うようにしてもよい。例えば、テキスト加工部104は、S62で解析された上記編集指示が、表示画面上での右から左又は左から右へのスライド操作であった場合、当該スライド操作が行われた位置に表示している一行分のテキストデータを、当該スライド操作によるスライド量だけ、スライド方向に移動させた位置に配置する。そして、テキスト加工部104は、当該テキストデータの移動後の配置位置に応じて、当該テキストデータを、タイトル(Title)、メイントピック(Main topic)、サブトピック(Sub topic)、又はコンテンツ(Content)のいずれかの名目として認識し、認識した名目に対応付けられている予め定められた字体に当該一行分のテキストデータを変換する。
例えば、図16に示すように、テキスト加工部104は、表示画面上での左右方向における位置Aをタイトルに対応付けられた位置とし、位置Bをメイントピックに対応付けられた位置とし、位置Cをサブトピックに対応付けられた位置とし、位置Dをコンテンツに対応付けられた位置として記憶しておき、上記テキストデータが位置A~位置Dのいずれかの位置に配置された場合に、配置された位置に対応付けられた名目を、上記テキストデータの名目として認識する。
そして、テキスト加工部104は、上記テキストデータについて、タイトルとして認識した場合は太字、メイントピックとして認識した場合は下線付与、サブトピックとして認識した場合は斜め文字、コンテンツとして認識した場合は字体変更しない、のようにして字体を変換する。これにより、図16に示すように、編集指示の対象とされた各テキストデータが配置変更されると共に字体が変更されるため、ユーザーはより簡単に編集作業を行うことができる。
このように、本実施形態によれば、原稿に記載されている内容に応じて、原稿に記載されている文章の記載順序を入れ換えたテキストデータを作成することができる。この場合、原稿に記載されている内容に応じて、原稿に記載されている文章の記載順序を入れ換えたテキストデータを作成するだけであれば、ユーザーによる操作を要さない。
更に、ユーザーは、表示部473にプレビュー表示がされているときに、上記加工指示又は編集指示を入力することで、所望の通りに、テキストデータの配置や表示形態を変更することができる。
なお、本発明は上記実施の形態の構成に限られず種々の変形が可能である。上記実施形態では、図1乃至図16を用いて上記実施形態により示した構成及び処理は、本発明の一実施形態に過ぎず、本発明を当該構成及び処理に限定する趣旨ではない。
1 画像形成装置
10 制御ユニット
100 制御部
101 テキスト変換部
102 分割部
103 抽出部
104 テキスト加工部
5 画像読取部
6 原稿搬送部
12 画像形成部
47 操作部

Claims (9)

  1. 原稿の画像を読み取る画像読取部と、
    前記画像読取部による原稿の読取で得られた原稿画像をテキストデータに変換するテキスト変換部と、
    前記テキスト変換部によって変換されたテキストデータを、予め定められた基準を用いて、複数のテキストグループに分割する分割部と、
    前記分割部によって分割された前記複数のテキストグループから、前記複数のテキストグループをなすテキストデータに含まれる単語から予め定められた規則により特定された特定単語が含まれる注目テキストグループを抽出する抽出部と、
    前記注目テキストグループを先頭にして、前記注目テキストグループに続けて、前記複数のテキストグループのうち前記注目テキストグループ以外となる残留テキストグループを配置した加工テキストデータを作成するテキスト加工部と、を備える情報処理装置。
  2. 前記抽出部は、前記残留テキストグループから、前記残留テキストグループをなすテキストデータに含まれる単語の中から前記規則により特定された新たな特定単語を含む新たな注目テキストグループを更に抽出し、
    前記テキスト加工部は、前記新たな注目テキストグループを、先に抽出された前記注目テキストグループに続けて配置し、これに続けて、前記残留テキストグループのうち前記新たな注目テキストグループ以外のテキストグループを前記残留テキストグループとして、前記新たな注目テキストグループに続けて配置して、前記加工テキストデータを作成する請求項1に記載の情報処理装置。
  3. 新たな前記残留テキストグループが作成される度に、前記抽出部は前記新たな注目テキストグループを抽出し、前記テキスト加工部は前記加工テキストデータを作成する請求項2に記載の情報処理装置。
  4. 前記分割部は、前記予め定められた基準として、特定の字体が用いられているテキストから、これに続いて次に出現する当該特定の字体のテキストの直前のテキストまでを1つのテキストグループとするという基準を用いる請求項1乃至請求項3のいずれかに記載の情報処理装置。
  5. 前記分割部は、前記予め定められた基準に基づく処理として、更に、特定の字体が用いられているテキストに続いて次に当該特定の字体のテキストが出現しても、当該続いて出現したテキストの前に、予め定められた番号付がされている場合には、更に次に当該番号付がされていない当該特定の字体のテキストが出現するまでは、前記1つのテキストグループにするというグループ分けを行わない請求項4に記載の情報処理装置。
  6. 前記抽出部は、前記規則において、前記テキストデータに含まれる単語のうち最初に出現する単語又は最頻出の単語を前記特定単語とする請求項1乃至請求項5のいずれかに記載の情報処理装置。
  7. 表示部と、
    前記表示部に前記加工テキストデータを表示させる制御部と、
    前記表示部に設けられ、ユーザーによる前記表示部の表示画面へのタッチ操作に基づいて指示が入力されるタッチパネルと、を更に備え、
    前記テキスト加工部は、前記制御部が前記表示部に前記加工テキストデータを表示させているときに、前記タッチパネルに入力される指示で指定されたテキスト群を、予め定められた字体に変換する請求項1乃至請求項6のいずれかに記載の情報処理装置。
  8. 前記テキスト加工部は、前記制御部が前記表示部に前記加工テキストデータを表示させているときに、前記タッチパネルに入力される指示で指定されたテキスト群を、当該指示により指定された位置に移動させる請求項7に記載の情報処理装置。
  9. 請求項1乃至請求項8のいずれかに記載の情報処理装置と、
    前記加工テキストデータを記録媒体に画像形成する画像形成部と、を備えた画像形成装置。
JP2020005402A 2020-01-16 2020-01-16 情報処理装置及び画像形成装置 Active JP7409102B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020005402A JP7409102B2 (ja) 2020-01-16 2020-01-16 情報処理装置及び画像形成装置
US17/142,991 US20210227081A1 (en) 2020-01-16 2021-01-06 Information processing apparatus that creates processed text data from text data, by changing order of sentences in text data, and image forming apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020005402A JP7409102B2 (ja) 2020-01-16 2020-01-16 情報処理装置及び画像形成装置

Publications (2)

Publication Number Publication Date
JP2021114049A JP2021114049A (ja) 2021-08-05
JP7409102B2 true JP7409102B2 (ja) 2024-01-09

Family

ID=76856378

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020005402A Active JP7409102B2 (ja) 2020-01-16 2020-01-16 情報処理装置及び画像形成装置

Country Status (2)

Country Link
US (1) US20210227081A1 (ja)
JP (1) JP7409102B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005043990A (ja) 2003-07-23 2005-02-17 Toshiba Corp 文書処理装置および文書処理方法
JP2009251872A (ja) 2008-04-04 2009-10-29 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2014052744A (ja) 2012-09-05 2014-03-20 Konica Minolta Inc 文書表示装置、文書表示端末および文書表示プログラム
JP2016099793A (ja) 2014-11-20 2016-05-30 シャープ株式会社 文書画像処理装置、それを備えた情報処理装置、プログラム、及び記録媒体
US20170220859A1 (en) 2016-01-29 2017-08-03 Konica Minolta Laboratory U.S.A., Inc. Bulleted lists
US20170228369A1 (en) 2016-02-09 2017-08-10 Yandex Europe Ag Method of and system for processing a text

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09160914A (ja) * 1995-12-08 1997-06-20 Matsushita Electric Ind Co Ltd ペン入力装置
JP3940491B2 (ja) * 1998-02-27 2007-07-04 株式会社東芝 文書処理装置および文書処理方法
JP3918374B2 (ja) * 1999-09-10 2007-05-23 富士ゼロックス株式会社 文書検索装置および方法
GB2399427A (en) * 2003-03-12 2004-09-15 Canon Kk Apparatus for and method of summarising text
US11675966B2 (en) * 2019-05-15 2023-06-13 Fortia Financial Solutions Table of contents generation
US11321559B2 (en) * 2019-10-17 2022-05-03 Adobe Inc. Document structure identification using post-processing error correction
KR102710905B1 (ko) * 2021-01-07 2024-09-27 주식회사 케이티 문서를 요약하는 장치, 방법 및 컴퓨터 프로그램

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005043990A (ja) 2003-07-23 2005-02-17 Toshiba Corp 文書処理装置および文書処理方法
JP2009251872A (ja) 2008-04-04 2009-10-29 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2014052744A (ja) 2012-09-05 2014-03-20 Konica Minolta Inc 文書表示装置、文書表示端末および文書表示プログラム
JP2016099793A (ja) 2014-11-20 2016-05-30 シャープ株式会社 文書画像処理装置、それを備えた情報処理装置、プログラム、及び記録媒体
US20170220859A1 (en) 2016-01-29 2017-08-03 Konica Minolta Laboratory U.S.A., Inc. Bulleted lists
US20170228369A1 (en) 2016-02-09 2017-08-10 Yandex Europe Ag Method of and system for processing a text

Also Published As

Publication number Publication date
JP2021114049A (ja) 2021-08-05
US20210227081A1 (en) 2021-07-22

Similar Documents

Publication Publication Date Title
US20100138757A1 (en) Display control apparatus, image forming apparatus, and computer-readable recording medium storing display control program
JP6638830B2 (ja) 原稿読取装置
JP5269008B2 (ja) 表示入力装置及びこれを備えた画像形成装置
JP6141221B2 (ja) 数値入力装置及び電子機器
US11941903B2 (en) Image processing apparatus, image processing method, and non-transitory storage medium
JP5936051B2 (ja) 文書処理装置及びプログラム
US20170308507A1 (en) Image processing apparatus
JP7409102B2 (ja) 情報処理装置及び画像形成装置
JP6593303B2 (ja) 問題作成装置、問題作成方法、及び画像形成装置
JP6816828B2 (ja) 画像処理装置
US9167110B2 (en) Input device capable of converting character style of input character, image forming apparatus having the input device, and electronic apparatus having the input device
JP5593300B2 (ja) 文字入力装置及び文字入力プログラム
JP2018077794A (ja) 画像処理装置、及び画像形成装置
JP2021128367A (ja) 画像形成装置
JP6002646B2 (ja) 文字入力装置、文字入力プログラム及び画像形成装置
JP2019197321A (ja) 画像処理装置及び画像形成装置
JP2013030916A (ja) 画像処理装置及びこれを備えた画像形成装置
JP6477577B2 (ja) 画像処理装置
US11223727B2 (en) Image reading apparatus and information processing apparatus that reads documents and generates image data
US9323477B2 (en) Operating device and image formation device
JP6399000B2 (ja) 画像処理装置、及び画像作成プログラム
JP6504104B2 (ja) 画像処理装置
JP6705430B2 (ja) 画像形成装置
JP5889845B2 (ja) 検索インターフェイス装置及び電子機器
JP5879286B2 (ja) 検索システム利用装置

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20221005

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231204

R150 Certificate of patent or registration of utility model

Ref document number: 7409102

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150