[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5963328B2 - 生成装置、生成方法、およびプログラム - Google Patents

生成装置、生成方法、およびプログラム Download PDF

Info

Publication number
JP5963328B2
JP5963328B2 JP2014221051A JP2014221051A JP5963328B2 JP 5963328 B2 JP5963328 B2 JP 5963328B2 JP 2014221051 A JP2014221051 A JP 2014221051A JP 2014221051 A JP2014221051 A JP 2014221051A JP 5963328 B2 JP5963328 B2 JP 5963328B2
Authority
JP
Japan
Prior art keywords
target
keyword
template
unit
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014221051A
Other languages
English (en)
Other versions
JP2016091078A (ja
Inventor
豊島 浩文
浩文 豊島
笑子 竹内
笑子 竹内
大介 宅間
大介 宅間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2014221051A priority Critical patent/JP5963328B2/ja
Priority to US14/868,442 priority patent/US10289674B2/en
Publication of JP2016091078A publication Critical patent/JP2016091078A/ja
Application granted granted Critical
Publication of JP5963328B2 publication Critical patent/JP5963328B2/ja
Priority to US15/341,147 priority patent/US10296579B2/en
Priority to US16/371,297 priority patent/US20190228064A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、生成装置、生成方法、およびプログラムに関する。
従来、グラフや表形式等の統計情報に基づくレポートは、当該統計情報からレポートすべき特徴等を人間(レポータ)が抽出し、当該レポータの判断によってレポートの文章が作成される。このようなレポートを作成すべく、統計情報から、予め定められた情報を抽出すること、および予め定められた構造等に変換することが試みられていた(例えば、特許文献1〜8、非特許文献1および2参照)。
特許文献1 特開2007−305107号公報
特許文献2 特開2012−79161号公報
特許文献3 特開2010−128779号公報
特許文献4 特開2007−249458号公報
特許文献5 特開2009−37605号公報
特許文献6 特開2012−78647号公報
特許文献7 特開2006−244298号公報
特許文献8 特開2002−297651号公報
非特許文献1 M. Paige Borden、Maureen Murray、Ali Yorkos著、「Developing a Dashboard to Aid in Effective Project Management」、SAS Global Forum 2008、BI Forum - BI User Application、Paper 052-2008
非特許文献2 Charu C. Aggarwal、ChengXhai Zhai著、「Mining Text Data」、Springer、p. 43-76、2012年
しかしながら、統計情報から予め定められた情報を抽出し、また、予め定められた構造等に変換したとしても、レポートの文章を作成するには、専門的な知識等を有するレポータの判断が必要であり、自動的に文章を作成することは困難であった。また、統計情報が新製品等のデータベース等には存在しない新しい単語を有する場合、当該新しい単語に対するレポートの作成が望まれることが多いが、新しい単語の情報がないので、自動的にレポートを作成することはより困難なものとなっていた。
本発明の第1の態様においては、対象データを表現する対象テキストを生成する生成装置であって、複数のテキストのそれぞれをキーワードおよびテンプレートに分解する分解処理部と、キーワードのカテゴリに基づいてテンプレートを選択する選択モデルを学習する学習処理部と、対象データを表現する対象キーワードを特定する特定部と、選択モデルを用いて、対象キーワードのカテゴリに基づいて、対象データの表現に用いる対象テンプレートを選択する選択部と、対象テンプレートおよび対象キーワードに基づいて対象データを表現する対象テキストを生成する生成部と、を備える生成装置、生成方法、およびプログラムを提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
本実施形態に係る生成装置100の構成例を示す。 本実施形態に係る生成装置100の動作フローを示す。 本実施形態に係るテキスト取得部110が取得する事象の統計量の一例を示す。 本実施形態に係る学習処理部130が生成する複数の目的変数および説明変数の一例を示す。 本実施形態に係る生成装置100の変形例を示す。 コンピュータ1900のハードウェア構成の一例を示す。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、本実施形態に係る生成装置100の構成例を示す。生成装置100は、外部から取得したグラフおよび表形式等の統計情報である対象データに基づいて、当該対象データの特徴等を表現する文章を自動的に作成する。なお、本実施形態において、対象データを表現する文章を、対象テキストとする。生成装置100は、テキスト取得部110と、分解処理部120と、学習処理部130と、記憶部140と、対象データ取得部210と、特定部220と、選択部230と、生成部240と、を備える。
テキスト取得部110は、複数のテキストを取得する。ここで、複数のテキストは、過去にレポートされた統計情報の特徴等を表現した文章である。複数のテキストは、専門家および/または熟練者等が作成した、製品別の問い合わせおよび苦情件数のグラフを評価および説明した文章、月毎の製品受注および販売の状況を示すグラフを説明した文章、各地の気象データの分布から現在および/または今後の気象情報を説明した文章、並びに、株価および為替相場等の時間に対する変動のグラフを説明および今後を予測した文章等でよい。テキスト取得部110は、例えば、「お客様は、プリンタA01のインクの品番が分からない」、および「3ヶ月前に比べてスキャナB02の受注が向上した」等のテキストを取得する。
テキスト取得部110は、経営分析ツールおよびマーケティングツール等を用いてユーザが作成した複数のテキストを取得してよい。テキスト取得部110は、例えば、外部のデータベース等の記憶装置に接続され、複数のテキストを取得する。また、テキスト取得部110は、ユーザから入力される複数のテキストを取得してもよい。テキスト取得部110は、生成装置100と一体となって動作してよい。これに代えて、テキスト取得部110は、生成装置100本体と分離されて動作してよく、この場合、生成装置100本体とはネットワーク等を介して接続されてよい。
分解処理部120は、複数のテキストのそれぞれをキーワードおよびテンプレートに分解する。分解処理部120は、複数のテキストのそれぞれをキーワードの組およびテンプレートに分解してよい。分解処理部120は、テキスト取得部110に接続され、予め記憶された複数のキーワードの一覧等に基づき、取得したテキストから1または複数のキーワードを抽出してよい。また、分解処理部120は、複数のキーワードの一覧等に基づき、抽出したキーワード毎に対応するカテゴリを取得する。
また、分解処理部120は、予め記憶された複数のテンプレートの一覧等に基づき、取得したテキストからテンプレートを抽出してよい。ここで、分解処理部120は、テキストから抽出したキーワードの位置に、当該キーワードに対応するカテゴリを当てはめた文章をテンプレートとしてよい。
分解処理部120は、言語処理を用いて、テキストを1または複数のキーワードおよびテンプレートに分解してもよい。また、分解処理部120は、キーワードの一覧等に存在しないキーワード、およびテンプレートの一覧等に存在しないテンプレートを、言語処理等によって分解してもよい。この場合、分解処理部120は、分解したキーワードおよび/またはテンプレートを対応する一覧に加えてよい。
学習処理部130は、キーワードのカテゴリに基づいてテンプレートを選択する選択モデルを学習する。学習処理部130は、分解処理部120に接続され、複数のテキストからそれぞれ分解された複数のキーワードおよび複数のテンプレートを取得する。学習処理部130は、一のテキストに含まれるキーワードに対応するカテゴリに応じて、当該一のテキストから分解されたテンプレートが選択されるように選択モデルを学習する。学習処理部130は、キーワードのカテゴリおよびキーワードに対応する事象の統計量に基づいて、テンプレートを選択する選択モデルを学習してよい。
また、学習処理部130は、分解処理部120がテキストをキーワードの組およびテンプレートに分解した場合、当該キーワードの組に対応するカテゴリの組および当該キーワードの組に対応する事象の統計量に基づいて、テンプレートを選択する選択モデルを学習する。学習処理部130の学習については後述する。
記憶部140は、学習処理部130に接続され、学習処理部130が学習した選択モデルを受けとって記憶する。また、記憶部140は、学習処理部130が学習する過程における中間データおよび算出結果等をそれぞれ記憶してもよい。また、記憶部140は、生成装置100内の各部の要求に応じて、記憶したデータを要求元に供給してよい。記憶部140は、キーワード記憶部142と、テンプレート記憶部144とを有してよい。記憶部140は、生成装置100本体に設けられてよく、これに代えて、ネットワークに接続されたデータベース等であってもよい。
キーワード記憶部142は、複数のカテゴリのそれぞれに対応して、当該カテゴリに属するキーワードを記憶する。キーワード記憶部142は、予め定められたキーワードを記憶してよく、分解処理部120に接続され、分解処理部120が分解したキーワードを記憶してもよい。キーワード記憶部142は、分解処理部120が参照するキーワードの一覧であってよい。キーワード記憶部142は、複数のキーワードを対応するカテゴリと共に記憶するキーワード辞書および/またはカテゴリ辞書でよい。
テンプレート記憶部144は、複数のテキストを分解して得られたテンプレートを記憶する。テンプレート記憶部144は、予め定められたテンプレートを記憶してよく、分解処理部120に接続され、分解処理部120が分解したテンプレートを記憶してもよい。テンプレート記憶部144は、分解処理部120が参照するテンプレートの一覧であってよい。テンプレート記憶部144は、複数のテンプレートを記憶するテンプレート辞書でよい。
対象データ取得部210は、対象データを取得する。ここで、対象データは、グラフおよび表形式等の統計情報である。また、統計情報は、1または複数のキーワード等を有し、当該キーワードには、対象データを表現する対象キーワードが含まれる。即ち、統計情報は、対象キーワードの候補となるキーワードを有する。また、対象データ取得部210は、キーワードに対応する事象の統計量を取得してもよい。即ち、対象データ取得部210は、対象データにおける対象キーワードに対応する事象の統計量である対象統計量を取得してよい。
対象データ取得部210は、経営分析ツールおよびマーケティングツール等に接続され、当該ツール等が出力するレポートを作成すべき統計情報を取得してよい。また、対象データ取得部210は、外部のデータベース等の記憶装置に接続され、統計情報を取得してもよい。また、対象データ取得部210は、ユーザから入力される統計情報を取得してもよい。
特定部220は、対象データを表現する対象キーワードを特定する。特定部220は、対象データ取得部210に接続され、統計情報が有するキーワードを対象キーワードとする。特定部220は、統計情報が複数のキーワードを有する場合、対象キーワードの組を特定してよい。この場合、特定部220は、対象キーワードとするべきキーワードの複数の組み合わせを特定してもよい。
選択部230は、記憶部140および特定部220に接続され、学習処理部130が学習した選択モデルを用い、特定部220が特定した対象キーワードのカテゴリに基づいて、対象データの表現に用いる対象テンプレートを選択する。選択部230は、対象キーワードのカテゴリおよび対象統計量に基づいて対象テンプレートを選択してよい。また、選択部230は、特定部220が対象キーワードの組を特定した場合、対象キーワードの組に対応するカテゴリの組および対象統計量に基づいて当該カテゴリの組を有する対象テンプレートを選択してよい。
生成部240は、選択部230に接続され、対象テンプレートおよび対象キーワードに基づいて対象データを表現する対象テキストを生成する。生成部240は、一例として、対象テンプレートが有するカテゴリに対応する対象キーワードを当該対象テンプレートに当てはめ、対象テキストを生成する。また、生成部240は、特定部220が対象キーワードの組を特定した場合、対象キーワードの組および対象テンプレートに基づいて、対象テキストを生成する。生成部240は、一例として、対象テンプレートが有するカテゴリの組に、それぞれ対応する対象キーワードをそれぞれ当てはめて対象テキストを生成する。
以上の本実施形態の生成装置100は、統計情報等に基づいて作成された複数のテキストを取得し、それぞれのテキストが有するキーワードに基づき、当該テキストが作成されるように、選択モデルを学習する。そして、生成装置100は、対象データが有するキーワードに基づき、学習した選択モデルを用いて、対象データを表現する対象テキストを生成する。生成装置100の動作について、図2を用いて説明する。
図2は、本実施形態に係る生成装置100の動作フローを示す。本実施形態において、生成装置100は、S310からS380の処理を実行することにより、選択モデルを学習して、対象データを表現する対象テキストを生成する。本実施形態において、生成装置100が製品別の問い合わせ件数の統計情報を表現したテキストを生成する例を説明する。
まず、テキスト取得部110は、複数のテキストを取得する(S310)。テキスト取得部110は、例えば、第1テキストとして「Do not know the part # of the ink for printer A01」(プリンタA01のインクの品番が分からない)、第2テキストとして「LED bulb L2 went out in a month」(電球L2が1ヶ月で切れる)、および第3テキストとして「The calls for cancellation are increasing」(解約方法の問い合わせが増えている)等の過去に作成されたテキストを取得する。
次に、分解処理部120は、複数のテキストのそれぞれをキーワードおよびテンプレートに分解する(S320)。分解処理部120は、例えば、キーワード記憶部142にカテゴリ毎に記憶されたキーワード辞書を用いて、取得したテキストからキーワードを抽出する。
ここで、キーワード記憶部142は、一例として、「Product」(商品)カテゴリに「printer A01」および「LED bulb L2」等のキーワードを、「Contract」(契約)カテゴリに「cancellation」等のキーワードを、「Question for a component」(部品...不明)カテゴリに「do not know ... ink」等のキーワードを、「Duration of service」(使用期間)カテゴリに「in a month」等のキーワードを、「Problem」(不具合)カテゴリに「went out」等のキーワードを、それぞれ記憶する。なお、Productカテゴリを第1カテゴリ、Contractカテゴリを第2カテゴリ、Question for a componentカテゴリを第3カテゴリ、Duration of serviceカテゴリを第4カテゴリ、Problemカテゴリを第5カテゴリとする。
この場合、分解処理部120は、第1テキストから「printer A01」および「do not know ... ink」を、キーワードとして抽出する。同様に、分解処理部120は、第2テキストから「LED bulb L2」、「went out」、および「in a month」を、第3テキストから「cancellation」を、それぞれキーワードとして抽出する。
このように、分解処理部120は、複数のテキストのそれぞれからキーワード記憶部142に記憶されたキーワードを検出する。そして、分解処理部120は、それぞれのテキストにおけるキーワード部分以外に基づきテンプレートを決定する。例えば、分解処理部120は、それぞれのテキストから抽出したキーワードの位置に、当該キーワードに対応するカテゴリを当てはめたテキストをテンプレートとする。即ち、分解処理部120は、それぞれのテキストにおいて、キーワード辞書に含まれるキーワードをサーチする。そして、キーワードがヒットした場合には、テキストにおける当該キーワードの部分を対応するカテゴリに置換する。
分解処理部120は、一例として、第1テキストに基づき、「[Y] the part # of the [Y] for [X]」([X]はProductカテゴリ、[Y]はQuestion for a componentカテゴリ)を第1テンプレートとする。分解処理部120は、同様に、第2および第3テキストに基づき、「[X] [Z] [Y]」([X]はProductカテゴリ、[Y]はDuration of serviceカテゴリ、[Y]はProblemカテゴリ)を、「The calls for [X] are increasing」([X]はProductカテゴリ)を、それぞれ第2および第3テンプレートとする。
このようにして、分解処理部120は、取得した複数のテキストをキーワードとテンプレートにそれぞれ分解する。なお、分解処理部120は、分解したテンプレートをテンプレート記憶部144に記憶させてよい。
以上の説明において、分解処理部120は、テキスト中のキーワードを対応するカテゴリに置き換えることで、テンプレートに分解することを説明した。これに代えて、分解処理部120は、テンプレート記憶部144に記憶されたテンプレート辞書を用いて、取得したテキストからテンプレートに分解してもよい。
テンプレート記憶部144は、例えば、「[Y] the part # of the [Y] for [X]」、「[X] [Z] [Y]」、および「The calls for [X] are increasing」等をテンプレート辞書に記憶する。分解処理部120は、抽出したキーワードをテキストから除去した残りのテキストと、テンプレート記憶部144に記憶されたテンプレートとをマッチングさせて得られるテンプレートを、当該テキストのテンプレートとして分解してよい。
これに代えて、分解処理部120は、キーワードおよびテンプレートの分解処理を、既知の言語処理等で実行してもよい。例えば、分解処理部120は、自然言語処理により、形態素解析を実行して単語の区切りを認識し、構文解析を実行してテキストの構造を認識する。その上で、分解処理部120は、名詞等の予め定められた品詞を辞書で検索し、ヒットした場合は対応するカテゴリに置き換える。この場合、分解処理部120は、分解したキーワード、キーワードに対応するカテゴリ、および/またはテンプレートの情報を、対応するキーワード記憶部142またはテンプレート記憶部144に記憶してよい。
次に、学習処理部130は、キーワードのカテゴリに基づいてテンプレートを選択する選択モデルを学習する(S330)。学習処理部130は、一のテキストに含まれる1または複数のキーワードに対応する1または複数のカテゴリに応じて、当該一のテキストから分解されたテンプレートが選択されるように選択モデルを学習する。
また、学習処理部130は、1または複数のキーワードに対応する事象の統計量に基づいて、テンプレートを選択する選択モデルを学習してよい。この場合、テキスト取得部110は、複数のテキストに加えて、作成された複数のテキストの根拠となる統計情報である、1または複数のキーワードに対応する事象の統計量を取得する。
図3は、本実施形態に係るテキスト取得部110が取得する事象の統計量の一例を示す。図3は、一例として、横軸方向にQuestion for a componentカテゴリのキーワード「Where is ... power button」(...の電源ボタンの位置が不明)、「Do not know ... ink」、および「How to charge ... battery」(...のバッテリの充電方法)等を示す。また、図3は、一例として、縦軸方向にProductカテゴリのキーワード「Printer A01」、「Printer A02」、および「Note PC P01」等を示す。
また、図3に示すそれぞれの数字は、共起数を示し、括弧内の数字は相関値を示す。図3は、例えば、製品別の問い合わせにおいて、キーワード「Printer A01」および「Do not know ... ink」が共起された回数が35回、相関値が20であることを示す。また、例えば、製品別の問い合わせにおいて、キーワード「Note PC P01」および「How to charge ... battery」が共起された回数が128回、相関値が2.3であることを示す。
ここで、「共起する」とは、当該キーワード(「Printer A01」および「Where is ... power button」)が1つの問い合わせ、評価、および現象の説明等を表現するテキスト内に共に出現することを意味する。学習処理部130は、このような共起数を用いることにより、テキストの中で出現しやすいキーワードの組み合わせをテンプレートに対応させて学習することができる。また、相関値は、製品毎の問い合わせの件数に対して、当該キーワードが共起された件数の率を示す。学習処理部130は、このような相関値を用いることにより、テキストの中で相関の高いキーワードの組み合わせをテンプレートに対応させて学習することができる。
ここで、キーワード「Printer A01」および「Do not know ... ink」は、共起数および相関値が、他と比べて共に高い値を示すことがわかる。したがって、学習処理部130は、当該キーワードに対応するカテゴリを含むテンプレートにおいて、当該キーワードがより出現しやすいキーワードとして学習することができる。
その一方で、キーワード「Note PC P01」および「How to charge ... battery」は、他と比べて共起数が高いものの、相関値はそれほど高くないことが分かる。即ち、「Note PC P01」の問い合わせにおいて、「How to charge ... battery」が出現した数は128ではあるが、他の問い合わせは128に比べてより大きい数であることがわかる。したがって、学習処理部130は、共起数および相関を用いることで、キーワードがより出現しやすいキーワードか否かをより正確に学習することができる。
また、テキスト取得部110は、キーワードの出現数の増加または減少(時系列の変化)等を示す統計量を更に取得してもよい。これにより、学習処理部130は、当該キーワードに対応する事象が実際に増加しているか否かを学習することができる。
このように、テキスト取得部110は、キーワードの組の共起数、キーワード同士の相関、およびキーワードに対応する事象の増加または減少等を示す統計量を取得する。そして、学習処理部130は、当該統計量に基づき、目的変数および説明変数を生成し、説明変数に対して対応する目的変数が得られるような選択モデルを学習する。ここで、説明変数は、キーワードの組み合わせに応じて生成され、目的変数は対応するテンプレートに応じて生成されてよい。
学習処理部130は、例えば、テンプレートが有するカテゴリの最大値nと、カテゴリの種類kと、用いる統計量の種類mと、に応じて、説明変数の次元をn×k+mとする。本実施例において、学習処理部130が、n=3、k=5、およびm=3に応じて、次元数18の説明変数を生成する例を説明する。
学習処理部130は、一例として、要素数18の列ベクトルを説明変数として用いる。この場合、学習処理部130は、1番目から5番目の要素を、第1カテゴリから第5カテゴリにそれぞれ対応させ、テンプレートの[X]に位置するカテゴリに応じて1または0としてよい。例えば、学習処理部130は、[X]に位置するカテゴリが第1カテゴリの場合、1番目から5番目の要素を[1,0,0,0,0]とする。
同様に、学習処理部130は、6番目から10番目の要素をテンプレートの[Y]に位置するカテゴリに対応させ、11番目から15番目の要素をテンプレートの[Z]に位置するカテゴリに対応させる。例えば、学習処理部130は、[Y]に位置するカテゴリが第3カテゴリの場合、6番目から10番目の要素を[0,0,1,0,0]とし、[Z]に位置するカテゴリがない場合、11番目から15番目の要素を全て0とする。
また、学習処理部130は、例えば、16番目の要素を共起数の値とし、17番目の要素を相関の値とし、18番目の要素を事象の時系列の変化の値とする。学習処理部130は、一例として、キーワード「Printer A01」および「Do not know ... ink」に対して、説明関数の16番目から18番目の要素の値を、[35,20,2.3]としてよい。
学習処理部130は、一例として、第1テキストから分解されたキーワードおよび第1テンプレートに基づき、第1テンプレートの[X]に配置されるべきカテゴリが「printer A01」に対応する第1カテゴリであり、[Y]に配置されるべきカテゴリが「do not know ... ink」に対応する第3カテゴリであり、[Z]に配置されるべきカテゴリがないとする。また、学習処理部130は、第1テキストから分解されたキーワード「printer A01」および「do not know ... ink」に対応する統計量(共起数、相関、時系列の変化)の値として、順に35,20,2.3を取得する。これによって、学習処理部130は、第1テキストに応じた第1説明関数の1番目から18番目の要素を、順に、[1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,35,20,2.3]とする。
そして、学習処理部130は、第1説明関数に対応して、第1テンプレートを示す第1目的関数を生成する。学習処理部130は、例えば、テンプレートの数以上の要素を持つ列ベクトルを目的関数とする。学習処理部130は、一例として、要素数18の列ベクトルを目的変数として用いる。この場合、学習処理部130は、1番目から18番目の要素を、第1テンプレートから第18テンプレートにそれぞれ対応させ、テンプレートに応じて1または0としてよい。例えば、学習処理部130は、第1テンプレートを示す目的変数の場合、1番目の要素を1とし、他の要素を0とした列ベクトルを第1目的変数として生成する。
このようにして、学習処理部130は、第1テキストから分解されたキーワードおよび第1テンプレートに応じて、第1説明変数および第1目的変数を生成することができる。学習処理部130は、同様にして、複数のテキストの分解結果に応じて、複数の対応する説明変数および目的変数の組を生成する。
図4は、本実施形態に係る学習処理部130が生成する複数の目的変数および説明変数の一例を示す。図4は、説明変数と対応する目的変数の組を横軸方向(行方向)に配列した例を示す。
図4は、目的変数の列に、当該目的変数に対応するテンプレートおよびテキストを示す。例えば、第1行には、第1テンプレートおよび第1テキストを示す。なお、テキストは、括弧内に表示し、分解されるキーワードを当該テキストに加えたアンダーラインで示す。学習処理部130は、このような第Nテンプレートを示すべく、上記の例で説明したように、例えば、N番目の要素を1とし、他の要素を0とした第N目的変数を生成する。
また、図4は、説明変数として、テンプレートの位置[X]、[Y]、および[Z]に配置されるカテゴリと、統計量(共起数、相関、事象の時系列の変化)の3つの値を配列した例を示す。学習処理部130は、上記の例で説明したように、例えば、カテゴリXが第1カテゴリ(Product)であることに応じて、説明変数の1番目の要素を1とし、2から5番目の要素を0とする。また、学習処理部130は、カテゴリXが第2カテゴリ(Contract)であることに応じて、説明変数の2番目の要素を1とし、1および3から5番目の要素を0とする。
また、学習処理部130は、カテゴリYが第3カテゴリ(Question for a component)であることに応じて、説明変数の8番目の要素を1とし、6、7、9、10番目の要素を0とする。また、学習処理部130は、カテゴリYが第4カテゴリ(Duration of service)であることに応じて、説明変数の9番目の要素を1とし、6から8、および10番目の要素を0とする。また、学習処理部130は、カテゴリZが第5カテゴリ(Problem)であることに応じて、説明変数の15番目の要素を1とし、11から14番目の要素を0とする。
以上のように、学習処理部130は、複数のテキストに基づき、対応する説明変数および目的変数の組を生成する。そして、学習処理部130は、一の説明変数に対して対応する一の目的変数が選択(予測)されるように、選択モデルを学習する。学習処理部130は、例えば、回帰分析による選択モデルを用いて学習する。学習処理部130は、一例として、ロジスティック回帰等の一般化線型モデルとして既知のモデルを、選択モデルとして用いて学習する。
生成装置100は、更に取得すべきテキストが存在する場合、テキストの取得の段階(S310)に戻って学習を継続させてよい(S340:No)。また、生成装置100は、更に取得すべきテキストが存在しない場合、学習を終了させてよい(S340:Yes)。この場合、学習処理部130は、学習した学習モデルを記憶部140に記憶する。また、生成装置100は、予め定められた時間が経過しても学習が収束しない場合、学習を中断して、ユーザに警告等を通知してもよい。
次に、対象データ取得部210は、対象データを取得する(S350)。対象データ取得部210は、テキスト取得部110と同様に、対象データに関する統計量を取得してもよい。即ち、この場合、対象データ取得部210は、対象キーワードの組の共起数、対象キーワードの組におけるキーワード同士の相関、および、対象キーワードに対応する事象の増加または減少のうちの少なくとも1つを示す対象統計量を取得することになる。なお、対象データ取得部210は、特定部220が対象キーワードを特定した後に、当該対象キーワードの情報を当該特定部220から受けとったことに応じて、対象統計量を取得してもよい。
次に、特定部220は、対象データを表現する対象キーワードを特定する(S360)。特定部220は、分解処理部120の動作と同様に、キーワード記憶部142に記憶されたキーワード辞書を用いて対象キーワードを特定してよく、これに代えて、またはこれに加えて、言語処理等によって対象キーワードを特定してもよい。ここで、対象データが有する対象キーワードは、新製品の名称等、辞書等には存在しない場合があるので、このような対象キーワードが対象データに含まれる場合には、言語処理等を用いて対象キーワードを特定することが好ましい。
また、特定部220は、対象キーワードのカテゴリを、キーワード辞書等を用いて特定する。特定部220は、対象キーワードが辞書等には存在しない場合、対象キーワードと類似のキーワードを検出して、当該類似のキーワードに対応するカテゴリを、対象キーワードのカテゴリとしてよい。これにより、特定部220は、例えば、プリンタAシリーズの新製品である「プリンタA02」が、対象キーワードとなった場合、キーワード辞書に当該対象キーワードが登録されていなくても、キーワード辞書に登録されている「プリンタA01」、「プリンタA」、および「プリンタ」等のキーワードから、当該対象キーワードがproductカテゴリであることを特定することができる。
次に、選択部230は、学習処理部130が学習した選択モデルを用いて、対象キーワードのカテゴリに基づいて、対象データの表現に用いる対象テンプレートを選択する(S370)。選択部230は、対象キーワードに基づき、対応する説明変数を生成する。即ち、選択部230は、対象キーワードのカテゴリに応じて、説明変数のカテゴリに対応する要素(上記の例において1番目から15番目の要素)の値を定める。また、選択部230は、対象データ取得部210が取得した対象統計量を用いて、説明変数の統計量に、対応する要素(上記の例において16番目から18番目の要素)の値を定める。
選択部230は、対象データの説明変数を生成することにより、学習した選択モデルを用いて、対象データに対応する対象テンプレートを予測することができる。即ち、選択部230は、説明変数および選択モデルから目的変数を算出し、算出した目的変数に対応する(最も1に近い要素に対応する)テンプレートを、対象テンプレートとしてよい。
次に、生成部240は、予測した対象テンプレートに対象キーワードを挿入して、対象データを表現する対象テキストを生成する(S380)。生成部240は、一例として、対象テンプレートのカテゴリの位置[X]、[Y]、および[Z]に、対応する対象キーワードを挿入することで、対象テキストを生成する。ここで、生成部240は、対象テンプレートへの対象キーワードの挿入にあわせて、動詞等を変化させて文法的に正しい表現に変更してよい。この場合、生成部240は、言語処理等を用いてよい。
以上のように、本実施形態の生成装置100は、複数のテキストに基づいて、対象データの表現に用いる対象テンプレートを選択する選択モデルを学習させ、対象テンプレートに対象キーワードを挿入して対象データを表現する対象テキストを生成することができる。したがって、過去に作成されたレポートに含まれる複数のテキストをテキスト取得部110が取得し、当該複数のテキストを分解処理部120が分解して学習処理部130に学習させることで、当該レポートに対応する選択モデルを得ることができる。これにより、生成部240は、新たに作成するレポートに含めるべき対象テキストを生成することができる。
このように、生成装置100は、過去の統計情報に基づいて過去に作成されたテキストから、新たな統計情報に基づいて新たに作成すべきテキストを自動的に作成することができる。即ち、生成装置100は、作成者が知識、経験、および能力等に基づいて、統計情報から特徴的な部分を読み取って作成テキストを作成するノウハウ等を学習することにより、当該作成者なしに、新たな統計情報に基づく同様のテキストを作成することができる。また、統計情報が新製品等のデータベース等には存在しない新しい単語を有する場合であっても、生成装置100は、適切なテキストを生成することができる。
これにより、例えば、レポート作成業務、当該業務の引き継ぎ、および当該業務の展開等をスムーズに実行させることができる。また、生成装置100は、業界、分野、およびテキスト作成者毎にテキスト作成のノウハウ等を蓄積することができる。また、当該蓄積した情報に基づき、より専門的な内容についてもテキストを生成することができる。
図5は、本実施形態に係る生成装置100の変形例を示す。本変形例の生成装置100において、図1に示された本実施形態に係る生成装置100の動作と略同一のものには同一の符号を付け、説明を省略する。本変形例の生成装置100は、入力部250と、修正部260と、追加部270とを更に備える。
入力部250は、テキスト取得部110および記憶部140に接続され、ユーザが直接テキスト等を入力する場合、またはテキストを修正する場合に、テキスト取得部110のテキストの取得を補助する。入力部250は、ユーザが対象テキストを入力または修正する場合に、ユーザが対象テキストを入力中において、キーワード記憶部142に記憶されたキーワードおよびテンプレート記憶部144に記憶されたテンプレートの少なくとも一方を、入力候補として提示する。
例えば、入力部250は、ユーザが「LED bulb L2」と入力した場合、第1カテゴリのキーワードが最初に入力されたことを検出するので、第2テンプレートに分解されるテキストが入力されていることを予測できる。そこで、入力部250は、第2テンプレートの配列に応じて、第1カテゴリの「LED bulb L2」の入力結果に続いて「went out」等の第5カテゴリのキーワードを、追記部分の候補として表示する。これによって、入力部250は、ユーザのテキスト入力を容易に、かつ、正確に実行させることができる。
これに代えて、または、これに加えて、入力部250は、取得した複数のテキストに曖昧前方一致検索等を実行して、追記部分の候補を取得して表示してもよい。これにより、入力部250は、例えば、ユーザが「LED bulb L5」と、辞書に登録されていない新しい品番を入力しても、「went out」等のキーワードを追記部分の候補として表示することができる。
修正部260は、キーワード記憶部142に記憶されたキーワードおよびテンプレート記憶部144に記憶されたテンプレートの少なくとも一方に基づいて、新たにテキストを分解して得られたキーワードおよびテンプレートの表記ゆれを修正する。修正部260は、分解処理部120および記憶部140に接続され、分解処理部120がキーワードおよびテンプレートを分解する場合に生じる表記ゆれを、記憶部140に記憶された情報に基づいて修正する。
例えば、「Customers cannot find」(お客様が見つけられない)と「Do not know」(分からない)、「#」と「number」、および「Printer A01」と「printer A-01」といった、表現および文字列等が異なっても意味が略同一または類似の内容である場合、略同一のキーワードおよびテンプレートとして認識されることが望ましい。そこで、修正部260は、キーワード辞書およびテンプレート辞書を参照して特定した部分以外の(辞書に登録されていない)テキストの部分について、表記揺れを修正する。
修正部260は、例えば、新たにテキストを分解して得られたキーワードおよびキーワード記憶部142に記憶されたキーワードの間の編集距離が、予め定められた基準距離未満の場合にこれらのキーワードが同一であると判定してよい。また、修正部260は、新たにテキストを分解して得られたテンプレートおよびテンプレート記憶部に記憶されたテンプレートの間の編集距離が、予め定められた基準距離未満の場合にこれらのテンプレートが同一であると判定してもよい。
また、修正部260は、単数形および複数形の差異、省略形との差異、大文字と小文字の差異、およびハイフンとアンダーバー等の差異等は、同一の範囲として、キーワード辞書およびテンプレート辞書等と曖昧マッチングを実行して一致判定してよい。また、修正部260は、例えば、予め定められた文字数の脱落、誤字、および追加等が検出されても、マッチングしたものと判断するように一致判定してもよい。また、修正部260は、一致するとみなす単語、フレーズ等を予め登録した辞書等を用いて、一致判定してもよい。
追加部270は、生成部240およびテキスト取得部110にそれぞれ接続され、生成部240が生成した対象テキストを、複数のテキストの1つとして新たに追加し、テキスト取得部110に供給する。ここで、生成部240が生成した対象テキストに対して、ユーザは、変更等の編集をしてより適切なテキストに調整する場合がある。このような場合、追加部270は、ユーザが変更したテキストを取得して、複数のテキストの1つとして新たに追加する。
学習処理部130は、追加部270により追加済みの複数のテキストを用いて選択モデルを再学習する。これにより、生成装置100は、テキスト作成のノウハウ等を、更に蓄積することができる。また、学習処理部130がユーザの変更したテキストを再学習することにより、学習の精度を向上させることができる。
図6は、本実施形態に係る生成装置100として機能するコンピュータ1900のハードウェア構成の一例を示す。本実施形態に係るコンピュータ1900は、ホスト・コントローラ2082により相互に接続されるCPU2000、RAM2020、グラフィック・コントローラ2075、および表示装置2080を有するCPU周辺部と、入出力コントローラ2084によりホスト・コントローラ2082に接続される通信インターフェイス2030、ハードディスクドライブ2040、およびDVDドライブ2060を有する入出力部と、入出力コントローラ2084に接続されるROM2010、フレキシブルディスク・ドライブ2050、および入出力チップ2070を有するレガシー入出力部と、を備える。
ホスト・コントローラ2082は、RAM2020と、高い転送レートでRAM2020をアクセスするCPU2000およびグラフィック・コントローラ2075とを接続する。CPU2000は、ROM2010およびRAM2020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィック・コントローラ2075は、CPU2000等がRAM2020内に設けたフレーム・バッファ上に生成する画像データを取得し、表示装置2080上に表示させる。これに代えて、グラフィック・コントローラ2075は、CPU2000等が生成する画像データを格納するフレーム・バッファを、内部に含んでもよい。
入出力コントローラ2084は、ホスト・コントローラ2082と、比較的高速な入出力装置である通信インターフェイス2030、ハードディスクドライブ2040、DVDドライブ2060を接続する。通信インターフェイス2030は、ネットワークを介して他の装置と通信する。ハードディスクドライブ2040は、コンピュータ1900内のCPU2000が使用するプログラムおよびデータを格納する。DVDドライブ2060は、DVD−ROM2095からプログラムまたはデータを読み取り、RAM2020を介してハードディスクドライブ2040に提供する。
また、入出力コントローラ2084には、ROM2010と、フレキシブルディスク・ドライブ2050、および入出力チップ2070の比較的低速な入出力装置とが接続される。ROM2010は、コンピュータ1900が起動時に実行するブート・プログラム、および/または、コンピュータ1900のハードウェアに依存するプログラム等を格納する。フレキシブルディスク・ドライブ2050は、フレキシブルディスク2090からプログラムまたはデータを読み取り、RAM2020を介してハードディスクドライブ2040に提供する。入出力チップ2070は、フレキシブルディスク・ドライブ2050を入出力コントローラ2084へと接続すると共に、例えばパラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を入出力コントローラ2084へと接続する。
RAM2020を介してハードディスクドライブ2040に提供されるプログラムは、フレキシブルディスク2090、DVD−ROM2095、またはICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、RAM2020を介してコンピュータ1900内のハードディスクドライブ2040にインストールされ、CPU2000において実行される。
プログラムは、コンピュータ1900にインストールされ、コンピュータ1900をテキスト取得部110、分解処理部120、学習処理部130、記憶部140、キーワード記憶部142、テンプレート記憶部144、対象データ取得部210、特定部220、選択部230、生成部240、入力部250、修正部260、および追加部270として機能させる。
プログラムに記述された情報処理は、コンピュータ1900に読込まれることにより、ソフトウェアと上述した各種のハードウェア資源とが協働した具体的手段であるテキスト取得部110、分解処理部120、学習処理部130、記憶部140、キーワード記憶部142、テンプレート記憶部144、対象データ取得部210、特定部220、選択部230、生成部240、入力部250、修正部260、および追加部270として機能する。そして、この具体的手段によって、本実施形態におけるコンピュータ1900の使用目的に応じた情報の演算または加工を実現することにより、使用目的に応じた特有の生成装置100が構築される。
一例として、コンピュータ1900と外部の装置等との間で通信を行う場合には、CPU2000は、RAM2020上にロードされた通信プログラムを実行し、通信プログラムに記述された処理内容に基づいて、通信インターフェイス2030に対して通信処理を指示する。通信インターフェイス2030は、CPU2000の制御を受けて、RAM2020、ハードディスクドライブ2040、フレキシブルディスク2090、またはDVD−ROM2095等の記憶装置上に設けた送信バッファ領域等に記憶された送信データを読み出してネットワークへと送信し、もしくは、ネットワークから受信した受信データを記憶装置上に設けた受信バッファ領域等へと書き込む。このように、通信インターフェイス2030は、DMA(ダイレクト・メモリ・アクセス)方式により記憶装置との間で送受信データを転送してもよく、これに代えて、CPU2000が転送元の記憶装置または通信インターフェイス2030からデータを読み出し、転送先の通信インターフェイス2030または記憶装置へとデータを書き込むことにより送受信データを転送してもよい。
また、CPU2000は、ハードディスクドライブ2040、DVDドライブ2060(DVD−ROM2095)、フレキシブルディスク・ドライブ2050(フレキシブルディスク2090)等の外部記憶装置に格納されたファイルまたはデータベース等の中から、全部または必要な部分をDMA転送等によりRAM2020へと読み込ませ、RAM2020上のデータに対して各種の処理を行う。そして、CPU2000は、処理を終えたデータを、DMA転送等により外部記憶装置へと書き戻す。このような処理において、RAM2020は、外部記憶装置の内容を一時的に保持するものとみなせるから、本実施形態においてはRAM2020および外部記憶装置等をメモリ、記憶部、または記憶装置等と総称する。本実施形態における各種のプログラム、データ、テーブル、データベース等の各種の情報は、このような記憶装置上に格納されて、情報処理の対象となる。なお、CPU2000は、RAM2020の一部をキャッシュメモリに保持し、キャッシュメモリ上で読み書きを行うこともできる。このような形態においても、キャッシュメモリはRAM2020の機能の一部を担うから、本実施形態においては、区別して示す場合を除き、キャッシュメモリもRAM2020、メモリ、および/または記憶装置に含まれるものとする。
また、CPU2000は、RAM2020から読み出したデータに対して、プログラムの命令列により指定された、本実施形態中に記載した各種の演算、情報の加工、条件判断、情報の検索・置換等を含む各種の処理を行い、RAM2020へと書き戻す。例えば、CPU2000は、条件判断を行う場合においては、本実施形態において示した各種の変数が、他の変数または定数と比較して、大きい、小さい、以上、以下、等しい等の条件を満たすかどうかを判断し、条件が成立した場合(または不成立であった場合)に、異なる命令列へと分岐し、またはサブルーチンを呼び出す。
また、CPU2000は、記憶装置内のファイルまたはデータベース等に格納された情報を検索することができる。例えば、第1属性の属性値に対し第2属性の属性値がそれぞれ対応付けられた複数のエントリが記憶装置に格納されている場合において、CPU2000は、記憶装置に格納されている複数のエントリの中から第1属性の属性値が指定された条件と一致するエントリを検索し、そのエントリに格納されている第2属性の属性値を読み出すことにより、所定の条件を満たす第1属性に対応付けられた第2属性の属性値を得ることができる。
以上に示したプログラムまたはモジュールは、外部の記録媒体に格納されてもよい。記録媒体としては、フレキシブルディスク2090、DVD−ROM2095の他に、DVD、Blu−ray(登録商標)、またはCD等の光学記録媒体、MO等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークまたはインターネットに接続されたサーバシステムに設けたハードディスクまたはRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ1900に提供してもよい。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
100 生成装置、110 テキスト取得部、120 分解処理部、130 学習処理部、140 記憶部、142 キーワード記憶部、144 テンプレート記憶部、210 対象データ取得部、220 特定部、230 選択部、240 生成部、250 入力部、260 修正部、270 追加部、1900 コンピュータ、2000 CPU、2010 ROM、2020 RAM、2030 通信インターフェイス、2040 ハードディスクドライブ、2050 フレキシブルディスク・ドライブ、2060 DVDドライブ、2070 入出力チップ、2075 グラフィック・コントローラ、2080 表示装置、2082 ホスト・コントローラ、2084 入出力コントローラ、2090 フレキシブルディスク、2095 DVD−ROM

Claims (14)

  1. 対象データを表現する対象テキストを生成する生成装置であって、
    複数のテキストのそれぞれをキーワードおよびテンプレートに分解する分解処理部と、
    キーワードのカテゴリに基づいてテンプレートを選択する選択モデルを学習する学習処理部と、
    前記対象データを表現する対象キーワードを特定する特定部と、
    前記選択モデルを用いて、前記対象キーワードのカテゴリに基づいて、前記対象データの表現に用いる対象テンプレートを選択する選択部と、
    前記対象テンプレートおよび前記対象キーワードに基づいて前記対象データを表現する前記対象テキストを生成する生成部と、
    を備え
    前記学習処理部は、一のテキストに含まれる1または複数のキーワードに対応する1または複数のカテゴリに応じて、当該一のテキストから分解されたテンプレートが選択されるように選択モデルを学習する生成装置。
  2. 前記学習処理部は、キーワードのカテゴリおよびキーワードに対応する事象の統計量に基づいてテンプレートを選択する前記選択モデルを学習し、
    前記対象データにおける前記対象キーワードに対応する事象の統計量である対象統計量を取得する対象データ取得部を更に備え、
    前記選択部は、前記対象キーワードのカテゴリおよび前記対象統計量に基づいて前記対象テンプレートを選択する
    請求項1に記載の生成装置。
  3. 前記分解処理部は、前記複数のテキストのそれぞれをキーワードの組およびテンプレートに分解し、
    前記学習処理部は、キーワードの組に対応するカテゴリの組およびキーワードの組に対応する事象の統計量に基づいてテンプレートを選択する前記選択モデルを学習し、
    前記特定部は、前記対象キーワードの組を特定し、
    前記選択部は、前記対象キーワードの組に対応するカテゴリの組および前記対象統計量に基づいて前記対象テンプレートを選択し、
    前記生成部は、前記対象キーワードの組および前記対象テンプレートに基づいて、前記対象テキストを生成する
    請求項2に記載の生成装置。
  4. 前記対象データ取得部は、前記対象キーワードの組の共起数、前記対象キーワードの組におけるキーワード同士の相関、および、前記対象キーワードに対応する事象の増加または減少のうちの少なくとも1つを示す前記対象統計量を取得する請求項3に記載の生成装置。
  5. 複数のカテゴリのそれぞれに対応して、当該カテゴリに属するキーワードを記憶するキーワード記憶部を更に備え、
    前記分解処理部は、前記複数のテキストのそれぞれから前記キーワード記憶部に記憶されたキーワードを検出して、それぞれのテキストにおけるキーワード部分以外に基づきテンプレートを決定する
    請求項1から4のいずれか一項に記載の生成装置。
  6. 前記複数のテキストを分解して得られたテンプレートを記憶するテンプレート記憶部を更に備える請求項5に記載の生成装置。
  7. 前記キーワード記憶部に記憶されたキーワードおよび前記テンプレート記憶部に記憶されたテンプレートの少なくとも一方に基づいて、新たにテキストを分解して得られたキーワードおよびテンプレートの表記ゆれを修正する修正部を更に備える請求項6に記載の生成装置。
  8. 前記修正部は、新たにテキストを分解して得られたキーワードおよび前記キーワード記憶部に記憶されたキーワードの間の編集距離が予め定められた基準距離未満の場合にこれらのキーワードが同一であると判定する請求項7に記載の生成装置。
  9. 前記修正部は、新たにテキストを分解して得られたテンプレートおよび前記テンプレート記憶部に記憶されたテンプレートの間の編集距離が予め定められた基準距離未満の場合にこれらのテンプレートが同一であると判定する請求項7に記載の生成装置。
  10. ユーザが前記対象テキストを入力または修正するための入力部を更に備え、
    前記入力部は、ユーザが前記対象テキストを入力中において、前記キーワード記憶部に記憶されたキーワードおよび前記テンプレート記憶部に記憶されたテンプレートの少なくとも一方を、入力候補として提示する
    請求項6から9のいずれか一項に記載の生成装置。
  11. 前記生成部が生成した前記対象テキストおよび前記対象テキストをユーザが変更したテキストを、前記複数のテキストの1つとして新たに追加する追加部を更に備え、
    前記学習処理部は、前記追加部により追加済みの前記複数のテキストを用いて前記選択モデルを再学習する
    請求項1から10のいずれか一項に記載の生成装置。
  12. 前記分解処理部は、過去に作成されたレポートに含まれる前記複数のテキストを分解し、
    前記生成部は、新たに作成するレポートに含めるべき前記対象テキストを生成する請求項1から11のいずれか一項に記載の生成装置。
  13. 対象データを表現する対象テキストを生成する生成方法であって、
    複数のテキストのそれぞれをキーワードおよびテンプレートに分解する分解処理段階と、
    キーワードのカテゴリに基づいてテンプレートを選択する選択モデルを学習する学習段階と、
    前記対象データを表現する対象キーワードを特定する特定段階と、
    前記選択モデルを用いて、前記対象キーワードのカテゴリに基づいて、前記対象データの表現に用いる対象テンプレートを選択する選択段階と、
    前記対象テンプレートおよび前記対象キーワードに基づいて前記対象データを表現する前記対象テキストを生成する生成段階と、
    を備え
    前記学習段階は、一のテキストに含まれる1または複数のキーワードに対応する1または複数のカテゴリに応じて、当該一のテキストから分解されたテンプレートが選択されるように選択モデルを学習する生成方法。
  14. コンピュータに、請求項1から12のいずれか一項に記載の生成装置として機能させるプログラム。
JP2014221051A 2014-10-30 2014-10-30 生成装置、生成方法、およびプログラム Active JP5963328B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2014221051A JP5963328B2 (ja) 2014-10-30 2014-10-30 生成装置、生成方法、およびプログラム
US14/868,442 US10289674B2 (en) 2014-10-30 2015-09-29 Generation apparatus, generation method, and program
US15/341,147 US10296579B2 (en) 2014-10-30 2016-11-02 Generation apparatus, generation method, and program
US16/371,297 US20190228064A1 (en) 2014-10-30 2019-04-01 Generation apparatus, generation method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014221051A JP5963328B2 (ja) 2014-10-30 2014-10-30 生成装置、生成方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2016091078A JP2016091078A (ja) 2016-05-23
JP5963328B2 true JP5963328B2 (ja) 2016-08-03

Family

ID=55852843

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014221051A Active JP5963328B2 (ja) 2014-10-30 2014-10-30 生成装置、生成方法、およびプログラム

Country Status (2)

Country Link
US (3) US10289674B2 (ja)
JP (1) JP5963328B2 (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5963328B2 (ja) 2014-10-30 2016-08-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 生成装置、生成方法、およびプログラム
US11580589B2 (en) * 2016-10-11 2023-02-14 Ebay Inc. System, method, and medium to select a product title
JP6996360B2 (ja) * 2018-03-09 2022-01-17 富士通株式会社 レポート作成プログラム、およびレポート作成方法
CN108573025B (zh) * 2018-03-12 2021-07-02 云知声智能科技股份有限公司 基于混合模板抽取句子分类特征的方法及装置
CN108664612A (zh) * 2018-05-11 2018-10-16 广东电网有限责任公司 一种基于关键词计分的长文本数据智能分类方法
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN110738031A (zh) * 2018-07-03 2020-01-31 广州阿里巴巴文学信息技术有限公司 读书笔记的生成方法、装置及设备
JP7303614B2 (ja) * 2018-07-11 2023-07-05 株式会社野村総合研究所 作成装置
CN109597888A (zh) * 2018-11-19 2019-04-09 北京百度网讯科技有限公司 建立文本领域识别模型的方法、装置
JP2022523564A (ja) 2019-03-04 2022-04-25 アイオーカレンツ, インコーポレイテッド 機械学習を使用するデータ圧縮および通信
CN110113315B (zh) * 2019-04-12 2022-06-14 平安科技(深圳)有限公司 一种业务数据的处理方法及设备
CN112115710B (zh) * 2019-06-03 2023-08-08 腾讯科技(深圳)有限公司 一种行业信息识别方法及装置
CN110609991B (zh) * 2019-09-10 2023-09-19 卓尔智联(武汉)研究院有限公司 文本生成方法、电子装置及存储介质
CN110807305A (zh) * 2019-10-11 2020-02-18 网娱互动科技(北京)股份有限公司 一种替换关键词的稿件生成方法及系统
CN110738061B (zh) * 2019-10-17 2024-05-28 北京搜狐互联网信息服务有限公司 古诗词生成方法、装置、设备及存储介质
KR20210104247A (ko) * 2020-02-17 2021-08-25 한국과학기술원 Ppt 추천방법 및 그 장치
CN112749251B (zh) * 2020-03-09 2023-10-31 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN111506726B (zh) * 2020-03-18 2023-09-22 大箴(杭州)科技有限公司 基于词性编码的短文本聚类方法、装置及计算机设备
US11423219B2 (en) 2020-03-19 2022-08-23 International Business Machines Corporation Generation and population of new application document utilizing historical application documents
CN115552433A (zh) * 2020-04-10 2022-12-30 知识方正有限公司 基于技能简档的自定义文本生成
CN112000777A (zh) * 2020-09-03 2020-11-27 上海然慧信息科技有限公司 一种文本生成方法、装置、计算机设备和存储介质
KR102593884B1 (ko) * 2020-11-12 2023-10-26 주식회사 포스코인재창조원 문서 자동 작성 시스템 및 방법, 컴퓨터로 독출 가능한 기록 매체
CN112434504B (zh) * 2020-11-23 2024-07-16 京东科技控股股份有限公司 生成文件信息的方法、装置、电子设备和计算机可读介质
US11294971B1 (en) * 2021-01-25 2022-04-05 Coupang Corp. Systems and methods for modeling item similarity using converted image information
CN113191456A (zh) * 2021-05-26 2021-07-30 平安信托有限责任公司 基于文本识别技术的单证生成方法、装置、设备及介质
CN113378057A (zh) * 2021-06-29 2021-09-10 珠海必要工业科技股份有限公司 一种信息提示方法、装置、计算机设备及存储介质
CN113704467B (zh) * 2021-07-29 2024-07-02 大箴(杭州)科技有限公司 基于数据模板的海量文本监控方法及装置、介质、设备
CN113361281B (zh) * 2021-08-05 2021-11-02 北京明略软件系统有限公司 一种白皮书生成方法、装置、设备及存储介质
CN113656588B (zh) * 2021-09-01 2024-05-10 深圳平安医疗健康科技服务有限公司 基于知识图谱的数据对码方法、装置、设备和存储介质
CN113962315B (zh) * 2021-10-28 2023-12-22 北京百度网讯科技有限公司 模型预训练方法、装置、设备、存储介质以及程序产品
CN114118041A (zh) * 2021-11-01 2022-03-01 深圳前海微众银行股份有限公司 一种文本生成方法及装置、存储介质
CN117332768B (zh) * 2023-10-10 2024-03-08 北京睿企信息科技有限公司 一种获取文本生成模板的数据处理系统

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6085201A (en) * 1996-06-28 2000-07-04 Intel Corporation Context-sensitive template engine
US7269545B2 (en) 2001-03-30 2007-09-11 Nec Laboratories America, Inc. Method for retrieving answers from an information retrieval system
JP3790825B2 (ja) * 2004-01-30 2006-06-28 独立行政法人情報通信研究機構 他言語のテキスト生成装置
JP4398777B2 (ja) * 2004-04-28 2010-01-13 株式会社東芝 時系列データ分析装置および方法
JP2006065623A (ja) 2004-08-27 2006-03-09 Toshiba Corp 相談回答サーバ及び相談回答プログラム
JP4595590B2 (ja) 2005-03-04 2010-12-08 三菱電機株式会社 テキストマイング方法及びテキストマイニング装置
JP2007102642A (ja) 2005-10-06 2007-04-19 Oki Electric Ind Co Ltd 情報分析システム、情報分析方法及び情報分析プログラム
JP2007157058A (ja) * 2005-12-08 2007-06-21 Toshiba Corp 分類モデル学習装置、分類モデル学習方法、及び分類モデルを学習するためのプログラム
JP4895645B2 (ja) 2006-03-15 2012-03-14 独立行政法人情報通信研究機構 情報検索装置、及び情報検索プログラム
JP5128154B2 (ja) * 2006-04-10 2013-01-23 富士フイルム株式会社 レポート作成支援装置、レポート作成支援方法およびそのプログラム
WO2008139568A1 (ja) * 2007-05-08 2008-11-20 Fujitsu Limited キーワード出力プログラム、キーワード出力装置およびキーワード出力方法
JP5033724B2 (ja) 2007-07-12 2012-09-26 株式会社沖データ 文書検索装置及び画像形成装置、文書検索システム
US9317593B2 (en) * 2007-10-05 2016-04-19 Fujitsu Limited Modeling topics using statistical distributions
JP5022252B2 (ja) * 2008-01-30 2012-09-12 日本放送協会 表現テンプレート生成装置、その方法およびそのプログラム
JP2010128779A (ja) 2008-11-27 2010-06-10 Kansai Electric Power Co Inc:The 重回帰式の抽出方法
JP2011229194A (ja) 2008-12-24 2011-11-10 Oita Univ スイッチング電源、電子回路
US8805853B2 (en) * 2009-12-25 2014-08-12 Nec Corporation Text mining system for analysis target data, a text mining method for analysis target data and a recording medium for recording analysis target data
JP5039159B2 (ja) 2010-02-26 2012-10-03 株式会社東芝 情報分類システム、情報分類方法及びプログラム
JP5540335B2 (ja) 2010-10-04 2014-07-02 独立行政法人情報通信研究機構 自然言語文生成装置及びコンピュータプログラム
JP5807891B2 (ja) 2010-10-04 2015-11-10 国立研究開発法人情報通信研究機構 言語モデル学習装置及びコンピュータプログラム
JP2012128779A (ja) * 2010-12-17 2012-07-05 Panasonic Corp 仮想物体表示装置
JP2012256197A (ja) 2011-06-08 2012-12-27 Toshiba Corp 表記ゆれ検出装置及び表記ゆれ検出プログラム
JP5620349B2 (ja) * 2011-07-22 2014-11-05 株式会社東芝 対話装置、対話方法および対話プログラム
CN104102639B (zh) * 2013-04-02 2018-07-27 腾讯科技(深圳)有限公司 基于文本分类的推广触发方法和装置
JP6118838B2 (ja) * 2014-08-21 2017-04-19 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
JP5963328B2 (ja) 2014-10-30 2016-08-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 生成装置、生成方法、およびプログラム

Also Published As

Publication number Publication date
US20160124933A1 (en) 2016-05-05
US20170052945A1 (en) 2017-02-23
US10289674B2 (en) 2019-05-14
US10296579B2 (en) 2019-05-21
US20190228064A1 (en) 2019-07-25
JP2016091078A (ja) 2016-05-23

Similar Documents

Publication Publication Date Title
JP5963328B2 (ja) 生成装置、生成方法、およびプログラム
JP5356197B2 (ja) 単語意味関係抽出装置
CN105868175A (zh) 摘要生成方法及装置
JPWO2014002776A1 (ja) 同義語抽出システム、方法および記録媒体
JP7281905B2 (ja) 文書評価装置、文書評価方法及びプログラム
Godin et al. Explaining character-aware neural networks for word-level prediction: Do they discover linguistic rules?
Tumitan et al. Tracking Sentiment Evolution on User-Generated Content: A Case Study on the Brazilian Political Scene.
JP5682448B2 (ja) 因果単語対抽出装置、因果単語対抽出方法および因果単語対抽出用プログラム
JP2019032704A (ja) 表データ構造化システムおよび表データ構造化方法
JP2005181928A (ja) 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム
CN104699844A (zh) 为广告确定视频标签的方法及装置
JP6002174B2 (ja) 広告生成装置、広告生成方法、及び広告生成プログラム
JP2013131075A (ja) 分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法
JP5577546B2 (ja) 計算機システム
JP2005182696A (ja) 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム
JP5900486B2 (ja) 関連仕様対応付けシステム、関連仕様対応付け方法およびプログラム
CN113033178B (zh) 用于商业计划书的文本评估方法、装置及计算机
CN117501275A (zh) 用于分析由大量单独消息组成的数据的方法、计算机程序产品和计算机系统
US20210318949A1 (en) Method for checking file data, computer device and readable storage medium
JP6894315B2 (ja) 文書処理システム、文書処理方法、及びプログラム
JP7531748B2 (ja) 学習装置、管理シート作成支援装置、プログラム、学習方法及び管理シート作成支援方法
Porntrakoon Improve the Accuracy of SenseComp in Thai Consumer’s Review Using Syntactic Analysis
WO2023157074A1 (ja) 教師データ生成補助装置、教師データ生成補助システム、教師データ生成方法及び非一時的なコンピュータ可読媒体
Bouhoun et al. Information Retrieval Using Domain Adapted Language Models: Application to Resume Documents for HR Recruitment Assistance
Osoolian et al. Iustnlplab at semeval-2024 task 4: Multilingual detection of persuasion techniques in memes

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160531

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20160602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160624

R150 Certificate of patent or registration of utility model

Ref document number: 5963328

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150