[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2021111415A - テキストテーマ生成方法、テキストテーマ生成装置、電子機器、記憶媒体およびコンピュータプログラム - Google Patents

テキストテーマ生成方法、テキストテーマ生成装置、電子機器、記憶媒体およびコンピュータプログラム Download PDF

Info

Publication number
JP2021111415A
JP2021111415A JP2021003994A JP2021003994A JP2021111415A JP 2021111415 A JP2021111415 A JP 2021111415A JP 2021003994 A JP2021003994 A JP 2021003994A JP 2021003994 A JP2021003994 A JP 2021003994A JP 2021111415 A JP2021111415 A JP 2021111415A
Authority
JP
Japan
Prior art keywords
text
processed
entity
theme
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021003994A
Other languages
English (en)
Other versions
JP7118184B2 (ja
Inventor
ツィジー リュウ,
Zhijie Liu
ツィジー リュウ,
キー ワン,
Qi Wang
キー ワン,
ツィファン フェン,
Zhifan Feng
ツィファン フェン,
ヤン チャン,
Yan Zhang
ヤン チャン,
ヨン チュウ,
Yong Zhu
ヨン チュウ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021111415A publication Critical patent/JP2021111415A/ja
Application granted granted Critical
Publication of JP7118184B2 publication Critical patent/JP7118184B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】テキストに対するテーマを生成するテキストテーマ生成方法及びテキストテーマ生成装置を提供する。【解決手段】テキストテーマ生成方法は、処理すべきテキストに含まれる各エンティティを取得するステップ101と、エンティティリンクにより、知識グラフでの、各エンティティに対応する候補エンティティを決定するステップ102と、候補エンティティをクラスタリングし、コアエンティティセットを決定するステップ103と、処理すべきテキスト中の各キーワードのそれぞれと予め設定されたテーマグラフでの各参照テーマとのマッチング度に基づいて、各候補テーマを決定するステップ104と、コアエンティティセットにおける各コアエンティティと処理すべきテキストとの関連性及び各候補テーマと処理すべきテキストとの関連性に基づいて、コアエンティティセット及び各候補テーマから処理すべきテキストのテーマを取得するステップ105と、を含む。【選択図】図1

Description

本出願は、コンピュータ技術分野に関し、特にスマート検索技術分野に関し、テキストテーマ生成方法、テキストテーマ生成装置、電子機器、記憶媒体およびコンピュータプログラムを提供する。
関連技術では、通常、潜在的ディリクレ配分法(Latent Dirichlet Allocation、LDAと略記)モデルを介してテキストを分析し、テキストのテーマを決定する。LDAテーマ生成モデルは、三層ベイズ確率モデルとも呼ばれ、単語、テーマ及びドキュメントといった三層の構造を含み、大規模なドキュメントセットまたはコーパスにおける潜在的なテーマ情報を認識するために用いられる。LDAは、単語の袋モデルを基に、テキスト中の単語の分布状況及び単語のテーマ分布状況を分析し、テキストテーマを決定する。
しかしながら、このようなテキストテーマの決定方式は、長いテキストデータに適合し、短いテキストの場合、精度が低い。
本出願に係るテキストテーマ生成方法、テキストテーマ生成装置、電子機器、記憶媒体およびコンピュータプログラムは、関連技術では、LDAモデルでテキストテーマを決定する方式が、長いテキストデータに適合し、短いテキストの場合、精度が低いという課題を解決するために用いられる。
本出願の1つの態様の実施例に係るテキストテーマ生成方法は、処理すべきテキストに対してエンティティマイニングを行い、処理すべきテキストに含まれる各エンティティを取得するステップと、エンティティリンクにより、知識グラフでの、前記処理すべきテキストに含まれる各エンティティにそれぞれ対応する各候補エンティティを決定するステップと、各候補エンティティと前記知識グラフでの他のエンティティとの関連性に基づいて、各候補エンティティをクラスタリングし、前記処理すべきテキストに対応するコアエンティティセットを決定するステップと、前記処理すべきテキスト中の各キーワードのそれぞれと予め設定されたテーマグラフでの各参照テーマとのマッチング度に基づいて、前記処理すべきテキストに含まれる各候補テーマを決定するステップと、前記コアエンティティセットにおける各コアエンティティと前記処理すべきテキストとの関連性、及び各候補テーマと前記処理すべきテキストとの関連性に基づいて、前記コアエンティティセット及び前記各候補テーマから前記処理すべきテキストのテーマを取得するステップと、を含む。
本出願の別の実施例に係るテキストテーマ生成装置は、処理すべきテキストに対してエンティティマイニングを行い、処理すべきテキストに含まれる各エンティティを取得するための第1の取得モジュールと、エンティティリンクにより、知識グラフでの、前記処理すべきテキストに含まれる各エンティティにそれぞれ対応する各候補エンティティを決定するための第1の決定モジュールと、各候補エンティティと前記知識グラフでの他のエンティティとの関連性に基づいて、各候補エンティティをクラスタリングし、前記処理すべきテキストに対応するコアエンティティセットを決定するための第2の決定モジュールと、前記処理すべきテキスト中の各キーワードのそれぞれと予め設定されたテーマグラフでの各参照テーマとのマッチング度に基づいて、前記処理すべきテキストに含まれる各候補テーマを決定するための第3の決定モジュールと、前記コアエンティティセットにおける各コアエンティティと前記処理すべきテキストとの関連性、及び各候補テーマと前記処理すべきテキストとの関連性に基づいて、前記コアエンティティセット及び前記各候補テーマから前記処理すべきテキストのテーマを取得するための第2の取得モジュールと、を備える。
本出願の他の態様の実施例に係る電子機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信接続されるメモリと、を備え、前記メモリには前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は前記少なくとも1つのプロセッサが以上に記載のテキストテーマ生成方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本出願の他の態様の実施例に係る、コンピュータ命令を記憶する非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに以上に記載のテキストテーマ生成方法を実行させるために用いられる、ことを特徴とする。
上記出願のいずれかの実施例は、以下の利点または有益な効果を有する。知識グラフ及びテーマグラフ情報を融合することで、短いテキストの情報及び候補テーマを拡張して、より多くの隠在的なテーマ情報をマイニングし、テキストテーマの生成精度を向上させる。エンティティリンクにより、知識グラフでの、それぞれ処理すべきテキストに含まれる各エンティティに対応する各候補エンティティを決定し、各候補エンティティと知識グラフでの他のエンティティとの関連性に基づいて、各候補エンティティをクラスタリングし、処理すべきテキストに対応するコアエンティティセットを決定し、この後、処理すべきテキスト中の各キーワードのそれぞれと予め設定されたテーマグラフでの各参照テーマとのマッチング度に基づいて、処理すべきテキストに含まれる各候補テーマを決定し、さらにコアエンティティセットにおける各コアエンティティと処理すべきテキストとの関連性、及び各候補テーマと処理すべきテキストとの関連性に基づいて、コアエンティティセット及び各候補テーマから、処理すべきテキストのテーマを取得するという技術手段を用いることにより、LDAモデルでテキストテーマを決定する方式では、短いテキストの場合、精度が低いという課題を解消し、さらに、短いテキスト情報及び候補テーマを拡張することで、より多くの隠在的なテーマ情報をマイニングし、テキストテーマの生成精度を向上させるという技術的効果を実現する。
上記選択可能な形態が持っている他の効果について、具体的な実施例を参照しながら以下に説明する。
図面は、本技術案がよりよく理解されるためのものであり、本出願を限定するものではない。
本出願の実施例に係るテキストテーマ生成方法の概略フローチャートである。 本出願の実施例に係る各候補エンティティを含む関連性ネットワークの概略図である。 本出願の実施例に係る二項分類ネットワークモデルのネットワーク概略構成図である。 本出願の実施例に係る他のテキストテーマ生成方法の概略フローチャートである。 本出願の実施例に係る他のテキストテーマ生成方法の概略フローチャートである。 本出願の実施例に係る他のテキストテーマ生成方法の概略フローチャートである。 本出願の実施例に係るテキストテーマ生成装置の概略構成図である。 本出願の実施例に係る電子機器の概略構成図である。
以下、図面を参照して本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細を含んでおり、それらは単なる例示するものと見なされるべきである。したがって、当業者は、本出願の範囲及び趣旨から逸脱することなく、ここで説明される実施例に対して様々な変更や修正を行うことができることを理解すべきである。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構成の説明を省略する。
本出願の実施例は、関連技術で、LDAモデルでテキストテーマを決定する方式が長いテキストデータに適合し、短いテキストの場合、精度が低いという課題に対して、テキストテーマ生成方法を提供する。
以下、図面を参照して、本出願に係るテキストテーマ生成方法、装置、電子機器及び記憶媒体について詳細に説明する。
以下、図1を参照しながら、本出願の実施例に係るテキストテーマ生成方法について詳細に説明する。
図1は、本出願の実施例に係るテキストテーマ生成方法の概略フローチャートである。
図1に示すように、該テキストテーマ生成方法は、以下のステップを含む。
ステップ101:処理すべきテキストに対してエンティティマイニングを行い、処理すべきテキストに含まれる各エンティティを取得する。
処理すべきテキストとは、現在処理する必要があるテキストデータであり、短い文、ヘッダーなどの短いテキストであってもよく、文章などの長いテキストであってもよく、本出願の実施例は、これについて限定しない。
なお、処理すべきテキストは、任意のテキストデータであってもよい。実際の使用では、本出願の実施例のテキストテーマ生成方法の応用シナリオが異なり、処理すべきテキストの取得方式及びタイプも異なってもよい。例えば、本出願の実施例のテキストテーマ生成方法が検索システムに応用されると、処理すべきテキストは、ユーザにより入力される検索単語、システムにおいて分類するまたはテーマを決定する必要があるネットワークリソースなどであってもよい。
本出願の実施例では、処理すべきテキストに対してエンティティマイニングを行い、まず処理すべきテキストに対して単語分割処理を行って、処理すべきテキストに含まれる各分割された単語を決定し、さらに処理すべきテキストに含まれる各分割された単語に対して1つずつ認識処理を行い、処理すべきテキストに含まれる各分割された単語が知識グラフに含まれるエンティティであるか否かを判断し、知識グラフに含まれるエンティティであれば、該分割された単語を処理すべきテキストに含まれるエンティティとして決定し、そうでなければ、該分割された単語を捨てる。
任意選択的には、処理すべきテキストに含まれる単語分割に対して認識処理を行うことは、処理すべきテキスト中の各分割された単語の品詞性を認識し、さらに各分割された単語の品詞性に基づいて、各分割された単語がエンティティであるか否かを決定することであってもよい。具体的には、品詞性が名詞である分割された単語を、処理すべきテキストに含まれるエンティティとして決定することができる。例えば、人物、時間、地点、物の名称、作品の名称、動植物の名称などは、すべて、処理すべきテキストに含まれるエンティティとして決定することができる。
例としては、処理すべきテキストが「番組『楚喬伝』最終回放送 趙麗穎及び林更新が主演するスパイの戦争 容貌及び演技で人気上がり」であり、処理すべきテキストに対して単語分割処理を行い、処理すべきテキストに含まれる各分割された単語が「番組、楚喬伝、最終回、放送、趙麗穎、林更新、主演、スパイの戦争、容貌、演技、人気上がり」であってもよいと決定することができ、さらに各分割された単語の品詞性に基づいて、処理すべきテキストに含まれるエンティティが「番組、楚喬伝、最終回、趙麗穎、林更新、容貌、演技」であってもよいと決定することができる。
なお、上記例は、例示的なものにすぎず、本出願を制限するものとしてはいけない。実際の使用では、実際の需要及び具体的な応用シナリオに基づいて、処理すべきテキストに含まれるエンティティの決定方式を選択することができ、本出願の実施例は、これについて限定しない。
ステップ102:エンティティリンクにより、知識グラフでの、それぞれ処理すべきテキストに含まれる各エンティティに対応する各候補エンティティを決定する。
知識グラフは、人工知能技術の重要な構成部分であり、世界中の概念、エンティティ及びそれらの間の関係を構造化の方式で客観的に記述するものである。知識グラフ技術は、インターネットの大量の情報をよりよく組織、管理及び理解する能力を提供し、インターネットの情報を人間が認知する世界に近い形態として表現する。従って、意味処理能力及び開放型相互接続能力を有する知識ベースを構築し、スマート検索、スマートQ&A、パーソナライズプッシュなどのスマート情報サービスにおいて応用価値を生じることができる。本出願の実施例の知識グラフは、汎用知識グラフであってもよく、特定の応用ニーズに応じてあらかじめ構築されるものであってもよく、本出願の実施例の知識グラフでの各エンティティは、すべて、唯一のエンティティアイデンティティコード(Identity、IDと略記)を有し、それにより、エンティティIDに基づいて知識グラフでのエンティティを認識することができる。
エンティティリンクとは、決定処理すべきテキストに含まれる各エンティティを知識グラフにおいてエンティティIDに対応させる過程である。
候補エンティティとは、処理すべきテキストに含まれた、知識グラフに存在する対応するエンティティIDのエンティティである。
本出願の実施例では、処理すべきテキストに含まれる各エンティティを決定した後、豊かな知識グラフデータを活用し、知識強化技術を利用して認識モデルを訓練し、処理すべきテキストに含まれる各エンティティに対して認識処理を行って、知識グラフには処理すべきテキストに含まれる各エンティティが含まれるか否かを判断し、知識グラフにあるエンティティが含まれると、処理すべきテキストのコンテキストに基づいて該エンティティのエンティティIDを取得し、すなわち、該エンティティを知識グラフでの唯一のエンティティIDにリンクすることにより、処理すべきテキストに含まれる各エンティティに対応する各候補エンティティを決定する。
例としては、処理すべきテキストが「アップル(登録商標)携帯電話」であると、処理すべきテキストに含まれるエンティティ「アップル」(登録商標)に対して、エンティティリンクにより、該エンティティに対応するエンティティIDが「アイフォーン」(登録商標)という携帯電話ブランドに対応するエンティティIDであり、果物「アップル」に対応するエンティティIDではないと決定することができる。
別の例として、処理すべきテキストが「番組『楚喬伝』最終回放送 趙麗穎及び林更新が主演するスパイの戦争 容貌及び演技で人気上がり」であり、処理すべきテキストに含まれる各エンティティが「番組、楚喬伝、最終回、趙麗穎、林更新、容貌、演技」であり、エンティティリンクにより、知識グラフに含まれていない一部のエンティティを除去し、知識グラフに含まれる各エンティティに対応するエンティティIDを決定することができ、最終的に決定された各候補エンティティが「楚喬伝、趙麗穎、林更新」である。
ステップ103:各候補エンティティと知識グラフでの他のエンティティとの関連性に基づいて、各候補エンティティをクラスタリングし、処理すべきテキストに対応するコアエンティティセットを決定する。
コアエンティティセットとは、処理すべきテキストに対応する各候補エンティティから選択された、処理すべきテキストのキー情報をある程度まで概括できるエンティティセットである。
なお、知識グラフでの各エンティティは、独立して存在するものではなく、すべて関連する1つまたは複数のエンティティがあり、知識グラフを大量の「エンティティ−関係−エンティティ」トリプルを含む知識ベースと見なすことができる。
本出願の実施例では、処理すべきテキストに対応する候補エンティティが複数ある可能性があるが、候補エンティティが多い場合、すべてのエンティティが処理すべきテキストのキー情報を表現できるというわけではなく、それにより、各候補エンティティと知識グラフでの他のエンティティとの関連性に基づいて、冗長な候補エンティティを除去し、処理すべきテキストのキー情報を概括できるエンティティを、処理すべきテキストに対応するコアエンティティセットとして構成することができる。
具体的には、各候補エンティティと知識グラフでの他のエンティティとの関連性に基づいて、各候補エンティティを含む関連性ネットワークを構築し、さらに構築された関連性ネットワークに基づいて、処理すべきテキストに対応するコアエンティティセットを決定することができる。すなわち、本出願の実施例の1つの可能な実現形態では、上記ステップ103は、各候補エンティティと知識グラフでの他のエンティティとの関連性に基づいて、各候補エンティティを含む関連性ネットワークを構築するステップであって、関連性ネットワークにおける各ノードが1つの候補エンティティに対応し、2つのノード間のエッジの方向が2つのノード間の階層関係を特徴付けるステップと、各候補エンティティ間のエッジの方向に基づいて、各候補エンティティをクラスタリングし、処理すべきテキストに対応するコアエンティティセットを決定するステップと、を含むことができる。
本出願の実施例では、各候補エンティティを含む関連性ネットワークを構築するとき、関連性ネットワークにおける1つのノードで1つの候補エンティティを特徴付け、関連性ネットワークにおける2つのノード間のエッジで、2つのノード間が関連性を有することを特徴付け、2つのノード間のエッジの方向で2つのノード間の階層関係を特徴付けすることができる。任意選択的には、関連性を有する2つのノードの場合、この2つのノード間のエッジの方向の指すノードを上層ノードとすることができ、すなわち、エッジの方向の指すノードの階層が他のノードの階層より高い。
例としては、知識グラフでの各エンティティ間の関連性に基づいて、エンティティの「ヤオミン」とエンティティの「ロケッツ」とが関連性を有し、かつ構築される関連性ネットワークにおいて、エンティティ「ヤオミン」に対応するノードとエンティティ「ロケッツ」に対応するノードとの間のエッジの方向がエンティティ「ロケッツ」に対応するノードへ指し、エンティティ「ロケッツ」の階層が「ヤオミン」の階層より高いと決定することができる。
1つの可能な実現形態としては、各候補エンティティを含む関連性ネットワークに基づいて各候補エンティティをクラスタリングするとき、関連性ネットワークにおける階層が最も高い各候補エンティティをコアエンティティとして決定して、処理すべきテキストに対応するコアエンティティセットを構成することができる。
例としては、処理すべきテキストに対応する各候補エンティティが「楚喬伝、趙麗穎、林更新」であり、趙麗穎と林更新が番組『楚喬伝』に出演する俳優であり、それにより、各候補エンティティと知識グラフでの他のエンティティとの関連性に基づいて構築される関連性ネットワークは、図2に示され、候補エンティティ『楚喬伝』に対応するノードは、関連性ネットワークにおける階層が最も高いノードであり、それにより、処理すべきテキストに対応するコアエンティティセットが『楚喬伝』であると決定することができる。
ステップ104:処理すべきテキスト中の各キーワードのそれぞれと予め設定されたテーマグラフでの各参照テーマとのマッチング度に基づいて、処理すべきテキストに含まれる各候補テーマを決定する。
処理すべきテキスト中の各キーワードとは、処理すべきテキストに対して単語分割処理を行った後、処理すべきテキストに含まれる各分割された単語から選択された、処理すべきテキストのキー情報を表現できる分割された単語を意味する。例えば、処理すべきテキスト「番組『楚喬伝』最終回放送 趙麗穎及び林更新が主演するスパイの戦争 容貌及び演技で人気上がり」のキーワードが「楚喬伝、最終回放送、趙麗穎、林更新」を含んでもよい。本出願の実施例では、キーワードマッチング技術で処理すべきテキスト中の各キーワードを決定してもよい。
予め設定されたテーマグラフとは、あらかじめ構築された、テーマ及び各テーマ間の階層関係を含む知識ベースである。任意選択的には、予め設定されたテーマグラフは、インターネットにおける大量のデータに基づいて構築される汎用テーマグラフであってもよく、特定の応用シナリオに基づいて、該応用シナリオに関連する分野のデータで構築される専用テーマグラフであってもよい。
参照テーマとは、予め設定されたテーマグラフに含まれる各テーマである。
キーワードと参照テーマとのマッチング度は、キーワードの参照テーマ間の類似程度である。例えば、キーワードと参照テーマとのコサイン類似度をキーワードと参照テーマとのマッチング度として決定してもよく、本出願の実施例は、これについて限定しない。
処理すべきテキストに含まれる候補テーマとは、処理すべきテキスト中のキーワードとのマッチング度が予め設定された条件に一致する参照テーマである。任意選択的には、予め設定された条件は、「候補テーマと処理すべきテキスト中の少なくとも1つのキーワードとのマッチング度がマッチング度閾値より大きい」であってもよい。実際の使用では、実際需要に応じて、候補テーマが満たす必要がある予め設定された条件を選択してもよく、本出願の実施例は、これについて限定しない。
本出願の実施例では、知識グラフに基づいて、処理すべきテキストに含まれる隠在的なテーマ情報をマイニングすることができ、テキストテーマの生成精度をさらに向上させるために、さらに処理すべきテキストに含まれる各キーワードに基づいて、処理すべきテキストに顕在的に出現したテーマ情報をマイニングすることができる。従って、本出願の実施例では、さらに処理すべきテキストに含まれる各キーワードを取得し、各キーワードと予め設定されたテーマグラフでの各参照テーマとのマッチング度に基づいて、さらに各キーワードとのマッチング度が予め設定された条件に一致する参照テーマを処理すべきテキストに含まれる各候補テーマとして決定することができる。
例としては、予め設定された条件が「候補テーマと処理すべきテキスト中の少なくとも1つのキーワードとのマッチング度が0.9より大きい」であり、処理すべきテキストが「ビン南語歌 陳百潭『甘い人生』人生を見返せば 甘みがある」であり、キーワードマッチング技術により決定される処理すべきテキスト中のキーワードが「ビン南語歌、陳百潭」であり、それぞれキーワード「ビン南語歌」と予め設定されたテーマグラフでの各参照テーマとのマッチング度、及びキーワード「陳百潭」と予め設定されたテーマグラフでの各参照テーマとのマッチング度を計算し、さらにキーワード「ビン南語歌」と参照テーマ「ビン南語歌」とのマッチング度が1であり、テーマグラフにはキーワード「陳百潭」とのマッチング度が0.9より大きい参照テーマが存在しないと決定し、処理すべきテキストに含まれる候補テーマが「ビン南語歌」であると決定することができる。なお、「ビン南語歌」のビンは、もんがまえに「虫」である。
ステップ105:コアエンティティセットにおける各コアエンティティと処理すべきテキストとの関連性、及び各候補テーマと処理すべきテキストとの関連性に基づいて、コアエンティティセット及び各候補テーマから、処理すべきテキストのテーマを取得する。
コアエンティティと処理すべきテキストとの関連性は、文法、意味、コンテキストなどの面でのコアエンティティと処理すべきテキストとの関連度で判断することができる。
本出願の実施例では、処理すべきテキストに対応するコアエンティティセット及び処理すべきテキストに含まれる各候補テーマを決定した後、各コアエンティティと処理すべきテキストとの関連性、及び各候補テーマと処理すべきテキストとの関連性を決定し、さらに処理すべきテキストとの関連性が高いコアエンティティまたは候補テーマを処理すべきテキストのテーマとして決定することができる。
1つの可能な実現形態としては、分類モデルを予め訓練し、コアエンティティと処理すべきテキストとの関連性、及び候補テーマと処理すべきテキストとの関連性を決定してもよい。すなわち、本出願の実施例の1つの可能な実現形態では、上記ステップ105は、
知識グラフにおいて少なくとも2つの概念情報を含む第1のコアエンティティに対応する各概念情報及び処理すべきテキストに対して、予め設定された分類モデルを利用して、それぞれ符号化・復号化処理を行い、各概念情報と処理すべきテキストとの関連性を決定するステップと、第1のコアエンティティの各概念情報と処理すべきテキストとの関連性に基づいて、第1のコアエンティティと処理すべきテキストとの関連性を決定するステップと、第1のコアエンティティと処理すべきテキストとの関連性に基づいて、第1のコアエンティティが処理すべきテキストのテーマであるか否かを決定するステップと、を含むことができる。
予め設定された分類モデルとは、予め訓練された、入力された2種のテキスト情報の関連性を認識できるモデルである。例えば、予め設定された分類モデルは、二項分類ネットワークモデルであってもよく、モデルに入力された2種のテキスト情報の関連性を認識し、認識結果及び認識結果の信頼度を出力し、「0」、「1」という2種類の認識結果を出力でき、「0」は、モデルに入力された2種のテキスト情報が関連性を有さないことを表し、「1」は、モデルに入力された2種のテキスト情報が関連性を有することを表す。
第1のコアエンティティとは、コアエンティティセットにおける、少なくとも2つの概念情報を含むコアエンティティである。本出願の実施例では、知識グラフは、さらに、各エンティティに含まれる概念情報を含んでもよい。例えば、エンティティ『楚喬伝』に含まれる概念情報は、女性主役の努力伝奇時代劇、中国語番組、愛情番組、ストーリー番組を含んでもよい。
本出願の実施例では、複数の概念情報を含む第1のコアエンティティに対して、処理すべきテキスト及び第1のコアエンティティの各概念情報をそれぞれ予め設定された分類モデルに入力して、処理すべきテキストと各概念情報との関連性を決定し、さらに処理すべきテキストと各概念情報との関連性に基づいて、処理すべきテキストと第1のコアエンティティとの関連性を決定することができる。
具体的には、予め設定された分類モデルが二項分類ネットワークモデルである場合、第1のコアエンティティに関連性が「1」の概念情報が含まれると、処理すべきテキストと第1のコアエンティティとの関連性を「1」と決定し、すなわち、処理すべきテキストと第1のコアエンティティとの関連性を「関連あり」と決定することができ、第1のコアエンティティに含まれる各概念情報の関連性がいずれも「0」であると、処理すべきテキストと第1のコアエンティティとの関連性を「1」と決定し、すなわち、処理すべきテキストと第1のコアエンティティとの関連性を「非関連」と決定することができる。
任意選択的には、二項分類ネットワークモデルの出力が認識結果の信頼度を含み、さらに信頼度閾値を予め設定し、さらに処理すべきテキストと各概念情報との関連性及び信頼度閾値に基づいて、処理すべきテキストと第1のコアエンティティとの関連性を決定してもよい。例えば、第1のコアエンティティに処理すべきテキストとの関連性が「1」の概念情報が含まれ、かつ該概念情報の処理すべきテキストとの関連性が「1」であることの信頼度が信頼度閾値より大きい場合、処理すべきテキストと第1のコアエンティティとの関連性を「1」と決定し、すなわち、処理すべきテキストと第1のコアエンティティとの関連性を「関連あり」と決定することができる。
本出願の実施例では、第1のコアエンティティと処理すべきテキストとの関連性を「関連あり」と決定すると、第1のコアエンティティを処理すべきテキストのテーマとして決定することができ、第1のコアエンティティと処理すべきテキストとの関連性が「非関連」であると、第1のコアエンティティを捨てることができる。同様に、コアエンティティセットにおけるすべてのコアエンティティをトラバーサルするまで、予め設定された分類モデルを利用してコアエンティティセットにおける各コアエンティティと処理すべきテキストとの関連性を決定することができ、処理すべきテキストとすることが可能なすべてのテーマのコアエンティティを決定する。
例としては、予め設定された分類モデルが二項分類ネットワークモデルであり、図3に示すように、本出願の実施例に係る二項分類ネットワークモデルのネットワーク概略構成図であり、それから分かるように、二項分類ネットワークモデルは、入力層と、埋め込み層と、ネットワーク層と、活性化層と、出力層と、を備え、入力層は、2つの入力情報、すなわち、処理すべきテキストと第1のコアエンティティの1つの概念情報と、を含み、埋め込み層は、処理すべきテキスト中の単語と概念情報中の単語をそれぞれ意味及び文法情報を有する低次元ベクタ表現にマッピングし、特徴次元数を低下させ、長・短期記憶(long−short term memory、LSTMと略記)ネットワーク層は、処理すべきテキスト中のコンテキスト情報と概念情報中のコンテキスト情報を関連付け、処理すべきテキスト及び概念情報中の高次元情報表現を抽出し、活性化層は、処理すべき文のLSTM出力と概念情報のLSTM出力とを結合し、パラメータにより両者間の内部関係を取得し、関数をアクティブにした後に出力し、出力層の出力空間は、「0」、「1」という2つのタグを含み、「1」は、概念情報が処理すべきテキストと関連あることを表し、「0」は、概念情報が処理すべきテキストと関連ないことを表し、同時に認識結果の信頼度を出力する。
信頼度閾値が0.8であり、第1のコアエンティティが『楚喬伝』であり、知識グラフに含まれる第1のコアエンティティ『楚喬伝』の概念情報が「女性主役の努力伝奇時代劇、中国語番組、愛情番組、ストーリー番組」であると仮定すれば、各概念情報と処理すべきテキストを二項分類ネットワークモデルに入力し、概念情報「女性主役の努力伝奇時代劇」と処理すべきテキストとの関連性が「1」であり、信頼度が0.9であり、概念情報「中国語番組」と処理すべきテキストとの関連性が「1」であり、信頼度が0.7であり、概念情報「愛情番組」と処理すべきテキストとの関連性が「0」であり、信頼度が0.8であり、概念情報「ストーリー番組」と処理すべきテキストとの関連性が「0」であり、信頼度が0.9であると決定し、関連性が「1」でありかつ信頼度が信頼度閾値より大きい概念情報「女性主役の努力伝奇時代劇」が存在するため、第1のコアエンティティ『楚喬伝』と処理すべきテキストとの関連性を「関連あり」と決定することができ、それにより、『楚喬伝』を処理すべきテキストのテーマとして決定することができる。
同様に、処理すべきテキストに含まれる各候補テーマから、処理すべきテキストのテーマを取得するとき、同一の方法を用いて、各候補テーマを処理すべきテキストのテーマとすることができるか否かを決定してもよい。すなわち、予め設定された分類モデルを利用して処理すべきテキストと各候補テーマとの関連性を決定し、さらに処理すべきテキストとの関連性が「関連あり」の候補テーマを処理すべきテキストのテーマとして決定する。
本出願の実施例の技術案によれば、エンティティリンクにより、知識グラフでの、それぞれ処理すべきテキストに含まれる各エンティティに対応する各候補エンティティを決定し、各候補エンティティと知識グラフでの他のエンティティとの関連性に基づいて、各候補エンティティをクラスタリングし、処理すべきテキストに対応するコアエンティティセットを決定し、この後、処理すべきテキスト中の各キーワードのそれぞれと予め設定されたテーマグラフでの各参照テーマとのマッチング度に基づいて、処理すべきテキストに含まれる各候補テーマを決定し、さらにコアエンティティセットにおける各コアエンティティと処理すべきテキストとの関連性、及び各候補テーマと処理すべきテキストとの関連性に基づいて、コアエンティティセット及び各候補テーマから、処理すべきテキストのテーマを取得する。これによって、知識グラフ及びテーマグラフ情報を融合することで、短いテキスト情報及び候補テーマを拡張し、それにより、より多くの隠在的なテーマ情報をマイニングし、テキストテーマの生成精度を向上させる。
本出願の1つの可能な実現形態では、処理すべきテキスト中の隠在的なテーマ情報をさらにマイニングするために、処理すべきテキストのテーマ情報をナレッジグラによりフマイニングするとき、コアエンティティの概念情報を利用して処理すべきテキストのテーマを生成してもよく、テキストテーマの生成精度をさらに向上させる。
以下、図4を参照しながら、本出願の実施例に係るテキストテーマ生成方法についてさらに説明する。
図4は、本出願の実施例に係る他のテキストテーマ生成方法の概略フローチャートである。
図4に示すように、該テキストテーマ生成方法は、以下のステップを含む。
ステップ201:処理すべきテキストに対してエンティティマイニングを行い、処理すべきテキストに含まれる各エンティティを取得する。
ステップ202:エンティティリンクにより、知識グラフでの、それぞれ処理すべきテキストに含まれる各エンティティに対応する各候補エンティティを決定する。
ステップ203:各候補エンティティと知識グラフでの他のエンティティとの関連性に基づいて、各候補エンティティをクラスタリングし、処理すべきテキストに対応するコアエンティティセットを決定する。
ステップ204:処理すべきテキスト中の各キーワードのそれぞれと予め設定されたテーマグラフでの各参照テーマとのマッチング度に基づいて、処理すべきテキストに含まれる各候補テーマを決定する。
上記ステップ201〜204の具体的な実現過程及び原理については、上記実施例の詳細な説明を参照でき、ここで繰り返し説明しない。
ステップ205:予め設定された分類モデルを利用して、各コアエンティティの知識グラフでの各概念情報及び処理すべきテキストに対して符号化・復号化処理を行い、各コアエンティティの各概念情報と処理すべきテキストとの関連性を決定する。
本出願の実施例では、処理すべきテキストに含まれる隠在的なテーマを十分にマイニングし、テキストテーマの生成精度をさらに向上させるために、さらにコアエンティティの知識グラフでの概念情報を利用して処理すべきテキストのテーマを生成してもよい。具体的には、各コアエンティティの知識グラフでの各概念情報と処理すべきテキストとの関連性に基づいて、処理すべきテキストとする可能なテーマの概念情報を決定してもよい。
1つの可能な実現形態としては、各コアエンティティの知識グラフでの各概念情報と処理すべきテキストを予め設定された分類モデルに入力することで、予め設定された分類モデルが入力される概念情報及び処理すべきテキストに対して符号化・復号化処理を行い、それにより、各コアエンティティの知識グラフでの各概念情報と処理すべきテキストとの関連性を決定して出力してもよい。
例としては、予め設定された分類モデルが二項分類ネットワークモデルである場合、二項分類ネットワークモデルから出力される認識結果が「1」であると、概念情報と処理すべきテキストとの関連性を「関連あり」と決定することができ、二項分類ネットワークモデルから出力される認識結果が「0」であると、概念情報と処理すべきテキストとの関連性を「非関連」と決定することができる。
ステップ206:各コアエンティティの各概念情報と処理すべきテキストとの関連性に基づいて、各コアエンティティに対応する各概念情報から、処理すべきテキストのテーマを取得する。
本出願の実施例では、各コアエンティティの各概念情報と処理すべきテキストとの関連性を決定した後、処理すべきテキストとの関連性が高い概念情報を、処理すべきテキストのテーマとして決定してもよい。
任意選択的には、予め設定された分類モデルが関連性認識結果及び認識結果信頼度の両方を出力できる二項分類ネットワークモデルであると、さらに信頼度閾値を予め設定してもよく、各概念情報と処理すべきテキストとの関連性及び信頼度閾値に基づいて、関連性が「1」でありかつ信頼度が信頼度閾値より大きい概念情報を各概念情報から取得して、処理すべきテキストのテーマとする。
例としては、予め設定された分類モデルが二項分類ネットワークモデルであり、入力される2種のテキスト情報の関連性の認識結果及び認識結果の信頼度を出力することができ、信頼度閾値が0.8であり、処理すべきテキストに対応するコアエンティティセットが1つのコアエンティティ『楚喬伝』を含み、コアエンティティ『楚喬伝』の知識グラフでの概念情報が「女性主役の努力伝奇時代劇、中国語番組、愛情番組、ストーリー番組」であり、各概念情報と処理すべきテキストを二項分類ネットワークモデルに入力し、概念情報「女性主役の努力伝奇時代劇」と処理すべきテキストとの関連性が「1」であり、信頼度が0.9であり、概念情報「中国語番組」と処理すべきテキストとの関連性が「1」であり、信頼度が0.7であり、概念情報「愛情番組」と処理すべきテキストとの関連性が「0」であり、信頼度が0.8であり、概念情報「ストーリー番組」と処理すべきテキストとの関連性が「0」であり、信頼度が0.9であると決定し、概念情報「女性主役の努力伝奇時代劇」との関連性が1であり、かつ信頼度が信頼度閾値より大きいため、「女性主役の努力伝奇時代劇」を処理すべきテキストのテーマとすることができる。
なお、処理すべきテキストに含まれる各候補テーマから、処理すべきテキストのテーマを取得する具体的な実現過程及び原理については、上記実施例の詳細な説明を参照でき、ここで繰り返し説明しない。
本出願の実施例の技術案によれば、エンティティリンクにより、知識グラフでの、それぞれ処理すべきテキストに含まれる各エンティティに対応する各候補エンティティを決定し、各候補エンティティと知識グラフでの他のエンティティとの関連性に基づいて、各候補エンティティをクラスタリングし、処理すべきテキストに対応するコアエンティティセットを決定し、この後、処理すべきテキスト中の各キーワードのそれぞれと予め設定されたテーマグラフでの各参照テーマとのマッチング度に基づいて、処理すべきテキストに含まれる各候補テーマを決定し、さらに予め設定された分類モデルを利用して、各コアエンティティの各概念情報と処理すべきテキストとの関連性を決定して、各コアエンティティの各概念情報と処理すべきテキストとの関連性に基づいて、各コアエンティティに対応する各概念情報から、処理すべきテキストのテーマを取得する。これによって、知識グラフを融合することで、コアエンティティの知識グラフでの概念情報を利用して短いテキスト情報を拡張し、それにより、より多くの隠在的なテーマ情報をマイニングし、テキストテーマの生成精度をさらに向上させる。
本出願の1つの可能な実現形態では、処理すべきテキスト中の隠在的なテーマ情報をさらにマイニングするために、処理すべきテキストのテーマ情報をテーマグラフによりマイニングするとき、さらに候補テーマに対応する上位テーマを利用して処理すべきテキストのテーマを審査してもよく、テキストテーマの生成精度をさらに向上させる。
以下、図5を参照しながら、本出願の実施例に係るテキストテーマ生成方法についてさらに説明する。
図5は、本出願の実施例に係る再びテキストテーマ生成方法の概略フローチャートである。
図5に示すように、該テキストテーマ生成方法は、以下のステップを含む。
ステップ301:処理すべきテキストに対してエンティティマイニングを行い、処理すべきテキストに含まれる各エンティティを取得する。
ステップ302:エンティティリンクにより、知識グラフでの、それぞれ処理すべきテキストに含まれる各エンティティに対応する各候補エンティティを決定する。
ステップ303:各候補エンティティと知識グラフでの他のエンティティとの関連性に基づいて、各候補エンティティをクラスタリングし、処理すべきテキストに対応するコアエンティティセットを決定する。
ステップ304:処理すべきテキスト中の各キーワードのそれぞれと予め設定されたテーマグラフでの各参照テーマとのマッチング度に基づいて、処理すべきテキストに含まれる各候補テーマを決定する。
上記ステップ301〜304の具体的な実現過程及び原理については、上記実施例の詳細な説明を参照でき、ここで繰り返し説明しない。
ステップ305:予め設定されたテーマグラフから、各候補テーマに対応する上位テーマを処理すべきテキストに対応する拡張テーマとして抽出する。
本出願の実施例では、予め設定されたテーマグラフは、テーマ及び各テーマ間の階層関係を含んでもよい。従って、1つの可能な実現形態としては、処理すべきテキストに対応する各候補テーマを決定した後、各候補テーマの予め設定されたテーマグラフでの階層関係に基づいて、予め設定されたテーマグラフから各候補テーマの上位テーマを、処理すべきテキストの拡張テーマとして抽出して、処理すべきテキストの隠在的なテーマ情報を予め設定されたテーマグラフによりさらにマイニングし、テーマ生成精度を向上させる。
ステップ306:各拡張テーマと処理すべきテキストとの関連性に基づいて、拡張テーマから処理すべきテキストのテーマを取得する。
本出願の実施例では、処理すべきテキストに対応する各拡張テーマを決定した後、予め設定された分類モデルを利用して各拡張テーマと処理すべきテキストとの関連性を決定し、さらに処理すべきテキストとの関連性が高い拡張テーマを処理すべきテキストのテーマとして決定することができる。
なお、拡張テーマと処理すべきテキストとの関連性を決定する方式は、コアエンティティの概念情報と処理すべきテキストとの関連を決定する方式と同じであり、各拡張テーマと処理すべきテキストとの関連性に基づいて、拡張テーマから処理すべきテキストのテーマを取得する方式は、各概念情報と処理すべきテキストとの関連性に基づいて、各概念情報から処理すべきテキストを取得する方式と同じであり、具体的な実現過程及び原理については、上記実施例の詳細な説明を参照でき、ここで繰り返し説明しない。
ステップ307:コアエンティティセットにおける各コアエンティティと処理すべきテキストとの関連性、及び各候補テーマと処理すべきテキストとの関連性に基づいて、コアエンティティセット及び各候補テーマから、処理すべきテキストのテーマを取得する。
上記ステップ307の具体的な実現過程及び原理については、上記実施例の詳細な説明を参照でき、ここで繰り返し説明しない。
本出願の実施例の技術案によれば、エンティティリンクにより、知識グラフでの、それぞれ処理すべきテキストに含まれる各エンティティに対応する各候補エンティティを決定し、各候補エンティティと知識グラフでの他のエンティティとの関連性に基づいて、各候補エンティティをクラスタリングし、処理すべきテキストに対応するコアエンティティセットを決定し、この後、処理すべきテキスト中の各キーワードのそれぞれと予め設定されたテーマグラフでの各参照テーマとのマッチング度に基づいて、処理すべきテキストに含まれる各候補テーマを決定し、さらに予め設定されたテーマグラフから、各候補テーマに対応する上位テーマを処理すべきテキストに対応する拡張テーマとして抽出して、各拡張テーマと処理すべきテキストとの関連性に基づいて、拡張テーマから処理すべきテキストのテーマを取得し、コアエンティティセットにおける各コアエンティティと処理すべきテキストとの関連性、及び各候補テーマと処理すべきテキストとの関連性に基づいて、コアエンティティセット及び各候補テーマから、処理すべきテキストのテーマを取得する。これによって、テーマグラフを融合することで、候補テーマのテーマグラフでの上位テーマを利用して処理すべきテキストのテーマを拡張し、それにより、より多くの隠在的なテーマ情報をマイニングし、テキストテーマの生成精度をさらに向上させる。
本出願の1つの可能な実現形態では、処理すべきテキストに対応するコアエンティティセットを決定した後、さらに知識グラフでのコアエンティティセットの特性に基づいて、コアエンティティセットの一部を削除し、それにより、一部が削除された後のコアエンティティセットが一層処理すべきテキストのテーマに一致し、テキストテーマの生成精度をさらに向上させる。
以下、図6を参照しながら、本出願の実施例に係るテキストテーマ生成方法について、さらに説明する。
図6は、本出願の実施例に係る他のテキストテーマ生成方法の概略フローチャートである。
図6に示すように、該テキストテーマ生成方法は、以下のステップを含む。
ステップ401:処理すべきテキストに対してエンティティマイニングを行い、処理すべきテキストに含まれる各エンティティを取得する。
ステップ402:エンティティリンクにより、知識グラフでの、それぞれ処理すべきテキストに含まれる各エンティティに対応する各候補エンティティを決定する。
ステップ403:各候補エンティティと知識グラフでの他のエンティティとの関連性に基づいて、各候補エンティティをクラスタリングし、処理すべきテキストに対応するコアエンティティセットを決定する。
上記ステップ401〜403の具体的な実現過程及び原理については、上記実施例の詳細な説明を参照でき、ここで繰り返し説明しない。
ステップ404:各コアエンティティの各概念情報と上位経路情報とのマッチング度を決定し、コアエンティティセットには、各コアエンティティに対応する概念情報セット及び上位経路情報が含まれる。
概念情報と上位経路情報とのマッチング度は、意味類似度など、概念情報と上位経路情報との類似程度であってもよい。例えば、概念情報と上位経路情報とのコサイン類似度を利用して、両者のマッチング度を表してもよい。
本出願の実施例では、知識グラフは、エンティティ及び各エンティティに対応する概念情報と上位経路情報を含んでもよい。例えば、エンティティ『楚喬伝』に対応する概念情報セットが「女性主役の努力伝奇時代劇、中国語番組、愛情番組、ストーリー番組」であり、上位経路情報が「楚喬伝→小説原作番組→小説原作ドラマ→小説原作作品→作品→文化→ルート(root)」である。エンティティの知識グラフでの概念情報と上位経路情報とのマッチング度は、該エンティティの情報確実性を表すことができ、それにより、コアエンティティの各概念情報と上位経路情報とのマッチング度に基づいて、コアエンティティセットの一部を削除することができる。
具体的には、処理すべきテキストに対応するコアエンティティを決定した後、該コアエンティティに対応する概念情報セット及び上位経路情報を知識グラフから取得して、コアエンティティセットを構成してもよい。コアエンティティセットにおける各コアエンティティに対して、それぞれ概念情報セット中の各概念情報と上位経路情報のうちの各経路情報とのマッチング度を決定してもよい。
例としては、概念情報と上位経路情報とのマッチング度が両者間のコサイン類似度であり、コアエンティティセットに1つのコアエンティティ『楚喬伝』が含まれ、コアエンティティ『楚喬伝』に対応する概念情報セットが「女性主役の努力伝奇時代劇、中国語番組、愛情番組、ストーリー番組」であり、上位経路情報が「楚喬伝→小説原作番組→小説原作ドラマ→小説原作作品→作品→文化→ルート(root)」であり、概念情報「女性主役の努力伝奇時代劇」と小説原作番組、小説原作ドラマ、小説原作作品、作品、文化、ルート(root)のそれぞれとのコサイン類似度、すなわち、概念情報「女性主役の努力伝奇時代劇」と各経路情報とのマッチング度を計算してもよく、これに対応して、同一の方式で概念情報セット中の他の各概念情報のそれぞれと各上位経路情報とのマッチング度を順次決定する。
ステップ405:各コアエンティティの各概念情報と上位経路情報とのマッチング度に基づいて、処理すべきテキストに対応するコアエンティティセットの一部を削除する。
本出願の実施例では、各コアエンティティの各概念情報と上位経路情報とのマッチング度に基づいて、コアエンティティセットにおける、マッチング度が低いコアエンティティを除去するか、またはコアエンティティに対応する、マッチング度が低い概念情報を除去することで、コアエンティティセットの一部を削除することができる。すなわち、本出願の実施例の1つの可能な実現形態では、上記ステップ405は、各コアエンティティの各概念情報と上位経路情報とのマッチング度に基づいて、各コアエンティティの概念情報セットの一部を削除するステップ、及び/または、各コアエンティティの各概念情報と上位経路情報とのマッチング度に基づいて、各コアエンティティの信頼度を決定するステップと、各コアエンティティの信頼度に基づいて、コアエンティティの数を減少させるステップと、を含んでもよい。
1つの可能な実現形態としては、マッチング度閾値を予め設定してもよく、それにより、各コアエンティティの各概念情報と上位経路情報とのマッチング度及びマッチング度閾値に基づいて、各上位経路情報のマッチング度がいずれもマッチング度閾値より小さい概念情報をコアエンティティセットから除去する。
1つの可能な実現形態としては、コアエンティティの各概念情報と各上位経路情報とのマッチング度がいずれもマッチング度閾値より小さい場合、該コアエンティティの信頼度が低いと決定することができ、それにより、該コアエンティティをコアエンティティセットから除去できる。
例としては、コアエンティティセットにコアエンティティ『楚喬伝』及び「趙麗穎」が含まれ、コアエンティティ『楚喬伝』に対応する概念情報セットが「女性主役の努力伝奇時代劇、中国語番組、愛情番組、ストーリー番組、愛情物語」であり、上位経路情報が「楚喬伝→小説原作番組→小説原作ドラマ→小説原作作品→作品→文化→ルート(root)」であり、コアエンティティ「趙麗穎」に対応する概念情報セットが「俳優、女性」であり、上位経路情報が「趙麗穎→小説原作番組→小説原作ドラマ→小説原作作品→作品→文化→ルート(root)」であり、概念情報「女性主役の努力伝奇時代劇」と「小説原作番組」とのマッチング度がマッチング度閾値より大きく、概念情報「中国語番組」、「愛情番組」、「ストーリー番組」のそれぞれと「作品」とのマッチング度がマッチング度閾値より大きく、概念情報「愛情物語」と任意の上位経路情報とのマッチング度がいずれもマッチング度閾値より小さく、それにより、概念情報「愛情物語」をコアエンティティセットから除去することができ、コアエンティティ「趙麗穎」の概念情報「俳優」、「女性」と任意の上位経路情報とのマッチング度がいずれもマッチング度閾値より小さいと決定すると、コアエンティティ「趙麗穎」の信頼度が低いと決定することができ、それにより、コアエンティティ「趙麗穎」をコアエンティティセットから除去することができる。
ステップ406:処理すべきテキスト中の各キーワードのそれぞれと予め設定されたテーマグラフでの各参照テーマとのマッチング度に基づいて、処理すべきテキストに含まれる各候補テーマを決定する。
ステップ407:コアエンティティセットにおける各コアエンティティと処理すべきテキストとの関連性、及び各候補テーマと処理すべきテキストとの関連性に基づいて、コアエンティティセット及び各候補テーマから、処理すべきテキストのテーマを取得する。
上記ステップ406〜407の具体的な実現過程及び原理については、上記実施例の詳細な説明を参照でき、ここで繰り返し説明しない。
本出願の実施例の技術案によれば、エンティティリンクにより、知識グラフでの、それぞれ処理すべきテキストに含まれる各エンティティに対応する各候補エンティティを決定し、各候補エンティティと知識グラフでの他のエンティティとの関連性に基づいて、各候補エンティティをクラスタリングし、処理すべきテキストに対応するコアエンティティセットを決定し、この後、各コアエンティティの各概念情報と上位経路情報とのマッチング度を決定し、各コアエンティティの各概念情報と上位経路情報とのマッチング度に基づいて、処理すべきテキストに対応するコアエンティティセットの一部を削除し、及び処理すべきテキスト中の各キーワードのそれぞれと予め設定されたテーマグラフでの各参照テーマとのマッチング度に基づいて、処理すべきテキストに含まれる各候補テーマを決定し、さらにコアエンティティセットにおける各コアエンティティと処理すべきテキストとの関連性、及び各候補テーマと処理すべきテキストとの関連性に基づいて、コアエンティティセット及び各候補テーマから、処理すべきテキストのテーマを取得する。これによって、知識グラフ及びテーマグラフ情報を融合することで、短いテキスト情報及び候補テーマを拡張し、知識グラフ情報を利用して信頼度が低いコアエンティティを除去し、それにより、より多くの隠在的なテーマ情報をマイニングするとともに、隠在的なテーマの信頼度を向上させ、テキストテーマの生成精度をさらに向上させる。
本出願は、上記実施例を実現するために、テキストテーマ生成装置をさらに提供する。
図7は、本出願の実施例に係るテキストテーマ生成装置の概略構成図である。
図7に示すように、該テキストテーマ生成装置50は、処理すべきテキストに対してエンティティマイニングを行い、処理すべきテキストに含まれる各エンティティを取得するための第1の取得モジュール51と、エンティティリンクにより、知識グラフでの、それぞれ処理すべきテキストに含まれる各エンティティに対応する各候補エンティティを決定するための第1の決定モジュール52と、各候補エンティティと知識グラフでの他のエンティティとの関連性に基づいて、各候補エンティティをクラスタリングし、処理すべきテキストに対応するコアエンティティセットを決定するための第2の決定モジュール53と、処理すべきテキスト中の各キーワードのそれぞれと予め設定されたテーマグラフでの各参照テーマとのマッチング度に基づいて、処理すべきテキストに含まれる各候補テーマを決定するための第3の決定モジュール54と、コアエンティティセットにおける各コアエンティティと処理すべきテキストとの関連性、及び各候補テーマと処理すべきテキストとの関連性に基づいて、コアエンティティセット及び各候補テーマから、処理すべきテキストのテーマを取得するための第2の取得モジュール55と、を備える。
実際の使用では、本出願の実施例に係るテキストテーマ生成装置は、前述したテキストテーマ生成方法を実行するために、任意の電子機器に配置されてもよい。
本出願の実施例の技術案によれば、エンティティリンクにより、知識グラフでの、それぞれ処理すべきテキストに含まれる各エンティティに対応する各候補エンティティを決定し、各候補エンティティと知識グラフでの他のエンティティとの関連性に基づいて、各候補エンティティをクラスタリングし、処理すべきテキストに対応するコアエンティティセットを決定し、この後、処理すべきテキスト中の各キーワードのそれぞれと予め設定されたテーマグラフでの各参照テーマとのマッチング度に基づいて、処理すべきテキストに含まれる各候補テーマを決定し、さらにコアエンティティセットにおける各コアエンティティと処理すべきテキストとの関連性、及び各候補テーマと処理すべきテキストとの関連性に基づいて、コアエンティティセット及び各候補テーマから、処理すべきテキストのテーマを取得する。これによって、知識グラフ及びテーマグラフ情報を融合することで、短いテキスト情報及び候補テーマを拡張し、それにより、より多くの隠在的なテーマ情報をマイニングし、テキストテーマの生成精度を向上させる。
本出願の1つの可能な実現形態では、上記第2の決定モジュール53は、具体的には、各候補エンティティと知識グラフでの他のエンティティとの関連性に基づいて、各候補エンティティを含む関連性ネットワークを構築し、関連性ネットワークにおける各ノードが1つの候補エンティティに対応し、2つのノード間のエッジの方向が2つのノード間の階層関係を特徴付け、各候補エンティティ間のエッジの方向に基づいて、各候補エンティティをクラスタリングし、処理すべきテキストに対応するコアエンティティセットを決定するために用いられる。
さらに、本出願の他の可能な実現形態では、上記コアエンティティセットには、各コアエンティティに対応する概念情報セット及び上位経路情報が含まれ、これに対応し、上記テキストテーマ生成装置50は、各コアエンティティの各概念情報と上位経路情報とのマッチング度を決定するための第4の決定モジュールと、各コアエンティティの各概念情報と上位経路情報とのマッチング度に基づいて、処理すべきテキストに対応するコアエンティティセットの一部を削除するための部分削除モジュールと、をさらに備える。
さらに、本出願の他の可能な実現形態では、上記部分削除モジュールは、具体的には、各コアエンティティの各概念情報と上位経路情報とのマッチング度に基づいて、各コアエンティティの概念情報セットの一部を削除し、及び/または、各コアエンティティの各概念情報と上位経路情報とのマッチング度に基づいて、各コアエンティティの信頼度を決定し、各コアエンティティの信頼度に基づいて、コアエンティティの数を減少させるために用いられる。
さらに、本出願の他の可能な実現形態では、上記テキストテーマ生成装置50は、予め設定されたテーマグラフから、各候補テーマに対応する上位テーマを処理すべきテキストに対応する拡張テーマとして抽出するための抽出モジュールと、各拡張テーマと処理すべきテキストとの関連性に基づいて、拡張テーマから処理すべきテキストのテーマを選択するための第3の取得モジュールと、をさらに備える。
さらに、本出願の他の可能な実現形態では、第1のコアエンティティは、知識グラフにおいて少なくとも2つの概念情報を含み、これに対応し、上記第2の取得モジュール55は、具体的には、予め設定された分類モデルを利用して、それぞれ第1のコアエンティティに対応する各概念情報及び処理すべきテキストに対して符号化・復号化処理を行い、各概念情報と処理すべきテキストとの関連性を決定し、第1のコアエンティティの各概念情報と処理すべきテキストとの関連性に基づいて、第1のコアエンティティと処理すべきテキストとの関連性を決定し、第1のコアエンティティと処理すべきテキストとの関連性に基づいて、第1のコアエンティティが処理すべきテキストのテーマであるか否かを決定するために用いられる。
さらに、本出願の他の可能な実現形態では、上記テキストテーマ生成装置50は、予め設定された分類モデルを利用して、各コアエンティティの知識グラフでの各概念情報及び処理すべきテキストに対して符号化・復号化処理を行い、各コアエンティティの各概念情報と処理すべきテキストとの関連性を決定するための第5の決定モジュールをさらに備え、前記第2の取得モジュール55は、さらに、各コアエンティティの各概念情報と処理すべきテキストとの関連性に基づいて、各コアエンティティに対応する各概念情報から、処理すべきテキストのテーマを取得するために用いられる。
なお、図1、図4、図5、図6に示すテキストテーマ生成方法実施例についての前述した説明も該実施例のテキストテーマ生成装置50に適用でき、ここで繰り返し説明しない。
本出願の実施例の技術案によれば、エンティティリンクにより、知識グラフでの、それぞれ処理すべきテキストに含まれる各エンティティに対応する各候補エンティティを決定し、各候補エンティティと知識グラフでの他のエンティティとの関連性に基づいて、各候補エンティティをクラスタリングし、処理すべきテキストに対応するコアエンティティセットを決定し、この後、処理すべきテキスト中の各キーワードのそれぞれと予め設定されたテーマグラフでの各参照テーマとのマッチング度に基づいて、処理すべきテキストに含まれる各候補テーマを決定し、さらに予め設定された分類モデルを利用して、各コアエンティティの各概念情報と処理すべきテキストとの関連性を決定して、各コアエンティティの各概念情報と処理すべきテキストとの関連性に基づいて、各コアエンティティに対応する各概念情報から、処理すべきテキストのテーマを取得する。これによって、知識グラフを融合することで、コアエンティティの知識グラフでの概念情報を利用して短いテキスト情報を拡張し、それにより、より多くの隠在的なテーマ情報をマイニングし、テキストテーマの生成精度をさらに向上させる。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
図8に示すように、本出願の実施例によるテキストテーマ生成方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/または要求される本出願の実現を制限することを意図したものではない。
図8に示すように、該電子機器は、1つのまたは複数のプロセッサ801と、メモリ802と、高速インターフェース及び低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を備える。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、または必要に応じて他の方式で取り付けることができる。プロセッサは、メモリ内またはメモリ上において外部入力/出力装置(例えば、インターフェースにカップリングされた表示機器)にGUIのグラフィック情報を表示する命令を含んだ、電子機器内に実行される命令を処理する。他の実施形態では、必要であれば、複数のプロセッサ及び/または複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、一部の必要な操作(例えば、サーババンク、1群のブレードサーバ、またはマルチプロセッサシステムとして)を提供することができる。図8では、1つのプロセッサ801を例とする。
メモリ802は、本出願に係る非一時的なコンピュータ読み取り可能な記憶媒体である。前記記憶装置には、少なくとも1つのプロセッサによって実行可能な命令を記憶し、それにより、前記少なくとも1つのプロセッサが本出願に係るテキストテーマ生成方法を実行する。本出願の非一時的なコンピュータ読み取り可能な記憶媒体にはコンピュータ命令を記憶し、該コンピュータ命令は、コンピュータに本出願に係るテキストテーマ生成方法を実行させるために用いられる。
メモリ802は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例に係るテキストテーマ生成方法に対応するプログラム命令/モジュール(例えば、図7に示す第1の取得モジュール51、第1の決定モジュール52、第2の決定モジュール53、第3の決定モジュール54及び第2の取得モジュール55)などの、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するように構成される。プロセッサ801は、メモリ802に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法実施例に係るテキストテーマ生成方法を実現する。
メモリ802は、プログラム記憶領域とデータ記憶領域と、を含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、記憶データ領域は、テキストテーマ生成方法の電子機器の使用に基づいて作成されるデータなどを記憶することができる。また、メモリ802は、高速ランダムアクセスメモリを含んでもよく、非一時的なメモリをさらに含んでもよく、例えば、少なくとも1つのディスクストレージデバイス、フラッシュメモリデバイス、または他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ802は、プロセッサ801に対して遠隔に設けられたメモリを選択的に含んでもよく、これらの遠隔メモリは、ネットワークを介してテキストテーマ生成方法の電子機器に接続されてもよい。上記ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
テキストテーマ生成方法の電子機器は、さらに、入力装置803及び出力装置804を備えてもよい。プロセッサ801、メモリ802、入力装置803及び出力装置804は、バスまたは他の方式を介して接続することができ、図8では、バスによる接続を例とする。
入力装置803は、入力された数字またはキャラクタ情報を受信し、テキストテーマ生成方法の電子機器のユーザ〜を設置する及び機能コントロールに関連するキー信号入力を生成してもよく、例えばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、1つのまたは複数のマウスキー、トラックボール、ジョイスティックなどの入力装置である。出力装置804は、表示機器、補助照明装置(例えば、LED)及び触覚フィードバック装置(例えば、バイブラモータ)などを含んでもよい。該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含んでもよいがこれらに限られない。いくつかの実施形態では、表示機器は、タッチスクリーンであり得る。
ここで説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/またはそれらの組合せで実現することができる。これらの様々な実施形態は、1つまたは複数のコンピュータプログラムで実施されること、を含むことができ、該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び/または解釈でき、該プログラマブルプロセッサは、特定用途向けまたは汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、該ストレージシステム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができる。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも称される)は、プログラマブルプロセッサに対するマシン命令を含み、高度レベル手続き型及び/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/マシン言語で実施することができる。本明細書で使用される際、「マシン読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、マシン命令及び/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))であり、マシン読み取り可能な信号であるマシン命令を受信する機器読み取り可能な媒体を含む。用語「マシン読み取り可能な信号」とは、マシン命令及び/またはデータをプログラマブルプロセッサに提供するための任意の信号である。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、該コンピュータは、ユーザに情報を表示するための表示機器(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウスまたはトラックボール)とを有し、ユーザは、該キーボード及び該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられてもよい。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力と、を含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、またはミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータ、ユーザは、該グラフィカルユーザインタフェースまたは該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、及びフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態または媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されてもよい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、を含む。
コンピュータシステムは、クライアント側とサーバと、を含むことができる。クライアント側とサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント−サーバ関係を有するコンピュータプログラムによってクライアント側とサーバとの関係が生成される。
本出願の実施例の技術案によれば、エンティティリンクにより、知識グラフでの、それぞれ処理すべきテキストに含まれる各エンティティに対応する各候補エンティティを決定し、各候補エンティティと知識グラフでの他のエンティティとの関連性に基づいて、各候補エンティティをクラスタリングし、処理すべきテキストに対応するコアエンティティセットを決定し、この後、処理すべきテキスト中の各キーワードのそれぞれと予め設定されたテーマグラフでの各参照テーマとのマッチング度に基づいて、処理すべきテキストに含まれる各候補テーマを決定し、さらにコアエンティティセットにおける各コアエンティティと処理すべきテキストとの関連性、及び各候補テーマと処理すべきテキストとの関連性に基づいて、コアエンティティセット及び各候補テーマから、処理すべきテキストのテーマを取得する。これによって、知識グラフ及びテーマグラフ情報を融合することで、短いテキスト情報及び候補テーマを拡張し、それにより、より多くの隠在的なテーマ情報をマイニングし、テキストテーマの生成精度を向上させる。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、または削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び置換を行うことができる。本出願の要旨と原則内で行われる任意の修正、同等の置換や改良などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (17)

  1. テキストテーマ生成方法であって、
    処理すべきテキストに対してエンティティマイニングを行い、処理すべきテキストに含まれる各エンティティを取得するステップと、
    エンティティリンクにより、知識グラフでの、前記処理すべきテキストに含まれる各エンティティにそれぞれ対応する各候補エンティティを決定するステップと、
    各候補エンティティと前記知識グラフでの他のエンティティとの関連性に基づいて、各候補エンティティをクラスタリングし、前記処理すべきテキストに対応するコアエンティティセットを決定するステップと、
    前記処理すべきテキスト中の各キーワードのそれぞれと予め設定されたテーマグラフでの各参照テーマとのマッチング度に基づいて、前記処理すべきテキストに含まれる各候補テーマを決定するステップと、
    前記コアエンティティセットにおける各コアエンティティと前記処理すべきテキストとの関連性、及び各候補テーマと前記処理すべきテキストとの関連性に基づいて、前記コアエンティティセット及び前記各候補テーマから前記処理すべきテキストのテーマを取得するステップと、を含む、テキストテーマ生成方法。
  2. 各候補エンティティと前記知識グラフでの他のエンティティとの関連性に基づいて、各候補エンティティをクラスタリングするステップは、
    各候補エンティティと前記知識グラフでの他のエンティティとの関連性に基づいて、前記各候補エンティティを含む関連性ネットワークを構築するステップであって、前記関連性ネットワークにおける各ノードが1つの候補エンティティに対応し、2つのノード間のエッジの方向が2つのノード間の階層関係を特徴付けるステップと、
    各候補エンティティ間のエッジの方向に基づいて、各候補エンティティをクラスタリングし、前記処理すべきテキストに対応するコアエンティティセットを決定するステップと、を含む、請求項1に記載の方法。
  3. 前記コアエンティティセットには、各コアエンティティに対応する概念情報セット及び上位経路情報が含まれ、
    前記処理すべきテキストに対応するコアエンティティセットを決定するステップの後、
    各コアエンティティの各概念情報と上位経路情報とのマッチング度を決定するステップと、
    各コアエンティティの各概念情報と上位経路情報とのマッチング度に基づいて、前記処理すべきテキストに対応するコアエンティティセットの一部を削除するステップと、を含む、請求項1に記載の方法。
  4. 前記処理すべきテキストに対応するコアエンティティセットの一部を削除するステップは、
    各コアエンティティの各概念情報と上位経路情報とのマッチング度に基づいて、各コアエンティティの概念情報セットの一部を削除するステップ、
    及び/または、
    各コアエンティティの各概念情報と上位経路情報とのマッチング度に基づいて、各コアエンティティの信頼度を決定するステップと、各コアエンティティの信頼度に基づいて、コアエンティティの数を減少させるステップと、を含む、請求項3に記載の方法。
  5. 前記処理すべきテキストに含まれる各候補テーマを決定するステップの後、
    前記予め設定されたテーマグラフから、各候補テーマに対応する上位テーマを前記処理すべきテキストに対応する拡張テーマとして抽出するステップと、
    各拡張テーマと前記処理すべきテキストとの関連性に基づいて、前記拡張テーマから前記処理すべきテキストのテーマを取得するステップと、をさらに含む、請求項1に記載の方法。
  6. 第1のコアエンティティは、前記知識グラフにおいて少なくとも2つの概念情報を含み、
    前記コアエンティティセット及び前記各候補テーマから前記処理すべきテキストのテーマを取得するステップは、
    予め設定された分類モデルを利用して、それぞれ第1のコアエンティティに対応する各概念情報及び前記処理すべきテキストに対して符号化・復号化処理を行い、各概念情報と前記処理すべきテキストとの関連性を決定するステップと、
    前記第1のコアエンティティの各概念情報と前記処理すべきテキストとの関連性に基づいて、前記第1のコアエンティティと前記処理すべきテキストとの関連性を決定するステップと、
    前記第1のコアエンティティと前記処理すべきテキストとの関連性に基づいて、前記第1のコアエンティティが前記処理すべきテキストのテーマであるか否かを決定するステップと、を含む、請求項1から請求項5のいずれか1項に記載の方法。
  7. 前記コアエンティティセット及び前記各候補テーマから前記処理すべきテキストのテーマを取得するステップの前、
    予め設定された分類モデルを利用して、各コアエンティティの前記知識グラフでの各概念情報及び前記処理すべきテキストに対して符号化・復号化処理を行い、各コアエンティティの各概念情報と前記処理すべきテキストとの関連性を決定するステップをさらに含み、
    前記コアエンティティセット及び前記各候補テーマから前記処理すべきテキストのテーマを取得するステップは、
    各コアエンティティの各概念情報と前記処理すべきテキストとの関連性に基づいて、各コアエンティティに対応する各概念情報から、前記処理すべきテキストのテーマを取得するステップを含む、請求項1から請求項5のいずれか1項に記載の方法。
  8. テキストテーマ生成装置であって、
    処理すべきテキストに対してエンティティマイニングを行い、処理すべきテキストに含まれる各エンティティを取得するための第1の取得モジュールと、
    エンティティリンクにより、知識グラフでの、前記処理すべきテキストに含まれる各エンティティにそれぞれ対応する各候補エンティティを決定するための第1の決定モジュールと、
    各候補エンティティと前記知識グラフでの他のエンティティとの関連性に基づいて、各候補エンティティをクラスタリングし、前記処理すべきテキストに対応するコアエンティティセットを決定するための第2の決定モジュールと、
    前記処理すべきテキスト中の各キーワードのそれぞれと予め設定されたテーマグラフでの各参照テーマとのマッチング度に基づいて、前記処理すべきテキストに含まれる各候補テーマを決定するための第3の決定モジュールと、
    前記コアエンティティセットにおける各コアエンティティと前記処理すべきテキストとの関連性、及び各候補テーマと前記処理すべきテキストとの関連性に基づいて、前記コアエンティティセット及び前記各候補テーマから前記処理すべきテキストのテーマを取得するための第2の取得モジュールと、を備える、テキストテーマ生成装置。
  9. 前記第2の決定モジュールは、具体的には、
    各候補エンティティと前記知識グラフでの他のエンティティとの関連性に基づいて、前記各候補エンティティを含む関連性ネットワークを構築し、前記関連性ネットワークにおける各ノードが1つの候補エンティティに対応し、2つのノード間のエッジの方向が2つのノード間の階層関係を特徴付け、
    各候補エンティティ間のエッジの方向に基づいて、各候補エンティティをクラスタリングし、前記処理すべきテキストに対応するコアエンティティセットを決定するために用いられる、請求項8に記載の装置。
  10. 前記コアエンティティセットには、各コアエンティティに対応する概念情報セット及び上位経路情報が含まれ、
    各コアエンティティの各概念情報と上位経路情報とのマッチング度を決定するための第4の決定モジュールと、
    各コアエンティティの各概念情報と上位経路情報とのマッチング度に基づいて、前記処理すべきテキストに対応するコアエンティティセットの一部を削除するための部分削除モジュールと、をさらに備える、請求項8に記載の装置。
  11. 前記部分削除モジュールは、具体的には、
    各コアエンティティの各概念情報と上位経路情報とのマッチング度に基づいて、各コアエンティティの概念情報セットの一部を削除し、
    及び/または、
    各コアエンティティの各概念情報と上位経路情報とのマッチング度に基づいて、各コアエンティティの信頼度を決定し、各コアエンティティの信頼度に基づいて、コアエンティティの数を減少させるために用いられる、請求項10に記載の装置。
  12. 前記予め設定されたテーマグラフから、各候補テーマに対応する上位テーマを前記処理すべきテキストに対応する拡張テーマとして抽出するための抽出モジュールと、
    各拡張テーマと前記処理すべきテキストとの関連性に基づいて、前記拡張テーマから前記処理すべきテキストのテーマを選択するための第3の取得モジュールと、をさらに備える、請求項8に記載の装置。
  13. 第1のコアエンティティは、前記知識グラフにおいて少なくとも2つの概念情報を含み、
    前記第2の取得モジュールは、具体的には、
    予め設定された分類モデルを利用して、それぞれ第1のコアエンティティに対応する各概念情報及び前記処理すべきテキストに対して符号化・復号化処理を行い、各概念情報と前記処理すべきテキストとの関連性を決定し、
    前記第1のコアエンティティの各概念情報と前記処理すべきテキストとの関連性に基づいて、前記第1のコアエンティティと前記処理すべきテキストとの関連性を決定し、
    前記第1のコアエンティティと前記処理すべきテキストとの関連性に基づいて、前記第1のコアエンティティが前記処理すべきテキストのテーマであるか否かを決定するために用いられる、請求項8から請求項12のいずれか1項に記載の装置。
  14. 予め設定された分類モデルを利用して、各コアエンティティの前記知識グラフでの各概念情報及び前記処理すべきテキストに対して符号化・復号化処理を行い、各コアエンティティの各概念情報と前記処理すべきテキストとの関連性を決定するための第5の決定モジュールをさらに備え、
    前記第2の取得モジュールは、さらに、
    各コアエンティティの各概念情報と前記処理すべきテキストとの関連性に基づいて、各コアエンティティに対応する各概念情報から、前記処理すべきテキストのテーマを取得するために用いられる、請求項8から請求項12のいずれか1項に記載の装置。
  15. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されるメモリと、を備え、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1から請求項7のいずれか1項に記載の方法を実行できる、電子機器。
  16. コンピュータ命令を記憶する非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項1から請求項7のいずれか1項に記載の方法を実行させるために用いられる、非一時的なコンピュータ読み取り可能な記憶媒体。
  17. コンピュータ上で動作しているときに、請求項1から請求項7のいずれか1項に記載の方法を前記コンピュータに実行させる、コンピュータプログラム。
JP2021003994A 2020-01-14 2021-01-14 テキストテーマ生成方法、テキストテーマ生成装置、電子機器、記憶媒体およびコンピュータプログラム Active JP7118184B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010039104.9A CN111241282B (zh) 2020-01-14 2020-01-14 文本主题生成方法、装置及电子设备
CN202010039104.9 2020-01-14

Publications (2)

Publication Number Publication Date
JP2021111415A true JP2021111415A (ja) 2021-08-02
JP7118184B2 JP7118184B2 (ja) 2022-08-15

Family

ID=70864536

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021003994A Active JP7118184B2 (ja) 2020-01-14 2021-01-14 テキストテーマ生成方法、テキストテーマ生成装置、電子機器、記憶媒体およびコンピュータプログラム

Country Status (5)

Country Link
US (1) US20210216580A1 (ja)
EP (1) EP3851975A1 (ja)
JP (1) JP7118184B2 (ja)
KR (1) KR102451496B1 (ja)
CN (1) CN111241282B (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527977B (zh) * 2020-11-09 2024-06-25 清华大学 概念抽取方法、装置、电子设备及存储介质
CN112148843B (zh) * 2020-11-25 2021-05-07 中电科新型智慧城市研究院有限公司 文本处理方法、装置、终端设备和存储介质
CN112541359B (zh) * 2020-11-27 2024-02-02 北京百度网讯科技有限公司 文档内容识别方法、装置、电子设备及介质
CN112463895B (zh) * 2020-12-01 2024-06-11 零氪科技(北京)有限公司 基于药物名称挖掘自动发现药物成分的方法和装置
CN113407842B (zh) * 2021-06-28 2024-03-22 携程旅游信息技术(上海)有限公司 模型训练方法、主题推荐理由的获取方法及系统、电子设备
CN113792115B (zh) * 2021-08-17 2024-03-22 北京百度网讯科技有限公司 实体相关性确定方法、装置、电子设备及存储介质
CN113836313B (zh) * 2021-09-13 2022-11-25 北京信息科技大学 一种基于图谱的审计信息识别方法与系统
CN113868508B (zh) * 2021-09-23 2022-09-27 北京百度网讯科技有限公司 写作素材查询方法、装置、电子设备和存储介质
EP4413719A1 (en) * 2021-10-08 2024-08-14 Graphite Growth, Inc. Generation and use of content briefs for network content authoring
CN114492429B (zh) * 2022-01-12 2023-07-18 平安科技(深圳)有限公司 文本主题的生成方法、装置、设备及存储介质
US20230297784A1 (en) * 2022-03-17 2023-09-21 International Business Machines Corporation Automated decision modelling from text
CN116955573B (zh) * 2023-09-19 2024-03-29 北京奇虎科技有限公司 问题搜索方法、装置、设备及存储介质
CN117371440B (zh) * 2023-12-05 2024-03-12 广州阿凡提电子科技有限公司 基于aigc的话题文本大数据分析方法及系统
CN117934229B (zh) * 2024-03-18 2024-06-21 新励成教育科技股份有限公司 基于创意激发的口才训练引导方法、系统、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278949A (ja) * 2001-03-19 2002-09-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk 表題生成装置及び方法
JP2012173808A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム
JP2015125650A (ja) * 2013-12-26 2015-07-06 日本放送協会 トピック抽出装置、及びプログラム
US20180307667A1 (en) * 2015-12-30 2018-10-25 Alibaba Group Holding Limited Travel guide generating method and system

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8385971B2 (en) * 2008-08-19 2013-02-26 Digimarc Corporation Methods and systems for content processing
US9158838B2 (en) * 2008-12-15 2015-10-13 Raytheon Company Determining query return referents for concept types in conceptual graphs
US10324598B2 (en) * 2009-12-18 2019-06-18 Graphika, Inc. System and method for a search engine content filter
US11386096B2 (en) * 2011-02-22 2022-07-12 Refinitiv Us Organization Llc Entity fingerprints
US11222052B2 (en) * 2011-02-22 2022-01-11 Refinitiv Us Organization Llc Machine learning-based relationship association and related discovery and
US8589408B2 (en) * 2011-06-20 2013-11-19 Microsoft Corporation Iterative set expansion using samples
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US9461876B2 (en) * 2012-08-29 2016-10-04 Loci System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction
US9466297B2 (en) * 2014-12-09 2016-10-11 Microsoft Technology Licensing, Llc Communication system
DK179588B1 (en) * 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10606952B2 (en) * 2016-06-24 2020-03-31 Elemental Cognition Llc Architecture and processes for computer learning and understanding
CN108280061B (zh) * 2018-01-17 2021-10-26 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
US11010436B1 (en) * 2018-04-20 2021-05-18 Facebook, Inc. Engaging users by personalized composing-content recommendation
CN110309316B (zh) * 2018-06-08 2022-10-25 腾讯科技(深圳)有限公司 一种知识图谱向量的确定方法、装置、终端设备和介质
CN109508391B (zh) * 2018-12-28 2022-04-08 北京金山安全软件有限公司 基于知识图谱的输入预测方法、装置和电子设备
CN110442733A (zh) * 2019-08-08 2019-11-12 恒生电子股份有限公司 一种主题生成方法、装置和设备及介质
US11080491B2 (en) * 2019-10-14 2021-08-03 International Business Machines Corporation Filtering spurious knowledge graph relationships between labeled entities
US11636438B1 (en) * 2019-10-18 2023-04-25 Meta Platforms Technologies, Llc Generating smart reminders by assistant systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278949A (ja) * 2001-03-19 2002-09-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk 表題生成装置及び方法
JP2012173808A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム
JP2015125650A (ja) * 2013-12-26 2015-07-06 日本放送協会 トピック抽出装置、及びプログラム
US20180307667A1 (en) * 2015-12-30 2018-10-25 Alibaba Group Holding Limited Travel guide generating method and system
JP2019504410A (ja) * 2015-12-30 2019-02-14 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 旅行ガイド生成方法及びシステム

Also Published As

Publication number Publication date
CN111241282B (zh) 2023-09-08
EP3851975A1 (en) 2021-07-21
CN111241282A (zh) 2020-06-05
US20210216580A1 (en) 2021-07-15
KR20210092142A (ko) 2021-07-23
KR102451496B1 (ko) 2022-10-06
JP7118184B2 (ja) 2022-08-15

Similar Documents

Publication Publication Date Title
JP2021111415A (ja) テキストテーマ生成方法、テキストテーマ生成装置、電子機器、記憶媒体およびコンピュータプログラム
JP7398402B2 (ja) 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN112507715B (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
KR102565659B1 (ko) 정보 생성 방법 및 장치
US10073840B2 (en) Unsupervised relation detection model training
CN110543574A (zh) 一种知识图谱的构建方法、装置、设备及介质
US20080052262A1 (en) Method for personalized named entity recognition
JP7096919B2 (ja) エンティティワードの認識方法と装置
CN111783468B (zh) 文本处理方法、装置、设备和介质
CN111460083A (zh) 文档标题树的构建方法、装置、电子设备及存储介质
JP2022050379A (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
JP2021101361A (ja) イベントトピックの生成方法、装置、機器及び記憶媒体
JP7397903B2 (ja) インテリジェント対話方法、装置、電子機器及び記憶媒体
JP7093825B2 (ja) マンマシン対話方法、装置、及び機器
WO2022095892A1 (zh) 推送信息的生成方法、装置
US11983502B2 (en) Extracting fine-grained topics from text content
CN114444462B (zh) 模型训练方法及人机交互方法、装置
CN111950261B (zh) 提取文本关键词的方法、设备和计算机可读存储介质
JP7197542B2 (ja) テキストワードセグメンテーションの方法、装置、デバイスおよび媒体
CN111984774A (zh) 搜索方法、装置、设备以及存储介质
JP2021099771A (ja) 翻訳方法、装置、電子機器、可読記憶媒体、及びコンピュータープログラム
US12020175B2 (en) Building training data and similarity relations for semantic space
CN111832313B (zh) 文本中情感搭配集合的生成方法、装置、设备和介质
CN114792092B (zh) 一种基于语义增强的文本主题抽取方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220802

R150 Certificate of patent or registration of utility model

Ref document number: 7118184

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150