JP7324354B2 - Systems and methods for intent discovery from multimedia conversations - Google Patents
Systems and methods for intent discovery from multimedia conversations Download PDFInfo
- Publication number
- JP7324354B2 JP7324354B2 JP2022166598A JP2022166598A JP7324354B2 JP 7324354 B2 JP7324354 B2 JP 7324354B2 JP 2022166598 A JP2022166598 A JP 2022166598A JP 2022166598 A JP2022166598 A JP 2022166598A JP 7324354 B2 JP7324354 B2 JP 7324354B2
- Authority
- JP
- Japan
- Prior art keywords
- topic
- relevance
- processor
- topics
- parameter settings
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 47
- 238000012549 training Methods 0.000 claims description 44
- 230000015654 memory Effects 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 20
- 238000003058 natural language processing Methods 0.000 claims description 18
- 238000010801 machine learning Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000009471 action Effects 0.000 description 19
- 239000000284 extract Substances 0.000 description 13
- 230000008569 process Effects 0.000 description 10
- 238000011002 quantification Methods 0.000 description 9
- 238000010606 normalization Methods 0.000 description 8
- 238000012800 visualization Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本開示は、マルチメディア会話および自然言語処理のための機械学習手順に関し、特に、オーディオ、ウェブチャット、およびビデオなどのマルチメディア会話からの発見意図に関する。 The present disclosure relates to machine learning procedures for multimedia conversations and natural language processing, and in particular to discovery intent from multimedia conversations such as audio, web chat, and video.
意図発見システムは、自然言語処理を実行するために教師あり機械学習を利用してもよい。教師あり機械学習の訓練手順は、主題専門家(SME:subject matter experts)が個々のオーディオデータを手動で特定してそれらに意図でラベル付けすることに依存し、それらは次に、機械学習モデルの重み、バイアス、およびその他メトリクスを調整するために使用される。許容し得るモデル性能を達成するために、訓練には主題専門家による相当な努力が必要となることが多い。疲労、ユーザの誤り、およびその他人間的な限界が、モデル性能を抑制し、訓練を長引かせ、または訓練を実行不能にし得る。 The intent discovery system may utilize supervised machine learning to perform natural language processing. Supervised machine learning training procedures rely on subject matter experts (SMEs) manually identifying individual audio data and labeling them with intentions, which are then used by machine learning models used to adjust the weights, biases, and other metrics of Training often requires considerable effort by subject matter experts to achieve acceptable model performance. Fatigue, user error, and other human limitations can constrain model performance, prolong training, or make training infeasible.
本開示は、マルチメディア会話から意図を発見するシステムおよび方法に関する。 The present disclosure relates to systems and methods for discovering intent from multimedia conversations.
一実施形態において、意図発見の方法が開示される。本方法は、マルチメディア会話を受信するステップを含んでもよい。本方法は、トピック関連性定量化器に基づき最適パラメータ設定を獲得することを含んでもよい。トピック関連性定量化器は、抽出されるトピックの関連性を確保するための最適設定を予測するように訓練された機械学習モデルを含む。本方法は、最適パラメータ設定に基づきマルチメディア会話をテキスト情報に変換するステップと、自然言語処理メカニズムにより、最適パラメータ設定に基づきテキスト情報を文書コーパスへと正規化するステップと、最適パラメータ設定に基づき文書コーパスからトピックを抽出するステップとにより、最適パラメータ設定に基づきマルチメディア会話を処理するステップを含んでもよい。抽出されたトピックは、トピック単語のグループに関係する。本方法は、トピックのそれぞれについて個別のコンテキストメトリクスを判断するステップを含んでもよい。本方法は、個別のコンテキストメトリクスに基づき、意図発見に関する関連トピックを抽出されたトピックから選択するステップを含んでもよい。本方法は、文書コーパスから関連トピックに関係する文書を獲得するステップを含んでもよい。本方法は、ユーザインターフェースを介した、関連トピックに関係する文書の表示情報を含んでもよい。本方法は、関連トピックに関係する文書に関するフィードバックデータを受信するステップを含んでもよい。本方法は、関連トピックに関係する意図情報をフィードバックデータに基づき判断するステップを含んでもよい。 In one embodiment, a method of intent discovery is disclosed. The method may include receiving a multimedia conversation. The method may include obtaining optimal parameter settings based on the topic relevance quantifier. The topic relevance quantifier includes a machine learning model trained to predict optimal settings for ensuring relevance of extracted topics. The method includes the steps of: converting multimedia speech into text information based on optimal parameter settings; normalizing the text information into a document corpus based on the optimal parameter settings by a natural language processing mechanism; and extracting topics from the document corpus to process the multimedia conversation based on the optimal parameter settings. The extracted topics relate to groups of topic words. The method may include determining separate contextual metrics for each of the topics. The method may comprise selecting relevant topics for intent discovery from the extracted topics based on individual contextual metrics. The method may include obtaining documents related to the relevant topic from the document corpus. The method may include displaying information of documents related to relevant topics via a user interface. The method may include receiving feedback data regarding documents related to the relevant topic. The method may include determining intent information related to the relevant topic based on the feedback data.
別の実施形態において、意図発見のシステムが開示される。システムは、マルチメディア会話を受信してもよい。システムは、トピック関連性定量化器に基づき最適パラメータ設定を獲得してもよい。トピック関連性定量化器は、トピックの関連性を予測するように訓練された機械学習モデルを含んでもよい。システムは、最適パラメータ設定に基づきマルチメディア会話をテキスト情報に変換してもよい。システムは、最適パラメータ設定に基づきテキスト情報を文書コーパスへと正規化してもよい。システムは、最適パラメータ設定に基づき文書コーパスからトピックを抽出してもよい。トピックは、トピック単語のグループに関係してもよい。システムは、トピックのそれぞれについて個別のコンテキストメトリクスを判断してもよい。システムは、個別のコンテキストメトリクスに基づき、意図発見に関する関連トピックを抽出されたトピックから選択してもよい。システムは、文書コーパスから関連トピックに関係する文書を獲得してもよい。システムは、関連トピックに関係する文書の情報をユーザインターフェースを介して表示してもよい。システムは、関連トピックに関係する文書に関するフィードバックデータを受信してもよい。システムは、関連トピックに関係する意図情報をフィードバックデータに基づき判断してもよい。 In another embodiment, a system for intent discovery is disclosed. The system may receive multimedia conversations. The system may obtain optimal parameter settings based on the topic relevance quantifier. A topic relevance quantifier may include a machine learning model trained to predict topic relevance. The system may convert multimedia conversations into textual information based on optimal parameter settings. The system may normalize the textual information into the document corpus based on optimal parameter settings. The system may extract topics from the document corpus based on optimal parameter settings. A topic may relate to a group of topic words. The system may determine separate contextual metrics for each of the topics. The system may select relevant topics for intent discovery from the extracted topics based on individual contextual metrics. The system may obtain documents related to related topics from the document corpus. The system may display information of documents related to relevant topics via a user interface. The system may receive feedback data regarding documents related to relevant topics. The system may determine intent information related to related topics based on the feedback data.
別の実施形態において、非一時的コンピュータ可読記憶媒体は、コンピュータ実行可能命令を含む。コンピュータ実行可能命令は、プロセッサにより実装されると、プロセッサに上記の方法を実行させる。 In another embodiment, a non-transitory computer-readable storage medium contains computer-executable instructions. The computer-executable instructions, when implemented by a processor, cause the processor to perform the methods described above.
上記の実施形態ならびにそれらの実装の他の側面および選択肢が、図面、記載、添付の特許請求の範囲においてより詳しく説明される。 The above embodiments and other aspects and options of their implementation are explained in more detail in the drawings, the description and the appended claims.
実施形態は、以下の図面および記載を参照するとよりよく理解されるであろう。図面の中のコンポーネントは必ずしも一定の縮尺となっていない。さらに図面では、同じ参照符号が、別々の図面にわたって対応する部分を指示する。 Embodiments may be better understood with reference to the following drawings and description. Components in the drawings are not necessarily to scale. Further, in the drawings, the same reference numerals indicate corresponding parts throughout the different drawings.
様々な例において、システムおよび方法は、マルチメディア会話のコレクションから意図を発見し得る。これは様々な段階で行われる。第1の段階において、トピックがマルチメディア会話のテキストまたはトランスクリプションから抽出される。次に、抽出されたトピックから関連トピックが選択され、発見意図のために使用される。任意選択で、関連トピックの選択は、精緻化された意図を発見するために使用されるルールを作成するために使用される。トピック抽出のためのシステムの最適パラメータが、訓練段階の間に見つけられる。システムの様々な段階の典型的な実装が、図2~図6および関係した説明の中に記載される。 In various examples, systems and methods may discover intent from a collection of multimedia conversations. This is done in various stages. In the first stage, topics are extracted from the text or transcription of the multimedia conversation. Related topics are then selected from the extracted topics and used for discovery intent. Optionally, the selection of related topics is used to create rules used to discover refined intents. The optimal parameters of the system for topic extraction are found during the training phase. Typical implementations of the various stages of the system are described in FIGS. 2-6 and related descriptions.
本願明細書に記載される意図発見のシステムおよび方法は、様々な技術的進歩をもたらし得る。例として、本願明細書に記載される意図発見システムは、オーディオ通話から意図を発見して顧客のニーズの分析をサポートするためのフレームワークを提供し得る。意図発見システムは、教師ありルールベースの意図精緻化により補足された、近接性およびバランスの高いトピックの教師なしの検出に基づき、ラベル付けされていないオーディオまたはテキストコンテンツから意図を発見し得る。 The intent discovery systems and methods described herein may provide various technical advances. As an example, the intent discovery system described herein may provide a framework for discovering intent from audio calls to support analysis of customer needs. An intent discovery system can discover intent from unlabeled audio or text content based on unsupervised detection of high-proximity and well-balanced topics, supplemented by supervised rule-based intent elaboration.
本願明細書に記載されるシステムおよび方法により達成される技術的進歩の別の例は、より有用な形での専門家の監督を推進することにより、意図が発見されるということである。後に詳述するメトリクスに基づき、最も有益なトピックが選択される。次に、SMEまたはビジネスアナリストは、選択されたトピックにより提供される情報を使用して、意図を発見し、またはより粒度の細かい意図、つまり精緻化された意図を発見するためにルールを用いて文書を探索し得る。 Another example of the technological advances achieved by the systems and methods described herein is that intent is discovered by promoting expert oversight in a more useful manner. The most informative topics are selected based on metrics detailed below. The SME or business analyst then uses the information provided by the selected topic to discover intent or uses rules to discover more granular or refined intent. can search for documents.
本願明細書に記載のシステムおよび方法は、現存する市場の解決策に比べて改善をもたらす。現存する市場の解決策と比べた、さらなる利点、効率、および改善が、後述するシステムおよび方法において明らかにされる。 The systems and methods described herein provide improvements over existing market solutions. Further advantages, efficiencies, and improvements over existing market solutions are demonstrated in the systems and methods described below.
図1は、システム100の第1の例を示す。システム100は、マルチメディア会話から意図を発見してもよい。マルチメディア会話は、オーディオ、ボイスチャット、ウェブチャット、ウェブトランスクリプション、ビデオ、およびその他任意の形態の適切なマルチメディア情報を含んでもよい。本願明細書において、オーディオ通話102のコレクションは、様々な実施形態について記載するためにマルチメディア会話の典型的な例として使用される。オーディオ通話102は、顧客と企業担当者との間の顧客電話サービスの会話の録音など、話者の意図を表すコンテンツを含んでもよい。オーディオ通話102は、オーディオファイル、データベースの中のバルクデータ、および同様のものなどの様々な様式で電子的に記憶できる。システム100は、会話プロセッサ110、トピック評価器130、トピック選択器140、意図定義器145、ルール定式化器150、意図精緻化器160、意図統計コンポーネント170、およびパラメータ検索器180を含んでもよい。
FIG. 1 shows a first example of
システム100の会話プロセッサ110は、パラメータ設定ファイルに基づきオーディオ通話102からトピックを抽出するために、オーディオ通話102を処理してもよい。会話プロセッサ110の機能性は、図2を参照して詳細に記載される。
図2に示されているように、会話プロセッサ110は、音声テキスト化エンジン212、自然言語処理(NLP:natural language processing)正規化コンポーネント214、およびトピック抽出器216を含んでもよい。パラメータ設定204は、会話プロセッサ110により使用されるすべての処理パラメータ、およびパラメータの値を含んでもよい。パラメータ設定204は、デフォルトセッティングを含む構造型または半構造型のパラメータ設定ファイルを使用して設定されてもよい。さらに、または代わりに、パラメータ設定204は、データサイエンティストにより定義されてもよい。さらに、または代わりに、パラメータ設定204は、後に詳しく記載されるパラメータ検索器180により提供されてもよい。
As shown in FIG. 2 ,
音声テキスト化エンジン212は、パラメータ設定204において設定された音声テキスト化エンジン212のパラメータに基づき、オーディオ通話102に対して音声認識を実行して、音声情報をテキスト情報へと変換してもよい。音声テキスト化エンジン212のパラメータは、例として、オーディオ通話の長さに基づくサンプルレートおよびオーディオフィルタ、ならびに同様のものを含んでもよい。テキスト情報は、例として、コーパスデータベース202に記憶されてもよい。
Speech-to-
NLP正規化コンポーネント214は、オーディオ通話102に対応する正規化された会話文書のコーパスを生成するために、パラメータ設定204において設定されたNLP正規化コンポーネント214のパラメータに基づき、テキスト情報に正規化NLP手順を適用してもよい。正規化NLP手順は、ストップワードおよびノイズワードを除去すること、品詞(PoS:Part-Of-Speech)タグを付与すること、エンティティを認識すること、および同様のことを含んでもよい。
一部の実装において、NLP正規化コンポーネント214はさらに、会話文書の中の各単語について、単語埋め込みとも呼ばれる多次元特徴を抽出してもよい。単語埋め込みは、分布的意味空間の中で単語の意味を表現し得る。単語埋め込みおよびその他アノテーションは、コーパス202またはその他データベースに辞書フォーマットで記憶されてもよい。正規化NLP手順および単語埋め込み抽出のためのパラメータは、例として、正規表現およびPoSタグに基づくフィルタの選択、単語を考慮に入れるための最小カウント値、埋め込みのためのウィンドウサイズ、埋め込みのタイプおよびサイズ、ならびに同様のものを含んでもよい。
In some implementations, the
トピック抽出器216は、パラメータ設定204において設定されたトピック抽出器216のパラメータに基づき、正規化された会話文書を処理してトピック206を抽出してもよい。パラメータは、例として、抽出されるトピックの数、トピック抽出のための反復の数、トピック抽出のためのパスの数、および同様のものを含んでもよい。トピック206は、正規化された会話文書の中の単語のグループを含んでもよい。トピック206は、トピックストアに記憶されてもよく、トピックストアは、各トピックの単語および正規化された各会話文書に関係するトピックについての情報を含んでもよい。
トピック評価器130およびトピック選択器140は、共同で機能して、トピック抽出器216により抽出されたトピックから、意図発見に関する関連トピックを選択する。具体的には、トピック評価器130が、抽出されたトピック206のそれぞれについてコンテキストメトリクスを測定してもよい。コンテキストメトリクスは、近接性スコアおよびバランススコアを含んでもよい。近接性スコアは、正規化された会話文書内のトピックのトピック単語群が、どの程度空間的に近いかを示してもよい。すなわち、会話文書において所与のトピックの中の単語群がどの程度関連しているかである。バランススコアは、トピックのトピック単語が、正規化された会話文書のコンテキストの中で意図の固有性を理解するに足りる情報をどの程度表現するかを示してもよい。トピック選択器140は、抽出されたトピックの近接性スコアおよびバランススコアに基づき、トピック抽出器216により抽出されたトピックから関連トピックを選択してもよい。トピック評価器130およびトピック選択器140の典型的な機能性の詳細が、下記のとおり図3を参照して記載される。
図3に示されているように、トピック評価器130は、トピック近接性評価器320およびトピックバランス評価器330を含んでもよい。抽出されたトピック206は、トピックストア301に記憶されてもよい。トピック近接性評価器320は、トピックストア301からトピック206を読み出し、NLP正規化コンポーネント214により抽出された単語埋め込みと、固有単語辞書302の中の単語固有性スコアとに基づき、トピックのそれぞれについて近接性スコアを測定してもよい。トピック近接性評価器320は、トピックの近接性スコアをトピックストア301に記憶してもよい。
As shown in FIG. 3,
2つの単語wiとwjとの間の近接性スコアの例は、以下のように計算され得る。 An example proximity score between two words w i and w j may be calculated as follows.
式中、
Coh(wi,wj)は、wiおよびwjの埋め込みの間のコサイン類似度であり、
RIDF(w)は、単語wの残差逆文書頻度(RIDF:Residual Inverse Document Frequency)であり、
C2
Nは、二項係数である。
トピックTの近接性スコアは、例えば組み合わせとして平均関数を使用する、Tに関わるTop-K単語の間の算出された上記のスコアの組み合わせである。
During the ceremony,
Coh(w i , w j ) is the cosine similarity between the embeddings of w i and w j ,
RIDF(w) is the Residual Inverse Document Frequency (RIDF) of word w;
C 2 N is the binomial coefficient.
The proximity score of a topic T is a combination of the above scores calculated among the Top-K words associated with T, eg using the average function as a combination.
固有単語辞書302は、単語固有性評価器360により提供され得る。或る実装において、単語固有性評価器360は、コーパスデータベース202から正規化された会話文書を読み出し、正規化された会話文書の中の各単語について、そのドメイン固有性に関する固有性スコアを計算し得る。固有性スコアは、トピック内でビジネスドメインに対し関連性を持つ単語が何であるかを理解するために使用され得る。最後に、単語固有性評価器360は、スコアを固有単語辞書302に記憶する。トピックTの単語固有性スコアの一例は、Tに属するTop-K単語の一意性に基づき計算され、一意性の測定の例は、自然言語処理で使用されるRIDFである。
Unique word dictionary 302 may be provided by
トピックバランス評価器330は、トピックストア301からトピック206を読み出して、固有単語辞書302および頻出関連単語辞書304に基づき、トピックのそれぞれについてバランススコアを計算し得る。バランススコアは、所与のトピックの中のトピック単語の、ドメイン固有単語および頻出関連単語に関するバランスがどうであるかを測定する。トピックバランス評価器330は、トピックのバランススコアをトピックストア301に記憶し得る。
トピックTのバランススコアの例は、以下のように記載される。
Balance(T)=S_TF_RIDF+boost_IDF+boost_Impact
式中、
S_TF_RIDFは、Top-K単語のTF-RIDFスコアの合計であり、TF-RIDFは、語出現頻度(TF:Term Frequency)およびRIDFスコアの間の乗算であり、
boost_IDFは、Top-K単語の間で平均された逆文書頻度(IDF:Inverse Document Frequency)の割合であり、
boost_Impactは、例として後に詳述する一般アソシエーションリフト(PAL:Prevalent Association Lift)スコアなどの影響スコアの割合であり、これは、トピックTのTop K単語の会話データにおける影響力がどの程度強いかを考慮に入れる。
An example of a balanced score for topic T is described as follows.
Balance(T) = S_TF_RIDF + boost_IDF + boost_Impact
During the ceremony,
S_TF_RIDF is the sum of the TF-RIDF scores of the Top-K words, TF-RIDF is the multiplication between the Term Frequency (TF) and the RIDF score;
boost_IDF is the ratio of the Inverse Document Frequency (IDF) averaged among the Top-K words;
boost_Impact is the percentage of the impact score, such as the Prevalent Association Lift (PAL) score, for example detailed below, which indicates how strong the impact of the Top K words of topic T is in the conversation data. Take into consideration.
頻出関連単語辞書304は、コンテキスト抽出器370および単語影響評価器380の共同により提供されてもよい。或る実装において、コンテキスト抽出器370は、会話の中の各文について単語のスライディングウィンドウを抽出してもよい。抽出されたウィンドウは、各単語のコンテキストを算出するために使用され、コンテキストは、抽出されたウィンドウを考慮して選択された単語に近い単語のセットにより作られる。正規化された会話文書からのコンテキストは、所定のパラメータセッティングとともに使用されて、影響スコアが算出される。
The frequent
単語影響評価器380は、コンテキスト抽出器370により抽出された各単語のコンテキストを利用して、正規化された会話文書において単語が有する影響を測定してもよい。高い影響スコアは、その単語が会話の流れを方向付けることを意味する。単語影響評価器380は、抽出されたコンテキストの中の最も近い2つの単語間のアソシエーションを測定することにより影響スコアを計算してもよい。より高い影響を有する単語は、会話内の他の単語とより強いアソシエーションを有する頻出単語である。最後に、単語影響評価器380は、頻出関連単語辞書304に単語の影響スコアを記憶してもよい。
Word influence evaluator 380 may utilize the context of each word extracted by
影響スコアの例は、以下のPALに基づくものである。 An example impact score is based on the PAL below.
式中、
S(w)は、単語wの支持度であり、count(w)/Nと等しく、Nはコンテキストから抽出されたアソシエーションの数であり、
S(wl→wr)は、アソシエーション(wl→wr)の支持度であり、これはcount(wl→wr)/Nと等しく、Nはコンテキストから抽出されたアソシエーションの数であり、count(wl→wr)は、wlの後にwrが続く回数を意味する。
例として、影響スコアは、PALスコアを使用して、その中にある最高のPAL値を有する左側の単語を選択することにより算出できるであろう。
During the ceremony,
S(w) is the support of word w, equal to count(w)/N, where N is the number of associations extracted from the context;
S(w l →w r ) is the support of the association (w l →w r ), which is equal to count(w l →w r )/N, where N is the number of associations extracted from the context. Yes, and count(w l →w r ) means the number of times w l follows w r .
As an example, the impact score could be calculated by using the PAL score and selecting the left word with the highest PAL value in it.
図3を引き続き参照する。トピック選択器140は、トピック可視化コンポーネント340を含んでもよい。トピック可視化コンポーネント340は、例としてグラフィカルユーザインターフェースを介して、データサイエンティストなどのユーザのためのインタラクティブ検索を実装してもよい。例として、ユーザはまず、テキストクエリを入力してもよい。テキストクエリは、トピックの中の単語をユーザが選択することによって、単語の品詞タグ、固有性スコア、および影響スコアを使用して、自動的に算出できる。あるいは、テキストクエリはユーザにより直接定義されてもよい。テキストクエリを受信するのに応答して、トピック可視化コンポーネント340は、テキストクエリを利用して、テキストクエリの中の単語を含むテキストセグメントを求めて正規化された会話文書を検索してもよい。次に、トピック可視化コンポーネント340は、トピックに関わるテキストセグメントを、グラフィカルユーザインターフェースを介して表示してもよい。トピックに関わるテキストセグメントの表示は、当該トピックが関連トピックであるかどうかについての判断をユーザが下す支援をしてもよい。トピック可視化コンポーネント340は、グラフィカルユーザインターフェースを介してユーザの判断を受信してもよい。
Continuing to refer to FIG.
ここで、トピック可視化コンポーネント340は、データサイエンティストがトピック内の単語を使用してテキストのセグメントを読み出すためのインタラクティブ検索を提供する。テキストセグメントを読むことは、トピックのコンテキストメトリクスとともに、データサイエンティストが関連トピックをより適切に選択する支援をする。 Here, the topic visualization component 340 provides an interactive search for data scientists to retrieve segments of text using words within the topic. Reading text segments, along with topical contextual metrics, helps data scientists make better selections of relevant topics.
あるいは、またはさらに、トピック選択器140は、最良トピック選択器350を含んでもよい。例として、最良トピック選択器350は、抽出されたトピックをトピックストア301から読み出して、トピックの近接性スコアおよびバランススコアを含む抽出されたすべてのトピックの情報を、グラフィカルユーザインターフェースを介して表示してもよい。近接性スコアおよびバランススコアはどちらも、ユーザによるトピックの理解を促進する。このようにして、ユーザは、近接性スコアおよびバランススコアに基づきトピックをランキングしてもよい。最良トピック選択器350は、所定の閾値を上回るランキングのトピックを関連トピックとして選択してもよい。あるいはユーザは、トピックに関する表示された情報に基づきトピックの一部を関連トピックとして直接選択してもよい。最良トピック選択器350は、ユーザグラフィカルインターフェースを介してかかる選択を受信してもよい。
Alternatively or additionally,
図3を参照して上述したように、本願明細書に記載されたシステムおよび方法により達成される技術的進歩の別の例は、トピックの近接性スコアおよびバランススコアに基づく、意図発見の情報を提供する関連トピックの選択である。 As described above with reference to FIG. 3, another example of the technical advances achieved by the systems and methods described herein is to provide intent discovery information based on topic proximity scores and balance scores. A selection of related topics to offer.
図1に戻る。意図定義器145は、関連トピックとの意図情報のアソシエーションを判断してもよい。例として、意図定義器145は、関連トピックをSMEなどのユーザにグラフィカルユーザインターフェースを介して表示する。ユーザは、関連トピックのそれぞれについて意図名を入力してもよい。したがって、意図定義器145は、関連トピックに、対応する意図名を用いてラベル付けしてもよい。
Return to FIG. The
任意選択で、例として「手荷物問い合わせ」などの意図名が付いた関連トピックが、例としてすべての正規化された会話文書のうちの10%など多量の正規化された会話文書に関係していれば、意図定義器145は、関連トピックおよび関連トピックに関係する会話文書を、グラフィカルユーザインターフェースを介してユーザに表示してもよい。関連トピックおよび関係する会話文書を確認することにより、ユーザは、関連トピックの、精緻化された意図とも呼ばれる下位意図を発見するために意図精緻化が必要であると判断してもよい。結果として、意図定義器145は、意図定式化器150および意図精緻化器160により実行される意図精緻化プロセスをトリガしてもよい。
Optionally, a related topic with an intent name such as "baggage inquiry" may be related to a large amount of normalized dialogue documents, such as 10% of all normalized dialogue documents. For example,
ルール定式化器150および意図精緻化器160は、共同で機能して、関連トピックの意図を精緻化する。具体的には、ルール定式化器150は、関連トピックに対応するクエリルールのセットを獲得してもよい。クエリルールは、and、or、notのような論理演算子と組み合わされた、関連トピックの中のトピック単語のセットとして定義されてもよい。意図精緻化器160は、それぞれのクエリルールをクエリテキストとして利用して、正規化された会話文書または元の会話の書き起こしのコーパスからクエリルールに対応する個別の会話文書を読み出し、ビジネスアナリストまたはビジネスにおけるSMEなどのユーザの助力を得て、読み出された個別の会話文書に含まれる精緻化された意図を特定してもよい。さらに、意図統計コンポーネント170は、クエリルールに基づき特定された意図に関する様々な統計的演算を実行してもよい。ルール定式化器150、意図精緻化器160、および意図統計コンポーネント170の典型的な機能性の詳細は、下記のとおり図4を参照して記載される。
The
実施形態において、ルール定式化器150は、ルール発見コンポーネント410として実装されてもよい。具体的には、ルール発見コンポーネント410は、トピックのそれぞれを記述するクエリルールのセットを、それらのPoSタグならびに影響および近接性などのスコアに基づき見つけてもよい。クエリルールは、ドメイン情報を含み得るオントロジストア408から抽出された類義語などの意味的関連単語を使用して拡大できる。抽出されるルールの例として、選択された単語に加えて、オントロジストア408から抽出された関連語の論理結合が考えられる。
In embodiments,
別の実施形態において、ルール定式化器150は、ルール定義コンポーネント420として実装されてもよい。具体的には、ルール定義コンポーネント420は、例としてビジネスアナリストまたはSMEなどのユーザとやり取りしてもよい。ユーザは、関連トピックに含まれる情報に基づき、関連トピックのそれぞれについてクエリルールを手動で定義してもよい。次に、ルール定義コンポーネント420は、例としてユーザグラフィカルインターフェースを介して、ユーザにより定義されたクエリルールを受信してもよい。
In another embodiment,
意図精緻化器160は、図4に示されているように、ルール実行コンポーネント440および意図ラベラ450を含んでもよい。ルール実行コンポーネント440は、ルール定式化器150から獲得されたそれぞれのクエリルールを利用して、会話文書のインデックス付きコーパス406からクエリルールに対応する会話文書402を読み出してもよい。例として、ルール実行コンポーネント440は、クエリルールの中のトピック単語をキーワードまたはフレーズとして利用して、インデックス付きコーパス406から会話文書402を読み出してもよい。一部の実装において、ルール実行コンポーネント440はさらに、クエリルールの中のクエリ単語がどの程度、読み出された会話文書403に対して関連性を持つかに基づき、読み出された会話文書402をランキングしてもよい。
インデックス付きコーパス406は、インデクサ430により提供されてもよい。具体的には、インデクサ430は、文書の中の単語により、コーパス202の中の正規化された会話文書および元の会話の書き起こしのそれぞれにインデックス付けして、会話文書のインデックス付きコーパス406を生成してもよい。
意図ラベラ450は、SMEまたはビジネスアナリストなどのユーザの助力を得て、対応する精緻化された意図の名前を用いてクエリルールにラベル付けしてもよい。例として、意図ラベラ450は、意図名「手荷物問い合わせ」によりラベル付けされた関連トピックを記述する3つのクエリルールを、ユーザグラフィカルインターフェースを介してユーザに表示する。ユーザは、例として手荷物制限、手荷物紛失、および手荷物破損など、3つのクエリルールについて異なる精緻化された意図を指定する。結果として、意図ラベラ450は、3つのクエリルールに、それぞれ「手荷物制限」、「手荷物紛失」、および「手荷物破損」によりラベル付けする。
意図精緻化を通して、漠然とした意図が、より粒度の細かい意図へと分割されてもよい。例として、「手荷物問い合わせ」の意図は、「手荷物制限」、「手荷物紛失」、および「手荷物破損」の精緻化された3つの意図へと分割される。さらに、クエリルールの実行は、漠然とした「手荷物問い合わせ」の意図に関係する会話文書がどのように精緻化された意図にマッピングされるかを理解するのに役立つ。これにより意図階層が形成される。 Through intent refinement, vague intents may be broken down into finer-grained intents. As an example, the "baggage inquiry" intent is split into three refined intents: "baggage restricted", "baggage lost", and "baggage damaged". In addition, query rule execution helps to understand how conversational documents pertaining to the vague "baggage inquiry" intent map to the refined intent. This creates an intent hierarchy.
会話文書は2つ以上の意図を表し得るので、任意の個々の会話文書402が、2つ以上のルールクエリの実行により読み出され得る可能性がある。したがって、意図文書割り当て器460は、会話文書402を複数の意図に割り当てて、複数の意図についての意図割り当て情報とともに意図ストア404に会話文書402を記憶してもよい。一部の実装において、ルール実行コンポーネント440が各クエリルールの実行に関してランキングスコアを提供する場合、各意図に関する会話文書402のランキングスコアも意図ストア404に記憶される。こうすることで、オーディオコレクションの中のいくつの会話が各意図に関係するか、およびどの意図が会話の整合する主要な意図とみなされるべきかなど、有用な統計を算出するのがより容易になるであろう。
Since a conversational document can represent more than one intent, it is possible that any individual
意図発話分類器470は、SMEなどのユーザが、読み出された会話文書402を意図に関して検査し、会話文書402の中でかかる意図を明確に表すテキストセグメントのセットを強調するための、インタラクティブな手段を実装してもよい。したがって、意図発話分類器470は、テキスト分類器が、読み出された会話文書402の中の、意図に関わる発話を含むテキストセグメントすべてを分類できるように、読み出された会話文書402および強調されたテキストセグメントのテキスト特徴を使用して、テキスト分類器を訓練してもよい。
図4を参照して上述したように、本願明細書に記載されたシステムおよび方法により達成される技術的進歩の別の例は、情報に基づく教師を用いた意図の収集である。 As described above with reference to FIG. 4, another example of the technological advances achieved by the systems and methods described herein is intent gathering with an informed teacher.
図1に戻る。パラメータ検索器180は、会話プロセッサ110が最適パラメータ設定を使用して意図発見においてより有用なトピックを抽出できるように、会話プロセッサ110に最適パラメータ設定を提供してもよい。例として、単語「彼、彼女、それ」を含むトピックと比較すれば、単語「口座、残高」を含むトピックは、意図の発見により強い関連性を持つ。意図発見の観点から、単語「彼、彼女、それ」を含むトピックは、ノイズとなると考えられ、会話プロセッサ110により抽出されることを期待されない。訓練段階の間の、パラメータ検索器180による最適パラメータ設定の検索は、図5を参照して詳細に記載される。
Return to FIG. The
図5に示されているように、パラメータ検索器180は、最適パラメータ選択器510、会話プロセッサ520、トピック関連性定量化コンポーネント530、関連性定量化結果追跡器540、設定特徴抽出器550、およびトピック特徴抽出器560を含んでもよい。
As shown in FIG. 5,
設定特徴抽出器550は、パラメータ空間506において定義されるパラメータの値を表現する特徴のセットを抽出してもよい。
最適パラメータ選択器510は、設定特徴抽出器550および設定関連性定量化器502により抽出されたパラメータ特徴を使用して、パラメータ空間506を探索してパラメータ設定候補503のセットを抽出してもよい。設定関連性定量化器502は、候補パラメータ設定を使用して抽出されたトピックの関連性に対する、かかるパラメータ設定の影響を予測するように訓練された機械学習モデルを含む。設定関連性定量化器502は、以前に探索されたパラメータ設定に基づき訓練される。設定関連性定量化器502を訓練するメカニズムは、後に詳しく記載される。
設定関連性定量化器502を用いることで、考えられるパラメータ設定すべてを探索したり考えられるパラメータ設定の単なる無作為選択を行ったりせずに、最適パラメータ選択器510は、最も可能性が高い関連トピックを抽出するために使用可能と考えられるパラメータ設定がどれであるか、予測できるとよい。
By using the setting
会話プロセッサ520は、図2の会話プロセッサ110と類似した形で機能する。具体的には、会話プロセッサ520は、個別のパラメータ設定候補503に基づきオーディオコレクション102をテキスト情報に変換し、個別のパラメータ設定候補503に基づきテキスト情報を文書コーパスへと正規化し、文書コーパスの中の単語の単語埋め込みのセットを生成し、個別のパラメータ設定候補503に基づき文書コーパスからトピックのセットを抽出してもよい。
Conversation processor 520 functions in a manner similar to
トピック特徴抽出器560は、それぞれの会話プロセッサ520により抽出される各トピックの多次元特徴を抽出してもよい。特に、トピック特徴抽出器560は、例として、トピックに属する各単語に関係する単語埋め込みを集約することにより、トピックのかかる多次元特徴を抽出する。 A topic feature extractor 560 may extract multi-dimensional features for each topic extracted by each conversation processor 520 . In particular, topic feature extractor 560 extracts such multi-dimensional features of a topic, illustratively by aggregating word embeddings associated with each word belonging to the topic.
図5に示されているように、それぞれの会話プロセッサ520により抽出されたトピック、抽出されたトピックの多次元特徴、およびパラメータ設定候補503を含むトピック/設定特徴オブジェクト505を入力として用いて、トピック関連性定量化コンポーネント530は、トピック関連性定量化器504を利用して、抽出されたトピックの関連性を測定してもよく、関連性は、例として0から5の間の整数区間での関連性スコアとして表現されてもよく、0は関連性がないことを意味し、5は非常に関連性が高いことを意味する。トピック関連性定量化器504は、パラメータ設定に基づき意図発見に対するトピックの関連性を予測するように訓練された機械学習モデルを含む。トピック関連性定量化器504は、オーディオコレクション102から以前抽出されたトピックに基づき訓練される。トピック関連性定量化器504を訓練するメカニズムは、後に詳しく記載される。
As shown in FIG. 5, using as input topic/setting
パラメータ設定候補503のそれぞれについて、関連性定量化結果追跡器540は、関連性基準が満たされるかどうかを判断するために、パラメータ設定候補に基づき抽出されたトピックの関連性スコアと、所定の関連性基準とを比較してもよい。例として、関連性スコアの90%が目標関連性閾値に達した場合、関連性定量化結果追跡器540は、パラメータ設定候補により関連性基準が満たされたと判断してもよい。結果として、関連性基準を満たすパラメータ設定のパラメータの中から、最高の関連スコアを持つパラメータ設定候補を、システム100において意図を発見するための最適パラメータ設定508として選択できる。
For each of the
他方、関連性定量化結果追跡器540は、パラメータ設定候補503のいずれによっても関連性基準が満たされないと判断する場合、パラメータ設定候補503の別のセットを選択するように最適パラメータ選択器510をトリガする。これにより、関連性基準が満たされるまでパラメータ設定候補を求めてパラメータ空間506を自動的に探索するために、閉ループが形成される。
On the other hand, if relevance
さらに、関連性定量化結果追跡器540は、トピック関連性定量化器504が引き続き優れた精度でトピックを分類できるかどうかをチェックしてもよい。抽出されたトピックの関連性定量化結果が基準精度から逸脱し始めた場合、つまり、トピック関連性定量化器504が新たなトピックに対して十分良好に汎用化できない場合、関連性定量化結果追跡器540は閉ループを停止する。その結果、トピック関連性定量化器504および設定関連性定量化器502は、精度を改善するためにさらなる訓練を必要とし得る。
Additionally, relevance
図5を参照して上述したように、本願明細書に記載されたシステムおよび方法により達成される技術的進歩の別の例は、トピック抽出のための最適パラメータ設定を、それらの影響をトピック関連性定量化器およびパラメータ設定関連性定量化器を使用して予測することにより見つけることである。 As described above with reference to FIG. 5, another example of the technical advances achieved by the systems and methods described herein is to determine optimal parameter settings for topic extraction and their impact on topic-relevant Finding by predicting using a relevance quantifier and a parameterized relevance quantifier.
以下、トピック関連性定量化器504および設定関連性定量化器502を訓練するメカニズムが、図6を参照して記載される。
A mechanism for training
図6に示されているように、アノテーション実行器610は、複数の会話処理ユニット、すなわち会話処理ユニット1からN、およびユーザアノテータ615を含むメタコンポーネントである。複数の会話処理ユニットは、並列で実行して、個別のパラメータ設定ファイル、すなわちパラメータ設定ファイル1からNを用いてオーディオコレクション102を処理することができる。これらのパラメータ設定ファイルは、アノテーションの実行の開始時にデータサイエンティストなどのユーザによって選択されてもよい。あるいは、またはさらに、これらのパラメータ設定ファイルは、所定の選択ルールに従ってあらかじめ選択されてもよい。
As shown in FIG. 6,
会話処理ユニット1~Nは、図2の会話処理ユニット110と類似した形で機能する。会話処理ユニット1を例にとると、会話処理ユニット1は、パラメータ設定ファイル1に基づきオーディオコレクション102を訓練用テキスト情報に変換し、パラメータ設定ファイル1に基づき訓練用テキスト情報を訓練用文書コーパスに正規化し、訓練用文書コーパス内の単語の単語埋め込みの訓練用セットを生成し、次に、パラメータ設定ファイル1に基づき訓練用文書コーパスからトピックの訓練用セットを抽出してもよい。
Speech processing units 1-N function in a manner analogous to
会話処理ユニット1からNにより抽出されるすべてのトピックが、ユーザアノテータ615に入力されてもよい。ユーザアノテータ615は、例として、これらのトピックをSMEなどのユーザに対してグラフィカルユーザインターフェースを介して表示してもよい。こうすることで、ユーザは、意図発見に対する各トピックの関連性をアノテーションしてもよい。例として、ユーザは、意図発見に対するトピックの関連性を表現する数値スコアを各トピックに割り当ててもよい。 All topics extracted by dialogue processing units 1 through N may be input to user annotator 615 . User annotator 615 may, by way of example, display these topics to users, such as SMEs, via a graphical user interface. In doing so, the user may annotate the relevance of each topic to intent discovery. By way of example, a user may assign each topic a numerical score that expresses the topic's relevance to intent discovery.
なお、アノテーション実行器610は、必要に応じて、異なるパラメータ設定ファイルを用いて動作し続けてもよい。こうすることで、アノテーション実行器610は、パラメータ設定定量化器502およびトピック関連性定量化器504のその後の訓練のために、ユーザによりアノテーションされたトピックをより多く出力してもよい。
Note that the
図5のトピック特徴抽出器560と類似の形で機能して、トピック特徴抽出器620は、単語埋め込みの訓練用セットを使用して、アノテーション実行器610の会話処理ユニットにより抽出された各トピックの多次元特徴を抽出してもよい。さらに、図5の設定特徴抽出器550と類似の形で機能して、設定特徴抽出器630は、パラメータ設定ファイル1からNを定義したパラメータの値を表現する特徴のセットを抽出してもよい。
Functioning similarly to topic feature extractor 560 of FIG. Multidimensional features may be extracted. Additionally, functioning in a manner similar to
ユーザアノテータ615によりスコアを用いてアノテーションされたトピック、トピック特徴抽出器560により抽出されたトピックの特徴、および設定特徴抽出器550により抽出されたパラメータ設定ファイルの特徴を用いて、パラメータ設定およびトピック関連性定量化器訓練器640は、アノテーションされたトピックの関連性および対応するパラメータ設定ファイルを学習することにより、2つの機械学習モデルのトピック関連性定量化器504および設定関連性定量化器502を訓練してもよい。例として、人工ニューラルネットワーク、決定木、サポートベクタマシン、および同様のものを含む、様々な適用可能な機械学習モデルが、トピック関連性定量化器504および設定関連性定量化器502を訓練するために採用され得る。
Using the topics annotated with scores by the user annotator 615, the topic features extracted by the topic feature extractor 560, and the parameter setting file features extracted by the
具体的には、アノテーションされたトピックのスコアおよびトピックの特徴を入力として用いて、トピック関連性定量化器504は、トピックのセットに関連性があるかどうかを学習するように訓練されてもよい。アノテーションされたトピックのスコア、トピックストア301に記憶されたトピックのコンテキストメトリクス、および対応するパラメータ設定ファイルのパラメータ特徴を入力として用いて、設定関連性定量化器502が、オーディオコレクション102から関連トピックを抽出したためにパラメータ設定ファイルを使用可能かどうか学習するように訓練されてもよい。
Specifically, using annotated topic scores and topic features as input,
パラメータ設定およびトピック関連性定量化器訓練器640は、ループを含んでもよく、そこでは、モデルトピック関連性定量化器504およびモデル設定関連性定量化器502が、その分類精度が所定の閾値に達した場合にリリースされてもよい。そうならない場合、アノテーション実行器610は、より多くのトピックをユーザによるアノテーションのために抽出し、続いてトピック関連性定量化器504および設定関連性定量化器502の訓練に使用できるように、種々のパラメータ設定ファイルを用いてより多くの会話処理ユニットをインスタンス化する。
Parameter setting and topic
ここで、従来の意図発見手法において行われるように意図を用いて個々のトピックにラベル付けすることをユーザに要求するのではなく、本開示は単に、トピックが意図発見に対し関連性を持つかどうかを、例として上述のように関連スコアを用いて各トピックにアノテーションすることなどにより決定するようユーザに求める。関連スコアの例は、0から5の間の整数であってもよく、0は関連性がないことを意味し、5は非常に関連性が高いことを意味する。図5を参照して検討したように、最適パラメータ設定508の検索においてモデルトピック関連性定量化器504および設定関連性定量化器502を利用することにより、最適パラメータ選択プロセスに人間の洞察が組み込まれ得る。
Here, rather than requiring users to label individual topics with intent as is done in traditional intent discovery techniques, the present disclosure simply determines whether topics are relevant for intent discovery. The user is asked to determine whether, such as by annotating each topic with a relevance score, as described above by way of example. An example relevance score may be an integer between 0 and 5, where 0 means not relevant and 5 means very relevant. As discussed with reference to FIG. 5, utilizing model
図1から図6に示されたシステム100の様々コンポーネントについて上述した。なお、システム100は、示されたのに比べて追加の、異なる、またはより少数のコンポーネントを用いて実装されてもよい。各コンポーネントは、追加の、異なる、またはより少数のコンポーネントを含んでもよい。
Various components of the
図7は、システム100のフロー図を示す。各ステップは、図7に示されているのと比べて追加の、異なる、またはより少数の動作を含んでもよい。各ステップは、図7に示されているのとは異なる順序で実行されてもよい。
FIG. 7 shows a flow diagram of
図7に示される実施形態において、システム100は、マルチメディア会話を受信してもよい(710)。マルチメディア会話は、例として、顧客と企業担当者との間の顧客電話サービスの会話の録音など、話者の意図を表すコンテンツを含むオーディオ通話であってもよい。マルチメディア会話は、アプリケーションプログラミングインターフェース、メッセージブローカ、表現状態転送(REST:Representational State Transfer)、および/またはその他何らかの適切な通信技術を介してシステム100に伝達されてもよい。
In the embodiment shown in FIG. 7,
システム100は、トピック関連性定量化器に基づき、最適パラメータ設定を獲得してもよい(720)。最適パラメータ設定は、マルチメディア会話から関連トピックを抽出するために使用できる様々なパラメータを含んでもよい。トピック関連性定量化器は、トピックの関連性を予測するように訓練された機械学習モデルを含む。例として、システム100は、図5を参照して上述された最適パラメータ設定検索プロセスを実行する。このプロセスの間、トピック関連性定量化器は、候補パラメータ設定を通じて抽出されたトピックの関連性を測定する。トピックの関連性が関連性基準に適合する場合、システム100は、候補パラメータ設定を最適パラメータ設定としてセットする。その他の場合、システム100は、関連性基準に適合するまで次の候補パラメータ設定を検索する。
システム100は、ステップ732から736を実行することにより、最適パラメータ設定に基づきオーディオ通話などのマルチメディア会話を処理してもよい(730)。例として、システム100は、音声テキスト化エンジンを利用して、最適パラメータ設定に基づきオーディオ通話をテキストに変換する(732)。次にシステム100は、自然言語処理エンジンを使用して、最適パラメータ設定に基づきテキストを文書コーパスへと正規化する(734)。システム100は、例として、ストップワードおよびノイズワードを除去すること、品詞タグを割り当てること、エンティティを認識すること、および同様のことを含む、標準的な正規化NLP手順を適用することによりテキストを処理してもよい。その後、システム100は、最適パラメータ設定に基づき文書コーパスからトピックを抽出する(736)。トピックは、各トピックの単語および各文書に関係するトピックについての情報を含むトピックデータ構造として表現されてもよい。
次にシステム100は、ステップ736にて抽出されたトピックのそれぞれについて、個別のコンテキストメトリクスを判断してもよい。例として、コンテキストメトリクスは、トピックの近接性スコアおよびバランススコアを含む。近接性スコアは、文書コーパス内のトピックのトピック単語群が、どの程度空間的に近いかを示す。バランススコアは、トピックのトピック単語が、文書コーパスのコンテキストの中で意図の固有性を理解するのに十分な情報をどの程度表現するかを示す。
システム100は、コンテキストメトリクスに基づき、抽出されたトピックから意図発見に関する関連トピックを選択してもよい(750)。例として、システム100は、最高の近接性スコアおよびバランススコアを持つトピックを関連トピックとして選択してもよい。別の例として、システム100は、データサイエンティストなどのユーザに対してトピックをその近接性スコアおよびバランススコアとともに表示し、ユーザの助力を得てどのトピックが関連トピックであるかを判断してもよい。
システム100は、ステップ734にて正規化された文書コーパスから関連トピックに関係する文書を獲得してもよい(760)。例として、システム100は、関連トピックに関係するトピック単語を含む文書を求めて文書コーパスを検索してもよい。
システム100は、ユーザグラフィカルユーザインターフェースを介して関連トピックに関係する文書に関する情報を表示してもよい(770)。例として、システム100は、各文書のテキスト全体を表示する。別の例として、システム100は、各文書の複数のテキストセグメントを表示する。複数のテキストセグメントは、関連トピックのトピック単語を含む。
システム100は、関連トピックに関係する会話文書に関するフィードバックデータを受信してもよい(780)。例として、表示されたテキストまたはテキストセグメントの検査により、ユーザは、当該文書が関連トピックに対応する意図を明確に表すかどうかを判断する。そのような意図が現れれば、ユーザは、フィードバックデータとして意図の名前を入力する。任意選択で、関連トピックが、例としてすべての会話文書のうちの10%など多量の会話文書に関係する場合、関連トピックに対応する意図が漠然としており、関連トピックの下位意図を発見する意図精緻化が必須であることを示す。図4を参照して上述したように、関連トピックと、関連トピックに関係する表示された会話文書とを確認することにより、ユーザは、例として関連トピックの下位トピックとしてクエリルールのセットを定義してクエリルールに対して種々の下位意図を指定してもよい。よって、フィードバックデータは、下位意図の名前を含んでもよい。
システム100は、関連トピックに関係する意図情報をフィードバックデータに基づき判断してもよい(790)。例として、システム100は、意図名を用いて関連トピックにラベル付けする。あるいは、またはさらに、システム100が関連トピックに対して意図精緻化を実行する場合、システム100は、関連トピックに対応するクエリルールのそれぞれに、個別の下位意図名を用いてラベル付けする。さらにシステム100は、文書の中の、意図または下位意図を表す、関係のある発話を見つけてもよい。さらなる例として、システム100は、いくつのオーディオ通話がこの意図を対象としているかなどの様々な有用な統計を算出できる。
図8は、システム100の別の例を示す。システム100は、通信インターフェース812、入力インターフェース828、および/またはシステム回路構成814を含んでもよい。システム回路構成814は、プロセッサ816または複数のプロセッサを含んでもよい。あるいは、またはさらに、システム回路構成814はメモリ820を含んでもよい。
FIG. 8 shows another example of
プロセッサ816は、メモリ820と通信していてもよい。一部の例において、プロセッサ816は、通信インターフェース812、入力インターフェース828、および/またはユーザインターフェース818などのさらなる構成要素とも通信していてもよい。プロセッサ816の例には、汎用プロセッサ、中央処理ユニット、論理CPU(central processing unit:中央処理ユニット)/アレイ、マイクロコントローラ、サーバ、特定用途向け集積回路(ASIC:application specific integrated circuit)、デジタル信号プロセッサ、フィールドプログラマブルゲートアレイ(FPGA:field programmable gate array)、および/またはデジタル回路、アナログ回路、もしくはそれらの何らかの組み合わせが含まれ得る。
Processor 816 may be in communication with
プロセッサ816は、論理を実行するよう動作可能な1つ以上のデバイスであってもよい。論理は、メモリ820または他のメモリに記憶され、プロセッサ816により実行されるとプロセッサ816に、会話プロセッサ110、トピック評価器130、トピック選択器140、ルール定式化器150、意図精緻化器160、意図統計コンポーネント170、パラメータ検索180、および/またはシステム100の動作を実行させる、コンピュータ実行可能命令またはコンピュータコードを含んでもよい。さらに、プロセッサ816には、オーディオ通話処理のための速度テキスト化エンジン212、NLP正規化コンポーネント214、および/またはトピック抽出器216の動作、トピック選択のためのトピック近接性評価器320、トピックバランス評価器330、トピック可視化コンポーネント340、最良トピック選択器350、単語固有性評価器360、コンテキスト抽出器370、および/または単語影響評価器380の動作、ルール定式化および意図精緻化のためのルール発見コンポーネント410、ルール定義コンポーネント420、ルール実行コンポーネント440、インデクサ430、意図ラベラ450、意図文書割り当て器460、および/または意図発話分類器470の動作、最適パラメータ設定検索のための設定特徴抽出器550、最適パラメータ選択器510、会話プロセッサ520、トピック関連性定量化コンポーネント530、関連性定量化結果追跡器540、および/またはトピック特徴抽出器560の動作、パラメータ設定関連性定量化器およびトピック関連性定量化器の訓練のためのアノテーション実行器610、ユーザアノテータ615、トピック特徴抽出器620、設定特徴抽出器630、および/またはパラメータ設定およびトピック関連性定量化器訓練器640の動作を実行させてもよい。コンピュータコードは、プロセッサ816を用いて実行可能な命令を含んでもよい。
Processor 816 may be one or more devices operable to execute logic. The logic is stored in
メモリ820は、データの記憶および読み出し、またはその任意の組み合わせをするための任意のデバイスであってもよい。メモリ820は、ランダムアクセスメモリ(RAM:random access memory)、読み取り専用メモリ(ROM:read-only memory)、消去可能プログラム可能読み取り専用メモリ(EPROM:erasable programmable read-only memory)、またはフラッシュメモリなど、不揮発性および/または揮発性メモリを含んでもよい。あるいは、またはさらに、メモリ820は、光学、磁気(ハードドライブ)、ソリッドステートドライブ、またはその他任意の形態のデータ記憶デバイスを含んでもよい。メモリ820は、会話プロセッサ110、トピック評価器130、トピック選択器140、ルール定式化器150、意図精緻化器160、意図統計コンポーネント170、パラメータ検索180、および/またはシステム100のうちの少なくとも1つを含んでもよい。あるいは、またはさらに、メモリは、本願明細書に記載されたシステム100の他の任意のコンポーネントまたは下位コンポーネントを含んでもよい。
ユーザインターフェース818は、グラフィカル情報を表示する任意のインターフェースを含んでもよい。システム回路構成814および/または通信インターフェース(単数または複数)812は、ユーザインターフェースにグラフィカル情報を表示させる信号またはコマンドをユーザインターフェース818に伝達してもよい。あるいは、またはさらに、ユーザインターフェース818は、システム100に対し遠隔にあってもよく、システム回路構成814および/または通信インターフェース(単数または複数)は、HTMLなどの命令をユーザインターフェースに伝達して、ユーザインターフェースに情報コンテンツを表示、コンパイル、および/またはレンダリングさせてもよい。一部の例において、ユーザインターフェース818により表示されるコンテンツは、インタラクティブであっても、またはユーザ入力に応答してもよい。例として、ユーザインターフェース818は、信号、メッセージ、および/または情報を通信インターフェース812またはシステム回路構成814に伝達し返してもよい。
User interface 818 may include any interface that displays graphical information. System circuitry 814 and/or communication interface(s) 812 may communicate signals or commands to user interface 818 that cause the user interface to display graphical information. Alternatively or additionally, user interface 818 may be remote to
システム100は、多数の異なる形で実装され得る。一部の例において、システム100は、1つ以上の論理コンポーネントを用いて実装されてもよい。例として、システム100の論理コンポーネントは、ハードウェアであっても、またはハードウェアとソフトウェアとの組み合わせであってもよい。論理コンポーネントは、会話プロセッサ110、トピック評価器130、トピック選択器140、意図定義器145、ルール定式化器150、意図精緻化器160、意図統計コンポーネント170、パラメータ検索180、またはシステム100の任意のコンポーネントもしくは下位コンポーネントを含んでもよい。一部の例では、各論理コンポーネントは、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、デジタル論理回路、アナログ回路、別々の回路もしくはゲートもしくはその他任意のタイプのハードウェアの組み合わせ、またはそれらの組み合わせを含んでもよい。あるいは、またはさらに、各コンポーネントは、例えば論理コンポーネントの特徴のうち1つ以上を実装するためにプロセッサ816または他のプロセッサを用いて実行可能な命令を含むメモリ820の部分などのメモリハードウェアを含んでもよい。論理コンポーネントのいずれか1つが、プロセッサ816を用いて実行可能な命令を含むメモリの部分を含む場合、コンポーネントは、プロセッサ816を含んでもよく、または含まなくてもよい。一部の例では、各論理コンポーネントは、メモリ820または他の物理メモリのうち、プロセッサ816または他のプロセッサ(単数または複数)を用いて実行可能な命令を含む部分に過ぎず、他のハードウェアをコンポーネントが一切含まなくても対応するコンポーネントの特徴が実装されるものであってもよい。各コンポーネントは、含まれるハードウェアがソフトウェアを含む場合であっても少なくともいくらかのハードウェアを含むので、各コンポーネントは区別なくハードウェアコンポーネントと呼ばれ得る。
一部の特徴は、コンピュータ可読記憶媒体に記憶されるように示されている(例として、コンピュータ実行可能命令として実装される論理として、またはメモリの中のデータ構造として)。システムならびにその論理およびデータ構造の全部または一部が、1つ以上のタイプのコンピュータ可読記憶媒体に記憶され、分散され、またはそこから読み取られてもよい。コンピュータ可読記憶媒体の例には、ハードディスク、フロッピーディスク、CD-ROM、フラッシュドライブ、キャッシュ、揮発性メモリ、不揮発性メモリ、RAM、フラッシュメモリ、またはその他任意のタイプの1つもしくは複数のコンピュータ可読記憶媒体が含まれ得る。コンピュータ可読記憶媒体は、CD-ROM、揮発性メモリ、不揮発性メモリ、ROM、RAM、またはその他任意の適切な記憶デバイスなど、任意のタイプの非一時的コンピュータ可読媒体を含んでもよい。 Some features are shown stored on a computer-readable storage medium (eg, as logic implemented as computer-executable instructions or as data structures in memory). The system and its logic and data structures, in whole or in part, may be stored on, distributed over, and read from one or more types of computer-readable storage media. Examples of computer-readable storage media include hard disks, floppy disks, CD-ROMs, flash drives, cache, volatile memory, non-volatile memory, RAM, flash memory, or any other type of one or more computer-readable storage. A medium can be included. The computer-readable storage medium may include any type of non-transitory computer-readable medium such as CD-ROM, volatile memory, non-volatile memory, ROM, RAM, or any other suitable storage device.
システムの処理能力は、複数のプロセッサおよびメモリ間など複数のエンティティ間に分散されてもよく、任意選択で複数の分散型処理システムが含まれる。パラメータ、データベース、および他のデータ構造は、別々に記憶および管理されてもよく、単一のメモリまたはデータベースに組み込まれてもよく、多数の異なる形で論理的および物理的に編成されてもよく、連結リスト、ハッシュテーブル、または暗黙的記憶メカニズムなどの様々なタイプのデータ構造を用いて実装されてもよい。プログラムまたは回路構成などの論理は、組み合わされても、または複数のプログラム間に分割されても、いくつかのメモリおよびプロセッサに分散されてもよく、共有ライブラリ(例としてダイナミックリンクライブラリ(DLL:dynamic link library)などのライブラリに実装されてもよい。 The processing power of the system may be distributed among multiple entities, such as among multiple processors and memories, optionally including multiple distributed processing systems. Parameters, databases, and other data structures may be stored and managed separately, may be incorporated into a single memory or database, and may be logically and physically organized in many different ways. , linked lists, hash tables, or implicit storage mechanisms. Logic, such as programs or circuitry, may be combined or split between multiple programs, distributed across several memories and processors, and shared libraries (e.g., dynamic link libraries (DLLs) link library).
記載された特定の実装にかかわらず、すべての説明は限定ではなく、本質的に例示である。例として、各実装の選択された側面、特徴、またはコンポーネントがメモリ(単数または複数)に記憶されるものとして表されているが、1つまたは複数のシステムの全部または一部が、例としてハードディスク、フラッシュメモリドライブ、フロッピーディスク、およびCD-ROMなどの二次記憶デバイスなど、他のコンピュータ可読記憶媒体に記憶され、分散され、またはそこから読み取られてもよい。さらに、様々な論理ユニット、回路構成、および画面表示機能性は、かかる機能性の一例でしかなく、同様の機能性を含む他の任意の構成が可能である。 Regardless of the particular implementation described, all descriptions are exemplary in nature rather than limiting. By way of example, selected aspects, features, or components of each implementation are presented as being stored in memory(s), although all or part of one or more systems may be stored on a hard disk by way of example. , flash memory drives, floppy disks, and secondary storage devices such as CD-ROMs. Moreover, the various logic units, circuitry, and screen display functionality are only examples of such functionality, and any other configuration containing similar functionality is possible.
上述したプロセス、方法、および/または手法を実装するための個別の論理、ソフトウェア、または命令は、コンピュータ可読記憶媒体上で提供されてもよい。図面に示されまたは本願明細書に記載された機能、動作、またはタスクは、コンピュータ可読媒体内またはコンピュータ可読媒体上に記憶された論理または命令の1つ以上のセットに応答して実行されてもよい。機能、動作、またはタスクは、特定のタイプの命令セット、記憶媒体、プロセッサ、または処理戦略とは独立しており、単体または組み合わせで動作するソフトウェア、ハードウェア、集積回路、ファームウェア、マイクロコード、および同様のものにより実行され得る。同じく、処理戦略は、マルチプロセッシング、マルチタスキング、並列処理、および同様のものを含んでもよい。一例では、命令はローカルまたは遠隔のシステムによる読み取りのために取り外し可能な媒体デバイス上に記憶される。他の例では、論理または命令は、コンピュータネットワークを介した、または電話線での転送のために遠隔位置において記憶される。さらに別の例では、論理または命令は、所定のコンピュータおよび/または中央処理ユニット(「CPU」)内に記憶される。 Discrete logic, software, or instructions for implementing the processes, methods, and/or techniques described above may be provided on a computer-readable storage medium. The functions, acts, or tasks illustrated in the drawings or described herein may be performed in response to one or more sets of logic or instructions stored in or on computer readable media. good. Any function, operation, or task may be independent of any particular type of instruction set, storage medium, processor, or processing strategy and may be implemented in software, hardware, integrated circuits, firmware, microcode, and software operating singly or in combination. can be performed by the like. Likewise, processing strategies may include multiprocessing, multitasking, parallel processing, and the like. In one example, the instructions are stored on a removable media device for reading by a local or remote system. In other examples, the logic or instructions are stored at a remote location for transfer over a computer network or over a telephone line. In yet another example, the logic or instructions are stored within a given computer and/or central processing unit (“CPU”).
さらに、特定のコンポーネントが上述されているが、本願明細書に記載された方法、システム、および製品は、追加の、より少数の、または異なるコンポーネントを含んでもよい。例としてプロセッサは、マイクロプロセッサ、マイクロコントローラ、特定用途向け集積回路(ASIC)、個別論理、または他のタイプの回路もしくは論理の組み合わせとして実装されてもよい。同じく、メモリはDRAM、SRAM、フラッシュ、またはその他任意のタイプのメモリとされ得る。フラグ、データ、データベース、テーブル、エンティティ、およびその他データ構造は、別個に記憶および管理されてもよく、単一のメモリもしくはデータベースに組み入れられてもよく、分散されてもよく、または多数の異なる形で論理的および物理的に編成されてもよい。コンポーネントは、独立して動作してもよく、または同じプログラムもしくは異なるプログラムを実行する同じ装置の一部であってもよい。コンポーネントは、別々の取り外し可能な回路基板などの別々のハードウェア上に存在してもよく、またはメモリからの命令を実装するために同じメモリおよびプロセッサなど共通のハードウェアを共有してもよい。プログラムは、単一のプログラムの一部であっても、別々のプログラムであっても、またはいくつかのメモリおよびプロセッサにわたって分散していてもよい。 Additionally, although specific components are described above, the methods, systems, and articles of manufacture described herein may include additional, fewer, or different components. By way of example, a processor may be implemented as a microprocessor, microcontroller, application specific integrated circuit (ASIC), discrete logic, or a combination of other types of circuits or logic. Likewise, the memory may be DRAM, SRAM, Flash, or any other type of memory. Flags, data, databases, tables, entities, and other data structures may be stored and managed separately, incorporated into a single memory or database, distributed, or distributed in many different forms. may be organized logically and physically in Components may operate independently or may be part of the same device executing the same or different programs. The components may reside on separate hardware such as separate removable circuit boards or may share common hardware such as the same memory and processor to implement instructions from memory. The programs may be part of a single program, separate programs, or distributed across several memories and processors.
第2のアクションは、第2のアクションが第1のアクションから直接的に生じるかまたは間接的に生じるかに関わらず、第1のアクション「に応答して」と言われることがある。第2のアクションは、第1のアクションよりも大幅に遅い時間に発生してもよく、それでも第1のアクションに応答してのものとされ得る。同じく、第2のアクションは、第1のアクションと第2のアクションとの間に介在するアクションが起こるとしても、さらに介在するアクションのうちの1つ以上が直接的に第2のアクションを実行させるとしても、第1のアクションに応答してのものと言われることがある。例として、第1のアクションがフラグをセットし、フラグがセットされるたびに後で第3のアクションが第2のアクションを開始する場合、第2のアクションは第1のアクションに応答してのものとされ得る。 A second action is sometimes said to be “in response to” a first action, regardless of whether the second action results directly or indirectly from the first action. The second action may occur at a significantly later time than the first action and still be in response to the first action. Similarly, the second action causes the second action to be performed directly by one or more of the intervening actions, even if an intervening action occurs between the first action and the second action. is sometimes said to be in response to the first action. As an example, if a first action sets a flag, and a third action initiates a second action after each time the flag is set, then the second action is triggered in response to the first action. can be assumed.
用途を明確化し、且つこれにより公に知らせると、語句「<A>、<B>、…および<N>のうちの少なくとも1つ」または「<A>、<B>、…<N>、またはそれらの組み合わせのうちの少なくとも1つ」、または「<A>、<B>、…、および/または<N>」は、出願人によって最も広い意味に定義され、この定義は、反対の明示的な主張が出願人によりなされない限り、上文または下文で示唆される他のいずれの定義にも優先し、A、B、…、およびNを含むグループから選択された1つ以上の構成要素を意味する。言い換えれば、この語句は、構成要素A、B、…、またはNのうちの1つ以上の任意の組み合わせを意味し、これには任意の1つの構成要素のみ、または他の構成要素1つ以上と組み合わせた1つの構成要素が含まれ、他の構成要素には、列挙されていない追加の構成要素が組み合わせでさらに含まれることもある。 To clarify the use and thereby publicly inform, the phrase "at least one of <A>, <B>, ... and <N>" or "<A>, <B>, ... <N>, or at least one of the combinations thereof", or "<A>, <B>, . One or more members selected from the group comprising A, B, . means In other words, the phrase means any combination of one or more of the components A, B, . and other components may further include additional components not listed in combination.
様々な実施形態が記載されたが、当業者には当然のことながら、はるかに多くの実施形態および実装が可能である。したがって、本願明細書に記載された実施形態は例であり、唯一の可能な実施形態および実装ではない。
While various embodiments have been described, it will be appreciated by those skilled in the art that many more embodiments and implementations are possible. Accordingly, the embodiments described herein are examples and not the only possible embodiments and implementations.
Claims (7)
メモリと通信をするプロセッサによって、マルチメディア会話を受信するステップと、
前記プロセッサによって、パラメータリポジトリからパラメータ設定候補の第1セットを選択するステップと、
前記プロセッサによって、前記パラメータ設定候補の第1セットの中の各パラメータ設定候補について、関連性基準が満たされるかどうかを判断するステップであって、
前記プロセッサによって、前記パラメータ設定候補に基づき前記マルチメディア会話をテキスト情報に変換するステップ、
前記プロセッサによって、自然言語処理メカニズムにより、前記パラメータ設定候補に基づき前記テキスト情報を文書コーパスへと正規化するステップ、
前記プロセッサによって、前記文書コーパス内の単語について単語埋め込みのセットを生成するステップ、
前記プロセッサによって、前記パラメータ設定候補に基づき前記文書コーパスからトピックのセットを抽出するステップ、
前記プロセッサによって、前記単語埋め込みのセットに基づき前記トピックのセットの中の各トピックについて個別のトピック特徴を獲得するステップ、
前記プロセッサによって、前記トピック特徴、およびトピックの関連性を予測するように訓練された機械学習モデルを含むトピック関連性定量化器に基づき、前記トピックのセットの中の各トピックについて個別の関連性メトリクスを判断するステップ、ならびに
前記プロセッサによって、前記パラメータ設定候補が関連性基準を満たすかどうかを、前記関連性メトリクスを前記関連性基準と比較することにより判断するステップ
により、前記パラメータ設定候補の第1セットの中の各パラメータ設定候補について、前記関連性基準が満たされるかどうかを判断するステップと、
前記パラメータ設定候補の第1セットの中の少なくとも1つのパラメータ設定候補により前記関連性基準が満たされることに応答して、前記プロセッサによって、前記パラメータ設定候補の第1セットの中の前記少なくとも1つのパラメータ設定候補から、前記関連性基準を最も良く満たすパラメータ設定候補を、最適パラメータ設定として選択するステップと、
前記プロセッサによって、前記最適パラメータ設定に基づき、前記文書コーパスから抽出されたトピックのセットから関連トピックを判断するステップと、
前記プロセッサによって、前記判断された関連トピックに関係する意図情報を判断するステップと、
を含む方法。 A method of intent discovery, comprising:
receiving a multimedia conversation by a processor in communication with a memory ;
selecting , by the processor, a first set of candidate parameter settings from a parameter repository;
determining , by the processor, whether a relevance criterion is met for each candidate parameter setting in the first set of candidate parameter settings, comprising:
converting , by the processor, the multimedia conversation into text information based on the candidate parameter settings;
normalizing , by the processor, the textual information into a document corpus based on the candidate parameter settings by means of a natural language processing mechanism;
generating , by the processor, a set of word embeddings for words in the document corpus;
extracting , by the processor, a set of topics from the document corpus based on the candidate parameter settings;
obtaining , by the processor, individual topic features for each topic in the set of topics based on the set of word embeddings;
by the processor a separate relevance metric for each topic in the set of topics based on the topic features and a topic relevance quantifier comprising a machine learning model trained to predict topic relevance; and
determining , by the processor, whether the candidate parameter setting satisfies a relevance criterion by comparing the relevance metric to the relevance criterion; determining whether the relevance criteria are met for a candidate configuration;
In response to the relevance criterion being satisfied by at least one candidate parameter setting in the first set of candidate parameter settings, the processor causes the at least one candidate parameter setting in the first set of candidate parameter settings to selecting, from the candidate parameter settings, the candidate parameter setting that best satisfies the relevance criteria as the optimal parameter setting;
determining , by the processor, relevant topics from a set of topics extracted from the document corpus based on the optimal parameter settings;
determining , by the processor, intent information related to the determined relevant topic;
method including.
前記プロセッサによって、設定関連性定量化器に基づきパラメータリポジトリから前記パラメータ設定候補の第1セットを選択するステップ
を含み、前記設定関連性定量化器は、前記意図発見に対するトピックの関連性に対する、パラメータ設定候補の影響を予測するように訓練された機械学習モデルを含む、請求項1に記載の方法。 The step of selecting the first set of candidate parameter settings from the parameter repository comprises:
selecting , by the processor, the first set of candidate parameter settings from a parameter repository based on a setting relevance quantifier, wherein the setting relevance quantifier determines the relevance of a topic to the intent discovery by: 2. The method of claim 1, comprising a machine learning model trained to predict the impact of candidate settings.
前記パラメータ設定候補の第1セットの中のいずれのパラメータ設定候補によっても前記関連性基準が満たされないことに応答して、
前記プロセッサによって、前記設定関連性定量化器に基づき前記パラメータリポジトリからパラメータ設定候補の第2セットを選択するステップと、
前記プロセッサによって、前記パラメータ設定候補の第2セットの中の各パラメータ設定候補について、前記関連性基準が満たされるかどうかを判断するステップと
をさらに含む、請求項2に記載の方法。 The step of obtaining the optimal parameter settings comprises:
In response to the relevance criteria not being met by any candidate parameter settings in the first set of candidate parameter settings,
selecting , by the processor, a second set of candidate parameter settings from the parameter repository based on the setting relevance quantifier;
3. The method of claim 2, further comprising: determining , by the processor , for each candidate parameter setting in the second set of candidate parameter settings whether the relevance criterion is met.
以下のステップ:
前記プロセッサによって、前記訓練用パラメータ設定に基づき前記マルチメディア会話を訓練用テキスト情報に変換するステップ、
前記プロセッサによって、前記自然言語処理メカニズムにより、前記訓練用パラメータ設定に基づき前記訓練用テキスト情報を訓練用文書コーパスへと正規化するステップ、
前記プロセッサによって、前記訓練用文書コーパス内の単語について単語埋め込みの訓練用セットを生成するステップ、および
前記プロセッサによって、前記訓練用パラメータ設定に基づき前記訓練用文書コーパスからトピックの訓練用セットを抽出するステップ
により、前記プロセッサによって、前記訓練用パラメータ設定のそれぞれに個々に基づき前記マルチメディア会話を処理するステップと、
前記プロセッサによって、前記単語埋め込みの訓練用セットに基づき前記トピックの訓練用セットの中の各トピックについて個別の訓練用トピック特徴を獲得するステップと、
前記プロセッサによって、ユーザインターフェースを介してトピックの個別の訓練用セットを表示するステップと、
前記プロセッサによって、前記トピックのそれぞれについて個別のスコア入力を受信するステップであって、前記スコア入力は、前記意図発見に対する前記トピックの関連性を示す、前記個別のスコア入力を前記受信するステップと、
前記トピック関連性定量化器を獲得するために、前記プロセッサによって、前記スコア入力および前記訓練用トピック特徴に基づき機械学習モデルを訓練するステップと
をさらに含む、請求項2に記載の方法。 obtaining , by the processor, a plurality of training parameter settings;
Steps below:
converting , by the processor, the multimedia dialogue into training textual information based on the training parameter settings;
normalizing , by the processor, by the natural language processing mechanism, the training text information into a training document corpus based on the training parameter settings;
generating , by the processor, a training set of word embeddings for words in the training document corpus; and
extracting , by the processor, a training set of topics from the training document corpus based on the training parameter settings; and processing , by the processor, the multimedia conversation based on each of the training parameter settings individually. a step;
obtaining , by the processor, individual training topic features for each topic in the training set of topics based on the training set of word embeddings;
displaying , by the processor, a separate training set of topics via a user interface;
receiving , by the processor, an individual score input for each of the topics, the score input indicating the relevance of the topic to the intent discovery;
3. The method of claim 2, further comprising training, by the processor, a machine learning model based on the score input and the training topic features to obtain the topic relevance quantifier.
前記設定関連性定量化器を獲得するために、前記プロセッサによって、前記スコア入力および前記訓練用設定特徴に基づき機械学習モデルを訓練するステップと
をさらに含む、請求項4に記載の方法。 extracting by the processor a separate training setting feature from each of the training parameter settings, the training setting feature indicating a value of a parameter in the training parameter setting; said extracting training configuration features;
5. The method of claim 4, further comprising training, by the processor, a machine learning model based on the score input and the training preference features to obtain the preference relevance quantifier.
マルチメディア会話を受信することと、
パラメータリポジトリからパラメータ設定候補の第1セットを選択することと、
前記パラメータ設定候補の第1セットの中の各パラメータ設定候補について、
前記パラメータ設定候補に基づき前記マルチメディア会話をテキスト情報に変換すること、
前記パラメータ設定候補に基づき前記テキスト情報を文書コーパスへと正規化すること、
前記文書コーパス内の単語について単語埋め込みのセットを生成すること、
前記パラメータ設定候補に基づき前記文書コーパスからトピックのセットを抽出すること、
前記単語埋め込みのセットに基づき前記トピックのセットの中の各トピックについて個別のトピック特徴を獲得すること、
前記トピック特徴、およびトピックの関連性を予測するように訓練された機械学習モデルを含むトピック関連性定量化器に基づき、前記トピックのセットの中の各トピックについて個別の関連性メトリクスを判断すること、ならびに
前記パラメータ設定候補が関連性基準を満たすことが満たされるかどうかを、前記関連性メトリクスを前記関連性基準と比較することにより判断することと、
前記パラメータ設定候補の第1セットの中の少なくとも1つのパラメータ設定候補により前記関連性基準が満たされることに応答して、前記パラメータ設定候補の第1セットの中の前記少なくとも1つのパラメータ設定候補から、前記関連性基準を最も良く満たすパラメータ設定候補を、最適パラメータ設定として選択することと、
前記最適パラメータ設定に基づき、前記文書コーパスから抽出されたトピックのセットから関連トピックを判断することと、
前記判断された関連トピックに関係する意図情報を判断することと、
をするように構成される、システム。 A system for intent discovery comprising a processor, the processor comprising:
receiving a multimedia conversation;
selecting a first set of candidate parameter settings from a parameter repository;
For each candidate parameter setting in the first set of candidate parameter settings,
converting the multimedia conversation into text information based on the candidate parameter settings;
normalizing the text information into a document corpus based on the parameter setting candidates;
generating a set of word embeddings for words in the document corpus;
extracting a set of topics from the document corpus based on the candidate parameter settings;
obtaining individual topic features for each topic in the set of topics based on the set of word embeddings;
Determining a separate relevance metric for each topic in the set of topics based on the topic features and a topic relevance quantifier comprising a machine learning model trained to predict topic relevance. and determining whether the candidate parameter setting satisfies a relevance criterion by comparing the relevance metric to the relevance criterion;
from the at least one candidate parameter setting in the first set of candidate parameter settings in response to the relevance criterion being satisfied by at least one candidate parameter setting in the first set of candidate parameter settings. , selecting the candidate parameter setting that best satisfies the relevance criterion as the optimal parameter setting;
determining relevant topics from a set of topics extracted from the document corpus based on the optimal parameter settings;
determining intent information related to the determined relevant topic;
A system configured to
マルチメディア会話を受信することと、
パラメータリポジトリからパラメータ設定候補の第1セットを選択することと、
前記パラメータ設定候補の第1セットの中の各パラメータ設定候補について、
前記パラメータ設定候補に基づき前記マルチメディア会話をテキスト情報に変換すること、
前記パラメータ設定候補に基づき前記テキスト情報を文書コーパスへと正規化すること、
前記文書コーパス内の単語について単語埋め込みのセットを生成すること、
前記パラメータ設定候補に基づき前記文書コーパスからトピックのセットを抽出すること、
前記単語埋め込みのセットに基づき前記トピックのセットの中の各トピックについて個別のトピック特徴を獲得すること、
前記トピック特徴、およびトピックの関連性を予測するように訓練された機械学習モデルを含むトピック関連性定量化器に基づき、前記トピックのセットの中の各トピックについて個別の関連性メトリクスを判断すること、ならびに
前記パラメータ設定候補が関連性基準を満たすかどうかを、前記関連性メトリクスを前記関連性基準と比較することにより判断することと、
前記パラメータ設定候補の第1セットの中の少なくとも1つのパラメータ設定候補により前記関連性基準が満たされることに応答して、前記パラメータ設定候補の第1セットの中の前記少なくとも1つのパラメータ設定候補から、前記関連性基準を最も良く満たすパラメータ設定候補を、最適パラメータ設定として選択することと、
前記最適パラメータ設定に基づき、前記文書コーパスから抽出されたトピックのセットから関連トピックを判断することと、
前記判断された関連トピックに関係する意図情報を判断することと、
のためにプロセッサにより実行可能である、非一時的コンピュータ可読記憶媒体。 A non-transitory computer-readable storage medium containing computer-executable instructions, the instructions comprising:
receiving a multimedia conversation;
selecting a first set of candidate parameter settings from a parameter repository;
For each candidate parameter setting in the first set of candidate parameter settings,
converting the multimedia conversation into text information based on the candidate parameter settings;
normalizing the text information into a document corpus based on the parameter setting candidates;
generating a set of word embeddings for words in the document corpus;
extracting a set of topics from the document corpus based on the candidate parameter settings;
obtaining individual topic features for each topic in the set of topics based on the set of word embeddings;
Determining a separate relevance metric for each topic in the set of topics based on the topic features and a topic relevance quantifier comprising a machine learning model trained to predict topic relevance. and determining whether the candidate parameter setting satisfies a relevance criterion by comparing the relevance metric to the relevance criterion;
from the at least one candidate parameter setting in the first set of candidate parameter settings in response to the relevance criterion being satisfied by at least one candidate parameter setting in the first set of candidate parameter settings. , selecting the candidate parameter setting that best satisfies the relevance criterion as the optimal parameter setting;
determining relevant topics from a set of topics extracted from the document corpus based on the optimal parameter settings;
determining intent information related to the determined relevant topic;
A non-transitory computer-readable storage medium executable by a processor for
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962931862P | 2019-11-07 | 2019-11-07 | |
US62/931,862 | 2019-11-07 | ||
US16/742,508 | 2020-01-14 | ||
US16/742,508 US11315551B2 (en) | 2019-11-07 | 2020-01-14 | System and method for intent discovery from multimedia conversation |
JP2020169168A JP7162648B2 (en) | 2019-11-07 | 2020-10-06 | Systems and methods for intent discovery from multimedia conversations |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020169168A Division JP7162648B2 (en) | 2019-11-07 | 2020-10-06 | Systems and methods for intent discovery from multimedia conversations |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022191422A JP2022191422A (en) | 2022-12-27 |
JP7324354B2 true JP7324354B2 (en) | 2023-08-09 |
Family
ID=75846771
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020169168A Active JP7162648B2 (en) | 2019-11-07 | 2020-10-06 | Systems and methods for intent discovery from multimedia conversations |
JP2022166598A Active JP7324354B2 (en) | 2019-11-07 | 2022-10-18 | Systems and methods for intent discovery from multimedia conversations |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020169168A Active JP7162648B2 (en) | 2019-11-07 | 2020-10-06 | Systems and methods for intent discovery from multimedia conversations |
Country Status (2)
Country | Link |
---|---|
US (1) | US11315551B2 (en) |
JP (2) | JP7162648B2 (en) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6841535B1 (en) * | 2020-01-29 | 2021-03-10 | 株式会社インタラクティブソリューションズ | Conversation analysis system |
US11544721B2 (en) * | 2020-02-18 | 2023-01-03 | At&T Intellectual Property I, L.P. | Supporting automation of customer service |
US11216619B2 (en) * | 2020-04-28 | 2022-01-04 | International Business Machines Corporation | Feature reweighting in text classifier generation using unlabeled data |
US11539650B2 (en) * | 2020-07-16 | 2022-12-27 | International Business Machines Corporation | System and method for alerts for missing coverage of chatbot conversation messages |
US11626108B2 (en) * | 2020-09-25 | 2023-04-11 | Td Ameritrade Ip Company, Inc. | Machine learning system for customer utterance intent prediction |
US11978445B1 (en) | 2021-03-30 | 2024-05-07 | Amazon Technologies, Inc. | Confidence scoring for selecting tones and text of voice browsing conversations |
US11776542B1 (en) * | 2021-03-30 | 2023-10-03 | Amazon Technologies, Inc. | Selecting dialog acts using controlled randomness and offline optimization |
EP4359958A1 (en) | 2021-06-25 | 2024-05-01 | L & T Technology Services Limited | A system and method for examining relevancy of documents |
US12131334B2 (en) * | 2021-07-08 | 2024-10-29 | T-Mobile Usa, Inc. | Customer care topic coverage determination and coaching |
CN113515616B (en) * | 2021-07-12 | 2024-05-14 | 中国电子科技集团公司第二十八研究所 | Task driving system based on natural language |
US12155558B2 (en) * | 2022-04-29 | 2024-11-26 | Naver Corporation | Method, computer device, and non-transitory computer-readable recording medium for providing optimal path using expert knowledge |
CN115203240B (en) * | 2022-09-13 | 2022-12-09 | 永鼎行远(南京)信息科技有限公司 | Bus message processing system based on call data retrieval |
CN117194740B (en) * | 2023-11-08 | 2024-01-30 | 武汉大学 | Geographic information retrieval intent update method and system based on guided iterative feedback |
CN117371440B (en) * | 2023-12-05 | 2024-03-12 | 广州阿凡提电子科技有限公司 | Topic text big data analysis method and system based on AIGC |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000067068A (en) | 1998-08-21 | 2000-03-03 | Nec Corp | System for automatically classifying document and method therefor |
JP2002132766A (en) | 2000-10-30 | 2002-05-10 | System Iguze:Kk | Device and method for natural language response and recording medium recording natural language response program |
JP2015056020A (en) | 2013-09-11 | 2015-03-23 | 株式会社東芝 | Document classification device |
US20150127591A1 (en) | 2013-11-04 | 2015-05-07 | Adobe Systems Incorporated | Identifying suggestive intent in social posts |
JP2018151786A (en) | 2017-03-10 | 2018-09-27 | ヤフー株式会社 | Classification device, classification method, and classification program |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000067063A (en) | 1998-08-20 | 2000-03-03 | Hitachi Electronics Service Co Ltd | Interaction content using system |
US20140108143A1 (en) * | 2010-08-05 | 2014-04-17 | Solariat Inc. | Social content distribution network |
WO2012166581A2 (en) * | 2011-05-27 | 2012-12-06 | Ctc Tech Corp. | Creation, use and training of computer-based discovery avatars |
WO2015099810A1 (en) * | 2013-12-29 | 2015-07-02 | Hewlett-Packard Development Company, L.P. | Learning graph |
US10803850B2 (en) * | 2014-09-08 | 2020-10-13 | Microsoft Technology Licensing, Llc | Voice generation with predetermined emotion type |
US9318107B1 (en) * | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US9977778B1 (en) * | 2016-11-03 | 2018-05-22 | Conduent Business Services, Llc | Probabilistic matching for dialog state tracking with limited training data |
US20180211223A1 (en) * | 2017-01-23 | 2018-07-26 | Bank Of America Corporation | Data Processing System with Machine Learning Engine to Provide Automated Collaboration Assistance Functions |
US10268646B2 (en) * | 2017-06-06 | 2019-04-23 | Facebook, Inc. | Tensor-based deep relevance model for search on online social networks |
US20200105156A1 (en) * | 2018-09-28 | 2020-04-02 | Microsoft Technology Licensing, Llc | Adaptive interview preparation for candidates |
US11403597B2 (en) * | 2019-06-19 | 2022-08-02 | Microsoft Technology Licensing, Llc | Contextual search ranking using entity topic representations |
-
2020
- 2020-01-14 US US16/742,508 patent/US11315551B2/en active Active
- 2020-10-06 JP JP2020169168A patent/JP7162648B2/en active Active
-
2022
- 2022-10-18 JP JP2022166598A patent/JP7324354B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000067068A (en) | 1998-08-21 | 2000-03-03 | Nec Corp | System for automatically classifying document and method therefor |
JP2002132766A (en) | 2000-10-30 | 2002-05-10 | System Iguze:Kk | Device and method for natural language response and recording medium recording natural language response program |
JP2015056020A (en) | 2013-09-11 | 2015-03-23 | 株式会社東芝 | Document classification device |
US20150127591A1 (en) | 2013-11-04 | 2015-05-07 | Adobe Systems Incorporated | Identifying suggestive intent in social posts |
JP2018151786A (en) | 2017-03-10 | 2018-09-27 | ヤフー株式会社 | Classification device, classification method, and classification program |
Also Published As
Publication number | Publication date |
---|---|
JP2022191422A (en) | 2022-12-27 |
US11315551B2 (en) | 2022-04-26 |
US20210142791A1 (en) | 2021-05-13 |
JP2021089713A (en) | 2021-06-10 |
JP7162648B2 (en) | 2022-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7324354B2 (en) | Systems and methods for intent discovery from multimedia conversations | |
US20240069860A1 (en) | Search and knowledge base question answering for a voice user interface | |
US12141532B2 (en) | Device and method for machine reading comprehension question and answer | |
US10303683B2 (en) | Translation of natural language questions and requests to a structured query format | |
US9280535B2 (en) | Natural language querying with cascaded conditional random fields | |
US9330661B2 (en) | Accuracy improvement of spoken queries transcription using co-occurrence information | |
US10754886B2 (en) | Using multiple natural language classifier to associate a generic query with a structured question type | |
US9564122B2 (en) | Language model adaptation based on filtered data | |
US20050131677A1 (en) | Dialog driven personal information manager | |
CN109947902B (en) | Data query method and device and readable medium | |
KR20080068844A (en) | Indexing and retrieval method of voice document with text metadata, computer readable medium | |
KR20080069990A (en) | Computer-readable media with voice segment indexing and retrieval methods and computer executable instructions | |
CN105393248A (en) | Non-factoid question-and-answer system and method | |
US20210374168A1 (en) | Semantic cluster formation in deep learning intelligent assistants | |
KR20210044697A (en) | Ai based question and answer system and method | |
CN104750677A (en) | Speech translation apparatus, speech translation method and speech translation program | |
El Janati et al. | Adaptive e-learning AI-powered chatbot based on multimedia indexing | |
CN113515616B (en) | Task driving system based on natural language | |
Pais et al. | In-depth evaluation of Romanian natural language processing pipelines | |
CN115701612A (en) | Machine learning model for detecting subject divergent digital video | |
Malandrakis et al. | Emotiword: Affective lexicon creation with application to interaction and multimedia data | |
Zajíc et al. | First insight into the processing of the language consulting center data | |
US12175968B1 (en) | Skill selection for responding to natural language inputs | |
US12204866B1 (en) | Voice based searching and dialog management system | |
Liu et al. | Topic modeling for conference analytics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20221020 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221020 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20221020 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221129 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20230427 Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230427 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230725 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230728 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7324354 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R154 | Certificate of patent or utility model (reissue) |
Free format text: JAPANESE INTERMEDIATE CODE: R154 |