JP7246337B2 - Computer system and work estimation method - Google Patents
Computer system and work estimation method Download PDFInfo
- Publication number
- JP7246337B2 JP7246337B2 JP2020043080A JP2020043080A JP7246337B2 JP 7246337 B2 JP7246337 B2 JP 7246337B2 JP 2020043080 A JP2020043080 A JP 2020043080A JP 2020043080 A JP2020043080 A JP 2020043080A JP 7246337 B2 JP7246337 B2 JP 7246337B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- time
- series data
- data
- utterances
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、作業員の発話に基づく作業の推定方法に関する。 TECHNICAL FIELD The present invention relates to a work estimation method based on a worker's speech.
ユーザから取得した音声データを用いて、ユーザの発話意図を理解するアルゴリズム(モデル)を実装したシステムが知られている(例えば、特許文献1及び非特許文献1を参照)。本明細書では、当該システムを発話意図推定システムと記載する。
A system is known in which an algorithm (model) for understanding a user's utterance intention is implemented using speech data obtained from the user (see, for example,
特許文献1には、「発話意図推定装置は、ユーザ発話の音声データを取得する音声取得手段と、発話の音響的な特徴量である音響特徴量を取得する特徴量取得手段と、前記音響特徴量から前記ユーザ発話の意図を推定する意図推定手段と、を備える。前記意図推定手段は、発話のテキストを用いても前記ユーザ発話の意図を推定可能に構成されてもよく、前記音声データから前記ユーザ発話のテキストを抽出できた場合には発話のテキストを用いて意図を推定し、前記音声データから前記ユーザ発話のテキストを抽出できなかった場合やテキストから発話意図を推定できなかった場合には音響特徴量を用いて意図を推定することも好ましい。」ことが記載されている。
非特許文献1には、過去の発話内容を考慮して、現在の意図理解結果を修正することが記載されている。
Non-Patent
製品の製造又は機器の点検等の作業を行う工場又は現場において、作業員が行っている作業の内容及び結果を推定するために、発話意図推定システムを利用することが想定される。 It is assumed that an utterance intention estimation system will be used to estimate the content and results of work performed by workers in factories or sites where work such as product manufacturing or equipment inspection is performed.
作業員が行っている作業の内容及び結果を推定する場合、発話単位の発話意図からは作業の内容及び結果を推定することが困難である。そのため、非特許文献1に記載されているように、発話系列を用いて発話意図を推定する必要がある。
When estimating the content and result of work performed by a worker, it is difficult to estimate the content and result of work from the utterance intention of each utterance. Therefore, as described in
作業中に作業員が発する発話の組合せ(発話内容及び発話順の組合せ)は、同じ作業であっても異なる場合がある。一般的に様々な発話の組合せに対応させたモデルを生成することは難しいため、従来のモデルは、特定の発話の組合せに固定されている。 The combination of utterances uttered by workers during work (combination of utterance content and utterance order) may differ even for the same work. Since it is generally difficult to generate models corresponding to combinations of various utterances, conventional models are fixed to specific combinations of utterances.
本発明は、様々な発話の組合せの入力に対して、作業員が行った作業の内容及び結果を高い精度で推定できる発話意図推定システムを実現する。 The present invention realizes an utterance intention estimation system capable of estimating with high accuracy the content and result of work performed by a worker for input of various combinations of utterances.
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、発話に基づいて作業員が行っている作業を推定する計算機システムであって、プロセッサ及び前記プロセッサに接続されるメモリを有する少なくとも一つの計算機を備え、前記プロセッサは、前記作業員が発した発話の音声データをテキストに変換し、前記テキストを前記メモリに格納し、時系列が連続した複数の前記音声データから前記発話間の発話間隔を算出し、前記発話間隔を前記メモリに格納し、複数の前記テキストが時系列順に並べられた発話の時系列データ及び前記発話間隔を時系列順に並べた発話間隔の時系列データを生成し、前記発話の時系列データ及び前記発話間隔の時系列データを前記メモリに格納し、前記発話の時系列データ及び前記発話間隔の時系列データに基づいて、前記作業員が行った作業の内容及び結果を推定し、前記推定の結果を出力する。 A representative example of the invention disclosed in the present application is as follows. That is, a computer system for estimating work performed by a worker based on utterances, comprising at least one computer having a processor and a memory connected to the processor, wherein the processor receives the converting speech data into text, storing the text in the memory, calculating an utterance interval between the utterances from a plurality of the time-series continuous voice data, storing the utterance interval in the memory; generating time-series data of utterances in which the plurality of texts are arranged in chronological order and time-series data of utterance intervals in which the utterance intervals are arranged in chronological order; is stored in the memory, and based on the time-series data of the speech and the time-series data of the speech interval, the content and result of the work performed by the worker are estimated, and the result of the estimation is output.
本発明によれば、計算機システム(発話意図推定システム)は、様々な発話の組合せの入力に対して、作業員が行った作業の内容及び結果を高い精度で推定することができる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。 According to the present invention, a computer system (speech intention estimation system) can highly accurately estimate the details and results of work performed by a worker in response to input of various combinations of speech. Problems, configurations, and effects other than those described above will be clarified by the following description of the embodiments.
以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施例の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。本明細書等における「第1」、「第2」、「第3」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。図面等において示す各構成の位置、大きさ、形状、及び範囲等は、発明の理解を容易にするため、実際の位置、大きさ、形状、及び範囲等を表していない場合がある。したがって、本発明では、図面等に開示された位置、大きさ、形状、及び範囲等に限定されない。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. However, the present invention should not be construed as being limited to the contents of the examples described below. Those skilled in the art will easily understand that the specific configuration can be changed without departing from the idea or gist of the present invention. In the configurations of the invention described below, the same or similar configurations or functions are denoted by the same reference numerals, and overlapping descriptions are omitted. The notations such as “first”, “second”, “third”, etc. in this specification and the like are attached to identify the constituent elements, and do not necessarily limit the number or order. The position, size, shape, range, etc. of each component shown in the drawings may not represent the actual position, size, shape, range, etc. in order to facilitate understanding of the invention. Therefore, the present invention is not limited to the positions, sizes, shapes, ranges, etc. disclosed in the drawings and the like.
図1は、実施例1の発話意図推定システムの構成の一例を示す図である。 FIG. 1 is a diagram showing an example of the configuration of the utterance intention estimation system according to the first embodiment.
発話意図推定システムは、計算機100及びマイク101から構成される。なお、計算機100及びマイク101の数は二つ以上でもよい。
The utterance intention estimation system is composed of a
マイク101は、作業員が発した音声を収集する装置である。マイク101は、収集した音声から音声データを生成し、計算機100に音声データを送信する。マイク101は、作業員が作業を行っている空間に固定されてもよいし、作業員が携帯してもよい。音声データには、発話の開始時刻及び発話の終了時刻の少なくともいずれかを示すタイムスタンプが含まれる。
A
計算機100は、音声データを用いて作業員が行った作業の内容及び結果を推定する。計算機100は、プロセッサ110、主記憶装置111、副記憶装置112、及び接続インタフェース113を備える。各ハードウェアは内部バスを介して互いに接続される。
The
接続インタフェース113は、外部装置と接続するためのインタフェースである。接続インタフェース113は、例えば、ネットワークインタフェース及びI/Oインタフェースである。
The
プロセッサ110は、主記憶装置111に格納されるプログラムを実行する。プロセッサ110がプログラムにしたがって処理を実行することによって、特定の機能を実現する機能部(モジュール)として動作する。以下の説明では、機能部を主語に処理を説明する場合、プロセッサ110が当該機能部を実現するプログラムを実行していることを示す。
The
主記憶装置111は、プロセッサ110が実行するプログラム及びプログラムが使用するデータを格納する。また、主記憶装置111は、プログラムが一時的に使用するワークエリアを含む。主記憶装置111は、例えば、DRAM(Dynamic Random Access Memory)等である。主記憶装置111に格納されるプログラムについては後述する。
The
なお、主記憶装置111に格納されるプログラム及びデータは、副記憶装置112に格納されてもよい。この場合、プロセッサ110が、副記憶装置112からプログラム及びデータを読み出し、主記憶装置111に格納する。
Note that the programs and data stored in the
副記憶装置112はデータを永続的に格納する。副記憶装置112は、例えば、HDD(Hard Disk Drive)及びSSD(Solid State Drive)等である。副記憶装置112に格納されるデータについては後述する。
The
ここで、計算機100が保持するプログラム及びデータについて説明する。
Here, programs and data held by the
副記憶装置112は、音声認識モデル情報130及び意図理解モデル情報131を格納する。
The
音声認識モデル情報130は、音声データから発話の具体的な内容を推定する音声認識モデルの定義情報である。実施例1の音声認識モデルは、例えば、NN(Neural Network)である。ネットワークを構成するノードには音声データの特徴量が入力される。音声認識モデルを用いることによって、発話内容を示すテキストが出力される。
The speech
意図理解モデル情報131は、発話の時系列データを用いて作業員が行った作業の内容及び結果を推定する意図理解モデルの定義情報である。実施例1の意図理解モデルは、例えば、RNN(Recurrent Neural Network)、LSTM(Long Short-Term Memory)、及びCNN(Convolution Neural Network)等である。ネットワークを構成するノードには単位発話及び発話間隔から算出される特徴量が入力される。単位発話は、例えば、文及び単語である。実施例1では単位発話は文とする。発話間隔は、一つの発話が行われてから、次の発話が行われるまでの時間間隔である。意図理解モデルを用いることによって、作業の内容及び結果の組合せが出力される。
The intent understanding
主記憶装置111は、音声認識部120、作業推定部121、学習データ生成部122、及び学習部123を実現するプログラムを格納する。
The
音声認識部120は、音声認識モデルを用いて、音声データから発話の具体的な内容を表すテキストを生成する。
The
作業推定部121は、意図理解モデル及び発話(テキスト)の時系列データを用いて、作業の内容及び結果を推定する。
The
学習データ生成部122は、学習部123が使用する学習データを生成する。実施例1では、学習データ生成部122は、意図理解モデルを生成するための学習データを生成する。なお、学習データ生成部122は、音声認識モデルを生成するための学習データを生成してもよい。
The learning
学習部123は、学習データを用いてモデルを生成するための学習処理を実行する。実施例1では、学習部123は、意図理解モデルを生成するための学習処理を実行する。なお、学習部123は、音声認識モデルを生成するための学習処理を実行してもよい。
The
なお、計算機100が有する各機能部については、複数の機能部を一つの機能部にまとめてもよいし、一つの機能部を機能毎に複数の機能部に分けてもよい。
As for each functional unit of the
図2は、実施例1の計算機100が実行する意図理解モデル生成処理の流れを示す図である。図3は、実施例1の計算機100が実行する意図理解モデル生成処理の一例を示すフローチャートである。図4A、図4B、及び図4Cは、実施例1の計算機100に入力される時系列データの一例を示す図である。図5は、実施例1の計算機100によって生成される学習データ200のデータ構造の一例を示す図である。
FIG. 2 is a diagram showing the flow of intention understanding model generation processing executed by the
計算機100は、学習用の発話(テキスト)の時系列データ、学習用の発話間隔の時系列データ、及び正解ラベルの時系列データの入力を受け付ける(ステップS101)。計算機100は、学習データ生成部122に受け付けたデータを出力する。
学習用の発話の時系列データは、時間、作業種別、作業員、及び場所等を基準にまとめた発話のデータ群である。学習用の発話の時系列データは、例えば、図4Aに示すような時系列データ400である。時系列データ400は、順番401及び発話内容402から構成されるレコードを格納する。一つの発話に対して一つのレコードが存在する。順番401は、発話順を格納するフィールドである。発話内容402は、テキストを格納するフィールドである。
The time-series data of utterances for learning is a data group of utterances organized on the basis of time, work type, worker, location, and the like. Time-series data of utterances for learning is, for example, time-
学習用の発話間隔の時系列データは、学習用の発話の時系列データに含まれる発話の間の時間間隔のデータ群である。学習用の発話間隔の時系列データは、例えば、図4Bに示すような時系列データ410である。時系列データ400は、順番411及び発話間隔412から構成されるレコードを格納する。順番411は順番401と同一のフィールドである。発話間隔412は、レコードに対応する発話と、当該発話より時系列が一つ前の発話との間の時間間隔を格納するフィールドである。順番411が「1」のレコードに対応する発話の前には発話が存在しないため、発話間隔412は空欄となる。
The time-series data of utterance intervals for learning is a data group of time intervals between utterances included in the time-series data of utterances for learning. Time-series data of utterance intervals for learning is, for example, time-
正解ラベルの時系列データは、学習用の発話の時系列データに含まれる発話に対する正しい出力(クラス)を示す正解ラベルのデータ群である。正解ラベルの時系列データは、例えば、図4Cに示すような時系列データ420である。時系列データ420は、順番421及び正解ラベル422から構成されるレコードを格納する。順番421は順番401と同一のフィールドである。正解ラベル422は、意図理解モデルの正しい出力を格納するフィールドである。正解ラベル422には、クラス(作業の内容及び結果の組合せ)毎に値が設定される。図4Cに示すように、意図理解モデルは、紙詰まりOK、紙詰まりNG、用紙残量OK、用紙残量NG、及びその他の五つのクラスのいずれかを出力する。各クラスには「0」及び「1」のいずれかが設定される。「1」が設定されたクラスが正解のクラスであることを示す。
The time-series data of correct labels is a data group of correct labels indicating correct outputs (classes) for utterances included in the time-series data of utterances for learning. Time-series data of the correct label is, for example, time-
計算機100には、学習用の発話の時系列データ、学習用の発話間隔の時系列データ、及び正解ラベルの時系列データを一つのまとまりとするデータセットが複数入力される。なお、基準が同一のデータセットが複数入力されてもよい。
なお、学習用の発話の時系列データに時刻の情報が含まれる場合、学習用の発話間隔の時系列データは入力として与えられなくてもよい。この場合、学習用の発話の時系列データから学習用の発話間隔の時系列データを生成することができる。 Note that when time-series data of utterances for learning includes time information, the time-series data of utterance intervals for learning need not be given as an input. In this case, it is possible to generate time-series data of utterance intervals for learning from time-series data of utterances for learning.
計算機100は、入力された時系列データを用いて学習データ200を生成する(ステップS102)。
具体的には、学習データ生成部122は、発話と、当該発話に対応する発話間隔及び正解ラベルとを対応付けたレコードを含む学習データ200を生成する。なお、学習データ生成部122は、一つのデータセットに対して一つの学習データ200を生成する。
Specifically, the learning
ここで、学習データ200について説明する。図5に示すように、学習データ200は、順番501、発話間隔502、発話内容503、及び正解ラベル504から構成されるレコードを含む。一つのレコードは一つの発話に対応する。順番501、発話間隔502、発話内容503、及び正解ラベル504は、順番401、発話間隔412、発話内容402、及び正解ラベル422と同一のフィールドである。
Here, the learning
実施例1の発話意図推定システムは、発話間隔を意図理解モデルの入力として扱う点に特徴を有する。これによって、発話群に、作業に関係のない発話が含まれる場合でも精度よく作業の内容及び結果を推定することができる。 The utterance intention estimation system of Example 1 is characterized in that the utterance interval is treated as an input for the intention understanding model. As a result, even if the utterance group includes utterances unrelated to the work, it is possible to accurately estimate the content and result of the work.
意図理解モデル生成処理の説明に戻る。 Returning to the description of the intent understanding model generation process.
次に、計算機100は、学習データ200を用いて学習処理を実行する(ステップS103)。
Next,
具体的には、学習部123は、学習データ200に含まれる発話間隔502及び発話内容503から算出される特徴量をノードへの入力と扱い、かつ、正解ラベル504に対応する出力が得られる意図理解モデルを生成する。学習方法は公知の方法を用いればよいため詳細な説明は省略する。
Specifically, the
意図理解モデルに対応するネットワークを構成するノードには、例えば、発話から算出されたベクトル及び発話間隔が特徴量として入力される。例えば、Word2vec等を用いて、発話からベクトルが算出できる。 For example, a vector calculated from an utterance and an utterance interval are input as feature amounts to the nodes that constitute the network corresponding to the intent understanding model. For example, a vector can be calculated from an utterance using Word2vec or the like.
次に、計算機100は、意図理解モデル情報131に学習結果(意図理解モデル)を保存し(ステップS104)、意図理解モデル生成処理を終了する。
Next,
図6は、実施例1の計算機100が実行する作業推定処理の流れを示す図である。図7は、実施例1の計算機100が実行する作業推定処理の一例を示すフローチャートである。図8は、実施例1の計算機100が生成する中間出力情報800のデータ構造の一例を示す図である。
FIG. 6 is a diagram showing the flow of work estimation processing executed by the
計算機100は、マイク101から音声データを取得する(ステップS201)。なお、計算機100は、一定期間、音声データを蓄積するものとする。
The
計算機100は、音声データから発話の具体的な内容を示すテキストを生成し、また、発話間隔を算出する(ステップS202)。具体的には、以下のような処理が実行される。
(S202-1)音声認識部120は、蓄積された音声データの中からターゲット音声データを選択する。
(S202-1) The
(S202-2)音声認識部120は、音声認識モデル情報130に格納される音声認識モデルを用いて、ターゲット音声データからテキストを生成する。また、音声認識部120は、ターゲット音声データと、ターゲット音声データより時系列が一つ前の音声データ(比較音声データ)との間の発話間隔を算出する。
(S202-2) The
例えば、音声認識部120は、比較音声データに対応する発話の終了時刻から、ターゲット音声データに対応する発話の開始時刻までの時間を、発話間隔として算出する。また、音声認識部120は、比較音声データに対応する発話の開始時刻から、ターゲット音声データに対応する発話の開始時刻までの時間を、発話間隔として算出してもよい。なお、比較音声データが存在しない場合、音声認識部120は、発話間隔をNULLとして算出する。
For example, the
(S202-3)音声認識部120は、蓄積された全ての音声データの処理が完了したか否かを判定する。蓄積された全ての音声データの処理が完了していない場合、音声認識部120は、S202-1に戻り、同様の処理を実行する。蓄積された全ての音声データの処理が完了した場合、音声認識部120はステップS202の処理を終了する。
(S202-3) The
以上がステップS202の処理の説明である。 The above is the description of the processing in step S202.
次に、計算機100は、入力用の発話の時系列データを生成する(ステップS203)。
Next,
具体的には、音声認識部120は、テキスト及び発話間隔から構成される入力データを生成する。音声認識部120は、発話順に並べられた入力データ群を、入力用の発話の時系列データとして生成する。
Specifically, the
次に、計算機100は、意図理解モデル及び入力用の発話の時系列データを用いて、推定処理を実行する(ステップS204)。具体的には、以下のような処理が実行される。
Next,
(S204-1)作業推定部121は、中間出力情報800を生成する。中間出力情報800は、順番801、発話内容802、及び出力クラス803から構成されるレコードを含む。一つのレコードが一つの入力データに対応する。
(S204-1) The
順番801は、入力用の発話の時系列データにおける発話の順番を格納するフィールドである。発話内容802は、入力データに含まれるテキストを格納するフィールドである。出力クラス803は、意図推定モデルの出力結果を格納するフィールドであり、クラス毎に値が設定される。図8では、出力クラス803は、紙詰まりOK、紙詰まりNG、用紙残量OK、用紙残量NG、及びその他の五つのクラスを含む。この時点では、各クラスの値は「0」が設定される。
The
(S204-2)作業推定部121は、発話の順番に基づいて、入力用の発話の時系列データに含まれる入力データを意図理解モデルに入力する。作業推定部121は、各入力データに対する出力結果を意図理解モデルから取得する。このとき、作業推定部121は、入力データに対応するレコードの出力クラス803を参照し、出力結果に対応するクラスに「1」を設定する。
(S204-2) The
実施例1では、発話を示すテキストとともに発話間隔が入力される。作業種別を特定するための発話と、作業結果を特定するための発話との間に、作業とは関係のない発話が含まれる場合でも、意図理解モデルは、発話間隔を考慮して、発話間の関係を推定できるため、作業の内容及び結果を精度よく推定できる。図8に示す例では、順番801が「4」のレコードと、順番801が「8」のレコードとの間には、「紙詰まりの点検作業」に関係しない発話が含まれるが、実施例1意図理解モデルを用いることによって、「8」のレコードに対して正しい作業の内容及び結果を出力できる。
In Example 1, an utterance interval is input together with the text indicating the utterance. Even if an utterance unrelated to work is included between the utterance for identifying the work type and the utterance for identifying the work result, the intent understanding model considers the utterance interval and can be estimated, the content and results of the work can be estimated with high accuracy. In the example shown in FIG. 8, an utterance not related to "paper jam inspection work" is included between the record whose
(S204-3)作業推定部121は、全ての入力データの出力結果が得られた場合、推定処理を終了する。
(S204-3) When the output results of all the input data are obtained, the
以上がステップS204の処理の説明である。 The above is the description of the processing in step S204.
次に、計算機100は、中間出力情報800に基づいて推定結果を出力し(ステップS205)、作業推定処理を終了する。
Next,
例えば、作業推定部121は、出力クラス803が「その他」以外の出力結果をリスト化した推定結果を生成し、ユーザに提示する。
For example, the
実施例1によれば、発話意図推定システムは、発話及び発話間隔を入力とする意図推定モデルを用いることによって、作業種別を特定するため発話と、作業結果を特定するための発話との間に、当該作業とは無関係の発話が存在する場合でも、作業の内容及び結果を精度よく推定することができる。すなわち、様々な発話の組合せに対応した発話意図推定システムを実現できる。 According to the first embodiment, the utterance intention estimation system uses an intention estimation model whose inputs are utterances and utterance intervals, so that between an utterance for identifying a work type and an utterance for identifying a work result, , even if there are utterances unrelated to the work, the content and result of the work can be estimated with high accuracy. That is, it is possible to realize an utterance intention estimation system that supports various combinations of utterances.
なお、単位発話が単語の場合、発話間隔は単語間の時間間隔となる。 Note that when the unit utterance is a word, the utterance interval is the time interval between words.
なお、意図理解モデルのノードに、音圧から算出される特徴量を入力してもよい。例えば、作業時の発話の音圧が小さく、作業時以外の発話の音圧が大きい場合、有用な特徴量として利用することができる。意図理解モデル生成処理では、学習用の発話の時系列データ、学習用の発話間隔の時系列データ、正解ラベルの時系列データ、及び学習用の音圧の時系列データから学習データ200が生成される。作業推定処理では、音声認識部120は、音声データから音圧を算出し、また、テキスト、発話間隔、及び音圧から構成される入力データ群を生成する。
Note that a feature amount calculated from sound pressure may be input to the node of the intent understanding model. For example, when the sound pressure of utterances during work is low and the sound pressure of utterances other than work is high, it can be used as a useful feature amount. In the intention understanding model generation process, learning
実施例2では、学習データの生成方法が異なる。以下、実施例1との差異を中心に実施例2について説明する。 The second embodiment differs in the method of generating learning data. The second embodiment will be described below, focusing on the differences from the first embodiment.
実施例2の発話意図推定システムの構成は実施例1と同一である。 The configuration of the utterance intention estimation system of the second embodiment is the same as that of the first embodiment.
図9は、実施例2の計算機100が実行する意図理解モデル生成処理の一例を示すフローチャートである。図10は、実施例2の計算機100に入力される属性ラベルの時系列データの一例を示す図である。図11は、実施例2の計算機100が生成する発話パターン情報1100のデータ構造の一例を示す図である。図12は、実施例2の発話パターンの発話間隔の算出方法の一例を示す図である。
FIG. 9 is a flowchart showing an example of intent understanding model generation processing executed by the
計算機100は、分析用の発話の時系列データ、分析用の発話間隔の時系列データ、及び、属性ラベルの時系列データの入力を受け付ける(ステップS151)。計算機100は、学習データ生成部122に受け付けたデータを出力する。
分析用の発話の時系列データは、学習用の発話の時系列データと同一のデータ構造である。分析用の発話間隔の時系列データは、学習用の発話間隔の時系列データと同一のデータ構造である。 Time-series data of utterances for analysis has the same data structure as time-series data of utterances for learning. Time-series data of utterance intervals for analysis has the same data structure as time-series data of utterance intervals for learning.
属性ラベルは、抽象化意図を示す情報である。抽象化意図は、発話意図を抽象化したものである。実施例2では、発話意図「紙詰まりの確認」及び発話意図「用紙残量の確認」の抽象化意図を「作業種別確認」と設定する。発話意図「作業結果OK」の抽象化意図を「作業結果OK」と設定し、発話意図「作業結果NG」の抽象化意図を「作業結果NG」と設定する。前述のいずれにも該当しない発話意図の抽象化意図は「その他」と設定する。 An attribute label is information indicating an abstraction intent. The abstract intent is an abstraction of the utterance intent. In the second embodiment, the abstract intention of the utterance intention "confirm paper jam" and the utterance intention "confirm remaining amount of paper" is set to "confirm work type". The abstract intention of the utterance intention "work result OK" is set to "work result OK", and the abstract intention of the utterance intention "work result NG" is set to "work result NG". The abstract intention of the utterance intention that does not correspond to any of the above is set as "other".
属性ラベルの時系列データは、例えば、図10に示すような時系列データ1000である。時系列データ1000は、順番1001及び属性ラベル1002から構成されるレコードを格納する。順番1001は順番401と同一のフィールドである。
Time-series data of attribute labels is, for example, time-
属性ラベル1002は、作業種別毎の抽象化意図を示す値を格納するフィールドである。I1は「作業種別確認」を表し、I2は「作業結果OK」を表し、I3は「作業結果NG」を表し、I4は「その他」を表す。各抽象化意図には「0」及び「1」のいずれかが設定される。「1」が設定された抽象化意図が、作業種別の抽象化意図であることを示す。全ての作業種別の抽象化意図が「その他」の場合、発話の抽象化意図は「その他」になる。
The
実施例2では、データセット(発話の時系列データ)の数が少ないものとする。この場合、生成される学習データ200の数が少ない。精度の高い意図理解モデルを生成するためには、質の高い学習データを多く用意する必要がある。
In the second embodiment, it is assumed that the number of data sets (time-series data of utterances) is small. In this case, the number of generated learning
次に、計算機100は、分析用の発話の時系列データを用いた統計分析を実行し、分析結果に基づいて発話パターン情報1100を生成する(ステップS151)。具体的には、以下のような処理が実行される。
Next,
(S152-1)学習データ生成部122は、各データセットに含まれる発話の時系列データ及び属性ラベルの時系列データに基づいて、作業種別毎に、作業の開始から終了までの発話群を生成する。一つのデータセットに対して、作業種別毎の発話群が生成される。なお、一つのデータセットに含まれる発話の時系列データに、複数回実行された同一作業の発話が含まれる場合、一つの分析用の発話のデータセットから作業種別が同一である発話群が複数生成される。
(S152-1) The learning
例えば、図4Aに示すデータ構造の分析用の発話の時系列データの場合、「紙詰まりの確認作業」について、順番401が「2」、「3」のレコードの発話群が生成される。また、「用紙残量の確認作業」について、順番401が「4」、「5」のレコードの発話群が生成される。
For example, in the case of time-series data of utterances for analysis of the data structure shown in FIG. 4A, a group of utterances of records with the
(S152-2)学習データ生成部122は、ターゲット作業種別を選択する。
(S152-2) The learning
(S152-3)学習データ生成部122は、複数のデータセットのターゲット作業種別の発話群を取得し、発話群に含まれる発話の属性ラベルに基づいて発話パターンを生成する。発話パターンは、抽象化意図の遷移を示す情報である。例えば、順番401が「2」、「3」のレコードから「作業種別確認」から「作業結果OK」への遷移が、発話パターンとして生成される。
(S152-3) The learning
(S152-4)学習データ生成部122は、複数のデータセットのターゲット作業種別の発話群に対応する分析用の発話間隔の時系列データに基づいて、発話パターンの抽象化意図に対応する発話の発話間隔を算出する。学習データ生成部122は、発話間隔を時系列順に並べることによって、発話パターンの発話間隔の時系列データを生成する。
(S152-4) The learning
なお、ターゲット作業種別の発話パターンの対話群の数が少ない場合、発話パターンの対話群の数が多い他の作業種別の算出結果を用いてもよい。例えば、学習データ生成部122は、図12に示すように、他の作業種別のある発話パターンについて発話間隔の分散を算出し、算出結果に基づいてターゲット作業種別のある発話パターンの発話間隔を算出する。なお、「作業種別確認」及び「作業結果OK」のみから発話パターン又は「作業種別確認」及び「作業結果NG」のみから構成される発話パターン等、特定の発話パターンにのみ上記の処理を適用してもよい。
If the number of dialogue groups of the utterance pattern of the target work type is small, the calculation result of another work type having a large number of dialogue groups of the utterance pattern may be used. For example, as shown in FIG. 12, the learning
(S152-5)学習データ生成部122は、全ての作業種別について処理が完了したか否かを判定する。全ての作業種別について処理が完了していない場合、学習データ生成部122は、S152-2に戻り、同様の処理を実行する。
(S152-5) The learning
(S152-6)全ての作業種別について処理が完了した場合、学習データ生成部122は、発話パターン情報1100を初期化する。
(S152-6) When the processing has been completed for all work types, the learning
具体的には、学習データ生成部122は、発話パターン情報1100に、生成された発話パターンの種別と同数のレコードを追加する。学習データ生成部122は、発話パターン情報1100の各レコードのID1101に識別情報を設定し、確率1103及び発話間隔1104の各々に作業種別と同数の列を設定する。学習データ生成部122は、発話パターン情報1100の各レコードの発話パターン1102に発話パターンを設定する。図11に示す発話パターンに含まれる「その他(2)」は、抽象化意図「その他」の発話が二つ含まれることを示す。
Specifically, the learning
(S152-7)学習データ生成部122は、ターゲット作業種別を選択する。
(S152-7) The learning
(S152-8)学習データ生成部122は、ターゲット作業種別の対話群に基づいて各発話パターンの出現確率を算出する。学習データ生成部122は、発話パターン情報1100の各レコードの確率1103のターゲット作業種別の列に出現確率を設定する。
(S152-8) The learning
(S152-9)学習データ生成部122は、発話パターン情報1100の各レコードの発話間隔1104のターゲット作業種別の列に、ターゲット作業種別の発話パターンの発話間隔の時系列データを設定する。発話間隔はセミコロンで区切られている。
(S152-9) The learning
(S152-10)学習データ生成部122は、全ての作業種別について処理が完了したか否かを判定する。全ての作業種別について処理が完了していない場合、学習データ生成部122は、S152-7に戻り、同様の処理を実行する。全ての作業種別について処理が完了した場合、学習データ生成部122は、ステップS152の処理を終了する。
(S152-10) The learning
以上がステップS152の処理の説明である。 The above is the description of the processing in step S152.
次に、計算機100は、作業種別毎の想定発話データの入力を受け付ける(ステップS153)。なお、想定発話データの入力は、ステップS101で行われてもよい。
Next,
想定発話データは、発話及び発話意図から構成されるレコードを複数含む。なお、発話意図「その他」の発話については各作業種別で共通のものでもよい。 The assumed utterance data includes a plurality of records composed of utterances and utterance intentions. Note that the utterance of the utterance intention "other" may be common to each work type.
次に、計算機100は、学習データ生成処理を実行する(ステップS154)。具体的には、以下のような処理が実行される。
Next,
(S154-1)学習データ生成部122は、ターゲット作業種別を選択する。
(S154-1) The learning
(S154-2)学習データ生成部122は、ターゲット作業種別の発話パターン、発話パターンの発話間隔の時系列データ、及び想定発話データに基づいて、発話の時系列データ、発話間隔の時系列データ、及び正解ラベルの時系列データをひとまとまりとするデータセットを複数生成する。なお、各発話パターンから生成されるデータセットの数は、出現確率の比率と一致するように制御される。
(S154-2) Based on the utterance pattern of the target work type, the utterance interval time-series data of the utterance pattern, and the assumed utterance data, the learning
一つのデータセットの発話の時系列データは、発話パターンにあわせて、想定発話データから発話を選択することによって生成できる。また、一つのデータセットの発話間隔の時系列データは、発話パターンの発話間隔をそのまま用いて生成されてもよいし、発話パターンの発話間隔に摂動を加えた値を用いて生成されてもよい。摂動の幅は、発話間隔の確率に基づいて設定することができる。一つのデータセットの正解ラベルの時系列データは、発話パターンの抽象化意図をターゲット作業種別に対応して発話意図に変換し、発話意図を時系列順に並べることによって生成できる。 Time-series data of utterances in one data set can be generated by selecting utterances from assumed utterance data according to utterance patterns. In addition, the time-series data of the utterance intervals of one data set may be generated using the utterance intervals of the utterance pattern as they are, or may be generated using a value obtained by adding perturbation to the utterance intervals of the utterance pattern. . The width of the perturbation can be set based on the probability of speech intervals. The time-series data of the correct labels in one data set can be generated by converting the abstract intentions of the utterance pattern into utterance intentions corresponding to the target work type, and arranging the utterance intentions in chronological order.
(S154-3)学習データ生成部122は、一つのデータセットを用いて発話、正解ラベル、及び発話間隔から構成されるレコードを複数含む学習データを生成する。当該処理はステップS102の処理と同一である。
(S154-3) The learning
(S154-4)学習データ生成部122は、全ての作業種別について処理が完了したか否かを判定する。全ての作業種別について処理が完了していない場合、学習データ生成部122は、S154-1に戻り、同様の処理を実行する。全ての作業種別について処理が完了した場合、学習データ生成部122はステップS154の処理を終了する。
(S154-4) The learning
以上がステップS154の処理の説明である。 The above is the description of the processing in step S154.
ステップS103及びステップS104の処理は、実施例1で説明した処理と同一である。 The processing of steps S103 and S104 is the same as the processing described in the first embodiment.
実施例2の作業推定処理は、実施例1の作業推定処理と同一であるため説明を省略する。 Since the work estimation process of the second embodiment is the same as the work estimation process of the first embodiment, the description thereof is omitted.
実施例2によれば、計算機100は、少数の学習データから新たな学習データを生成することができる。学習データの数を増やすことによって、学習処理によって生成される意図理解モデルの予測精度を高めることできる。
According to the second embodiment, the
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。 In addition, the present invention is not limited to the above-described embodiments, and includes various modifications. Further, for example, the above-described embodiments are detailed descriptions of the configurations for easy understanding of the present invention, and are not necessarily limited to those having all the described configurations. Moreover, it is possible to add, delete, or replace a part of the configuration of each embodiment with another configuration.
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。 Further, each of the above configurations, functions, processing units, processing means, and the like may be realized by hardware, for example, by designing a part or all of them using an integrated circuit. The present invention can also be implemented by software program code that implements the functions of the embodiments. In this case, a computer is provided with a storage medium recording the program code, and a processor included in the computer reads the program code stored in the storage medium. In this case, the program code itself read from the storage medium implements the functions of the above-described embodiments, and the program code itself and the storage medium storing it constitute the present invention. Examples of storage media for supplying such program code include flexible disks, CD-ROMs, DVD-ROMs, hard disks, SSDs (Solid State Drives), optical disks, magneto-optical disks, CD-Rs, magnetic tapes, A nonvolatile memory card, ROM, or the like is used.
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Python、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。 Also, the program code that implements the functions described in this embodiment can be implemented in a wide range of programs or scripting languages such as assembler, C/C++, perl, Shell, PHP, Python, and Java (registered trademark).
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。 Furthermore, by distributing the program code of the software that implements the functions of the embodiment via a network, it can be stored in storage means such as a hard disk or memory of a computer, or in a storage medium such as a CD-RW or CD-R. Alternatively, a processor provided in the computer may read and execute the program code stored in the storage means or the storage medium.
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。 In the above-described embodiments, the control lines and information lines indicate those considered necessary for explanation, and not all control lines and information lines are necessarily indicated on the product. All configurations may be interconnected.
100 計算機
101 マイク
110 プロセッサ
111 主記憶装置
112 副記憶装置
113 接続インタフェース
120 音声認識部
121 作業推定部
122 学習データ生成部
123 学習部
130 音声認識モデル情報
131 意図理解モデル情報
200 学習データ
400、410、420、1000 時系列データ
800 中間出力情報
1100 発話パターン情報
100
Claims (8)
プロセッサ及び前記プロセッサに接続されるメモリを有する少なくとも一つの計算機を備え、
前記プロセッサは、
前記作業員が発した発話の音声データをテキストに変換し、複数の前記テキストが時系列順に並べられた発話の時系列データを生成し、前記発話の時系列データを前記メモリに格納し、
時系列が連続した複数の前記音声データから前記発話間の発話間隔を算出し、前記発話間隔を時系列順に並べた発話間隔の時系列データを生成し、前記発話間隔の時系列データを前記メモリに格納し、
前記発話の時系列データ及び前記発話間隔の時系列データに基づいて、前記作業員が行った作業の内容及び結果を推定し、前記推定の結果を出力することを特徴とする計算機システム。 A computer system for estimating work performed by a worker based on speech,
at least one computer having a processor and a memory coupled to the processor;
The processor
converting the voice data of the utterances uttered by the worker into text, generating time-series data of the utterances in which a plurality of the texts are arranged in chronological order, storing the time-series data of the utterances in the memory;
utterance intervals between utterances are calculated from the plurality of speech data whose time series are continuous, time-series data of utterance intervals are generated by arranging the utterance intervals in chronological order, and time-series data of the utterance intervals are stored in the memory. store in
A computer system for estimating the contents and results of work performed by said worker based on said time-series data of said utterances and said time-series data of said utterance intervals, and outputting said result of said estimation.
前記プロセッサは、
前記音声データから音圧を算出し、前記発話の時系列データに含まれる前記複数のテキストの各々に対応する前記音圧を時系列順に並べた音圧の時系列データを生成し、前記音圧の時系列データを前記メモリに格納し、
前記発話の時系列データ、前記発話間隔の時系列データ、及び前記音圧の時系列データに基づいて、前記作業員が行った作業の内容及び結果を推定することを特徴とする計算機システム。 A computer system according to claim 1,
The processor
calculating sound pressure from the speech data, generating time-series data of sound pressure in which the sound pressure corresponding to each of the plurality of texts included in the time-series data of the utterance is arranged in time-series order; Store the time series data of in the memory,
A computer system for estimating the contents and results of work performed by said worker based on said time-series data of said utterances, said time-series data of said intervals of speech, and said time-series data of said sound pressures.
前記プロセッサは、
作業の種別毎に、分析用の発話の時系列データ、前記分析用の発話の時系列データに対応付けられる分析用の発話間隔の時系列データ、及び前記分析用の発話の時系列データに含まれる発話の発話意図を示すラベルの時系列データを受け付け、
作業の種別毎に、想定される発話の情報である発話データを受け付け、
前記分析用の発話の時系列データ、前記分析用の発話間隔の時系列データ、及び前記ラベルの時系列データを用いた統計分析を実行して、発話意図の遷移を示す発話パターン及び前記発話パターンの出現確率と、前記発話パターンにおける前記発話意図に対応する発話間の発話間隔を時系列順に並べた発話パターンの発話間隔の時系列データとを算出し、前記発話パターン、前記発話パターンの出現確率、及び前記発話パターンの発話間隔の時系列データを前記メモリに格納し、
前記発話パターン、前記発話パターンの出現確率、及び前記発話データを用いて学習用の発話の時系列データを生成し、前記学習用の発話の時系列データを前記メモリに格納し、
前記発話パターンの発話間隔の時系列データを用いて、学習用の発話間隔の時系列データを生成し、前記学習用の発話間隔の時系列データを前記メモリに格納し、
前記発話パターンに基づいて、正しい作業の内容及び結果の組合せを示す正解ラベルの時系列データを生成し、前記正解ラベルの時系列データを前記メモリに格納し、
前記学習用の発話の時系列データ、前記学習用の発話間隔の時系列データ、及び前記正解ラベルの時系列データから構成される学習データを生成し、前記学習データを前記メモリに格納し、
前記発話の時系列データ及び前記発話間隔の時系列データを入力として、前記正解ラベルの時系列データに対応する前記作業の内容及び結果を出力するモデルを生成するための学習処理を実行し、前記モデルの情報を前記メモリに格納することを特徴とする計算機システム。 A computer system according to claim 1,
The processor
Time-series data of utterances for analysis, time-series data of utterance intervals for analysis associated with the time-series data of utterances for analysis, and time-series data of utterances for analysis for each work type accepts time-series data of labels indicating the utterance intentions of utterances
Receiving speech data, which is information on assumed speech for each type of work,
Statistical analysis is performed using the time-series data of utterances for analysis, the time-series data of utterance intervals for analysis, and the time-series data of labels, and an utterance pattern indicating transition of utterance intention and the utterance pattern and time-series data of the utterance intervals of the utterance pattern in which the utterance intervals between utterances corresponding to the utterance intention in the utterance pattern are arranged in chronological order, and the utterance pattern and the occurrence probability of the utterance pattern are calculated. , and storing the time-series data of the utterance intervals of the utterance pattern in the memory,
generating utterance time-series data for learning using the utterance pattern, the probability of occurrence of the utterance pattern, and the utterance data, and storing the time-series data of the utterance for learning in the memory;
generating time-series data of utterance intervals for learning using the time-series data of utterance intervals of the utterance pattern, storing the time-series data of utterance intervals for learning in the memory;
generating time-series data of correct labels indicating a combination of correct work contents and results based on the utterance pattern, storing the time-series data of correct labels in the memory;
generating learning data composed of time-series data of utterances for learning, time-series data of utterance intervals for learning, and time-series data of correct labels, storing the learning data in the memory;
executing a learning process for generating a model that outputs the content and results of the work corresponding to the time-series data of the correct label using the time-series data of the utterance and the time-series data of the utterance interval as inputs; A computer system, wherein model information is stored in the memory.
前記発話の間隔は、基準発話と、前記基準発話より時系列が一つ前の発話との間の時間間隔、及び、前記発話に含まれる単語間の時間間隔の少なくともいずれかであることを特徴とする計算機システム。 A computer system according to claim 1,
The interval between the utterances is at least one of a time interval between a reference utterance and an utterance one chronologically before the reference utterance, and a time interval between words included in the utterance. computer system.
前記計算機システムは、プロセッサ及び前記プロセッサに接続されるメモリを有する少なくとも一つの計算機を含み、
前記作業の推定方法は、
前記プロセッサが、前記作業員が発した発話の音声データをテキストに変換し、複数の前記テキストが時系列順に並べられた発話の時系列データを生成し、前記発話の時系列データを前記メモリに格納する第1のステップと、
前記プロセッサが、時系列が連続した複数の前記音声データから前記発話間の発話間隔を算出し、前記発話間隔を時系列順に並べた発話間隔の時系列データを生成し、前記発話間隔の時系列データを前記メモリに格納する第2のステップと、
前記プロセッサが、前記発話の時系列データ及び前記発話間隔の時系列データに基づいて、前記作業員が行った作業の内容及び結果を推定し、前記推定の結果を出力する第3のステップと、を含むことを特徴とする作業の推定方法。 A method for estimating work performed by a worker based on utterances, executed by a computer system, comprising:
The computer system includes at least one computer having a processor and a memory connected to the processor;
The method of estimating the work includes:
The processor converts voice data of utterances uttered by the worker into text, generates time-series data of utterances in which a plurality of texts are arranged in chronological order, and stores the time-series data of utterances in the memory. a first step of storing;
The processor calculates utterance intervals between the utterances from a plurality of the speech data whose time series are continuous, generates time-series data of the utterance intervals by arranging the utterance intervals in chronological order, and generates the time-series data of the utterance intervals. a second step of storing data in said memory;
a third step in which the processor estimates the content and result of the work performed by the worker based on the time-series data of the utterance and the time-series data of the utterance interval, and outputs the result of the estimation; A work estimation method comprising:
前記第1のステップは、前記プロセッサが、前記音声データから音圧を算出し、前記発話の時系列データに含まれる前記複数のテキストの各々に対応する前記音圧を時系列順に並べた音圧の時系列データを生成し、前記音圧の時系列データを前記メモリに格納するステップを含み、
前記第3のステップは、前記プロセッサが、前記発話の時系列データ、前記発話間隔の時系列データ、及び前記音圧の時系列データに基づいて、前記作業員が行った作業の内容及び結果を推定するステップを含むことを特徴とする作業の推定方法。 A work estimation method according to claim 5,
In the first step, the processor calculates a sound pressure from the speech data, and arranges the sound pressure corresponding to each of the plurality of texts included in the time-series data of the utterance in chronological order. generating time-series data of and storing the time-series data of the sound pressure in the memory;
In the third step, the processor determines the content and result of the work performed by the worker based on the time-series data of the speech, the time-series data of the speech interval, and the time-series data of the sound pressure. A method of estimating work, comprising a step of estimating.
前記プロセッサが、作業の種別毎に、分析用の発話の時系列データ、前記分析用の発話の時系列データに対応付けられる分析用の発話間隔の時系列データ、及び前記分析用の発話の時系列データに含まれる発話の発話意図を示すラベルの時系列データを受け付けるステップと、
前記プロセッサが、作業の種別毎に、想定される発話の情報である発話データを受け付けるステップと、
前記プロセッサが、前記分析用の発話の時系列データ、前記分析用の発話間隔の時系列データ、及び前記ラベルの時系列データを用いた統計分析を実行して、発話意図の遷移を示す発話パターン及び前記発話パターンの出現確率と、前記発話パターンにおける前記発話意図に対応する発話間の発話間隔を時系列順に並べた発話パターンの発話間隔の時系列データとを算出し、前記発話パターン、前記発話パターンの出現確率、及び前記発話パターンの発話間隔の時系列データを前記メモリに格納するステップと、
前記プロセッサが、前記発話パターン、前記発話パターンの出現確率、及び前記発話データを用いて学習用の発話の時系列データを生成し、前記学習用の発話の時系列データを前記メモリに格納するステップと、
前記プロセッサが、前記発話パターンの発話間隔の時系列データを用いて、学習用の発話間隔の時系列データを生成し、前記学習用の発話間隔の時系列データを前記メモリに格納するステップと、
前記プロセッサが、前記発話パターンに基づいて、正しい作業の内容及び結果の組合せを示す正解ラベルの時系列データを生成し、前記正解ラベルの時系列データを前記メモリに格納するステップと、
前記プロセッサが、前記学習用の発話の時系列データ、前記学習用の発話間隔の時系列データ、及び前記正解ラベルの時系列データから構成される学習データを生成し、前記学習データを前記メモリに格納するステップと、
前記プロセッサが、前記発話の時系列データ及び前記発話間隔の時系列データを入力として、前記正解ラベルの時系列データに対応する前記作業の内容及び結果を出力するモデルを生成するための学習処理を実行し、前記モデルの情報を前記メモリに格納するステップと、を含むことを特徴とする作業の推定方法。 A work estimation method according to claim 5,
The processor provides, for each work type, time-series data of utterances for analysis, time-series data of utterance intervals for analysis associated with the time-series data of utterances for analysis, and time of the utterances for analysis. a step of receiving time series data of labels indicating utterance intentions of utterances included in the series data;
a step in which the processor receives utterance data, which is information on an assumed utterance for each work type;
The processor performs statistical analysis using the time-series data of utterances for analysis, the time-series data of utterance intervals for analysis, and the time-series data of labels, and an utterance pattern indicating transition of utterance intention. and calculating the appearance probability of the utterance pattern and time-series data of utterance intervals of the utterance pattern in which utterance intervals between utterances corresponding to the utterance intention in the utterance pattern are arranged in chronological order, and calculating the utterance pattern, the utterance, a step of storing in the memory time-series data of the pattern appearance probability and the utterance interval of the utterance pattern;
the processor generating utterance time-series data for learning using the utterance pattern, the appearance probability of the utterance pattern, and the utterance data, and storing the time-series data of the utterance for learning in the memory; and,
the processor generating time-series data of utterance intervals for learning using the time-series data of utterance intervals of the utterance pattern, and storing the time-series data of utterance intervals for learning in the memory;
a step in which the processor generates time-series data of correct labels indicating a combination of correct work contents and results based on the utterance pattern, and stores the time-series data of correct labels in the memory;
The processor generates learning data composed of time-series data of utterances for learning, time-series data of utterance intervals for learning, and time-series data of correct labels, and stores the learning data in the memory. storing;
The processor receives the time-series data of the utterance and the time-series data of the utterance interval as input, and performs learning processing for generating a model that outputs the content and result of the work corresponding to the time-series data of the correct label. executing and storing information of said model in said memory.
前記発話の間隔は、基準発話と、前記基準発話より時系列が一つ前の発話との間の時間間隔、及び、前記発話に含まれる単語間の時間間隔の少なくともいずれかであることを特徴とする作業の推定方法。 A work estimation method according to claim 5,
The interval between the utterances is at least one of a time interval between a reference utterance and an utterance one chronologically before the reference utterance, and a time interval between words included in the utterance. How to estimate the work to be
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020043080A JP7246337B2 (en) | 2020-03-12 | 2020-03-12 | Computer system and work estimation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020043080A JP7246337B2 (en) | 2020-03-12 | 2020-03-12 | Computer system and work estimation method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021144156A JP2021144156A (en) | 2021-09-24 |
JP7246337B2 true JP7246337B2 (en) | 2023-03-27 |
Family
ID=77766466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020043080A Active JP7246337B2 (en) | 2020-03-12 | 2020-03-12 | Computer system and work estimation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7246337B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11637923B1 (en) | 2020-09-17 | 2023-04-25 | Intrado Corporation | Insight determination from aggregated call content |
US11805189B1 (en) * | 2020-09-17 | 2023-10-31 | Intrado Life & Safety, Inc. | Publish and subscribe call center architecture |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003330490A (en) | 2002-05-15 | 2003-11-19 | Fujitsu Ltd | Spoken dialogue device |
JP2017032738A (en) | 2015-07-31 | 2017-02-09 | 日本電信電話株式会社 | Speech intention model learning device, speech intention extract device, speech intention model learning method, speech intention extract method and program |
-
2020
- 2020-03-12 JP JP2020043080A patent/JP7246337B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003330490A (en) | 2002-05-15 | 2003-11-19 | Fujitsu Ltd | Spoken dialogue device |
US20030216917A1 (en) | 2002-05-15 | 2003-11-20 | Ryuji Sakunaga | Voice interaction apparatus |
JP2017032738A (en) | 2015-07-31 | 2017-02-09 | 日本電信電話株式会社 | Speech intention model learning device, speech intention extract device, speech intention model learning method, speech intention extract method and program |
Non-Patent Citations (1)
Title |
---|
安藤厚志 浅見太一 岡本学 政瀧浩和 阪内澄宇,韻律と言語の局所的特徴に基づく会議音声からの肯定/否定発話の抽出,日本音響学会 2015年 秋季研究発表会講演論文集CD-ROM,2015年09月18日,pp.1323-1324 |
Also Published As
Publication number | Publication date |
---|---|
JP2021144156A (en) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6556575B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
CN105679317B (en) | Method and apparatus for training language models and recognizing speech | |
US9824681B2 (en) | Text-to-speech with emotional content | |
JP5413622B2 (en) | Language model creation device, language model creation method, and program | |
JP4478939B2 (en) | Audio processing apparatus and computer program therefor | |
US20140025382A1 (en) | Speech processing system | |
US9368106B2 (en) | System and method of automated evaluation of transcription quality | |
US20070219798A1 (en) | Training system for a speech recognition application | |
CN104903954A (en) | Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination | |
US10643032B2 (en) | Output sentence generation apparatus, output sentence generation method, and output sentence generation program | |
CN103839545A (en) | Apparatus and method for constructing multilingual acoustic model | |
JP2010152751A (en) | Statistic model learning device, statistic model learning method and program | |
CN108021554A (en) | Audio recognition method, device and washing machine | |
JP7246337B2 (en) | Computer system and work estimation method | |
JP6158006B2 (en) | Audio processing apparatus, method, and program | |
JP6189818B2 (en) | Acoustic feature amount conversion device, acoustic model adaptation device, acoustic feature amount conversion method, acoustic model adaptation method, and program | |
JP6552999B2 (en) | Text correction device, text correction method, and program | |
JP6244297B2 (en) | Acoustic score calculation apparatus, method and program thereof | |
JP2007248730A (en) | Sound model adaptive apparatus, method, and program, and recording medium | |
CN104167206A (en) | Acoustic model combination method and device, and voice identification method and system | |
CN111462760A (en) | Voiceprint recognition system, method and device and electronic equipment | |
JP6220733B2 (en) | Voice classification device, voice classification method, and program | |
JP5980101B2 (en) | Acoustic model learning text creation apparatus, method and program thereof | |
JP6633556B2 (en) | Acoustic model learning device, speech recognition device, acoustic model learning method, speech recognition method, and program | |
JP2008293098A (en) | Response score information generation device, dialogue processing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220701 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230307 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230314 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7246337 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |