JP7000547B1 - Programs, methods, information processing equipment, systems - Google Patents
Programs, methods, information processing equipment, systems Download PDFInfo
- Publication number
- JP7000547B1 JP7000547B1 JP2020212000A JP2020212000A JP7000547B1 JP 7000547 B1 JP7000547 B1 JP 7000547B1 JP 2020212000 A JP2020212000 A JP 2020212000A JP 2020212000 A JP2020212000 A JP 2020212000A JP 7000547 B1 JP7000547 B1 JP 7000547B1
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- sound
- voice
- role
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 40
- 230000010365 information processing Effects 0.000 title claims description 6
- 230000015654 memory Effects 0.000 claims abstract description 11
- 230000033001 locomotion Effects 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 abstract description 15
- 238000012545 processing Methods 0.000 abstract description 9
- 238000004458 analytical method Methods 0.000 description 38
- 239000000284 extract Substances 0.000 description 33
- 230000008569 process Effects 0.000 description 23
- 238000004891 communication Methods 0.000 description 18
- 230000005236 sound signal Effects 0.000 description 16
- 238000010191 image analysis Methods 0.000 description 13
- 238000003860 storage Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 238000001356 surgical procedure Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Transfer Between Computers (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】音声認識処理の利便性を向上させる。【解決手段】プロセッサと、メモリとを備えるコンピュータに実行させるためのプログラムであって、プログラムは、プロセッサに、集音装置により集音された音を取得するステップと、取得した音から、少なくとも1つの音声を抽出するステップと、抽出した音声を解析することで、テキスト情報に変換するステップと、テキスト情報に基づき、抽出した音声の発声者の役割を推定するステップと、変換したテキスト情報を、役割を識別可能にユーザに提示するステップと、を実行させるプログラム【選択図】図4PROBLEM TO BE SOLVED: To improve the convenience of voice recognition processing. SOLUTION: The program is to be executed by a computer including a processor and a memory, and the program is at least one from a step of acquiring a sound collected by a sound collector and the acquired sound. A step of extracting one sound, a step of converting the extracted sound into text information, a step of estimating the role of the speaker of the extracted sound based on the text information, and a step of converting the converted text information. A program that executes a step that presents the role to the user in an identifiable manner [selection diagram] Fig. 4
Description
本開示は、プログラム、方法、情報処理装置、システムに関する。 The present disclosure relates to programs, methods, information processing devices and systems.
声の波形の特徴で、発話者を区別する技術が知られている。例えば、特許文献1では、音声情報を含む生体情報を用い、ユーザを認証することが記載されている。
A technique for distinguishing speakers by the characteristics of voice waveforms is known. For example,
しかしながら、従来のシステムでは、音声情報を予め登録していないと話者を判別することができない。このため、音声認識処理によりテキスト情報を生成しても、音声情報が予め登録されていない場合には、発声者が判別できず、音声認識処理の利便性が損なわれることがある。 However, in the conventional system, the speaker cannot be identified unless the voice information is registered in advance. Therefore, even if the text information is generated by the voice recognition process, if the voice information is not registered in advance, the speaker cannot be identified, and the convenience of the voice recognition process may be impaired.
本開示の目的は、音声認識処理の利便性を向上させることである。 An object of the present disclosure is to improve the convenience of speech recognition processing.
一実施形態によると、プロセッサと、メモリとを備えるコンピュータに実行させるためのプログラムであって、プログラムは、プロセッサに、集音装置により集音された音を取得するステップと、取得した音から、少なくとも1つの音声を抽出するステップと、抽出した音声を解析することで、テキスト情報に変換するステップと、テキスト情報に基づき、抽出した音声の発声者の役割を推定するステップと、変換したテキスト情報を、役割を識別可能にユーザに提示するステップと、を実行させるプログラムが提供される。 According to one embodiment, a program for causing a computer including a processor and a memory to execute the program, from the step of acquiring the sound collected by the sound collector to the processor and the acquired sound. A step of extracting at least one sound, a step of converting the extracted sound into text information, a step of estimating the role of the speaker of the extracted sound based on the text information, and the converted text information. Is provided with a step of presenting the role to the user in an identifiable manner, and a program to execute.
本開示によれば、音声認識処理の利便性を向上させることができる。 According to the present disclosure, the convenience of voice recognition processing can be improved.
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the following description, the same parts are designated by the same reference numerals. Their names and functions are the same. Therefore, the detailed description of them will not be repeated.
<第1の実施形態>
<概要>
以下の実施形態では、発声者の役割を推定し、発声者の発声内容と、推定した役割とをテキストデータとして記憶するシステム1について説明する。
<First Embodiment>
<Overview>
In the following embodiment, the
システム1は、集音装置により周囲の音を集音する。システム1は、集音した音に基づく音データから、少なくとも1つ以上の音声を抽出する。システム1は、抽出した音声の発声内容をテキスト情報に変換する。システム1は、テキスト情報に基づいて発声者の役割を推定する。システム1は、テキスト情報に、推定した役割を加えたテキストデータを記憶し、ユーザからの要求に応じて提示する。
The
システム1は、例えば、病院などの医療施設等に設置され得る。具体的には、例えば、集音装置が手術室に設置され、システム1は、執刀医及び助手などの手術中の会話をテキスト情報に変換し、テキスト情報から推定される役割と共に記憶する。また、例えば、集音装置が病室に設置され、主治医及び看護師などの会話をテキスト情報に変換し、テキスト情報から推定される役割と共に記憶する。なお、執刀医及び主治医は、主として医療行為を実施する担当者の一例であり、助手及び看護師は、補助する担当者の一例である。これにより、術中及び日常の会話をテキスト情報及び役割を含むテキストデータとして記憶しておくことが可能となる。
The
また、システム1は、例えば、セミナー、記者会見などの場にも設置され得る。具体的には、例えば、集音装置が会場に設置され、システム1は、講演者と視聴者との質疑応答をテキスト情報に変換し、テキスト情報から推定される役割と共に記憶する。これにより、議事録の作成の手間が軽減する。また、質問内容を容易に見返すことが可能となる。なお、講演者は、主となる話者の例示であり、主となる話者は、会合を進行を司る役を担う者、例えば、司会者等であってもよい。
The
また、システム1は、例えば、作業現場などに設置され得る。具体的には、例えば、集音装置が現場に設置され、システム1は、管理者から作業員への指示の内容、作業員から管理者への報告の内容などをテキスト情報に変換し、テキスト情報から推定される役割と共に記憶する。なお、管理者は、指示者と換言しても構わない。また、作業員は、管理者により管理される被管理者の一例である。これにより、トラブル発生時の、管理者から作業員への指示漏れの有無等を確認することが可能となる。
Further, the
<1 システム全体の構成図>
図1は、システム1の全体の構成を示す図である。
<1 Configuration diagram of the entire system>
FIG. 1 is a diagram showing the overall configuration of the
図1に示すように、システム1は、サーバ20と、エッジサーバ30と、集音装置40とを含む。サーバ20とエッジサーバ30とは、ネットワーク80を介して通信接続する。エッジサーバ30は、集音装置40と接続されている。例えば、集音装置40は、情報機器間の近距離通信システムで用いられる通信規格に基づく送受信装置である。具体的には、集音装置40は、例えば、Bluetooth(登録商標)モジュールなど2.4GHz帯を使用して、Bluetooth(登録商標)モジュールを搭載した他の情報機器からのビーコン信号を受信する。エッジサーバ30は、当該近距離通信を利用したビーコン信号に基づき、集音装置40から送信される情報を取得する。このように、集音装置40は、取得した発声者の音声の情報を、ネットワーク80を介さず、近距離通信によりエッジサーバ30へ送信する。なお、エッジサーバ30は、ネットワーク80を介して集音装置40と通信接続してもよい。
As shown in FIG. 1, the
サーバ20は、音に関する情報を管理する。音に関する情報は、例えば、音データ、音から抽出された音声に基づいて生成されるテキストデータ等を含む。図1に示すサーバ20は、通信IF22、入出力IF23、メモリ25、ストレージ26、及びプロセッサ29を有する。
The
通信IF22は、サーバ20が外部の装置と通信するため、信号を入出力するためのインタフェースである。入出力IF23は、ユーザからの入力操作を受け付けるための入力装置とのインタフェース、および、ユーザに対し情報を提示するための出力装置とのインタフェースとして機能する。メモリ25は、プログラム、および、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばDRAM(Dynamic Random Access Memory)等の揮発性のメモリである。ストレージ26は、データを保存するための記憶装置であり、例えばフラッシュメモリ、HDD(Hard Disc Drive)である。プロセッサ29は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。
The
本実施形態において、システム1がサーバ20を有する場合を例に説明しているが、システム1を複数のサーバの集合体として形成してもよい。1つ又は複数のハードウェアに対して本実施形態に係るシステム1を実現することに要する複数の機能の配分の仕方は、各ハードウェアの処理能力及び/又はシステム1に求められる仕様等に鑑みて適宜決定することができる。
In the present embodiment, the case where the
エッジサーバ30は、集音装置40から送信される信号を受信し、受信した信号を、サーバ20に送信する。また、エッジサーバ30は、サーバ20から取得した信号を集音装置40へ送信する。サーバ20から取得する信号には、例えば、集音装置40の設定を更新するための情報などが含まれる。図1では、エッジサーバ30が1台である場合を例に示しているが、システム1に収容されるエッジサーバは、複数台あっても構わない。
The
集音装置40は、周囲の音を集音し、例えば、デジタル形式の音データに変換する。集音装置40は、音データに基づく音信号をエッジサーバ30へ送信する。集音装置40は、例えば、マイクにより実現される。マイクは、例えば、指向性マイク、又は無指向性マイクである。指向性マイクの指向性は、単一指向性であっても、双指向性であっても構わない。集音装置40は、例えば、音を効率的に集音可能な位置に設置される。図1では、集音装置40が1台である場合を例に示しているが、システム1に収容される集音装置40は、複数台あっても構わない。
The
<1.1 サーバ20の構成>
図2は、サーバ20の機能的な構成を示す図である。図2に示すように、サーバ20は、通信部201と、記憶部202と、制御部203としての機能を発揮する。
<1.1 Configuration of
FIG. 2 is a diagram showing a functional configuration of the
通信部201は、サーバ20が、外部の装置と通信するための処理を行う。
The
記憶部202は、サーバ20が使用するデータ及びプログラムを記憶する。記憶部202は、テキスト情報データベース2021と、音声情報データベース2022等とを記憶する。
The
テキスト情報データベース2021は、集音装置40で集音された音に基づいて生成されるテキストデータを記憶する。詳細は後述する。
The
音声情報データベース2022は、サーバ20が集音装置40で集音された音に基づく音データを記憶する。詳細は後述する。
The
制御部203は、サーバ20のプロセッサがプログラムに従って処理を行うことにより、各種モジュールとして示す機能を発揮する。
The
受信制御モジュール2031は、サーバ20が外部の装置から通信プロトコルに従って信号を受信する処理を制御する。例えば、受信制御モジュール2031は、通信部201を制御し、集音装置40からエッジサーバ30を介して送信される音信号を受信する。
The
送信制御モジュール2032は、サーバ20が外部の装置に対し通信プロトコルに従って信号を送信する処理を制御する。
The
取得モジュール2033は、受信した音信号から音データを取得する。取得モジュール2033は、取得した音データを音声情報データベース2022に記憶する。取得モジュール2033は、例えば、所定の要件を満たすと、取得した音データを音声情報データベース2022に記憶する。所定の要件は、例えば、以下である。
・録音開始指示が入力されてから録音終了指示が入力されるまで
・予め設定された時間への到達
・音の継続した発生(例えば、音が発生すると録音を開始し、音が予め設定された期間発生しないと録音を停止する)
The
-From the input of the recording start instruction to the input of the recording end instruction-Achievement of a preset time-Continuous generation of sound (for example, when sound is generated, recording is started and the sound is preset. Recording will stop if the period does not occur)
音声解析モジュール2034は、取得された音データを解析する。音声解析モジュール2034は、例えば、所定の要件を満たすと、音データを解析する。所定の要件は、例えば、以下である。
・録音(解析)開始指示が入力されてから録音(解析)終了指示が入力されるまで
・予め設定された時間への到達
・音の継続した発生(例えば、音が発生すると解析を開始し、音が予め設定された期間発生しないと解析を停止する)
The
-From the input of the recording (analysis) start instruction to the input of the recording (analysis) end instruction-Achievement of a preset time-Continuous generation of sound (for example, when sound is generated, analysis is started and analysis is started. Analysis will stop if no sound is generated for a preset period of time)
音声解析モジュール2034は、取得された音データから所定の音声を抽出する。具体的には、音声解析モジュール2034は、例えば、下記のいずれかの情報に基づいて音データから所定の音声を抽出する。
・声の特徴
・音が集音された方向
・音が集音されたタイミング
・音を集音した集音装置
The
・ Characteristics of voice ・ Direction in which sound is collected ・ Timing when sound is collected ・ Sound collector that collects sound
より具体的には、例えば、音声解析モジュール2034は、音データに含まれる声の特徴、例えば、声の大きさ、音高(周波数)、有声、無声、音素の種類、及びフォルマント等から成る群から選択される少なくとも1つを分析する。音声解析モジュール2034は、分析結果に基づいて同一の者が発生したと推定される音声を、音データから抽出する。
More specifically, for example, the
また、例えば、集音装置40が指向性を有している場合、音声解析モジュール2034は、集音装置40の指向性の情報に基づき、指向している方向から到来した音声を、音データから抽出する。
Further, for example, when the
また、例えば、発話するタイミングが予め分かっている場合、音声解析モジュール2034は、集音装置40が音を集音した時間に基づき、音データに含まれる音声を抽出する。例えば、音声解析モジュール2034は、講演等の発声に係るスケジュールを参照し、該当する時刻に達してから最初に発声した音声を、音データから抽出する。
Further, for example, when the timing of utterance is known in advance, the
また、例えば、集音装置40が複数利用されている場合、音声解析モジュール2034は、集音装置40毎に集音された音声を、音データから抽出する。
Further, for example, when a plurality of
音声解析モジュール2034は、上記の抽出方法について、単独で発声者の音声を抽出してもよいし、複数の手法を組み合わせて発声者の音声を抽出してもよい。
Regarding the above extraction method, the
また、音声解析モジュール2034は、抽出した音声に対して音声認識処理を実行することで発声内容をテキスト情報に変換する。音声認識の手法は既存のいかなる手法を用いてもよい。変換されたテキスト情報は、テキスト情報データベース2021に記憶される。
Further, the
推定モジュール2035は、テキスト情報に基づき、発声者の役割を推定する。例えば、推定モジュール2035は、サーバ20の記憶部202に記憶されている学習済みモデルに、テキスト情報を入力することで、発声者の役割を推定する。
The
学習済みモデルは、例えば、学習用データに基づき、モデル学習プログラムに従って機械学習モデルに機械学習を行わせることで生成される。本実施形態において、学習済みモデルは、例えば、テキスト情報データベース2021に記憶されている発言に対し、役割を出力するように学習されている。このとき、学習用データは、例えば、所定の発言についての文字情報を入力データとし、その発言をする者の役割を正解出力データとする。例えば、手術をリードする発言についての文字情報を入力データとし、手術をリードする発言をする者の役割である執刀医を正解出力データとする。また、手術を補助する発言についての文字情報を入力データとし、手術を補助する発言をする者の役割である助手を正解出力データとする。このように学習された学習済みモデルは、テキスト情報が入力されると、発声者の役割、例えば、執刀医、助手、主治医、看護師、講演者、視聴者、管理者、作業員等を出力する。
The trained model is generated, for example, by having a machine learning model perform machine learning according to a model learning program based on training data. In the present embodiment, the trained model is trained to output a role for a statement stored in, for example, the
推定モジュール2035は、音データから抽出した音声が複数ある場合、音声の内容が変換されたテキスト情報から、音声毎に役割を推定する。推定モジュール2035は、推定した役割を、テキスト情報と共にテキスト情報データベース2021に記憶させる。
When there are a plurality of voices extracted from the sound data, the
推定モジュール2035は、役割を一度推定した後は、同一の音声と推定可能な音声に対しては、同一の役割を付し、改めて役割を推定する処理を実行しなくてもよい。
After the role is estimated once, the
推定モジュール2035は、所定のタイミングで役割の推定をやりなおしてもよい。所定のタイミングは、例えば、以下である。
・予め設定した時間の経過
・録音の切り替わり
・新たな人物の登場
The
・ Elapsed preset time ・ Switching recordings ・ Appearance of new people
提示モジュール2036は、ユーザからの要求に応じ、テキスト情報データベース2021に記憶されているテキストデータをユーザに提示する。
The
<2 データ構造>
図3は、サーバ20が記憶するテキスト情報データベース2021、音声情報データベース2022のデータ構造を示す図である。
<2 data structure>
FIG. 3 is a diagram showing the data structures of the
図3に示すように、テキスト情報データベース2021は、項目「日時」と、項目「テキストID」と、項目「音声ID」と、項目「データ」等を含む。
As shown in FIG. 3, the
項目「日時」は、テキストデータの元となった音を集音した日時を示す情報である。 The item "date and time" is information indicating the date and time when the sound that is the source of the text data is collected.
項目「テキストID」は、テキストデータを識別する情報を示す。 The item "text ID" indicates information for identifying text data.
項目「音声ID」は、テキストデータの元となった音データを識別する情報を示す。例えば、テキストID「T001」は、音声ID「V001」に基づいて生成されたことを示す。 The item "voice ID" indicates information for identifying the sound data that is the source of the text data. For example, the text ID "T001" indicates that it was generated based on the voice ID "V001".
項目「データ」は、テキストデータを記憶している。項目「データ」で記憶されるテキストデータには、音声の内容が変換されたテキスト情報、テキスト情報から推定された役割が含まれている。 The item "data" stores text data. The text data stored in the item "data" includes the text information in which the content of the voice is converted and the role estimated from the text information.
図3に示すように、音声情報データベース2022は、項目「日時」と、項目「音声ID」と、項目「データ」等を含む。
As shown in FIG. 3, the
項目「日時」は、音を集音した日時を示す情報である。 The item "date and time" is information indicating the date and time when the sound was collected.
項目「音声ID」は、取得した音データを識別する情報を示す。 The item "voice ID" indicates information for identifying the acquired sound data.
項目「データ」は、音データを記憶している。項目「データ」で記憶される音データは、例えば、wav等のデータ形式で記憶されている。 The item "data" stores sound data. The sound data stored in the item "data" is stored in a data format such as wav.
<3 小括>
図4は、システム1の概要を示す図である。図4に示す例では、音声を取得する対象である人物Aおよび人物Bの周囲に、集音装置40が設置される。
<3 Summary>
FIG. 4 is a diagram showing an outline of the
集音装置40は、集音装置40の周囲の音を取得する。集音装置40は、取得した音についての音信号をエッジサーバ30に送信する。
The
エッジサーバ30は、受信した音信号をサーバ20に送信する。
The
サーバ20は、受信した音信号についての音データを解析し、音データから音声を抽出する。サーバ20は、抽出した音声に対して音声認識処理を実行することで音声の内容をテキスト情報に変換する。サーバ20は、変換したテキスト情報から、音声の発声者の役割を推定する。
The
これにより、サーバ20は、発声者が発した音声の内容を、発声者の役割とテキスト情報とを対応付けて記憶することが可能となる。
As a result, the
<4 動作>
以下、サーバ20が集音装置40で集音された音に基づき、テキストデータを生成する際の一連の処理について説明する。
<4 operation>
Hereinafter, a series of processes when the
図5は、サーバ20の制御部203が音データに基づいてテキストデータを生成する際の一連の処理を示すフローチャートである。以下の説明では、例えば、集音装置40の周囲には、図4に示すように人物Aと、人物Bとがいる場合を例に説明する。
FIG. 5 is a flowchart showing a series of processes when the
集音装置40は、周囲の音を集音する。このとき、例えば、人物Aが所定の発言をし、その後に、人物Bが人物Aの発言に対して応答をしたとする。集音装置40が集音した音には、人物Aの音声の後に、人物Bの音声が含まれる。集音装置40は、集音した音についての音信号を、エッジサーバ30を介してサーバ20へ送信する。
The
ステップS501において、制御部203は、エッジサーバ30から受信した音信号から音データを取得する。
In step S501, the
ステップS502において、制御部203は、取得した音データを解析する。具体的には、例えば、制御部203は、取得した音データに含まれる声の特徴、例えば、声の大きさ、音高、有声、無声、音素の種類、フォルマント等から成る群から選択される少なくとも1つを分析する。制御部203は、人物Aが発生した音声を、第1特徴を有する第1音声として音データから抽出する。制御部203は、人物Aの後に人物Bが発生した音声を、第2特徴を有する第2音声として音データから抽出する。
In step S502, the
なお、ここでは、制御部203が、声の特徴に基づいて音データから音声を抽出する場合を例に説明した。制御部203は、声の特徴、集音装置40の指向方向、音が集音されたタイミング、集音に用いられた集音装置等から成る群から選択される少なくとも1つの手法を利用して音声を抽出してよい。
Here, a case where the
ステップS503において、制御部203は、抽出した音声に対して音声認識処理を実行することで、音声の内容をテキスト情報に変換する。具体的には、例えば、制御部203は、第1音声に対して音声認識処理を実行することで、第1音声の内容を第1テキスト情報に変換する。制御部203は、第1テキスト情報をテキスト情報データベース2021に記憶する。また、制御部203は、第2音声に対して音声認識処理を実行することで、第2音声の内容をテキスト情報に変換する。制御部203は、第2テキスト情報をテキスト情報データベース2021に記憶する。
In step S503, the
ステップS504において、制御部203は、テキスト情報に基づき、音声の発声者の役割を推定する。具体的には、例えば、制御部203は、第1テキスト情報を学習済みモデルに入力する。学習済みモデルは、第1テキスト情報が入力されると、第1役割を出力する。また、制御部203は、第2テキスト情報を学習済みモデルに入力する。学習済みモデルは、第2テキスト情報が入力されると、第2役割を出力する。制御部203は、第1テキスト情報と第1役割とを関連付け、第2テキスト情報と第2役割とを関連付けてテキストデータとし、テキストデータをテキスト情報データベース2021に記憶する。
In step S504, the
ステップS505において、制御部203は、ユーザからの要望に応じ、テキスト情報データベース2021に記憶されているテキストデータをユーザに提示する。
In step S505, the
<5 画面例>
図6~8は、第1の実施形態において、テキストデータをユーザに提示する際の、ユーザが操作する端末のディスプレイの表示例を示す図である。ユーザ端末は、例えば据え置き型のPC(Personal Computer)、ラップトップPCであるとしてもよい。また、ユーザ端末は、ヘッドマウントディスプレイとして機能してもよく、例えば、透過型、非透過型、又はシースルー型ヘッドマウントディスプレイとして機能してもよい。なお、テキストデータは、ディスプレイでの表示に限らず、紙にプリントアウトされてユーザに提示されてもよい。
<5 screen example>
6 to 8 are diagrams showing a display example of a terminal operated by the user when presenting text data to the user in the first embodiment. The user terminal may be, for example, a stationary PC (Personal Computer) or a laptop PC. The user terminal may also function as a head-mounted display, for example, as a transmissive, non-transparent, or see-through head-mounted display. The text data is not limited to the display on the display, and may be printed out on paper and presented to the user.
図6は、人物Aが執刀医であり、人物Bが助手である場合のテキストデータの表示例を示す図である。 FIG. 6 is a diagram showing an example of displaying text data when the person A is a surgeon and the person B is an assistant.
図6において、オブジェクト601、607は、第1テキスト情報に基づいて推定される役割を表す。図6では、オブジェクト601、607は画面の左端に位置し、「執刀医」と表示されている。オブジェクト604は、第2テキスト情報に基づいて推定される役割を表す。図6では、オブジェクト604は画面の右端に位置し、「助手」と表示されている。このように、役割に応じてオブジェクトを表示する位置を変えることで、ユーザは、役割の表示位置を視認するだけで、役割の異なる者が会話していることを把握することが可能となる。
In FIG. 6, the
図6では、オブジェクト601、607が画面の左端に沿って位置し、オブジェクト604が画面の右端に沿って位置する例を示しているが、オブジェクト601、607及びオブジェクト604の位置はこれに限定されない。オブジェクト601及びオブジェクト604は、同じ端部に位置していてもよい。
FIG. 6 shows an example in which the
アイコン602、608およびアイコン605は、役割に応じたアイコンを表す。例えば、アイコン602、608は、それぞれオブジェクト601、607の下に表示され、執刀医を識別するアイコンを示す。アイコン605は、オブジェクト604の下に表示され、助手を識別するアイコンを示す。当該アイコンは、例えば、役割に応じて制御部203によって自動的に設定されてもよい。
The
ボックス603、609およびボックス606は、発声者それぞれの発言内容を表すテキスト情報が表示される。例えば、ボックス603、609は、画面の右端寄りに表示され、執刀医の発言を時刻と共に表示する。また、ボックス606は、画面の左端寄りに表示され、助手の発言を時刻と共に表示する。
In the
これにより、ユーザは、執刀医と助手とが手術中などに行った会話の内容を、各々の役割を識別する形でテキスト情報として確認することができる。このため、執刀医と助手との術中における会話を、例えば、研修医の指導の際に、指示の出し方が適切か、誤った判断をしていないか等の確認に活用することが可能となる。また、執刀医自身が、自分の担当した手術中の会話を確認することで、反省点の振り返り、改善点の発見などに役立てることができる。 As a result, the user can confirm the contents of the conversation between the surgeon and the assistant during the operation or the like as text information in a form that identifies each role. For this reason, it is possible to utilize the intraoperative conversation between the surgeon and the assistant, for example, to confirm whether the instructions are appropriate and whether the judgment is incorrect when instructing the trainee. Become. In addition, the surgeon himself can check the conversation during the surgery that he was in charge of, which can be useful for looking back on the points of reflection and finding points for improvement.
図7は、人物Aが講演者であり、人物Bが視聴者である場合のテキストデータの表示例を示す図である。 FIG. 7 is a diagram showing an example of displaying text data when the person A is a speaker and the person B is a viewer.
図7において、オブジェクト701、707は、図6におけるオブジェクト601、607と同様に、第1テキスト情報に基づいて推定される役割を表す。図7では、オブジェクト701、707は画面の左端に位置し、「講演者」と表示されている。オブジェクト704は、図6におけるオブジェクト604と同様に、第2テキスト情報に基づいて推定される役割を表す。図7では、オブジェクト704は画面の右端に位置し、「視聴者」と表示されている。
In FIG. 7, the
アイコン702、708およびアイコン705は、図6におけるアイコン602、608および605と同様に、役割に応じたアイコンを表す。例えば、アイコン702、708は、それぞれオブジェクト701、707の下に表示され、講演者を識別するアイコンを示す。アイコン705は、オブジェクト704の下に表示され、視聴者を識別するアイコンを示す。
The
ボックス703、709およびボックス706は、図6におけるボックス603、609およびボックス606と同様に、発声者それぞれの発言内容を表すテキスト情報が表示される。例えば、ボックス703、709は、画面の右端寄りに表示され、講演者の発言を時刻と共に表示する。また、ボックス706は、画面の左端寄りに表示され、視聴者の発言を時刻と共に表示する。
Similar to the
これにより、ユーザは、講演者と視聴者とが講演中などに行った会話、例えば質疑応答の内容を、各々の役割を識別する形でテキスト情報として確認することができる。このため、講演者は、質疑応答の内容をテキスト情報として確認することで、講演会における話の流れ、視聴者の反応などを確認することが可能となる。また、議事録を作成するユーザは、質疑応答の内容をテキスト情報として確認することで、容易に議事録を作成することが可能となる。 As a result, the user can confirm the content of the conversation between the speaker and the viewer during the lecture, for example, the question and answer session, as text information in a form that identifies each role. Therefore, the lecturer can confirm the flow of the talk in the lecture, the reaction of the viewer, etc. by confirming the contents of the question and answer as text information. In addition, the user who creates the minutes can easily create the minutes by confirming the contents of the question and answer as text information.
図8は、人物Aが管理者であり、人物Bが作業員である場合のテキストデータの表示例を示す図である。 FIG. 8 is a diagram showing an example of displaying text data when the person A is an administrator and the person B is a worker.
図8において、オブジェクト801、807は、図7におけるオブジェクト701、707と同様に、第1テキスト情報に基づいて推定される役割を表す。図8では、オブジェクト801、807は画面の左端に位置し、「管理者」と表示されている。オブジェクト804は、図7におけるオブジェクト704と同様に、第2テキスト情報に基づいて推定される役割を表す。図8では、オブジェクト804は画面の右端に位置し、「作業員」と表示されている。
In FIG. 8, the
アイコン802、808およびアイコン805は、図7におけるアイコン702、708および705と同様に、役割に応じたアイコンを表す。例えば、アイコン802、808は、それぞれオブジェクト801、807の下に表示され、管理者を識別するアイコンを示す。アイコン805は、オブジェクト804の下に表示され、作業員を識別するアイコンを示す。
The
ボックス803、809およびボックス806は、図7におけるボックス703、709およびボックス706と同様に、発声者それぞれの発言内容を表すテキスト情報が表示される。例えば、ボックス803、809は、画面の右端寄りに表示され、管理者の発言を時刻と共に表示する。また、ボックス806は、画面の左端寄りに表示され、作業員の発言を時刻と共に表示する。
Similar to the
これにより、ユーザは、管理者と作業員とが行った作業現場における会話、例えば当日の作業指示などの内容を、各々の役割を識別する形でテキスト情報として確認することができる。これにより、管理者は、作業指示の内容をテキスト情報として確認することで、当日の作業内容の振り返り、次の日の作業計画の立案などに役立てることが可能となる。また、管理者を管理監督する監督者が、管理者が作業員に出した指示内容、作業員の反応などをテキスト情報として確認することが可能となる。そのため、監督者は、ハラスメントなどの問題が生じたときに、指示の仕方が適切であったか、無理な負担を作業員に強いていないか、などを確認することが可能となる。 As a result, the user can confirm the contents of the conversation between the manager and the worker at the work site, for example, the work instruction of the day, as text information in the form of identifying each role. As a result, the administrator can check the contents of the work instruction as text information, which can be useful for looking back on the work contents of the day and for planning the work plan for the next day. In addition, the supervisor who manages and supervises the manager can confirm the contents of instructions given by the manager to the worker, the reaction of the worker, and the like as text information. Therefore, when a problem such as harassment occurs, the supervisor can confirm whether the instruction method is appropriate and whether the worker is forced to bear an unreasonable burden.
このように、サーバ20は、音データから音声を抽出し、抽出した音声のテキスト情報への変換、変換したテキスト情報に基づいて発声者の役割を推定するようにしている。また、サーバ20は、受信した一つ、または複数の音データから、複数の発声者の役割を推定するようにしている。このため、サーバ20は、発声者について事前に登録された情報がなくても、発声者の役割を判別しながらテキスト情報をユーザへ提示することが可能となる。
In this way, the
<6 変形例>
上記実施形態では、音声解析をサーバ20で実施する場合を説明したが、音声解析はサーバ20以外で実施されてもよい。例えば、エッジサーバ30が音声解析を実施し、テキスト情報をサーバ20へ送信してもよい。また、集音装置40が音声解析を実施し、テキスト情報をエッジサーバ30へ送信してもよい。なお、テキスト情報をサーバ20へ送信する場合であっても、音信号をサーバ20へ送信してもよい。
<6 Modification example>
In the above embodiment, the case where the voice analysis is performed on the
また、上記実施形態では、推定処理をサーバ20で実施する場合を説明したが、推定処理は音声解析の後であれば、サーバ20以外で実施されてもよい。例えば、エッジサーバ30、又は集音装置40が音声解析を実施した場合には、エッジサーバ30が推定処理を実施し、役割に関する情報をサーバ20へ送信してもよい。また、集音装置40が音声解析を実施した場合には、集音装置40が推定処理を実施し、役割に関する情報をエッジサーバ30へ送信してもよい。
Further, in the above embodiment, the case where the estimation process is performed on the
<第2の実施形態>
第1の実施形態では、集音装置40のみを利用する場合を説明した。しかしながら、音声を抽出する方法はこれに限らない。第2の実施形態では、集音装置40に加え、撮影装置50を利用する方法について説明する。なお、第1の実施形態と同一の符号を付しているものについての詳細な説明は繰り返さない。
<Second embodiment>
In the first embodiment, the case where only the
<1 システム全体の構成図>
図9は、第2の実施形態における、システム1Aの全体の構成を示す図である。
<1 Configuration diagram of the entire system>
FIG. 9 is a diagram showing the overall configuration of the
図9に示すように、システム1Aは、サーバ20Aと、エッジサーバ30と、集音装置40と、撮影装置50とを含む。サーバ20Aとエッジサーバ30とは、ネットワーク80を介して通信接続する。エッジサーバ30は、集音装置40と撮影装置50と接続されている。例えば、集音装置40と撮影装置50は、情報機器間の近距離通信システムで用いられる通信規格に基づく送受信装置である。具体的には、集音装置40と撮影装置50は、例えば、Bluetooth(登録商標)モジュールなど2.4GHz帯を使用して、Bluetooth(登録商標)モジュールを搭載した他の情報機器からのビーコン信号を受信する。エッジサーバ30は、当該近距離通信を利用したビーコン信号に基づき、集音装置40と撮影装置50から送信される情報を取得する。このように、集音装置40と撮影装置50は、取得した発声者の音声の情報、および発声者の動作情報を、ネットワーク80を介さず、近距離通信によりエッジサーバ30へ送信する。なお、エッジサーバ30は、ネットワーク80を介して集音装置40と撮影装置50と通信接続してもよい。
As shown in FIG. 9, the
撮影装置50は、受光素子により光を受光して、撮影画像として出力するためのデバイスである。撮影装置50は、設定されている方向の画像を撮影し、撮影により得られる画像データに基づく画像信号をエッジサーバ30へ送信する。撮影装置50は、例えば、以下のいずれかのデバイスが想定される。
・可視光カメラ
・赤外線カメラ
・紫外線カメラ
・超音波センサ
・RGB-Dカメラ
・LiDAR(Light Detection and Ranging)
図9では、撮影装置50が1台である場合を例に示しているが、システム1Aに収容される撮影装置50は、複数台あっても構わない。
The photographing
・ Visible light camera ・ Infrared camera ・ Ultrasonic camera ・ Ultrasonic sensor ・ RGB-D camera ・ LiDAR (Light Detection and Ranging)
Although FIG. 9 shows an example in which the number of photographing
エッジサーバ30は、集音装置40から送信される音信号を受信し、受信した音信号を、サーバ20へ送信する。また、エッジサーバ30は、撮影装置50から送信される画像信号を受信し、受信した画像信号を、サーバ20へ送信する。
The
<1.1 サーバ20Aの構成>
図10は、第2の実施形態における、サーバ20Aの機能的な構成を示す図である。
<1.1 Configuration of
FIG. 10 is a diagram showing a functional configuration of the
取得モジュール2033Aは、受信制御モジュール2031で受信された音信号から音データを取得する。取得モジュール2033Aは、取得した音データを音声情報データベース2022に記憶する。取得モジュール2033Aは、受信制御モジュール2031で受信された画像信号から画像データを取得する。取得モジュール2033Aは、取得した画像データを画像情報データベース2023に記憶する。取得モジュール2022Aは、例えば、所定の要件を満たすと、取得した音データおよび画像データを、音声情報データベース2022および画像情報データベース2023にそれぞれ記憶する。所定の要件は、例えば、以下である。
・録音/録画開始指示が入力されてから録音/録画終了指示が入力されるまで
・予め設定された時間への到達
・音の継続した発生(例えば、音が発生すると録音/録画を開始し、音が予め設定された期間発生しないと録音/録画を停止する)
・発声者の動作を検知(例えば、発声者の口の動きを検知すると録音/録画を開始し、動作が予め設定された期間発生しないと録音/録画を停止する)
・発声者が別の発声者を指定する動作を検知(例えば、録音、および撮影していた発声者が異なる発声者を指定する動作を検知すると、指定された対象の録音および撮影を開始し、動作が予め設定された期間発生しないと録音および撮影を停止する)
The
-From the input of the recording / recording start instruction to the input of the recording / recording end instruction-Achievement of a preset time-Continuous generation of sound (for example, when sound is generated, recording / recording is started, Recording / stop recording if no sound is generated for a preset period)
-Detects the movement of the speaker (for example, recording / recording is started when the movement of the mouth of the speaker is detected, and recording / recording is stopped when the movement does not occur for a preset period).
-Detects an action in which a speaker specifies another speaker (for example, when a speaker who was recording and shooting detects an action in which a different speaker is specified, recording and shooting of the specified target is started, and the recording and shooting of the specified target are started. Recording and shooting will be stopped if the operation does not occur for a preset period.)
画像情報データベース2023は、サーバ20Aが撮影装置50で撮影された画像に基づく画像データを記憶する。
The
画像解析モジュール2037は、取得した画像データを解析することで、画像データから動作情報を抽出する。例えば、画像解析モジュール2037は、学習済みモデルを用い、撮影装置50が撮影した画像から動作情報を抽出する。
The
本実施形態において、学習済みモデルは、例えば、取得された画像データに対し、動作情報を出力するように学習されている。このとき、学習用データは、例えば、所定の動作を含む画像を入力データとし、その動作対象へのラベリング、ラベリングされた対象の変位を正解出力データとする。例えば、人物を含む画像を入力データとし、人物の口へのラベリング、ラベリングされた口の変位を正解出力データとする。なお、人物の手足のラベリング、ラベリングされた手足の変位を正解出力データとしてもよい。 In the present embodiment, the trained model is trained to output motion information with respect to the acquired image data, for example. At this time, for the learning data, for example, an image including a predetermined motion is used as input data, and labeling to the motion target and displacement of the labeled target are used as correct output data. For example, an image including a person is used as input data, and labeling of the person's mouth and displacement of the labeled mouth are used as correct output data. The labeling of the limbs of a person and the displacement of the labeled limbs may be used as correct output data.
画像解析モジュール2037は、例えば、取得した画像データから撮影された人の口の動作情報を抽出する。なお、抽出される動作情報は口に限定されず、ジェスチャー等の動作であってもよい。画像解析モジュール2037は、抽出した動作情報を、音声解析モジュール2034Aに送信する。
The
音声解析モジュール2034Aは、取得した音データと、画像解析によって得られた動作情報とから音声を抽出する。具体的には、音声解析モジュール2034Aは、例えば、動作情報と同期して発声された音声を、その人物の発声であると認識し、その人物の音声として音データから抽出する。より具体的には、口の動きと同期して発声された音声を、口が動いた人物の発声であると認識し、その人物の音声とする。
The
音声解析モジュール2034Aは、撮影方向に複数の人物が含まれている場合において、それぞれの人物の音声を音データから抽出してもよい。また、音声解析モジュール2034Aは、声の特徴、音が集音された方向、音が集音されたタイミング、音を集音した集音装置に基づいて音声を抽出してもよい。音声解析モジュール2034Aは、単独で発声者の音声を抽出してもよいし、複数の手法を組み合わせて発声者の音声を抽出してもよい。
The
<2 データ構造>
図11は、サーバ20Aが記憶する画像情報データベース2023のデータ構造を示す図である。
<2 data structure>
FIG. 11 is a diagram showing a data structure of the
図11に示すように、画像情報データベース2023は、項目「日時」と、項目「画像ID」と、項目「音声ID」と、項目「データ」等を含む。
As shown in FIG. 11, the
項目「日時」は、画像を録画した日時を示す情報である。 The item "date and time" is information indicating the date and time when the image was recorded.
項目「画像ID」は、画像データを識別する情報を示す。 The item "image ID" indicates information for identifying image data.
項目「音声ID」は、関連付けられている音データを識別する情報を示す。画像データと音データとは、例えば、時刻情報に基づいて関連付けられている。 The item "voice ID" indicates information for identifying the associated sound data. The image data and the sound data are associated with each other based on, for example, time information.
項目「データ」は、画像データを記憶している。項目「データ」で記憶される画像データは、例えば、jpeg等のデータ形式で記憶されている。 The item "data" stores image data. The image data stored in the item "data" is stored in a data format such as jpg.
<3 小括>
図12は、第2の実施形態におけるシステム1Aの概要を示す図である。図12に示す例では、音声を取得する対象である人物Aおよび人物Bの周囲に、集音装置40が設置される。また、人物Aおよび人物Bを撮影方向に含むように撮影装置50が設置される。
<3 Summary>
FIG. 12 is a diagram showing an outline of the
集音装置40は、集音装置40の周囲の音を取得する。集音装置40は、取得した音信号をエッジサーバ30に送信する。
The
撮影装置50は、撮影方向の画像を撮影する。撮影装置50は、取得した画像信号をエッジサーバ30に送信する。
The photographing
エッジサーバ30は、受信した音信号と画像信号とをサーバ20Aに送信する。
The
サーバ20Aは、画像データの画像解析結果を参照し、受信した音信号についての音データから撮影されている人物の音声を抽出する。サーバ20Aは、抽出した音声に対して音声認識処理を実行することで音声の内容をテキスト情報に変換する。サーバ20Aは、変換したテキスト情報から、音声の発声者の役割を推定する。
The
これにより、サーバ20Aは、発声者が発した音声の内容を、発声者の役割とテキスト情報とを対応付けて記憶することが可能となる。
As a result, the
これにより、サーバ20Aは、取得した音データと画像データとから、より正確に音声を抽出し、テキスト情報に変換することが可能となる。そのため、サーバ20Aは、発声者の音声が小さく、周囲の音との差別化が困難な場合でも、正確に発声者の音声を抽出することができる。
As a result, the
<4 動作>
以下、サーバ20Aが集音装置40で集音された音と撮影装置50で撮影された動作とに基づき、テキストデータを生成する際の一連の処理について説明する。
<4 operation>
Hereinafter, a series of processes when the
図13は、サーバ20Aの制御部203Aが音データと画像データとに基づいてテキストデータを生成する際の一連の処理を示すフローチャートである。以下の説明では、例えば、集音装置40の周囲に、図12に示すように人物Aおよび人物Bがおり、人物Aおよび人物Bを撮影方向に含むように撮影装置50が設置される場合を例に説明する。
FIG. 13 is a flowchart showing a series of processes when the
集音装置40は、周囲の音を集音する。このとき、例えば、人物Aが所定の発言をし、その後に、人物Bが人物Aの発言に対する応答をしたとする。集音装置40が集音した音には、人物Aの音声の後に、人物Bの音声が含まれる。集音装置40は、集音した音についての音信号を、エッジサーバ30を介してサーバ20Aへ送信する。
The
撮影装置50は、撮影方向の画像を撮影する。撮影装置50が撮影した画像には、人物Aの動作と、人物Bの動作とが含まれる。撮影装置50は、撮影した画像についての画像信号を、エッジサーバ30を介してサーバ20Aへ送信する。
The photographing
ステップS1301において、制御部203Aは、エッジサーバ30から受信した画像信号から画像データを取得する。
In step S1301, the
ステップS1302において、制御部203Aは、取得した画像データを解析することで、画像データから動作情報を抽出する。制御部203Aは、例えば、撮影方向に含まれる人物Aおよび人物Bの動作、例えば、発言に伴う口の動き、ジェスチャー等についての動作情報を抽出する。
In step S1302, the
ステップS1303において、制御部203Aは、取得した画像データの画像解析結果に基づいて、音データを解析する。具体的には、制御部203Aは、人物Aおよび人物Bの口の動きと同期して発声された音声を、人物Aおよび人物Bの発声であると認識し、人物Aおよび人物Bの音声として音データから抽出する。
In step S1303, the
なお、ここでは、制御部203Aが、声の特徴および発声者の動作情報、特に口の動きに基づいて音データから音声を抽出する場合を例に説明した。制御部203Aは、声の特徴、集音装置40の指向方向、音が集音されたタイミング、集音に用いられた集音装置等から成る群から選択される少なくとも1つと、撮影装置50の撮影した、発声者の他の動作、例えば、発声に伴うジェスチャー、異なる発声者を指定する動き等から成る群から選択される少なくとも1つとを組み合わせて利用して音声を抽出してよい。
Here, the case where the
<5 変形例>
上記実施形態では、画像解析および、画像解析結果に基づいた音声解析をサーバ20Aで実施する場合を説明したが、一連の解析処理はサーバ20以外で実施されてもよい。例えば、エッジサーバ30が画像解析および、画像解析結果に基づいた音声解析を実施し、テキスト情報をサーバ20Aへ送信してもよい。また、撮影装置50が画像解析を実施し、画像解析の結果を集音装置40に送信することで、集音装置40が音声解析を実施し、テキスト情報をエッジサーバ30へ送信してもよい。
<5 Modification example>
In the above embodiment, the case where the image analysis and the voice analysis based on the image analysis result are performed on the
また、上記実施形態では、推定処理をサーバ20Aで実施する場合を説明したが、推定処理は音声解析の後であれば、サーバ20A以外で実施されてもよい。例えば、エッジサーバ30、又は集音装置40が音声解析を実施した場合には、エッジサーバ30が推定処理を実施し、役割に関する情報をサーバ20Aへ送信してもよい。また、集音装置40が音声解析を実施した場合には、集音装置40が推定処理を実施し、役割に関する情報をエッジサーバ30へ送信してもよい。
Further, in the above embodiment, the case where the estimation process is performed on the
また、上記実施形態では、推定モジュール2035が学習済みモデルを用いて発声者の役割を推定する場合を例に説明した。しかしながら、推定モジュール2035は、学習済みモデルを用いずに発声者の役割を推定してもよい。例えば、記憶部202は、役割と、所定の文言とが対応付けられたテーブルを予め記憶する。推定モジュール2035は、テーブルを参照し、テキスト情報から役割を推定する。
Further, in the above embodiment, the case where the
<付記>
以上の各実施形態で説明した事項を以下に付記する。
<Additional notes>
The matters described in each of the above embodiments are added below.
(付記1)
プロセッサ29と、メモリ25とを備えるコンピュータ20に実行させるためのプログラムであって、プログラムは、プロセッサ29に、集音装置40により集音された音を取得するステップ(S501)と、取得した音から、少なくとも1つの音声を抽出するステップ(S502)と、抽出した音声を解析することで、テキスト情報に変換するステップ(S503)と、テキスト情報に基づき、抽出した音声の発声者の役割を推定するステップ(S504)と、変換したテキスト情報を、役割を識別可能にユーザに提示するステップ(S505)と、を実行させるプログラム。
(Appendix 1)
A program for causing a
(付記2)
抽出するステップ(S502)において、声の特徴に関する情報に基づいて、少なくとも1つの音声を抽出する、付記1に記載のプログラム。(段落0063)
(Appendix 2)
The program according to
(付記3)
抽出するステップ(S502)において、音の方向に関する情報に基づいて、少なくとも1つの音声を抽出する、付記1に記載のプログラム。(段落0063)
(Appendix 3)
The program according to
(付記4)
抽出するステップ(S502)において、音を取得するタイミングに関する情報に基づいて、少なくとも1つの音声を抽出する、付記1に記載のプログラム。(段落0063)
(Appendix 4)
The program according to
(付記5)
撮影装置により撮影された画像を取得するステップ(S1301)と、取得した画像から、発声者の動作情報を取得するステップ(S1302)と、をプロセッサ29に実行させ、抽出するステップ(S502)において、音を集音したタイミングと、動作情報を取得したタイミングとに基づいて、音声を抽出する、付記1に記載のプログラム。(段落0095)
(Appendix 5)
In the step (S502) of causing the
(付記6)
動作情報が、撮影装置50で撮影した、発声者の口又は手足の動作情報である、付記5に記載のプログラム。(段落0095)
(Appendix 6)
The program according to Appendix 5, wherein the motion information is motion information of the mouth or limbs of the speaker taken by the photographing
(付記7)
推定するステップ(S504)において、予め設定された役割の情報に基づいて、発声者の役割を推定する、付記1~6のいずれかに記載のプログラム。(段落0039)
(Appendix 7)
The program according to any one of
(付記8)
推定するステップ(S504)において、所定の発言についての文字情報を入力データとし、発言をする者の役割を正解出力データとして学習された学習済みモデルに、テキスト情報を入力することで発声者の役割を推定する、付記1~6のいずれかに記載のプログラム。
(段落0040)
(Appendix 8)
In the estimation step (S504), the character information about a predetermined remark is used as input data, and the role of the speaker is used as the correct answer output data. The program according to any one of
(Paragraph 0040)
(付記9)
抽出するステップ(S502)において、複数の音声を抽出し、変換するステップ(S503)において、抽出した複数の音声をそれぞれ解析することで、複数のテキスト情報に変換し、推定するステップ(S504)において、変換した複数のテキスト情報に基づき、抽出した複数の音声の発声者の役割をそれぞれ推定する、付記1~8のいずれかに記載のプログラム。(段落0036)
(Appendix 9)
In the step (S502) of extracting and converting a plurality of voices in the extraction step (S502), in the step (S504) of converting and estimating a plurality of text information by analyzing each of the extracted plurality of voices. , The program according to any one of
(付記10)
推定するステップ(S504)において、複数の音声の発声者の役割として、主として医療行為を実施する担当者と、当該担当者を補助する担当者とをそれぞれ推定する、付記9に記載のプログラム。(段落0074)
(Appendix 10)
The program according to Appendix 9, in which in the estimation step (S504), the person in charge of performing the medical practice and the person in charge of assisting the person in charge of performing the medical treatment are estimated as the roles of the voice speakers of the plurality of voices. (Paragraph 0074)
(付記11)
推定するステップ(S504)において、複数の音声の発声者の役割として、主となる話者と、当該話者の話を視聴する視聴者とをそれぞれ推定する、付記9に記載のプログラム。(段落0079)
(Appendix 11)
The program according to Appendix 9, which estimates the main speaker and the viewer who watches the speaker's story as the roles of the speakers of the plurality of voices in the estimation step (S504). (Paragraph 0079)
(付記12)
推定するステップ(S504)において、複数の音声の発声者の役割として、管理者と、当該管理者による被管理者とをそれぞれ推定する、付記9に記載のプログラム。(段落0084)
(Appendix 12)
The program according to Appendix 9, which estimates an administrator and a managed person by the administrator as roles of a plurality of voice utterers in the estimation step (S504). (Paragraph 0084)
(付記13)
プロセッサ29と、メモリ25とを備えるコンピュータ20が実行する方法であって、方法は、プロセッサ29が、集音装置40により集音された音を取得するステップ(S501)と、取得した音から、少なくとも1つの音声を抽出するステップ(S502)と、抽出した音声を解析することで、テキスト情報に変換するステップ(S503)と、テキスト情報に基づき、抽出した音声の発声者の役割を推定するステップ(S504)と、変換したテキスト情報を、役割を識別可能にユーザに提示するステップ(S505)と、を実行する方法。
(Appendix 13)
A method executed by a
(付記14)
制御部203を備える情報処理装置20であって、制御部203が、集音装置40により集音された音を取得するステップ(S501)と、取得した音から、少なくとも1つの音声を抽出するステップ(S502)と、抽出した音声を解析することで、テキスト情報に変換するステップ(S503)と、テキスト情報に基づき、抽出した音声の発声者の役割を推定するステップ(S504)と、変換したテキスト情報を、役割を識別可能にユーザに提示するステップ(S505)と、を実行する情報処理装置20。
(Appendix 14)
In the
(付記15)
集音装置40により集音された音を取得する手段(S501)と、取得した音から、少なくとも1つの音声を抽出する手段(S502)と、抽出した音声を解析することで、テキスト情報に変換する手段(S503)と、テキスト情報に基づき、抽出した音声の発声者の役割を推定する手段(S504)と、変換したテキスト情報を、役割を識別可能にユーザに提示する手段(S505)と、を備えるシステム。
(Appendix 15)
A means for acquiring the sound collected by the sound collecting device 40 (S501), a means for extracting at least one voice from the acquired sound (S502), and a means for analyzing the extracted voice to convert it into text information. (S503), a means for estimating the role of the speaker of the extracted voice based on the text information (S504), a means for presenting the converted text information to the user so that the role can be identified (S505). A system equipped with.
20 サーバ、22 通信IF、23 入出力IF、25 メモリ、26 ストレージ、29 プロセッサ、30 エッジサーバ、40 集音装置、50 撮影装置、80 ネットワーク、201 通信部、202 制御部、203 通信部、2021 テキスト情報データベース、2022 音声情報データベース、2023 画像情報データベース。 20 servers, 22 communication IFs, 23 input / output IFs, 25 memories, 26 storages, 29 processors, 30 edge servers, 40 sound collectors, 50 shooting devices, 80 networks, 201 communication units, 202 control units, 203 communication units, 2021 Text information database, 2022 audio information database, 2023 image information database.
Claims (16)
集音装置により集音された音を取得するステップと、
前記取得した音から、少なくとも1つの音声を抽出するステップと、
前記抽出した音声を解析することで、テキスト情報に変換するステップと、
前記テキスト情報に基づき、前記抽出した音声の発声者の役割を推定するステップと、
前記変換したテキスト情報を、当該発声者について推定した役割と共にユーザに提示するステップと、
を実行させ、
前記推定するステップにおいて、前記発声者を特定せずに、前記発声者の役割として、前記発声者の職に関する情報を推定する、プログラム。 A program for causing a computer having a processor and a memory to execute the program, wherein the program causes the processor to execute the program.
Steps to acquire the sound collected by the sound collector, and
A step of extracting at least one voice from the acquired sound, and
The step of converting the extracted voice into text information by analyzing it,
A step of estimating the role of the speaker of the extracted voice based on the text information, and
The step of presenting the converted text information to the user together with the estimated role for the speaker, and
To execute ,
A program that estimates information about the position of a speaker as the role of the speaker without specifying the speaker in the estimation step.
声の特徴に関する情報に基づいて、前記少なくとも1つの音声を抽出する、請求項1または2に記載のプログラム。 In the extraction step
The program of claim 1 or 2, wherein the at least one voice is extracted based on information about voice characteristics.
前記音の方向に関する情報に基づいて、前記少なくとも1つの音声を抽出する、請求項1または2に記載のプログラム。 In the extraction step
The program according to claim 1 or 2, wherein the at least one voice is extracted based on the information regarding the direction of the sound.
前記音を取得するタイミングに関する情報に基づいて、前記少なくとも1つの音声を抽出する、請求項1または2に記載のプログラム。 In the extraction step
The program according to claim 1 or 2, wherein the at least one voice is extracted based on the information regarding the timing of acquiring the sound.
前記取得した画像から、前記発声者の動作情報を取得するステップと、を前記プロセッサに実行させ、
前記抽出するステップにおいて、
前記音を集音したタイミングと、前記動作情報を取得したタイミングとに基づいて、前記音声を抽出する、請求項1または2に記載のプログラム。 Steps to acquire the image taken by the shooting device,
The processor is made to execute the step of acquiring the operation information of the speaker from the acquired image.
In the extraction step
The program according to claim 1 or 2, wherein the voice is extracted based on the timing at which the sound is collected and the timing at which the operation information is acquired.
予め設定された前記役割の情報に基づいて、前記発声者の役割を推定する、請求項1から7のいずれかに記載のプログラム。 In the estimation step
The program according to any one of claims 1 to 7, which estimates the role of the speaker based on the preset information of the role.
前記変換するステップにおいて、前記抽出した複数の音声をそれぞれ解析することで、複数のテキスト情報に変換し、
前記推定するステップにおいて、前記変換した複数のテキスト情報に基づき、前記抽出した複数の音声の発声者の役割をそれぞれ推定する、請求項1から9のいずれかに記載のプログラム。 In the extraction step, a plurality of voices are extracted and
In the conversion step, the extracted voices are analyzed to convert them into a plurality of text information.
The program according to any one of claims 1 to 9, wherein in the estimation step, the roles of the speaker of the extracted voices are estimated based on the converted text information.
前記複数の音声の発声者の役割として、主として医療行為を実施する担当者と、当該担当者を補助する担当者とをそれぞれ推定する、請求項10に記載のプログラム。 In the estimation step
The program according to claim 10, wherein the person in charge of performing the medical practice and the person in charge of assisting the person in charge of performing the medical treatment are estimated as the roles of the voice speakers of the plurality of voices.
前記複数の音声の発声者の役割として、主となる話者と、当該話者の話を視聴する視聴者とをそれぞれ推定する、請求項10に記載のプログラム。 In the estimation step
The program according to claim 10, wherein the main speaker and the viewer who listens to the talk of the speaker are estimated as the roles of the speaker of the plurality of voices.
前記複数の音声の発声者の役割として、管理者と、当該管理者による被管理者とをそれぞれ推定する、請求項10に記載のプログラム。 In the estimation step
The program according to claim 10, wherein the manager and the managed person by the manager are estimated as the roles of the voice speakers of the plurality of voices.
集音装置により集音された音を取得するステップと、
前記取得した音から、少なくとも1つの音声を抽出するステップと、
前記抽出した音声を解析することで、テキスト情報に変換するステップと、
前記テキスト情報に基づき、前記抽出した音声の発声者の役割を推定するステップと、
前記変換したテキスト情報を、当該発声者について推定した役割と共にユーザに提示するステップと、
を実行し、
前記推定するステップにおいて、前記発声者を特定せずに、前記発声者の役割として、前記発声者の職に関する情報を推定する、方法。 A method for causing a computer equipped with a processor and a memory to execute the method, wherein the processor is used.
Steps to acquire the sound collected by the sound collector, and
A step of extracting at least one voice from the acquired sound, and
The step of converting the extracted voice into text information by analyzing it,
A step of estimating the role of the speaker of the extracted voice based on the text information, and
The step of presenting the converted text information to the user together with the estimated role for the speaker, and
And run
A method of estimating information about the position of the speaker as the role of the speaker without specifying the speaker in the estimation step.
集音装置により集音された音を取得するステップと、
前記取得した音から、少なくとも1つの音声を抽出するステップと、
前記抽出した音声を解析することで、テキスト情報に変換するステップと、
前記テキスト情報に基づき、前記抽出した音声の発声者の役割を推定するステップと、
前記変換したテキスト情報を、当該発声者について推定した役割と共にユーザに提示するステップと、
を実行し、
前記推定するステップにおいて、前記発声者を特定せずに、前記発声者の役割として、前記発声者の職に関する情報を推定する、情報処理装置。 An information processing device including a control unit, wherein the control unit
Steps to acquire the sound collected by the sound collector, and
A step of extracting at least one voice from the acquired sound, and
The step of converting the extracted voice into text information by analyzing it,
A step of estimating the role of the speaker of the extracted voice based on the text information, and
The step of presenting the converted text information to the user together with the estimated role for the speaker, and
And run
An information processing device that estimates information about the position of the speaker as the role of the speaker without specifying the speaker in the estimation step.
前記取得した音から、少なくとも1つの音声を抽出する手段と、
前記抽出した音声を解析することで、テキスト情報に変換する手段と、
前記テキスト情報に基づき、前記抽出した音声の発声者の役割を推定する手段と、
前記変換したテキスト情報を、当該発声者について推定した役割と共にユーザに提示する手段と、
を備え、
前記推定する手段において、前記発声者を特定せずに、前記発声者の役割として、前記発声者の職に関する情報を推定する、システム。
A means of acquiring the sound collected by the sound collector,
A means for extracting at least one voice from the acquired sound, and
A means of converting the extracted voice into text information by analyzing it,
A means for estimating the role of the speaker of the extracted voice based on the text information, and
A means of presenting the converted text information to the user together with an estimated role for the speaker.
Equipped with
In the estimation means, a system that estimates information about the position of the speaker as the role of the speaker without specifying the speaker.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020212000A JP7000547B1 (en) | 2020-12-22 | 2020-12-22 | Programs, methods, information processing equipment, systems |
JP2021208868A JP2022099335A (en) | 2020-12-22 | 2021-12-23 | Program, method, information processor, and system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020212000A JP7000547B1 (en) | 2020-12-22 | 2020-12-22 | Programs, methods, information processing equipment, systems |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021208868A Division JP2022099335A (en) | 2020-12-22 | 2021-12-23 | Program, method, information processor, and system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7000547B1 true JP7000547B1 (en) | 2022-01-19 |
JP2022098561A JP2022098561A (en) | 2022-07-04 |
Family
ID=80490562
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020212000A Active JP7000547B1 (en) | 2020-12-22 | 2020-12-22 | Programs, methods, information processing equipment, systems |
JP2021208868A Pending JP2022099335A (en) | 2020-12-22 | 2021-12-23 | Program, method, information processor, and system |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021208868A Pending JP2022099335A (en) | 2020-12-22 | 2021-12-23 | Program, method, information processor, and system |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP7000547B1 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013225002A (en) | 2012-04-20 | 2013-10-31 | Nippon Telegr & Teleph Corp <Ntt> | Data analyzing device, data analyzing method, and data analyzing program |
JP2014219871A (en) | 2013-05-09 | 2014-11-20 | 日本電信電話株式会社 | Profile estimation model learning apparatus, profile estimating apparatus, method, and program |
JP2017161731A (en) | 2016-03-09 | 2017-09-14 | 本田技研工業株式会社 | Conversation analyzer, conversation analysis method and program |
JP2017228160A (en) | 2016-06-23 | 2017-12-28 | パナソニックIpマネジメント株式会社 | Dialog act estimation method, dialog act estimation device, and program |
JP2020095210A (en) | 2018-12-14 | 2020-06-18 | コニカミノルタ株式会社 | Minutes output device and control program for minutes output device |
JP2020187346A (en) | 2019-05-10 | 2020-11-19 | ネイバー コーポレーションNAVER Corporation | Speech dialization method and apparatus based on audio visual data |
-
2020
- 2020-12-22 JP JP2020212000A patent/JP7000547B1/en active Active
-
2021
- 2021-12-23 JP JP2021208868A patent/JP2022099335A/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013225002A (en) | 2012-04-20 | 2013-10-31 | Nippon Telegr & Teleph Corp <Ntt> | Data analyzing device, data analyzing method, and data analyzing program |
JP2014219871A (en) | 2013-05-09 | 2014-11-20 | 日本電信電話株式会社 | Profile estimation model learning apparatus, profile estimating apparatus, method, and program |
JP2017161731A (en) | 2016-03-09 | 2017-09-14 | 本田技研工業株式会社 | Conversation analyzer, conversation analysis method and program |
JP2017228160A (en) | 2016-06-23 | 2017-12-28 | パナソニックIpマネジメント株式会社 | Dialog act estimation method, dialog act estimation device, and program |
JP2020095210A (en) | 2018-12-14 | 2020-06-18 | コニカミノルタ株式会社 | Minutes output device and control program for minutes output device |
JP2020187346A (en) | 2019-05-10 | 2020-11-19 | ネイバー コーポレーションNAVER Corporation | Speech dialization method and apparatus based on audio visual data |
Also Published As
Publication number | Publication date |
---|---|
JP2022099335A (en) | 2022-07-04 |
JP2022098561A (en) | 2022-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9430467B2 (en) | Mobile speech-to-speech interpretation system | |
JP5201050B2 (en) | Conference support device, conference support method, conference system, conference support program | |
Vajpai et al. | Industrial applications of automatic speech recognition systems | |
CN107924392A (en) | Annotation based on posture | |
CN113835522A (en) | Sign language video generation, translation and customer service method, device and readable medium | |
JP2012014394A (en) | User instruction acquisition device, user instruction acquisition program and television receiver | |
CN100592749C (en) | Conversation assisting system and method | |
JP2007147762A (en) | Speaker predicting device and speaker predicting method | |
Dhanjal et al. | Tools and techniques of assistive technology for hearing impaired people | |
TWI222622B (en) | Robotic vision-audition system | |
CN107277276A (en) | One kind possesses voice control function smart mobile phone | |
JP2021521704A (en) | Teleconference systems, methods for teleconferencing, and computer programs | |
JP2019086858A (en) | Customer service system and customer service method | |
JP2007213282A (en) | Lecturer support device and lecturer support method | |
JP2023153283A (en) | Work support system, work support method and work support device | |
JP2013088552A (en) | Pronunciation training device | |
JP7400364B2 (en) | Speech recognition system and information processing method | |
JP7000547B1 (en) | Programs, methods, information processing equipment, systems | |
CN113851029A (en) | Barrier-free communication method and device | |
US20190066676A1 (en) | Information processing apparatus | |
KR20160122869A (en) | Apparatus for being possible language converting using robot arm | |
Harada et al. | VoiceLabel: using speech to label mobile sensor data | |
JP7130290B2 (en) | information extractor | |
JP7452299B2 (en) | Conversation support system, conversation support method and program | |
JP6962849B2 (en) | Conference support device, conference support control method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201222 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20201222 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20210317 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210319 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210806 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211216 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211223 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7000547 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |