JP2022103472A - Information processor, information processing method, and program - Google Patents
Information processor, information processing method, and program Download PDFInfo
- Publication number
- JP2022103472A JP2022103472A JP2020218112A JP2020218112A JP2022103472A JP 2022103472 A JP2022103472 A JP 2022103472A JP 2020218112 A JP2020218112 A JP 2020218112A JP 2020218112 A JP2020218112 A JP 2020218112A JP 2022103472 A JP2022103472 A JP 2022103472A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- user
- information
- dictionary
- target user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims description 67
- 238000003672 processing method Methods 0.000 title claims description 7
- 230000014509 gene expression Effects 0.000 claims abstract description 44
- 238000004458 analytical method Methods 0.000 claims abstract description 12
- 239000000284 extract Substances 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000012795 verification Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 description 78
- 239000003795 chemical substances by application Substances 0.000 description 72
- 239000013598 vector Substances 0.000 description 58
- 230000009471 action Effects 0.000 description 37
- 230000006870 function Effects 0.000 description 24
- 238000012545 processing Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 14
- 238000003058 natural language processing Methods 0.000 description 14
- 238000000034 method Methods 0.000 description 10
- 230000006399 behavior Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 8
- 230000001052 transient effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 235000015220 hamburgers Nutrition 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000002485 combustion reaction Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Navigation (AREA)
Abstract
Description
本発明は、情報処理装置、情報処理方法、及びプログラムに関する。 The present invention relates to an information processing apparatus, an information processing method, and a program.
音声認識技術を利用した音声ユーザインターフェースが知られている(例えば、特許文献1-4参照)。 A voice user interface using voice recognition technology is known (see, for example, Patent Document 1-4).
音声ユーザインターフェースに対するユーザの発話内容や、その発話に含まれる固有表現などは、ユーザの所属コミュニティや流行などに応じて変化している。発話の主体であるユーザや、その発話の情報源などが多様化しているのものの、従来の技術では、その多様化に対応できておらず、音声ユーザインターフェースのユーザビリティが十分でない場合があった。 The content of the user's utterance to the voice user interface and the unique expressions included in the utterance change according to the user's community and fashion. Although the user who is the subject of the utterance and the information source of the utterance are diversified, the conventional technique cannot cope with the diversification, and the usability of the voice user interface may not be sufficient.
本発明の態様は、このような事情を考慮してなされたものであり、音声ユーザインターフェースのユーザビリティを向上させることができる情報処理装置、情報処理方法、及びプログラムを提供することを目的の一つとする。 Aspects of the present invention have been made in consideration of such circumstances, and one of the objects of the present invention is to provide an information processing device, an information processing method, and a program capable of improving the usability of a voice user interface. do.
この発明に係る情報処理装置、情報処理方法、及びプログラムは、以下の構成を採用した。
(1)本発明の第1の態様は、複数の対象ユーザのそれぞれの発話から固有表現を抽出する抽出部と、前記対象ユーザの行動履歴に基づいて、訪問回数が急増した特定地点を前記対象ユーザが訪問したか否かを、前記対象ユーザごとに判定する判定部と、前記抽出部によって抽出された前記固有表現と、前記判定部による判定結果とを組み合わせた特徴量を、前記対象ユーザごとに生成する第1生成部と、前記第1生成部によって前記特徴量が生成された前記複数の対象ユーザのクラスタリングを行う解析部と、前記クラスタリングによって生成されたクラスタごとに、音声認識及び自然言語理解の少なくとも一方のための辞書を生成する第2生成部と、を備える情報処理装置である。
The information processing apparatus, information processing method, and program according to the present invention have the following configurations.
(1) The first aspect of the present invention is an extraction unit that extracts a unique expression from each speech of a plurality of target users, and a specific point where the number of visits has rapidly increased based on the behavior history of the target user. A feature amount that combines a determination unit that determines whether or not a user has visited for each target user, the unique expression extracted by the extraction unit, and a determination result by the determination unit is determined for each target user. Speech recognition and natural language for each of the first generation unit generated in, the analysis unit that clusters the plurality of target users whose feature quantities are generated by the first generation unit, and the clusters generated by the clustering. It is an information processing apparatus including a second generation unit that generates a dictionary for at least one of understanding.
(2)本発明の第2の態様は、第1の態様において、前記特定地点が、他のユーザによって訪問された回数が閾値以上の地点、又は前記他のユーザによって訪問された回数の所定期間あたりの増加率が閾値以上の地点である情報処理装置である。 (2) The second aspect of the present invention is, in the first aspect, a predetermined period of the number of times the specific point is visited by another user is equal to or greater than the threshold value, or the number of times the specific point is visited by the other user. It is an information processing device whose rate of increase per hit is equal to or higher than the threshold value.
(3)本発明の第3の態様は、第1の態様又は第2の態様において、前記クラスタに属する前記対象ユーザの発話から抽出された前記固有表現の共起表現を、前記クラスタごとに収集する収集部を更に備え、前記第2生成部が、前記クラスタごとに、前記収集部によって収集された前記共起表現を含む前記辞書を生成する情報処理装置である。 (3) In the third aspect of the present invention, in the first aspect or the second aspect, the co-occurrence expression of the named entity extracted from the utterance of the target user belonging to the cluster is collected for each cluster. The second generation unit is an information processing device that generates the dictionary including the co-occurrence expression collected by the collection unit for each cluster.
(4)本発明の第4の態様は、第1から第3の態様のうちいずれ一つにおいて、複数の前記クラスタのうちの特定クラスタに属する前記対象ユーザに、複数の前記辞書のうちの前記特定クラスタに対応した前記辞書の利用案内情報を提供する提供部を更に備える情報処理装置である。 (4) A fourth aspect of the present invention is, in any one of the first to third aspects, to the target user belonging to the specific cluster among the plurality of the clusters, to the target user among the plurality of dictionaries. It is an information processing apparatus further provided with a providing unit that provides usage guidance information of the dictionary corresponding to a specific cluster.
(5)本発明の第5の態様は、第4の態様において、前記第2生成部が、前記クラスタごとに生成した前記辞書と既存辞書とを組み合わせた新辞書を生成し、前記提供部が、前記特定クラスタに属する前記対象ユーザに、前記特定クラスタに対応した前記辞書と前記既存辞書とが組み合わされた前記新辞書の利用案内情報を提供する情報処理装置である。 (5) In the fifth aspect of the present invention, in the fourth aspect, the second generation unit generates a new dictionary in which the dictionary generated for each cluster and the existing dictionary are combined, and the providing unit generates a new dictionary. An information processing device that provides the target user belonging to the specific cluster with usage guidance information of the new dictionary in which the dictionary corresponding to the specific cluster and the existing dictionary are combined.
(6)本発明の第6の態様は、第1から第5の態様のうちいずれ一つにおいて、所定のユーザの集団内における前記対象ユーザの発話に基づいて、前記辞書を検証する検証部を更に備える情報処理装置である。 (6) In the sixth aspect of the present invention, in any one of the first to fifth aspects, a verification unit that verifies the dictionary based on the utterance of the target user in a predetermined user group is provided. It is an information processing device to be further provided.
(7)本発明の第7の態様は、第1から第6の態様のうちいずれ一つにおいて、前記第1生成部が、前記固有表現に基づく第1特徴量と、前記判定部による判定結果に基づく第2特徴量との組み合わせを、前記特徴量として生成する情報処理装置である。 (7) In the seventh aspect of the present invention, in any one of the first to sixth aspects, the first generation unit has the first feature amount based on the named entity and the determination result by the determination unit. This is an information processing apparatus that generates a combination with a second feature amount based on the above as the feature amount.
(8)本発明の第8の態様は、第7の態様において、前記第2特徴量には、前記特定地点への訪問の有無と、前記特定地点への訪問の回数とのうち一方又は双方を表す特徴量が含まれる情報処理装置である。 (8) In the eighth aspect of the present invention, in the seventh aspect, the second feature amount includes one or both of the presence or absence of a visit to the specific point and the number of visits to the specific point. It is an information processing device including a feature amount representing.
(9)本発明の第9の態様は、第1から第8の態様のうちいずれ一つにおいて、前記固有表現には、地名又は標章の言い回しが含まれる情報処理装置である。 (9) A ninth aspect of the present invention is an information processing apparatus in which, in any one of the first to eighth aspects, the named entity includes the wording of a place name or a mark.
(10)本発明の第10の態様は、コンピュータが、複数の対象ユーザのそれぞれの発話から固有表現を抽出し、前記対象ユーザの行動履歴に基づいて、訪問回数が急増した特定地点を前記対象ユーザが訪問したか否かを、前記対象ユーザごとに判定し、前記抽出した固有表現と、前記判定した結果とを組み合わせた特徴量を、前記対象ユーザごとに生成し、前記特徴量を生成した前記複数の対象ユーザのクラスタリングを行い、前記クラスタリングによって生成したクラスタごとに、音声認識及び自然言語理解の少なくとも一方のための辞書を生成する情報処理方法である。 (10) In the tenth aspect of the present invention, the computer extracts a unique expression from each speech of a plurality of target users, and based on the behavior history of the target user, the target is a specific point where the number of visits has rapidly increased. Whether or not a user has visited is determined for each target user, and a feature amount that combines the extracted unique expression and the determination result is generated for each target user, and the feature amount is generated. It is an information processing method that performs clustering of a plurality of target users and generates a dictionary for at least one of speech recognition and natural language understanding for each cluster generated by the clustering.
(11)本発明の第11の態様は、コンピュータに、複数の対象ユーザのそれぞれの発話から固有表現を抽出すること、前記対象ユーザの行動履歴に基づいて、訪問回数が急増した特定地点を前記対象ユーザが訪問したか否かを、前記対象ユーザごとに判定すること、前記抽出した固有表現と、前記判定した結果とを組み合わせた特徴量を、前記対象ユーザごとに生成すること、前記特徴量を生成した前記複数の対象ユーザのクラスタリングを行うこと、前記クラスタリングによって生成したクラスタごとに、音声認識及び自然言語理解の少なくとも一方のための辞書を生成すること、を実行させるためのプログラムである。 (11) The eleventh aspect of the present invention is to extract a unique expression from each speech of a plurality of target users on a computer, and to determine a specific point where the number of visits has rapidly increased based on the behavior history of the target user. It is determined for each target user whether or not the target user has visited, and a feature amount that combines the extracted unique expression and the determination result is generated for each target user. It is a program for executing the clustering of the plurality of target users who generated the above, and the generation of a dictionary for at least one of speech recognition and natural language understanding for each cluster generated by the clustering.
上記態様によれば、音声ユーザインターフェースのユーザビリティを向上させることができる。 According to the above aspect, the usability of the voice user interface can be improved.
以下、図面を参照し、本発明の情報処理装置、情報処理方法、及びプログラムの実施形態について説明する。 Hereinafter, embodiments of the information processing apparatus, information processing method, and program of the present invention will be described with reference to the drawings.
図1は、実施形態の情報提供システム1の構成図である。情報提供システム1は、例えば、情報提供装置100と、情報提供システム1のユーザU1が利用する通信端末300と、情報提供システム1のユーザU2が利用する車両Mとを備える。これらの構成要素は、ネットワークNWを介して互いに通信可能である。ネットワークNWは、例えば、インターネット、WAN(Wide Area Network)、LAN(Local Area Network)、電話回線、公衆回線、専用回線、プロバイダ装置、無線基地局等を含む。情報提供システム1には、通信端末300または車両Mの一方または双方が複数含まれてもよい。車両Mは、例えば、エージェント装置500を備える。情報提供装置100は、「情報処理装置」の一例である。
FIG. 1 is a configuration diagram of the information providing system 1 of the embodiment. The information providing system 1 includes, for example, an
情報提供装置100は、通信端末300からユーザU1の問い合わせや要求等を受け付け、受け付けた問い合わせや要求に応じた処理を行い、処理結果を通信端末300に送信する。また、情報提供装置100は、車両Mに搭載されたエージェント装置500からユーザU2の問い合わせや要求等を受け付け、受け付けた問い合わせや要求に応じた処理を行い、処理結果をエージェント装置500に送信する。情報提供装置100は、例えば、通信端末300およびエージェント装置500と、ネットワークNWを介して互いに通信し、各種データを送受信するクラウドサーバとして機能してもよい。
The
通信端末300は、例えば、スマートフォンやタブレット端末等の携帯型端末である。通信端末300は、ユーザU1からの問い合わせや要求等の情報を受け付ける。通信端末300は、ユーザU1から受け付けた情報を情報提供装置100に送信し、送信した情報に対する回答として得られた情報を出力する。つまり、通信端末300は、音声ユーザインターフェースとして機能する。
The
エージェント装置500が搭載される車両Mは、例えば、二輪や三輪、四輪等の車両であり、その駆動源は、ディーゼルエンジンやガソリンエンジン等の内燃機関、電動機、或いはこれらの組み合わせである。電動機は、内燃機関に連結された発電機による発電電力、或いは二次電池や燃料電池の放電電力を使用して動作する。また、車両Mは、自動運転車両であってもよい。自動運転とは、例えば、車両の操舵または速度のうち、一方または双方を自動的に制御することである。上述した車両の運転制御には、例えば、ACC(Adaptive Cruise Control)や、ALC(Auto Lane Changing)、LKAS(Lane Keeping Assistance System)といった種々の運転制御が含まれてよい。自動運転車両は、乗員(運転者)の手動運転によって運転が制御されることがあってもよい。
The vehicle M on which the
エージェント装置500は、車両Mの乗員(例えば、ユーザU2)と対話したり、乗員から問い合わせや要求等に対する情報を提供したりする。エージェント装置500は、例えば、ユーザU2からの問い合わせや要求等の情報を受け付け、その受け付けた情報を情報提供装置100に送信し、送信した情報に対する回答として得られた情報を出力する。つまり、エージェント装置500は、通信端末300と同様に、音声ユーザインターフェースとして機能する。
The
[情報提供装置]
以下、情報提供装置100の構成を説明する。情報提供装置100は、例えば、通信部102と、認証部104と、取得部106と、音声認識部108と、自然言語処理部110と、判定部112と、ユーザベクトル生成部114と、解析部116と、収集部118と、辞書生成部120と、検証部122と、提供部124と、記憶部130とを備える。音声認識部108と自然言語処理部110とを合わせたものは、「抽出部」の一例である。ユーザベクトル生成部114は「第1生成部」の一例である。辞書生成部120は「第2生成部」の一例である。
[Information provider]
Hereinafter, the configuration of the
認証部104と、取得部106と、音声認識部108と、自然言語処理部110と、判定部112と、ユーザベクトル生成部114と、解析部116と、収集部118と、辞書生成部120と、検証部122と、提供部124は、それぞれ、CPU(Central Processing Unit)等のハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリ等の記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROM等の着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置等に装着されることで情報提供装置100の記憶装置にインストールされてもよい。
The
記憶部130は、上記の各種記憶装置、或いはEEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、またはRAM(Random Access Memory)等により実現される。記憶部130には、上記のプロセッサによって参照されるプログラムに加えて、例えば、ユーザ認証情報132、発話履歴情報134、行動履歴情報136などが格納される。
The
ユーザ認証情報132には、例えば、情報提供装置100を利用するユーザを識別する情報や認証部104による認証時に用いられる情報等が含まれる。ユーザ認証情報132は、例えば、ユーザID、パスワード、住所、氏名、年齢、性別、趣味、特技、指向情報等である。指向情報とは、ユーザの指向性を示す情報であり、例えば、ユーザの考え方を示す情報や、好みなどを示す情報(嗜好性の情報)、ユーザが重視する事項を示す情報等である。
The
発話履歴情報134は、音声ユーザインターフェースとして機能する通信端末300又はエージェント装置500に対して、ユーザが話しかけた言葉(つまり発話)の履歴情報である。発話履歴情報134には、一人のユーザの発話履歴である個人発話履歴情報134Aと、複数のユーザの発話履歴である集団発話履歴情報134Bとが含まれる。例えば、エージェント装置500が搭載された車両Mに一人のユーザのみが乗車している場合(エージェント装置500によって一人のユーザの発話のみが収音された場合)、そのユーザの発話履歴は、個人発話履歴情報134Aとして記録される。一方、車両Mに複数のユーザが集団で乗車している場合(エージェント装置500によって複数のユーザの発話が収音された場合)、それら複数のユーザの発話履歴は、集団発話履歴情報134Bとして記録される。
The
行動履歴情報136は、観光地への訪問やインターネット検索といったユーザの行動の履歴情報である。行動履歴情報136には、一人のユーザの行動履歴である個人行動履歴情報136Aと、複数のユーザの行動履歴である集団行動履歴情報136Bとが含まれる。例えば、エージェント装置500が搭載された車両Mに一人のユーザのみが乗車している場合、そのユーザを乗せた車両Mの位置の遷移履歴(移動履歴)は、個人発話履歴情報134Aとして記録される。一方、車両Mに複数のユーザが集団で乗車している場合、それら複数のユーザを乗せた車両Mの位置の遷移履歴(移動履歴)は、集団発話履歴情報134Bとして記録される。また、一人のユーザが通信端末300を携行して移動した場合、その通信端末300の位置の遷移履歴(移動履歴)は、個人発話履歴情報134Aとして記録される。一方、複数のユーザのそれぞれが通信端末300を携行して移動した場合、それら複数の通信端末300の位置の遷移履歴(移動履歴)は、集団発話履歴情報134Bとして記録される。
The
通信部102は、ネットワークNWを介して通信端末300、エージェント装置500、その他の外部装置と通信するインターフェースである。例えば、通信部102は、NIC(Network Interface Card)や、無線通信用のアンテナなどを備える。
The
認証部104は、情報提供システム1を利用するユーザ(例えば、ユーザU1、U2)に関する情報を、ユーザ認証情報132として記憶部130に登録する。例えば、認証部104は、通信端末300又はエージェント装置500からユーザ登録要求を受け付けた場合に、ユーザ認証情報132に含まれる各種情報を入力するためのGUI(Graphical User Interface)を、登録要求を受け付けた装置に表示させる。ユーザがGUIに各種情報を入力すると、認証部104は、その装置からユーザに関する情報を取得する。そして、認証部104は、通信端末300又はエージェント装置500から取得したユーザに関する情報を記憶部130にユーザ認証情報132として登録する。
The
図2は、ユーザ認証情報132の内容について説明するための図である。ユーザ認証情報132は、例えば、ユーザの認証情報に対して、そのユーザの住所、氏名、年齢、性別、連絡先、指向情報等の情報が対応付けられたものである。認証情報には、例えば、ユーザを識別する識別情報であるユーザIDやパスワード等が含まれる。また、認証情報には、指紋情報や虹彩情報等の生体認証情報が含まれてもよい。連絡先は、例えば、そのユーザによって使用される音声ユーザインターフェース(通信端末300又はエージェント装置500)と通信するためのアドレス情報であってもよいし、ユーザの電話番号やメールアドレス、端末識別情報等であってもよい。情報提供装置100は、連絡先の情報に基づいて、各移動通信機器と通信し、各種情報を提供する。
FIG. 2 is a diagram for explaining the contents of the
認証部104は、予め登録しておいたユーザ認証情報132に基づいて情報提供システム1のサービスのユーザを認証する。例えば、認証部104は、通信端末300またはエージェント装置500からサービスの利用要求を受け付けたタイミングでユーザを認証する。具体的には、認証部104は、利用要求を受け付けた場合に、ユーザIDやパスワード等の認証情報を入力するためのGUIを、要求のあった端末装置に表示させると共に、そのGUI上に入力された入力認証情報とユーザ認証情報132の認証情報とを比較する。認証部104は、ユーザ認証情報132の中に、入力認証情報に合致する認証情報が格納されているか否かを判定し、入力認証情報に合致する認証情報が格納されている場合、サービスの利用を許可する。一方、認証部104は、入力認証情報に合致する認証情報が格納されていない場合、サービスの利用を禁止したり、或いは新規登録を行わせるための処理を行う。
The
取得部106は、通信部102を介して(ネットワークNWを介して)、通信端末300またはエージェント装置500から、一人又は複数人のユーザの発話を取得し、それを発話履歴情報134として記憶部130に格納する。ユーザの発話は、音声データ(音響データや音響ストリームともいう)であってもよいし、その音声データから認識されたテキストデータであってもよい。また、取得部106は、通信部102を介して(ネットワークNWを介して)、通信端末300またはエージェント装置500から、一人又は複数人のユーザの行動履歴を取得し、それを行動履歴情報136として記憶部130に格納する。
The
図3は、個人発話履歴情報134Aの内容について説明するための図である。個人発話履歴情報134Aは、例えば、ユーザが発話した日時に、その発話がなされた場所、その発話の内容発話、および提供情報が対応付けられたものである。発話内容は、ユーザが発話した音声であってもよいし、後述する音声認識部108による音声認識によって得られたテキストであってもよい。提供情報は、ユーザの発話に対するレスポンスとして提供部124により提供された情報である。提供情報には、例えば、対話用の音声情報や、画像や動作等の表示情報が含まれる。
FIG. 3 is a diagram for explaining the contents of the personal
図4は、集団発話履歴情報134Bの内容について説明するための図である。集団発話履歴情報134Bは、例えば、ユーザが発話した日時に対して、その発話がなされた場所、その発話の内容発話、提供情報といった情報に加えて、更に、集団メンバ情報が対応付けられたものである。集団メンバ情報とは、例えば、同じ車両Mに乗車した他のユーザや、同じ場所に同行した他のユーザ、位置情報から同時刻に同じ場所にいたとみなせる他のユーザに関する情報(例えばユーザID等)である。
FIG. 4 is a diagram for explaining the contents of the group
図5は、個人行動履歴情報136Aの内容について説明するための図である。個人行動履歴情報136Aは、例えば、ユーザIDおよびに日時に対して、行動履歴が対応付けられたものである。行動履歴には、例えば、ユーザが訪問先や、その移動手段などが含まれる。上述したように、行動履歴には、インターネット上の行動履歴が含まれていてもよい。
FIG. 5 is a diagram for explaining the contents of the personal
図6は、集団行動履歴情報136Bの内容について説明するための図である。集団行動履歴情報136Bは、例えば、ユーザIDおよびに日時に対して、行動履歴と、集団メンバ情報とが対応付けられたものである。
FIG. 6 is a diagram for explaining the contents of the group
音声認識部108は、ユーザの発話音声を認識する音声認識(音声をテキスト化する処理)を行う。例えば、音声認識部108は、取得部106によって取得されたユーザの発話を表す音声データに対して音声認識を行い、音声データをテキスト化したテキストデータを生成する。テキストデータには、発話の内容が文字として記述された文字列が含まれる。
The
例えば、音声認識部108は、音響モデルと、自動音声認識のための辞書(以下、ASR辞書と称する)とを用いて、音声データをテキスト化してよい。音響モデルは、入力された音声を周波数に応じて分離し、その分離した各音声を音素(スペクトログラム)に変換するよう予め学習又は調整されたモデルであり、例えば、ニューラルネットワークや隠れマルコフモデルなどである。ASR辞書は、複数の音素の組み合わせに対して文字列が対応付けれており、更に、構文によって文字列の区切る位置が定義付けられたデータベースである。ASR辞書は、いわゆるパターンマッチ辞書である。例えば、音声認識部108は、音声データを音響モデルに入力し、その音響モデルによって出力された音素の集合をASR辞書の中から探し、その音素の集合に対応した文字列を取得する。音声認識部108は、このように得られた文字列の組み合わせをテキストデータとして生成する。なお、音声認識部108は、ASR辞書を使用する代わりに、例えばn-gramモデル等によって実装された言語モデルを用いて、音響モデルの出力結果からテキストデータを生成してもよい。
For example, the
自然言語処理部110は、テキストの構造や意味を理解する自然言語理解を行う。例えば、自然言語処理部110は、意味解釈のために予め用意された辞書(以下、NLU辞書)を参照しながら、音声認識部108によって生成されたテキストデータの意味を解釈する。NLU辞書は、テキストデータに対して抽象化された意味情報が対応付けられたデータベースである。例えば、NLU辞書は、「私」という単語と「同僚」という単語が互いに関係性が高く、「ハンバーガー」という単語と「食べる」という単語が互いに関係性が高い、といったことを定義している。これにより例えば、「私は同僚とハンバーガーを食べた」という文章が、「私」という単一の主体が「同僚」及び「ハンバーガー」という2つの客体に対して、「食べる」という行為を行ったという意味で解釈されるのではなく、「私」及び「同僚」という2つの主体が「ハンバーガー」という単一の客体に対して、「食べる」という行為を行ったという意味で解釈されることになる。NLU辞書は、同義語や類義語などを含んでもよい。音声認識と自然言語理解は、必ずしも段階が明確に分かれる必要はなく、自然言語理解の結果を受けて音声認識の結果を修正するなど、相互に影響し合って行われてよい。
The natural
また、自然言語処理部110は、音声認識部108によって生成されたテキストデータから固有表現を抽出する。例えば、自然言語処理部110は、TF(Term Frequency)-IDF(Inverse Document Frequency)などを用いて、固有表現を抽出してよい。
Further, the natural
固有表現とは、例えば、名詞のような一つの単語(ワード)であってもよいし、名詞と名詞とが他の品詞(例えば助詞)で接続された一つの句(フレーズ)であってもよいし、名詞や動詞、助詞、助動詞などの種々の品詞を含む一つの文(センテンス)であってもよい。 The proper expression may be, for example, one word (word) such as a noun, or one phrase (phrase) in which a noun and a noun are connected by another part of speech (for example, an auxiliary verb). It may be a single sentence containing various parts of speech such as nouns, verbs, auxiliary verbs, and auxiliary verbs.
例えば、固有表現には、ある地名や、その地名の言い回し、ある標章や、その標章の言い回しなどが含まれる。標章には、例えば、企業名、ブランド名、店舗名などが含まれる。例えば、ある企業の公式名称が「本田技研工業株式会社」であり、その「本田技研工業株式会社」という企業の本社が存在する地域のユーザが、その企業のことを親しみをこめて「本田技研」などとを呼称していたとする。この場合、「本田技研」という固有表現は、「本田技研工業株式会社」という固有表現の言い回しとして扱われる。また、ある飲食店の公式名称が「ABCDEF」であるときに、ある地域のユーザがその飲食店のことを「ABC」と省略して呼称しているのに対して、別の地域のユーザがその飲食店のことを「DEF」と省略して呼称していたとする。この場合、「ABC」や「DEF」のように地域で呼び方が異なる固有表現は、「ABCDEF」という固有表現の言い回しとして扱われる。また、固有表現とその言い回しとの関係は、地域に限らず、若者と大人といったように年齢や世代の違いのなかにも存在していてよいし、コミュニティや派閥などの違いのなかにも存在していてよい。このような関係は、例えば、広く一般的に知られているメジャーな名称と、メジャーな名称と同一の意味で使用されるマイナーな名称との間にも存在していてよい。このように、自然言語処理部110は、文字列的に互いに異なる表現であるものの、その意味する対象が同一である表現を、それぞれ固有表現として抽出する。
For example, named entity includes a place name, the wording of the place name, a mark, and the wording of the mark. The mark includes, for example, a company name, a brand name, a store name, and the like. For example, the official name of a company is "Honda Motor Co., Ltd.", and users in the area where the head office of the company "Honda Motor Co., Ltd." is located are familiar with the company and "Honda Motor Co., Ltd." "And so on. In this case, the named entity "Honda Motor Co., Ltd." is treated as the phrase "Honda Motor Co., Ltd.". Also, when the official name of a restaurant is "ABCDEF", users in one area abbreviate the restaurant as "ABC", while users in another area call it "ABC". It is assumed that the restaurant is abbreviated as "DEF". In this case, named entities that are called differently in different regions, such as "ABC" and "DEF", are treated as the phrase "ABCDEF". In addition, the relationship between named entity recognition and its wording may exist not only in regions but also in differences in age and generation, such as young people and adults, and also in differences in communities and factions. You can do it. Such a relationship may also exist, for example, between a widely known major name and a minor name that is used interchangeably with the major name. In this way, the natural
判定部112は、行動履歴情報136に含まれる複数のユーザのそれぞれの行動履歴に基づいて、各々のユーザが訪問回数が急増した地点を訪問したか否かを判定する。「訪問回数が急増した地点」とは、例えば、他のユーザによって訪問された回数が閾値以上の地点、又は他のユーザによって訪問された回数の所定期間あたりの増加率が閾値以上の地点である。
The
ユーザベクトル生成部114は、自然言語処理部110によって抽出された固有表現と、判定部112による判定結果とを組み合わせた多次元の特徴量を、ユーザごとに生成する。例えば、ユーザベクトル生成部114は、TF-IDFなどを用いて得られた固有表現のベクトル(以下、「発話ベクトル」という)と、判定部112による判定結果に基づくベクトル(以下、「行動ベクトル」という)とを組み合わせ、それらの組み合わせを一つのベクトルとして生成する。以下、発話ベクトルと行動ベクトルとを組み合わせたベクトルのことを、「ユーザベクトル」と称して説明する。発話ベクトルは「第1特徴量」の一例であり、行動ベクトルは「第2特徴量」の一例である。
The user
解析部116は、ユーザベクトルが生成された複数のユーザのクラスタリングを行い、発話内容や訪問地点といった特徴が類似するユーザ同士を同一のクラスタに分類する。この際、解析部116は、ユーザベクトルの次元を圧縮してよい。次元圧縮には、例えば、主成分分析や、LDA(Latent Dirichlet Allocation)に代表されるようなトピックモデル、Word2Vecなどのニューラルネットワークなどが利用されてよい。また、次元圧縮には、正則化回帰の一つであるLASSO(Least Absolute Shrinkage and Selection Operator)や、NMF(Nonnegative Matrix Factorization)などが利用されてもよい。
The
収集部118は、クラスタリングによって生成されたクラスタごとに、そのクラスタに属するユーザの発話から抽出された固有表現の共起表現を収集する。共起表現とは、例えば、ウェブサイトなどにおいて、ユーザの発話から抽出された固有表現とともに出現しやすい単語などである。例えば、収集部118は、通信部102を介してウェブサーバ等にアクセスし、そのウェブサーバによって提供されるウェブサイトをクロールし、コンテンツを収集する。収集部118は、アソシエーション分析等を利用して、収集したコンテンツから共起表現を抽出する。このように、収集部118は、Webクローラーのように機能してよい。
The collecting
辞書生成部120は、クラスタリングによって生成されたクラスタごとに、音声認識や自然言語理解といった各情報処理のための辞書(以下、情報処理辞書と称する)を生成する。情報処理辞書とは、上述した音声認識(音声のテキスト化)の際に参照されるASR辞書と、自然言語理解(テキストの意味解釈)の際に参照されるNLU辞書とのうち、いずれか一方又は双方の辞書である。例えば、音声認識の際にASR辞書ではなく言語モデルが利用される場合、情報処理辞書には、NLU辞書のみが含まれる。情報処理辞書には、収集部118によって収集された共起表現が包含される。
The
検証部122は、辞書生成部120によって生成された情報処理辞書の精度を検証する。検証方法の詳細については後述する。
The
提供部124は、通信部102を介して、音声ユーザインターフェースである通信端末300又はエージェント装置500に各種情報を提供(送信)する。例えば、取得部106が通信端末300又はエージェント装置500から問い合わせや要求を発話として取得した場合、提供部124は、その問い合わせや要求のレスポンスとなる情報を生成する。例えば、「今日の天気を教えて」という意味の発話が取得された場合、提供部124は、「今日」と「天気」という固有表現に対応したコンテンツ(天気予報の結果を表す画像や映像、音声など)を生成してよい。そして、提供部124は、通信部102を介して、生成した情報を問い合わせや要求のあった音声ユーザインターフェースに返信する。
The providing
また、提供部124は、辞書生成部120によって生成された情報処理辞書の利用案内情報を、通信端末300又はエージェント装置500に提供する。利用案内情報とは、例えば、ASR辞書が音声認識の際に新たに参照(使用)されるようユーザに設定を推奨したり、或いは、NLU辞書が自然言語理解の際に新たに参照(使用)されるようユーザに設定を推奨したりする情報である。
Further, the providing
[通信端末]
次に、通信端末300の構成について説明する。図7は、実施形態の通信端末300の構成図である。通信端末300は、例えば、端末側通信部310と、入力部320と、ディスプレイ330と、スピーカ340と、マイクロフォン(以下、マイク)350と、位置取得部355と、カメラ360と、アプリ実行部370と、出力制御部380と、端末側記憶部390とを備える。位置取得部355と、アプリ実行部370と、出力制御部380とは、例えば、CPU等のハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSIやASIC、FPGA、GPU等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDDやフラッシュメモリ等の記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROM等の着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置やカードスロット等に装着されることで通信端末300の記憶装置にインストールされてもよい。
[Communication terminal]
Next, the configuration of the
端末側記憶部390は、上記の各種記憶装置、或いはEEPROM、ROM、RAM等により実現されてもよい。端末側記憶部390には、例えば、上記のプログラムや、情報提供アプリケーション392、その他の各種情報が格納される。
The terminal-
端末側通信部310は、例えば、ネットワークNWを利用して、情報提供装置100、エージェント装置500、その他の外部装置と通信を行う。
The terminal-
入力部320は、例えば、各種キーやボタン等の操作によるユーザU1の入力を受け付ける。ディスプレイ330は、例えば、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイ等である。入力部320は、タッチパネルとしてディスプレイ330と一体に構成されていてもよい。ディスプレイ330は、出力制御部380の制御により、実施形態における各種情報を表示する。スピーカ340は、例えば、出力制御部380の制御により、所定の音声を出力する。マイク350は、例えば、出力制御部380の制御により、ユーザU1の音声の入力を受け付ける。
The
位置取得部355は、通信端末300の位置情報を取得する。例えば、位置取得部355は、GPS(Global Positioning System)などに代表されるGNSS(Global Navigation Satellite System)受信機を含む。位置情報とは、例えば、二次元の地図座標でもよく、緯度経度情報でもよい。位置取得部355は、端末側通信部310を介して、取得した位置情報を情報提供装置100に送信してよい。
The
カメラ360は、例えば、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)等の固体撮像素子(イメージセンサ)を利用したデジタルカメラである。例えば、ナビゲーション装置などの代用として通信端末300が車両Mのインストルメントパネルに取り付けられた場合、その通信端末300のカメラ360は、自動的に、又はユーザU1の操作に応じて、車両Mの車室内を撮像してよい。
The
アプリ実行部370は、端末側記憶部390に記憶された情報提供アプリケーション392を実行する。情報提供アプリケーション392は、情報提供装置100から提供された画像をディスプレイ330に出力させたり、情報提供装置100から提供された情報に対応する音声をスピーカ340から出力させたりするように、出力制御部380を制御するためのアプリケーションプログラムである。また、アプリ実行部370は、入力部320により入力された情報を、端末側通信部310を介して情報提供装置100に送信する。情報提供アプリケーション392は、例えば、ネットワークNWを介して外部装置からダウンロードされたものが通信端末300にインストールされてよい。
The
出力制御部380は、アプリ実行部370の制御により、ディスプレイ330に画像を表示させたり、スピーカ340に音声を出力させたりする。その際、出力制御部380は、ディスプレイ330に表示させる画像の内容や態様を制御したり、スピーカ340に出力させる音声の内容や態様を制御したりしてよい。
The
[車両]
次に、エージェント装置500が搭載された車両Mの概略構成について説明する。図8は、エージェント装置500が搭載された車両Mの概略構成の一例を示す図である。図8に示す車両Mには、エージェント装置500と、マイク610と、表示・操作装置620と、スピーカユニット630と、ナビゲーション装置640と、MPU(Map Positioning Unit)650と、車両機器660と、車載通信装置670と、乗員認識装置690と、自動運転制御装置700とが搭載される。また、スマートフォンなどの汎用通信装置680が車室内に持ち込まれ、通信装置として使用される場合がある。汎用通信装置680は、例えば、通信端末300である。これらの装置は、CAN(Controller Area Network)通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。
[vehicle]
Next, a schematic configuration of the vehicle M on which the
先にエージェント装置500以外の構成について説明する。マイク610は、車室内で発せられた音声を収集する。表示・操作装置620は、画像を表示すると共に、入力操作を受付可能な装置(或いは装置群)である。表示・操作装置620は、典型的には、タッチパネルである。表示・操作装置620は、更に、HUD(Head Up Display)や機械式の入力装置を含んでもよい。スピーカユニット630は、例えば、車室内や車外に音声や警報音等を出力する。表示・操作装置620は、エージェント装置500とナビゲーション装置640とで共用されてもよい。
First, configurations other than the
ナビゲーション装置640は、ナビHMI(Human machine Interface)と、GPSなどの位置測位装置と、地図情報を記憶した記憶装置と、経路探索などを行う制御装置(ナビゲーションコントローラ)とを備える。マイク610、表示・操作装置620、およびスピーカユニット630のうち一部または全部がナビHMIとして用いられてもよい。ナビゲーション装置640は、位置測位装置によって特定された車両Mの位置に基づいて地図情報を参照し、地図情報から車両Mの位置からユーザによって入力された目的地まで移動するための経路(ナビ経路)を探索し、経路に沿って車両Mが走行できるように、ナビHMIを用いて案内情報を出力する。経路探索機能は、ネットワークNWを介してアクセス可能な情報提供装置100やナビゲーションサーバにあってもよい。この場合、ナビゲーション装置640は、情報提供装置100やナビゲーションサーバから経路を取得して案内情報を出力する。なお、エージェント装置500は、ナビゲーションコントローラを基盤として構築されてもよく、その場合、ナビゲーションコントローラとエージェント装置500は、ハードウェア上は一体に構成される。
The
MPU650は、例えば、ナビゲーション装置640から提供された地図上経路を複数のブロックに分割し(例えば、車両進行方向に関して100[m]毎に分割し)、ブロックごとに推奨車線を決定する。例えば、MPU650は、左から何番目の車線を走行するといった決定を行う。また、MPU650は、ナビゲーション装置640の記憶装置に記憶された地図情報よりも高精度な地図情報(高精度地図)を用いて推奨車線を決定してもよい。高精度地図は、例えば、MPU650の記憶装置に記憶されていてもよく、ナビゲーション装置640の記憶装置やエージェント装置500の車両側記憶部560に記憶してもよい。高精度地図は、車線の中央の情報あるいは車線の境界の情報、交通規制情報、住所情報(住所・郵便番号)、施設情報、電話番号情報などが含まれてよい。
The
車両機器660は、例えば、カメラやレーダ装置、LIDAR(Light Detection and Ranging)、物体認識装置である。カメラは、例えば、CCDやCMOS等の固体撮像素子を利用したデジタルカメラである。カメラは、車両Mの任意の箇所に取り付けられる。レーダ装置は、車両Mの周辺にミリ波などの電波を放射すると共に、物体によって反射された電波(反射波)を検出して少なくとも物体の位置(距離および方位)を検出する。LIDARは、車両Mの周辺に光を照射し、散乱光を測定する。LIDARは、発光から受光までの時間に基づいて、対象までの距離を検出する。物体認識装置は、カメラ、レーダ装置、およびLIDARのうち一部または全部による検出結果に対してセンサフュージョン処理を行って、車両Mの周辺に存在する物体の位置、種類、速度などを認識する。物体認識装置は、認識結果をエージェント装置500や自動運転制御装置700に出力する。
The
また、車両機器660は、例えば、運転操作子や、走行駆動力出力装置、ブレーキ装置、ステアリング装置等を含む。運転操作子は、例えば、アクセルペダル、ブレーキペダル、シフトレバー、ステアリングホイール、異形ステア、ジョイスティックその他の操作子を含む。運転操作子には、操作量あるいは操作の有無を検出するセンサが取り付けられており、その検出結果は、エージェント装置500や自動運転制御装置700、もしくは、走行駆動力出力装置、ブレーキ装置、およびステアリング装置のうち一部または全部に出力される。走行駆動力出力装置は、車両Mが走行するための走行駆動力(トルク)を駆動輪に出力する。ブレーキ装置は、例えば、ブレーキキャリパーと、ブレーキキャリパーに油圧を伝達するシリンダと、シリンダに油圧を発生させる電動モータと、ブレーキECUとを備える。ブレーキECUは、自動運転制御装置700から入力される情報、或いは運転操作子から入力される情報に従って電動モータを制御し、制動操作に応じたブレーキトルクが各車輪に出力されるようにする。ステアリング装置は、例えば、ステアリングECUと、電動モータとを備える。電動モータは、例えば、ラックアンドピニオン機構に力を作用させて転舵輪の向きを変更する。ステアリングECUは、自動運転制御装置700から入力される情報、或いは運転操作子から入力される情報に従って、電動モータを駆動し、転舵輪の向きを変更させる。
Further, the
また、車両機器660は、例えば、ドアロック装置、ドア開閉装置、窓、窓の開閉装置および窓の開閉制御装置、シート、シート位置の制御装置、ルームミラーおよびその角度位置制御装置、車両内外の照明装置およびその制御装置、ワイパーやデフォッガーおよびそれぞれの制御装置、方向指示灯およびその制御装置、空調装置などの車両情報装置などが含まれてもよい。
Further, the
車載通信装置670は、例えば、セルラー網やWi-Fi網を利用してネットワークNWにアクセス可能な無線通信装置である。
The in-
乗員認識装置690は、例えば、着座センサ、車室内カメラ、画像認識装置などを含む。着座センサは座席の下部に設けられた圧力センサ、シートベルトに取り付けられた張力センサなどを含む。車室内カメラは、車室内に設けられたCCDカメラやCMOSカメラである。画像認識装置は、車室内カメラの画像を解析し、座席ごとのユーザの有無、ユーザの顔などを認識して、ユーザの着座位置を認識する。また、乗員認識装置690は、予め登録された顔画像とのマッチング処理を行うことで、画像に含まれる運転席や助手席等に着座するユーザを特定してもよい。
The
自動運転制御装置700は、例えば、CPUなどのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより処理を行う。自動運転制御装置700の構成要素のうち一部または全部は、LSIやASIC、FPGA、GPU等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め自動運転制御装置700のHDDやフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体に格納されており、記憶媒体(非一過性の記憶媒体)がドライブ装置に装着されることで自動運転制御装置700のHDDやフラッシュメモリにインストールされてもよい。
The automatic
自動運転制御装置700は、車両機器660の物体認識装置を介して入力された情報に基づいて、車両Mの周辺にある物体の位置、および速度、加速度等の状態を認識する。自動運転制御装置700は、原則的にはMPU650により決定された推奨車線を走行し、更に、車両Mの周辺状況に対応できるように、車両Mが自動的に(運転者の操作に依らずに)将来走行する目標軌道を生成する。目標軌道は、例えば、速度要素を含んでいる。例えば、目標軌道は、車両Mの到達すべき地点(軌道点)を順に並べたものとして表現される。
The automatic
自動運転制御装置700は、目標軌道を生成するにあたり、自動運転のイベントを設定してよい。自動運転のイベントには、定速走行イベント、低速追従走行イベント、車線変更イベント、分岐イベント、合流イベント、テイクオーバーイベント、自動駐車イベントなどがある。自動運転制御装置700は、起動させたイベントに応じた目標軌道を生成する。また、自動運転制御装置700は、生成した目標軌道を、予定の時刻通りに車両Mが通過するように、車両機器660の走行駆動力出力装置、ブレーキ装置、およびステアリング装置を制御する。例えば、自動運転制御装置700は、目標軌道(軌道点)に付随する速度要素に基づいて、走行駆動力出力装置またはブレーキ装置を制御したり、目標軌道の曲がり具合に応じて、ステアリング装置を制御する。
The automatic
次に、エージェント装置500について説明する。エージェント装置500は、車両Mの乗員と対話を行う装置である。例えば、エージェント装置500は、乗員の発話を情報提供装置100に送信し、その発話に対する回答を情報提供装置100から受信する。エージェント装置500は、受信した回答を、音声や画像を用いて乗員に提示する。
Next, the
エージェント装置500は、例えば、管理部520と、エージェント機能部540と、車両側記憶部560とを備える。管理部520は、例えば、音響処理部522と、表示制御部524と、音声制御部526とを備える。図8において、これらの構成要素の配置は説明のために簡易に示しており、実際には、例えば、エージェント機能部540と車載通信装置60の間に管理部520が介在してもよく、その配置は任意に改変することができる。
The
エージェント装置500の車両側記憶部560以外の各構成要素は、例えば、CPUなどのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSIやASIC、FPGA、GPUなどのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。
Each component other than the vehicle-
車両側記憶部560は、上記の各種記憶装置、或いはEEPROM、ROM、またはRAM等により実現されてよい。車両側記憶部560には、例えば、プログラム、その他各種情報が格納される。
The vehicle-
管理部520は、OS(Operating System)やミドルウェアなどのプログラムが実行されることで機能する。
The
音響処理部522は、車両Mの乗員(例えば、ユーザU2)から受け付けた各種音声のうち、問い合わせや要求等に関する情報を認識するのに適した状態になるように、入力された音に対して音響処理を行う。具体的には、音響処理部522は、ノイズ除去などの音響処理を行ってよい。
The
表示制御部524は、エージェント機能部540からの指示に応じて、表示・操作装置620等の出力装置に車両Mの乗員からの問い合わせや要求に対する回答結果に関する画像を生成する。回答結果に関する画像とは、例えば、問い合わせや要求等に対する回答結果を示す店舗や施設の一覧リストを示す画像や、各店舗や施設に関する画像、目的地までの走行経路を示す画像、その他レコメンド情報や処理の開始または終了を示す画像等である。また、表示制御部524は、エージェント機能部540からの指示に応じて、乗員とコミュニケーションを行う擬人化されたキャラクタ画像(以下、エージェント画像と称する)を生成してもよい。エージェント画像は、例えば、乗員に対して話しかける態様の画像である。エージェント画像は、例えば、少なくとも観者(乗員)によって表情や顔向きが認識される程度の顔画像を含んでよい。表示制御部524は、生成した画像を表示・操作装置620に出力させる。
The
音声制御部526は、エージェント機能部540からの指示に応じて、スピーカ630に含まれるスピーカのうち一部または全部に音声を出力させる。音声には、例えば、エージェント画像が乗員と対話を行うための音声や、表示制御部524により画像を表示・操作装置620に出力された画像に対応する音声が含まれる。また、音声制御部526は、複数のスピーカ630を用いて、エージェント画像の表示位置に対応する位置にエージェント音声の音像を定位させる制御を行ってもよい。エージェント画像の表示位置に対応する位置とは、例えば、エージェント画像がエージェント音声を喋っていると乗員が感じると予測される位置であり、具体的には、エージェント画像の表示位置付近(例えば、2~3[cm]以内)の位置である。また、音像が定位するとは、例えば、ユーザの左右の耳に伝達される音の大きさを調節することにより、乗員が感じる音源の空間的な位置を定めることである。
The
エージェント機能部540は、管理部520により取得される各種情報に基づいて、情報提供装置100と協働してエージェント画像等を出現させ、車両Mの乗員の発話に応じて、音声による応答を含むサービスを提供する。例えば、エージェント機能部540は、音響処理部522により処理された音声に含まれる起動ワードに基づいてエージェントを起動したり、終了ワードに基づいてエージェントを終了させたりする。また、エージェント機能部540は、音響処理部522により処理された音声データを、車載通信装置670を介して情報提供装置100に送信したり、情報提供装置100から得られる情報を乗員に提供したりする。また、エージェント機能部540は、汎用通信装置680と連携し、情報提供装置100と通信する機能を備えていてもよい。この場合、エージェント機能部540は、例えば、Bluetooth(登録商標)によって汎用通信装置680とペアリングを行い、エージェント機能部540と汎用通信装置680とを接続させる。また、エージェント機能部540は、USB(Universal Serial Bus)などを利用した有線通信によって汎用通信装置680に接続されるようにしてもよい。
The agent function unit 540 causes an agent image or the like to appear in cooperation with the
[情報処理装置の処理フロー]
次に、情報提供装置100による一連の処理の流れについてフローチャートを用いて説明する。図9及び10は、実施形態の情報提供装置100による一連の処理の流れを表すフローチャートである。
[Processing flow of information processing device]
Next, a flow of a series of processes by the
まず、取得部106は、通信部102を介して、通信端末300またはエージェント装置500から、複数のユーザの発話及び行動履歴を取得する(ステップS100)。取得部106は、ユーザの発話及び行動履歴を取得すると、それらを発話履歴情報134及び行動履歴情報136として記憶部130に記憶させる。
First, the
次に、音声認識部108は、音声認識により複数のユーザのそれぞれの発話からテキストデータを生成する(ステップS102)。通信端末300またはエージェント装置500において既に発話がテキスト化されていた場合、つまり、取得部106によって取得されたユーザの発話がテキストデータであった場合、S102の処理は省略されてよい。
Next, the
次に、自然言語処理部110は、音声認識部108によって生成された各ユーザの発話のテキストデータの中から、一人の対象ユーザの発話由来のテキストデータを選択し、その選択したテキストデータから固有表現を抽出する(ステップS104)。つまり、自然言語処理部110は、不特定多数のユーザの中から対象ユーザを選択し、その対象ユーザの発話から固有表現を抽出する。
Next, the natural
次に、判定部112は、複数のユーザの行動履歴に基づいて、それら複数のユーザが訪れた地点の中に訪問回数が急増した地点が存在するか否かを判定する(ステップS106)。
Next, the
図11は、訪問回数が急増した地点とそうでない地点とを説明するための図である。図示の例では、地図上に観光地のような3つの候補地X1~X3が存在している。例えば、候補地X1では、訪問数が急増しており、ユーザの訪問回数が閾値以上、又はユーザの訪問回数の所定期間あたりの増加率が閾値以上となっている。一方、候補地X2やX3では、訪問数に変動がなく、ユーザの訪問回数が閾値未満、又はユーザの訪問回数の所定期間あたりの増加率が閾値未満となっている。このような場合、判定部112は、候補地X1が訪問回数が急増した地点であり、候補地X2やX3が訪問回数が急増していない地点であると判定する。
FIG. 11 is a diagram for explaining a point where the number of visits has increased sharply and a point where the number of visits has not increased. In the illustrated example, there are three candidate sites X1 to X3 such as tourist spots on the map. For example, in the candidate site X1, the number of visits is rapidly increasing, and the number of visits by the user is equal to or greater than the threshold value, or the rate of increase in the number of visits by the user per predetermined period is equal to or greater than the threshold value. On the other hand, at the candidate sites X2 and X3, the number of visits does not change, the number of visits by the user is less than the threshold value, or the rate of increase in the number of visits by the user per predetermined period is less than the threshold value. In such a case, the
また、判定部112は、観光地のような人が集まりやすい地点でなくとも、ユーザの訪問回数が閾値以上、又はユーザの訪問回数の所定期間あたりの増加率が閾値以上の地点を、訪問回数が急増した地点として判定してよい。例えば、判定部112は、不特定多数のユーザの位置情報を参照し、とある地点に多数のユーザが集まっており、その地点におけるユーザの訪問回数が閾値以上、又はその増加率が閾値以上である場合には、当該地点を訪問回数が急増した地点として判定してよい。つまり、何らかの理由によって多数のユーザを感化させている地点が存在する場合、その地点が訪問回数が急増した地点として判定される。
Further, the
図9及び10のフローチャートの説明に戻る。次に、判定部112は、対象ユーザが訪問回数が急増した地点を実際に訪問したか否かを判定する(ステップS108)。
Returning to the description of the flowcharts of FIGS. 9 and 10. Next, the
例えば、判定部112は、地図上において、対象ユーザの位置座標と、訪問回数が急増した地点を訪問した他のユーザの位置座標とを比較し、それらユーザ同士の位置座標が同じ場合、対象ユーザが訪問回数が急増した地点を訪問したと判定してよい。また、訪問回数が急増した地点として判定された施設(例えば商業ビルや駐車場)内において無料Wi-Fiなどの通信サービスが提供されており、そこで対象ユーザと他のユーザとが共にその通信サービスを利用したとする。この場合、対象ユーザ及び他のユーザのそれぞれの位置情報には、Wi-Fiのアクセスポイントの位置情報が含まれる。従って、判定部112は、対象ユーザ及び他のユーザのそれぞれの位置情報の中に共通のアクセスポイントの位置情報が含まれる場合、対象ユーザが訪問回数が急増した地点を訪問したと判定してよい。
For example, the
ユーザベクトル生成部114は、対象ユーザが訪問回数が急増した地点を訪問したと判定部112によって判定された場合、「訪問した」ということを表す対象ユーザの行動ベクトルを生成する(ステップS110)。
When the
一方、ユーザベクトル生成部114は、訪問回数が急増した地点が存在しない、又は対象ユーザが訪問回数が急増した地点を訪問していないと判定部112によって判定された場合、「訪問していない」ということを表す対象ユーザの行動ベクトルを生成する(ステップS112)。
On the other hand, the user
例えば、ユーザベクトル生成部114は、「訪問した」ということを「1」とし、「訪問していない」ということを「0」とした一次元のベクトル(スカラ)を行動ベクトルとして生成してよい。また、ユーザベクトル生成部114は、対象ユーザが何度も繰り返し訪問回数が急増した地点を訪問している場合、訪問回数Nを要素とした行動ベクトルを生成してもよい。
For example, the user
次に、ユーザベクトル生成部114は、対象ユーザの発話から抽出された固有表現がベクトル化された発話ベクトルと、対象ユーザの行動ベクトルとを組み合わせて、対象ユーザのユーザベクトルを生成する(ステップS114)。例えば、発話ベクトルが10次元であり、行動ベクトルが1次元である場合、ユーザベクトルは11次元のベクトルとなる。ユーザベクトルは、対象ユーザのユーザID等に対応付けられてよい。
Next, the user
次に、自然言語処理部110は、発話及び行動履歴が取得された全ユーザについてユーザベクトルが生成されたか否かを判定する(ステップS116)。全ユーザについてユーザベクトルが生成されていない場合、自然言語処理部110は、S104に処理を戻し、前回対象ユーザとして選択したユーザと異なる他のユーザを新たな対象ユーザとして選択し直し、その新たな対象ユーザの発話から固有表現を抽出する。以降、新たな対象ユーザに関してS106からS114の処理が行われ、新たな対象ユーザのユーザベクトルが生成される。このようにしてユーザベクトルが繰り返し生成される。
Next, the natural
一方、全ユーザについてユーザベクトルが生成された場合、解析部116は、それら複数のユーザベクトルのそれぞれの次元を圧縮する(ステップS118)。例えば、解析部116は、ユーザベクトルが11次元である場合、10次元又はそれ以下まで圧縮する(ベクトルの要素数を減らす)。
On the other hand, when the user vector is generated for all users, the
次に、解析部116は、次元を圧縮した複数のユーザベクトルのクラスタリングを行い、発話内容や訪問地点といった特徴が類似するユーザ同士を同一のクラスタに分類する(ステップS120)。
Next, the
次に、収集部118は、クラスタリングによって生成されたクラスタごとに、そのクラスタに属するユーザの発話から抽出された固有表現の共起表現を収集する(ステップS122)。
Next, the collecting
図12は、ユーザベクトルのクラスタリング結果の一例を表す図である。図示の例では、複数のユーザベクトルが、A、B、Cの3つのクラスタに分類されている。この場合、収集部118は、クラスタAにユーザベクトルが属するユーザ(以下、ユーザ群Aという)の固有表現に対する共起表現をウェブサイトなどから収集する。クラスタA、B、Cのうちいずれか一つは「特定クラスタ」の一例である。
FIG. 12 is a diagram showing an example of the clustering result of the user vector. In the illustrated example, the plurality of user vectors are classified into three clusters A, B, and C. In this case, the collecting
同様に、収集部118は、クラスタBにユーザベクトルが属するユーザ(以下、ユーザ群Bという)の固有表現に対する共起表現と、クラスタCにユーザベクトルが属するユーザ(以下、ユーザ群Cという)の固有表現に対する共起表現とを、ウェブサイトなどから収集する。
Similarly, the collecting
例えば、ユーザ群Aでは、「ABCDEF」という飲食店の言い回しである「ABC」が頻繁に発話されていたとする。この場合、収集部118は、ウェブページなどにおいて「ABC」という表現とともに出現しやすい表現を、ユーザ群Aの共起表現として収集する。一方、ユーザ群Bでは、「ABCDEF」という飲食店の言い回しである「DEF」が頻繁に発話されていたとする。この場合、収集部118は、ウェブページなどにおいて「DEF」という表現とともに出現しやすい表現を、ユーザ群Bの共起表現として収集する。
For example, in the user group A, it is assumed that "ABC", which is the phrase of the restaurant "ABCDEF", is frequently spoken. In this case, the collecting
図9及び10のフローチャートの説明に戻る。次に、辞書生成部120は、クラスタリングによって生成されたクラスタごとに、音声認識のためのASR辞書や自然言語理解のためのNLU辞書を含む情報処理辞書を生成する(ステップS124)。
Returning to the description of the flowcharts of FIGS. 9 and 10. Next, the
図13は、情報処理辞書の生成方法を説明するための図である。図示のように、辞書生成部120は、クラスタAについて、ユーザ群Aの固有表現や共起表現が互いに対応付けられた情報処理辞書DICT_Aを生成してよい。同様に、辞書生成部120は、クラスタBについて、ユーザ群Bの固有表現や共起表現が互いに対応付けられた情報処理辞書DICT_Bを生成し、クラスタCについて、ユーザ群Cの固有表現や共起表現が互いに対応付けられた情報処理辞書DICT_Cを生成してよい。このように、辞書生成部120は、クラスタごとに情報処理辞書を生成する。
FIG. 13 is a diagram for explaining a method of generating an information processing dictionary. As shown in the figure, the
図9及び10のフローチャートの説明に戻る。次に、辞書生成部120は、通信端末300又はエージェント装置500の各記憶装置の中に既存辞書が存在するか否かを判定するか否かを判定する(ステップS126)。既存辞書とは、例えば、携帯電話やパーソナルコンピュータなどにおいて利用される文字の予測変換機能や入力予測機能(サジェスト機能)を実現するための各種辞書である。
Returning to the description of the flowcharts of FIGS. 9 and 10. Next, the
辞書生成部120は、既存辞書が存在すると判定した場合、情報処理辞書と既存辞書とを組み合わせた新情報処理辞書を生成する(ステップS128)。新情報処理辞書には、音声認識のためのASR辞書及び/又は自然言語理解のためのNLU辞書に加えて、更に既存辞書が含まれる。新情報処理辞書は「新辞書」の一例である。
When it is determined that the existing dictionary exists, the
次に、検証部122は、辞書生成部120によって生成された情報処理辞書(新情報処理辞書を含む)の精度を検証する(ステップS130)。例えば、検証部122は、ユーザ群Aの発話に基づいて、クラスタAの情報処理辞書の精度を検証する。より具体的には、検証部122は、ユーザ群A(クラスタAにユーザベクトルが所属するユーザ)における発話頻度に対するカバレッジ(被覆率)とユーザに対するカバレッジとが、予め設定された閾値以上である場合、クラスタAの情報処理辞書の精度が閾値以上であると判定する。同様に、検証部122は、ユーザ群Bの発話に基づいて、クラスタBの情報処理辞書の精度を検証し、ユーザ群Cの発話に基づいて、クラスタCの情報処理辞書の精度を検証する。
Next, the
次に、提供部124は、情報処理辞書の精度が閾値以上である場合、その情報処理辞書の利用案内情報を、通信端末300又はエージェント装置500に提供する(ステップS132)。これによって本フローチャートの処理が終了する。
Next, when the accuracy of the information processing dictionary is equal to or higher than the threshold value, the providing
図14は、情報処理辞書の利用案内情報が提供される場面を模式的に表す図である。図中のU3は、クラスタリングの特徴空間上において、ユーザベクトルがクラスタAに近いユーザである。つまり、ユーザU3は、ユーザ群Aと発話内容や行動履歴といった特徴が類似しているユーザである。このようなユーザU3には、例えば、ユーザ群Aの固有表現や共起表現を含む情報処理辞書DICT_Aと既存辞書DICT_Xとの組み合わせである新情報処理辞書DICT_NEWを音声ユーザインターフェース上において設定するよう推奨される。例えば、ユーザU3が、音声ユーザインターフェース上において、推奨された新情報処理辞書DICT_NEWの利用を設定したとする。この場合、音声ユーザインターフェースは、新情報処理辞書DICT_NEWの利用が許可された旨の情報を情報提供装置100に送信する。情報提供装置100は、この許可情報を受けると、ユーザU3によって許可された新情報処理辞書DICT_NEWを用いて、ユーザU3の発話に対して音声認識を行ったり、認識した音声の意味を解釈したりする。これによって、ユーザU3が日常的に使用している固有表現の言い回しの意味を解釈できるようになり、その言い回しの問い合わせや要求に対して適切な回答を提供することができる。この結果、ユーザが親しみをもって音声ユーザインターフェースを利用することができる。
FIG. 14 is a diagram schematically showing a scene in which usage guidance information of an information processing dictionary is provided. U3 in the figure is a user whose user vector is close to the cluster A in the clustering feature space. That is, the user U3 is a user whose characteristics such as utterance content and action history are similar to those of the user group A. It is recommended that such a user U3 set, for example, a new information processing dictionary DICT_NEW which is a combination of the information processing dictionary DICT_A including the unique expression and the co-occurrence expression of the user group A and the existing dictionary DICT_X on the voice user interface. Will be done. For example, it is assumed that the user U3 sets the use of the recommended new information processing dictionary DICT_NEW on the voice user interface. In this case, the voice user interface transmits information to the effect that the use of the new information processing dictionary DICT_NEW is permitted to the
以上説明した実施形態によれば、情報提供装置100は、複数のユーザの発話をテキスト化し、そのテキストデータから固有表現を抽出する。情報提供装置100は、複数のユーザのそれぞれの行動履歴に基づいて、各々のユーザが訪問回数が急増した地点を訪問したか否かを判定する。情報提供装置100は、各ユーザのテキストデータから抽出した固有表現をベクトル化した発話ベクトルと、訪問回数が急増した地点への各ユーザによる訪問の有無やその回数の結果をベクトル化した行動ベクトルとを組み合わせて、各ユーザのユーザベクトルを生成する。情報提供装置100は、ユーザベクトルが生成された複数のユーザのクラスタリングを行い、発話内容や訪問地点といった特徴が類似するユーザ同士を同一のクラスタに分類する。情報提供装置100は、クラスタリングによって生成されたクラスタごとに、音声認識のためのASR辞書や自然言語理解のためのNLU辞書を含む情報処理辞書を生成する。そして、情報提供装置100は、複数のクラスタのうち、例えばクラスタAのユーザに、そのクラスタAに対応した情報処理辞書の利用案内情報を提供する。
According to the embodiment described above, the
これによって、地域や年齢、流行などに応じて変化し得る発話の多様性に対応することができる。この結果、音声ユーザインターフェースのユーザビリティが向上し、例えば、ユーザが親しみのある言い回しなどを用いて音声ユーザインターフェースを利用することができる。また、辞書に登録された言葉が廃れてしまったり、或いは辞書に登録されていない新たな言葉が流行り出したりしても、その辞書を自動的に更新することができる。 This makes it possible to respond to the variety of utterances that can change depending on the region, age, fashion, and the like. As a result, the usability of the voice user interface is improved, and the voice user interface can be used, for example, by using a phrase familiar to the user. In addition, even if a word registered in the dictionary becomes obsolete or a new word not registered in the dictionary becomes popular, the dictionary can be automatically updated.
上記説明した実施形態は、以下のように表現することができる。
プログラムを記憶したメモリと、
プロセッサと、を備え、
前記プロセッサが前記プログラムを実行することにより、
複数の対象ユーザのそれぞれの発話から固有表現を抽出し、
前記対象ユーザの行動履歴に基づいて、訪問回数が急増した特定地点を前記対象ユーザが訪問したか否かを、前記対象ユーザごとに判定し、
前記抽出した固有表現と、前記判定した結果とを組み合わせた多次元の特徴量を、前記対象ユーザごとに生成し、
前記特徴量を生成した前記複数の対象ユーザのクラスタリングを行い、
前記クラスタリングによって生成したクラスタごとに、音声認識及び自然言語理解の少なくとも一方のための辞書を生成する、
ように構成されている、情報処理装置。
The embodiment described above can be expressed as follows.
The memory that stores the program and
With a processor,
When the processor executes the program,
Extract unique expressions from the utterances of multiple target users
Based on the behavior history of the target user, it is determined for each target user whether or not the target user has visited a specific point where the number of visits has increased sharply.
A multidimensional feature amount that combines the extracted named entity and the determined result is generated for each target user.
Clustering of the plurality of target users who generated the feature amount was performed.
For each cluster generated by the clustering, a dictionary for at least one of speech recognition and natural language understanding is generated.
An information processing device that is configured as such.
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。 Although the embodiments for carrying out the present invention have been described above using the embodiments, the present invention is not limited to these embodiments, and various modifications and substitutions are made without departing from the gist of the present invention. Can be added.
1…情報提供システム、100…情報提供装置、102…通信部、104…認証部、106…取得部、108…音声認識部、110…自然言語処理部、112…判定部、114…ユーザベクトル生成部、116…解析部、118…収集部、120…辞書生成部、122…検証部、124…提供部、130…記憶部、300…通信端末、310…端末側通信部、320…入力部、330…ディスプレイ、340、630…スピーカ、350、610…マイク、355…位置取得部、360…カメラ、370…アプリ実行部、380…出力制御部、390…端末側記憶部、500…エージェント装置、520…管理部、540…エージェント機能部、560…車両側記憶部、620…表示・操作装置、640…ナビゲーション装置640…MPU、660…車両機器、670…車載通信装置、680…汎用通信装置、690…乗員認識装置、700…自動運転制御装置、M…車両
1 ... Information providing system, 100 ... Information providing device, 102 ... Communication unit, 104 ... Authentication unit, 106 ... Acquisition unit, 108 ... Voice recognition unit, 110 ... Natural language processing unit, 112 ... Judgment unit, 114 ... User vector generation Unit, 116 ... Analysis unit, 118 ... Collection unit, 120 ... Dictionary generation unit, 122 ... Verification unit, 124 ... Providing unit, 130 ... Storage unit, 300 ... Communication terminal, 310 ... Terminal side communication unit, 320 ... Input unit, 330 ... Display, 340, 630 ... Speaker, 350, 610 ... Mike, 355 ... Position acquisition unit, 360 ... Camera, 370 ... App execution unit, 380 ... Output control unit, 390 ... Terminal side storage unit, 500 ... Agent device, 520 ... Management unit, 540 ... Agent function unit, 560 ... Vehicle side storage unit, 620 ... Display / operation device, 640 ...
Claims (11)
前記対象ユーザの行動履歴に基づいて、訪問回数が急増した特定地点を前記対象ユーザが訪問したか否かを、前記対象ユーザごとに判定する判定部と、
前記抽出部によって抽出された前記固有表現と、前記判定部による判定結果とを組み合わせた特徴量を、前記対象ユーザごとに生成する第1生成部と、
前記第1生成部によって前記特徴量が生成された前記複数の対象ユーザのクラスタリングを行う解析部と、
前記クラスタリングによって生成されたクラスタごとに、音声認識及び自然言語理解の少なくとも一方のための辞書を生成する第2生成部と、
を備える情報処理装置。 An extractor that extracts named entities from the utterances of multiple target users,
Based on the behavior history of the target user, a determination unit that determines for each target user whether or not the target user has visited a specific point where the number of visits has increased sharply.
A first generation unit that generates a feature amount that combines the named entity extracted by the extraction unit and the determination result by the determination unit for each target user.
An analysis unit that clusters the plurality of target users whose features are generated by the first generation unit, and an analysis unit.
A second generator that generates a dictionary for at least one of speech recognition and natural language understanding for each cluster generated by the clustering.
Information processing device equipped with.
請求項1に記載の情報処理装置。 The specific point is a point where the number of visits by another user is equal to or greater than the threshold value, or the number of visits by the other user is a point where the rate of increase per predetermined period is equal to or greater than the threshold value.
The information processing apparatus according to claim 1.
前記第2生成部は、前記クラスタごとに、前記収集部によって収集された前記共起表現を含む前記辞書を生成する、
請求項1又は2に記載の情報処理装置。 Further, a collecting unit is provided for collecting the co-occurrence expression of the named entity extracted from the utterance of the target user belonging to the cluster for each cluster.
The second generation unit generates the dictionary containing the co-occurrence expressions collected by the collection unit for each cluster.
The information processing apparatus according to claim 1 or 2.
請求項1から3のうちいずれか一項に記載の情報処理装置。 Further, a providing unit that provides usage guidance information of the dictionary corresponding to the specific cluster among the plurality of dictionaries is further provided to the target user belonging to the specific cluster among the plurality of the clusters.
The information processing apparatus according to any one of claims 1 to 3.
前記提供部は、前記特定クラスタに属する前記対象ユーザに、前記特定クラスタに対応した前記辞書と前記既存辞書とが組み合わされた前記新辞書の利用案内情報を提供する、
請求項4に記載の情報処理装置。 The second generation unit generates a new dictionary by combining the dictionary generated for each cluster and the existing dictionary.
The providing unit provides the target user belonging to the specific cluster with usage guidance information of the new dictionary in which the dictionary corresponding to the specific cluster and the existing dictionary are combined.
The information processing apparatus according to claim 4.
請求項1から5のうちいずれか一項に記載の情報処理装置。 A verification unit that verifies the dictionary based on the utterance of the target user in a predetermined group of users is further provided.
The information processing apparatus according to any one of claims 1 to 5.
請求項1から6のうちいずれか一項に記載の情報処理装置。 The first generation unit generates a combination of a first feature amount based on the named entity and a second feature amount based on a determination result by the determination unit as the feature amount.
The information processing apparatus according to any one of claims 1 to 6.
請求項7に記載の情報処理装置。 The second feature amount includes a feature amount representing one or both of the presence / absence of a visit to the specific point and the number of visits to the specific point.
The information processing apparatus according to claim 7.
請求項1から8のうちいずれか一項に記載の情報処理装置。 The named entity includes the wording of a place name or mark,
The information processing apparatus according to any one of claims 1 to 8.
複数の対象ユーザのそれぞれの発話から固有表現を抽出し、
前記対象ユーザの行動履歴に基づいて、訪問回数が急増した特定地点を前記対象ユーザが訪問したか否かを、前記対象ユーザごとに判定し、
前記抽出した固有表現と、前記判定した結果とを組み合わせた特徴量を、前記対象ユーザごとに生成し、
前記特徴量を生成した前記複数の対象ユーザのクラスタリングを行い、
前記クラスタリングによって生成したクラスタごとに、音声認識及び自然言語理解の少なくとも一方のための辞書を生成する、
情報処理方法。 The computer
Extract unique expressions from the utterances of multiple target users
Based on the behavior history of the target user, it is determined for each target user whether or not the target user has visited a specific point where the number of visits has increased sharply.
A feature amount that combines the extracted named entity and the determined result is generated for each target user.
Clustering of the plurality of target users who generated the feature amount was performed.
For each cluster generated by the clustering, a dictionary for at least one of speech recognition and natural language understanding is generated.
Information processing method.
複数の対象ユーザのそれぞれの発話から固有表現を抽出すること、
前記対象ユーザの行動履歴に基づいて、訪問回数が急増した特定地点を前記対象ユーザが訪問したか否かを、前記対象ユーザごとに判定すること、
前記抽出した固有表現と、前記判定した結果とを組み合わせた特徴量を、前記対象ユーザごとに生成すること、
前記特徴量を生成した前記複数の対象ユーザのクラスタリングを行うこと、
前記クラスタリングによって生成したクラスタごとに、音声認識及び自然言語理解の少なくとも一方のための辞書を生成すること、
を実行させるためのプログラム。 On the computer
Extracting named entity from each utterance of multiple target users,
Based on the behavior history of the target user, it is determined for each target user whether or not the target user has visited a specific point where the number of visits has increased sharply.
To generate a feature amount that combines the extracted named entity and the determined result for each target user.
Performing clustering of the plurality of target users who generated the feature amount,
To generate a dictionary for at least one of speech recognition and natural language understanding for each cluster generated by the clustering.
A program to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020218112A JP7449852B2 (en) | 2020-12-28 | 2020-12-28 | Information processing device, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020218112A JP7449852B2 (en) | 2020-12-28 | 2020-12-28 | Information processing device, information processing method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022103472A true JP2022103472A (en) | 2022-07-08 |
JP7449852B2 JP7449852B2 (en) | 2024-03-14 |
Family
ID=82279397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020218112A Active JP7449852B2 (en) | 2020-12-28 | 2020-12-28 | Information processing device, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7449852B2 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019193853A1 (en) * | 2018-04-05 | 2019-10-10 | 本田技研工業株式会社 | Information analysis device and information analysis method |
JP2020201445A (en) * | 2019-06-13 | 2020-12-17 | 株式会社日立製作所 | Computer system, model generation method and model management program |
-
2020
- 2020-12-28 JP JP2020218112A patent/JP7449852B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019193853A1 (en) * | 2018-04-05 | 2019-10-10 | 本田技研工業株式会社 | Information analysis device and information analysis method |
JP2020201445A (en) * | 2019-06-13 | 2020-12-17 | 株式会社日立製作所 | Computer system, model generation method and model management program |
Also Published As
Publication number | Publication date |
---|---|
JP7449852B2 (en) | 2024-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110660397B (en) | Dialogue system, vehicle and method for controlling a vehicle | |
KR102426171B1 (en) | Dialogue processing apparatus, vehicle having the same and dialogue service processing method | |
KR102695306B1 (en) | Dialogue system, Vehicle and method for controlling the vehicle | |
US11289074B2 (en) | Artificial intelligence apparatus for performing speech recognition and method thereof | |
KR20180086718A (en) | Dialogue processing apparatus, vehicle having the same and dialogue processing method | |
EP3570276B1 (en) | Dialogue system, and dialogue processing method | |
US10861460B2 (en) | Dialogue system, vehicle having the same and dialogue processing method | |
US11380325B2 (en) | Agent device, system, control method of agent device, and storage medium | |
KR102403355B1 (en) | Vehicle, mobile for communicate with the vehicle and method for controlling the vehicle | |
CN111599356B (en) | Intelligent system, information processing device, information processing method, and storage medium | |
CN110503949B (en) | Dialogue system, vehicle having dialogue system, and dialogue processing method | |
KR20200000155A (en) | Dialogue system and vehicle using the same | |
JP2011179917A (en) | Information recording device, information recording method, information recording program, and recording medium | |
US20200013396A1 (en) | Dialogue system and dialogue processing method | |
US20220338281A1 (en) | Artificial intelligence device for providing device control function based on interworking between devices and method therefor | |
JP2009064186A (en) | Interactive system for vehicle | |
KR102487669B1 (en) | Dialogue processing apparatus, vehicle having the same and dialogue processing method | |
CN111746435B (en) | Information providing apparatus, information providing method, and storage medium | |
CN114758653A (en) | Dialogue system, vehicle with dialogue system, and method for controlling dialogue system | |
US20220208187A1 (en) | Information processing device, information processing method, and storage medium | |
JP7449852B2 (en) | Information processing device, information processing method, and program | |
KR102448719B1 (en) | Dialogue processing apparatus, vehicle and mobile device having the same, and dialogue processing method | |
CN110562260A (en) | Dialogue system and dialogue processing method | |
US20220208213A1 (en) | Information processing device, information processing method, and storage medium | |
JP2022103977A (en) | Information providing device, information providing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221128 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230922 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231017 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240304 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7449852 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |