JP2020141221A - Determination device, determination method, and program - Google Patents
Determination device, determination method, and program Download PDFInfo
- Publication number
- JP2020141221A JP2020141221A JP2019034701A JP2019034701A JP2020141221A JP 2020141221 A JP2020141221 A JP 2020141221A JP 2019034701 A JP2019034701 A JP 2019034701A JP 2019034701 A JP2019034701 A JP 2019034701A JP 2020141221 A JP2020141221 A JP 2020141221A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- feature amount
- video
- unit
- sensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 62
- 239000000284 extract Substances 0.000 claims description 25
- 230000008878 coupling Effects 0.000 claims description 22
- 238000010168 coupling process Methods 0.000 claims description 22
- 238000005859 coupling reaction Methods 0.000 claims description 22
- 230000006835 compression Effects 0.000 description 27
- 238000007906 compression Methods 0.000 description 27
- 238000013528 artificial neural network Methods 0.000 description 21
- 238000007781 pre-processing Methods 0.000 description 19
- 239000013598 vector Substances 0.000 description 16
- 230000001360 synchronised effect Effects 0.000 description 8
- 238000007796 conventional method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Landscapes
- Time Recorders, Dirve Recorders, Access Control (AREA)
- Studio Devices (AREA)
Abstract
Description
本発明は、複数のモダリティ情報を用いて、所定の事象を検出する技術に関連するものである。 The present invention relates to a technique for detecting a predetermined event by using a plurality of modality information.
近年、ドライブレコーダーが普及している。ドライブレコーダーの映像は、例えば交通事故時における捜査や過失割合の判断に利用される。また、運転ドライバーの安全運転意識の改善や危険運転への気付きを促進するといった安全運転指導のためにドライブレコーダー映像を活用する事例も増加している。 In recent years, drive recorders have become widespread. The video of the drive recorder is used, for example, for an investigation in the event of a traffic accident and for determining the error rate. In addition, there are an increasing number of cases in which drive recorder images are used for safe driving guidance such as improving the driver's awareness of safe driving and promoting awareness of dangerous driving.
安全運転指導等のためにドライブレコーダー映像を活用するためには、記録された大量のドライブレコーダーの映像の中から危険運転シーンを抽出し判別をする必要がある。しかし、判別作業には多くの時間と人員、労力や注意力を要するといった問題がある。そのため、危険運転シーンを自動的に判別する技術の実現が求められている。 In order to utilize the drive recorder video for safe driving guidance, it is necessary to extract and discriminate dangerous driving scenes from a large number of recorded video of the drive recorder. However, there is a problem that the discrimination work requires a lot of time, personnel, labor and attention. Therefore, it is required to realize a technique for automatically discriminating dangerous driving scenes.
映像と正解ラベルにより、深層ニューラルネットワークの学習を行うことで、深層ニューラルネットワークにより危険運転シーンの自動判別を行うことが考えられる。 By learning the deep neural network from the video and the correct label, it is conceivable that the deep neural network automatically discriminates the dangerous driving scene.
しかし、危険運転シーンの自動判別を行うには、複雑で且つ層が深い深層ニューラルネットワークの構造を採用せざるを得ず、計算量が非常に大きくなるとともに、必要なメモリ量も非常に大きくなる。また、学習に要する時間も莫大となり得る。よって、映像等の単独のモダリティ情報を用いて深層ニューラルネットワークの学習を行って、危険運転シーンの自動判別を行う手法は現実的ではない。また、映像データとセンサデータを用いて危険運転シーンの自動判別を行う従来手法が存在するが、精度が十分ではない。 However, in order to automatically determine a dangerous driving scene, it is necessary to adopt a structure of a deep neural network that is complicated and has a deep layer, and the amount of calculation becomes very large and the amount of memory required becomes also very large. .. Also, the time required for learning can be enormous. Therefore, it is not realistic to learn a deep neural network by using a single modality information such as a video to automatically determine a dangerous driving scene. Further, although there is a conventional method of automatically discriminating a dangerous driving scene using video data and sensor data, the accuracy is not sufficient.
なお、上記のような課題は、危険運転シーンの検出に限らずに、様々な分野での所定事象の検出において生じ得る課題である。 It should be noted that the above-mentioned problems are not limited to the detection of dangerous driving scenes, but may occur in the detection of predetermined events in various fields.
本発明は上記の点に鑑みてなされたものであり、複数のモダリティ情報に基づいて、精度良く所定の事象を検出する技術を提供することを目的とする。 The present invention has been made in view of the above points, and an object of the present invention is to provide a technique for accurately detecting a predetermined event based on a plurality of modality information.
開示の技術によれば、音声データから音声特徴量を抽出する音声特徴抽出部と、
映像データから映像特徴量を抽出する映像特徴抽出部と、
センサデータからセンサ特徴量を抽出するセンサ特徴抽出部と、
前記音声特徴量、前記映像特徴量、及び前記センサ特徴量に基づいて、所定の事象の有無を判定する判定部と
を備える判定装置が提供される。
According to the disclosed technology, a voice feature extraction unit that extracts voice features from voice data and
A video feature extraction unit that extracts video features from video data,
A sensor feature extraction unit that extracts sensor features from sensor data,
A determination device including a determination unit for determining the presence or absence of a predetermined event based on the audio feature amount, the video feature amount, and the sensor feature amount is provided.
開示の技術によれば、複数のモダリティ情報に基づいて、精度良く所定の事象を検出する技術を提供することが可能となる。 According to the disclosed technology, it is possible to provide a technology for accurately detecting a predetermined event based on a plurality of modality information.
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。 Hereinafter, embodiments of the present invention (the present embodiments) will be described with reference to the drawings. The embodiments described below are merely examples, and the embodiments to which the present invention is applied are not limited to the following embodiments.
本実施の形態では、自動車から取得される映像データ、音声データ、センサデータに基づいて、危険運転の有無を判定する例を説明するが、本発明の適用先は、危険運転の有無の判定に限られるわけではなく、本発明は他の様々な分野に適用可能である。例えば、日本酒製造過程におけるもろみを造る段階に本発明を適用することが可能である。 In the present embodiment, an example of determining the presence or absence of dangerous driving based on video data, audio data, and sensor data acquired from an automobile will be described, but the application of the present invention is to determine the presence or absence of dangerous driving. The present invention is not limited, and the present invention is applicable to various other fields. For example, the present invention can be applied to the stage of making mash in the sake manufacturing process.
(装置構成)
図1に、本発明の実施の形態における判定装置100の機能構成例を示す。図1に示すように、判定装置100は、音声前処理部101、映像前処理部102、センサ前処理部103、音声特徴量抽出ネットワーク部104、映像特徴量抽出ネットワーク部105、センサ特徴量抽出ネットワーク部106、音声特徴圧縮部107、映像特徴圧縮部108、センサ特徴圧縮部109、映像/センサ特徴結合部110、時系列特徴モデリング部111、映像/センサ/音声特徴結合部112、非時系列特徴モデリング部113、及び出力部114を有する。各部の機能の概要は下記のとおりである。
(Device configuration)
FIG. 1 shows an example of a functional configuration of the determination device 100 according to the embodiment of the present invention. As shown in FIG. 1, the determination device 100 includes a voice preprocessing unit 101, a video preprocessing unit 102, a sensor preprocessing unit 103, a voice feature amount extraction network unit 104, a video feature amount extraction network unit 105, and a sensor feature amount extraction. Network unit 106, audio feature compression unit 107, video feature compression unit 108, sensor feature compression unit 109, video / sensor feature coupling unit 110, time series feature modeling unit 111, video / sensor / audio feature coupling unit 112, non-time series It has a feature modeling unit 113 and an output unit 114. The outline of the function of each part is as follows.
音声前処理部101は、入力された音声データから、例えば、メル周波数ケプストラム係数(MFCC: Mel-Frequency Cepstrum Coefficients)を抽出する前処理を実行する。 The voice preprocessing unit 101 executes preprocessing for extracting, for example, Mel-Frequency Cepstrum Coefficients (MFCC) from the input voice data.
映像前処理部102は、入力された映像(動画)データを、所定枚数の画像毎に分割する処理を行う。なお、所定枚数の画像毎に分割する処理を行わずに、映像データをそのまま入力に用いてもよい。 The video preprocessing unit 102 performs a process of dividing the input video (moving image) data into a predetermined number of images. Note that the video data may be used as it is for input without performing the process of dividing each of a predetermined number of images.
センサ前処理部103は、加速度及び速度等のセンサデータに対して、例えば、その値が平均0、標準偏差1になるように正規化を行う。 The sensor preprocessing unit 103 normalizes the sensor data such as acceleration and velocity so that the values are, for example, an average of 0 and a standard deviation of 1.
音声特徴量抽出ネットワーク部104、映像特徴量抽出ネットワーク部105、センサ特徴量抽出ネットワーク部106は、それぞれ深層ニューラルネットワーク(DNN)である。例えば、これらの特徴量抽出ネットワーク部104〜106として、CNN(Convolutional Neural Network)を使用することができる。CNNは、出力層、畳み込み層、プーリング層、全結合層、出力層を有するニューラルネットワークである。 The audio feature amount extraction network unit 104, the video feature amount extraction network unit 105, and the sensor feature amount extraction network unit 106 are deep neural networks (DNNs), respectively. For example, CNN (Convolutional Neural Network) can be used as these feature quantity extraction network units 104 to 106. A CNN is a neural network having an output layer, a convolution layer, a pooling layer, a fully connected layer, and an output layer.
音声特徴圧縮部107、映像特徴圧縮部108、センサ特徴圧縮部109はそれぞれ、例えば、入力の次元数よりも出力の次元数が小さいニューラルネットワークである。また、音声特徴圧縮部107、映像特徴圧縮部108、センサ特徴圧縮部109としてそれぞれ、主成分分析(PCA)の機能、あるいは非負値行列因子分解(NMF)の機能を用いてもよい。 The audio feature compression unit 107, the video feature compression unit 108, and the sensor feature compression unit 109 are, for example, neural networks in which the number of dimensions of the output is smaller than the number of dimensions of the input. Further, the function of principal component analysis (PCA) or the function of non-negative matrix factorization (NMF) may be used as the audio feature compression unit 107, the video feature compression unit 108, and the sensor feature compression unit 109, respectively.
映像/センサ特徴結合部110は、映像特徴圧縮部108から出力された特徴量とセンサ特徴圧縮部109から出力された特徴量とを結合する。 The video / sensor feature coupling unit 110 combines the feature amount output from the video feature compression unit 108 with the feature amount output from the sensor feature compression unit 109.
時系列特徴モデリング部111は、ある時刻のデータがそれ以前の時刻のデータの影響を受けているような時系列データの特徴を抽出する。時系列特徴モデリング部111は、例えば、RNN(Recurrent Neural Network)、LSTM(Long Short-Term Memory)などからなるニューラルネットワークである。時系列特徴モデリング部111から出力される特徴量を、時系列特徴量と呼ぶことにする。 The time-series feature modeling unit 111 extracts features of time-series data such that the data at a certain time is influenced by the data at a time earlier than that. The time-series feature modeling unit 111 is, for example, a neural network composed of RNN (Recurrent Neural Network), RSTM (Long Short-Term Memory), and the like. The feature amount output from the time-series feature modeling unit 111 is referred to as a time-series feature amount.
映像/センサ/音声特徴結合部112は、音声特徴圧縮部107から出力された特徴量と、時系列特徴モデリング部111から出力された時系列特徴量とを結合する。 The video / sensor / audio feature coupling unit 112 combines the feature quantity output from the audio feature compression unit 107 with the time series feature quantity output from the time series feature modeling unit 111.
非時系列特徴モデリング部113は、時系列特徴を抽出する性質を持たない深層ニューラルネットワーク等である。だだし、時系列特徴を抽出する性質を持つ深層ニューラルネットワークをここで用いることとしてもよい。 The non-time series feature modeling unit 113 is a deep neural network or the like that does not have the property of extracting time series features. However, a deep neural network having the property of extracting time series features may be used here.
出力部114は、目的とする判定結果を出力する。本実施の形態の場合、例えば、危険運転であるかどうかを示すラベルを出力する。 The output unit 114 outputs a target determination result. In the case of this embodiment, for example, a label indicating whether or not the driving is dangerous is output.
なお、「音声前処理部101+音声特徴量抽出ネットワーク部104+音声特徴圧縮部107」を音声特徴抽出部と呼び、「映像前処理部102+映像特徴量抽出ネットワーク部105+映像特徴圧縮部108」を映像特徴抽出部と呼び、「センサ前処理部103+センサ特徴量抽出ネットワーク部106+センサ特徴圧縮部109」をセンサ特徴抽出部と呼んでもよい。 The "audio preprocessing unit 101 + audio feature extraction network unit 104 + audio feature compression unit 107" is called an audio feature extraction unit, and the "video preprocessing unit 102 + video feature extraction network unit 105 + video feature compression unit 108" is called a video. It may be called a feature extraction unit, and "sensor preprocessing unit 103 + sensor feature amount extraction network unit 106 + sensor feature compression unit 109" may be called a sensor feature extraction unit.
また、「映像/センサ特徴結合部110+時系列特徴モデリング部111+映像/センサ/音声特徴結合部112+非時系列特徴モデリング部113」を判定部と呼んでもよい。 Further, "video / sensor feature coupling unit 110 + time series feature modeling unit 111 + video / sensor / audio feature coupling unit 112 + non-time series feature modeling unit 113" may be referred to as a determination unit.
(ハードウェア構成例)
判定装置100は、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。なお、コンピュータとプログラムで実現できる点は、後述する図3〜図5で説明する判定装置についても同様である。
(Hardware configuration example)
The determination device 100 can be realized, for example, by causing a computer to execute a program describing the processing contents described in the present embodiment. The points that can be realized by a computer and a program are the same for the determination devices described with reference to FIGS. 3 to 5 described later.
すなわち、判定装置100は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、当該判定装置100で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。 That is, the determination device 100 can be realized by executing a program corresponding to the processing executed by the determination device 100 by using the hardware resources such as the CPU and the memory built in the computer. The above program can be recorded on a computer-readable recording medium (portable memory, etc.), stored, and distributed. It is also possible to provide the above program through a network such as the Internet or e-mail.
図2は、本実施の形態における上記コンピュータのハードウェア構成例を示す図である。図2のコンピュータは、それぞれバスBで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、及び入力装置1007等を有する。 FIG. 2 is a diagram showing a hardware configuration example of the computer according to the present embodiment. The computer of FIG. 2 has a drive device 1000, an auxiliary storage device 1002, a memory device 1003, a CPU 1004, an interface device 1005, a display device 1006, an input device 1007, and the like, which are connected to each other by bus B, respectively.
当該コンピュータでの処理を実現するプログラムは、例えば、CD−ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。 The program that realizes the processing in the computer is provided by, for example, a recording medium 1001 such as a CD-ROM or a memory card. When the recording medium 1001 storing the program is set in the drive device 1000, the program is installed in the auxiliary storage device 1002 from the recording medium 1001 via the drive device 1000. However, the program does not necessarily have to be installed from the recording medium 1001, and may be downloaded from another computer via the network. The auxiliary storage device 1002 stores the installed program and also stores necessary files, data, and the like.
メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、当該判定装置100に係る機能を実現する。インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。 The memory device 1003 reads and stores the program from the auxiliary storage device 1002 when the program is instructed to start. The CPU 1004 realizes the function related to the determination device 100 according to the program stored in the memory device 1003. The interface device 1005 is used as an interface for connecting to a network. The display device 1006 displays a programmatic GUI (Graphical User Interface) or the like. The input device 1007 is composed of a keyboard, a mouse, buttons, a touch panel, and the like, and is used for inputting various operation instructions.
(判定装置100の動作)
ここでは、図1に示す判定装置100の動作の一例として、自動車に搭載されたマイク、カメラ、センサにより収集された音声データ、映像データ、センサデータに基づいて、危険運転かどうかを判定する動作について説明する。ここでのセンサデータは、例えば、その自動車の速度、及び加速度である。なお、「マイク、カメラ、センサにより収集された音声データ、映像データ、センサデータ」は、例えば、ドライブレコーダーで収集されたデータである。
(Operation of determination device 100)
Here, as an example of the operation of the determination device 100 shown in FIG. 1, an operation of determining whether or not the vehicle is dangerous driving based on the audio data, video data, and sensor data collected by the microphone, camera, and sensor mounted on the automobile. Will be described. The sensor data here is, for example, the speed and acceleration of the vehicle. The "audio data, video data, and sensor data collected by the microphone, camera, and sensor" are, for example, data collected by a drive recorder.
<学習フェーズ>
多数の自動車から集められた多数の(「音声データ、映像データ、センサデータ」と正解ラベル)を用意する。ここでは、1個の「音声データ、映像データ、センサデータ」が、所定時間長分のデータを格納したファイルであってもよい。正解ラベルは、当該ファイル毎に付されていてもよいし、ファイル中の、より細かい時間単位のデータに付されていてもよい。
<Learning phase>
Prepare a large number (“audio data, video data, sensor data” and correct label) collected from a large number of automobiles. Here, one "audio data, video data, sensor data" may be a file in which data for a predetermined time length is stored. The correct answer label may be attached to each file, or may be attached to the data in a finer time unit in the file.
当該「音声データ、映像データ、センサデータ」を順次判定装置100に入力し、出力部114からの出力値と、正解ラベルとを比較し、誤差を小さくするように判定装置100における各部のパラメータ(重み)を修正することで、最適なパラメータを求める。 The "audio data, video data, sensor data" are sequentially input to the determination device 100, the output value from the output unit 114 is compared with the correct answer label, and the parameters of each part in the determination device 100 so as to reduce the error ( The optimum parameter is obtained by modifying the weight).
最適なパラメータがセットされた判定装置100により、判定フェーズでの危険運転の判定が行われる。なお、パラメータの修正については、既存技術を用いることができる。 The determination device 100 in which the optimum parameters are set determines the dangerous driving in the determination phase. The existing technology can be used for modifying the parameters.
また、本実施の形態では、正解ラベルは、「事故(Accident)」、「ヒヤリハット(Near Miss)」、「正常(No−Near−Miss)」の3種類である。ただし、これは一例である。 Further, in the present embodiment, there are three types of correct label, "accident", "near miss", and "normal (No-Near-Miss)". However, this is just an example.
<判定フェーズ>
次に、判定フェーズにおける判定装置100の動作を説明する。なお、入力から出力までの判定装置100の動作は、学習フェーズと判定フェーズとで同じである。ただし、判定フェーズでは、最適なパラメータがセットされているので、出力部114が正解を出す可能性が高くなっている。
<Judgment phase>
Next, the operation of the determination device 100 in the determination phase will be described. The operation of the determination device 100 from the input to the output is the same in the learning phase and the determination phase. However, in the determination phase, since the optimum parameters are set, there is a high possibility that the output unit 114 will give a correct answer.
判定フェーズにおいて、判定対象のデータが用意される。当該データは、学習フェーズで与えるデータと同様の形式のデータであって、正解ラベルを持たないデータである。また、判定フェーズにおいては、判定対象の自動車からリアルタイムに取得された「音声データ、映像データ、センサデータ」を入力データとして用いることとしてもよい。 In the determination phase, the data to be determined is prepared. The data is data in the same format as the data given in the learning phase and does not have a correct answer label. Further, in the determination phase, "audio data, video data, sensor data" acquired in real time from the vehicle to be determined may be used as input data.
図1に示すように、音声前処理部101、映像前処理部102、センサ前処理部103にそれぞれ、順次、音声データ、映像データ、センサデータが入力される。 As shown in FIG. 1, audio data, video data, and sensor data are sequentially input to the audio preprocessing unit 101, the video preprocessing unit 102, and the sensor preprocessing unit 103, respectively.
音声前処理部101は、入力された音声データからメル周波数ケプストラム係数(MFCC: Mel-Frequency Cepstrum Coefficients)を抽出し、それを音声特徴量抽出ネットワーク部104に入力する。 The voice preprocessing unit 101 extracts Mel-Frequency Cepstrum Coefficients (MFCC) from the input voice data, and inputs the Mel-Frequency Cepstrum Coefficients to the voice feature extraction network unit 104.
映像前処理部102は、入力された映像データ(画像(フレーム)が連続的に並んだデータ)を、所定枚数の画像毎に分割する処理を行い、分割された各データ(複数枚の画像データ)を映像特徴量抽出ネットワーク部105に入力する。センサ前処理部103は、センサデータに対して正規化を行い、正規化したデータをセンサ特徴量抽出ネットワーク部106に入力する。 The video preprocessing unit 102 performs a process of dividing the input video data (data in which images (frames) are continuously arranged) into a predetermined number of images, and each divided data (a plurality of image data). ) Is input to the video feature amount extraction network unit 105. The sensor preprocessing unit 103 normalizes the sensor data, and inputs the normalized data to the sensor feature amount extraction network unit 106.
各特徴量抽出ネットワーク部に入力されるデータに関して、映像データとセンサデータについては、例えば、時刻1、時刻2、時刻3のように時刻が進行するとして、まず、時刻1の映像データ1とセンサデータ1が入力され、次に、時刻2の映像データ2とセンサデータ2が入力され、次に、時刻3の映像データ3とセンサデータ3が入力され、……のように、同期したデータが入力される。なお、ここでの1時刻での映像データは、所定枚数の画像の集合である。また、センサデータは、その時刻で得られた速度及び加速度である。 Regarding the data input to each feature amount extraction network unit, regarding the video data and the sensor data, assuming that the time advances, for example, time 1, time 2, and time 3, first, the video data 1 and the sensor at time 1 Data 1 is input, then video data 2 and sensor data 2 at time 2 are input, then video data 3 and sensor data 3 at time 3 are input, and synchronized data such as ... Entered. The video data at one time here is a set of a predetermined number of images. The sensor data is the speed and acceleration obtained at that time.
音声データに関しては、ここでは、映像データとセンサデータに対応する時刻単位ではなく、より大きな時刻の単位で入力される。例えば、時刻1〜10の時間の音声データ1、時刻11〜20の時間の音声データ2、…のように入力される。よって、ここでは、音声データに関しては、映像データとセンサデータのような時系列の特徴を抽出できないことを想定している。 The audio data is input here in a larger time unit, not in the time unit corresponding to the video data and the sensor data. For example, voice data 1 at times 1 to 10, voice data 2 at times 11 to 20, and so on are input. Therefore, here, it is assumed that time-series features such as video data and sensor data cannot be extracted for audio data.
音声特徴量抽出ネットワーク部104、映像特徴量抽出ネットワーク部105、センサ特徴量抽出ネットワーク部106はそれぞれ、入力されたデータについての特徴量を出力する。 The audio feature amount extraction network unit 104, the video feature amount extraction network unit 105, and the sensor feature amount extraction network unit 106 each output the feature amount of the input data.
音声特徴量抽出ネットワーク部104、映像特徴量抽出ネットワーク部105、センサ特徴量抽出ネットワーク部106はそれぞれ、入力データとして、ある次元数のベクトルXを入力し、出力データとして、ある次元数のベクトルYを出力する。このベクトルYが上記の特徴量である。 The audio feature amount extraction network unit 104, the video feature amount extraction network unit 105, and the sensor feature amount extraction network unit 106 each input a vector X of a certain dimension number as input data, and a vector Y of a certain dimension number as output data. Is output. This vector Y is the above-mentioned feature quantity.
音声特徴圧縮部107、映像特徴圧縮部108、センサ特徴圧縮部109はそれぞれ、その前段にある特徴量抽出ネットワーク部から出力された特徴量(ベクトル)を入力し、当該特徴量を圧縮して、入力されたベクトルの次元数よりも小さな次元数のベクトルを出力する。 The audio feature compression unit 107, the video feature compression unit 108, and the sensor feature compression unit 109 each input the feature amount (vector) output from the feature amount extraction network unit in the preceding stage, compress the feature amount, and then compress the feature amount. Outputs a vector with a number of dimensions smaller than the number of dimensions of the input vector.
映像/センサ特徴結合部110は、映像特徴圧縮部108から出力された特徴量とセンサ特徴圧縮部109から出力された特徴量とを結合する。例えば、映像特徴圧縮部108から出力された特徴量が、べクトル(a1,a2,a3)であり、センサ特徴圧縮部109から出力された特徴量がべクトル(b1,b2,b3)であるとすると、映像/センサ特徴結合部110は、べクトル(a1,a2,a3,b1,b2,b3)を出力する。 The video / sensor feature coupling unit 110 combines the feature amount output from the video feature compression unit 108 with the feature amount output from the sensor feature compression unit 109. For example, the feature amount output from the video feature compression unit 108 is a vector (a1, a2, a3), and the feature amount output from the sensor feature compression unit 109 is a vector (b1, b2, b3). Then, the video / sensor feature coupling unit 110 outputs vectors (a1, a2, a3, b1, b2, b3).
映像/センサ特徴結合部110から出力された結合特徴量は時系列特徴モデリング部111に入力され、時系列特徴モデリング部111は、時系列特徴量を出力する。なお、時系列特徴モデリング部111も基本的には、ある次元数のベクトルXを入力とし、出力データとして、ある次元数のベクトルYを出力する動作を行う。 The combined feature amount output from the video / sensor feature coupling unit 110 is input to the time series feature modeling unit 111, and the time series feature modeling unit 111 outputs the time series feature amount. The time-series feature modeling unit 111 also basically takes a vector X of a certain dimension as an input and outputs a vector Y of a certain dimension as output data.
映像/センサ/音声特徴結合部112は、音声特徴圧縮部107から出力された特徴量と、時系列特徴モデリング部111から出力された特徴量とを結合する。例えば、音声特徴圧縮部107から出力された特徴量が、べクトル(c1,c2,c3)であり、時系列特徴モデリング部111から出力された特徴量がべクトル(d1,d2,d3)であるとすると、映像/センサ/音声特徴結合部110は、べクトル(c1,c2,c3,d1,d2,d3)を出力する。 The video / sensor / audio feature coupling unit 112 combines the feature amount output from the audio feature compression unit 107 and the feature amount output from the time series feature modeling unit 111. For example, the feature amount output from the voice feature compression unit 107 is a vector (c1, c2, c3), and the feature amount output from the time series feature modeling unit 111 is a vector (d1, d2, d3). If so, the video / sensor / audio feature coupling unit 110 outputs a vector (c1, c2, c3, d1, d2, d3).
非時系列特徴モデリング部113は、映像/センサ/音声特徴結合部110から入力された特徴量から、判定結果となる特徴量を抽出し、これを出力部114に与える。出力部は、判定結果を出力する。なお、非時系列特徴モデリング部113も基本的には、ある次元数のベクトルXを入力とし、出力データとして、ある次元数のベクトルYを出力する動作を行う。 The non-time series feature modeling unit 113 extracts a feature amount to be a determination result from the feature amount input from the video / sensor / audio feature combination unit 110, and gives this to the output unit 114. The output unit outputs the determination result. The non-time series feature modeling unit 113 also basically takes a vector X of a certain dimension as an input and outputs a vector Y of a certain dimension as output data.
なお、非時系列特徴モデリング部113(及び出力部114)は、判定結果(判定されたラベル)を、所定時間長のデータ入力毎(例えば、前述した、入力のファイル単位)に出力するように構成されていてもよいし、時刻毎(前述した時刻1、時刻2、…の単位)で出力するように構成されていてもよい。 The non-time series feature modeling unit 113 (and the output unit 114) outputs the determination result (determined label) for each data input of a predetermined time length (for example, the above-mentioned input file unit). It may be configured, or it may be configured to output at each time (the unit of time 1, time 2, ... described above).
(他の例)
上記の例では、映像データとセンサデータについては、同期したデータを特徴量抽出ネットワーク部に与えることができ、音声データについては、映像データ及びセンサデータと同期したデータを特徴量抽出ネットワーク部に与えることができないため、図1に示すように、音声の特徴量については、時系列特徴モデリング部111を通さずに、映像/センサ/音声特徴結合部112において、映像・センサデータの時系列特徴量と結合することとしている。
(Other examples)
In the above example, for video data and sensor data, synchronized data can be given to the feature amount extraction network unit, and for audio data, data synchronized with the video data and sensor data is given to the feature amount extraction network unit. Therefore, as shown in FIG. 1, the audio feature amount is not passed through the time-series feature modeling unit 111, but in the video / sensor / audio feature coupling unit 112, the time-series feature amount of the video / sensor data. It is supposed to be combined with.
ここで、音声データについても、映像データ及びセンサデータと同期したデータを特徴量抽出ネットワーク部に与えることができる場合には、判定装置を図3に示す判定装置200のようにしてもよい。 Here, as for the audio data, if the data synchronized with the video data and the sensor data can be given to the feature amount extraction network unit, the determination device may be the determination device 200 shown in FIG.
図3に示す構成では、音声/映像/センサ特徴結合部210において、音声データの特徴量、映像データの特徴量、センサデータの特徴量が結合され、結合された特徴量が時系列特徴モデリング部211に出力され、時系列特徴モデリング部211が、結合された特徴量についての時系列特徴量を抽出して、出力部212に出力する。 In the configuration shown in FIG. 3, in the audio / video / sensor feature coupling unit 210, the audio data feature amount, the video data feature amount, and the sensor data feature amount are combined, and the combined feature amount is the time series feature modeling unit. It is output to 211, and the time-series feature modeling unit 211 extracts the time-series feature amount for the combined feature amount and outputs it to the output unit 212.
また、音声データとセンサデータについては、同期したデータを特徴量抽出ネットワーク部に与えることができ、映像データについては、音声データ及びセンサデータと同期したデータを特徴量抽出ネットワーク部に与えることができない場合には、図4に示す構成としてもよい。この場合、映像の特徴量については、時系列特徴モデリング部111を通さずに、映像/センサ/音声特徴結合部112において、音声・センサデータの時系列特徴量と結合することとしている。 Further, for audio data and sensor data, synchronized data can be given to the feature amount extraction network unit, and for video data, audio data and data synchronized with sensor data cannot be given to the feature amount extraction network unit. In some cases, the configuration shown in FIG. 4 may be used. In this case, the video feature amount is combined with the time-series feature amount of the voice / sensor data in the video / sensor / voice feature coupling unit 112 without passing through the time-series feature modeling unit 111.
また、音声データと映像データについては、同期したデータを特徴量抽出ネットワーク部に与えることができ、センサデータについては、音声データ及び映像データと同期したデータを特徴量抽出ネットワーク部に与えることができない場合には、図5に示す構成としてもよい。この場合、センサデータの特徴量については、時系列特徴モデリング部111を通さずに、映像/センサ/音声特徴結合部112において、音声・映像データの時系列特徴量と結合することとしている。 Further, for audio data and video data, synchronized data can be given to the feature amount extraction network unit, and for sensor data, data synchronized with the audio data and video data cannot be given to the feature amount extraction network unit. In some cases, the configuration shown in FIG. 5 may be used. In this case, the feature amount of the sensor data is combined with the time-series feature amount of the audio / video data in the video / sensor / audio feature coupling unit 112 without passing through the time-series feature modeling unit 111.
(評価結果)
図1に示すように音声の非時系列性を考慮した構成における本発明に係る技術の評価結果について説明する。
(Evaluation results)
As shown in FIG. 1, the evaluation result of the technique according to the present invention in the configuration considering the non-time series of voice will be described.
図6は、映像データとセンサデータを用いた従来手法(図6の上側)と、本発明に係る技術(図6の下側)とについて、各評価指標(Precision、Recall、F1−Score)の結果を示している。全指標において、本発明に係る技術は従来手法よりも良い結果が得られていることがわかる。 FIG. 6 shows the evaluation indexes (Precision, Recall, F1-Score) of the conventional method using video data and sensor data (upper side of FIG. 6) and the technique according to the present invention (lower side of FIG. 6). The result is shown. It can be seen that the technique according to the present invention gives better results than the conventional method in all the indexes.
図7は、従来手法で算出した値に関しての混合行列を示す。例えば、Accidentの行に着目すると、これは、正解ラベル(Accident)のデータ個数が36個であり、そのうち、Accidentであるとの判定結果が得られた個数が15、Near Missであるとの判定結果が得られた個数が13、No Near Missとの判定結果が得られた個数が8であることを示す。他の行も同様である。 FIG. 7 shows a mixing matrix with respect to the values calculated by the conventional method. For example, paying attention to the line of Accident, it is determined that the number of data of the correct label (Acident) is 36, of which 15, the number of which the determination result of Accident is obtained is Near Miss. It is shown that the number of results obtained is 13 and the number of determination results of No Near Miss is 8. The same is true for the other lines.
図8は、本発明に係る技術を用いた場合の混合行列を示す。図の見方は図7と同様である。 FIG. 8 shows a mixing matrix when the technique according to the present invention is used. The way of reading the figure is the same as that of FIG.
図7、図8に示すように、「事故(Accident)」と「ヒヤリハット(Near−Miss)」の誤認識(図中の太枠部分)が多い従来手法(図7)と比較して、本発明に係る技術(図8)ではこれが改善されていることがわかる。例えば,低速度での衝突による事故の場合、映像とセンサのみでは判別しずらい事象について、音声も用いることで事故時に発生する衝突音などの環境音、また、人の声などが、判定精度向上に寄与していると考えられる。 As shown in FIGS. 7 and 8, this book is compared with the conventional method (FIG. 7) in which there are many misrecognitions (thick frame portion in the figure) of “accident” and “near-miss”. It can be seen that this is improved in the technique according to the invention (FIG. 8). For example, in the case of an accident caused by a collision at a low speed, environmental sounds such as collision sounds generated at the time of an accident and human voice can be judged with accuracy for events that are difficult to distinguish from images and sensors alone. It is thought that it contributes to the improvement.
(実施の形態のまとめ、効果)
以上説明したように、本実施の形態では、映像・音声・センサ全てのモダリティ情報を統合的に用いることにより、精度良く危険運転シーンの判別を行うことができる。
(Summary of embodiments, effects)
As described above, in the present embodiment, the dangerous driving scene can be accurately discriminated by using the modality information of all the video, audio, and sensor in an integrated manner.
また、本実施の形態では、単独のモダリティ情報を利用して複雑で計算量的に重量なニューラルネットワークの構造を取る代わりに、複数のモダリティ情報を統合的に利用することで、コンパクトで計算量的に軽量なニューラルネットワークの構造で判別精度を担保することができる。 Further, in the present embodiment, instead of taking a complicated and computationally heavy neural network structure by using a single modality information, a plurality of modality informations are used in an integrated manner, so that the amount of calculation is compact. Discrimination accuracy can be guaranteed by the structure of a relatively lightweight neural network.
なお、重量なニューラルネットワークは、例えば、ニューラルネットワークの各層(例えば、畳み込み層や全結合層など)を数十層積み重ねたネットワークであり、代表的なネットワークアーキテクチャとして、VGG16,VGG19,ResNet−50などがある。また、軽量なニューラルネットワークは、例えば、ニューラルネットワークの各層(例えば、畳み込み層や全結合層など)を単純に数層積み重ねたネットワークである。 The heavy neural network is, for example, a network in which dozens of layers of each layer of the neural network (for example, a convolution layer, a fully connected layer, etc.) are stacked, and typical network architectures include VGG16, VGG19, ResNet-50, and the like. There is. Further, the lightweight neural network is, for example, a network in which each layer of the neural network (for example, a convolution layer, a fully connected layer, etc.) is simply stacked in several layers.
すなわち、複数のモーダル情報を用いることで、軽量なニューラルネットワーク構成の組合せのみで、1つのモダリティ情報のみを利用する重量なニューラルネットワーク構成と同程度もしくはそれ以上の分類精度を実現している。また、複数のモーダル情報を用いることで、軽量なニューラルネットワーク構成の組合せのみで、1つのモダリティ情報のみを利用する重量なニューラルネットワーク構成と比較して、高速・省メモリ・学習容易性を実現している。 That is, by using a plurality of modal information, classification accuracy equal to or higher than that of a heavy neural network configuration using only one modality information is realized only by a combination of lightweight neural network configurations. In addition, by using multiple modal information, high speed, memory saving, and ease of learning are realized compared to a heavy neural network configuration that uses only one modality information by combining only lightweight neural network configurations. ing.
本明細書には、少なくとも、下記の各項における判定装置、判定方法、及びプログラムが開示されている。
(第1項)
音声データから音声特徴量を抽出する音声特徴抽出部と、
映像データから映像特徴量を抽出する映像特徴抽出部と、
センサデータからセンサ特徴量を抽出するセンサ特徴抽出部と、
前記音声特徴量、前記映像特徴量、及び前記センサ特徴量に基づいて、所定の事象の有無を判定する判定部と
を備える判定装置。
(第2項)
前記判定部は、
前記音声特徴量、前記映像特徴量、及び前記センサ特徴量のうちの2つの特徴量を結合する第1特徴結合部と、
前記第1特徴結合部により結合された特徴量から時系列特徴量を抽出する時系列特徴抽出部と、
前記時系列特徴抽出部から出力された時系列特徴量と、前記音声特徴量、前記映像特徴量、及び前記センサ特徴量のうちの前記2つの特徴量以外の特徴量とを結合する第2特徴結合部と、
前記第2特徴結合部により結合された特徴量から、判定結果となる特徴量を抽出する特徴抽出部と
を備える第1項に記載の判定装置。
(第3項)
前記判定部は、
前記音声特徴量、前記映像特徴量、及び前記センサ特徴量を結合する結合部と、
前記結合部により結合された特徴量から、判定結果となる時系列特徴量を抽出する時系列特徴抽出部と
を備える第1項に記載の判定装置。
(第4項)
判定装置が実行する判定方法であって、
音声データから音声特徴量を抽出する音声特徴抽出ステップと、
映像データから映像特徴量を抽出する映像特徴抽出ステップと、
センサデータからセンサ特徴量を抽出するセンサ特徴抽出ステップと、
前記音声特徴量、前記映像特徴量、及び前記センサ特徴量に基づいて、所定の事象の有無を判定する判定ステップと
を備える判定方法。
(第5項)
コンピュータを、第1項ないし第3項のうちいずれか1項に記載の判定装置における各部として機能させるためのプログラム。
At least, the determination device, determination method, and program in each of the following items are disclosed in the present specification.
(Section 1)
A voice feature extraction unit that extracts voice features from voice data,
A video feature extraction unit that extracts video features from video data,
A sensor feature extraction unit that extracts sensor features from sensor data,
A determination device including a determination unit that determines the presence or absence of a predetermined event based on the audio feature amount, the video feature amount, and the sensor feature amount.
(Section 2)
The determination unit
A first feature coupling portion that combines two features of the audio feature amount, the video feature amount, and the sensor feature amount, and
A time-series feature extraction unit that extracts a time-series feature amount from the feature amount combined by the first feature combination unit, and a time-series feature extraction unit.
A second feature that combines the time-series feature amount output from the time-series feature extraction unit with the audio feature amount, the video feature amount, and the feature amount other than the two feature amounts of the sensor feature amount. At the joint,
The determination device according to item 1, further comprising a feature extraction unit that extracts a feature amount to be a determination result from the feature amount combined by the second feature combination unit.
(Section 3)
The determination unit
A coupling portion that combines the audio feature amount, the video feature amount, and the sensor feature amount,
The determination device according to item 1, further comprising a time-series feature extraction unit that extracts a time-series feature amount that is a determination result from the feature amounts combined by the coupling unit.
(Section 4)
It is a judgment method executed by the judgment device.
A voice feature extraction step that extracts voice features from voice data,
A video feature extraction step that extracts video features from video data,
A sensor feature extraction step that extracts sensor features from sensor data,
A determination method including a determination step for determining the presence or absence of a predetermined event based on the audio feature amount, the video feature amount, and the sensor feature amount.
(Section 5)
A program for causing a computer to function as each part in the determination device according to any one of the first to third paragraphs.
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 Although the present embodiment has been described above, the present invention is not limited to such a specific embodiment, and various modifications and changes can be made within the scope of the gist of the present invention described in the claims. It is possible.
100、200 判定装置
101、201 音声前処理部
102、202 映像前処理部
103、203 センサ前処理部
104、204 音声特徴量抽出ネットワーク部
105、205 像特徴量抽出ネットワーク部
106、206 センサ特徴量抽出ネットワーク部
107、207 音声特徴圧縮部
108、208 映像特徴圧縮部
109、209 センサ特徴圧縮部
111、211 時系列特徴モデリング部
112、210 映像/センサ/音声特徴結合部
114、212 出力部
1000 ドライブ装置
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
100, 200 Judgment device 101, 201 Audio preprocessing unit 102, 202 Video preprocessing unit 103, 203 Sensor preprocessing unit 104, 204 Audio feature amount extraction network unit 105, 205 Image feature amount extraction network unit 106, 206 Sensor feature amount Extraction network unit 107, 207 Audio feature compression unit 108, 208 Video feature compression unit 109, 209 Sensor feature compression unit 111, 211 Time series feature modeling unit 112, 210 Video / sensor / audio feature coupling unit 114, 212 Output unit 1000 drive Device 1002 Auxiliary storage device 1003 Memory device 1004 CPU
1005 Interface device 1006 Display device 1007 Input device
Claims (5)
映像データから映像特徴量を抽出する映像特徴抽出部と、
センサデータからセンサ特徴量を抽出するセンサ特徴抽出部と、
前記音声特徴量、前記映像特徴量、及び前記センサ特徴量に基づいて、所定の事象の有無を判定する判定部と
を備える判定装置。 A voice feature extraction unit that extracts voice features from voice data,
A video feature extraction unit that extracts video features from video data,
A sensor feature extraction unit that extracts sensor features from sensor data,
A determination device including a determination unit that determines the presence or absence of a predetermined event based on the audio feature amount, the video feature amount, and the sensor feature amount.
前記音声特徴量、前記映像特徴量、及び前記センサ特徴量のうちの2つの特徴量を結合する第1特徴結合部と、
前記第1特徴結合部により結合された特徴量から時系列特徴量を抽出する時系列特徴抽出部と、
前記時系列特徴抽出部から出力された時系列特徴量と、前記音声特徴量、前記映像特徴量、及び前記センサ特徴量のうちの前記2つの特徴量以外の特徴量とを結合する第2特徴結合部と、
前記第2特徴結合部により結合された特徴量から、判定結果となる特徴量を抽出する特徴抽出部と
を備える請求項1に記載の判定装置。 The determination unit
A first feature coupling portion that combines two features of the audio feature amount, the video feature amount, and the sensor feature amount, and
A time-series feature extraction unit that extracts a time-series feature amount from the feature amount combined by the first feature combination unit, and a time-series feature extraction unit.
A second feature that combines the time-series feature amount output from the time-series feature extraction unit with the audio feature amount, the video feature amount, and the feature amount other than the two feature amounts of the sensor feature amount. At the joint,
The determination device according to claim 1, further comprising a feature extraction unit that extracts a feature amount to be a determination result from the feature amount combined by the second feature combination unit.
前記音声特徴量、前記映像特徴量、及び前記センサ特徴量を結合する結合部と、
前記結合部により結合された特徴量から、判定結果となる時系列特徴量を抽出する時系列特徴抽出部と
を備える請求項1に記載の判定装置。 The determination unit
A coupling portion that combines the audio feature amount, the video feature amount, and the sensor feature amount,
The determination device according to claim 1, further comprising a time-series feature extraction unit that extracts a time-series feature amount that is a determination result from the feature amounts combined by the coupling unit.
音声データから音声特徴量を抽出する音声特徴抽出ステップと、
映像データから映像特徴量を抽出する映像特徴抽出ステップと、
センサデータからセンサ特徴量を抽出するセンサ特徴抽出ステップと、
前記音声特徴量、前記映像特徴量、及び前記センサ特徴量に基づいて、所定の事象の有無を判定する判定ステップと
を備える判定方法。 It is a judgment method executed by the judgment device.
A voice feature extraction step that extracts voice features from voice data,
A video feature extraction step that extracts video features from video data,
A sensor feature extraction step that extracts sensor features from sensor data,
A determination method including a determination step for determining the presence or absence of a predetermined event based on the audio feature amount, the video feature amount, and the sensor feature amount.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019034701A JP6920361B2 (en) | 2019-02-27 | 2019-02-27 | Judgment device, judgment method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019034701A JP6920361B2 (en) | 2019-02-27 | 2019-02-27 | Judgment device, judgment method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020141221A true JP2020141221A (en) | 2020-09-03 |
JP6920361B2 JP6920361B2 (en) | 2021-08-18 |
Family
ID=72265234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019034701A Active JP6920361B2 (en) | 2019-02-27 | 2019-02-27 | Judgment device, judgment method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6920361B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003255993A (en) * | 2002-03-04 | 2003-09-10 | Ntt Docomo Inc | System, method, and program for speech recognition, and system, method, and program for speech synthesis |
JP2016157893A (en) * | 2015-02-26 | 2016-09-01 | 東京エレクトロン株式会社 | Carbon film deposition method and film deposition device |
JP2017138694A (en) * | 2016-02-02 | 2017-08-10 | ソニー株式会社 | Picture processing device and picture processing method |
-
2019
- 2019-02-27 JP JP2019034701A patent/JP6920361B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003255993A (en) * | 2002-03-04 | 2003-09-10 | Ntt Docomo Inc | System, method, and program for speech recognition, and system, method, and program for speech synthesis |
JP2016157893A (en) * | 2015-02-26 | 2016-09-01 | 東京エレクトロン株式会社 | Carbon film deposition method and film deposition device |
JP2017138694A (en) * | 2016-02-02 | 2017-08-10 | ソニー株式会社 | Picture processing device and picture processing method |
Also Published As
Publication number | Publication date |
---|---|
JP6920361B2 (en) | 2021-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Badshah et al. | Deep features-based speech emotion recognition for smart affective services | |
Takeda et al. | International large-scale vehicle corpora for research on driver behavior on the road | |
CN110647893B (en) | Target object identification method, device, storage medium and equipment | |
CN107690657B (en) | Trade company is found according to image | |
Kuchibhotla et al. | A comparative analysis of classifiers in emotion recognition through acoustic features | |
CN111931929A (en) | Training method and device of multi-task model and storage medium | |
Sahoo et al. | Emotion recognition from audio-visual data using rule based decision level fusion | |
Sathyanarayana et al. | Information fusion for robust ‘context and driver aware’active vehicle safety systems | |
CN115457395A (en) | Lightweight remote sensing target detection method based on channel attention and multi-scale feature fusion | |
CN106650660A (en) | Vehicle type recognition method and terminal | |
CN111723809B (en) | Method and system for evaluating target detection model | |
CN111091044B (en) | Network appointment-oriented in-vehicle dangerous scene identification method | |
KR20200048693A (en) | System for performing sentimental analysis and the method thereof | |
CN112307816A (en) | In-vehicle image acquisition method and device, electronic equipment and storage medium | |
CN114549946A (en) | Cross-modal attention mechanism-based multi-modal personality identification method and system | |
CN111128178A (en) | Voice recognition method based on facial expression analysis | |
CN113449840A (en) | Neural network training method and device and image classification method and device | |
US11238289B1 (en) | Automatic lie detection method and apparatus for interactive scenarios, device and medium | |
JP6920361B2 (en) | Judgment device, judgment method, and program | |
CN111862946A (en) | Order processing method and device, electronic equipment and storage medium | |
CN111914841B (en) | CT image processing method and device | |
CN110782916B (en) | Multi-mode complaint identification method, device and system | |
Mannem et al. | Smart audio signal classification for tracking of construction tasks | |
CN115620268A (en) | Multi-modal emotion recognition method and device, electronic equipment and storage medium | |
CN113571085B (en) | Voice separation method, system, device and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20190325 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210706 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210726 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6920361 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |