JP6701057B2 - Recognizer, program - Google Patents
Recognizer, program Download PDFInfo
- Publication number
- JP6701057B2 JP6701057B2 JP2016215759A JP2016215759A JP6701057B2 JP 6701057 B2 JP6701057 B2 JP 6701057B2 JP 2016215759 A JP2016215759 A JP 2016215759A JP 2016215759 A JP2016215759 A JP 2016215759A JP 6701057 B2 JP6701057 B2 JP 6701057B2
- Authority
- JP
- Japan
- Prior art keywords
- correction
- scene
- recognition
- value
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 claims description 43
- 238000000034 method Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000001419 dependent effect Effects 0.000 claims description 4
- 230000008685 targeting Effects 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 24
- 230000005484 gravity Effects 0.000 description 6
- 238000002372 labelling Methods 0.000 description 3
- 238000013138 pruning Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Description
本開示は、物体の認識に関する。 The present disclosure relates to object recognition.
特許文献1は、道路地形情報を検出するための手法として、次の内容を開示している。ベースポイントと称する選択された位置についての、高水準の空間特徴生成を行う。このベースポイントについての空間特徴生成は、環境の視覚的及び物理的特徴物を捉えた価値連続な信頼度表現に基づいて行われる。 Patent Literature 1 discloses the following contents as a method for detecting road topographic information. Performs high level spatial feature generation for selected locations called base points. Spatial feature generation for this base point is performed based on a continuous value-based reliability expression that captures the visual and physical features of the environment.
特許文献1の技術は、精度が不十分であるのが実情である。特に物体間の境界において誤認識が発生しやすい。このような課題は、道路地形の検出に限られない。本開示は、上記を踏まえ、道路地形その他の物体の認識を高精度に実施することを解決課題とする。 In reality, the technique of Patent Document 1 is insufficient in accuracy. In particular, erroneous recognition is likely to occur at boundaries between objects. Such a problem is not limited to detection of road topography. Based on the above, the present disclosure has as a problem to be solved the recognition of road terrain and other objects with high accuracy.
本開示の一形態は、認識対象の画像から取得された画素毎の情報を入力データとして、複数の中間層を含むディープニューラルネットワーク(13)に入力することによって、前記画素毎にラベル付けをし、初期認識値を取得する初期認識部(S200)と、前記認識対象の画像が属するシーンを、前記複数の中間層の少なくとも1層から出力される中間データの少なくとも一部であるシーン識別用中間データに基づき識別するシーン識別部(S300)と、前記初期認識値を対象に、前記中間データに基づく訂正を実行する訂正部(S500)であって、前記訂正を、前記識別されたシーンに基づき実行する訂正実行部(S740)を備える訂正部(S500)と、を備える認識装置である。 One form of the present disclosure labels each pixel by inputting the information for each pixel acquired from an image to be recognized as input data to a deep neural network (13) including a plurality of intermediate layers. An initial recognition unit (S200) for acquiring an initial recognition value, and a scene identification intermediate that is at least a part of intermediate data output from at least one of the plurality of intermediate layers, for the scene to which the image to be recognized belongs. identifying the scene identification section on the basis of the data and (S300), targeting the initial recognition value, the a correcting unit that executes a correction based on the intermediate data (S500), the correction based on the identified scene And a correction unit (S500) including a correction execution unit (S740) to be executed .
この形態によれば、初期認識部によって付与されたラベルを、初期認識における中間データを利用して訂正するので、高精度にラベル付けができ、ひいては物体の認識精度が向上する。 According to this aspect, since the label given by the initial recognition unit is corrected by using the intermediate data in the initial recognition, the labeling can be performed with high accuracy, and the recognition accuracy of the object is improved.
図1に示すように、認識装置10は、自動車1に搭載される。認識装置10は、カメラ21と、カメラ22とからそれぞれ、撮像データとして、各画素のRGB値を取得する。認識装置10は、この撮像データによって表される画像を、図2に示す認識処理によって認識し、認識結果を制御部25に入力する。制御部25は、入力された認識結果に基づき、自動車1の動作を制御する。 As shown in FIG. 1, the recognition device 10 is mounted on the automobile 1. The recognition device 10 acquires the RGB values of each pixel from the camera 21 and the camera 22, respectively, as imaging data. The recognition device 10 recognizes the image represented by the imaged data by the recognition processing shown in FIG. 2, and inputs the recognition result to the control unit 25. The control unit 25 controls the operation of the automobile 1 based on the input recognition result.
カメラ21,22は、自動車1の前方が撮像範囲内となるように搭載されている。カメラ21,22は、ステレオカメラを構成している。 The cameras 21 and 22 are mounted so that the front of the automobile 1 is within the imaging range. The cameras 21 and 22 form a stereo camera.
認識装置10は、CPU11と、ROM、RAM等のメモリ12とを備えた周知のコンピュータとして構成されている。認識装置10は、CPU11とメモリ12とを用いて、メモリに格納されたプログラムを実行することによって認識処理を実行する。 The recognition device 10 is configured as a well-known computer including a CPU 11 and a memory 12 such as a ROM and a RAM. The recognition device 10 uses the CPU 11 and the memory 12 to execute a recognition process by executing a program stored in the memory.
認識装置10は、自動車が走行可能である間、繰り返し、認識処理を実行する。認識処理は、画素毎にラベル付けを実行するセマンティック・セグメンテーションを実現するための処理である。 The recognition device 10 repeatedly executes the recognition process while the vehicle can run. The recognition process is a process for realizing semantic segmentation in which labeling is performed for each pixel.
認識装置10は、認識処理を開始すると、S100として、入力データを生成する。入力データとは、各画素の色相と彩度と距離とをパラメータとするデータである。認識装置10は、カメラ21及びカメラ22から入力される撮像データから、入力データを生成する。入力データの生成には、既知の手法が用いられる。 When the recognition device 10 starts the recognition process, the recognition device 10 generates input data in S100. The input data is data having the hue, saturation, and distance of each pixel as parameters. The recognition device 10 generates input data from the imaged data input from the cameras 21 and 22. A known method is used to generate the input data.
次に、認識装置10は、S200として、初期認識を実行することによって、初期認識値を得る。初期認識は、図3に示されるディープニューラルネットワーク(以下、DN)13に、入力データを入力することによって、取得される。DN13は、メモリ12に予め記憶されている。 Next, the recognition device 10 obtains an initial recognition value by performing initial recognition in S200. The initial recognition is acquired by inputting input data to the deep neural network (hereinafter, DN) 13 shown in FIG. The DN 13 is stored in the memory 12 in advance.
DN13は、複数の中間層を含む。具体的には、DN13は、畳み込みニューラルネットワークと、逆畳み込みニューラルネットワークとを含む。DN13に入力された入力データは、畳み込み層によって、画素数224×224の中間データC1に変換される。 The DN 13 includes a plurality of intermediate layers. Specifically, the DN 13 includes a convolutional neural network and a deconvolutional neural network. The input data input to the DN 13 is converted into the intermediate data C1 having the number of pixels of 224×224 by the convolutional layer.
中間データC1は、プーリング層によって、画素数112×112の中間データP2に変換される。本実施形態では、MAXプーリングを用いる。このように、畳み込み層とプーリング層とによる出力が交互に繰り返され、画素数1×1の全結合層FCに至る。なお、或るプーリング層と、次のプーリング層とに挟まれる畳み込み層の数は、2以上でもよい。 The intermediate data C1 is converted by the pooling layer into the intermediate data P2 having 112×112 pixels. In this embodiment, MAX pooling is used. In this way, the outputs from the convolutional layer and the pooling layer are alternately repeated until the total coupling layer FC having the number of pixels of 1×1 is reached. The number of convolutional layers sandwiched between a certain pooling layer and the next pooling layer may be two or more.
全結合層FCは、逆畳み込み層によって画素数7×7の中間データDC−FCに変換される。中間データDC−FCは、アンプーリング層によって画素数14×14の中間データUP1に変換される。このように、逆畳み込み層とアンプーリング層とによる出力が交互に繰り返され、画素数224×224の中間データDC5が出力されると、初期認識値を得る。図4には、初期認識値と、撮像画像とを重ね合わせた様子が示されている。 The fully concatenated layer FC is converted into intermediate data DC-FC having 7×7 pixels by the deconvolution layer. The intermediate data DC-FC is converted into intermediate data UP1 having 14×14 pixels by the ampling layer. In this way, when the outputs of the deconvolution layer and the ampling layer are alternately repeated and the intermediate data DC5 of the number of pixels 224×224 is output, the initial recognition value is obtained. FIG. 4 shows a state in which the initial recognition value and the captured image are superimposed.
初期認識値は、224×224の画素それぞれに対して、ラベルが付与されたデータである。本実施形態におけるラベルは、ラベルK1が道路、ラベルK2が障害物、ラベルK3が空、ラベルK4が天井を意味するである。天井は、トンネル等における天井のことである。 The initial recognition value is data in which a label is given to each of 224×224 pixels. In the label in this embodiment, the label K1 means a road, the label K2 means an obstacle, the label K3 means an empty space, and the label K4 means a ceiling. The ceiling is a ceiling in a tunnel or the like.
DN13は、多数の学習用入力データとラベルの真値との組み合わせによる教師あり学習によって学習済みであり、各中間層が微調整されている。DN13に入力データを入力すると、各画素について、各ラベルの信頼値が出力される。初期認識は、各画素について、信頼値が最も高いラベルを採用することで実現される。 The DN 13 has been learned by supervised learning using a combination of a large number of learning input data and the true value of the label, and each intermediate layer is finely adjusted. When input data is input to the DN 13, the confidence value of each label is output for each pixel. The initial recognition is realized by adopting the label with the highest confidence value for each pixel.
認識装置10は、初期認識の後、S300におけるシーンの識別と、S400におけるエラー領域の特定とを実行する。 After the initial recognition, the recognition apparatus 10 performs the scene identification in S300 and the error area identification in S400.
シーンの識別は、シーン識別器310にシーン識別用中間データを入力することによって実現される。本実施形態におけるシーン識別用中間データは、中間データP5である。 The scene identification is realized by inputting the scene identification intermediate data to the scene identification unit 310. The scene identification intermediate data in this embodiment is intermediate data P5.
シーン識別器310は、ランダムフォレストを用いている。シーン識別器310は、図5に示す教師あり学習によって学習済みである。 The scene classifier 310 uses a random forest. The scene classifier 310 has been learned by the supervised learning shown in FIG.
例えば、図6に示す画像から生成される中間データP5aを入力とする。そして、図6に示すシーンの真値を「2車線であり、2本の白い実線によって外側の境界が画定されており、1本の破線によって車線が区分されている」を示すシーンの真値をシーンaと学習させる。そして、シーンa及び他の種々のシーン(例えば、高速道路、トンネルなど)それぞれについて、多数のデータを用意し、教師あり学習をさせておく。 For example, the intermediate data P5a generated from the image shown in FIG. 6 is input. Then, the true value of the scene shown in FIG. 6 is “two lanes, the outer boundary is defined by two white solid lines, and the lane is divided by one broken line”. Is learned as scene a. Then, a large amount of data is prepared for each of the scene a and various other scenes (for example, a highway, a tunnel, etc.), and learning with a teacher is performed.
次に、エラー領域について説明する。エラー領域とは、初期認識値の信頼性が低い領域のことである。エラー領域の特定には、初期認識として出力された信頼値を用いる。具体的には、信頼値が突出して高いラベルが無い場合は、エラー領域に含まれる画素であると特定する。 Next, the error area will be described. The error area is an area in which the reliability of the initial recognition value is low. The confidence value output as the initial recognition is used to specify the error area. Specifically, when there is no label with a remarkably high confidence value, it is specified as a pixel included in the error region.
本実施形態においては、各画素についての信頼値を規格化して合計値を100%とした場合に、何れの信頼値も閾値(例えば80%)未満である領域は、エラー領域であると特定される。 In the present embodiment, when the reliability value for each pixel is standardized and the total value is set to 100%, an area in which any reliability value is less than a threshold value (for example, 80%) is specified as an error area. It
例えば、或る画素に付された道路の信頼値が99%であれば、その画素はエラー領域には含まれないと判断される。一方、道路の信頼値が40%、障害物の信頼値が40%、空の信頼値が10%、天井の信頼値が10%であれば、エラー領域に含まれると判断される。図7に示す例の場合、エラー領域E1,E2,E3,E4が特定されている。エラー領域E1,E2,E3,E4それぞれは、閉領域を形成するように特定されている。 For example, if the road reliability value assigned to a certain pixel is 99%, it is determined that the pixel is not included in the error region. On the other hand, if the road reliability value is 40%, the obstacle reliability value is 40%, the sky reliability value is 10%, and the ceiling reliability value is 10%, it is determined that the road area is included in the error area. In the case of the example shown in FIG. 7, the error areas E1, E2, E3 and E4 are specified. Each of the error areas E1, E2, E3, E4 is specified so as to form a closed area.
最後に、初期認識値と、エラー領域の情報と、識別されたシーン(以下、識別シーン)と、絞り込み用中間データとを用いて訂正処理を実行することによって最終認識値を得る。本実施形態における絞り込み用中間データは、図3に示すように、中間データC1である。 Finally, the final recognition value is obtained by executing the correction process using the initial recognition value, the error area information, the identified scene (hereinafter, the identification scene), and the narrowing intermediate data. The narrow-down intermediate data in this embodiment is intermediate data C1 as shown in FIG.
訂正処理では、S600としてのパッチレベルの絞り込みと、S700としての画素レベルでの絞り込みとを、実施する。 In the correction process, the patch level narrowing down in S600 and the pixel level narrowing down in S700 are performed.
本実施形態におけるパッチとは、図7に示すように、4×4に予め区分された各々の領域を意味する。このため、各パッチは、56×56の画素を有する。各パッチは、予め、通し番号が定められている。例えば、最も左上のパッチは、パッチp1であり、パッチp1の右隣がパッチp2、パッチp1の直下はパッチp5である。 The patch in the present embodiment means each area preliminarily divided into 4×4 as shown in FIG. 7. Therefore, each patch has 56×56 pixels. A serial number is determined in advance for each patch. For example, the upper left patch is the patch p1, the patch p2 is on the right of the patch p1, and the patch p5 is immediately below the patch p1.
図2及び図8に示すように、パッチレベルの絞り込みには、初期認識値と、エラー領域の情報と、識別シーンとを用いる。 As shown in FIGS. 2 and 8, the initial recognition value, the error area information, and the identification scene are used for narrowing down the patch level.
具体的には、認識装置10は、まずS610として、エラー領域を含むパッチを特定する。図7に示す例の場合、エラー領域E1がパッチp10に含まれている。さらに、エラー領域E2がパッチp6に、エラー領域E3がパッチp11に、エラー領域E4がパッチp12に含まれている。このため、パッチp6,p10,p11,p12が特定される。 Specifically, the recognition device 10 first identifies a patch including an error area in S610. In the case of the example shown in FIG. 7, the error area E1 is included in the patch p10. Further, the error area E2 is included in the patch p6, the error area E3 is included in the patch p11, and the error area E4 is included in the patch p12. Therefore, the patches p6, p10, p11, p12 are specified.
次に、認識装置10は、S620として、特定したパッチそれぞれについて、識別シーンに基づき、学習済みの位置関係特徴量を読み出す。 Next, in S620, the recognition device 10 reads out the learned positional relationship feature amount for each identified patch based on the identification scene.
ここで位置関係特徴量、及びその学習について説明する。本実施形態における位置関係特徴量は、シーンに依存する特徴量であり、且つ、ラベル同士の相対的な位置関係に関する特徴量である。位置関係特徴量は、図9に示されるように、シーン毎に、教師あり学習によって学習される。 Here, the positional relationship feature amount and its learning will be described. The positional relationship feature amount in the present embodiment is a feature amount that depends on the scene, and is also a feature amount related to the relative positional relationship between labels. As shown in FIG. 9, the positional relationship feature amount is learned by supervised learning for each scene.
学習に際しては、教師あり学習における真値としてのセットを多数、与える。各セットは、シーンの真値と、そのシーンに属する入力データの各画素(224×224)に付した真値としてのラベルから構成される。 In learning, many sets as true values in supervised learning are given. Each set is composed of a true value of a scene and a label as a true value attached to each pixel (224×224) of input data belonging to the scene.
或る1つのセットに含まれるシーンの真値をシーンsとし、そのセットに含まれる真値としてのラベルの空間配置をラベル配置Gとして、以下、このセットの学習を例にとって説明する。位置関係特徴量の学習は、シーンsに、ラベル配置Gの位置関係特徴量を対応付けることによって実現される。 Let us say that the true value of a scene included in a certain set is a scene s, and the spatial arrangement of labels as the true value included in that set is a label arrangement G, and learning of this set will be described below as an example. The learning of the positional relationship feature amount is realized by associating the positional relationship feature amount of the label arrangement G with the scene s.
ラベル配置Gの位置関係特徴量の計算は、まず図10に示すように、先述したパッチに分割されたラベル配置Pと、4個のレセプタに分割されたラベル配置Qとを生成する。このため、各レセプタは、112×112の画素を有する。ラベル配置Qに含まれるレセプタには、q1〜q4の通し番号が付けられている。ラベル配置Qに含まれるレセプタの数は、ラベル配置Pに含まれるパッチの数よりも少ない。 The calculation of the positional relationship feature amount of the label arrangement G first generates the label arrangement P divided into the patches described above and the label arrangement Q divided into four receptors, as shown in FIG. Therefore, each receptor has 112×112 pixels. The receptors included in the label arrangement Q are assigned serial numbers q1 to q4. The number of receptors included in the label arrangement Q is smaller than the number of patches included in the label arrangement P.
位置関係特徴量gは、パッチのp1〜p16それぞれについて計算される。具体的には、下記の式によって算出される。
gpn s=[ωpn K1,ωpn K2,ωpn K3,ωpn K4]・・・(1)
上の式のsは、シーンsの位置関係特徴量gであることを示す。pnは、p1〜p16の何れか1つであることを示す。K1〜K4は、ラベルを示す。以下では、K1〜K4の何れか1つであることをKmとも表記する。
The positional relationship feature amount g is calculated for each of the patches p1 to p16. Specifically, it is calculated by the following formula.
g pn s =[ω pn K1 , ,ω pn K2 ,ω pn K3 ,ω pn K4 ]・・・(1)
S in the above equation indicates that it is the positional relationship feature amount g of the scene s. pn indicates any one of p1 to p16. K1 to K4 represent labels. Hereinafter, any one of K1 to K4 is also referred to as Km.
ωpn Kmは、(パッチpnにおけるラベルKm)−(レセプタq1〜q4における全てのラベル)の幾何的な関係を示す。図10に示された矢印は、ωp16 K1を構成するベクトルを示している。 ω pn Km represents a geometrical relationship of (label Km in patch pn)-(all labels in receptors q1 to q4). The arrow shown in FIG. 10 indicates a vector forming ω p16 K1 .
上記のベクトルを表記すると、次の式のようになる。
ωpn Km=[v(pn,q1)Km K1,…,v(pn,q4)Km K1,…,v(pn,q1)Km K4,…,v(pn,q4)Km K4]・・・(2)
v(pn,q1)Km K1は、(パッチpnでラベルKm)−(レセプタq1でラベルK1)の2次元平均空間ベクトルである。v(pn,q4)Km K1は、(パッチpnでラベルKm)−(レセプタq4でラベルK1)の2次元平均空間ベクトルである。v(pn,q1)Km K4は、(パッチpnでラベルKm)−(レセプタq1でラベルK4)の2次元平均空間ベクトルである。v(pn,q4)Km K4は、(パッチpnでラベルKm)−(レセプタq4でラベルK4)の2次元平均空間ベクトルである。
Notation of the above vector is as follows.
ω pn Km = [v(pn,q1) Km K1 ,…,v(pn,q4) Km K1 ,…,v(pn,q1) Km K4 ,…,v(pn,q4) Km K4 ]・・・(2)
v(pn,q1) Km K1 is a two-dimensional average space vector of (patch Km with patch pn)−(label K1 with receptor q1). v(pn,q4) Km K1 is a two-dimensional average space vector of (label Km for patch pn)-(label K1 for receptor q4). v(pn,q1) Km K4 is a two-dimensional average space vector of (patch Km with patch pn)−(label K4 with receptor q1). v(pn,q4) Km K4 is a two-dimensional average space vector of ((patch mn is label Km)-(receptor q4 is label K4).
例えば平均空間ベクトルv(pn,q4)Km K1は、(ラベルKm−パッチpnの重心)と、(ラベルK1を含むレセプタq4を構成する全画素)との間の空間ベクトルによって算出される。 For example, the average space vector v(pn,q4) Km K1 is calculated by the space vector between (label Km- center of gravity of patch pn) and (all pixels constituting receptor q4 including label K1).
平均空間ベクトルは、計算された全ての空間ベクトルの平均値で、2次元の大きさと角度とで表される。ここでいう角度は、水平軸となす角度である。 The average space vector is an average value of all calculated space vectors and is represented by a two-dimensional size and an angle. The angle mentioned here is an angle formed with the horizontal axis.
v(pn,qi)Km K1は、ラベルK1がレセプタqiに含まれない場合、ゼロベクトル[0,0]になる。iは、1〜4の何れかである。例えば、図10に示すように、レセプタq1にはラベルK1は含まれていないので、v(pn,q1)Km K1は、ゼロベクトルになる。よって、図10には、v(p16,q1)K1 K1を示すベクトルは示されていない。 v(pn,qi) Km K1 becomes a zero vector [0,0] when the label K1 is not included in the receptor qi. i is any one of 1-4. For example, as shown in FIG. 10, since the label q1 is not included in the receptor q1, v(pn,q1) Km K1 becomes a zero vector. Therefore, the vector indicating v(p16,q1) K1 K1 is not shown in FIG.
同様に、v(pn,qi)Km K1は、ラベルKmがパッチpnに含まれない場合、ゼロベクトル[0,0]になる。従って、式(2)から、ωpn Kmは、ラベルKmがパッチpnに含まれていない場合、ゼロ値のみを含む。つまり、パッチpnにラベルKmが含まれていない場合、式(2)は、次のようになる。
ωpn Km=[0,…,0,…,0,…,0]・・・(3)
Similarly, v(pn,qi) Km K1 becomes a zero vector [0,0] when the label Km is not included in the patch pn. Therefore, from equation (2), ω pn Km contains only a zero value if the label Km is not included in the patch pn. That is, when the label Km is not included in the patch pn, the equation (2) is as follows.
ω pn Km =[0,…,0,…,0,…,0]・・・(3)
認識装置10は、上記の手法によって、多数の真値のセットについて学習を済ませている。認識装置10は、先述したようにS620において、エラー領域として特定したパッチそれぞれについて、識別シーンに基づき位置関係特徴量gを読み出す。 The recognition device 10 has learned many sets of true values by the above method. As described above, the recognition device 10 reads the positional relationship feature amount g based on the identification scene for each patch identified as the error region in S620.
一方で、認識装置10は、S630として、エラー領域として特定したパッチそれぞれについて、学習時と同様な計算を実行することによって、位置関係特徴量ρpn s(Km)を算出する。S630においては、Kmとして、ラベルK1〜K4それぞれについての位置関係特徴量ρpn sを算出する。ラベルK1について算出する場合は、ラベルK1を訂正候補として算出する。つまり、ラベルK1について算出する場合は、算出対象のパッチにおける支配的なラベルがラベルK1であることを仮定する。ラベルK2〜K4それぞれについての算出も同様である。 On the other hand, in S630, the recognition apparatus 10 calculates the positional relationship feature amount ρ pn s (Km) by performing the same calculation as that at the time of learning for each patch identified as the error region. In S630, the positional relationship feature amount ρ pn s for each of the labels K1 to K4 is calculated as Km. When calculating the label K1, the label K1 is calculated as a correction candidate. That is, when calculating the label K1, it is assumed that the dominant label in the patch to be calculated is the label K1. The same applies to the calculation for each of the labels K2 to K4.
或るパッチにおける支配的なラベルとは、そのパッチ内において、他のラベルに比べて、突出して多くの画素に対応付けられたラベルのことである。 The dominant label in a patch is a label that is associated with a larger number of pixels in the patch than other labels.
続いて、S630として、パッチに基づく枝刈りを実行し、絞り込まれたラベルを出力する。パッチに基づく枝刈りとは、具体的には、次の内容を意味する。 Subsequently, in S630, pruning based on the patch is executed, and the narrowed down label is output. The pruning based on the patch specifically means the following contents.
各パッチについて、S620で読み出した位置関係特徴量gと、S630で算出した位置関係特徴量ρとのユークリッド距離の差を、ラベルK1〜K4のそれぞれについて計算する。この差が閾値以上であるラベルを除外し、訂正候補を残ったラベルに絞り込む。支配的な1つのラベルだけが残る場合もあるし、複数のラベルが残る場合もある。 For each patch, the difference in Euclidean distance between the positional relationship feature amount g read out in S620 and the positional relation feature amount ρ calculated in S630 is calculated for each of the labels K1 to K4. Labels for which this difference is greater than or equal to a threshold are excluded, and correction candidates are narrowed down to the remaining labels. In some cases, only one dominant label remains, and in some cases multiple labels remain.
パッチに基づく枝刈りとは、このようにして、各パッチにおける訂正候補とならないラベルを除外する処理のことである。 The pruning based on the patch is a process of eliminating the label that is not a correction candidate in each patch in this way.
図2及び図11に示すように、画素レベルの絞り込みは、絞り込み用中間データと、エラー領域の情報と、識別シーンと、絞り込まれたラベルの情報とを用いて、最終認識値を出力する。 As shown in FIGS. 2 and 11, in the pixel level narrowing down, the final recognition value is output using the narrowing down intermediate data, the error area information, the identification scene, and the narrowed down label information.
認識装置10は、まずS710として、各エラー領域の重心となる画素(以下、重心画素)を、各エラー領域の代表として特定する。厳密に重心に一致する画素が無い場合は、重心からの距離が最も短い画素を、重心画素として特定する。 First, in S710, the recognition apparatus 10 identifies the pixel serving as the center of gravity of each error area (hereinafter, the center of gravity pixel) as a representative of each error area. If no pixel exactly coincides with the center of gravity, the pixel having the shortest distance from the center of gravity is specified as the center of gravity pixel.
続いて、認識装置10は、S720として、各エラー領域の重心画素について、学習済みの外見−距離特徴量を読み出す。外見−距離特徴量は、シーンに依存した特徴量である。且つ、外見−距離特徴量は、色相、彩度、距離に関する特徴量であるので、入力データに含まれるパラメータに対応する特徴量である。 Subsequently, in S720, the recognition device 10 reads out the learned appearance-distance feature amount for the centroid pixel of each error region. The appearance-distance feature quantity is a scene-dependent feature quantity. In addition, the appearance-distance feature amount is a feature amount related to hue, saturation, and distance, and thus is a feature amount corresponding to the parameter included in the input data.
図9に示すように、外見−距離特徴量は、シーン毎に、教師あり学習によって学習される。学習に際しては、教師あり学習における真値としてのセットを多数、与える。各セットは、位置関係特徴量の学習に用いた真値に加え、そのシーンに属する入力データに畳み込み処理を施したデータから構成される。ここでの畳み込み処理は、DN13における中間データC1を得るための畳み込み処理のことである。つまり、このデータは、DN13によって出力される中間データC1である。 As shown in FIG. 9, the appearance-distance feature amount is learned by supervised learning for each scene. In learning, many sets as true values in supervised learning are given. Each set is composed of the true value used for learning the positional relationship feature amount and the data obtained by performing convolution processing on the input data belonging to the scene. The convolution process here is a convolution process for obtaining the intermediate data C1 in the DN 13. That is, this data is the intermediate data C1 output by the DN 13.
DN13の説明においては省略したが、中間データC1は、D個の224×224の画素からなるデータによって構成される。Dは、2以上の整数である。このため、例えば図12に示す画素nに対して、畳み込み処理によって得られるD次元の特徴ベクトルを対応付けることができる。図12には、画素nに対応する特徴ベクトルλ(h,w)が示されている。 Although omitted in the description of the DN 13, the intermediate data C1 is composed of data composed of D 224×224 pixels. D is an integer of 2 or more. Therefore, for example, the pixel n shown in FIG. 12 can be associated with the D-dimensional feature vector obtained by the convolution processing. FIG. 12 shows the feature vector λ(h,w) corresponding to the pixel n.
図12に示すように、本実施形態においては、中間データC1を得るための畳み込み層において、3×3のフィルタを用いている。従って、特徴ベクトルλは、画素nの周囲8画素のパラメータを反映している特徴量である。 As shown in FIG. 12, in the present embodiment, a 3×3 filter is used in the convolutional layer for obtaining the intermediate data C1. Therefore, the feature vector λ is a feature amount that reflects the parameters of eight pixels around the pixel n.
このような特徴ベクトルの平均を取ることによって、画素nに対応する外見−距離特徴量を決定し、学習データとする。外見−距離特徴量は、外見と距離との情報から生成された特徴量である。ここでいう外見とは、彩度と色相とのことである。外見−距離特徴量として、色相、彩度および距離に関する特徴量が得られるのは、入力データがこれらのパラメータで構成されているからである。 By averaging such feature vectors, the appearance-distance feature amount corresponding to the pixel n is determined and used as learning data. The appearance-distance feature amount is a feature amount generated from information on appearance and distance. Appearance here means saturation and hue. As the appearance-distance feature amount, the feature amount relating to hue, saturation, and distance is obtained because the input data is composed of these parameters.
特徴ベクトルの平均とは、同じシーンに属する入力データにおける同じ位置の画素、且つ、同じ真値としてのラベルが付された画素について取得された特徴ベクトルの平均のことである。このため、外見−距離特徴量は、シーン毎且つ画素毎について、各ラベルの学習データが得られる。S720では、識別シーン及び重心画素に対応する各ラベルの外見−距離特徴量を読み出す。 The average of the feature vectors is the average of the feature vectors acquired for the pixels at the same position in the input data belonging to the same scene, and the pixels labeled as the same true value. Therefore, as the appearance-distance feature amount, learning data of each label is obtained for each scene and each pixel. In S720, the appearance-distance feature amount of each label corresponding to the identification scene and the barycentric pixel is read.
一方で、S730として、絞り込み用中間データとしての中間データC1から、各エラー領域の重心画素について、外見−距離特徴量を取得する。S730においては、上記の学習と同様な手法によって取得される特徴ベクトルを、外見−距離特徴量として取得する。 On the other hand, in S730, the appearance-distance feature amount is acquired for the center-of-gravity pixel of each error region from the intermediate data C1 as the intermediate data for narrowing down. In S730, the feature vector acquired by the same method as the above learning is acquired as the appearance-distance feature amount.
最後に、S740として、最終認識値を出力する。S740は、図11に示すように、S720及びS730による出力、並びに、S630によって絞り込まれたラベルに基づき実行される。S740は、ユークリッド距離に基づくラベルの訂正が実行される。具体的には、次のように実行される。 Finally, as S740, the final recognition value is output. As shown in FIG. 11, S740 is executed based on the outputs of S720 and S730 and the label narrowed down by S630. In S740, the label correction based on the Euclidean distance is executed. Specifically, it is executed as follows.
各重心画素について、S720で読み出した特徴ベクトルと、S730で取得した特徴ベクトルとのユークリッド距離の差を、ラベル毎に算出する。この差が閾値以下のラベルが、重心画素を含むエラー領域全体の訂正候補となる。この訂正候補になったラベルの何れかが、S600で絞り込まれたラベルの何れかと一致する場合、初期認識値としてのラベルを、そのラベルに訂正する。 For each centroid pixel, the difference in Euclidean distance between the feature vector read in S720 and the feature vector acquired in S730 is calculated for each label. Labels whose difference is less than or equal to a threshold value are correction candidates for the entire error area including the centroid pixel. If any of the labels that are candidates for correction matches any of the labels narrowed down in S600, the label as the initial recognition value is corrected to that label.
複数のラベルが一致する場合、情報特徴量および位置関係特徴量のユークリッド距離の和が最も短いラベルに訂正する。この場合、情報特徴量および位置関係特徴量に適宜、重み付けをしてもよい。このように訂正されたラベルを含む出力が、最終認識値である。 When a plurality of labels match, the label having the shortest sum of the Euclidean distances of the information feature amount and the positional relation feature amount is corrected. In this case, the information feature amount and the positional relationship feature amount may be appropriately weighted. The output containing the label thus corrected is the final recognition value.
図13に示す初期認識値に比べ、図14に示す最終認識値の場合は、特に、破線で囲った領域において認識精度が向上している。つまり、最終認識値の場合、破線で囲った領域において、道路と障害物との境界をより正確に認識できている。 Compared with the initial recognition value shown in FIG. 13, in the case of the final recognition value shown in FIG. 14, the recognition accuracy is improved particularly in the area surrounded by the broken line. That is, in the case of the final recognition value, the boundary between the road and the obstacle can be recognized more accurately in the area surrounded by the broken line.
(1)上記のように認識精度が向上するのは、中間データを利用しているからである。
(2)中間データの1つであるシーン識別用中間データは、シーンの識別に用いられる。このため、識別シーンを利用した訂正を実行できる。
(3)シーン識別用中間データとしての中間データP5は、複数回のプーリング処理によって、7×7までに情報が圧縮されたデータであるので、シーンの識別用として適している。
(4)シーンの識別は、教師あり学習によって学習済みのデータとの比較に基づき実行するため、精度が高い。
(1) The recognition accuracy is improved as described above because the intermediate data is used.
(2) The scene identification intermediate data, which is one of the intermediate data, is used for scene identification. Therefore, the correction using the identification scene can be executed.
(3) Since the intermediate data P5 as the intermediate data for scene identification is data whose information is compressed up to 7×7 by a plurality of pooling processes, it is suitable for scene identification.
(4) Since the scene identification is performed based on the comparison with the data learned by the supervised learning, the accuracy is high.
(5)絞り込み用中間データである中間データC1を用いることによって、画素レベルで周囲の影響が反映された特徴量を取得できる。そして、この特徴量である特徴ベクトルを、学習結果と比較することによって、認識精度が向上する。
(6)中間データC1は、入力データに対して1回の畳み込み処理によって得られるデータであるので、入力データとの関係を示す特徴量として適している。
(7)中間データC1は、プーリング処理が施されておらず、圧縮されていないので、入力データとの関係を示す特徴量として適している。
(5) By using the intermediate data C1 which is the intermediate data for narrowing down, it is possible to acquire the feature amount in which the influence of the surroundings is reflected at the pixel level. Then, the recognition accuracy is improved by comparing the feature vector, which is the feature amount, with the learning result.
(6) Since the intermediate data C1 is data obtained by performing the convolution process once on the input data, it is suitable as a feature amount indicating the relationship with the input data.
(7) Since the intermediate data C1 has not been subjected to pooling processing and has not been compressed, it is suitable as a feature amount indicating the relationship with the input data.
(8)訂正処理において、位置関係特徴量を用いるので、訂正の精度が向上する。
(9)位置関係特徴量の算出は、パッチとレセプタとを用いることによって適切に実行できる。
(8) Since the positional relationship feature amount is used in the correction process, the accuracy of correction is improved.
(9) The calculation of the positional relationship feature amount can be appropriately executed by using the patch and the receptor.
(10)訂正処理は、情報特徴量と位置関係特徴量とを総合して、訂正を実行するので、訂正の精度が向上する。 (10) In the correction process, since the correction is performed by integrating the information feature amount and the positional relationship feature amount, the accuracy of the correction is improved.
(11)訂正処理は、エラー領域を対象に実行するので、初期推定において信頼値が高いラベルを訂正の対象から除外できる。このため、処理負荷が軽減されると共に、訂正の必要が無いラベルを訂正することが抑制される。
(12)位置関係特徴量の算出対象から、エラー領域を含まないパッチが除外されるので、処理負荷が軽減される。
(13)各エラー領域の訂正は、エラー領域を代表する画素の訂正結果を援用して実行されるので、処理負荷が軽減される。
(14)エラー領域を代表する画素は、重心画素であるので、エラー領域の端に位置するような画素が代表となる場合と比べ、訂正の精度が向上する。
(11) Since the correction process is performed on the error region as a target, the label having a high confidence value in the initial estimation can be excluded from the correction target. Therefore, the processing load is reduced and the correction of the label that does not need to be corrected is suppressed.
(12) Since the patch not including the error area is excluded from the calculation target of the positional relationship feature amount, the processing load is reduced.
(13) Since the correction of each error area is executed by using the correction result of the pixel representing the error area, the processing load is reduced.
(14) Since the pixel representing the error area is the center-of-gravity pixel, the accuracy of correction is improved as compared with the case where the pixel located at the end of the error area is the representative pixel.
外見−距離特徴量は、情報特徴量に対応する。この他、S200は初期認識部、S300はシーン識別部、S400は特定部、S500は訂正部、S630は算出部、S710は重心画素取得部、S730は情報特徴量取得部、S740は訂正実行部に対応する。 The appearance-distance feature amount corresponds to the information feature amount. In addition, S200 is an initial recognition unit, S300 is a scene identification unit, S400 is a specification unit, S500 is a correction unit, S630 is a calculation unit, S710 is a centroid pixel acquisition unit, S730 is an information feature amount acquisition unit, and S740 is a correction execution unit. Corresponding to.
本開示は、本明細書の実施形態や実施例、変形例に限られるものではなく、その趣旨を逸脱しない範囲において種々の構成で実現できる。例えば、発明の概要の欄に記載した各形態中の技術的特徴に対応する実施形態、実施例、変形例中の技術的特徴は、先述の課題の一部又は全部を解決するために、或いは、先述の効果の一部又は全部を達成するために、適宜、差し替えや、組み合わせができる。その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜、削除できる。例えば、以下のものが例示される。 The present disclosure is not limited to the embodiments, examples, and modified examples of the present specification, and can be realized in various configurations without departing from the gist thereof. For example, the technical features in the embodiments, examples, and modifications corresponding to the technical features in each mode described in the column of the outline of the invention are to solve some or all of the above-mentioned problems, or In order to achieve some or all of the effects described above, they can be replaced or combined as appropriate. If the technical features are not described as essential in this specification, they can be deleted as appropriate. For example, the following are exemplified.
中間データの利用は、シーンに依存しなくてもよい。例えば、場所に対して固定されたカメラから撮像データを得て認識を実行する場合、シーンは固定されている。このような場合、その固定されたシーンにおいて、変化し得る物体を認識するために、中間データを利用してもよい。 Utilization of the intermediate data may not depend on the scene. For example, when capturing image data from a camera that is fixed for a location and performing recognition, the scene is fixed. In such a case, the intermediate data may be used to recognize a changeable object in the fixed scene.
自動車の走行制御以外に利用されてもよい。例えば、先述したように、固定カメラに適用してもよいし、他の輸送用機器(例えば二輪車)でもよいし、ロボットでもよい。 It may be used for other than the traveling control of the automobile. For example, as described above, it may be applied to a fixed camera, may be another transportation device (for example, a motorcycle), or may be a robot.
S600におけるパッチレベルの絞り込み、及びS700における画素レベルの絞り込みは、何れか1つのみを実行してもよい。この場合でも、中間データの利用による認識精度の向上は、実現される。 Only one of the patch level narrowing in S600 and the pixel level narrowing in S700 may be executed. Even in this case, the improvement of the recognition accuracy by using the intermediate data is realized.
エラー領域の特定は、実行しなくてもよい。この場合、パッチレベルの絞り込みは全パッチを対象にしてもよいし、画素レベルの絞り込みは全画素を対象にしてもよい。 It is not necessary to specify the error area. In this case, the patch level may be narrowed down to all patches, or the pixel level may be narrowed down to all pixels.
入力データは、色相、彩度、距離によって構成されていなくてもよい。例えば、RGB値と距離とによって構成されていてもよいし、輝度値と距離とによって構成されていてもよい。輝度値と距離とによって構成される場合、撮像画像はモノクロでもよい。 The input data may not be composed of hue, saturation, and distance. For example, it may be composed of RGB values and a distance, or may be composed of a luminance value and a distance. The captured image may be monochrome if it is composed of a luminance value and a distance.
入力データに含まれる距離の情報は、ステレオカメラ以外から取得してもよい。例えば、デプスセンサーを用いてもよいし、レーダ波などを用いてもよい。 The information on the distance included in the input data may be acquired from other than the stereo camera. For example, a depth sensor may be used, or a radar wave or the like may be used.
上記実施形態において、ソフトウエアによって実現された機能及び処理の一部又は全部は、ハードウエアによって実現されてもよい。また、ハードウエアによって実現された機能及び処理の一部又は全部は、ソフトウエアによって実現されてもよい。ハードウエアとしては、例えば、集積回路、ディスクリート回路、または、それらの回路を組み合わせた回路モジュールなど、各種回路を用いてもよい。 In the above embodiment, some or all of the functions and processes realized by software may be realized by hardware. In addition, some or all of the functions and processes realized by hardware may be realized by software. As the hardware, for example, various circuits such as an integrated circuit, a discrete circuit, or a circuit module in which these circuits are combined may be used.
13 ディープニューラルネットワーク、20 認識装置 13 deep neural networks, 20 recognizers
Claims (14)
前記認識対象の画像が属するシーンを、前記複数の中間層の少なくとも1層から出力される中間データの少なくとも一部であるシーン識別用中間データに基づき識別するシーン識別部(S300)と、
前記初期認識値を対象に、前記中間データに基づく訂正を実行する訂正部(S500)であって、前記訂正を、前記識別されたシーンに基づき実行する訂正実行部(S740)を備える訂正部(S500)と、
を備える認識装置。 By inputting information for each pixel acquired from the image to be recognized as input data to the deep neural network (13) including a plurality of intermediate layers, each pixel is labeled and an initial recognition value is acquired. An initial recognition unit (S200),
A scene identification unit (S300) for identifying a scene to which the image to be recognized belongs, based on scene identification intermediate data that is at least a part of intermediate data output from at least one of the plurality of intermediate layers;
Targeting the initial recognition value, the a correcting unit that executes a correction based on the intermediate data (S500), the correct, the identified correction execution unit for executing, based on the scene (S740) and correction unit comprising ( S500) ,
A recognition device including.
請求項1に記載の認識装置。 The recognition device according to claim 1 , wherein the intermediate data for scene identification is data subjected to at least one pooling process.
請求項1または請求項2に記載の認識装置。 The scene discrimination unit, an identification of the scene, and the intermediate data the scene identification, recognition apparatus according to claim 1 or claim 2 executes based on the comparison of the learned data by supervised learning.
前記訂正実行部は、前記訂正を、前記取得された情報特徴量と、前記識別されたシーンを真値とした教師あり学習によって学習済みの情報特徴量との比較に基づき実行する
請求項1から請求項3までの何れか一項に記載の認識装置。 The correction unit further includes an information characteristic amount acquisition unit (S730) that acquires an information characteristic amount that is a characteristic amount corresponding to a parameter included in the input data from the narrowing intermediate data that is at least a part of the intermediate data. Prepare,
The correction execution unit, the correction, the acquisition information feature amount, from claim 1 to perform on the basis of a comparison between the learned information feature amount by supervised learning that the identified scene true value The recognition device according to claim 3 .
請求項4に記載の認識装置。 The recognition device according to claim 4 , wherein the narrowing intermediate data is data obtained by performing convolution processing on the input data at least once.
請求項4又は請求項5に記載の認識装置。 The intermediate data for narrowing the recognition device according to the input data, to claim 4 or claim 5 pooling process is data that has not been subjected.
前記訂正実行部は、前記訂正を、前記取得された位置関係特徴量と、前記識別されたシーンを真値とした教師あり学習によって学習済みの位置関係特徴量との比較に基づき実行する
請求項1から請求項6までの何れか一項に記載の認識装置。 The correction unit further includes a calculation unit (S630) that calculates a positional relationship feature amount regarding a relative positional relationship between the labels in the initial recognition value.
The correction execution unit executes the correction based on a comparison between the acquired positional relation feature amount and the positional relation feature amount learned by supervised learning with the identified scene as a true value. The recognition device according to any one of claims 1 to 6 .
請求項7に記載の認識装置。 The calculation unit calculates the positional relationship feature amount by using a plurality of patches configured by collecting labeled pixels included in the initial recognition value in a first size, and a label included in the initial recognition value. A plurality of receptors configured by collecting attached pixels with a second size larger than the first size is prepared, and a label included in each of the plurality of patches and a plurality of labels included in each of the plurality of receptors are provided. The recognition device according to claim 7, which is realized by deriving a relationship with a label.
請求項4、請求項5又は請求項6に従属する請求項7又は請求項8に記載の認識装置。 Claim wherein the correction execution unit, the said correction, the information features and claim 4 performed by Filter label as a correction candidate with the positional relationship characteristic amount, dependent on claim 5 or claim 6 The recognition device according to claim 7 or claim 8 .
前記訂正部は、前記訂正を、前記初期認識値として前記特定されたエラー領域に含まれる画素に付されたラベルの少なくとも一部を対象に実行する
請求項1から請求項9までの何れか一項に記載の認識装置。 Further comprising a specifying unit (S400) for specifying an error area that is a closed area due to pixels whose reliability as the initial recognition value is less than a threshold value
The correction unit, the correct, the initial recognition either of said at least some of the labels applied to the pixels included in the specified error area claims 1 to run in the target to claim 9 as a value one The recognition device according to the item.
請求項8に従属する請求項10に記載の認識装置。 The recognition device according to claim 10 , which is dependent on claim 8 , wherein the calculation unit calculates the positional relationship feature amount for the patch including the specified error region.
請求項4から請求項6までの何れか一項に従属する請求項10に記載の認識装置。 7. The correction execution unit applies the correction for a pixel that is a representative of each of the error regions to the correction for each of the error regions, and is dependent on any one of claims 4 to 6. The recognition device according to item 10 .
請求項12に記載の認識装置。 The recognition device according to claim 12 , wherein the correction execution unit further includes a centroid pixel acquisition unit (S710) that obtains a pixel serving as a centroid of each of the error regions as the representative pixel.
前記認識対象の画像が属するシーンを、前記複数の中間層の少なくとも1層から出力される中間データの少なくとも一部であるシーン識別用中間データに基づき識別し、
前記初期認識値を対象に、前記識別されたシーンに基づき訂正する
ことを認識装置に実行させるためのプログラム。 By inputting the information of each pixel acquired from the image to be recognized as input data to the deep neural network (13) including a plurality of intermediate layers, each pixel is labeled and the initial recognition value is acquired. ,
A scene to which the image to be recognized belongs is identified based on scene identification intermediate data that is at least a part of intermediate data output from at least one layer of the plurality of intermediate layers,
A program for causing a recognition device to correct the initial recognition value based on the identified scene .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016215759A JP6701057B2 (en) | 2016-11-04 | 2016-11-04 | Recognizer, program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016215759A JP6701057B2 (en) | 2016-11-04 | 2016-11-04 | Recognizer, program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018073308A JP2018073308A (en) | 2018-05-10 |
JP6701057B2 true JP6701057B2 (en) | 2020-05-27 |
Family
ID=62115505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016215759A Active JP6701057B2 (en) | 2016-11-04 | 2016-11-04 | Recognizer, program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6701057B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7020322B2 (en) * | 2018-07-06 | 2022-02-16 | 株式会社明電舎 | Building limit judgment device |
JP7207479B2 (en) * | 2018-07-06 | 2023-01-18 | 株式会社明電舎 | Building gauge determination method |
CN109345510A (en) * | 2018-09-07 | 2019-02-15 | 百度在线网络技术(北京)有限公司 | Object detecting method, device, equipment, storage medium and vehicle |
CN115039123A (en) | 2020-02-12 | 2022-09-09 | 三菱电机株式会社 | Object recognition device, driving support device, server, and object recognition method |
-
2016
- 2016-11-04 JP JP2016215759A patent/JP6701057B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018073308A (en) | 2018-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110411441B (en) | System and method for multi-modal mapping and localization | |
CN110807350B (en) | System and method for scan-matching oriented visual SLAM | |
Asvadi et al. | 3D object tracking using RGB and LIDAR data | |
US9846812B2 (en) | Image recognition system for a vehicle and corresponding method | |
US8005266B2 (en) | Vehicle surroundings monitoring apparatus | |
US8467596B2 (en) | Method and apparatus for object pose estimation | |
JP5926228B2 (en) | Depth detection method and system for autonomous vehicles | |
US11887336B2 (en) | Method for estimating a relative position of an object in the surroundings of a vehicle and electronic control unit for a vehicle and vehicle | |
KR102516326B1 (en) | Camera extrinsic parameters estimation from image lines | |
JP6701057B2 (en) | Recognizer, program | |
WO2012086821A1 (en) | Positioning apparatus and positioning method | |
KR20210090384A (en) | Method and Apparatus for Detecting 3D Object Using Camera and Lidar Sensor | |
KR102089343B1 (en) | Around view monitoring system and calibration method for around view cameras | |
JP2014137815A (en) | System and method for correcting camera image with distortion | |
JP2010224930A (en) | Road recognition device | |
Shi et al. | Extrinsic calibration and odometry for camera-LiDAR systems | |
JP6410231B2 (en) | Alignment apparatus, alignment method, and computer program for alignment | |
CN114820809A (en) | Parameter determination method, equipment and computer storage medium | |
JP6886136B2 (en) | Alignment device, alignment method and computer program for alignment | |
JP2022002045A (en) | Partial image generating device and computer program for partial image generation | |
CN111656404A (en) | Image processing method and system and movable platform | |
CN117148832A (en) | Mobile robot obstacle avoidance method based on multi-depth camera | |
CN116343165A (en) | 3D target detection system, method, terminal equipment and storage medium | |
JP7293100B2 (en) | camera system | |
KR102346849B1 (en) | Electronic device for combining image data and sensing data, and data combining method of the electronic device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190118 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191211 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200407 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200501 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6701057 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |