FR3147649A1

FR3147649A1 - Procédé et dispositif de détermination de données représentatives d’au moins un objet dynamique dans une scène par un système de vision monoscopique.

Info

Publication number: FR3147649A1
Application number: FR2303335A
Authority: FR
Inventors: Hai Li
Original assignee: PSA Automobiles SA
Current assignee: PSA Automobiles SA
Priority date: 2023-04-04
Filing date: 2023-04-04
Publication date: 2024-10-11

Abstract

Procédé ou dispositif mettant en œuvre un procédé de détermination de données représentatives de mouvement d’au moins un objet par un système de vision monoscopique comprenant un au moins une caméra (11) embarqué dans un véhicule (10), le procédé étant caractérisé en ce qu’il comprend les étapes de réception de premières, deuxièmes et troisièmes données représentatives de trois images acquises par la caméra (11) à trois instants temporels d’acquisition distincts t1, t2 et t3, le calcul de premières profondeurs associées à un ensemble de pixels de la première image et de deuxièmes profondeurs associées à un ensemble de pixels de la deuxième image, la détermination d’un masque de visibilité associé à la première image et la détermination d’un masque d’objets dynamiques associé à la première image et représentatif d’un ensemble de pixels de la première image associé à au moins un objet en mouvement dans la scène. Figure pour l’abrégé : Figure 1

Description

Procédé et dispositif de détermination de données représentatives d’au moins un objet dynamique dans une scène par un système de vision monoscopique.

La présente invention concerne les procédés et dispositifs de détermination de données représentatives d’au moins un objet dynamique dans une scène par un système de vision embarqué dans un véhicule, par exemple dans un véhicule automobile. La présente invention concerne également un procédé et un dispositif détermination d’information sur le mouvement d’un tel objet. La présente invention concerne également un procédé et un dispositif de contrôle d’un ou plusieurs systèmes ADAS embarqués dans un véhicule à partir d’information de mouvement déterminée d’un objet.

Arrière-plan technologique

De nombreux véhicules modernes sont équipés de systèmes d’aide à la conduite dits ADAS (de l’anglais « Advanced Driver-Assistance System » ou en français « Système d’aide à la conduite avancé »). De tels systèmes ADAS sont des systèmes de sécurité passifs et actifs conçus pour éliminer la part d'erreur humaine dans la conduite de véhicules de tous types. Les ADAS utilisent des technologies avancées pour assister le conducteur pendant la conduite et améliorer ainsi ses performances. Les ADAS utilisent une combinaison de technologies de capteurs pour percevoir l’environnement autour d’un véhicule, puis fournissent des informations au conducteur ou agissent sur certains systèmes du véhicule.

Il existe plusieurs niveaux d’ADAS, tels que les caméras de recul et les capteurs d'angle mort, les systèmes d'alerte de franchissement de ligne, les régulateurs de vitesse adaptatifs ou encore les systèmes de stationnement automatique.

Les ADAS embarqués dans un véhicule sont alimentés par des données obtenues d’un ou plusieurs capteurs embarqués tels que, par exemple, des caméras. Ces caméras permettent notamment de détecter et de situer d’autres usagers de la route ou d’éventuels obstacles présents autour d’un véhicule afin, par exemple :
- d’adapter l’éclairage du véhicule en fonction de la présence d’autres usagers ;
- de réguler de façon automatique la vitesse du véhicule ;
- d’agir sur le système de freinage en cas de risque d’impact avec un objet.

De la qualité des données émises par un système de vision dépend donc le bon fonctionnement des périphériques d’aides à la conduite utilisant ces données.

Résumé de la présente invention

Un objet de la présente invention est de résoudre au moins l’un des problèmes de l’arrière-plan technologique décrit précédemment.

Un autre objet de la présente invention est d’améliorer la qualité des données issues d’un système de vision.

Un autre objet de la présente invention est d’améliorer la sécurité routière.

Selon un premier aspect, la présente invention concerne un procédé de détermination de données représentatives d’au moins un objet dynamique dans une scène par un système de vision monoscopique embarqué dans un véhicule, le système de vision monoscopique comprenant une caméra disposée de manière à acquérir une image d’une scène autour du véhicule, le procédé étant caractérisé en ce qu’il comprend les étapes suivantes :
- réception de premières et deuxièmes données représentatives respectivement d’une première et deuxième images acquises par la caméra à respectivement un premier et deuxième instants temporels d’acquisition distincts ;
- détermination d’un masque de visibilité associé à la première image et représentatif d’un troisième ensemble de pixels de la première image ayant au moins un pixel correspondant dans la deuxième image, le masque de visibilité étant déterminé par une méthode de calcul par flux optique appliquée sur les première et deuxième images ;
- prédiction de premières profondeurs associées à un premier ensemble de pixels de la première image à partir d’un modèle de prédiction de profondeur appris lors d’une phase d’apprentissage appliqué à première image ;
- prédiction de deuxièmes profondeurs associées au deuxième ensemble de pixels de la deuxième image à partir du modèle de prédiction de profondeur appliqué à la deuxième image ;
- détermination d’un masque d’objets dynamiques associé à la première image et représentatif d’un quatrième ensemble de pixels de la première image associé à au moins un objet en mouvement dans la scène, le masque d’objets dynamiques étant déterminé par comparaison de positions de pixels du quatrième ensemble de pixels et du deuxième ensemble de pixels après reprojection dans un espace tridimensionnel associé à la scène, la reprojection étant fonction des premières et deuxièmes profondeurs.

Le procédé permet ainsi de définir un masque d’objets dynamiques qualifiant la fiabilité de la première profondeur prédite par le système de vision monoscopique.

Selon une variante de procédé, le masque d’objets dynamiques est défini par les formules suivantes :
Avec :
- correspond à un masque d’objets statiques appliqué à un pixel cible de la première image ;
- est représentatif d’une visibilité du pixel cible de la première image par le système de vision monoscopique ;
- correspond à une matrice de déplacement de la caméra (11) entre le deuxième instant temporel d’acquisition et le premier instant temporel d’acquisition ;
- correspond à une rétroprojection d’un pixel avec sa profondeur correspondante ;
- est la deuxième profondeur d’un pixel source de la deuxième image calculée pour le système de vision monoscopique ;
- est la première profondeur du pixel cible de la première image calculée pour le système de vision monoscopique ;
- correspond au masque d’objets dynamiques appliqué au pixel cible de la première image ;
- correspond à une matrice intrinsèque de la caméra (11) ;
- est une erreur au carré ;
- transforme un vecteur de coordonnées du pixel cible en une coordonnée homogène en ajoutant une dimension audit vecteur de coordonnées du pixel cible ; et
- correspond à un hyperparamètre prédéfini en fonction d’un type d’environnement routier de la scène.

Une telle définition d’un masque d’objets dynamiques permet de s’affranchir de l’utilisation d’une méthode d calcul par flux optique.

Selon une autre variante de procédé, une matrice de déplacement de la caméra entre le deuxième instant temporel d’acquisition et le premier instant temporel d’acquisition est déterminée par le système de vision monoscopique en fonction des première et deuxième images.

La détermination de cette matrice de mouvement permet de ne pas avoir besoin d’une information relative au mouvement du véhicule via un autre capteur ou calculateur du véhicule.

Selon encore une variante de procédé, le modèle de prédiction est défini par un réseau de neurones convolutif effectuant les étapes de :
- reconstruction d’une troisième image à partir de la première image et des premières profondeurs ;
- obtention d’une erreur de reconstruction par comparaison des deuxième et troisième images,
le réseau de neurones convolutif étant appris de manière auto-supervisée en fonction de l’erreur de reconstruction.

L’auto-supervision du modèle de prédiction permet ainsi d’améliorer la précision de la prédiction des premières profondeurs par le système de vision monoscopique.

Selon un deuxième aspect, la présente invention concerne un dispositif de détermination de données représentatives d’au moins un objet dynamique dans une scène par un système de vision monoscopique embarqué dans un véhicule, le dispositif comprenant une mémoire associée à au moins un processeur configuré pour la mise en œuvre des étapes du procédé selon le premier aspect de la présente invention.

Selon un troisième aspect, l’invention concerne un système de détermination de données représentatives d’au moins un objet dynamique dans une scène par un système de vision monoscopique d’un véhicule comprenant une caméra et le dispositif selon le deuxième aspect.

Selon un quatrième aspect, la présente invention concerne un véhicule, par exemple de type automobile, comprenant un dispositif tel que décrit ci-dessus selon le deuxième aspect de la présente invention ou un système tel que décrit ci-dessus selon le troisième aspect de la présente invention.

Selon un quatrième aspect, la présente invention concerne un programme d’ordinateur qui comporte des instructions adaptées pour l’exécution des étapes du procédé selon le premier aspect de la présente invention, ceci notamment lorsque le programme d’ordinateur est exécuté par au moins un processeur.

Un tel programme d’ordinateur peut utiliser n’importe quel langage de programmation et être sous la forme d’un code source, d’un code objet, ou d’un code intermédiaire entre un code source et un code objet, tel que dans une forme partiellement compilée, ou dans n’importe quelle autre forme souhaitable.

Selon un cinquième aspect, la présente invention concerne un support d’enregistrement lisible par un ordinateur sur lequel est enregistré un programme d’ordinateur comprenant des instructions pour l’exécution des étapes du procédé selon le premier aspect de la présente invention.

D’une part, le support d’enregistrement peut être n'importe quel entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une mémoire ROM, un CD-ROM ou une mémoire ROM de type circuit microélectronique, ou encore un moyen d'enregistrement magnétique ou un disque dur.

D'autre part, ce support d’enregistrement peut également être un support transmissible tel qu'un signal électrique ou optique, un tel signal pouvant être acheminé via un câble électrique ou optique, par radio classique ou hertzienne ou par faisceau laser autodirigé ou par d'autres moyens. Le programme d’ordinateur selon la présente invention peut être en particulier téléchargé sur un réseau de type Internet.

Alternativement, le support d'enregistrement peut être un circuit intégré dans lequel le programme d’ordinateur est incorporé, le circuit intégré étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.

Brève description des figures

D’autres caractéristiques et avantages de la présente invention ressortiront de la description des exemples de réalisation particuliers et non limitatifs de la présente invention ci-après, en référence aux figures 1 à 3 annexées, sur lesquelles :

illustre schématiquement un système de vision monoscopique équipant un véhicule, selon un exemple de réalisation particulier et non limitatif de la présente invention ;

illustre schématiquement un dispositif configuré pour la détermination de données représentatives d’au moins un objet dynamique dans une scène par système de vision monoscopique embarqué dans le véhicule de la , selon un exemple de réalisation particulier et non limitatif de la présente invention ;

illustre un organigramme des différentes étapes d’un procédé de détermination de données représentatives d’au moins un objet dynamique dans une scène par un système de vision monoscopique embarqué dans le véhicule de la , selon un exemple de réalisation particulier et non limitatif de la présente invention ;

Description des exemples de réalisation

Un procédé et un dispositif de détermination de données représentatives d’au moins un objet dynamique dans une scène par système de vision monoscopique embarqué dans un véhicule vont maintenant être décrits dans ce qui va suivre en référence conjointement aux figures 1 à 3. Des mêmes éléments sont identifiés avec des mêmes signes de référence tout au long de la description qui va suivre.

Selon un exemple particulier et non limitatif de réalisation de la présente invention, le système de vision monoscopique comprend une caméra disposée de manière à acquérir une image d’une scène autour du véhicule.

Le procédé est caractérisé en ce qu’il comprend les étapes de réception de premières et deuxièmes données représentatives respectivement d’une première et deuxième images acquises par la caméra à respectivement un premier et deuxième instants temporels d’acquisition distincts et la détermination d’un masque de visibilité associé à la première image et représentatif d’un troisième ensemble de pixels de la première image ayant au moins un pixel correspondant dans la deuxième image

Le procédé comprend également la prédiction de premières profondeurs associées à un premier ensemble de pixels de la première image à partir d’un modèle de prédiction de profondeur appris lors d’une phase d’apprentissage appliqué à la première image et la prédiction de deuxièmes profondeurs associées au deuxième ensemble de pixels de la deuxième image à partir du modèle de prédiction de profondeur appliqué à la deuxième image.

Le procédé détermine ensuite un masque d’objets dynamiques associé à la première image et représentatif d’un quatrième ensemble de pixels de la première image associé à au moins un objet en mouvement dans la scène, le masque d’objets dynamiques étant déterminé par comparaison de positions de pixels du quatrième ensemble de pixels et du deuxième ensemble de pixels après reprojection dans un espace tridimensionnel associé à la scène, la reprojection étant fonction des premières et deuxièmes profondeurs.

La illustre schématiquement un système de vision monoscopique équipant un véhicule, selon un exemple de réalisation particulier et non limitatif de la présente invention.

Un tel environnement 1 correspond, par exemple, à un environnement routier formé d’un réseau de routes accessibles pour le véhicule 10.

Dans cet exemple, le véhicule 10 correspond à un véhicule à moteur thermique, à moteur(s) électrique(s) ou encore un véhicule hybride avec un moteur thermique et un ou plusieurs moteurs électriques. Le véhicule 10 correspond ainsi, par exemple, à un véhicule terrestre tel une automobile, un camion, un car, une moto. Enfin, le véhicule 10 correspond à un véhicule autonome ou non, c’est-à-dire un véhicule circulant selon un niveau d’autonomie déterminé ou sous la supervision totale du conducteur.

Le véhicule 10 comprend avantageusement au moins une caméra 11 embarquée configurée pour acquérir des images d’une scène dans l’environnement du véhicule 10. Cette caméra 11 forme le système de vision monoscopique. Une caméra 11 est illustrée sur la . La présente invention ne se limite cependant pas à un système de vision monoscopique comprenant une seule caméra mais s’étend à tout système de vision comprenant 1, caméra ou plus, par exemple 1, 2, 3, 4 ou 5 caméras.

La caméra 11 dispose de paramètres intrinsèques connus. Ces paramètres se composent notamment de :
- la distance focale f de la caméra 11 ;
- les distorsions qui sont dues aux imperfections du système optique de la caméra ;
- la direction C1 de l’axe optique de la caméra 11 ;
- la résolution de la caméra 11.

Les paramètres intrinsèques caractérisent la transformation qui associe, pour un point image, les coordonnées caméra aux coordonnées pixel, dans chaque caméra. Ces paramètres ne changent pas si l'on déplace la caméra.

Les distorsions, qui sont dues aux imperfections du système optique telles que des défauts de forme et de positionnement des lentilles des caméras, vont dévier les faisceaux lumineux et donc induire un écart de positionnement pour le point projeté par rapport à un modèle idéal. Il est possible alors de compléter le modèle de caméra en y introduisant les trois distorsions qui génèrent le plus d’effets, à savoir les distorsions radiales, de décentrage et prismatiques, induites par des défauts de courbure, de parallélisme des lentilles et de coaxialité des axes optiques. Dans cet exemple, la caméra 11 est supposée parfaite, c’est-à-dire que les distorsions ne sont pas prises en compte ou que leur correction est traitée au moment de l’acquisition d’une image.

Cette caméra 11 est disposée de manière à acquérir une image d’une scène selon un point de vue défini, le point de vue est par exemple localisé sur ou dans le rétroviseur gauche du véhicule 10 ou en haut du pare-brise du véhicule 10.

Un repère est associé à la première caméra 11 :
- la direction de l’axe x est définie comme étant l’axe longitudinal du véhicule 10 ;
- la direction de l’axe y est définie comme étant l’axe transversal du véhicule 10, donc orthonormale à l’axe x ;
- la direction de l’axe z est définie orthogonale aux directions des axes x et y.
Les trois axes x, y et z forment ainsi un repère orthonormé.

La caméra 11 fait l’acquisition d’images d’une scène se situant devant le véhicule 10, la caméra 11 couvre un premier champ d’acquisition 12.

Un obstacle 13 est placé dans le champ d’acquisition 12 de la caméra. La présence de l’obstacle 13 définit un champ d’occlusion pour le système de vision monoscopique composé ici du champ 14.

La directions C1 de l’axe optique représentatif d’une orientation du champ de vision de la caméra 11 est orientée de manière à obtenir le champ d’acquisition 12 de l’environnement 1 le plus large possible.

Il est évident qu’il est possible d’utiliser un tel système de vision monoscopique pour prendre des images de scènes situées sur les côtés ou derrière le véhicule 10 en l’équipant de caméras placées et orientées différemment.

Une image acquise par la caméra 11 à un instant temporel d’acquisition donné se présente sous la forme de données représentant des pixels caractérisés par :
- des coordonnées dans l’image ; et
- des données relatives aux couleurs et luminosité des objets de la scène observée sous forme par exemple de coordonnées colorimétriques RGB (de l’anglais « Red Green Blue », en français « Rouge Vert Bleu ») ou TSL (Ton, Saturation, Luminosité).

Lorsque le véhicule 10 est en mouvement, c’est-à-dire lorsque la caméra 11 est en mouvement, les images acquises par la caméra 11 à différents instants temporels représentent des vues d’une même scène prises à des points de vue différents, les positions de la caméra 11 étant distinctes. Sur cette scène se trouvent par exemple :
- des bâtiments ;
- des infrastructures routières ;
- d’autres usagers immobiles, par exemple un véhicule stationné ; et/ou
- d’autres usagers mobiles, par exemple un autre véhicule, un cycliste ou un piéton en mouvement.

Ces images sont envoyées à un calculateur d’un dispositif équipant le véhicule 10 ou stockées dans une mémoire d’un dispositif accessible à un calculateur d’un dispositif équipant le véhicule 10.

La illustre schématiquement un dispositif 4 configuré pour la détermination de données représentatives d’au moins un objet dynamique dans une scène par système de vision monoscopique embarqué dans un véhicule 10, selon un exemple de réalisation particulier et non limitatif de la présente invention. Le dispositif 4 correspond par exemple à un dispositif embarqué dans le premier véhicule 10, par exemple un calculateur.

Le dispositif 4 est par exemple configuré pour la mise en œuvre des ou étapes décrites en regard des figures 1 et 3. Des exemples d’un tel dispositif 4 comprennent, sans y être limités, un équipement électronique embarqué tel qu’un ordinateur de bord d’un véhicule, un calculateur électronique tel qu’une UCE (« Unité de Commande Electronique »), un téléphone intelligent, une tablette, un ordinateur portable. Les éléments du dispositif 4, individuellement ou en combinaison, peuvent être intégrés dans un unique circuit intégré, dans plusieurs circuits intégrés, et/ou dans des composants discrets. Le dispositif 4 peut être réalisé sous la forme de circuits électroniques ou de modules logiciels (ou informatiques) ou encore d’une combinaison de circuits électroniques et de modules logiciels.

Le dispositif 4 comprend un (ou plusieurs) processeur(s) 40 configurés pour exécuter des instructions pour la réalisation des étapes du procédé et/ou pour l’exécution des instructions du ou des logiciels embarqués dans le dispositif 4. Le processeur 40 peut inclure de la mémoire intégrée, une interface d’entrée/sortie, et différents circuits connus de l’homme du métier. Le dispositif 4 comprend en outre au moins une mémoire 41 correspondant par exemple à une mémoire volatile et/ou non volatile et/ou comprend un dispositif de stockage mémoire qui peut comprendre de la mémoire volatile et/ou non volatile, telle que EEPROM, ROM, PROM, RAM, DRAM, SRAM, flash, disque magnétique ou optique.

Le code informatique du ou des logiciels embarqués comprenant les instructions à charger et exécuter par le processeur est par exemple stocké sur la mémoire 41.

Selon différents exemples de réalisation particuliers et non limitatifs, le dispositif 4 est couplé en communication avec d’autres dispositifs ou systèmes similaires (par exemple d’autres calculateurs) et/ou avec des dispositifs de communication, par exemple une TCU (de l’anglais « Telematic Control Unit » ou en français « Unité de Contrôle Télématique »), par exemple par l’intermédiaire d’un bus de communication ou au travers de ports d’entrée / sortie dédiés.

Selon un exemple de réalisation particulier et non limitatif, le dispositif 4 comprend un bloc 42 d’éléments d’interface pour communiquer avec des dispositifs externes. Les éléments d’interface du bloc 42 comprennent une ou plusieurs des interfaces suivantes :
- interface radiofréquence RF, par exemple de type Wi-Fi® (selon IEEE 802.11), par exemple dans les bandes de fréquence à 2,4 ou 5 GHz, ou de type Bluetooth® (selon IEEE 802.15.1), dans la bande de fréquence à 2,4 GHz, ou de type Sigfox utilisant une technologie radio UBN (de l’anglais Ultra Narrow Band, en français bande ultra étroite), ou LoRa dans la bande de fréquence 868 MHz, LTE (de l’anglais « Long-Term Evolution » ou en français « Evolution à long terme »), LTE-Advanced (ou en français LTE-avancé) ;
- interface USB (de l’anglais « Universal Serial Bus » ou « Bus Universel en Série » en français) ;
interface HDMI (de l’anglais « High Definition Multimedia Interface », ou « Interface Multimedia Haute Definition » en français) ;
- interface LIN (de l’anglais « Local Interconnect Network », ou en français « Réseau interconnecté local »).

Selon un autre exemple de réalisation particulier et non limitatif, le dispositif 4 comprend une interface de communication 43 qui permet d’établir une communication avec d’autres dispositifs (tels que d’autres calculateurs du système embarqué) via un canal de communication 430. L’interface de communication 43 correspond par exemple à un transmetteur configuré pour transmettre et recevoir des informations et/ou des données via le canal de communication 430. L’interface de communication 43 correspond par exemple à un réseau filaire de type CAN (de l’anglais « Controller Area Network » ou en français « Réseau de contrôleurs »), CAN FD (de l’anglais « Controller Area Network Flexible Data-Rate » ou en français « Réseau de contrôleurs à débit de données flexible »), FlexRay (standardisé par la norme ISO 17458) ou Ethernet (standardisé par la norme ISO/IEC 802-3).

Selon un exemple de réalisation particulier et non limitatif, le dispositif 4 peut fournir des signaux de sortie à un ou plusieurs dispositifs externes, tels qu’un écran d’affichage 440, tactile ou non, un ou des haut-parleurs 450 et/ou d’autres périphériques 460 (système de projection) via respectivement les interfaces de sortie 44, 45, 46. Selon une variante, l’un ou l’autre des dispositifs externes est intégré au dispositif 4.

La illustre un organigramme des différentes étapes d’un procédé 2 de détermination de données représentatives d’au moins un objet dynamique dans une scène par un système de vision monoscopique embarqué dans le véhicule de la , selon un exemple de réalisation particulier et non limitatif de la présente invention.

Le procédé est par exemple mis en œuvre par un ou plusieurs processeurs d’un ou plusieurs calculateurs embarqués dans le véhicule 10, par exemple par un calculateur contrôlant le système de vision monoscopique.

Dans une première étape 21, le calculateur reçoit des premières données représentatives d’une première image acquise par une caméra 11 à un premier instant temporel d’acquisition t1.

Dans une deuxième étape 22, le calculateur reçoit des deuxièmes données représentatives d’une deuxième image acquise par la caméra 11 à un deuxième instant temporel d’acquisition t2.

Cet instant temporel d’acquisition t2 est antérieur au premier instant temporel d’acquisition t1.

Les deuxièmes données ont, par exemple, été sauvegardées dans une mémoire associée au calculateur ou dans une mémoire d’un dispositif embarqué dans le véhicule 10 et accessible au calculateur mettant en œuvre le procédé.

Les deux images reçues correspondent à deux vues d’une même scène se déroulant aux alentours du véhicule 10 à deux instants temporels d’acquisition t1, t2 distincts.

Le véhicule étant en mouvement entre ces deux instants temporels t1, t2, la position de la caméra 11 a changé. Les deux images correspondent donc également à deux vues d’une même scène depuis deux points de vue distincts.

Si le véhicule 10 est en mouvement, alors la troisième image correspond à une deuxième vue de la scène prise depuis un deuxième point de vue, celui de la caméra 11 à sa position au deuxième instant temporel d’acquisition t2.

Cette position de la caméra 11 au deuxième instant temporel d’acquisition t2 est définie par le déplacement du véhicule 10 entre les instants t2 et t1. Ce déplacement est donc lié à la vitesse du véhicule 10 pendant la durée séparant les premier et deuxième instants temporels d’acquisition t1 et t2.

La caméra 11 dans les deux positions définies aux premier et deuxième instants temporels d’acquisition t1 et t2 forme un système de vision monoscopique. Les paramètres intrinsèques de ce système sont ceux définis précédemment liés à la caméra 11. Les paramètres extrinsèques de ce système de vision monoscopique sont les paramètres suivants :
- 3 translations dans les directions x, y et z : Tx’, Ty’ et Tz’ constituant le vecteur translation T’ ; et
- 3 rotations autour des axes x, y et z : Rx’, Ry’ et Rz’, constituant la matrice de rotation R’.

Les paramètres extrinsèques du système de vision monoscopique sont, par exemple, déterminés par un calculateur associé à ce même système de vision monoscopique en fonction des première et deuxièmes images.

La détermination des paramètres extrinsèques du système de vision monoscopique est connue de l’homme du métier et présentée, par exemple, dans le document Unsupervised Learning of Depth and Ego-Motion from Video de Tinghui Zhou, Matthew Brown, Noah Snavely et David G. Lowe paru le 1^eraoût 2017.

Il est possible qu’un pixel de la première image ne trouve pas de pixel correspondant dans la deuxième image. Ce phénomène s’explique par le fait que des zones de la première image peuvent être occluses dans la deuxième image. En effet, la différence de point de vue de la caméra 11 aux instants temporels d’acquisition t1 et t2 ne permet pas à la caméra 11 de voir tous les éléments de la scène. Un objet présent dans la scène peut masquer un second objet de la scène, le second objet étant visible du point de vue de la caméra 11 à l’instant temporel d’acquisition t1 mais étant masqué par un obstacle du point de vue de la caméra 11 à l’instant temporel d’acquisition t2.

Une étape 23 de détermination des zones occluses de la première image consiste à déterminer un masque de visibilité associé à la première image et représentatif d’un troisième ensemble de pixels de la première image ayant au moins un pixel correspondant dans la deuxième image, le masque de visibilité étant déterminé par une méthode de calcul par flux optique(en anglais « optical flow »), le flux optique représentant un vecteur de déplacement entre chaque premier pixel du troisième ensemble de pixels de la première image et un deuxième pixel dans la deuxième image correspondant à chaque premier pixel.

Une telle méthode est notamment décrite dans « UnOS: Unified Unsupervised Optical-flow and Stereo-depth Estimation by Watching Videos » de Yang Wang, Peng Wang, Zhenheng Yang, Chenxu Luo, Yi Yang et Wei Xu de juin 2019.

La définition d’un masque de visibilité est connue de l’homme du métier. Elle est, par exemple, décrite dans « Occlusion Aware Unsupervised Learning of Optical Flow », de Yang Wang, Yi Yang, Zhenheng Yang, Liang Zhao, Peng Wang et Wei Xu paru le 4 avril 2018.

La détermination du masque de visibilité permet de ne pas prendre en compte d’éventuelles valeurs aberrantes de flux optique pour des pixels de la première image qui n’ont pas de correspondance dans la deuxième image.

Dans une étape 24, des premières profondeurs associées à un premier ensemble de pixels de la première image sont prédites par le système de vision monoscopique à partir d’un modèle de prédiction de profondeur appris lors d’une phase d’apprentissage appliqué à ladite première image. Une telle étape 24 est décrite dans le document : HR-Depth : High Resolution Self-Supervised Monocular Depth Estimation de Xiaoyang Lyu, Liang Liu, Mengmeng Wang, Xin Kong,Lina Liu, Yong Liu, Xinxin Chen, et Yi Yuan paru le 14 décembre 2020.

Dans une étape 25, des deuxièmes profondeurs associées à un deuxième ensemble de pixels de la deuxième image sont prédites à partir du modèle de prédiction de profondeur appliqué à la deuxième image.

Suivant un exemple de réalisation, le modèle de prédiction de profondeur est défini par un réseau de neurones convolutif. Ce réseau de neurones convolutif est auto-supervisé, c’est-à-dire qu’il est en mesure d’ajuster ses paramètres d’entrée en fonction de la pertinence des profondeurs prédites.

L’appréciation de la pertinence des profondeurs calculée permettant l’apprentissage auto-supervisé du réseau de neurones convolutif associé au système de vision monoscopique est réalisé de la façon suivante.

Cet apprentissage auto-supervisé comprend en outre les étapes de :
- reconstruction d’une troisième image à partir de la première image et des premières profondeurs ;
- obtention d’une erreur de reconstruction par comparaison des deuxième et troisième images,
le réseau de neurones convolutif étant appris de manière auto-supervisée en fonction de l’erreur de reconstruction.

Un tel réseau de neurones convolutif est connu de l’homme du métier, par exemple : « monodepth2 » présenté dans le document Digging Into Self-Supervised Monocular Depth Estimation de Clément Godard, Oisin Mac Aodha, Michael Firman et Gabriel Brostow paru le 17 août 2019 ou « HR-depth » présenté dans le document : HR-Depth : High Resolution Self-Supervised Monocular Depth Estimation de Xiaoyang Lyu, Liang Liu, Mengmeng Wang, Xin Kong,Lina Liu, Yong Liu, Xinxin Chen, et Yi Yuan paru le 14 décembre 2020.

Pour trouver les bonnes valeurs des paramètres (appelés « weights » en anglais) d’un réseau de neurones convolutif choisi, la troisième image appelée image « source » est reconstruite depuis la première image, appelée image « cible » (en anglais « target ») pixel par pixel, à l’aide de la formule de reprojection de pixels suivante :

Avec :
- est une fonction pour passer de coordonnées homogènes à des coordonnées pixels en supprimant une dimension du vecteur ;
- est la matrice intrinsèque de la caméra associée à la projection d’un point de l’espace (3 dimensions) dans l’image (2 dimensions) ;
- est une matrice de déplacement entre les positions de la première caméra au premier instant temporel d’acquisition t1 et au deuxième instant temporel d’acquisition t2 ;
- est une fonction de rétroprojection d’un pixel en fonction de sa profondeur ;
- est la première profondeur du pixel de la première image calculée pour le système de vision monoscopique.

Le réseau de neurones convolutif est entraîné pour minimiser les différentes erreurs de reconstruction calculées par des fonctions de perte (en anglais « loss function »), telles que les fonctions suivantes. La pertinence des profondeurs prédites par le réseau de neurones convolutif est ainsi évaluée et ses paramètres optimisés.

La première fonction de perte est basée sur l’erreur photométrique. Une fois l’image source reconstruite à partir de la première image et des disparités calculées, celle-ci est comparée à la véritable image source et définie comme suit :

Avec :
- est la fonction de perte photométrique du système de vision monoscopique ;
- l’indice indique « monoscopique » ;
- est la visibilité par le système de vision monoscopique du pixel reconstruit ;
- est la valeur du pixel dans l’image cible ;
- est la valeur du pixel reconstruit pour le système de vision monoscopique défini à partir du pixel et de ;
- est la profondeur d’un pixel calculée pour le système de vision monoscopique.

La fonction est l’erreur photométrique définie comme suit :

Avec :
- est la valeur du pixel dans l’image cible ;
- est la valeur du pixel dans l’image reconstruite ;
- SSIM (de l’anglais « structural similarity index measure », en français « mesure de l'indice de similarité structurelle ») est une fonction qui prend en compte une structure locale ; et
- est un facteur de pondération dépendant notamment du type d’environnement.

La deuxième fonction de perte est généralement utilisée pour traiter la discontinuité à la bordure des objets (en anglais « edge aware smoothness ») et est définie comme suit :

Avec :
- est le flux optique d’un pixel calculé pour le système de vision monoscopique ;
- est une matrice de paramètres ;
- est l’ordre d’un gradient de lissage ;
- une norme L1 des gradients de profondeur du second ordre est calculée avec =1 , et =2 ;
- et sont les dimensions de la première image ;
- est un hyperparamètre dépendant de l’environnement ; et
- est la valeur du pixel dans l’image cible.

Ainsi, à l’aide de ces fonctions de perte, des paramètres du réseau de neurones convolutif sont définis. Le résultat en sortie de calcul est une prédiction d’une première profondeur par le système de vision monoscopique associée au premier ensemble de pixels de la première image.

Dans une étape 26, un masque d’objets dynamiques associé à la première image et représentatif d’un quatrième ensemble de pixels de la première image associé à au moins un objet en mouvement dans la scène est déterminé.

Une méthode de détermination d’un tel masque d’objets dynamiques est connu de l’homme du métier et est présenté dans le document « Every Pixel Counts ++: Joint Learning of Geometry and Motion with 3D Holistic Understanding » de Chenxu Luo, Zhenheng Yang, Peng Wang, Yang Wang, Wei Xu, Ram Nevatia et Alan Yuille du 11 juillet 2019.

Un objet de l’invention est par exemple de définir un masque d’objets dynamiques. Celui-ci est déterminé par comparaison de positions de pixels du quatrième ensemble de pixels et du deuxième ensemble de pixels après reprojection dans un espace tridimensionnel associé à la scène, la reprojection étant fonction des premières et deuxièmes profondeurs. Cette reprojection permet de définir dans un premier temps, pour les pixels de la première image, un masque d’objets statiques représentatif des objets immobiles dans la scène, puis dans un second temps d’exploiter ce masque d’objets statiques pour déterminer un masque d’objets dynamiques associé à ces mêmes pixels de la première image :

Avec :
- correspond à un masque d’objets statiques appliqué à un pixel cible de la première image ;
- est représentatif d’une visibilité du pixel cible de la première image par le système de vision monoscopique ;
- correspond à une matrice de déplacement de la caméra (11) entre le deuxième instant temporel d’acquisition et le premier instant temporel d’acquisition ;
- correspond à une rétroprojection d’un pixel avec sa profondeur correspondante ;
- est la deuxième profondeur d’un pixel source de la deuxième image calculée pour le système de vision monoscopique ;
- est la première profondeur du pixel cible de la première image calculée pour le système de vision monoscopique ;
- correspond au masque d’objets dynamiques appliqué au pixel cible de la première image ;
- correspond à une matrice intrinsèque de la caméra (11) ;
- est une erreur au carré ;
- transforme un vecteur de coordonnées du pixel cible en une coordonnée homogène en ajoutant une dimension au vecteur de coordonnées du pixel cible pour permettre la multiplication de matrices ; et
- correspond à un hyperparamètre prédéfini en fonction d’un type d’environnement routier de la scène.

L’hypothèse de est que les points statiques dans l’espace 3D ne changent pas leurs positions pendant la durée séparant deux images consécutives. Le masque est construit par une fonction exponentielle avec un hyperparamètre pour trouver un bon critère pour . Le caractère statique des objets est ainsi considéré de manière relative, la pondération étant mise en œuvre via la fonction exponentielle.

Ainsi, la nouvelle définition du masque d’objets dynamiques permet de s’affranchir de l’utilisation de la méthode de calcul par flux optique. Le système de vision monoscopique nécessite donc moins de mémoire et de calculs pour déterminer ce masque d’objets dynamiques.

Le masque d’objets dynamiques permet par la suite de prendre en compte sa valeur définie pour chaque pixel de la première image. De cette manière, même si le système de vision monoscopique est en mesure de définir une première profondeur pour un pixel associé à un objet en mouvement dans la scène grâce à son entraînement, l’apposition du masque d’objets dynamiques permet de déterminer que cette valeur de profondeur n’est pas garantie pour le pixel correspondant.

Si l’ADAS ou un autre système de vision tel un système de vision stéréoscopique supervisé par le système de vision monoscopique utilise les premières profondeurs comme donnée d’entrée pour déterminer la distance entre une partie du véhicule 10, par exemple le pare-chocs avant, et un autre usager présent sur la route, l’ADAS ou un autre système de vision dispose alors d’une donnée pouvant être utilisée pour déterminer la pertinence de cette profondeur prédite, le masque d’objets dynamiques.

Bien entendu, la présente invention ne se limite pas aux exemples de réalisation décrits ci-avant mais s’étend à un procédé détermination de données représentatives d’au moins un objet dynamique dans une scène par un système de vision embarqué dans un véhicule, qui inclurait des étapes secondaires sans pour cela sortir de la portée de la présente invention. Il en serait de même d’un dispositif configuré pour la mise en œuvre d’un tel procédé.

La présente invention concerne également un véhicule, par exemple automobile ou plus généralement un véhicule autonome à moteur terrestre, comprenant le dispositif 4 de la .

Claims

Procédé de détermination de données représentatives d’au moins un objet dynamique dans une scène par un système de vision monoscopique embarqué dans un véhicule (10), le système de vision monoscopique comprenant une caméra (11) disposée de manière à acquérir une image d’une scène autour dudit véhicule (10),
ledit procédé étant caractérisé en ce qu’il comprend les étapes suivantes :
- réception (21, 22) de premières et deuxièmes données représentatives respectivement d’une première et deuxième images acquises par ladite caméra (11) à respectivement un premier et deuxième instants temporels d’acquisition distincts ;
- détermination (23) d’un masque de visibilité associé à ladite première image et représentatif d’un troisième ensemble de pixels de ladite première image ayant au moins un pixel correspondant dans ladite deuxième image, ledit masque de visibilité étant déterminé par une méthode de calcul par flux optique appliquée sur lesdites première et deuxième images ;
- prédiction (24) de premières profondeurs associées à un premier ensemble de pixels de ladite première image à partir d’un modèle de prédiction de profondeur appliqué à ladite première image, ledit modèle de prédiction de profondeur ayant été appris lors d’une phase d’apprentissage ;
- prédiction (25) de deuxièmes profondeurs associées à un deuxième ensemble de pixels de ladite deuxième image à partir dudit modèle de prédiction de profondeur appliqué à ladite deuxième image ;
- détermination (26) d’un masque d’objets dynamiques associé à ladite première image et représentatif d’un quatrième ensemble de pixels de ladite première image associé à au moins un objet en mouvement dans ladite scène,
ledit masque d’objets dynamiques étant déterminé par comparaison de positions de pixels du quatrième ensemble de pixels et du deuxième ensemble de pixels après reprojection dudit premier ensemble de pixels et dudit deuxième ensemble de pixels dans un espace tridimensionnel associé à ladite scène, ladite reprojection étant fonction desdites premières et deuxièmes profondeurs.
Procédé selon la revendication 1, pour lequel le masque d’objets dynamiques est défini par les formules suivantes :
Avec :
- correspond à un masque d’objets statiques appliqué à un pixel cible de la première image ;
- est représentatif d’une visibilité du pixel cible de la première image par le système de vision monoscopique ;
- correspond à une matrice de déplacement de la caméra (11) entre le deuxième instant temporel d’acquisition et le premier instant temporel d’acquisition ;
- correspond à une rétroprojection d’un pixel avec sa profondeur correspondante ;
- est la deuxième profondeur d’un pixel source de la deuxième image calculée pour le système de vision monoscopique ;
- est la première profondeur du pixel cible de la première image calculée pour le système de vision monoscopique ;
- correspond audit masque d’objets dynamiques appliqué au pixel cible de la première image ;
- correspond à une matrice intrinsèque de la caméra (11) ;
- est une erreur au carré ;
- transforme un vecteur de coordonnées du pixel cible en une coordonnée homogène en ajoutant une dimension audit vecteur de coordonnées du pixel cible ; et
- correspond à un hyperparamètre prédéfini en fonction d’un type d’environnement routier de ladite scène.
Procédé selon la revendication 1, pour lequel une matrice de déplacement de la caméra entre ledit deuxième instant temporel d’acquisition et ledit premier instant temporel d’acquisition est déterminée par ledit système de vision monoscopique en fonction desdites première et deuxième images.
Procédé selon l’une des revendications 1 à 3, pour lequel ledit modèle de prédiction est défini par un réseau de neurones convolutif effectuant les étapes de :
- reconstruction d’une troisième image à partir de ladite première image et desdites premières profondeurs ;
- obtention d’une erreur de reconstruction par comparaison desdites deuxième et troisième images,
ledit réseau de neurones convolutif étant appris de manière auto-supervisée en fonction de ladite erreur de reconstruction.
Programme d’ordinateur comportant des instructions pour la mise en œuvre du procédé selon l’une quelconque des revendications précédentes, lorsque ces instructions sont exécutées par un processeur.
Support d’enregistrement lisible par un ordinateur sur lequel est enregistré un programme d’ordinateur comprenant des instructions pour l’exécution des étapes du procédé selon l’une des revendications 1 à 4.
Dispositif (4) de détermination de données représentatives d’au moins un objet dynamique dans une scène par un système de vision monoscopique embarqué dans un véhicule (10), ledit dispositif (4) comprenant une mémoire (41) associée à au moins un processeur (40) configuré pour la mise en œuvre des étapes du procédé selon l’une quelconque des revendications 1 à 4.
Système de détermination de données représentatives d’au moins un objet dynamique dans une scène par un système de vision monoscopique d’un véhicule comprenant une caméra (11) et le dispositif selon la revendication 7.
Véhicule (10) comprenant le dispositif (4) selon la revendication 7 ou le système selon la revendication 8.