[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

DE102018121595B4 - Unbeaufsichtigtes anlernen von agenten für autonome fahranwendungen - Google Patents

Unbeaufsichtigtes anlernen von agenten für autonome fahranwendungen Download PDF

Info

Publication number
DE102018121595B4
DE102018121595B4 DE102018121595.9A DE102018121595A DE102018121595B4 DE 102018121595 B4 DE102018121595 B4 DE 102018121595B4 DE 102018121595 A DE102018121595 A DE 102018121595A DE 102018121595 B4 DE102018121595 B4 DE 102018121595B4
Authority
DE
Germany
Prior art keywords
environmental state
module
discriminator
interpretation
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102018121595.9A
Other languages
English (en)
Other versions
DE102018121595A1 (de
Inventor
Praveen Palanisamy
Upali P. Mudalige
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of DE102018121595A1 publication Critical patent/DE102018121595A1/de
Application granted granted Critical
Publication of DE102018121595B4 publication Critical patent/DE102018121595B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0234Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using optical markers or beacons
    • G05D1/0236Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using optical markers or beacons in combination with a laser
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0238Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
    • G05D1/024Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0253Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0255Control of position or course in two dimensions specially adapted to land vehicles using acoustic signals, e.g. ultra-sonic singals
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0257Control of position or course in two dimensions specially adapted to land vehicles using a radar
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0259Control of position or course in two dimensions specially adapted to land vehicles using magnetic or electromagnetic means
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • G05D1/0278Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle using satellite positioning signals, e.g. GPS
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • G05D1/0285Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle using signals transmitted via a public communication network, e.g. GSM network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Theoretical Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Electromagnetism (AREA)
  • Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Optics & Photonics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Traffic Control Systems (AREA)

Abstract

Computerimplementiertes Verfahren zum Anlernen eines autonomen Fahragenten, wobei das Verfahren die folgenden Schritte umfasst:
Extrahieren von Informationen aus Demonstrationen des Fahrverhaltens unter Verwendung eines neuronalen Netzes durch einen Prozessor;
Wiederherstellen einer Belohnungskarte aus den extrahierten Informationen durch einen Prozessor;
Übertragen der extrahierten Informationen an ein Generatormodul;
Übertragen eines realen Umgebungszustands, der mit den Demonstrationen des Fahrverhaltens und der wiederhergestellten Belohnungskarte verbunden ist, an ein Diskriminatormodul;
Erzeugen, durch einen Prozessor, von Umgebungszustandsinterpretationen aus den extrahierten Informationen unter Verwendung des Generatormoduls;
Anlernen, durch einen Prozessor, des Diskriminatormoduls, um besser zu bestimmen, ob die erzeugten Umgebungszustandsinterpretationen dem tatsächlichen Umgebungszustand entsprechen, während das Generatormodul durch einen Prozessor geschult wird, um eine verbesserte Umgebungszustandsinterpretation zu erzeugen, die der Diskriminator entsprechend dem tatsächlichen Umgebungszustand bestimmt.

Description

  • EINLEITUNG
  • Die vorliegende Offenbarung bezieht sich im Allgemeinen auf autonom fahrende Fahrzeuge und insbesondere auf Systeme und Verfahren für das unbeaufsichtigte Training von Fahragenten in einem autonomen Fahrzeug.
  • HINTERGRUND
  • Ein autonomes Fahrzeug ist ein Fahrzeug, das in der Lage ist, seine Umgebung zu erfassen und mit geringfügiger oder gar keiner Benutzereingabe zu navigieren. Ein autonomes Fahrzeug tastet seine Umgebung mithilfe von Erfassungsvorrichtungen, wie beispielsweise Radar, Lidar, Bildsensoren, wie Kameras, und dergleichen ab. Das autonome Fahrzeugsystem nutzt weiterhin Informationen von globalen Positioniersystemen (GPS), Navigationssystemen, Fahrzeug-Fahrzeug-Kommunikationen, Fahrzeug-Infrastruktur-Technologien und/oder drahtgesteuerten Systemen, um das Fahrzeug zu navigieren.
  • Die Fahrzeugautomatisierung wurde kategorisiert nach nummerischen Ebenen von null, entsprechend keiner Automatisierung mit voller menschlicher Kontrolle, bis Fünf, entsprechend der vollen Automatisierung ohne menschliche Kontrolle. Verschiedene automatisierte Fahrerassistenzsysteme, wie beispielsweise Geschwindigkeitsregelung, adaptive Geschwindigkeitsregelung und Parkassistenzsysteme, entsprechen niedrigeren Automatisierungsebenen, während echte „fahrerlosen“ Fahrzeuge mit autonomen Fahragenten einem höheren Automatisierungsgrad entsprechen.
  • Das Fahren eines Fahrzeugs erfordert viel Geschick, Erfahrung und Wahrnehmung von einem menschlichen Fahrer. Autonome Fahragenten müssen daher angelernt werden, um die Fahreigenschaften des Menschen zu erreichen oder sogar zu übertreffen.
  • DE 11 2017 002 604 T5 beschreibt Verfahren und Systeme zur Verwendung des maschinellen Lernens zum Erstellen eines vertrauenswürdigen Modells, das den Betrieb einer Computersystemsteuerung verbessert. Ein Maschinenlernverfahren umfasst das Trainieren eines Modells unter Verwendung von Eingabedaten, das Extrahieren des Modells und das Bestimmen, ob das Modell die vertrauensbezogenen Einschränkungen erfüllt. Wenn das Modell die vertrauensbezogene Einschränkung nicht erfüllt, wird mindestens eines von Folgendem modifiziert: das Modell unter Verwendung eines oder mehrerer Modellreparaturalgorithmen, die Eingabedaten unter Verwendung eines oder mehrerer Datenreparaturalgorithmen oder eine Belohnungsfunktion des Modells unter Verwendung eines oder mehrerer Belohnungsreparaturalgorithmen, und Neutrainieren des Modells unter Verwendung des modifizierten Modells, der modifizierten Eingabedaten und/oder der modifizierten Belohnungsfunktion. Wenn das Modell die vertrauensbezogenen Einschränkungen erfüllt, wird das Modell als vertrauenswürdiges Modell bereitgestellt, das es einer Computersystemsteuerung ermöglicht, Systemvorgänge innerhalb vorbestimmter Garantien durchzuführen.
  • DE 10 2016 100 428 A1 beschreibt eine Computervorrichtung mit einer Prozessorschaltung und einem Datenspeichermedium. Die Computervorrichtung ist programmiert zum Empfangen einer Benutzereingabe, die mindestens einen Testparameter auswählt, der mit autonomem Betrieb eines virtuellen Fahrzeugs in einer virtuellen Umwelt assoziiert ist, zum Simulieren der virtuellen Umwelt, die den mindestens einen Testparameter umfasst, zum virtuellen Fahren des virtuellen Fahrzeugs durch die virtuelle Umwelt, zum Sammeln von Daten virtueller Sensoren und zum Verarbeiten der gesammelten Daten virtueller Sensoren. DE 10 2018 121 124 A1 beschreibt Systeme und Verfahren zum Erzeugen von Karteninformationen in einem autonomen Fahrzeug. Das Verfahren beinhaltet das Empfangen von Bilddaten, die einer Umgebung des autonomen Fahrzeugs zugeordnet sind; das Empfangen von Objektdaten, wobei die erfassten Objekten innerhalb der Umgebung des autonomen Fahrzeugs zugeordnet sind; das Verarbeiten der Bilddaten, der Objektdaten und Straßenniveauinformationen unter Verwendung eines tiefen Lernnetzes, um eine erste Karte zu erhalten, wobei die erste Karte in Bildkoordinaten vorliegen, das Verarbeiten der ersten Karte mit einer zweiten Karte in geographischen Koordinaten zum Erzeugen eines Mapplets; und das Steuern des autonomen Fahrzeugs basierend auf dem Mapplet.
  • DE 10 2018 115 440 A1 beschreibt Techniken zum Trainieren von tiefen neuronalen Netzwerken, beispielsweise solche mit einem iterativen Ansatz. Einige Varianten betreffen speziell ein Trainingssystem für ein tiefes neuronales Netzwerk (Deep Neural Network, DNN), das durch iteratives Trainieren von DNNs mit Bildern, die durch frühere Iterationen des DNN falsch klassifiziert wurden, ein gehärtetes DNN erzeugt. In einer oder mehreren Ausführungsformen kann die Logik beispielsweise ein feindliches Bild erzeugen, das von einem ersten DNN, das zuvor mit einem Satz von Musterbildern trainiert wurde, falsch klassifiziert wird. In einigen Varianten kann die Logik einen zweiten Trainingssatz bestimmen, der das feindliche Bild enthält, das von dem ersten DNN und dem ersten Trainingssatz von einem oder mehreren Musterbildern falsch klassifiziert wurde. Der zweite Trainingssatz kann verwendet werden, um ein zweites DNN zu trainieren. In verschiedenen Varianten kann der vorstehende Prozess für eine vorbestimmte Anzahl von Iterationen wiederholt werden, um ein gehärtetes DNN zu erzeugen.
  • Dementsprechend kann es als Aufgabe betrachtet werden, ein Verfahren zum Anlernen eines autonomen Fahragenten bereitzustellen, um gleichwertige oder verbesserte Fahrentscheidungen im Vergleich zu einem menschlichen Fahrer zu treffen. Darüber hinaus ist es wünschenswert, ein Verfahren zum Anlernen eines autonomen Fahragenten zu erhalten, das weitgehend unbeaufsichtigt ist und keine umfangreiche Kennzeichnung der Schulungsdaten erfordert. Es ist auch wünschenswert, die Argumentation (latente Motivationen) wiederherzustellen, warum ein autonomer Fahragent eine bestimmte Fahrweise als Reaktion auf einen bestimmten Umgebungszustand gewählt hat. Weitere wünschenswerte Funktionen und Merkmale werden aus der nachfolgenden ausführlichen Beschreibung und den beigefügten Ansprüchen in Verbindung mit den beigefügten Zeichnungen sowie dem vorab erklärten technischen Gebiet und Hintergrund offensichtlich.
  • KURZDARSTELLUNG
  • Ein Verfahren und ein System zum Anlernen eines autonomen Fahragenten werden beschrieben.
  • Gemäß der Erfindung wird ein computerimplementiertes Verfahren zum Anlernen eines autonomen Fahragenten bereitgestellt, wobei das Verfahren die folgenden Schritte umfasst: Extrahieren von Informationen aus Demonstrationen des Fahrverhaltens unter Verwendung eines neuronalen Netzwerks durch einen Prozessor; Wiederherstellen einer Belohnungskarte aus den extrahierten Informationen durch einen Prozessor; Übertragen der extrahierten Informationen an ein Generatormodul; Übertragen eines realen Umgebungszustands, der mit den Demonstrationen des Fahrverhaltens und der wiederhergestellten Belohnungskarte verbunden ist, an ein Diskriminatormodul; Erzeugen, durch einen Prozessor, von Umgebungszustandsinterpretationen aus den extrahierten Informationen unter Verwendung des Generatormoduls; Anlernen, durch einen Prozessor, des Diskriminatormoduls, um besser zu bestimmen, ob die erzeugten Umgebungszustandsinterpretationen dem tatsächlichen Umgebungszustand entsprechen, während das Generatormodul durch einen Prozessor geschult wird, um eine verbesserte Umgebungszustandsinterpretation zu erzeugen, die der Diskriminator entsprechend dem tatsächlichen Umgebungszustand bestimmt.
  • In einer Ausführungsform umfasst das Verfahren ferner die Darstellung der verbesserten Umgebungszustandsinterpretation mittels einer Anzeige.
  • In einer Ausführungsform wird der durch den Generator erzeugte verbesserte Umgebungszustand verwendet, um die Belohnungskarte zu aktualisieren.
  • In Ausführungsformen, worin die Demonstrationen des Fahrverhaltens aus von Menschen geführten Datenprotokollen (z. B. gespeichert im Computerspeicher), z. B. aus unterschiedlichen Fahrumgebungen und/oder mit unterschiedlichen Fahrzielen, entnommen werden.
  • In einer Ausführungsform werden die extrahierten Informationen über ein faltungsneuronales Netz extrahiert. In einer Ausführungsform ist das faltungsneuronale Netz ein tiefes faltungsneuronales Netz.
  • In einer Ausführungsform wird die Entlohnungsfunktion durch tiefes inverses Verstärkungslernen über ein tiefes inverses Verstärkungslernmodul wiederhergestellt.
  • In einer Ausführungsform wird das Anlernen des Diskriminatormoduls über eine Verlust- oder Kostengradientenfunktion durchgeführt.
  • In einer Ausführungsform wird das Anlernen des Generatormoduls über eine Verlust- oder Kostengradientenfunktion durchgeführt.
  • In einer Ausführungsform umfasst das Verfahren ferner den Schritt des Übertragens der extrahierten Informationen an das Diskriminatormodul, wobei das Diskriminatormodul konfiguriert ist, um zu bestimmen, ob die erzeugte Umgebungszustandsinterpretation den extrahierten Informationen entspricht.
  • In einer Ausführungsform beinhaltet der Sensor eine optische Kamera. In einer Ausführungsform beinhaltet der Sensor ein LIDAR-System. In einer Ausführungsform beinhaltet der Sensor ein RADAR-System.
  • Gemäß der Erfindung ist ein System zum Anlernen eines autonomen Fahragenten vorgesehen, wobei das System ein neuronales Netzwerk umfasst, das konfiguriert ist, um Informationen aus Demonstrationen des Fahrverhaltens zu extrahieren; ein tiefes inverses Verstärkungslernmodul, das konfiguriert ist, um eine Belohnungskarte aus den extrahierten Informationen wiederherzustellen; ein Generatormodul, das konfiguriert ist, um basierend auf den extrahierten Informationen eine Interpretation des Umgebungszustands zu erzeugen; und ein Diskriminatormodul, das konfiguriert ist, um die wiederhergestellte Belohnungskarte zumindest teilweise zu verwenden, um zu ermitteln, ob die Interpretation des erzeugten Umgebungszustands einem realen, dem der extrahierten Information zugeordneten Umgebungszustand entspricht.
  • In einer Ausführungsform beinhaltet das System weiterhin eine Anzeige, die konfiguriert ist, um die erzeugte Umgebungszustandsinterpretation anzuzeigen.
  • In einer Ausführungsform wird das tief-inverse Verstärkungslernmodul konfiguriert, um die Belohnungskarte basierend auf der erzeugten Umgebungszustandsinterpretation zu aktualisieren.
  • In den Ausführungsformen prognostiziert das System mittels der wiederhergestellten Belohnungskarte und des Diskriminatormoduls eine menschenähnliche Interpretation einer Fahrsituation.
  • In den Ausführungsformen stellt das tief-inverse Verstärkungslernmodul (DIRL) die Belohnungskarte aus menschlichen Fahrdatenprotokollen (die Umgebungszustände und/oder Handlungen/Demonstrationen enthalten) wieder her. Das Diskriminatormodul verwendet die wiederhergestellte Belohnungskarte zusammen mit einem echten Umgebungszustand, um eine Ausgabe des Generatormoduls zu unterscheiden.
  • In Ausführungsformen verwendet das DIRL-Modul die wiederhergestellte Belohnungsfunktion (oder Motivationskarten), um eine Richtlinie auszuwählen (die vorschreibt, welche Maßnahmen bei einem erfassten Umgebungszustand zu ergreifen sind), während der Laufzeit/Testzeit/nach dem Einsatz, wenn kein Mensch zu demonstrieren ist. Der autonome Fahragent nutzt die Richtlinie, um Steuerbefehle zu senden und/oder das autonome Fahrzeug zu betätigen.
  • In einer Ausführungsform umfasst das neuronale Netzwerk ein tiefes faltungsneuronales Netz.
  • In einer Ausführungsform ist das tief-inverse Verstärkungslernmodul konfiguriert, um die Belohnungskarte über das tief-inverse Verstärkungslernen wiederherzustellen.
  • In einer Ausführungsform ist das Diskriminatormodul auf eine iterative Verbesserung der Bestimmung, ob die erzeugte Umgebungszustandsinterpretation basierend auf einer Verlust- oder Kostenfunktion einem realen Umgebungszustand entspricht, konfiguriert.
  • In einer Ausführungsform ist das Generatormodul auf eine iterative Verbesserung der Bestimmung, ob die erzeugte Umgebungszustandsinterpretation basierend auf einer Verlust- oder Kostenfunktion einem realen Umgebungszustand entspricht, konfiguriert.
  • In einer Ausführungsform ist das Diskriminatormodul weiterhin konfiguriert, um zu ermitteln, ob die erzeugte Umgebungszustandsinterpretation den extrahierten Informationen entspricht.
  • In einer Ausführungsform ist das Diskriminatormodul auf eine iterative Verbesserung der Bestimmung, ob die erzeugte Umgebungszustandsinterpretation basierend auf einer Verlust- oder Kostenfunktion den extrahierten Informationen entspricht, konfiguriert.
  • In einer Ausführungsform beinhaltet der Sensor eine optische Kamera. In einer Ausführungsform beinhaltet der Sensor ein LIDAR-System. In einer Ausführungsform beinhaltet der Sensor ein RADAR-System.
  • Figurenliste
  • Die exemplarischen Ausführungsformen werden nachfolgend in Verbindung mit den folgenden Zeichnungen beschrieben, worin gleiche Bezugszeichen gleiche Elemente bezeichnen, und worin gilt:
    • 1 ist ein Funktionsblockdiagramm, das ein autonomes Fahrzeug mit einem autonomen Fahragenten veranschaulicht;
    • 2 ist ein Blockdiagramm, das veranschaulicht, wie durch fachkundige Fahrdemonstrationen ein autonomer Fahragent gemäß verschiedenen Ausführungsformen angelernt wird;
    • 3 ist ein Flussdiagramm, das ein Verfahren zum Anlernen eines autonomen Agenten gemäß den verschiedenen Ausführungsformen veranschaulicht;
    • 4 ist ein Schema, das veranschaulicht, wie Umgebungsinterpretationen durch ein Generatormodul im Rahmen eines kontradiktorischen Lernprozesses gemäß den verschiedenen Ausführungsformen erzeugt werden können;
    • 5 ist ein Flussdiagramm, das zeigt, wie ein Generatormodul und ein Diskriminatormodul als Gegner gemäß den verschiedenen Ausführungsformen angelernt werden können;
    • 6 ist ein Blockdiagramm, das veranschaulicht, wie ein gemäß verschiedenen Ausführungsformen angelernter autonomer Agent in ein autonomes Fahrzeug integriert werden kann;
    • 7 ist ein Blockdiagramm, das veranschaulicht, wie ein gemäß verschiedenen Ausführungsformen angelernter autonomer Agent in ein autonomes Fahrzeug integriert werden kann; und
    • 8 ist ein Flussdiagramm, das ein Anlernverfahren für einen autonomen Agenten gemäß verschiedenen Ausführungsformen veranschaulicht.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Der hierin verwendete Begriff „Modul“ bezieht sich auf alle Hardware-, Software-, Firmwareprodukte, elektronische Steuerkomponenten, Verarbeitungslogik und/oder Prozessorgeräte, einzeln oder in allen Kombinationen, unter anderem beinhaltend, eine anwendungsspezifische integrierte Schaltung (ASIC), eine elektronische Schaltung, einen Prozessor (gemeinsam genutzt, dediziert oder Gruppenprozessor) und einen Speicher, der ein oder mehrere Software- oder Firmwareprogramme, ein neuronales Netz, eine kombinatorische Logikschaltung und/oder andere geeignete Komponenten ausführt, die die beschriebene Funktionalität bieten.
  • Ausführungsformen der vorliegenden Offenbarung können hierin als funktionale und/oder logische Blockkomponenten und verschiedene Verarbeitungsschritte beschrieben sein. Es ist zu beachten, dass derartige Blockkomponenten aus einer beliebigen Anzahl an Hardware-, Software- und/oder Firmware-Komponenten aufgebaut sein können, die zur Ausführung der erforderlichen Funktionen konfiguriert sind. Zum Beispiel kann eine Ausführungsform der vorliegenden Offenbarung eines Systems oder einer Komponente verschiedene integrierte Schaltungskomponenten, beispielsweise Speicherelemente, digitale Signalverarbeitungselemente, Logikelemente, Wertetabellen oder dergleichen, einsetzen, die mehrere Funktionen unter der Steuerung eines oder mehrerer Mikroprozessoren oder anderer Steuervorrichtungen durchführen können. Zudem werden Fachleute auf dem Gebiet erkennen, dass die exemplarischen Ausführungsformen der vorliegenden Offenbarung in Verbindung mit einer beliebigen Anzahl an Systemen eingesetzt werden können, und dass das hierin beschriebene System lediglich eine exemplarische Ausführungsform der vorliegenden Offenbarung darstellt.
  • Der Kürze halber sind konventionelle Techniken in Verbindung mit der Signalverarbeitung, Datenübertragung, Signalgebung, Steuerung und weiteren funktionalen Aspekten der Systeme (und den einzelnen Bedienelementen der Systeme) hierin ggf. nicht im Detail beschrieben. Weiterhin sollen die in den verschiedenen Figuren dargestellten Verbindungslinien exemplarische Funktionsbeziehungen und/oder physikalische Verbindungen zwischen den verschiedenen Elementen darstellen. Es sollte beachtet werden, dass viele alternative oder zusätzliche funktionale Beziehungen oder physikalische Verbindungen in einer Ausführungsform der vorliegenden Offenbarung vorhanden sein können.
  • Wie unter Bezugnahme auf 1 ersichtlich, ist ein bei 100 allgemein dargestelltes autonomes Fahrsystem mit einem Fahrzeug 10 assoziiert. Im Allgemeinen beinhaltet das autonome System 100 ein autonomes Fahragentenmodul 1000, das konfiguriert ist, um eine Fahraktion basierend auf den erfassten Umgebungsbedingungen zu bestimmen. Der autonome Fahragent steuert das Fahrzeug 10 intelligent.
  • Wie in 1 dargestellt, kann das Fahrzeug 10 ein Fahrgestell 12, eine Karosserie 14, Vorderräder 16 und Hinterräder 18 beinhalten. Die Karosserie 14 ist auf dem Fahrgestell 12 angeordnet und umhüllt im Wesentlichen die anderen Komponenten des Fahrzeugs 10. Die Karosserie 14 und das Fahrgestell 12 können gemeinsam einen Rahmen bilden. Die Räder 16-18 sind jeweils mit dem Fahrgestell 12 in der Nähe einer jeweiligen Ecke der Karosserie 14 drehbar verbunden.
  • In verschiedenen Ausführungsformen ist das Fahrzeug 10 ein autonomes Fahrzeug und das autonome Fahragentenmodul 1000 ist in das autonome Fahrzeug 10 integriert. Die Funktion des autonomen Fahragentenmoduls 1000 wird im Folgenden näher beschrieben. Das autonome Fahrzeug 10 ist beispielsweise ein Fahrzeug, das automatisch gesteuert wird, um Passagiere von einem Ort zum anderen zu befördern. Das Fahrzeug 10 ist in der veranschaulichten Ausführungsform als Pkw dargestellt, es sollte jedoch beachtet werden, dass auch jedes andere Fahrzeug, einschließlich Motorräder, Lastwagen, Sportfahrzeuge (SUVs), Freizeitfahrzeuge (RVs), Schiffe, Flugzeuge usw. verwendet werden können. In einer exemplarischen Ausführungsform ist das autonome Fahrzeug 10 ein sogenanntes Level-Vier oder Level-Fünf Automatisierungssystem. Ein Level-Vier-System zeigt eine „hohe Automatisierung“ unter Bezugnahme auf die Fahrmodus-spezifische Leistung durch ein automatisiertes Fahrsystem aller Aspekte der dynamischen Fahraufgabe an, selbst wenn ein menschlicher Fahrer nicht angemessen auf eine Anforderung einzugreifen, reagiert. Ein Level-Fünf-System zeigt eine „Vollautomatisierung“ an und verweist auf die Vollzeitleistung eines automatisierten Fahrsystems aller Aspekte der dynamischen Fahraufgabe unter allen Fahrbahn- und Umgebungsbedingungen, die von einem menschlichen Fahrer verwaltet werden können.
  • Wie dargestellt, beinhaltet das autonome Fahrzeug 10 im Allgemeinen ein Antriebssystem 20, ein Übertragungssystem 22, ein Lenksystem 24, ein Bremssystem 26, ein Sensorsystem 28, ein Stellantriebsystem 30, mindestens einen Datenspeicher 32, mindestens eine Steuerung 34 und ein Kommunikationssystem 36. Das Antriebssystem 20 kann in verschiedenen Ausführungsformen einen Verbrennungsmotor, eine elektrische Maschine, wie beispielsweise einen Traktionsmotor und/oder ein Brennstoffzellenantriebssystem, beinhalten. Das Übertragungssystem 22 ist dazu konfiguriert, Leistung vom Antriebssystem 20 zu den Fahrzeugrädern 16-18 gemäß den wählbaren Übersetzungen zu übertragen. Gemäß verschiedenen Ausführungsformen kann das Getriebesystem 22 ein Stufenverhältnis-Automatikgetriebe, ein stufenlos verstellbares Getriebe oder ein anderes geeignetes Getriebe beinhalten. Das Bremssystem 26 ist dazu konfiguriert, den Fahrzeugrädern 16-18 ein Bremsmoment bereitzustellen. Das Bremssystem 26 kann in verschiedenen Ausführungsformen Reibungsbremsen, Brake-by-Wire, ein regeneratives Bremssystem, wie beispielsweise eine elektrische Maschine und/oder andere geeignete Bremssysteme beinhalten. Das Lenksystem 24 beeinflusst die Position der Fahrzeugräder 16-18. Während in einigen Ausführungsformen innerhalb des Umfangs der vorliegenden Offenbarung zur Veranschaulichung als ein Lenkrad dargestellt, kann das Lenksystem 24 kein Lenkrad beinhalten.
  • Das Sensorsystem 28 beinhaltet eine oder mehrere Sensorvorrichtungen 40a-40n, die beobachtbare Zustände der äußeren Umgebung und/oder der inneren Umgebung des autonomen Fahrzeugs 10 erfassen. Die Sensoren 40a-40n können Radargeräte, Lidare, globale Positionierungssysteme, optische Kameras, Wärmebildkameras, Ultraschallsensoren, Trägheitsmesseinheiten und/oder andere Sensoren beinhalten, sind aber nicht darauf beschränkt. Das Stellantriebssystem 30 beinhaltet eine oder mehrere Stellantriebs-Vorrichtungen 42a-42n, die ein oder mehrere Fahrzeugmerkmale, wie zum Beispiel das Antriebssystem 20, das Getriebesystem 22, das Lenksystem 24 und das Bremssystem 26, steuern, jedoch nicht darauf beschränkt sind. In verschiedenen Ausführungsformen können die Fahrzeugmerkmale ferner Innen- und/oder Außenfahrzeugmerkmale, wie beispielsweise Türen, einen Kofferraum und Innenraummerkmale, wie z. B. Luft, Musik, Beleuchtung usw., beinhalten, sind jedoch nicht auf diese beschränkt (nicht nummeriert).
  • Das Kommunikationssystem 36 kann dazu konfiguriert sein, Informationen drahtlos an und von anderen Einheiten 48 zu übermitteln, wie beispielsweise, jedoch nicht beschränkt auf andere Fahrzeuge („V2V“-Kommunikation), Infrastruktur („V2I“-Kommunikation), entfernte Systeme und/oder persönliche Vorrichtungen. In einer exemplarischen Ausführungsform ist das drahtlose Kommunikationssystem 36 dazu konfiguriert, über ein drahtloses lokales Netzwerk (WLAN) unter Verwendung des IEEE 802.11-Standards, über Bluetooth oder mittels einer mobilen Datenkommunikation zu kommunizieren. Im Geltungsbereich der vorliegenden Offenbarung werden jedoch auch zusätzliche oder alternative Kommunikationsverfahren, wie beispielsweise ein dedizierter Nahbereichskommunikations-(DSRC)-Kanal, berücksichtigt. DSRC-Kanäle beziehen sich auf Einweg- oder Zweiwege-Kurzstrecken- bis Mittelklasse-Funkkommunikationskanäle, die speziell für den Automobilbau und einen entsprechenden Satz von Protokollen und Standards entwickelt wurden.
  • Die Datenspeichervorrichtung 32 speichert Daten zur Verwendung beim automatischen Steuern des autonomen Fahrzeugs 10. In verschiedenen Ausführungsformen speichert die Datenspeichervorrichtung 32 definierte Landkarten der navigierbaren Umgebung. In verschiedenen Ausführungsformen können die definierten Karten vordefiniert und von einem entfernten System abgerufen werden. So können beispielsweise die definierten Landkarten durch das entfernte System zusammengesetzt und dem autonomen Fahrzeug 10 (drahtlos und/oder drahtgebunden) mitgeteilt und in der Datenspeichervorrichtung 32 gespeichert werden. Wie ersichtlich, kann die Datenspeichervorrichtung 32 ein Teil der Steuerung 34, von der Steuerung 34 getrennt, oder ein Teil der Steuerung 34 und Teil eines separaten Systems sein.
  • Die Steuerung 34 beinhaltet mindestens einen Prozessor 44 und ein computerlesbares Speichermedium 46, die jeweils dem autonomen Fahragentenmodul 1000 zugeordnet werden können. Der Prozessor 44 kann eine Spezialanfertigung oder ein handelsüblicher Prozessor sein, eine Zentraleinheit (CPU), eine Grafikprozessoreinheit (GPU) unter mehreren Prozessoren verbunden mit der Steuerung 34, ein Mikroprozessor auf Halbleiterbasis (in Form eines Mikrochips oder Chip-Satzes), ein Makroprozessor, eine Kombination derselben oder allgemein jede beliebige Vorrichtung zur Ausführung von Anweisungen. Die computerlesbare Speichervorrichtung oder Medien 46 können flüchtige und nicht-flüchtige Speicher in einem Nur-Lese-Speicher (ROM), einem Speicher mit direktem Zugriff (RAM) und einem Keep-Alive-Memory (KAM) beinhalten. KAM ist ein persistenter oder nichtflüchtiger Speicher, der verwendet werden kann, um verschiedene Betriebsvariablen zu speichern, während der Prozessor 44 ausgeschaltet ist. Die computerlesbare Speichervorrichtung oder Medien 46 können unter Verwendung einer beliebigen einer Anzahl an bekannten Speichervorrichtungen, wie beispielsweise PROMs (programmierbarer Nur-Lese-Speicher), EPROMs (elektrische PROM), EEPROMs (elektrisch löschbarer PROM), Flash-Speicher oder beliebige andere elektrischen, magnetischen, optischen oder kombinierten Speichervorrichtungen implementiert werden, die Daten speichern können, von denen einige ausführbare Anweisungen darstellen, die von der Steuerung 34 beim Steuern des autonomen Fahrzeugs 10 verwendet werden.
  • Die Anweisungen können ein oder mehrere separate Programme beinhalten, von denen jede eine geordnete Auflistung von ausführbaren Anweisungen zum Implementieren von logischen Funktionen umfasst. Die Anweisungen empfangen und verarbeiten, wenn diese vom Prozessor 44 ausgeführt werden, Signale vom Sensorsystem 28, führen Logik, Berechnungen, Verfahren und/oder Algorithmen zur automatischen Steuerung der Komponenten des autonomen Fahrzeugs 10 durch und erzeugen Steuersignale an das Stellantriebssystem 30, um die Komponenten des autonomen Fahrzeugs 10 basierend auf der Logik, den Berechnungen, den Verfahren und/oder Algorithmen automatisch zu steuern. Die Steuerung der Komponenten des autonomen Fahrzeugs 10 kann basierend auf Fahrentscheidungen bestimmt werden, die über den Prozessor 44 durch das autonome Fahragentenmodul 1000 getroffen werden, wie im Folgenden näher erläutert wird. Obwohl in 1 nur eine Steuerung 34 und ein Prozessor 44 dargestellt sind, können Ausführungsformen des autonomen Fahrzeugs 10 eine beliebige Anzahl von Steuerungen 34 und Prozessoren 44 beinhalten, die über ein geeignetes Kommunikationsmedium oder eine Kombination von Kommunikationsmedien kommunizieren und zusammenwirken, um die Sensorsignale zu verarbeiten, Logiken, Berechnungen, Verfahren und/oder Algorithmen durchzuführen, und Steuersignale zu erzeugen, um die Funktionen des autonomen Fahrzeugs 10 automatisch zu steuern.
  • In einer Ausführungsform ist der autonome Fahragent 1000 zur Steuerung von Komponenten des autonomen Fahrzeugs 10 in gewünschter Weise (nachfolgend „Fahraktion“ genannt) für einen bestimmten Umgebungszustand um das autonome Fahrzeug 10 herum zuständig.
  • Um eine Reihe von geeigneten Fahraktionen für die jeweilige Umgebung des autonomen Fahrzeugs 10 zu wählen, sollte der autonome Fahragent 1000 in der Lage sein, eine Reihe von Mehrkörperproblemen zu lösen, für die ein hohes Maß an Unsicherheit besteht. Im Besonderen kann die Anzahl der Fahrzeuge, die das autonome Fahrzeug 10 in einem bestimmten Umgebungszustand umgeben, sehr variabel sein. Die geometrische Konfiguration dieser umgebenden Fahrzeuge und die zukünftige Bewegung dieser umgebenden Fahrzeuge kann ebenfalls sehr variabel sein. Wie hierin verwendet, definiert der Begriff „Umgebungszustand“ eine zeitliche „Momentaufnahme“ der Informationen, die einem autonomen Fahrzeug von seinen Sensoren zur Verfügung stehen.
  • Um dieses sequentielle Entscheidungsproblem zu lösen, kann ein Markov-Entscheidungsprozess (MDP) verwendet werden.
  • Ein gewöhnliches MDP definiert eine Anzahl von Variablen, wie beispielsweise S, A, T, D und R. Hier ist S ein Satz von Umgebungszuständen, A ist ein Satz von Aktionen (wie z.B. Fahraktionen), die in jedem Zustand ausgeführt werden können, T ist ein Satz von Zustandsübergangswahrscheinlichkeiten (welche die Zustandsübergangsverteilung bei Ausführung der Aktion ax im Zustand sx definieren), D ist die Anfangszustandsverteilung (von der ein anfänglicher Umgebungszustand s0 definiert wird), und R ist die Belohnungsfunktion. Die Belohnungsfunktion R kann als lineare oder nichtlineare Kombination von gewichteten Merkmalen ausgedrückt werden θ, während bei autonomen Fahranwendungen die Belohnungsfunktion mit einem gewünschten Fahrverhalten (z. B. Kollisionsvermeidungsverhalten) assoziiert werden kann.
  • Bei autonomen Fahranwendungen können die gewichteten Merkmale θ mit unterschiedlichen „Merkmalen“ oder „Hinweise“ des Umgebungszustands übereinstimmen, beispielsweise ob das autonome Fahrzeug auf der rechten Spur fährt, ob ein anderes Fahrzeug gerade die Spur vor dem autonomen Fahrzeug gewechselt hat, die Geschwindigkeit eines nahegelegenen Fahrzeugs usw.
  • Eine MDP „Richtlinie“ π ist eine Kartierung von Umgebungszuständen S zu Wahrscheinlichkeitsverteilungen in Bezug auf die Aktionen A. Ausgehend von Zustand s0 und dann durch eine zufällige Zustandsequenz s1, s2, usw. fortschreitend, zu einem endgültigen Zustand sZiel, ist es möglich, durch die Berücksichtigung der Handlungen a0, a1 usw., die von einer bestimmten Strategie π definiert sind, die gewichteten Merkmale θ Erwartungen für diese bestimmte Strategie π zu bestimmen. Diese gewichtete Merkmalserwartungsberechnung kann für mehrere Richtlinien π durchgeführt werden. Da die Belohnungsfunktion R normalerweise als lineare Kombination der gewichteten Merkmale θ ausgedrückt werden kann, ist es dann möglich, eine optimale Strategie π zu wählen, die den erwarteten Wert der Belohnungsfunktion R in Bezug auf diese gewichteten Merkmale θ maximiert. Diese optimale Strategieauswahl berücksichtigt die inhärenten Unsicherheiten, die mit dem Fahren verbunden sind - eine Strategie der Fahraktionen wird gewählt, um eine Anhäufung des erwarteten Werts von R zu maximieren (d. h. der erwartete Wert der Belohnung über einen zukünftigen Zeitraum wird maximiert, beginnend mit einem Anfangszustand s0 und fortschreitend zum Endzustand sZiel).
  • Es ist jedoch nicht optimal, wenn ein Designer die Struktur der Belohnungsfunktion R „handwerklich“ gestaltet, da dies dazu führen kann, dass das MDP eine suboptimale Strategie π auswählt. Mit anderen Worten, unabhängig davon, wie genau der MDP-Prozess bei der Auswahl der richtigen Strategie π für einen bestimmten Umgebungszustand ist, um den erwarteten Wert einer bestimmten Belohnungsfunktion R zu maximieren, wenn die Struktur der Belohnungsfunktion R, die maximiert wird, falsch ist, kann eine falsche Strategie π für Fahrmaßnahmen gewählt werden.
  • Um dieses Problem zu überwinden und eine höhere Wahrscheinlichkeit einer korrekten Fahrweise durch das MDP zu gewährleisten, kann ein MDP ohne eine vorgegebene Belohnungsfunktion R (MDP/R) definiert werden. Einem Agenten, der mit diesem MDP/R angelernt wird, können dann Proben des menschlichen Expertenfahrverhaltens für bestimmte Umgebungszustände präsentiert werden. Auf der Basis des MDP/R, des präsentierten Umgebungszustands (der die Umgebungsmerkmale beinhaltet) und des präsentierten Expertenfahrverhaltens muss der Agent dann eine Strategie π ermitteln, die durch die vom Experten gewählte Reihenfolge der Fahraktionen für den präsentierten Umgebungszustand maximiert wird.
  • In einer Ausführungsform wird diese Strategiebestimmung mittels tiefem inversem Verstärkungslernen (DIRL) durchgeführt. Beim DIRI, werden zufällige Strategien π vom Agenten ausgewählt, und jede Strategie wird mit einer ersten „Schätzung“ der Belohnungsfunktion verglichen, die durch die Reihenfolge der Fahraktionen des Experten optimiert wird. Der Agent berechnet dann iterativ potenzielle Belohnungsfunktionen R, die durch die Reihenfolge des Fahrverhaltens des Experten stärker maximiert werden als die bisherige vom Agenten ermittelte Belohnungsfunktion für die „beste Einschätzung“. Auf diese Weise kann die Struktur der Belohnungsfunktion iterativ bestimmt und die latente Motivation hinter der Abfolge der Fahraktionen des Experten aus dieser bestimmten Belohnungsfunktion wiederhergestellt werden.
  • Als Beispiel kann beim Einlernen des autonomen Fahragentenmoduls 1000 das autonome Fahragentenmodul 1000 mit einer Demonstration eines erfahrenen Fahrers präsentiert werden, der in einem bestimmten Umgebungszustand an Geschwindigkeit verliert (z. B. ein Umgebungszustand, der ein Fahrzeug direkt vor dem erfahrenen Fahrer beinhaltet, dessen Geschwindigkeit rapide abnimmt). Mit DIRI, stellt der autonome Fahragent 1000 die Struktur der Belohnungsfunktion wieder her (die Anhäufung dieser Belohnungsfunktion wird durch eine Strategie π maximiert, die eine Reihe von Fahraktionen A beschreibt, die zu einer Verringerung der Geschwindigkeit des Fahrzeugs in der durch das Expertenverhalten gezeigten Weise geführt hat), und somit auch die latente Motivation des erfahrenen Fahrers (Vermeidung einer Kollision mit dem anderen Fahrzeug). Belohnungsfunktionen werden im Allgemeinen in Form eines Tensors wiederhergestellt.
  • Eine Ausführungsform der DIRL-Technik zum Anlernen des autonomen Fahragenten 100 ist in 2 dargestellt. Wie in 2 gezeigt, wird ein DIRL-Agent 215 mit einer Vielzahl von Fahrverhaltensdemonstrationen 200 von einer Vielzahl von erfahrenen Fahrern in verschiedenen Fahrumgebungszuständen 202 präsentiert. In einer Ausführungsform führt der DIRL-Agent 215 einen MDP/R-Prozess zur Wiederherstellung der Belohnungsfunktion R in Form einer Belohnungstensorkarte 220 basierend auf dem Datensatz der Fahrdemonstrationen 200 durch. Diese Belohnungstensorkarte 220 verbindet einen verallgemeinerten Umgebungszustand 202, gekennzeichnet durch einige Merkmale θ, die für den verallgemeinerten Umgebungszustand 202 von Interesse sind, mit einer bestimmten Strategie π von Fahraktionen A, die den erwarteten Wert der Belohnungsfunktion für diesen verallgemeinerten Umgebungszustand 202 maximiert. Mit anderen Worten, die Belohnungstensorkarte 220 ermöglicht eine Entscheidung über die optimale Strategie der Fahrweise A in einem beliebigen Umgebungszustand S.
  • Im Einzelnen können alle Demonstrationen aus einem bestimmten Umgebungszustand 202 (z. B. dem j-ten Umgebungszustand) in einen Datensatz Ωj aufgenommen werden. In einer Ausführungsform würde der Demonstrationssatz alle aus dieser j-ten Umgebung abgeleiteten Demonstrationsmerkmale w beinhalten, sodass: Ωj = {w1j, w2j, ... wnj}, und kann verwendet werden, um die Strategien Ω zu interpolieren, gefolgt von jedem Demonstrator in der j-ten Umgebung. Diese Interpolation kann durch Schätzen eines Belohnungsfunktions-Approximators r erfolgen, der eine Funktion der aus dem demonstrierten Expertenverhalten x extrahierten Informationen und der gewichteten Merkmale θ ist, sodass r ≈ f(x, θ1, θ2, ..., θn). In einer Ausführungsform kann die Belohnungsfunktion R auch unter Verwendung einer Universalwertfunktion V(s0, sZiel) aktualisiert werden, die zum Maximieren des erwarteten Werts der Belohnungsfunktion R bei einem Anfangszustand s0 und einem Zielzustand sZiel verwendet wird.
  • Auf diese Weise können die von jedem einzelnen Demonstrator in einer bestimmten Umgebung 202 befolgten Strategien π der Fahraktionen A wiederhergestellt und dann mit dem DIRL-Modul 215 verallgemeinert werden, um die Belohnungstensorkarte 220 wiederherzustellen. Die wiederhergestellte Belohnungstensorkarte 220 bewirkt, dass ein autonomes Fahragentenmodul 1000 in der Lage ist, eine bevorzugte Strategie π von Fahraktionen A für jeden zukünftigen Umgebungszustand 202 zu bestimmen.
  • Zum Verständnis der latenten Motivationen hinter der Konfiguration der wiederhergestellten Belohnungstensorkarte 220 kann ein Supervisor bestimmte Merkmale, die dem DIRL-Modul 215 präsentiert werden, mit den Fahrdemonstrationen kennzeichnen. Die Kennzeichnung bestimmter wichtiger Merkmale θ in den präsentierten Fahrdemonstrationen 200 würde es dem Supervisor ermöglichen, zu ermitteln, warum die Belohnungskarte in einer bestimmten Weise durch den Fahragenten wiederhergestellt wird. Ein Beispiel für ein wichtiges Merkmal θ, das von einem Supervisor gekennzeichnet werden kann, ist das starke Abbremsen eines Fahrzeugs vor dem autonomen Fahrzeug 10. Die wiederhergestellte Belohnungskarte würde ein Ausweichmanöver in einem derartigen Umgebungszustand belohnen und damit dem Supervisor die latente Motivation hinter dem Ausweichmanöver anzeigen.
  • In einem weiteren Beispiel, wenn ein dargestellter Umgebungszustand 202 zwei Fahrzeuge enthält und die geometrische Konfiguration dieser beiden Fahrzeuge dazu geführt hat, dass das Verhalten des dargestellten Experten die Fahrzeuggeschwindigkeit reduziert hat, kann ein Supervisor den Umgebungszustand 202 manuell kennzeichnen, um dem DIRL-Agenten 215 anzuzeigen, dass sich zwei Fahrzeuge im dargestellten Umgebungszustand 202 befinden und dass sich diese Fahrzeuge in einer bestimmten geometrischen Konfiguration befinden. Die Kennzeichnung ermöglicht daraufhin dem DIRL-Modul 215, die Merkmale zu erkennen, die den erfahrenen Fahrer veranlasst haben, die Fahrzeuggeschwindigkeit zu reduzieren.
  • Die Kennzeichnung von Trainingsdaten ist ein zeitintensiver Prozess. Um die verschiedenen Umgebungszustände 202 für jede der mehreren Fahrdemonstrationen 200 zu kennzeichnen, wäre ein hoher Zeitaufwand an Überwachung erforderlich, um die latenten Motivationen hinter der Wiederherstellung einer Belohnungstensorkarte 220 über einen DIRL-Prozess mit einem DIRL-Agenten korrekt wiederherzustellen.
  • In einer Ausführungsform kann ein kontradiktorisches Anlernverfahren verwendet werden, um die Notwendigkeit zu vermeiden, Anlerndemonstrationen für den DIRL-Agenten 215 zu kennzeichnen. Eine Ausführungsform eines derartigen kontradiktorischen Anlernverfahrens ist in 3 dargestellt. Unter Bezugnahme auf 3 beinhaltet ein kontradiktorisches Anlernverfahren den Einsatz eines Generatormoduls 300. Wie hierin verwendet, bezieht sich der Begriff „Generatormodul“ auf ein Modul, das mit der Lernaufgabe betraut ist, aus extrahierten Sensorinformationen des Sensorsystems 28 Umgebungsinterpretationen 302 zu erzeugen. Das kontradiktorische Anlernverfahren beinhaltet auch den Einsatz eines Diskriminatormoduls 400. Wie hierin verwendet, bezieht sich der Begriff „Diskriminatormodul“ auf ein Modul, das mit der Lernaufgabe betraut ist, zu ermitteln, ob eine erzeugte Umgebungsinterpretation 302 einem realistischen Umgebungszustand entspricht oder nicht.
  • Wie in 3 dargestellt, können Sensorinformationen zu den Demonstrationen 200 in den verschiedenen Umgebungen 202 an ein neuronales Netz 216 gesendet werden. In einer Ausführungsform extrahiert das neuronale Netz 216 Informationen, wie beispielsweise expressive Hinweise, aus den Demonstrationsinformationen. In einer Ausführungsform liegen die Demonstrationsinformationen in Form von Videoaufnahmen einer optischen Kamera vor. In einer Ausführungsform ist das neuronale Netz 216 ein tiefes neuronales Netzwerk, wobei sich die vom neuronalen Netz 216 ausgegebenen Informationen auf das Erkennen von Bildern des Videomaterials von einer optischen Kamera auf hoher Ebene beziehen. Die Art und Weise, in der diese Erkennung auf hoher Ebene durchgeführt wird, wird im Folgenden näher erläutert.
  • Zusätzlich oder ergänzend können die Demonstrationsinformationen eine Reihe von LIDAR-Messwerte sein. Zusätzlich oder ergänzend können die Demonstrationsinformationen auch andere Arten von Sensorinformationen beinhalten, wie beispielsweise Radar, globales Positionierungssystem, Wärmebildkamera, Ultraschallsensor, Trägheitsmesseinheit und/oder andere Arten von Sensordaten.
  • Die Merkmale θ (beispielsweise Fahrzeugpositionen, Ampeln usw.) und andere aussagekräftige Umgebungsinformationen, die durch das neuronale Netz 216 aus den Demonstrationsinformationen extrahiert werden, können im MDP/R-Prozess des DIRL-Agenten 215 künstlich auf das Verhalten des erfahrenen Fahrers gewichtet werden. Diese Gewichtung kann die Notwendigkeit eliminieren, die Umgebung genau zu erfassen und Funktionen bereitzustellen, die mit der Kinematik von Objekten, den Regeln für Verkehrszeichen usw. zusammenhängen. Unter Bezugnahme auf 3 werden in einer Ausführungsform Informationen aus den Demonstrationen 200 über das neuronale Netz 216 an den DIRL-Agenten 215 übertragen. Darüber hinaus ist die aufgezeichnete Strategie des Experten für Fahrmanöver A aus den Aufzeichnungen des Betätigungssystems 30 des Expertenfahrzeugs wiederhergestellt. In einer Ausführungsform ist der DIRL-Agent 215 konfiguriert, um die extrahierten Informationen und die Strategie mehrerer Experten in Bezug auf Fahraktionen zur Wiederherstellung der Belohnungskarte 220 zu verwenden.
  • In einer Ausführungsform werden die extrahierten Informationen auch an ein Generatormodul 300 übertragen. Das Generatormodul 300 beinhaltet in einer Ausführungsform auch ein tiefes faltungsneuronales Netz. Das Generatormodul 300 ist konfiguriert, um eine Interpretation des dargestellten Umgebungszustands 202 basierend auf den extrahierten Informationen aus dem neuronalen Netz 216 zu erzeugen.
  • Unter Bezugnahme auf 4 werden nun die Details dargestellt, wie das Generatormodul 300 konfiguriert ist, um eine Interpretation des dargestellten Umgebungszustands 202 basierend auf den extrahierten Informationen aus dem neuronalen Netz 216 zu erzeugen. In einer Ausführungsform basiert die erzeugte Umgebungsinterpretation 302 auf einer Generatorfunktion G(z). In einer Ausführungsform beinhaltet das Generatormodul 300 eine Reihe von versteckten Faltungsschichten 700, 702, 704, 706 (CONV-Schichten). Jede dieser CONV-Schichten 700, 702, 704, 706 kann aus den extrahierten Informationen des neuronalen Netzes 216 progressiv übergeordnete Merkmale extrahieren. In der in 4 dargestellten Ausführungsform werden vier versteckte CONV-Schichten 700, 702, 704, 706 verwendet. In einer Ausführungsform weisen die CONV-Schichten 700, 702, 704, 706 alle den gleichen Schrittwert auf. In einer weiteren Ausführungsform umfassen die CONV-Schichten 700, 702, 704, 706 unterschiedliche Schrittwerte. In der in 4 dargestellten Ausführungsform weist jede CONV-Schicht 700, 702, 704, 706 einen Schrittwert von 2 auf, sodass über 4 CONV-Schichten eine Interpretation von 4x4x1024 projiziert und zu einer Interpretation von 64x64x3 umgestaltet wird.
  • In einer Ausführungsform entspricht die Ausgabe der letzten CONV-Schicht 706 des Generatormoduls 300 der erzeugten Umgebungsinterpretation 302 der Umgebung 202, basierend auf den extrahierten Informationen aus dem neuronalen Netz 216. Diese Umgebungsinterpretation 302 beinhaltet das Agenten-eigene „Kennzeichnungs“-Verfahren - das heißt, das Generatormodul 300 kennzeichnet das demonstrative Fahrverhalten 200 durch den Erzeugungsprozess der Umgebungsinterpretation.
  • Unter Bezugnahme auf 3 wird dann die erzeugte Umgebungsinterpretation 302 an das Diskriminatormodul 400 übergeben. Die Informationen der Sensorrohdaten (die in einer Ausführungsform als Rohdaten der optischen Kamera vorliegen) werden ebenfalls an das Diskriminatormodul 400 übergeben. Das Diskriminatormodul 400, das in einer Ausführungsform auch ein neuronales Netz beinhaltet, ist zum Vergleichen der erzeugten Umgebungsinterpretation 302 mit dem „realen“ Umgebungszustand 202 in den Rohsensorinformationen konfiguriert. Das Diskriminatormodul 400 ist konfiguriert, um basierend auf einer Diskriminatorfunktion D(G(x(i))) zu ermitteln, ob die erzeugte Umgebungsinterpretation 302 mit einem realistischen Umgebungszustand korreliert. Diese Diskriminatorfunktion kann eine iterative Funktion sein.
  • In einer Ausführungsform und wie in den 3 und 4 dargestellt, kann das Diskriminatormodul 400 auch mit den extrahierten Informationen aus dem neuronalen Netz 216 versorgt werden. In dieser Ausführungsform ist das Diskriminatormodul 400 konfiguriert, um zu ermitteln, ob die erzeugte Umgebungsinterpretation 302 nicht nur einem allgemein realistischen Umgebungszustand entspricht, sondern auch dem tatsächlichen realen Umgebungszustand 202, der mit den Sensorinformationen aus den Fahrdemonstrationen 200 dargestellt wird.
  • Wie vorstehend ausgeführt, kann das Diskriminatormodul 400 auch ein neuronales Netz beinhalten. In einer Ausführungsform kann das Diskriminatormodul 400 eine Reihe von versteckten Faltungsschichten (CONV-Schichten) in einem umgekehrten „Spiegelbild“ des Generatormoduls 300 beinhalten.
  • In einer Ausführungsform werden sowohl das Generatormodul 300 als auch das Diskriminatormodul 400 zur Verbesserung ihrer Lernziele trainiert.
  • Mit anderen Worten, das Generatormodul 300 muss lernen, zwei Aufgaben korrekt auszuführen. Zunächst muss das Generatormodul 300 lernen, aus den extrahierten Informationen des neuronalen Netzes 216 eine „realistische“ Umgebungszustandsinterpretation 302 zu erzeugen. Zweitens muss das Generatormodul 300 in der Lage sein, eine Umgebungsinterpretation 302 zu erzeugen, die mit den an das Diskriminatormodul 400 übermittelten Sensorrohinformationen korreliert. Das Diskriminatormodul 400 muss lernen, die Aufgabe einer korrekten Ermittlung zu erfüllen, ob eine erzeugte Umgebungsinterpretation 302 mit einem allgemein realistischen Umgebungszustand korreliert. Darüber hinaus muss das Diskriminatormodul 400 in einer Ausführungsform ebenfalls lernen, die Aufgabe der korrekten Ermittlung, ob eine erzeugte Umgebungsinterpretation 302 mit dem dargestellten Umgebungszustand, der mit den Rohsensorinformationen korreliert, übereinstimmt oder nicht.
  • Um sowohl das Generatormodul 300 als auch das Diskriminatormodul 400 für diese Aufgaben anzulernen, werden das Generatormodul 300 und das Diskriminatormodul 400 als Kontrahenten angelernt. Im Besonderen gibt das Generatormodul 300 das spezifische Lernziel vor, aus den extrahierten Informationen eine Umgebungsinterpretation 302 zu erzeugen, die den Diskriminierungstest des Diskriminatormoduls 400 durchläuft. Dementsprechend wird dem Diskriminatormodul 400 das Lernziel vorgegeben, korrekt zu ermitteln, ob eine erzeugte Umgebungsinterpretation 302 mit einem realistischen Umgebungszustand korreliert oder, in einer Ausführungsform, dem tatsächlichen Umgebungszustand 200, der mit den Rohsensorinformationen dargestellt wird.
  • Das Generatormodul 300 und das Diskriminatormodul 400 werden dann iterativ aktualisiert. Im Besonderen werden die von einer „anfänglichen“ Generatorfunktion erzeugten Umgebungsinterpretationen 302 durch eine „anfängliche“ Diskriminatorfunktion ausgewertet. Ausgehend von der Ermittlung der anfänglichen Diskriminatorfunktion wird dann die Generatorfunktion aktualisiert, beispielsweise durch Verwendung einer Verlust- oder Kostenfunktion, sodass die Generatorfunktion eher eine Umgebungsinterpretation aus den extrahierten Informationen erzeugt, die den Diskriminierungstest der „ursprünglichen“ Diskriminatorfunktion bestehen wird.
  • In einer Ausführungsform ist die Verlust- oder Kostenfunktion eine Funktion, die den Fehler der Leistung des Generatormoduls 300 oder des Diskriminatormoduls 400 quantifiziert. In einer Ausführungsform kann die Verlust- oder Kostenfunktion den Unterschied zwischen der erzeugten Umgebungsinterpretation 302 und einer vorher definierten „idealen“ realistischen Umgebungsinterpretation bestimmen. In einer Ausführungsform ist die Verlust- oder Kostenfunktion in Bezug auf Variablen, die mit der erzeugten Umgebungsinterpretation verbunden sind, differenzierbar, sodass der Fehler in der Verlust- oder Kostenfunktion über ein Gradientenabsenkungsverfahren minimiert werden kann.
  • Wenn die Generatorfunktion des Generatormoduls 300 auf einen Genauigkeitsgrad aktualisiert wird, bei welchem die meisten der erzeugten Umgebungsinterpretationen den Diskriminatorfunktionstest des Diskriminatormoduls 400 „bestehen“, wird das Aktualisieren der Generatorfunktion angehalten. Die Diskriminatorfunktion des Diskriminatormoduls 400 wird dann iterativ aktualisiert, beispielsweise durch Verwendung einer anderen Verlust- oder Kostenfunktion, sodass die Diskriminatorfunktion eher korrekt ermitteln kann, ob eine erzeugte Umgebungsinterpretation mit einem realistischen Umgebungszustand korreliert. Wenn die Diskriminatorfunktion auf eine bestimmte Genauigkeit aktualisiert/optimiert wird, wird das Aktualisieren der Diskriminatorfunktion angehalten, und das Aktualisieren der Generatorfunktion wird dann basierend auf der verbesserten Diskriminatorfunktion usw. fortgesetzt.
  • Auf diese Weise werden sowohl die Diskriminator- als auch die Generatorfunktionen so weit aktualisiert, dass die Generatorfunktion des Generatormoduls 300 fast immer eine Umgebungsinterpretation 302 erzeugt, die basierend auf den extrahierten Sensorinformationen aus dem neuronalen Netz 216 korrekt einem realistischen Umgebungszustand 202 entspricht. An dieser Stelle können die Generator- und Diskriminatormodule 300, 400 als angelernt betrachtet werden.
  • Ein Datenflussdiagramm, das die kontradiktorische Natur der Generator- und Diskriminatormodule 300, 400 wiedergibt, ist in 5 dargestellt. In der Ausführungsform von 5 werden die Demonstrationsinformationen 200 an das neuronale Netz 216 und auch an das Diskriminatormodul 400 übertragen. Das Diskriminatormodul vergleicht die vom Generatormodul 300 erzeugte Umgebungszustandsinterpretation 302 mit den realen Umgebungszustandsinformationen 200 mittels der Diskriminatorfunktion. Wenn der Ausgang des Diskriminatormoduls ergibt, dass die erzeugte Umgebungsinterpretation 302 nicht dem realen Umgebungszustand 202 entspricht, weist das Diskriminatormodul 400 die erzeugte Umgebungszustandsinterpretation 302 zurück. Das Generatormodul 300 lernt dann basierend auf dieser Zurückweisung, dass das Verfahren zum Erzeugen dieser speziellen Interpretation in irgendeiner Weise fehlerhaft ist, und erzeugt daher eine neue Umgebungsinterpretation 302, die eine Störung in Bezug auf die zurückgewiesene Umgebungsinterpretation 302 beinhaltet. In einer Ausführungsform beinhaltet das Erzeugen der neuen Umgebungsinterpretation 302 ein Monte-Carlo-Verfahren zum Erzeugen der gestörten neuen Umgebungsinterpretation.
  • Wenn der Ausgang des Diskriminatormoduls 400 ergibt, dass die erzeugte Umgebungszustandsinterpretation der realen Umgebungszustandsinterpretation entspricht, speichert das Diskriminatormodul den realen Umgebungszustand und die zugehörige erzeugte Umgebungsinterpretation 302 in einem Speicher. Der gespeicherte reale Umgebungszustand und die damit verbundene erzeugte Umgebungsinterpretation werden dann verwendet, um das Diskriminatormodul 400 zur besseren Unterscheidung der erzeugten Umgebungsinterpretationen anzulernen, wodurch die Wahrscheinlichkeit von „Falschmeldungen“ Ergebnissen aus der Diskriminatorfunktion reduziert wird.
  • Nach einer Vielzahl von Iterationen dieses kontradiktorischen Anlernverfahrens wird das Generatormodul 300 so weit verbessert, dass die meisten der erzeugten Umgebungszustandsinterpretationen 302 den Vergleichstest mit der verbesserten Diskriminatorfunktion des verbesserten Diskriminatormoduls 400 bestehen (abhängig von den gewählten Lernkriterien). Das Generatormodul 300 kann dann als „angelernt“ betrachtet werden.
  • Das angelernte Generatormodul 300 kann dann verwendet werden, um aus den extrahierten Informationen des neuronalen Netzes 216 genaue Umgebungszustandsinterpretationen 302 zu erzeugen. Die extrahierten Informationen werden in Ausführungsformen aus den protokollierten menschlichen Fahrdaten übernommen. Für den Einsatz des angelernten Generatormoduls 300 sind keine besonderen Anmerkungen oder Kennzeichnungen der erfassten menschlichen Fahrdaten erforderlich. Auf diese Weise kann der autonome Fahrer eine menschenähnliche Interpretation der Fahrsituation vorhersagen, ohne dass ein Mensch nachweisen muss, was er in einer derartigen Situation tun würde oder warum.
  • Im Einzelnen kann, wie der gestrichelte Pfeil in 3 zeigt, die präzise erzeugte Umgebungsinterpretation 302 aus dem angelernten Generatormodul 300 als Eingabe für das DIRL-Modul 215 zum Durchführen des vorstehend beschriebenen DIRL-Lernprozesses verwendet werden. Durch die Verwendung des angelernten Generatormoduls 300 ist es nicht erforderlich, die präsentierten Fahrdemonstrationen durch einen Supervisor für den DIRL-Lernprozess zu kennzeichnen. Somit kann die Wiederherstellung der Belohnungstensorkarte 220 aus den Fahrdemonstrationen 200 weitgehend unbeaufsichtigt erfolgen. Mit anderen Worten, alles, was benötigt wird, um die Belohnungstensorkarte 220 wiederherzustellen, ist ein Datensatz von Experten-Fahrverhaltensdemonstrationen 200 - eine Kennzeichnung dieser Fahrverhaltensdemonstrationen 200 ist nicht erforderlich.
  • Nach der Wiederherstellung der Belohnungstensorkarte 220 kann der angelernte autonome Fahragent, der die wiederhergestellte Belohnungskarte 220 enthält, anschließend in einem autonomen Fahrzeug 10 eingesetzt werden. Wie in den 6 und 7 dargestellt, kann ein autonomes Fahrzeug 10 mit einem Sensorsystem 28 ausgestattet werden, das eine optische Kamera beinhalten kann. Umgebungszustandsinformationen 202 über Merkmale der Umgebung können mit diesem Sensorsystem 28 erfasst werden. Informationen bezüglich der Merkmale der Umgebung können über ein neuronales Netz 216 extrahiert werden. Der autonome Fahragent 216 implementiert dann eine Strategie der Fahraktionen A basierend auf diesen extrahierten Informationen durch die Verwendung der wiederhergestellten Belohnungskarte 220. Die extrahierten Informationen können auch über ein Datensplittermodul 219 an das angelernte Generatormodul 300 weitergegeben werden. Das angelernte Generatormodul 300 erzeugt basierend auf diesen extrahierten Informationen eine dem realen Umgebungszustand entsprechende Umgebungsinterpretation 302. Die erzeugte Umgebungsinterpretation 302 kann dann in einem Speicher 401 gespeichert und später verwendet werden, um die Hintergründe zu verstehen, warum der Agent eine bestimmte Strategie zum Steuern von Aktionen für eine bestimmte Umgebungszustandsinterpretation gewählt hat. Mit anderen Worten, durch den Zugriff auf die
  • Umgebungszustandsinterpretation, auf welcher der Agent die Strategie der Fahrweise aufbaut, ist es möglich zu verstehen, welche Merkmale θ dieser Umgebungszustandsinterpretation den Agenten veranlasst hat, eine bestimmte Strategie der Fahrweise zu wählen. Das angelernte Diskriminatormodul 400 kann auch in das Fahrzeug 10 integriert werden, wobei der Ausgang des Diskriminatormoduls 400 auch im Speicher 401 zum späteren Aktualisieren des Diskriminatormoduls 400 gespeichert werden kann.
  • Dieses Verständnis, welche Merkmale der Umgebungszustandsinterpretation den Agenten veranlasst haben, eine bestimmte Fahrstrategie zu wählen, kann später zur anschließenden Aktualisierung des Agenten verwendet werden. Im Besonderen kann der Agent eine unerwartete Fahrstrategie gewählt haben, um auf einen Umgebungszustand zu reagieren, den der Agent bisher nicht kannte. In dieser Situation ist es möglich, aus der erzeugten Umgebungsinterpretation zu ermitteln, welche Merkmale des neuen Umgebungszustands den Agenten veranlasst haben, diese bestimmte Fahrstrategie zu wählen. Wenn die gewählte Strategie unerwünscht war, kann der Agent anschließend aktualisiert werden, um zu gewährleisten, dass die unerwünschte Strategie beim nächsten Auftreten eines ähnlichen Umgebungszustands nicht ausgewählt wird.
  • Darüber hinaus kann, wie auch in 7 dargestellt, das angelernte Generatormodul 300 in das autonome Fahrzeug 10 eingebunden werden. In einer Ausführungsform ist das Diskriminatormodul 400 auch im autonomen Fahrzeug mit inbegriffen. Obwohl das Diskriminatormodul 400 die erzeugten Umgebungsinterpretationen beim autonomen Fahren nicht aktiv diskriminieren kann, können die Entscheidungen, welche die Diskriminatorfunktion des Diskriminatormoduls basierend auf der vom Generatormodul empfangenen erzeugten Umgebungsinterpretation und dem vom Sensor empfangenen realen Umgebungszustand getroffen hätte, in einem Speicher 401 gespeichert werden. Dieser Speicher kann dann genutzt werden, um die Diskriminatorfunktion (und damit auch die Generatorfunktion) periodisch basierend auf „in Gebrauch“-Fahrdaten zu aktualisieren.
  • Um den zuvor beschriebenen Lernprozess zusammenzufassen, ist in 8 ein Flussdiagramm des Lernprozesses dargestellt. Bei Schritt 500 werden Informationen aus den Fahrerdemonstrationen 200 extrahiert. In einer Ausführungsform wird diese Extraktion über ein neuronales Netz durchgeführt. Bei Schritt 502 werden diese Informationen an ein Generatormodul 300 übertragen. Bei Schritt 504 wird der reale Umgebungszustand an ein Diskriminatormodul 400 übertragen. Bei Schritt 506 erzeugt das Generatormodul 300 aus den extrahierten Informationen Umgebungszustandsinterpretationen. Bei Schritt 508 werden sowohl die Generator- als auch die Diskriminatormodule so angelernt, dass der Diskriminator lernt, zwischen erzeugten Umgebungsinterpretationen und realistischen Umgebungszuständen besser zu unterscheiden. Bei Schritt 510 wird eine Belohnungskarte aus den Fahrerdemonstrationen unter Verwendung der erzeugten Umgebungszustandsinterpretationen des gelernten Generators wiederhergestellt. Diese Belohnungskarte 220 kann durch den Einsatz des DIRL-Agenten 215 wiederhergestellt werden.
  • In verschiedenen Ausführungsformen kann das autonome Fahrzeug 10, das mit Bezug auf 1 beschrieben ist, für den Einsatz im Rahmen eines Taxi- oder Shuttle-Unternehmens in einem bestimmten geografischen Gebiet (z. B. einer Stadt, einer Schule oder einem Geschäftscampus, einem Einkaufszentrum, einem Vergnügungspark, einem Veranstaltungszentrum oder dergleichen) geeignet sein. So kann beispielsweise das autonome Fahrzeug 10 einem autonomen fahrzeugbasierten Transportsystem zugeordnet sein. In verschiedenen Ausführungsformen beinhaltet die Betriebsumgebung ferner eine oder mehrere Benutzervorrichtungen, die mit dem autonomen Fahrzeug 10 und/oder einem entfernten Transportsystem über ein Kommunikationsnetzwerk kommunizieren.
  • Das Kommunikationsnetzwerk kann die Kommunikation zwischen Geräten, Systemen und Komponenten unterstützen, die von der Betriebsumgebung unterstützt werden (z. B. über physische Kommunikationsverbindungen und/oder drahtlose Kommunikationsverbindungen). So kann beispielsweise das Kommunikationsnetzwerk ein Drahtlosträgersystem beinhalten, wie beispielsweise ein Mobiltelefonsystem, das eine Vielzahl von Mobilfunktürmen (nicht dargestellt), eine oder mehrere Mobilvermittlungsstellen (MSCs) (nicht dargestellt) sowie alle anderen Netzwerkkomponenten beinhalten, die zum Verbinden des Drahtlosträgersystems mit dem Festnetz-Kommunikationssystem erforderlich sind. Jeder Mobilfunkturm beinhaltet Sende- und Empfangsantennen und eine Basisstation, wobei die Basisstationen verschiedener Mobilfunktürme mit den MSC verbunden sind, entweder direkt oder über Zwischenvorrichtungen, wie beispielsweise eine Basisstationssteuerung. Das Drahtlosträgersystem kann jede geeignete Kommunikationstechnologie implementieren, beispielsweise digitale Technologien wie CDMA (z. B. CDMA2000), LTE (z. B. 4G LTE oder 5G LTE), GSM/GPRS oder andere aktuelle oder neu entstehende drahtlose Technologien. Andere MobilfunkturmBasisstation/MSC-Anordnungen sind möglich und könnten mit dem Mobilfunkanbietersystem verwendet werden. So könnten sich beispielsweise die Basisstation und der Mobilfunkturm an derselben Stelle oder entfernt voneinander befinden, jede Basisstation könnte für einen einzelnen Mobilfunkturm zuständig sein oder eine einzelne Basisstation könnte verschiedene Mobilfunktürme bedienen, oder verschiedene Basisstationen könnten mit einer einzigen MSC gekoppelt werden, um nur einige der möglichen Anordnungen zu nennen.
  • Abgesehen vom Verwenden des drahtlosen Trägersystems kann ein zweites drahtloses Trägersystem in Form eines Satellitenkommunikationssystems verwendet werden, um unidirektionale oder bidirektionale Kommunikation mit dem autonomen Fahrzeug bereitzustellen. Dies kann unter Verwendung von einem oder mehreren Kommunikationssatelliten (nicht dargestellt) und einer aufwärts gerichteten Sendestation (nicht dargestellt) erfolgen. Die unidirektionale Kommunikation kann beispielsweise Satellitenradiodienste beinhalten, worin programmierte Inhaltsdaten (Nachrichten, Musik usw.) von der Sendestation empfangen werden, für das Hochladen gepackt und anschließend zum Satelliten gesendet werden, der die Programmierung an die Teilnehmer ausstrahlt. Die bidirektionale Kommunikation kann beispielsweise Satellitentelefondienste beinhalten, die den Satelliten verwenden, um Telefonkommunikationen zwischen dem Fahrzeug und der Station weiterzugeben. Die Satellitentelefonie kann entweder zusätzlich oder anstelle des Drahtlosträgersystems verwendet werden.
  • Ein Festnetz-Kommunikationssystem kann ein konventionelles Festnetz-Telekommunikationsnetzwerk beinhalten, das mit einem oder mehreren Festnetztelefonen verbunden ist und das drahtlose Trägersystem mit dem entfernten Transportsystem verbindet. So kann beispielsweise das Festnetz-Kommunikationssystem ein Fernsprechnetz (PSTN) wie jenes sein, das verwendet wird, um festverdrahtetes Fernsprechen, paketvermittelte Datenkommunikationen und die Internetinfrastruktur bereitzustellen. Ein oder mehrere Segmente des Festnetz-Kommunikationssystems könnten durch Verwenden eines normalen drahtgebundenen Netzwerks, eines Lichtleiter- oder eines anderen optischen Netzwerks, eines Kabelnetzes, von Stromleitungen, anderen drahtlosen Netzwerken, wie drahtlose lokale Netzwerke (WLANs) oder Netzwerke, die drahtlosen Breitbandzugang (BWA) bereitstellen oder jeder Kombination davon implementiert sein. Weiterhin muss das entfernte Transportsystem nicht über das Festnetz-Kommunikationssystem verbunden sein, sondern könnte Funktelefonausrüstung beinhalten, sodass sie direkt mit einem drahtlosen Netzwerk, wie z. B. dem drahtlosen Trägersystem, kommunizieren kann.
  • Ausführungsformen der Betriebsumgebung können eine beliebige Anzahl von Benutzervorrichtungen, einschließlich mehrerer Benutzervorrichtungen unterstützen, die das Eigentum einer Person sind, von dieser bedient oder anderweitig verwendet werden. Jede Benutzervorrichtung, die von der Betriebsumgebung unterstützt wird, kann unter Verwendung einer geeigneten Hardwareplattform implementiert werden. In dieser Hinsicht kann die Benutzervorrichtung in einem gemeinsamen Formfaktor realisiert werden, darunter auch in: einen Desktop-Computer; einem mobilen Computer (z. B. einem Tablet-Computer, einem Laptop-Computer oder einem Netbook-Computer); einem Smartphone; einem Videospielgerät; einem digitalen Media-Player; einem Bestandteil eines Heimunterhaltungsgeräts; einer Digitalkamera oder Videokamera; einem tragbaren Computergerät (z. B. einer Smart-Uhr, Smart-Brille, Smart-Kleidung); oder dergleichen. Jede von der Betriebsumgebung unterstützte Benutzervorrichtung ist als computerimplementiertes oder computergestütztes Gerät mit der Hardware-, Software-, Firmware- und/oder Verarbeitungslogik realisiert, die für die Durchführung der hier beschriebenen verschiedenen Techniken und Verfahren erforderlich ist. So beinhaltet beispielsweise die Benutzervorrichtung einen Mikroprozessor in Form einer programmierbaren Vorrichtung, die eine oder mehrere in einer internen Speicherstruktur gespeicherte Anweisungen beinhaltet und angewendet wird, um binäre Eingaben zu empfangen und binäre Ausgaben zu erzeugen. In einigen Ausführungsformen beinhaltet die Benutzervorrichtung ein GPS-Modul, das GPS-Satellitensignale empfangen und GPS-Koordinaten basierend auf diesen Signalen erzeugen kann. In weiteren Ausführungsformen beinhaltet die Benutzervorrichtung eine Mobilfunk-Kommunikationsfunktionalität, sodass die Vorrichtung Sprach- und/oder Datenkommunikationen über das Kommunikationsnetzwerk unter Verwendung eines oder mehrerer Mobilfunk-Kommunikationsprotokolle durchführt, wie hierin erläutert. In verschiedenen Ausführungsformen beinhaltet die Benutzervorrichtung 54 eine visuelle Anzeige, wie zum Beispiel ein grafisches Touchscreen-Display oder eine andere Anzeige. Das entfernte Transportsystem beinhaltet ein oder mehrere Backend-Serversysteme, die an dem speziellen Campus oder dem geografischen Standort, der vom Transportsystem bedient wird, Cloud-basiert, netzwerkbasiert oder resident sein können. Das entfernte Transportsystem kann mit einem Live-Berater, einem automatisierten Berater oder einer Kombination aus beidem besetzt sein. Das entfernte Transportsystem kann mit den Benutzervorrichtungen und den autonomen Fahrzeugen kommunizieren, um Fahrten zu planen, autonome Fahrzeuge zu versetzen und dergleichen. In verschiedenen Ausführungsformen speichert das entfernte Transportsystem Kontoinformationen, wie zum Beispiel Teilnehmerauthentisierungsdaten, Fahrzeugkennzeichen, Profilaufzeichnungen, Verhaltensmuster und andere entsprechende Teilnehmerinformationen.
  • Gemäß einem typischen Anwendungsfall-Arbeitsablauf kann ein registrierter Benutzer des entfernten Transportsystems über die Benutzervorrichtung eine Fahrtanforderung erstellen. Die Fahrtanforderung gibt typischerweise den gewünschten Abholort des Fahrgastes (oder den aktuellen GPS-Standort), den gewünschten Zielort (der einen vordefinierten Fahrzeugstopp und/oder ein benutzerdefiniertes Passagierziel identifizieren kann) und eine Abholzeit an. Das entfernte Transportsystem empfängt die Fahrtanforderung, verarbeitet die Anforderung und sendet ein ausgewähltes der autonomen Fahrzeuge (wenn und sofern verfügbar), um den Passagier an dem vorgesehenen Abholort und zu gegebener Zeit abzuholen. Das entfernte Transportsystem kann zudem eine entsprechend konfigurierte Bestätigungsnachricht oder Benachrichtigung an die Benutzervorrichtung erzeugen und senden, um den Passagier zu benachrichtigen, dass ein Fahrzeug unterwegs ist.
  • Wie ersichtlich, bietet der hierin offenbarte Gegenstand bestimmte verbesserte Eigenschaften und Funktionen für das, was als ein standardmäßiges oder Basislinien autonomes Fahrzeug und/oder ein autonomes fahrzeugbasiertes Transportsystem betrachtet werden kann. Zu diesem Zweck kann ein autonomes fahrzeugbasiertes Transportsystem modifiziert, erweitert oder anderweitig ergänzt werden, um die nachfolgend näher beschriebenen zusätzlichen Funktionen bereitzustellen.
  • Gemäß verschiedener Ausführungsformen realisiert eine Steuerung ein autonomes Antriebssystem (ADS). Die Steuerung kann den vorstehend beschriebenen gelernten autonomen Agenten beinhalten. Das heißt, dass geeignete Soft- und/oder Hardwarekomponenten der Steuerung (z. B. ein Prozessor und ein computerlesbares Speichermedium) verwendet werden, um ein autonomes Antriebssystem bereitzustellen, das in Verbindung mit dem Fahrzeug 10 verwendet wird.

Claims (9)

  1. Computerimplementiertes Verfahren zum Anlernen eines autonomen Fahragenten, wobei das Verfahren die folgenden Schritte umfasst: Extrahieren von Informationen aus Demonstrationen des Fahrverhaltens unter Verwendung eines neuronalen Netzes durch einen Prozessor; Wiederherstellen einer Belohnungskarte aus den extrahierten Informationen durch einen Prozessor; Übertragen der extrahierten Informationen an ein Generatormodul; Übertragen eines realen Umgebungszustands, der mit den Demonstrationen des Fahrverhaltens und der wiederhergestellten Belohnungskarte verbunden ist, an ein Diskriminatormodul; Erzeugen, durch einen Prozessor, von Umgebungszustandsinterpretationen aus den extrahierten Informationen unter Verwendung des Generatormoduls; Anlernen, durch einen Prozessor, des Diskriminatormoduls, um besser zu bestimmen, ob die erzeugten Umgebungszustandsinterpretationen dem tatsächlichen Umgebungszustand entsprechen, während das Generatormodul durch einen Prozessor geschult wird, um eine verbesserte Umgebungszustandsinterpretation zu erzeugen, die der Diskriminator entsprechend dem tatsächlichen Umgebungszustand bestimmt.
  2. Verfahren nach Anspruch 1, worin die extrahierten Informationen unter Verwendung eines faltungsneuronalen Netzes extrahiert werden.
  3. Verfahren nach Anspruch 1, worin die Belohnungsfunktion durch tiefes inverses Verstärkungslernen über ein tiefes inverses Verstärkungslernmodul wiederhergestellt wird.
  4. Verfahren nach Anspruch 1, worin das Anlernen des Diskriminatormoduls unter Verwendung einer Verlust- oder Kostengradientenfunktion durchgeführt wird.
  5. Verfahren nach Anspruch 1, worin das Anlernen des Generatormoduls unter Verwendung einer Verlust- oder Kostengradientenfunktion durchgeführt wird.
  6. Verfahren nach Anspruch 1, worin der Sensor eine optische Kamera, ein LIDAR-System und/oder ein RADAR-System umfasst.
  7. System zum Anlernen eines autonomen Fahragenten, wobei das System Folgendes umfasst: ein neuronales Netz, das konfiguriert ist, um Informationen aus Demonstrationen des Fahrverhaltens zu extrahieren; ein tiefes inverses Verstärkungslernmodul, das konfiguriert ist, um eine Belohnungskarte aus den extrahierten Informationen wiederherzustellen; ein Generatormodul, das konfiguriert ist, um basierend auf den extrahierten Informationen eine Interpretation des Umgebungszustands zu erzeugen; und ein Diskriminatormodul, das konfiguriert ist, um die wiederhergestellte Belohnungskarte zumindest teilweise zu verwenden, um zu ermitteln, ob die Interpretation des erzeugten Umgebungszustands einem realen, dem der extrahierten Information zugeordneten Umgebungszustand entspricht.
  8. System nach Anspruch 7, worin das Diskriminatormodul zur iterativen Verbesserung der Ermittlung, ob die erzeugte Umgebungszustandsinterpretation einem realistischen Umgebungszustand basierend auf einer Verlust- oder Kostenfunktion entspricht, konfiguriert ist.
  9. System nach Anspruch 8, worin das Generatormodul konfiguriert ist, um die Form der erzeugten Umgebungszustandsinterpretation iterativ zu verbessern, sodass das Diskriminatormodul bestimmen würde, dass die erzeugte Umgebungszustandsinterpretation basierend auf einer Verlust- oder Kostenfunktion einem realistischen Umgebungszustand entspricht.
DE102018121595.9A 2017-09-06 2018-09-04 Unbeaufsichtigtes anlernen von agenten für autonome fahranwendungen Active DE102018121595B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/696,670 US10678241B2 (en) 2017-09-06 2017-09-06 Unsupervised learning agents for autonomous driving applications
US15/696,670 2017-09-06

Publications (2)

Publication Number Publication Date
DE102018121595A1 DE102018121595A1 (de) 2019-03-07
DE102018121595B4 true DE102018121595B4 (de) 2023-05-11

Family

ID=65364039

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102018121595.9A Active DE102018121595B4 (de) 2017-09-06 2018-09-04 Unbeaufsichtigtes anlernen von agenten für autonome fahranwendungen

Country Status (3)

Country Link
US (1) US10678241B2 (de)
CN (1) CN109460015B (de)
DE (1) DE102018121595B4 (de)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9511778B1 (en) * 2014-02-12 2016-12-06 XL Hybrids Controlling transmissions of vehicle operation information
US10740914B2 (en) 2018-04-10 2020-08-11 Pony Ai Inc. Enhanced three-dimensional training data generation
US11095360B2 (en) * 2018-11-26 2021-08-17 Eagle Technology, Llc Radio frequency (RF) communication system providing enhanced mobile vehicle positioning based upon reward matrices and related methods
US11184232B2 (en) 2018-11-26 2021-11-23 Eagle Technology, Llc Radio frequency (RF) communication system providing enhanced RF equipment configuration updates for mobile vehicles based upon reward matrices and related methods
DE102019203634A1 (de) * 2019-03-18 2020-09-24 Robert Bosch Gmbh Verfahren und Vorrichtung zum Ansteuern eines Roboters
DE102019208234A1 (de) * 2019-06-05 2020-12-10 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum automatischen Ausführen einer Steuerfunktion eines Fahrzeugs
DE102019208233A1 (de) * 2019-06-05 2020-12-10 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum automatischen Ausführen einer Steuerfunktion eines Fahrzeugs
EP3750765B1 (de) * 2019-06-14 2024-11-06 Bayerische Motoren Werke Aktiengesellschaft Verfahren, vorrichtung und computerprogramm zur erzeugung eines steuersignals zum betrieb eines fahrzeugs
CN114303162A (zh) * 2019-06-14 2022-04-08 北京嘀嘀无限科技发展有限公司 用于驾驶员奖酬的强化学习方法:用于驾驶员-系统互动的生成性对抗网络
EP3824419A1 (de) * 2019-09-23 2021-05-26 Advanced New Technologies Co., Ltd. System und verfahren zur routingoptimierung
CN110955239B (zh) * 2019-11-12 2021-03-02 中国地质大学(武汉) 一种基于逆强化学习的无人船多目标轨迹规划方法及系统
DE102019218129A1 (de) * 2019-11-25 2021-05-27 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Schätzen eines Ausgabekonfidenzwertes einer Ausgabe mindestens eines KI-Systems
EP3832420B1 (de) * 2019-12-06 2024-02-07 Elektrobit Automotive GmbH Auf tiefem lernen basierte bewegungssteuerung einer gruppe autonomer fahrzeuge
CN111026272B (zh) * 2019-12-09 2023-10-31 网易(杭州)网络有限公司 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
CN111222630B (zh) * 2020-01-17 2023-07-25 北京工业大学 一种基于深度强化学习的自主驾驶规则学习方法
US20220067504A1 (en) * 2020-08-26 2022-03-03 Sony Corporation Training actor-critic algorithms in laboratory settings
US11738778B2 (en) * 2020-10-21 2023-08-29 GM Global Technology Operations LLC Facilitating transfers of control between a user and a vehicle control system
US11403496B2 (en) * 2020-11-04 2022-08-02 Silicon Laboratories Inc. Detecting anomalous events in a discriminator of an embedded device
US20220164647A1 (en) * 2020-11-24 2022-05-26 International Business Machines Corporation Action pruning by logical neural network
US12019584B1 (en) * 2020-12-03 2024-06-25 Nuro, Inc. Methods and apparatus for creating and utilizing snapshots of scenes
US20240083441A1 (en) * 2020-12-25 2024-03-14 Nec Corporation Driving evaluation system, learning device, evaluation result output device, method, and program
CN113173170B (zh) * 2021-01-08 2023-03-17 海南华天科创软件开发有限公司 基于人员画像个性化算法
US12017646B2 (en) * 2021-06-23 2024-06-25 International Business Machines Corporation Risk sensitive approach to strategic decision making with many agents
CN113822441B (zh) * 2021-09-29 2023-06-30 平安付科技服务有限公司 决策模型训练方法、装置、终端设备及存储介质
US20230237856A1 (en) * 2022-01-27 2023-07-27 Toyota Research Institute Method and system for learning reward functions for driving using positive-unlabeled reward learning
CN115107948B (zh) * 2022-06-24 2023-08-25 大连海事大学 一种高效强化学习自主船舶避碰方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016100428A1 (de) 2015-01-21 2016-07-21 Ford Global Technologies, Llc In virtuellen Umgebungen verfeinertes autonomes Fahren
DE102016121864A1 (de) 2015-11-17 2017-05-18 Ford Global Technologies, Llc Unterscheiden von Fahrspurmarkierungen, denen ein Fahrzeug folgen soll
DE102017103123A1 (de) 2016-03-08 2017-09-14 Ford Global Technologies, Llc Fahrzeugfahrbahnplatzierung
DE102017120112A1 (de) 2016-09-01 2018-03-01 Ford Global Technologies, Llc Tiefenkartenschätzung mit stereobildern
DE102018115440A1 (de) 2017-07-01 2019-01-03 Intel Corporation Techniken zum Trainieren tiefer neuronaler Netzwerke
DE112017002604T5 (de) 2016-06-21 2019-02-21 Sri International Systeme und Verfahren für das maschinelle Lernen unter Verwendung eines vertrauenswürdigen Modells
DE102018121124A1 (de) 2017-09-01 2019-03-07 GM Global Technology Operations LLC Verfahren und Systeme zum Erzeugen von Echtzeit-Karteninformationen

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8762305B1 (en) * 2010-11-11 2014-06-24 Hrl Laboratories, Llc Method and system for dynamic task selection suitable for mapping external inputs and internal goals toward actions that solve problems or elicit rewards
US20120233102A1 (en) * 2011-03-11 2012-09-13 Toyota Motor Engin. & Manufact. N.A.(TEMA) Apparatus and algorithmic process for an adaptive navigation policy in partially observable environments
US9418059B1 (en) * 2013-02-28 2016-08-16 The Boeing Company Methods and systems for processing natural language for machine learning
EP2999940A4 (de) * 2013-05-22 2017-11-15 Neurala Inc. Verfahren und vorrichtung zur frühen sensorischen integration und robusten erfassung von wissen der realen welt
EP3178040A4 (de) * 2014-08-07 2018-04-04 Okinawa Institute of Science and Technology School Corporation Inverses bestärkendes lernen durch schätzung des dichteverhältnisses
WO2017019555A1 (en) * 2015-07-24 2017-02-02 Google Inc. Continuous control with deep reinforcement learning
US10733504B2 (en) * 2015-09-11 2020-08-04 Deepmind Technologies Limited Training reinforcement learning neural networks
EP3400419A2 (de) * 2016-01-05 2018-11-14 Mobileye Vision Technologies Ltd. Trainiertes navigationssystem mit auferlegten einschränkungen
JP6669897B2 (ja) * 2016-02-09 2020-03-18 グーグル エルエルシー 優位推定を使用する強化学習
CN110235148B (zh) * 2016-11-03 2024-03-19 渊慧科技有限公司 训练动作选择神经网络
US9989964B2 (en) * 2016-11-03 2018-06-05 Mitsubishi Electric Research Laboratories, Inc. System and method for controlling vehicle using neural network
US11062207B2 (en) * 2016-11-04 2021-07-13 Raytheon Technologies Corporation Control systems using deep reinforcement learning
KR102330744B1 (ko) * 2016-11-04 2021-11-25 딥마인드 테크놀로지스 리미티드 신경망을 이용한 장면 이해 및 생성
US10032111B1 (en) * 2017-02-16 2018-07-24 Rockwell Collins, Inc. Systems and methods for machine learning of pilot behavior
CN106970615B (zh) * 2017-03-21 2019-10-22 西北工业大学 一种深度强化学习的实时在线路径规划方法
US10402687B2 (en) * 2017-07-05 2019-09-03 Perceptive Automata, Inc. System and method of predicting human interaction with vehicles
US10649458B2 (en) * 2017-09-07 2020-05-12 Tusimple, Inc. Data-driven prediction-based system and method for trajectory planning of autonomous vehicles
US10254759B1 (en) * 2017-09-14 2019-04-09 Waymo Llc Interactive autonomous vehicle agent
CN107544516A (zh) * 2017-10-11 2018-01-05 苏州大学 基于相对熵深度逆强化学习的自动驾驶系统及方法
US11093829B2 (en) * 2017-10-12 2021-08-17 Honda Motor Co., Ltd. Interaction-aware decision making
US20190113919A1 (en) * 2017-10-18 2019-04-18 Luminar Technologies, Inc. Controlling an autonomous vehicle using smart control architecture selection
US10732625B2 (en) * 2017-12-04 2020-08-04 GM Global Technology Operations LLC Autonomous vehicle operations with automated assistance
US11709462B2 (en) * 2018-02-12 2023-07-25 Adobe Inc. Safe and efficient training of a control agent
CN111133447B (zh) * 2018-02-18 2024-03-19 辉达公司 适于自主驾驶的对象检测和检测置信度的方法和系统
US10732639B2 (en) * 2018-03-08 2020-08-04 GM Global Technology Operations LLC Method and apparatus for automatically generated curriculum sequence based reinforcement learning for autonomous vehicles
US11436484B2 (en) * 2018-03-27 2022-09-06 Nvidia Corporation Training, testing, and verifying autonomous machines using simulated environments
US11169536B2 (en) * 2018-04-09 2021-11-09 SafeAI, Inc. Analysis of scenarios for controlling vehicle operations
US11169532B2 (en) * 2019-03-26 2021-11-09 Intel Corporation Computer-assisted (CA)/autonomous driving (AD) vehicle inference model creation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016100428A1 (de) 2015-01-21 2016-07-21 Ford Global Technologies, Llc In virtuellen Umgebungen verfeinertes autonomes Fahren
DE102016121864A1 (de) 2015-11-17 2017-05-18 Ford Global Technologies, Llc Unterscheiden von Fahrspurmarkierungen, denen ein Fahrzeug folgen soll
DE102017103123A1 (de) 2016-03-08 2017-09-14 Ford Global Technologies, Llc Fahrzeugfahrbahnplatzierung
DE112017002604T5 (de) 2016-06-21 2019-02-21 Sri International Systeme und Verfahren für das maschinelle Lernen unter Verwendung eines vertrauenswürdigen Modells
DE102017120112A1 (de) 2016-09-01 2018-03-01 Ford Global Technologies, Llc Tiefenkartenschätzung mit stereobildern
DE102018115440A1 (de) 2017-07-01 2019-01-03 Intel Corporation Techniken zum Trainieren tiefer neuronaler Netzwerke
DE102018121124A1 (de) 2017-09-01 2019-03-07 GM Global Technology Operations LLC Verfahren und Systeme zum Erzeugen von Echtzeit-Karteninformationen

Also Published As

Publication number Publication date
US20190072959A1 (en) 2019-03-07
US10678241B2 (en) 2020-06-09
CN109460015B (zh) 2022-04-15
DE102018121595A1 (de) 2019-03-07
CN109460015A (zh) 2019-03-12

Similar Documents

Publication Publication Date Title
DE102018121595B4 (de) Unbeaufsichtigtes anlernen von agenten für autonome fahranwendungen
DE102018129048B4 (de) Verfahren zum durchführen einer autonomen fahrzeugbetriebsanalyse
DE102019113389B4 (de) System und verfahren für ein vorhersage-entitätenverhalten
DE102018129066B4 (de) Systeme und verfahren für ungeschütztes linksabbiegen in situationen mit hohem verkehrsaufkommen in autonomen fahrzeugen
DE102017126877B4 (de) Kraftfahrzeug
DE102019110184A1 (de) Systeme und verfahren zum autonomen fahren unter verwendung eines auf neuronalen netzwerken basierten fahrerlernens auf tokenizierten sensoreingaben
DE102019115038A1 (de) Systeme und verfahren zur vorhersage von sensorinformationen
DE102018129295A1 (de) Systeme und Verfahren zum Abbilden von Fahrbahnstörobjekten in autonomen Fahrzeugen
DE102019113856A1 (de) Systeme, verfahren und steuerungen für ein autonomes fahrzeug, die autonome fahreragenten und fahrrichtlinienlernende implementieren, um richtlinien basierend auf kollektiven fahrerfahrungen der autonomen fahreragenten zu erstellen und zu verbessern
DE102019113880A1 (de) Systeme, verfahren und steuerungen die autonome fahreragenten und einen richtlinienserver zum erfüllen von richtlinien für autonome fahreragenten implementieren, zum steuern eines autonomen fahrzeugs
DE102018113007A1 (de) Trajektorienplaner zum autonomen fahren mittels bézier-kurven
DE102018127361A1 (de) Systeme und verfahren für autonome kraftfahrzeuge mit verhaltenssteuerung
DE102018104717A1 (de) Systeme und verfahren zur vorhersage der fahrzeugabmessung
DE102018115263A1 (de) Systeme und verfahren zur vorhersage von verkehrsmustern in einem autonomen fahrzeug
DE102018117429A1 (de) Klassifizierungsverfahren und -systeme
DE102018123467A1 (de) Verfahren und systeme zur radar-lokalisierung in autonomen fahrzeugen
DE102018123464A1 (de) Verfahren und systeme zur radar-lokalisierung in autonomen fahrzeugen
DE102018121791A1 (de) Systeme und Verfahren zur Bestimmung des Vorhandenseins von Verkehrssteuerungspersonal und Verkehrsleitschildern
DE102019113862A1 (de) Systeme und verfahren zum vorhersagen von objektverhalten
DE102018129846A1 (de) Systeme und Verfahren zum Erkennen, Klassifizieren und Geolokalisieren von Verkehrsobjekten
DE102019113876A1 (de) Nothaltestopp-planung während des autonomen fahrzeugbetriebs
DE102021108470A1 (de) Realistische bildperspektiventransformation unter verwendung neuronaler netze
DE102019115437A1 (de) Komfortable fahrt für autonome fahrzeuge
DE102018130571A1 (de) Notlenkprofil eines autonomen fahrzeugs bei ausgefallenen kommunikationsmodi
DE102019114578A1 (de) Wahrnehmungsunsicherheitsmodellierung aus tatsächlichen wahrnehmungssystemen für autonomes fahren

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: LKGLOBAL | LORENZ & KOPF PARTG MBB PATENTANWAE, DE

Representative=s name: LKGLOBAL ] LORENZ & KOPF PARTG MBB PATENTANWAE, DE

R016 Response to examination communication
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final