DE102020209958A1

DE102020209958A1 - Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera und Verfahren dafür

Info

Publication number: DE102020209958A1
Application number: DE102020209958.8A
Authority: DE
Inventors: Jong Mo Kim; Jin wook Choi; Ha Yeon Lee; Jun Sik An; Min Sung SON
Original assignee: Hyundai Motor Co; Kia Motors Corp
Current assignee: Hyundai Motor Co; Kia Corp
Priority date: 2019-11-22
Filing date: 2020-08-06
Publication date: 2021-05-27
Also published as: US20210158091A1; KR20210063024A; US11551033B2

Abstract

Bereitgestellt werden eine Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera und ein Verfahren hierfür, um ein Ergebnis von Deep Learning auf alle Fahrzeuge ungeachtet der Farbe eines Fahrzeugs und dem Montagewinkel (beispielsweise Gier-, Roll- und Nickwinkel) einer Kamera anzuwenden. Die Vorrichtung weist eine Bildeingabevorrichtung, die ein von einer an einem Fahrzeug montierten Kamera aufgenommenen Bildes eingibt, sowie einen Controller auf, der einen festen Bereich in dem von der Bildeingabevorrichtung eingegeben Bild mit einem Musterbild maskiert, das maskierte Bild in eine Vielzahl von Bildern mit unterschiedlichen Ansichten konvertiert, und mithilfe des maskierten Bild und der Vielzahl konvertierter Bilder Deep Learning durchführt.

Description

GEBIET
Die vorliegende Offenbarung betrifft eine Technik zum Durchführen von Deep Learning mithilfe eines Bildes, das durch eine an einem Fahrzeug montierte Kamera erlangt wird.
TECHNISCHER HINTERGRUND
Die Aussagen in diesem Abschnitt stellen lediglich Hintergrundinformationen bereit, die die vorliegende Offenbarung betreffen und sollen nicht den Stand der Technik darstellen.
Allgemein kann Deep Learning bzw. tiefgehendes Erlernen (oder ein tiefes neuronales Netz), bei dem es sich um eine Art von Maschinenlernen handelt, aus künstlichen neuronalen Netzen (ANNS) aus mehreren Schichten zwischen einem Eingang und einem Ausgang zusammengesetzt sein. Ein solches neuronales Netz kann je nach Struktur, Problem, einem zu lösenden Zweck und dergleichen ein konvolutionales neurales Netz (Convolutional Neural Network, CNN) oder ein rekurrentes bzw. rückgekoppeltes neurales Netz (Recurrent Neural Network, RNN) sein.
Deep Learning wird verwendet, um verschiedene Probleme wie beispielsweise Klassifizierung, Lokalisierung, Detektion, Segmentierung und dergleichen zu lösen.
Insbesondere sind bei einem System zum autonomen Fahren eine semantische Segmentierung und Objektdetektion von Bedeutung, welche den Ort und den Typ eines dynamischen und statischen Hindernisses unterscheiden kann.
Die semantische Segmentierung führt eine Segmentierungsprognose in Einheiten aus Pixeln und ein Teilen des Bildes in Einheiten aus Pixeln identischer Bedeutung durch, um ein Objekt in einem Bild zu detektieren, und somit ist es möglich, nicht nur zu erkennen, welches Objekt in dem Bild vorhanden ist, sondern auch die Positionen von Pixeln mit derselben Bedeutung (das gleiche Objekt) exakt zu bestimmen.
Objektdetektion bedeutet das Klassifizieren und Prognostizieren des Typs eines Objekts in einem Bild, um Standortinformationen des Objekts durch Regressionsprognose einer Zeichen-Box zu finden, und es ist anders als bei der einfachen Klassifizierung nicht nur möglich, zu verstehen, welchen Typs das Objekt in dem Bild ist, sondern auch Standortinformationen des Objekts zu verstehen.
Wir haben herausgefunden, dass weil die herkömmliche Technik Deep Learning mithilfe eines durch eine an einem Fahrzeug montierte Kamera erhaltenen Bildes durchführt, das erlangte Bild von der Farbe des konkreten Fahrzeugs und dem Montagewinkel (Gier-, Roll- und Nickwinkel) der Kamera
abhängig ist. Somit zeigt, wenn das Ergebnis des Deep Learning (beispielsweise ein semantisches Bildsegmentationsmodell) auf ein anderes Fahrzeug angewendet wird, die herkömmliche Technik die normale Erkennungsleistung nicht, da das erlangte Bild ein Teilbild des konkreten Fahrzeugs beinhaltet und die Farbe des konkreten Fahrzeugs das Erlernen beeinflusst.
Ferner haben wir herausgefunden, dass weil sich die Farben von Fahrzeugen voneinander unterscheiden und sich die Ansichten gemäß dem Blickwinkel der Kamera voneinander unterscheiden, eine Beschränkung dahingehend besteht, das Ergebnis des „Deep Learning“ basierend auf einem Bild, das durch eine Kamera erhalten wird, die an einem konkreten Fahrzeug montiert ist, auf andere Fahrzeuge anzuwenden.
Die in diesem Abschnitt zum technischen Hintergrund beschriebenen Sachverhalte dienen dazu, den technischen Hintergrund der Offenbarung zu verstehen, und können Sachverhalte beinhalten, die einem Fachmann auf dem Gebiet noch nicht bekannt sind.
DARSTELLUNG
Die vorliegende Offenbarung erfolgte, um die oben genannten, im Stand der Technik auftretenden Probleme zu lösen, während im Stand der Technik erzielte Vorteile beibehalten werden.
Ein Aspekt der vorliegenden Offenbarung stellt eine Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera und ein Verfahren dafür bereit, die ein Ergebnis eines Deep Learning auf alle Fahrzeuge ungeachtet der Farbe eines Fahrzeugs und des Montagewinkels (Gier-, Nick- und Rollwinkel) einer Kamera durch Maskieren eines festen Bereichs mit einem Musterbild in einem Bild, das durch eine an einem Fahrzeug montierte Kamera erlangt wurde, Konvertieren des maskierten Bildes in eine Vielzahl von Bildern mit unterschiedlichen Ansichten, und Durchführen von Deep Learning mithilfe des maskierten Bildes und der konvertierten Vielzahl von Bildern anwenden können.
Die durch den vorliegenden Erfindungsgedanken zu lösenden technischen Aufgaben sind nicht auf die vorgenannten Aufgaben beschränkt, und beliebige andere technische Aufgaben, die hier nicht erwähnt werden, können von einem Fachmann, an den sich vorliegende Offenbarung richtet, aus der nachfolgenden Beschreibung eindeutig verstanden werden.
Gemäß einem Aspekt der vorliegenden Offenbarung weist eine Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera auf: eine Bildeingabevorrichtung, die ein von einer an einem Fahrzeug montierten Kamera aufgenommenes Bild eingibt, und einen Controller, der einen festen Bereich in dem Bild mit einem Musterbild maskiert, das maskierte Bild in eine Vielzahl von Bildern mit unterschiedlichen Ansichten konvertiert, und mithilfe des maskierten Bildes und der konvertierten Vielzahl von Bildern Deep Learning durchführt.
Die Bildeingabevorrichtung kann dem Controller ein Frontbild und/oder ein Heckbild und/oder ein linkes Bild und/oder ein rechtes Bild eingeben, die von der an dem Fahrzeug installierten Kamera aufgenommen werden bzw. wurden.
Der Controller kann ein erstes Lernbild durch Maskieren des festen Bereichs in dem von der Bildeingabevorrichtung empfangenen Bild, ein zweites Lernbild durch Drehen des von der Bildeingabevorrichtung empfangenen Bildes um einen Referenzwinkel und Maskieren des festen Bereichs in dem gedrehten Bild, ein drittes Lernbild durch Croppen des ersten Lernbilds, und ein viertes Lernbild durch Croppen des zweiten Lernbilds erzeugen.
Der Controller kann das Deep Learning basierend auf einem Bild unter den ersten, zweiten, dritten und vierten Lernbildern durchführen.
Der Controller kann das von der Bildeingabevorrichtung eingegebene Bild mit einem Binärmaskenbild multiplizieren, um ein erstes Bild zu erzeugen, in dem der feste Bereich entfernt wird, das Binärmaskenbild invertieren, um ein invertiertes Binärmaskenbild zu erzeugen, das Musterbild mit dem invertierten Binärmaskenbild multiplizieren, um ein zweites Bild zu erzeugen, in dem der feste Bereich aus dem Musterbild zusammengesetzt ist, und das erste Bild und das zweite Bild addieren, um das erste Lernbild zu erzeugen, in dem der feste Bereich in dem von der Bildeingabevorrichtung eingegebenen Bild durch das Musterbild ersetzt wird.
Der Controller kann das von der Bildeingabevorrichtung eingegebene Bild um den Referenzwinkel drehen, ein Binärmaskenbild um den Referenzwinkel drehen, das um den Referenzwinkel gedrehte Bild mit dem um den Referenzwinkel gedrehten Binärmaskenbild multiplizieren, um ein erstes Bild zu erzeugen, in dem der feste Bereich entfernt ist, das Binärmaskenbild invertieren, um ein invertiertes Binärmaskenbild zu erzeugen, das Musterbild mit dem invertierten Binärmaskenbild multiplizieren, um ein zweites Bild zu erzeugen, in dem der feste Bereich das Musterbild ist, und das erste Bild zu dem zweiten Bild hinzuaddieren, um das zweite Lernbild zu erzeugen, in dem der feste Bereich in dem um den Referenzwinkel gedrehten Bild durch das Musterbild ersetzt wird.
Der Controller kann das von der Bildeingabevorrichtung eingegebene Bild in einer Richtung im Uhrzeigersinn um den Referenzwinkel drehen, das zweite Lernbild durch Maskieren des festen Bereichs in dem gedrehten Bild erzeugen, und das vierte Lernbild durch Croppen des erzeugten zweiten Lernbilds erzeugen.
Der Controller kann das von der Bildeingabevorrichtung empfangene Bild in einer Richtung entgegen dem Uhrzeigersinn um einen Referenzwinkel drehen, das zweite Lernbild durch Maskieren des festen Bereichs in dem gedrehten Bild erzeugen, und das vierte Lernbild durch Croppen des erzeugten zweiten Lernbilds erzeugen.
Gemäß einem weiteren Aspekt der vorliegenden Offenbarung umfasst ein Verfahren zum Erlernen eines Bildes einer Fahrzeugkamera: Eingeben, durch eine Bildeingabevorrichtung, eines von einer an einem Fahrzeug montierten Kamera aufgenommenen Bildes, Maskieren, durch einen Controller, eines festen Bereichs in dem eingegebenen Bild mit einem Musterbild, und Konvertieren des maskierten Bilds in eine Vielzahl von Bildern mit unterschiedlichen Ansichten, und Durchführen, durch den Controller, von Deep Learning mithilfe des maskierten Bilds und der konvertierten Vielzahl von Bildern.
Das Eingeben des Bildes kann das Eingeben eines Frontbildes des Fahrzeugs, das Eingeben eines Heckbildes des Fahrzeugs, das Eingeben eines linken Bildes des Fahrzeugs und das Eingeben eines rechten Bildes des Fahrzeugs umfassen.
Das Konvertieren des maskierten Bildes in die Vielzahl von Bildern mit unterschiedlichen Ansichten kann umfassen: Erzeugen eines ersten Lernbilds durch Maskieren des festen Bereichs in dem Bild, das von der Bildeingabevorrichtung eingegeben wurde, Erzeugen eines zweiten Lernbilds durch Drehen des von der Bildeingabevorrichtung eingegebenen Bilds um einen Referenzwinkel und Maskieren des festen Bereichs in dem gedrehten Bild, Erzeugen eines dritten Lernbilds durch Croppen des ersten Lernbilds, und Erzeugen eines vierten Lernbilds durch Croppen des zweiten Lernbilds.
Das Durchführen des Deep Learning kann das Durchführen des Deep Learning basierend auf zumindest einem Bild unter den ersten, zweiten, dritten und vierten Lernbildern umfassen.
Das Erzeugen des ersten Lernbilds kann das Multiplizieren des von der Bildeingabevorrichtung eingegebenen Bilds mit einem Binärmaskenbild, um ein erstes Bild zu erzeugen, aus dem der feste Bereich entfernt wird, das Invertieren des Binärmaskenbilds, um ein invertiertes Binärmaskenbild zu erzeugen, das Multiplizieren des Musterbilds mit dem invertierten Binärmaskenbild, um ein zweites Bild zu erzeugen, in dem der feste Bereich aus dem Musterbild zusammengesetzt ist, und das Addieren des ersten Bilds und des zweiten Bilds, um das erste Lernbild zu erzeugen, in dem der feste Bereich in dem von der Bildeingabevorrichtung eingegebenen Bild durch das Musterbild ersetzt wird, umfassen.
Das Erzeugen des zweiten Lernbilds kann das Drehen des von der Bildeingabevorrichtung eingegebenen Bilds um einen Referenzwinkel, das Drehen eines Binärmaskenbilds um den Referenzwinkel, das Multiplizieren des um den Referenzwinkel gedrehten Bilds mit dem um den Referenzwinkel gedrehten Binärmaskenbild, um ein erstes Bild zu erzeugen, in dem der feste Bereich entfernt ist, das Invertieren des Binärmaskenbilds, um ein invertiertes Binärmaskenbild zu erzeugen, das Multiplizieren des Musterbilds mit dem invertierten Binärmaskenbild, um ein zweites Bild zu erzeugen, in dem der feste Bereich das Musterbild ist, und das Hinzuaddieren des ersten Bilds zu dem zweiten Bild, um ein zweites Lernbild zu erzeugen, in dem der feste Bereich in dem um den Referenzwinkel gedrehten Bild durch das Musterbild ersetzt wird, umfassen.
Das Erzeugen des vierten Lernbilds kann das Drehen des von der Bildeingabevorrichtung eingegebenen Bilds in einer Richtung im Uhrzeigersinn um einen Referenzwinkel, und das Erzeugen des vierten Lernbilds durch Croppen des zweiten Lernbilds, das durch Maskieren des festen Bereichs in dem gedrehten Bild erzeugt wird, umfassen.
Das Erzeugen des vierten Lernbilds kann das Drehen eines von der Bildeingabevorrichtung empfangenen Bilds in einer Richtung entgegen dem Uhrzeigersinn um einen Referenzwinkel, und das Erzeugen des vierten Lernbilds durch Croppen des zweiten Lernbilds, das durch Maskieren des festen Bereichs in dem gedrehten Bild erzeugt wird, umfassen.
Gemäß noch einem weiteren Aspekt der vorliegenden Offenbarung umfasst ein Verfahren zum Erlernen eines Bilds einer Fahrzeugkamera: Eingeben, durch eine Bildeingabevorrichtung, eines von einer an einem Fahrzeug montierten Kamera aufgenommenen Bildes; zufälliges Durchführen, durch einen Controller, von zumindest einer Operation unter einer Vielzahl von Operationen, wobei die Vielzahl von Operationen umfasst: eine erste Operation zum Erzeugen eines Lernbilds durch Maskieren eines festen Bereichs in dem eingegeben Bild, eine zweite Operation zum Erzeugen eines Lernbilds durch Drehen des eingegebenen Bildes um einen Referenzwinkel und Maskieren des festen Bereichs in dem gedrehten Bild, eine dritte Operation zum Erzeugen eines Bildes durch Maskieren des festen Bereichs in dem eingegebenen Bild, um durch Croppen des erzeugten Bildes ein Lernbild zu erzeugen, eine vierte Operation zum Erzeugen eines Bildes durch Drehen des eingegebenen Bildes um den Referenzwinkel und Maskieren des festen Bereichs in dem eingegebenen Bild, um durch Croppen des erzeugten Bildes ein Lernbild zu erzeugen; und Durchführen, durch den Controller, von Deep Learning mithilfe des erzeugten Lernbildes.
Die erste Operation kann das Multiplizieren des von der Bildeingabevorrichtung erzeugten Bildes mit einem Binärmaskenbild, um ein erstes Bild zu erzeugen, aus dem der feste Bereich entfernt wird, das Invertieren des Binärmaskenbilds, um ein invertiertes Binärmaskenbild zu erzeugen, das Multiplizieren des Musterbilds mit dem invertierten Binärmaskenbild, um ein zweites Bild zu erzeugen, in dem der feste Bereich aus dem Musterbild zusammengesetzt ist, und das Addieren des ersten Bilds und des zweiten Bilds, um ein erstes Lernbild zu erzeugen, in dem der feste Bereich in dem von der Bildeingabevorrichtung eingegebenen Bild durch das Musterbild ersetzt wird, umfassen.
Die zweite Operation kann das Drehen des von der Bildeingabevorrichtung eingegebenen Bildes um einen Referenzwinkel, das Drehen eines Binärmaskenbilds um den Referenzwinkel, das Multiplizieren des um den Referenzwinkel gedrehten Bilds mit dem um den Referenzwinkel gedrehten Binärmaskenbild, um ein erstes Bild zu erzeugen, in dem der feste Bereich entfernt wird, das Invertieren des Binärmaskenbilds, um ein invertiertes Binärmaskenbild zu erzeugen, das Multiplizieren des Musterbilds mit dem invertierten Binärmaskenbild, um ein zweites Bild zu erzeugen, in dem der feste Bereich das Musterbild ist, und das Addieren des ersten Bilds und des zweiten Bilds, um ein zweites Lernbild zu erzeugen, in dem der feste Bereich in dem um den Referenzwinkel gedrehten Bild durch das Musterbild ersetzt wird.
Weitere Anwendungsgebiete werden aus der vorliegend bereitgestellten Beschreibung ersichtlich. Es wird angemerkt, dass die Beschreibung und die konkreten Beispiele lediglich Veranschaulichungszwecken dienen und den Schutzumfang der vorliegenden Offenbarung nicht beschränken sollen.
Figurenliste
Zum verbesserten Verständnis der vorliegenden Offenbarung werden nun verschiedene Formen dieser beschrieben, die beispielhaft angegeben sind, wobei auf die beigefügten Zeichnungen Bezug genommen wird, in denen:

1 ein Blockdiagramm ist, das eine Vorrichtung zum Erlenen eines Bildes einer Fahrzeugkamera in einer Ausführungsform der vorliegenden Offenbarung darstellt;
2 eine Ansicht ist, die eine ausführliche Ausgestaltung einer Lernbildkonvertierungseinrichtung darstellt, der in einer Vorrichtung zum Erlernen eins Bildes einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung;
3A eine Ansicht ist, die ein von einer Bildeingabevorrichtung, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, eingegebenes Bild darstellt, in einer Ausführungsform der vorliegenden Offenbarung;
3B ein Bild ist, das eine Binärmaskenbild darstellt, das in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung;
3C eine Ansicht ist, die ein erstes Bild darstellt, das von der ersten Erzeugungseinrichtung, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, vorverarbeitet wird, gemäß einer Ausführungsform der vorliegenden Offenbarung;
3D eine Ansicht ist, die ein Musterbild darstellt, das in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung;
3E eine Ansicht ist, die ein zweites Bild darstellt, das durch eine erste Erzeugungseinrichtung, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, vorverarbeitet wird, in einer Ausführungsform der vorliegenden Offenbarung;
3F eine Ansicht ist, die das erste Lernbild darstellt, das von einer ersten Erzeugungseinrichtung, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, vorverarbeitet wird, in einer Ausführungsform der vorliegenden Offenbarung;
4A eine Ansicht ist, die ein Quellbild darstellt, das von einer Bildeingabevorrichtung, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, eingegeben wird, in einer Ausführungsform der vorliegenden Offenbarung;
4B eine Ansicht ist, die ein Quellbild zeigt, das mit einem vorgegebenen Winkel von einer zweiten Erzeugungseinrichtung gedreht wird, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung;
4C eine Ansicht ist, die ein Binärmaskenbild darstellt, das in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung;
4D eine Ansicht ist, die ein Binärmaskenbild darstellt, das mit einem vorgegebenen Winkel von einer zweiten Erzeugungseinrichtung gedreht wird, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung;
4E eine Ansicht ist, die ein erstes Bild darstellt, das durch eine zweite Erzeugungseinrichtung vorverarbeitet wird, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung;
4F ist eine Ansicht, die ein Musterbild darstellt, das in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung;
4G eine Ansicht ist, die ein zweites Bild darstellt, das durch eine zweite Erzeugungseinrichtung vorverarbeitet wird, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung;
4H eine Ansicht ist, die ein zweites Lernbild darstellt, das durch eine zweite Erzeugungseinrichtung erzeugt wird, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung;
5A eine Ansicht ist, die ein drittes Lernbild darstellt, das durch eine dritte Erzeugungseinrichtung erzeugt wird, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung;
5B eine Ansicht ist, die ein viertes Lernbild darstellt, das durch eine dritte Erzeugungseinrichtung erzeugt wird, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist;
5C eine Ansicht ist, die ein weiteres Beispiel eines vierten Lernbilds darstellt, das durch eine dritte Erzeugungseinrichtung erzeugt wird, die in einer Vorrichtung zum Erlernen eines Bilds einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung;
6A eine Ansicht ist, die veranschaulicht, dass es in der verwandten Technik nicht gelingt, einen Raum auf geeignete Weise zu klassifizieren;
6B eine Ansicht ist, die veranschaulicht, dass ein Raum durch eine Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera in einer Ausführungsform der vorliegenden Offenbarung normal klassifiziert wird;
7A eine Ansicht ist, die ein Bild aus der verwandten Technik darstellt;
7B eine Ansicht ist, die ein weiteres Beispiel des Leistungsverhaltens einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera in einer Ausführungsform der vorliegenden Offenbarung darstellt;
8 ein Ablaufdiagramm ist, das ein Verfahren zum Erlernen eines Bildes einer Fahrzeugkamera in einer Ausführungsform der vorliegenden Offenbarung veranschaulicht; und
9 ein Blockdiagramm ist, das ein Rechensystem zum Ausführen eines Verfahrens zum Erlernen eines Bildes einer Fahrzeugkamera in einer Ausführungsform der vorliegenden Offenbarung veranschaulicht.

Die vorliegend beschriebenen Zeichnungen dienen lediglich Veranschaulichungszwecken und sollen den Schutzumfang der vorliegenden Offenbarung keinesfalls beschränken.
AUSFÜHRLICHE BESCHREIBUNG
Die nachfolgende Beschreibung ist lediglich beispielhafter Natur und soll die vorliegende Offenbarung, Anwendung oder Verwendung nicht beschränken. Es wird angemerkt, dass in den Zeichnungen entsprechende Bezugszeichen gleiche oder gleichwertige Teile und Merkmale bezeichnen.
Nachfolgend werden einige Ausführungsformen der vorliegenden Offenbarung ausführlich unter Bezugnahme auf die beispielhaften Zeichnungen beschrieben. Durch Hinzufügen von Bezugseichen zu den Bauteilen einer jeden Zeichnungen sei angemerkt, dass das identische oder gleichwertige Bauteil durch das identische Bezugszeichen bezeichnet wird, selbst wenn diese in anderen Zeichnungen dargestellt sind. Ferner entfällt bei der Beschreibung von beispielhaften Ausführungsformen der vorliegenden Offenbarung eine ausführliche Beschreibung weithin bekannter Merkmale oder Funktionen, um den Geist der vorliegenden Offenbarung nicht unnötig zu verfremden.
Bei der Beschreibung der Bauteile der beispielhaften Ausführungsformen gemäß der vorliegenden Offenbarung kann es sein, dass Begriffe wie erste, zweite, A, B, (a), (b) und dergleichen verwendet werden. Diese Begriffe dienen lediglich dazu, die Bauteile von anderen Bauteilen zu unterscheiden, und die Begriffe schränken die Natur, Reihenfolge oder Abfolge der Bauteile nicht ein. Falls nicht anderweitig definiert, haben alle vorliegend verwendeten Begriffe, einschließlich technischer und wissenschaftlicher Begriffe, die gleiche Bedeutung wie sie gemeinhin von einem Fachmann auf dem Gebiet, den diese Offenbarung betrifft, verstanden wird. Es wird ferner angemerkt, dass Begriffe, wie etwa solche, die in gebräuchlichen Lexika verwendet werden, dahingehend ausgelegt werden sollten, eine Bedeutung zu haben, die mit ihrer Bedeutung im Kontext der entsprechenden Technik konsistent ist, und nicht in idealisiertem oder übermäßig formellem Sinne ausgelegt werden sollen, es sei denn, dies ist vorliegend explizit so angegeben.
1 ist ein Blockdiagramm, das eine Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera in einer Ausführungsform der vorliegenden Offenbarung darstellt.
Wie in 1 gezeigt, kann die Vorrichtung 100 zum Erlernen eines Bildes einer Fahrzeugkamera aufweisen: einen Speicher 10, eine Bildeingabevorrichtung 20 und einen Controller 30. In diesem Fall können gemäß einem Schema zur Implementierung der Vorrichtung 100 zum Erlernen eines Bildes einer Fahrzeugkamera in einer Ausführungsform der vorliegenden Offenbarung Bauteile miteinander kombiniert und als Eines implementiert werden, oder es können manche Bauteile entfallen.
Bei Betrachtung der jeweiligen Bauteile kann zunächst der Speicher 10 verschiedene Logiken, Algorithmen und Programme umfassen, die bei den Operationen des Empfangens eines Frontbilds, das von einer an der Vorderseite des Fahrzeug installierten Kamera aufgenommen wird, eines Heckbilds, das von einer am Heck des Fahrzeugs installierten Kamera aufgenommen wird, eines linken Bilds, das von einer an einer linken Seite des Fahrzeugs installierten Kamera aufgenommen wird, und eines rechten Bildes, das von einer an einer rechten Seite des Fahrzeugs installierten Kamera aufgenommen wird, von der Bildeingabevorrichtung 20 als Quellbilder verwendet werden, des Maskierens eines festen Bereichs in dem empfangenen Quellbild mit einem Musterbild, des Konvertierens des maskierten Bilds in eine Vielzahl von Bildern mit unterschiedlichen Ansichten, und des Durchführens von Deep Learning mithilfe des maskierten Bildes und der konvertierten Vielzahl von Bildern benötigt werden. In diesem Fall bezieht sich der feste Bereich, bei dem es sich um einen Bereich handelt, in dem sich ein Pixelwert in einem Bild nicht ändert, auf einen Abschnitt, der durch Aufnehmen eines Gehäuses erhalten wird, das eine Linse der Kamera umgibt, und einen Abschnitt, der durch Aufnehmen einer Karosserie eines Host-Fahrzeugs erhalten wird. Bei einem derartigen festen Bereich handelt es sich um Informationen, die vorab bekannt sind.
Der Speicher 10 kann ein Musterbild und ein Binärmaskenbild speichern.
Der Speicher 10 kann ein semantisches Bildsegmentierungsmodell als Ergebnis von durch den Controller 30 durchgeführtem Deep Learning speichern.
Der Speicher 10 kann zumindest eine Art eines Speichermediums von Speichern eines Flash-Speicher-Typs und/oder eines Festplatten-Typs und/oder Mikrotyps und/oder Kartentyps (beispielsweise eine Secure Digital Card (SD-Karte)), und/oder eine Extreme Digital Card (XD)-Karte und dergleichen und/oder eines Direktzugriffsspeichers (RAM), eines statischen RAMs (SRAM), eines Festwertspeichers (ROM), und/oder eines programmierbaren Festwertspeichers (PROM), und/oder eines löschbaren und programmierbaren ROMs (EPROM) und/oder eines Magnetspeichers (MRAM) und/oder einer Magnetplatte und/oder eines Speichers vom optischen Plattentyp aufweisen.
Als nächstes gibt die Bildeingabevorrichtung 20 einer Lernbildkonvertierungseinrichtung 31 ein Frontbild, das von einer an einer Front des Fahrzeugs installierten Frontkamera aufgenommen wurde, ein Heckbild, das von einer am Heck des Fahrzeugs installierten Kamera aufgenommen wurde, ein linkes Bild, das von einer an einer linken Seite des Fahrzeugs installierten Kamera aufgenommen wurde, und ein rechtes Bild, das von einer an einer rechten Seite des Fahrzeugs installierten Kamera aufgenommen wurde, ein.
Die Bildeingabevorrichtung 20 gibt einer Lernbildkonvertierungseinrichtung 31 ein Frontbild und/oder ein Heckbild und/oder ein linkes Bild und/oder ein rechtes Bild ein, die von einer an dem Fahrzeug installierten Kamera aufgenommen wurden.
Als nächstes führt der Controller 30 die Gesamtsteuerung derart durch, dass jedes Bauteil seine Funktion durchführen kann. Der Controller 30 kann in Form von Hardware oder Software implementiert sein, oder kann in der Form einer Kombination aus Hardware und Software implementiert sein. In einer Ausführungsform kann der Controller mit einem Mikroprozessor implementiert sein, ohne jedoch hierauf beschränkt zu sein.
In einer anderen Ausführungsform kann der Controller 30 einen festen Bereich in dem Bild, das von der Bildeingabevorrichtung 20 eingegeben wird, mit einem Musterbild maskieren, das maskierte Bild in eine Vielzahl von Bildern mit unterschiedlichen Ansichten konvertieren, und mithilfe des maskierten Bildes und der konvertierten Vielzahl von Bildern das Deep Learning durchführen.
In einer anderen Ausführungsform kann der Controller 30 zufällig das maskierte Bild oder die konvertierte Vielzahl von Bildern an einem konkreten Zeitpunkt erzeugen.
Genauer kann der Controller 30 die Lernbildkonvertierungseinrichtung 31 und eine Lernvorrichtung 32 aufweisen.
Die Lernbildkonvertierungseinrichtung 31 kann durch Maskieren eines festen Bereichs in dem von der Bildeingabevorrichtung 20 eingegebenen Bild ein erstes Lernbild erzeugen. Das bedeutet, dass die Lernbildkonvertierungseinrichtung 31 als Maskierungsoperation den festen Bereich in dem Bild, das von der Bildeingabevorrichtung 20 eingegeben wurde, durch ein Musterbild ersetzen kann. Die Lernbildkonvertierungseinrichtung 31 kann zudem das Maskieren an einem Bild durchführen, das in einem Testvorgang von einer Kamera erlangt wurde, nicht erlernend. Da die Lernvorrichtung 32 Deep Learning basierend auf dem maskierten Bild durchgeführt hat, muss das Testbild ebenfalls maskiert werden.
Die Lernbildkonvertierungseinrichtung 31 kann das Bild, das von der Bildeingabevorrichtung 20 eingegeben wurde, um einen Winkel in einer Referenzdrehwinkelspanne (beispielsweise -10 Grad bis + 10 Grad) drehen, und einen festen Bereich in dem gedrehten Bild maskieren, um ein zweites Lernbild zu erzeugen. In diesem Fall kann die Lernbildkonvertierungseinrichtung 31 beispielsweise das Bild innerhalb einer Referenzdrehwinkelspanne insgesamt 20 Mal in Einheiten von einem Grad drehen.
Die Lernbildkonvertierungseinrichtung 31 kann ein Croppen durchführen, das ein oberes Ende des ersten oder zweiten Lernbilds um einen Referenzwert (beispielsweise 30%) beschneidet. Das bedeutet, die Lernbildkonvertierungseinrichtung 31 kann das erste Lernbild croppen, um ein drittes Lernbild zu erzeugen, und das zweite Lernbild croppen, um ein viertes Lernbild zu erzeugen. In diesem Fall kann die Lernbildkonvertierungseinrichtung 31 zufällig eines der ersten bis vierten Lernbilder pro Lernzyklus erzeugen. In diesem Fall bezieht sich der Lernzyklus auf einen Zyklus zum Erlernen eines Bildes.
Bei der Lernvorrichtung 32 handelt es sich um ein Modul, das Deep Learning basierend auf einem künstlichen neuronalen Netz durchführt, und da das Deep-Learning-Schema an sich nicht Gegenstand der vorliegenden Offenbarung ist, können beliebige Schemata verwendet werden, weshalb auf die ausführliche Beschreibung hiervon verzichtet wird.
Die Lernvorrichtung 32 kann Deep Learning basierend auf zumindest einem der ersten bis vierten Lernbilder durchführen.
2 ist eine Ansicht, die eine detaillierte Ausgestaltung einer Lernbildkonvertierungseinrichtung veranschaulicht, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera gemäß einer Ausführungsform der vorliegenden Offenbarung vorgesehen ist.
Wie in 2 gezeigt, kann die in der Vorrichtung 100 beinhaltete Lernbildkonvertierungseinrichtung 31 eine erste Erzeugungseinrichtung 310, eine zweite Erzeugungseinrichtung 320 und eine dritte Erzeugungseinrichtung 330 aufweisen.
Die erste Erzeugungseinrichtung 310 kann durch Maskieren eines festen Bereichs in dem Bild (Quellbild), das von der Bildeingabevorrichtung 20 eingegeben wurde, ein erstes Lernbild erzeugen. Das bedeutet, dass die erste Erzeugungseinrichtung 310 das erste Lernbild erzeugen kann, in dem der erste Bereich in dem von der Bildeingabevorrichtung 20 eingegeben Bild durch ein Musterbild ersetzt wird, als Maskierungsvorgang.
Nachfolgend wird die ausführliche Funktionsweise der ersten Erzeugungseinrichtung 310 unter Bezugnahme auf die 3A bis 3F beschrieben.
3A ist eine Ansicht, die ein von der Bildeingabevorrichtung 20, die in einer Vorrichtung zum Erlernen eins Bildes einer Fahrzeugkamera vorgesehen ist, eingegebenes Bild gemäß einer Ausführungsform der vorliegenden Offenbarung veranschaulicht. 3B ist eine Ansicht, die ein Binärmaskenbild, das in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung darstellt. 3C ist eine Ansicht, die ein erstes Bild, das von der ersten Erzeugungseinrichtung, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt. 3D ist eine Ansicht, die ein Musterbild, das in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung darstellt. 3E ist eine Ansicht, die ein zweites Bild, das durch eine erste Erzeugungseinrichtung vorverarbeitet wurde, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung darstellt. 3F ist eine Ansicht, die das erste Lernbild, das von einer ersten Erzeugungseinrichtung erzeugt wird, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung darstellt.
In diesem Fall wird das Binärmaskenbild in einen weißen Bereich mit einem Wert von „1“ und einen schwarzen Bereich (fester Bereich) mit einem Wert von „0“ unterteilt bzw. aufgeteilt.
Die erste Erzeugungseinrichtung 310 multipliziert, wie in 3A gezeigt, das Quellbild mit einem Binärmaskenbild, wie in 3B gezeigt, um ein wie in 3C gezeigtes erstes Bild zu erzeugen. In diesem Fall, da der weiße Bereich des Binärmaskenbilds einen Wert von ‚1‘ hat,
wird der Bereich in dem Quellbild, der dem weißen Bereich entspricht, beibehalten, und da der schwarze Bereich einen Wert von ‚0‘ hat, wird der Bereich in dem Quellbild, der dem schwarzen Bereich entspricht, durch ein Binärmaskenbild ersetzt. Das bedeutet, dass das erste Bild erzeugt wird, in dem der feste Bereich in dem Quellbild gelöscht ist (angedeutet durch einen schwarzen Bereich).
Die erste Erzeugungseinrichtung 310 invertiert das Binärmaskenbild, um ein invertiertes Binärmaskenbild zu erzeugen, und multipliziert das Musterbild, wie in 3D gezeigt, mit dem invertiertem Binärmaskenbild, um wie in 3E gezeigt das zweite Bild zu erzeugen.
Die erste Erzeugungseinrichtung 310 addiert das erste Bild und das zweite Bild, um wie in 3F gezeigt ein erstes Lernbild zu erzeugen, in dem der feste Bereich des Quellbilds durch das Musterbild ersetzt wurde.
Nachfolgend wird die ausführliche Funktionsweise der zweiten Erzeugungseinrichtung 320 unter Bezugnahme auf die 4A bis 4H beschrieben.
4A ist eine Ansicht, die ein Quellbild veranschaulicht, das von der Bildeingabevorrichtung 20 eingegeben wurde, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera bereitgestellt ist, in einer Ausführungsform der vorliegenden Offenbarung. 4B ist
eine Ansicht, die ein Quellbild zeigt, das mit einem vorgegebenem Winkel von einer zweiten Erzeugungseinrichtung gedreht wird, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera in einer Ausführungsform er vorliegenden Offenbarung vorgesehen ist. 4C ist eine Ansicht, die ein Binärmaskenbild, das in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung darstellt. 4D ist eine Ansicht, die ein Binärmaskenbild, das von einer zweiten Erzeugungseinrichtung, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung darstellt. 4E ist eine Ansicht, die ein erstes Bild, das durch eine zweite Erzeugungseinrichtung, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, vorverarbeitet wurde, in einer Ausführungsform der vorliegenden Offenbarung darstellt. 4F ist eine Ansicht, die ein Musterbild darstellt, das in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera in einer Ausführungsform der vorliegenden Offenbarung vorgesehen ist. 4G ist eine Ansicht, die ein zweites Bild darstellt, das durch eine zweite Erzeugungseinrichtung, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung vorverarbeitet wurde. 4H ist eine Ansicht, die ein zweites Lernbild darstellt, das durch eine zweite Erzeugungseinrichtung erzeugt wird, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera in einer Ausführungsform der vorliegenden Offenbarung vorgesehen ist.
Die zweite Erzeugungseinrichtung 320 dreht das in 4A gezeigte Quellbild mit einem bzw. an einen vorgegeben Winkel, um ein Quellbild zu erzeugen, das mit dem vorgegebenen Winkel gedreht wurde und in 4B gezeigt ist.
Die zweite Erzeugungseinrichtung 320 dreht das in 4C gezeigte Binärmaskenbild mit einem vorgegebenen Winkel, um ein Binärmaskenbild zu erzeugen, das mit einem vorgegebenen Winkel gedreht wurde und in 4D gezeigt ist.
Die zweite Erzeugungseinrichtung 320 multipliziert das Quellbild, das mit einem vorgegebenen Winkel gedreht wurde, mit einem Binärmaskenbild, das mit einem vorgegebenen Winkel gedreht wurde, um ein erstes Bild zu erzeugen, das in 4E gezeigt ist.
Die zweite Erzeugungseinrichtung 320 invertiert ein in 4C gezeigtes Binärmaskenbild, um ein invertiertes Binärmaskenbild zu erzeugen, und multipliziert das in 4F gezeigte Musterbild mit dem invertierten Binärmaskenbild, um ein zweites Bild zu erzeugen, das in 4G gezeigt ist.
Die zweite Erzeugungseinrichtung 320 addiert das erste Bild und das zweite Bild, um ein in 4H gezeigtes Lernbild zu erzeugen, in dem der feste Bereich des Quellbilds durch ein Musterbild ersetzt ist und die Ansicht sich von jener des Quellbildes unterscheidet.
Nachfolgend wird eine ausführliche Funktionsweise der dritten Erzeugungseinrichtung 330 unter Bezugnahme auf die 5A bis 5C beschrieben.
5A ist eine Ansicht, die ein drittes Lernbild, das von einer dritten Lernbilderzeugungseinrichtung, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung veranschaulicht.
Wie in 5A gezeigt, erzeugt die dritte Erzeugungseinrichtung 330 ein drittes Lernbild 511 durch Durchführen von Croppen an einem ersten Lernbild 510.
5B ist eine Ansicht, die ein viertes Lernbild, das von der dritten Erzeugungseinrichtung erzeugt wird bzw. wurde, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung veranschaulicht.
Wie in 5B gezeigt, croppt die dritte Erzeugungseinrichtung 330 ein zweites Lernbild 520, um ein drittes Lernbild 521 zu erzeugen. In diesem Fall ist das zweite Lernbild 520 ein Bild, das von der dritten Erzeugungseinrichtung 320 erzeugt wurde, und nach dem Drehen im Uhrzeigersinn des Quellbilds, das von der Bildeingabevorrichtung 20 eingegeben wurde, um einen vorgegebenen Winkel maskiert die zweite Erzeugungseinrichtung 320 den festen Bereich in dem gedrehten Quellbild, um das zweite Lernbild 520 zu erzeugen.
5C ist eine Ansicht, die ein weiteres Beispiel des vierten Lernbilds, das von der dritten Erzeugungseinrichtung erzeugt wird, die in einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera vorgesehen ist, in einer Ausführungsform der vorliegenden Offenbarung veranschaulicht.
Wie in 5C gezeigt, croppt die dritte Erzeugungseinrichtung 330 ein zweites Lernbild 530, um ein drittes Lernbild 531 zu erzeugen. In diesem Fall ist das zweite Lernbild 530 ein Bild, das von der zweiten Erzeugungseinrichtung 320 erzeugt wurde, und nach dem Drehen des Quellbilds, das von der Bildeingabevorrichtung 20 entgegen dem Uhrzeigersinn mit einem vorgegebenen Winkel gedreht wurde, maskiert die zweite Erzeugungseinrichtung 320 des festen Bereich in dem gedrehten Quellbild, um das zweite Lernbild 530 zu erzeugen.
6B ist eine Ansicht, die das Leistungsverhalten einer Vorrichtung zum Erlenen eines Bildes einer Fahrzeugkamera in einer Ausführungsform der vorliegenden Offenbarung darstellt.
Wie in 6A gezeigt, gelingt es in der verwandten Technik nicht, einen Raum auf geeignete Weise zu klassifizieren, wohingegen die Ausführungsformen der vorliegenden Offenbarung einen Raum normal klassifizieren können.
7B ist eine Ansicht, die ein weiteres Beispiel des Leistungsverhaltens einer Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera in einer vorliegenden Offenbarung darstellt.
Wie in 7A gezeigt, unterscheidet und erkennt die verwandte Technik ein Objekt 710, das eigentlich gar nicht existiert, wohingegen die Ausführungsformen der vorliegenden Offenbarung nur einen normal existierenden Raum erkennen.
8 ist ein Ablaufdiagramm, das ein Verfahren zum Erlernen eines Bildes einer Fahrzeugkamera in einer Ausführungsform der vorliegenden Offenbarung darstellt.
Zunächst gibt, bei Operation 801, die Bildeingabevorrichtung 20 ein von einer Kamera, die an einem Fahrzeug montiert ist, aufgenommenes Bild ein.
Dann maskiert, bei Operation 802, der Controller 30 den festen Bereich in dem von der Bildeingabevorrichtung 20 eingegebenen Bild mit einem Musterbild und konvertiert das maskierte Bild in eine Vielzahl von Bildern mit unterschiedlichen Ansichten.
Danach führt, bei Operation 803, der Controller 30 Deep Learning mithilfe des maskierten Bildes und der konvertierten Vielzahl von Bildern durch.
9 ist ein Blockdiagramm, das ein Rechensystem zum Ausführen eines Verfahrens zum Erlernen eines Bildes einer Fahrzeugkamera in einer Ausführungsform der vorliegenden Offenbarung darstellt.
Unter Bezugnahme auf 9 kann, wie oben beschrieben, ein Verfahren zum Erlernen eines Bildes einer Fahrzeugkamera in einer Ausführungsform der vorliegenden Offenbarung durch ein Rechensystem implementiert werden. Ein Rechensystem 1000 kann zumindest einen Prozessor 1100, einen Speicher (Memory) 1300, ein Nutzerschnittstelleneingabevorrichtung 1400, eine Nutzerschnittstellenausgabevorrichtung 1500, einen Speicher (storage) 1600 und eine Netzwerkschnittstelle 1700 aufweisen, die durch einen Systembus 1200 verbunden sind.
Der Prozessor 1100 kann ein Hauptprozessor (CPU) oder eine Halbleitervorrichtung sein, die eingerichtet ist, die Verarbeitung von in dem Speicher 1300 und/oder dem Speicher 1600 gespeicherten Befehle auszuführen. Der Speicher 1300 und der Speicher 1600 können verschiedene Arten flüchtiger oder nicht-flüchtiger Speichermedien aufweisen. Beispielsweise kann der Speicher 1300 einen ROM (Festwertspeicher) und einen RAM (Direktzugriffsspeicher) aufweisen.
Dementsprechend können die Prozesse des Verfahrens oder des Algorithmus, die unter Bezugnahme auf die Ausführungsformen der vorliegenden Offenbarung beschrieben wurden, unmittelbar durch Hardware, die von dem Prozessor 1100 ausgeführt wird, ein Softwaremodul, oder eine Kombination dieser implementiert sein. Das Softwaremodul kann in einem Speichermedium vorliegen (d.h. dem Speicher 1300 und/oder dem Speicher 1600), etwa einem RAM, einem Flash-Speicher, einem ROM, einem EPROM, einem EEPROM, einem Register, einer Festplatte, einer Solid State Drive (SSD), einer entnehmbaren Platte, oder einer CD-ROM. Das beispielhafte Speichermedium ist mit dem Prozessor 110 gekoppelt, und der Prozessor 1100 kann Informationen aus dem Speichermedium lesen und Informationen in das Speichermedium schreiben. Bei einem anderen Verfahren kann das Speichermedium in den Prozessor 1100 integriert sein. Der Prozessor und das Speichermedium können in einer anwendungsspezifischen integrierten Schaltung (SIC) liegen. Die ASIC kann in einem Nutzerendgerät liegen. Bei einem anderen Verfahren können der Prozessor und das Speichermedium in dem Nutzerendgerät als einzelnes Bauteil vorliegen.
Gemäß Ausführungsbeispielen der vorliegenden Offenbarung werden eine Vorrichtung zum Erlernen eins Bildes einer Fahrzeugkamera und ein Verfahren dafür bereitgestellt, welche ein Ergebnis von Deep Learning auf alle anderen Fahrzeuge, ungeachtet der Farbe eines Fahrzeugs und des Montagewinkel (Gier-, Roll- und Nickwinkel) einer Kamera anwenden können, indem ein fester Bereich mit einem Musterbild in einem Bild maskiert wird, das durch eine an einem Fahrzeug installierte Kamera erlangt wird, das maskierte Bild in eine Vielzahl von Bildern mit unterschiedlichen Ansichten konvertiert wird, und Deep Learning mithilfe des maskieren Bildes und der konvertierten Vielzahl von Bildern durchgeführt wird.
Die obige Beschreibung ist eine simple Veranschaulichung des technischen Geistes der vorliegenden Offenbarung und die vorliegende Offenbarung kann durch einen Fachmann, auf den die vorliegende Offenbarung abzielt, auf verschiedene Weise korrigiert und modifiziert werden, ohne von den wesentlichen Merkmalen der vorliegenden Offenbarung abzuweichen.
Daher beschränken die offenbaren Ausführungsformen der vorliegenden Erfindung den technischen Geist der vorliegenden Offenbarung nicht, sondern sind beispielhaft, und der Schutzumfang des technischen Geistes der vorliegenden Offenbarung wird durch die Ausführungsformen der vorliegenden Offenbarung nicht beschränkt. Der Schutzumfang der vorliegenden Offenbarung soll durch die Ansprüche ausgelegt werden, und es wird angemerkt, dass alle technischen Gedanken innerhalb des entsprechenden Gebiets vom Schutzumfang der vorliegenden Offenbarung umfasst sind.
Bezugszeichenliste
1

10:: SPEICHER
20:: BILDEINGABEVORRICHTUNG
30:: CONTROLLER
31:: LERNBILDKONVERTIERUNGSEINRICHTUNG
32:: LERNVORRICHTUNG

2

20:: BILDEINGABEVORRICHTUNG
32:: LERNVORRICHTUNG
310:: ERSTE ERZEUGUNGSEINRICHTUNG
320:: ZWEITE ERZEUGUNGSVORRICHTUNG
330:: DRITTE ERZEUGUNGSVORRICHTUNG

8

801:: BILD, DAS VON AN FAHRZEUG MONTIERTER KAMERA AUFGENOMMEN WURDE, EINGEBEN
802:: FESTEN BEREICH IM EINGEGEBENEN BILD MIT MUSTERBILD MASKIEREN UND KONVERTIEREN DES MASKIERTEN BILDS IN EINE VIELZAHL VON BILDERN MIT UNTERSCHIEDLICHEN ANSICHTEN
803:: DURCHFÜHREN VON DEEP LEARNING MITHILFE DES MASKIERTEN BILDS UND DER KONVERTIERTEN VIELZAHL VON BILDERN

9

1100:: PROZESSOR
1300:: SPEICHER (Memory)
1400:: NUTZERSCHNITTSTELLENEINGABEVORRICHTUNG
1500:: NUTZERSCHNITTSTELLENAUSGABEVORRICHTUNG
1600:: SPEICHER (Storage)
1700:: NETZWERKSCHNITTSTELLE

Claims

Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera, wobei die Vorrichtung aufweist: eine Bildeingabevorrichtung, die eingerichtet ist, ein von einer an einem Fahrzeug montierten Kamera aufgenommenes Bild einzugeben; und einen Controller, der eingerichtet ist, um: einen festen Bereich in dem Bild mit einem Musterbild zu maskieren, das maskierte Bild in eine Vielzahl von Bildern mit unterschiedlichen Ansichten zu konvertieren, und Deep Learning mithilfe des maskierten Bildes und der konvertierten Vielzahl von Bildern durchzuführen.
Vorrichtung nach Anspruch 1, wobei die Bildeingabevorrichtung eingerichtet ist, um dem Controller ein Frontbild und/oder ein Heckbild und/oder ein linkes Bild und/oder ein rechtes Bild einzugeben, die von der Kamera aufgenommen wurden.
Vorrichtung nach Anspruch 1 oder 2, wobei der Controller eingerichtet ist, ein erstes Lernbild durch Maskieren des festen Bereichs in dem von der Bildeingabevorrichtung empfangenen Bild, ein zweites Lernbild durch Drehen des von der Bildeingabevorrichtung empfangenen Bildes um einen Referenzwinkel und Maskieren des festen Bereichs in dem gedrehten Bild, ein drittes Lernbild durch Croppen des ersten Lernbilds, und ein viertes Lernbild durch Croppen des zweiten Lernbilds zu erzeugen.
Vorrichtung nach Anspruch 3, wobei der Controller eingerichtet ist, Deep Learning basierend auf zumindest einem Bild unter den ersten, zweiten, dritten und vierten Lernbildern durchzuführen.
Vorrichtung nach Anspruch 3 oder 4, wobei der Controller eingerichtet ist, um: das eingegebene Bild mit einem Binärmaskenbild zu multiplizieren, um ein erstes Bild zu erzeugen, in dem der feste Bereich entfernt ist; das Binärmaskenbild zu invertieren, um ein invertiertes Binärmaskenbild zu erzeugen; das Musterbild mit dem invertierten Binärmaskenbild zu multiplizieren, um ein zweites Bild zu erzeugen, in dem der feste Bereich aus dem Musterbild zusammengesetzt ist, und das erste Bild und das zweite Bild zu addieren, um das erste Lernbild zu erzeugen, in dem der feste Bereich in dem von der Bildeingabevorrichtung empfangenen Bild durch das Musterbild ersetzt ist.
Vorrichtung nach einem der Ansprüche 3 bis 5, wobei der Controller eingerichtet ist, um: das von der Bildeingabevorrichtung empfangene Bild um den Referenzwinkel zu drehen; ein Binärmaskenbild um den Referenzwinkel zu drehen; das um den Referenzwinkel gedrehte Bild mit dem um den Referenzwinkel gedrehten Binärmaskenbild zu multiplizieren, um ein erstes Bild zu erzeugen, in dem der feste Bereich entfernt wird; das Binärmaskenbild zu invertieren, um ein invertiertes Binärmaskenbild zu erzeugen, das Musterbild mit dem invertierten Binärmaskenbild zu multiplizieren, um ein zweites Bild zu erzeugen, in dem der feste Bereich das Musterbild ist; und das erste Bild zu dem zweiten Bild hinzuaddieren, um das zweite Lernbild zu erzeugen, in dem der feste Bereich in dem um den Referenzwinkel gedrehten Bild durch das Musterbild ersetzt ist.
Vorrichtung nach einem der Ansprüche 3 bis 6, wobei der Controller eingerichtet ist, um: das von der Bildeingabevorrichtung empfangene Bild in einer Richtung im Uhrzeigersinn um den Referenzwinkel drehen, das zweite Lernbild durch Maskieren des festen Bereichs in dem gedrehten Bild zu erzeugen, und durch Croppen des erzeugten zweiten Lernbilds das vierte Lernbild zu erzeugen.
Vorrichtung nach einem der Ansprüche 3 bis 7, wobei der Controller eingerichtet ist, um: das von der Bildeingabevorrichtung empfangene Bild in einer Richtung entgegen dem Uhrzeigersinn um den Referenzwinkel zu drehen, das zweite Lernbild durch Maskieren des festen Bereichs in dem gedrehten Bild zu erzeugen, und das vierte Lernbild durch Croppen des erzeugten zweiten Lernbilds zu erzeugen.
Verfahren zum Erlernen eines Bildes einer Fahrzeugkamera, wobei das Verfahren umfasst: Eingeben, durch eine Bildeingabevorrichtung, eines von einer an einem Fahrzeug montierten Kamera aufgenommenen Bildes; Maskieren, durch einen Controller, eines festen Bereichs in dem eingegebenen Bild mit einem Musterbild, und Konvertieren des maskierten Bilds in eine Vielzahl von Bildern mit unterschiedlichen Ansichten; und Durchführen, durch den Controller, von Deep Learning mithilfe des maskierten Bilds und der konvertierten Vielzahl von Bildern.
Verfahren nach Anspruch 9, wobei das Eingeben des Bildes umfasst: Eingeben eines Frontbildes des Fahrzeugs; Eingeben eines Heckbildes des Fahrzeugs; Eingeben eines linken Bildes des Fahrzeugs; und Eingeben eines rechten Bildes des Fahrzeugs.
Verfahren nach Anspruch 9 oder 10, wobei das Konvertieren des maskierten Bildes umfasst: Erzeugen eines ersten Lernbilds durch Maskieren des festen Bereichs in dem eingegebenen Bild, das von der Bildeingabevorrichtung empfangen wurde; Erzeugen eines zweiten Lernbilds durch Drehen des eingegebenen Bilds um einen Referenzwinkel und Maskieren des festen Bereichs in dem gedrehten Bild; Erzeugen eines dritten Lernbilds durch Croppen des ersten Lernbilds; und Erzeugen eines vierten Lernbilds durch Croppen des zweiten Lernbilds.
Verfahren nach Anspruch 11, wobei das Durchführen von Deep Learning umfasst: Durchführen des Deep Learning basierend auf zumindest einem Bild unter den ersten, zweiten, dritten und vierten Lernbildern.
Verfahren nach Anspruch 11, wobei das Erzeugen des ersten Lernbilds umfasst: Multiplizieren des eingegebenen Bilds mit einem Binärmaskenbild, um ein erstes Bild zu erzeugen, aus dem der feste Bereich entfernt wird; Invertieren des Binärmaskenbilds, um ein invertiertes Binärmaskenbild zu erzeugen; Multiplizieren des Musterbilds mit dem invertierten Binärmaskenbild, um ein zweites Bild zu erzeugen, in dem der feste Bereich aus dem Musterbild zusammengesetzt ist; und Addieren des ersten Bilds und des zweiten Bilds, um das erste Lernbild zu erzeugen, in dem der feste Bereich in dem eingegebenen Bild durch das Musterbild ersetzt ist.
Verfahren nach Anspruch 11, wobei das Erzeugen des zweiten Lernbilds umfasst: Drehen des eingegebenen Bildes um den Referenzwinkel; Drehen des Binärmaskenbilds um den Referenzwinkel; Multiplizieren des um den Referenzwinkel gedrehten Bilds mit dem um den Referenzwinkel gedrehten Binärmaskenbild, um ein erstes Bild zu erzeugen, in dem der feste Bereich entfernt ist; Invertieren des Binärmaskenbilds, um ein invertiertes Binärmaskenbild zu erzeugen; Multiplizieren des Musterbilds mit dem invertierten Binärmaskenbild, um ein zweites Bild zu erzeugen, in dem der feste Bereich das Musterbild ist; und Hinzuaddieren des ersten Bilds zu dem zweiten Bild, um ein zweites Lernbild zu erzeugen, in dem der feste Bereich in dem um den Referenzwinkel gedrehten Bild durch das Musterbild ersetzt ist.
Verfahren nach Anspruch 11, wobei das Erzeugen des vierten Lernbilds umfasst: Drehen des eingegebenen Bildes in einer Richtung im Uhrzeigersinn um den Referenzwinkel, und Erzeugen des vierten Lernbilds durch Croppen des zweiten Lernbilds, das durch Maskieren des festen Bereichs in dem gedrehten Bild erzeugt wird.
Verfahren nach Anspruch 9, wobei das Erzeugen des vierten Lernbilds umfasst: Drehen des eingegeben Bildes um einen Referenzwinkel in einer Richtung entgegen dem Uhrzeigersinn, und Erzeugen des vierten Lernbilds durch Croppen des zweiten Lernbilds, das durch Maskieren des festen Bereichs in dem gedrehten Bild erzeugt wird.
Verfahren zum Erlernen eines Bildes einer Fahrzeugkamera, wobei das Verfahren umfasst: Eingeben, durch eine Bildeingabevorrichtung, eines von einer an einem Fahrzeug montierten Kamera aufgenommenen Bildes, zufälliges Durchführen, durch einen Controller, von zumindest einer Operation unter einer Vielzahl von Operationen, wobei die Vielzahl von Operationen umfasst: eine erste Operation zum Erzeugen eines Lernbilds durch Maskieren eines festen Bereichs in dem eingegeben Bild, eine zweite Operation zum Erzeugen eines Lernbilds durch Drehen des eingegebenen Bildes um einen Referenzwinkel und Maskieren des festen Bereichs in dem gedrehten Bild, eine dritte Operation zum Erzeugen eines Bildes durch Maskieren des festen Bereichs in dem eingegebenen Bild, um durch Croppen des erzeugten Bildes ein Lernbild zu erzeugen, eine vierte Operation zum Erzeugen eines Bildes durch Drehen des eingegebenen Bildes um den Referenzwinkel und Maskieren des festen Bereichs in dem eingegebenen Bild, um durch Croppen des erzeugten Bildes ein Lernbild zu erzeugen; und Durchführen, durch den Controller, von Deep Learning mithilfe des erzeugten Lernbildes.
Verfahren nach Anspruch 17, wobei die erste Operation umfasst: Multiplizieren des eingegebenen Bilds mit einem Binärmaskenbild, um ein erstes Bild zu erzeugen, aus dem der feste Bereich entfernt ist; Invertieren des Binärmaskenbilds, um ein invertiertes Binärmaskenbild zu erzeugen; Multiplizieren des Musterbilds mit dem invertierten Binärmaskenbild, um ein zweites Bild zu erzeugen, in dem der feste Bereich aus dem Musterbild zusammengesetzt ist; und Addieren des ersten Bilds zu dem zweiten Bild, um ein erstes Lernbild zu erzeugen, in dem der feste Bereich in dem eingegebenen Bild durch das Musterbild ersetzt ist.
Verfahren nach Anspruch 17, wobei die zweite Operation umfasst: Drehen des eingegebenen Bildes um den Referenzwinkel; Drehen des Binärmaskenbilds um den Referenzwinkel; Multiplizieren des um den Referenzwinkel gedrehten Bilds mit dem um den Referenzwinkel gedrehten Binärmaskenbild, um ein erstes Bild zu erzeugen, in dem der feste Bereich entfernt ist; Invertieren des Binärmaskenbilds, um ein invertiertes Binärmaskenbild zu erzeugen; Multiplizieren des Musterbilds mit dem invertierten Binärmaskenbild, um ein zweites Bild zu erzeugen, bei dem der feste Bereich das Musterbild ist; und Hinzuaddieren des ersten Bilds zu dem zweiten Bild, um ein zweites Lernbild zu erzeugen, in dem der feste Bereich in dem um den Referenzwinkel gedrehten Bild durch das Musterbild ersetzt ist.