DE102020132977A1 - METHOD AND APPARATUS FOR COMBINING IMAGES - Google Patents
METHOD AND APPARATUS FOR COMBINING IMAGES Download PDFInfo
- Publication number
- DE102020132977A1 DE102020132977A1 DE102020132977.6A DE102020132977A DE102020132977A1 DE 102020132977 A1 DE102020132977 A1 DE 102020132977A1 DE 102020132977 A DE102020132977 A DE 102020132977A DE 102020132977 A1 DE102020132977 A1 DE 102020132977A1
- Authority
- DE
- Germany
- Prior art keywords
- image
- images
- face
- segmented
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/30—Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
- Studio Devices (AREA)
Abstract
Die Erfindung bezieht sich auf ein Verfahren zum Kombinieren von Bildern, wobei das Verfahren die folgenden Schritte aufweist:a) Aufnehmen von mehr als einem Bild mit einer Kamera (190), wobei jedes Bild wenigstens einen Ausschnitt einer Frontansicht einschließlich des Gesichts (205, 215) von einer oder von mehreren Personen (200, 210) darstellt;b) ein Verfahren zur Bildanalyse, aufweisend:(i) Anwenden eines Algorithmus zum Segmentieren von Bildern (130), um wenigstens zwei Bildabschnitte zu segmentieren, die jeweils ein entsprechendes Gesicht (205, 215) oder eine Frontansicht einschließlich des Gesichts (205, 215) der aufgenommenen Personen (200, 210) darstellen;(ii) Anwenden eines Algorithmus zum Detektieren von Gesichtern (140), um das Gesicht (205, 215) jeder Person (200, 210) in den segmentierten Bildern oder in den aufgenommenen Bildern zu erkennen und um entsprechende Gesichtserkennungsdaten bereitzustellen;(iii) Anwenden eines Algorithmus zum Erkennen von Gesichtsemotionen (150), auf der Grundlage der Gesichtserkennungsdaten, um eine entsprechende Emotion zu erkennen, die von jedem der detektierten Gesichter (205, 215) ausgedrückt wird, und um entsprechende Gesichtsemotionsdaten bereitzustellen;(iv) Auswerten der Gesichtsemotionsdaten, um für jede erkannte Gesichtsemotion zu ermitteln, ob sie ein vordefiniertes Auswahlkriterium erfüllt;c) Auswählen derjenigen segmentierten Bilder, deren entsprechende Gesichtsemotionsdaten das vordefinierte Auswahlkriterium erfüllen; undd) Zusammensetzen eines kombinierten Bildes, das die ausgewählten segmentierten Bilder aufweist.The invention relates to a method for combining images, the method having the following steps: a) recording more than one image with a camera (190), each image containing at least one section of a front view including the face (205, 215 ) of one or more persons (200, 210); b) a method for image analysis, comprising: (i) applying an algorithm for segmenting images (130) to segment at least two image sections each having a respective face ( 205, 215) or display a front view including the face (205, 215) of the recorded persons (200, 210); (ii) applying a face detection algorithm (140) to detect the face (205, 215) of each person ( 200, 210) in the segmented images or in the captured images and to provide corresponding face recognition data;(iii) applying a facial emotion recognition algorithm (150 ), based on the face recognition data, to recognize a corresponding emotion expressed by each of the detected faces (205, 215) and to provide corresponding facial emotion data; (iv) evaluating the facial emotion data to determine for each recognized facial emotion, whether it satisfies a predefined selection criterion;c) selecting those segmented images whose corresponding facial emotion data meet the predefined selection criterion; andd) composing a combined image comprising the selected segmented images.
Description
Die vorliegende Erfindung bezieht sich auf das Gebiet der Bildverarbeitung. Insbesondere bezieht sich die vorliegende Erfindung auf ein Verfahren und eine Vorrichtung zum Kombinieren von Bildern.The present invention relates to the field of image processing. In particular, the present invention relates to a method and apparatus for combining images.
Des Weiteren bezieht sich die Erfindung auf ein Computerprogramm und ein Bildverarbeitungsgerät.Furthermore, the invention relates to a computer program and an image processing device.
Auf dem Gebiet der Bildverarbeitung besteht häufig die Notwendigkeit, ein oder mehrere Objekte zu erfassen, zwischen verschiedenen Objekten zu unterscheiden oder zwischen verschiedenen Konfigurationen eines Objekts auf der Grundlage von Bilddaten zu unterscheiden, die ein solches oder mehrere solche Objekte darstellen.In the field of image processing, there is often a need to detect one or more objects, to distinguish between different objects, or to distinguish between different configurations of an object based on image data representing such one or more such objects.
Aus dem Stand der Technik ist es bekannt, ein generisches Bild aus mehreren Bildern zusammenzusetzen, die zu verschiedenen Zeitschritten aufgenommen wurden, indem bestimmte Bereiche in den Bildern manuell ausgewählt werden und diese ausgewählten Bereiche kombiniert werden, um darauf basierend das generische Bild zusammenzusetzen. Es sind auch Segmentierungsalgorithmen, Algorithmen zur Gesichtserkennung und Algorithmen zur Emotionserkennung bekannt, die auf die Bilder angewendet werden können. Des Weiteren ist es bekannt, Gesichter in Gruppenporträts zu ersetzen. In diesem Fall muss ein Benutzer das zu ersetzende Gesicht manuell auswählen.It is known in the prior art to compose a generic image from multiple images taken at different time steps by manually selecting specific areas in the images and combining these selected areas to compose the generic image based thereon. There are also known segmentation algorithms, face recognition algorithms and emotion recognition algorithms that can be applied to the images. Furthermore, it is known to replace faces in group portraits. In this case, a user must manually select the face to be replaced.
Die bekannten Verfahren zum Zusammensetzen von Bildern setzen voraus, dass ein Benutzer Bildbereiche auswählt, die kombiniert oder ersetzt werden sollen.Known methods of compositing images require a user to select areas of the image to be combined or replaced.
Die vorliegende Erfindung macht es sich zur Aufgabe, ein Verfahren zum automatischen Erstellen eines Bildes einer Gruppe von Personen aus einer Anzahl von aufgenommenen Bildern bereitzustellen.The object of the present invention is to provide a method for automatically creating an image of a group of people from a number of recorded images.
Eine Lösung für dieses Problem wird durch die Lehre der unabhängigen Ansprüche bereitgestellt. Verschiedene bevorzugte Ausführungsformen der vorliegenden Erfindung werden durch die Lehre der abhängigen Ansprüche bereitgestellt.A solution to this problem is provided by the teaching of the independent claims. Various preferred embodiments of the present invention are provided by the teachings of the dependent claims.
Ein erster Aspekt der Erfindung richtet sich auf ein Verfahren, insbesondere ein computerimplementiertes Verfahren, zum Kombinieren von Bildern. Das Verfahren weist auf:
- - Aufnehmen von mehr als einem Bild mit einer Kamera, wobei jedes Bild wenigstens einen Ausschnitt einer Frontansicht einschließlich des Gesichts von einer oder von mehreren Personen darstellt;
- - ein Verfahren zur Bildanalyse, aufweisend:
- o Anwenden eines Algorithmus zum Segmentieren von Bildern, um wenigstens zwei Bildabschnitte zu segmentieren, die jeweils ein entsprechendes Gesicht oder eine Frontansicht einschließlich des Gesichts der aufgenommenen Personen darstellen;
- o Anwenden eines Algorithmus zum Detektieren von Gesichtern, um das Gesicht jeder Person in den segmentierten Bildern oder in den aufgenommenen Bildern zu erkennen und um entsprechende Gesichtserkennungsdaten bereitzustellen;
- o Anwenden eines Algorithmus zum Erkennen von Gesichtsemotionen, auf der Grundlage der Gesichtserkennungsdaten, um eine entsprechende Emotion zu erkennen, die von jedem der detektierten Gesichter ausgedrückt wird, und um entsprechende Gesichtsemotionsdaten bereitzustellen;
- o Auswerten der Gesichtsemotionsdaten, um für jede erkannte Gesichtsemotion zu ermitteln, ob sie ein vordefiniertes Auswahlkriterium erfüllt;
- - Auswählen derjenigen segmentierten Bilder, deren entsprechende Gesichtsemotionsdaten das vordefinierte Auswahlkriterium erfüllen; und
- - Zusammensetzen eines kombinierten Bildes, das die ausgewählten segmentierten Bilder aufweist.
- - taking more than one picture with a camera, each picture representing at least a portion of a front view including the face of one or more persons;
- - a method for image analysis, comprising:
- o applying an image segmentation algorithm to segment at least two image portions each representing a corresponding face or front view including the face of the captured subjects;
- o Applying a face detection algorithm to detect the face of each person in the segmented images or in the captured images and to provide corresponding face detection data;
- o applying a facial emotion recognition algorithm, based on the face recognition data, to recognize a corresponding emotion expressed by each of the detected faces and to provide corresponding facial emotion data;
- o evaluating the facial emotion data to determine for each recognized facial emotion whether it meets a predefined selection criterion;
- - selecting those segmented images whose corresponding facial emotion data meet the predefined selection criterion; and
- - Composing a combined image comprising the selected segmented images.
Die Erfindung beschreibt ein Verfahren, das aus segmentierten Bildern ein zusammengesetztes Bild erstellt. Dabei wird ein visuell ansprechendes Bild von mehreren Personen, insbesondere von zwei Personen, erstellt. Des Weiteren wird ein Algorithmus zum Detektieren von Gesichtern auf die segmentierten Bilder oder die aufgenommenen Bilder angewendet. Der Algorithmus zum Detektieren von Gesichtern weist das Erkennen des Gesichts auf, das Gesichtskomponenten (zum Beispiel Augen und Nase) oder Orientierungsmerkmale aus dem Gesichtsbereich aufweisen kann. Des Weiteren kann er das Extrahieren von verschiedenen räumlichen und zeitabhängigen Merkmalen aus den Gesichtskomponenten beinhalten. Der Algorithmus zum Detektieren von Gesichtern liefert die Gesichtserkennungsdaten. Der Algorithmus zum Erkennen von Emotionen ermittelt den Gesichtsausdruck. Dieses Ermitteln kann auf der Grundlage der extrahierten Merkmale geschehen, indem diese mit Gesichtskategorien einer Datenbank verglichen werden, und die Gesichtsemotionsdaten bereitstellen. Bei der Datenbank kann es sich um eine öffentlich zugängliche Datenbank für Gesichtsemotionserkennung handeln, wie zum Beispiel Compound emotion (CE), Binghamton University 3D Facial Expression (BU-3DFE) oder The Extended Cohn-Kanade Dataset (CK+).The invention describes a method that creates a composite image from segmented images. A visually appealing image of a number of people, in particular of two people, is thereby created. Furthermore, an algorithm for detecting faces is applied to the segmented images or the captured images. The algorithm for detecting faces includes recognizing the face, which may include facial components (e.g., eyes and nose) or orienting features from the face area. Furthermore, it can involve the extraction of various spatial and time-dependent features from the facial components. The face detection algorithm provides the face detection data. The algorithm for detecting emotions determines the facial expression. This determination can be based on the extracted features, by comparing them to face categories in a database and providing face emotion data. The database may be a publicly available facial emotion recognition database, such as Compound emotion (CE), Binghamton University 3D Facial Expression (BU-3DFE) or The Extended Cohn-Kanade Dataset (CK+).
Nachdem die Gesichtsemotionsdaten der Emotion eines Gesichts eines segmentierten Bildes erkannt und kategorisiert wurden, kann auf der Grundlage des vordefinierten Auswahlkriteriums ausgewertet werden, ob es für ein neu zusammengesetztes Bild verwendet werden soll. Diese Auswertung beinhaltet, dass die Gesichtsemotionsdaten der kategorisierten Emotion mit dem vordefinierten Auswahlkriterium verglichen werden. Wenn das Kriterium erfüllt ist, wird das segmentierte Bild ausgewählt. Aus den ausgewählten Bildern wird ein zusammengesetztes Bild erstellt, d. h. zusammengefügt.After the facial emotion data of the emotion of a face of a segmented image has been recognized and categorized, it can be evaluated based on the predefined selection criterion whether it should be used for a newly composed image. This evaluation involves comparing the facial emotion data of the categorized emotion with the predefined selection criterion. If the criterion is met, the segmented image is selected. A composite image is created from the selected images; H. put together.
Dementsprechend liefert das Verfahren gemäß dem ersten Aspekt automatisch ein zusammengesetztes Bild von mehreren Personen auf der Grundlage von zuvor aufgenommenen einzelnen Bildern, wobei das zusammengesetzte Bild eine Komposition von ausgewählten einzelnen (separaten) Bildern oder Abschnitten davon aufweist. Das bereitgestellte Verfahren stellt sicher, dass in dem zusammengesetzten Bild jede der Personen eine Emotion oder einen Ausdruck zeigt, die/der dem vordefinierten Auswahlkriterium entspricht.Accordingly, the method according to the first aspect automatically provides a composite image of multiple persons based on previously captured individual images, the composite image comprising a composition of selected individual (separate) images or portions thereof. The provided method ensures that in the composite image each of the people shows an emotion or expression that corresponds to the predefined selection criterion.
Im Folgenden werden bestimmte bevorzugte Ausführungsformen des Verfahrens beschrieben, die beliebig miteinander oder mit anderen Aspekten der vorliegenden Erfindung kombiniert werden können, es sei denn, eine solche Kombination ist ausdrücklich ausgeschlossen oder technisch nicht möglich.In the following, certain preferred embodiments of the method are described, which can be combined with each other or with other aspects of the present invention in any way, unless such a combination is expressly excluded or not technically possible.
In manchen Ausführungsformen wird das Verfahren zur Bildanalyse mehrfach wiederholt, bis für jede der Personen, die in den aufgenommenen Bildern dargestellt sind, ein segmentiertes Bild ausgewählt wurde. Auf diese Weise wird sichergestellt, dass automatisch ein Bild zusammengesetzt wird, in dem alle Personen einen Ausdruck oder eine Emotion haben, die das vordefinierte Auswahlkriterium erfüllt.In some embodiments, the image analysis method is repeated multiple times until a segmented image has been selected for each of the people represented in the captured images. This ensures that an image is automatically assembled in which each person has an expression or emotion that meets the predefined selection criteria.
In manchen Ausführungsformen ist das vordefinierte Auswahlkriterium erfüllt und dementsprechend erfolgt eine Auswahl eines segmentierten Bildes, wenn sich die bereitgestellten Gesichtsemotionsdaten, die der erkannten Emotion desselben Gesichts entsprechen, für eine bestimmte Anzahl von aufeinanderfolgenden Bildern geändert haben. Falls eine der Personen, von der ein Bild aufgenommen wurde, ihre Emotion von einem Bild zum nächsten plötzlich ändert, könnte dies zum Beispiel ein Hinweis auf eine Emotion des Überraschens sein. Auf diese Weise kann ein vordefiniertes Selektionskriterium, das sich auf Emotionen des Überraschens bezieht, auf die aufgenommenen Bilder angewendet werden, und es können segmentierte Bilder ausgewählt werden, wenn ein neu zusammengesetztes Bild Personen darstellen soll, die Emotionen des Überraschens zeigen. Die bestimmte Anzahl kann eine beliebige Zahl sein, die größer als eins ist.In some embodiments, the predefined selection criterion is met and a segmented image is selected accordingly if the facial emotion data provided, which correspond to the detected emotion of the same face, have changed for a specific number of consecutive images. For example, if one of the subjects in a picture suddenly changes their emotion from one picture to the next, this could indicate an emotion of surprise. In this way, a predefined selection criterion related to surprise emotions can be applied to the captured images, and segmented images can be selected when a recomposed image is to represent people showing surprise emotions. The specific number can be any number greater than one.
Der Algorithmus zum Detektieren von Gesichtern kann Gesichtserkennungsdaten einer Liste von zuvor erkannten Gesichtern bereitstellen, die sich zum Beispiel in einer Datenbank befinden, und der Algorithmus zur Erkennung von Gesichtsemotionen kann wie oben beschrieben Gesichtsemotionsdaten einer Liste der erkannten Emotionen für jedes Gesicht und ihre jeweiligen Wahrscheinlichkeiten in Bezug auf die Gesichtskategorien der Datenbanken bereitstellen. Auf diese Weise können die aufgenommenen Personen von Bild zu Bild verfolgt werden und die Emotionswahrscheinlichkeiten können auch zeitlich nachverfolgt werden. Diese Informationen können dazu genutzt werden, um ein segmentiertes Bild in Abhängigkeit von einer bestimmten Änderung der Emotion auszuwählen, die zum Beispiel eine plötzliche Emotion sein kann, wie zum Beispiel das Lachen über einen Scherz. Eine andere Situation kann vorliegen, wenn eine Emotionswahrscheinlichkeit einen bestimmten Schwellenwert überschreitet und für einige Zeit anhält - zum Beispiel Fröhlichkeit oder Zufriedenheit. Des Weiteren kann es zwei oder mehr Emotionswahrscheinlichkeiten geben, die einen Schwellenwert überschreiten, oder wenn eine auf eine andere folgt - zum Beispiel Überraschung/Ekel gefolgt von Lachen.The face detection algorithm can provide facial recognition data from a list of previously recognized faces, for example in a database, and the facial emotion recognition algorithm can, as described above, provide facial emotion data from a list of the recognized emotions for each face and their respective probabilities in Provide reference to the face categories of the databases. In this way, the persons recorded can be tracked from image to image and the emotion probabilities can also be tracked over time. This information can be used to select a segmented image depending on a particular change in emotion, which can be, for example, a sudden emotion, such as laughing at a joke. Another situation may be when an emotion probability crosses a certain threshold and persists for some time - for example, happiness or contentment. Furthermore, there may be two or more emotion probabilities that exceed a threshold, or where one follows another - for example, surprise/disgust followed by laughter.
In manchen Ausführungsformen ist das vordefinierte Auswahlkriterium erfüllt, und dementsprechend findet eine Auswahl eines segmentierten Bildes statt, wenn sich die bereitgestellten Gesichtsemotionsdaten, die einem klassifizierten emotionalen Zustand entsprechen, auf einen positiven emotionalen Zustand beziehen. Auf diese Weise stellen alle Personen auf dem zusammengesetzten Bild einen positiven emotionalen Zustand dar, insbesondere einen zufriedenen Ausdruck, einen Ausdruck der Freude, insbesondere einen lächelnden oder lachenden Ausdruck oder einen Ausdruck der Fröhlichkeit.In some embodiments, the predefined selection criterion is met and accordingly a segmented image is selected if the provided facial emotion data corresponding to a classified emotional state relates to a positive emotional state. In this way, all of the people in the composite image present a positive emotional state, particularly a contented expression, an expression of joy, particularly a smiling or laughing expression, or an expression of happiness.
In manchen Ausführungsformen weist das vordefinierte Auswahlkriterium mehr als ein Teilkriterium auf, die alle erfüllt sein müssen, damit ein segmentiertes Bild ausgewählt wird. Insbesondere kann das Auswahlkriterium auf der Grundlage einer bestimmten Kombination von bestimmten erkannten Emotionen definiert werden, die als Teilkriterien dienen. Es kann auch die Informationen bezüglich der Emotionswahrscheinlichkeit geben, die im Verlauf der Zeit bestimmt werden, so dass für jede Person der Algorithmus, der diese Teilkriterien verfolgt, anders sein könnte. Dies kann auch dazu verwendet werden, um Verzerrungen aufgrund von Persönlichkeitstypen zu eliminieren. Zum Beispiel könnten extrovertierte Personen die meiste Zeit über Fröhlichkeit zeigen. Für sie würden also die Schwellenwerte höher sein, so dass nur dann ein Bild ausgewählt wird, wenn sie sehr überrascht oder fröhlich sind. Diese Bilder können auch separat für eine spätere Verwendung gespeichert werden. Es können zusätzliche Bilder gespeichert werden, zum Beispiel 10 Bilder vor und 10 Bilder nach einem Ereignis, um die Wahrscheinlichkeit zu maximieren, dass ein „lustiges“ oder ansprechendes Bild aufgenommen wurde. Dies sorgt für eine gezieltere Auswahl von segmentierten Bildern, und bei dem neu zusammengesetzten Bild sind die Ausdrücke der einzelnen Personen ähnlicher.In some embodiments, the predefined selection criterion has more than one sub-criterion, all of which must be met in order for a segmented image to be selected. In particular, the selection criterion can be defined based on a specific combination of specific recognized emotions serving as sub-criteria. There may also be the information regarding the emotion probability determined over time, so for each person the algorithm tracking these sub-criteria could be different. This can also be used to eliminate personality type bias. For example, extroverts might display happiness most of the time. So for them, the thresholds would be higher so that an image would only be selected if they were very surprised or happy. These images can also be saved separately for later use. Additional images can be saved, for example 10 images before and 10 images after an event, to maximize the likelihood that a 'funny' or appealing image was captured. This makes for a more targeted selection of segmented images, and the recomposed image will have more similar expressions from each person.
In manchen Ausführungsformen werden die Bilder von Personen, die in einem Auto sitzen, insbesondere von Personen, die auf den Vordersitzen des Autos sitzen, mit einer Weitwinkelkamera aufgenommen, um ein zusammengesetztes Bild zu erstellen. In diesem Fall kann die Kamera an der Instrumententafel montiert sein, die den Personen, die in diesem Fall der Fahrer und ein Beifahrer sind, zugewandt ist. Aufgrund der Weitwinkelbrennweite kann die Kamera beide Personen zur gleichen Zeit erfassen. Während sich der Fahrer und der Beifahrer in dem Auto befinden, werden ihre Gesichtsausdrücke mit der Kamera aufgezeichnet. Diese Gesichtsausdrücke können auf Grund eines Gesprächs zwischen ihnen, auf Grund eines Telefonats oder auch auf Grund eines Radioprogramms entstehen. Die Kamera kann in einem bestimmten Moment den Fahrer mit einer angenehmen Emotion, den Beifahrer aber mit einer ernsten Emotion aufnehmen. Zu einem späteren Zeitpunkt kann die Kamera den Beifahrer mit einer angenehmen Emotion, den Fahrer aber mit einer ernsten Emotion aufnehmen. Dies würde zu zwei Bildern führen, wobei in beiden Bildern der Fahrer und der Beifahrer mit unterschiedlichen Ausdrücken dargestellt werden. Das bereitgestellte Verfahren sorgt dafür, dass ein neu zusammengesetztes Bild zusammengefügt werden kann, in dem sowohl der Fahrer als auch der Beifahrer mit einer ähnlichen Emotion oder einem ähnlichen Ausdruck erscheinen.In some embodiments, images of people seated in a car, particularly people seated in the front seats of the car, are captured with a wide-angle camera to create a composite image. In this case, the camera may be mounted on the instrument panel facing the people, who in this case are the driver and a passenger. Due to the wide-angle focal length, the camera can capture both people at the same time. While the driver and passenger are in the car, their facial expressions are recorded on the camera. These facial expressions can result from a conversation between them, from a telephone call or from a radio program. At a certain moment, the camera can record the driver with a pleasant emotion, but the passenger with a serious emotion. At a later time, the camera can record the passenger with a pleasant emotion but the driver with a serious emotion. This would result in two images, in both images the driver and passenger are shown with different expressions. The method provided ensures that a recomposed image can be assembled in which both the driver and the passenger appear with a similar emotion or expression.
In manchen Ausführungsformen wird ein Hintergrundbild separat aufgenommen, das dann mit den Pixeln kombiniert wird, die die jeweiligen Personen in den entsprechenden ausgewählten Bildern darstellen. Dies ist kann in Situationen nützlich sein, in denen sich der Hintergrund zwischen den aufgenommenen Bildern ändert, zum Beispiel bei den Bildern von zwei Personen, die wie oben beschrieben in einem Auto sitzen und bei denen sich das Auto bewegt. In dieser Situation ändert sich der Hintergrund, der durch die Seitenfenster und die Heckscheibe zu sehen ist, mit der Zeit. Um einen homogenen Hintergrund in dem fertig zusammengesetzten Bild zu haben, kann es von Vorteil sein, wenn der Hintergrund separat aufgenommen wird, zum Beispiel bevor die beiden Insassen in das Auto einsteigen. Später wird dieses Bild dann nur mit den segmentierten Pixeln der Personen aus den beiden Bildern zusammengesetzt. Auf diese Weise kann auch der Übergangsbereich in dem Bild zwischen dem Bild der Personen und dem Bild des separaten Hintergrunds homogen sein, wenn die Bilder zusammengefügt werden.In some embodiments, a background image is captured separately, which is then combined with the pixels representing the respective people in the corresponding selected images. This can be useful in situations where the background changes between the captured images, for example the images of two people sitting in a car as described above and the car is moving. In this situation, the background seen through the side and rear windows will change over time. In order to have a homogeneous background in the finished composite image, it can be advantageous if the background is recorded separately, for example before the two occupants get into the car. Later, this image is then assembled from the two images using only the segmented pixels of the people. In this way, the transition area in the image between the image of the people and the image of the separate background can also be homogeneous when the images are stitched together.
Des Weiteren ist es möglich, die jeweiligen unterschiedlichen Hintergründe von zwei segmentierten Bildern, zum Beispiel Hintergründe, die sich auf die Umgebung des Fahrers bzw. des Beifahrers beziehen, , mit einer unscharfen Maske um die segmentierten Bilder herum zusammenzufügen, so dass keine Überblendungsartefakte entstehen. In diesem Fall wird kein separates Bild eines Hintergrunds benötigt.Furthermore, it is possible to combine the respective different backgrounds of two segmented images, for example backgrounds that relate to the surroundings of the driver or the passenger, with an unsharp mask around the segmented images, so that no overlay artifacts arise. In this case, a separate image of a background is not needed.
Es ist auch möglich, einen einzelnen Hintergrund aus einem der beiden segmentierten Bilder auszuwählen, zum Beispiel einen Hintergrund des Bildes, das den Fahrer zeigt, und/oder einen Hintergrund des Bildes, das einen Beifahrer zeigt, um den Haupthintergrund darzustellen. So kann zum Beispiel das Bild der beiden Bilder identifiziert werden, das mehr Hintergrundinformationen liefert, d. h. die meisten Pixel, die zu dem Hintergrund, aber nicht zum Hauptobjekt des Bildes, zum Beispiel den Personen, gehören. Es wäre ein anderes Kriterium, das Bild zu wählen, das die meisten Informationen in bestimmten vordefinierten Bereichen aufweist, zum Beispiel das Bild, bei dem die Fenster von keinem der beiden Insassen verdeckt werden.It is also possible to select a single background from one of the two segmented images, for example a background of the image showing the driver and/or a background of the image showing a passenger to represent the main background. For example, the image of the two images that provides more background information can be identified, i. H. most of the pixels that belong to the background but not to the main subject of the image, e.g. the people. Another criterion would be to choose the image that has the most information in certain predefined areas, for example the image where the windows are not obscured by either occupant.
Es kann ein weiteres Kriterium für die Auswahl eines Bildes, das für den Hintergrund verwendet wird, sein, das Bild zu wählen, in dem sich ein Insasse in dem Auto zwischen zwei aufgenommenen Bildern am meisten bewegt; Personen aus dem anderen Bild, die sich nicht bewegen, können in dieses Bild mit weniger Verlust an Informationen aufgenommen werden. Das segmentierte Bild des sich bewegenden Insassen wird dann in diesen Haupthintergrund integriert und etwaige fehlende Informationen werden mit Hilfe eines sogenannten „Smart Fill“-Algorithmus, der aus dem Stand der Technik bekannt ist, ausgefüllt, da die beiden Segmentierungskarten aus den beiden Bildern bekannt sind.Another criterion for selecting an image to be used for the background may be to select the image in which an occupant in the car moves the most between two captured images; People from the other image who are not moving can be included in this image with less loss of information. The segmented image of the moving occupant is then integrated into this main background and any missing information is filled in using a so-called "smart fill" algorithm known in the art, since the two segmentation maps are known from the two images .
Des Weiteren kann kontinuierlich ein Hintergrundbild aufgenommen werden, das sich mit den Lichtverhältnissen und während sich die Personen in dem Auto bewegen, ändert. Ein adaptives Verfahren zur Hintergrundsubtraktion kann dazu verwendet werden, um ein Hintergrundmodell zu erstellen und zeitlich zu aktualisieren - zum Beispiel, um fehlende Teile zu ergänzen, wenn sich die Personen bewegen, oder um sie zeitlich so zu überblenden, dass es keine harten Glanzlichter auf Objekten gibt. Der aktuelle Zustand der adaptiven Hintergründe wird jedes Mal gespeichert, wenn der Algorithmus eine angenehme Emotion erkennt, und kann als Ersatz für den Bildhintergrund auf eine der oben genannten Arten verwendet werden. Die Hintergründe können auch in regelmäßigen Abständen gespeichert und dem Benutzer als Option in einer manuellen Zusammenstell-Oberfläche vorgestellt werden.Furthermore, a background image can be recorded continuously, which changes with the lighting conditions and as the people in the car move. An adaptive background subtraction method can be used to create a background model and updated in time - for example, to fill in missing parts when the characters move, or to blend them in time so that there are no hard highlights on objects. The current state of adaptive backgrounds is saved each time the algorithm detects a pleasant emotion and can be used as a background replacement in any of the ways mentioned above. The backgrounds can also be saved periodically and presented to the user as an option in a manual composition interface.
Es können auch Kriterien definiert sein, nach denen ausgewählt wird, welche der oben genannten Prozesse verwendet werden sollen, zum Beispiel die Belichtungszeit, die in der Fotografie auch als Verschlusszeit bezeichnet wird, in der die Bilder aufgenommen werden. Für Bilder, die innerhalb einer kurzen Belichtungszeit aufgenommen werden, können die Verfahren verwendet werden, bei denen die segmentierten Bilder einschließlich des Hintergrunds zusammengefügt werden oder bei denen aus den beiden Bildern dasjenige ausgewählt wird, das mehr Informationen in Bezug auf den Hintergrund hat. Es wäre ein weiteres Verfahren, ein segmentiertes Bild aus einer Serie zu nehmen, in der sich die eine Person zwischen zwei Bildern am meisten bewegt. Dann kann die Person, die sich nicht bewegt, aus einem anderen segmentierten Bild mit weniger Verlust an Informationen in das Bild kopiert werden.Criteria can also be defined to select which of the above processes to use, for example the exposure time, also known as shutter speed in photography, at which the images are captured. For images captured within a short exposure time, the methods of merging the segmented images including the background or selecting the one from the two images that has more information related to the background can be used. Another method would be to take a segmented image from a series in which one person moves the most between two images. Then the person who is not moving can be copied into the image from another segmented image with less loss of information.
Bei Bildern, die mit einer langen Belichtungszeit oder während einer längeren Zeitspanne wie 10 Sekunden oder darüber hinaus aufgenommen werden, ist es bevorzugt, den Hintergrund separat aufzunehmen oder das segmentierte Bild zu verwenden, das in bestimmten vordefinierten Bereichen die meisten Informationen enthält. In der Situation, in der Bilder von Personen in einem Auto aufgenommen werden, beziehen sich die vordefinierten Bereiche auf Bereiche, in denen die Fenster nicht durch eine der Personen in dem Auto verdeckt werden.For images captured with a long exposure time or for a longer period of time such as 10 seconds or more, it is preferable to capture the background separately or to use the segmented image that contains the most information in certain predefined areas. In the situation where images of people in a car are taken, the predefined areas refer to areas where the windows are not obscured by any of the people in the car.
Für Bilder, die signifikante Unterschiede zwischen den jeweiligen Hintergründen aufweisen, kann das oben beschriebene Verfahren verwendet werden, bei dem das Hintergrundbild separat aufgenommen wird. Die Metrik „signifikante Unterschiede“ kann definiert werden als die Summe der Unterschiede zwischen den nicht auf Personen bezogenen Pixeln der beiden Bilder, die überblendet werden (d. h. Hintergrundpixel), die einen bestimmten Schwellenwert überschreitet. Des Weiteren kann das Verfahren verwendet werden, bei der die Hintergrundbilder kontinuierlich aufgezeichnet werden.For images that have significant differences between the respective backgrounds, the method described above, in which the background image is captured separately, can be used. The "significant differences" metric can be defined as the sum of the differences between the non-person related pixels of the two images being blended (i.e. background pixels) exceeding a certain threshold. Furthermore, the method in which the background images are continuously recorded can be used.
Es ist auch möglich, durch Anpassen der Einstellungen der Kamera, wie zum Beispiel der Blende, Bilder aufzunehmen, bei denen nur die Gesichter der aufgenommenen Personen scharf sind und der Hintergrund unscharf ist. Auf die gleiche Weise ist es möglich, ein Bild aufzunehmen, bei dem sowohl die Gesichter der Personen als auch der Hintergrund scharf sind.It is also possible to take pictures in which only the subjects' faces are in focus and the background is blurred by adjusting the camera's settings, such as the aperture. In the same way, it is possible to capture an image where both the subjects' faces and the background are sharp.
In manchen Ausführungsformen basieren der Algorithmus zur Gesichtserkennung und der Algorithmus zur Erkennung von Gesichtsemotionen auf einem Algorithmus für maschinelles Lernen. Auf diese Weise kann ein einziger Algorithmus die Gesichtserkennung und die Gesichtsemotionserkennung wie oben beschrieben übernehmen. Ein solcher Algorithmus für maschinelles Lernen kann ein sogenanntes „end-to-end“ faltendes neuronales Netzwerk (Convolutional Neural Network, CNN) sein. Es stehen noch weitere Technologien zur Verfügung, wie zum Beispiel das sogenannte Lange Kurzzeitgedächtnis (long short-term memory, LSTM), das für zeitabhängige Merkmale verwendet werden kann. Aus Gründen der Effizienz können die oben beschriebenen Analyseschritte zu einem Netzwerk zusammengefasst werden (ein sogenanntes Multi-Task-Netzwerk), wobei mehrere Ausgänge erzeugt werden. Dies wird dadurch bewerkstelligt, dass mehrere parallele Schichten (sog. Heads) an das Ende eines Netzwerks zum Extrahieren eines Hauptmerkmals angehängt werden. Das Multi-Task-Netz kann einen „Gesicht Bounding Box“-Head, einen „Emotionsanalyse“-Head und einen „Segmentierungs“-Head haben.In some embodiments, the face detection algorithm and the facial emotion detection algorithm are based on a machine learning algorithm. In this way, a single algorithm can handle face detection and facial emotion detection as described above. Such a machine learning algorithm can be a so-called end-to-end convolutional neural network (CNN). Other technologies are also available, such as what is known as long short-term memory (LSTM), which can be used for time-dependent features. For reasons of efficiency, the analysis steps described above can be combined into a network (a so-called multi-task network), whereby several outputs are generated. This is accomplished by appending multiple parallel layers (called heads) to the end of a network to extract a key feature. The multi-task web may have a "face bounding box" head, an "emotional analysis" head, and a "segmentation" head.
In manchen Ausführungsformen werden die aufgenommenen Bilder an einer grafischen Schnittstelle angezeigt, die so konfiguriert ist, dass sie von einem Benutzer bedient werden kann, so dass der Benutzer die einzelnen Bilder manuell auswählen kann, die zusammengesetzt werden sollen, um das zusammengesetzte Bild zu ergeben. Die grafische Schnittstelle kann an einem Computerbildschirm angezeigt werden, auf dem der Benutzer die Bilder sehen kann, aus denen er auswählen kann. Die Schnittstelle kann auch eine Funktion in der Weise enthalten, dass die Bilder auf einer Zeitachse dargestellt werden, so dass der Benutzer die Veränderung der Emotion oder des Ausdrucks der Gesichter zu verschiedenen Zeiten sehen kann. Eine weitere Option könnte darin bestehen, dass diese Darstellung der Bilder auf einer Zeitachse für jede Person, die auf dem Bild erscheint, individuell gestaltet ist, während die Bilder der Personen zur gleichen Zeit auf einem virtuell zusammengesetzten gemeinsamen Bild angezeigt werden. Es ist auch denkbar, dass alle Personen, die auf dem endgültigen Bild erscheinen sollen, angesehen werden können, dass aber die Bilder der einzelnen Personen selektiv ausgetauscht werden können. Dies ermöglicht es dem Benutzer, die für ihn passende oder ansprechende Zusammensetzung der Bilder von Personen zu finden. Die zeitliche Veränderung kann kontinuierlich erfolgen (d.h. die gesamte Aufnahme wird verwendet) oder diskret (d.h. es werden nur die interessantesten Bilder verwendet, auf der Grundlage eines Scoring-Algorithmus, der wichtige Bilder auf der Grundlage der Emotionen der Personen auswählt).In some embodiments, the captured images are displayed on a graphical interface that is configured to be operated by a user such that the user can manually select the individual images to be composited to yield the composite image. The graphical interface can be displayed on a computer screen where the user can see the images to choose from. The interface may also include a feature such that the images are presented on a timeline so that the user can see the change in emotion or expression of the faces at different times. Another option could be that this presentation of the images on a timeline is customized for each person appearing in the image, while the images of the people are displayed at the same time on a virtually composite common image. It is also conceivable that all persons who are to appear in the final image can be viewed, but that the images of each person can be selectively exchanged. This enables the user to find the composition of the images of people that suits him or her the. The change over time can be continuous (i.e. the entire recording is used) or discrete (i.e. only the most interesting images are used, based on a scoring algorithm that selects important images based on people's emotions).
In manchen Ausführungsformen sind zwei oder mehr der aufgenommenen Bilder Teil eines Videos, d. h. sie definieren jeweils ein Einzelbild eines solchen Videos. Das Verfahren kann so angewendet werden, dass jedes Bild einer Sequenz wie oben beschrieben ausgewertet wird. Ein vordefiniertes Kriterium wird dann auf die Sequenz als Ganzes angewendet. Zum Beispiel wird ein vordefiniertes Kriterium wie zum Beispiel Lachen als Kriterium auf alle einzelnen Bilder angewandt und wenn bei allen einzelnen Bildern die eine Person lacht, wäre das vordefinierte Kriterium für die gesamte Sequenz erfüllt.In some embodiments, two or more of the captured images are part of a video, i. H. they each define a single image of such a video. The method can be applied in such a way that each image in a sequence is evaluated as described above. A predefined criterion is then applied to the sequence as a whole. For example, a predefined criterion such as laughter is applied as a criterion to all individual images and if all individual images have one person laughing, the predefined criterion would be met for the entire sequence.
Ein zweiter Aspekt der Erfindung ist auf ein Computerprogramm gerichtet, das, wenn es auf einem Computer ausgeführt wird, den Computer dazu veranlasst, das Verfahren gemäß dem ersten Aspekt auszuführen.A second aspect of the invention is directed to a computer program which, when executed on a computer, causes the computer to carry out the method according to the first aspect.
Ein dritter Aspekt der Erfindung ist auf eine Bildverarbeitungsvorrichtung zum Kombinieren von Bildern von mehr als einer Person gerichtet, wobei die Bildverarbeitungsvorrichtung so konfiguriert ist, dass sie das Verfahren gemäß dem ersten Aspekt ausführt. Die Vorrichtung kann einen geeigneten Bildsensor, zum Beispiel einen Bildsensor, der in eine Digitalkamera integriert ist, für das Aufnehmen der Bilder aufweisen. Der Sensor kann mit einem Speicher und einer Verarbeitungseinheit verbunden sein, die in die Kamera integriert ist oder mit einem externen Computer verbunden ist. Die Verarbeitungseinheit kann einen Prozessor zum Verarbeiten von Bildern aufweisen. Die Verarbeitungseinheit ist dazu konfiguriert, den Prozess der Bildanalyse, die Auswahl der segmentierten Bilder, deren Gesichtsemotionsdaten der erkannten Emotionen das vordefinierte Kriterium erfüllen, und das Zusammensetzen eines zusammengesetzten Bildes auf der Grundlage von ausgewählten segmentierten Bildern gemäß dem Verfahren des ersten Aspekts durchzuführen. Die Vorrichtung kann eine grafische Schnittstelle aufweisen, die dazu konfiguriert ist, die aufgenommenen, die ausgewählten und/oder die zusammengesetzten Bilder anzuzeigen.A third aspect of the invention is directed to an image processing device for combining images of more than one person, the image processing device being configured to carry out the method according to the first aspect. The device can have a suitable image sensor, for example an image sensor that is integrated in a digital camera, for recording the images. The sensor can be connected to a memory and processing unit integrated in the camera or connected to an external computer. The processing unit can have a processor for processing images. The processing unit is configured to perform the process of image analysis, selection of the segmented images whose facial emotion data of the detected emotions meet the predefined criterion, and composing a composite image based on selected segmented images according to the method of the first aspect. The device may include a graphical interface configured to display the captured, selected, and/or composite images.
Die Erfindung kann als eine Unterhaltungslösung zum Beispiel im Automobilbereich eingesetzt werden.The invention can be used as an entertainment solution in the automotive field, for example.
Die verschiedenen Ausführungsformen und Vorteile, die oben im Zusammenhang mit dem ersten Aspekt der vorliegenden Erfindung beschrieben wurden, gelten in ähnlicher Weise auch für die anderen Aspekte der Erfindung. Weitere Vorteile, Merkmale und Anwendungen der vorliegenden Erfindung sind in der folgenden detaillierten Beschreibung und den beigefügten Figuren dargestellt, wobei:
-
1 zeigt schematisch ein Blockdiagramm einer beispielhaften Ausführungsform eines Verfahrens zum Kombinieren von Bildern. -
2 zeigt schematisch einen beispielhaften Prozess zum Aufnehmen und Analysieren eines Bildes von zwei Personen. -
3 zeigt schematisch einen beispielhaften Prozess des Zusammensetzens eines Bildes von zwei Personen. -
4 zeigt schematisch eine grafische Schnittstelle.
-
1 FIG. 12 schematically shows a block diagram of an exemplary embodiment of a method for combining images. -
2 FIG. 12 schematically shows an exemplary process for capturing and analyzing an image of two people. -
3 FIG. 12 schematically shows an exemplary process of compositing an image of two people. -
4 shows a graphical interface schematically.
In den Figuren werden gleiche Bezugszeichen für die gleichen oder für einander entsprechende Elemente der hier beschriebenen Erfindung verwendet.In the figures, the same reference numbers are used for the same or for corresponding elements of the invention described here.
DETAILLIERTE BESCHREIBUNG DER AUSFÜHRUNGSFORMENDETAILED DESCRIPTION OF EMBODIMENTS
Die Bilder werden dann von einem Prozessor zum Verarbeiten von Bildern 120 weiterverarbeitet. Der Prozessor zum Verarbeiten von Bildern 120 ist in einer elektronischen Steuereinheit (ECU) 110 enthalten. Die ECU 110 enthält außerdem einen Bildspeicher 160, in dem die verarbeiteten Daten temporär oder dauerhaft gespeichert werden können. In einem ersten Schritt führt der Prozessor zum Verarbeiten von Bildern 120 einen Segmentierungsalgorithmus 130 und einen Algorithmus zum Detektieren von Gesichtern 140 aus. Der Algorithmus zum Detektieren von Gesichtern 140 weist das Erkennen des Bildes des Gesichtsbildes und von Gesichtskomponenten (zum Beispiel Augen und Nase) oder Orientierungsmerkmalen aus dem Gesichtsbereich auf. Er weist ferner das Extrahieren von verschiedenen räumlichen und zeitabhängigen Merkmalen aus den Gesichtskomponenten auf. Der Algorithmus zum Erkennen von Emotionen 150 wird auf die extrahierten Informationen des Algorithmus zum Detektieren von Gesichtern 140 angewendet. Der Algorithmus zum Erkennen von Emotionen 150 ermittelt den Gesichtsausdruck auf der Grundlage der extrahierten Merkmale, indem er sie mit Gesichtskategorien von Datenbanken vergleicht, bei denen es sich um eine öffentlich zugängliche Datenbank für die Gesichtsemotionserkennung handeln kann, wie zum Beispiel Compound emotion (CE), Binghamton University 3D Facial Expression (BU-3DFE) oder The Extended Cohn-Kanade Dataset (CK+). Diese ermittelten klassifizierten Gesichtsemotionsdaten des Algorithmus zum Erkennen von Emotionen 150 werden dann in den Bildspeicher 160 übertragen.The images are then further processed by an
In einem weiteren Schritt wird ein Segmentierungsalgorithmus 130 durch den Prozessor zum Verarbeiten von Bildern 120 ausgeführt und auf die Bilder angewendet, die von der Weitwinkelkamera 190 aufgenommen wurden. Der Segmentierungsalgorithmus 130 teilt das aufgenommene Bild in zwei separate Bilder auf, wobei ein Bild den Fahrer 210 und das andere Bild den Beifahrer 200 darstellt. Diese beiden segmentierten Bilder werden dann in den Bildspeicher 160 übertragen.In a further step, a
Es ist möglich, dass auf einer Zeitachse, dass der Algorithmus zum Detektieren von Gesichtern 140 und der Algorithmus zum Erkennen von Emotionen 150 auf das segmentierte Bild oder auf das ursprünglich aufgenommene Bild angewendet werden und der Segmentierungsalgorithmus 130 auf das aufgenommene Bild angewendet wird, nachdem die Emotionen der Personen des Bildes erkannt worden sind.It is possible that on a timeline that the
Die aufgezeichneten Daten in dem Bildspeicher 160 weisen die segmentierten Bilder und die entsprechenden Informationen bezüglich der erkannten Emotion, d. h. die Gesichtsemotionsdaten, in jedem segmentierten Bild auf. Dieser Prozess des Aufnehmens von Bildern sowohl des Fahrers 210 als auch des Beifahrers 200, des Segmentierens des Bildes, des Anwendens des Algorithmus zum Detektieren von Gesichtern 140, des Anwendens des Algorithmus zum Erkennen von Emotionen 150 auf die extrahierten Daten des Algorithmus zum Detektieren von Gesichtern 140 und des Übertragens der Ergebnisse, d. h. der segmentierten Bilder und der entsprechenden erkannten Emotionen, in den Bildspeicher 160 wird mehrere Male wiederholt. Auf diese Weise enthält der Bildspeicher 160 eine Anzahl von segmentierten Bildern des Fahrers 210 und des Beifahrers 200 und die entsprechenden Informationen über die erkannte Emotion eines jeden segmentierten Bildes. Diese Informationen können dann dazu benutzt werden, um zu entscheiden, welche segmentierten Bilder zusammengefügt werden sollen, um ein zusammengesetztes Bild mit dem Fahrer 210 und dem Beifahrer 200 zu bilden. Auf der Grundlage eines vordefinierten Kriteriums bezüglich der erkannten Emotion können geeignete segmentierte Bilder ausgewählt und zusammengefügt werden. Wenn das Kriterium zum Beispiel lautet, dass sowohl der Fahrer 210 als auch der Beifahrer 200 einen angenehmen Gesichtsausdruck haben sollen, werden die segmentierten Bilder ausgewählt, die dieses Kriterium erfüllen. Dieses Auswerten und das Zusammenfügen der segmentierten Bilder wird durch einen Algorithmus zum Zusammensetzen von Bildern 170 bestimmt, der von dem Prozessor zum Verarbeiten von Bildern 120 ausgeführt wird. Das neu zusammengesetzte Bild wird dann an eine Benutzerschnittstelle 180 übertragen, an der der Benutzer entscheiden kann, ob er das zusammengesetzte Bild behalten möchte. Es ist auch möglich, dass der Benutzer alle segmentierten Bilder oder eine Vorauswahl von segmentierten Bildern betrachten kann und manuell auswählen kann, welche segmentierten Bilder zusammengefügt werden sollen.The recorded data in the
Wenn zwei segmentierte Bilder von ursprünglich aufgenommenen Bildern zu einem neuen Bild zusammengesetzt werden, muss man die Hintergründe dieser segmentierten Bilder berücksichtigen. Insbesondere kann sich der Hintergrund in der beschriebenen Situation, in der zwei Personen aufgenommen werden, die in einem Auto sitzen, im Laufe der Zeit ändern, wenn sich das Auto bewegt. Denn die Heckscheibe 220 und die Seitenfenster 230 in dem Auto zeigen Ansichten von außerhalb des Autos, die sich ändern, wenn sich das Auto bewegt. Um ein zusammengesetztes Bild zu erhalten, das einen homogenen Hintergrund darstellt, muss man sich überlegen, welche Optionen es für das Zusammensetzen in Bezug auf den Hintergrund gibt.If two segmented images from originally recorded images are combined into a new image, one has to consider the backgrounds of these segmented images. In particular, in the described situation where two people are photographed sitting in a car, the background may change over time as the car moves. Because the
Eine Möglichkeit würde darin bestehen, das Hintergrundbild des Innenraums des Autos einschließlich der Ansichten durch die Fenster 220, 230 separat aufzunehmen, zum Beispiel bevor die beiden Insassen in das Auto einsteigen. Dieses Hintergrundbild wird dann mit den Pixeln der Personen kombiniert, die in den entsprechenden ausgewählten Bildern dargestellt sind. Auf diese Weise kann auch der Übergangsbereich auf dem Bild zwischen dem Bild der Personen und dem Bild des separaten Hintergrunds homogen sein, wenn die Bilder zusammengefügt werden. Falls die Bilder der Personen 200, 210 vor einem Hintergrund aufgenommen werden, der sich von dem separaten Hintergrund unterscheidet, kann der Übergangsbereich auf dem Bild zwischen den Personen und dem separaten Hintergrund weniger homogen sein, wenn die Bilder der Personen und der separate Hintergrund zusammengefügt werden.One possibility would be to capture the background image of the interior of the car including the views through the
Eine andere Möglichkeit besteht darin, dass aus zwei Bildern des Fahrers 200 und des Beifahrers 210 beide Hintergründe zusammengefügt werden, wobei eine unscharfe Maske um die Personen 200, 210 herum verwendet wird, so dass es keine Überblendungsartefakte gibt. Es ist auch möglich, ein Bild aus einem der beiden Bilder des Fahrers 200 und des Beifahrers 210 (Insassen) auszuwählen, das den Haupthintergrund darstellt. Hier kann es zum Beispiel von Vorteil sein, dasjenige segmentierte Bild der beiden Bilder zu identifizieren, das mehr Hintergrundinformationen liefert, d.h. die meisten Pixel, die nicht zu einer der beiden Personen 200, 210 gehören. Es wäre ein anderes Kriterium, das Bild zu wählen, das in bestimmten vordefinierten Bereichen die meisten Informationen aufweist, zum Beispiel das Bild, in dem die Fenster von keinem der beiden Insassen verdeckt werden.Another possibility is that from two images of the
Nach dieser halbautomatischen Auswahl von Bildern erfolgt dann das automatische Zusammensetzen des neuen Bildes nach dem beschriebenen Verfahren. Des Weiteren könnte an der Benutzeroberfläche auch die Möglichkeit bestehen, einen Grad der Unschärfe des Hintergrundes auszuwählen. Es könnte auch möglich sein, ein Bild auszuwählen, das für den Hintergrund geeignet ist und das dann mit den Pixeln der Personen von den ausgewählten Bildern zusammengesetzt wird.After this semi-automatic selection of images, the new image is then automatically assembled according to the method described. Furthermore, the user interface could also have the option of selecting a degree of blurring of the background. It might also be possible to select an image suitable for the background and then composite it with the pixels of the people from the selected images.
Während vorausgehend wenigstens eine beispielhafte Ausführungsform der vorliegenden Erfindung beschrieben wurde, ist zu bemerken, dass es dazu eine große Anzahl von Variationen gibt. Es ist dabei auch zu beachten, dass die beschriebenen beispielhaften Ausführungsformen nur nicht einschränkende Beispiele darstellen, wie die vorliegende Erfindung umgesetzt werden kann, und dass es nicht beabsichtigt ist, den Umfang, die Anwendung oder die Konfiguration der hier beschriebenen Vorrichtungen und Verfahren zu beschränken. Vielmehr wird die vorausgehende Beschreibung dem Fachmann eine Anleitung zur Implementierung wenigstens einer beispielhaften Ausführungsform der Erfindung zur Verfügung stellen, wobei es sich zu verstehen hat, dass verschiedene Änderungen in der Funktionsweise und der Anordnung der Elemente der beispielhaften Ausführungsform vorgenommen werden können, ohne dass dabei von dem in den angehängten Ansprüchen jeweils festgelegten Gegenstand sowie seinen rechtlichen Äquivalenten abgewichen wird.While the foregoing has described at least one exemplary embodiment of the present invention, it should be appreciated that a large number of variations exist thereto. It should also be noted that the exemplary embodiments described are merely non-limiting examples of how the present invention may be practiced and that the devices and methods described herein are not intended to limit the scope, application, or configuration. Rather, the foregoing description will provide those skilled in the art with guidance for implementing at least one exemplary embodiment of the invention, it being understood that various changes in the operation and arrangement of elements of the exemplary embodiment may be made without departing from departing from the subject matter defined in the appended claims and their legal equivalents.
BezugszeichenlisteReference List
- 100100
- Blockdiagrammblock diagram
- 110110
- Elektronische Steuereinheit (ECU)Electronic control unit (ECU)
- 120120
- Prozessor zum Verarbeiten von BildernProcessor for processing images
- 130130
- Segmentierungsalgorithmussegmentation algorithm
- 140140
- Algorithmus zum Detektieren von GesichternAlgorithm for detecting faces
- 150150
- Algorithmus zum Erkennen von EmotionenAlgorithm for detecting emotions
- 160160
- Bildspeicherimage storage
- 170170
- Einheit zum Zusammensetzen von BildernImage compositing unit
- 180180
- Benutzerschnittstelleuser interface
- 190190
- Weitwinkelkamerawide angle camera
- 200200
- Beifahrerpassenger
- 205205
- Gesicht des Beifahrerspassenger's face
- 210210
- Fahrerdriver
- 215215
- Gesicht des Fahrersface of the driver
- 220220
- Heckscheiberear window
- 230230
- Seitenfenster sidewindow
- t1t1
- Zeit zum ersten Zeitpunkttime at first time
- t2t2
- Zeit zum zweiten Zeitpunkttime at the second point in time
Claims (14)
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102020132977.6A DE102020132977A1 (en) | 2020-12-10 | 2020-12-10 | METHOD AND APPARATUS FOR COMBINING IMAGES |
PCT/EP2021/084351 WO2022122636A1 (en) | 2020-12-10 | 2021-12-06 | Method and apparatus for combining images |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102020132977.6A DE102020132977A1 (en) | 2020-12-10 | 2020-12-10 | METHOD AND APPARATUS FOR COMBINING IMAGES |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102020132977A1 true DE102020132977A1 (en) | 2022-06-15 |
Family
ID=79021517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102020132977.6A Pending DE102020132977A1 (en) | 2020-12-10 | 2020-12-10 | METHOD AND APPARATUS FOR COMBINING IMAGES |
Country Status (2)
Country | Link |
---|---|
DE (1) | DE102020132977A1 (en) |
WO (1) | WO2022122636A1 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130094780A1 (en) | 2010-06-01 | 2013-04-18 | Hewlett-Packard Development Company, L.P. | Replacement of a Person or Object in an Image |
EP2797053A1 (en) | 2013-04-24 | 2014-10-29 | Morpho, Inc. | Image compositing device and image compositing method |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110612533B (en) * | 2017-05-11 | 2024-02-13 | 柯达阿拉里斯股份有限公司 | Method for recognizing, ordering and presenting images according to expressions |
-
2020
- 2020-12-10 DE DE102020132977.6A patent/DE102020132977A1/en active Pending
-
2021
- 2021-12-06 WO PCT/EP2021/084351 patent/WO2022122636A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130094780A1 (en) | 2010-06-01 | 2013-04-18 | Hewlett-Packard Development Company, L.P. | Replacement of a Person or Object in an Image |
EP2797053A1 (en) | 2013-04-24 | 2014-10-29 | Morpho, Inc. | Image compositing device and image compositing method |
Non-Patent Citations (6)
Title |
---|
FERNANDEZ, P. D. M., et al.: Feratt: Facial expression recognition with attention net. In: arXiv preprint arXiv:1902.03284, 2019, 3. Jg. (URL: https://openaccess.thecvf.com/content_CVPRW_2019/papers/MBCCV/Fernandez_FERAtt_Facial_Expression_Recognition_With_Attention_Net_CVPRW_2019_paper.pdf). |
GUPTA, S., Singh, R. K.: Mathematical morphology based face segmentation and facial feature extraction for facial expression recognition. In: 2015 International Conference on Futuristic Trends on Computational Analysis and Knowledge Management (ABLAZE). IEEE, 2015. S. 691-695, doi: 10.1109/ABLAZE.2015.7154939. |
GUPTA, S.: Facial emotion recognition in real-time and static images. In: 2018 2nd International Conference on Inventive Systems and Control (ICISC), 2018, S. 553-560, doi: 10.1109/ICISC.2018.8398861. |
John, A., MC, A., Ajayan, A. S., Sanoop, S., and Kumar, V. R.: Real-Time Facial Emotion Recognition System With Improved Preprocessing and Feature Extraction. In: 2020 Third International Conference on Smart Systems and Inventive Technology (ICSSIT), 2020, S. 1328-1333, doi: 10.1109/ICSSIT48917.2020.9214207. |
LUO, J., Lei, P.: Highly automated image recomposition: the picture you wish you had taken. In: Proc. SPIE 6508, Visual Communications and Image Processing 2007, 65081E (29 January 2007). doi: 10.1117/12.706926 |
Online-Enzyklopädie "Wikipedia", Artikel zum Begriff „Compositing" vom 13.04.2020, URL: https://de.wikipedia.org/w/index.php?title=Compositing&oldid=198809237, [recherchiert am 24.11.2021] |
Also Published As
Publication number | Publication date |
---|---|
WO2022122636A1 (en) | 2022-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102006032484B4 (en) | On facial features localized and comprehensive real-time video morphing | |
DE102018130821A1 (en) | Method for assessing an environment of a motor vehicle using an artificial neural network with an aggregation unit; Control unit, driver assistance system and computer program product | |
EP2691934B1 (en) | Identikit database | |
DE19847261A1 (en) | Process and system for person recognition with model-based face finding | |
DE19634768A1 (en) | Face identification system using video image analysis | |
DE69738287T2 (en) | A method of displaying a moving object whose track is to be identified, display system using this method and program recording medium therefor | |
WO2017153355A1 (en) | Method and device for carrying out eye gaze mapping | |
WO2017153354A1 (en) | Method and device for evaluating view images | |
WO2021185507A1 (en) | Anonymisation device, monitoring apparatus, method, computer programme, and storage medium | |
DE102016122649B3 (en) | Biometric method | |
DE102019201702A1 (en) | Modular inpainting process | |
DE102017124600A1 (en) | Semantic segmentation of an object in an image | |
WO2020064521A1 (en) | Concept for preparing infrared images | |
EP1416441B1 (en) | Method and apparatus for automatic image segmentation of a foreground-object | |
DE212020000466U1 (en) | System for providing a computer modified visualization of a person's desired face | |
DE102020132977A1 (en) | METHOD AND APPARATUS FOR COMBINING IMAGES | |
DE102018132627A1 (en) | Method for capturing an environment of a motor vehicle by means of temporal fusion of images through an artificial neural network; Control unit, driver assistance system; Computer program product | |
EP3106349B1 (en) | Vision system for a commercial vehicle for the display of the statutory fields of view of a main mirror and a wide-angle mirror | |
DE102018201909A1 (en) | Method and device for object recognition | |
DE102018114229A1 (en) | Method for determining a movement state of an object depending on a movement mask and a generated boundary frame, driver assistance system and motor vehicle | |
DE202020107031U1 (en) | Combined prediction of feature and feature movement | |
DE102020204608A1 (en) | Method for determining a temperature profile of a body part of a living being over time, as well as an electronic determination system | |
EP4099281A1 (en) | Method and apparatus for determining a digital biometric picture for a security document and method for personalizing a security document | |
EP4064221A1 (en) | Method for personalizing an id document and method for identifying a person using biometric facial features and id document | |
DE102022133342A1 (en) | Computer-implemented method for action recognition and application for monitoring vehicle occupants or persons outside the vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R163 | Identified publications notified | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06K0009800000 Ipc: G06V0030200000 |
|
R012 | Request for examination validly filed | ||
R016 | Response to examination communication |