[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

DE102022208762A1 - Text extraction from audio data in a vehicle - Google Patents

Text extraction from audio data in a vehicle Download PDF

Info

Publication number
DE102022208762A1
DE102022208762A1 DE102022208762.3A DE102022208762A DE102022208762A1 DE 102022208762 A1 DE102022208762 A1 DE 102022208762A1 DE 102022208762 A DE102022208762 A DE 102022208762A DE 102022208762 A1 DE102022208762 A1 DE 102022208762A1
Authority
DE
Germany
Prior art keywords
audio data
user
information
artificial intelligence
designed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022208762.3A
Other languages
German (de)
Inventor
Marten Wittorf
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stellantis Auto Sas Fr
Original Assignee
PSA Automobiles SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PSA Automobiles SA filed Critical PSA Automobiles SA
Priority to DE102022208762.3A priority Critical patent/DE102022208762A1/en
Publication of DE102022208762A1 publication Critical patent/DE102022208762A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mechanical Engineering (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

Die Erfindung betrifft ein System (1) zum Ausgeben von Daten in Textform aus Audiodaten in einem Fahrzeug (3), aufweisend eine Empfängereinheit (5) zum Empfangen von Audiodaten und zum akustischen Wiedergeben der Audiodaten, eine temporäre Speichereinheit (7) zum temporären Abspeichern der Audiodaten, eine Eingabeeinheit (9) zum Erfassen von Eingaben eines Anwenders im Fahrzeug (3), wobei die temporäre Speichereinheit (7) dazu ausgeführt ist, einen Datenstrom der Audiodaten für einen bestimmten Zeitraum abzuspeichern und nach Ablauf des bestimmten Zeitraums zu löschen, gekennzeichnet durch ein Modul der künstlichen Intelligenz (11), wobei das Modul der künstlichen Intelligenz (11) dazu ausgeführt ist, beim Empfangen eines vorgegebenes Kommandos an der Eingabeeinheit (9) die in der temporären Speichereinheit (7) abgelegten Audiodaten mithilfe von Funktionen künstlicher Intelligenz zu analysieren und relevante Informationen zu extrahieren und auf das Kommando des Anwenders hin die extrahierten Informationen dem Anwender in Textform zur Verfügung zu stellen oder abzuspeichern.The invention relates to a system (1) for outputting data in text form from audio data in a vehicle (3), comprising a receiver unit (5) for receiving audio data and for acoustically playing back the audio data, and a temporary storage unit (7) for temporarily storing the Audio data, an input unit (9) for recording input from a user in the vehicle (3), the temporary storage unit (7) being designed to store a data stream of the audio data for a specific period of time and to delete it after the specific period of time has elapsed, characterized by an artificial intelligence module (11), wherein the artificial intelligence module (11) is designed to analyze the audio data stored in the temporary storage unit (7) using artificial intelligence functions when a predetermined command is received at the input unit (9). and extract relevant information and, at the user's command, to make the extracted information available to the user in text form or to save it.

Description

Die Erfindung betrifft ein System zum Ausgeben von Daten in Textform aus Audiodaten in einem Fahrzeug, sowie ein Fahrzeug mit einem solchen System.The invention relates to a system for outputting data in text form from audio data in a vehicle, and to a vehicle with such a system.

Ein Fahrer eines Fahrzeugs wie eines Personenkraftwagens kann aus Radio, Telefon, oder anderen Quellen eines Infotainmentsystems des Fahrzeugs interessante Informationen akustisch wahrnehmen, deren Inhalt er jedoch während der Fahrt des Fahrzeugs nicht leicht notieren kann bzw. abspeichern, um die Information später wieder zu gebrauchen. Das handschriftliche Notieren auf Papier beispielsweise lenkt vom Verkehrsgeschehen ab und führt zu Einbußen bei der Sicherheit der Fahrzeugführung.A driver of a vehicle such as a passenger car can acoustically perceive interesting information from the radio, telephone, or other sources of the vehicle's infotainment system, but the content of which he cannot easily note down or save while the vehicle is driving in order to use the information again later. Taking notes by hand on paper, for example, distracts from traffic and leads to a loss in the safety of driving the vehicle.

Audio-Informationen in einem Fahrzeug temporär zu speichern und standardmäßig nach einer gewissen Zeit wieder zu verwerfen, wenn nicht eine Anfrage eines Anwenders wie des Fahrers des Fahrzeugs es vorschreibt, die Audio-Informationen, welche von Interesse sind, in Text zur weiteren Verwendung umzuwandeln, ist im Stand der Technik bekannt.to temporarily store audio information in a vehicle and discard it by default after a certain period of time, unless a request from a user such as the driver of the vehicle requires the audio information of interest to be converted into text for further use, is known in the art.

Die US 2016/0019892 A1 betrifft hierzu ein Gerät zur Automatisierung der Internetsuche unter Verwendung von Audioinformation, die von einem Fahrzeugradio empfangen wird, wobei das Gerät Folgendes umfasst: Ein Radio, das zum Empfangen digitaler Audiodaten mit Sprache ausgeführt ist; einen kreisförmigen Puffer, der mit dem Radio gekoppelt und so konfiguriert ist, dass er kontinuierlich digitale Datenausgaben vom Radio speichert; nachdem der kreisförmige Puffer gefüllt wurde, werden über zuvor gespeicherte digitale Daten geschrieben, wobei der kreisförmige Puffer so dimensioniert ist, dass er digitale Daten speichert, die zwischen etwa fünfzehn Sekunden Audio und bis zu etwa zwei Minuten Audiodaten darstellen; ein Sprach-zu-Text-Konverter, der mit dem Ringpuffer gekoppelt und so konfiguriert ist, dass er digitale Daten im Ringpuffer in eine oder mehrere Textzeichenfolgen umwandelt, die auf einem Anzeigegerät angezeigt werden können; ein berührungsempfindliches Anzeigegerät, das mit dem Sprache-zu-Text-Konverter gekoppelt und so konfiguriert ist, dass eine vom Sprache-zu-Text-Konverter erzeugte Textzeichenfolge angezeigt wird; das berührungsempfindliche Gerät ist außerdem dazu konfiguriert, um eine taktile Auswahl der angezeigten Textzeichenfolge zu ermöglichen, und, dass es eine taktile Eingabe empfängt, die, wenn sie einem Prozessor zur Verfügung gestellt wird, bewirkt, dass der Prozessor die Aufzeichnung digitaler Daten im Ringpuffer stoppt und der Prozessor die digitalen Daten im Ringpuffer in Text umwandelt, der auf diesem berührungsempfindlichen Anzeigegerät angezeigt werden kann; ein Prozessor, der mit dem berührungsempfindlichen Anzeigegerät gekoppelt ist so konfiguriert ist, dass er eine Aktion ausführt, die auf die Auswahl des angezeigten Texts reagiert.The US 2016/0019892 A1 relates to a device for automating Internet searches using audio information received from a vehicle radio, the device comprising: a radio adapted to receive digital audio data with voice; a circular buffer coupled to the radio and configured to continuously store digital data output from the radio; after the circular buffer is filled, previously stored digital data is written to, the circular buffer being sized to store digital data representing between about fifteen seconds of audio and up to about two minutes of audio data; a speech-to-text converter coupled to the ring buffer and configured to convert digital data in the ring buffer into one or more text strings that can be displayed on a display device; a touch-sensitive display device coupled to the speech-to-text converter and configured to display a text string generated by the speech-to-text converter; the touch-sensitive device is also configured to enable tactile selection of the displayed text string and to receive tactile input that, when provided to a processor, causes the processor to stop recording digital data in the ring buffer and the processor converts the digital data in the ring buffer into text that can be displayed on said touch-sensitive display device; a processor coupled to the touch-sensitive display device is configured to perform an action responsive to the selection of the displayed text.

Aufgabe der Erfindung ist es, die Umwandlung von Daten in Textform aus Audiodaten in einem Fahrzeug zu verbessern, insbesondere relevanter und effizienter zu gestalten.The object of the invention is to improve the conversion of data into text form from audio data in a vehicle, in particular to make it more relevant and efficient.

Die Erfindung ergibt sich aus den Merkmalen der unabhängigen Ansprüche. Vorteilhafte Weiterbildungen und Ausgestaltungen sind Gegenstand der abhängigen Ansprüche.The invention results from the features of the independent claims. Advantageous further developments and refinements are the subject of the dependent claims.

Ein erster Aspekt der Erfindung betrifft ein System zum Ausgeben von Daten in Textform aus Audiodaten in einem Fahrzeug, aufweisend eine Empfängereinheit zum Empfangen von Audiodaten und zum akustischen Wiedergeben der Audiodaten, eine temporäre Speichereinheit zum temporären Abspeichern der Audiodaten, eine Eingabeeinheit zum Erfassen von Eingaben eines Anwenders im Fahrzeug, wobei die temporäre Speichereinheit dazu ausgeführt ist, einen Datenstrom der Audiodaten für einen bestimmten Zeitraum abzuspeichern und nach Ablauf des bestimmten Zeitraums zu löschen, gekennzeichnet durch ein Modul der künstlichen Intelligenz, wobei das Modul der künstlichen Intelligenz dazu ausgeführt ist, beim Empfangen eines vorgegebenes Kommandos an der Eingabeeinheit die in der temporären Speichereinheit abgelegten Audiodaten mithilfe von Funktionen künstlicher Intelligenz zu analysieren und relevante Informationen zu extrahieren und auf das Kommando des Anwenders hin die extrahierten Informationen dem Anwender in Textform zur Verfügung zu stellen oder abzuspeichern, und insbesondere nur die extrahierten Informationen dem Anwender in Textform zur Verfügung zu stellen oder abzuspeichern.A first aspect of the invention relates to a system for outputting data in text form from audio data in a vehicle, comprising a receiver unit for receiving audio data and for acoustically playing back the audio data, a temporary storage unit for temporarily storing the audio data, an input unit for recording inputs of a User in the vehicle, wherein the temporary storage unit is designed to store a data stream of audio data for a specific period of time and to delete it after the specific period of time, characterized by an artificial intelligence module, wherein the artificial intelligence module is designed to receive of a predetermined command on the input unit, to analyze the audio data stored in the temporary storage unit using artificial intelligence functions and to extract relevant information and, at the user's command, to make the extracted information available to the user in text form or to save it, and in particular only that to make the extracted information available to the user in text form or to save it.

Die Empfängereinheit ist vorteilhaft im Fahrzeug angeordnet und dazu ausgeführt, Audiodaten wie aus öffentlichen Radiosendern oder Telefongesprächen zu empfangen und diese Audiodaten durch entsprechende Konvertierung von Lautsprechern akustisch wiederzugeben. Die temporäre Speichereinheit speichert bevorzugt in einem Ringspeicher temporär diese Audiodaten mit ihren Datenströmen so ab, dass nach einer gewissen Zeit die ältesten Daten des Ringspeichers mit den jüngsten Daten kontinuierlich überschrieben werden. Auf ein Kommando des Anwenders hin, dass die Audiodaten Informationen von Interesse für ihn beinhalten, gibt er an der Eingabeeinheit ein entsprechendes Kommando vor, welches vom System erkannt wird. Die Audiodaten werden somit aus dem Ringspeicher ausgelesen, bevor sie überschrieben werden. Diese ausgelesenen Audiodaten werden vom Modul der künstlichen Intelligenz auf relevanten Inhalten analysiert.The receiver unit is advantageously arranged in the vehicle and designed to receive audio data such as from public radio stations or telephone conversations and to reproduce this audio data acoustically through appropriate conversion by loudspeakers. The temporary storage unit preferably temporarily stores this audio data with its data streams in a ring memory in such a way that after a certain time the oldest data in the ring memory is continuously overwritten with the most recent data. When the user receives a command that the audio data contains information of interest to him, he gives a corresponding command to the input unit, which is recognized by the system. The audio data is thus read from the ring buffer before it is overwritten. This The audio data read out is analyzed by the artificial intelligence module for relevant content.

Hierzu ist die Eingabeeinheit vorteilhaft als berührungsempfindlicher Bildschirm oder als Sprachsteuerungsbefehle erfassende Einheit ausgeführt. Beliebige Eingabeeinheiten sind möglich, die den Zweck des Erfassens des vorgegebenen Kommandos des Anwenders ermöglichen.For this purpose, the input unit is advantageously designed as a touch-sensitive screen or as a unit that detects voice control commands. Any input units are possible that enable the purpose of recording the user's specified command.

Das Modul der künstlichen Intelligenz weist entsprechend große Rechenleistung auf und ist bevorzugt im Innenraum des Fahrzeugs angeordnet, kann jedoch auch durch eine zentrale Recheneinheit in der Cloud realisiert werden. Das Modul der künstlichen Intelligenz ist damit in der Lage, die Audiodaten mit der darin umfassten Sprache semantisch zu analysieren, d. h. den Inhalt der Sprache zu überprüfen. Der analysierte Inhalt wird auf Relevanz geprüft, insbesondere durch heuristische Methoden aus lokalen oder zentralen Datenbanken, die eine Historie von einem individuellen Anwender oder von einer Vielzahl von Anwendern allgemein abgespeichert halten. Auch wird semantisch die Sprache in den Audiodaten bevorzugt dahingehend überprüft, ob sie Fakten über Kontaktdaten enthält wie Telefonnummern, E-Mail-Adressen, Namen, etc., oder Fakten über Ereignisse wie Besprechungen, Termine, Events, etc., oder andere Fakten, die in irgendeiner Weise Relevanz für den Anwender aufweisen könnten. Vorteilhaft werden durch entsprechende Sprachmodelle so Allgemeinplätze erkannt und als irrelevant herausgefiltert. Vorteilhaft kommen hierbei komplexe und vortrainierte künstliche neuronale Netze zum Einsatz. Weitere statistische Ansätze wie bayessche Ansätze können die Vorgehensweise zum Prüfen auf Relevanz der Sprache in den Audiodaten unterstützen.The artificial intelligence module has correspondingly high computing power and is preferably arranged in the interior of the vehicle, but can also be implemented by a central computing unit in the cloud. The artificial intelligence module is therefore able to semantically analyze the audio data with the language it contains, i.e. H. to check the content of the language. The analyzed content is checked for relevance, in particular using heuristic methods from local or central databases that keep a history of an individual user or of a large number of users generally stored. The language in the audio data is also preferably semantically checked to see whether it contains facts about contact details such as telephone numbers, email addresses, names, etc., or facts about events such as meetings, appointments, events, etc., or other facts, that could be relevant to the user in some way. Appropriate language models are used to advantageously recognize generalities and filter them out as irrelevant. Complex and pre-trained artificial neural networks are advantageously used here. Other statistical approaches such as Bayesian approaches can support the approach to checking for relevance of language in the audio data.

Diese relevanten Informationen werden anschließend vom Modul der künstlichen Intelligenz in einen Ausgabedatenstrom überführt, um die relevanten Informationen abzuspeichern oder unmittelbar dem Anwender auszugeben - beides geschieht insbesondere in Textform, welche den Vorteil aufweist, dass Inhalte leicht kopierbar sind und dem Anwender beispielsweise via SMS oder E-Mail an ein Endgerät übermittelt werden können, sowie dass die Informationen in Textform leicht durchsuchbar sind und damit spezifische Informationen von Interesse für den Anwender wieder leicht auffindbar sind.This relevant information is then transferred by the artificial intelligence module into an output data stream in order to store the relevant information or output it directly to the user - both are done in particular in text form, which has the advantage that content can be easily copied and sent to the user, for example via SMS or E -Mail can be transmitted to a device, and that the information in text form can be easily searched and specific information of interest to the user can be easily found again.

Im Unterschied zum oben beschriebenen Stand der Technik der US 2016/0019892 A1 wird erfindungsgemäß mithilfe eines Moduls der künstlichen Intelligenz bereits in den Audiodaten nach relevanten Informationen gesucht und abhängig von der Bedeutung der Audiodaten eine entsprechende Extraktion der Audiodaten vorgenommen, welche wiederum durch entsprechende Bearbeitung (Zusammenfassung, Verifikation, etc.) in ihrer Qualität und Effektivität verbessert werden können. Die Funktion des Moduls der künstlichen Intelligenz stellt vorteilhaft sicher, dass entsprechend relevante Informationen extrahiert werden. Dies verringert die benötigte Datenmenge, um die relevanten Informationen für den späteren Gebrauch abzuspeichern. Das Modul der künstlichen Intelligenz ist außerdem vorteilhaft dazu in der Lage, die erfassten Informationen zu verbessern, insbesondere zu verifizieren, indem beispielsweise über eine Internetrecherche die Informationen aus den Audiodaten durch entsprechende Suchmaschinenanfragen verifiziert werden können.In contrast to the prior art described above US 2016/0019892 A1 According to the invention, an artificial intelligence module is used to search for relevant information in the audio data and, depending on the meaning of the audio data, a corresponding extraction of the audio data is carried out, which in turn is improved in quality and effectiveness through appropriate processing (summary, verification, etc.). can. The function of the artificial intelligence module advantageously ensures that relevant information is extracted. This reduces the amount of data required to store relevant information for later use. The artificial intelligence module is also advantageously able to improve the information recorded, in particular to verify it, for example by verifying the information from the audio data using corresponding search engine queries via an Internet search.

Gemäß einer vorteilhaften Ausführungsform ist das Modul der künstlichen Intelligenz dazu ausgeführt, nach dem Kommando des Anwenders die als relevant extrahierten Informationen durch eine Internet-Anfrage und/oder eine Anfrage einer lokalen Datenbank zu ergänzen und/oder zu verifizieren, und die ergänzten und/oder verifizierten Informationen dem Anwender in Textform zur Verfügung zu stellen.According to an advantageous embodiment, the artificial intelligence module is designed to supplement and/or verify, at the user's command, the information extracted as relevant by an Internet query and/or a query from a local database, and the supplemented and/or to make verified information available to the user in text form.

Stichwörter im semantischen Sinne in den Audiodaten können somit mit erweiterten Informationen aus dem Internet oder lokalen Datenbanken ergänzt werden und im Gesamtbild zusammenhängende Informationen bilden. Die sprachlichen Informationen aus den Audiodaten werden somit um Informationen aus anderen Quellen bereichert und erlauben eine bessere Informierung und Informations-Abspeicherung für die Zukunft für den Anwender, wenn er später auf die relevanten Daten in einem Telefongespräch oder aus einem Radiosignal zurückgreifen möchte.Keywords in the semantic sense in the audio data can therefore be supplemented with extended information from the Internet or local databases and form coherent information in the overall picture. The linguistic information from the audio data is thus enriched with information from other sources and allows better information and information storage for the future for the user if he later wants to access the relevant data in a telephone conversation or from a radio signal.

Gemäß einer weiteren vorteilhaften Ausführungsform ist das Modul der künstlichen Intelligenz dazu ausgeführt, die Informationen in Textform auf einer permanenten Speichereinheit abzuspeichern, sodass die Informationen zu einem beliebigen späteren Zeitpunkt dem Anwender zur Verfügung stehen.According to a further advantageous embodiment, the artificial intelligence module is designed to store the information in text form on a permanent storage unit so that the information is available to the user at any later time.

Gemäß einer weiteren vorteilhaften Ausführungsform ist das Modul der künstlichen Intelligenz dazu ausgeführt, die Informationen in Textform auf einer permanenten Speichereinheit komprimiert, aber in durchsuchbarer Textform abzuspeichern.According to a further advantageous embodiment, the artificial intelligence module is designed to store the information in text form on a permanent storage unit in compressed form, but in searchable text form.

Gemäß einer weiteren vorteilhaften Ausführungsform ist die temporäre Speichereinheit dazu ausgeführt, Audiodaten aus verschiedenen Quellen abzuspeichern, wobei das Modul der künstlichen Intelligenz dazu ausgeführt ist, für die Extraktion relevanter Informationen die Audiodaten aus verschiedenen Quellen semantisch miteinander zu verknüpfen und dadurch die Audiodaten aus der Quelle, auf die sich das Kommando des Anwenders bezieht, mit den Audiodaten der anderen Quellen zu ergänzen und/oder mithilfe der Audiodaten aus den anderen Quellen die Relevanz der Audiodaten aus der angefragten Quelle zu ermitteln.According to a further advantageous embodiment, the temporary storage unit is designed to store audio data from different sources, with the artificial intelligence module being designed to semantically link the audio data from different sources to each other for the extraction of relevant information and thereby supplement the audio data from the source to which the user's command relates with the audio data from the other sources and/or use the audio data from the other sources to determine the relevance of the audio data from the requested source.

Wird per Kommando vom Anwender Bezug genommen auf ein kürzlich stattgefundenes Telefongespräch oder Ansage aus dem öffentlichen Radio kann unter dieser Ausführungsform durch das Modul der künstlichen Intelligenz die Relevanz der Audiodaten darüber bestimmt werden, welche weiteren Audiodaten aus anderen Quellen zur Verfügung stehen. Ist die Relevanz festgelegt, so können die als relevant erachteten Daten durch die aus den anderen Quellen vorteilhaft ergänzt werden.If the user uses a command to refer to a recent telephone conversation or announcement from public radio, in this embodiment the relevance of the audio data can be determined by the artificial intelligence module as to what other audio data is available from other sources. Once the relevance has been determined, the data deemed relevant can be advantageously supplemented by that from other sources.

Gemäß einer weiteren vorteilhaften Ausführungsform ist die temporäre Speichereinheit dazu ausgeführt, Audiodaten aus verschiedenen Quellen abzuspeichern, wobei das Modul der künstlichen Intelligenz dazu ausgeführt ist, die Relevanz von Informationen der einzelnen Quellen zu überprüfen und bei Vorliegen von überlappender Relevanz oberhalb eines vorgegebenen Grenzwerts die Informationen aus den Audiodaten der verschiedenen Quellen zu verknüpfen, unabhängig davon, auf welche Quelle sich das Kommando des Anwenders bezieht.According to a further advantageous embodiment, the temporary storage unit is designed to store audio data from different sources, the artificial intelligence module being designed to check the relevance of information from the individual sources and, if there is overlapping relevance, to remove the information above a predetermined limit value to link the audio data from the various sources, regardless of which source the user's command refers to.

Gemäß dieser Ausführungsform werden die Informationen aus den verschiedenen Quellen in Kombination miteinander auf Relevanz geprüft und Überlappungen mit einem vorgegebenen Grenzwert verglichen. Ist dieser Grenzwert überschritten, wird von einem Zusammenhang der Inhalte in den Audiodaten aus den verschiedenen Quellen ausgegangen und somit die Informationen verknüpft, um die Relevanz der extrahierten Daten weiter steigern zu können.According to this embodiment, the information from the various sources is checked for relevance in combination and overlaps are compared with a predetermined limit value. If this limit is exceeded, the content in the audio data from the various sources is assumed to be connected and the information is thus linked in order to further increase the relevance of the extracted data.

Gemäß einer weiteren vorteilhaften Ausführungsform umfassen die verschiedenen Quellen zumindest eine aus den folgenden: Fahrzeug-Radio, Telefon, Datenstrom eines im Innenraum des Fahrzeugs verbauten Mikrofons zur Erfassung von Spracheingaben wie Kommandos des Anwenders;According to a further advantageous embodiment, the various sources include at least one of the following: vehicle radio, telephone, data stream from a microphone installed in the interior of the vehicle for recording voice inputs such as commands from the user;

Ein weiterer Aspekt der Erfindung betrifft ein Fahrzeug mit einem System wie oben und im Folgenden beschrieben.Another aspect of the invention relates to a vehicle with a system as described above and below.

Vorteile und bevorzugte Weiterbildungen des vorgeschlagenen Fahrzeugs ergeben sich durch eine analoge und sinngemäße Übertragung der im Zusammenhang mit dem vorgeschlagenen System vorstehend gemachten Ausführungen.Advantages and preferred developments of the proposed vehicle result from an analogous and meaningful transmission of the statements made above in connection with the proposed system.

Weitere Vorteile, Merkmale und Einzelheiten ergeben sich aus der nachfolgenden Beschreibung, in der - gegebenenfalls unter Bezug auf die Zeichnung - zumindest ein Ausführungsbeispiel im Einzelnen beschrieben ist. Gleiche, ähnliche und/oder funktionsgleiche Teile sind mit gleichen Bezugszeichen versehen.Further advantages, features and details emerge from the following description, in which at least one exemplary embodiment is described in detail - if necessary with reference to the drawing. Identical, similar and/or functionally identical parts are provided with the same reference numerals.

Es zeigt:

  • 1: Ein Fahrzeug mit einem System zum Ausgeben von Daten in Textform aus Audiodaten des Fahrzeugs gemäß einem Ausführungsbeispiel der Erfindung.
It shows:
  • 1 : A vehicle with a system for outputting data in text form from audio data of the vehicle according to an embodiment of the invention.

Die Darstellungen in der Figur sind schematisch und nicht maßstäblich.The representations in the figure are schematic and not to scale.

1 zeigt ein System 1 zum Ausgeben von Daten in Textform aus Audiodaten in einem Fahrzeug 3, aufweisend eine Empfängereinheit 5 zum Empfangen von Audiodaten und zum akustischen Wiedergeben der Audiodaten. Dies betrifft im vorliegenden Fall öffentliches Radio eines bekannten Radiosenders, dessen Audiodaten von einer Lautsprechereinheit des Fahrzeugs 3 ausgegeben werden. Eine temporäre Speichereinheit 7 im Fahrzeug 3 schneidet in einem Ringpuffer kontinuierlich die Audiodaten des Radios mit und speichert diese Audiodaten temporär ab. In diesem Beispiel hört der Fahrer des Fahrzeugs 3 im aktuell laufenden Radiosender, dass für die Menschen in einem Katastrophengebiet ein Spendenkonto eingerichtet wird, und die zugehörige Kontonummer wird vom Radiomoderator durchgegeben. Dies weckt das Interesse des Fahrers des Fahrzeugs 3, der gerne für die hilfsbedürftigen Menschen spenden würde. Um an die Kontonummer in Textform zu gelangen, spricht er für eine für Sprachbefehle empfängliche Eingabeeinheit 9 des Fahrzeugs 3 ein vorgegebenes Kommando „Daten sichern“ aus. Dieses Kommando gelangt an ein Modul der künstlichen Intelligenz 11, welches aufgrund des vorgegebenen Kommandos an der Eingabeeinheit 9 die in der temporären Speichereinheit 7 abgelegten Audiodaten aufruft und mithilfe von Funktionen künstlicher Intelligenz analysiert und relevante Informationen wie die Kontonummer extrahiert. Gleichzeitig während der Radiodurchsage erhielt der Fahrer des Fahrzeugs 3 jedoch einen Telefonanruf über die Freisprechanlage des Fahrzeugs 3, der ebenfalls in einem eigenen Ringpuffer von der Speichereinheit 7 temporär gespeichert wird, wobei sich während des Telefonanrufs der Teilnehmer außerhalb des Fahrzeugs 3 zur aktuellen Krise geäußert hat und ein alternatives Spendenkonto dem Fahrer mitgeteilt hat. Das Modul der künstlichen Intelligenz 11 verknüpft wegen der inhaltlichen Übereinstimmung beide Nummern der Spendenkonten zu einem relevanten Datensatz von Informationen und bietet nach Verifikation beider Kontennummern über eine vollautomatische Internetrecherche beide Kontennummern dem Fahrer des Fahrzeugs zusammen mit zusätzlichen Informationen wie Bankleitzahlen, 1 shows a system 1 for outputting data in text form from audio data in a vehicle 3, having a receiver unit 5 for receiving audio data and for acoustically playing back the audio data. In the present case, this concerns public radio from a well-known radio station, whose audio data is output by a loudspeaker unit of the vehicle 3. A temporary storage unit 7 in the vehicle 3 continuously records the audio data from the radio in a ring buffer and temporarily stores this audio data. In this example, the driver of vehicle 3 hears on the currently playing radio station that a donation account is being set up for people in a disaster area, and the associated account number is given by the radio presenter. This piques the interest of the driver of vehicle 3, who would like to donate to the people in need. In order to get the account number in text form, he speaks a predetermined command “save data” to an input unit 9 of the vehicle 3 that is receptive to voice commands. This command is sent to an artificial intelligence module 11, which, based on the specified command on the input unit 9, calls up the audio data stored in the temporary storage unit 7 and analyzes it using artificial intelligence functions and extracts relevant information such as the account number. At the same time as the radio announcement, however, the driver of the vehicle 3 received a telephone call via the hands-free system of the vehicle 3, which is also temporarily stored in its own ring buffer by the storage unit 7, with the participant outside the vehicle 3 commenting on the current crisis during the telephone call and provided the driver with an alternative donation account. Because of the correspondence in content, the artificial intelligence module 11 links both numbers of the donation accounts into a relevant data set of information and, after verification of both account numbers via a fully automatic Internet search, offers both account numbers to the driver of the vehicle together with additional information such as bank sort codes,

Empfängerorganisation und diversen Informationen über die Spendenorganisationen via E-Mail dem Fahrer an.Recipient organization and various information about the donation organizations via email to the driver.

Obwohl die Erfindung im Detail durch bevorzugte Ausführungsbeispiele näher illustriert und erläutert wurde, so ist die Erfindung nicht durch die offenbarten Beispiele eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen. Es ist daher klar, dass eine Vielzahl von Variationsmöglichkeiten existiert. Es ist ebenfalls klar, dass beispielhaft genannte Ausführungsformen wirklich nur Beispiele darstellen, die nicht in irgendeiner Weise als Begrenzung etwa des Schutzbereichs, der Anwendungsmöglichkeiten oder der Konfiguration der Erfindung aufzufassen sind. Vielmehr versetzen die vorhergehende Beschreibung und die Figurenbeschreibung den Fachmann in die Lage, die beispielhaften Ausführungsformen konkret umzusetzen, wobei der Fachmann in Kenntnis des offenbarten Erfindungsgedankens vielfältige Änderungen, beispielsweise hinsichtlich der Funktion oder der Anordnung einzelner, in einer beispielhaften Ausführungsform genannter Elemente, vornehmen kann, ohne den Schutzbereich zu verlassen, der durch die Ansprüche und deren rechtliche Entsprechungen, wie etwa weitergehende Erläuterungen in der Beschreibung, definiert wird.Although the invention has been illustrated and explained in detail by preferred embodiments, the invention is not limited by the examples disclosed and other variations may be derived therefrom by those skilled in the art without departing from the scope of the invention. It is therefore clear that a large number of possible variations exist. It is also to be understood that exemplary embodiments are truly examples only and should not be construed in any way as limiting the scope, application, or configuration of the invention. Rather, the preceding description and the description of the figures enable the person skilled in the art to concretely implement the exemplary embodiments, whereby the person skilled in the art can make a variety of changes with knowledge of the disclosed inventive concept, for example with regard to the function or the arrangement of individual elements mentioned in an exemplary embodiment, without departing from the scope of protection defined by the claims and their legal equivalents, such as further explanations in the description.

BezugszeichenlisteReference symbol list

11
Systemsystem
33
Fahrzeugvehicle
55
EmpfängereinheitReceiver unit
77
SpeichereinheitStorage unit
99
EingabeeinheitInput unit
1111
Modul der künstlichen IntelligenzArtificial intelligence module

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents listed by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturCited patent literature

  • US 2016/0019892 A1 [0004, 0012]US 2016/0019892 A1 [0004, 0012]

Claims (8)

System (1) zum Ausgeben von Daten in Textform aus Audiodaten in einem Fahrzeug (3), aufweisend eine Empfängereinheit (5) zum Empfangen von Audiodaten und zum akustischen Wiedergeben der Audiodaten, eine temporäre Speichereinheit (7) zum temporären Abspeichern der Audiodaten, eine Eingabeeinheit (9) zum Erfassen von Eingaben eines Anwenders im Fahrzeug (3), wobei die temporäre Speichereinheit (7) dazu ausgeführt ist, einen Datenstrom der Audiodaten für einen bestimmten Zeitraum abzuspeichern und nach Ablauf des bestimmten Zeitraums zu löschen, gekennzeichnet durch ein Modul der künstlichen Intelligenz (11), wobei das Modul der künstlichen Intelligenz (11) dazu ausgeführt ist, beim Empfangen eines vorgegebenes Kommandos an der Eingabeeinheit (9) die in der temporären Speichereinheit (7) abgelegten Audiodaten mithilfe von Funktionen künstlicher Intelligenz zu analysieren und relevante Informationen zu extrahieren und auf das Kommando des Anwenders hin die extrahierten Informationen dem Anwender in Textform zur Verfügung zu stellen oder abzuspeichern.System (1) for outputting data in text form from audio data in a vehicle (3), comprising a receiver unit (5) for receiving audio data and for acoustically playing back the audio data, a temporary storage unit (7) for temporarily storing the audio data, an input unit (9) for recording input from a user in the vehicle (3), the temporary storage unit (7) being designed to store a data stream of audio data for a specific period of time and to delete it after the specific period of time has elapsed, characterized by a module of the artificial Intelligence (11), wherein the artificial intelligence module (11) is designed to analyze the audio data stored in the temporary storage unit (7) using artificial intelligence functions when a predetermined command is received at the input unit (9) and to provide relevant information extract and, at the user's command, make the extracted information available to the user in text form or save it. System (1) nach Anspruch 1, wobei das Modul der künstlichen Intelligenz (11) dazu ausgeführt ist, nach dem Kommando des Anwenders die als relevant extrahierten Informationen durch eine Internet-Anfrage und/oder eine Anfrage einer lokalen Datenbank zu ergänzen und/oder zu verifizieren, und die ergänzten und/oder verifizierten Informationen dem Anwender in Textform zur Verfügung zu stellen.System (1) after Claim 1 , wherein the artificial intelligence module (11) is designed to supplement and/or verify the information extracted as relevant by an Internet query and/or a query from a local database following the user's command, and the supplemented and/or or verified information to the user in text form. System (1) nach einem der vorhergehenden Ansprüche, wobei das Modul der künstlichen Intelligenz (11) dazu ausgeführt ist, die Informationen in Textform auf einer permanenten Speichereinheit abzuspeichern, sodass die Informationen zu einem beliebigen späteren Zeitpunkt dem Anwender zur Verfügung stehen.System (1) according to one of the preceding claims, wherein the artificial intelligence module (11) is designed to store the information in text form on a permanent storage unit so that the information is available to the user at any later time. System (1) nach Anspruch 3, wobei das Modul der künstlichen Intelligenz (11) dazu ausgeführt ist, die Informationen in Textform auf einer permanenten Speichereinheit komprimiert, aber in durchsuchbarer Textform abzuspeichern.System (1) after Claim 3 , wherein the artificial intelligence module (11) is designed to store the information compressed in text form on a permanent storage unit, but in searchable text form. System (1) nach einem der Ansprüche 1 bis 4, wobei die temporäre Speichereinheit (7) dazu ausgeführt ist, Audiodaten aus verschiedenen Quellen abzuspeichern, wobei das Modul der künstlichen Intelligenz (11) dazu ausgeführt ist, für die Extraktion relevanter Informationen die Audiodaten aus verschiedenen Quellen semantisch miteinander zu verknüpfen und dadurch die Audiodaten aus der Quelle, auf die sich das Kommando des Anwenders bezieht, mit den Audiodaten der anderen Quellen zu ergänzen und/oder mithilfe der Audiodaten aus den anderen Quellen die Relevanz der Audiodaten aus der angefragten Quelle zu ermitteln.System (1) according to one of the Claims 1 until 4 , wherein the temporary storage unit (7) is designed to store audio data from different sources, wherein the artificial intelligence module (11) is designed to semantically link the audio data from different sources to extract relevant information and thereby extract the audio data the source to which the user's command refers with the audio data from the other sources and/or using the audio data from the other sources to determine the relevance of the audio data from the requested source. System (1) nach einem der Ansprüche 1 bis 4, wobei die temporäre Speichereinheit (7) dazu ausgeführt ist, Audiodaten aus verschiedenen Quellen abzuspeichern, wobei das Modul der künstlichen Intelligenz (11) dazu ausgeführt ist, die Relevanz von Informationen der einzelnen Quellen zu überprüfen und bei Vorliegen von überlappender Relevanz oberhalb eines vorgegebenen Grenzwerts die Informationen aus den Audiodaten der verschiedenen Quellen zu verknüpfen, unabhängig davon, auf welche Quelle sich das Kommando des Anwenders bezieht.System (1) according to one of the Claims 1 until 4 , wherein the temporary storage unit (7) is designed to store audio data from different sources, the artificial intelligence module (11) being designed to check the relevance of information from the individual sources and, if there is overlapping relevance, above a predetermined limit to link the information from the audio data from different sources, regardless of which source the user's command refers to. System (1) nach einem der Ansprüche 5 bis 6, wobei die verschiedenen Quellen zumindest eine aus den folgenden umfassen: Fahrzeug-Radio, Telefon, Datenstrom eines im Innenraum des Fahrzeugs (3) verbauten Mikrofons zur Erfassung von Spracheingaben wie Kommandos des Anwenders;System (1) according to one of the Claims 5 until 6 , wherein the various sources include at least one of the following: vehicle radio, telephone, data stream from a microphone installed in the interior of the vehicle (3) for recording voice inputs such as commands from the user; Fahrzeug (3) mit einem System (1) nach einem der vorhergehenden Ansprüche.Vehicle (3) with a system (1) according to one of the preceding claims.
DE102022208762.3A 2022-08-24 2022-08-24 Text extraction from audio data in a vehicle Pending DE102022208762A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102022208762.3A DE102022208762A1 (en) 2022-08-24 2022-08-24 Text extraction from audio data in a vehicle

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022208762.3A DE102022208762A1 (en) 2022-08-24 2022-08-24 Text extraction from audio data in a vehicle

Publications (1)

Publication Number Publication Date
DE102022208762A1 true DE102022208762A1 (en) 2024-02-29

Family

ID=89844256

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022208762.3A Pending DE102022208762A1 (en) 2022-08-24 2022-08-24 Text extraction from audio data in a vehicle

Country Status (1)

Country Link
DE (1) DE102022208762A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110307241A1 (en) 2008-04-15 2011-12-15 Mobile Technologies, Llc Enhanced speech-to-speech translation system and methods
US20160019892A1 (en) 2014-07-16 2016-01-21 Continental Automotive Systems, Inc. Procedure to automate/simplify internet search based on audio content from a vehicle radio
US20170185375A1 (en) 2015-12-23 2017-06-29 Apple Inc. Proactive assistance based on dialog communication between devices

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110307241A1 (en) 2008-04-15 2011-12-15 Mobile Technologies, Llc Enhanced speech-to-speech translation system and methods
US20160019892A1 (en) 2014-07-16 2016-01-21 Continental Automotive Systems, Inc. Procedure to automate/simplify internet search based on audio content from a vehicle radio
US20170185375A1 (en) 2015-12-23 2017-06-29 Apple Inc. Proactive assistance based on dialog communication between devices

Similar Documents

Publication Publication Date Title
DE60222093T2 (en) METHOD, MODULE, DEVICE AND VOICE RECOGNITION SERVER
DE10235548B4 (en) Method and device for the prediction of a text message input
DE102018113034A1 (en) VOICE RECOGNITION SYSTEM AND VOICE RECOGNITION METHOD FOR ANALYZING A COMMAND WHICH HAS MULTIPLE INTENTIONS
DE10054583C2 (en) Method and apparatus for recording, searching and playing back notes
DE112012006652T5 (en) Voice recognition device
DE10163213A1 (en) Method for operating a speech recognition system
DE102017220266B3 (en) Method for checking an onboard speech recognizer of a motor vehicle and control device and motor vehicle
DE3842417A1 (en) DEVICE FOR INFORMATION TO THE DRIVER OF A MOTOR VEHICLE
DE102006006551A1 (en) Method and system for providing voice dialogue applications
EP1282897B1 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
EP2962296A2 (en) Wording-based speech analysis and speech analysis device
DE102022208762A1 (en) Text extraction from audio data in a vehicle
DE19646634A1 (en) Command entry method using speech
EP3115886A1 (en) Method for operating a voice controlled system and voice controlled system
DE102010049869B4 (en) Method for providing a voice interface in a vehicle and device therefor
DE102019203533A1 (en) Method of reproducing audio content and audio reproduction system
DE102018200746A1 (en) Activation of a speech dialogue system in a motor vehicle
DE102009058151B4 (en) Method for operating a speech dialogue system with semantic evaluation and speech dialogue system in addition
DE102010026708A1 (en) Method for operating voice portal utilized as user interface for operating devices in motor car, involves determining hit quantity depending on comparison process, where hit quantity contains set of records stored in database
DE102020106066A1 (en) Device and method for monitoring communication between a user and an information unit
EP1352388A2 (en) Speech recognition method and system for a small device
EP4124211B1 (en) Method and device for generating voice outputs in a vehicle
DE102020212794A1 (en) Method for managing messages arriving wirelessly on a device or messages generated by a unit of the device, and motor vehicle
WO2001039440A1 (en) Sending of e-mails by telephone
DE102017206281A1 (en) Processing a voice input

Legal Events

Date Code Title Description
R084 Declaration of willingness to licence
R163 Identified publications notified
R081 Change of applicant/patentee

Owner name: STELLANTIS AUTO SAS, FR

Free format text: FORMER OWNER: PSA AUTOMOBILES SA, POISSY, FR