DE10339973A1 - Intelligentes akustisches Mikrofon-Frontend mit Spracherkenner-Feedback - Google Patents
Intelligentes akustisches Mikrofon-Frontend mit Spracherkenner-Feedback Download PDFInfo
- Publication number
- DE10339973A1 DE10339973A1 DE10339973A DE10339973A DE10339973A1 DE 10339973 A1 DE10339973 A1 DE 10339973A1 DE 10339973 A DE10339973 A DE 10339973A DE 10339973 A DE10339973 A DE 10339973A DE 10339973 A1 DE10339973 A1 DE 10339973A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- signals
- recognition
- optimization unit
- recognizer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000005457 optimization Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims description 28
- 230000001276 controlling effect Effects 0.000 claims 8
- 230000001105 regulatory effect Effects 0.000 claims 1
- 230000003595 spectral effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 238000010972 statistical evaluation Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Arrangement Of Elements, Cooling, Sealing, Or The Like Of Lighting Devices (AREA)
- Non-Portable Lighting Devices Or Systems Thereof (AREA)
Abstract
In modernen Kraftfahrzeugen werden zunehmend Systeme installiert, welche über Spracheingabe bedient werden können. Hierbei sollen solche Systeme durch unterschiedliche Fahrezeuginsassen aus unterschiedlichen Positionen bedienbar sein. Es wird ein neuartiges Spracherkennungssystem beschrieben, welches diese Aufgaben besonders gut bewältigen kann. Hierbei wird zur Regelung des Spracherkennungssystems eine richtungsselektive Mikrofonanordnung (12) durch eine Optimierungseinheit (10) in ihrer Empfangscharakteristik gesteuert. Die hiermit empfangenen Sprachsignale werden sodann zumindest zeitweise in einem Spracherkenner (11) parallel verarbeitet. Auf Grundlage der von dem Spracherkenner (11) gelieferten Ergebnisse wird sodann über die Optimierungseinheit (10) die Empfangscharakteristik der Mikrofonanordnung (12) so gesteuert, dass die Erkennungsleistung des nachgeordneten Spracherkenners optimiert wird. Hierbei werden in vorteilhafter Weise dem Spracherkenner die aus den unterschiedlichen Raumrichtungen empfangenen Sprachsignale parallel zugeführt (14), so dass dieser diejenigen Sprachsignale auswählt und weiterverarbeitet, welche das Potential für eine bestmögliche Erkennungsleistung haben. Auf Grundlage der Erkennungsergebnisse erhält die Optimierungseinheit (10) durch den Spracherkenner die notwendigen Regelsignale (18), um die Empfangscharakteristik des Mikrofonarrays (12) mittels einer Optimierungseinheit (10) in Bezug auf diejenigen Richtungen hin zu optimieren, aus ...
Description
- Die Erfindung betrifft ein intelligentes akustisches Mikrofon-Frontend und ein Verfahren zum Betrieb eines solchen nach dem Oberbegriff der Patentansprüche 1 und 6.
- In modernen Kraftfahrzeugen werden zunehmend Systeme installiert, welche über Spracheingabe bedient werden können. Hierbei sollen solche Systeme durch unterschiedliche Fahrzeuginsassen aus unterschiedlichen Positionen bedienbar sein. Auch ist es Ziel, im Rahmen moderner Insassenkommunikationsanlagen die einzelnen Plätzen im Fahrzeuginnenraum mit diesen spezifisch zugeordneten Mikrofonen und Lautsprechern auszustatten. Auch hierbei sollte sichergestellt werden, dass der einzelnen Insasse unabhängig von der physikalischen Gestaltung des Insassenkommunikationssystems zu jeder Zeit und in jeder Position komfortabel kommunizieren kann.
- Die japanische Schrift JP 2002-091469 zeigt ein Spracherkennungssystem, welches zur Aufnahme von Sprachsignalen über ein durch eine Einheit zur Strahlformung (Beamforming Unit) schaltbares, richtungsselektives Mikrofonarray verfügt. Die Einheit zur Strahlformung umfasst hierbei einen Richtungserkenner, welcher aus den aufgenommenen Sprachsignalen die auf die Sprechrichtung bezogene Winkelablagen erkennt. Hierzu werden aus unterschiedlichen Winkelablagen hinsichtlich der Empfangscharakteristik des Mikrofonarrays Signale empfangen und einer Schwellwertuntersuchung zugeführt. Im Rahmen dieser Schwellwertuntersuchung liefert der Richtungserkenner als Erkennungsergebnis die wahrscheinlichste Richtung, aus welcher das Sprachsignal herrührt. Dieses Ergebnis wird sodann von der Einheit zur Strahlformung zur Steuerung des Mikrofonarrays herangezogen, so dass das Empfangsdiagramm des Mikrofonarrays möglichst auf die Richtung hin ausgerichtet wird, aus welcher das wahrscheinlich beste Sprachsignal herrührt.
- Aus der Offenlegungsschrift
EP 1 081 682 A2 ist ein Spracherkennungssystem für eine Insassenkommunikationsanlage bekannt, welche eine Vielzahl unterschiedlich positionierter Mikrofonsysteme umfasst. Die Signale der einzelnen Mikrofonsysteme werden parallel erfasst und hinsichtlich der Parameter Signal-Rausch-Verhältnis und des im Signal enthaltenen mittleren Sprachpegels untersucht. Diejenigen Signale, deren Parameter bestimmte Schwellwerte überschreiten, werden einem Spracherkenner zugeführt, welcher sequentiell die einzelnen Signale bearbeitet, wobei mit dem stärksten Signal begonnen wird. Aus den aus den Einzelsignalen resultierenden positiven Erkennungsergebnissen wird der Sprachinhalt der Signale ermittelt. Durch die parallele Untersuchung der an unterschiedlichen Stellen aufgenommenen Mikrofonsignale ist ein Sprecher nicht mehr daran gebunden, die Sprachinformation in eine bestimmte Richtung hin zu sprechen; auch wird es möglich, dass er während des Sprechvorgangs die Sprechrichtung ändert, ohne dass Information verloren geht. - Eine weitere Spracherkennungseinrichtung zur parallelen Verarbeitung mehrerer paralleler Mikrofonkanäle wird in der deutschen Offenlegungsschrift
DE 100 30 105 A1 beschrieben. Hierbei werden die einzelnen Mikrofonkanäle unabhängig voneinander einer Merkmalsextraktion unterzogen und erst im Rahmen einer gemeinsamen Klassifikation zusammengeführt. Auf diese Weise ist in der der Klassifikation zugeführten Information noch die den einzelnen Kanälen individuell zuordenbare Information enthalten. Auch wird es möglich die Vorverarbeitung in den einzelnen Kanälen individuell zu gestalten und die daraus resultierenden Auswirkungen auf die Signale unabhängig zu beobachten. - Aufgabe der Erfindung ist es ein Spracherkennungssystem zu schaffen, welches zum einen eine verbesserte Spracherfassung aufweist und zum anderen eine optimierte Steuerung der Spracherfassung ermöglicht.
- Die Aufgabe wird durch ein Verfahren und eine zur Durchführung des Verfahrens geeignete Vorrichtung mit den Merkmalen der Patentansprüche 1 und 6 gelöst. Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung sind in den Unteransprüchen beschrieben.
- Zur Regelung des Spracherkennungssystems wird eine Mikrofonanordnung (
12 ) durch eine Optimierungseinheit (10 ) in ihrer Empfangscharakteristik modifiziert, wobei mittels der Mikrofonanordnung (12 ) Sprachsignale empfangen werden. Diese Sprachsignale werden sodann in einem Spracherkenner (11 ) zumindest zeitweise parallel verarbeitet. Auf Grundlage der von dem Spracherkenner (11 ) gelieferten Ergebnisse wird sodann über die Optimierungseinheit (10 ) die Empfangscharakteristik der Mikrofonanordnung (12 ) so gesteuert, dass die Erkennungsleistung des der Optimierungseinheit (10 ) nachgeordneten Spracherkenners (11 ) optimiert wird. In erfinderischer Weise werden hierbei dem Spracherkenner die empfangenen Sprachsignale parallel oder zumindest quasi-parallel zugeführt über die Sprachkanäle (14 ), so dass dieser unterschiedliche Sprachsignale zumindest Zeitweise parallel verarbeiten kann. Die Erkennungsergebnisse werden sodann hinsichtlich ihrer Qualität miteinander verglichen, wobei auf Grundlage dieses Vergleichs diejenigen Sprachsignale auswählt und weiterverar beitet werden, welche das Potential für eine bestmögliche Erkennungsleistung haben. Desweiteren erhält auf Grundlage der Erkennungsergebnisse die Optimierungseinheit (10 ) durch den Spracherkenner die notwendigen Regelsignale (18 ), um die Empfangscharakteristik der Mikrofonanordnung (12 ) mittels einer Optimierungseinheit (10 ) in Bezug auf diejenigen Sprachkanäle (14 ) zu optimieren, welche die Sprachsignale führen, welche das Potential für eine bestmögliche Erkennungsleistung haben. - Im Sinne dieser Erfindung ist selbstverständlich eine quasiparallele Signalverarbeitung oder Signalweiterleitung mit einer parallelen Signalverarbeitung oder Signalweiterleitung gleichzusetzen. Bei einer quasi-parallelen Signalverarbeitung oder Signalweiterleitung erfolgt die Verarbeitung oder Weiterleitung zwar teilweise sequentiell (auf Grund der Prozessordimensionierung oder mangelnder Kapazität der Übertragungskanäle (
14 )), die Verarbeitungsergebnisse werden aber so behandelt, als ob der Verarbeitungs- oder Weiterleitungsvorgang tatsächlich parallel bzw. gleichzeitig verlaufen wäre. - In besonders vorteilhafte Weise erlaubt die Erfindung eine intelligente Optimierung der Empfangscharakteristik des Mikrofonarrays (
12 ), da die Regelung auf den Erkennungsergebnissen eines Spracherkenners (11 ) basiert und nicht nur auf Grundlage rein abstrakter, physikalischer Signalparameter (Stärke des Signalpegels oder Verhältnisse der Signale an den Ausgängen der Einzelmikrofone des Mikrofonarrays). - Als Mikrofonanordnung eignet sich in besonderer Weise eine Mikrofonarray, also eine Zusammenschaltung einer Anordnung von mehreren Einzelmikrofonen. Hierbei können die Einzelmikrofone zu einer oder mehreren Gruppen zusammengeführt werden, wodurch sich unterschiedliche Richtungsselektivitäten in der Empfangscharakteristik der einzelnen Mikrofonarrays erzielen läst. Am Ausgang der Mikrofonanordnung (
12 ) können sodann parallel oder quasi-parallel Sprachsignale aus -unterschiedli chen Raumrichtungen abgegriffen und einer Weiterverarbeitung in einem Spracherkenner (11 ) zugeführt werden. - Es ist denkbar die Empfangscharakteristik des Mikrofonarrays (
12 ) auf unterschiedliche Weise zu modifizieren und in Bezug auf unterschiedliche Empfangsrichtungen hin zu optimieren: - – Einerseits ist es hierbei
denkbar die Richtungsselektivität
(Richtwirkung) der Empfangscharakteristik des Mikrofonarrays (
12 ) aktiv zu steuern. - – Andererseits kann die Empfangscharakteristik auch dahingehend optimiert werden, dass mehreren der Einzelmikrofone des Mikrofonarrays Einheiten zur Geräuschreduktion nachgeschaltet werden.
- Diese beiden vorteilhaften Optimierungsverfahren und Ausgestaltungsmöglichkeiten können einzeln oder auch in Kombination realisiert werden. So wird in besonders vorteilhafter Weise das Spracherkennungssystem so ausgestaltet, dass mehreren der Einzelmikrofone des Mikrofonarrays (
12 ) Einheiten zur Geräuschreduktion zugeordnet werden, und die Optimierungseinheit (10 ) ausgehend von den Regelsignalen (18 ) des Spracherkenners (11 ) sowohl die Richtungsselektivität als auch die Geräuschreduktion steuert und modifiziert. - So aber gleichwohl auch denkbar, das die Mikrofonanordnung (
12 ) als Mikrofonarray so auszugestalten, dass dessen Empfangscharakteristik eine oder mehrere spezifische Richtungsselektivitäten aufweist, welche unveränderlich, fest vorgegeben sind, sodass die Optimierungseinheit (10 ) nur mehrere der den Einzelmikrofonen nachgeschalteten Einheiten zur Geräuschreduktion ansteuert und so die Empfangscharakteristik des Mikrofonarrays (12 ) modifiziert. Auf diese Weise lassen sich Schaltungsaufwand und Kosten in Bezug auf das Mikrofonarray (12 ) minimieren. In gleicher Weise ist es selbstverständlich auch denkbar auf die mehreren der Einzelmikrofone nachgeschalteten Einheiten zur Geräuschreduktion zu verzichten. - Eine andere vorteilhafte Ausgestaltung der Mikrofonanordnung (
12 ), welche sich insbesondere dann eignet wenn aus physikalischen oder designtechnischen Gründen nur ein geringer Einbauplatz vorhanden ist, besteht darin, dass nur ein einzelnen Mikrofon benutzt wird. Hierbei wird dessen Ausgangssignal auf mehrere parallele oder quasi-parallele Sprachkanäle aufgetrennt, welchen für diese Sprachkanäle spezifische Signalaufbereitungseinheiten (insbesondere Einheiten zur Geräuschreduktion) zugeordnet sind. Auf die Funktionsparameter dieser Signalaufbereitungseinheiten wird durch die Optimierungseinheit (10 ) sodann im Rahmen der Spracherkennung einfluss genommen, so dass diejenige sprachkanal-spezifische Signalaufbereitung optimiert wird, welche die besten Erkennungsergebnisse im Spracherkenner (11 ) liefert. - Die Erfindung lässt sich somit in besonders vorteilhafter Weise mit den unterschiedlichsten Arten von Mikrofonanordnungen koppeln, hierdurch in ihrer Funktionalität beeinflusst zu werden. Hierdurch lässt sich die Erfindung auch auf die unterschiedlichsten Einsatzorte (Kraftfahrzeug (-> geringes Platzangebot), Konferenzraum (-> großzügiges Platzangebot)) und Einsatzbedingungen (eine Sprecherposition mit unterschiedlichen Sprechern oder aber mehrere gleichzeitige Sprecherpositionen mit starken Umgebungsgeräuschen) anpassen.
- Nachfolgend wird anhand von Ausführungsbeispielen und mit Hilfe von Figuren die Erfindung im Detail erläutert. Dabei zeigen:
-
1 zeigt den Aufbau einer vorteilhaften Ausführung des mehrstufigen, rückgekoppelten Sprachenerkennungssystems. -
2 zeigt die Variabilität der durch die Einheit zur Strahlformung gesteuerten Empfangscharakterisiken des Mikrofonarrays auf. -
3 zeigt beispielhaft eine mögliche statistische Auswertung der Signale des Mikrofonarrays zur Erkennung und Lokalisation mehrerer Sprecher. - Mittels der Figuren werden insbesondere Ausführungsbeispiele beschrieben, bei welchen die Richtungsselektivität (Richtwirkung) der Empfangscharakteristik der Mikrofonanordnung (
12 ) durch die Optimierungseinheit (10 ) beeinflusst wird. Es ist für den Fachmann jedoch naheliegend diese Ausführungsbeispiele auch auf Anwendungsfälle zu übertragen, bei welchem die Empfangscharakteristik der Mikrofonanordnung (12 ) zusätzlich oder nur mittels der Steuerung von Einheiten zur Geräuschreduktion, welche mehreren der Einzelmikrofonen nachgeschalteten sind, modifiziert wird. Entsprechendes gilt für den Fall, bei welchem die Mikrofonanordnung (12 ) nur ein einziges Mikrofon gebildet wird, dessen Ausgangssignal auf mehrere parallele oder quasi-parallele Kanäle mit kanal-spezifischer Signalaufbereitung (insbesondere Geräuschreduktion) aufgespaltet wird. - In besonders vorteilhafter Weise lässt sich das erfindungsgemäße Spracherkennungssystem ausgestalten, indem der Spracherkenner (
11 ) dergestalt ausgebildet wird, dass die Spracherkennung im Rahmen eines mehrstufigen Prozesses erfolgt. Dabei erfolgt durch eine oder mehrere dieser Verarbeitungsstufen zum einen eine Auswahl von Sprachsignalen, welche das Potential für eine bestmögliche Erkennungsleistung haben und einer Weiterverarbeitung zugeführt werden sollen. Zum anderen stellen diese einzelnen Verarbeitungsstufen einzeln oder gemeinsam der Optimierungseinheit (10 ) die notwendigen Regelsignale (18 ) zur Verfügung, um die Empfangscharakteristik des Mikrofonarrays (12 ) zu optimieren. Bei dem dargestellten Fall, dass die Mikrofonanordnung (12 ) aus einem richtungsselektiven Mikrofonarray besteht, wird durch die Optimierungseinheit (10 ) insbesondere die Richtungsselektivität der Empfangscharakteristik der Mikrofonanordnung (12 ) in Bezug auf diejenigen Richtungen hin zu optimieren, aus welchen diejenigen Sprachsignale empfangen werden, welche das Potential für eine bestmögliche Erkennungsleistung haben. - Wie in
1 aufgezeigt, wird in gewinnbringender Weise der Spracherkenner aus zumindest drei aufeinander folgenden Verarbeitungseinheiten gebildet, welche zumindest - – einen
Klassifikator (
15 ), zur Erkennung von Lauteinheiten und/oder Lautuntereinheiten von Lauteinheiten, - – eine
Einheit zur Worterkennung (
16 ), zur Erkennung gesprochener Worte, - – und
ein Einheit zur Erkennung und Interpretation sinnvoller Sätze (
17 ) umfasst. - Hierbei sind die einzelnen Verarbeitungseinheiten (
15 ,16 ,17 ) des Spracherkenners (11 ) so miteinander verbunden, dass mehrere der zuvor parallel verarbeiteten Signale parallel oder quasi-parallel an die nachfolgende Verarbeitungsstufe wertergereicht werden können. So wird nicht nur das als ,bestes' Signal identifizierte Sprachsignal weiterverarbeitet, sondern es ist möglich auch weitere ,gute' Sprachsignale weiter zu berücksichtigen. Eine derartige Ausgestaltung ist insbesondere deshalb besonders vorteilhaft, da es sich in der Praxis manchmal zeigt, dass bestimmte Signale in einer der Verarbeitungsstufen zwar exzellente Ergebnisse liefern, in der darauffolgenden Verarbeitungsstufe aber nicht zu gebrauchen sind; hier liefern dann oft diejenigen Sprachsignale, welche in der vorausgehenden Verarbeitungsstufe mit nicht so gutem Ergebnis abgeschnitten haben im gesamten ein besseres Ergebnis. Wird beispielsweise das gesprochene Wort „ich" durch störende Umfeldgeräusche zu einem scheinbaren „mich", so würde dieser Fehler von der Einheit zur Sprachinterpretation (17 ) meist noch richtig auf „ich" umgedeutet, wenn dieser durch den Worterkenner parallel sowohl die Worte „mich" als auch „ich" zugeführt würden. Würde der Worterkenner (16 ) aber nur das Wort, welches er mit der höchsten Wahrscheinlichkeit erkennt weiter geleitet, so hätte die Einheit zur Sprachinterpretation (17 ) keine Möglichkeit zu Erkennen, dass in diesem Zusammenhang das Wort „ich" richtig ist. - Dem Spracherkenner (
11 ) werden durch die Optimierungseinheit (10 ) mehrere Mikrofonsignale über Zuleitungen (15 ) parallel oder quasi parallel zugeführt. Hierbei kann es sich um Signale unterschiedlichster Art handeln. In einfachster Form entsprechen die parallel geführten Signale den Einzelsignalen der einzelnen die Mikrofonanordnung (10 ) bildenden Einzelmikrofone. Sehr wohl ist es aber auch denkbar, über die einzelnen parallel geführten Signalkanäle bereits durch die Optimierungseinheit (10 ) vorverarbeitete Mikrofonsignale zu führen. So ist es möglich, dass die Signalkanäle Signale aus unterschiedlichen Raumrichtungen (21 ) führen, welche durch adaptives Beamforming und zusammenführen der Signale mehrerer Einzelmikrofone (12 ) generiert wurden. Sehr wohl kann es sich aber auch um die Sprachsignale aus einer einzelnen Raumrichtung (21 (1–k)) handeln, welche mit unterschiedlich gestalteten Empfangscharakteristiken des Mikrofonarrays (beispielsweise: breite/schmale Empfangskeule, unterschiedlichste Empfangsparameter und -empfindlichkeiten oder unterschiedlichen Methoden bzw. Parameter bei der Geräuschreduktion)empfangen wurden. Mittels der Rückkopplung der Steuersignale vom Spracherkenner zum Optimierungseinheit (10 ) kann die Empfangscharakteristik des Mikrofonarrays also auch hinsichtlich der Anzahl und Art von Charakteristiken und auf Grundlage unterschiedlichster optimierter Geräuschreduktions-Parameter gesteuert werden. - Die Optimierungseinheit (
10 ) erhält ihre Steuersignale über eine oder mehrere Steuerleitungen (18 ) vom Spracherkenner (11 ) beziehungsweise von einer seiner Untereinheiten (15 ,16 ,17 ). Der Klassifikator (15 ) kann beispielsweise bewirken, dass der Empfang von denjenigen Raumrichtungen unterdrückt wird, welche nur akustische Signale liefern, welche gar keine Sprachsignale sind. Durch die Steuersignale der Einheit zur Worterkennung (16 ) kann die Empfangscharakteristik weiter optimiert werden, um ein geeignetes Empfangssignal zu generieren, aus welchem Wörter optimal extrahiert werden können. In Bezug auf den oben angeführten Beispielsfall, bei welchem das Wort „ich" durch Störsignale, zumindest bei bestimmten Empfangscharakterisiken als Wort „mich" vom Mikrofonarray empfangen wurde, kann durch gezielte Steuerung durch die Einheit zur Sprachinterpretation die Empfangscharakteristik des Mikrofonarrays ergänzend dergestalt optimiert werden, dass die in diesem Falle verfälschenden Störgeräusche bestmöglich weiter unterdrückt werden. - Dieses besonders vorteilhafte Konzept der mehrstufigen, parallelisierten Steuerung der Empfangscharakteristik der Mikrofonanordnung (
12 ) erlaubt eine bestmögliche Elimination von Störeinflüssen und resultiert in einer optimalen Spracherkennung. - Beispielhaft zeigt
2 die Variabilität der durch die Optimierungseinheit (10 ) gesteuerten Empfangscharakterisiken des Mikrofonarrays aus M Einzelmikrofonen (12 ) auf. Hierbei weist die Optimierungseinheit (10 ) N parallele Ausgänge (15 ) zur Übermittlung der Mikrofonsignale an den Spracherkenner (11 ) auf. Wie zuvor bereits ausgeführt muss die Anzahl N der Ausgänge (15 ) der Optimierungseinheit (10 ) nicht mit der Anzahl M der Einzelmikrofone (12 ) an seinem Eingang übereinstimmen, da die parallelen Ausgangssignale im allgemeinen nicht einfache Kopien der Ausgangssignale der Einzelmikrofone des Mikrofonarrays entsprechen, sondern meist aus teilweise komplexen Fusionen dieser Signale herrühren. Im der unteren Hälfte der2 sind beispielhaft sechs mögliche Empfangscharakteristika des Mikrofonarrays aufgezeigt. So ist es beispielsweise denkbar, Empfangscharakteristiken zu bilden, welche selektiv bezüglich unterschiedlicher Raumrichtungen sind (A, B, C) oder welche unterschiedliche Richtungsselektivität aufweisen (D, E) oder welche mit einer Nullstelle (zum Beispiel in Richtung einer dominanten Störquelle, wie einem geöffneten Fenster versehen sind (F). - Bei dem in
2 aufgezeigten Beispiel finden sich ein Sprecher (22 ) in etwa zwischen den virtuellen Raumsektoren2 und3 , so dass mit den im unteren Teil der2 mit B, D, E und F bezeichneten, durch die Optimierungseinheit(10 ) gebildeten Empfangscharakterisiken die beste Erkennungsleitung zu erwarten ist. Aus dieser2 wird jedoch zugleich auch klar, dass es im Vorfeld einer eigentlichen Spracherkennung schwierig ist sich auf eine dieser vier Empfangscharakteristiken B, D, E und F festzulegen, so dass sicher besser ist, alle aus den vier Empfangscharakteristiken resultierenden Signale parallel im Spracherkenner (11 ) zu verarbeiten und erst im Nachhinein eine Auswahl oder gar Optimierung der Empfangscharakteristik vorzunehmen. - Die Adaption der Empfangscharakteristik (Beamforming) der Mikrofonanordnung (
12 ) kann mittels bekannter Verfahren beispielsweise mittels der Methode nach Griffith-Jim oder dem Frost-Beamforming erfolgen. - Es ist zudem oft üblich einer Einheit zur Adaption der Empfangscharakteristik eines Mikrofons (Mikrofon-Beamformer) ein einkanaliges Geräuschreduktionsverfahren, wie zum Beispiel, das bekannte Verfahren der Spektralen Subtraktion (im Spektralbereich des Mikrofonsignals wird ein Geräusch-Schätzwert subtrahiert), nachzuschalten. Einfache Geräuschreduktionsverfahren benutzen beispielsweise nur die Spektrale Subtraktion. Im vorliegenden Fall kann das einkanalige Verfahren zur Nach verarbeitung der einzelnen Ausgänge der Einheit zur Adaption der Empfangscharakteristik verwendet werden. Die Spektrale Subtraktion bringt ihrerseits Parameter mit, wie unter anderem ein Faktor mit der Geräusch-Schätzwerte vor der Subtraktion gewichtet wird, oder eine untere Schwelle im Spektrum die nach der Subtraktion nicht unerschritten werden darf (der sogenannte Spectral Floor). Der Geräusch-Gewichtungsfaktor und die untere Schwelle des Spektrums sind Parameter. Aus jedem der Ausgänge des Mikrofon-Beamformers können nun wiederum mehrere Ausgänge erzeugt werden, wenn das Ausgangssignal des Beamformers mehrere Parameter-Varianten einer Spektralen Subtraktion durchläuft.
- In besonders vorteilhafter Weise lässt sich das erfindungsgemäße Spracherkennungssystem dahingehend modifizieren, dass es in die Lage versetzt wird, in der Mikrofonanordnung (
12 ) empfangenen Signalen mehrere Sprecher (30 ,31 ) zu erkennen. Werden mehrere Sprecher (30 ,31 ) erkannt, so können sodann die über die Optimierungseinheit (10 ) unterschiedlich wählbaren Empfangscharakteristiken auf die Sprechrichtung der unterschiedlichen Sprecher hin optimiert werden.3 dient der Erläuterung eines besonders vorteilhaften Verfahrens zur Erkennung mehrer Sprecher (30 ,31 ) in dem von der Mikrofonanordnung (12 ) aufgenommenen Signal. Hierbei wird über einen bestimmten Zeitraum eine Statistik darüber geführt, wie oft jeder einzelne der N-Ausgänge der Optimierungseinheit (10 ) durch den Spracherkenner (11 ) als derjenige der N Sprachsignalkanäle (15 ) identifiziert wird, welcher das ,beste' Signal liefert. Aus der Kenntnis der den einzelnen Sprachsignalkanälen (15 ) zuzuordnenden Empfangscharakteristik der Optimierungseinheit (10 ) kann sodann die Anzahl der Sprecher (30 ,31 ) geschätzt werden. Bei dem in3 aufgezeigten Beispiel befindet sich einer der Sprecher (30 ) in Raumsektor3 und einer Sprecher (31 ) in Raumsektor1 . Das System verfügt über N Sprachsignalkanäle (15 ) denen jeweils eine auf einen von N nebeneinanderliegenden Raumsektoren (21 ) spezifizierte Empfangscharakteristiken zugeordnet ist. Wird nun über einen gewissen Zeitraum, während dessen die Sprecher30 und31 reden, eine Statistik über die Qualität der Sprachsignale in den einzelnen Kanälen geführt, so ergibt sich in etwa die in3 aufgezeigte Statistik. In besonders vorteilhafte Weise wurde die hier dargestellte statistische Auswertung anhand eines Histogramms erstellt, wobei andere statistische Auswerteverfahren gleichsam ebenfalls zur Anwendung kommen können. Bei einer statistischen Auswertung auf Basis eines Histogramms werden im Hinblick auf das in3 dargestellte Beispiel entlang der Ordinate des Diagramms unterschiedliche räumlich nebeneinander liegende Empfangscharakteristiken (Raumrichtungen) aufgelistet. Dabei wird abgebildet, wie häufig ein aus deiner dieser bestimmten Raumrichtungen (21 ) empfangenes Signal zu einem brauchbaren Erkennungsergebnis beigetragen hat. Auf diese Weise kann sodann auf unterschiedliche Sprecher (30 ,31 ) geschlossen werden, wenn zwischen zwei im Histogramm in ihrer Häufigkeit deutlich hervortretenden Raumrichtungen wenigstens eine Raumrichtung gegeben ist, welche eine hierzu signifikant geringe Häufigkeit aufweist. Selbstverständlich kann durch den Fachmann dieses Verfahren vergleichbar auf eine Optimierungseinheit mit unterschiedlichsten Richtungsselektivitäten in der Empfangscharakteristik adaptiert werden. - Eine weitere gewinnbringende Verbesserung des erfindungsgemäßen Spracherkennungssystems lässt sich dadurch erzielen, dass für den Fall, dass auf das Vorhandensein mehrere Sprecher geschlossen wird, dem Spracherkennungssystem wenigstens ein weiterer Spracherkenner zugeschaltet wird. Die Zuschaltung erfolgt idealer Weise direkt hinter der Optimierungseinheit (
10 ), so dass gewissermaßen eine Parallelschaltung der Spracherkenner entsteht. Auf diese Weise lässt sich die Verarbeitungsleistung weiter steigern und optimieren, insbesondere indem jedem einzelnen der Spracherkenner spezifisch diejenigen Sprachsignale zugeleitet werden, welche aus denjenigen Raumrichtungen stammen, welche den einzelnen der mehreren Sprecher zugeordnet sind.
Claims (8)
- Verfahren zur Regelung eines Spracherkennungssystems, bei welchem eine Mikrofonanordnung durch ein Optimierungseinheit (
10 ) in ihrer Empfangscharakteristik gesteuert wird, wobei mittels der Mikrofonanordnung Sprachsignale empfangen und verarbeitet werden, und bei dem in Folge der Verarbeitung der Sprachsignale über die Optimierungseinheit (10 ) die Empfangscharakteristik der Mikrofonanordnung (12 ) so gesteuert wird, dass die Erkennungsleistung des der Optimierungseinheit(10 ) nachgeordneten Spracherkenners (11 ) optimiert wird, dadurch gekennzeichnet, dass dem Spracherkenner (11 ) empfangenen Sprachsignale über mehrere parallele oder quasi-parallele Sprachkanäle (15 ) zugeführt werden, dass der Spracherkenner (11 ) diese Sprachkanäle zumindest zeitweise parallel verarbeitet und die Erkennungsergebnisse hinsichtlich ihrer Qualität miteinander vergleicht, und dass auf Grundlage dieses Vergleichs zum einen die Sprachsignale derjenigen Sprachkanäle (14 ) auswählt und weiterverarbeitet werden, welche das Potential für eine bestmögliche Erkennungsleistung haben, und zum anderen die Optimierungseinheit (10 ) durch den Spracherkenner die notwendigen Regelsignale (18 ) erhält, um die Empfangscharakteristik des Mikrofonarrays (12 ) in bezug auf diejenigen Sprachkanäle (14 ) zu optimieren, über welche diejenigen Sprachsignale empfangen werden, welche das Potential für eine bestmögliche Erkennungsleistung haben. - Verfahren zur Regelung eines Spracherkennungssystems nach Anspruch 1, dadurch gekennzeichnet, dass die Spracherkennung im Spracherkenner (
11 ) im Rahmen eines mehrstufigen Prozesses erfolgt, welcher zumindest nacheinander folgend die Verarbeitungsstufen – Klassifikation (15 ), zur Erkennung von Lauteinheiten und/oder Lautuntereinheiten von Lauteinheiten, – Worterkennung (16 ), zur Erkennung gesprochener Worte, – und Interpretation, zur Erkennung und Interpretation sinnvoller Sätze (17 ) umfasst, und dass durch eine oder mehrere dieser Verarbeitungsstufen zum einen eine Auswahl von Sprachsignalen getroffen wird, welche das Potential für eine bestmögliche Erkennungsleistung haben, und welche einer Weiterverarbeitung zugeführt werden sollen, und zum anderen der Optimierungseinheit (10 ) notwendige Regelsignale (18 ) zur Verfügung gestellt werden, um die Empfangscharakteristik des Mikrofonarrays (12 ) in Bezug auf diejenigen Sprachkanäle (14 ) zu optimieren, aus welchen diejenigen Sprachsignale empfangen werden, welche das Potential für eine bestmögliche Erkennungsleistung haben. - Verfahren zur Regelung eines Spracherkennungssystems nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Statistik darüber geführt wird, für welche Empfangscharakteristiken des Mikrofonarrays optimale Erkennungsleistungen erzielt wurden, und das ausgehend von dieser Statistik entschieden wird, ob die von dem Spracherkennungssystem verarbeiteten Sprachsignale von unterschiedlichen Sprechern stammen.
- Verfahren zur Regelung eines Spracherkennungssystems nach Anspruch 3, dadurch gekennzeichnet, dass die Statistik in Art eines Histogramms geführt wird, welches entlang seiner Ordinate unterschiedliche räumlich nebeneinander liegende Raumrichtungen auflistet, und abbildet, wie häufig ein aus einer dieser bestimmten Raumrichtungen empfangenes Signal zu einem brauchbaren Erkennungsergebnis beigetragen hat, wobei dann auf unterschiedliche Sprecher entschieden wird, wenn zwischen zwei im Histogramm in ihrer Häufigkeit deutlich hervortretenden Raumrichtungen wenigstens eine Raumrichtung gegeben ist, welche eine hierzu signifikant geringe Häufigkeit aufweist.
- Verfahren zur Regelung eines Spracherkennungssystem nach einem der Ansprüche 1 oder 4, dadurch gekennzeichnet, dass für den Fall, dass auf das Vorhandensein mehrerer Sprecher (
30 ,31 ) geschlossen wird, dem Spracherkennungssystem wenigstens ein weiterer Spracherkenner zugeschaltet wird, welcher im wesentlichen die selben Funktionalitäten wie der bereits im Spracherkennungssystem enthaltene Spracherkenner aufweist, und welchem von der Optimierungseinheit (10 ) diejenigen Sprachsignale zugeleitet werden, welche aus den Raumrichtungen stammen, welche wenigstens einem der mehreren Sprecher zugeordnet sind. - Vorrichtung zur Regelung eines Spracherkennungssystems, bestehend aus einer Mikrofonanordnung mit einer Optimierungseinheit (
10 ) zur Modifikation der Empfangscharakteristik der Mikrofonanordnung (12 ), welche über wenigstens einen Spracherkenner (11 ) verfügt, welchem die Sprachsignale zugeführt werden und welcher diese verarbeitet, wobei der Spracherkenner (11 ) mit der Optimierungseinheit (10 ) zur Modifikation Empfangscharakteristik der Mikrofonanordnung (12 ) in Verbindung steht, so dass über diese Verbindung die Empfangscharakteristik dergestalt geregelt werden kann, dass die Erkennungsleistung des der Optimierungseinheit(10 ) nachgeordneten Spracherkenners (11 ) optimiert wird, dadurch gekennzeichnet, dass dem Spracherkenner (11 ) die Sprachsignale über mehrere parallele Signalleitungen (14 ) zugeführt werden, dass dem Spracherkenner (11 ) mit der Optimierungseinheit (10 ) dergestalt in Verbindung steht, dass ihm die aus Sprachsignale über Sprachkanäle (14 ) parallel oder quasi-parallel zugeführt werden, dass der Spracherkenner (11 ) so ausgestaltet ist, dass er diese unterschiedlichen Sprachsignale parallel oder quasi-parallel verarbeiten und die Erkennungsergebnisse hinsichtlich ihrer Qualität miteinander vergleichen kann, und dass auf Grundlage dieses Vergleichs zum einen die Sprachsignale derjenigen Sprachkanäle auswählt und weiterverarbeitet werden, welche das Potential für eine bestmögliche Erkennungsleistung haben, und zum anderen die Optimierungseinheit (10 ) durch den Spracherkenner die notwendigen Regelsignale (18 ) erhält, um die Empfangscharakteristik des Mikrofonarrays in Bezug auf diejenigen Sprachkanäle (14 ) hin zu optimieren, welche die Sprachsignale leiten, welche das Potential für eine bestmögliche Erkennungsleistung haben. - Vorrichtung zur Regelung eines Spracherkennungssystems nach Anspruch 6, dadurch gekennzeichnet, dass der Spracherkenner mehrstufig ausgestaltet ist, und zumindest enthält: – einen Klassifikator (
15 ), zur Erkennung von Lauteinheiten und/oder Lautuntereinheiten von Lauteinheiten, – eine Einheit zur Erkennung gesprochener Worte in den empfangen Sprachsignalen (16 ), zur Erkennung gesprochener Worte, – und eine Einheit zur Interpretation des empfangenen Sprachsignals (17 ), zur Erkennung und Interpretation sinnvoller Sätze umfasst, und dass durch eine oder mehrere dieser Verarbeitungsstufen zum einen eine Auswahl von Sprachsignalen getroffen wird, welche das Potential für eine bestmögliche Erkennungsleistung haben, und welche einer Weiterverarbeitung zugeführt werden sollen, und zum anderen der Optimierungseinheit (10 ) notwendige Regelsignale (18 ) zur Verfügung gestellt werden, um die Empfangscharakteristik des Mikrofonarrays (12 ) in Bezug auf diejenigen Sprachkanäle (14 ) hin zu optimieren, welche diejenigen Sprachsignale führen, welche das Potential für eine bestmögliche Erkennungsleistung haben. - Vorrichtung zur Regelung eines Spracherkennungssystem nach einem der Ansprüche 6 bis 7, dadurch gekennzeichnet, dass die Vorrichtung so ausgestaltet ist, dass für den Fall dass die empfangenen Sprachsignale mehreren Sprechern zuzuordnen sind wenigstens ein weiterer Spracherkenner zugeordnet werden kann, welcher im wesentlichen die selben Funktionalitäten wie der bereits im Spracherkennungssystem enthaltene Spracherkenner (
11 ) aufweist, und welcher mit der Optimierungseinheit (10 ) dergestalt in Verbindung steht, dass ihm diejenigen Sprachsignale zugeleitet werden, welche aus den Raumrichtungen stammen, welche wenigstens einem der mehreren Sprecher zugeordnet sind.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10339973A DE10339973A1 (de) | 2003-08-29 | 2003-08-29 | Intelligentes akustisches Mikrofon-Frontend mit Spracherkenner-Feedback |
EP04013378A EP1511010B1 (de) | 2003-08-29 | 2004-06-07 | Steuerung einer Mikrofon-Anordnung durch Rückkopplungsignal aus einem Spracherkennungssystem und Spracherkennung unter Verwendung dieser Anordnung |
DE502004004927T DE502004004927D1 (de) | 2003-08-29 | 2004-06-07 | Steuerung einer Mikrofon-Anordnung durch Rückkopplungsignal aus einem Spracherkennungssystem und Spracherkennung unter Verwendung dieser Anordnung |
US10/927,818 US7505901B2 (en) | 2003-08-29 | 2004-08-27 | Intelligent acoustic microphone fronted with speech recognizing feedback |
JP2004247804A JP2005079098A (ja) | 2003-08-29 | 2004-08-27 | 車両用ヘッドライト |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10339973A DE10339973A1 (de) | 2003-08-29 | 2003-08-29 | Intelligentes akustisches Mikrofon-Frontend mit Spracherkenner-Feedback |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10339973A1 true DE10339973A1 (de) | 2005-03-17 |
Family
ID=34089266
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10339973A Withdrawn DE10339973A1 (de) | 2003-08-29 | 2003-08-29 | Intelligentes akustisches Mikrofon-Frontend mit Spracherkenner-Feedback |
DE502004004927T Expired - Fee Related DE502004004927D1 (de) | 2003-08-29 | 2004-06-07 | Steuerung einer Mikrofon-Anordnung durch Rückkopplungsignal aus einem Spracherkennungssystem und Spracherkennung unter Verwendung dieser Anordnung |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE502004004927T Expired - Fee Related DE502004004927D1 (de) | 2003-08-29 | 2004-06-07 | Steuerung einer Mikrofon-Anordnung durch Rückkopplungsignal aus einem Spracherkennungssystem und Spracherkennung unter Verwendung dieser Anordnung |
Country Status (4)
Country | Link |
---|---|
US (1) | US7505901B2 (de) |
EP (1) | EP1511010B1 (de) |
JP (1) | JP2005079098A (de) |
DE (2) | DE10339973A1 (de) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006037587A3 (de) * | 2004-10-04 | 2006-05-18 | Volkswagen Ag | Vorrichtung und verfahren zur akustischen kommunikation und/oder wahrnehmung in einem kraftfahrzeug |
DE102009039889A1 (de) | 2009-09-03 | 2011-03-31 | Volkswagen Ag | Spracherfassungsvorrichtung für ein Kraftfahrzeug |
DE102016013042A1 (de) * | 2016-11-02 | 2018-05-03 | Audi Ag | Mikrofonsystem für ein Kraftfahrzeug mit dynamischer Richtcharakteristik |
DE102017219234A1 (de) | 2017-10-26 | 2019-05-02 | Audi Ag | Verfahren zum Erfassen einer Spracheingabe eines Benutzers in einem Außenbereich eines Kraftfahrzeugs sowie Kraftfahrzeug |
Families Citing this family (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4145835B2 (ja) * | 2004-06-14 | 2008-09-03 | 本田技研工業株式会社 | 車載用電子制御装置 |
US7778950B2 (en) * | 2004-08-14 | 2010-08-17 | Hrl Laboratories, Llc | Cognitive signal separation and classification system |
EP1695873B1 (de) * | 2005-02-23 | 2008-07-09 | Harman Becker Automotive Systems GmbH | Spracherkennungssytem in einem Kraftfahrzeug |
WO2007034392A2 (en) * | 2005-09-21 | 2007-03-29 | Koninklijke Philips Electronics N.V. | Ultrasound imaging system with voice activated controls using remotely positioned microphone |
US8345890B2 (en) | 2006-01-05 | 2013-01-01 | Audience, Inc. | System and method for utilizing inter-microphone level differences for speech enhancement |
US8744844B2 (en) | 2007-07-06 | 2014-06-03 | Audience, Inc. | System and method for adaptive intelligent noise suppression |
US8204252B1 (en) | 2006-10-10 | 2012-06-19 | Audience, Inc. | System and method for providing close microphone adaptive array processing |
US9185487B2 (en) | 2006-01-30 | 2015-11-10 | Audience, Inc. | System and method for providing noise suppression utilizing null processing noise subtraction |
US8194880B2 (en) | 2006-01-30 | 2012-06-05 | Audience, Inc. | System and method for utilizing omni-directional microphones for speech enhancement |
US8150065B2 (en) | 2006-05-25 | 2012-04-03 | Audience, Inc. | System and method for processing an audio signal |
US8849231B1 (en) | 2007-08-08 | 2014-09-30 | Audience, Inc. | System and method for adaptive power control |
US8204253B1 (en) | 2008-06-30 | 2012-06-19 | Audience, Inc. | Self calibration of audio device |
US8934641B2 (en) * | 2006-05-25 | 2015-01-13 | Audience, Inc. | Systems and methods for reconstructing decomposed audio signals |
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
US8259926B1 (en) | 2007-02-23 | 2012-09-04 | Audience, Inc. | System and method for 2-channel and 3-channel acoustic echo cancellation |
KR100905586B1 (ko) * | 2007-05-28 | 2009-07-02 | 삼성전자주식회사 | 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가시스템 및 방법 |
US8189766B1 (en) | 2007-07-26 | 2012-05-29 | Audience, Inc. | System and method for blind subband acoustic echo cancellation postfiltering |
KR101434200B1 (ko) * | 2007-10-01 | 2014-08-26 | 삼성전자주식회사 | 혼합 사운드로부터의 음원 판별 방법 및 장치 |
US8143620B1 (en) | 2007-12-21 | 2012-03-27 | Audience, Inc. | System and method for adaptive classification of audio sources |
US8180064B1 (en) | 2007-12-21 | 2012-05-15 | Audience, Inc. | System and method for providing voice equalization |
US8194882B2 (en) | 2008-02-29 | 2012-06-05 | Audience, Inc. | System and method for providing single microphone noise suppression fallback |
US8355511B2 (en) | 2008-03-18 | 2013-01-15 | Audience, Inc. | System and method for envelope-based acoustic echo cancellation |
US8521530B1 (en) | 2008-06-30 | 2013-08-27 | Audience, Inc. | System and method for enhancing a monaural audio signal |
US8774423B1 (en) | 2008-06-30 | 2014-07-08 | Audience, Inc. | System and method for controlling adaptivity of signal modification using a phantom coefficient |
US8315366B2 (en) | 2008-07-22 | 2012-11-20 | Shoretel, Inc. | Speaker identification and representation for a phone |
JP5247384B2 (ja) * | 2008-11-28 | 2013-07-24 | キヤノン株式会社 | 撮像装置、情報処理方法、プログラムおよび記憶媒体 |
US9008329B1 (en) | 2010-01-26 | 2015-04-14 | Audience, Inc. | Noise reduction using multi-feature cluster tracker |
US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
US9203489B2 (en) | 2010-05-05 | 2015-12-01 | Google Technology Holdings LLC | Method and precoder information feedback in multi-antenna wireless communication systems |
US20120045068A1 (en) * | 2010-08-20 | 2012-02-23 | Korea Institute Of Science And Technology | Self-fault detection system and method for microphone array and audio-based device |
US9265477B2 (en) | 2011-02-17 | 2016-02-23 | Sharp Laboratories Of America, Inc. | Adaptive lightweight acoustic signal classification for physiological monitoring |
US8650029B2 (en) * | 2011-02-25 | 2014-02-11 | Microsoft Corporation | Leveraging speech recognizer feedback for voice activity detection |
KR101946364B1 (ko) * | 2012-05-01 | 2019-02-11 | 엘지전자 주식회사 | 적어도 하나의 마이크 센서를 갖는 모바일 디바이스 및 그 제어방법 |
EP2842123B1 (de) | 2012-05-16 | 2019-10-16 | Nuance Communications, Inc. | Kommunikationssystem für die kombinierte spracherkennung, freihand-kommunikation und fahrzeug-innenkommunikation |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
US9813262B2 (en) | 2012-12-03 | 2017-11-07 | Google Technology Holdings LLC | Method and apparatus for selectively transmitting data using spatial diversity |
US9591508B2 (en) | 2012-12-20 | 2017-03-07 | Google Technology Holdings LLC | Methods and apparatus for transmitting data between different peer-to-peer communication groups |
US9979531B2 (en) | 2013-01-03 | 2018-05-22 | Google Technology Holdings LLC | Method and apparatus for tuning a communication device for multi band operation |
US9542947B2 (en) * | 2013-03-12 | 2017-01-10 | Google Technology Holdings LLC | Method and apparatus including parallell processes for voice recognition |
US10229697B2 (en) * | 2013-03-12 | 2019-03-12 | Google Technology Holdings LLC | Apparatus and method for beamforming to obtain voice and noise signals |
US11393461B2 (en) | 2013-03-12 | 2022-07-19 | Cerence Operating Company | Methods and apparatus for detecting a voice command |
US9715878B2 (en) * | 2013-07-12 | 2017-07-25 | GM Global Technology Operations LLC | Systems and methods for result arbitration in spoken dialog systems |
DE102014109122A1 (de) * | 2013-07-12 | 2015-01-15 | Gm Global Technology Operations, Llc | Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
US9386542B2 (en) | 2013-09-19 | 2016-07-05 | Google Technology Holdings, LLC | Method and apparatus for estimating transmit power of a wireless device |
US9286897B2 (en) * | 2013-09-27 | 2016-03-15 | Amazon Technologies, Inc. | Speech recognizer with multi-directional decoding |
US10199035B2 (en) | 2013-11-22 | 2019-02-05 | Nuance Communications, Inc. | Multi-channel speech recognition |
GB2523984B (en) * | 2013-12-18 | 2017-07-26 | Cirrus Logic Int Semiconductor Ltd | Processing received speech data |
US9549290B2 (en) | 2013-12-19 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for determining direction information for a wireless device |
US9491007B2 (en) | 2014-04-28 | 2016-11-08 | Google Technology Holdings LLC | Apparatus and method for antenna matching |
US9478847B2 (en) | 2014-06-02 | 2016-10-25 | Google Technology Holdings LLC | Antenna system and method of assembly for a wearable electronic device |
US10510343B2 (en) * | 2014-06-11 | 2019-12-17 | Ademco Inc. | Speech recognition methods, devices, and systems |
US9799330B2 (en) | 2014-08-28 | 2017-10-24 | Knowles Electronics, Llc | Multi-sourced noise suppression |
US10269343B2 (en) | 2014-08-28 | 2019-04-23 | Analog Devices, Inc. | Audio processing using an intelligent microphone |
US9734845B1 (en) * | 2015-06-26 | 2017-08-15 | Amazon Technologies, Inc. | Mitigating effects of electronic audio sources in expression detection |
US9621984B1 (en) * | 2015-10-14 | 2017-04-11 | Amazon Technologies, Inc. | Methods to process direction data of an audio input device using azimuth values |
KR102476600B1 (ko) | 2015-10-21 | 2022-12-12 | 삼성전자주식회사 | 전자 장치, 그의 음성 인식 방법 및 비일시적 컴퓨터 판독가능 기록매체 |
US11437020B2 (en) | 2016-02-10 | 2022-09-06 | Cerence Operating Company | Techniques for spatially selective wake-up word recognition and related systems and methods |
WO2017217978A1 (en) | 2016-06-15 | 2017-12-21 | Nuance Communications, Inc. | Techniques for wake-up word recognition and related systems and methods |
EP3535751A4 (de) | 2016-11-10 | 2020-05-20 | Nuance Communications, Inc. | Verfahren für sprachenunabhängige aufweckworterkennung |
US20180190282A1 (en) * | 2016-12-30 | 2018-07-05 | Qualcomm Incorporated | In-vehicle voice command control |
US10535360B1 (en) * | 2017-05-25 | 2020-01-14 | Tp Lab, Inc. | Phone stand using a plurality of directional speakers |
EP4005241B1 (de) | 2019-07-31 | 2024-08-21 | Starkey Laboratories, Inc. | Am ohr getragene elektronische vorrichtung mit mikrofonstörungsminderungssystem und verfahren |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19812697A1 (de) * | 1998-03-23 | 1999-09-30 | Volkswagen Ag | Verfahren und Einrichtung zum Betrieb einer Mikrofonanordnung, insbesondere in einem Kraftfahrzeug |
DE19910234A1 (de) * | 1999-03-09 | 2000-09-21 | Philips Corp Intellectual Pty | Verfahren mit mehreren Spracherkennern |
DE19943872A1 (de) * | 1999-09-14 | 2001-03-15 | Thomson Brandt Gmbh | Vorrichtung zur Anpassung der Richtcharakteristik von Mikrofonen für die Sprachsteuerung |
DE19934724A1 (de) * | 1999-03-19 | 2001-04-19 | Siemens Ag | Verfahren und Einrichtung zum Aufnehmen und Bearbeiten von Audiosignalen in einer störschallerfüllten Umgebung |
US6230138B1 (en) * | 2000-06-28 | 2001-05-08 | Visteon Global Technologies, Inc. | Method and apparatus for controlling multiple speech engines in an in-vehicle speech recognition system |
DE19958836A1 (de) * | 1999-11-29 | 2001-05-31 | Deutsche Telekom Ag | Verfahren und Anordnung zur Verbesserung der Kommunikation in einem Fahrzeug |
DE10133126A1 (de) * | 2001-07-07 | 2003-01-16 | Philips Corp Intellectual Pty | Richtungssensitives Audioaufnahmesystem mit Anzeige von Aufnahmegebiet und/oder Störquelle |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5684924A (en) * | 1995-05-19 | 1997-11-04 | Kurzweil Applied Intelligence, Inc. | User adaptable speech recognition system |
US6122613A (en) * | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
EP1161852A2 (de) | 1999-03-19 | 2001-12-12 | Siemens Aktiengesellschaft | Verfahren und einrichtung zum aufnehmen und bearbeiten von audiosignalen in einer störschallerfüllten umgebung |
JP2001075594A (ja) * | 1999-08-31 | 2001-03-23 | Pioneer Electronic Corp | 音声認識システム |
DE10030105A1 (de) | 2000-06-19 | 2002-01-03 | Bosch Gmbh Robert | Spracherkennungseinrichtung |
JP2002091469A (ja) | 2000-09-19 | 2002-03-27 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声認識装置 |
-
2003
- 2003-08-29 DE DE10339973A patent/DE10339973A1/de not_active Withdrawn
-
2004
- 2004-06-07 EP EP04013378A patent/EP1511010B1/de not_active Expired - Lifetime
- 2004-06-07 DE DE502004004927T patent/DE502004004927D1/de not_active Expired - Fee Related
- 2004-08-27 US US10/927,818 patent/US7505901B2/en not_active Expired - Fee Related
- 2004-08-27 JP JP2004247804A patent/JP2005079098A/ja not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19812697A1 (de) * | 1998-03-23 | 1999-09-30 | Volkswagen Ag | Verfahren und Einrichtung zum Betrieb einer Mikrofonanordnung, insbesondere in einem Kraftfahrzeug |
DE19910234A1 (de) * | 1999-03-09 | 2000-09-21 | Philips Corp Intellectual Pty | Verfahren mit mehreren Spracherkennern |
DE19934724A1 (de) * | 1999-03-19 | 2001-04-19 | Siemens Ag | Verfahren und Einrichtung zum Aufnehmen und Bearbeiten von Audiosignalen in einer störschallerfüllten Umgebung |
DE19943872A1 (de) * | 1999-09-14 | 2001-03-15 | Thomson Brandt Gmbh | Vorrichtung zur Anpassung der Richtcharakteristik von Mikrofonen für die Sprachsteuerung |
DE19958836A1 (de) * | 1999-11-29 | 2001-05-31 | Deutsche Telekom Ag | Verfahren und Anordnung zur Verbesserung der Kommunikation in einem Fahrzeug |
US6230138B1 (en) * | 2000-06-28 | 2001-05-08 | Visteon Global Technologies, Inc. | Method and apparatus for controlling multiple speech engines in an in-vehicle speech recognition system |
DE10133126A1 (de) * | 2001-07-07 | 2003-01-16 | Philips Corp Intellectual Pty | Richtungssensitives Audioaufnahmesystem mit Anzeige von Aufnahmegebiet und/oder Störquelle |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006037587A3 (de) * | 2004-10-04 | 2006-05-18 | Volkswagen Ag | Vorrichtung und verfahren zur akustischen kommunikation und/oder wahrnehmung in einem kraftfahrzeug |
DE102009039889A1 (de) | 2009-09-03 | 2011-03-31 | Volkswagen Ag | Spracherfassungsvorrichtung für ein Kraftfahrzeug |
DE102009039889B4 (de) | 2009-09-03 | 2021-10-07 | Volkswagen Ag | Vorrichtung und Verfahren zum Erfassen von Sprache in einem Kraftfahrzeug |
DE102016013042A1 (de) * | 2016-11-02 | 2018-05-03 | Audi Ag | Mikrofonsystem für ein Kraftfahrzeug mit dynamischer Richtcharakteristik |
US10623853B2 (en) | 2016-11-02 | 2020-04-14 | Audi Ag | Microphone system for a motor vehicle with dynamic directivity |
DE102017219234A1 (de) | 2017-10-26 | 2019-05-02 | Audi Ag | Verfahren zum Erfassen einer Spracheingabe eines Benutzers in einem Außenbereich eines Kraftfahrzeugs sowie Kraftfahrzeug |
WO2019081198A1 (de) | 2017-10-26 | 2019-05-02 | Audi Ag | VERFAHREN ZUM ERFASSEN EINER SPRACHEINGABE EINES BENUTZERS IN EINEM AUßENBEREICH EINES KRAFTFAHRZEUGS SOWIE KRAFTFAHRZEUG |
Also Published As
Publication number | Publication date |
---|---|
DE502004004927D1 (de) | 2007-10-25 |
US20050049864A1 (en) | 2005-03-03 |
EP1511010B1 (de) | 2007-09-12 |
JP2005079098A (ja) | 2005-03-24 |
US7505901B2 (en) | 2009-03-17 |
EP1511010A1 (de) | 2005-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1511010B1 (de) | Steuerung einer Mikrofon-Anordnung durch Rückkopplungsignal aus einem Spracherkennungssystem und Spracherkennung unter Verwendung dieser Anordnung | |
DE112009002617B4 (de) | Wahlweises Schalten zwischen mehreren Mikrofonen | |
DE102009051508B4 (de) | Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung | |
DE102011012573B4 (de) | Sprachbedienvorrichtung für Kraftfahrzeuge und Verfahren zur Auswahl eines Mikrofons für den Betrieb einer Sprachbedienvorrichtung | |
EP1064822B1 (de) | Verfahren und einrichtung zum betrieb einer mikrofonanordnung, insbesondere in einem kraftfahrzeug | |
DE60212528T2 (de) | Verfahren zur Verbesserung der nahen Sprachaktivitätsdetektion in einem System zur Sprecherlokalisierung mit Hilfe von Strahlbildung | |
EP0668007B1 (de) | Mobilfunkgerät mit freisprecheinrichtung | |
DE102015120194A1 (de) | Systeme und Verfahren zur Echounterdrückung | |
DE102014002899A1 (de) | Verfahren, Vorrichtung und Herstellung zur Zwei-Mikrofon-Array-Sprachverbesserung für eine Kraftfahrzeugumgebung | |
DE102006047983A1 (de) | Verarbeitung eines Eingangssignals in einem Hörgerät | |
DE102015118445A1 (de) | System und Verfahren zur Kommunikation in einer Fahrzeugkabine | |
EP1101390B1 (de) | Hörhilfe mit verbesserter sprachverständlichkeit durch frequenzselektive signalverarbeitung sowie verfahren zum betrieb einer derartigen hörhilfe | |
EP2200341B1 (de) | Verfahren zum Betrieb eines Hörhilfegerätes sowie Hörhilfegerät mit einer Quellentrennungseinrichtung | |
DE102013007141A1 (de) | Spracheingabe für ein Kraftfahrzeug | |
EP1881738B1 (de) | Verfahren zum Betrieb eines Hörgerätes und Anordnung mit einem Hörgerät | |
DE10114101A1 (de) | Verfahren zum Verarbeiten eines Eingangssignals in einer Signalverarbeitungseinheit eines Hörgerätes sowie Schaltung zur Durchführung des Verfahrens | |
DE102018117558A1 (de) | Adaptives nachfiltern | |
DE60102571T2 (de) | Verfahren und systeme für rauschunterdrückung für räumlich versetzte signalquellen | |
DE102017212980B4 (de) | Verfahren zur Kompensation von Störgeräuschen bei einer Freisprecheinrichtung in einem Kraftfahrzeug und Freisprecheinrichtung | |
EP2996313B1 (de) | Kommunikationsanlage für kraftfahrzeuge | |
DE9116931U1 (de) | Hochfrequenzpeiler für Kraftfahrzeuge | |
DE102011008555A1 (de) | Erfassen von Sprache eines Insassens in einem Innenraum eines Fahrzeugs | |
EP3639525B1 (de) | Mikrofonsystem für ein kraftfahrzeug mit richtcharakteristik und signalverbesserung | |
DE102006031238B4 (de) | Vorrichtung und Verfahren zur Ansteuerung von Personenschutzmitteln | |
DE102015016380B4 (de) | Technik zum Unterdrücken akustischer Störsignale |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
8127 | New person/name/address of the applicant |
Owner name: DAIMLERCHRYSLER AG, 70327 STUTTGART, DE |
|
8127 | New person/name/address of the applicant |
Owner name: DAIMLER AG, 70327 STUTTGART, DE |
|
8120 | Willingness to grant licences paragraph 23 | ||
8139 | Disposal/non-payment of the annual fee |