[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

DE10163213A1 - Verfahren zum Betrieb eines Spracherkennungssystems - Google Patents

Verfahren zum Betrieb eines Spracherkennungssystems

Info

Publication number
DE10163213A1
DE10163213A1 DE10163213A DE10163213A DE10163213A1 DE 10163213 A1 DE10163213 A1 DE 10163213A1 DE 10163213 A DE10163213 A DE 10163213A DE 10163213 A DE10163213 A DE 10163213A DE 10163213 A1 DE10163213 A1 DE 10163213A1
Authority
DE
Germany
Prior art keywords
speech
user
recognition system
voice
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10163213A
Other languages
English (en)
Inventor
Volker Steinbis
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Original Assignee
Philips Intellectual Property and Standards GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Intellectual Property and Standards GmbH filed Critical Philips Intellectual Property and Standards GmbH
Priority to DE10163213A priority Critical patent/DE10163213A1/de
Priority to PCT/IB2002/005471 priority patent/WO2003054854A2/en
Priority to US10/498,959 priority patent/US7962337B2/en
Priority to EP02788378A priority patent/EP1459294A2/de
Priority to AU2002353356A priority patent/AU2002353356A1/en
Priority to JP2003555492A priority patent/JP2005513559A/ja
Publication of DE10163213A1 publication Critical patent/DE10163213A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Selective Calling Equipment (AREA)

Abstract

Beschrieben werden Verfahren zum Betrieb eines Spracherkennungssystems (1, 10), bei denen ein Sprachsignal eines Benutzers zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation analysiert wird. Bei einem ersten Verfahren gibt das Spracherkennungssystem (1), sofern es sich in einem empfangsaktiven Zustand befindet, auf eine Empfangsaktivitätsanfrage (A) eines Benutzers hin eine Empfangsaktivitätsbestätigung (B) aus. DOLLAR A Bei einem zweiten Verfahren werden vor einer Übermittlung von Sprachdaten (S), welche zumindest einen Teil des Sprachsignals und/oder zumindest einen Teil der Sprachinformationen umfassen, aus einem internen, benutzerkontrollierten Bereich (I) in einen externen Bereich (E) die betreffenden Sprachdaten (S) gefiltert und/oder es erfolgt eine Anzeige an den Benutzer, dass eine Übermittlung von Sprachdaten (S) in den externen Bereich (E) ansteht. Darüber hinaus werden entsprechende Spracherkennungssysteme (1, 10) beschrieben.

Description

  • Die Erfindung befasst sich mit Verfahren zum Betrieb eines Spracherkennungssystems, bei denen ein Sprachsignal eines Benutzers zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation analysiert wird. Darüber hinaus betrifft die Erfindung entsprechende Spracherkennungssysteme zur Durchführung der Verfahren.
  • Mit zunehmender Leistungsfähigkeit von Spracherkennungssystemen werden diese immer mehr in den verschiedensten Anwendungsbereichen eingesetzt. So gibt es beispielsweise bereits heute einigermaßen zufriedenstellend funktionierende Diktiersysteme, bei denen ein auf einem PC implementiertes Spracherkennungssystem kontinuierliche Sprache des Benutzers erfasst, erkennt und in eine Textdatei schreibt, die der Benutzer dann mit einem üblichen Textverarbeitungsprogramm weiter bearbeiten kann. Außerdem gibt es schon seit einiger Zeit verschiedene technische Geräte, welche mit Hilfe von Spracherkennungssystemen gesteuert werden. Diese Geräte verfügen jedoch häufig nur über einen sehr begrenzten Wortschatz von Kommandoworten, die zur Steuerung des Gerätes benötigt werden. Derartige Sprachsteuerungen haben viele Vorteile. Ein Hauptvorteil ist, dass eine Sprachsteuerung durch den Benutzer freihändig erfolgen kann und daher insbesondere in solchen Situationen nützlich ist, in denen der Benutzer seine Hände für andere Aufgaben benötigt. Dies betrifft beispielsweise die Steuerung von Peripheriegeräten wie Musikanlagen, Mobilfunkgeräten oder Navigationssystemen in Kfz, welche daher immer häufiger mit Sprachsteuerungen angeboten werden. Ebenso sind Spracherkennungssysteme bzw. Sprachsteuerungen besonders hilfreich für Personen, die in ihrer Bewegung stark eingeschränkt sind und daher die Sprache als einziges Kommunikations- und Steuerungsmittel zur Verfügung haben. Darüber hinaus sind Sprachsteuerungen aber auch ganz allgemein vorteilhaft, da sie eine Schnittstelle zwischen Mensch und Maschine bilden, welche an das natürliche Hauptkommunikationsmittel des Menschen - nämlich die Sprache - angepasst ist. Andere Mensch-Maschine-Schnittstellen wie beispielsweise eine Tastatur, mit der ja elektrische Impulse für die Maschine erzeugt werden, sind dagegen an die Maschine angepasst. Da die Sprachsignale drahtlos von der jeweils sprechenden Person zu der akustischen Erfassungseinrichtung, z. B. einem Mikrofon, der Spracherkennungseinrichtung gelangen, ist im Übrigen mit einer Sprachsteuerung vorteilhafterweise auch gleichzeitig eine zumindest kurzreichweitige Fernsteuerung von Geräten gegeben, ohne dass hierfür zusätzlicher Aufwand betrieben werden muss. So kann beispielsweise bei Geräten wie Fernsehern, Videorecordern oder anderen Geräten der Unterhaltungselektronik, bei denen eine Steuerung mittels Fernsteuereinheiten heutzutage üblich ist, bei einem Einsatz von Sprachsteuerungen auf separate Fernsteuereinheiten verzichtet werden.
  • Es ist davon auszugehen, dass die Ausstattung von einzelnen Geräten mit isolierten Sprachsteuerungssystemen, welche jeweils Wörter, Sätze, Kommandos etc. für ihren Bereich verstehen, nur eine erste Stufe bezüglich der Entwicklung von automatischen Spracherkennungssystemen für den allgemeinen menschlichen Lebensraum ist. Aufgrund der ständigen schnellen technischen Weiterentwicklung wird voraussichtlich schon in einigen Jahren ein Zustand erreicht sein, bei dem die elektronischen Geräte einschließlich eventueller Sicherheitsanlagen zumindest in bestimmten Bereichen innerhalb eines - gegebenenfalls drahtlosen - Netzes untereinander verknüpft sind und allgemein durch Sprache steuerbar und kontrollierbar sind. Die Sprache des Benutzers wird dabei beispielsweise von einem oder mehreren Mikrofonen aufgenommen und von einer zentralen Rechnereinheit in einer Weise verarbeitet, dass der Benutzer die verschiedenen Geräte oder Funktionseinheiten im Netz beliebig ansprechen kann. Der Benutzer interagiert dabei mit einem ganzen Set von Funktionseinheiten bzw. mit einer Vermittlungsstelle für diese Funktionseinheiten, welche die Sprache des Benutzers versteht und dafür sorgt, dass entsprechend der gegebenen Kommandos die einzelnen Funktionseinheiten bzw. Geräte gesteuert werden. In den vernetzten Systemen kann dabei die Vermittlungsfunktion bzw. die Koordinierung der Geräte auch statt durch eine einzelne Vermittlungsstelle mit einem Spracherkennungssystem durch mehrere Spracherkennungssysteme erfolgen, welche entsprechend so untereinander vernetzt sind, dass sie in geeigneter Weise zusammenarbeiten. Das gesamte komplexe Steuerungssystem mit dem Spracherkennungssystem bzw. mit mehreren Spracherkennungssystemen sowie den jeweils angeschlossenen Geräten oder sonstigen Funktionseinheiten können als eine Art "Umgebungsintelligenz" angesehen werden.
  • Das gesamte Steuerungssystem kann sich hierbei isoliert in den Räumen des Benutzers, beispielsweise innerhalb eines Wohnbereiches oder eines bestimmten Bürobereiches, befinden. Das System kann aber ebenso auch an externe Geräte, beispielsweise an das Internet oder an ein Intranet angeschlossen sein. Insbesondere können sich auch bestimmte Teile eines Spracherkennungssystems, beispielsweise ein besonders leistungsfähiges Spracherkennungsmodul, auf einem externen Rechner befinden, welcher bei Bedarf über eine Datenleitung, beispielsweise über das Internet oder das Intranet, angesprochen wird. Dabei wird das Sprachsignal an den externen Rechner übermittelt und anschließend werden die erkannten Sprachinformationen an das jeweilige System vor Ort zurückgesandt. Solche großflächig vernetzten Systeme sind an sich vorteilhaft, weil in der Regel für eine leistungsfähige Spracherkennung ein entsprechend leistungsfähiger Rechner zur Verfügung stehen muss und eine passende Vernetzung es ermöglicht, dass sich mehrere Spracherkennungs- bzw. -steuerungssysteme einen gemeinsamen externen Rechner teilen können, wodurch dieser besser ausgelastet wird.
  • Neben den oben genannten vielen Vorteilen, die eine solche "Umgebungsintelligenz" - sei es in Form von einzelnen Geräten mit separaten Spracherkennungssystemen oder in Form eines komplexen Steuerungssystems - aufweist, besteht jedoch andererseits der Nachteil, dass das jeweilige System dem Benutzer ständig "zuhört", um aus den Gesprächen des Benutzers Befehle an das System zu extrahieren. Das Problem besteht hierbei darin, dass der Benutzer aufgrund einer komplexen Vernetzung der einzelnen Spracherkennungssysteme und Geräte sowie durch eine in der Regel aus optischen Gründen meist unauffällige Anbringung der Komponenten der Systeme nicht mehr ohne weiteres feststellen kann, ob das Spracherkennungssystem- bzw. bei mehreren Spracherkennungssystemen welches Spracherkennungssystem - aktiv ist bzw. in welchem Umfang die einzelnen Spracherkennungssysteme aktiv sind.
  • Dieses Problem stellt sich für den Benutzer um so mehr, wenn es sich um ein Spracherkennungssystem handelt, welches an einen externen Bereich angeschlossen ist bzw. wenn sich das Spracherkennungssystem ganz oder teilweise in einem externen Bereich befindet, den der Benutzer nicht vollständig kontrollieren kann, und Sprachdaten des Nutzers aus dem "internen", benutzerkontrollierten Bereich, beispielsweise dem Wohnzimmer oder einem Büro des Benutzers, in diesen externen Bereich übermittelt werden. Unter Sprachdaten werden dabei im Folgenden entweder das erfasste Sprachsignal selbst in der ursprünglichen oder gegebenenfalls veränderten Form sowie die aus dem Sprachsignal erkannten Sprachinformationen bzw. Teile davon verstanden. Bei den aus dem Sprachsignal erkannten Sprachinformationen kann es sich im Übrigen nicht nur um Worte, Wortkombinationen, Sätze oder dergleichen handeln, sondern auch um Informationen über die Identität der sprechenden Person, welche z. B. anhand der in der Sprache enthaltenen charakteristischen biometrischen Informationen ermittelbar sind. Ebenso können zu diesen Sprachinformationen auch Informationen über einen aktuellen Gemütszustand der Person gehören, die beispielsweise durch Stimmveränderungen, Stimmlage, Geschwindigkeit beim Sprechen etc. aus den Sprachsignalen extrahierbar sind.
  • Da es für den Benutzer nicht transparent ist, ob und in welcher Form seine Aussagen zu einem bestimmten Zeitpunkt durch ein Spracherkennungssystem erfasst und analysiert oder auch gespeichert und/oder abgehört werden, kann es zu Situationen kommen, in denen sich der Benutzer durch das permanente Zuhören des Spracherkennungssystems bzw. der Spracherkennungssysteme gestört fühlt. Dies gilt z. B. sicherlich für Situationen, in denen der Benutzer ein rein vertrauliches Gespräch führen will. Dies gilt natürlich vor allem bei einem Einsatz von besonders leistungsfähigen Spracherkennungssystemen, die nicht nur in der Lage sind, bestimmte Kommandoworte oder -wortkombinationen zu verstehen, sondern kontinuierliche Sprache des Benutzers erfassen, analysieren und verarbeiten können. Insbesondere ist es dabei für den Benutzer unangenehm, wenn er nicht weiß, ob seine Sprache gegebenenfalls sogar innerhalb des Spracherkennungssystems aufgezeichnet oder in anderer Weise bearbeitet wird, indem beispielsweise eine Abfrage nach bestimmten Schlüsselworten oder bestimmten Sätzen erfolgt oder sogar eine Statistik entwickelt wird über negative Bemerkungen, die zu einem bestimmten Thema registriert werden. Dies ist vom Benutzer in der Regel verständlicherweise nicht gewünscht.
  • Es ist daher Aufgabe der vorliegenden Erfindung, entsprechende Verfahren bzw. Spracherkennungssysteme anzugeben, bei denen der Benutzer besser kontrollieren kann, inwieweit von ihm getätigte Äußerungen von einem Spracherkennungssystem erfasst und verarbeitet werden.
  • Diese Aufgabe wird zum einen dadurch gelöst, dass das Spracherkennungssystem, sofern es sich in einem empfangsaktiven Zustand befindet, auf eine Empfangsaktivitätsanfrage eines Benutzers hin, mit welcher der Benutzer abfragt, ob sich das Spracherkennungssystem in einem empfangsaktiven Zustand befindet, eine Empfangsaktivitätsbestätigung an den Benutzer ausgibt. Der Begriff empfangsaktiv wird hier für einen Zustand benutzt, in dem Sprachsignale erfasst und in irgend einer Weise vom System verarbeitet werden. Empfangsaktiv ist ein System in diesem Sinne also immer dann, wenn das Spracherkennungssystem quasi "zuhört". Daneben kann es beispielsweise einen Betriebszustand geben, in dem das System "empfangsbereit" ist. In einem solchen Zustand ist das System nur insoweit aktiv, dass es nur auf einen bestimmten Befehl wie beispielsweise "Spracherkenner an" wartet, durch den das Spracherkennungssystem bei Bedarf eingeschaltet werden kann. Der Benutzer hat folglich die Möglichkeit, durch ein beliebiges Wort, einen Satz, eine Wortkombination oder gegebenenfalls auch über ein anderes definiertes akustisches Signal so mit dem Spracherkennungssystem zu kommunizieren, dass er von dem Spracherkennungssystem selber erfährt, ob es zuhört. Insbesondere hat der Benutzer somit vor der Äußerung von vertraulichen Bemerkungen immer die Möglichkeit, sich über die Aktivität des Spracherkennungssystems bzw. eines Spracherkennungssystems zu informieren.
  • Bezüglich der Übermittlung von Sprachdaten in einen externen, nicht benutzerkontrollierten Bereich wird die Aufgabe dadurch gelöst, dass vor einer Übermittlung von Sprachdaten, welche zumindest einen Teil des Sprachsignals und/oder zumindest einen Teil von aus dem Sprachsignal erkannten Sprachinformationen umfassen, aus einem internen benutzerkontrollierten Bereich in den externen Bereich die Sprachdaten zuvor gefiltert werden und/oder eine Anzeige an den Benutzer erfolgt, bevor eine Übermittlung von Sprachdaten in den externen Bereich erfolgt. Auf diese Weise erhält der Benutzer die Kontrolle über seine Sprachdaten, bevor sie in den externen Bereich gelangen bzw. es wird zumindest angezeigt, dass derartige Daten an einen externen Bereich übermittelt werden, so dass er sich mit vertraulichen Äußerungen, von denen er nicht möchte, dass sie in den externen Bereich gelangen, zurückhalten kann.
  • Zur Durchführung des ersten Verfahrens benötigt das Spracherkennungssystem eine Signalisierungseinrichtung zur Aussendung einer Empfangsbestätigung an den Benutzer, um den empfangsaktiven Zustand an den Benutzer in irgend einer Weise anzuzeigen. Außerdem muss das Spracherkennungssystem entsprechend ausgebildet sein, um im empfangsaktiven Zustand die Empfangsaktivitätsanfrage des Benutzers zu erkennen und dementsprechend die Aussendung der Empfangsaktivitätsbestätigung über die Signalisierungseinrichtung zu veranlassen. Bei der Signalisierungseinrichtung kann es sich um eine Sprachausgabeeinrichtung des Spracherkennungssystems handeln, beispielsweise einen Text-To-Speech-Konverter oder eine Ausgabe mit vorformulierten, gespeicherten Audiotexten, die für den Benutzer abgespielt werden. In diesem Fall erfolgt die Empfangaktivitätsbestätigung in Form eines entsprechenden Sprachsignals an den Benutzer, beispielsweise durch eine Mitteilung "Spracherkennungssystem ist aktiv".
  • Zur Durchführung des zweiten Verfahrens muss das Spracherkennungssystem, welches eine Komponente in dem externen Bereich umfasst oder mit dem externen Bereich so verbunden ist, dass bestimmte Sprachdaten in den externen Bereich übermittelt werden, eine geeignete Filtereinrichtung aufweisen, welche die Sprachdaten vor der Übermittlung in den externen Bereich filtert. Alternativ oder zusätzlich muss es eine Signalisierungseinrichtung aufweisen, um dem Benutzer zuvor anzuzeigen, wann eine solche Übermittlung von Sprachdaten in den externen Bereich erfolgen soll. Bei dieser Signalisierungseinrichtung kann es sich ebenfalls um eine Sprachausgabeeinrichtung handeln, mit der das Spracherkennungssystem ein entsprechendes Sprachsignal über einen Lautsprecher an den Benutzer ausgibt.
  • Insbesondere wenn mehrere Spracherkennungssysteme aktiv sein könnten, ist es sinnvoll, wenn die Empfangsaktivitätsbestätigung eine Information enthält, anhand der der Benutzer erfährt, um welches Spracherkennungssystem es sich handelt. Bei mehreren vernetzten Spracherkennungssystemen erfolgt dabei die Empfangsaktivitätsbestätigung gegebenenfalls auch gemeinsam für alle aktiven Spracherkennungssysteme über eine Sprachausgabeeinrichtung, beispielsweise durch eine Mitteilung "Spracherkennungssysteme X, Y und Z sind aktiv".
  • Um die Sicherheit des Verfahrens bzw. des Spracherkennungssystems zu erhöhen, wird vorzugsweise die Ausgabe der Empfangsaktivitätsbestätigung durch das Spracherkennungssystem selbst überprüft. Bei einer fehlerhaften, insbesondere bei einer völlig fehlenden Ausgabe der Empfangsaktivitätsbestätigung reagiert das Spracherkennungssystem in der vorbestimmten Weise. Vorzugsweise deaktiviert sich das System selbst. Diese Maßnahme verhindert, dass der Benutzer irrtümlich der Ansicht ist, dass kein Spracherkennungssystem empfangsaktiv ist, weil er auf eine Empfangsaktivitätsanfrage hin - beispielsweise wegen eines Fehlers des Spracherkennungssystems oder aufgrund einer bewussten Manipulation an der Signalisierungseinheit - keine Empfangsaktivitätsbestätigung erhält. Sofern es sich bei der Empfangsaktivitätsbestätigung um ein Sprachsignal handelt, ist die Überprüfung relativ einfach durchführbar, indem das Spracherkennungssystem mit den Mitteln, mit denen auch die Sprachsignale des Benutzers erfasst werden, die Ausgabe des eigenen Sprachsignals erfasst und bei der darauffolgenden Erkennung bzw. Bearbeitung als eigene Empfangsaktivitätsbestätigung erkennt.
  • Vorzugsweise hat der Benutzer jederzeit die Möglichkeit - wenn er beispielsweise eine vertrauliche Äußerung von sich geben möchte, die nicht von einem Spracherkennungssystem erfasst werden soll - ein empfangsaktives Spracherkennungssystem mittels eines Sprachbefehls zu deaktivieren und gegebenenfalls auch wieder zu aktivieren. Besonders bevorzugt ist hierbei ein Verfahren, bei dem der Benutzer gemäß Patentanspruch 6 die Möglichkeit hat, das System für eine bestimmte Zeit vorübergehend zu deaktivieren. Nach Ablauf der vorgegebenen Zeit schaltet sich das Spracherkennungssystem selbständig wieder ein.
  • Insbesondere bei einem solchen automatisch erfolgenden Umschalten von einem deaktivierten Zustand in einen empfangsaktiven Zustand ist es vorteilhaft, wenn das Spracherkennungssystem von sich aus das Einschalten anzeigt. Bei einer derartigen Aktivierungsanzeige kann es sich um eine optische oder um eine akustische Anzeige, beispielsweise wieder um ein Sprachsignal, handeln. Eine akustische Anzeige ist insofern von Vorteil, dass der Benutzer die Anzeige unabhängig von seinem Standort und seiner Blickrichtung registrieren kann.
  • Zusätzlich ist es möglich, dass das Spracherkennungssystem permanent auch optisch anzeigt, ob es empfangsaktiv ist. Eine solche permanente optische Anzeige ist möglich, da diese in der Regel den Benutzer nicht stört. Sie hat jedoch den Nachteil, dass sie nicht aus jeder Position des Benutzer gut erkennbar ist, so dass zur Erhöhung der Sicherheit in bestimmten Situationen, das heißt beispielsweise auf die genannte Empfangsaktivitätsanfrage hin oder bei einem automatischen Einschalten, vorzugsweise zusätzlich eine akustische Signalisierung erfolgen sollte.
  • Bei Verwendung von mehreren Spracherkennungssystemen sollte der Benutzer vorzugsweise die Möglichkeit haben, ein ganz bestimmtes Spracherkennungssystem anzusprechen und zu deaktivieren und wieder zu aktivieren. So ist es beispielsweise durchaus sinnvoll, wenn der Benutzer im internen Bereich befindliche rudimentäre Spracherkennungssysteme, welche lediglich in der Lage sind, bestimmte Kommandoworte zu erkennen, um bestimmte Geräte zu steuern, nicht deaktiviert aber alle die Spracherkennungssysteme, welche in der Lage ist, kontinuierliche Sprache zu erkennen und zu verarbeiten, und/oder über die eventuell Sprachdaten in einen externen Bereich gelangen könnten, deaktiviert werden.
  • Die Filterung der in den externen Bereich ausgehenden Sprachdaten kann automatisch erfolgen. Ein bevorzugtes Verfahren zur automatischen Filterung wird in Anspruch 10 genannt. Bei den dort genannten Schlüssel-Sprachdaten kann es sich beispielsweise um Schlüssel-Worte, -Sätze oder ganze -Satzsequenzen handeln. Die Sprachdaten werden bei der Filterung jeweils mit diesen Schlüssel-Sprachdaten verglichen und je nach Übereinstimmung mit den Schlüssel-Sprachdaten wird dann entschieden, ob die Sprachdaten an den externen Bereich übermittelt werden oder nicht. Es können dabei sowohl Schlüssel- Sprachdaten vorgegeben werden, die ohne weiteres übermittelt werden können, als auch Schlüssel-Sprachdaten, die auf keinen Fall übermittelt werden sollen.
  • Anspruch 11 enthält eine Möglichkeit zur manuellen Filterung der Sprachdaten durch den Benutzer selbst. Eine solche manuelle Auswahl, nachdem das System angezeigt hat, dass eine Übermittlung von Sprachdaten ansteht, kann natürlich auch zusätzlich zu einer automatischen Filterung erfolgen. So ist es beispielsweise möglich, bestimmte Schlüssel- Sprachdaten zu hinterlegen, mit denen die herausgehenden Sprachdaten verglichen werden, und nur wenn ein Vergleich der für die Übermittlung vorgesehenen Sprachdaten mit den Schlüssel-Sprachdaten eine Übereinstimmung zeigt, wird dem Benutzer dies angezeigt, und es erfolgt dann eine manuelle Nachfilterung bzw. Kontrolle durch den Benutzer.
  • Bei einer bevorzugten Ausführungsform wird das zweite Verfahren, bei dem die in einen externen Bereich übermittelten Sprachdaten gefiltert bzw. die Übermittlung vom Benutzer kontrolliert wird, mit dem ersten Verfahren, bei dem der Benutzer auf eine Empfangsaktivitätsanfrage hin eine Empfangsaktivitätsbestätigung erhält, kombiniert. Ein solches kombiniertes Spracherkennungssystem, welches beide Varianten enthält, bietet dem Benutzer die volle Kontrolle über die von ihm geäußerten Sprachsignale, das heißt der Benutzer hat es in der Hand, je nach Vertraulichkeitsstufe der Äußerungen und je nach Bedarf bezüglich der Steuerungsmöglichkeiten innerhalb des von ihm genutzten Bereiches entweder das Spracherkennungssystem ganz zu deaktivieren oder einfach die Übermittlung seiner Sprachdaten in den externen Bereich genau zu kontrollieren bzw. zu verhindern.
  • Die Erfindung wird im Folgenden unter Hinweis auf die beigefügten Figuren anhand von Ausführungsbeispielen näher erläutert. Es zeigen:
  • Fig. 1 eine schematische Darstellung eines Spracherkennungssystems bei der Ausgabe einer Empfangsaktivitätsbestätigung,
  • Fig. 2 eine schematische Darstellung eines Spracherkennungssystems, welches eine Komponente in einem externen Bereich aufweist.
  • Bei dem in Fig. 1 dargestellten Ausführungsbeispiel handelt es sich um ein relativ einfaches Spracherkennungssystem 1, welches eine einzelne Systemrechnereinheit 6, beispielsweise einen PC aufweist, auf dem ein Spracherkennungs-Softwaremodul 2 implementiert ist. Dieses lediglich als ein Block 2 dargestellte Spracherkennungsmodul 2 umfasst selbstverständlich neben den üblichen Programmteilen mit den Algorithmen zur Spracherkennung geeignete Bibliotheken, Grammatikregeln etc., auf deren Basis die Erkennung durchgeführt wird. Alle notwendigen Hardware-Komponenten wie Prozessor, Speicherplatz etc. werden von der Rechnereinheit 6 zur Verfügung gestellt.
  • Zur Erfassung der Sprachsignale ist an die Rechnereinheit 6 ein Mikrofon 5 angeschlossen. Die mittels des Mikrofons 5 aufgezeichneten Sprachsignale werden in der Rechnereinheit 6 vom Spracherkennungsmodul 2 analysiert.
  • Außerdem befindet sich auf der Rechnereinheit 6 als Sprachausgabeeinrichtung ein Text- To-Speech-Konverter (TTS-Konverter) 3, mit dem das Spracherkennungssystem Sprachsignale zur Kommunikation mit einem Benutzer (nicht dargestellt) erzeugt. Auch bei diesem TTS-Konverter 3 handelt es sich um ein Softwaremodul. Die Sprachsignale werden über einen an die Rechnereinheit 6 angeschlossenen Lautsprecher 4 ausgegeben.
  • Die Rechnereinheit 6 enthält darüber hinaus noch ein Steuermodul 7, um anhand der erkannten Sprachinformationen ein gewünschtes Gerät oder mehrere Geräte anzusteuern und um die Sprachausgabeeinheit 3 anzusteuern. Die Steuerung von weiteren Geräten (nicht dargestellt) erfolgt über die Datenanbindung 8. Ebenso kann über das Steuermodul 7 auch das Spracherkennungsmodul 2 und/oder das Mikrofon 5 bzw. der Mikrofoneingang an der Rechnereinheit 6 angesteuert werden. So kann beispielsweise das Spracherkennungssystem 1 aktiviert oder deaktiviert werden.
  • Es wird noch einmal ausdrücklich erwähnt, dass es sich bei dem dargestellten Spracherkennungssystem 1 lediglich um ein besonders einfaches Beispiel handelt und dass das Spracherkennungssystem 1 auch beliebig komplizierter aufgebaut sein kann. Insbesondere kann es mehrere verschiedene Spracherkennungsmodule mit z. B. unterschiedlicher Leistungsfähigkeit und/oder für unterschiedliche Anwendungen aufweisen. Die Spracherkennungsmodule können dann je nach Bedarf zur Steuerung verschiedener Geräte oder Funktionseinheiten eingesetzt werden, wobei es auch möglich ist, dass bestimmten Geräten bestimmte Spracherkennungsmodule fest zugeordnet sind. Ebenso kann das Spracherkennungssystem auch andere Sprachausgabeeinrichtungen unterschiedlichster Art aufweisen. Weiterhin kann die Rechnereinheit 6 mit den verschiedensten zusätzlichen Programmen ausgestattet sein, um je nach Aufgabe, beispielsweise zur Steuerung eines bestimmten angeschlossenen Gerätes oder Systems, in einer vorgesehenen Weise auf Sprachbefehle des Benutzers zu reagieren. Es kann sich bei der Rechnereinheit auch um einen Rechner handeln, der ansonsten auch für andere Anwendungen genutzt wird, beispielsweise einen PC des Benutzers. Das Spracherkennungssystem kann auch eine beliebige Anzahl von untereinander vernetzten Rechnereinheiten aufweisen, auf die die verschiedenen Aufgaben bzw. Softwaremodule verteilt sind.
  • Damit der Benutzer jederzeit kontrollieren kann, ob von ihm geäußerte Sprachsignale von dem Spracherkennungssystem 1 erfasst und bearbeitet werden, hat er die Möglichkeit, eine Sprachaktivitätsanfrage A an das Spracherkennungssystem 1 zu richten. Typisch wäre hier beispielsweise die Anfrage A "Spracherkenner aktiv?". Sofern das Spracherkennungssystem empfangsaktiv ist, das heißt sich in einem Modus befindet, in dem Sprachsignale des Benutzer erfasst und bearbeitet werden, wird automatisch auch diese Empfangsaktivitätsanfrage A vom Mikrofon 5 erfasst und vom Spracherkennungsmodul 2 analysiert. Dort wird als Sprachinformation aus dem Sprachsignal die Anfrage A "Spracherkenner aktiv?" erkannt. Die erkannte Anfrage A wird dann beispielsweise von dem Steuerungsmodul 7 bearbeitet. Dieses Steuerungsmodul 7 ist so programmiert, dass auf eine erkannte Sprachaktivitätsanfrage A hin mittels des TTS-Konverters 3 eine entsprechende Empfangsaktivitätsbestätigung B über den Lautsprecher 4 ausgegeben wird, beispielsweise der Satz "Spracherkenner ist aktiv".
  • Durch eine Störung oder eine Manipulation an der Rechnereinheit 6, den Datenleitungen bzw. weiteren Geräten des Systems 1, beispielsweise durch eine Unterbrechung der Leitung vom Ausgang des TTS-Konverters 3 zum Lautsprecher 4, kann es dazu kommen, dass keine Sprachaktivitätsbestätigung B an den Benutzer ausgegeben wird, obwohl dieser eine Sprachaktivitätsanfrage A an das Spracherkennungssystem 1 gerichtet hat und das Spracherkennungssystem 1 empfangsaktiv ist. Der Benutzer würde sich dann zu Unrecht "sicher" fühlen. Daher ist das Steuermodul 7 derart programmiert, dass überprüft wird, ob die am Lautsprecher 4 ausgegebene Sprachaktivitätsbestätigung B vom Mikrofon 5 des Spracherkennungssystems 1 wieder erfasst und vom eigenen Spracherkennungsmodul 2 erkannt wird. Sofern das Spracherkennungssystem eine vorgegebene Zeitspanne nach Ausgabe einer Sprachaktivitätsbestätigung B diese Sprachaktivitätsbestätigung B nicht über den eigenen Eingangskanal wieder registriert, deaktiviert das Steuermodul 7 das Spracherkennungsmodul 2 zumindest soweit, dass das Spracherkennungssystem 1 insgesamt allenfalls noch in der Lage ist, auf einen bestimmten Befehl wie "Spracherkennungssystem an" zu reagieren.
  • Bei einem komplexeren Spracherkennungssystem, das mehrere Spracherkennungsmodule für verschiedene Geräte aufweist, welche gegebenenfalls separat innerhalb des Spracherkennungssystems aktiviert und deaktiviert werden können, ist es sinnvoll, wenn mit der Sprachaktivitätsbestätigung auch ausgegeben wird, inwieweit das Spracherkennungssystem 1 aktiv ist, beispielsweise durch eine Ausgabe "Spracherkennung für TV und für Videorecorder sind eingeschaltet".
  • Ebenso ist es bei einer parallelen Verwendung von mehreren Spracherkennungssystemen 1 sinnvoll, wenn die Sprachaktivitätsbestätigung B Informationen darüber enthält, welches Spracherkennungssystem sich meldet, beispielsweise durch eine Aussage "Spracherkennungssystem für Küchenbereich ist aktiv". Umgekehrt kann auch die Sprachaktivitätsanfrage A sowohl an bestimmte Systeme als auch global an alle Spracherkennungssysteme gerichtet sein, indem der Benutzer beispielsweise eine spezielle Aktivitätsanfrage wie "Spracherkennungssystem für Internet und Telekommunikation aktiv?" oder eine allgemeine Aktivitätsanfrage wie "Irgend ein Spracherkenner aktiv?" stellt. Dies ist vor allem dann sinnvoll, wenn beispielsweise nur bestimmte Systeme eine Verbindung zu einem externen Bereich haben und/oder in der Lage sind, kontinuierliche Sprache zu verstehen, wogegen andere Spracherkennungssysteme ohnehin nur eine begrenzte Anzahl von Kommandoworten verstehen.
  • Bei einer Deaktivierung kann sich der entsprechende Sprachbefehl ebenfalls global an mehrere Spracherkennungssysteme richten. So kann z. B. ein Befehl "Alle Spracherkenner für fünf Minuten aus" von allen Sprachsystemen, die zu diesem Zeitpunkt empfangsaktiv sind, empfangen und verarbeitet werden. Der Befehl kann aber auch nur an einzelne Spracherkennungssysteme oder einzelne Spracherkennungsmodule in einem Spracherkennungssystem gerichtet sein, die direkt vom Benutzer benannt werden.
  • Fig. 2 zeigt ein einfaches Beispiel für ein Spracherkennungssystem 10, welches ähnlich aufgebaut ist wie das Spracherkennungssystem 1 gemäß Fig. 1. Dieses Spracherkennungssystem weist ebenfalls eine Rechnereinheit 7 mit einem Spracherkennungsmodul 11, einem TTS-Konverter 12 und einem Steuerungsmodul 13 auf. Ebenso sind an die Rechnereinheit 7 ein Mikrofon 8 zur Erfassung von Sprachsignalen des Benutzers und ein Lautsprecher 9 zur Ausgabe von Sprachsignalen des TTS-Konverters 12 angeschlossen. Diese Rechnereinheit 7 mit dem Spracherkennungssystem 10 befindet sich in einem internen Bereich I, welcher vom Benutzer gut kontrollierbar ist; beispielsweise handelt es sich um einen PC in einem Büro des Benutzers.
  • Eine weitere Komponente des Systems 10 befindet sich dagegen auf einem zentralen Server 15 in einem externen Bereich E, beispielsweise auf einem Server 15 eines Firmen-Intranets. Über die Verbindung der Rechnereinheit 7 des Spracherkennungssystems 10 zu dem externen Server 15 werden bei bestimmten Aktionen Sprachdaten S. das heißt die vom Mikrofon 8 aufgezeichneten Sprachsignale des Benutzers oder mittels der Spracherkennungseinrichtung 11 aus den Sprachsignalen erkannte Sprachinformationen an den externen Server 15 und damit an das Intranet übermittelt. Der Benutzer selber hat dabei in der Regel keine Kontrolle, was mit diesen Sprachdaten geschieht und in welcher Form gegebenenfalls diese Sprachdaten außer für die eigene Anwendung genutzt, gespeichert und verarbeitet werden. Daher gibt das erfindungsgemäße Spracherkennungssystem 10 dem Benutzer die Möglichkeit, die Übermittlung dieser Sprachdaten S in den externen Bereich E zu kontrollieren.
  • In dem konkret dargestellten Ausführungsbeispiel handelt es sich um bereits vom Spracherkennungsmodul 11 erkannte Sprachinformationen, die an den Server 15 übermittelt werden, um beispielsweise über die Rechnereinheit 7 in dem genannten Intranet zu surfen. Das heißt, es werden in diesem Fall nicht das Sprachsignal des Benutzer selbst, sondern die aus dem Sprachsignal erkannten Sprachinformationen an den Server 15 übermittelt.
  • Um zu verhindern, dass für den Benutzer unerkannt Sprachdaten S in den externen Bereich E übermittelt werden, werden die ausgehenden Sprachdaten S in einem Filter 14, welcher sich auf der im internen Bereich I angeordneten Rechnereinheit 7 befindet, gefiltert. Bei dem Filter 14 handelt es sich hier ebenfalls um ein Softwaremodul mit einem zugehörigen Speicherbereich, in dem Schlüssel-Worte oder
    • - Wortkombinationen hinterlegt sind, die der Benutzer frei wählen kann. Dabei handelt es sich beispielsweise um Schlüssel-Worte oder
    • - Wortkombinationen, von denen der Benutzer wünscht, dass zunächst eine Warnung an den Benutzer erfolgt, wenn zur Übermittlung in den externen Bereich E bestimmte Sprachdaten S diese Schlüssel-Worte oder -Wortkombinationen enthalten. Im Filter 14 werden daher alle ausgehenden Sprachdaten S zunächst mit den Schlüssel-Worten bzw. -Wortkombinationen verglichen. Sofern Sprachdaten S diese Schlüssel-Worte oder -Wortkombinationen enthalten, wird über das Steuerungsmodul 13 veranlasst, dass von dem TTS-Konverter 12 über den Lautsprecher 9 eine Warnung an den Benutzer ausgegeben wird.
  • Diese Warnung enthält beispielsweise eine Wiedergabe der betreffenden Sprachdaten S, die zur Ausgabe anstehen. Der Benutzer wird dann um eine Bestätigung für die Übermittlung gebeten, das heißt das Spracherkennungssystem 10 fragt noch einmal beim Benutzer nach, ob es die bestimmten Sprachdaten S in den externen Bereich E übermitteln darf.
  • Durch die Erfindung wird gewährleistet, dass Personen, welche Spracherkennungstechnologien in ihrem täglichen Leben verwenden, sicher sein können, dass diese Techniken nicht unter Verletzung ihrer Privatsphäre missbraucht werden. Die vorgeschlagenen Verfahren und Spracherkennungssysteme stellen folglich sicher, dass die ergonomischen Vorteile einer sprachverstehenden "Umgebungsintelligenz" nicht zu einem den Benutzer überwachenden Kontrollsystem ausgebaut werden können. Der Benutzer kann somit die Vorteile der Spracherkennungssysteme nutzen und dennoch die volle Kontrolle über die Spracherkennungssysteme behalten, insbesondere durch die Kenntnis, welche Spracherkennungssysteme aktiv sind und inwieweit Daten einen bestimmten Privatbereich verlassen.

Claims (14)

1. Verfahren zum Betrieb eines Spracherkennungssystems (1), bei welchem ein Sprachsignal eines Benutzers zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation analysiert wird, dadurch gekennzeichnet,
dass das Spracherkennungssystem (1), sofern es sich in einem empfangsaktiven Zustand befindet, in welchem Sprachsignale erfasst und bearbeitet werden,
auf eine Empfangsaktivitätsanfrage (A) eines Benutzers hin, mit welcher der Benutzer abfragt, ob sich das Spracherkennungssystem (1) in einem empfangsaktiven Zustand befindet,
eine Empfangsaktivitätsbestätigung (B) an den Benutzer ausgibt.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Empfangsaktivitätsbestätigung (B) ein Sprachsignal einer Sprachausgabeeinrichtung (3) umfasst.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Empfangsaktivitätsbestätigung (B) eine Information zur Identifizierung des empfangsaktiven Spracherkennungssystems (1) umfasst.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass das Spracherkennungssystem (1) die Ausgabe der Empfangsaktivitätsbestätigung (B) überprüft und bei einer fehlerhaften Ausgabe der Empfangsaktivitätsbestätigung (B) in einer vordefinierten Weise reagiert.
5. Verfahren nach Anspruch 2 und 4, dadurch gekennzeichnet, dass die Ausgabe der Empfangsaktivitätsbestätigung (B) überprüft wird, indem das Spracherkennungssystem (1) die Ausgabe des entsprechenden Sprachsignals der Sprachausgabeeinrichtung (3) akustisch erfasst und als eigene Empfangsaktivitätsbestätigung (B) erkennt.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass der Benutzer das empfangsaktive Spracherkennungssystem mittels eines Deaktivierungsbefehls vorübergehend deaktiviert, wobei der Deaktivierungsbefehl einen Zeitparameter umfasst, welcher vorgibt, wie lange das Spracherkennungssystem deaktiviert wird.
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass das Spracherkennungssystem anzeigt, wenn es in einen empfangsaktiven Zustand umschaltet.
8. Verfahren zum Betrieb eines Spracherkennungssystem (10), bei welchem ein Sprachsignal eines Benutzers zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation analysiert wird, dadurch gekennzeichnet, dass vor einer Übermittlung von Sprachdaten (S), welche zumindest einen Teil des Sprachsignals und/oder zumindest einen Teil von aus dem Sprachsignal erkannten Sprachinformationen umfassen, aus einem internen, benutzerkontrollierten Bereich (I) in einen externen Bereich (E) die Sprachdaten (S) gefiltert werden und/oder eine Anzeige an den Benutzer erfolgt, dass eine Übermittlung von Sprachdaten (S) in den externen Bereich (E) ansteht.
9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass eine Filterung der Sprachdaten (S) vor der Übermittlung in den externen Bereich (E) automatisch erfolgt.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass die automatische Filterung der Sprachdaten (S) unter Verwendung von zuvor definierten Schlüssel-Sprachdaten erfolgt.
11. Verfahren nach einem der Ansprüche 8 bis 10, dadurch gekennzeichnet, dass dem Benutzer angezeigt wird, welche Sprachdaten (S) in den externen Bereich (E) übermittelt werden sollen, und der Benutzer daraufhin festlegt, welche der Sprachdaten (S) in den externen Bereich (E) übermittelt werden dürfen.
12. Spracherkennungssystem (1) zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 7 mit Mitteln (5) zur Erfassung eines Sprachsignals eines Benutzers und Mitteln (2) zur Analyse des Sprachsignals zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation, dadurch gekennzeichnet,
dass das Spracherkennungssystem (7) eine Signalisierungseinrichtung (2, 4) zur Aussendung einer Empfangsaktivitätsbestätigung (B) an den Benutzer aufweist, mit welcher angezeigt wird, dass sich das Spracherkennungssystem (1) in einem empfangsaktiven Zustand befindet, in welchem Sprachsignale erfasst und bearbeitet werden,
und dass das Spracherkennungssystem (1) derart ausgebildet ist, dass es in dem empfangsaktiven Zustand eine Empfangsaktivitätsanfrage (A) eines Benutzers, mit welcher der Benutzer abfragt, ob sich das Spracherkennungssystem (1) in einem empfangsaktiven Zustand befindet, erkennt und daraufhin die Empfangsaktivitätsbestätigung (B) aussendet.
13. Spracherkennungssystem (10) zur Durchführung eines Verfahrens nach einem der Ansprüche 8 bis 11 mit Mitteln (8) zur Erfassung eines Sprachsignals eines Benutzers und Mitteln (11) zur Analyse des Sprachsignals zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation, dadurch gekennzeichnet,
dass das Spracherkennungssystem (10) zumindest teilweise in einem externen Bereich (E) angeordnet ist, welcher nicht von einem Benutzer des Spracherkennungssystems (10) kontrollierbar ist, und/oder mit einem externen Bereich (E) verbunden ist, so dass Sprachdaten (S), welche zumindest einen Teil des Sprachsignals und/oder zumindest einen Teil von aus dem Sprachsignal erkannten Sprachinformationen umfassen, aus einem internen, benutzerkontrollierten Bereich (I) in den externen Bereich (E) übermittelt werden,
und dass das Spracherkennungssystem (10) eine Filtereinrichtung (14), mit welcher die Sprachdaten (S) vor der Übermittlung in den externen Bereich gefiltert werden, und/oder eine Signalisierungseinrichtung (9, 12) aufweist, um dem Benutzer zuvor anzuzeigen, wenn eine Übermittlung von Sprachdaten (S) in den externen Bereich (E) erfolgen soll.
14. Computerprogramm mit Programmcode-Mitteln, um alle Schritte eines Verfahrens nach einem der Ansprüche 1 bis 7 und/oder um alle Schritte eines Verfahrens nach einem der Ansprüche 8 bis 11 auszuführen, wenn das Programm auf einem Computer ausgeführt wird.
DE10163213A 2001-12-21 2001-12-21 Verfahren zum Betrieb eines Spracherkennungssystems Withdrawn DE10163213A1 (de)

Priority Applications (6)

Application Number Priority Date Filing Date Title
DE10163213A DE10163213A1 (de) 2001-12-21 2001-12-21 Verfahren zum Betrieb eines Spracherkennungssystems
PCT/IB2002/005471 WO2003054854A2 (en) 2001-12-21 2002-12-16 Method of operating a speech recognition system
US10/498,959 US7962337B2 (en) 2001-12-21 2002-12-16 Method of operating a speech recognition system
EP02788378A EP1459294A2 (de) 2001-12-21 2002-12-16 Betriebsverfahren für ein spracherkennungssystem
AU2002353356A AU2002353356A1 (en) 2001-12-21 2002-12-16 Method of operating a speech recognition system
JP2003555492A JP2005513559A (ja) 2001-12-21 2002-12-16 音声認識システムを操作する方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10163213A DE10163213A1 (de) 2001-12-21 2001-12-21 Verfahren zum Betrieb eines Spracherkennungssystems

Publications (1)

Publication Number Publication Date
DE10163213A1 true DE10163213A1 (de) 2003-07-10

Family

ID=7710342

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10163213A Withdrawn DE10163213A1 (de) 2001-12-21 2001-12-21 Verfahren zum Betrieb eines Spracherkennungssystems

Country Status (6)

Country Link
US (1) US7962337B2 (de)
EP (1) EP1459294A2 (de)
JP (1) JP2005513559A (de)
AU (1) AU2002353356A1 (de)
DE (1) DE10163213A1 (de)
WO (1) WO2003054854A2 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005052843A1 (de) * 2005-11-05 2007-05-10 GM Global Technology Operations, Inc., Detroit Spracherkennungssystem in einem Kraftfahrzeug
DE102013001219A1 (de) * 2013-01-25 2014-07-31 Inodyn Newmedia Gmbh Verfahren zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7302048B2 (en) * 2004-07-23 2007-11-27 Marvell International Technologies Ltd. Printer with speech transcription of a recorded voice message
US8442824B2 (en) 2008-11-26 2013-05-14 Nuance Communications, Inc. Device, system, and method of liveness detection utilizing voice biometrics
US8346549B2 (en) 2009-12-04 2013-01-01 At&T Intellectual Property I, L.P. System and method for supplemental speech recognition by identified idle resources
US8103554B2 (en) * 2010-02-24 2012-01-24 GM Global Technology Operations LLC Method and system for playing an electronic book using an electronics system in a vehicle
JP2013529794A (ja) 2010-06-24 2013-07-22 本田技研工業株式会社 車載音声認識システム及び車両外音声認識システム間の通信システム及び方法
US8971503B1 (en) * 2012-04-02 2015-03-03 Ipdev Co. Method of operating an ordering call center using voice recognition technology
KR101732137B1 (ko) * 2013-01-07 2017-05-02 삼성전자주식회사 원격 제어 장치 및 전력 제어 방법
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9826306B2 (en) 2016-02-22 2017-11-21 Sonos, Inc. Default playback device designation
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US20210269073A1 (en) * 2018-06-21 2021-09-02 Siemens Mobility GmbH Method and device for controlling a rail vehicle
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
CN109360570B (zh) * 2018-10-19 2022-06-21 歌尔科技有限公司 语音设备的语音识别方法、语音设备及可读存储介质
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (de) 2018-11-15 2020-05-20 Snips Erweiterte konvolutionen und takt zur effizienten schlüsselwortauffindung
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864815A (en) * 1995-07-31 1999-01-26 Microsoft Corporation Method and system for displaying speech recognition status information in a visual notification area
US5819225A (en) * 1996-05-30 1998-10-06 International Business Machines Corporation Display indications of speech processing states in speech recognition system
US5930751A (en) * 1997-05-30 1999-07-27 Lucent Technologies Inc. Method of implicit confirmation for automatic speech recognition
EP1058876B1 (de) * 1999-01-06 2009-11-25 Koninklijke Philips Electronics N.V. Spracheingabegerät mit aufmerksamkeitsspanne
US6584439B1 (en) * 1999-05-21 2003-06-24 Winbond Electronics Corporation Method and apparatus for controlling voice controlled devices
US6415258B1 (en) * 1999-10-06 2002-07-02 Microsoft Corporation Background audio recovery system
US20030009341A1 (en) * 2001-07-05 2003-01-09 Tien-Yao Cheng Humanistic devices and methods for same

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005052843A1 (de) * 2005-11-05 2007-05-10 GM Global Technology Operations, Inc., Detroit Spracherkennungssystem in einem Kraftfahrzeug
DE102013001219A1 (de) * 2013-01-25 2014-07-31 Inodyn Newmedia Gmbh Verfahren zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus
DE102013001219B4 (de) * 2013-01-25 2019-08-29 Inodyn Newmedia Gmbh Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus

Also Published As

Publication number Publication date
US20050096905A1 (en) 2005-05-05
EP1459294A2 (de) 2004-09-22
AU2002353356A1 (en) 2003-07-09
AU2002353356A8 (en) 2003-07-09
JP2005513559A (ja) 2005-05-12
US7962337B2 (en) 2011-06-14
WO2003054854A3 (en) 2003-12-24
WO2003054854A2 (en) 2003-07-03

Similar Documents

Publication Publication Date Title
DE10163213A1 (de) Verfahren zum Betrieb eines Spracherkennungssystems
EP1342054B1 (de) Verfahren zur steuerung einer spracheingabe und -ausgabe
EP1927980A2 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
DE112014006409T5 (de) Fahrzeugsteuervorrichtung und Fahrzeugsteuerverfahren
DE102014012184B4 (de) Vorrichtung und Verfahren zur automatischen Erkennung und Klassifizierung von akustischen Signalen in einem Überwachungsbereich
DE10251113A1 (de) Verfahren zum Betrieb eines Spracherkennungssystems
EP3661797B1 (de) Verfahren, vorrichtung, mobiles anwendergerät, computerprogramm zur steuerung eines audiosystems eines fahrzeugs
DE10008226C2 (de) Vorrichtung zur Sprachsteuerung und Verfahren zur Sprachsteuerung
DE102017213249A1 (de) Verfahren und System zum Erzeugen einer auditiven Meldung in einem Innenraum eines Fahrzeugs
DE102021207673A1 (de) Interrupt für geräuschunterdrückende audiovorrichtungen
EP1303166B1 (de) Verfahren zum Betrieb eines Hörgerätes und Anordung mit einem Hörgerät
DE102017213252A1 (de) Verfahren, Vorrichtung und Computerprogramm zum Variieren eines in einem Fahrzeug auszugebenden Audio-Inhalts
DE202008017602U1 (de) Steuersystem
DE112018006597B4 (de) Sprachverarbeitungsvorrichtung und Sprachverarbeitungsverfahren
DE102006058758A1 (de) Verfahren und Vorrichtung zum Steuern einer Telekommunikationsendeinrichtung
DE102004011426B3 (de) Vorrichtung zum Erkennen einer in einem Sprachsignal enthaltenen Emotion und Verfahren zum Erkennen einer in einem Sprachsignal enthaltenen Emotion
DE102017213260A1 (de) Verfahren, Vorrichtung, mobiles Anwendergerät, Computerprogramm zur Steuerung eines Audiosystems eines Fahrzeugs
DE102019100403A1 (de) Verfahren zur Sprachverarbeitung und Sprachverarbeitungsvorrichtung
DE102014108371B4 (de) Verfahren zur Sprachsteuerung von unterhaltungselektronischen Geräten
EP3559941B1 (de) Sprachausgabestimme eines sprachbediensystems
DE10249060A1 (de) Dialogsteuerung für elektrisches Gerät
DE102023112333A1 (de) Verfahren zur sprachsteuerung von technischen geräten
DE102023112338A1 (de) Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe
WO2023061701A1 (de) Assistenzsystem und verfahren zur interaktion mit mindestens einem nutzer
EP4375990A2 (de) Verfahren zum training einer sprechererkennungseinheit eines hörgeräts sowie kombination aus einem solchen hörgerät und einem kommunikationsgerät

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee