DE10163213A1 - Verfahren zum Betrieb eines Spracherkennungssystems - Google Patents
Verfahren zum Betrieb eines SpracherkennungssystemsInfo
- Publication number
- DE10163213A1 DE10163213A1 DE10163213A DE10163213A DE10163213A1 DE 10163213 A1 DE10163213 A1 DE 10163213A1 DE 10163213 A DE10163213 A DE 10163213A DE 10163213 A DE10163213 A DE 10163213A DE 10163213 A1 DE10163213 A1 DE 10163213A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- user
- recognition system
- voice
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000000694 effects Effects 0.000 claims abstract description 44
- 230000005540 biological transmission Effects 0.000 claims abstract description 17
- 238000012790 confirmation Methods 0.000 claims description 27
- 230000011664 signaling Effects 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 230000009849 deactivation Effects 0.000 claims 2
- 238000004590 computer program Methods 0.000 claims 1
- 230000008901 benefit Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241001136792 Alle Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000006996 mental state Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Selective Calling Equipment (AREA)
Abstract
Beschrieben werden Verfahren zum Betrieb eines Spracherkennungssystems (1, 10), bei denen ein Sprachsignal eines Benutzers zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation analysiert wird. Bei einem ersten Verfahren gibt das Spracherkennungssystem (1), sofern es sich in einem empfangsaktiven Zustand befindet, auf eine Empfangsaktivitätsanfrage (A) eines Benutzers hin eine Empfangsaktivitätsbestätigung (B) aus. DOLLAR A Bei einem zweiten Verfahren werden vor einer Übermittlung von Sprachdaten (S), welche zumindest einen Teil des Sprachsignals und/oder zumindest einen Teil der Sprachinformationen umfassen, aus einem internen, benutzerkontrollierten Bereich (I) in einen externen Bereich (E) die betreffenden Sprachdaten (S) gefiltert und/oder es erfolgt eine Anzeige an den Benutzer, dass eine Übermittlung von Sprachdaten (S) in den externen Bereich (E) ansteht. Darüber hinaus werden entsprechende Spracherkennungssysteme (1, 10) beschrieben.
Description
- Die Erfindung befasst sich mit Verfahren zum Betrieb eines Spracherkennungssystems, bei denen ein Sprachsignal eines Benutzers zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation analysiert wird. Darüber hinaus betrifft die Erfindung entsprechende Spracherkennungssysteme zur Durchführung der Verfahren.
- Mit zunehmender Leistungsfähigkeit von Spracherkennungssystemen werden diese immer mehr in den verschiedensten Anwendungsbereichen eingesetzt. So gibt es beispielsweise bereits heute einigermaßen zufriedenstellend funktionierende Diktiersysteme, bei denen ein auf einem PC implementiertes Spracherkennungssystem kontinuierliche Sprache des Benutzers erfasst, erkennt und in eine Textdatei schreibt, die der Benutzer dann mit einem üblichen Textverarbeitungsprogramm weiter bearbeiten kann. Außerdem gibt es schon seit einiger Zeit verschiedene technische Geräte, welche mit Hilfe von Spracherkennungssystemen gesteuert werden. Diese Geräte verfügen jedoch häufig nur über einen sehr begrenzten Wortschatz von Kommandoworten, die zur Steuerung des Gerätes benötigt werden. Derartige Sprachsteuerungen haben viele Vorteile. Ein Hauptvorteil ist, dass eine Sprachsteuerung durch den Benutzer freihändig erfolgen kann und daher insbesondere in solchen Situationen nützlich ist, in denen der Benutzer seine Hände für andere Aufgaben benötigt. Dies betrifft beispielsweise die Steuerung von Peripheriegeräten wie Musikanlagen, Mobilfunkgeräten oder Navigationssystemen in Kfz, welche daher immer häufiger mit Sprachsteuerungen angeboten werden. Ebenso sind Spracherkennungssysteme bzw. Sprachsteuerungen besonders hilfreich für Personen, die in ihrer Bewegung stark eingeschränkt sind und daher die Sprache als einziges Kommunikations- und Steuerungsmittel zur Verfügung haben. Darüber hinaus sind Sprachsteuerungen aber auch ganz allgemein vorteilhaft, da sie eine Schnittstelle zwischen Mensch und Maschine bilden, welche an das natürliche Hauptkommunikationsmittel des Menschen - nämlich die Sprache - angepasst ist. Andere Mensch-Maschine-Schnittstellen wie beispielsweise eine Tastatur, mit der ja elektrische Impulse für die Maschine erzeugt werden, sind dagegen an die Maschine angepasst. Da die Sprachsignale drahtlos von der jeweils sprechenden Person zu der akustischen Erfassungseinrichtung, z. B. einem Mikrofon, der Spracherkennungseinrichtung gelangen, ist im Übrigen mit einer Sprachsteuerung vorteilhafterweise auch gleichzeitig eine zumindest kurzreichweitige Fernsteuerung von Geräten gegeben, ohne dass hierfür zusätzlicher Aufwand betrieben werden muss. So kann beispielsweise bei Geräten wie Fernsehern, Videorecordern oder anderen Geräten der Unterhaltungselektronik, bei denen eine Steuerung mittels Fernsteuereinheiten heutzutage üblich ist, bei einem Einsatz von Sprachsteuerungen auf separate Fernsteuereinheiten verzichtet werden.
- Es ist davon auszugehen, dass die Ausstattung von einzelnen Geräten mit isolierten Sprachsteuerungssystemen, welche jeweils Wörter, Sätze, Kommandos etc. für ihren Bereich verstehen, nur eine erste Stufe bezüglich der Entwicklung von automatischen Spracherkennungssystemen für den allgemeinen menschlichen Lebensraum ist. Aufgrund der ständigen schnellen technischen Weiterentwicklung wird voraussichtlich schon in einigen Jahren ein Zustand erreicht sein, bei dem die elektronischen Geräte einschließlich eventueller Sicherheitsanlagen zumindest in bestimmten Bereichen innerhalb eines - gegebenenfalls drahtlosen - Netzes untereinander verknüpft sind und allgemein durch Sprache steuerbar und kontrollierbar sind. Die Sprache des Benutzers wird dabei beispielsweise von einem oder mehreren Mikrofonen aufgenommen und von einer zentralen Rechnereinheit in einer Weise verarbeitet, dass der Benutzer die verschiedenen Geräte oder Funktionseinheiten im Netz beliebig ansprechen kann. Der Benutzer interagiert dabei mit einem ganzen Set von Funktionseinheiten bzw. mit einer Vermittlungsstelle für diese Funktionseinheiten, welche die Sprache des Benutzers versteht und dafür sorgt, dass entsprechend der gegebenen Kommandos die einzelnen Funktionseinheiten bzw. Geräte gesteuert werden. In den vernetzten Systemen kann dabei die Vermittlungsfunktion bzw. die Koordinierung der Geräte auch statt durch eine einzelne Vermittlungsstelle mit einem Spracherkennungssystem durch mehrere Spracherkennungssysteme erfolgen, welche entsprechend so untereinander vernetzt sind, dass sie in geeigneter Weise zusammenarbeiten. Das gesamte komplexe Steuerungssystem mit dem Spracherkennungssystem bzw. mit mehreren Spracherkennungssystemen sowie den jeweils angeschlossenen Geräten oder sonstigen Funktionseinheiten können als eine Art "Umgebungsintelligenz" angesehen werden.
- Das gesamte Steuerungssystem kann sich hierbei isoliert in den Räumen des Benutzers, beispielsweise innerhalb eines Wohnbereiches oder eines bestimmten Bürobereiches, befinden. Das System kann aber ebenso auch an externe Geräte, beispielsweise an das Internet oder an ein Intranet angeschlossen sein. Insbesondere können sich auch bestimmte Teile eines Spracherkennungssystems, beispielsweise ein besonders leistungsfähiges Spracherkennungsmodul, auf einem externen Rechner befinden, welcher bei Bedarf über eine Datenleitung, beispielsweise über das Internet oder das Intranet, angesprochen wird. Dabei wird das Sprachsignal an den externen Rechner übermittelt und anschließend werden die erkannten Sprachinformationen an das jeweilige System vor Ort zurückgesandt. Solche großflächig vernetzten Systeme sind an sich vorteilhaft, weil in der Regel für eine leistungsfähige Spracherkennung ein entsprechend leistungsfähiger Rechner zur Verfügung stehen muss und eine passende Vernetzung es ermöglicht, dass sich mehrere Spracherkennungs- bzw. -steuerungssysteme einen gemeinsamen externen Rechner teilen können, wodurch dieser besser ausgelastet wird.
- Neben den oben genannten vielen Vorteilen, die eine solche "Umgebungsintelligenz" - sei es in Form von einzelnen Geräten mit separaten Spracherkennungssystemen oder in Form eines komplexen Steuerungssystems - aufweist, besteht jedoch andererseits der Nachteil, dass das jeweilige System dem Benutzer ständig "zuhört", um aus den Gesprächen des Benutzers Befehle an das System zu extrahieren. Das Problem besteht hierbei darin, dass der Benutzer aufgrund einer komplexen Vernetzung der einzelnen Spracherkennungssysteme und Geräte sowie durch eine in der Regel aus optischen Gründen meist unauffällige Anbringung der Komponenten der Systeme nicht mehr ohne weiteres feststellen kann, ob das Spracherkennungssystem- bzw. bei mehreren Spracherkennungssystemen welches Spracherkennungssystem - aktiv ist bzw. in welchem Umfang die einzelnen Spracherkennungssysteme aktiv sind.
- Dieses Problem stellt sich für den Benutzer um so mehr, wenn es sich um ein Spracherkennungssystem handelt, welches an einen externen Bereich angeschlossen ist bzw. wenn sich das Spracherkennungssystem ganz oder teilweise in einem externen Bereich befindet, den der Benutzer nicht vollständig kontrollieren kann, und Sprachdaten des Nutzers aus dem "internen", benutzerkontrollierten Bereich, beispielsweise dem Wohnzimmer oder einem Büro des Benutzers, in diesen externen Bereich übermittelt werden. Unter Sprachdaten werden dabei im Folgenden entweder das erfasste Sprachsignal selbst in der ursprünglichen oder gegebenenfalls veränderten Form sowie die aus dem Sprachsignal erkannten Sprachinformationen bzw. Teile davon verstanden. Bei den aus dem Sprachsignal erkannten Sprachinformationen kann es sich im Übrigen nicht nur um Worte, Wortkombinationen, Sätze oder dergleichen handeln, sondern auch um Informationen über die Identität der sprechenden Person, welche z. B. anhand der in der Sprache enthaltenen charakteristischen biometrischen Informationen ermittelbar sind. Ebenso können zu diesen Sprachinformationen auch Informationen über einen aktuellen Gemütszustand der Person gehören, die beispielsweise durch Stimmveränderungen, Stimmlage, Geschwindigkeit beim Sprechen etc. aus den Sprachsignalen extrahierbar sind.
- Da es für den Benutzer nicht transparent ist, ob und in welcher Form seine Aussagen zu einem bestimmten Zeitpunkt durch ein Spracherkennungssystem erfasst und analysiert oder auch gespeichert und/oder abgehört werden, kann es zu Situationen kommen, in denen sich der Benutzer durch das permanente Zuhören des Spracherkennungssystems bzw. der Spracherkennungssysteme gestört fühlt. Dies gilt z. B. sicherlich für Situationen, in denen der Benutzer ein rein vertrauliches Gespräch führen will. Dies gilt natürlich vor allem bei einem Einsatz von besonders leistungsfähigen Spracherkennungssystemen, die nicht nur in der Lage sind, bestimmte Kommandoworte oder -wortkombinationen zu verstehen, sondern kontinuierliche Sprache des Benutzers erfassen, analysieren und verarbeiten können. Insbesondere ist es dabei für den Benutzer unangenehm, wenn er nicht weiß, ob seine Sprache gegebenenfalls sogar innerhalb des Spracherkennungssystems aufgezeichnet oder in anderer Weise bearbeitet wird, indem beispielsweise eine Abfrage nach bestimmten Schlüsselworten oder bestimmten Sätzen erfolgt oder sogar eine Statistik entwickelt wird über negative Bemerkungen, die zu einem bestimmten Thema registriert werden. Dies ist vom Benutzer in der Regel verständlicherweise nicht gewünscht.
- Es ist daher Aufgabe der vorliegenden Erfindung, entsprechende Verfahren bzw. Spracherkennungssysteme anzugeben, bei denen der Benutzer besser kontrollieren kann, inwieweit von ihm getätigte Äußerungen von einem Spracherkennungssystem erfasst und verarbeitet werden.
- Diese Aufgabe wird zum einen dadurch gelöst, dass das Spracherkennungssystem, sofern es sich in einem empfangsaktiven Zustand befindet, auf eine Empfangsaktivitätsanfrage eines Benutzers hin, mit welcher der Benutzer abfragt, ob sich das Spracherkennungssystem in einem empfangsaktiven Zustand befindet, eine Empfangsaktivitätsbestätigung an den Benutzer ausgibt. Der Begriff empfangsaktiv wird hier für einen Zustand benutzt, in dem Sprachsignale erfasst und in irgend einer Weise vom System verarbeitet werden. Empfangsaktiv ist ein System in diesem Sinne also immer dann, wenn das Spracherkennungssystem quasi "zuhört". Daneben kann es beispielsweise einen Betriebszustand geben, in dem das System "empfangsbereit" ist. In einem solchen Zustand ist das System nur insoweit aktiv, dass es nur auf einen bestimmten Befehl wie beispielsweise "Spracherkenner an" wartet, durch den das Spracherkennungssystem bei Bedarf eingeschaltet werden kann. Der Benutzer hat folglich die Möglichkeit, durch ein beliebiges Wort, einen Satz, eine Wortkombination oder gegebenenfalls auch über ein anderes definiertes akustisches Signal so mit dem Spracherkennungssystem zu kommunizieren, dass er von dem Spracherkennungssystem selber erfährt, ob es zuhört. Insbesondere hat der Benutzer somit vor der Äußerung von vertraulichen Bemerkungen immer die Möglichkeit, sich über die Aktivität des Spracherkennungssystems bzw. eines Spracherkennungssystems zu informieren.
- Bezüglich der Übermittlung von Sprachdaten in einen externen, nicht benutzerkontrollierten Bereich wird die Aufgabe dadurch gelöst, dass vor einer Übermittlung von Sprachdaten, welche zumindest einen Teil des Sprachsignals und/oder zumindest einen Teil von aus dem Sprachsignal erkannten Sprachinformationen umfassen, aus einem internen benutzerkontrollierten Bereich in den externen Bereich die Sprachdaten zuvor gefiltert werden und/oder eine Anzeige an den Benutzer erfolgt, bevor eine Übermittlung von Sprachdaten in den externen Bereich erfolgt. Auf diese Weise erhält der Benutzer die Kontrolle über seine Sprachdaten, bevor sie in den externen Bereich gelangen bzw. es wird zumindest angezeigt, dass derartige Daten an einen externen Bereich übermittelt werden, so dass er sich mit vertraulichen Äußerungen, von denen er nicht möchte, dass sie in den externen Bereich gelangen, zurückhalten kann.
- Zur Durchführung des ersten Verfahrens benötigt das Spracherkennungssystem eine Signalisierungseinrichtung zur Aussendung einer Empfangsbestätigung an den Benutzer, um den empfangsaktiven Zustand an den Benutzer in irgend einer Weise anzuzeigen. Außerdem muss das Spracherkennungssystem entsprechend ausgebildet sein, um im empfangsaktiven Zustand die Empfangsaktivitätsanfrage des Benutzers zu erkennen und dementsprechend die Aussendung der Empfangsaktivitätsbestätigung über die Signalisierungseinrichtung zu veranlassen. Bei der Signalisierungseinrichtung kann es sich um eine Sprachausgabeeinrichtung des Spracherkennungssystems handeln, beispielsweise einen Text-To-Speech-Konverter oder eine Ausgabe mit vorformulierten, gespeicherten Audiotexten, die für den Benutzer abgespielt werden. In diesem Fall erfolgt die Empfangaktivitätsbestätigung in Form eines entsprechenden Sprachsignals an den Benutzer, beispielsweise durch eine Mitteilung "Spracherkennungssystem ist aktiv".
- Zur Durchführung des zweiten Verfahrens muss das Spracherkennungssystem, welches eine Komponente in dem externen Bereich umfasst oder mit dem externen Bereich so verbunden ist, dass bestimmte Sprachdaten in den externen Bereich übermittelt werden, eine geeignete Filtereinrichtung aufweisen, welche die Sprachdaten vor der Übermittlung in den externen Bereich filtert. Alternativ oder zusätzlich muss es eine Signalisierungseinrichtung aufweisen, um dem Benutzer zuvor anzuzeigen, wann eine solche Übermittlung von Sprachdaten in den externen Bereich erfolgen soll. Bei dieser Signalisierungseinrichtung kann es sich ebenfalls um eine Sprachausgabeeinrichtung handeln, mit der das Spracherkennungssystem ein entsprechendes Sprachsignal über einen Lautsprecher an den Benutzer ausgibt.
- Insbesondere wenn mehrere Spracherkennungssysteme aktiv sein könnten, ist es sinnvoll, wenn die Empfangsaktivitätsbestätigung eine Information enthält, anhand der der Benutzer erfährt, um welches Spracherkennungssystem es sich handelt. Bei mehreren vernetzten Spracherkennungssystemen erfolgt dabei die Empfangsaktivitätsbestätigung gegebenenfalls auch gemeinsam für alle aktiven Spracherkennungssysteme über eine Sprachausgabeeinrichtung, beispielsweise durch eine Mitteilung "Spracherkennungssysteme X, Y und Z sind aktiv".
- Um die Sicherheit des Verfahrens bzw. des Spracherkennungssystems zu erhöhen, wird vorzugsweise die Ausgabe der Empfangsaktivitätsbestätigung durch das Spracherkennungssystem selbst überprüft. Bei einer fehlerhaften, insbesondere bei einer völlig fehlenden Ausgabe der Empfangsaktivitätsbestätigung reagiert das Spracherkennungssystem in der vorbestimmten Weise. Vorzugsweise deaktiviert sich das System selbst. Diese Maßnahme verhindert, dass der Benutzer irrtümlich der Ansicht ist, dass kein Spracherkennungssystem empfangsaktiv ist, weil er auf eine Empfangsaktivitätsanfrage hin - beispielsweise wegen eines Fehlers des Spracherkennungssystems oder aufgrund einer bewussten Manipulation an der Signalisierungseinheit - keine Empfangsaktivitätsbestätigung erhält. Sofern es sich bei der Empfangsaktivitätsbestätigung um ein Sprachsignal handelt, ist die Überprüfung relativ einfach durchführbar, indem das Spracherkennungssystem mit den Mitteln, mit denen auch die Sprachsignale des Benutzers erfasst werden, die Ausgabe des eigenen Sprachsignals erfasst und bei der darauffolgenden Erkennung bzw. Bearbeitung als eigene Empfangsaktivitätsbestätigung erkennt.
- Vorzugsweise hat der Benutzer jederzeit die Möglichkeit - wenn er beispielsweise eine vertrauliche Äußerung von sich geben möchte, die nicht von einem Spracherkennungssystem erfasst werden soll - ein empfangsaktives Spracherkennungssystem mittels eines Sprachbefehls zu deaktivieren und gegebenenfalls auch wieder zu aktivieren. Besonders bevorzugt ist hierbei ein Verfahren, bei dem der Benutzer gemäß Patentanspruch 6 die Möglichkeit hat, das System für eine bestimmte Zeit vorübergehend zu deaktivieren. Nach Ablauf der vorgegebenen Zeit schaltet sich das Spracherkennungssystem selbständig wieder ein.
- Insbesondere bei einem solchen automatisch erfolgenden Umschalten von einem deaktivierten Zustand in einen empfangsaktiven Zustand ist es vorteilhaft, wenn das Spracherkennungssystem von sich aus das Einschalten anzeigt. Bei einer derartigen Aktivierungsanzeige kann es sich um eine optische oder um eine akustische Anzeige, beispielsweise wieder um ein Sprachsignal, handeln. Eine akustische Anzeige ist insofern von Vorteil, dass der Benutzer die Anzeige unabhängig von seinem Standort und seiner Blickrichtung registrieren kann.
- Zusätzlich ist es möglich, dass das Spracherkennungssystem permanent auch optisch anzeigt, ob es empfangsaktiv ist. Eine solche permanente optische Anzeige ist möglich, da diese in der Regel den Benutzer nicht stört. Sie hat jedoch den Nachteil, dass sie nicht aus jeder Position des Benutzer gut erkennbar ist, so dass zur Erhöhung der Sicherheit in bestimmten Situationen, das heißt beispielsweise auf die genannte Empfangsaktivitätsanfrage hin oder bei einem automatischen Einschalten, vorzugsweise zusätzlich eine akustische Signalisierung erfolgen sollte.
- Bei Verwendung von mehreren Spracherkennungssystemen sollte der Benutzer vorzugsweise die Möglichkeit haben, ein ganz bestimmtes Spracherkennungssystem anzusprechen und zu deaktivieren und wieder zu aktivieren. So ist es beispielsweise durchaus sinnvoll, wenn der Benutzer im internen Bereich befindliche rudimentäre Spracherkennungssysteme, welche lediglich in der Lage sind, bestimmte Kommandoworte zu erkennen, um bestimmte Geräte zu steuern, nicht deaktiviert aber alle die Spracherkennungssysteme, welche in der Lage ist, kontinuierliche Sprache zu erkennen und zu verarbeiten, und/oder über die eventuell Sprachdaten in einen externen Bereich gelangen könnten, deaktiviert werden.
- Die Filterung der in den externen Bereich ausgehenden Sprachdaten kann automatisch erfolgen. Ein bevorzugtes Verfahren zur automatischen Filterung wird in Anspruch 10 genannt. Bei den dort genannten Schlüssel-Sprachdaten kann es sich beispielsweise um Schlüssel-Worte, -Sätze oder ganze -Satzsequenzen handeln. Die Sprachdaten werden bei der Filterung jeweils mit diesen Schlüssel-Sprachdaten verglichen und je nach Übereinstimmung mit den Schlüssel-Sprachdaten wird dann entschieden, ob die Sprachdaten an den externen Bereich übermittelt werden oder nicht. Es können dabei sowohl Schlüssel- Sprachdaten vorgegeben werden, die ohne weiteres übermittelt werden können, als auch Schlüssel-Sprachdaten, die auf keinen Fall übermittelt werden sollen.
- Anspruch 11 enthält eine Möglichkeit zur manuellen Filterung der Sprachdaten durch den Benutzer selbst. Eine solche manuelle Auswahl, nachdem das System angezeigt hat, dass eine Übermittlung von Sprachdaten ansteht, kann natürlich auch zusätzlich zu einer automatischen Filterung erfolgen. So ist es beispielsweise möglich, bestimmte Schlüssel- Sprachdaten zu hinterlegen, mit denen die herausgehenden Sprachdaten verglichen werden, und nur wenn ein Vergleich der für die Übermittlung vorgesehenen Sprachdaten mit den Schlüssel-Sprachdaten eine Übereinstimmung zeigt, wird dem Benutzer dies angezeigt, und es erfolgt dann eine manuelle Nachfilterung bzw. Kontrolle durch den Benutzer.
- Bei einer bevorzugten Ausführungsform wird das zweite Verfahren, bei dem die in einen externen Bereich übermittelten Sprachdaten gefiltert bzw. die Übermittlung vom Benutzer kontrolliert wird, mit dem ersten Verfahren, bei dem der Benutzer auf eine Empfangsaktivitätsanfrage hin eine Empfangsaktivitätsbestätigung erhält, kombiniert. Ein solches kombiniertes Spracherkennungssystem, welches beide Varianten enthält, bietet dem Benutzer die volle Kontrolle über die von ihm geäußerten Sprachsignale, das heißt der Benutzer hat es in der Hand, je nach Vertraulichkeitsstufe der Äußerungen und je nach Bedarf bezüglich der Steuerungsmöglichkeiten innerhalb des von ihm genutzten Bereiches entweder das Spracherkennungssystem ganz zu deaktivieren oder einfach die Übermittlung seiner Sprachdaten in den externen Bereich genau zu kontrollieren bzw. zu verhindern.
- Die Erfindung wird im Folgenden unter Hinweis auf die beigefügten Figuren anhand von Ausführungsbeispielen näher erläutert. Es zeigen:
- Fig. 1 eine schematische Darstellung eines Spracherkennungssystems bei der Ausgabe einer Empfangsaktivitätsbestätigung,
- Fig. 2 eine schematische Darstellung eines Spracherkennungssystems, welches eine Komponente in einem externen Bereich aufweist.
- Bei dem in Fig. 1 dargestellten Ausführungsbeispiel handelt es sich um ein relativ einfaches Spracherkennungssystem 1, welches eine einzelne Systemrechnereinheit 6, beispielsweise einen PC aufweist, auf dem ein Spracherkennungs-Softwaremodul 2 implementiert ist. Dieses lediglich als ein Block 2 dargestellte Spracherkennungsmodul 2 umfasst selbstverständlich neben den üblichen Programmteilen mit den Algorithmen zur Spracherkennung geeignete Bibliotheken, Grammatikregeln etc., auf deren Basis die Erkennung durchgeführt wird. Alle notwendigen Hardware-Komponenten wie Prozessor, Speicherplatz etc. werden von der Rechnereinheit 6 zur Verfügung gestellt.
- Zur Erfassung der Sprachsignale ist an die Rechnereinheit 6 ein Mikrofon 5 angeschlossen. Die mittels des Mikrofons 5 aufgezeichneten Sprachsignale werden in der Rechnereinheit 6 vom Spracherkennungsmodul 2 analysiert.
- Außerdem befindet sich auf der Rechnereinheit 6 als Sprachausgabeeinrichtung ein Text- To-Speech-Konverter (TTS-Konverter) 3, mit dem das Spracherkennungssystem Sprachsignale zur Kommunikation mit einem Benutzer (nicht dargestellt) erzeugt. Auch bei diesem TTS-Konverter 3 handelt es sich um ein Softwaremodul. Die Sprachsignale werden über einen an die Rechnereinheit 6 angeschlossenen Lautsprecher 4 ausgegeben.
- Die Rechnereinheit 6 enthält darüber hinaus noch ein Steuermodul 7, um anhand der erkannten Sprachinformationen ein gewünschtes Gerät oder mehrere Geräte anzusteuern und um die Sprachausgabeeinheit 3 anzusteuern. Die Steuerung von weiteren Geräten (nicht dargestellt) erfolgt über die Datenanbindung 8. Ebenso kann über das Steuermodul 7 auch das Spracherkennungsmodul 2 und/oder das Mikrofon 5 bzw. der Mikrofoneingang an der Rechnereinheit 6 angesteuert werden. So kann beispielsweise das Spracherkennungssystem 1 aktiviert oder deaktiviert werden.
- Es wird noch einmal ausdrücklich erwähnt, dass es sich bei dem dargestellten Spracherkennungssystem 1 lediglich um ein besonders einfaches Beispiel handelt und dass das Spracherkennungssystem 1 auch beliebig komplizierter aufgebaut sein kann. Insbesondere kann es mehrere verschiedene Spracherkennungsmodule mit z. B. unterschiedlicher Leistungsfähigkeit und/oder für unterschiedliche Anwendungen aufweisen. Die Spracherkennungsmodule können dann je nach Bedarf zur Steuerung verschiedener Geräte oder Funktionseinheiten eingesetzt werden, wobei es auch möglich ist, dass bestimmten Geräten bestimmte Spracherkennungsmodule fest zugeordnet sind. Ebenso kann das Spracherkennungssystem auch andere Sprachausgabeeinrichtungen unterschiedlichster Art aufweisen. Weiterhin kann die Rechnereinheit 6 mit den verschiedensten zusätzlichen Programmen ausgestattet sein, um je nach Aufgabe, beispielsweise zur Steuerung eines bestimmten angeschlossenen Gerätes oder Systems, in einer vorgesehenen Weise auf Sprachbefehle des Benutzers zu reagieren. Es kann sich bei der Rechnereinheit auch um einen Rechner handeln, der ansonsten auch für andere Anwendungen genutzt wird, beispielsweise einen PC des Benutzers. Das Spracherkennungssystem kann auch eine beliebige Anzahl von untereinander vernetzten Rechnereinheiten aufweisen, auf die die verschiedenen Aufgaben bzw. Softwaremodule verteilt sind.
- Damit der Benutzer jederzeit kontrollieren kann, ob von ihm geäußerte Sprachsignale von dem Spracherkennungssystem 1 erfasst und bearbeitet werden, hat er die Möglichkeit, eine Sprachaktivitätsanfrage A an das Spracherkennungssystem 1 zu richten. Typisch wäre hier beispielsweise die Anfrage A "Spracherkenner aktiv?". Sofern das Spracherkennungssystem empfangsaktiv ist, das heißt sich in einem Modus befindet, in dem Sprachsignale des Benutzer erfasst und bearbeitet werden, wird automatisch auch diese Empfangsaktivitätsanfrage A vom Mikrofon 5 erfasst und vom Spracherkennungsmodul 2 analysiert. Dort wird als Sprachinformation aus dem Sprachsignal die Anfrage A "Spracherkenner aktiv?" erkannt. Die erkannte Anfrage A wird dann beispielsweise von dem Steuerungsmodul 7 bearbeitet. Dieses Steuerungsmodul 7 ist so programmiert, dass auf eine erkannte Sprachaktivitätsanfrage A hin mittels des TTS-Konverters 3 eine entsprechende Empfangsaktivitätsbestätigung B über den Lautsprecher 4 ausgegeben wird, beispielsweise der Satz "Spracherkenner ist aktiv".
- Durch eine Störung oder eine Manipulation an der Rechnereinheit 6, den Datenleitungen bzw. weiteren Geräten des Systems 1, beispielsweise durch eine Unterbrechung der Leitung vom Ausgang des TTS-Konverters 3 zum Lautsprecher 4, kann es dazu kommen, dass keine Sprachaktivitätsbestätigung B an den Benutzer ausgegeben wird, obwohl dieser eine Sprachaktivitätsanfrage A an das Spracherkennungssystem 1 gerichtet hat und das Spracherkennungssystem 1 empfangsaktiv ist. Der Benutzer würde sich dann zu Unrecht "sicher" fühlen. Daher ist das Steuermodul 7 derart programmiert, dass überprüft wird, ob die am Lautsprecher 4 ausgegebene Sprachaktivitätsbestätigung B vom Mikrofon 5 des Spracherkennungssystems 1 wieder erfasst und vom eigenen Spracherkennungsmodul 2 erkannt wird. Sofern das Spracherkennungssystem eine vorgegebene Zeitspanne nach Ausgabe einer Sprachaktivitätsbestätigung B diese Sprachaktivitätsbestätigung B nicht über den eigenen Eingangskanal wieder registriert, deaktiviert das Steuermodul 7 das Spracherkennungsmodul 2 zumindest soweit, dass das Spracherkennungssystem 1 insgesamt allenfalls noch in der Lage ist, auf einen bestimmten Befehl wie "Spracherkennungssystem an" zu reagieren.
- Bei einem komplexeren Spracherkennungssystem, das mehrere Spracherkennungsmodule für verschiedene Geräte aufweist, welche gegebenenfalls separat innerhalb des Spracherkennungssystems aktiviert und deaktiviert werden können, ist es sinnvoll, wenn mit der Sprachaktivitätsbestätigung auch ausgegeben wird, inwieweit das Spracherkennungssystem 1 aktiv ist, beispielsweise durch eine Ausgabe "Spracherkennung für TV und für Videorecorder sind eingeschaltet".
- Ebenso ist es bei einer parallelen Verwendung von mehreren Spracherkennungssystemen 1 sinnvoll, wenn die Sprachaktivitätsbestätigung B Informationen darüber enthält, welches Spracherkennungssystem sich meldet, beispielsweise durch eine Aussage "Spracherkennungssystem für Küchenbereich ist aktiv". Umgekehrt kann auch die Sprachaktivitätsanfrage A sowohl an bestimmte Systeme als auch global an alle Spracherkennungssysteme gerichtet sein, indem der Benutzer beispielsweise eine spezielle Aktivitätsanfrage wie "Spracherkennungssystem für Internet und Telekommunikation aktiv?" oder eine allgemeine Aktivitätsanfrage wie "Irgend ein Spracherkenner aktiv?" stellt. Dies ist vor allem dann sinnvoll, wenn beispielsweise nur bestimmte Systeme eine Verbindung zu einem externen Bereich haben und/oder in der Lage sind, kontinuierliche Sprache zu verstehen, wogegen andere Spracherkennungssysteme ohnehin nur eine begrenzte Anzahl von Kommandoworten verstehen.
- Bei einer Deaktivierung kann sich der entsprechende Sprachbefehl ebenfalls global an mehrere Spracherkennungssysteme richten. So kann z. B. ein Befehl "Alle Spracherkenner für fünf Minuten aus" von allen Sprachsystemen, die zu diesem Zeitpunkt empfangsaktiv sind, empfangen und verarbeitet werden. Der Befehl kann aber auch nur an einzelne Spracherkennungssysteme oder einzelne Spracherkennungsmodule in einem Spracherkennungssystem gerichtet sein, die direkt vom Benutzer benannt werden.
- Fig. 2 zeigt ein einfaches Beispiel für ein Spracherkennungssystem 10, welches ähnlich aufgebaut ist wie das Spracherkennungssystem 1 gemäß Fig. 1. Dieses Spracherkennungssystem weist ebenfalls eine Rechnereinheit 7 mit einem Spracherkennungsmodul 11, einem TTS-Konverter 12 und einem Steuerungsmodul 13 auf. Ebenso sind an die Rechnereinheit 7 ein Mikrofon 8 zur Erfassung von Sprachsignalen des Benutzers und ein Lautsprecher 9 zur Ausgabe von Sprachsignalen des TTS-Konverters 12 angeschlossen. Diese Rechnereinheit 7 mit dem Spracherkennungssystem 10 befindet sich in einem internen Bereich I, welcher vom Benutzer gut kontrollierbar ist; beispielsweise handelt es sich um einen PC in einem Büro des Benutzers.
- Eine weitere Komponente des Systems 10 befindet sich dagegen auf einem zentralen Server 15 in einem externen Bereich E, beispielsweise auf einem Server 15 eines Firmen-Intranets. Über die Verbindung der Rechnereinheit 7 des Spracherkennungssystems 10 zu dem externen Server 15 werden bei bestimmten Aktionen Sprachdaten S. das heißt die vom Mikrofon 8 aufgezeichneten Sprachsignale des Benutzers oder mittels der Spracherkennungseinrichtung 11 aus den Sprachsignalen erkannte Sprachinformationen an den externen Server 15 und damit an das Intranet übermittelt. Der Benutzer selber hat dabei in der Regel keine Kontrolle, was mit diesen Sprachdaten geschieht und in welcher Form gegebenenfalls diese Sprachdaten außer für die eigene Anwendung genutzt, gespeichert und verarbeitet werden. Daher gibt das erfindungsgemäße Spracherkennungssystem 10 dem Benutzer die Möglichkeit, die Übermittlung dieser Sprachdaten S in den externen Bereich E zu kontrollieren.
- In dem konkret dargestellten Ausführungsbeispiel handelt es sich um bereits vom Spracherkennungsmodul 11 erkannte Sprachinformationen, die an den Server 15 übermittelt werden, um beispielsweise über die Rechnereinheit 7 in dem genannten Intranet zu surfen. Das heißt, es werden in diesem Fall nicht das Sprachsignal des Benutzer selbst, sondern die aus dem Sprachsignal erkannten Sprachinformationen an den Server 15 übermittelt.
- Um zu verhindern, dass für den Benutzer unerkannt Sprachdaten S in den externen Bereich E übermittelt werden, werden die ausgehenden Sprachdaten S in einem Filter 14, welcher sich auf der im internen Bereich I angeordneten Rechnereinheit 7 befindet, gefiltert. Bei dem Filter 14 handelt es sich hier ebenfalls um ein Softwaremodul mit einem zugehörigen Speicherbereich, in dem Schlüssel-Worte oder
- - Wortkombinationen hinterlegt sind, die der Benutzer frei wählen kann. Dabei handelt es sich beispielsweise um Schlüssel-Worte oder
- - Wortkombinationen, von denen der Benutzer wünscht, dass zunächst eine Warnung an den Benutzer erfolgt, wenn zur Übermittlung in den externen Bereich E bestimmte Sprachdaten S diese Schlüssel-Worte oder -Wortkombinationen enthalten. Im Filter 14 werden daher alle ausgehenden Sprachdaten S zunächst mit den Schlüssel-Worten bzw. -Wortkombinationen verglichen. Sofern Sprachdaten S diese Schlüssel-Worte oder -Wortkombinationen enthalten, wird über das Steuerungsmodul 13 veranlasst, dass von dem TTS-Konverter 12 über den Lautsprecher 9 eine Warnung an den Benutzer ausgegeben wird.
- Diese Warnung enthält beispielsweise eine Wiedergabe der betreffenden Sprachdaten S, die zur Ausgabe anstehen. Der Benutzer wird dann um eine Bestätigung für die Übermittlung gebeten, das heißt das Spracherkennungssystem 10 fragt noch einmal beim Benutzer nach, ob es die bestimmten Sprachdaten S in den externen Bereich E übermitteln darf.
- Durch die Erfindung wird gewährleistet, dass Personen, welche Spracherkennungstechnologien in ihrem täglichen Leben verwenden, sicher sein können, dass diese Techniken nicht unter Verletzung ihrer Privatsphäre missbraucht werden. Die vorgeschlagenen Verfahren und Spracherkennungssysteme stellen folglich sicher, dass die ergonomischen Vorteile einer sprachverstehenden "Umgebungsintelligenz" nicht zu einem den Benutzer überwachenden Kontrollsystem ausgebaut werden können. Der Benutzer kann somit die Vorteile der Spracherkennungssysteme nutzen und dennoch die volle Kontrolle über die Spracherkennungssysteme behalten, insbesondere durch die Kenntnis, welche Spracherkennungssysteme aktiv sind und inwieweit Daten einen bestimmten Privatbereich verlassen.
Claims (14)
1. Verfahren zum Betrieb eines Spracherkennungssystems (1), bei welchem ein
Sprachsignal eines Benutzers zur Erkennung einer im Sprachsignal enthaltenen
Sprachinformation analysiert wird,
dadurch gekennzeichnet,
dass das Spracherkennungssystem (1), sofern es sich in einem empfangsaktiven Zustand befindet, in welchem Sprachsignale erfasst und bearbeitet werden,
auf eine Empfangsaktivitätsanfrage (A) eines Benutzers hin, mit welcher der Benutzer abfragt, ob sich das Spracherkennungssystem (1) in einem empfangsaktiven Zustand befindet,
eine Empfangsaktivitätsbestätigung (B) an den Benutzer ausgibt.
dass das Spracherkennungssystem (1), sofern es sich in einem empfangsaktiven Zustand befindet, in welchem Sprachsignale erfasst und bearbeitet werden,
auf eine Empfangsaktivitätsanfrage (A) eines Benutzers hin, mit welcher der Benutzer abfragt, ob sich das Spracherkennungssystem (1) in einem empfangsaktiven Zustand befindet,
eine Empfangsaktivitätsbestätigung (B) an den Benutzer ausgibt.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
dass die Empfangsaktivitätsbestätigung (B) ein Sprachsignal einer
Sprachausgabeeinrichtung (3) umfasst.
3. Verfahren nach Anspruch 1 oder 2,
dadurch gekennzeichnet,
dass die Empfangsaktivitätsbestätigung (B) eine Information zur Identifizierung des
empfangsaktiven Spracherkennungssystems (1) umfasst.
4. Verfahren nach einem der Ansprüche 1 bis 3,
dadurch gekennzeichnet,
dass das Spracherkennungssystem (1) die Ausgabe der Empfangsaktivitätsbestätigung (B)
überprüft und bei einer fehlerhaften Ausgabe der Empfangsaktivitätsbestätigung (B) in
einer vordefinierten Weise reagiert.
5. Verfahren nach Anspruch 2 und 4,
dadurch gekennzeichnet,
dass die Ausgabe der Empfangsaktivitätsbestätigung (B) überprüft wird, indem das
Spracherkennungssystem (1) die Ausgabe des entsprechenden Sprachsignals der
Sprachausgabeeinrichtung (3) akustisch erfasst und als eigene
Empfangsaktivitätsbestätigung (B) erkennt.
6. Verfahren nach einem der Ansprüche 1 bis 5,
dadurch gekennzeichnet,
dass der Benutzer das empfangsaktive Spracherkennungssystem mittels eines
Deaktivierungsbefehls vorübergehend deaktiviert, wobei der Deaktivierungsbefehl einen
Zeitparameter umfasst, welcher vorgibt, wie lange das Spracherkennungssystem deaktiviert
wird.
7. Verfahren nach einem der Ansprüche 1 bis 6,
dadurch gekennzeichnet,
dass das Spracherkennungssystem anzeigt, wenn es in einen empfangsaktiven Zustand
umschaltet.
8. Verfahren zum Betrieb eines Spracherkennungssystem (10), bei welchem ein
Sprachsignal eines Benutzers zur Erkennung einer im Sprachsignal enthaltenen
Sprachinformation analysiert wird,
dadurch gekennzeichnet,
dass vor einer Übermittlung von Sprachdaten (S), welche zumindest einen Teil des
Sprachsignals und/oder zumindest einen Teil von aus dem Sprachsignal erkannten
Sprachinformationen umfassen, aus einem internen, benutzerkontrollierten Bereich (I) in
einen externen Bereich (E) die Sprachdaten (S) gefiltert werden und/oder eine Anzeige an
den Benutzer erfolgt, dass eine Übermittlung von Sprachdaten (S) in den externen Bereich
(E) ansteht.
9. Verfahren nach Anspruch 8,
dadurch gekennzeichnet,
dass eine Filterung der Sprachdaten (S) vor der Übermittlung in den externen Bereich (E)
automatisch erfolgt.
10. Verfahren nach Anspruch 9,
dadurch gekennzeichnet,
dass die automatische Filterung der Sprachdaten (S) unter Verwendung von zuvor
definierten Schlüssel-Sprachdaten erfolgt.
11. Verfahren nach einem der Ansprüche 8 bis 10,
dadurch gekennzeichnet,
dass dem Benutzer angezeigt wird, welche Sprachdaten (S) in den externen Bereich (E)
übermittelt werden sollen, und der Benutzer daraufhin festlegt, welche der Sprachdaten (S)
in den externen Bereich (E) übermittelt werden dürfen.
12. Spracherkennungssystem (1) zur Durchführung eines Verfahrens nach einem der
Ansprüche 1 bis 7 mit Mitteln (5) zur Erfassung eines Sprachsignals eines Benutzers und
Mitteln (2) zur Analyse des Sprachsignals zur Erkennung einer im Sprachsignal enthaltenen
Sprachinformation,
dadurch gekennzeichnet,
dass das Spracherkennungssystem (7) eine Signalisierungseinrichtung (2, 4) zur Aussendung einer Empfangsaktivitätsbestätigung (B) an den Benutzer aufweist, mit welcher angezeigt wird, dass sich das Spracherkennungssystem (1) in einem empfangsaktiven Zustand befindet, in welchem Sprachsignale erfasst und bearbeitet werden,
und dass das Spracherkennungssystem (1) derart ausgebildet ist, dass es in dem empfangsaktiven Zustand eine Empfangsaktivitätsanfrage (A) eines Benutzers, mit welcher der Benutzer abfragt, ob sich das Spracherkennungssystem (1) in einem empfangsaktiven Zustand befindet, erkennt und daraufhin die Empfangsaktivitätsbestätigung (B) aussendet.
dass das Spracherkennungssystem (7) eine Signalisierungseinrichtung (2, 4) zur Aussendung einer Empfangsaktivitätsbestätigung (B) an den Benutzer aufweist, mit welcher angezeigt wird, dass sich das Spracherkennungssystem (1) in einem empfangsaktiven Zustand befindet, in welchem Sprachsignale erfasst und bearbeitet werden,
und dass das Spracherkennungssystem (1) derart ausgebildet ist, dass es in dem empfangsaktiven Zustand eine Empfangsaktivitätsanfrage (A) eines Benutzers, mit welcher der Benutzer abfragt, ob sich das Spracherkennungssystem (1) in einem empfangsaktiven Zustand befindet, erkennt und daraufhin die Empfangsaktivitätsbestätigung (B) aussendet.
13. Spracherkennungssystem (10) zur Durchführung eines Verfahrens nach einem der
Ansprüche 8 bis 11 mit Mitteln (8) zur Erfassung eines Sprachsignals eines Benutzers und
Mitteln (11) zur Analyse des Sprachsignals zur Erkennung einer im Sprachsignal
enthaltenen Sprachinformation,
dadurch gekennzeichnet,
dass das Spracherkennungssystem (10) zumindest teilweise in einem externen Bereich (E) angeordnet ist, welcher nicht von einem Benutzer des Spracherkennungssystems (10) kontrollierbar ist, und/oder mit einem externen Bereich (E) verbunden ist, so dass Sprachdaten (S), welche zumindest einen Teil des Sprachsignals und/oder zumindest einen Teil von aus dem Sprachsignal erkannten Sprachinformationen umfassen, aus einem internen, benutzerkontrollierten Bereich (I) in den externen Bereich (E) übermittelt werden,
und dass das Spracherkennungssystem (10) eine Filtereinrichtung (14), mit welcher die Sprachdaten (S) vor der Übermittlung in den externen Bereich gefiltert werden, und/oder eine Signalisierungseinrichtung (9, 12) aufweist, um dem Benutzer zuvor anzuzeigen, wenn eine Übermittlung von Sprachdaten (S) in den externen Bereich (E) erfolgen soll.
dass das Spracherkennungssystem (10) zumindest teilweise in einem externen Bereich (E) angeordnet ist, welcher nicht von einem Benutzer des Spracherkennungssystems (10) kontrollierbar ist, und/oder mit einem externen Bereich (E) verbunden ist, so dass Sprachdaten (S), welche zumindest einen Teil des Sprachsignals und/oder zumindest einen Teil von aus dem Sprachsignal erkannten Sprachinformationen umfassen, aus einem internen, benutzerkontrollierten Bereich (I) in den externen Bereich (E) übermittelt werden,
und dass das Spracherkennungssystem (10) eine Filtereinrichtung (14), mit welcher die Sprachdaten (S) vor der Übermittlung in den externen Bereich gefiltert werden, und/oder eine Signalisierungseinrichtung (9, 12) aufweist, um dem Benutzer zuvor anzuzeigen, wenn eine Übermittlung von Sprachdaten (S) in den externen Bereich (E) erfolgen soll.
14. Computerprogramm mit Programmcode-Mitteln, um alle Schritte eines Verfahrens
nach einem der Ansprüche 1 bis 7 und/oder um alle Schritte eines Verfahrens nach einem
der Ansprüche 8 bis 11 auszuführen, wenn das Programm auf einem Computer ausgeführt
wird.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10163213A DE10163213A1 (de) | 2001-12-21 | 2001-12-21 | Verfahren zum Betrieb eines Spracherkennungssystems |
PCT/IB2002/005471 WO2003054854A2 (en) | 2001-12-21 | 2002-12-16 | Method of operating a speech recognition system |
US10/498,959 US7962337B2 (en) | 2001-12-21 | 2002-12-16 | Method of operating a speech recognition system |
EP02788378A EP1459294A2 (de) | 2001-12-21 | 2002-12-16 | Betriebsverfahren für ein spracherkennungssystem |
AU2002353356A AU2002353356A1 (en) | 2001-12-21 | 2002-12-16 | Method of operating a speech recognition system |
JP2003555492A JP2005513559A (ja) | 2001-12-21 | 2002-12-16 | 音声認識システムを操作する方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10163213A DE10163213A1 (de) | 2001-12-21 | 2001-12-21 | Verfahren zum Betrieb eines Spracherkennungssystems |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10163213A1 true DE10163213A1 (de) | 2003-07-10 |
Family
ID=7710342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10163213A Withdrawn DE10163213A1 (de) | 2001-12-21 | 2001-12-21 | Verfahren zum Betrieb eines Spracherkennungssystems |
Country Status (6)
Country | Link |
---|---|
US (1) | US7962337B2 (de) |
EP (1) | EP1459294A2 (de) |
JP (1) | JP2005513559A (de) |
AU (1) | AU2002353356A1 (de) |
DE (1) | DE10163213A1 (de) |
WO (1) | WO2003054854A2 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102005052843A1 (de) * | 2005-11-05 | 2007-05-10 | GM Global Technology Operations, Inc., Detroit | Spracherkennungssystem in einem Kraftfahrzeug |
DE102013001219A1 (de) * | 2013-01-25 | 2014-07-31 | Inodyn Newmedia Gmbh | Verfahren zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
Families Citing this family (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7302048B2 (en) * | 2004-07-23 | 2007-11-27 | Marvell International Technologies Ltd. | Printer with speech transcription of a recorded voice message |
US8442824B2 (en) | 2008-11-26 | 2013-05-14 | Nuance Communications, Inc. | Device, system, and method of liveness detection utilizing voice biometrics |
US8346549B2 (en) | 2009-12-04 | 2013-01-01 | At&T Intellectual Property I, L.P. | System and method for supplemental speech recognition by identified idle resources |
US8103554B2 (en) * | 2010-02-24 | 2012-01-24 | GM Global Technology Operations LLC | Method and system for playing an electronic book using an electronics system in a vehicle |
JP2013529794A (ja) | 2010-06-24 | 2013-07-22 | 本田技研工業株式会社 | 車載音声認識システム及び車両外音声認識システム間の通信システム及び方法 |
US8971503B1 (en) * | 2012-04-02 | 2015-03-03 | Ipdev Co. | Method of operating an ordering call center using voice recognition technology |
KR101732137B1 (ko) * | 2013-01-07 | 2017-05-02 | 삼성전자주식회사 | 원격 제어 장치 및 전력 제어 방법 |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9826306B2 (en) | 2016-02-22 | 2017-11-21 | Sonos, Inc. | Default playback device designation |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
WO2019152722A1 (en) | 2018-01-31 | 2019-08-08 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US20210269073A1 (en) * | 2018-06-21 | 2021-09-02 | Siemens Mobility GmbH | Method and device for controlling a rail vehicle |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
CN109360570B (zh) * | 2018-10-19 | 2022-06-21 | 歌尔科技有限公司 | 语音设备的语音识别方法、语音设备及可读存储介质 |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (de) | 2018-11-15 | 2020-05-20 | Snips | Erweiterte konvolutionen und takt zur effizienten schlüsselwortauffindung |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5864815A (en) * | 1995-07-31 | 1999-01-26 | Microsoft Corporation | Method and system for displaying speech recognition status information in a visual notification area |
US5819225A (en) * | 1996-05-30 | 1998-10-06 | International Business Machines Corporation | Display indications of speech processing states in speech recognition system |
US5930751A (en) * | 1997-05-30 | 1999-07-27 | Lucent Technologies Inc. | Method of implicit confirmation for automatic speech recognition |
EP1058876B1 (de) * | 1999-01-06 | 2009-11-25 | Koninklijke Philips Electronics N.V. | Spracheingabegerät mit aufmerksamkeitsspanne |
US6584439B1 (en) * | 1999-05-21 | 2003-06-24 | Winbond Electronics Corporation | Method and apparatus for controlling voice controlled devices |
US6415258B1 (en) * | 1999-10-06 | 2002-07-02 | Microsoft Corporation | Background audio recovery system |
US20030009341A1 (en) * | 2001-07-05 | 2003-01-09 | Tien-Yao Cheng | Humanistic devices and methods for same |
-
2001
- 2001-12-21 DE DE10163213A patent/DE10163213A1/de not_active Withdrawn
-
2002
- 2002-12-16 US US10/498,959 patent/US7962337B2/en not_active Expired - Fee Related
- 2002-12-16 EP EP02788378A patent/EP1459294A2/de not_active Withdrawn
- 2002-12-16 WO PCT/IB2002/005471 patent/WO2003054854A2/en not_active Application Discontinuation
- 2002-12-16 AU AU2002353356A patent/AU2002353356A1/en not_active Abandoned
- 2002-12-16 JP JP2003555492A patent/JP2005513559A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102005052843A1 (de) * | 2005-11-05 | 2007-05-10 | GM Global Technology Operations, Inc., Detroit | Spracherkennungssystem in einem Kraftfahrzeug |
DE102013001219A1 (de) * | 2013-01-25 | 2014-07-31 | Inodyn Newmedia Gmbh | Verfahren zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
DE102013001219B4 (de) * | 2013-01-25 | 2019-08-29 | Inodyn Newmedia Gmbh | Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
Also Published As
Publication number | Publication date |
---|---|
US20050096905A1 (en) | 2005-05-05 |
EP1459294A2 (de) | 2004-09-22 |
AU2002353356A1 (en) | 2003-07-09 |
AU2002353356A8 (en) | 2003-07-09 |
JP2005513559A (ja) | 2005-05-12 |
US7962337B2 (en) | 2011-06-14 |
WO2003054854A3 (en) | 2003-12-24 |
WO2003054854A2 (en) | 2003-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE10163213A1 (de) | Verfahren zum Betrieb eines Spracherkennungssystems | |
EP1342054B1 (de) | Verfahren zur steuerung einer spracheingabe und -ausgabe | |
EP1927980A2 (de) | Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen | |
DE112014006409T5 (de) | Fahrzeugsteuervorrichtung und Fahrzeugsteuerverfahren | |
DE102014012184B4 (de) | Vorrichtung und Verfahren zur automatischen Erkennung und Klassifizierung von akustischen Signalen in einem Überwachungsbereich | |
DE10251113A1 (de) | Verfahren zum Betrieb eines Spracherkennungssystems | |
EP3661797B1 (de) | Verfahren, vorrichtung, mobiles anwendergerät, computerprogramm zur steuerung eines audiosystems eines fahrzeugs | |
DE10008226C2 (de) | Vorrichtung zur Sprachsteuerung und Verfahren zur Sprachsteuerung | |
DE102017213249A1 (de) | Verfahren und System zum Erzeugen einer auditiven Meldung in einem Innenraum eines Fahrzeugs | |
DE102021207673A1 (de) | Interrupt für geräuschunterdrückende audiovorrichtungen | |
EP1303166B1 (de) | Verfahren zum Betrieb eines Hörgerätes und Anordung mit einem Hörgerät | |
DE102017213252A1 (de) | Verfahren, Vorrichtung und Computerprogramm zum Variieren eines in einem Fahrzeug auszugebenden Audio-Inhalts | |
DE202008017602U1 (de) | Steuersystem | |
DE112018006597B4 (de) | Sprachverarbeitungsvorrichtung und Sprachverarbeitungsverfahren | |
DE102006058758A1 (de) | Verfahren und Vorrichtung zum Steuern einer Telekommunikationsendeinrichtung | |
DE102004011426B3 (de) | Vorrichtung zum Erkennen einer in einem Sprachsignal enthaltenen Emotion und Verfahren zum Erkennen einer in einem Sprachsignal enthaltenen Emotion | |
DE102017213260A1 (de) | Verfahren, Vorrichtung, mobiles Anwendergerät, Computerprogramm zur Steuerung eines Audiosystems eines Fahrzeugs | |
DE102019100403A1 (de) | Verfahren zur Sprachverarbeitung und Sprachverarbeitungsvorrichtung | |
DE102014108371B4 (de) | Verfahren zur Sprachsteuerung von unterhaltungselektronischen Geräten | |
EP3559941B1 (de) | Sprachausgabestimme eines sprachbediensystems | |
DE10249060A1 (de) | Dialogsteuerung für elektrisches Gerät | |
DE102023112333A1 (de) | Verfahren zur sprachsteuerung von technischen geräten | |
DE102023112338A1 (de) | Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe | |
WO2023061701A1 (de) | Assistenzsystem und verfahren zur interaktion mit mindestens einem nutzer | |
EP4375990A2 (de) | Verfahren zum training einer sprechererkennungseinheit eines hörgeräts sowie kombination aus einem solchen hörgerät und einem kommunikationsgerät |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8139 | Disposal/non-payment of the annual fee |