DE10163213A1

DE10163213A1 - Verfahren zum Betrieb eines Spracherkennungssystems

Info

Publication number: DE10163213A1
Application number: DE10163213A
Authority: DE
Inventors: Volker Steinbis
Original assignee: Philips Intellectual Property and Standards GmbH
Current assignee: Philips Intellectual Property and Standards GmbH
Priority date: 2001-12-21
Filing date: 2001-12-21
Publication date: 2003-07-10
Also published as: US20050096905A1; EP1459294A2; AU2002353356A1; AU2002353356A8; JP2005513559A; US7962337B2; WO2003054854A3; WO2003054854A2

Abstract

Beschrieben werden Verfahren zum Betrieb eines Spracherkennungssystems (1, 10), bei denen ein Sprachsignal eines Benutzers zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation analysiert wird. Bei einem ersten Verfahren gibt das Spracherkennungssystem (1), sofern es sich in einem empfangsaktiven Zustand befindet, auf eine Empfangsaktivitätsanfrage (A) eines Benutzers hin eine Empfangsaktivitätsbestätigung (B) aus. DOLLAR A Bei einem zweiten Verfahren werden vor einer Übermittlung von Sprachdaten (S), welche zumindest einen Teil des Sprachsignals und/oder zumindest einen Teil der Sprachinformationen umfassen, aus einem internen, benutzerkontrollierten Bereich (I) in einen externen Bereich (E) die betreffenden Sprachdaten (S) gefiltert und/oder es erfolgt eine Anzeige an den Benutzer, dass eine Übermittlung von Sprachdaten (S) in den externen Bereich (E) ansteht. Darüber hinaus werden entsprechende Spracherkennungssysteme (1, 10) beschrieben.

Description

Die Erfindung befasst sich mit Verfahren zum Betrieb eines Spracherkennungssystems, bei denen ein Sprachsignal eines Benutzers zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation analysiert wird. Darüber hinaus betrifft die Erfindung entsprechende Spracherkennungssysteme zur Durchführung der Verfahren.
Mit zunehmender Leistungsfähigkeit von Spracherkennungssystemen werden diese immer mehr in den verschiedensten Anwendungsbereichen eingesetzt. So gibt es beispielsweise bereits heute einigermaßen zufriedenstellend funktionierende Diktiersysteme, bei denen ein auf einem PC implementiertes Spracherkennungssystem kontinuierliche Sprache des Benutzers erfasst, erkennt und in eine Textdatei schreibt, die der Benutzer dann mit einem üblichen Textverarbeitungsprogramm weiter bearbeiten kann. Außerdem gibt es schon seit einiger Zeit verschiedene technische Geräte, welche mit Hilfe von Spracherkennungssystemen gesteuert werden. Diese Geräte verfügen jedoch häufig nur über einen sehr begrenzten Wortschatz von Kommandoworten, die zur Steuerung des Gerätes benötigt werden. Derartige Sprachsteuerungen haben viele Vorteile. Ein Hauptvorteil ist, dass eine Sprachsteuerung durch den Benutzer freihändig erfolgen kann und daher insbesondere in solchen Situationen nützlich ist, in denen der Benutzer seine Hände für andere Aufgaben benötigt. Dies betrifft beispielsweise die Steuerung von Peripheriegeräten wie Musikanlagen, Mobilfunkgeräten oder Navigationssystemen in Kfz, welche daher immer häufiger mit Sprachsteuerungen angeboten werden. Ebenso sind Spracherkennungssysteme bzw. Sprachsteuerungen besonders hilfreich für Personen, die in ihrer Bewegung stark eingeschränkt sind und daher die Sprache als einziges Kommunikations- und Steuerungsmittel zur Verfügung haben. Darüber hinaus sind Sprachsteuerungen aber auch ganz allgemein vorteilhaft, da sie eine Schnittstelle zwischen Mensch und Maschine bilden, welche an das natürliche Hauptkommunikationsmittel des Menschen - nämlich die Sprache - angepasst ist. Andere Mensch-Maschine-Schnittstellen wie beispielsweise eine Tastatur, mit der ja elektrische Impulse für die Maschine erzeugt werden, sind dagegen an die Maschine angepasst. Da die Sprachsignale drahtlos von der jeweils sprechenden Person zu der akustischen Erfassungseinrichtung, z. B. einem Mikrofon, der Spracherkennungseinrichtung gelangen, ist im Übrigen mit einer Sprachsteuerung vorteilhafterweise auch gleichzeitig eine zumindest kurzreichweitige Fernsteuerung von Geräten gegeben, ohne dass hierfür zusätzlicher Aufwand betrieben werden muss. So kann beispielsweise bei Geräten wie Fernsehern, Videorecordern oder anderen Geräten der Unterhaltungselektronik, bei denen eine Steuerung mittels Fernsteuereinheiten heutzutage üblich ist, bei einem Einsatz von Sprachsteuerungen auf separate Fernsteuereinheiten verzichtet werden.
Es ist davon auszugehen, dass die Ausstattung von einzelnen Geräten mit isolierten Sprachsteuerungssystemen, welche jeweils Wörter, Sätze, Kommandos etc. für ihren Bereich verstehen, nur eine erste Stufe bezüglich der Entwicklung von automatischen Spracherkennungssystemen für den allgemeinen menschlichen Lebensraum ist. Aufgrund der ständigen schnellen technischen Weiterentwicklung wird voraussichtlich schon in einigen Jahren ein Zustand erreicht sein, bei dem die elektronischen Geräte einschließlich eventueller Sicherheitsanlagen zumindest in bestimmten Bereichen innerhalb eines - gegebenenfalls drahtlosen - Netzes untereinander verknüpft sind und allgemein durch Sprache steuerbar und kontrollierbar sind. Die Sprache des Benutzers wird dabei beispielsweise von einem oder mehreren Mikrofonen aufgenommen und von einer zentralen Rechnereinheit in einer Weise verarbeitet, dass der Benutzer die verschiedenen Geräte oder Funktionseinheiten im Netz beliebig ansprechen kann. Der Benutzer interagiert dabei mit einem ganzen Set von Funktionseinheiten bzw. mit einer Vermittlungsstelle für diese Funktionseinheiten, welche die Sprache des Benutzers versteht und dafür sorgt, dass entsprechend der gegebenen Kommandos die einzelnen Funktionseinheiten bzw. Geräte gesteuert werden. In den vernetzten Systemen kann dabei die Vermittlungsfunktion bzw. die Koordinierung der Geräte auch statt durch eine einzelne Vermittlungsstelle mit einem Spracherkennungssystem durch mehrere Spracherkennungssysteme erfolgen, welche entsprechend so untereinander vernetzt sind, dass sie in geeigneter Weise zusammenarbeiten. Das gesamte komplexe Steuerungssystem mit dem Spracherkennungssystem bzw. mit mehreren Spracherkennungssystemen sowie den jeweils angeschlossenen Geräten oder sonstigen Funktionseinheiten können als eine Art "Umgebungsintelligenz" angesehen werden.
Das gesamte Steuerungssystem kann sich hierbei isoliert in den Räumen des Benutzers, beispielsweise innerhalb eines Wohnbereiches oder eines bestimmten Bürobereiches, befinden. Das System kann aber ebenso auch an externe Geräte, beispielsweise an das Internet oder an ein Intranet angeschlossen sein. Insbesondere können sich auch bestimmte Teile eines Spracherkennungssystems, beispielsweise ein besonders leistungsfähiges Spracherkennungsmodul, auf einem externen Rechner befinden, welcher bei Bedarf über eine Datenleitung, beispielsweise über das Internet oder das Intranet, angesprochen wird. Dabei wird das Sprachsignal an den externen Rechner übermittelt und anschließend werden die erkannten Sprachinformationen an das jeweilige System vor Ort zurückgesandt. Solche großflächig vernetzten Systeme sind an sich vorteilhaft, weil in der Regel für eine leistungsfähige Spracherkennung ein entsprechend leistungsfähiger Rechner zur Verfügung stehen muss und eine passende Vernetzung es ermöglicht, dass sich mehrere Spracherkennungs- bzw. -steuerungssysteme einen gemeinsamen externen Rechner teilen können, wodurch dieser besser ausgelastet wird.
Neben den oben genannten vielen Vorteilen, die eine solche "Umgebungsintelligenz" - sei es in Form von einzelnen Geräten mit separaten Spracherkennungssystemen oder in Form eines komplexen Steuerungssystems - aufweist, besteht jedoch andererseits der Nachteil, dass das jeweilige System dem Benutzer ständig "zuhört", um aus den Gesprächen des Benutzers Befehle an das System zu extrahieren. Das Problem besteht hierbei darin, dass der Benutzer aufgrund einer komplexen Vernetzung der einzelnen Spracherkennungssysteme und Geräte sowie durch eine in der Regel aus optischen Gründen meist unauffällige Anbringung der Komponenten der Systeme nicht mehr ohne weiteres feststellen kann, ob das Spracherkennungssystem- bzw. bei mehreren Spracherkennungssystemen welches Spracherkennungssystem - aktiv ist bzw. in welchem Umfang die einzelnen Spracherkennungssysteme aktiv sind.
Dieses Problem stellt sich für den Benutzer um so mehr, wenn es sich um ein Spracherkennungssystem handelt, welches an einen externen Bereich angeschlossen ist bzw. wenn sich das Spracherkennungssystem ganz oder teilweise in einem externen Bereich befindet, den der Benutzer nicht vollständig kontrollieren kann, und Sprachdaten des Nutzers aus dem "internen", benutzerkontrollierten Bereich, beispielsweise dem Wohnzimmer oder einem Büro des Benutzers, in diesen externen Bereich übermittelt werden. Unter Sprachdaten werden dabei im Folgenden entweder das erfasste Sprachsignal selbst in der ursprünglichen oder gegebenenfalls veränderten Form sowie die aus dem Sprachsignal erkannten Sprachinformationen bzw. Teile davon verstanden. Bei den aus dem Sprachsignal erkannten Sprachinformationen kann es sich im Übrigen nicht nur um Worte, Wortkombinationen, Sätze oder dergleichen handeln, sondern auch um Informationen über die Identität der sprechenden Person, welche z. B. anhand der in der Sprache enthaltenen charakteristischen biometrischen Informationen ermittelbar sind. Ebenso können zu diesen Sprachinformationen auch Informationen über einen aktuellen Gemütszustand der Person gehören, die beispielsweise durch Stimmveränderungen, Stimmlage, Geschwindigkeit beim Sprechen etc. aus den Sprachsignalen extrahierbar sind.
Da es für den Benutzer nicht transparent ist, ob und in welcher Form seine Aussagen zu einem bestimmten Zeitpunkt durch ein Spracherkennungssystem erfasst und analysiert oder auch gespeichert und/oder abgehört werden, kann es zu Situationen kommen, in denen sich der Benutzer durch das permanente Zuhören des Spracherkennungssystems bzw. der Spracherkennungssysteme gestört fühlt. Dies gilt z. B. sicherlich für Situationen, in denen der Benutzer ein rein vertrauliches Gespräch führen will. Dies gilt natürlich vor allem bei einem Einsatz von besonders leistungsfähigen Spracherkennungssystemen, die nicht nur in der Lage sind, bestimmte Kommandoworte oder -wortkombinationen zu verstehen, sondern kontinuierliche Sprache des Benutzers erfassen, analysieren und verarbeiten können. Insbesondere ist es dabei für den Benutzer unangenehm, wenn er nicht weiß, ob seine Sprache gegebenenfalls sogar innerhalb des Spracherkennungssystems aufgezeichnet oder in anderer Weise bearbeitet wird, indem beispielsweise eine Abfrage nach bestimmten Schlüsselworten oder bestimmten Sätzen erfolgt oder sogar eine Statistik entwickelt wird über negative Bemerkungen, die zu einem bestimmten Thema registriert werden. Dies ist vom Benutzer in der Regel verständlicherweise nicht gewünscht.
Es ist daher Aufgabe der vorliegenden Erfindung, entsprechende Verfahren bzw. Spracherkennungssysteme anzugeben, bei denen der Benutzer besser kontrollieren kann, inwieweit von ihm getätigte Äußerungen von einem Spracherkennungssystem erfasst und verarbeitet werden.
Diese Aufgabe wird zum einen dadurch gelöst, dass das Spracherkennungssystem, sofern es sich in einem empfangsaktiven Zustand befindet, auf eine Empfangsaktivitätsanfrage eines Benutzers hin, mit welcher der Benutzer abfragt, ob sich das Spracherkennungssystem in einem empfangsaktiven Zustand befindet, eine Empfangsaktivitätsbestätigung an den Benutzer ausgibt. Der Begriff empfangsaktiv wird hier für einen Zustand benutzt, in dem Sprachsignale erfasst und in irgend einer Weise vom System verarbeitet werden. Empfangsaktiv ist ein System in diesem Sinne also immer dann, wenn das Spracherkennungssystem quasi "zuhört". Daneben kann es beispielsweise einen Betriebszustand geben, in dem das System "empfangsbereit" ist. In einem solchen Zustand ist das System nur insoweit aktiv, dass es nur auf einen bestimmten Befehl wie beispielsweise "Spracherkenner an" wartet, durch den das Spracherkennungssystem bei Bedarf eingeschaltet werden kann. Der Benutzer hat folglich die Möglichkeit, durch ein beliebiges Wort, einen Satz, eine Wortkombination oder gegebenenfalls auch über ein anderes definiertes akustisches Signal so mit dem Spracherkennungssystem zu kommunizieren, dass er von dem Spracherkennungssystem selber erfährt, ob es zuhört. Insbesondere hat der Benutzer somit vor der Äußerung von vertraulichen Bemerkungen immer die Möglichkeit, sich über die Aktivität des Spracherkennungssystems bzw. eines Spracherkennungssystems zu informieren.
Bezüglich der Übermittlung von Sprachdaten in einen externen, nicht benutzerkontrollierten Bereich wird die Aufgabe dadurch gelöst, dass vor einer Übermittlung von Sprachdaten, welche zumindest einen Teil des Sprachsignals und/oder zumindest einen Teil von aus dem Sprachsignal erkannten Sprachinformationen umfassen, aus einem internen benutzerkontrollierten Bereich in den externen Bereich die Sprachdaten zuvor gefiltert werden und/oder eine Anzeige an den Benutzer erfolgt, bevor eine Übermittlung von Sprachdaten in den externen Bereich erfolgt. Auf diese Weise erhält der Benutzer die Kontrolle über seine Sprachdaten, bevor sie in den externen Bereich gelangen bzw. es wird zumindest angezeigt, dass derartige Daten an einen externen Bereich übermittelt werden, so dass er sich mit vertraulichen Äußerungen, von denen er nicht möchte, dass sie in den externen Bereich gelangen, zurückhalten kann.
Zur Durchführung des ersten Verfahrens benötigt das Spracherkennungssystem eine Signalisierungseinrichtung zur Aussendung einer Empfangsbestätigung an den Benutzer, um den empfangsaktiven Zustand an den Benutzer in irgend einer Weise anzuzeigen. Außerdem muss das Spracherkennungssystem entsprechend ausgebildet sein, um im empfangsaktiven Zustand die Empfangsaktivitätsanfrage des Benutzers zu erkennen und dementsprechend die Aussendung der Empfangsaktivitätsbestätigung über die Signalisierungseinrichtung zu veranlassen. Bei der Signalisierungseinrichtung kann es sich um eine Sprachausgabeeinrichtung des Spracherkennungssystems handeln, beispielsweise einen Text-To-Speech-Konverter oder eine Ausgabe mit vorformulierten, gespeicherten Audiotexten, die für den Benutzer abgespielt werden. In diesem Fall erfolgt die Empfangaktivitätsbestätigung in Form eines entsprechenden Sprachsignals an den Benutzer, beispielsweise durch eine Mitteilung "Spracherkennungssystem ist aktiv".
Zur Durchführung des zweiten Verfahrens muss das Spracherkennungssystem, welches eine Komponente in dem externen Bereich umfasst oder mit dem externen Bereich so verbunden ist, dass bestimmte Sprachdaten in den externen Bereich übermittelt werden, eine geeignete Filtereinrichtung aufweisen, welche die Sprachdaten vor der Übermittlung in den externen Bereich filtert. Alternativ oder zusätzlich muss es eine Signalisierungseinrichtung aufweisen, um dem Benutzer zuvor anzuzeigen, wann eine solche Übermittlung von Sprachdaten in den externen Bereich erfolgen soll. Bei dieser Signalisierungseinrichtung kann es sich ebenfalls um eine Sprachausgabeeinrichtung handeln, mit der das Spracherkennungssystem ein entsprechendes Sprachsignal über einen Lautsprecher an den Benutzer ausgibt.
Insbesondere wenn mehrere Spracherkennungssysteme aktiv sein könnten, ist es sinnvoll, wenn die Empfangsaktivitätsbestätigung eine Information enthält, anhand der der Benutzer erfährt, um welches Spracherkennungssystem es sich handelt. Bei mehreren vernetzten Spracherkennungssystemen erfolgt dabei die Empfangsaktivitätsbestätigung gegebenenfalls auch gemeinsam für alle aktiven Spracherkennungssysteme über eine Sprachausgabeeinrichtung, beispielsweise durch eine Mitteilung "Spracherkennungssysteme X, Y und Z sind aktiv".
Um die Sicherheit des Verfahrens bzw. des Spracherkennungssystems zu erhöhen, wird vorzugsweise die Ausgabe der Empfangsaktivitätsbestätigung durch das Spracherkennungssystem selbst überprüft. Bei einer fehlerhaften, insbesondere bei einer völlig fehlenden Ausgabe der Empfangsaktivitätsbestätigung reagiert das Spracherkennungssystem in der vorbestimmten Weise. Vorzugsweise deaktiviert sich das System selbst. Diese Maßnahme verhindert, dass der Benutzer irrtümlich der Ansicht ist, dass kein Spracherkennungssystem empfangsaktiv ist, weil er auf eine Empfangsaktivitätsanfrage hin - beispielsweise wegen eines Fehlers des Spracherkennungssystems oder aufgrund einer bewussten Manipulation an der Signalisierungseinheit - keine Empfangsaktivitätsbestätigung erhält. Sofern es sich bei der Empfangsaktivitätsbestätigung um ein Sprachsignal handelt, ist die Überprüfung relativ einfach durchführbar, indem das Spracherkennungssystem mit den Mitteln, mit denen auch die Sprachsignale des Benutzers erfasst werden, die Ausgabe des eigenen Sprachsignals erfasst und bei der darauffolgenden Erkennung bzw. Bearbeitung als eigene Empfangsaktivitätsbestätigung erkennt.
Vorzugsweise hat der Benutzer jederzeit die Möglichkeit - wenn er beispielsweise eine vertrauliche Äußerung von sich geben möchte, die nicht von einem Spracherkennungssystem erfasst werden soll - ein empfangsaktives Spracherkennungssystem mittels eines Sprachbefehls zu deaktivieren und gegebenenfalls auch wieder zu aktivieren. Besonders bevorzugt ist hierbei ein Verfahren, bei dem der Benutzer gemäß Patentanspruch 6 die Möglichkeit hat, das System für eine bestimmte Zeit vorübergehend zu deaktivieren. Nach Ablauf der vorgegebenen Zeit schaltet sich das Spracherkennungssystem selbständig wieder ein.
Insbesondere bei einem solchen automatisch erfolgenden Umschalten von einem deaktivierten Zustand in einen empfangsaktiven Zustand ist es vorteilhaft, wenn das Spracherkennungssystem von sich aus das Einschalten anzeigt. Bei einer derartigen Aktivierungsanzeige kann es sich um eine optische oder um eine akustische Anzeige, beispielsweise wieder um ein Sprachsignal, handeln. Eine akustische Anzeige ist insofern von Vorteil, dass der Benutzer die Anzeige unabhängig von seinem Standort und seiner Blickrichtung registrieren kann.
Zusätzlich ist es möglich, dass das Spracherkennungssystem permanent auch optisch anzeigt, ob es empfangsaktiv ist. Eine solche permanente optische Anzeige ist möglich, da diese in der Regel den Benutzer nicht stört. Sie hat jedoch den Nachteil, dass sie nicht aus jeder Position des Benutzer gut erkennbar ist, so dass zur Erhöhung der Sicherheit in bestimmten Situationen, das heißt beispielsweise auf die genannte Empfangsaktivitätsanfrage hin oder bei einem automatischen Einschalten, vorzugsweise zusätzlich eine akustische Signalisierung erfolgen sollte.
Bei Verwendung von mehreren Spracherkennungssystemen sollte der Benutzer vorzugsweise die Möglichkeit haben, ein ganz bestimmtes Spracherkennungssystem anzusprechen und zu deaktivieren und wieder zu aktivieren. So ist es beispielsweise durchaus sinnvoll, wenn der Benutzer im internen Bereich befindliche rudimentäre Spracherkennungssysteme, welche lediglich in der Lage sind, bestimmte Kommandoworte zu erkennen, um bestimmte Geräte zu steuern, nicht deaktiviert aber alle die Spracherkennungssysteme, welche in der Lage ist, kontinuierliche Sprache zu erkennen und zu verarbeiten, und/oder über die eventuell Sprachdaten in einen externen Bereich gelangen könnten, deaktiviert werden.
Die Filterung der in den externen Bereich ausgehenden Sprachdaten kann automatisch erfolgen. Ein bevorzugtes Verfahren zur automatischen Filterung wird in Anspruch 10 genannt. Bei den dort genannten Schlüssel-Sprachdaten kann es sich beispielsweise um Schlüssel-Worte, -Sätze oder ganze -Satzsequenzen handeln. Die Sprachdaten werden bei der Filterung jeweils mit diesen Schlüssel-Sprachdaten verglichen und je nach Übereinstimmung mit den Schlüssel-Sprachdaten wird dann entschieden, ob die Sprachdaten an den externen Bereich übermittelt werden oder nicht. Es können dabei sowohl Schlüssel- Sprachdaten vorgegeben werden, die ohne weiteres übermittelt werden können, als auch Schlüssel-Sprachdaten, die auf keinen Fall übermittelt werden sollen.
Anspruch 11 enthält eine Möglichkeit zur manuellen Filterung der Sprachdaten durch den Benutzer selbst. Eine solche manuelle Auswahl, nachdem das System angezeigt hat, dass eine Übermittlung von Sprachdaten ansteht, kann natürlich auch zusätzlich zu einer automatischen Filterung erfolgen. So ist es beispielsweise möglich, bestimmte Schlüssel- Sprachdaten zu hinterlegen, mit denen die herausgehenden Sprachdaten verglichen werden, und nur wenn ein Vergleich der für die Übermittlung vorgesehenen Sprachdaten mit den Schlüssel-Sprachdaten eine Übereinstimmung zeigt, wird dem Benutzer dies angezeigt, und es erfolgt dann eine manuelle Nachfilterung bzw. Kontrolle durch den Benutzer.
Bei einer bevorzugten Ausführungsform wird das zweite Verfahren, bei dem die in einen externen Bereich übermittelten Sprachdaten gefiltert bzw. die Übermittlung vom Benutzer kontrolliert wird, mit dem ersten Verfahren, bei dem der Benutzer auf eine Empfangsaktivitätsanfrage hin eine Empfangsaktivitätsbestätigung erhält, kombiniert. Ein solches kombiniertes Spracherkennungssystem, welches beide Varianten enthält, bietet dem Benutzer die volle Kontrolle über die von ihm geäußerten Sprachsignale, das heißt der Benutzer hat es in der Hand, je nach Vertraulichkeitsstufe der Äußerungen und je nach Bedarf bezüglich der Steuerungsmöglichkeiten innerhalb des von ihm genutzten Bereiches entweder das Spracherkennungssystem ganz zu deaktivieren oder einfach die Übermittlung seiner Sprachdaten in den externen Bereich genau zu kontrollieren bzw. zu verhindern.
Die Erfindung wird im Folgenden unter Hinweis auf die beigefügten Figuren anhand von Ausführungsbeispielen näher erläutert. Es zeigen:
Fig. 1 eine schematische Darstellung eines Spracherkennungssystems bei der Ausgabe einer Empfangsaktivitätsbestätigung,
Fig. 2 eine schematische Darstellung eines Spracherkennungssystems, welches eine Komponente in einem externen Bereich aufweist.
Bei dem in Fig. 1 dargestellten Ausführungsbeispiel handelt es sich um ein relativ einfaches Spracherkennungssystem 1, welches eine einzelne Systemrechnereinheit 6, beispielsweise einen PC aufweist, auf dem ein Spracherkennungs-Softwaremodul 2 implementiert ist. Dieses lediglich als ein Block 2 dargestellte Spracherkennungsmodul 2 umfasst selbstverständlich neben den üblichen Programmteilen mit den Algorithmen zur Spracherkennung geeignete Bibliotheken, Grammatikregeln etc., auf deren Basis die Erkennung durchgeführt wird. Alle notwendigen Hardware-Komponenten wie Prozessor, Speicherplatz etc. werden von der Rechnereinheit 6 zur Verfügung gestellt.
Zur Erfassung der Sprachsignale ist an die Rechnereinheit 6 ein Mikrofon 5 angeschlossen. Die mittels des Mikrofons 5 aufgezeichneten Sprachsignale werden in der Rechnereinheit 6 vom Spracherkennungsmodul 2 analysiert.
Außerdem befindet sich auf der Rechnereinheit 6 als Sprachausgabeeinrichtung ein Text- To-Speech-Konverter (TTS-Konverter) 3, mit dem das Spracherkennungssystem Sprachsignale zur Kommunikation mit einem Benutzer (nicht dargestellt) erzeugt. Auch bei diesem TTS-Konverter 3 handelt es sich um ein Softwaremodul. Die Sprachsignale werden über einen an die Rechnereinheit 6 angeschlossenen Lautsprecher 4 ausgegeben.
Die Rechnereinheit 6 enthält darüber hinaus noch ein Steuermodul 7, um anhand der erkannten Sprachinformationen ein gewünschtes Gerät oder mehrere Geräte anzusteuern und um die Sprachausgabeeinheit 3 anzusteuern. Die Steuerung von weiteren Geräten (nicht dargestellt) erfolgt über die Datenanbindung 8. Ebenso kann über das Steuermodul 7 auch das Spracherkennungsmodul 2 und/oder das Mikrofon 5 bzw. der Mikrofoneingang an der Rechnereinheit 6 angesteuert werden. So kann beispielsweise das Spracherkennungssystem 1 aktiviert oder deaktiviert werden.
Es wird noch einmal ausdrücklich erwähnt, dass es sich bei dem dargestellten Spracherkennungssystem 1 lediglich um ein besonders einfaches Beispiel handelt und dass das Spracherkennungssystem 1 auch beliebig komplizierter aufgebaut sein kann. Insbesondere kann es mehrere verschiedene Spracherkennungsmodule mit z. B. unterschiedlicher Leistungsfähigkeit und/oder für unterschiedliche Anwendungen aufweisen. Die Spracherkennungsmodule können dann je nach Bedarf zur Steuerung verschiedener Geräte oder Funktionseinheiten eingesetzt werden, wobei es auch möglich ist, dass bestimmten Geräten bestimmte Spracherkennungsmodule fest zugeordnet sind. Ebenso kann das Spracherkennungssystem auch andere Sprachausgabeeinrichtungen unterschiedlichster Art aufweisen. Weiterhin kann die Rechnereinheit 6 mit den verschiedensten zusätzlichen Programmen ausgestattet sein, um je nach Aufgabe, beispielsweise zur Steuerung eines bestimmten angeschlossenen Gerätes oder Systems, in einer vorgesehenen Weise auf Sprachbefehle des Benutzers zu reagieren. Es kann sich bei der Rechnereinheit auch um einen Rechner handeln, der ansonsten auch für andere Anwendungen genutzt wird, beispielsweise einen PC des Benutzers. Das Spracherkennungssystem kann auch eine beliebige Anzahl von untereinander vernetzten Rechnereinheiten aufweisen, auf die die verschiedenen Aufgaben bzw. Softwaremodule verteilt sind.
Damit der Benutzer jederzeit kontrollieren kann, ob von ihm geäußerte Sprachsignale von dem Spracherkennungssystem 1 erfasst und bearbeitet werden, hat er die Möglichkeit, eine Sprachaktivitätsanfrage A an das Spracherkennungssystem 1 zu richten. Typisch wäre hier beispielsweise die Anfrage A "Spracherkenner aktiv?". Sofern das Spracherkennungssystem empfangsaktiv ist, das heißt sich in einem Modus befindet, in dem Sprachsignale des Benutzer erfasst und bearbeitet werden, wird automatisch auch diese Empfangsaktivitätsanfrage A vom Mikrofon 5 erfasst und vom Spracherkennungsmodul 2 analysiert. Dort wird als Sprachinformation aus dem Sprachsignal die Anfrage A "Spracherkenner aktiv?" erkannt. Die erkannte Anfrage A wird dann beispielsweise von dem Steuerungsmodul 7 bearbeitet. Dieses Steuerungsmodul 7 ist so programmiert, dass auf eine erkannte Sprachaktivitätsanfrage A hin mittels des TTS-Konverters 3 eine entsprechende Empfangsaktivitätsbestätigung B über den Lautsprecher 4 ausgegeben wird, beispielsweise der Satz "Spracherkenner ist aktiv".
Durch eine Störung oder eine Manipulation an der Rechnereinheit 6, den Datenleitungen bzw. weiteren Geräten des Systems 1, beispielsweise durch eine Unterbrechung der Leitung vom Ausgang des TTS-Konverters 3 zum Lautsprecher 4, kann es dazu kommen, dass keine Sprachaktivitätsbestätigung B an den Benutzer ausgegeben wird, obwohl dieser eine Sprachaktivitätsanfrage A an das Spracherkennungssystem 1 gerichtet hat und das Spracherkennungssystem 1 empfangsaktiv ist. Der Benutzer würde sich dann zu Unrecht "sicher" fühlen. Daher ist das Steuermodul 7 derart programmiert, dass überprüft wird, ob die am Lautsprecher 4 ausgegebene Sprachaktivitätsbestätigung B vom Mikrofon 5 des Spracherkennungssystems 1 wieder erfasst und vom eigenen Spracherkennungsmodul 2 erkannt wird. Sofern das Spracherkennungssystem eine vorgegebene Zeitspanne nach Ausgabe einer Sprachaktivitätsbestätigung B diese Sprachaktivitätsbestätigung B nicht über den eigenen Eingangskanal wieder registriert, deaktiviert das Steuermodul 7 das Spracherkennungsmodul 2 zumindest soweit, dass das Spracherkennungssystem 1 insgesamt allenfalls noch in der Lage ist, auf einen bestimmten Befehl wie "Spracherkennungssystem an" zu reagieren.
Bei einem komplexeren Spracherkennungssystem, das mehrere Spracherkennungsmodule für verschiedene Geräte aufweist, welche gegebenenfalls separat innerhalb des Spracherkennungssystems aktiviert und deaktiviert werden können, ist es sinnvoll, wenn mit der Sprachaktivitätsbestätigung auch ausgegeben wird, inwieweit das Spracherkennungssystem 1 aktiv ist, beispielsweise durch eine Ausgabe "Spracherkennung für TV und für Videorecorder sind eingeschaltet".
Ebenso ist es bei einer parallelen Verwendung von mehreren Spracherkennungssystemen 1 sinnvoll, wenn die Sprachaktivitätsbestätigung B Informationen darüber enthält, welches Spracherkennungssystem sich meldet, beispielsweise durch eine Aussage "Spracherkennungssystem für Küchenbereich ist aktiv". Umgekehrt kann auch die Sprachaktivitätsanfrage A sowohl an bestimmte Systeme als auch global an alle Spracherkennungssysteme gerichtet sein, indem der Benutzer beispielsweise eine spezielle Aktivitätsanfrage wie "Spracherkennungssystem für Internet und Telekommunikation aktiv?" oder eine allgemeine Aktivitätsanfrage wie "Irgend ein Spracherkenner aktiv?" stellt. Dies ist vor allem dann sinnvoll, wenn beispielsweise nur bestimmte Systeme eine Verbindung zu einem externen Bereich haben und/oder in der Lage sind, kontinuierliche Sprache zu verstehen, wogegen andere Spracherkennungssysteme ohnehin nur eine begrenzte Anzahl von Kommandoworten verstehen.
Bei einer Deaktivierung kann sich der entsprechende Sprachbefehl ebenfalls global an mehrere Spracherkennungssysteme richten. So kann z. B. ein Befehl "Alle Spracherkenner für fünf Minuten aus" von allen Sprachsystemen, die zu diesem Zeitpunkt empfangsaktiv sind, empfangen und verarbeitet werden. Der Befehl kann aber auch nur an einzelne Spracherkennungssysteme oder einzelne Spracherkennungsmodule in einem Spracherkennungssystem gerichtet sein, die direkt vom Benutzer benannt werden.
Fig. 2 zeigt ein einfaches Beispiel für ein Spracherkennungssystem 10, welches ähnlich aufgebaut ist wie das Spracherkennungssystem 1 gemäß Fig. 1. Dieses Spracherkennungssystem weist ebenfalls eine Rechnereinheit 7 mit einem Spracherkennungsmodul 11, einem TTS-Konverter 12 und einem Steuerungsmodul 13 auf. Ebenso sind an die Rechnereinheit 7 ein Mikrofon 8 zur Erfassung von Sprachsignalen des Benutzers und ein Lautsprecher 9 zur Ausgabe von Sprachsignalen des TTS-Konverters 12 angeschlossen. Diese Rechnereinheit 7 mit dem Spracherkennungssystem 10 befindet sich in einem internen Bereich I, welcher vom Benutzer gut kontrollierbar ist; beispielsweise handelt es sich um einen PC in einem Büro des Benutzers.
Eine weitere Komponente des Systems 10 befindet sich dagegen auf einem zentralen Server 15 in einem externen Bereich E, beispielsweise auf einem Server 15 eines Firmen-Intranets. Über die Verbindung der Rechnereinheit 7 des Spracherkennungssystems 10 zu dem externen Server 15 werden bei bestimmten Aktionen Sprachdaten S. das heißt die vom Mikrofon 8 aufgezeichneten Sprachsignale des Benutzers oder mittels der Spracherkennungseinrichtung 11 aus den Sprachsignalen erkannte Sprachinformationen an den externen Server 15 und damit an das Intranet übermittelt. Der Benutzer selber hat dabei in der Regel keine Kontrolle, was mit diesen Sprachdaten geschieht und in welcher Form gegebenenfalls diese Sprachdaten außer für die eigene Anwendung genutzt, gespeichert und verarbeitet werden. Daher gibt das erfindungsgemäße Spracherkennungssystem 10 dem Benutzer die Möglichkeit, die Übermittlung dieser Sprachdaten S in den externen Bereich E zu kontrollieren.
In dem konkret dargestellten Ausführungsbeispiel handelt es sich um bereits vom Spracherkennungsmodul 11 erkannte Sprachinformationen, die an den Server 15 übermittelt werden, um beispielsweise über die Rechnereinheit 7 in dem genannten Intranet zu surfen. Das heißt, es werden in diesem Fall nicht das Sprachsignal des Benutzer selbst, sondern die aus dem Sprachsignal erkannten Sprachinformationen an den Server 15 übermittelt.
Um zu verhindern, dass für den Benutzer unerkannt Sprachdaten S in den externen Bereich E übermittelt werden, werden die ausgehenden Sprachdaten S in einem Filter 14, welcher sich auf der im internen Bereich I angeordneten Rechnereinheit 7 befindet, gefiltert. Bei dem Filter 14 handelt es sich hier ebenfalls um ein Softwaremodul mit einem zugehörigen Speicherbereich, in dem Schlüssel-Worte oder

- Wortkombinationen hinterlegt sind, die der Benutzer frei wählen kann. Dabei handelt es sich beispielsweise um Schlüssel-Worte oder
- Wortkombinationen, von denen der Benutzer wünscht, dass zunächst eine Warnung an den Benutzer erfolgt, wenn zur Übermittlung in den externen Bereich E bestimmte Sprachdaten S diese Schlüssel-Worte oder -Wortkombinationen enthalten. Im Filter 14 werden daher alle ausgehenden Sprachdaten S zunächst mit den Schlüssel-Worten bzw. -Wortkombinationen verglichen. Sofern Sprachdaten S diese Schlüssel-Worte oder -Wortkombinationen enthalten, wird über das Steuerungsmodul 13 veranlasst, dass von dem TTS-Konverter 12 über den Lautsprecher 9 eine Warnung an den Benutzer ausgegeben wird.

Diese Warnung enthält beispielsweise eine Wiedergabe der betreffenden Sprachdaten S, die zur Ausgabe anstehen. Der Benutzer wird dann um eine Bestätigung für die Übermittlung gebeten, das heißt das Spracherkennungssystem 10 fragt noch einmal beim Benutzer nach, ob es die bestimmten Sprachdaten S in den externen Bereich E übermitteln darf.
Durch die Erfindung wird gewährleistet, dass Personen, welche Spracherkennungstechnologien in ihrem täglichen Leben verwenden, sicher sein können, dass diese Techniken nicht unter Verletzung ihrer Privatsphäre missbraucht werden. Die vorgeschlagenen Verfahren und Spracherkennungssysteme stellen folglich sicher, dass die ergonomischen Vorteile einer sprachverstehenden "Umgebungsintelligenz" nicht zu einem den Benutzer überwachenden Kontrollsystem ausgebaut werden können. Der Benutzer kann somit die Vorteile der Spracherkennungssysteme nutzen und dennoch die volle Kontrolle über die Spracherkennungssysteme behalten, insbesondere durch die Kenntnis, welche Spracherkennungssysteme aktiv sind und inwieweit Daten einen bestimmten Privatbereich verlassen.

Claims

1. Verfahren zum Betrieb eines Spracherkennungssystems (1), bei welchem ein Sprachsignal eines Benutzers zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation analysiert wird, dadurch gekennzeichnet,
dass das Spracherkennungssystem (1), sofern es sich in einem empfangsaktiven Zustand befindet, in welchem Sprachsignale erfasst und bearbeitet werden,
auf eine Empfangsaktivitätsanfrage (A) eines Benutzers hin, mit welcher der Benutzer abfragt, ob sich das Spracherkennungssystem (1) in einem empfangsaktiven Zustand befindet,
eine Empfangsaktivitätsbestätigung (B) an den Benutzer ausgibt.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Empfangsaktivitätsbestätigung (B) ein Sprachsignal einer Sprachausgabeeinrichtung (3) umfasst.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Empfangsaktivitätsbestätigung (B) eine Information zur Identifizierung des empfangsaktiven Spracherkennungssystems (1) umfasst.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass das Spracherkennungssystem (1) die Ausgabe der Empfangsaktivitätsbestätigung (B) überprüft und bei einer fehlerhaften Ausgabe der Empfangsaktivitätsbestätigung (B) in einer vordefinierten Weise reagiert.

5. Verfahren nach Anspruch 2 und 4, dadurch gekennzeichnet, dass die Ausgabe der Empfangsaktivitätsbestätigung (B) überprüft wird, indem das Spracherkennungssystem (1) die Ausgabe des entsprechenden Sprachsignals der Sprachausgabeeinrichtung (3) akustisch erfasst und als eigene Empfangsaktivitätsbestätigung (B) erkennt.

6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass der Benutzer das empfangsaktive Spracherkennungssystem mittels eines Deaktivierungsbefehls vorübergehend deaktiviert, wobei der Deaktivierungsbefehl einen Zeitparameter umfasst, welcher vorgibt, wie lange das Spracherkennungssystem deaktiviert wird.

7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass das Spracherkennungssystem anzeigt, wenn es in einen empfangsaktiven Zustand umschaltet.

8. Verfahren zum Betrieb eines Spracherkennungssystem (10), bei welchem ein Sprachsignal eines Benutzers zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation analysiert wird, dadurch gekennzeichnet, dass vor einer Übermittlung von Sprachdaten (S), welche zumindest einen Teil des Sprachsignals und/oder zumindest einen Teil von aus dem Sprachsignal erkannten Sprachinformationen umfassen, aus einem internen, benutzerkontrollierten Bereich (I) in einen externen Bereich (E) die Sprachdaten (S) gefiltert werden und/oder eine Anzeige an den Benutzer erfolgt, dass eine Übermittlung von Sprachdaten (S) in den externen Bereich (E) ansteht.

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass eine Filterung der Sprachdaten (S) vor der Übermittlung in den externen Bereich (E) automatisch erfolgt.

10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass die automatische Filterung der Sprachdaten (S) unter Verwendung von zuvor definierten Schlüssel-Sprachdaten erfolgt.

11. Verfahren nach einem der Ansprüche 8 bis 10, dadurch gekennzeichnet, dass dem Benutzer angezeigt wird, welche Sprachdaten (S) in den externen Bereich (E) übermittelt werden sollen, und der Benutzer daraufhin festlegt, welche der Sprachdaten (S) in den externen Bereich (E) übermittelt werden dürfen.

12. Spracherkennungssystem (1) zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 7 mit Mitteln (5) zur Erfassung eines Sprachsignals eines Benutzers und Mitteln (2) zur Analyse des Sprachsignals zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation, dadurch gekennzeichnet,
dass das Spracherkennungssystem (7) eine Signalisierungseinrichtung (2, 4) zur Aussendung einer Empfangsaktivitätsbestätigung (B) an den Benutzer aufweist, mit welcher angezeigt wird, dass sich das Spracherkennungssystem (1) in einem empfangsaktiven Zustand befindet, in welchem Sprachsignale erfasst und bearbeitet werden,
und dass das Spracherkennungssystem (1) derart ausgebildet ist, dass es in dem empfangsaktiven Zustand eine Empfangsaktivitätsanfrage (A) eines Benutzers, mit welcher der Benutzer abfragt, ob sich das Spracherkennungssystem (1) in einem empfangsaktiven Zustand befindet, erkennt und daraufhin die Empfangsaktivitätsbestätigung (B) aussendet.

13. Spracherkennungssystem (10) zur Durchführung eines Verfahrens nach einem der Ansprüche 8 bis 11 mit Mitteln (8) zur Erfassung eines Sprachsignals eines Benutzers und Mitteln (11) zur Analyse des Sprachsignals zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation, dadurch gekennzeichnet,
dass das Spracherkennungssystem (10) zumindest teilweise in einem externen Bereich (E) angeordnet ist, welcher nicht von einem Benutzer des Spracherkennungssystems (10) kontrollierbar ist, und/oder mit einem externen Bereich (E) verbunden ist, so dass Sprachdaten (S), welche zumindest einen Teil des Sprachsignals und/oder zumindest einen Teil von aus dem Sprachsignal erkannten Sprachinformationen umfassen, aus einem internen, benutzerkontrollierten Bereich (I) in den externen Bereich (E) übermittelt werden,
und dass das Spracherkennungssystem (10) eine Filtereinrichtung (14), mit welcher die Sprachdaten (S) vor der Übermittlung in den externen Bereich gefiltert werden, und/oder eine Signalisierungseinrichtung (9, 12) aufweist, um dem Benutzer zuvor anzuzeigen, wenn eine Übermittlung von Sprachdaten (S) in den externen Bereich (E) erfolgen soll.

14. Computerprogramm mit Programmcode-Mitteln, um alle Schritte eines Verfahrens nach einem der Ansprüche 1 bis 7 und/oder um alle Schritte eines Verfahrens nach einem der Ansprüche 8 bis 11 auszuführen, wenn das Programm auf einem Computer ausgeführt wird.