DE102008007698A1 - Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem - Google Patents
Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem Download PDFInfo
- Publication number
- DE102008007698A1 DE102008007698A1 DE200810007698 DE102008007698A DE102008007698A1 DE 102008007698 A1 DE102008007698 A1 DE 102008007698A1 DE 200810007698 DE200810007698 DE 200810007698 DE 102008007698 A DE102008007698 A DE 102008007698A DE 102008007698 A1 DE102008007698 A1 DE 102008007698A1
- Authority
- DE
- Germany
- Prior art keywords
- procedures
- word
- recognition system
- sentence
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000011156 evaluation Methods 0.000 claims abstract description 8
- 230000001755 vocal effect Effects 0.000 claims 1
- 238000013459 approach Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Es wird ein Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem beschrieben, welches Spracherkennungssystem Prozeduren enthaltende Erkennungsgrammatiken ausführt, die in Form von Wort- und/oder Satzhypothesen festlegen, welche Äußergssystem enthält einen Spracherkenner mit einem Interpreter oder Compiler, um Prozeduren, die in einer bestimmten Programmiersprache geschrieben sind, auswerten zu können. Während eines Erkennungsvorgangs werden die Prozeduren in Abhängigkeit davon, welche Worthypothesen gut bewertet sind, ausgeführt. Die Prozeduren können durch Ausgabe eines Rückgabewerts auch mit anderen Systemen zur Nutzung von Nebenbedingungen interagieren. Der Rückgabewert der Prozeduren oder der Wert einer festgelegten Variablen wird vom Spracherkennungssystem mit der jeweiligen Bewertung der Wort- und/oder Satzhypothese verknüpft, wodurch sich eine neue Bewertung der Wort- und/oder Satzhypothese ergibt, und der Spracherkenner am Ende die bestbewerteten Wort- und/oder Satzhypothesen ausgibt.
Description
- Die Erfindung betrifft ein Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem mit einen Spracherkenner mit einem Interpreter oder Compiler.
- Äußerungen, die von einem Spracherkennungssystem verarbeitet werden sollen, werden oft durch Nebenbedingungen beeinflusst, die einerseits sehr spezifisch von der Aufgabenstellung abhängen und andererseits sehr komplex sind. Ein Beispiel dafür sind gesprochene Eingaben von Kreditkartennummern, die je nach Typ der Karte diversen Eigenschaften genügen müssen, z. B. dass ihre Quersumme durch eine bestimmte Zahl (z. B. 127) teilbar ist. Das Gleiche gilt für viele andere Nummern, die z. B. eine Prüfziffer enthalten. Ein weiteres Beispiel ist die multimodale Eingabe, bei der bestimmte Äußerungen nur in engem zeitlichen Kontext mit der Eingabe anderer Modalitäten Sinn machen, etwa einem gesprochenen Löschbefehl zusammen mit einem Mausklick auf eine Datei. Ohne Mausklick tritt die Äußerung nicht oder nur sehr selten auf.
- Der Erfindung liegt das Problem zugrunde, solche komplexen Nebenbedingungen in einem Spracherkennungssystem dazu zu nutzen, um die Erkennung so effizient und akkurat wie möglich zu machen.
- Hierzu gibt es zwei Lösungsansätze. Ein erster ist, das Spracherkennungssystem so für die jeweilige Aufgabenstellung anzupassen, dass die Nebenbedingungen in den Erkennungsvorgang miteinbezogen werden. Der Nachteil dieses Ansatzes ist, dass für jedes Anwendungsgebiet die Implementierung des Spracherkennungssystems geändert werden muss, was meist nicht praktikabel ist. Beim zweiten Lösungsansatz gibt der Spracherkenner nicht nur eine beste Hypothese für die gesprochene Äußerung, sondern eine ganze Liste mit sehr vielen Alternati ven oder einen Worthypothesengraph zurück. Eine andere Einheit, wie etwa die Dialogmaschine, sucht dann in den Alternativen nach einer besten Hypothese, die die Nebenbedingung erfüllt. Bei diesem Verfahren kann die Nebenbedingung nicht in den Erkennungsvorgang einbezogen werden, was zu einer Erhöhung des Rechenaufwandes und/oder einer Verschlechterung der Erkennungsgenauigkeit führen kann. Außerdem kann, je nach Nebenbedingung, die Anzahl der Alternativen, die benötig werden, sehr groß sein, was zu einer Erhöhung des Rechenaufwands in der Dialogmaschine und des Datentransfers führt.
- Der Erfindung liegt die Aufgabe zugrunde ein Verfahren zur Verbesserung einer Erkennung einer Eingabe in einem Spracherkennungssystem unter Nutzung komplexer Nebenbedingungen zu entwickeln.
- Die Aufgabe wird durch die Merkmale des unabhängigen Anspruchs 1 gelöst.
- Moderne Spracherkennungssysteme enthalten oft bereits einen Interpreter für standardisierte Scriptsprachen. Darüber hinaus erlauben moderne Spracherkennungssysteme die Auswertung von Prozeduren/Skripten, die von einem Anwendungsentwickler geschrieben wurden, in Abhängigkeit von der erkannten Worthypothese. Üblicherweise werden die Rückgabewerte vom Spracherkennungssystem zur semantischen Interpretation und Formatierung des Erkennungsergebnisses verwendet.
- Der Spracherkenner enthält einen Interpreter oder Compiler, um Prozeduren, die in einer bestimmten Programmiersprache geschrieben sind, auswerten zu können. Für jedes Anwendungsgebiet schreibt ein Entwickler Erkennungsgrammatiken, die festlegen, welche Äußerungen gesprochen werden können. Diese Grammatiken enthalten vom Entwickler geschriebene Prozeduren. Während des Erkennungsvorgangs werden die Prozeduren in Abhängigkeit davon, welche Worthypothesen gut bewertet sind, ausgeführt. Die Prozeduren können auch mit anderen Systemen interagieren, etwa um den aktuellen Zustand anderer Eingabemodalitäten, wie etwa der Maus, zu bestimmen.
- Hiervon ausgehend wird erfindungsgemäß ein Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem vorgeschlagen, welches Spracherkennungssystem Prozeduren enthaltende Erkennungsgrammatiken ausführt, die in Form von Wort- und/oder Satzhypothesen festlegen, welche Äußerungen gesprochen werden können. Das Spracherkennungssystem enthält einen Spracherkenner mit einem Interpreter oder Compiler, um Prozeduren, die in einer bestimmten Programmiersprache geschrieben sind, auswerten zu können. Während eines Erkennungsvorgangs werden die Prozeduren in Abhängigkeit davon, welche Worthypothesen gut bewertet sind, ausgeführt. Die Prozeduren können durch Ausgabe eines Rückgabewerts auch mit anderen Systemen zur Nutzung von Nebenbedingungen interagieren, etwa um den aktuellen Zustand anderer Eingabemodalitäten, wie etwa einer Maus, zu bestimmen. Der Rückgabewert der Prozeduren oder der Wert einer festgelegten Variablen wird vom Spracherkennungssystem mit der jeweiligen Bewertung der Wort- und/oder Satzhypothese verknüpft, wodurch sich eine neue Bewertung der Wort- und/oder Satzhypothese ergibt. Der Spracherkenner gibt am Ende die bestbewerteten Wort- und/oder Satzhypothesen aus.
- Die Grundidee der Erfindung liegt in einer Nutzung des Rückgabewerts der Prozeduren für eine Bewertung von Worthypothesen, zur Steuerung des Spracherkenners oder zur Interaktion mit anderen Systemen, wie z. B. anderen Eingabemodalitäten.
- Vorteile der Erfindung gegenüber dem Stand der Technik ergeben sich insbesondere durch eine Erhöhung der Erkennungsgenauigkeit und -performanz, da im Spracherkennungslauf ungültige Wortfolgen von vorneherein ausgeschlossen werden können. Weiterhin ist es für den Anwendungsentwickler auf sehr einfache Weise möglich auch sehr komplexe Nebenbedingungen und Aktionen in den Spracherkennungsprozess mit einzubeziehen.
- Weiterhin ist denkbar, dass die Prozeduren über einen vordefinierten Satz von Kommandos das Verhalten des Spracherkenners steuern können, etwa indem sie z. B. einen zweiten Erkennungslauf für Teile der Äußerung mit einem erweiterten Vokabular oder einer anderen Sprache triggern.
- Vorzugsweise führt der Spracherkenner über die Prozeduren auch selbstständig einen Dialog fort, indem er beispielsweise mit einem Sprachsynthesesystem interagiert, um noch einmal nachzufragen, wenn eine Äußerung nur schlecht verständlich war. Das kann die Gestaltung des Dialogs für den Anwendungsentwickler weiter vereinfachen.
- Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass die Erkennungsgrammatik eine Grammatik für Ziffernfolgen ist, die Prozeduren in einer Programmiersprache, beispielsweise Javascript, enthält.
- Vorzugsweise wird dabei zur Bewertung der Wort- und/oder Satzhypothese der Erkennungsgrammatik der Wert einer festgelegten Variablen berechnet, die alle Ziffernfolgen schlecht bewertet, die nicht gültig sind.
- Ein Ausführungsbeispiel bzw. ein Anwendungsbeispiel der Erfindung ist eine eingangs erwähnte Erkennung von Kreditkartennummern. Die Erkennungsgrammatik wäre in diesem Fall eine Grammatik für Ziffernfolgen, die Prozeduren in einer Programmiersprache, beispielsweise Javascript, enthält.
- Eine festgelete Variable «score» wird berechnet, die alle Ziffernfolgen schlecht, beispielsweise mit 0.0, bewertet, die nicht gültig im Sinne einer Kreditkartennummer sind.
Claims (6)
- Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem, welches Spracherkennungssystem Prozeduren enthaltende Erkennungsgrammatiken ausführt, die in Form von Wort- und/oder Satzhypothesen festlegen, welche Äußerungen gesprochen werden können, wobei das Spracherkennungssystem einen Spracherkenner enthält, um Prozeduren, die in einer bestimmten Programmiersprache geschrieben sind, auswerten zu können, wobei während eines Erkennungsvorgangs die Prozeduren in Abhängigkeit davon, welche Worthypothesen gut bewertet sind, ausgeführt werden, und die Prozeduren durch Ausgabe eines Rückgabewerts auch mit anderen Systemen zur Nutzung von Nebenbedingungen interagieren können, dadurch gekennzeichnet, dass der Rückgabewert der Prozeduren oder der Wert einer festgelegten Variablen vom Spracherkennungssystem mit der jeweiligen Bewertung der Wort- und/oder Satzhypothese verknüpft wird, wodurch sich eine neue Bewertung der Wort- und/oder Satzhypothese ergibt, und der Spracherkenner am Ende die bestbewerteten Wort- und/oder Satzhypothesen ausgibt.
- Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Prozeduren über einen vordefinierten Satz von Kommandos das Verhalten des Spracherkenners steuern können.
- Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Prozeduren das Verhalten des Spracherkenners durch triggern eines zweiten Erkennungslauf für Teile der Äußerung mit einem erweiterten Vokabular oder einer anderen Sprache steuern.
- Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Spracherkenner über die Prozeduren auch selbstständig einen Dialog fortführt, um noch einmal nachzufragen, wenn eine Äußerung nur schlecht verständlich war.
- Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Erkennungsgrammatik eine Grammatik für Ziffernfolgen ist.
- Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass zur Bewertung der Wort- und/oder Satzhypothese der Erkennungsgrammatik der Wert einer festgelegten Variablen («score») berechnet wird, die alle Ziffernfolgen schlecht bewertet, die nicht gültig sind.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE200810007698 DE102008007698A1 (de) | 2008-02-06 | 2008-02-06 | Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem |
PCT/EP2009/050598 WO2009098118A1 (de) | 2008-02-06 | 2009-01-20 | Verfahren zur erkennung einer eingabe in einem spracherkennungssystem |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE200810007698 DE102008007698A1 (de) | 2008-02-06 | 2008-02-06 | Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102008007698A1 true DE102008007698A1 (de) | 2009-08-13 |
Family
ID=40491093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE200810007698 Withdrawn DE102008007698A1 (de) | 2008-02-06 | 2008-02-06 | Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem |
Country Status (2)
Country | Link |
---|---|
DE (1) | DE102008007698A1 (de) |
WO (1) | WO2009098118A1 (de) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19615693C1 (de) * | 1996-04-19 | 1997-12-11 | Siemens Ag | Vorrichtung und Verfahren zur Aktionsermittlung |
DE19635754A1 (de) * | 1996-09-03 | 1998-03-05 | Siemens Ag | Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung |
DE19933524A1 (de) * | 1999-07-16 | 2001-01-18 | Nokia Mobile Phones Ltd | Verfahren zur Eingabe von Daten in ein System |
DE10131157C1 (de) * | 2001-06-29 | 2002-07-04 | Project49 Ag | Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme |
DE102005018174A1 (de) * | 2005-04-19 | 2006-11-02 | Daimlerchrysler Ag | Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11 |
DE102006036338A1 (de) * | 2006-08-03 | 2008-02-07 | Siemens Ag | Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem |
DE102006057159A1 (de) * | 2006-12-01 | 2008-06-05 | Deutsche Telekom Ag | Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6922669B2 (en) * | 1998-12-29 | 2005-07-26 | Koninklijke Philips Electronics N.V. | Knowledge-based strategies applied to N-best lists in automatic speech recognition systems |
US8200495B2 (en) * | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
-
2008
- 2008-02-06 DE DE200810007698 patent/DE102008007698A1/de not_active Withdrawn
-
2009
- 2009-01-20 WO PCT/EP2009/050598 patent/WO2009098118A1/de active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19615693C1 (de) * | 1996-04-19 | 1997-12-11 | Siemens Ag | Vorrichtung und Verfahren zur Aktionsermittlung |
DE19635754A1 (de) * | 1996-09-03 | 1998-03-05 | Siemens Ag | Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung |
DE19933524A1 (de) * | 1999-07-16 | 2001-01-18 | Nokia Mobile Phones Ltd | Verfahren zur Eingabe von Daten in ein System |
DE10131157C1 (de) * | 2001-06-29 | 2002-07-04 | Project49 Ag | Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme |
DE102005018174A1 (de) * | 2005-04-19 | 2006-11-02 | Daimlerchrysler Ag | Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11 |
DE102006036338A1 (de) * | 2006-08-03 | 2008-02-07 | Siemens Ag | Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem |
DE102006057159A1 (de) * | 2006-12-01 | 2008-06-05 | Deutsche Telekom Ag | Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen |
Also Published As
Publication number | Publication date |
---|---|
WO2009098118A1 (de) | 2009-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE10306022B3 (de) | Dreistufige Einzelworterkennung | |
DE69919842T2 (de) | Sprachmodell basierend auf der spracherkennungshistorie | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
EP1217610A1 (de) | Verfahren und System zur multilingualen Spracherkennung | |
EP1927980A2 (de) | Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen | |
DE602004004310T2 (de) | System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen | |
DE102006036338A1 (de) | Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem | |
EP1264301B1 (de) | Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem | |
DE10119284A1 (de) | Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems | |
EP1182646A2 (de) | Verfahren zur Zuordnung von Phonemen | |
DE60026366T2 (de) | Spracherkennung mit einem komplementären sprachmodel für typischen fehlern im sprachdialog | |
EP0987682A2 (de) | Verfahren zur Adaption von linguistischen Sprachmodellen | |
DE69331247T2 (de) | Spracherkennungssystem | |
WO2004070702A1 (de) | Generieren und löschen von aussprachevarianten zur verringerung der wortfehlerrate in der spracherkennung | |
WO1996027871A1 (de) | Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird | |
EP2034472B1 (de) | Spracherkennungsverfahren und Spracherkennungsvorrichtung | |
DE60029456T2 (de) | Verfahren zur Online-Anpassung von Aussprachewörterbüchern | |
DE102008007698A1 (de) | Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem | |
DE10014337A1 (de) | Verfahren zum Erzeugen eines Sprachmodells und eines akustischen Modells für ein Spracherkennungssystem | |
DE10229207B3 (de) | Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik | |
DE102005030967B4 (de) | Verfahren und Vorrichtung zur Interaktion mit einem Spracherkennungssystem zur Auswahl von Elementen aus Listen | |
DE102005030965B4 (de) | Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments | |
DE10308611A1 (de) | Ermittlung der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung | |
DE102010026708A1 (de) | Verfahren zum Betreiben eines Sprachdialogsystems und Sprachdialogsystem | |
DE10131157C1 (de) | Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8139 | Disposal/non-payment of the annual fee |