DE60130880T2 - Web-gestützte spracherkennung durch scripting und semantische objekte - Google Patents
Web-gestützte spracherkennung durch scripting und semantische objekte Download PDFInfo
- Publication number
- DE60130880T2 DE60130880T2 DE60130880T DE60130880T DE60130880T2 DE 60130880 T2 DE60130880 T2 DE 60130880T2 DE 60130880 T DE60130880 T DE 60130880T DE 60130880 T DE60130880 T DE 60130880T DE 60130880 T2 DE60130880 T2 DE 60130880T2
- Authority
- DE
- Germany
- Prior art keywords
- applications
- application
- semantic
- script
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000013515 script Methods 0.000 claims description 92
- 238000011156 evaluation Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 17
- 238000000034 method Methods 0.000 claims description 16
- 230000036541 health Effects 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000012544 monitoring process Methods 0.000 claims description 11
- 238000012423 maintenance Methods 0.000 claims description 7
- 230000001413 cellular effect Effects 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 238000009533 lab test Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 3
- 231100000206 health hazard Toxicity 0.000 claims description 2
- 230000003993 interaction Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 claims 3
- 238000012502 risk assessment Methods 0.000 claims 2
- 238000004891 communication Methods 0.000 claims 1
- 238000011157 data evaluation Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 10
- 238000011161 development Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000448472 Gramma Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Marketing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Complex Calculations (AREA)
- Information Transfer Between Computers (AREA)
- Hardware Redundancy (AREA)
- Multi Processors (AREA)
- Communication Control (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Navigation (AREA)
- Measuring Fluid Pressure (AREA)
- Computer And Data Communications (AREA)
- Toys (AREA)
- Telephone Function (AREA)
- Traffic Control Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
- Gebiet der Erfindung
- Die vorliegende Erfindung bezieht sich allgemein auf Systeme und Verfahren zur Entwicklung und Implementierung von Transaktions-Sprach-Anwendungen. Insbesondere bezieht sich die vorliegende Erfindung auf Systeme und Verfahren zum Entwickeln und Implementieren von Transaktions-Sprach-Anwendungen unter Verwendung von Web-basierten Technologien.
- Querverweis auf verwandte Anmeldungen
- Diese Anmeldung beansprucht die Vergünstigungen der Priorität aus der vorläufigen US-Patentanmeldung 60/192,091 vom 24. März 2000 mit dem Titel „COMBINED SYNTACTIC AND SEMENTIC SEARCH, PARSING, AND APPLICATION ACCESS", der vorläufigen US-Patentanmeldung 60/191,915 vom 24. März 2000 mit dem Titel „SPEECH RECOGNITION APPLICATION TECHNOLOGY USING WEB, SCRIPTING AND SEMANTIC OBJECTS", der vorläufigen US-Patentanmeldung 60/192,090 vom 24. März 2000 mit dem Titel „A NOVEL APPROACH TO SPEECH RECOGNITION", und der vorläufigen US-Patentanmeldung 60/192,076 vom 24. März 2000 mit dem Titel „REMOTE SERVER OBJECT ARCHITECTURE FOR SPEECH RECOGNITION" die sich in gemeinsamen Besitz befinden.
- Hintergrund der Erfindung
- Mit der Verbreitung von Computer-Systemen wurde ein zunehmendes Ausmaß der Verarbeitung automatisiert. Gleichzeitig setzt sich die Entwicklung der Verarbeitungsleistung derartiger Systeme weiter fort. Um diese zunehmend verfügbare Verarbeitungsleistung auszunutzen, versuchen Organisationen, Funktionen, die bisher von Personen ausgeführt wurden, wenn überhaupt, auf automatisierte Systeme zu übertragen. Beispielsweise werden zunehmend Computer-Systeme entwickelt und verwendet, um mit Personen über einen Sprach-Dialog in Kontakt zu treten. Es wurden beispielsweise einige Systeme implementiert, um Interviews und Befragungen von Einzelpersonen über ein Telefon durchzuführen, während andere Systeme mit Personen ohne die Verwendung eines Netzwerkes in einen Dialog treten können. Zusätzlich ist anzunehmen, dass wenn Sprache über das Weltweite Datennetz (das „Web") und das Internet (beispielsweise Sprache-über-IP) mehr und mehr üblich wird, der Sprache-basierte Mensch-Computer-Dialog zunehmend unter Verwendung dieses Mediums ausgeführt wird.
- Ein Bespiel eines Sprache-basierten Mensch-Computer-Dialogs besteht in Umfrage-Systemen, bei denen ein Computer eine automatisierte Sprache-basierte Befragung einer Person über ein Telefon ausführt. In einem derartigen Fall kann das Umfrage-System eine in einem Skript niedergelegte Umfrage (das heißt eine Serie von Fragen) haben, die an die Person gestellt werden. Das Umfrage-System kann eine erste Frage als eine Aufforderung stellen und dann (beispielsweise über 5 Sekunden) auf eine Antwort durch die Person warten. Wenn das Umfrage-System keine Antwort empfängt oder eine Antwort empfängt, die es nicht interpretieren kann, so kann das Umfrage-System die Frage erneut stellen oder eine Reaktion vom Anweisungs-Typ liefern. Wenn das Umfrage-System eine Antwort empfängt, die es interpretieren kann, geht das Umfrage-System zum Stellen einer nächsten Frage oder zur Vorlage einer nächsten Aufforderung über.
- Derartige Mensch-Computer-Systeme schließen üblicherweise ein automatisches Spracherkennungs-(ASR-)System ein, das ankommende akustische Information in brauchbare linguistische Einheiten umwandelt, wie zum Beispiel Worte oder Sätze. In einem Transaktions-ASR-System, beispielsweise einem System, das über ein Telefon-Netz arbeitet, gibt es einen Satz von zulässigen Worten und Sätzen, die durch Grammatik definiert sind. Der Prozess des Durchsortierens der Grammatik auf eine bestimmte Wort- oder Satz-Verwendung wird als eine syntaktische Suche bezeichnet, bei der die Worte und ihre Reihenfolge bestimmt werden, typischerweise auf der Grundlage der Wahrscheinlichkeit. Derartige syntaktische Such-Systeme werten typischerweise ein Wort unter Verwendung eines festen Startpunktes und eines festen Endpunktes aus, und sie verarbeiten diese Daten, um das Wort mit einer zugehörigen Wahrscheinlichkeit zu bestimmen. Diese Lösung erweist sich jedoch als wenig wirkungsvoll, weil der Zeitrahmen zwischen Start- und Endpunkten für einige Audio-Eingänge ausreichend sein kann, jedoch für andere unzureichend ist, wobei einige Daten über eine Endpunkt hinaus abgeschnitten werden und in anderen Fällen mehr Zeit auf ein Wort verwendet wird, als dies erforderlich ist. Zusätzlich können, wenn keine Ergebnisse oberhalb einer bestimmten Schwellenwert-Wahrscheinlichkeit erzielt werden, derartige Systeme zurücksteigen und die Audio-Eingabe erneut bearbeiten, um die phonetischen Abschätzungen zu verbessern. Anderenfalls kann das System nur eine beste Schätzung, jedoch mit niedriger Verlässlichkeit weiterleiten.
- Bei derartigen Systemen werden typischerweise Audio-Eingänge, unabhängig davon, ob sie Sprache- oder Hintergrund-Störungen sind, in den meisten Fällen als gültige Sprache verarbeitet. Das heißt, derartige Systeme unterhalten üblicherweise keine ausreichende Kontext-Kenntnis über die erwartete Antwort, um externe Störungen (oder ein „Hereinplatzen") zu beseitigen. Als Ergebnis können derartige Systeme versuchen, derartige Störungen als Sprache zu interpretieren, wodurch ein Ergebnis erzeugt wird, das eingebettete Fehler aufweist, oder sie verwerfen das Ergebnis vollständig.
- Die Entwicklung von Sprach-Anwendungen, die Spracherkennungs-(SR-)Systeme verwenden, zur Erzeugung derartiger Mensch-Computer-Systeme ist allgemein eine aufwendige zeitraubende Anstrengung, die ein Team erfordert, das aus mehrfachen Disziplinen stammt. Die dominierende Lösung zur Verbesserung der Einfachheit einer derartigen Anwendungs-Entwicklung bestand in der Schaffung von Web-basierten Anwendungen unter Verwendung von HTML-Erweiterungen. Beispielsweise sind VOXML, VoiceXML und SpeechML bekannte Arten von Erweiterungen, die speziell für SR-Systeme geschaffen wurden. Diese Lösungen waren jedoch schwerwiegend hinsichtlich ihrer Fähigkeit beschränkt, komplizierte Sprach-Wechselwirkungen darzustellen, und zwar aufgrund der starken Beschränkungen hinsichtlich ihrer Codierungs-Leistung sowie von Beschränkungen hinsichtlich ihrer Steuerung bei grundlegenden SR-Maschinen und des Zugriffs hierauf. Das heißt, dass HTML keine wirkliche Programmier-Sprache ist, sondern vielmehr eine Markierungs-Sprache ist. Daher ergibt sie lediglich ein sehr beschränktes Rahmenwerk, das nicht besonders für die Schaffung robuster Anwendungen geeignet ist. Der Zugang an Spracherkennungs-Maschinen, wie zum Beispiel VoiceXML-Anwendungen ist durch die Einschränkungen der Markierungs-Sprache begrenzt, wie zum Beispiel das Fehlen von Programmiersprachen-Fähigkeiten und festen vordefinierten Schnittstellen zu der SR-Maschine.
- Derartige VoiceXML-Anwendungen befinden sich typischerweise bei einem SR-System auf einem Sprach-Portal (oder einer Überleiteinrichtung), das als ein Klient für einen Web-Server wirkt, der Hilfsdienste für die VoiceXML-Anwendung liefert. Die Hilfsdienste schließen Standard-Web-Dienste und üblicherweise eine kundenspezifische Software ein, die von der VoiceXML-Anwendung benötigt wird. Beispielsweise wird typischerweise ein Unterstützungs-(das heißt ein Server-seitiges) Produktdaten-Servlet typischerweise eingefügt, das für den Verkehr mit Unterstützungs- oder Hilfsdiensten verantwortlich ist, unter Einschluss der Umwandlung empfangener Antworten in XML. Ein Produkt-Präsentations-Servlet ist typischerweise ebenfalls auf der Server-Seite eingefügt. Dieses Servlet wird zum Überführen von Inhalt in einem Format verwendet, das von der VoiceXML-Anwendung (oder dem Klienten) benötigt wird. Ein Aufbewahrungsort für VoiceXML-spezifische XSL-Schablonen befindet sich an der Unterstützungs-Einrichtung und definiert die Formate, die von dem Produkt-Präsentations-Servlet verwendet werden. Weiterhin ist ein Produkt-Dienst auf der Unterstützungs-Seite vorgesehen, der die Verbreitung von Produkt-bezogener Information verwaltet, beispielsweise um das Produkt-Browsen zu erleichtern. Weiterhin befindet sich eine Produkt-Datenbank, die von den verschiedenen Server-seitigen Servlets und Diensten verwendet wird, ebenfalls an der Unterstützungs-Seite.
- Diese Lösung mit einer starken Abhängigkeit von Unterstützungs-Server-seitigen Diensten ist bei derartigen VoiceXML-Anwendungen erforderlich, weil VoiceXML-Anwendungen als solche nicht in der Lage sind, komplexe und robuste Funktionen zur Verfügung zu stellen.
- Aus der
US 5 748 841 ist ein System bekannt, um ein Programm über Sprache zu betreiben. Sprachbefehle werden von einem Dialog-System empfangen und in einem semantischen Ausdruck umgewandelt. Das Dialog-System verfolgt den Dialog, der abläuft, durch Unterhalten einer Dialog-Historie. - Das System empfängt eine von dem Benutzer gelieferte Eingabe. Diese Eingabe wird erkannt und einem semantischen Ausdruck umgewandelt. Der Ausdruck wird dann gegen ein Dialog-Modell getestet, ob dies ein Meta-Befehl oder ein einfacher Befehl ist. Wenn der Eingabe-Ausdruck in dem Dialog-Kontext Sinn macht, so wird er interpretiert, und schließlich laufen Anwendungs-Skripte ab. Anwendungs-Skripte werden zum Analysieren und Auswerten von Benutzer-Eingaben verwendet. Sie definieren keinen Kontext. Eine Schnittstelle wird als eine Benutzer-Schnittstelle verwendet.
- Zusammenfassung der Erfindung
- Die vorliegende Erfindung ist ein System und Verfahren zur Erzeugung und Implementierung von Transaktions-Sprach-Anwendungen (SAs) unter Verwendung von Web-Technologien ohne Abhängigkeit von Server-seitigen Standard- oder kundenspezifischen Diensten. Eine Transaktions-Sprach-Anwendung kann irgendeine Anwendung sein, die eine Interpretation von Sprache in Verbindung mit einem Spracherkennungs-(SR-)System erfordert, wie zum Beispiel Kundenbefragungs-Anwendungen oder Systeme. Eine Sprach-Anwendung gemäß der vorliegenden Erfindung ist innerhalb einer Web-Seite als ein Anwendungs-Skript dargestellt, das semantische Objekte entsprechend einem Kontext interpretiert. Irgendeine allgemein bekannte Skript-Sprache kann zum Schreiben des Anwendungs-Skriptes verwendet werden, wie zum Beispiel Jscript, PerlSript und VBscript. Die vorliegende Erfindung ist in dem Ausmaß „Web-basiert", das sie Web-Technologien implementiert, das weltweite Datennetz jedoch nicht einschließen oder einen Zugriff auf dieses ausführen muss.
- Die vorliegende Erfindung ist durch die beigefügten unabhängigen Ansprüche definiert.
- Ein SR-System schließt eine SR-Plattform und ein SR-Anwendungs-Programm ein. Das SR-System dient als eine Schnittstelle oder Überleiteinrichtung zwischen einem für einen Benutzer zugänglichen Netzwerk und einem Anwendungs-System (beispielsweise einer Quelle), die eine Web-Seite erzeugt, die das Anwendungs-Skript einschließt. Die Anwendungs-Skript-Quelle kann örtlich oder an einer entfernten Stelle oder von dem SR-System entfernt angeordnet sein. Wenn das SR-System eine Zugriff auf ein an einer entfernten Stelle angeordnetes Anwendung-System ausführen muss, schließt das SR-System eine Seiten-Adressen-Information (beispielsweise URLs) ein, und es kann so konfiguriert sein, dass es einen Zugriff auf das Anwendungs-System ausführt und die Web-Seite als Antwort auf einen ankommenden Anruf herunterlädt.
- Die SR-Plattform kann beispielsweise ein Standard-Server mit einer Netzwerk-Schnittstelle sein, die den Empfang von Audio-Information ermöglicht. Die Netzwerk-Schnittstelle kann den Empfang von Audio-Information über irgendeines einer Vielfalt von Netzwerken ermöglichen, wie zum Beispiel Telefon-Netzwerke, Zellular-Telefon-Netzwerke, das Web, Internet, lokale Netzwerke (LANs), Weitbereichs-Netzwerke (WANs), private Netzwerke, virtuelle private Netzwerke (VPNs), Intranets, Extranets, drahtlose Netzwerke und dergleichen, oder irgendeine Kombination hiervon. Das SR-System kann mit Hilfe irgendeiner oder mehrerer einer Vielfalt von Geräten zugänglich sein, die in der Lage sind, Audio-Information zu übermitteln, wie zum Beispiel Telefone, Zellular-Telefone, persönliche Computer (PC), persönliche digitalen Assistenten (PDA) oder andere Arten von Audio-fähigen Geräten.
- Die Web-Seite unter Einschluss des Anwendungs-Skriptes kann sich an dem SR-System örtlich zu diesem befinden, oder es kann von einem Transaktions-Sprach-Anwendungs-System über ein Netzwerk heruntergeladen werden, wie zum Beispiel die vorstehend beschriebenen Netzwerke. Die Funktionalität der Sprach-Anwendung wird von dem Anwendungs-Skript an das SR-System ohne die Notwendigkeit einer Server-seitigen Anwendungs-Codierung an einem Anwendungs-Server geliefert, wie dies bei Systemen erforderlich ist, die in VoiceXML geschriebene Sprach-Anwendungen verwenden, um ein Beispiel zu nennen. Das heißt, die gesamte erforderliche Anwendungs-Funktionalität kann heruntergeladen werden, falls erforderlich, und an dem SR-System ausgeführt werden. Diese Funktionalität schließt das Darbieten von Benutzer-Aufforderungen, die Verarbeitung von Benutzer-Antworten, die Gesamt-Anwendungs-Sitzungs-Verwaltung, eine Schnittstellen-Verbindung mit anderen verfügbaren Modulen oder Einrichtungen ein, die eine Funktionalität ergeben. Eine derartige Funktionalität schließt weiterhin eine SR-System-Steuerfunktionalität und eine Standard-HTML- und Betriebssystem-Funktionalität ein. Schnittstellen an eine derartige Funktionalität werden vorzugsweise als selbständige wiederverwendbare Objekte geschrieben.
- Allgemein entsprechen alle die Schnittstellen-Objekte, die von dem Anwendungs-Skript verwendet werden, einem Standard-Schnittstellen-Modell, wie zum Beispiel ActiveX. Das Anwendungs-Skript kann sehr einfach einen Zugriff auf alle von Natur aus vorhandenen ActiveX-Fähigkeiten des Betriebssystems (beispielsweise Mitteilungs-Übermittlung, Datenbank-Zugriff usw.) über diese Standard-Schnittstellen unter Verwendung von Standard-ActiveX-Steuerungen ausführen. Die Verwendung von ActiveX-Schnittstellen-Objekten (das heißt genormte konsistente Objekte) für Zugriffs- und Steuer-Funktionen, die für das Anwendungs-Skript verfügbar sind, vereinfacht sehr stark die Entwicklung und Integration derartiger Anwendungen, die lediglich konfiguriert werden müssen, um diese Standard-ActiveX-Schnittstellen-Objekte zu verwenden, so dass sie keine speziellen oder kundenspezifischen Schnittstellen erfordern.
- Eine semantische Schnittstelle an die SR-Anwendung stellt das Anwendungs-Skript im SR-System zur Verfügung. Die semantische Schnittstelle ist als ein Objekt beschrieben, das für das SR-System örtlich ist, wie zum Beispiel ein ActiveX-Objekt. Das semantische Schnittstellen-Objekt schließt eine Standard-HTML-Browser-Funktionalität ein, unter Einschluss einer Etikett-Verarbeitung, einer Hyper-Referenz usw.. Das semantische Schnittstellen-Objekt unterstützt weiterhin HTML-Erweiterungen, wie zum Beispiel Wiedergabe, Abspielen und Aufzeichnung, sowie andere bekannte HTML-Erweiterungen. Wenn es Skript-Etiketten gibt, die sich auf der Web-Seite befinden, so lädt die semantische Schnittstelle eine entsprechende Skript-Maschine. Weil die semantische Schnittstelle als eine Objekt-Schnittstelle hoher Ebene codiert ist, muss sie nicht für das Anwendungs-Skript kundenspezifisch gemacht werden. Über das semantische Schnittstellen-Objekt steuert das Anwendungs-Skript das SR-System. Beispielsweise kann das Anwendungs-Skript die SR-Anwendung beauftragen, mit der Erkennung zu beginnen, eine Datei abzuspielen, eine Aufforderung abzuspielen, und so weiter. Derartige Aufgabenstellungen können unter Verwendung genormter Objektorientierter Entwurfs-(OOD-)Aufrufe und Verfahren bewirkt werden.
- Die SR-Anwendungs-Funktionalität ist so konfiguriert, dass sie einen Kontext-freien Satz von semantischen Daten erzeugt und zurückliefert, die alle möglichen gültigen Interpretationen einer empfangenen Audio-Eingabe darstellen. Das heißt, dass das SR-System so konfiguriert sein kann, dass es eine syntaktische und semantische Verarbeitung unter Verwendung einer gemeinsamen Grund-Grammatik oder eines Satzes von Grammatiken ausführt, um semantische Daten zu erzeugen, die eine Vielzahl von gültigen Interpretationen einer empfangenen Audio-Eingabe darstellen. Die semantischen Daten werden in einem semantischen Objekt (oder Objekten) dargestellt, das bzw. die von der SR-Anwendung an das Anwendungs-Skript weitergeleitet werden. Jedes semantische Objekt durchläuft die semantische Schnittstelle zu einer Auswertungs-Schnittstelle des Anwendungs-Skripts. Die Auswertungs-Schnittstelle kann ebenfalls als ein ActiveX-Objekt beschrieben sein, das als ein Auswertungs-(oder Interpretations-)Werkzeug für das Anwendungs-Skript dienen kann. Das Anwendungs-Skript ergibt einen Kontext für die Auswertungs-Schnittstelle. Die Auswertungs-Schnittstelle bestimmt die Kategorie als eine Funktion des Kontextes, und wendet die Kategorie auf den Satz von semantischen Daten an, um spezifische Interpretationen des Satzes von semantischen Daten aus all den möglichen Interpretationen zu gewinnen. Dieses spezielle Ergebnis kann als ein linguistisches Ergebnis bezeichnet werden, das ein Wort, einen Satz oder Werte darstellt. Sobald das linguistische Ergebnis bestimmt wurde, verarbeitet das Anwendungs-Skript das Ergebnis, um die nächste Aktion oder Aufforderung an den Benutzer zu bestimmen.
- Kurze Beschreibung der Zeichnungen
- Die vorstehenden und anderen Ziele der Erfindung, deren verschiedene Merkmale sowohl die Erfindung selbst werden weiter aus der folgenden Beschreibung verständlich, wenn diese anhand der beigefügten Zeichnungen gelesen wird, in denen:
-
1 eine Netzwerk-Architektur ist, innerhalb der die vorliegende Erfindung implementiert werden kann; -
2 ein Blockschaltbild ist, dass die verschiedenen Elemente einer Implementierung einer Sprach-Anwendung und des Spracherkennungs-Systems gemäß der vorliegenden Erfindung zeigt; und -
3 ein Ablaufdiagramm ist, das ein Verfahren der vorliegenden Erfindung zeigt. - Zum größten Teil, und wie dies aus der Bezugnahme auf die Figuren zu erkennen ist, wird, wenn ein Element in mehr als einer Figur unverändert verwendet wird, es durch die gleiche alphanumerische Bezeichnungs-Angabe in allen Figuren identifiziert.
- Ausführliche Beschreibung der bevorzugten Ausführungsform
- Die vorliegende Erfindung ist ein System und Verfahren zur Schaffung und Implementierung von Transaktions-Sprach-Anwendungen (SAs) unter Verwendung von Web-Technologien ohne Abhängigkeit von Server-seitigen Standard- oder kundenspezifischen Diensten. Eine Transaktions-Sprach-Anwendung kann irgendeine Anwendung sein, die eine Interpretation von Sprache in Verbindung mit einem Spracherkennungs-(SR-)System erfordert, wie zum Beispiel Kundenbefragungs-Anwendungen oder -Systeme. Eine Sprach-Anwendung gemäß der vorliegenden Erfindung wird in einer Web-Seite als ein Anwendungs-Skript dargestellt, das semantische Objekte entsprechend einem Kontext interpretiert. Irgendeine üblicherweise bekannte Skript-Sprache kann zum Schreiben des Anwendungs-Skripts verwendet werden, wie zum Beispiel Jscript, PerScript und Vbscript. Die vorliegende Erfindung ist in der Hinsicht „Web-basiert", dass sie Web-Technologien implementiert, sie muss jedoch das weltweite Datennetz (Web) nicht einschließen oder einen Zugriff hierauf haben.
- Die vorliegende Erfindung kann auf irgendeiner oder mehreren einer Vielzahl von Geräten, Netzwerken und Architekturen implementiert werden.
1A zeigt eine mögliche Architektur100 , auf der die vorliegende Erfindung implementiert werden kann. Das SR-System120 schließt ein SR-Anwendungsprogramm ein, das auf einer Standard-Plattform abläuft, wie zum Beispiel einem SR-Server122 . Ein oder mehrere zugehörige Datenbanken124 schließen die SR-Anwendung und die Daten ein, wie zum Beispiel Kontext-freie Grammatik-Datenbanken. Das SR-System dient als eine Schnittstelle oder Überleiteinrichtung zwischen einem für einen Benutzer zugänglichen Netzwerk130 und einem Anwendungs-System (beispielsweise einer Quelle), die die Web-Seite erzeugt und die das Anwendungs-Skript einschließt. Die Anwendungs-Quelle kann örtlich oder entfernt von dem SR-System angeordnet sein. Tatsächlich kann sich die Anwendungs-Skript-Quelle ebenfalls auf dem Server122 befinden. Bei anderen Ausführungsformen kann sich der Anwendungs-Code auf einem Anwendungs-Server110 befinden, der eine zugehörige Datenbank (DB)112 hat, die mit dem SR-System über irgendeines einer Anzahl von Standard-Netzwerken150 gekoppelt ist. Bei weiteren Ausführungsformen kann das SR-System eine Vielzahl von Anwendungs-Quellen mit Diensten versorgen, von denen einige örtlich sein können, während andere von dem SR-System entfernt angeordnet sein können. Wenn das SR-System auf ein entfernt angeordnetes Anwendungs-System zugreifen soll, so schließt das SR-System Seiten-Adressen-Information (beispielsweise URLs) ein, und es kann so konfiguriert sein, dass es einen Zugriff auf das Anwendungs-System ausführt und die Web-Seite als Antwort auf einen ankommenden Anruf herunterlädt. - Das SR-System
120 kann eine Netzwerk-Schnittstelle einschließen, die den Empfang von Audio-Information durch irgendeines eine Vielzahl von Netzwerken ermöglicht, wie zum Beispiel Telefon-Netzwerken, Zellular-Telefon-Netzwerken, dem weltweiten Datennetz (Web), Internet, lokalen Netzwerken (LANs), Weitbereichs-Netzwerken (WANs), privaten Netzwerken, virtuellen privaten Netzwerken (VPNs), Intranets, Extranets, drahtlosen Netzwerken und dergleichen, oder Kombinationen hiervon. Auf das SR-System kann durch irgendeines oder mehrere einer Vielzahl von Geräten140 zugegriffen werden, die in der Lage sind, Audio-Information zu übertragen. Derartige Geräte140 können ohne Beschränkung hierauf ein Standard-Telefon (unter Einschluss von Zellular-Telefonen)142 , einen Laptop-Computer144 oder einen Desktop-Computer146 sowie andere Audiofähige Geräte einschließen (beispielsweise persönliche digitale Assistenten, Audio-Empfänger und Anwendungs-Server). - Eine Sprach-Anwendung kann irgendeine interaktive Anwendung sein, die Information sammelt, bereitstellt und/oder verteilt. Als Beispiele können bei der vorliegenden Erfindung eine Sprach-Anwendung und ein Anwendungs-Skript irgendeine einer Gruppe von interaktiven Anwendungen sein, unter Einschluss von Kundenbefragungs-Anwendungen, Web-Zugriffs-Anwendungen; Erziehungs-Anwendungen, unter Einschluss von Gesundheits-Erziehungs-Anwendungen, und Computer-basierten Unterrichts-Anwendungen und Test-Anwendungen; Überprüfungs-Anwendungen, unter Einschluss von Patienten-Prüfungs-Anwendungen und Verbraucher-Überprüfungs-Anwendungen; Gesundheitsgefahr-Abschätzungs-Anwendungen; Überwachungs-Anwendungen, unter Einschluss von Überwachungs-Anwendungen von Gesundheits-Daten und Überwachungs-Anwendungen für Verbraucher-Vorlieben; Befolgungs-Anwendungen, insbesondere Anwendungen zur Erzeugung von Benachrichtigungen über über Befolgungsbezogene Aktivitäten, unter Einschluss von Benachrichtigungen hinsichtlich einer Einhaltung von Gesundheits- oder Produkt-Vorschriften; Testergebnis-Anwendungen unter Einschluss von Anwendungen, die zumindest eines von Labor-Testergebnissen, Standard-Testergebnissen, Verbraucher-Produkt-Testergebnissen und Wartungs-Ergebnissen ergeben; und Verknüpfungs-Anwendungen unter Einschluss von Anwendungen, die zwei oder mehr der vorstehenden Anwendungen verknüpfen.
- In
2 ist ein Blockschaltbild200 gezeigt, das eine Implementierung der vorliegenden Erfindung zeigt. Die Web-Seite220 , die das Anwendungs-Skript222 einschließt, kann sich am Ort des SR-Systems befinden, oder sie kann von einem Transaktions-Sprach-Anwendungs-System110 über das Netzwerk150 heruntergeladen werden. In jedem Fall wird die Web-Seite220 auf das SR-System120 (oder eine hierzu örtliche Plattform) geladen, die als Web-Seite220' mit dem Anwendungs-Skript222' gezeigt ist. Die Funktionalität der Sprach-Anwendung wird dem SR-System120 von dem Anwendungs-Skript222' geliefert, ohne dass die Notwendigkeit einer Server-seitigen Anwendungs-Codierung an einem Anwendungs-Server110 besteht, wie dies bei Systemen erforderlich ist, die beispielsweise in VoiceXML geschriebene Sprach-Anwendungen verwenden. Das heißt, dass alle erforderliche Anwendungs-Funktionalität als Teil des Anwendungs-Skriptes heruntergeladen und an dem SR-System120 ausgeführt wird. Diese Funktionalität ergibt die Darbietung von Benutzer-Aufforderungen, die Verarbeitung von Benutzer-Antworten, die Gesamt-Anwendungs-Sitzungs-Verwaltung und die Bildung von Schnittstellen mit anderen verfügbaren Modulen oder Einrichtungen, die eine Funktionalität ergeben. Derartige Aufforderungen können Fragen einschließen, wie zum Beispiel „waren Sie jemals in Aruba?". Benutzer-Antworten schließen beispielsweise Antworten auf derartige Fragen ein, beispielsweise „einhundert Mal!". Die Gesamt-Sitzungs-Verwaltung kann die Durchführung einer Umfrage einschließen, die derartige Aufforderungen liefert und derartige Antworten verarbeitet. Eine derartige Funktionalität schließt auch eine Funktionalität zur Steuerung des SR-Systems120 und eine Standard-HTML- und Betriebssystem-Funktionalität ein. Schnittstellen zu einer derartigen Funktionalität sind vorzugsweise als selbständige wiederbenutzbare Objekte geschrieben. - Bei der bevorzugten Ausführungsform gehorchen alle die Schnittstellen-Objekte, die von dem Anwendungs-Skript
222' verwendet werden, einem Standard- Schnittstellen-Modell, wie zum Beispiel ActiveX. Das heißt, die ActiveX-Objekte230 geben dem Anwendungs-Skript222' Zugang an Standard-Web-Dienste. Daher kann das Anwendungs-Skript222' einen einfachen Zugriff auf alle die von Natur aus vorhandenen ActiveX-Fähigkeiten des Betriebssystems durchführen (beispielsweise Mitteilungs-Übermittlung, Datenbank-Zugriff usw.) und zwar über diese Standard-Schnittstellen230 unter Verwendung von Standard-ActiveX-Steuerungen. Die Verwendung von ActiveX-Schnittstellen-Objekten23 (das heißt genormten gleichförmigen Objekten) für den Zugriff und die Steuerung von Funktionen, die für das Anwendungs-Skript222' zur Verfügung stehen, vereinfacht sehr stark die Entwicklung und Integration derartiger Anwendungen. Sprach-Anwendungen gemäß der vorliegenden Erfindung müssen nur zur Verwendung dieser Standard-ActiveX-Schnittstellen-Objekt230 konfiguriert werden, so dass sie keine speziellen oder kundenspezifischen Schnittstellen benötigen. Die ActiveX-Objekte230 sind für das SR-System lokal und können mit irgendeinem Anwendungs-Skript verwendet werden, das zugeführt oder hierauf geladen wird. - Eine semantische Schnittstelle, die als die „Teller"-Schnittstelle
240 bezeichnet wird, bietet das Anwendungs-Skript222' der SR-Anwendung210 an. Die Teller-Schnittstelle ist als ein ActiveX-Objekt geschrieben, das für das SR-System210 lokal ist. Das Teller-Schnittstellen-Objekt240 schließt eine Standard-HTML-Browser-Funktionalität, unter Einschluss von Etikett-Verarbeitung, Hyper-Verweisen usw. ein. Das Teller-Schnittstellen-Objekt240 unterstützt weiterhin HTML-Erweiterungen, wie zum Beispiel Dialog, Play und Record, wie andere bekannte HTML-Erweiterungen. Wenn es Skript-Etiketten gibt, die sich auf der Web-Seite befinden, so lädt das Teller-Schnittstellen-Objekt240 eine entsprechende Skript-Maschine. - Weil die Teller-Schnittstelle als eine Objekt-Schnittstelle hoher Ebene codiert ist, muss sie nicht für das Anwendungs-Skript
222' spezifisch angepasst werden. Vielmehr können viele Instanzen des Teller-Schnittstellen-Objektes240 geschaffen werden, die jeweils eines einer Vielfalt von Anwendungs-Skripten mit Diensten versorgen. Eine Instanz des Teller-Schnittstellen-Objektes240 kann im voraus oder bei einem ankommenden Aufruf von einem Geräte140 geschaffen werden. Über das Teller-Schnittstellen-Objekt240 steuert das Anwendungs-Skript222' die SR-Anwendung210 , was als Pfeil242 dargestellt ist. Beispielsweise kann das Anwendungs-Skript der SR-Anwendung die Aufgabe geben, die Erkennung zu beginnen, eine Datei wiederzugeben, eine Aufforderung abzuspielen, usw.. Derartige Aufgabenstellungen können unter Verwendung von Standardobjektorientierten Entwurfs-(OOD-)Aufrufen und Verfahren durchgeführt werden. -
- Die Funktionalität der SR-Anwendung
210 wird so konfiguriert, dass sie einen Kontext-freien Satz von semantischen Daten erzeugt und zurückliefert, die alle möglichen gültigen Interpretationen eines empfangenen Audio-Einganges darstellen, das heißt, das SR-System120 kann so konfiguriert werden, dass es eine syntaktische und semantische Verarbeitung unter Verwendung einer gemeinsamen Wurzel-Grammatik ohne eines Satzes von Grammatiken ausführt, um eine semantische Baum-Instanz zu erzeugen, die alle möglichen gültigen Interpretationen eines empfangenen Audio-Stroms darstellt. Die semantischen Daten sind in einem semantischen Objekt (oder Objekten)244 dargestellt, die von der SR-Anwendung210 zu Anwendungs-Skript222' weitergeleitet werden. Jedes semantische Objekt244 durchläuft die Teller-Schnittstelle240 zu einer Auswertungs-Schnittstelle250 des Anwendungs-Skriptes. - Die Auswertungs-Schnittstelle
250 kann ebenfalls als ein ActiveX-Objekt beschrieben werden, das als ein Auswertungs-(oder Interpretations-)Werkzeug für das Anwendungs-Skript222' dienen kann. Das Anwendungs-Skript222' liefert einen Kontext an die Auswertungs-Schnittstelle250 . Die Auswertungs-Schnittstelle250 bestimmt eine Kategorie, die dem Kontext zugeordnet ist, und wendet die Kategorie auf die semantischen Objekte244 an, um eine spezielle Interpretation des Satzes von semantischen Daten aus allen den möglichen Interpretationen zu gewinnen. Dieses Ergebnis kann als ein linguistisches Ergebnis bezeichnet werden, das ein Wort, einen Satz oder Werte darstellt. Sobald das linguistische Ergebnis bestimmt ist, verarbeitet das Anwendungs-Skript222' das Ergebnis, um seine nächste Aktion oder Aufforderung für den Benutzer zu bestimmen. Die Auswertungs-Schnittstelle250 wird weiter aus dem folgenden Pseudo-Code-Segment verständlich: - Kategorien werden durch ihre Namen identifiziert. Sie spezifizieren die spezielle erforderliche semantische Interpretation. Es sei darauf hingewiesen, dass ein semantisches Objekt
244 zur Interpretation unter Verwendung irgendeiner von mehreren gültigen Kategorien fähig ist. Diese Kategorien steuern unterschiedliche semantische Interpretationen des semantischen Objektes, in Abhängigkeit von dem Kontext. Zusammen beschreiben die Kategorien alle möglichen gültigen Interpretationen des semantischen Objektes. Weil alle Kontexte dargestellt sind, ermöglicht es dies, dass das semantische Objekt in einer Kontext-unabhängigen Weise verwendet und erneut verwendet wird. Beispiel von Kategorien sind „Zahl", „Zeichenkette", „Ziffer", „Auto-Modell". -
3 zeigt ein Ablaufdiagramm, das durch die Anwendungen und Objekte nach2 durch eine Transaktions-Sprach-Anwendung gemäß der vorliegenden Erfindung implementiert werden kann. Der Prozess beginnt beispielsweise mit dem Empfang einer Audio-Eingabe von dem Gerät140 über das Netzwerk130 . Diese Audio-Eingabe wird von dem SR-System im Schritt302 empfangen. Wenn das Anwendungs-Skript222' noch nicht zu dem SR-System120 heruntergeladen wurden, wird das Anwendungs-Skript222' von einer Quelle im Schritt304 heruntergeladen. Bei Empfangen einer Audio-Eingabe liefert das Anwendungs-Skript222' dem SR-System die Aufgaben über Steuerungen242 , beispielsweise für eine Interpretation des Audio-Einganges im Schritt306 . - Durch Interpretieren der Audio-Eigabe erzeugt die SR-Anwendung
210 eine Kontext-frei semantische Baum-Instanz, die alle möglichen gültigen Interpretationen des Audio-Einganges darstellt, die als ein oder mehrere semantische Objekte244 im Schritt308 dargestellt wird. Im Schritt310 leitet die SR-Anwendung210 das oder die semantischen Objekte244 an das Anwendungs-Objekt222' über die Teller-Schnittstelle240 weiter. Die Teller-Schnittstelle führt keine wesentliche Verarbeitung des oder der semantischen Objekte244 aus. Vielmehr empfängt eine semantische Baum-Auswertungs-Einrichtung250 die semantische Baum-Instanz und einen Kontext, der durch das Anwendungs-Skript bestimmt ist, im Schritt312 . Die Auswertungs-Einrichtung250 kann von dem Anwendungs-Skript222' mit dem Kontext vor dem Empfang der semantischen Baum-Instanz versorgt werden, die in dem semantischen Objekt244 verkörpert ist. Die semantische Baum-Instanz kann direkt von der SR-Anwendung210 empfangen werden, oder sie kann über das Anwendungs-Skript222' weitergeleitet werden, in Abhängigkeit von der Ausführungsform. - In der bevorzugten Form bestimmt die semantische Baum-Auswertungs-Einrichtung
250 im Schritt314 eine Kategorie, die an jedem Knoten der semantischen Baum-Instanz anzuwenden ist. Weil die semantische Baum-Instanz von der SR-Anwendung210 als Kontext-frei empfangen wird und alle gültigen Interpretationen der Audio-Eingabe darstellt, ist die Anwendung des Kontextes und einer entsprechenden Kategorie an jedem Knoten erforderlich, um ein einziges korrektes linguistisches Ergebnis zu erzielen. Dieses Ergebnis dient als eine Antwort auf eine anhängige Aufforderung durch das Anwendungs-Skript222' . Entsprechend wird auch im Schritt314 das linguistische Ergebnis an das Anwendungs-Skript222' weitergeleitet. Das Anwendungs-Skript222' bestimmt seine nächste Aktion, beispielsweise das Senden einer weiteren Aufforderung, als eine Funktion des linguistischen Ergebnisses. - Während die Sitzung ausgeführt wird, muss das Anwendungs-Skript
222' keinen Zugriff auf Stütz-Server aus irgendeinem Grund ausführen. Wenn die Sitzung beendet ist, wenn beispielsweise eine Umfrage, die von dem Anwendungs-Skript222' verwaltet wird, abgeschlossen ist, so kann das Anwendungs-Skript222' gelöscht werden. Die ActiveX-Objekte bleiben resident an dem SR-System, und sie können durch andere Anwendungs-Skripte neu verwendet werden, die auf das SR-System heruntergeladen werden. - Die Erfindung kann in anderen speziellen Ausführungsformen verwirklicht werden, ohne von dem Schutzumfang abzuweichen, wie er von den beigefügten Ansprüchen umfasst ist.
Claims (18)
- Sprachanwendungs-System, mit: A. einem Spracherkennungs-(SR-)System, das zum Empfang eines Audio-Eingangssignals und zur Erzeugung eines Kontext-freien Satzes von semantischen Daten konfiguriert ist, die alle möglichen gültigen Interpretationen des Audio-Eingangs darstellen; B. ein Sprachanwendungs-Skript, das an dem SR-System geladen und zum Bewirken eines Arbeitsschrittes des SR-Systems konfiguriert ist, wobei das Anwendungs-Skript einen Kontext definiert; C. eine semantische Daten-Auswerteeinrichtung, die zum Empfang des Kontext-freien Satzes von semantischen Daten und des durch das Anwendungs-Skript definierten Kontextes und zur Erzeugung, als Funktion hiervon, eines linguistischen Ergebnisses konfiguriert ist, das dem Audio-Eingang entspricht und eine spezifische Interpretation des Satzes von gültigen Interpretationen darstellt, und um das linguistische Ergebnis an das Anwendungs-Skript zurückzuliefern; D. einen Satz von wiederverwendbaren objektorientierten Schnittstellen, die für das SR-System lokal sind, wobei die Schnittstellen zur Schnittstellenverbindung des Anwendungs-Skriptes mit dem SR-System konfiguriert sind.
- System nach Anspruch 1, bei dem ein oder mehrere Anwendungs-Skripte in einer Web-Seite enthalten sind.
- System nach Anspruch 1, bei dem ein oder mehrere der Schnittstellen Objekte sind, die über ActiveX-Einrichtungen ausgebildet werden.
- System nach Anspruch 1, bei dem das Anwendungs-Skript Programmier-Code einschließt, der in einer Sprache geschrieben ist, die aus einer Gruppe von Skript-Sprachen ausgewählt sind, die Folgendes umfasst: (1) JSkript; (2) PerlSkript; und (3) VBscript.
- System nach Anspruch 1, bei dem der Satz von semantischen Daten als eine semantische Baum-Instanz dargestellt ist.
- System nach Anspruch 1, bei dem der Satz von semantischen Daten in einem semantischen Objekt dargestellt ist.
- System nach Anspruch 1, bei dem der Audio-Eingang von einem Gerät empfangen wird, das aus der Gruppe ausgewählt ist, die Folgendes umfasst: A. ein Telefon; B. ein Zellulartelefon; C. einen persönlicher Computer; D. einen Anwendungs-Server; und E. einen Audio-Empfänger.
- System nach Anspruch 1, bei dem der Audio-Eingang über ein Netzwerk empfangen wird, das ein oder mehrere drahtgebundene oder drahtlose Netzwerke aus einer Gruppe umfasst, die Folgendes umfasst: A. ein Telefon-Netzwerk; B. ein Zellulartelefon-Netzwerk; C. ein LAN; D. ein WAN; E. ein virtuelles privates Netzwerk; F. das Internet; und G. das weltweite Datennetz (Web).
- System nach Anspruch 1, bei dem die Vielzahl von gültigen Interpretationen des Audio-Einganges alle gültigen Interpretationen des Audio-Einganges innerhalb des Kontextes einschließt.
- System nach Anspruch 1, dadurch gekennzeichnet, dass die Sprachanwendung aus einer Gruppe von interaktiven Sprachanwendungen ausgewählt ist, die Folgendes umfasst: A. Verbraucher-Umfrageanwendungen; B. Zugangsanwendungen des weltweiten Datennetzes; C. Unterrichtsanwendungen unter Einschluss von Gesundheits-Unterrichtsanwendungen und Computer-basierten Unterrichtsanwendungen und Testanwendungen; D. Übersichtsanwendungen unter Einschluss von Patienten-Übersichtsanwendungen und Verbraucher-Übersichtsanwendungen; E. Gesundheitsgefahr-Abschätzungsanwendungen; F. Überwachungsanwendungen, unter Einschluss von Gesundheitsdaten-Überwachungsanwendungen und Verbraucher-Vorlieben-Überwachungsanwendungen; G. Einhaltungsanwendungen unter Einschluss von Anwendungen, die Benachrichtigungen über Einhaltungs-bezogene Aktivitäten erzeugen, unter Einschluss von Benachrichtigungen hinsichtlich der Gesundheit und der Produkt-Wartung; H. Testergebnisanwendungen, unter Einschluss von Anwendungen, die zumindest eines von Labor-Testergebnissen, genormten Testergebnissen, Verbraucher-Produkt-Testergebnissen und Wartungsergebnissen einschließen; und I. Verknüpfungsanwendungen, die Anwendungen einschließen, die zwei oder mehr der Anwendungen in den Teilen A bis H miteinander verknüpfen.
- System nach einem der Ansprüche 1 bis 10, bei dem: A. das Spracherkennungs-(SR-)System auf einem ersten Computer untergebracht ist und so konfiguriert ist, dass es den Audio-Eingang von einer Eingabe-Vorrichtung empfängt und ein oder mehrere semantische Objekte erzeugt, die eine Vielzahl von gültigen Interpretationen des Audio-Einganges darstellen; B. die Web-Seite auf den ersten Computer von einem zweiten Computer geladen wird, wobei die Web-Seite ein Anwendungs-Skript einschließt, das einen Satz von Sprachanwendungs-Funktionalität umfasst und zum Wechselwirken mit der Eingabe-Vorrichtung über das SR-System konfiguriert ist, wobei die Sprachanwendung so konfiguriert ist, dass sie Sprachanwendungs-Sitzungen ohne Zugriff auf den zweiten Computer ausführt; C. der Satz von wiederverwendbaren objektorientierten Schnittstellen lokal an dem ersten Computer angeordnet ist, wobei die Schnittstellen Folgendes einschließen: (1) ein oder mehrere Schnittstellen-Objekte, die zur Erleichterung des Zuganges des Anwendungs-Skriptes auf Standard-Dienste des ersten Computers konfiguriert sind; und (2) eine semantische Schnittstelle, die zur Erleichterung des Zuganges an und zur Steuerung des SR-Systems durch das Anwendungs-Skript konfiguriert ist; und D. die semantische Objekt-Auswertungseinrichtung so konfiguriert ist, dass sie aus den semantischen Objekten als eine Funktion des Kontextes eine einzige Interpretation des Audio-Einganges erzeugt und diese einzelne Interpretation an das Anwendungs-Skript zurückzuliefert.
- System nach Anspruch 1, bei dem die Sprachanwendung aus einer Gruppe von interaktiven Sprachanwendungen ausgewählt ist, die Folgendes umfasst: A. Verbraucherumfrageanwendungen; B. Web-Zugangsanwendungen; C. Unterrichtsanwendungen unter Einschluss von Gesundheits-Unterrichtsanwendungen und Computer-basierten Unterrichtsanwendungen und Testanwendungen; D. Übersichtsanwendungen unter Einschluss von Patienten-Übersichtsanwendungen und Verbraucher-Übersichtsanwendungen; E. Gesundheitsgefahr-Abschätzungsanwendungen; F. Überwachungsanwendungen, unter Einschluss von Gesundheitsdaten-Überwachungsanwendungen und Verbraucher-Vorlieben-Überwachungsanwendungen; G. Einhaltungsanwendungen unter Einschluss von Anwendungen, die Benachrichtigungen über Einhaltungs-bezogene Aktivitäten erzeugen, unter Einschluss von Benachrichtigungen hinsichtlich der Gesundheit und der Produkt-Wartung; H. Testergebnisanwendungen, unter Einschluss von Anwendungen, die zumindest eines von Labor-Testergebnissen, genormten Testergebnissen, Verbraucher-Produkt-Testergebnissen und Wartungsergebnissen einschließen; und I. Verknüpfungsanwendungen, die Anwendungen einschließen, die zwei oder mehr der Anwendungen in den Teilen A bis H miteinander verknüpfen.
- System nach Anspruch 11, bei dem der Satz von wiederverwendbaren Objekt orientierten Schnittstellen und die semantische Objekt-Auswertungseinrichtung Objekte sind, die über ActiveX-Einrichtungen beaufschlagt sind.
- Sprachanwendungs-Skript für eine Web-Seite, wobei das Skript so konfiguriert ist, dass es mit einem Spracherkennungs-(SR-) System zusammen wirkt, das auf einem ersten Computer abläuft und zum Empfang eines Audio-Eingangs und zur Erzeugung eines oder mehrerer semantischer Objekte konfiguriert ist, die eine Vielzahl von gültigen Interpretationen des Audio-Einganges darstellen, wobei der erste Computer weiterhin eine Vielzahl von Schnittstellen-Objekten und eine semantische Objekt-Auswertungseinrichtung einschließt, die zur Erzeugung aus dem einen oder mehreren semantischen Objekten einer einzigen Interpretation des Audio-Einganges als eine Funktion des Kontextes konfiguriert ist, wobei das Anwendungs-Skript Folgendes umfasst: A. eine Kontext-Definition; B. eine Verknüpfung zu der semantischen Objekt-Auswertungseinrichtung; C. eine Verknüpfung zu dem SR-System über ein semantisches Schnittstellen-Objekt von der Vielzahl von Schnittstellen-Objekten; D. einen Satz von Steuer-Funktionalität, der Folgendes umfasst: (1) eine Sitzungs-Verwaltung, die zur Erzeugung von Benutzer-Aufforderungen und zur Bestimmung einer nächsten Aktion als eine Funktion der einzigen Interpretation konfiguriert ist; (2) eine SR-System-Steuerung, die zur Lieferung von Aufgabenstellungen an das SR-System konfiguriert ist; (3) eine Kommunikations-Verwaltung, die zur Verwaltung der Wechselwirkung mit der Eingabe-Vorrichtung über das SR-System konfiguriert ist, wobei das Sprachanwendungs-Skript auf den ersten Computer von einem zweiten Computer aus ladbar ist und die Sprachanwendung so konfiguriert ist, dass sie Sprachanwendungs-Sitzungen ohne Zugriff auf den zweiten Computer ausführt.
- System nach Anspruch 14, bei dem die Schnittstellen-Objekte Objekte sind, die über ActiveX-Einrichtungen ausgebildet sind.
- Anwendungs-Skript nach Anspruch 14, bei dem das Sprachanwendungs-Skript eine Sprachanwendung ist, die aus einer Gruppe von interaktiven Sprachanwendungen ausgewählt ist, die Folgendes umfasst: A. Verbraucherumfrageanwendungen; B. Web-Zugangsanwendungen; C. Unterrichtsanwendungen unter Einschluss von Gesundheits-Unterrichtsanwendungen und Computer-basierten Unterrichtsanwendungen und Testanwendungen; D. Übersichtsanwendungen unter Einschluss von Patienten-Übersichtsanwendungen und Verbraucher-Übersichtsanwendungen; E. Gesundheitsgefahr-Abschätzungsanwendungen; F. Überwachungsanwendungen, unter Einschluss von Gesundheitsdaten-Überwachungsanwendungen und Verbraucher-Vorlieben-Überwachungsanwendungen; G. Einhaltungsanwendungen unter Einschluss von Anwendungen, die Benachrichtigungen über Einhaltungs-bezogene Aktivitäten erzeugen, unter Einschluss von Benachrichtigungen hinsichtlich der Gesundheit und der Produkt-Wartung; H. Testergebnisanwendungen, unter Einschluss von Anwendungen, die zumindest eines von Labor-Testergebnissen, genormten Testergebnissen, Verbraucher-Produkt-Testergebnissen und Wartungsergebnissen einschließen; und I. Verknüpfungsanwendungen, die Anwendungen einschließen, die zwei oder mehr der Anwendungen in den Teilen A bis H miteinander verknüpfen.
- Verfahren zur Konfiguration eines Sprachanwendungs-Systems, mit einem Spracherkennungs-(SR-)System, das auf einem ersten Computer abläuft und Einrichtungen zum Empfang eines Audio-Eingangs einschließt, wobei das Verfahren Folgendes umfasst: A. Erzeugen einer Web-Seite auf einem zweiten Computer; B. Definieren eines Sprachanwendungs-Skriptes gemäß Anspruch 14; C. Integration des Anwendungs-Skriptes in die Web-Seite; D. Laden der Web-Seite, unter Einschluss des Anwendungs-Skriptes, von dem zweiten Computer auf den ersten Computer; und E. Ausbilden eines Satzes von Standard-Schnittstellen zwischen dem Anwendungs-Skript und dem SR-System.
- Verfahren zum Betrieb eines Sprachanwendungs-Systems, das ein Verfahren nach Anspruch 17 umfasst, das weiterhin Folgendes umfasst: A. Empfangen des Audio-Einganges durch das SR-System; B. Laden der Web-Seite, die das Anwendungs-Skript einschließt, auf den ersten Computer; C. Ausbilden eines Satzes von Standard-Schnittstellen zwischen dem SR-System und dem Anwendungs-Skript, unter Einschluss der Ausbildung einer semantischen Auswerteeinrichtung; D. als Antwort auf die Aufgaben-Beauftragung durch das Anwendungs-Skript, Erzeugen eines oder mehrerer semantischer Objekte durch das SR-System, die alle möglichen Interpretationen des Audio-Einganges darstellen; E. als Antwort auf den Empfang eines Kontextes, der von dem Anwendungs-Skript definiert ist, Bestimmen einer einzigen semantischen Interpretation durch die semantische Auswerteeinrichtung aus dem einen oder mehreren semantischen Objekten; und F. Bestimmen einer nächsten Aktion durch das Anwendungs-Skript als eine Funktion der einzigen semantischen Interpretation.
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US19207600P | 2000-03-24 | 2000-03-24 | |
US19209100P | 2000-03-24 | 2000-03-24 | |
US19209000P | 2000-03-24 | 2000-03-24 | |
US19191500P | 2000-03-24 | 2000-03-24 | |
US192090P | 2000-03-24 | ||
US191915P | 2000-03-24 | ||
US192091P | 2000-03-24 | ||
US192076P | 2000-03-24 | ||
PCT/US2001/009300 WO2001073755A1 (en) | 2000-03-24 | 2001-03-23 | Web-based speech recognition with scripting and semantic objects |
Publications (2)
Publication Number | Publication Date |
---|---|
DE60130880D1 DE60130880D1 (de) | 2007-11-22 |
DE60130880T2 true DE60130880T2 (de) | 2008-07-17 |
Family
ID=27497914
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE60143797T Expired - Lifetime DE60143797D1 (de) | 2000-03-24 | 2001-03-23 | Spracherkennung |
DE60130880T Expired - Lifetime DE60130880T2 (de) | 2000-03-24 | 2001-03-23 | Web-gestützte spracherkennung durch scripting und semantische objekte |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE60143797T Expired - Lifetime DE60143797D1 (de) | 2000-03-24 | 2001-03-23 | Spracherkennung |
Country Status (6)
Country | Link |
---|---|
US (2) | US6895377B2 (de) |
EP (2) | EP1277201B1 (de) |
AT (2) | ATE494610T1 (de) |
AU (4) | AU2001247708A1 (de) |
DE (2) | DE60143797D1 (de) |
WO (4) | WO2001073593A1 (de) |
Families Citing this family (72)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030191625A1 (en) * | 1999-11-05 | 2003-10-09 | Gorin Allen Louis | Method and system for creating a named entity language model |
US8392188B1 (en) | 1999-11-05 | 2013-03-05 | At&T Intellectual Property Ii, L.P. | Method and system for building a phonotactic model for domain independent speech recognition |
US7286984B1 (en) * | 1999-11-05 | 2007-10-23 | At&T Corp. | Method and system for automatically detecting morphemes in a task classification system using lattices |
US7263484B1 (en) | 2000-03-04 | 2007-08-28 | Georgia Tech Research Corporation | Phonetic searching |
JP2002057930A (ja) * | 2000-05-30 | 2002-02-22 | Fuji Photo Film Co Ltd | ディジタル・スチル・カメラおよびその動作制御方法 |
US6970185B2 (en) * | 2001-01-31 | 2005-11-29 | International Business Machines Corporation | Method and apparatus for enhancing digital images with textual explanations |
US7392191B2 (en) * | 2001-03-29 | 2008-06-24 | Intellisist, Inc. | Method and device to distinguish between voice conversation and automated speech recognition |
US8301503B2 (en) * | 2001-07-17 | 2012-10-30 | Incucomm, Inc. | System and method for providing requested information to thin clients |
US20090157483A1 (en) * | 2001-11-14 | 2009-06-18 | Retaildna, Llc | Method and system for using artificial intelligence to generate or modify an employee prompt or a customer survey |
US7336602B2 (en) * | 2002-01-29 | 2008-02-26 | Intel Corporation | Apparatus and method for wireless/wired communications interface |
US7369532B2 (en) * | 2002-02-26 | 2008-05-06 | Intel Corporation | Apparatus and method for an audio channel switching wireless device |
US7254708B2 (en) * | 2002-03-05 | 2007-08-07 | Intel Corporation | Apparatus and method for wireless device set-up and authentication using audio authentication—information |
US20030208451A1 (en) * | 2002-05-03 | 2003-11-06 | Jim-Shih Liaw | Artificial neural systems with dynamic synapses |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US7133828B2 (en) * | 2002-10-18 | 2006-11-07 | Ser Solutions, Inc. | Methods and apparatus for audio data analysis and data mining using speech recognition |
US7076427B2 (en) * | 2002-10-18 | 2006-07-11 | Ser Solutions, Inc. | Methods and apparatus for audio data monitoring and evaluation using speech recognition |
US8055503B2 (en) * | 2002-10-18 | 2011-11-08 | Siemens Enterprise Communications, Inc. | Methods and apparatus for audio data analysis and data mining using speech recognition |
US20040111272A1 (en) * | 2002-12-10 | 2004-06-10 | International Business Machines Corporation | Multimodal speech-to-speech language translation and display |
EP1656662B1 (de) | 2003-08-22 | 2016-06-01 | Unify Inc. | System und verfahren zur automatischen qualitätsüberwachung |
US7555543B2 (en) * | 2003-12-19 | 2009-06-30 | Microsoft Corporation | Server architecture for network resource information routing |
US7668939B2 (en) * | 2003-12-19 | 2010-02-23 | Microsoft Corporation | Routing of resource information in a network |
US20050138137A1 (en) * | 2003-12-19 | 2005-06-23 | Microsoft Corporation | Using parameterized URLs for retrieving resource content items |
US20060095628A1 (en) * | 2003-12-19 | 2006-05-04 | Microsoft Corporation | External-Network Data Content Exposure to Network-Connected Devices |
US7647385B2 (en) * | 2003-12-19 | 2010-01-12 | Microsoft Corporation | Techniques for limiting network access |
US7570746B2 (en) | 2004-03-18 | 2009-08-04 | Sony Corporation | Method and apparatus for voice interactive messaging |
KR100695127B1 (ko) * | 2004-10-08 | 2007-03-14 | 삼성전자주식회사 | 다 단계 음성 인식 장치 및 방법 |
JP4802489B2 (ja) * | 2004-12-07 | 2011-10-26 | 日本電気株式会社 | 音データ提供システムおよびその方法 |
US20070027808A1 (en) * | 2005-07-29 | 2007-02-01 | Microsoft Corporation | Strategies for queuing events for subsequent processing |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
WO2007027989A2 (en) | 2005-08-31 | 2007-03-08 | Voicebox Technologies, Inc. | Dynamic speech sharpening |
US7704207B2 (en) * | 2005-10-14 | 2010-04-27 | Applied Medical Resources Corporation | Circular surgical retractor |
US20070143307A1 (en) * | 2005-12-15 | 2007-06-21 | Bowers Matthew N | Communication system employing a context engine |
US8117246B2 (en) | 2006-04-17 | 2012-02-14 | Microsoft Corporation | Registering, transfering, and acting on event metadata |
WO2008043582A1 (en) * | 2006-10-13 | 2008-04-17 | International Business Machines Corporation | Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in said dictionary |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US7742922B2 (en) * | 2006-11-09 | 2010-06-22 | Goller Michael D | Speech interface for search engines |
US20080148284A1 (en) * | 2006-12-15 | 2008-06-19 | Maui Media Lab Llc | Apparatus and method for developing and executing applications with declarative objects |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US8131714B2 (en) * | 2008-01-02 | 2012-03-06 | Think Village-OIP, LLC | Linguistic assistance systems and methods |
US20090171663A1 (en) * | 2008-01-02 | 2009-07-02 | International Business Machines Corporation | Reducing a size of a compiled speech recognition grammar |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US20110044447A1 (en) * | 2009-08-21 | 2011-02-24 | Nexidia Inc. | Trend discovery in audio signals |
KR20110036385A (ko) * | 2009-10-01 | 2011-04-07 | 삼성전자주식회사 | 사용자 의도 분석 장치 및 방법 |
US9502025B2 (en) | 2009-11-10 | 2016-11-22 | Voicebox Technologies Corporation | System and method for providing a natural language content dedication service |
US9171541B2 (en) | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
US9378202B2 (en) | 2010-03-26 | 2016-06-28 | Virtuoz Sa | Semantic clustering |
US9524291B2 (en) * | 2010-10-06 | 2016-12-20 | Virtuoz Sa | Visual display of semantic information |
US10957310B1 (en) | 2012-07-23 | 2021-03-23 | Soundhound, Inc. | Integrated programming framework for speech and text understanding with meaning parsing |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
US11295730B1 (en) | 2014-02-27 | 2022-04-05 | Soundhound, Inc. | Using phonetic variants in a local context to improve natural language understanding |
CN107003996A (zh) | 2014-09-16 | 2017-08-01 | 声钰科技 | 语音商务 |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
EP3207467A4 (de) | 2014-10-15 | 2018-05-23 | VoiceBox Technologies Corporation | System und verfahren zur bereitstellung nachfolgender reaktionen auf natürliche spracheingaben eines benutzers |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10515150B2 (en) * | 2015-07-14 | 2019-12-24 | Genesys Telecommunications Laboratories, Inc. | Data driven speech enabled self-help systems and methods of operating thereof |
US10455088B2 (en) | 2015-10-21 | 2019-10-22 | Genesys Telecommunications Laboratories, Inc. | Dialogue flow optimization and personalization |
US10382623B2 (en) | 2015-10-21 | 2019-08-13 | Genesys Telecommunications Laboratories, Inc. | Data-driven dialogue enabled self-help systems |
US10204146B2 (en) * | 2016-02-09 | 2019-02-12 | Ca, Inc. | Automatic natural language processing based data extraction |
US20170242886A1 (en) * | 2016-02-19 | 2017-08-24 | Jack Mobile Inc. | User intent and context based search results |
US10515086B2 (en) | 2016-02-19 | 2019-12-24 | Facebook, Inc. | Intelligent agent and interface to provide enhanced search |
US10331784B2 (en) | 2016-07-29 | 2019-06-25 | Voicebox Technologies Corporation | System and method of disambiguating natural language processing requests |
EP4125029B1 (de) | 2017-03-23 | 2024-09-04 | Samsung Electronics Co., Ltd. | Elektronische vorrichtung, steuerungsverfahren dafür und nichttransitorisches computerlesbares aufzeichnungsmedium |
CN109979464A (zh) * | 2017-12-28 | 2019-07-05 | 南昌弘为企业管理有限公司 | 基于智能免流app的语音语义识别的方法及系统 |
CN112970059B (zh) | 2018-11-07 | 2023-11-24 | 三星电子株式会社 | 用于处理用户话语的电子装置及其控制方法 |
CN112102840B (zh) * | 2020-09-09 | 2024-05-03 | 中移(杭州)信息技术有限公司 | 语义识别方法、装置、终端及存储介质 |
Family Cites Families (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4829423A (en) * | 1983-01-28 | 1989-05-09 | Texas Instruments Incorporated | Menu-based natural language understanding system |
US4688195A (en) * | 1983-01-28 | 1987-08-18 | Texas Instruments Incorporated | Natural-language interface generating system |
US5083268A (en) | 1986-10-15 | 1992-01-21 | Texas Instruments Incorporated | System and method for parsing natural language by unifying lexical features of words |
US5027408A (en) | 1987-04-09 | 1991-06-25 | Kroeker John P | Speech-recognition circuitry employing phoneme estimation |
US5168524A (en) | 1989-08-17 | 1992-12-01 | Eliza Corporation | Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation |
JP2810231B2 (ja) * | 1990-01-30 | 1998-10-15 | ジヨンソン・サービス・カンパニー | ノードを有する分散形ネットワークシステム中のデータの位置付け方法 |
US5297257A (en) * | 1991-04-15 | 1994-03-22 | Allen-Bradley Company, Inc. | Distributing a real-time control program to a plurality of input/output nodes |
JPH05197389A (ja) * | 1991-08-13 | 1993-08-06 | Toshiba Corp | 音声認識装置 |
US5864614A (en) | 1992-04-17 | 1999-01-26 | Bell Atlantic Network Services, Inc. | Intelligent peripheral and network control |
US5615296A (en) * | 1993-11-12 | 1997-03-25 | International Business Machines Corporation | Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors |
US5687212A (en) | 1995-07-25 | 1997-11-11 | Bell Atlantic Network Services, Inc. | System for reactively maintaining telephone network facilities in a public switched telephone network |
JP3476237B2 (ja) | 1993-12-28 | 2003-12-10 | 富士通株式会社 | 構文解析装置 |
US5748841A (en) | 1994-02-25 | 1998-05-05 | Morin; Philippe | Supervised contextual language acquisition system |
US5729656A (en) | 1994-11-30 | 1998-03-17 | International Business Machines Corporation | Reduction of search space in speech recognition using phone boundaries and phone ranking |
US5659542A (en) * | 1995-03-03 | 1997-08-19 | Intecom, Inc. | System and method for signalling and call processing for private and hybrid communications systems including multimedia systems |
US5675723A (en) * | 1995-05-19 | 1997-10-07 | Compaq Computer Corporation | Multi-server fault tolerance using in-band signalling |
JP3385146B2 (ja) | 1995-06-13 | 2003-03-10 | シャープ株式会社 | 会話文翻訳装置 |
US5974409A (en) * | 1995-08-23 | 1999-10-26 | Microsoft Corporation | System and method for locating information in an on-line network |
US5647002A (en) | 1995-09-01 | 1997-07-08 | Lucent Technologies Inc. | Synchronization of mailboxes of different types |
US5822728A (en) * | 1995-09-08 | 1998-10-13 | Matsushita Electric Industrial Co., Ltd. | Multistage word recognizer based on reliably detected phoneme similarity regions |
US5825977A (en) | 1995-09-08 | 1998-10-20 | Morin; Philippe R. | Word hypothesizer based on reliably detected phoneme similarity regions |
US6173261B1 (en) * | 1998-09-30 | 2001-01-09 | At&T Corp | Grammar fragment acquisition using syntactic and semantic clustering |
US5799276A (en) | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
US6343313B1 (en) * | 1996-03-26 | 2002-01-29 | Pixion, Inc. | Computer conferencing system with real-time multipoint, multi-speed, multi-stream scalability |
US5822729A (en) | 1996-06-05 | 1998-10-13 | Massachusetts Institute Of Technology | Feature-based speech recognizer having probabilistic linguistic processor providing word matching based on the entire space of feature vectors |
US5881230A (en) * | 1996-06-24 | 1999-03-09 | Microsoft Corporation | Method and system for remote automation of object oriented applications |
US5966686A (en) * | 1996-06-28 | 1999-10-12 | Microsoft Corporation | Method and system for computing semantic logical forms from syntax trees |
US5835890A (en) | 1996-08-02 | 1998-11-10 | Nippon Telegraph And Telephone Corporation | Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon |
US5960399A (en) * | 1996-12-24 | 1999-09-28 | Gte Internetworking Incorporated | Client/server speech processor/recognizer |
US6456974B1 (en) * | 1997-01-06 | 2002-09-24 | Texas Instruments Incorporated | System and method for adding speech recognition capabilities to java |
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
US6052682A (en) | 1997-05-02 | 2000-04-18 | Bbn Corporation | Method of and apparatus for recognizing and labeling instances of name classes in textual environments |
US6112176A (en) * | 1997-05-16 | 2000-08-29 | Compaq Computer Corporation | Speech data collection over the world wide web |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US5953700A (en) * | 1997-06-11 | 1999-09-14 | International Business Machines Corporation | Portable acoustic interface for remote access to automatic speech/speaker recognition server |
CA2294442C (fr) * | 1997-06-20 | 2005-02-22 | Swisscom Ag | Systeme et procede de codage et de diffusion d'informations vocales |
US5941996A (en) * | 1997-07-25 | 1999-08-24 | Merrill Lynch & Company, Incorporated | Distributed network agents |
US6192338B1 (en) * | 1997-08-12 | 2001-02-20 | At&T Corp. | Natural language knowledge servers as network resources |
US6138249A (en) * | 1997-12-11 | 2000-10-24 | Emc Corporation | Method and apparatus for monitoring computer systems during manufacturing, testing and in the field |
US6397179B2 (en) * | 1997-12-24 | 2002-05-28 | Nortel Networks Limited | Search optimization system and method for continuous speech recognition |
US6163765A (en) * | 1998-03-30 | 2000-12-19 | Motorola, Inc. | Subband normalization, transformation, and voiceness to recognize phonemes for text messaging in a radio communication system |
US6173279B1 (en) | 1998-04-09 | 2001-01-09 | At&T Corp. | Method of using a natural language interface to retrieve information from one or more data resources |
US6243670B1 (en) * | 1998-09-02 | 2001-06-05 | Nippon Telegraph And Telephone Corporation | Method, apparatus, and computer readable medium for performing semantic analysis and generating a semantic structure having linked frames |
US6230190B1 (en) * | 1998-10-09 | 2001-05-08 | Openwave Systems Inc. | Shared-everything file storage for clustered system |
US6247057B1 (en) * | 1998-10-22 | 2001-06-12 | Microsoft Corporation | Network server supporting multiple instance of services to operate concurrently by having endpoint mapping subsystem for mapping virtual network names to virtual endpoint IDs |
US6134548A (en) | 1998-11-19 | 2000-10-17 | Ac Properties B.V. | System, method and article of manufacture for advanced mobile bargain shopping |
GB9904663D0 (en) * | 1999-03-01 | 1999-04-21 | Canon Kk | Apparatus and method for generating processor usable data from natural langage input data |
US6233561B1 (en) | 1999-04-12 | 2001-05-15 | Matsushita Electric Industrial Co., Ltd. | Method for goal-oriented speech translation in hand-held devices using meaning extraction and dialogue |
EP1059782A3 (de) * | 1999-06-10 | 2004-02-04 | Lucent Technologies Inc. | Verfahren und Vorrichtung zur dynamische benutzung der bandbreite in einem Packetfernsprechernetz |
US6615172B1 (en) * | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
US20020097692A1 (en) * | 2000-12-29 | 2002-07-25 | Nokia Mobile Phones Ltd. | User interface for a mobile station |
US20020152292A1 (en) * | 2001-01-09 | 2002-10-17 | Ricoh Company Limited | Method and system of remote support of device using e-mail |
-
2001
- 2001-03-23 EP EP01920678A patent/EP1277201B1/de not_active Expired - Lifetime
- 2001-03-23 US US09/815,769 patent/US6895377B2/en not_active Expired - Lifetime
- 2001-03-23 EP EP01926416A patent/EP1279165B1/de not_active Expired - Lifetime
- 2001-03-23 AU AU2001247708A patent/AU2001247708A1/en not_active Abandoned
- 2001-03-23 AU AU2001250975A patent/AU2001250975A1/en not_active Abandoned
- 2001-03-23 WO PCT/US2001/009549 patent/WO2001073593A1/en active Application Filing
- 2001-03-23 US US09/815,808 patent/US7120585B2/en not_active Expired - Lifetime
- 2001-03-23 WO PCT/US2001/040354 patent/WO2001073757A1/en active Application Filing
- 2001-03-23 AT AT01926416T patent/ATE494610T1/de not_active IP Right Cessation
- 2001-03-23 AT AT01920678T patent/ATE375589T1/de not_active IP Right Cessation
- 2001-03-23 WO PCT/US2001/009300 patent/WO2001073755A1/en active IP Right Grant
- 2001-03-23 DE DE60143797T patent/DE60143797D1/de not_active Expired - Lifetime
- 2001-03-23 AU AU2001250050A patent/AU2001250050A1/en not_active Abandoned
- 2001-03-23 AU AU2001252951A patent/AU2001252951A1/en not_active Abandoned
- 2001-03-23 DE DE60130880T patent/DE60130880T2/de not_active Expired - Lifetime
- 2001-03-23 WO PCT/US2001/009370 patent/WO2001073753A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
EP1277201B1 (de) | 2007-10-10 |
US20010037197A1 (en) | 2001-11-01 |
EP1277201A4 (de) | 2005-09-21 |
ATE375589T1 (de) | 2007-10-15 |
AU2001247708A1 (en) | 2001-10-08 |
WO2001073755A1 (en) | 2001-10-04 |
AU2001250975A1 (en) | 2001-10-08 |
WO2001073757A1 (en) | 2001-10-04 |
US6895377B2 (en) | 2005-05-17 |
EP1277201A1 (de) | 2003-01-22 |
US7120585B2 (en) | 2006-10-10 |
EP1279165B1 (de) | 2011-01-05 |
DE60130880D1 (de) | 2007-11-22 |
US20010049601A1 (en) | 2001-12-06 |
EP1279165A4 (de) | 2005-10-05 |
DE60143797D1 (de) | 2011-02-17 |
AU2001250050A1 (en) | 2001-10-08 |
WO2001073593A1 (en) | 2001-10-04 |
ATE494610T1 (de) | 2011-01-15 |
EP1279165A1 (de) | 2003-01-29 |
AU2001252951A1 (en) | 2001-10-08 |
WO2001073753A1 (en) | 2001-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60130880T2 (de) | Web-gestützte spracherkennung durch scripting und semantische objekte | |
DE69822296T2 (de) | Mustererkennungsregistrierung in einem verteilten system | |
DE60015531T2 (de) | Client-server spracherkennungssystem | |
DE60004862T2 (de) | Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem | |
DE60005326T2 (de) | Erkennungseinheiten mit komplementären sprachmodellen | |
DE69814114T2 (de) | Natürliche sprache verstehendes verfahren und verstehende vorrichung zur sprachsteuerung einer anwendung | |
EP1435088B1 (de) | Dynamischer aufbau einer dialogsteuerung aus dialogobjekten | |
US8024422B2 (en) | Web-based speech recognition with scripting and semantic objects | |
EP3652664A1 (de) | Verfahren zur dialogführung zwischen mensch und computer | |
EP1361739A1 (de) | Verfahren und System zur Verarbeitung von Sprachdaten mit vorausgehender Erkennung der Sprache | |
DE102009045187A1 (de) | System und Verfahren zum Kommunizieren mit Telefonagenten in einem automatischen Call Center | |
DE10220521B4 (de) | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen | |
WO2003054731A2 (de) | Verfahren zur rechnergestützten transformation strukturierter dokumente | |
DE60128372T2 (de) | Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem | |
US7366766B2 (en) | Web-based speech recognition with scripting and semantic objects | |
DE10220522B4 (de) | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse | |
DE19930407A1 (de) | Verfahren zur sprachbasierten Navigation in einem Kommunikationsnetzwerk und zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten | |
EP1363271A1 (de) | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs | |
EP1240775B1 (de) | Kommunikationssystem und verfahren zum bereitstellen eines internet-zugangs über ein telefon | |
DE10127852A1 (de) | Verfahren zur Erkennung von Sprachinformationen | |
DE112019005921T5 (de) | Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm | |
EP1659571A2 (de) | Sprachdialogsystem und Verfahren zum Betreiben | |
DE102010055508A1 (de) | Dialogsystem für ein Sozialmedien-Kontakt-Center | |
Möller et al. | Qualität von Sprachdialogsystemen | |
DE10220518B4 (de) | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |