DE10100725C1 - Automatisches Dialogsystem mit Datenbanksprachmodell - Google Patents
Automatisches Dialogsystem mit DatenbanksprachmodellInfo
- Publication number
- DE10100725C1 DE10100725C1 DE10100725A DE10100725A DE10100725C1 DE 10100725 C1 DE10100725 C1 DE 10100725C1 DE 10100725 A DE10100725 A DE 10100725A DE 10100725 A DE10100725 A DE 10100725A DE 10100725 C1 DE10100725 C1 DE 10100725C1
- Authority
- DE
- Germany
- Prior art keywords
- database
- linguistic
- query
- language model
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000002596 correlated effect Effects 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 19
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000009428 plumbing Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Die Erfindung bezieht sich auf ein automatisiertes Dialogsystem zum gesprochenen Abfragen eines Datenbankeintrags, der mehrere für seine Abfrage vorgesehene Bestandteile enthält, wobei die Spracherkennung (3) einer sprachlichen Äußerung zum Abfragen des Datenbankeintrags durch ein Sprachmodell (6) unterstützt wird, das vor dem Beginn des Dialoges erstellt wurde, zu dem die sprachliche Äußerung gehört, und daß das korrelierte Auftreten der für die Abfrage vorgesehenen Bestandteile des Datenbankeintrags in den sprachlichen Äußerungen des Dialoges modelliert.
Description
Die Erfindung bezieht sich auf ein automatisches Dialogsystem zur gesprochenen Daten
bankabfrage. Solche Dialogsysteme werden u. a. zur Erteilung von Auskünften oder auch
zur Erledigung von Bankgeschäften über Telefon oder an öffentlichen Benutzerterminals
verwendet. Bekannte Systeme sind z. B. das Fahrplanauskunftssystem der Schweizer Bah
nen und das Flugauskunftssystem der Deutschen Lufthansa. Aber auch die IVR-Systeme
(Interactive Voice Response) verschiedener Anbieter wie z. B. von Periphonics gehören
dazu. Allen diesen Systemen ist gemeinsam, dass ein Benutzer in einen gesprochenen Dia
log mit einer Maschine tritt, um die von ihm gewünschten Auskünfte zu erhalten bzw. die
von ihm gewünschten Transaktionen durchzuführen. Neben der sprachlichen Interaktion
werden in neueren Systemen auch noch weitere Medien wie z. B. visuelle Bildschirmaus
gaben oder das Versenden eines Telefaxes angeboten.
Ein automatisches Dialogsystem zur gesprochenen Abfrage von z. B. Telefonbucheinträgen
(directory inquiries) ist beispielsweise aus der WO 96/13030 A2 bekannt. Dort wird u. a. ein
Dialogschema beschrieben, dem ein Benutzer zu folgen hat, um von dem automatischen
System die Telefonnummer einer in der Telefondatenbank gelisteten Person (im Engli
schen auch als "residential listing" bezeichnet) zu erhalten. Dazu muss der Benutzer nach
einander in einzelnen Dialogbeiträgen (im Englischen auch als "turns" bezeichnet) die
Stadt (town), die Straße (road) und den Nachnamen (surname) angeben.
Das Dialogsystem verknüpft diese Angaben beispielsweise miteinander, indem es zu jeder
sprachlichen Äußerung des Benutzers mittels Spracherkennung eine Liste von möglichen
Erkennungsergebnissen aufstellt, die eine genügende Ähnlichkeit (meet a prescribed
threshold of similarity) mit der jeweiligen sprachlichen Äußerung besitzen, und diese Lis
ten mit der Telefondatenbank (directory database) abgleicht. Dieser Abgleich führt dann
zu einer (möglicherweise leeren) Liste von Datenbankeinträgen (directory entries), deren
jeweilige Stadt, Straße und Nachname eine genügende Ähnlichkeit mit den jeweiligen
sprachlichen Äußerungen des Benutzers besitzen.
Ist die Anzahl der so bestimmten Datenbankeinträge klein genug, z. B. kleiner als 3, so gibt
das Dialogsystem dem Benutzer diese Datenbankeinträge einschließlich der jeweiligen Te
lefonnummern bekannt. Anderenfalls kann das System weitere Informationen wie z. B.
eine Buchstabierung des Städtenamens vom Benutzer anfordern, die dann in ähnlicher
Weise mit den schon erhaltenen Informationen und ggf mit der Datenbank verknüpft
werden. Ein solches Vorgehen ist aber auch dann möglich, wenn einer der vorhergehenden
Erkennungsschritte entweder gar kein Ergebnis liefert oder nur eines, was sehr unähnlich
zu der entsprechenden sprachlichen Äußerung des Benutzers ist. Eine weitere Einsatzmög
lichkeit der Abfrage zusätzlicher Informationen ergibt sich, wenn die gesammelten Infor
mationen sich nicht mit der Datenbank abgleichen lassen, d. h., wenn sich kein zu diesen
Informationen passender Datenbankeintrag bestimmen lässt. Versagen alle Möglichkeiten
des automatischen Systems, dem Benutzer die gewünschte Information zu geben, weil z. B.
der Benutzer im o. g. Fall keine weiteren Informationen geben kann, so kann der Benutzer
zu einem Menschen (human operator) verbunden werden, der die Anfrage weiter bearbei
tet.
Die Tatsache, dass sich eine Anfrage eines Benutzers erwartungsgemäß auf einen in der
Datenbank enthaltenen Eintrag bezieht, lässt sich zur Erhöhung der Erkennungsgenauig
keit in den o. g. Spracherkennungsschritten benutzen. Die WO 96/13030 A2 schlägt dazu
zwei Methoden vor. Zum einen lässt sich das Vokabular für den nächsten Erkennungs
schritt entsprechend der schon bekannten Informationen zusammenstellen. Sind z. B. die
möglichen Städte bereits erkannt worden, so wird das Vokabular für den Straßenerken
nungsschritt nur aus den Straßen zusammengestellt, die in der Datenbank zu Einträgen
mit den bekannten Städten gehören (compile road list). Zum anderen können die einzel
nen Wörter dieses Vokabulars auch noch untereinander gewichtet werden (pre-weight the
recognition network). Dazu erhalten die Straßen, die zu Städten gehören, die eine größere
Ähnlichkeit mit der gesprochenen Äußerung der Stadt aufweisen, ein höheres Gewicht als
diejenigen von Städten mit geringerer Ähnlichkeit.
Solche Gewichtungen von Vokabularworten und von Folgen von Vokabularworten werden
in der Spracherkennung als Sprachmodell (language model) bezeichnet, vgl. dazu auch die
Veröffentlichung "DJ Attwater and SJ Whittaker: Issues in large-vocabulary interactive
speech systems. BT Technology Journal 14(1996), No. 1, pp. 177-186, Jan. 1996". Die
WO 96/13030 A2 beschreibt, dass solche Sprachmodelle außer von der Datenbank und den
schon erhaltenen Erkennungsergebnissen der Benutzeräußerungen auch noch von weiteren
Umständen wie z. B. der Nummer des Anrufen bei telephonischen Auskunftssystemen
oder auch von der Tageszeit abhängen können.
In der WO 96/13030 A2 werden die nach dem ersten Erkennungsschritt bei den weiteren
Erkennungsschritten verwendeten Vokabularien und ggf. Sprachmodelle dynamisch aus
der Datenbank (unter Berücksichtigung der bereits erhaltenen Erkennungsergebnisse) be
rechnet. Im obigen Beispiel wird also nach der Städtenamenerkennung das Straßenvoka
bular und dessen Sprachmodell dynamisch aus der Datenbank gewonnen. Da das Dialog
system den Benutzer jedoch nicht allzu lange auf seine Reaktionen warten lassen darf, er
fordert ein solches Vorgehen zum einen eine enge Kopplung des Spracherkennungssys
tems, zu dem das Vokabular und das Sprachmodell gerechnet werden, mit der Datenbank.
Zum anderen werden jedoch auch speziell hergestellte Datenbanken benötigt, da die z. Z.
in Benutzung befindlichen Datenbanken nicht in der Lage sind, die benötigten Informati
onen in der erforderlichen kurzen Zeit zu liefern.
So muss die Datenbank bei der dynamischen Erstellung des Straßenvokabulars z. B. in der
Lage sein, innerhalb kurzer Zeit sämtliche Straßen zu liefern, die zu den aus der Städteer
kennung erhaltenen einer oder mehreren Städten gehören. Diese Funktionalität ist völlig
untypisch und erfordert daher viel Zeit für die z. Z. benutzten Datenbanken, die dafür
vorgesehen sind, z. B. auf die Eingabe der Stadt und des Nachnamens hin nur die relativ
wenigen passenden Einträge mit dieser Stadt und diesem Nachnamen herauszugeben.
Aufgabe der Erfindung ist es daher, ein automatisches Dialogsystem zur gesprochenen
Datenbankabfrage der eingangs genannten Art zu schaffen, das ohne diese enge Kopplung
zwischen Spracherkennungssystem und Datenbank auskommt und auch mit den z. Z. be
nutzten Datenbanken zusammenarbeiten kann, sich aber dennoch die Vorteile einer ver
besserten Erkennungsleistung durch die Verwendung von Sprachmodellen zunutze macht.
Diese Aufgabe wird gelöst durch ein automatisches Dialogsystem zum gesprochenen Ab
fragen eines Datenbankeintrags, der mehrere für seine Abfrage vorgesehene Bestandteile
enthält, wobei die Spracherkennung einer sprachlichen Äußerung zum Abfragen des Da
tenbankeintrags durch ein Sprachmodell unterstützt wird, das vor dem Beginn des Dialo
ges erstellt wurde, zu dem die sprachliche Äußerung gehört, und das das korrelierte Auf
treten der für die Abfrage vorgesehenen Bestandteile des Datenbankeintrags in den sprach
lichen Äußerungen des Dialoges modelliert. Indem das Sprachmodell vor dem Beginn des
Dialoges erstellt wird, entfällt die Anforderung, dass die Entnahme der entsprechenden
Informationen aus der Datenbank schnell erfolgen muss. Daher kann man auf die enge
Kopplung zwischen Spracherkennungssystem und Datenbank verzichten, und es können
auch die z. Z. benutzten Datenbanken verwendet werden.
Die abhängigen Ansprüche 2 bis 4 beanspruchen spezielle Ausgestaltungen des innerhalb
des automatischen Dialogsystems zur gesprochenen Datenbankabfrage verwendeten
Sprachmodells. Welche dieser Ausführungsformen sich in der Praxis besonders vorteilhaft
einsetzen lassen, richtet sich nach den Kenntnissen über das Benutzerverhalten und nach
den zur Verfügung stehenden Hardware- und Softwareressourcen des Dialogsystems.
Die Erfindung bezieht sich in Anspruch 5 jedoch auch auf ein Spracherkennungssystem
zur Spracherkennung einer sprachlichen Äußerung zum gesprochenen Abfragen eines Da
tenbankeintrags, der mehrere für seine Abfrage vorgesehene Bestandteile enthält, wobei das
Spracherkennungssystem durch ein Sprachmodell unterstützt wird, das vor dem Beginn des
Dialoges erstellt wurde, zu dem die sprachliche Äußerung gehört, und das das korrelierte
Auftreten der für die Abfrage vorgesehenen Bestandteile des Datenbankeintrags in den
sprachlichen Äußerungen des Dialoges modelliert. Ein solches Spracherkennungssystem
kann z. B. als Systemkomponente eines erfindungsgemäßen Dialogsystems zur gesproche
nen Datenbankabfrage benutzt werden.
In Anspruch 6 bezieht sich die Erfindung auf ein Sprachmodell zur Unterstützung der
Spracherkennung einer sprachlichen Äußerung zum gesprochenen Abfragen eines Daten
bankeintrags, der mehrere für seine Abfrage vorgesehene Bestandteile enthält, wobei das
Sprachmodell vor dem Beginn des Dialoges erstellt wurde, zu dem die sprachliche Äußerung
gehört, und wobei das Sprachmodell das korrelierte Auftreten der für die Abfrage
vorgesehenen Bestandteile des Datenbankeintrags in den sprachlichen Äußerungen des
Dialoges modelliert. Ein solches Sprachmodell lässt sich z. B. innerhalb eines erfindungs
gemäßen Dialogsystems zur gesprochenen Datenbankabfrage verwenden.
Die Erfindung bezieht sich in Anspruch 7 aber auch auf ein Verfahren zum gesprochenen
Abfragen eines Datenbankeintrags, der mehrere für seine Abfrage vorgesehene Bestandteile
enthält, wobei die Spracherkennung einer sprachlichen Äußerung zum Abfragen des Da
tenbankeintrags durch ein Sprachmodell unterstützt wird, das vor dem Beginn des Dialo
ges erstellt wurde, zu dem die sprachliche Äußerung gehört, und das das korrelierte Auf
treten der für die Abfrage vorgesehenen Bestandteile des Datenbankeintrags in den sprach
lichen Äußerungen des Dialoges modelliert.
Diese und weitere Aspekte und Vorteile der Erfindung werden im Folgenden an Hand der
Ausführungsbeispiele und insbesondere an Hand der beigefügten Zeichnungen näher er
läutert. Es zeigen
Fig. 1 eine Ausführungsform eines erfindungsgemäßen Dialogsystems zur gesprochenen
Datenbankabfrage,
Fig. 2 einen Auszug aus dem Firmenteil eines Telefonbuches einer Stadt,
Fig. 3 eine mögliche Abarbeitung einer gesprochenen Datenbankabfrage in Form eines
Flussdiagramms.
Fig. 1 zeigt eine Ausführungsform eines erfindungsgemäßen Dialogsystems zur gesproche
nen Datenbankabfrage. Ein Telefonanruf eines Systembenutzers läuft an der mit dem öf
fentlichen Telefonnetz gekoppelten Telefonschnittstelle 1 auf, die mit der Netzwerk
schnittstellen- und Ein-/Ausgabe-Kontrolleinheit 2, an der der Anruf entgegengenommen
und zentral bearbeitet wird, bidirektional verbunden ist. Die Netzwerkschnittstellen- und
Ein-/Ausgabe-Kontrolleinheit 2 übergibt eine sprachliche Äußerung des Benutzers an das
Spracherkennungssystem 3, das die Äußerung unter Benutzung des Sprachmodells 6 erkennt,
d. h. die für die Datenbankabfrage relevanten Bestandteile aus der sprachlichen
Äußerung extrahiert.
Diese Erkennung im Spracherkennungssystem 3 besteht üblicherweise zunächst aus einer
Überführung der gesprochenen Äußerung in Text, dem sogenannten Sprache-zu-Text
(englisch: speech-to-text) oder der Spracherkennung im engeren Sinne. Dabei kann entwe
der nur eine einzige Texthypothese für die sprachliche Äußerung erzeugt werden oder aber
auch eine Menge verschiedener solcher Texthypothesen, die dann z. B. in Form soge
nannter N-best Listen oder in Form von Wortgraphen organisiert werden. Zusätzlich kön
nen solche Texthypothesen noch mit Bewertungen versehen werden, die z. B. mit der
Ähnlichkeit der Texthypothese zur gesprochenen Äußerung korrespondieren.
Darf der Benutzer als Vokabular nur Worte verwenden, die als für die Abfrage vorgesehene
Bestandteile jeweiliger Einträge in der Datenbank enthalten sind, so genügt bis auf die
Behandlung von Buchstabierungen der Sprache-zu-Text Schritt bereits. Darf der Benutzer
darüber hinaus jedoch auch noch andere Worte, z. B. solche zur Begrüßung, verwenden,
so müssen im Spracherkennungssystem 3 die Texthypothesen noch auf die für die Daten
bankabfrage relevanten Bestandteile reduziert werden. Dazu sind im Bereich der Spracher
kennung verschiedene Methoden bekannt: Es lassen sich z. B. die irrelevanten Worte
durch allgemeine Füllwortmodelle abdecken (garbage modelling, word spotting) oder man
kann Methoden des Sprachverstehens (speech understanding) wie z. B. Grammatiken auf
die Texthypothesen anwenden.
Darf ein Benutzer auch Buchstabierungen oder Teilbuchstabierungen von Worten ver
wenden, die als für die Abfrage vorgesehene Bestandteile jeweiliger Einträge in der Daten
bank enthalten sind, so müssen diese in die ihnen entsprechenden Bestandteile des Daten
bankeintrags umgesetzt werden. Sagt ein Benutzer z. B. "Meyer mit E. Y." so zeigt die In
formation "mit E. Y." an, dass eines gesuchten Datenbankbestandteile die Buchstabefolge
"E. Y" enthält. Zur sprachmodellmäßigen Verarbeitung solcher Konstrukte können bei
spielsweise wieder Grammatiken oder auch Zustandsautomaten herangezogen werden.
Das Ergebnis des Spracherkennungssystems 3 ist in diesen Fällen eine einzige oder eine
Menge von alternativen Erkennungshypothesen der sprachlichen Äußerung, wobei die
Hypothesen auf ihre für die Datenbankabfrage relevanten Bestandteile reduziert wurden.
Weiter können auch diese Hypothesen je nach Systemgestaltung mit Bewertungen verse
hen werden, die beispielsweise etwas über die Wahrscheinlichkeiten aussagen, dass die je
weiligen Hypothesen richtig erkannt wurden.
Das Spracherkennungssystem 3 übergibt den bzw. die Erkennungshypothesen an die Dia
logkontrolleinheit 4, die die während des Dialogs vom Benutzer mitgeteilten Informatio
nen sammelt, bei genügendem Informationsstand eine Abfrage der Datenbank 7 durch
führt und die nächste Dialogaktion des Systems plant. Dazu übergibt sie an die Sprachaus
gabeeinheit 5 den Inhalt der nächsten Systemmitteilung an den Benutzer. Dabei kann sie z. B.
den Text der nächsten Systemmitteilung oder aber auch nur eine semantische Beschrei
bung davon übermitteln. Entsprechend übernimmt die Sprachausgabeeinheit 5 die Aufga
be, den Text in Sprache zu überführen (englisch: text-to-speech) bzw. zusätzlich noch zu
erst den Text aus der semantischen Beschreibung zu gewinnen.
Die Sprachausgabeeinheit 5 übergibt die nächste Systemmitteilung als Sprache an die
Netzwerkschnittstellen- und Ein-/Ausgabe-Kontrolleinheit 2, von der sie über die Telefon
schnittstelle 1 schließlich an den Benutzer weitergegeben wird.
Als Verfeinerung der oben beschriebenen Vorgehensweise im Dialogsystem zur gesproche
nen Datenbankabfrage ist in Fig. 1 noch Folgendes dargestellt: Die Netzwerkschnittstellen-
und Ein-/Ausgabe-Kontrolleinheit 2 kann der Dialogkontrolleinheit 4 noch weitere Infor
mationen übergeben. Dies können z. B. die Telefonnummer des Anrufers oder auch nur
eine Kennung der Region, aus der der Anruf kommt, sein. Entsprechend dieser Informati
onen kann die Dialogkontrolleinheit 4 z. B. unterschiedliche Sprachmodelle 6 auswählen.
Z. B. beobachtet man in der Praxis, dass Anrufer aus einer großen Stadt, die eine Bahnver
bindung erfragen wollen, üblicherweise von dieser Stadt aus oder zu dieser Stadt hin fahren
wollen. Dies lässt sich bei der Aufbereitung und/oder bei der Benutzung der Sprachmo
delle vorteilhaft zur Senkung der Erkennungsfehlerrate verwenden. Um diese Funktionalität
benutzen zu können, muss die Sprachmodellkomponente 6 entsprechend für die Auf
nahme der benötigten Sprachmodelle ausgelegt werden.
Die Sprachmodelle 6 können jedoch auch noch von anderen Gegebenheiten abhängig ge
macht werden, so z. B. von der Tageszeit oder dem Wochentag. Im obigen Bahnaus
kunftsbeispiel beobachtet man wesentlich verschiedene Verkehrsströme zwischen Ar
beitstagen und z. B. den Sonntagen. Das Vorliegen solcher Gegebenheiten kann sowohl
von der Dialogkontrolleinheit 4 wahrgenommen und an die Sprachmodelle 6 weitergege
ben werden, oder die Sprachmodelle 6 können dies selbst überwachen.
Für den Fachmann ist es offensichtlich, dass die in Fig. 1 dargestellten und oben beschrie
benen Möglichkeiten der Systemgestaltung nur einige von vielen möglichen Varianten
darstellen. So wird in manchen Systemen die Sprachverstehenskomponente auch als sepa
rater Block untergebracht, der auch ein eigenes Sprachmodell verwenden kann, das von
dem für die Sprache-zu-Text Komponente verschieden ist. Insbesondere wird hier auch auf
die in der WO 96/13030 A2 beschriebenen und auch für diese Erfindung anwendbaren weite
ren Möglichkeiten zur Systemausformung hingewiesen.
Weiter ist für den Fachmann ersichtlich, dass aus Übersichtlichkeitsgründen viele Detailas
pekte des Systems weder in Fig. 1 dargestellt noch besprochen wurden. So muss das System
natürlich der Tatsache Rechnung tragen, dass eine hohe Zahl von Anrufen nicht zum Sys
temzusammenbruch führt, oder dass stark verrauschte gesprochene Äußerungen nicht zu
einer Überlastung des Spracherkennungssystems 3 führen. Entsprechende Kommunikati
onsprotokolle und Fehlerbehandlungen sind vorgesehen. So wird es üblicherweise z. B.
auch eine Kommunikationsrichtung vom Spracherkennungssystem 3 zur Netzwerkschnitt
stellen- und Ein-/Ausgabe-Kontrolleinheit 2 geben, auf der das Spracherkennungssystem 3
seine Bereitschaft mitteilen kann, die nächste gesprochene Äußerung zu verarbeiten. Wei
ter sind, wie oben bei der Besprechung des in der WO 96/13030 A2 dargestellten Standes der
Technik erwähnt, Ausweichmechanismen für den Fall vorzusehen, dass z. B. das Spracher
kennungssystem 3 beispielsweise aufgrund von schwierigen akustischen Bedingungen ü
berhaupt kein Erkennungsergebnis für eine sprachliche Äußerung erzeugt.
Weiter können während des Betriebs des Dialogsystems statistische Daten z. B. über das
Anrufverhalten der Benutzer gesammelt und zur Anpassung der Sprachmodelle 6 verwen
det werden. Schließlich deutet in Fig. 1 die gestrichelte Verbindung der Datenbank 7 zu
den Sprachmodellen 6 an, dass die Sprachmodelle 6 unter Benutzung der in der Daten
bank 7 enthaltenen Informationen generiert wurden.
Mit Hilfe der Fig. 2 und 3 wird die Arbeitsweise des Dialogsystems zur gesprochenen Da
tenbankabfrage anhand des Beispiels der Abfrage der Telefonnummer einer Firma (eng
lisch: business white pages) näher erläutert. Dazu zeigt Fig. 2 einen Auszug aus dem Fir
menteil eines Telefonbuches einer Stadt. Es sind vier Datenbankeinträge dargestellt, die
insbesondere folgende Kennzeichen aufweisen: Die Nachnamen der Firmeneigner sind
einander akustisch recht ähnlich und daher leicht verwechselbar. Weiter tragen drei der
Firmen die Bezeichnung "Sanitär" in ihrem Datenbankeintrag.
Fig. 3 zeigt die Abarbeitung einer gesprochenen Datenbankabfrage in Form eines Flussdia
gramms. Die Abarbeitung startet im Startblock 10, worauf im Prozessblock 11 dem Benut
zer die Frage gestellt wird, ob er die Telefonnummer einer Privatperson (englisch: white
pages query) oder die einer Firma (englisch: business white pages query) erfragen möchte.
Entsprechend der erkannten Benutzerantwort verzweigt die Kontrolle nach dem Entschei
dungsblock 12. Möchte der Benutzer die Telefonnummer einer Privatperson, so erfolgt die
weitere Abarbeitung in dem in Fig. 3 nicht näher aufgelösten Block 13. Möchte er aber die
Telefonnummer einer Firma, so wird ihm als nächstes im Block 14 die Frage nach der
Stadt gestellt, in der die Firma bzw. die Zweigstelle der Firma ansässig ist, deren Nummer
er erfragen möchte.
Die Benutzerantwort wird erkannt und eine Liste der erkannten Städtenamen mit genü
gend hoher Bewertung erstellt. Dabei wird für den weiteren Verlauf angenommen, dass die
Liste nicht leer ist. Der Fall, dass die Erkennung versagt hat, wird hier also nicht weiter
ausgeführt. Ist die Anzahl der erkannten Städtenamen in der Liste nicht klein genug, z. B.
nicht kleiner als 3, was im Block 15 entschieden wird, so versucht das System, die Städte
auswahl näher einzugrenzen. Dieses Vorgehen verhindert, dass in den nachfolgenden
Schritten zwischen einer zu großen Zahl von Datenbankeinträgen entschieden werden
muss.
Um die Städteauswahl näher einzugrenzen, wird zunächst im Block 16 durch Aktualisie
rung eines Zählers festgehalten, wie oft bereits versucht wurde, eine weitere Frage zur Stadt
zu stellen. Weiter kann dort auch festgehalten werden, welche Fragen bereits zu der Stadt
gestellt wurden. Sodann wird im Block 17 durch Auswertung der Information von
Block 16 entschieden, ob eine weitere Nachfrage nach der Stadt noch vorgenommen wer
den soll. Ist das nicht der Fall, so wird in dieser Ausführungsform der Erfindung die weite
re Gesprächsführung mit dem Benutzer einem menschlichen Bediener im hier nicht weiter
erläuterten Block 18 überlassen. Anderenfalls wird dem Benutzer im Block 19 eine weitere
Frage nach der Stadt gestellt, z. B. wird nach einer Buchstabierung der Stadt, nach anderen
z. B. großen Städten in der Nähe oder auch einfach nur um eine Wiederholung des Städ
tenamens gebeten. Zur Verarbeitung solch zusätzlicher umschreibender Information wie
z. B. der Angabe anderer großer Städte in der Nähe müssen dann ggf. Methoden der
künstlichen Intelligenz herangezogen werden, die man architektonisch beispielsweise bei
der Dialogkontrolle 4 der Fig. 1 ansiedeln kann.
Sodann wird in Block 15 wieder entschieden, ob die Städteliste jetzt klein genug ist. Die
Eingrenzung des Städtenamens durch die Abarbeitung der Blöcke 16, 17 und 19 wird da
bei so oft wiederholt, bis entweder die Übergabe des Gespräches an den menschlichen Be
diener in Block 18 erfolgt, oder aber die Städteliste durch Block 15 als klein genug bewer
tet wird. Ist dies der Fall, die Städteliste also klein genug, so wird dem Benutzer im
Block 20 die Frage nach der Firma gestellt, deren Nummer er erfragen möchte. In
Block 21 wird dann entschieden, ob das Dialogsystem genug Informationen für eine er
folgversprechende Datenbankanfrage besitzt. Z. B. kann das System verlangen, dass der
Benutzer ihm zumindest einen Bestandteil der Firmentätigkeit, beispielsweise "Sanitär",
und einen Bestandteil des Firmennamens, z. B. "Meyer", mitteilt. Im Falle der Verwen
dung mehrerer genügend hoch bewerteter Erkennungsalternativen bedeutet das z. B. wie
im Fall der oben beschriebenen Städteerkennung, dass die Liste der möglichen Alternativen
klein genug ist.
Erscheint dem System die Information für eine Datenbankabfrage nicht erfolgverspre
chend, so wird anlog wie bei der Einschränkung der Städteauswahl verfahren: Im Block 22
wird ein Zähler aktualisiert, wie oft bereits eine Präzisierung der Firmeninformation ver
sucht wurde. Weiter wird festgehalten, welche Fragen bereits zu der Firma gestellt wurden.
In Block 23 wird sodann durch Auswertung der Information von Block 22 entschieden, ob
noch weiter nach der Firma gefragt werden soll. Ist das nicht der Fall, so wird in dieser
Ausführungsform der Erfindung die weitere Gesprächsführung mit dem Benutzer wieder
einem menschlichen Bediener in Block 18 überlassen. Anderenfalls wird dem Benutzer im
Block 24 eine weitere Frage nach der Firma gestellt, z. B. wird nach einer Buchstabierung
des Firmennamens, nach anderen Bestandteilen des Firmennamens und/oder der Firmen
tätigkeit oder auch einfach nur um eine Wiederholung des Firmennamens gebeten.
Sodann wird in Block 21 wieder entschieden, ob die Datenbankanfrage jetzt erfolgverspre
chend erscheint. Die Präzisierung der Firmeninformation durch die Abarbeitung der Blö
cke 22, 23 und 24 wird dabei so oft wiederholt, bis entweder die Übergabe des Gespräches
an den menschlichen Bediener in Block 18 erfolgt, oder aber die Datenbankanfrage durch
Block 21 als erfolgversprechend bewertet wird. Ist dies der Fall, erscheint also die Daten
bankanfrage erfolgversprechend, so wird diese im Block 25 durchgeführt. Im Block 26
wird dann entschieden, ob die Anzahl der zurückgelieferten Datenbankeinträge mit einer
genügend hohen Bewertung klein genug ist, also z. B. kleiner als 3. Ist dies nicht der Fall,
so tritt das System wieder in Block 22 ein, um nach dem oben beschriebenen Verfahren
die Firmeninformation weiter zu präzisieren bzw. an einen menschlichen Bediener in
Block 18 abzugeben.
Ist aber, ggf. nach wiederholtem Eintritt in Block 26, die Anzahl der zurückgelieferten
Datenbankeinträge mit einer genügend hohen Bewertung klein genug, so werden dem
Benutzer im Block 27 die gefundenen Datenbankeinträge einschließlich ihrer Telefon
nummern angesagt. Danach wird die Abarbeitung des Verfahrens im Endblock 28 been
det. Dazu kann das System dem Benutzer eine Abschiedsbotschaft ansagen und das Tele
fongespräch beenden. Es kann aber auch dem Benutzer die Möglichkeit zu einer erneuten
Anfrage geben, um bei entsprechendem Benutzerwunsch dann z. B. wieder in Block 11
einzutreten.
Die Benutzerantworten und ihre Spracherkennung sind in Fig. 3 nicht explizit dargestellt.
Es versteht sich aber, dass nach jeder Systemaufforderung in den Blöcken 11, 14, 19, 20
und 24 eine Benutzerantwort erwartet wird. Die Spracherkennung dieser Benutzerant
worten wird durch ein erfindungsgemäßes Sprachmodell unterstützt, das vor dem Beginn
des Dialoges erstellt wurde, zu dem die sprachliche Äußerung gehört, und das das korre
lierte Auftreten der für die Abfrage vorgesehenen Bestandteile des Datenbankeintrags in
den sprachlichen Äußerungen des Dialoges modelliert.
Ein solches Sprachmodell wird vor dem Beginn des Dialogs mit dem Benutzer unter Be
nutzung der Datenbank und ggf. unter Zugrundelegung weiterer Anrufstatistiken erstellt.
Während des Dialoges erfolgen keine Datenbankanfragen zur Anpassung des Sprachmo
dells, wodurch die Notwendigkeit einer eng mit dem Spracherkennungssystem gekoppelten
und schnell reagierenden Datenbank entfällt.
Es besteht die Möglichkeit, das Sprachmodell vor dem Beginn eines Dialogs z. B. an die bis
dahin beobachtete Anrufstatistik und/oder an veränderte Datenbanken anzupassen oder
komplett neu zu erstellen. Da solche Anpassungen oder Neuerstellungen je nach ihrem
Ausmaß sehr aufwendig und zeitraubend sein können, wird man sie üblicherweise in Zeit
räume verlegen, in denen das System nur wenige Anfragen bearbeiten muss, also beispiels
weise in die Stunden zwischen Mitternacht und dem frühen Morgen.
Ein erfindungsgemäßes, das Spracherkennungssystem unterstützendes Sprachmodell mo
delliert das korrelierte Auftreten der für die Abfrage vorgesehenen Bestandteile eines Da
tenbankeintrags in sprachlichen Äußerungen. Solche Korrelationen bestehen beispielsweise
darin, dass die meisten Firmen und insbesondere große Firmen in großen Städten ansässig
sind, d. h. dass bei einer Firmenanfrage die Wahrscheinlichkeit steigt, dass der Benutzer
eine Telefonnummer in einer großen Stadt erfragen will. Weiter zeigen Anrufstatistiken,
dass die meisten Benutzer Telefonnummern erfragen, die auch in der Datenbank vorhan
den sind. D. h., die Wahrscheinlichkeit für das gemeinsame Auftreten von Bestandteilen,
die zu einem nicht existenten Datenbankeintrag führen würden, ist nur klein.
Für die Modellierung korreliert auftretender Bestandteile der für die Abfrage vorgesehenen
Bestandteile eines Datenbankeintrags in sprachlichen Äußerungen kommt es dabei nicht
darauf an, ob diese Bestandteile zusammen in einer sprachlichen Äußerung auftreten oder
ob sie über mehrere Äußerungen verstreut sind. So wurde z. B. in Fig. 3 in Block 14 die
Stadt, aus der eine Telefonnummer gewünscht wird, separat abgefragt, während die Frage
nach der Firma in Block 20 ohne nähere Einschränkung gestellt wurde. Daher ist zu er
warten, dass viele Benutzer die Stadt auch separat nennen werden, z. B. "Berlin", während
sie wahrscheinlich mehrere Bestandteile des Firmeneintrags gleichzeitig sagen werden, z. B.
"Ich möchte die Firma Mayr, Schlosserei". Das Sprachmodell kann jedoch auch hier Be
wertungen für die jeweilige Gesamtinformation abgeben, also bei der Städteerkennung für
die Gesamtinformation "Firma, Stadt: Berlin" und bei der Firmenerkennung für "Firma,
Stadt: Berlin, Mayr, Schlosserei".
Weiterhin kann das Sprachmodell auch berücksichtigen, dass die Informationen in ver
schiedenen sprachlichen Äußerungen gegeben wurden, es kann also die Grenzen der
sprachlichen Äußerungen modellieren. Andererseits kann es, z. B. aus Vereinfachungs
gründen, auch nur die Informationen innerhalb einer sprachlichen Äußerung bewerten.
Um das Gesagte anhand eines Beispieles näher zu erläutern und um mögliche Ausfüh
rungsformen von Sprachmodellen einzuführen, werden im Folgenden die in Fig. 2 darge
stellten Datenbankeinträge benutzt. Dazu wird vereinfachend nur die relative Bewertung
der vier in Fig. 2 gezeigten Einträge zueinander betrachtet, d. h. dass z. B. die Frage nach
der Städteauswahl für diese Erläuterung nicht betrachtet wird.
Es besteht dann zum ersten die Möglichkeit, alle in der Datenbank enthaltenen Einträge
mit der Bewertung 1 zu versehen, während alle übrigen Bestandteilkombinationen, die
keine Entsprechung in einem Datenbankeintrag finden, die Bewertung 0 erhalten. Dies
kann so interpretiert werden, dass das Sprachmodell nur zwischen den in der Datenbank
enthaltenen Einträgen als "erlaubt" und allen übrigen Bestandteilkombinationen als "nicht
erlaubt" unterscheidet. Im Beispiel der Fig. 2 erhält man so u. a. die in der folgenden Ta
belle gezeigten Bewertungen.
Als zweite Möglichkeit kann die Bewertung 0 für die nicht in der Datenbank enthaltenen
Bestandteilkombinationen beibehalten werden, während man bei den in der Datenbank
enthaltenen Einträgen ihre relativen Häufigkeiten berücksichtigt. Für die obigen Beispiele
erhält man die in der folgenden Tabelle gezeigten Bewertungen.
Die Bewertung von "Sanitär" ergibt sich dabei zu 3/4, weil das Wort "Sanitär" in 3 der 4
Datenbankeinträge auftaucht. Entsprechend taucht die Bestandteilkombination "Sanitär,
Paul" in 2 der 4 Einträge auf, ihre Bewertung ergibt sich also zu 2/4 = 1/2. Ebenso be
kommt die Bestandteilkombination "Geyer, Paul, Sanitär, Gas- und Wasserinstallation"
die Bewertung 1/4. Dabei wurde hier davon ausgegangen, dass die Reihenfolge der Be
standteile in der Bestandteilkombination ohne Bedeutung ist, das Sprachmodell also nur
das Vorhandensein eines Bestandteiles in der Bestandteilkombination bewertet. Dies ist
aber für die Erfindung nicht notwendig. So können beispielsweise in einer anderen Ausführungsform
die Bewertungen von "Sanitär, Paul" und "Paul, Sanitär" voneinander ab
weichen, um z. B. eine beobachtete Benutzerpräferenz zu modellieren.
Eine dritte Möglichkeit für die Sprachmodellbewertungen ist, den nicht in der Daten
bank enthaltenen Bestandteilkombinationen eine Bewertung entsprechend der bei den
Benutzern beobachteten relativen Häufigkeit solcher Kombinationen zuzuweisen. Für die
in der Datenbank enthaltenen Einträge kann man weiter ihre relativen Häufigkeiten ver
wenden. So kann man beispielsweise die in der folgenden Tabelle gezeigten Bewertungen
erhalten.
Dabei wurde angenommen, das die Benutzer nie Vornamen (Karl) und Branchenbezeich
nungen (Sanitär) verwenden, die nicht in der Datenbank enthalten sind, dass aber gewisse
Wahrscheinlichkeiten bestehen, dass Vor-/Nachnamenkombinationen (Geyer, Otto), Vor
namen-/Branchenkombinationen (Sanitär, Paul) und komplette Firmenbezeichnungen
(Geyer, Paul, Sanitär, Gas- und Wasserinstallation; Mayr, Elfriede, Sanitär) auftauchen,
die nicht zu Datenbankeinträgen gehören.
Die technischen Verfahren zur Schätzung der beschriebenen Sprachmodelle aus der Da
tenbank und z. B. Benutzungsstatistiken sind einem Fachmann hinlänglich bekannt. Als
Beispiele werden hier stellvertretend die sogenannten N-Gramm-Sprachmodelle und die
stochastischen Grammatiken erwähnt. Die Möglichkeit, das ein Benutzer auch Bestand
teilkombinationen verwendet, die nicht zu einem Datenbankeintrag gehören, lässt sich
z. B. durch sogenanntes Discounting berücksichtigen.
Claims (7)
1. Automatisches Dialogsystem zum gesprochenen Abfragen eines Datenbankeintrags, der
mehrere für seine Abfrage vorgesehene Bestandteile enthält, wobei die Spracherken
nung (3) einer sprachlichen Äußerung zum Abfragen des Datenbankeintrags durch ein
Sprachmodell (6) unterstützt wird, das vor dem Beginn des Dialoges erstellt wurde, zu dem
die sprachliche Äußerung gehört, und das das korrelierte Auftreten der für die Abfrage
vorgesehenen Bestandteile des Datenbankeintrags in den sprachlichen Äußerungen des
Dialoges modelliert.
2. Automatisches Dialogsystem zur gesprochenen Datenbankabfrage nach Anspruch 1,
dadurch gekennzeichnet,
dass das Sprachmodell (6) dem Auftreten mehrerer Bestandteile eines Datensatzes in den sprachlichen Äußerungen, der in der abgefragten Datenbank enthalten ist, die Be wertung 1 ("erlaubt") zuweist, und
dass das Sprachmodell (6) dem Auftreten mehrerer Bestandteile eines Datensatzes in den sprachlichen Äußerungen, der nicht in der abgefragten Datenbank enthalten ist, die Bewertung 0 ("nicht erlaubt") zuweist.
dass das Sprachmodell (6) dem Auftreten mehrerer Bestandteile eines Datensatzes in den sprachlichen Äußerungen, der in der abgefragten Datenbank enthalten ist, die Be wertung 1 ("erlaubt") zuweist, und
dass das Sprachmodell (6) dem Auftreten mehrerer Bestandteile eines Datensatzes in den sprachlichen Äußerungen, der nicht in der abgefragten Datenbank enthalten ist, die Bewertung 0 ("nicht erlaubt") zuweist.
3. Automatisches Dialogsystem zur gesprochenen Datenbankabfrage nach Anspruch 1,
dadurch gekennzeichnet,
dass das Sprachmodell (6) dem Auftreten mehrerer Bestandteile eines Datensatzes in den sprachlichen Äußerungen, der in der abgefragten Datenbank enthalten ist, eine Bewertung entsprechend ihrer relativen Häufigkeit in der abgefragten Datenbank zu weist, und
dass das Sprachmodell (6) dem Auftreten mehrerer Bestandteile eines Datensatzes in den sprachlichen Äußerungen, der nicht in der abgefragten Datenbank enthalten ist, die Bewertung "0" ("nicht erlaubt") zuweist.
dass das Sprachmodell (6) dem Auftreten mehrerer Bestandteile eines Datensatzes in den sprachlichen Äußerungen, der in der abgefragten Datenbank enthalten ist, eine Bewertung entsprechend ihrer relativen Häufigkeit in der abgefragten Datenbank zu weist, und
dass das Sprachmodell (6) dem Auftreten mehrerer Bestandteile eines Datensatzes in den sprachlichen Äußerungen, der nicht in der abgefragten Datenbank enthalten ist, die Bewertung "0" ("nicht erlaubt") zuweist.
4. Automatisches Dialogsystem zur gesprochenen Datenbankabfrage nach Anspruch 1,
dadurch gekennzeichnet,
dass das Sprachmodell (6) dem Auftreten mehrerer Bestandteile eines Datensatzes in den sprachlichen Äußerungen, der in der abgefragten Datenbank enthalten ist, eine Bewertung entsprechend ihrer relativen Häufigkeit in der abgefragten Datenbank zu weist, und
dass das Sprachmodell (6) dem Auftreten mehrerer Bestandteile eines Datensatzes in den sprachlichen Äußerungen, der nicht in der abgefragten Datenbank enthalten ist, eine Bewertung entsprechend der relativen Häufigkeit solcher sprachlichen Äußerun gen zuweist.
dass das Sprachmodell (6) dem Auftreten mehrerer Bestandteile eines Datensatzes in den sprachlichen Äußerungen, der in der abgefragten Datenbank enthalten ist, eine Bewertung entsprechend ihrer relativen Häufigkeit in der abgefragten Datenbank zu weist, und
dass das Sprachmodell (6) dem Auftreten mehrerer Bestandteile eines Datensatzes in den sprachlichen Äußerungen, der nicht in der abgefragten Datenbank enthalten ist, eine Bewertung entsprechend der relativen Häufigkeit solcher sprachlichen Äußerun gen zuweist.
5. Spracherkennungssystem (3) zur Spracherkennung einer sprachlichen Äußerung zum
gesprochenen Abfragen eines Datenbankeintrags, der mehrere für seine Abfrage vorgesehe
ne Bestandteile enthält, wobei das Spracherkennungssystem (3) durch ein Sprachmodell (6)
unterstützt wird, das vor dem Beginn des Dialoges erstellt wurde, zu dem die sprachliche
Äußerung gehört, und das das korrelierte Auftreten der für die Abfrage vorgesehenen Be
standteile des Datenbankeintrags in den sprachlichen Äußerungen des Dialoges modelliert.
6. Sprachmodell (6) zur Unterstützung der Spracherkennung (3) einer sprachlichen Äuße
rung zum gesprochenen Abfragen eines Datenbankeintrags, der mehrere für seine Abfrage
vorgesehene Bestandteile enthält, wobei das Sprachmodell (6) vor dem Beginn des Dialoges
erstellt wurde, zu dem die sprachliche Äußerung gehört, und wobei das Sprachmodell (6)
das korrelierte Auftreten der für die Abfrage vorgesehenen Bestandteile des Datenbankein
trags in den sprachlichen Äußerungen des Dialoges modelliert.
7. Verfahren zum gesprochenen Abfragen eines Datenbankeintrags, der mehrere für seine
Abfrage vorgesehene Bestandteile enthält, wobei die Spracherkennung (3) einer sprachli
chen Äußerung zum Abfragen des Datenbankeintrags durch ein Sprachmodell (6) unter
stützt wird, das vor dem Beginn des Dialoges erstellt wurde, zu dem die sprachliche Äuße
rung gehört, und das das korrelierte Auftreten der für die Abfrage vorgesehenen Bestand
teile des Datenbankeintrags in den sprachlichen Äußerungen des Dialoges modelliert.
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10100725A DE10100725C1 (de) | 2001-01-10 | 2001-01-10 | Automatisches Dialogsystem mit Datenbanksprachmodell |
US10/220,670 US7424428B2 (en) | 2001-01-10 | 2002-01-08 | Automatic dialog system with database language model |
DE60220763T DE60220763T2 (de) | 2001-01-10 | 2002-01-08 | Automatisches dialogsystem mit einem datenbankbasierten sprachmodell |
AT02729484T ATE365362T1 (de) | 2001-01-10 | 2002-01-08 | Automatisches dialogsystem mit einem datenbankbasierten sprachmodell |
PCT/IB2002/000035 WO2002056199A2 (en) | 2001-01-10 | 2002-01-08 | Automatic dialog system with database language model |
JP2002556389A JP2004518195A (ja) | 2001-01-10 | 2002-01-08 | データベース言語モデルによる自動対話システム |
EP02729484A EP1352390B1 (de) | 2001-01-10 | 2002-01-08 | Automatisches dialogsystem mit einem datenbankbasierten sprachmodell |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10100725A DE10100725C1 (de) | 2001-01-10 | 2001-01-10 | Automatisches Dialogsystem mit Datenbanksprachmodell |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10100725C1 true DE10100725C1 (de) | 2002-01-24 |
Family
ID=7670078
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10100725A Expired - Fee Related DE10100725C1 (de) | 2001-01-10 | 2001-01-10 | Automatisches Dialogsystem mit Datenbanksprachmodell |
DE60220763T Expired - Lifetime DE60220763T2 (de) | 2001-01-10 | 2002-01-08 | Automatisches dialogsystem mit einem datenbankbasierten sprachmodell |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE60220763T Expired - Lifetime DE60220763T2 (de) | 2001-01-10 | 2002-01-08 | Automatisches dialogsystem mit einem datenbankbasierten sprachmodell |
Country Status (6)
Country | Link |
---|---|
US (1) | US7424428B2 (de) |
EP (1) | EP1352390B1 (de) |
JP (1) | JP2004518195A (de) |
AT (1) | ATE365362T1 (de) |
DE (2) | DE10100725C1 (de) |
WO (1) | WO2002056199A2 (de) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7729913B1 (en) * | 2003-03-18 | 2010-06-01 | A9.Com, Inc. | Generation and selection of voice recognition grammars for conducting database searches |
EP1693830B1 (de) * | 2005-02-21 | 2017-12-20 | Harman Becker Automotive Systems GmbH | Sprachgesteuertes Datensystem |
US20120124550A1 (en) * | 2006-02-22 | 2012-05-17 | Robert Nocera | Facilitating database application code translation from a first application language to a second application language |
US8608739B2 (en) * | 2008-07-22 | 2013-12-17 | Covidien Lp | Electrosurgical devices, systems and methods of using the same |
US9653066B2 (en) * | 2009-10-23 | 2017-05-16 | Nuance Communications, Inc. | System and method for estimating the reliability of alternate speech recognition hypotheses in real time |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
EP3091535B1 (de) | 2009-12-23 | 2023-10-11 | Google LLC | Multimodale eingabe in eine elektronische vorrichtung |
EP2550651B1 (de) | 2010-03-26 | 2016-06-15 | Nuance Communications, Inc. | Kontextbasierte sensibilität für sprachaktivitätserkennung |
US8352245B1 (en) | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
US8296142B2 (en) * | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US9514743B2 (en) * | 2014-08-29 | 2016-12-06 | Google Inc. | Query rewrite corrections |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1996013030A2 (en) * | 1994-10-25 | 1996-05-02 | British Telecommunications Public Limited Company | Voice-operated services |
DE19842151A1 (de) * | 1998-09-15 | 2000-03-23 | Philips Corp Intellectual Pty | Verfahren zur Adaption von linguistischen Sprachmodellen |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0602296A1 (de) * | 1992-12-17 | 1994-06-22 | International Business Machines Corporation | Adaptives Verfahren zur Erzeugung gebietsabhängiger Modelle für intelligente Systeme |
AU5803394A (en) * | 1992-12-17 | 1994-07-04 | Bell Atlantic Network Services, Inc. | Mechanized directory assistance |
DE69423838T2 (de) * | 1993-09-23 | 2000-08-03 | Xerox Corp., Rochester | Semantische Gleichereignisfilterung für Spracherkennung und Signalübersetzungsanwendungen |
US5488652A (en) * | 1994-04-14 | 1996-01-30 | Northern Telecom Limited | Method and apparatus for training speech recognition algorithms for directory assistance applications |
WO1997017694A1 (en) * | 1995-11-04 | 1997-05-15 | International Business Machines Corporation | Method and apparatus for adapting the language model's size in a speech recognition system |
US5839106A (en) * | 1996-12-17 | 1998-11-17 | Apple Computer, Inc. | Large-vocabulary speech recognition using an integrated syntactic and semantic statistical language model |
WO1999018556A2 (en) * | 1997-10-08 | 1999-04-15 | Koninklijke Philips Electronics N.V. | Vocabulary and/or language model training |
US6418431B1 (en) * | 1998-03-30 | 2002-07-09 | Microsoft Corporation | Information retrieval and speech recognition based on language models |
JP3004254B2 (ja) * | 1998-06-12 | 2000-01-31 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置 |
US6334102B1 (en) * | 1999-09-13 | 2001-12-25 | International Business Machines Corp. | Method of adding vocabulary to a speech recognition system |
US6622119B1 (en) * | 1999-10-30 | 2003-09-16 | International Business Machines Corporation | Adaptive command predictor and method for a natural language dialog system |
US6662157B1 (en) * | 2000-06-19 | 2003-12-09 | International Business Machines Corporation | Speech recognition system for database access through the use of data domain overloading of grammars |
US7043422B2 (en) * | 2000-10-13 | 2006-05-09 | Microsoft Corporation | Method and apparatus for distribution-based language model adaptation |
US6973429B2 (en) * | 2000-12-04 | 2005-12-06 | A9.Com, Inc. | Grammar generation for voice-based searches |
TW460060U (en) * | 2000-12-07 | 2001-10-11 | Hon Hai Prec Ind Co Ltd | Electrical connector with a fixation device |
-
2001
- 2001-01-10 DE DE10100725A patent/DE10100725C1/de not_active Expired - Fee Related
-
2002
- 2002-01-08 DE DE60220763T patent/DE60220763T2/de not_active Expired - Lifetime
- 2002-01-08 EP EP02729484A patent/EP1352390B1/de not_active Expired - Lifetime
- 2002-01-08 WO PCT/IB2002/000035 patent/WO2002056199A2/en active IP Right Grant
- 2002-01-08 US US10/220,670 patent/US7424428B2/en not_active Expired - Lifetime
- 2002-01-08 AT AT02729484T patent/ATE365362T1/de not_active IP Right Cessation
- 2002-01-08 JP JP2002556389A patent/JP2004518195A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1996013030A2 (en) * | 1994-10-25 | 1996-05-02 | British Telecommunications Public Limited Company | Voice-operated services |
DE19842151A1 (de) * | 1998-09-15 | 2000-03-23 | Philips Corp Intellectual Pty | Verfahren zur Adaption von linguistischen Sprachmodellen |
Non-Patent Citations (1)
Title |
---|
ATTWATER, D.J., WHITTAKER, S.J., "Issues in large vocabulary interactive speech systems", in: BT Technology Journal 14 (1996), No. 1, S. 177-186, Juni 1996 * |
Also Published As
Publication number | Publication date |
---|---|
EP1352390B1 (de) | 2007-06-20 |
DE60220763T2 (de) | 2008-03-06 |
US7424428B2 (en) | 2008-09-09 |
EP1352390A2 (de) | 2003-10-15 |
ATE365362T1 (de) | 2007-07-15 |
US20040034518A1 (en) | 2004-02-19 |
WO2002056199A3 (en) | 2002-12-05 |
WO2002056199A2 (en) | 2002-07-18 |
DE60220763D1 (de) | 2007-08-02 |
JP2004518195A (ja) | 2004-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE10100725C1 (de) | Automatisches Dialogsystem mit Datenbanksprachmodell | |
DE69525178T2 (de) | Ansagedienste mit spracheingabe | |
DE69839068T2 (de) | System und Verfahren zur automatischen Verarbeitung von Anruf und Datenübertragung | |
DE10220524B4 (de) | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache | |
DE102009045187B4 (de) | System und Verfahren zum Kommunizieren mit Telefonagenten in einem automatisierten Call Center | |
EP1927980B1 (de) | Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen | |
DE69822296T2 (de) | Mustererkennungsregistrierung in einem verteilten system | |
DE60222093T2 (de) | Verfahren, modul, vorrichtung und server zur spracherkennung | |
DE69922872T2 (de) | Automatischer Hotelportier mit Spracherkennung | |
EP0802522B1 (de) | Anordnung und Verfahren zur Aktionsermittlung, sowie Verwendung der Anordnung und des Verfahrens | |
WO1998010413A1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
DE10220521B4 (de) | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen | |
DE19933524A1 (de) | Verfahren zur Eingabe von Daten in ein System | |
WO2006111230A1 (de) | Verfahren zur gezielten ermittlung eines vollständigen eingabedatensatzes in einem sprachdialogsystem | |
DE60128372T2 (de) | Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem | |
DE60214850T2 (de) | Für eine benutzergruppe spezifisches musterverarbeitungssystem | |
EP1282897B1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
EP3152753B1 (de) | Assistenzsystem, das mittels spracheingaben steuerbar ist, mit einer funktionseinrichtung und mehreren spracherkennungsmodulen | |
EP0987682A2 (de) | Verfahren zur Adaption von linguistischen Sprachmodellen | |
DE10060654C1 (de) | Verfahren und Vorrichtung zur automatischen Auskunfterteilung mittels einer Suchmaschine | |
DE10220522B4 (de) | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse | |
EP1251680A1 (de) | Sprachgesteuerter Verzeichnisdienst für Verbindung an ein Datennetzwerk | |
DE102015212650B4 (de) | Verfahren und System zum rechnergestützten Verarbeiten einer Spracheingabe | |
EP1321851A2 (de) | Verfahren zum Betrieb eines Sprach-Dialogsystems | |
DE60222413T2 (de) | Spracherkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8100 | Publication of patent without earlier publication of application | ||
D1 | Grant (no unexamined application published) patent law 81 | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: PHILIPS INTELLECTUAL PROPERTY & STANDARDS GMBH, 20 |
|
8339 | Ceased/non-payment of the annual fee |