DE19910234A1 - Verfahren mit mehreren Spracherkennern - Google Patents
Verfahren mit mehreren SpracherkennernInfo
- Publication number
- DE19910234A1 DE19910234A1 DE19910234A DE19910234A DE19910234A1 DE 19910234 A1 DE19910234 A1 DE 19910234A1 DE 19910234 A DE19910234 A DE 19910234A DE 19910234 A DE19910234 A DE 19910234A DE 19910234 A1 DE19910234 A1 DE 19910234A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- client
- user
- voice input
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000004891 communication Methods 0.000 claims abstract description 7
- 238000001514 detection method Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 230000004397 blinking Effects 0.000 description 1
- 244000309464 bull Species 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Computer And Data Communications (AREA)
Abstract
Die Erfindung bezieht sich auf ein Verfahren, bei dem eine eine Spracheingabe ermöglichende Informationseinheit (3) auf einem Server (1) gespeichert und von einem Client (2) abrufbar ist und der Client (2) per Kommunikationsnetzwerk (6) mit mehreren Spracherkennern (7-9) koppelbar ist und eine von einem Benutzer abgegebene Spracheingabe wenigstens einem Spracherkenner (7-9) zur Erzeugung wenigstens eines Erkennungsergebnisses (11-13) zugeführt wird und das Erkennungsergebnis (11-13) in mehreren unabhängigen Prozessen interpretiert wird und mehrere Interpretationsergebnisse (22-24) erzeugt werden, die einem Benutzer ausgegeben werden. Damit werden dem Benutzer in kurzer Zeit mehrere qualifizierte Informationen übermittelt, für die er sonst mehrmals eine per Spracheingabe eingegebene Anfrage in Datenbanken hätte vornehmen müssen.
Description
Die Erfindung bezieht sich auf ein Verfahren, bei dem eine eine Spracheingabe ermög
lichende Informationseinheit auf einem Server gespeichert und von einem Client abrufbar
ist.
Die Möglichkeit, eine Kommunikation mit einem Computer per Spracheingabe statt per
Tastatur oder Maus vorzunehmen, erleichtert dem Benutzer den Umgang mit Computern
und erhöht oft die Schnelligkeit bei der Eingabe. Spracherkennung kann in vielen Berei
chen eingesetzt werden, in denen heute eine Eingabe per Tastatur erfolgt.
In der EP 0872 827 wird ein System und ein Verfahren zur Spracherkennung beschrieben.
Ein Client, auf dem eine eingeschränkte Software zur Spracherkennung ausgeführt wird,
wird über ein Netzwerk mit einem Spracherkennungsserver verbunden.
Der Client sendet dem Spracherkennungsserver die Spracherkennungsgrammatik und die
Daten der Spracheingabe. Der Spracherkennungsserver führt die Spracherkennung durch
und sendet das Erkennungsergebnis an den Client zurück.
Wenn ein Benutzer an Informationen interessiert ist, sucht er an einer ihm bekannten
Auskunftstelle nach dieser Information. Daß es mehrere Informationsanbieter für ein
betreffendes Gebiet gibt, ist dem Benutzer häufig nicht bekannt. Unterschiedliche Infor
mationsanbieter liefern dem Benutzer auf entsprechende Anfragen unterschiedliche Ant
worten. Meist weiß der Benutzer jedoch nicht, wo eine weitere Informationsquelle exi
stiert. Selbst wenn er es wüßte, müßte er eine erneute Anfrage stellen. Dies ist zeitauf
wendig.
Aufgabe der Erfindung ist es deshalb, den Benutzer in kurzer Zeit mit möglichst viel quali
fizierten Informationen zu versorgen.
Diese Aufgabe wird dadurch gelöst, daß der Client per Kommunikationsnetzwerk mit
mehreren Spracherkennern koppelbar ist und eine Spracheingabe eines Benutzers wenig
stens einem Spracherkenner zur Erzeugung eines Erkennungsergebnisses zugeführt wird
und das Erkennungsergebnis in mehreren unabhängigen Prozessen interpretiert wird und
mehrere Interpretationsergebnisse erzeugt werden, die an den Benutzer ausgegeben
werden.
Auf einem Server wird von einem Anbieter eine Informationseinheit abgespeichert, die
eine Eingabe per Sprache ermöglicht. Ein Client lädt von diesem Server die eine Sprach
eingabe ermöglichende Informationseinheit. Ein Server ist ein Computer innerhalb eines
Kommunikationsnetzwerkes, beispielsweise dem Internet, auf dem Informationen von
Anbietern gespeichert und von Clients abrufbar sind. Ein Client ist ein Computer, der
zum Abruf von Informationen aus dem Internet mit einem Server verbunden wird und die
Informationseinheit, die auf dem Server abgespeichert ist, herunterlädt, um sie mittels
einer Software darzustellen. Diese Informationseinheit wird vom Client ausgegeben, so daß
der Benutzer den Inhalt dieser Informationseinheit wahrnehmen kann. Der Benutzer wird
entweder von der Informationseinheit aufgefordert eine Spracheingabe abzugeben oder ist
durch häufiges Aufrufen dieser Informationseinheit über die Spracheingabemöglichkeit
informiert. Nachdem der Benutzer eine Spracheingabe abgegeben hat, wird diese einem
oder mehreren Spracherkennern zugeführt. Die einzelnen Spracherkenner nehmen eine
Spracherkennung vor und erzeugen jeweils ein Erkennungsergebnis. Diese mehreren Er
kennungsergebnisse werden jeweils einer Interpretation unterzogen. Mit den Erkennungs
ergebnissen werden in unabhängigen Prozessen Interpretationsergebnisse erzeugt. Für eine
Interpretation eines Erkennungsergebnisses wird das Erkennungsergebnis analysiert. Dafür
wird das Erkennungsergebnis in seine Bestandteile zerlegt und beispielsweise nach Schlüs
selwörtern durchsucht. Dabei werden Bestandteile des Erkennungsergebnisses, die für eine
spätere Anfrage uninteressant sind, weggelassen. Die Analyse kann vom Spracherkenner
oder von einer Datenbank durchgeführt werden. Zur Analyse des Erkennungsergebnisses
ist es deshalb erforderlich, Informationen über den Inhalt der Spracheingabe zu haben. Ein
möglicher Inhalt der Spracheingabe wird durch den Inhalt der Informationseinheit festge
legt. Mittels dieser Analyse wird eine Anfrage für einen Datenbestand erzeugt. Diese An
frage wird dann zu unterschiedlichen Datenbanken gesendet, die darauf mehrere unab
hängig erzeugte Interpretationsergebnisse liefern. Ein wichtiger Aspekt mit entscheidendem
Einfluß auf die Qualität der Antwort auf die vom Benutzer getätigte Spracheingabe ist der
Datenbestand, der zur Auffindung einer Antwort auf eine Anfrage herangezogen wird. Die
Zahl unabhängiger Datenbanken steigt ständig. Außerdem existieren umfassende Daten
banken von Firmen, die ebenso zur Auffindung einer Antwort beitragen können. Diese
unterschiedlichen Datenbestände werden durch eine Zuweisung der Erkennungsergebnisse
zu den Datenbanken zur mehrfachen Interpretation in die Auffindung von Antworten ein
gebunden.
Die Spracherkennung zur Erzeugung des Erkennungsergebnisses kann hierbei mit unter
schiedlich hohem Aufwand betrieben werden. Spracherkenner unterscheiden sich nicht
nur im Umfang und der Spezialisierung des Vokabulars, sondern auch in den Algorithmen,
mit denen sie die Spracherkennung vornehmen. Eine gute Datenbankanfrage setzt eine
gute Erkennung dieser per Spracheingabe vom Benutzer getätigten Anfrage voraus.
Die Interpretationsergebnisse werden entweder automatisch vom Spracherkenner oder der
Datenbank zum Client zurückgesendet oder durch den Server bereitgestellt, so daß sich der
Benutzer die einzelnen Interpretationsergebnisse bei Bedarf abrufen kann. In beiden Fällen
werden die Interpretationsergebnisse in einer Form vom Client ausgegeben, die der Be
nutzer wahrnehmen kann.
Durch die Verknüpfung der Informationseinheit mit einem oder mehreren Spracher
kennern wird dem Benutzer eine mehrfache Antwort für seine per Spracheingabe getätigte
Anfrage geliefert. Dadurch erhält er Informationen, für die er ohne dieses Verfahren
mehrere Anfragen mit erheblichem Zeitaufwand starten müßte.
Abgesehen von unterschiedlichen Erkennungsergebnissen bei der Spracherkennung werden
durch das unabhängige Interpretieren der einzelnen Erkennungsergebnisse, basierend auf
unterschiedlichen Datenbeständen, unterschiedliche Interpretationsergebnisse erzeugt, die
jeweils eine Antwort auf die vom Benutzer eingegebene Spracheingabe geben. Bei einer
einmaligen Interpretation der Spracheingabe würden entweder nur eine begrenzte Menge
der wahrscheinlichsten Antworten auf die Anfrage an den Client zurückgesendet werden
oder dem Benutzer würden Antworten gegeben, die mit ihrem Inhalt weit von der Anfrage
entfernt sind. Durch das mehrfache Interpretieren eines oder mehrerer Erkennungsergeb
nisse wird dem Benutzer innerhalb der gleichen Zeit wenigstens die doppelte Menge an
Informationen mitgeteilt.
Bei der Zuordnung der Spracheingabe zu nur einem Spracherkenner wird das Erkennungs
ergebnis mehreren Interpretationsprozessen zugeführt, die alle ein Interpretationsergebnis
liefern, welches jeweils dem Client zurückgesendet oder von ihm abgerufen wird und so
dem Benutzer auf seine Anfrage eine mehrfache Antwort unterbreiten.
In einer weiteren Ausgestaltung der Erfindung erweist es sich als vorteilhaft, eine Vorverar
beitung der Spracheingabe auf der Clientseite vorzunehmen. Dazu wird auf dem Client
beim Laden der Informationseinheit eine Zusatzsoftware gestartet, die eine Extraktion der
Merkmale der Spracheingabe vornimmt. Die als elektrisches Signal vorliegende Sprachein
gabe wird von dieser Zusatzsoftware digitalisiert, quantisiert und entsprechenden Analysen
unterzogen, die Komponenten liefern, die Merkmalsvektoren zugeordnet werden. Diese
Merkmalsvektoren werden dann zu dem gekoppelten Spracherkenner übertragen. Der
Spracherkenner nimmt die rechenintensive Erkennung vor. Durch die auf dem Client
durchgeführte Extraktion der Merkmale wird die Spracheingabe komprimiert und codiert,
so daß die Menge der zu übertragenden Daten verringert wird. Außerdem wird der zeit
liche Aufwand für die Merkmalsextraktion auf die Clientseite verlagert, so daß der Sprach
erkenner nur noch die Erkennung der ihm zugeführten Merkmalsvektoren vornimmt. Bei
häufig benutzten Spracherkennern kann diese Verlagerung vorteilhaft sein. Bei Zuordnung
der Spracheingabe zu mehreren Spracherkennern ergibt sich der Vorteil, daß die Vorverar
beitung nur einmal vorgenommen werden muß. Ohne die Extraktion der Merkmale auf
det Clientseite würde jeder beauftrage Spracherkenner eine derartige Extraktion vor
nehmen.
Als weitere Ausgestaltung der Erfindung wird vorgeschlagen, daß der Client die Informa
tionseinheit als HTML-Seite (Hyper Text Markup Language) vom Server lädt. Diese
HTML Seite wird von einem auf dem Client ausgeführten Web-Browser dargestellt. Der
Client baut eine Verbindung mittels eines Links zum Server auf, auf dem die den Benutzer
interessierende HTML-Seite abgespeichert ist. Die HTML-Seite kann neben darzustel
lendem Text, auch Graphiksymbole, Audio und/oder Videodaten enthalten. Die HTML-
Seite fordert durch einen Hinweis den Benutzer auf, eine Spracheingabe vorzunehmen.
Nachdem der Benutzer diese Spracheingabe abgegeben hat, wird diese Spracheingabe vom
Client an einen oder mehrere Spracherkenner weitergeleitet. Dort wird jeweils eine Sprach
erkennung vorgenommen. Die Qualität des Erkennungsergebnisses hängt dabei in ent
scheidenem Maße von der Spezialisierung des Spracherkenners ab. Spracherkenner arbei
ten mit einem bestimmten endlichen Vokabular, welches meist auf spezielle Anwendungs
gebiete begrenzt ist. Deshalb ist es für ein verwertbares Erkennungsergebnis wichtig, daß
die Spracherkenner, zu denen die Spracheingabe weitergeleitet wird, entsprechend speziali
siert sind. Das Erkennungsergebnis oder gegebenenfalls mehrere Erkennungsergebnisse
werden je einem Prozeß zur Interpretation unterzogen. Dafür wird beispielsweise die er
kannte Spracheingabe für eine Datenbank analysiert und anhand dieser Analyse eine An
frage an den Datenbestand dieser Datenbank vorgenommen. Das daraus resultierende
Interpretationsergebnis wird an den Client automatisch zurückgesendet oder von ihm
abgerufen und dort mittels des Web- Browsers dargestellt. Der Benutzer kann nun unter
den unterschiedlichen Interpretationsergebnissen auswählen. Dieser Vorgang ist vergleich
bar mit dem Nachschlagen in unterschiedlichen Lexika, mit dem Vorteil der Zeitein
sparung.
In einer weiteren Ausgestaltung der Erfindung ist vorgesehen, mehrere Objekte, z. B.
Werbeanzeigen von Firmen, auf einer HTML-Seite darzustellen, die je eine Spracheingabe
ermöglichen. Jedem Objekt ist ein über das Kommunikationsnetzwerk verbundener
Spracherkenner zugeordnet, zu dem die vom Benutzer abgegebene Spracheingabe gesendet
wird. Die Spracherkenner nehmen die Spracherkennung vor und führen die einzelnen
Erkennungsergebnisse unabhängigen Interpretationsprozessen zu. Die an den Client zu
rückgesendeten oder von ihm abgerufenen Interpretationsergebnisse werden dem Benutzer
in Form von graphischer Darstellung oder als Audiosignal dargeboten.
Falls die Objekte, die beispielsweise als Werbebanner realisiert sein können, von Firmen
geschaltet werden, die auf gleichen Geschäftsfeldern tätig sind, werden einem Benutzer
durch die Spracheingabe und deren mehrfachen parallelen Verarbeitung, z. B. mehrere
Angebote der konkurrierenden Firmen unterbreitet.
Bei Werbebannern von nicht konkurrierenden Firmen, die auf einer HTML-Seite darge
stellt werden, wird eine Spracheingabe eines Benutzers, die sich auf ein spezifisches Werbe
banner bezieht, mittels Anklicken des Werbebanners mit der Maus oder durch Blickpunkt
verfolgung des Benutzers oder durch Prioritätenvergabe unter den mehreren Sprachein
gabenmöglichkeiten der einzelnen Objekte, an den diesem Objekt zugeordneten Spracher
kenner weitergeleitet. Dabei erweist es sich als vorteilhaft, entweder die Spracheingabe oder
die vorgearbeitete Spracheingabe in einem auf dem Client befindlichen Speicher abzu
speichern, oder das Erkennungsergebnis an den Client zurückzusenden, so daß der Be
nutzer für einen weiteren Interpretationsvorgang dieses schon vorhandene Zwischener
gebnis nutzen kann. Die gespeicherte Spracheingabe oder das Erkennungsergebnis werden
dann im Falle einer gespeicherten Spracheingabe an einen anderen Spracherkenner oder im
Falle eines gespeicherten Erkennungsergebnisses an eine andere Datenbank geleitet, um
mit weiteren Interpretationen die Erzeugung von weiteren Interpretationsergebnissen vor
nehmen zu können.
Bei einer weiteren Ausgestaltung wird unter mehreren vom Web Browser dargestellten
Objekten, die eine Spracheingabe ermöglichen, eine Auswahl getroffen. Der Benutzer
wählt aus der Gesamtmenge der dargestellten Objekte beispielsweise durch Anklicken mit
der Maus einige Objekte aus. Eine Spracheingabe wird dann nur zu den Spracherkennern
dieser ausgewählten Objekte gesendet.
In einer weiteren Ausgestaltung der Erfindung ist vorgesehen, daß ein Server jedem Objekt
eine Zusatzinformation in Form eines HTML-Tags zur Verknüpfung des Objekts mit
einem Spracherkenner zuweist. Dadurch wird dem Objekt schon beim Laden der HTML-
Seite mitgeteilt, zu welchem Spracherkenner im Internet die Spracheingabe zur Verarbei
tung gesendet werden soll.
Außerdem kann mit dieser Zusatzinformation auch eine Zuweisung der Datenbanken
erfolgen, auf denen die Interpretation der Erkennungsergebnisse erfolgen soll. Dadurch
wird vom Anbieter der HTML-Seite festgelegt, zu welcher Datenbank das Erkennungser
gebnis oder die Anfrage zu senden ist.
Eine weitere vorteilhafte Ausgestaltung der Erfindung ergibt sich aus der Möglichkeit, dem
Spracherkenner die Entscheidung zu überlassen, zu welchen Datenbanken das Erken
nungsergebnis gesendet wird. Dadurch wird eine Verschiebung der Entscheidung erreicht,
auf welcher Datenbank die Anfrage des Benutzers bearbeitet werden soll. Wenn der Anbie
ter der HTML-Seite, der dem entsprechendem Objekt den Spracherkenner zuweist, nicht
auf dem aktuellsten Stand bezüglich der Datenbanken ist, der Betreiber der Spracherken
ner darüber jedoch informiert ist und dieser die Datenbanken zuweist, wird die Qualität
der Antwort auf die Anfrage dadurch erhöht.
Bei einer HTML-Seite die über Neuerscheinungen von Büchern informiert und auf der
mehrere Werbebanner von unterschiedlichen Verlagen geschaltet sind, kann der von den
Verlagen unabhängige Anbieter dieser HTML-Seite ein Erkennungsergebnis aus einer An
frage eines Benutzers über Neuerscheinungen auf einem entsprechenden Gebiet an alle
Datenbanken senden, die ihm zur Verfügung stehen. Der Benutzer erhält dadurch schnell
und umfassend Informationen über Neuerscheinungen von Büchern aus einem entspre
chenden Gebiet.
Außerdem wird die Aufgabe auch noch durch einen Server gelöst, auf dem eine Informa
tionseinheit gespeichert ist, die von einem Client abrufbar ist, wobei vorgesehen ist,
- - daß der Client mit einem oder mehreren Spracherkennern zur Erzeugung von mehreren einem Benutzer ausgegebenen Interpretationsergebnissen koppelbar ist und,
- - eine Spracheingabe wenigstens einem Spracherkenner zur Erzeugung von Erkennungs ergebnissen zuzuführen und die Erkennungsergebnisse in mehreren unabhängigen Prozessen zu interpretieren und
- - daß zur Bestimmung einer Verknüpfung von einem eine Spracheingabe ermögli chenden Objekt mit einem Spracherkenner zur Erzeugung eines Erkennungser gebnisses eine Zuweisung einer Zusatzinformation zum Objekt erfolgt.
Ausführungsbeispiele der Erfindung werden im folgenden anhand der Zeichnungen näher
erläutert. Es zeigen.
Fig. 1 Blockschaltbild für eine Anordnung zur Ausführung des erfindungs
gemäßen Verfahrens
Fig. 2 Blockschaltbild für das erfindungsgemäße Verfahren mit einem Spracher
kenner
Fig. 3 Blockschaltbild für das erfindungsgemäße Verfahren mit parallelen Sprach
erkennern
Fig. 4 Blockschaltbild für das erfindungsgemäße Verfahren mit parallelen Sprach
erkennern mit integrierter Datenbank.
In Fig. 1 ist beispielhaft eine Anordnung zur Durchführung des erfindungsgemäßen
Verfahrens dargestellt. Auf einem Server 1 ist eine Informationseinheit 3 abgespeichert.
Der Server 1 ist über ein Kommunikationsnetzwerk 6 mit einem Client 2 koppelbar. Über
dieses Kommunikationsnetzwerk 6, im folgenden Internet 6, sind Spracherkenner 7-9 mit
dem Client 2 koppelbar. Ebenfalls über das Internet 6 sind Datenbanken 5 mit dem Client
2, mit den Spracherkennern 7-9 und dem Server 1 koppelbar.
Die Informationseinheit 3 ist vom einem Anbieter auf dem Server 1 abgespeichert, um
einem Benutzer Informationen, beispielsweise über diesen Anbieter, zugänglich zu
machen. Die Informationseinheit 3 enthält neben einem darzustellenden Inhalt und
Formatierungsbefehlen eine Zusatzinformation 4. Der Benutzer lädt sich eine ihn interes
sierende Informationseinheit 3, im folgenden als HTML-Seite 3 bezeichnet, von dem
Server 1. Dazu wird eine auf dem TCP/IP-Protokoll basierende Verbindung zum Server 1
aufgebaut. Auf dem Client 2 wird eine Software ausgeführt, die beispielsweise durch einen
Web-Browser realisiert sein kann und mit der dem Benutzer die HTML-Seite 3 angezeigt
wird. Im Client 2 ist ein Speicher 25 angeordnet in dem eine vom Benutzer geäußerte
Spracheingabe oder ein von einem Spracherkenner 7-9 zurückgesendetes Erkennungser
gebnis gespeichert wird.
In Fig. 2 ist die Informationseinheit 3 dargestellt, die dem Benutzer eine Interaktivität in
Form eine Spracheingabemöglichkeit bietet. Die Objekte 19, 20 und 21 sind Werbe
banner, die dem Benutzer beispielsweise Anzeigen von Autohäusern offerieren.
Desweiteren zeigen sie dem Benutzer an, daß diese HTML-Seite 3 eine Möglichkeit zur
Spracheingabe bietet, indem der Benutzer beispielsweise durch blinkenden Text aufgefor
dert wird - z. B. "Sagen Sie uns, welches Auto Sie interessiert" -, eine Spracheingabe zu
äußern. In diesem Ausführungsbeispiel erwarten alle drei Werbebanner 19, 20 und 21 eine
ähnliche Spracheingabe. Deshalb wird die Spracheingabe an nur einen Spracherkenner 7
über das Internet 6 weitergeleitet. Der Benutzer kann, um beispielsweise weiter nach einem
Auto zu suchen, ihn interessierende Begriffe oder Wortgruppen sprechen, die dem Client 2
mittels eines Eingabegerätes 10 zugeführt werden und an den Spracherkenner 7 weiterge
leitet werden. Mit einer nicht dargestellten Zusatzsoftware kann eine Extraktion der Merk
male einer Spracheingabe auf dem Client 2 vorgenommen werden, so daß dem Spracher
kenner 7 nur noch die in Merkmalsvektoren angeordneten Merkmale der Spracheingabe in
komprimierter Form übermittelt werden. Der Spracherkenner 7 nimmt die Spracherken
nung vor und erzeugt ein Erkennungsergebnis 11. Dieses Erkennungsergebnis 11 wird
analysiert und als Anfrage vom Spracherkenner 7 jeweils an die Datenbanken 14, 15 und
16 gesendet. Die Anfragen, die in diesem Fall an die Datenbanken 14, 15 und 16 gesendet
werden, sind die gleichen.
Die Datenbanken können sich auch auf dem gleichen Server befinden, wie der Spracher
kenner 7. Es ist aber ebenso denkbar, die Anfragen an Datenbanken zu schicken, die sich
auf unterschiedlichen Servern befinden. Dabei ist zu bemerken, daß der Spracherkenner 7
dem Anbieter der HTML-Seite 3 gehört oder von diesem gemietet ist. Da der Anbieter
weiß, daß auf dieser HTML-Seite 3 nach Autos gefragt wird, wird der Client zur Erken
nung det Spracheingabe mit einem spezialisierten Spracherkenner verbunden. Die Daten
bank 14 enthält Daten aus dem Bestand des Autohauses von Werbebanner 19. Datenbank
15 enthält Daten vom Autohaus mit Werbebanner 20 und die Datenbank 16 vom Auto
haus von Werbebanner 21. Die Datenbanken 14, 15 und 16 werden daraufhin nach Infor
mationen durchsucht, die der Anfrage weitestgehend entsprechen. Dieser Vorgang wird
auch als Interpretation bezeichnet. Die Datenbanken 14, 15 und 16 liefern jeweils ein
Interpretationsergebnis 22, 23 und 24, welches nach einer Übertragung über das Internet 6
auf dem Client 2 dargestellt wird. Dabei wird mit dem Interpretationsergebnis 22 dem
Benutzer ein Angebot vom Autohaus mit Werbebanner 19, mit dem Interpretationsergeb
nis 23 ein Angebot vom Autohaus mit Werbebanner 20 und mit dem Interpretationsergeb
nis 24 ein Angebot vom Autohaus mit Werbebanner 21 unterbreitet.
Dem Benutzer werden auf diesem Wege Informationen aus drei verschiedenen Daten
banken 14-16 zur Verfügung gestellt. Er bekommt jetzt beispielsweise je ein Angebot über
ein Auto aus dem Bestand der Firma mit Werbebanner 19, eines der Firma mit Werbe
banner 20 und eines Angebot der Firma mit Werbebanner 21.
Die Information, zu welchen Spracherkennern und/oder Datenbanken eine Spracheingabe
und/oder Erkennungsergebnis weitergeleitet werden soll, wird vom Anbieter der HTML-
Seite vergeben, wobei dieser die Information vom Auftraggeber für die Werbebanner
erhält.
Der Anbieter der HTML-Seite kann Informationen, die zur Analyse eines Erkennungser
gebnisses wichtig sind, an die Spracherkenner oder Datenbanken übergeben.
Mit dem Speicher 25 wird die Anordnung insofern erweitert, daß bei nacheinanderfol
genden Anfragen die Spracheingabe in dem Speicher 25 gespeichert wird. Es ist auch
möglich das schon einmal erzeugte Erkennungsergebnis in diesem Speicher 25 zu spei
chern. Der Benutzer kann in diesem Fall bei mehreren Datenbanken nacheinander Anfra
gen starten, ohne jedesmal die Spracheingabe oder auch die Spracherkennung zu wieder
holen.
In Fig. 3 wird eine Anordnung für ein Verfahren dargestellt, bei dem eine Spracheingabe
an drei verschiedene Spracherkenner 7, 8 und 9 weitergeleitet wird. Dabei wird der Be
nutzer von den Objekten 19, 20 und 21 in entsprechender Weise aufgefordert, eine
Spracheingabe zu äußern. Diese Spracheingabe wird zur Erzeugung je eines Erkennungs
ergebnisses 11, 12 und 13 an die Spracherkenner 7, 8 und 9 weitergeleitet. Die Spracher
kenner 7-9 analysieren die Erkennungsergebnisse 11, 12 und 13 und bereiten je eine An
frage für die Datenbanken 14, 15 und 16 vor. Da sich einerseits die Erkennungsergebnisse
11, 12 und 13 voneinander unterscheiden, da sie von unterschiedlichen Spracherkennern
7-9 erzeugt wurden und andererseits mit diesen unterschiedlichen Erkennungsergebnissen
11, 12 und 13 unterschiedliche Anfragen bei der Analyse erzeugt werden, die unterschied
lichen Datenbanken 14, 15 und 16 zugeführt werden, erhält der Benutzer mit den nach
Übertragung auf den Client 2 zurückgesendeten Interpretationsergebnissen 22, 23 und 24
drei auf unterschiedlichen Datenbeständen basierende Antworten.
Wenn die Analyse der Erkennungsergebnisse nicht im Spracherkenner, sondern in der
Datenbank durchgeführt wird, ergibt sich eine weitere Ausgestaltung. Dabei können die
Datenbanken 14-16 die Analysen der einzelnen Erkennungsergebnisse 11, 12 und 13 nach
Stichwörtern durchführen, die speziell in ihrem Datenbestand vertreten sind.
In Fernsehprogrammen werden einzelne Rubriken bei den einzelnen Sendern unterschied
lich bezeichnet. So könnte z. B. bei einem Sender die Rubrik "Kinderfilme" bei einem an
deren Sender mit Trickfilmen bezeichnet werden. Sagt ein Benutzer nun, daß er einen
Trickfilm sehen möchte, wird diese Spracheingabe von dem zugeordneten Spracherkenner
erkannt und in der entsprechenden Datenbank ähnlich interpretiert, so daß dem Benutzer
letztendlich von beiden Sendern die als Trick- oder Kinderfilme bezeichneten Filme ange
zeigt werden.
In Fig. 4 ist eine Anordnung dargestellt, bei der die Datenbänke 14-16 in die Spracher
kenner 7-9 integriert sind. Bei kleinerer Datenbeständen ist es möglich die Datenbänke 14-16
in den jeweiligen Spracherkenner 7-9 zu integrieren. Außerdem ist hier dargestellt, die
Verbindung der einzelnen Werbebanner 19-21 mit den dazugehörigen Interpretations
ergebnissen 22-24 mit den dazugehörigen Datenbanken 14-16 bidirektional zu gestalten.
Es ist möglich, daß eine Antwort auf eine Anfrage in einer der Datenbank 14-1 G so um
fangreich ist, daß eine Darstellung des Interpretationsergenisses 22-24 auf dem Client
nicht sinnvoll ist. In einem solchen Fall wird beispielsweise nur die Anzahl der gefundenen
Antworten auf die Spracheingabe zum Client zurückgesendet und dargestellt. Wenn der
Benutzer nun die Interpretationsergebnisse 21 der Firma mit beispielsweise Werbebanner
19 sehen möchte, kann er diese anfordern und von der Datenbank 14 abrufen. Diese
werden dann auf dem Client 2 dargestellt.
Claims (8)
1. Verfahren bei dem eine eine Spracheingabe ermöglichende Informationseinheit (3) auf
einem Server (1) gespeichert und von einem Client (2) abrufbar ist und der Client (2) per
Kommunikationsnetzwerk (6) mit mehreren Spracherkennern (7-9) koppelbar ist und eine
Spracheingabe eines Benutzers wenigstens einem Spracherkenner (7-9) zur Erzeugung
eines Erkennungsergebnisses (11-13) zugeführt wird und das Erkennungsergebnis (11-13)
in mehreren unabhängigen Prozessen interpretiert wird und mehrere
Interpretationsergebnisse (22-24) erzeugt werden, die an den Benutzer ausgegeben werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
daß die Interpretationsergebnisse (22-24) an den Client (2) automatisch zurückgesendet
oder von diesem abgerufen werden.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet,
daß die Spracheingabe mehreren Spracherkennern (7-9) parallel zur Erzeugung von
Erkennungsergebnissen (11-13) zugeführt wird.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet,
daß auf dem Client (2) eine Zusatzsoftware zur Extraktion von Merkmalen der
Spracheingabe ausgeführt wird und dem/den zugeordneten Spracherkenner(n) (7-9) die
extrahierten Merkmale zugeführt werden.
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
daß die Informationseinheit (3) als HTML-Seite (3) realisiert ist und sich auf einer
HTML-Seite (3) mehrere Objekte (19-21) befinden, die eine Spracheingabe ermöglichen,
wobei jedes Objekt (19-21) mit einem Spracherkenner (7-9) verknüpft ist.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet,
daß den Objekten (19-21) vom Server (1) eine Zusatzinformation (4) zur Verknüpfung
der Objekte (19-21) mit jeweils einem der Spracherkenner (7-9) zugewiesen wird.
7. Verfahren nach einem oder mehreren der Ansprüche 1 bis 6, dadurch gekennzeichnet,
daß eine Spracheingabe oder das Erkennungsergebnis (11-13) in einem Speicher (25)
zwischengespeichert werden, um mehrere Interpretationsprozesse auf der Basis der
zwischengespeicherten Daten nacheinander vorzunehmen.
8. Server (1), auf dem eine eine Spracheingabe ermöglichende Informationseinheit (3)
gespeichert ist, die von einem Client (2) abrufbar ist, wobei vorgesehen ist,
- - daß der Client (2) mit einem oder mehreren Spracherkennern (7-9) zur Erzeugung von mehreren einem Benutzer ausgegebenen Interpretationsergebnissen (11-13) koppelbar ist und
- - eine Spracheingabe wenigstens einem Spracherkenner (7-9) zur Erzeugung von Erkennungsergebnissen (11-13) zuzuführen und die Erkennungsergebnisse (11-13) in mehreren unabhängigen Prozessen zu interpretieren und
- - daß zur Bestimmung einer Verknüpfung von einem eine Spracheingabe ermöglichenden Objekt mit einem Spracherkenner (7-9) zur Erzeugung eines Erkennungsergebnisses (11-13) eine Zuweisung einer Zusatzinformation (4) zum Objekt (19-21) erfolgt.
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19910234A DE19910234A1 (de) | 1999-03-09 | 1999-03-09 | Verfahren mit mehreren Spracherkennern |
EP00905058A EP1163660A2 (de) | 1999-03-09 | 2000-02-10 | Mehrere spracherkenner verwendendes verfahren |
AU26721/00A AU2672100A (en) | 1999-03-09 | 2000-02-10 | Method with a plurality of speech recognizers |
JP2000604400A JP2002539481A (ja) | 1999-03-09 | 2000-02-10 | 複数の音声認識器を用いる方法 |
KR1020017011408A KR20010108330A (ko) | 1999-03-09 | 2000-02-10 | 복수의 음성 인식자를 구비한 방법 |
PCT/EP2000/001145 WO2000054252A2 (en) | 1999-03-09 | 2000-02-10 | Method with a plurality of speech recognizers |
CN00807383.XA CN1350685A (zh) | 1999-03-09 | 2000-02-10 | 采用多个语音识别器的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19910234A DE19910234A1 (de) | 1999-03-09 | 1999-03-09 | Verfahren mit mehreren Spracherkennern |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19910234A1 true DE19910234A1 (de) | 2000-09-21 |
Family
ID=7900178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19910234A Withdrawn DE19910234A1 (de) | 1999-03-09 | 1999-03-09 | Verfahren mit mehreren Spracherkennern |
Country Status (7)
Country | Link |
---|---|
EP (1) | EP1163660A2 (de) |
JP (1) | JP2002539481A (de) |
KR (1) | KR20010108330A (de) |
CN (1) | CN1350685A (de) |
AU (1) | AU2672100A (de) |
DE (1) | DE19910234A1 (de) |
WO (1) | WO2000054252A2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10339973A1 (de) * | 2003-08-29 | 2005-03-17 | Daimlerchrysler Ag | Intelligentes akustisches Mikrofon-Frontend mit Spracherkenner-Feedback |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1223984C (zh) * | 2001-06-19 | 2005-10-19 | 英特尔公司 | 基于客户机-服务器的分布式语音识别系统 |
US7133829B2 (en) | 2001-10-31 | 2006-11-07 | Dictaphone Corporation | Dynamic insertion of a speech recognition engine within a distributed speech recognition system |
US7146321B2 (en) | 2001-10-31 | 2006-12-05 | Dictaphone Corporation | Distributed speech recognition system |
US6785654B2 (en) * | 2001-11-30 | 2004-08-31 | Dictaphone Corporation | Distributed speech recognition system with speech recognition engines offering multiple functionalities |
US7292975B2 (en) | 2002-05-01 | 2007-11-06 | Nuance Communications, Inc. | Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription |
US7236931B2 (en) | 2002-05-01 | 2007-06-26 | Usb Ag, Stamford Branch | Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems |
KR100723404B1 (ko) * | 2005-03-29 | 2007-05-30 | 삼성전자주식회사 | 음성 인식 및 반응을 위한 음성 처리 장치와 방법 |
US7822610B2 (en) * | 2005-08-09 | 2010-10-26 | Mobile Voice Control, LLC | Use of multiple speech recognition software instances |
US9152982B2 (en) | 2005-08-19 | 2015-10-06 | Nuance Communications, Inc. | Method of compensating a provider for advertisements displayed on a mobile phone |
US8032372B1 (en) | 2005-09-13 | 2011-10-04 | Escription, Inc. | Dictation selection |
DE102006029755A1 (de) * | 2006-06-27 | 2008-01-03 | Deutsche Telekom Ag | Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung |
CN101853253A (zh) * | 2009-03-30 | 2010-10-06 | 三星电子株式会社 | 在移动终端中管理多媒体内容的设备和方法 |
US8930179B2 (en) * | 2009-06-04 | 2015-01-06 | Microsoft Corporation | Recognition using re-recognition and statistical classification |
CN107767872A (zh) * | 2017-10-13 | 2018-03-06 | 深圳市汉普电子技术开发有限公司 | 语音识别方法、终端设备及存储介质 |
CN108573707B (zh) * | 2017-12-27 | 2020-11-03 | 北京金山云网络技术有限公司 | 一种语音识别结果的处理方法、装置、设备及介质 |
KR102048030B1 (ko) | 2018-03-07 | 2019-11-22 | 구글 엘엘씨 | 자동화 어시스턴트와의 단대단 다국어 통신 촉진 |
US11354521B2 (en) | 2018-03-07 | 2022-06-07 | Google Llc | Facilitating communications with automated assistants in multiple languages |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0830960B2 (ja) * | 1988-12-06 | 1996-03-27 | 日本電気株式会社 | 高速音声認識装置 |
JP3265701B2 (ja) * | 1993-04-20 | 2002-03-18 | 富士通株式会社 | 多判定器によるパターン認識装置 |
JPH10177469A (ja) * | 1996-12-16 | 1998-06-30 | Casio Comput Co Ltd | 移動端末音声認識/データベース検索/リソースアクセス通信システム |
JPH10214258A (ja) * | 1997-01-28 | 1998-08-11 | Victor Co Of Japan Ltd | データ処理システム |
US6122613A (en) * | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
GB2323693B (en) * | 1997-03-27 | 2001-09-26 | Forum Technology Ltd | Speech to text conversion |
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
JP3767091B2 (ja) * | 1997-06-12 | 2006-04-19 | 富士通株式会社 | 画面対話処理装置 |
JPH1145271A (ja) * | 1997-07-28 | 1999-02-16 | Just Syst Corp | 検索条件の入力方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
-
1999
- 1999-03-09 DE DE19910234A patent/DE19910234A1/de not_active Withdrawn
-
2000
- 2000-02-10 KR KR1020017011408A patent/KR20010108330A/ko not_active Application Discontinuation
- 2000-02-10 CN CN00807383.XA patent/CN1350685A/zh active Pending
- 2000-02-10 WO PCT/EP2000/001145 patent/WO2000054252A2/en not_active Application Discontinuation
- 2000-02-10 AU AU26721/00A patent/AU2672100A/en not_active Abandoned
- 2000-02-10 JP JP2000604400A patent/JP2002539481A/ja active Pending
- 2000-02-10 EP EP00905058A patent/EP1163660A2/de not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10339973A1 (de) * | 2003-08-29 | 2005-03-17 | Daimlerchrysler Ag | Intelligentes akustisches Mikrofon-Frontend mit Spracherkenner-Feedback |
US7505901B2 (en) | 2003-08-29 | 2009-03-17 | Daimler Ag | Intelligent acoustic microphone fronted with speech recognizing feedback |
Also Published As
Publication number | Publication date |
---|---|
KR20010108330A (ko) | 2001-12-07 |
CN1350685A (zh) | 2002-05-22 |
AU2672100A (en) | 2000-09-28 |
WO2000054252A3 (en) | 2000-12-28 |
JP2002539481A (ja) | 2002-11-19 |
EP1163660A2 (de) | 2001-12-19 |
WO2000054252A2 (en) | 2000-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19910234A1 (de) | Verfahren mit mehreren Spracherkennern | |
DE60007620T2 (de) | Spracherkennungsverfahren | |
DE69814114T2 (de) | Natürliche sprache verstehendes verfahren und verstehende vorrichung zur sprachsteuerung einer anwendung | |
DE60130880T2 (de) | Web-gestützte spracherkennung durch scripting und semantische objekte | |
DE60015531T2 (de) | Client-server spracherkennungssystem | |
EP1361739A1 (de) | Verfahren und System zur Verarbeitung von Sprachdaten mit vorausgehender Erkennung der Sprache | |
DE102013003055A1 (de) | Verfahren und Vorrichtung zum Durchführen von Suchen in natürlicher Sprache | |
DE60202847T2 (de) | Abfragesystem in natürlicher sprache für den zugriff auf ein informationssystem | |
DE10323444A1 (de) | Verfahren und Vorrichtung zum Kategorisieren und Darstellen von Dokumenten einer verteilten Datenbank | |
DE19706419A1 (de) | Verfahren und Vorrichtung zur Steuerung von Prozessen unter Verwendung einer Technologie zur maschinellen Sprachverarbeitung | |
EP1361737A1 (de) | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen | |
DE60214850T2 (de) | Für eine benutzergruppe spezifisches musterverarbeitungssystem | |
EP1361740A1 (de) | Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs | |
WO2001013362A1 (de) | Verfahren zur unterstützung eines dialogs | |
EP1361738A1 (de) | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse | |
DE60125597T2 (de) | Vorrichtung für die Dienstleistungsvermittlung | |
DE10325998A1 (de) | Verfahren zum Optimieren eines auf eine erste Netzwerkseite verweisenden Verweises | |
DE60201907T2 (de) | Darstellung einer komprimierten liste für sprachgesteuerte benutzerschnittstellen | |
DE19930407A1 (de) | Verfahren zur sprachbasierten Navigation in einem Kommunikationsnetzwerk und zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten | |
EP1363271A1 (de) | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs | |
EP3531300A1 (de) | Computerimplementiertes verfahren zum beschaffen von informationen | |
DE10160920B4 (de) | Verfahren und Vorrichtung zur Erzeugung eines Extrakts von Dokumenten | |
EP3570189B1 (de) | Computerimplementiertes verfahren zum bereitstellen eines adaptiven dialogsystems und ein adaptives dialogsystem | |
DE102005037505B4 (de) | Netzwerk | |
DE19940990C2 (de) | Netzwerk |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8127 | New person/name/address of the applicant |
Owner name: PHILIPS INTELLECTUAL PROPERTY & STANDARDS GMBH, 20 |
|
8127 | New person/name/address of the applicant |
Owner name: SCANSOFT, INC. (N.D.GES.D. STAATES DELAWARE), PEAB |
|
8139 | Disposal/non-payment of the annual fee |