DE19910234A1

DE19910234A1 - Verfahren mit mehreren Spracherkennern

Info

Publication number: DE19910234A1
Application number: DE19910234A
Authority: DE
Inventors: Meinhard Ullrich; Eric Thelen; Stefan Besling
Original assignee: Philips Corporate Intellectual Property GmbH
Current assignee: Nuance Communications Inc
Priority date: 1999-03-09
Filing date: 1999-03-09
Publication date: 2000-09-21
Also published as: KR20010108330A; CN1350685A; AU2672100A; WO2000054252A3; JP2002539481A; EP1163660A2; WO2000054252A2

Abstract

Die Erfindung bezieht sich auf ein Verfahren, bei dem eine eine Spracheingabe ermöglichende Informationseinheit (3) auf einem Server (1) gespeichert und von einem Client (2) abrufbar ist und der Client (2) per Kommunikationsnetzwerk (6) mit mehreren Spracherkennern (7-9) koppelbar ist und eine von einem Benutzer abgegebene Spracheingabe wenigstens einem Spracherkenner (7-9) zur Erzeugung wenigstens eines Erkennungsergebnisses (11-13) zugeführt wird und das Erkennungsergebnis (11-13) in mehreren unabhängigen Prozessen interpretiert wird und mehrere Interpretationsergebnisse (22-24) erzeugt werden, die einem Benutzer ausgegeben werden. Damit werden dem Benutzer in kurzer Zeit mehrere qualifizierte Informationen übermittelt, für die er sonst mehrmals eine per Spracheingabe eingegebene Anfrage in Datenbanken hätte vornehmen müssen.

Description

Die Erfindung bezieht sich auf ein Verfahren, bei dem eine eine Spracheingabe ermög lichende Informationseinheit auf einem Server gespeichert und von einem Client abrufbar ist.

Die Möglichkeit, eine Kommunikation mit einem Computer per Spracheingabe statt per Tastatur oder Maus vorzunehmen, erleichtert dem Benutzer den Umgang mit Computern und erhöht oft die Schnelligkeit bei der Eingabe. Spracherkennung kann in vielen Berei chen eingesetzt werden, in denen heute eine Eingabe per Tastatur erfolgt.

In der EP 0872 827 wird ein System und ein Verfahren zur Spracherkennung beschrieben. Ein Client, auf dem eine eingeschränkte Software zur Spracherkennung ausgeführt wird, wird über ein Netzwerk mit einem Spracherkennungsserver verbunden.

Der Client sendet dem Spracherkennungsserver die Spracherkennungsgrammatik und die Daten der Spracheingabe. Der Spracherkennungsserver führt die Spracherkennung durch und sendet das Erkennungsergebnis an den Client zurück.

Wenn ein Benutzer an Informationen interessiert ist, sucht er an einer ihm bekannten Auskunftstelle nach dieser Information. Daß es mehrere Informationsanbieter für ein betreffendes Gebiet gibt, ist dem Benutzer häufig nicht bekannt. Unterschiedliche Infor mationsanbieter liefern dem Benutzer auf entsprechende Anfragen unterschiedliche Ant worten. Meist weiß der Benutzer jedoch nicht, wo eine weitere Informationsquelle exi stiert. Selbst wenn er es wüßte, müßte er eine erneute Anfrage stellen. Dies ist zeitauf wendig.

Aufgabe der Erfindung ist es deshalb, den Benutzer in kurzer Zeit mit möglichst viel quali fizierten Informationen zu versorgen.

Diese Aufgabe wird dadurch gelöst, daß der Client per Kommunikationsnetzwerk mit mehreren Spracherkennern koppelbar ist und eine Spracheingabe eines Benutzers wenig stens einem Spracherkenner zur Erzeugung eines Erkennungsergebnisses zugeführt wird und das Erkennungsergebnis in mehreren unabhängigen Prozessen interpretiert wird und mehrere Interpretationsergebnisse erzeugt werden, die an den Benutzer ausgegeben werden.

Auf einem Server wird von einem Anbieter eine Informationseinheit abgespeichert, die eine Eingabe per Sprache ermöglicht. Ein Client lädt von diesem Server die eine Sprach eingabe ermöglichende Informationseinheit. Ein Server ist ein Computer innerhalb eines Kommunikationsnetzwerkes, beispielsweise dem Internet, auf dem Informationen von Anbietern gespeichert und von Clients abrufbar sind. Ein Client ist ein Computer, der zum Abruf von Informationen aus dem Internet mit einem Server verbunden wird und die Informationseinheit, die auf dem Server abgespeichert ist, herunterlädt, um sie mittels einer Software darzustellen. Diese Informationseinheit wird vom Client ausgegeben, so daß der Benutzer den Inhalt dieser Informationseinheit wahrnehmen kann. Der Benutzer wird entweder von der Informationseinheit aufgefordert eine Spracheingabe abzugeben oder ist durch häufiges Aufrufen dieser Informationseinheit über die Spracheingabemöglichkeit informiert. Nachdem der Benutzer eine Spracheingabe abgegeben hat, wird diese einem oder mehreren Spracherkennern zugeführt. Die einzelnen Spracherkenner nehmen eine Spracherkennung vor und erzeugen jeweils ein Erkennungsergebnis. Diese mehreren Er kennungsergebnisse werden jeweils einer Interpretation unterzogen. Mit den Erkennungs ergebnissen werden in unabhängigen Prozessen Interpretationsergebnisse erzeugt. Für eine Interpretation eines Erkennungsergebnisses wird das Erkennungsergebnis analysiert. Dafür wird das Erkennungsergebnis in seine Bestandteile zerlegt und beispielsweise nach Schlüs selwörtern durchsucht. Dabei werden Bestandteile des Erkennungsergebnisses, die für eine spätere Anfrage uninteressant sind, weggelassen. Die Analyse kann vom Spracherkenner oder von einer Datenbank durchgeführt werden. Zur Analyse des Erkennungsergebnisses ist es deshalb erforderlich, Informationen über den Inhalt der Spracheingabe zu haben. Ein möglicher Inhalt der Spracheingabe wird durch den Inhalt der Informationseinheit festge legt. Mittels dieser Analyse wird eine Anfrage für einen Datenbestand erzeugt. Diese An frage wird dann zu unterschiedlichen Datenbanken gesendet, die darauf mehrere unab hängig erzeugte Interpretationsergebnisse liefern. Ein wichtiger Aspekt mit entscheidendem Einfluß auf die Qualität der Antwort auf die vom Benutzer getätigte Spracheingabe ist der Datenbestand, der zur Auffindung einer Antwort auf eine Anfrage herangezogen wird. Die Zahl unabhängiger Datenbanken steigt ständig. Außerdem existieren umfassende Daten banken von Firmen, die ebenso zur Auffindung einer Antwort beitragen können. Diese unterschiedlichen Datenbestände werden durch eine Zuweisung der Erkennungsergebnisse zu den Datenbanken zur mehrfachen Interpretation in die Auffindung von Antworten ein gebunden.

Die Spracherkennung zur Erzeugung des Erkennungsergebnisses kann hierbei mit unter schiedlich hohem Aufwand betrieben werden. Spracherkenner unterscheiden sich nicht nur im Umfang und der Spezialisierung des Vokabulars, sondern auch in den Algorithmen, mit denen sie die Spracherkennung vornehmen. Eine gute Datenbankanfrage setzt eine gute Erkennung dieser per Spracheingabe vom Benutzer getätigten Anfrage voraus.

Die Interpretationsergebnisse werden entweder automatisch vom Spracherkenner oder der Datenbank zum Client zurückgesendet oder durch den Server bereitgestellt, so daß sich der Benutzer die einzelnen Interpretationsergebnisse bei Bedarf abrufen kann. In beiden Fällen werden die Interpretationsergebnisse in einer Form vom Client ausgegeben, die der Be nutzer wahrnehmen kann.

Durch die Verknüpfung der Informationseinheit mit einem oder mehreren Spracher kennern wird dem Benutzer eine mehrfache Antwort für seine per Spracheingabe getätigte Anfrage geliefert. Dadurch erhält er Informationen, für die er ohne dieses Verfahren mehrere Anfragen mit erheblichem Zeitaufwand starten müßte.

Abgesehen von unterschiedlichen Erkennungsergebnissen bei der Spracherkennung werden durch das unabhängige Interpretieren der einzelnen Erkennungsergebnisse, basierend auf unterschiedlichen Datenbeständen, unterschiedliche Interpretationsergebnisse erzeugt, die jeweils eine Antwort auf die vom Benutzer eingegebene Spracheingabe geben. Bei einer einmaligen Interpretation der Spracheingabe würden entweder nur eine begrenzte Menge der wahrscheinlichsten Antworten auf die Anfrage an den Client zurückgesendet werden oder dem Benutzer würden Antworten gegeben, die mit ihrem Inhalt weit von der Anfrage entfernt sind. Durch das mehrfache Interpretieren eines oder mehrerer Erkennungsergeb nisse wird dem Benutzer innerhalb der gleichen Zeit wenigstens die doppelte Menge an Informationen mitgeteilt.

Bei der Zuordnung der Spracheingabe zu nur einem Spracherkenner wird das Erkennungs ergebnis mehreren Interpretationsprozessen zugeführt, die alle ein Interpretationsergebnis liefern, welches jeweils dem Client zurückgesendet oder von ihm abgerufen wird und so dem Benutzer auf seine Anfrage eine mehrfache Antwort unterbreiten.

In einer weiteren Ausgestaltung der Erfindung erweist es sich als vorteilhaft, eine Vorverar beitung der Spracheingabe auf der Clientseite vorzunehmen. Dazu wird auf dem Client beim Laden der Informationseinheit eine Zusatzsoftware gestartet, die eine Extraktion der Merkmale der Spracheingabe vornimmt. Die als elektrisches Signal vorliegende Sprachein gabe wird von dieser Zusatzsoftware digitalisiert, quantisiert und entsprechenden Analysen unterzogen, die Komponenten liefern, die Merkmalsvektoren zugeordnet werden. Diese Merkmalsvektoren werden dann zu dem gekoppelten Spracherkenner übertragen. Der Spracherkenner nimmt die rechenintensive Erkennung vor. Durch die auf dem Client durchgeführte Extraktion der Merkmale wird die Spracheingabe komprimiert und codiert, so daß die Menge der zu übertragenden Daten verringert wird. Außerdem wird der zeit liche Aufwand für die Merkmalsextraktion auf die Clientseite verlagert, so daß der Sprach erkenner nur noch die Erkennung der ihm zugeführten Merkmalsvektoren vornimmt. Bei häufig benutzten Spracherkennern kann diese Verlagerung vorteilhaft sein. Bei Zuordnung der Spracheingabe zu mehreren Spracherkennern ergibt sich der Vorteil, daß die Vorverar beitung nur einmal vorgenommen werden muß. Ohne die Extraktion der Merkmale auf det Clientseite würde jeder beauftrage Spracherkenner eine derartige Extraktion vor nehmen.

Als weitere Ausgestaltung der Erfindung wird vorgeschlagen, daß der Client die Informa tionseinheit als HTML-Seite (Hyper Text Markup Language) vom Server lädt. Diese HTML Seite wird von einem auf dem Client ausgeführten Web-Browser dargestellt. Der Client baut eine Verbindung mittels eines Links zum Server auf, auf dem die den Benutzer interessierende HTML-Seite abgespeichert ist. Die HTML-Seite kann neben darzustel lendem Text, auch Graphiksymbole, Audio und/oder Videodaten enthalten. Die HTML- Seite fordert durch einen Hinweis den Benutzer auf, eine Spracheingabe vorzunehmen. Nachdem der Benutzer diese Spracheingabe abgegeben hat, wird diese Spracheingabe vom Client an einen oder mehrere Spracherkenner weitergeleitet. Dort wird jeweils eine Sprach erkennung vorgenommen. Die Qualität des Erkennungsergebnisses hängt dabei in ent scheidenem Maße von der Spezialisierung des Spracherkenners ab. Spracherkenner arbei ten mit einem bestimmten endlichen Vokabular, welches meist auf spezielle Anwendungs gebiete begrenzt ist. Deshalb ist es für ein verwertbares Erkennungsergebnis wichtig, daß die Spracherkenner, zu denen die Spracheingabe weitergeleitet wird, entsprechend speziali siert sind. Das Erkennungsergebnis oder gegebenenfalls mehrere Erkennungsergebnisse werden je einem Prozeß zur Interpretation unterzogen. Dafür wird beispielsweise die er kannte Spracheingabe für eine Datenbank analysiert und anhand dieser Analyse eine An frage an den Datenbestand dieser Datenbank vorgenommen. Das daraus resultierende Interpretationsergebnis wird an den Client automatisch zurückgesendet oder von ihm abgerufen und dort mittels des Web- Browsers dargestellt. Der Benutzer kann nun unter den unterschiedlichen Interpretationsergebnissen auswählen. Dieser Vorgang ist vergleich bar mit dem Nachschlagen in unterschiedlichen Lexika, mit dem Vorteil der Zeitein sparung.

In einer weiteren Ausgestaltung der Erfindung ist vorgesehen, mehrere Objekte, z. B. Werbeanzeigen von Firmen, auf einer HTML-Seite darzustellen, die je eine Spracheingabe ermöglichen. Jedem Objekt ist ein über das Kommunikationsnetzwerk verbundener Spracherkenner zugeordnet, zu dem die vom Benutzer abgegebene Spracheingabe gesendet wird. Die Spracherkenner nehmen die Spracherkennung vor und führen die einzelnen Erkennungsergebnisse unabhängigen Interpretationsprozessen zu. Die an den Client zu rückgesendeten oder von ihm abgerufenen Interpretationsergebnisse werden dem Benutzer in Form von graphischer Darstellung oder als Audiosignal dargeboten.

Falls die Objekte, die beispielsweise als Werbebanner realisiert sein können, von Firmen geschaltet werden, die auf gleichen Geschäftsfeldern tätig sind, werden einem Benutzer durch die Spracheingabe und deren mehrfachen parallelen Verarbeitung, z. B. mehrere Angebote der konkurrierenden Firmen unterbreitet.

Bei Werbebannern von nicht konkurrierenden Firmen, die auf einer HTML-Seite darge stellt werden, wird eine Spracheingabe eines Benutzers, die sich auf ein spezifisches Werbe banner bezieht, mittels Anklicken des Werbebanners mit der Maus oder durch Blickpunkt verfolgung des Benutzers oder durch Prioritätenvergabe unter den mehreren Sprachein gabenmöglichkeiten der einzelnen Objekte, an den diesem Objekt zugeordneten Spracher kenner weitergeleitet. Dabei erweist es sich als vorteilhaft, entweder die Spracheingabe oder die vorgearbeitete Spracheingabe in einem auf dem Client befindlichen Speicher abzu speichern, oder das Erkennungsergebnis an den Client zurückzusenden, so daß der Be nutzer für einen weiteren Interpretationsvorgang dieses schon vorhandene Zwischener gebnis nutzen kann. Die gespeicherte Spracheingabe oder das Erkennungsergebnis werden dann im Falle einer gespeicherten Spracheingabe an einen anderen Spracherkenner oder im Falle eines gespeicherten Erkennungsergebnisses an eine andere Datenbank geleitet, um mit weiteren Interpretationen die Erzeugung von weiteren Interpretationsergebnissen vor nehmen zu können.

Bei einer weiteren Ausgestaltung wird unter mehreren vom Web Browser dargestellten Objekten, die eine Spracheingabe ermöglichen, eine Auswahl getroffen. Der Benutzer wählt aus der Gesamtmenge der dargestellten Objekte beispielsweise durch Anklicken mit der Maus einige Objekte aus. Eine Spracheingabe wird dann nur zu den Spracherkennern dieser ausgewählten Objekte gesendet.

In einer weiteren Ausgestaltung der Erfindung ist vorgesehen, daß ein Server jedem Objekt eine Zusatzinformation in Form eines HTML-Tags zur Verknüpfung des Objekts mit einem Spracherkenner zuweist. Dadurch wird dem Objekt schon beim Laden der HTML- Seite mitgeteilt, zu welchem Spracherkenner im Internet die Spracheingabe zur Verarbei tung gesendet werden soll.

Außerdem kann mit dieser Zusatzinformation auch eine Zuweisung der Datenbanken erfolgen, auf denen die Interpretation der Erkennungsergebnisse erfolgen soll. Dadurch wird vom Anbieter der HTML-Seite festgelegt, zu welcher Datenbank das Erkennungser gebnis oder die Anfrage zu senden ist.

Eine weitere vorteilhafte Ausgestaltung der Erfindung ergibt sich aus der Möglichkeit, dem Spracherkenner die Entscheidung zu überlassen, zu welchen Datenbanken das Erken nungsergebnis gesendet wird. Dadurch wird eine Verschiebung der Entscheidung erreicht, auf welcher Datenbank die Anfrage des Benutzers bearbeitet werden soll. Wenn der Anbie ter der HTML-Seite, der dem entsprechendem Objekt den Spracherkenner zuweist, nicht auf dem aktuellsten Stand bezüglich der Datenbanken ist, der Betreiber der Spracherken ner darüber jedoch informiert ist und dieser die Datenbanken zuweist, wird die Qualität der Antwort auf die Anfrage dadurch erhöht.

Bei einer HTML-Seite die über Neuerscheinungen von Büchern informiert und auf der mehrere Werbebanner von unterschiedlichen Verlagen geschaltet sind, kann der von den Verlagen unabhängige Anbieter dieser HTML-Seite ein Erkennungsergebnis aus einer An frage eines Benutzers über Neuerscheinungen auf einem entsprechenden Gebiet an alle Datenbanken senden, die ihm zur Verfügung stehen. Der Benutzer erhält dadurch schnell und umfassend Informationen über Neuerscheinungen von Büchern aus einem entspre chenden Gebiet.

Außerdem wird die Aufgabe auch noch durch einen Server gelöst, auf dem eine Informa tionseinheit gespeichert ist, die von einem Client abrufbar ist, wobei vorgesehen ist,

- daß der Client mit einem oder mehreren Spracherkennern zur Erzeugung von mehreren einem Benutzer ausgegebenen Interpretationsergebnissen koppelbar ist und,
- eine Spracheingabe wenigstens einem Spracherkenner zur Erzeugung von Erkennungs ergebnissen zuzuführen und die Erkennungsergebnisse in mehreren unabhängigen Prozessen zu interpretieren und
- daß zur Bestimmung einer Verknüpfung von einem eine Spracheingabe ermögli chenden Objekt mit einem Spracherkenner zur Erzeugung eines Erkennungser gebnisses eine Zuweisung einer Zusatzinformation zum Objekt erfolgt.

Ausführungsbeispiele der Erfindung werden im folgenden anhand der Zeichnungen näher erläutert. Es zeigen.

Fig. 1 Blockschaltbild für eine Anordnung zur Ausführung des erfindungs gemäßen Verfahrens

Fig. 2 Blockschaltbild für das erfindungsgemäße Verfahren mit einem Spracher kenner

Fig. 3 Blockschaltbild für das erfindungsgemäße Verfahren mit parallelen Sprach erkennern

Fig. 4 Blockschaltbild für das erfindungsgemäße Verfahren mit parallelen Sprach erkennern mit integrierter Datenbank.

In Fig. 1 ist beispielhaft eine Anordnung zur Durchführung des erfindungsgemäßen Verfahrens dargestellt. Auf einem Server 1 ist eine Informationseinheit 3 abgespeichert. Der Server 1 ist über ein Kommunikationsnetzwerk 6 mit einem Client 2 koppelbar. Über dieses Kommunikationsnetzwerk 6, im folgenden Internet 6, sind Spracherkenner 7-9 mit dem Client 2 koppelbar. Ebenfalls über das Internet 6 sind Datenbanken 5 mit dem Client 2, mit den Spracherkennern 7-9 und dem Server 1 koppelbar.

Die Informationseinheit 3 ist vom einem Anbieter auf dem Server 1 abgespeichert, um einem Benutzer Informationen, beispielsweise über diesen Anbieter, zugänglich zu machen. Die Informationseinheit 3 enthält neben einem darzustellenden Inhalt und Formatierungsbefehlen eine Zusatzinformation 4. Der Benutzer lädt sich eine ihn interes sierende Informationseinheit 3, im folgenden als HTML-Seite 3 bezeichnet, von dem Server 1. Dazu wird eine auf dem TCP/IP-Protokoll basierende Verbindung zum Server 1 aufgebaut. Auf dem Client 2 wird eine Software ausgeführt, die beispielsweise durch einen Web-Browser realisiert sein kann und mit der dem Benutzer die HTML-Seite 3 angezeigt wird. Im Client 2 ist ein Speicher 25 angeordnet in dem eine vom Benutzer geäußerte Spracheingabe oder ein von einem Spracherkenner 7-9 zurückgesendetes Erkennungser gebnis gespeichert wird.

In Fig. 2 ist die Informationseinheit 3 dargestellt, die dem Benutzer eine Interaktivität in Form eine Spracheingabemöglichkeit bietet. Die Objekte 19, 20 und 21 sind Werbe banner, die dem Benutzer beispielsweise Anzeigen von Autohäusern offerieren.

Desweiteren zeigen sie dem Benutzer an, daß diese HTML-Seite 3 eine Möglichkeit zur Spracheingabe bietet, indem der Benutzer beispielsweise durch blinkenden Text aufgefor dert wird - z. B. "Sagen Sie uns, welches Auto Sie interessiert" -, eine Spracheingabe zu äußern. In diesem Ausführungsbeispiel erwarten alle drei Werbebanner 19, 20 und 21 eine ähnliche Spracheingabe. Deshalb wird die Spracheingabe an nur einen Spracherkenner 7 über das Internet 6 weitergeleitet. Der Benutzer kann, um beispielsweise weiter nach einem Auto zu suchen, ihn interessierende Begriffe oder Wortgruppen sprechen, die dem Client 2 mittels eines Eingabegerätes 10 zugeführt werden und an den Spracherkenner 7 weiterge leitet werden. Mit einer nicht dargestellten Zusatzsoftware kann eine Extraktion der Merk male einer Spracheingabe auf dem Client 2 vorgenommen werden, so daß dem Spracher kenner 7 nur noch die in Merkmalsvektoren angeordneten Merkmale der Spracheingabe in komprimierter Form übermittelt werden. Der Spracherkenner 7 nimmt die Spracherken nung vor und erzeugt ein Erkennungsergebnis 11. Dieses Erkennungsergebnis 11 wird analysiert und als Anfrage vom Spracherkenner 7 jeweils an die Datenbanken 14, 15 und 16 gesendet. Die Anfragen, die in diesem Fall an die Datenbanken 14, 15 und 16 gesendet werden, sind die gleichen.

Die Datenbanken können sich auch auf dem gleichen Server befinden, wie der Spracher kenner 7. Es ist aber ebenso denkbar, die Anfragen an Datenbanken zu schicken, die sich auf unterschiedlichen Servern befinden. Dabei ist zu bemerken, daß der Spracherkenner 7 dem Anbieter der HTML-Seite 3 gehört oder von diesem gemietet ist. Da der Anbieter weiß, daß auf dieser HTML-Seite 3 nach Autos gefragt wird, wird der Client zur Erken nung det Spracheingabe mit einem spezialisierten Spracherkenner verbunden. Die Daten bank 14 enthält Daten aus dem Bestand des Autohauses von Werbebanner 19. Datenbank 15 enthält Daten vom Autohaus mit Werbebanner 20 und die Datenbank 16 vom Auto haus von Werbebanner 21. Die Datenbanken 14, 15 und 16 werden daraufhin nach Infor mationen durchsucht, die der Anfrage weitestgehend entsprechen. Dieser Vorgang wird auch als Interpretation bezeichnet. Die Datenbanken 14, 15 und 16 liefern jeweils ein Interpretationsergebnis 22, 23 und 24, welches nach einer Übertragung über das Internet 6 auf dem Client 2 dargestellt wird. Dabei wird mit dem Interpretationsergebnis 22 dem Benutzer ein Angebot vom Autohaus mit Werbebanner 19, mit dem Interpretationsergeb nis 23 ein Angebot vom Autohaus mit Werbebanner 20 und mit dem Interpretationsergeb nis 24 ein Angebot vom Autohaus mit Werbebanner 21 unterbreitet.

Dem Benutzer werden auf diesem Wege Informationen aus drei verschiedenen Daten banken 14-16 zur Verfügung gestellt. Er bekommt jetzt beispielsweise je ein Angebot über ein Auto aus dem Bestand der Firma mit Werbebanner 19, eines der Firma mit Werbe banner 20 und eines Angebot der Firma mit Werbebanner 21.

Die Information, zu welchen Spracherkennern und/oder Datenbanken eine Spracheingabe und/oder Erkennungsergebnis weitergeleitet werden soll, wird vom Anbieter der HTML- Seite vergeben, wobei dieser die Information vom Auftraggeber für die Werbebanner erhält.

Der Anbieter der HTML-Seite kann Informationen, die zur Analyse eines Erkennungser gebnisses wichtig sind, an die Spracherkenner oder Datenbanken übergeben.

Mit dem Speicher 25 wird die Anordnung insofern erweitert, daß bei nacheinanderfol genden Anfragen die Spracheingabe in dem Speicher 25 gespeichert wird. Es ist auch möglich das schon einmal erzeugte Erkennungsergebnis in diesem Speicher 25 zu spei chern. Der Benutzer kann in diesem Fall bei mehreren Datenbanken nacheinander Anfra gen starten, ohne jedesmal die Spracheingabe oder auch die Spracherkennung zu wieder holen.

In Fig. 3 wird eine Anordnung für ein Verfahren dargestellt, bei dem eine Spracheingabe an drei verschiedene Spracherkenner 7, 8 und 9 weitergeleitet wird. Dabei wird der Be nutzer von den Objekten 19, 20 und 21 in entsprechender Weise aufgefordert, eine Spracheingabe zu äußern. Diese Spracheingabe wird zur Erzeugung je eines Erkennungs ergebnisses 11, 12 und 13 an die Spracherkenner 7, 8 und 9 weitergeleitet. Die Spracher kenner 7-9 analysieren die Erkennungsergebnisse 11, 12 und 13 und bereiten je eine An frage für die Datenbanken 14, 15 und 16 vor. Da sich einerseits die Erkennungsergebnisse 11, 12 und 13 voneinander unterscheiden, da sie von unterschiedlichen Spracherkennern 7-9 erzeugt wurden und andererseits mit diesen unterschiedlichen Erkennungsergebnissen 11, 12 und 13 unterschiedliche Anfragen bei der Analyse erzeugt werden, die unterschied lichen Datenbanken 14, 15 und 16 zugeführt werden, erhält der Benutzer mit den nach Übertragung auf den Client 2 zurückgesendeten Interpretationsergebnissen 22, 23 und 24 drei auf unterschiedlichen Datenbeständen basierende Antworten.

Wenn die Analyse der Erkennungsergebnisse nicht im Spracherkenner, sondern in der Datenbank durchgeführt wird, ergibt sich eine weitere Ausgestaltung. Dabei können die Datenbanken 14-16 die Analysen der einzelnen Erkennungsergebnisse 11, 12 und 13 nach Stichwörtern durchführen, die speziell in ihrem Datenbestand vertreten sind.

In Fernsehprogrammen werden einzelne Rubriken bei den einzelnen Sendern unterschied lich bezeichnet. So könnte z. B. bei einem Sender die Rubrik "Kinderfilme" bei einem an deren Sender mit Trickfilmen bezeichnet werden. Sagt ein Benutzer nun, daß er einen Trickfilm sehen möchte, wird diese Spracheingabe von dem zugeordneten Spracherkenner erkannt und in der entsprechenden Datenbank ähnlich interpretiert, so daß dem Benutzer letztendlich von beiden Sendern die als Trick- oder Kinderfilme bezeichneten Filme ange zeigt werden.

In Fig. 4 ist eine Anordnung dargestellt, bei der die Datenbänke 14-16 in die Spracher kenner 7-9 integriert sind. Bei kleinerer Datenbeständen ist es möglich die Datenbänke 14-16 in den jeweiligen Spracherkenner 7-9 zu integrieren. Außerdem ist hier dargestellt, die Verbindung der einzelnen Werbebanner 19-21 mit den dazugehörigen Interpretations ergebnissen 22-24 mit den dazugehörigen Datenbanken 14-16 bidirektional zu gestalten. Es ist möglich, daß eine Antwort auf eine Anfrage in einer der Datenbank 14-1 G so um fangreich ist, daß eine Darstellung des Interpretationsergenisses 22-24 auf dem Client nicht sinnvoll ist. In einem solchen Fall wird beispielsweise nur die Anzahl der gefundenen Antworten auf die Spracheingabe zum Client zurückgesendet und dargestellt. Wenn der Benutzer nun die Interpretationsergebnisse 21 der Firma mit beispielsweise Werbebanner 19 sehen möchte, kann er diese anfordern und von der Datenbank 14 abrufen. Diese werden dann auf dem Client 2 dargestellt.

Claims

1. Verfahren bei dem eine eine Spracheingabe ermöglichende Informationseinheit (3) auf einem Server (1) gespeichert und von einem Client (2) abrufbar ist und der Client (2) per Kommunikationsnetzwerk (6) mit mehreren Spracherkennern (7-9) koppelbar ist und eine Spracheingabe eines Benutzers wenigstens einem Spracherkenner (7-9) zur Erzeugung eines Erkennungsergebnisses (11-13) zugeführt wird und das Erkennungsergebnis (11-13) in mehreren unabhängigen Prozessen interpretiert wird und mehrere Interpretationsergebnisse (22-24) erzeugt werden, die an den Benutzer ausgegeben werden.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Interpretationsergebnisse (22-24) an den Client (2) automatisch zurückgesendet oder von diesem abgerufen werden.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Spracheingabe mehreren Spracherkennern (7-9) parallel zur Erzeugung von Erkennungsergebnissen (11-13) zugeführt wird.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß auf dem Client (2) eine Zusatzsoftware zur Extraktion von Merkmalen der Spracheingabe ausgeführt wird und dem/den zugeordneten Spracherkenner(n) (7-9) die extrahierten Merkmale zugeführt werden.

5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Informationseinheit (3) als HTML-Seite (3) realisiert ist und sich auf einer HTML-Seite (3) mehrere Objekte (19-21) befinden, die eine Spracheingabe ermöglichen, wobei jedes Objekt (19-21) mit einem Spracherkenner (7-9) verknüpft ist.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß den Objekten (19-21) vom Server (1) eine Zusatzinformation (4) zur Verknüpfung der Objekte (19-21) mit jeweils einem der Spracherkenner (7-9) zugewiesen wird.

7. Verfahren nach einem oder mehreren der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß eine Spracheingabe oder das Erkennungsergebnis (11-13) in einem Speicher (25) zwischengespeichert werden, um mehrere Interpretationsprozesse auf der Basis der zwischengespeicherten Daten nacheinander vorzunehmen.

8. Server (1), auf dem eine eine Spracheingabe ermöglichende Informationseinheit (3) gespeichert ist, die von einem Client (2) abrufbar ist, wobei vorgesehen ist,

- daß der Client (2) mit einem oder mehreren Spracherkennern (7-9) zur Erzeugung von mehreren einem Benutzer ausgegebenen Interpretationsergebnissen (11-13) koppelbar ist und
- eine Spracheingabe wenigstens einem Spracherkenner (7-9) zur Erzeugung von Erkennungsergebnissen (11-13) zuzuführen und die Erkennungsergebnisse (11-13) in mehreren unabhängigen Prozessen zu interpretieren und
- daß zur Bestimmung einer Verknüpfung von einem eine Spracheingabe ermöglichenden Objekt mit einem Spracherkenner (7-9) zur Erzeugung eines Erkennungsergebnisses (11-13) eine Zuweisung einer Zusatzinformation (4) zum Objekt (19-21) erfolgt.