DE2347738A1 - Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben - Google Patents
Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselbenInfo
- Publication number
- DE2347738A1 DE2347738A1 DE19732347738 DE2347738A DE2347738A1 DE 2347738 A1 DE2347738 A1 DE 2347738A1 DE 19732347738 DE19732347738 DE 19732347738 DE 2347738 A DE2347738 A DE 2347738A DE 2347738 A1 DE2347738 A1 DE 2347738A1
- Authority
- DE
- Germany
- Prior art keywords
- word
- matrix
- comparison
- feature
- command word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000011159 matrix material Substances 0.000 claims abstract description 92
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000036962 time dependent Effects 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000005314 correlation function Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 description 14
- 229910003460 diamond Inorganic materials 0.000 description 11
- 239000010432 diamond Substances 0.000 description 11
- 230000003595 spectral effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 239000002131 composite material Substances 0.000 description 7
- 238000010606 normalization Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 241001649081 Dina Species 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000033458 reproduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
Die vorliegende Erfindung betrifft ein Spracherkennungsverfahren gemäß dem Oberbegriff des Hauptanspruches, sowie eine
Vorrichtung zur Durchführung dieses Verfahrens. Die Erfindung beschäftigt sich mit der Spracherkennung und bezieht sich auf
ein Spracherkennungsgerät, insbesondere ein Gerät, das gesprochene Eingabe-, Lehr- oder Übungsworte, sowie ein darauffolgendes
gesprochenes Eingabe-Befehlswort empfängt und eine Korrelationsfunktion bildet, welche die Ähnlichkeit zwischen dem
Befehlswort und jedem Lehrwort anzeigt.
409813/0965
Es wurden bereits verschiedene Anlagen entwickelt, mit denen versucht
wurde, ein begrenztes Vokabular gesprochener ΐ'/orte durch die Analyse der akustischen Vorgänge wiederzuerkennen. Derartige
Anlagen werden typischerweise als nützlich-bei praktischen Anwendungen einer sprachlichen Befehlserteilung erachtet, wobei
nach einer Erkennung spezieller Wörter von der Anlage elektrische Signale erzeugt werden, welche den Betrieb eines zugeordneten
Systems steuern. Eine sprachliche Befehlserteilung ließe sich beispielsweise zur Steuerung eines Förderbandes verwenden, so
daß sich dieses in einer genau vorgegebenen Art bewegt oder es kann zur Steuerung eines Rechners dienen, so daß dieser speziell festgelegte
Rechenoperationen durchführt.
Die bisherigen Bemühungen zur Entwicklung automatischer Spracherkennungsverfahren
erwiesen sich jedoch nur begrenzt als erfolgreich. Sie haben insbesondere dazu geführt, daß man sich über die
ausgesprochen komplexe Natur der Sprachkommunikation klar geworden ist. Die normale Sprache weist einen hohen Informationsgehalt
auf, wobei bemerkenswerte Unterschiede von einer Person zur anderen bestehen und wo auch noch eine gewisse Variation im
gleichen Wort besteht, wenn dieses von dem gleichen Individuum gesprochen wird. Ein perfektes Erkennüngsschema ist daher unerreichbar,
da die Natur der zu erkennenden Sprachsignale nicht exakt definiert werden kann. Dies führte dazu, daß unter den bisherigen
bevorzugten Schematas empirische Annäherungen durchgeführt wurden, welche dazu führten, daß aus statistischer Sicht zumindest
eine passable Zuverlässigkeit erzielt wurde, daß ein spezielles gesprochenes Wort einem ausgewählten Wort von einem begrenzten
Vokabular einer Maschine entspricht. Die Erwünschtheit derartiger Schemata ist daher nicht durch eine theoretische Untersuchung
bestimmbar, sondern vielmehr durch eine gezielte Messung der Erkennbarkeits-Genauigkeit über eine längere Betriebsdauer.
Aus verschiedenen Gründen erwiesen sich die meisten herkömmlichen Systeme für praktische Anwendungsfälle als ungeeignet. Einer der
Hauptgründe hierfür war die völlige Komplizierheit der Ausrüstungen,
mit denen versucht wurde, eine zu genaue Analyse der empfangenen Sprachsignale durchzuführen. Neben den Kosten und der
409813/0965 - 3 -
— "3 -—
dazugehörigen Unzuverlässigkeit zeigen derartige Systeme ein Bestreben außerordentlich komplizierte und restriktive Erkennungskriterien
aufzustellen, durch die es zu einer Zurückweisung von normalen Variationen der Worte von dem Systemvokabular
kommen kann. Umgekehrt ist bei einigen Anordnungen die Erkennung nicht ausreichend, so daß die Kriterien zu leicht erfüllt
werden, was dazu führt, daß auch fremde Worte, die nicht in dem vorher ausgewählten Vokabular der Anordnung enthalten sind,
fälschlicherweise angenommen werden.
Im Hinblick auf die oben erwähnten Nachteile ist es Aufgabe der vorliegenden Erfindung, eine Spracherkennungstechnik in Vorschlag
zu bringen, welche eine bisher noch nicht erreichte Genauigkeit in der Erkennung und keine zu große Komplizierheit
aufweist.
Diese Aufgabe wird durch den Gegenstand des Hauptanspruches gelöst.
Wesentliche Merkmale der Erfindung sind somit darin zu sehen, daß ein Verfahren und eine Vorrichtung in Vorschlag gebracht werden,
bei denen gesprochene Eingabe-, Lehr- oder Übungsworte und darauffolgend ein gesprochenes Eingabe-Befehlswort empfangen
werden und eine Korrelationsfunktion erzeugt wird, welche die Ähnlichkeit von jedem Befehlswort mit jedem Lehrwort anzeigt.
Erfindungsgemäß arbeitet eine Merkmalsauszugseinrichtung die empfangenen Eingabewörter auf und erzeugt digitale Merkmalsausgabesignale
auf speziellen Ausgabeleitungen von einer Anzahl von Merkmalsausgabeleitungen. Eine Einrichtung zur Speicherung
des Zustandes der Merkmalsignale, die während jedes Übungswortes auftreten, als zeitabhängige Matrix ist ferner vorgesehen. Des
weiteren ist eine Einrichtung vorgesehen, um als zeitabhängige Matrix den Zustand der Merkmalssignale zu speichern, der während
des Befehlswortes auftritt. Eine weitere Einrichtung ist vorgesehen, welche dazu dient, um Stück für Stück die Befehls-
40981 3/0965 j, .
234773a
wort-Matrix mit jeder Lehrwort-Matrix zu vergleichen und um
eine Korrelationszahl oder -ziffer zu erzeugen, welche jeden Vergleich wiederspiegelt.
Bei einer bevorzugten Ausführungsform der Erfindung ist eine Einrichtung vorgesehen, welche eine zeitliche Normierung der
Lehrwort- oder Übungswort-Matrizen und der Befehlswort-Matrix vornimmt, bevor die Vergleiche durchgeführt werden.
Die folgende Beschreibung einer bevorzugten Ausführungsform
anhand der beiliegenden Zeichnung dient der weiteren Erläuterung der Erfindung. Darin zeigen:
Fig. 1: ein vereinfachtes Funktions-Blockschema von einer
Ausführungsform der Erfindung;
Fig. 2A: ein Blockschema von einer Vorverarbeitungsschaltung
gemäß dem Stand der Technik;
Fig. 2B: ein Blockschema einer Merkmalsauszugschaltung gemäß
dem Stand der Technik;
Fig. J: eine Darstellung zur Erläuterung des Matrix-Typusses,
der sich aus einer Speicherung des Zustands von Binärmerkmalen ergibt, welche während eines gesprochenen
Eingabewortes entsteht;
Fig. 4: eine Darstellung zur Erläuterung einer typischen normierten
Matrix für ein gesprochenes Eingabewort;
Fig. 5A und 5B: in Längsrichtung untereinander angeordnet,
eine Erläuterung von einem vereinfachten Flußdiagramm oder Befehlsschema von einem Computer-Programm, das
verwendet wird, um verschiedene Funktionen gemäß der vorliegenden Erfindung auszuführen.
- 5 40 9 8 13/0965
DINA INSPECTED
In Pig. 1 ist ein vereinfachtes Punktions-Blockschema einer erfindungsgemäßen
Vorrichtung dargestellt. Gesprochene Eingabeworte, die entweder in die Klasse der sogenannten "Lehr- oder
Übungsworte" oder in die Klasse der "Befehlsworte" fallen, werden von einer Vorverarbeitungsschaltung 5o empfangen, welche
eine Bank von Band -Filtern verwendet, um die Sprache in einer Vielzahl von Spektralkomponentensignale auf Leitungen 5oa
zu übertragen (die hier verwendeten Bezeichnungen "gesprochene Eingabeworte", "gesprochene Worte" und ähnliche Bezeichnungen
dienen dazu, um allgemein irgendwelche akustischen oder elektrischen Wiedergaben von einer Kommunikation dienenden Geräuschen
zu bezeichnen. Die Schaltung 5o ist typischerweise so angepaßt,
daß' sie die Wörter der Kommunikation direkt von einem Individuum empfängt oder daß sie von einem Telefon- oder von einem Bandgerät
elektrische Signale empfängt, welche diesen Worten entsprechen). Die aufgearbeiteten Spektralkomponentensignale auf
den Leitungen 5oa werden von einer Merkmalsauszugsschaltung empfangen,
welche Merkmalsauszugssignale auf speziellen Ausgabeleitungen von einer Anzahl von Merkmalsausgabeleitungen 6oa erzeugen.
Die Signale auf diesen Merkmalsleitungen können beispielsweise
das Vorhandensein von vielfach verwendeten Vokalen- und Konsonantlauten wiedergeben.· Die Schaltungen 5o und 6o können,
wie im folgenden noch näher beschrieben wird, von einer Bauart sein, wie sie von dem Stand der Technik bekannt ist.
Die Merkmalsausgabesignale auf den Leitungen 6oa, welche vorzugsweise
in binärer Form vorliegen, werden von der folgenden Aufbereitungsschaltung empfangen, deren Funktionen allgemein
im Inneren des strichlierten Kästchens 7o liegen. Bei der vor- ■
liegenden Ausführungsform werden die innerhalb des Kästchens dargestellten Funktionen durch eine geeignete Programmierung
eines käuflich erhältlichen Allzweck-Minirechners erfüllt, z.B.
durch das Modell PDP-11 der Firma Digital Equipment Corp. Es ist jedoch ersichtlich, daß auch andere Einrichtungen, wie
ein Spezialrechner oder irgendeine andere Schaltung, welche einen Speicher enthält, zur Erzielung der erwünschten Funktionen
40981 3/0965
verwendet werden kann. Die Zustände, der Merkmalssignale auf
den Leitungen 6oa, welche während eines gesprochenen Eingabewertes
entstehen, werden als zeitabhängige Matrix gespeichert, wie dies durch den Block 71 dargestellt ist. Es war bereits darauf
hingewiesen, daß die gesprochenen Eingabeworte in Lehr- oder Übungsworte sowie in Befehlsworte klassifiziert sind. Die jeweilige
Klassifizierung hängt von dem Betriebszustand der Anordnung ab. Während des Lehr- oder Übungsbetriebszustandes werden
der Anordnung neue Worte nach Art eines Lehr- oder Übungsvorganges eingegeben, welche vorzugsweise von der Person gesprochen
werden, welche später die Maschine während ihres Befehlszustandes verwendet. Bei aktivem Befehlszustand der Maschine erzeugt
diese eine Anzeige, welches vorher gespeicherte Lehroder Übungswort dem gerade gesprochenen Befehlswort am nächsten
kommt.
Bei aktivem Lehr- oder Übungszustand wird die dem empfangenen Eingabe-Übungswort entsprechende Matrix an einer bestimmten
Idresse gespeichert. Diese Funktion wird von dem Block 72 angezeigt.
Während eines typischen Lehr- oder Übungsvorganges werden Lehr- oder Übungswort-Matrizen für so viele Wörter
gespeichert, wie die Anordnung in ihrem Vokabular gleichzeitig handhaben kann. Es ist klar, daß das maximale Vokabular von
der Speicherkapazität und von der möglichen Verarbeitungszeit abhängt. Zu Erläuterungszwecken ist die dargestellte Ausführungsform der Erfindung so ausgebildet, daß sie ein Vokabular von
3o Worten aufweist. Es lassen sich jedoch auch größere Vokabulare
ausführen, wenn dies erwünscht ist. Es werden daher während des Lehr- oder Übungszustandes 30 Matrizen von Übungs- oder
Lehrworten gespeichert.
Bei aktivem Befehlszustand, d.h. bei dem Zustand, der während
der Hauptzeit des Betriebes eingenommen wird, erfolgt die Umwandlung eines gesprochenen Eingabe-Befehlswortes in eine zeitabhängige
Merkmalsmatrix, welche von dem Block 71 wiedergegeben ist. In diesem Falle wird die Befehlswort-Matrix an einer speziellen
Adresse, welche von dem Block 73 wiedergegeben wird,
409813/09 6 5 -7-
gespeichert, an der sie zu einem Vergleich mit jeder der 3o
vorher gespeicherten Übimgs- oder Lehrwort-Matrizen zugänglich
ist. Dieser funktionsmäßig von dem Block 7^ wiedergegebene
Vorgang umfaßt einen Stück-für-Stück-Vergleich der Befehlswort-Matrix
mit jeder Lehr- oder Übungswort-Matrix sowie
die Erzeugung eines' Korrelationswertes für jeden derartigen Vergleich. Die spezielle Lehr- oder Übungswort-Matrix, welche
zu dem größten Korrelationswert führt, wird anschließend als die wahrscheinlichste Übereinstimmung ausgewählt. Weitere im
voraus bestimmte Kriterien werden aufeinanderfolgend verwendet, und sie entscheiden, ob -die Übereinstimmung mit dem speziellen
Lehr- oder Übungswort ausreichend nah ist, um eine Anzeige für dieses Übungswort durchzuführen.
Die Pig. 2A und 2B zeigen im weiteren Einzelheiten der in Fig. 1 dargestellten Vorrichtung. Eine vollständige Beschreibung von
geeigneten'Bauarten einer Vorverarbeitungsschaltung 5o sowie
einer Merkmalsauszugsschaltung 6o lassen sich in einer Veröffentlichung
von T.B. Martin mit der Bezeichnung "Acoustic Recognition of A Limited Vocabulary of Continuous Speech" finden, welche
von University Microfilms, Ann Arbor, Michigan veröffentlicht ist.
Es sollte darauf hingewiesen werden, daß die vorliegende Erfindung
sich in großen Maße mit bereits aufbereiteten MerkmalsSignalen beschäftigt und daß jegliche geeignete Einrichtung zur Erhaltung
dieser Merkmalssignale verwendet werden kann. Der Umfang, in dem in der vorliegenden Darstellung auf die Einzelheiten eingegangen
wird, ist daher auf das begrenzt, was zum vereinfachten Verständnis des erfindungsgemäßen Teiles der Vorrichtung notwendig
!St. ;:
Fig. 2A zeigt ein Blookschema der Vorverarbeitungsschaltung 5o, Ein Meßwertumformer, 51# typiseherweise ein Gradientmikrophon,
empfängt die gesprochenen Eingabewörter und erzeugt den empfangenen
Geräuschen entsprechende zeitabhängige elektrische Signale. Der Ausgang des Meßwertumformers 51 ist über einen Verstärker
an neunzehn aneinander angrenzende Bandpassfilter in einer
Filterbank 53 gekoppelt. Jedes Filter in der Filterbank erzeugt
4 0 9 813/0965
ORIGINAL INSPECTED
ein Ausgangssignal, das zu eineK Teil des Eingabesignals gehört,
welches in dem Frequenzbereich liegt, der von dem speziellen Filter hindurchgelassen wird. Die Mittelfrequenzen der Filter
reichen typischerweise von ungefähr 25° bis 7.5°° Hz, wobei
die geringste Bandbreite ungefähr 15o Hz beträgt.
Das Ausgangssignal von jedem Filter der Bank 53 wird einzeln
an eine Kombination Vollweggleichrichter und einem Tiefpassfilter in einer Verstärker-Tiefpass-Filterbank 54 gekoppelt. Nach
Gleichrichtung und Filterung geben die Ausgangssignale der Bank im wesentlichen die Energieniveaus des Eingangssignals ungefähr
an den Frequenzmitten von jedem der Bandpassfilter in der Bank 53 wieder. Die Signale auf den Leitungen 54a geben in einer anderen
Betrachtungsweise zusammen die Umhüllende des Spektrums, bei dem die Energie gegen die Frequenz aufgetragen ist, von dem
empfangenen Eingangssignal über den interessierenden Frequenzbereich.
Die neunzehn Informationskanäle, an den Leitungen 54a werden logarithmisch
zusammengedrängt, so daß die Spektralkomponentenausgangssignale
auf den Leitungen 5°a der Vorverarbeitungsschaltung
erzeugt werden. Durch das logarithm!sehe Zusammendrängen
wird die folgende Aufbereitung in zweierlei Hinsicht erleichtert. Zum einen wird eine Komprimierung des dynamischen Bereiches
erzielt, welche die konstruktiven Erfordernisse für die Ausbildung der Merkmalsauszugsschaltung 6o vereinfachen. Zum
zweiten lassen sich aufgrund der Verwendung der logarithmischen Einteilung Vergleichsverhältnisse der Spektralkomponentensignale
rasch durch Substraktion ausrechnen. Verhältnisse stellen erwünschte
Ausdrucksmittel für die Verarbeitung von Signalen dar, da sie unabhängig von Änderungen in den Gesamtsignal-Amplituden
sind. Diese Eigenschaft erweist sich insbesondere in einem System als vorteilhaft, bei dem Eingabesignale unterschiedlicher Laut- stärke
erkannt werden sollen.
In dem Diagramm der Fig. 2A wird ein einzelner logarithmischer Verstärker 56 als Multiplex-^erstärker verwendet, um die Notwen-
409813/0965
ORlGiNAL INSPECTED
digkeit einer Verwendung von neunzehn identischen Verstärkern zur Erzielung der erwünschten Einengung zu vermeiden. Die Ausgangssignale
der Leitungen 5^a werden wirksam von einem Multiplexer
55 abgetastet. Diese abgetasteten Signale werden eines nach dem anderen durch den gemeinsam verwendeten Verstärker 56
hindurchgeführt. Ein Demultiplexer 57 "rekonstruiert" dann die eingeengten Spektralkomponenten-Signale auf den Leitungen
5oa aus den verarbeiteten abgetasteten Signalen. Die Abtast frequenz des Multiplexers und Demultiplexers liegt oberhalb
von 1 kH -und ist aus Sicherheitsgründen höher gewählt, als es
notwendig ist, um die Signalbandbreiten der Tiefpassfilter aufrechtzuerhalten. Diese Technik der gemeinsamen Verwendung eines
einzelnen logarithmischen Verstärkers ist an sieh bekannt und beispielsweise in der US-PS 3 588 363 beschrieben, ebenso wie
in der oben erwähnten Publikation von T. Martin.
Es wird ins Gedächtnis zurückgerufen, daß die Spektralkomponenten-Signale
auf den Leitungen 5oa in die Merkmalsauszugsschaltung
60 (Fig. 1) gelangen, welche die Anwesenheit von Eigenschaften der Spektralkomponentensignale ermitteln, die vorgewählten
Eigenschaften oder Merkmalen der Eingabeworte entsprechen. Bei
dem speziellen herkömmlichen System, das zu Erläuterungszwecken
beschrieben wird, erfolgt diese Ermittlung der Eigenschaften oder der sogenannte"Merkmalsauszug" teilweise dadurch, daß man
Größen ableitet, die als "Steilheit" ("slope") und "grobe" Steilheit" ("broad slope") Kennwerte bekannt sind. Diese Größen
zeigen die Polarität und Größe der Steigung der Eingabeumhüllenden, wenn diese über speziell festgelegte Segmente des Frequenzspektrums
genommen wird. Die Art und Weise, auf welche diese Größen gewonnen werden, ist in der oben genannten Beschreibung
und in dem Patent beschrieben.
Fig. 2B zeigt ein Blockschema der Merkmalsauszugsschaltung 60 gemäß dem Stand der Technik, welche die Spektralkomponentensignale
auf den Leitungen 5oa empfängt. Die Schaltung 6o, die ebenfalls
4 09813/0965 - Io -
ORIGINAL INSPECTED
- Io -
234773^
in der oben erwähnten Veröffentlichung und der Patentschrift beschrieben
ist, enthält Logikblöcke 6l und 62, welche Sätze von
Wertender "steilheit" und "groben Steilheit" ableiten, die
von einem "Grobklassenmerkmal" ("broad class feature") Erkennungslogikblock
6^3 empfangen werden. Der Block 63 verwendet
Gruppen von Rechen- oder Funktionsverstärkern und geeignete Anschlußschaltungen,
um "Grobklassenmerkmals-Signale" (broad class
feature) 63a zu erzeugen, die anzeigen, daß bestimmte
grob klassifizierte phonetische Charakteristiken in den Eingabeworten vorliegen. Beispiele für derartige Grobklassifizierungen
sind "vokal/vokal-artig", "Laute oder Stimmen allein"("voicing only"), "Ausbruch oder Explosion" ("burst"), "stimmhaft geräuschartiger
Konsonant" usw. Die Signale 6^a ebenso wie die
Spektralkomponentenslgnale, die "Steilheit" und "grobe Steilheit
"-Signale werden von einem "Grundmerkmal"("basic feature") -Erkennungslogikblock 64 empfangen. Dieser Block, der Komponenten
enthält, die in ihrer Art ähnlich den Komponenten des Blockes 6~5 sind, bewirken die Erzeugung der Merkmals signale,
welche die Anwesenheit von spezifischen phonetischen Merkmalen, z.B. /i/, /s/, /θ/, /J/» der gesprochenen Eingabeworte anzeigen.
Im allgemeinen enthält die hierarchische Struktur einen dazwischenliegenden Logikblock, der "allgemeine Gruppenmerkmale"
(common group features) bildet, z.B. "vorderer Vokal" ("front vowel"), "rückwärtiger Vokal ("back vowel"), "Reibelaute",
"Knack- oder Verschlußkonsonant" usw. Alternativ können auch derartige allgemeine Gruppenmerkmale , auch die spezifischsten
Merkmale sein, welche für eine weitere Verarbeitung, durch die folgende Entscheidungslogik (Fig. 1) gebildet werden. Es wird
klar, daß die vorliegende Erfindung auf die Verarbeitung von verschiedenen Arten von Merkmalssignalen anwendbar ist. Eng
oder fein bzw. scharf definierte phonetische Merkmalssignale erleichtern die Erklärung des folgenden Schaltkreises, weshalb
angenommen wird, daß die digitalen Merkmalssignale auf den Leitungen
60a diese Form aufweisen. Es muß jedoch betont werden, daß- die vorliegende Erfindung nicht auf irgendeine spezielle
Form der Merkmalssignalerzeugung beschränkt ist, so lange die
409813/0965 - 11 -
2347739
gebildeten Merkmale digitaler Art sind.
Bei der hier beschriebenen Ausführungsform werden 32 binäre
Merkmalssignale, welche mit f bis f.,, bezeichnet sind, an J52
getrennten Leitungen 6oA erhalten. Die Merkmalssignale f. bis
f-^ zeigen kontinuierlich die Anwesenheit oder das Fehlen von
einem spezifischen phonetischen Merkmal an, während das Merkmal f die Anwesenheit von irgendwelchen Eingabegeräuschen.oder Tönen
anzeigt, welche Sprache sein können. Die konditionale Ausdrucksweise wird verwendet, da darauffolgend eine Verarbeitung oder
Aufbereitung zur Anwendung kommt, welche dazu dient, ein kurzzeitiges Auftreten von tQ, das mehr Lärm als tatsächliche
Sprache ist, auszuschalten. Bei der vorliegenden Ausführungsform
beträgt die minimale zulässige Dauer für f 25o msek.
Die Computereinrichtung Jo empfängt die Merkmalssignale f bis
F-zTt wie dies in Fig. 1 gezeigt ist. Das allgemeine Merkmal f
für das Vorliegen gesprochener Worte wird vom Computer verwendet, um anzuzeigen, ob eine Notwendigkeit besteht, die spezifischen
Merkmale f., bis f,, zu Überwachen. Aus den folgenden Erläuterungen
wird ferner ersichtlich, daß die Dauer von f vom Computer festgehalten und später als Basis für eine Zeitnormierung der
Merkmalsmatrix der Eingabeworte, verwendet wird. Es sind verschiedene
Techniken bekannt, um ein Merkmal wie f für das Vorliegen eines gesprochenen Wortes zu erzeugen, wobei es am einfachsten
ist, zu dem englischen Wort "OR" alle spezifischen Merkmale zusammen mit der erforderlichen Energieschwelle zu verwenden.
Die Schaltung für die "Erzeugung von f_ ist typischerweise
mit einer inneren Hysterese versehen, d.h. sie schaltet ihre Ausgangsinformation (fQ) nicht ab, bis sie feststellt, daß
für eine vorbestimmte Zeitdauer keine Spracheingabe stattgefunden hat, wobei diese Zeitdauer beispielsweise 2oo msek. beträgt.
Diese Technik ist notwendig, da viele Worte bei ihrer natürlichen Aussprache Pausen einer wesentlichen Dauer enthalten.
Wenn, eine derartige Hysterese nicht vorhanden wäre, würde die Vorrichtung den ersten Teil eines Wortes als vollständiges und
409813/0965 _12_
eigenständiges Wort interpretieren. Das Vorhandensein einer derartigen Hysterese führt jedoch zur Notwendigkeit, daß darauffolgende
Eingabewörter voneinander um mindestens diese vorbestimmte Zeitdauer getrennt sind, wenn sie nicht als ein zusammenhängendes
Wort interpretiert werden sollen.
Wenn von der Computere-inrichtung 70 das Vorhandensein eines
Signales f ermittelt wird, beginnt die Überwachung und Speicherung
von dem Zustand von f^ bis f·^· Wenn f die minimale Zeitschwelle überschreitet, im vorliegenden Falle 25o msek., werden
die Eingabegeräusche oder Töne als ein Wort betrachtet und nicht als Rauschen und die gespeicherte Merkmalsmatrix wird in
der folgenden Weise weiterverarbeitet. Wenn das Ende von f ermittelt
wird, ist die gespeicherte Wortmatrix vollständig. Sie weist eine Dimension von 32 χ T auf, wobei T die Dauer des Wortes
darstellt, d.h. die wahre Dauer von f . Da es möglich ist, daß der wahre Wert fQ zwischen 25o msek. und beispielsweise I.500
msek. variiert,'kann die Matrix eine Gesamtdimension aufweisen, welche von J52 χ 25o bis 32 χ 15oo reicht. Es wird jedoch ersichtlich,
daß die Dauer des Eingabewortes nicht kritisch ist, da die darauffolgende Zeitnormierung vorgenommen wird. Auf diese
Weise wird die Abhängigkeit von der Sprechgeschwindigkeit der jeweiligen Person für das spezielle Eingabewort auf einen minimalen
Wert gebracht.
Pig. 3zeigt den Matrixtypus, der sich aus der Speicherung des Zustandes von den Binär merkmalen ergibt, welche während eines
Eingabewortes auftreten. Bei dem in Fig. 3 gezeigten Beispiel wird zu Erlauterungszwecken angenommen, daß das Eingabewort
eine Zeitdauer von 800 msek. aufweist. Dies bedeutet, daß die resultierende Matrix eine Dimension von 3I x 800 aufweist. Mit
anderen Worten, die Matrix zeichnet das Vorhandensein oder Fehlen von jedem von"Jl Merkmalen über 800 abgetastete Zeitintervalle
(time slots) auf. Wie von den stellvertretend wiedergegebenen Einsern der Figur hervorgeht, welche zu Erlauterungszwecken willkürlich
gegeben sind, treten verschiedene Merkmale über unterschiedliche Zeitintervalle der Gesamtwortdauer auf, wobei ein
409813/0965 -13-
2347733
spezielles Merkmal üblicherweise für eine Anzahl von msek. kontinuierlich
vorhanden ist.
•Das Fehlen einer "l" an einer Matrixstelle bedeutet eine "Q",
d.h. das Fehlen des entsprechenden Merkmals. Die Zeitnormierungsfunktion, welche von dem Computer geliefert wird, reduziert
jede Eingabewort-Matrix auf eine 3X χ ΐβ Matrix, wobei die Zeitachse
auf l6 normalisierte Zeitintervalle reduziert ist. Die Normierung läßt sich auf verschiedene Wege
durchführen, wobei die Technik, welche bei der vorliegenden Ausführungsform
zur Anwendung kommt, eine Auswahl von normierten Zeitperiode.n beinhaltet, welche ein Überwiegen von "Einsern"
enthält. Das arithmetische Verfahren für die Durchführung dieser
Technik i©t für den Computer unkompliziert und enthält grundsätzlich
einfaches Dividieren und Zählen. Bei dem in Fig. 3 gezeigten Beispiel würden erläuterungshalber die 8oo Zeitintervalle für
jedes Merkmal in Gruppen von 5o unterteilt, wie dies durch die
mit B^ bis B^g gekennzeichneten Klammern dargestellt ist. Jede
Klammer enthält 5o Zeitabschnitte, so daß im vorliegenden Beispiel ein speziell normierter Zeitabschnitt für ein Merkmal mit
einer "l" bezeichnet wird, wenn die Klammer wenigstens 2β Einsen
enthält. In Fig. 3 weist das Merkmal f^ ein Überwiegen von Einsen
in der von der Klammer B1^ umfaßten Zeit auf. Der sechzehnte
und letzte normierte Zeitabschnitt für f·, enthält somit eine
"l". Auf diese Weise wird eine vollständig auf 3% χ 1β normierte Matrix gebildet, indem man die Summe der Einsen in jeder
der sechzehn Klammern für jedes der 3^ Merkmale untersucht» In
dem gegebenen Beispiel ist die Gesamtzeit ein exaktes Vielfaches von l6. Für die anderen Fälle ist der Computer so programmiert,
daß er eine Aufteilung von jeglichem Rest unter den Klammern in einer speziell gegebenen Weise durchführt. Wenn beispielsweise
ursprünglich 8o2 Zeitintervalle, d.h. msek. vorhanden waren,
würde jede der 3 ersten Klammern 51 msek. anstatt 5o enthalten,
während der. Rest der Klammern 5o msek» jeweils enthalten wür- _
de. ' . :
4098 13/Ö Ö 65
Pig. 4 zeigt eine typische normierte Matrix eines Eingabewortes,
wobei lediglich die "Einsen" dargestellt sind, während die Nullen durch ein Fehlen der Einsen an der entsprechenden
Matrixstelle wiedergegeben werden.
Die Fig. 5A und 5B zeigen ein vereinfachtes Flußdiagramm des
Computer Programms, das zur Ausführung der Funktionen verwen- . det wird, welche im Groben im Inneren des Kästchens 7o von
Fig. 1 definiert waren. Wie bereits vorstehend angezeigt worden war, empfängt der Computer die Eingangssignale der Merkmale
fQ bis f^, sowie ferner Befehle von der Bedienungsperson, in
Form von Schalterbetätigungen, welche die Übungs- oder Lärmsowie
die Befehlsphasen des Betriebes steuern. Bei Beginn des Routinebetriebs ist die erste wesentliche Handlung, den Zustand
des von der Bedienungsperson gesteuerten Einstellschalters zu prüfen, welcher festlegt, ob die Vorrichtung den Übungs- oder
Lärmzustand oder den Betriebszustand einnimmt. Diese Funktion wird von dem Block 7ol wiedergegeben.Wenn die Übungs- oder
Lärmbetriebsart angezeigt ist, prüft die Maschine zwei andere Schaltereinstellungen, welche als m und η (Block 7o2) bezeichnet
werden, wobei der Zweck dieser Eingabeparameter an einem späteren Punkt noch näher erläutert wird. Der Computer wartet dann
auf das Einsetzen von fQ, was durch das rautenartige Entscheidungskästchen
7oj5 in Verbindung mit der geschlossenen "Nein"-Schleife
7o4 angezeigt ist. Wenn f auftritt, wird die "Ja"-Seite
aktiv und das Signal gelangt zu dem Block 7o5V
Block definiert die Funktion der kontinuierlichen Abtastung und Speicherung des Zustandes von den Merkmalen f1 bis f, χ, um
eine Empfangsmatrix von der in Fig. 3 gezeigten Art zu bilden.
Dieser Betrieb dauert aufgrund der Unterscheidungsraute 7οβ
zusammen mit der Schleife 7o7 an, bis fQ endet, wrauf die "Ja"-Seite
der Raute 7οβ aktiv wird. Die Dauer T des soeben beendeten
Eingabewortes wird anschließend untersucht (Raute 7o8), um
festzustellen, ob T größer ist als eine vorher festgelegte Zeit T., welche im vorliegenden Falle auf 25o msek, festgelegt
1st. Wenn T zu kurz ist, bewirkt der Block 7o9 eine Löschung
409 81 3/096.5 , 15 -
der Empfangsmatrix und die Raute Jo3 wird wieder in den Zustand
zurückgebracht, in der sie auf das nächste Einsetzen von f_ wartet.
Wenn T größer ist als Tmin, wird die Empfangsmatrix auf eine
31 x 16 normierte Matrix normiert, welche mit p" dargestellt
ist, wie dies von dem Block 7I0 wiedergegeben wird. Die Normierung
ist ein relativ unkomplizierter arithmetischer Vorgang von der im Zusammenhang mit Fig.. 4 beschriebenen Art. Als
nächster Schritt wird festgestellt, welcher Betriebszustand aktiv ist (Raute 111), wobei bei aktivem Lehr- oder Übungszustand
in den Block 712 eingegangen wird. Dieser Block stellt die Punktion der Bildung einer F m Matrix dar, welche gleich
der Matrix F ist. Der untere Index ή bezeichnet hierbei die Nummer des speziell eingegebenen Wortes, z.B. des sechzehnten
Wortes eines Jo Wörter-aufweisenden Vokabulares. Der obere Index
m gibt die Rasterzählung für das spezielle eingegebene Übungswort an. Es ist, wie oben bereits ausgeführt wurde, erwünscht,
vielfach Abtastungen desselben Übungswortes zu verwenden, um eine verläßliche Durchschnittsabtastung zu erhalten, welche
eine wahrheitsgetreue Wiedergabe der Weise darstellt, in der von der jeweiligen Person das in Rede stehende Wort artikuliert
wird. Bei der vorliegenden Ausführungsform werden fünf Proben von Jedem Übungswort verwendet und diese Wähl ist Jedoch bis
zum gewissen Grad willkürlich und hängt von praktischen Überlegungen ab, wobei eine relativ große Anzahl von Proben höchst
erwünscht ist, jedoch eine längere Übungs- oder Lärmperiode beansprucht. Bei dem vorliegenden Programm werden die Werte von
m und η von der Bedienungsperson während der Lärm- oder Übungsperiode
festgesetzt und nach jedem Wort und nach jeder Probe oder Abtastung geändert. Es ist jedoch ersichtlich,, daß diese
Parameter automatisch erhöht werden können, wobei der Computer anzeigt, bis zu welcher Wortzahl und Probe die nächste Eingabe
erfolgen soll.
- 16 409813/0 9 65
Der nächste Betriebsschritt ist die Peststellung, ob m gleich der maximalen Zahl der verwendeten Proben in der Prozedur ist,
welche mit M bezeichnet ist. In der vorliegenden Ausführungsform
ist M gleich 5, so daß, wenn die Proben-zahl für das spezielle
Übungs- oder Lehrwort kleiner als 5 ist, die "Nein"-Seite der
Raute 713 aktiv wird und der Computerausgang anzeigt, daß die
Probe des Übungswortes-eingegangen ist und daß die nächste Probe
für dieses Übungswort von der Bedienungsperson genommen werden sollte. Wenn diese Anzeige bestätigt ist, führt der Zweig 7l4a
das Programm zurück zu dem Block ToI und die nächste Schaltereinstellung
(von m) wird von der Bedienungsperson in Vorwegnahme
des Empfangs von der nächsten Probe des Übungswortes vorgenommen. Wenn daher beispielsweise die erste Probe des ersten Übungswortes gerade eingegangen war, ändert die Bedienungsperson den
Einstellschalter, welcher η steuert, auf m=2 und das System arbeitet in der oben beschriebenen Weise, um das nächstgesprochene
-* 2
Wort als normierte Matrix P , einzutragen.
Wort als normierte Matrix P , einzutragen.
Wenn die 'erwünschten fünf Proben von einem Übungswort eingetragen
sind, wirdm gleich M und der "ja"~Ausgang der Raute 713 aktiv,
so daß der Block 715 aufgesucht wird. Dieser Block entspricht
der Funktion einer Mittelwertbildung der P Matrizen von den Übungswort-Proben, so daß eine Endmatrix für das Übungswort erhalten
wird, welche mit P (ohne oberen Index) bezeichnet wird. Auch die Mittelwertbildung ist ein relativ unkomplizierter Vorgang, bei dem die Gesamtzahl der "Einsen", die in jeder der
Matrixstellen (31 χ 16) auftreten, gezählt wird und bei der eine "l" in den entsprechenden Stellen in der Endmatrix eingesetzt
wird,-wenn die Gesamtsumme größer oder gleich einer vorbestimmten Schwellenzahl ist. In der vorliegend beschriebenen Ausführungsform
wurde beispielsweise drei als geeigneter Wert für die Schwelle gefunden, so daß irgendeine Matrixstelle, welche in
wenigstens drei der fünf übuagswactproben -Matrizen eine "l" aufweist,
eine "l" in der schließlich gespeicherten Matrix für dieses Übungswort erhält.
V/enn die Mittelwertsbildung des Blockes 715 fertiggestellt und
409813/0965
- 17 -
die Matrix F gespeichert ist, zeigt der Computer an, daß
das spezielle Übungswort fertiggestellt ist ("completed") (Block 716). Dies bedeutet, daß seine endgültige Matrix berechnet
und gespeichert ist.· Die Bedienungsperson erhöht dann typischerweise η auf die nächste Übungswortzahl und setzt den
Übungs- oder Lehrvorgang fort oder sie schaltet nach Beendigung des Lehrvorganges die gesamte Anordnung auf den Betriebszustand.
Wenn die Anordnung ihren Betriebszustand einnimmt, wird ein empfangenes Wort in der oben beschriebenen Weise aufbereitet
oder verarbeitet, und zwar bis zu dem Punkt, an dem die normierte Matrix P gespeichert ist. An dieser Stelle zeigt die Raute
711 ein "Nein" an und der Block 717 wird aufgesucht. Die Funktion des Blockes 717 ist es, den Übungswortindex η auf'
eins zu setzen, daß die gespeicherten Übungswort-Matrizen, beginnend mit F1 vom Speicher zu Vergleichszwecken mit der Eingäbe-Befehlswort-Matrix
F aufgerufen werden können. Der nächste Block, 718, enthält die Funktion eines Punkt-für Punkt erfolgenden
Vergleiche^ der Matrix F mit der Matrix F . Bei der vorliegenden
Ausführungsform führt dieser Vergleich zu einer Summe, welche allgemein durch S° dargestellt ist. Für die Erläuterung
dieser Summenbildung und der anschließend aatwidcelten Summen unterschiedlicher
Form hat es sich als zweckmäßig erwiesen, auf die Glieder der Matrix F durch die Bezeichnung F (f^, t.) Bezug zu nehmen, wobei
nf " das i-te-Merkmal und "t." das i-te-nomierte Zeitintervall
darstellen. Bei der Aufstellung der Summe S° wird jedes Glied
F (f., t.) von F mit dem entsprechenden Glied F (f.,, t.) der
ij .α η 1 j
Übungswortmatrix Fn verglichen. Es zeigt sich, daß sich ein
äußerst nützlicher Vergleich aus der Betrachtung der Übereinstimmung oder Nichtübereinstimmung der Einsen in den beiden Matrizen
ergibt, welche gemäß folgender Regel miteinander verglichen werden: Wenn eine spezielle Matrixstelle eine "l" in beiden Matrizen
aufweist, wird die" Summe um eins erhöht, wenn lediglich eine der beiden Matrizen eine "lTt an dieser Stelle aufweist, wird
die Summe um eins erniedrigt. Wenn die spezielle Stelle eine "θ"
in beiden Matrizen aufweist, wird zu der Summe nichis addiert
409813/0965 - 18 -
2347739
.und von ihr nichts abgezogen. Die Summe hängt somit lediglich
von der Korrelation oder Nichtkorrelation der tatsächlich vorkommenden Merkmale, entweder in dem Übungswort oder in dem Befehlswort
ab und nicht von der Korrelation des Fehlens derartiger Merkmale. Auf diese Weise führen Worte mit einer kleinen
Zahl von Merkmalscharakteristiken nicht zu unrealistisch hohen Korrelationssummen, welche man erhalten würde, wenn man auf das
Fehlen dieser Merkmale abstellen würde.
Wenn man zu dem Block 718 zurückkehrt, läßt sich die Summe S?
von dem Computer entsprechend der soeben festgesetzten Regel ableiten. Typischerweise wird S? zu Beginn gleich Null gesetzt,
während die Werte für die Indices 1 und j anfangs gleich 1 gesetzt
werden. Die Matrixglieder F (fi* t-) werden dann miteinander
verglichen. Wenn beide Einsen sind, wird S° um +1 erhöht. Wenn die beiden unterschiedliche Werte haben, z.B. eine "l" und
eine 11O", wird S° um -1 vermindert. Wenn beide "o" sind, bleibt
die Summe S? unbeeinflußt. Die Werte der Indices i und J werden anschließend schrittweise erhöht und es erfolgt ein Vergleich
der entsprechenden Matrixglieder auf iterative Weise, bis die Endsumme S?, welche positiv oder negativ sein kann, erreicht ist.
Nach Berechnung der Gesamtsumme S ? werden zwei zusätzliche Vergleiche
zwischen der Befehlswort-Matrix F und der ersten übungswortmatrix
F1 durchgeführt. Diese Vergleiche führen zu zwei
+1 -1 Summen, welche allgemein mit S und S^ bezeichnet sind und
+1 -1 welche wenn der Index η eins ist, als S 7 und S 1 spezifiziert
+1
sind. Die Summe S wird im allgemeinen durch Vergleich aller Glieder F (f±, t.) der Befehlswort-Matrix mit den Gliedern F (f., t. ,) der Matrix für das Übungswort η gebildet. Entsprechend wird die Summe S~* durch einen Vergleich aller Glieder F (f., t.) der Befehlswort-Matrix mit den Gliedern Fn (f±, Ti_i) der Matrix für das Übungswort η gebildet. Diese Vorgänge lassen sich als punktweise Vergleiche der beiden Matrizen ansehen, bei der die Übungswort-Matrix zuvor um ein normiertes Zeitintervall zur Berechnung von S+, um eine Stelle nach links verschoben und zur Berechnung von S ; um ein Zeitintervall nach rechts ver-
sind. Die Summe S wird im allgemeinen durch Vergleich aller Glieder F (f±, t.) der Befehlswort-Matrix mit den Gliedern F (f., t. ,) der Matrix für das Übungswort η gebildet. Entsprechend wird die Summe S~* durch einen Vergleich aller Glieder F (f., t.) der Befehlswort-Matrix mit den Gliedern Fn (f±, Ti_i) der Matrix für das Übungswort η gebildet. Diese Vorgänge lassen sich als punktweise Vergleiche der beiden Matrizen ansehen, bei der die Übungswort-Matrix zuvor um ein normiertes Zeitintervall zur Berechnung von S+, um eine Stelle nach links verschoben und zur Berechnung von S ; um ein Zeitintervall nach rechts ver-
40981 3/0965
- 19 -
schoben wurde. Bei der bildhaften Vorstellung dieser Vergleiche hilft es, wenn man sich die Übungswort-Matrix F1 direkt über
die Befehlswort-Matrix F gelegt vorstellt. Der Hauptvergleich
wurde in dieser zueinander ausgerichteten Lage der beiden Matrizen vorgenommen, wobei die Summe S? gebildet wurde,. Man kann
sich nun vorstellen, daß die Matrix F. nach links um die Lage eines Zeitintervalles derart verschoben ist, daß die erste
Zeitintervallspalte (t = 1) von F1 nach außen übersteht, während
die letzte Zeitintervallsspalte (t=l6) die vorletzte Spalte (t=15) von F überlappt. Der Vergleich wird anschließend durchgeführt,
wobei er gemäß· den oben aufgestellten Regeln zu der Bildung der Summe S+J führt. Beispielsweise wird der Punkt F1
(f1, t2) mit dem Punkt F (ίχ, t1) verglichen, der Punkt F
(f., t,) mit dem Punkt F (f,, tp)usw. Die Indices i und j können
ferner zur Bildung der Iterierung verwendet werden, um die Gesamtsumme
S+J zu bilden, wobei jedoch j lediglich von j-1 bis 3=15 geht,
da sich lediglich die 15 Spalten der Zeitintervalle überlappen unc1. zu Vergleichszwecken verwendet werden können.
Die Bildung von S+^ wird von dem Block 719 und die folgende BiI-
-1 '
dung von S Λ von dem Block 72o wiedergegeben» Bei der Berechnung
dung von S Λ von dem Block 72o wiedergegeben» Bei der Berechnung
von S , kann man sich die Matrix F, so angeordnet vorstellen,
daß sie die Matrix ]? überlappt und nach rechts um ein Zeitintervall
verschoben ist. In diesem Falle ergibt sich ein Vergleich der Punkte F (f., t.) mit "den Punkten F (f^, t-j_i)'
wobei der Index j von j=2 bis j=l6 während der Iteration läuft.
Nach Berechnung, der Summen.S°, S und S wird eine zusammengesetzte
Summe S ohne oberen Index gebildet (Block 721) und zwar gemäß folgender Beziehung:
Sn = 2Sn - S+n + 3~n
Diese zusammengesetzte Summe, die mit S, für den Vergleich des
ersten Übungswortes mit dem Befehlswort bezeichnet wird, gewichtet
die Hauptsumme mit einem Faktor zwei im Vergleich zu den zu-
409813/0965 -2o-
- 2ο -
sätzlichen Summen. Es zeigte sich, daß ein derartiges Gewichten zu günstigen Ergebnissen führte, wobei es jedoch, falls dies
erwünscht ist, möglich ist, auch andere Gewichtsverhältnisse zu verwenden.
Die zusätzlich durchgeführten Vergleiche erwiesen sich als eine nützliche Korrelationsinformation in dem Sinne, als sie die
Abhängigkeit der Merkmale in der Befehlswort-Matrix von der genauen Dauer und Zeiteinteilung vermindern. Die bisherige.
Zeitnormierung entfernte in starkem Maße die Abhängigkeit von
der Dauer des Gesamtwortes. D.h., wenn ein Wort gleichmäßig gedehnt oder zusammengedrängt ist, ergibt sich immer noch die
gleiche normierte Matrix* Diese Technik schafft jedoch allein keine ausreichende Maßnahme für Fälle, in denen eine Person
auf bestimmten Merkmalen eines Wortes etwas langer verharrt oder bei denen sie bestimmte Merkmale leicht verkürzt. Diese
Erscheinungen treten bevorzugt nicht gleichförmig auf. Sie können zu einer- Befehlswort-Matrix führen, die etwas gegenüber
der vorher gespeicherten Lehr- oder Übungswort-Matrix für das spezielle Wort des Vokabulars verschoben ist. Die Dauer oder
die Größe hinsichtlich der Zeitachse von der Verschiebung ist im vorhinein nicht determinierbar. Es zeigte sich jedoch, daß
eine zusammengesetzte Summe, welche leichte Verschiebungen hinsichtlich der Zeitachse mit berücksichtigt zu günstigen Ergebnissen
führt. So zeigte sich insbesondere, daß die Wahrscheinlichkeit, mit der eine geeignete Zuordnung festgestellt wurde,
größer war als bei Schematas, welche lediglich die Hauptsummen (S ) verwendeten.
Nach Erhalt der ersten Zusammengesetzen Summen, S., wird der Index η überprüft (Raute 722), und da alle Übungsworte noch nicht
überprüft waren, führt die "Neintt-Antwort zu dem Block 723,
wo η um zwei erhöht wird. Eine zusammengesetzte Summe S2 wird
anschließend berechnet, indem man die Matrix für das Befehlswort, P, mit der Matrix für das zweite Übungs- oder Lehrwort
F2 vergleicht. Die Schleife 724 läuft dann weiter ab, bis für
alle Übungsworte zusammengesetzte Summen berechnet sind, worauf
40981 3/0965
. - 21 -
der Index η den Wert von η annimmt. In der vorliegenden AusfUhrungsform
nimmt η den Wert ;5o an, da die Anzahl der Übungsworte
30 ist.
Im nächsten Schritt wird der größte Wert von S aus der "Liste"
der ;5o zusammengesetzten Summen festgestellt. Diese Funktion wird
von dem Block 725 wiedergegeben. Mit dieser Bestimmung wird das
spezielle Übungswort η festgestellt, das dem Befehlswort am nächsteh kommt. Anschließend werden bevorzugt weitere Kriterien
verwendet, um zu entscheiden, ob diese Übereinstimmung so eng ist,
daß die Entscheidung gefällt werden kann, es handele sich um das Wort n. Bei der vorliegenden Ausführungsform wird die größte
zusammengesetzte Summe S in Vergleich gesetzt zu einem vorbestimmten
Niveau S . , wobei eine Entscheidung, welche das Wort η als das Befehlswort heraussucht, nur dann getroffen wird, wenn
S„ größer ist als Sm4_ . Diese Entscheidung erfolgt über die
η IuX η #
Raute 726. Auf diese Weise wird beispielsweise das Wort η nur
dann ausgewählt (Block 727)* wenn der größte Wert von S größer
als 0 ist. Wenn S einen negativen Wert einnimmt, wird die Anzeige (Block 728) "keine Entscheidung" gegeben. In jedem Falle wird
der "Prüfeinstellschalter"-(examine set switch) Block 7ol wieder über die Leitung 729 aufgesucht. Die Verarbeitungszeit hängt
von der Anzahl der Worte des Vokabulars und von der Geschwindigkeit des Minicomputers ab, wobei sie jedoch typischerweise in
der Größenordnung von 5o msek. liegt. Falls dies erwünscht ist, können Vorkehrungen getroffen werden, welche die Aufnahme eines
neuen Befehlswortes ermöglichen, während noch die Aufbereitung des vorhergehenden Befehlswortes stattfindet. Diese Funktion wird
beispielsweise von dem strichlierten Zweig 7j5o durchgeführt,
welcher ein abermaliges Eintreten zu dem Block 7ol bewirkt» nachdem
die Matrix F für das vorhergehende Befehlswort gebildet ist. Die Merkmale des nächsten Befehlswortes werden dann überwacht
während die Vergleichsprozeduren ablaufen. In diesem Falle würden die Blocke 727 und 728 lediglich zu einem Pausenblock führen,
der nicht gezeigt ist»
4098 13/0965 -22-
Es gibt verschiedene alternative Kriterien, welche aufgestellt werden könnten, um festzustellen, ob der größte Wert von S zu
einer Entscheidung führt, daß ein "Wort n" vorliegt. So könnte beispielsweise gefordert sein, daß der größte Wert von S den
zweitgrößten Wert von Sn um einen bestimmten Betrag überschreitet, bevor eine Entscheidung getroffen wird, daß ein bestimmtes
Wort vorliegt. Diese Art einer Einschränkung könnte auch ein zusätzliches Erfordernis zii demjenigen von der Raute 72b bilden.
Vorstehend war eine spezielle Ausführungsform der vorliegenden Erfindung beschrieben worden. Es ist jedoch ersichtlich, daß
Abwandlungen innerhalb des Grundgedankens der vorliegenden Erfindung
von Fachleuten durchgeführt werden können. So könnten beispielsweise zur Erhaltung der erwünschten Funktionen einige
der in dem Flußdiagramm von Fig. 5 dargestellten Operationen auch in unterschiedlicher Reihenfolge durchgeführt werden.
Mit der Erfindung ist somit eine Vorrichtung geschaffen, welche gesprochene Eingabe-Übungswörter und ein folgendes gesprochenes
Eingabe-Befehlswort empfängt, und die eine Korrelationsfunktion erzeugt, welche die Ähnlichkeit zwischen dem Befehlswort und
jedem Übungswort anzeigt; Eine Merkmalsauszugseinrichtung verarbeitet
die empfangenen Eingabewörter und erzeugt digitale Merkmalsausgabesignale
auf speziellen Leitungen von einer Anzahl von Merkmalsausgabeleitungen. Einrichtungen zur Speicherung des Zustandes
der während jedes Übungswortes auftretenden Merkmalssignale als zeitabhängige Matrix sind ferner vorgesehen. Des
weiteren sind Einrichtungen vorgesehen, um den Zustand der während jedes Befehlswort auftretenden Merkmalssignale als zeitabhängige
Matrix zu speichern. Schließlich sind Einrichtungen vorgesehen, um einen elementweisen Vergleich der Befehlswort-Matrix
mit jeder Übungswort-Matrix durchzuführen und um eine Korrelationsziffer zu bilden, welche jeden Vergleich wiedergibt.
Bei einer bevorzugten Ausführungsform der Erfindung ist eine Einrichtung vorgesehen, um eine Zeitnormierung der die Übungsworte und das Befehlswort wiedergebenden Matrizen vor Durchführung
des Vergleiches zu bewirken.
409813/096 5 -23-
Claims (11)
- Patentansprüche'1. Verfahren zum Empfang gesprochener Eingabe-Übungswörter und eines anschließenden gesprochenen Eingabe-Befehlswortes und zur Bildung einer Korrelationsfunktion, welche die Ähnlichkeit zwischen dem Befehlswort und jedem Übungswort anzeigt, gekennzeichnet durch(a) einen Merkmalsauszug von empfangenen Eingabewörtern und Erzeugung digitaler Merkmalsausgabesignale auf speziellen Leitungen von einer Anzahl von Merkmalsausgabe leitungen;(b) Speicherung des Zustandes der Merkmalssignale, welche jährend jedes Übungswortes auftreten als zeitabhängige Matrix;(c) Speicherung des Zustandes der Merkmalssignale, welche während jedes Befehlswortes auftreten als zeitabhängige Matrix; und(d) gliedweisen Vergleich der Befehlswort-Matrix mit jeder Übungswort-Matrix und Erzeugung einer Korrelationsziffer, welche das Ergebnis jedes Vergleiches wiedergibt. .
- 2. Verfahren nach Anspruch 1, g' e kennzei chnet durch eine Zeitnormierung der Übungswort-Matrizen und der Befehlswort-Matrix vor einer VergleichsdurohfUhrung.
- j5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei dem gliedweisen Vergleich lediglich' das Vorhandensein von Merkmalen in den miteinander verglichenen Matrizen berücksichtigt wird.
- 4. Verfahren nach Anspruch 2, dadurch gekenn-409813/0965 - 24 -ORlGiNAi INSPECTEDzeichnet, daß der gliedweise Vergleich lediglich das Vorhandensein von verglichenen Merkmalen berücksichtigt.
- 5. Verfahren nach Anspruch 1 oder 4, dadurch gekennzeichnet, daß hinsichtlich der Zeitskala verschoben ein Vergleich zwischen der Befehlswort-Matrix mit jeder Übungswortmatrix durchgeführt und daß eine zusätzliche Korrelationsziffer , welche jeden dieser Vergleiche wiedergibt , gebildet wird.
- 6. Vorrichtung zur Durchführung des Verfahrens nach Anspruch 1, welche gesprochene Eingabe-Übungsworte und ein darauffolgendes gesprochenes Eingabe-Befehlswort empfängt und eine Korrelationsfunktion erzeugt, welche die Ähnlichkeit zwischen dem Befehlswort und jedem Übungswort anzeigt, gekennzeichnet durch(a) eine Merkmalsauszugseinrichtung (5o, 6o) zur Verarbeitung der empfangenen Eingabewörter und zur Erzeugung digitaler Merkmalsausgabesignale auf speziellen Leitungen von einer Anzahl von Merkmalsausgabeleitungen (6oa);(b) eine Einrichtung (72) zur Speicherung des Zustandesder während jedes Übungswort auftretenden Merkmalssignale als zeitabhängige Matrix;(c) eine Einrichtung (73) zur Speicherung des Zustandes der während des Befehlswort auftretenden Merkmalssignale als zeitabhängige Matrix; und(d) eine Einrichtung (7Jk) für einen elementweisen Vergleich der Steuerwort-Matrix mit jeder Übungswort-Matrix und zur Erzeugung einer Korrelationsziffer, welche das Ergebnis jedes Vergleiches wiedergibt.409813/0965 -25-
- 7· . Vorrichtung nach Anspruch 6, gekenn zeichnet durch eine Einrichtung (7I0), um eine Zeitnormierung der Übungswort-Matrizen und der Befehlswort-Matrix vor deren Vergleich durchzuführen.
- 8. Vorrichtung nach Anspruch 6 oder J, dadurch gekennzeichnet , daß die Matrizen (Fig..4) binäre Elemente aufweisen, welche das Vorhandensein oder Fehlen von Merkmalen an speziellen Zeitperioden wiedergeben.
- 9. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß der Vergleich lediglich das Vorhandensein der Merkmale in den miteinander verglichenen Matrizen berücksichtigt.
- 10. Vorrichtung nach Anspruch 9» dadurch g e k e η η ^ z e i c hn e t , daß die Korrelationsziffer für jeden Matrix-Vergleich eine Summe von Positiv- und Negativ-Elementvergleichen ist.
- 11. Vorrichtung nach Anspruch 6 bis lo, dadurch gekennzeichnet , daß eine Einrichtung (724·) vorgesehen ist, um bei gegeneinander verschobenen Zeitskalen einen Vergleich zwischen der Befehlswort-Matrix und jeder Übungswort-Matrix durchzuführen, um eine zusätzliche Korrelationsziffer zu bilden, welche das Ergebnis dieses Vergleiches wiedergibt.409 813/0965
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US29105172A | 1972-09-21 | 1972-09-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE2347738A1 true DE2347738A1 (de) | 1974-03-28 |
Family
ID=23118622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19732347738 Ceased DE2347738A1 (de) | 1972-09-21 | 1973-09-21 | Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben |
Country Status (4)
Country | Link |
---|---|
US (1) | US4069393A (de) |
JP (1) | JPS561640B2 (de) |
DE (1) | DE2347738A1 (de) |
GB (1) | GB1435779A (de) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2524804A1 (de) * | 1974-06-04 | 1975-12-18 | Fuji Xerox Co Ltd | Verfahren und vorrichtung zur automatischen spracherkennung |
DE2610439A1 (de) * | 1975-03-12 | 1976-09-16 | Nippon Electric Co | Schaltungsanordnung zur automatischen erkennung von sprache |
FR2306481A1 (fr) * | 1975-04-02 | 1976-10-29 | Rockwell International Corp | Dispositif de detection de mots cles dans un discours continu |
DE3048107A1 (de) * | 1979-12-21 | 1981-09-10 | Hitachi, Ltd., Tokyo | Verfahren zur mustervorverarbeitung fuer ein spracherkennungssystem |
EP0035761A2 (de) * | 1980-03-07 | 1981-09-16 | Siemens Aktiengesellschaft | Verfahren zum Betrieb eines Spracherkennungsgerätes |
DE3043516A1 (de) * | 1979-11-19 | 1981-09-17 | Hitachi, Ltd., Tokyo | Verfahren und vorrichtung zur spracherkennung |
DE3135483A1 (de) * | 1980-09-12 | 1982-05-19 | Western Electric Co., Inc., 10038 New York, N.Y. | Verfahren und schaltungsanordnung zur erkennung einer eingangszeichenkette |
DE3216800A1 (de) * | 1981-05-15 | 1982-12-02 | Asulab S.A., 2502 Bienne | Anordnung zur eingabe von befehlsworten durch sprache |
DE3236832A1 (de) * | 1981-10-05 | 1983-09-01 | Exxon Corp. (eine Gesellschaft n.d. Ges. d. Staates New Jersey), New York, N.Y. | Verfahren und geraet zur sprachanalyse |
DE3236834A1 (de) * | 1981-10-05 | 1983-10-06 | Exxon Corp | Verfahren und geraet zur sprachanalyse |
DE3216871A1 (de) * | 1982-05-03 | 1983-11-03 | Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin | Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem |
DE3416238A1 (de) * | 1983-05-02 | 1984-12-20 | Motorola, Inc., Schaumburg, Ill. | Extremschmalband-uebertragungssystem |
DE3630518A1 (de) * | 1985-09-06 | 1987-03-19 | Ricoh Kk | Einrichtung zum erkennen von sprache |
DE3733659A1 (de) * | 1986-10-03 | 1988-04-21 | Ricoh Kk | Verfahren zum vergleichen von mustern |
DE3643838A1 (de) * | 1986-12-20 | 1988-06-30 | Telefonbau & Normalzeit Gmbh | Spracherkennungseinrichtung fuer dienste-integrierende kommunikationsanlagen, insbesondere fernsprechvermittlungsanlagen |
DE3720882A1 (de) * | 1987-06-24 | 1989-01-05 | Media Control Musik Medien | Verfahren und schaltungsanordnung zum automatischen wiedererkennen von signalfolgen |
DE3645118A1 (de) * | 1985-09-06 | 1989-08-17 | ||
DE4031421A1 (de) * | 1989-10-05 | 1991-04-18 | Ricoh Kk | Musteranpassungssystem fuer eine spracherkennungseinrichtung |
DE3645119C2 (de) * | 1985-09-06 | 1991-06-06 | Ricoh Kk | Einrichtung zum Feststellen eines Sprachintervalis |
FR2691829A1 (fr) * | 1993-05-28 | 1993-12-03 | Gold Star Electronics | Système de reconnaissance de la parole. |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4178472A (en) * | 1977-02-21 | 1979-12-11 | Hiroyasu Funakubo | Voiced instruction identification system |
JPS5525150A (en) * | 1978-08-10 | 1980-02-22 | Nec Corp | Pattern recognition unit |
US4343969A (en) * | 1978-10-02 | 1982-08-10 | Trans-Data Associates | Apparatus and method for articulatory speech recognition |
US4181821A (en) * | 1978-10-31 | 1980-01-01 | Bell Telephone Laboratories, Incorporated | Multiple template speech recognition system |
USRE31188E (en) * | 1978-10-31 | 1983-03-22 | Bell Telephone Laboratories, Incorporated | Multiple template speech recognition system |
US4394538A (en) * | 1981-03-04 | 1983-07-19 | Threshold Technology, Inc. | Speech recognition system and method |
JPS58129684A (ja) * | 1982-01-29 | 1983-08-02 | Toshiba Corp | パタ−ン認識装置 |
JPS59501520A (ja) * | 1982-08-04 | 1984-08-23 | トランス・デ−タ・アソシエイツ | 調音音声認識のための装置 |
US4618984A (en) * | 1983-06-08 | 1986-10-21 | International Business Machines Corporation | Adaptive automatic discrete utterance recognition |
US4980826A (en) * | 1983-11-03 | 1990-12-25 | World Energy Exchange Corporation | Voice actuated automated futures trading exchange |
US4817158A (en) * | 1984-10-19 | 1989-03-28 | International Business Machines Corporation | Normalization of speech signals |
FR2593608B1 (fr) * | 1986-01-28 | 1988-07-15 | Thomson Csf | Procede et dispositif de reconnaissance automatique de cibles a partir d'echos " doppler " |
US4829576A (en) * | 1986-10-21 | 1989-05-09 | Dragon Systems, Inc. | Voice recognition system |
AT391035B (de) * | 1988-12-07 | 1990-08-10 | Philips Nv | System zur spracherkennung |
JP2818362B2 (ja) * | 1992-09-21 | 1998-10-30 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声認識装置のコンテキスト切換えシステムおよび方法 |
JP2524472B2 (ja) * | 1992-09-21 | 1996-08-14 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 電話回線利用の音声認識システムを訓練する方法 |
US5425129A (en) * | 1992-10-29 | 1995-06-13 | International Business Machines Corporation | Method for word spotting in continuous speech |
US5615296A (en) * | 1993-11-12 | 1997-03-25 | International Business Machines Corporation | Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors |
US5754978A (en) * | 1995-10-27 | 1998-05-19 | Speech Systems Of Colorado, Inc. | Speech recognition system |
US5806021A (en) * | 1995-10-30 | 1998-09-08 | International Business Machines Corporation | Automatic segmentation of continuous text using statistical approaches |
US6493744B1 (en) | 1999-08-16 | 2002-12-10 | International Business Machines Corporation | Automatic rating and filtering of data files for objectionable content |
US20030101052A1 (en) * | 2001-10-05 | 2003-05-29 | Chen Lang S. | Voice recognition and activation system |
US7082394B2 (en) * | 2002-06-25 | 2006-07-25 | Microsoft Corporation | Noise-robust feature extraction using multi-layer principal component analysis |
US20070239675A1 (en) * | 2006-03-29 | 2007-10-11 | Microsoft Corporation | Web search media service |
WO2014165286A1 (en) | 2013-03-12 | 2014-10-09 | Iowa State University Research Foundation, Inc. | Systems and methods for recognizing, classifying, recalling and analyzing information utilizing ssm sequence models |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3536837A (en) * | 1968-03-15 | 1970-10-27 | Ian Fenton | System for uniform printing of intelligence spoken with different enunciations |
GB1261385A (en) * | 1968-07-24 | 1972-01-26 | Matsushita Electric Ind Co Ltd | Speech analyzing apparatus |
US3509280A (en) * | 1968-11-01 | 1970-04-28 | Itt | Adaptive speech pattern recognition system |
US3588363A (en) * | 1969-07-30 | 1971-06-28 | Rca Corp | Word recognition system for voice controller |
US3673331A (en) * | 1970-01-19 | 1972-06-27 | Texas Instruments Inc | Identity verification by voice signals in the frequency domain |
US3700815A (en) * | 1971-04-20 | 1972-10-24 | Bell Telephone Labor Inc | Automatic speaker verification by non-linear time alignment of acoustic parameters |
US3770891A (en) * | 1972-04-28 | 1973-11-06 | M Kalfaian | Voice identification system with normalization for both the stored and the input voice signals |
US3770892A (en) * | 1972-05-26 | 1973-11-06 | Ibm | Connected word recognition system |
-
1973
- 1973-09-10 GB GB4253373A patent/GB1435779A/en not_active Expired
- 1973-09-13 JP JP10271673A patent/JPS561640B2/ja not_active Expired
- 1973-09-21 DE DE19732347738 patent/DE2347738A1/de not_active Ceased
-
1974
- 1974-12-11 US US05/531,543 patent/US4069393A/en not_active Expired - Lifetime
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2524804A1 (de) * | 1974-06-04 | 1975-12-18 | Fuji Xerox Co Ltd | Verfahren und vorrichtung zur automatischen spracherkennung |
DE2610439A1 (de) * | 1975-03-12 | 1976-09-16 | Nippon Electric Co | Schaltungsanordnung zur automatischen erkennung von sprache |
FR2306481A1 (fr) * | 1975-04-02 | 1976-10-29 | Rockwell International Corp | Dispositif de detection de mots cles dans un discours continu |
DE3043516A1 (de) * | 1979-11-19 | 1981-09-17 | Hitachi, Ltd., Tokyo | Verfahren und vorrichtung zur spracherkennung |
DE3048107A1 (de) * | 1979-12-21 | 1981-09-10 | Hitachi, Ltd., Tokyo | Verfahren zur mustervorverarbeitung fuer ein spracherkennungssystem |
EP0035761A3 (de) * | 1980-03-07 | 1984-02-01 | Siemens Aktiengesellschaft | Verfahren zum Betrieb eines Spracherkennungsgerätes |
EP0035761A2 (de) * | 1980-03-07 | 1981-09-16 | Siemens Aktiengesellschaft | Verfahren zum Betrieb eines Spracherkennungsgerätes |
DE3135483A1 (de) * | 1980-09-12 | 1982-05-19 | Western Electric Co., Inc., 10038 New York, N.Y. | Verfahren und schaltungsanordnung zur erkennung einer eingangszeichenkette |
DE3216800A1 (de) * | 1981-05-15 | 1982-12-02 | Asulab S.A., 2502 Bienne | Anordnung zur eingabe von befehlsworten durch sprache |
DE3236832A1 (de) * | 1981-10-05 | 1983-09-01 | Exxon Corp. (eine Gesellschaft n.d. Ges. d. Staates New Jersey), New York, N.Y. | Verfahren und geraet zur sprachanalyse |
DE3236834A1 (de) * | 1981-10-05 | 1983-10-06 | Exxon Corp | Verfahren und geraet zur sprachanalyse |
DE3216871A1 (de) * | 1982-05-03 | 1983-11-03 | Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin | Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem |
DE3416238A1 (de) * | 1983-05-02 | 1984-12-20 | Motorola, Inc., Schaumburg, Ill. | Extremschmalband-uebertragungssystem |
DE3630518A1 (de) * | 1985-09-06 | 1987-03-19 | Ricoh Kk | Einrichtung zum erkennen von sprache |
DE3645118A1 (de) * | 1985-09-06 | 1989-08-17 | ||
DE3645119C2 (de) * | 1985-09-06 | 1991-06-06 | Ricoh Kk | Einrichtung zum Feststellen eines Sprachintervalis |
DE3733659A1 (de) * | 1986-10-03 | 1988-04-21 | Ricoh Kk | Verfahren zum vergleichen von mustern |
DE3643838A1 (de) * | 1986-12-20 | 1988-06-30 | Telefonbau & Normalzeit Gmbh | Spracherkennungseinrichtung fuer dienste-integrierende kommunikationsanlagen, insbesondere fernsprechvermittlungsanlagen |
DE3720882A1 (de) * | 1987-06-24 | 1989-01-05 | Media Control Musik Medien | Verfahren und schaltungsanordnung zum automatischen wiedererkennen von signalfolgen |
DE4031421A1 (de) * | 1989-10-05 | 1991-04-18 | Ricoh Kk | Musteranpassungssystem fuer eine spracherkennungseinrichtung |
FR2691829A1 (fr) * | 1993-05-28 | 1993-12-03 | Gold Star Electronics | Système de reconnaissance de la parole. |
Also Published As
Publication number | Publication date |
---|---|
GB1435779A (en) | 1976-05-12 |
JPS561640B2 (de) | 1981-01-14 |
JPS4971845A (de) | 1974-07-11 |
US4069393A (en) | 1978-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2347738A1 (de) | Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben | |
DE69427083T2 (de) | Spracherkennungssystem für mehrere sprachen | |
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
DE3236832C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE2613258C2 (de) | Schaltungsanordnung zum Erkennen von einem oder mehreren Schlüsselworten in kontinuierlicher Sprache | |
EP0533260B1 (de) | Verfahren und Anordnung zum Erkennen der gesprochenen Wörter in einem Sprachsignal | |
DE60000074T2 (de) | Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung | |
DE69321656T2 (de) | Verfahren zur Spracherkennung | |
DE69414752T2 (de) | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes | |
DE68924134T2 (de) | Spracherkennungssystem. | |
EP0285221B1 (de) | Verfahren zum Erkennen kontinuierlich gesprochener Wörter | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE2844156A1 (de) | Verfahren zum verifizieren eines sprechers | |
DE3852678T2 (de) | Mustererkennung. | |
DE2524804A1 (de) | Verfahren und vorrichtung zur automatischen spracherkennung | |
EP0797185A2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE19510083A1 (de) | Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen | |
DE4031638C2 (de) | ||
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
EP0285222B1 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
EP0981129A2 (de) | Verfahren und Anordnung zum Durchführen einer Datenbankabfrage | |
DE19654549C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE2720666C2 (de) | Verfahren und Anordnung zur Geräuschanalyse |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OD | Request for examination | ||
8131 | Rejection |