-
-
Beschreibung
-
Die Erfindung betrifft ein Verfahren zur Mustervorverarbeitung in
einem Spracherkennungssystem, bei dem im allgemeinen eine Normierung der Korrektur
von Schwankungen bei Merkmalsmusters'in einem Sprachmuster erfolgt, das sich in
Form einer Zeitfolge von Merkmalsvektoren ausdrückt, wobei die Schwankungen Differenzen
unter Individuen zuzuschreiben sind.
-
Als Merkmalsparameter, die repräsentativ für die Werte der entsprechenden
Bestandteile von Merkmalsvektoren eines Sprachmusters sind, sind bislang die verschiedensten
Größen verwendet worden, einschließlich der folgenden: (i) Ausgangswerte von Filterbänken,
die einem entsprechenden Kanal von einigen Kanälen entsprechen, in die das Frequenzband
der Sprache unterteilt ist, (ii) Auto-Korrelationskoeffizienten, (iii) partielle
Auto-Korrelationskoeffizienten, die nachstehend auch als PARCOR-Koeffizienten bezeichnet
werden, usw.
-
Mit all diesen Werten sind jedoch verschiede Variationen bei den
Merkmalsparametern auf der Basis der Differenzen von Sprachinformation unter Individuen
verbunden. Infolgedessen hat das Problem bestanden, daß die Fehler von herausgezogenen
Merkmalsparametern groß sind, was die korrekte Erkennung des Sprachmusters schwierig
macht.
-
Im Falle von Sprachmustern sind typische Beispiele von Schwankungen
auf der Basis der Differenzen unter Individuen folgende: (1) Schwankungen der Absolutwerte
der Merkmalsparameter, die auf Schwankungen der Eingangswerte beruhen und (2) Schwankungen
der Formantenfrequenzen in dem Falle, wo die Ausgangswerte der Filterbänke als Merkmalsparameter
verwendet werden.
-
Um die Verschlechterung der Erkennungsgenauigkeit aufgrund dieser
Schwänkungen zu verhindern, sind die folgenden Methoden ins Auge gefaßt worden:
Hinsichtlich i1) werden zum Beispiel im Falle der Verwehdung der Ausgangswerte der
Filterbänke als Merkmalsparameter die Filterausgangssignale in der Frequenzrichtung
zu entsprechenden Zeiten normiert (die Filterausgangssignale werden in Relativwerte
umgewandelt).
-
Hinsichtlich (2) beruhen die Schwankungen der Formantenfrequenzen
auf ungleichen Vokalzuglänge der Individuen.
-
S@@@t wird iin4 vokalzulänge aus der Sprachinformation geschätzt und
diese vokalzuglänge normiert.
-
Mit dose. herkö@@lichen Normierungsverfahren zur Berücksichtigung
von (1) wird jedoch zum Beispiel eine Struktur au@ den zusammenhänge der Absolutwerte
der Merkmalspara-@@ter In det Zeitrichtung zerstört. Dies hat zu dem Nachteil @@@@hrt,
dah ein Teil Von wesentlicher Information, die die Srachinformation besitzt, verlorengeht.
-
Bei einem herkömmlichen Verfahren zur Berücksichtigung von (2) ist
es schwierig, die Vokalzuglänge genau zu schätzen, und somit tritt ein Schätzfehler
auf. Dementsprechend bestand bislang der Nachteil daß eine ridhtige Normierung nicht
@@@glich war.
-
Aufgabe der Erfindung ist es daher, ein Verfahren zur M@@tervorverarbeitung
für Spracherkennungssysteme anzugeben, @@i dem die Schwankungen von Eigenschaften
bei Merkmalsparam@tern absoiert werden, die aus einem Sprachmuster.herausgezogen
@ den, wobei die Schwankungen auf Differenzen unter den Indiv@@@en beruhen, ohne
daß wesentliche Information aus dem Sprachmuster verlorengeht.
-
Weiterhin ist es Ziel der Erfindung, ein Verfahren zur Mustervorverarbeitung
zu schaffen, bei dem schließlich auch die Schwankungen der Formantenfrequenze als
Schwankungen d@r Frequenzeigenschaften aufgrund der Differenzen unter Individuen
absorbiert werden, während die Struktur der Merkmalsparameter in der Zeitrichtung
gehalten wird.
-
Gemäß der Erfindung ist vorgesehen, daß bei einem System, bei dem
von den Koordinatenachsen eine zweidimensionale Ebene aufgespannt wird, die eine
Achse eine Zeitachse und die andere Achse eine Frequenzachse sind, und bei dem die
Eigenschaftsparameter bei einer Reihe von Punkten auf der Zeitachse einem Punkt
auf der Frequenzachse entsprechen' eine Vorverarbeitung in der nachstehenden Weise
durchgeführt wird, wobei die Größenrelationen der Werte der Merkmalsparameter in
Richtung der Zeitachse gehalten werden: (a) die entsprechenden Eigenschaftsparameter
werden durch den Maximalwert der Reihe von Eigenschaftsparametern geteilt, (b) die
Eigenschaftsparameter werden logarithmischen, nicht-linearen Korrekturen unterworfen,
(c) die Reihe von logarithmischen, nicht-linearen Korrekturen unterworfenen Eigenschaftsparamtern
wird durch ihren Maximalwert geteilt.
-
Die Erfindung wird nachstehend anhand der Beschreibung von Ausführungsbeispielen
und unter Bezugnahme auf die beiliegen Zeichnungen näher erläutert. Die Zeichnungen
zeigen in Fig. 1 eine graphische Darstellung zur Erläuterung der Differenz der Filterbank-Ausgangssignale
bezüglich einem identischen Sprachmuster, wobei die Differenz den Sprechern zuzuschreiben
ist; Fig. 2 ein Blockschaltbild zur Erläuterung einer Schaltungsanordnung bei einer
Ausführungsform einer Vorrichtung zur Mustervorverarbeitung gemäß der Erfindung;
Fig. 3 ein Blockschaltbild zur Erläuterung einer Schaltungsanordnung einer Ausführungsform
einer Maximum-Abtastschaltung; Fig. 4 ein Blockschaltbild zur Erläuterung einer
Schaltungsanordnung einer Ausführungsform eines Spracherkennungssystems gemäß der
Erfindung; und Fig. 5 ein Diagramm zur Erläuterung der Differenzen
ton
Unterscheidungsgraden, die sich aus Erkennungsuntersuchungen eines Eingangssprachmusters
ergeben, wenn man das erfindungsgemäße Verfahren einerseits und herkömmliche Verfahren
andererseits einsetzt.
-
Fig. 1 zeigt die Diskrepanz von Filterbank-Ausgangssignalen hinsichtlich
eines identischen Sprachinhaltes, der ton verschiedenen Sprechern in einem bestimmten
spezifizierten kanal in dem Falle gegeben ist, wo die Filterbank-Ausgangssignale
für Sprache als Eigenschaftsparameter verwendet werden.
-
Aus Fig. 1 ergibt sich, daß die Positionen auf der Zeitachse, die
maximale und minimale Extrempunkte angeben, ähnlich sind, daß aber die Amplitudenwerte
in hohem Maße unterschiedlich sind. Wenn die Gleichheitswerte zwischen den von unterschiedlichen
Sprechern geliferten Sprachmustern A und B erhalten werden, indem man den üblichen
euklidischen Abstand als Skala verwendet, werden die Schwankungen aufgrund der Diskrepanz
der Sprecher groBer als die Schwankungen aufgrund der Diskrepanz der Sprachmuster
selbst. Es ist somit unmöglich, die Differenz der Sprachmuster korrekt abzutasten.
-
Dementsprechend müssen die Schwankungen aufgrund der Diskrepanz der
Sprechen verringert werden, indem man die Amplitudenwerte normiert c.der korrigiert.
Um die Amplitudenwerte zu normieren oder zu korrigieren, werden gemäß der Erfindung
einer von zwei nachstehend beschriebenen Schritten oder ein Verfahren, das diese
in Nombination umfaßt, eingesettt.
-
Nachstehend wird das Vorverarbeitungsverfahren mit den beiden k @@inierten
Schritten beispialsteise erläutert, jedoch sind ein Vorverarbeitungsverfahren, das
hur den Schritt 1 umfaßt, sowie ein Vorverarbeitungsverf8hren, bei dem der Schritt
1 weggelaSsen ist, ebenfalls mSglich.
-
Die Eigenschaftsvektoren ai zu den Zeitpunkten i (i 1, 2, ... und
I), die aus einem Sprachmuster herausgezogen sind, und Eigenschaftsmuster A, die
sich als Zeitfolge von ausdrücken lassen, sind folgendermaßen definiert:
ai
= (ai1, ai2, ... und aij) A = a1, a2, ... und aI Hierbei bezeichnen aij ( j = 1,
2, ... und J) Eigenschaftsparameterwerte, die den Filterbank-Ausgangssignalen des
j-ten Kanals zu den Zeitpunkten i entsprechen.
-
Schritt 1: Korrektur durch Logarithmieren Um Amplituden zu erhalten,
die der Schalleigenschaft-oder Struktur des Menschen angenähert sind, werden die
Eigenschaftsparameterwerte aij nicht-linearen Korrekturen unter Verwendung eines
Logarithmus unterworfen, dessen Basis 10, e o. dgl. sein kann.
-
Werte aij', die den Eigenschaftsparametern nach den Korrekturen entsprechen,
sind durch die nachstehende Gleichung gegeben: ij' = log (1 + aij/Ao) (1), wobei
Ao eine Konstante ist.
-
Die 1 (eins) in Gleichung (1) ist dazuaddiert worden, um abrupte
Schwankungen von aij' zu dem Zeitpunkt zu verhindern, wo aij/Ao dicht an O (null)
herankommt.
-
Schritt 2: Normierung in Zeitachsenrichtung Die allgemeine Normierung
in Richtung der Zeitachse wird für jeden Kanal in Richtung einer Frequenzachse durchgeführt.
-
Sei M. der maximale oder größte Wert unter den Werten 3 a1j, a2' ...
und aIj im j-ten Kanal in der Frequenzachsenrichtung, so sind die Eigenschaftsparameter
nach der Normierung aij", die den Eigenschaftsparametern aij entsprechen, durch
die nachstehende Gleichnung gegeben: aij" = aij'/Mj (2),
wobei Mj
= Max (aij', a2j, ... und aIj) (3).
-
Das Normierunys- oder Korrekturverfahren, bestehend aus den beiden
Schritten, hält die Größenrelationen der Eigenschaftsparameter in Richtung der Zeitachse
in der angegebenen Weise und ermöglicht außerdem den Erhalt der neuen Eigenschaftsparameter
aij, die wirklich wesentliche Eigenschaften ausdrücken, welche die ursprüngliche
Sprachinformation besitzt.
-
Man kann sagen, daß die Eigenschaftsparameter aij" wesentlich besser
sind als die Eigenschaftsparameter aij, ' und zwar in folgender Hinsicht: (a) Da
die Maßnahme eine Abbildung darstellt, bei der die Maximalwerte der Eigenschaftsparameter
in Richtung der Zeitachse auf einen identischen Pegel, z.B. den maximalen Pegel
1 im Falle der Normierung auf Werte 0 bis 1, für die entsprechenden Kanäle in Richtung
der Frequenzachse umgewandelt werden, werden die Schwankungen der Absolutwerte der
Eigenschaftsparameter absorbiert, die bislang problematisch waren.
-
Insbesondere kann gemäß der Normierung nur mit dem Schritt 2, d.h.
-
aij" = aij/Max (a1j, a2j, ... und aIj) die Unzulänglichkeit eintreten,
daß, obwohl die Schwankungen der Absolutwerte in einem Bereich klein sind, in dem
die Amplitudenwerte der Eigenschaftsparameter aij klein sind, die Schwankungen der
Relativwerte nach der Normierung groß werden. Die Korrekturen durch den Schritt
1 sind wirksam im Hinblick auf die Beseitigung dieser Unzulänglichkeit.
-
(ß) Die Normierung gemäß Schritt 2 ist eine Abbildung, bei der die
Eigenschaftsparameter der Sprache mit identischem Inhalt allgemeiner und definitiver
extrahiert werden als beim
Stande der Technik, und zwar auch im
Falle von unterschiedlichen Sprechern.
-
Die Maßnahme ist eine Transformation, gemäß der z.B.
-
die Anderungen der Eigenschaftsparameter in den çntsprechenden Kanälen
auf der Frequenzachse betont werden, oder umgekehrt, in dem Kanal, der die Eigenschaftsparameter
von kleinen Werten über die gesamte Zeitperiode hat, werden die Werte von aij" vergrößert,
wobei die kleinen Werte eine Eigenschaft oder ein Merkmal bilden.
-
(y) Die Normierung im Schritt 2, insbesondere in dem Falle, wo die
Ausgangswerte der Filterbank als Eigenschaftsparameter verwendet werden, ist wirksam,
um die Schwankungen in Richtung der Frequenzachse zu absorbieren, die Differenzen
zwischen den Sprechern zuzuschreiben sind, z.B. dem Einfluß der Formanten-Frequenzen
auf den benachbarten Kanälen zwischen den Sprechern.
-
Genauer gesagt, zum Zeitpunkt i, bei dem der Maximalwert der Eigenschaftsparameter
im j-ten Kanal auf der Frequenzachse gegeben ist, ist die Wahrscheinlichkeit hoch,
bei der die Eigenschaftsparameter in den benachbarten (j - 1)-ten und (j + 1)-ten
Kanälen maximiert werden. Somit sind die Eigenschaftsparameter nach dem Schritt
2 äquivalent zu einer Verringerung des Wertes Q für die Resonanzqualität in einer
Frequenzanalyse. Dies entspricht einer Verringerung der Schwankungen der Eigenschaftsparameter
auf der Basis der Differenz zwischen den Sprechern und liefert eine Maßnahme gegenüber
dem oben beschriebenen Nachteil (2).
-
Obwohl der Fall der Anwendung der erfindungsgemäßen Vorverarbeitung
auf die Filterbank-Ausgangswerte des Sprachmusters bislang im wesentlichen erläutert
worden ist, ist es auch möglich, die Anwendung der Vorverarbeitung bei den Auto-Korrelationskoeffizienten
und den partiellen Auto-Korrelationskoeffizienten vorzunehmen. Im Falle der Anwendung
auf die partiellen Auto-Korrelationskoeffizienten können beispielsweise die partiellen
Auto-Korrelationskoeffizienten einer zur An-
passung dienenden
Umkehrfilterung in Werte unterworfen unterworfen werden, die den Reflexionskoeffizienten
entsprechen, um damit eine Linearität für die Absolutwert-Schwankungen auszubilden.
-
Figur 2 zeigt ein Blockschaltbild einer Ausführungsform einer Schaltungsanordnung,
in der das erfindungsgemäße Vorverarbeitungsverfahren realisiert ist. Die Eigenschaftsparameter
aij, die aus einem Eingangssprachsignal erhalten werden, werden aus einem Eingangspuffer
21 in jedem Kanal i mit (a1j, a2j, ... und aIj) als 1-Block-Daten ausgelesen und
an eine logarithmische Transformationsschaltung 221 einer Schaltung 22 zur logarithmischen
Transformation und Normierung angelegt. Die Berechnung gemäß Gleichung (1) wird
in der logarithmischen Transformationsschaltung 221 ausgeführt, und die resultierenden
Blockdaten (a1j', a2j', ... und aIj') werden an eine Maximum-Abtastschaltung 223
und eine Normierungsschaltung 224 über eine Ausgangsleitung 222 angelegt.
-
Die Berechnung gemäß Gleichung (3) wird in der Maximum-Abtastschaltung
223 ausgeführt, und das Resultat Mj wird an die Normierungsschaltung 224 angelegt.
Die Berechnung gemäß Gleichung (2) wird in der Normierungsschaltung 224 durchgeführt,
und die resultierenden Blockdaten a1j", a2j", und a111) werden in einem Ausgangspuffer
23 gespeichert.
-
Die Berechnungsvorgänge der oben angegebenen Art werden gemäß Steuersignalen
ausgeführt, die von einer Steuerschaltung 24 geliefert werden, z.B. in der Reihenfolge
j = 1, 2, und J.
-
Die logarithmische Transformationsschaltung 221 in Figur 2 kann beispielsweise
aus einem Festwertspeicher oder ROM bestehen.
-
In diesem Fall können, unter Verwendung der Ausgangssignale des Eingangspuffers
21 als Adressensignale für den ROM, die Daten (a1j', a2j, ... und aIj) als berechnete
Resultate der Gleichung (1) in die Adressen (a1j, mi ... und aIj) eingeschrieben
werden, woraufhin sie gemäß Auslesesignalen ausge-
lesen werden
können, die von der Steuerschaltung 24 angelegt werden.
-
Wie in Figur 3 dargestellt, ist die Maximum-Abtastschaltung 223 aus
einem Subtrahierer 301 und einem Register 302 zum Speichern der subtrahierten Ergebnisse
aufgebaut. Sie kann die folgende Verarbeitung für i = 1, 2, ... und I durchführen.
-
Die Daten (aij') werden an den Subtrahierer 301 z.B. in der Reihenfolge
a1j', a2j', ... und aIj' angelegt die Subtraktionen hinsichtlich der im Register
302 gespeicherten Daten (R) durchgeführt. Nur wenn die Ungleichung aij - R >
O gilt, wird der Inhalt des Registers 302 erneuert und aij in das Register 302 neu
eingespeichert, und zwar in Abhängigkeit von einem Borge-Signal.
-
Die Normierungsschaltung 224 kann mit einem herkömmlichen Teiler
aufgebaut werden.
-
Die Berechnungen in der Schaltung 22 zur logarithmischen Transformation
und Normierung können auch auf Software-Basis durchgeführt werden.
-
Figur 4 zeigt ein Blockschaltbild zur Erläuterung einer Ausführungsform
eines Spracherkennungssystems, bei dem die erfindungsgemäße Schaltungsanordnung
gemäß Figur 2 verwendet wird. Die in Figur 2 dargestellten Teile sind dabei mit
gleichen Bezugszeichen versehen.
-
Ein Eingangssprachsignal wird einer Frequenzanalyse in einer Eigenschaftsauswerteschaltung
31 unterzogen. Eigenschaftsvektoren a1, a2, ... und aI, die als Resultat herausgezogen
werden, werden im Eingangspuffer 21 sequentiell in einer Zeitfolge gespeichert.
Die normierten Daten, die im Ausgangspuffer 23 durch Ausführung des unter Bezugnahme
auf Figur 2 erläuterten Vorganges gespeichert worden sind, werden an eine Erkennungsschaltung
34 angelegt. Andererseits werden normierte Standardmuster der Sprache nacheinander
aus einem Standardmusterspeicher 32 ausgelesen und eines von ihnen an die Erkennungsschaltung
34 über einen Standardmusterpuffer
33 angelegt.
-
In der Erkennungsschaltung 34 werden Gleichheitswerte zwischen den
normierten Daten, entsprechend dem Sprachmuster-Eingangssignal und dem normierten
Standardmuster berechnet, um die Erkennung vorzunehmen. Das Erkennungsresultat wird
einem Anschluß 35 zugeführt.
-
Figur 5 zeigt experimentelle Daten hinsichtlich der Differenzen von
Unterscheidungsgraden, die sich aus der Spracherkennung in den Fällen ergeben, wenn
man einerseits die erfindungsgemäßen Vorverarbeitungsverfahren und andererseits
herkömmliche Vorverarbeitungsverfahren einsetzt.
-
In Figur 5 bezeichnet die Abszissenachse den Gewichtswert für die
Erkennung, während die Ordinatenachse den Unterscheidungsgrad angibt, der gegeben
ist als das Verhältnis (S?/SZ) zwischen dem meisten Gleichheitswert (S1) und dem
zweiten Gleichheitswert (S>) zu der Zeit, wenn ein richtiges Erkennungsresultat
erhalten worden ist. Die Kurven (I) bis (III) entsprechen den Fällen der Durchführung
der jeweiligen folgenden Vorverarbeitungen, während die Kurve (IV) einem Fall entspricht,
bei dem ein herkömmliches Verfahren eingesetzt wird.
-
(I); aij" = log (1 + wobei Mj = Max {log (1 + a1j/A0), log (1 + a2j/A0),
bis log (1 + aIj/A0)}.
-
(II): aij" = log (1 + aij/A0).
-
(III): aij" = aij/Max (a1j, a2j, ... und aIj).
-
Aus den experimentellen Ergebnissen gemäß Figur 5 läßt sich entnehmen,
daß bei den erfindungsgemäßen Vorverarbeitungsverfahren die Unterscheidungsgrade
größer sind als die Werte, die mit anderen Verfahren erreicht werden, indem man
die
Gewichtswerte bei der Berechnung der Gleichheitswerte in richtiger Weise einsetzt.
-
Aus den obigen Ausführungen ergibt sich, daß es das erfindungsgemäße
Vorverarbeitungsverfahren ermöglicht, Eigenschaftsmuster in neue Eigenschaftsmuster
umzuwandeln, wobei die Eigenschaften der vorherigen Eigenschaftsmuster definitiv
herausgezogen werden. Die mit den Vorverarbeitungsverfahren erhaltenen Eigenschaftsparameter
haben eine gute Unterscheidbarkeit (die Reiheneigenschaften sind definitiv), und
sie sind wirksam, um die Zuverlässigkeit der Erkennung zu steigern. Diese Wirkung
läßt sich auch aus dem Ergebnis verifizieren, daß die Erkennungsrate in einem Spracherkennungssystem
steigern läßt, bei dem das Vorverarbeitungs-Normierungsverfahren eingesetzt wird.
-
Beim erfindungsgemäßen Verfahren wird somit folgender maßen vorgegangen:
Vor dem Herausziehen einer Vielzahl von Eigenschaftsmustern mit einer Vielzahl von
Eigenschaftsparametern in Richtung einer Zeitachse aus einem Sprachmustereingangssignal
in einer Zeitfolge und Erkennung des Sprachmuster-Eingangssignals unter Verwendung
der herausgezogenen Eigenschaftsparameter werden die Eigenschaftsparameter, die
das jeweilige Eienschaftsmuster bilden, einer Vorverarbeitung, wie z.B. einer logarithmischen
Transformation und Normierung mit einem Maximalwert unterworfen, um die Größenrelationen
unter ihren Werten aufrecht zu erhalten.