DE69414752T2 - Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes - Google Patents
Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen NetzesInfo
- Publication number
- DE69414752T2 DE69414752T2 DE69414752T DE69414752T DE69414752T2 DE 69414752 T2 DE69414752 T2 DE 69414752T2 DE 69414752 T DE69414752 T DE 69414752T DE 69414752 T DE69414752 T DE 69414752T DE 69414752 T2 DE69414752 T2 DE 69414752T2
- Authority
- DE
- Germany
- Prior art keywords
- word
- output
- words
- training
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000013528 artificial neural network Methods 0.000 title claims description 38
- 238000012549 training Methods 0.000 claims description 42
- 238000000034 method Methods 0.000 claims description 28
- 210000002569 neuron Anatomy 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 26
- 230000007704 transition Effects 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 14
- 230000000946 synaptic effect Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 5
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 210000004205 output neuron Anatomy 0.000 claims description 3
- 238000010183 spectrum analysis Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000012937 correction Methods 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000009434 installation Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 238000012351 Integrated analysis Methods 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000003710 cerebral cortex Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 210000000225 synapse Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Description
- Die Erfindung bezieht sich auf ein automatisches Spracherkennungsverfahren und betrifft speziell ein Verfahren zur sprecherunabhängigen Erkennung alleinstehender Wörter, bei dem neurale Netzwerke verwendet werden, wie es im Oberbegriff des Anspruchs 1 angegeben ist.
- Bekanntlich erfordert die Zurverfügungstellung vokaler Dienste auf einer Telefonleitung das Vorhandensein einer Installation, die mindestens ein kurzes Wörterbuch erkennt, das im allgemeinen einige zehn Wörter umfaßt, die vom Teilnehmer einzeln getrennt nacheinander ausgesprochen werden. Es ist auch bekannt, daß die Erkennung auf einer Fernsprechleitung zusätzliche Schwierigkeiten in Bezug auf die normale Erkennung mit sich bringt, da das Audiosignal eine niedrige Qualität aufweist, indem es in der Bandbreite begrenzt ist und durch Rauschen beeinträchtigt ist, das von der Koppel- und Übertragungsinstallation eingeführt wird.
- Die gegenwärtig stärker verwendete Erkennungstechnik fußt auf den sogenann ten Markov-Modellen, wie sie beschrieben sind im Artikel von D. B. Paul "Speech Recognition Using Hidden Markov Models", The Lincoln Laboratory Journal, Band 3, Nr. 1 (1990).
- Ein Markov-Modell beispielsweise von der Art, wie sie beschrieben ist von L. R. Rabiner im Artikel "An introduction to Hidden Markov Models", IEEE ASSP Magazine, Januar 1986, ist ein stochastischer Automat, der charakterisiert ist durch zwei Typen von Parametern: durch die Übergangswahrscheinlichkeiten von einem Zustand des Automaten zu einem anderen und durch die Wahrscheinlichkeiten für jeden Zustand, ein Eingangssymbol zu erkennen, was auch als die Emissionswahrscheinlichkeit für ein solches Symbol bezeichnet wird.
- Bei Anwendung auf die Spracherkennung wird die Automatenstruktur des Markov-Modells dadurch ausgewählt, daß eine bestimmte Zahl von Beschränkungen aufgrund der sequentiellen Natur der gesprochenen Sprache festgesetzt wird. So werden nur "Links-nach rechts"-Automaten in Betracht gezogen, bei denen in einen Zustand, nachdem er beendet ist, nicht wieder eingetreten werden kann, und alle Übergänge begrenzt sind auf die Recursion auf einen Zustand und den Übergang zum nächsten Zustand.
- Komplette Wörter werden somit moduliert durch Links-nach rechts-Automaten (mit Recursion zu Zuständen), bei denen jeder Zustand einem akustischen Wortteil entspricht, der während des Trainings automatisch determiniert wird. Die Zustände der verschiedenen Modelle werden durch die Wahrscheinlichkeit, einen Teil des Eingangsworts zu erkennen, charakterisiert.
- Die Worterkennung findet statt, indem eine dynamische Programmierung entsprechend dem Viterbi Algorithmus für alle Automaten durchgeführt wird, um so den Weg durch die Zustände zu finden, der die Erkennungswahrscheinlichkeit durch den Automaten, der sich auf das geprüfte Wort bezieht, maximiert. Der ermittelte Pfad ist der der minimalen Kosten und der Automat, bei dem dieser Pfad gefunden wurde, entspricht dem erkannten Wort.
- Die Markov-Modelle haben ein zufriedenstellendes Betriebsverhalten erreicht und sind nun die Basis für viele Spracherkennungssysteme. Hohe Grenzen für die Betriebsleistungen dieser Technik scheinen im wesentlichen erreicht zu sein und es besteht insoweit ein technisches Interesse, eine Verbesserung der Erkennungsqualität zu versuchen.
- Außerdem kann im Fall kontinuierlicher Markov-Modelle, bei denen die Emissionswahrscheinlichkeiten mit einer linearen Dichtekombination Gauß'scher Wahrscheinlichkeiten in einer Anzahl berechnet werden, die allgemein von 8 bis 16 je Zustand variiert, die Rechenbelastung sehr schwerwiegend werden.
- Die Erfindung betrifft ein Hybridverfahren, das sowohl für Markov-Modelle bereits verwendete Techniken als auch die neue Technologie neuraler Netze verwendet. Die Wortmodellierung mit Automaten und die Dekodierung mit dynamischer Programmierung werden wie bei den Markov-Modellen beibehalten, während die Emissionswahrscheinlichkeiten mit neuralen Netzen und die Übergangswahrscheinlichkeiten in einer anderen Weise, wie noch beschrieben wird, berechnet werden.
- Neurale Netze sind ein verteiltes Verarbeitungsprogramm, das in vereinfachter Form die Organisation der cerebralen Cortex wiedergibt. Ein neurales Netz ist ein paralleles Verarbeitungsmodell, das aus zahlreichen Verarbeitungseinheiten (Neuronen) aufgebaut ist, die mit Hilfe von Verbindungen unterschiedlicher Intensität (Synapsen) streng verbunden sind.
- Die Aktivität der einzelnen Einheit ist einfach eine nicht lineare Funktion der gewichteten Summe von Eingängen und die Modelleistung liegt in der Topologie der Verbindungen und in ihrer Intensität. Ausgehend von den Eingangseinheiten, an die Daten des zu lösenden Problems geliefert werden, schreitet die Verarbeitung im Netz parallel bis zu den Ausgangseinheiten, die das Ergebnis liefern, fort.
- Ein neurales Netz wird nicht programmiert, sondern wird durch eine Gruppe von Beispielen der zu modellierenden Realität trainiert. Neurale Netze sind beispielsweise im Buch von D. Rumelhart "Parallel Distributed Processing", Band 1, Foundations, MIT Press, Cambridge, Mass., 1986, beschrieben.
- Diese Technik erlaubt es, auf vielen Gebieten wie der Funktionsschätzung, der Video- und Sprachsignalklassifizierung, der industriellen Steuertechniken, der Vorhersage und Optimierung sehr gute Ergebnisse zu erzielen.
- Das Ziel des erfindungsgemäßen hybriden Erkennungsverfahrens ist es, sich der Charakteristiken des neuralen Netzes wie der niedrigen Rauschempfindlichkeit, der Klassifizierungsgenauigkeit, der Parallelverarbeitung zu bedienen, um die Erkennung zu verbessern und das Verfahren in Bezug auf Zeit und Speicher zu optimieren, obwohl einige konsolidierte Aspekte der Erkennungstechniken beibehalten werden wie die Wortmodellierung mit Automaten und die dynamische Programmierung zur Dekodierung der Wörter.
- Die Hauptvorteile des hybriden Erkennungsverfahrens sind folgende: Erhöhung der Erkennungsgenauigkeit aufgrund der Verwendung zusammenhangbezogener Information und der Anwendung eines diskriminanten Trainings, das typisch für neurale Netze ist; und eine hohe potentielle Effizienz des entsprechenden Systems aufgrund des Eigen-Parallelismus des neuralen Modells, das durch spezielle Bauteile wie vektorielle Prozessoren, digitale oder analoge VLSI-Chips für neurale Netzwerke, implementiert werden kann.
- Hybride Erkennungssysteme, die verborgene Markov-Modelle in Verbindung mit neuralen Netzen verwenden, sind in GB 2230370-A und GB 2240203-A beschrieben. Das erstere Dokument schlägt die Durchführung einer ersten Analyse mit verborgenen Semi-Markov-Modellen und eine zweite Analyse mit einem neuralen Netz nur dann, wenn der Konfidenzpegel fällt, vor. Das zweite Dokument schlägt die Verwendung eines neuralen Netzes zum Wiederherstellen der Liste von Wörtern oder Phonemen vor, die von den verborgenen Markov-Modellen wiedergegeben werden. Im Gegensatz zu diesen Dokumenten zum Stand der Technik schafft die vorliegende Erfindung ein Verfahren, bei dem eine integrierte Analyse durchgeführt wird und das neurale Netz die Emissionswahrscheinlichkeit der Markov-Zustände bestimmt.
- Gegenstand der vorliegenden Erfindung ist es, ein Verfahren zur sprecherunabhängigen Erkennung alleinstehender Wörter unter Verwendung neuraler Netze anzugeben, wie es im kennzeichnenden Teil von Anspruch 1 beschrieben ist.
- Die vorgenannten und weitere Merkmale der Erfindung werden veranschaulicht durch die folgende Beschreibung eines bevorzugten Ausführungsbeispiels eines das Verfahren ausführenden Systems, angegeben als nicht begrenzendes Beispiel, und durch die anhängenden Zeichnungen. Es zeigen:
- - Fig. 1 einen funktionellen Blockschaltplan des Systems;
- - Fig. 2 die spezifische Realisierung der vollständige Wörter modellierenden Automaten;
- - Fig. 3 den in Fig. 1 mit RNA bezeichneten Block;
- - Fig. 4 ein Beispiel von Emissionswahrscheinlichkeiten für alle Automatenzustände, die sich auf die zehn italienischen Ziffern ('zero', ..., 'nove' = 0, ..., 9) beziehen, bei Vorhandensein des Worts 'sette' (7);
- - Fig. 5 ein Ablaufdiagramm der Operationen, die zum Trainieren des erfindungsgemäßen Erkennungssystems erforderlich sind.
- Das in Fig. 1 gezeigte Erkennungssystem empfängt von einer Fernsprechleitung LT oder von einer analogen Quelle kommend am Eingang die Sprachsignale, die aus getrennten, alleinstehenden Wörtern bestehen, sowie Rauschen und unterwirft diese Signale einer Folge von Operationen.
- Die erste von einem Modul SP mit bekannten Charakteristiken durchgeführte Operation erlaubt die Extraktion der Parameter, die das Sprachsignal charakterisieren. Sie besteht aus der Spektralanalyse des Signals, die auf kritischen Bandbreiten des menschlichen Hörsystems durchgeführt wird. Das Signal wird zunächst mit einer Abtastrate von 8 kHz digitalisiert und alle 10 ms durch die schnelle Fourier-Transformation analysiert. Das Ergebnis der Spektralanalyse wird dann einer Orthogonal- Transformation (Cosinustransformation) unterworfen, um zwölf sogenannte Cepstral- Parameter zu erhalten. Der Logarithmus der Gesamtenergie, die in jedem Zeitintervall von 10 ms enthalten ist, wird außerdem berechnet. Zu diesen 13 Werten werden ihre numerischen Ableitungen hinzugefügt, wodurch für jedes Zeitintervall 26 Parameter erhalten werden.
- Das nächste Modul ED ist eine Vorrichtung, die angenähert die Wortenden feststellt und das Wort von der es umgebenden Stille trennt. Die Vorrichtung arbeitet auf der Basis des Parameters, der sich auf die gesamte Energie des Sprachsignals bezieht, die vom vorhergehenden Block geliefert wird, und gibt ein Signal ab, das zum Aktivieren des nächsten Blocks RNA verwendet wird. Dieser ist ein Erkenner, der auf dem erfindungsgemäßen Hybridmodell basiert und das im weiteren Verlauf im einzelnen beschrieben wird. Die Angaben über erkannte Wörter treten am Ausgang PR des Blocks RNA auf.
- Der Erkenner RNA ist ein Hybridmodell, wozu schaltungsgemäß die Wortmodellierung gehört, und verwendet Links-nach rechts-Automaten der Markov-Modell Technik, während die Emissionswahrscheinlichkeit der Zustände, nämlich die Wahrscheinlichkeit, daß ein Zustand einen Eingangsabschnitt als dazugehörig erkennt, von einem mehrschichtigen rückgekoppelten (rekurrenten) Wahrnehmungs-Neuralnetz (Perceptron) geschätzt wird.
- In Fig. 2 ist eine spezifische Ausführungsform der Automaten dargestellt, die komplette Wörter modellieren, um mit dem erfindungsgemäßen System eine Erkennung durchzuführen.
- Zum Erkennen alleinstehender Wörter wird jedes Wort aus einem Automaten aufgebaut, der eine zentrale Sequenz von Zuständen enthält, die zum Wort gehören und mit Zahlen von 3 bis 7 bezeichnet werden, und denen ein anfänglicher Schweigezustand 2 und ein schließlicher Schweigezustand 8 vorhergehen bzw. folgen, wobei diese Zustände spezifisch für das Wort sind und den Übergang Schweigen Wort und Wort- Schweigen enthalten.
- Während der Erkennung werden zwei weitere allgemeine Hintergrundrausch- Zustände 1 und 9 am Beginn bzw. am Ende des Automaten hinzugefügt, um breitere Schweigeteile zu erhalten, die das Wort und Zischgeräusche sowie eingestreutes Rauschen umgeben. Wie der Figur zu entnehmen ist, haben die Automatenzustände eine Rückkopplung auf sich selbst außer dem Übergang zum nächsten Zustand.
- In Fig. 3 ist der Block RNA dargestellt, der ein mehrschichtiges neurales Perzeptionsnetz umfaßt, und zwar von dem im schon erwähnten Buch von D. Rumelhart "Parallel Distributed Processing" beschriebenen Typ, dessen Eingang ein Fenster des vorverarbeiteten Sprachsignals, also ein Fenster von Cepstral-Parametern ist und dessen Ausgänge die Emissionswahrscheinlichkeiten der Zustände der Wortmodelle, die mit M1, ..., Mk, ..., Mn bezeichnet sind, sind.
- Die Einheiten jeder Ebene des neuralen Netzes sind vollständig mit den Einheiten der vorhergehenden Ebene über synaptische Gewichtungen verbunden. Der Ausgang oi des einzelnen Neurons i ist gegeben durch die gewichtete Summe seiner Eingänge θj, zu der ein konstanter Wert θi , der typisch für das Neuron ist, addiert ist. Die Summe wird dann einer sigmoiden, also S-Kurven-mäßigen Transformation F (x) gemäß der folgenden Formel unterworfen:
- wobei wij die synaptische Gewichtung der Verbindung vom Neuron j zum Neuron i ist.
- Das im vorliegenden System verwendete neurale Netz ist von der Rückkopplungs-Mehrschicht-Perceptron-Art, also mit einer Rückkopplung versehen. Es umfaßt auch eine Ebene FL, die zur Zeit t + 1 den Inhalt der internen Ebene HL zur Zeit t enthält. Dieser Inhalt kehrt eingangsseitig zur internen Ebene HL zurück, so daß also ein System mit Rückkopplung geschaffen ist, das in der Lage ist, sich eines Speichers der vorhergehenden Zustände zu bedienen.
- Der Eingang des Blocks RNA in der Ebene IL ist ein Fenster, das sieben Zeitintervalle von je 10 ms umfaßt (es eignen sich 3 bis 9 Intervalle), und zwar der cepstralen Parameter, die vom Block ED (Fig. 1) geliefert werden; dem Fenster folgt eine Ebene verborgener Einheiten HL, die mit einer Rückkopplung versehen sind, und eine Ausgangseinheit-Ebene OL, von der das geeignet kodierte Ergebnis gelesen wird. Die Ausgangseinheiten entsprechen sich eins-zu-eins mit den Zuständen aller Automaten M1, ..., Mn, die zum Modellieren der Wörter im verwendeten Wörterbuch gebraucht werden.
- Der (von 0 bis 1 reichende) Ausgang dieser Einheiten ergibt einen Schätzwert für die Emissionswahrscheinlichkeit des Zustands.
- Das Vorhandensein eines Fensters mit einer Amplitude gleich sieben Zeitintervallen von 10 ms am Eingang des neuralen Netzes erlaubt es, einen Teil des Sprechsignals mehr in Betracht zu ziehen als den von den Markov-Modellen betrachteten Teil, die mit einem Fenster einer Amplitude von 10 ms arbeiten. Dies stellt einen Vorteil dar, da es die Erkennung erleichtert.
- Die Rückkopplung ermöglicht auch die Verwendung einer zusammenhangbezogenen Information, indem sie es dem neuralen Netz ermöglicht, sich an die Teile des bereits analysierten Worts 'zu erinnern', um die Erkennung des getesteten Schalls zu erleichtern. Genauer dargestellt, hängt die Wahrscheinlichkeit der Emission eines Zustands nicht nur vom gegenwärtigen Eingangssignal ab, sondern auch von den Eingangssignalen zu den vorhergehenden Zeitpunkten. Dies kann sehr nützlich sein bei der Unterscheidung ähnlicher Laute, die in verschiedenen Wörtern vorkommen (wie des Lauts 'E' in den italienischen Zahlwörtern 'DUE' - 2- bzw. 'TRE' - 3 -) oder im selben Wort (wie die beiden 'O' in 'OTTO' - 8 -), jedoch in unterschiedlichem Zusammenhang. Beispielsweise bewirkt die zusammenhangbezogene Information, daß der Zustand entsprechend dem 'O' von 'ZERO' nur in diesem Zusammenhang aktiviert wird und nicht jedesmal, wenn es am Eingang den Laut 'O' gibt, wie in 'UNO' - 1, 'NOVE' - 9 - usw.
- Für ein besseres Verständnis sei auf Fig. 4 hingewiesen, die die Aktivierung von Ausgangsneuronen in einem bereits trainierten neuralen Netz zeigt, das an der Erkennung eines Worts arbeitet ('SETTE' - 7 - in diesem Beispiel).
- Auf der Ordinate sind die Zustände der 10 Automaten aufgetragen, entsprechend der Aussprache der italienischen Zahlwörter der Ziffern von 'ZERO' - 0 - bis 'NOVE' - 9 -, von denen jede eine Anzahl von Zuständen zwischen 5 und 8 umfaßt, wobei die Ziffern in einer Aufeinanderfolge von oben nach unten dargestellt sind. Auf der Abszisse ist die Zeit, in eine Anzahl von 10-ms-Intervallen unterteilt, aufgetragen. Die Größe der Punkte ist direkt proportional den Wahrscheinlichkeitswerten, die vom neuralen Netz geschätzt werden.
- Es ist ersichtlich, daß außer den Zuständen des korrekten Automaten, der dem Wort 'SETTE' - 7 - entspricht, nur die ersten Zustände des Automaten 'SEI' - 6 - aktiviert werden, während die Zustände der anderen Automaten praktisch deaktiviert sind, d. h. sie haben praktisch keine Wahrscheinlichkeit, obwohl diese Automaten Laute enthalten, die in 'SETTE' enthalten sind, wie z. B. ein 'E' oder ein 'T'.
- Das Trainieren des Erkennungssystemes, basierend auf einer Gruppe von bereits klassifizierten Trainingswörtern, muß erfolgen, bevor das System für die Erkennung verwendet wird. Während des Trainingszustands muß der Block RNA zwei Operationen gleichzeitig durchführen: eine besteht aus der Feststellung einer geeigneten Abschnittbildung oder Segmentierung für jedes Wort, indem man jedem Zustand des Automaten, der das Wort modelliert, einen bestimmten Wortteil zuteilt; die zweite besteht daraus, das neurale Netz dazu zu trainieren, Wortteile, die den verschiedenen Zuständen zugeordnet sind, korrekt zu erkennen, wobei in diesem Fall eine hohe Wahrscheinlichkeit für den korrekten Zustand und eine niedrige Wahrscheinlichkeit für die anderen Zustände abgegeben wird. Bekanntlich ist die Wort-Abschnittbildung der Vektor von Zustands-Endepunkten. Beispielsweise entspricht die Abschnittsbildung St = (6 10 18 22 30) einem Wort, das von einem 5-Zustand-Automaten modelliert wird, von denen der erste die ersten sechs 10-ms-Zeitintervalle des Worts, der zweite die Intervalle von 7 bis 10, der dritte die Intervalle von 11 bis 18 usw. übernimmt.
- Das Trainieren wird teilweise nach bereits bekannten Verfahren verwirklicht, es enthält jedoch Abwandlungen und Hinzufügungen, die die Erfindung kennzeichnen und die einen brauchbaren Betrieb des eigentlichen Trainings bewirken. Auf diese Weise kann das neurale Netz dazu verwendet werden, die alleinstehenden Wörter mit guter Betriebsleistung zu erkennen.
- Das Trainieren des neuralen Netzes besteht darin, daß man die Gewichtungen wij des Netzes so modifiziert, daß die korrekte Eingangs-Ausgangs-Transferfunktion realisiert wird, die auf einem als Trainingssatz bezeichneten jeweiligen Paar < Eingangsvektor, Ausgangsvektor> basiert. Die Eingangsvektoren sind aus segmentierten Wörtern zusammengesetzt und werden in der Form von Cepstral-Parametern aufgezeichnet, die in einer Datenbasis mit optimalen Charakteristiken für das Training abgerufen werden.
- Die Ausgangsvektoren, die im folgenden als objektive Vektoren bezeichnet werden, sind in später beschriebener Weise zweckmäßig aufgebaut. Nach Ende des Trainings werden die erhaltenen synaptischen Gewichtungen in einem Speicher gespeichert und dann zum Erkennen der von der Fernsprechleitung empfangenen Wörter verwendet.
- Die im Ablaufdiagramm von Fig. 5 gezeigten Schritte des Trainingsverfahrens des Blocks RNA sind die folgenden:
- a. Initialisierung des neuralen Netzes mit kleinen zufälligen synaptischen Gewichtungen;
- b. Erzeugung der ersten Abschnittbildung durch gleichförmige Segmentierung der Wörter des Trainingssatzes;
- 1. Initialisierung des Trainingssatzes mit allen segmentierten Wörtern;
- 2. Zufallswahl eines nicht bereits erlernten Worts, wobei ein Wort als erlernt angesehen wird, wenn der mittlere Fehler für dieses Wort ausreichend niedrig ist;
- 3. Fortschreiben der synaptischen Gewichtungen wij für das betrachtete Wort durch Anwenden eines Trainings der fehlerrückwärtsschreitenden Art, das in später im einzelnen beschriebener Weise geeignet modifiziert ist; nämlich unterwirft man das Eingangssignal des neuralen Netzes Veränderungen gemäß einem Fenster, das von links nach rechts über das Wort gleitet, und für jedes Eingangsfenster wird ein geeigneter objektiver Vektor am Ausgang geliefert, der der gewünschte Wertevektor ist und dadurch konstruiert wird, daß eine 1 auf das Neuron gesetzt wird, das dem Zustand entspricht, zu dem das Eingangsfenster gemäß der laufenden Abschnittbildung gehört, und 0 auf alle anderen Neuronen gesetzt wird;
- 4. Erneute Berechnung der Abschnittbildung für das betrachtete Wort unter Verwendung des insoweit trainierten neuralen Netzes, und Durchführung der dynamischen Programmierung nur mit dem korrekten Modell;
- 5. Fortschreiben der laufenden Abschnittbildung St+1 gemäß einer später beschriebenen Gleichung;
- 6. Falls es noch nicht untersuchte Wörter im Trainingssatz gibt, Gehen zum Schritt 2;
- 7. Erneute Berechnung von Übergangswahrscheinlichkeiten der Automaten, wie später beschrieben wird;
- 8. Sofern die Zahl der Iterationen am Trainingssatz größer ist als eine gegebene Maximalzahl NMAX, Beendigung, andernfalls Gehen zum Schritt 1.
- Die auf den Wort-Abschnittbildungen beruhende Konstruktion der objektiven Vektoren und die Fortschreibung der Abschnittsbildung werden realisiert durch einen Hilfsteil des Lernalgorithmus. Genauer dargestellt, wird die Abschnittbildung bei jeder Iteration in der folgenden Weise teilweise modifiziert: Es sei St die Abschnittbildung eines Worts zur Zeit t, St+1 die Abschnittbildung bei der nächsten Iteration, und S't die Abschnittbildung desselben Worts, das vom bis jetzt (Schritt 4) trainierten neuralen Netz wiederberechnet worden ist; wenn dann St (k) das k-te Element der Abschnittbildung zur Zeit t ist, dann ist die Abschnittbildung zur nächsten Zeit t + 1 entsprechend der folgenden Formel geändert:
- St+1(k) = St(k) + rund [α(S't(k) - St (k))]
- wobei die "rund"-Funktion das Argument auf die nächste ganze Zahl aufrundet und α von nach 1 - unter Befolgung des sigmoiden Gesetzes übergeht:
- mit
- wobei t die gegenwärtige Zeit ist (Zahl der Iterationen im Trainingssatz), N die Zahl der Iterationen des Trainingssatzes bei zu veränderndem Parameter α ist, und der Variationsbereich von α ist, wobei 0 < < 0,5.
- Eine weitere Möglichkeit besteht darin, α entsprechend einem linearen Gesetz ansteigen zu lassen.
- Diese Verfahren bringen eine langsame Änderung der Abschnittbildung mit sich, so daß es eine graduelle Entwicklung von der gleichförmigen Anfangs-Abschnittbildung zur korrekten Abschnittbildung gibt, wobei man mit dem Trainieren des neuralen Netzes Schritt hält. Dieses Verfahren ist nützlich für ein gutes Ergebnis des Trainings des Erkennungssystems.
- Was die Modifizierungen der Gewichtungen betrifft, sieht die Erfindung die Anwendung eines Algorithmus ähnlich dem als "Fehler-Rückleitung" ("error backpropagation") bezeichneten Algorithmus vor, der von Rumelhart im genannten Buch beschrieben wird und der die Differenz zwischen dem gewünschten Ausgangssignal und dem tatsächlichen Ausgangssignal, also den Fehler, zum Modifizieren der Netzgewichtungen zum Minimieren dieses Fehlers auswertet. Diese Art des Trainings, das diesen modifizierten Algorithmus anwendet, wird im folgenden als "Korrelatives Training" bezeichnet.
- Im allgemeinen wurde, wenn es am Eingang mehrere zu unterscheidende Klassen und einen Abtastwert gibt, das Ausgangssignal der korrekten Klasse auf 1 für den Abtastwert und auf 0 für alle anderen Werte gesetzt. Dies war zulässig, wenn alle Klassen gut getrennt waren. Im vorliegenden Fall liegen die Verhältnisse jedoch anders, beispielsweise kann es in verschiedenen Wörtern verschiedene Zustände geben, die dem selben Laut entsprechen (z. B. S-E in SEI und in SETTE). Es ist also möglich, daß das selbe Eingangssignal gleichzeitig mehrere Zustände aktivieren muß. Hierfür muß das streng diskriminante Training des neuralen Netzes per Klassifikation modifiziert werden, mit der Vorschrift, daß nur eine einzige Klasse (ein Zustand) zu einer Zeit aktiv sein soll. Das Korrelative Training erlaubt die Hervorhebung der Korrelationen, die natürlicherweise zwischen Wortzuständen existieren, wobei versucht wird, diese soweit als möglich zu unterscheiden, ohne jedoch zu insistieren, wenn dies schwierig wird, da dies die Erzeugung von mangelhaft gebildeten Zuständen oder die reziproke Löschung von Zuständen, die einander zu ähnlich sind, mit sich bringen würde.
- Mehr ins einzelne gehend, modifiziert das Korrelative Training den Standardalgorithmus der Fehler-Rückleitung gemäß den folgenden Schritten:
- 1. Betrachtung des Eingangswert Vektors X und des gewünschten Vektors (objektiven Vektors) T;
- 2. Positionieren der Eingangswerte auf Eingangseinheiten;
- 3. Ausführen des Netzes durch Weiterleiten in Vorwärtsrichtung dieser Werte von den Eingangseinheiten bis zu Ausgangseinheiten und Erhalten des Ausgangsvektors O gemäß den bekannten Formeln:
- oi = F(neti) mit
- wobei oi der Ausgang eines allgemeinen Neurons i in der Ausgangsebene des Netzes (und somit die i-te Komponente des Ausgangsvektors O) ist und θi ein konstanter Wert, der typisch für das Neuron ist, ist;
- 4. Berechnen des Fehlers E, der als quadratischer Fehler zwischen dem Ausgangsvektor O und dem Ziel-Vektor T definiert ist, gemäß der Formel:
- wobei der Gegenstand definiert ist gemäß der Korrelationsformel von Ausgängen:
- tk = ok · oh wenn tk ≠ 1 und th = 1
- tk unverändert wenn tk = 1
- wobei tk und th das k-te und das h-te Element des objektiven Vektors T und ok und oh die Ausgänge des k ten und des h-ten Neurons der Ausgangsebene des Netzes sind;
- 5. Berechnen der Teilableitung
- des Fehlers in Bezug zu den
- Gewichtungen, die in der Fortschreibungsgleichung der synaptischen Gewichtungen
- verwendet wird, wobei wij die synaptische Gewichtung vom Neuron j zum Neuron i ist, η ein Koeffizient ist, der die Lerngeschwindigkeit bestimmt, β ein Koeffizient ist, der als Moment bezeichnet wird und die Trägheit beim Fortschreiben der Gewichtung bestimmt, δi der zurückgeleitete Fehler am Neuron i ist und oj der Ausgang des Neurons j in der Ausgangsebene des Netzes ist; ausgehend vom im Schritt 4 definierten Fehler, werden die neuen Fehlerrückleitungs-Gesetze für das Korrelative Training erhalten, die folgendermaßen definiert sind:
- für Ausgangsneuronen:
- δi= (ti - oi) F'(neti) wenn ti = 1
- δi= -oi (oh - 1)² F'(neti) wenn ti ≠ 1 th = 1;
- für innere Neuronen:
- wobei F'(neti) die erste Ableitung von F(neti) ist und der Index k sich auf Neuronen der oberen Ebene bewegt;
- 6. Fortschreiben jeder synaptischen Gewichtung wij gemäß der Gleichung:
- Diese Variation des Fehler-Rückführungs-Algorithmus zum Realisieren des Korrelativen Trainings ist ein Teil der vorliegenden Erfindung und ist notwendig, um die Trainingsstufe des Erkennungssystems in nutzvoller Weise durchzuführen.
- Eine weitere wichtige Charakteristik des hybriden Erkennungsverfahrens ist das Verfahren zum Modellieren von Übergangswahrscheinlichkeiten von Automatenzuständen. Das Ziel des vorgeschlagenen Verfahrens sieht vor, daß nur Minimum-Zeitdauern der Zustände gemäß der bewährten Hypothese modelliert werden, wonach die Sprech- Erscheinungen eine Minimumdauer haben, die durch die mechanischen Grenzen der sie erzeugenden anatomischen Vorrichtungen gegeben ist; die maximalen Zeitdauern sind jedoch erheblich variabel, da sie eine Funktion der Sprechgeschwindigkeit sind, die von den persönlichen Charakteristiken und von den emotionalen Situationen der Sprecher abhängen. Das Modellieren der Minimum-Zeitdauern der Zustände hat den Zweck, die Erkennung zu verbessern, wobei verhindert wird, daß der beste Pfad eines Automaten für eine zu kurze Zeit in einem Zustand bleibt, der einer akustischen Erscheinung entspricht, die jedenfalls eine bestimmte zeitliche Dauer in Anspruch nimmt.
- Wie Fig. 2 zeigt, haben die die Wörter modellierenden Automatenzustände einen Rückkehrweg zu sich selbst und einen Übergang zum nächsten Zustand. Die Rückkehrwahrscheinlichkeit kann maximale Zeitdauern modellieren, da sie auf die Verweilzeit in dem Zustand wirkt. Da die Modellierung der maximalen Zeitdauern nicht erforderlich ist, wird die Rückkehrwahrscheinlichkeit auf 1 gesetzt. Die Übergangswahrscheinlichkeit kann Modell-Minimumzeitdauern modellieren, da sie auf den Ausgang von dem Zustand wirkt. Eine Übergangswahrscheinlichkeit, die von der Verweilzeit im Zustand abhängt, wird dazu verwendet, Minimumzeitdauern zu modellieren. Um dies durchzuführen, führen wir einen Parameter K ein, der eine Maximalzahl von Verweilzeiten in einem Zustand angibt, für den die Übergangswahrscheinlichkeiten berechnet werden. Ein brauchbarer Wert von K kann im Bereich von 2 bis 6 liegen.
- Die Wahrscheinlichkeit des Übergangs zum Zustand i + 1 des Worts w zur Zeit t + 1 hängt, unter der Annahme, daß sie zur Zeit t im Zustand i ist, ausgedrückt als PT (Sw,i+1 (t + 1) Sw,i (t)), vom Zustand ab, dem sie zugeordnet ist, oder von der Verweilzeit in dem Zustand; Sw,i ist der Zustand i des Worts w, und t ist die Verweilzeit in dem Zustand, ausgedrückt als Zahl von 10-ms-Zeitintervallen.
- Die Übergangswahrscheinlichkeit wird in folgender Weise berechnet:
- wobei "min" die Funktion ist, die das Minimum zwischen dem betrachteten Bruch und 1 wiedergibt, und
- In dieser letzteren Gleichung ist Freq (Sw,i (h)) die Zahl von Wörtern, die in Sw,i für h Male verbleiben.
- Die so formulierten Übergangswahrscheinlichkeiten werden für jeden Zustand jedes Wortmodells während der Trainingsphase des Erkennungssystems berechnet und werden in nützlicher Weise während des Betriebs des Systems verwendet, wobei sie dessen Erkennungsleistung verbessern.
- Es ist bekannt, wie die Parameter des Lernalgorithmus des neuralen Netzes (Fehler-Rückmeldung) sehr empfindlich sind und daß es notwendig ist, sie passend zu eichen.
- Beim Trainieren des zur Durchführung des Erkennungsverfahrens verwendeten neuralen Netzes können die folgenden Parameter mit Vorteil verwendet werden:
- - Moment β = 0,2;
- - Zahl der akkumulierten Korrekturen, bevor sie tatsächlich auf Gewichtungen angewandt werden (Chargengröße) = 10;
- - Lerngeschwindigkeit η linear abnehmend von 0,1 bis 0,001.
- Es ist klar, daß das Beschriebene nur als nicht begrenzendes Beispiel angegeben wurde. Änderungen und Modifikationen sind möglich, ohne den Umfang der Ansprüche zu verlassen.
Claims (8)
1. Verfahren zur sprecherunabhängigen Erkennung alleinstehender Wörter, bei
dem das Eingangs-Sprachsignal digitalisiert und in konstanten Zeitintervallen
einer Spektralanalyse durch Anwendung der schnellen Fourier-Transformation
unterworfen wird, das Analyseergebnis zum Erhalten von Cepstral-Parametern
einer orthogonalen Transformation unterworfen wird und der Logarithmus der
in jedem Zeitintervall enthaltenen Gesamtenergie berechnet wird, woraufhin die
numerischen Ableitungen dieser Werte berechnet werden, wodurch man die
charakteristischen Parameter des Sprachsignals für jedes Zeitintervall erhält,
wobei die Wortenden durch die Energiehöhe des Signals festgestellt werden
und das Wort von einem Erkenner (RNA) analysiert wird, in dem vollständige
Wörter mit Markovmodell-Automaten der Art "von links nach rechts" mit
Rekursion auf die Zustände modelliert werden, von denen jeder einem
akustischen Teil des Worts entspricht, und die Erkennung durch eine dynamische
Programmierung gemäß dem Viterbi-Algorithmus an allen Automaten zum
Herausfinden des Automaten mit dem Pfad des Kostenminimums durchgeführt
wird, der dem am Ausgang (PR) angezeigten erkannten Wort entspricht, wobei
die Emissionswahrscheinlichkeiten mit einem neuronalen Netz mit
Rückkopplung berechnet werden, das speziell trainiert wurde, und die
Übergangswahrscheinlichkeiten in unterschiedlicher Weise berechnet werden, und wobei das
Trainingsverfahren dadurch gekennzeichnet ist, daß es die folgenden
Operationen umfaßt:
Initialisierung:
a. Initialisierung des neuronalen Netzes mit kleinen zufälligen
synaptischen Gewichtungen;
b. Erzeugung der ersten Abschnittbildung durch gleichförmige
Segmentierung der Wörter des Trainingssatzes;
Iteration:
1. Initialisierung des Trainingssatzes mit allen segmentierten Wörtern;
2. Zufallswahl eines nicht bereits erlernten Worts, wobei ein Wort als
erlernt angesehen wird, wenn der mittlere Fehler für dieses Wort
ausreichend niedrig ist;
3. Fortschreiben von synaptischen Gewichtungen wij für das betrachtete
Wort durch Anwenden eines Trainings der rückwärtsschreitenden Art,
wobei für die Modifikation der Netzgewichtungen der Fehler zwischen
dem gewünschten Ausgangssignal und dem tatsächlichen
Ausgangssignal minimalisiert wird und speziell das Eingangssignal des neuronalen
Netzes gemäß einem Fenster zur Veränderung gebracht wird, das von
links nach rechts über das Wort gleitet, und für jedes Eingangsfenster ein
geeigneter objektiver Vektor am Ausgang geliefert wird, der dadurch
konstruiert wird, daß eine 1 auf das Neuron gesetzt wird, das dem
Zustand entspricht, zu dem das Eingangsfenster gemäß der laufenden
Abschnittbildung gehört, und 0 auf alle anderen Neuronen gesetzt wird;
4. Erneute Berechnung der Abschnittbildung für das betrachtete Wort
unter Verwendung des insoweit trainierten neuronalen Netzes, und
Durchführung einer dynamischen Programmierung nur mit dem korrekten
Modell;
5. Fortschreiben der laufenden Abschnittbildung St+1;
6. Falls es noch nicht untersuchte Wörter im Trainingssatz gibt, Gehen
zum Schritt 2;
7. Erneute Berechnung von Übergangswahrscheinlichkeiten der
Automaten;
8. Sofern die Zahl der Iterationen am Trainingssatz größer ist als eine
gegebene Maximalzahl NMAX, Beendigung, oder Gehen im anderen Fall
zum Schritt 1.
2. Verfahren zur sprecherunabhängigen Erkennung alleinstehender Wörter nach
Anspruch 1, dadurch gekennzeichnet, daß das zum Fortschreiben der
synaptischen Gewichtungen wij angewandte Training die folgenden Schritte umfaßt,
die für jeden Abtastwert des Trainingssatzes wiederholt werden:
1. Betrachtung des Eingangswert Vektors X und des objektiven Vektors
T;
2. Positionieren der Eingangswerte auf die Eingangseinheiten;
3. Ausführen des Netzes durch Weiterleiten in Vorwärtsrichtung dieser
Werte von Eingangseinheiten bis zu Ausgangseinheiten und Erhalten des
Ausgangsvektors O gemäß den bekannten Formeln:
oi = F (neti) mit
wobei oi der Ausgang eines allgemeinen Neurons i in der Ausgangsebene
des Netzes und somit die i-te Komponente des Ausgangsvektors O ist
und θi ein konstanter Wert, der typisch für das Neuron ist, ist;
4. Berechnen des Fehlers E, der als quadratischer Fehler zwischen dem
Ausgangsvektor O und dem objektiven Vektor T definiert ist, gemäß der
Formel:
wobei der Gegenstand definiert ist gemäß der Korrelationsformel von
Ausgängen:
tk = ok · oh wenn tk ≠ 1 und th = 1
tk unverändert wenn tk = 1
wobei th und tk das h-te und das k-te Element des objektiven Vektors und
ok und oh die Ausgänge des k ten und des h-ten Neurons der
Ausgangsebene des Netzes sind;
5. Berechnen der Teilableitung
des Fehlers in Bezug zu den
Gewichtungen, die in der Fortschreitungsgleichung der synaptischen
Gewichtungen
verwendet wird, wobei wij die synaptische Gewichtung vom Neuron j zum
Neuron i ist, η ein Koeffizient ist, der die Lerngeschwindigkeit bestimmt,
β ein Koeffizient ist, der als Moment bezeichnet wird und die Trägheit
beim Fortschreiben der Gewichtung bestimmt, δi der zurückgeleitete
Fehler am Neuron i ist und oj der Ausgang des Neurons j in der
Ausgangsebene des Netzes ist; ausgehend vom im Schritt 4) definierten
Fehler, werden die neuen Fehlerrückleitungs-Gesetze für das Training
erhalten, die folgendermaßen definiert sind:
für Ausgangsneuronen:
δi = (ti - oi) F'(neti) wenn ti = 1
δi = -oi (oh - 1)² F' (neti) wenn ti ≠ 1 th = 1;
für innere Neuronen:
wobei F'(neti) die erste Ableitung von F(neti) ist und der Index k sich auf
Neuronen der oberen Ebene bewegt;
6. Fortschreiben jeder synaptischen Gewichtung wij gemäß der Gleichung:
3. Verfahren zur sprecherunabhängigen Erkennung alleinstehender Wörter nach
Anspruch 1 oder 2, dadurch gekennzeichnet, daß die
Übergangswahrscheinlichkeit in den Zustand i + 1 des Worts w zur Zeit t + 1 unter der
Voraussetzung, daß der Zustand i zur Zeit t herrscht, folgendermaßen berechnet wird:
wobei min die Funktion ist, die das Minimum zwischen dem betrachteten
Bruchteil und 1 wiederherstellt, und
wobei in dieser letzten Gleichung Freq (Sw,i (h)) die Anzahl von Wörtern ist, die
in Sw,i für h Male verbleiben.
4. Verfahren zur sprecherunabhängigen Erkennung alleinstehender Wörter nach
Anspruch 2 oder nach dem auf Anspruch 2 rückbezogenen Anspruch 3,
dadurch gekennzeichnet, daß die folgenden Parameter verwendet werden:
- Moment β = 0,2;
- Chargengröße, nämlich Anzahl der Korrekturen, die akkumuliert werden,
bevor sie tatsächlich an den Gewichtungen durchgeführt werden = 10;
- Lerngeschwindigkeit η linear abnehmend von 0,1 bis 0,001.
5. Verfahren zur sprecherunabhängigen Erkennung alleinstehender Wörter nach
einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß jedes Wort durch
einen Automaten modelliert wird, der eine zentrale Sequenz von zum Wort
gehörenden Zuständen (3, ..., 7) enthält, dem ein für das Wort spezifischer
Anfangs-Schweigezustand (2) vorhergeht und End-Schweigezustand (8) folgt,
die die Übergänge Schweigen-Wort beziehungsweise Wort-Schweigen
enthalten und denen ihrerseits zwei weitere Zustände von allgemeinem
Hintergrundrauschen (1, 9) vorhergehen beziehungsweise folgen.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ITTO930309A IT1270919B (it) | 1993-05-05 | 1993-05-05 | Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69414752D1 DE69414752D1 (de) | 1999-01-07 |
DE69414752T2 true DE69414752T2 (de) | 1999-05-27 |
Family
ID=11411463
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE0623914T Pending DE623914T1 (de) | 1993-05-05 | 1994-05-04 | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes. |
DE69414752T Expired - Lifetime DE69414752T2 (de) | 1993-05-05 | 1994-05-04 | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE0623914T Pending DE623914T1 (de) | 1993-05-05 | 1994-05-04 | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes. |
Country Status (6)
Country | Link |
---|---|
US (1) | US5566270A (de) |
EP (1) | EP0623914B1 (de) |
JP (1) | JP2654917B2 (de) |
CA (1) | CA2122575C (de) |
DE (2) | DE623914T1 (de) |
IT (1) | IT1270919B (de) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19948308A1 (de) * | 1999-10-06 | 2001-04-19 | Cortologic Ag | Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung |
DE202008016880U1 (de) | 2008-12-19 | 2009-03-12 | Hörfabric GmbH | Digitales Hörgerät mit getrennter Ohrhörer-Mikrofon-Einheit |
DE202010013508U1 (de) | 2010-09-22 | 2010-12-09 | Hörfabric GmbH | Software-definiertes Hörgerät |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0728487A (ja) * | 1993-03-26 | 1995-01-31 | Texas Instr Inc <Ti> | 音声認識方法 |
US5774846A (en) * | 1994-12-19 | 1998-06-30 | Matsushita Electric Industrial Co., Ltd. | Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus |
US5687287A (en) * | 1995-05-22 | 1997-11-11 | Lucent Technologies Inc. | Speaker verification method and apparatus using mixture decomposition discrimination |
US5963903A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Method and system for dynamically adjusted training for speech recognition |
US6026359A (en) * | 1996-09-20 | 2000-02-15 | Nippon Telegraph And Telephone Corporation | Scheme for model adaptation in pattern recognition based on Taylor expansion |
US6167374A (en) * | 1997-02-13 | 2000-12-26 | Siemens Information And Communication Networks, Inc. | Signal processing method and system utilizing logical speech boundaries |
US5924066A (en) * | 1997-09-26 | 1999-07-13 | U S West, Inc. | System and method for classifying a speech signal |
ITTO980383A1 (it) * | 1998-05-07 | 1999-11-07 | Cselt Centro Studi Lab Telecom | Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano. |
US6208963B1 (en) * | 1998-06-24 | 2001-03-27 | Tony R. Martinez | Method and apparatus for signal classification using a multilayer network |
US7369993B1 (en) | 2000-11-02 | 2008-05-06 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
US7006969B2 (en) * | 2000-11-02 | 2006-02-28 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
US6662091B2 (en) | 2001-06-29 | 2003-12-09 | Battelle Memorial Institute | Diagnostics/prognostics using wireless links |
WO2003004975A1 (en) | 2001-07-02 | 2003-01-16 | Battelle Memorial Institute | Intelligent microsensor module |
ITTO20020170A1 (it) | 2002-02-28 | 2003-08-28 | Loquendo Spa | Metodo per velocizzare l'esecuzione di reti neurali per il riconoscimento della voce e relativo dispositivo di riconoscimento vocale. |
GB2397664B (en) * | 2003-01-24 | 2005-04-20 | Schlumberger Holdings | System and method for inferring geological classes |
KR100883652B1 (ko) * | 2006-08-03 | 2009-02-18 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템 |
US8126262B2 (en) * | 2007-06-18 | 2012-02-28 | International Business Machines Corporation | Annotating video segments using feature rhythm models |
US8700399B2 (en) * | 2009-07-06 | 2014-04-15 | Sensory, Inc. | Systems and methods for hands-free voice control and voice search |
US9015093B1 (en) | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US8775341B1 (en) | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
CN102693723A (zh) * | 2012-04-01 | 2012-09-26 | 北京安慧音通科技有限责任公司 | 一种基于子空间的非特定人孤立词识别方法及装置 |
US9627532B2 (en) * | 2014-06-18 | 2017-04-18 | Nuance Communications, Inc. | Methods and apparatus for training an artificial neural network for use in speech recognition |
US10825445B2 (en) | 2017-03-23 | 2020-11-03 | Samsung Electronics Co., Ltd. | Method and apparatus for training acoustic model |
US10255909B2 (en) * | 2017-06-29 | 2019-04-09 | Intel IP Corporation | Statistical-analysis-based reset of recurrent neural networks for automatic speech recognition |
CN109902292B (zh) * | 2019-01-25 | 2023-05-09 | 网经科技(苏州)有限公司 | 中文词向量处理方法及其系统 |
KR102152902B1 (ko) * | 2020-02-11 | 2020-09-07 | 주식회사 엘솔루 | 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8908205D0 (en) * | 1989-04-12 | 1989-05-24 | Smiths Industries Plc | Speech recognition apparatus and methods |
GB8911461D0 (en) * | 1989-05-18 | 1989-07-05 | Smiths Industries Plc | Temperature adaptors |
GB2240203A (en) * | 1990-01-18 | 1991-07-24 | Apple Computer | Automated speech recognition system |
-
1993
- 1993-05-05 IT ITTO930309A patent/IT1270919B/it active IP Right Grant
-
1994
- 1994-04-26 JP JP6109158A patent/JP2654917B2/ja not_active Expired - Lifetime
- 1994-04-29 CA CA002122575A patent/CA2122575C/en not_active Expired - Lifetime
- 1994-05-04 DE DE0623914T patent/DE623914T1/de active Pending
- 1994-05-04 EP EP94106987A patent/EP0623914B1/de not_active Expired - Lifetime
- 1994-05-04 DE DE69414752T patent/DE69414752T2/de not_active Expired - Lifetime
- 1994-05-05 US US08/238,319 patent/US5566270A/en not_active Expired - Lifetime
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19948308A1 (de) * | 1999-10-06 | 2001-04-19 | Cortologic Ag | Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung |
DE19948308C2 (de) * | 1999-10-06 | 2002-05-08 | Cortologic Ag | Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung |
DE202008016880U1 (de) | 2008-12-19 | 2009-03-12 | Hörfabric GmbH | Digitales Hörgerät mit getrennter Ohrhörer-Mikrofon-Einheit |
DE202010013508U1 (de) | 2010-09-22 | 2010-12-09 | Hörfabric GmbH | Software-definiertes Hörgerät |
Also Published As
Publication number | Publication date |
---|---|
ITTO930309A1 (it) | 1994-11-05 |
DE623914T1 (de) | 1995-08-24 |
US5566270A (en) | 1996-10-15 |
EP0623914A1 (de) | 1994-11-09 |
CA2122575C (en) | 1997-05-13 |
CA2122575A1 (en) | 1994-11-06 |
JPH06332497A (ja) | 1994-12-02 |
ITTO930309A0 (it) | 1993-05-05 |
EP0623914B1 (de) | 1998-11-25 |
DE69414752D1 (de) | 1999-01-07 |
JP2654917B2 (ja) | 1997-09-17 |
IT1270919B (it) | 1997-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69414752T2 (de) | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE69010722T2 (de) | Spracherkennungssystem. | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE69629763T2 (de) | Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM) | |
DE60111329T2 (de) | Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung | |
DE69726526T2 (de) | Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert | |
DE69707876T2 (de) | Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung | |
DE69420842T2 (de) | Spracherkennung unter anwendung einer zweidurchgängigen suchmethode | |
DE69127818T2 (de) | System zur verarbeitung kontinuierlicher sprache | |
DE69519297T2 (de) | Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen | |
DE69010941T2 (de) | Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache. | |
DE602004000382T2 (de) | Rauschadaptierung zur Spracherkennung | |
DE3783154T2 (de) | Spracherkennungssystem. | |
DE69030561T2 (de) | Spracherkennungseinrichtung | |
DE69613338T2 (de) | Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten | |
DE4397100C2 (de) | Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl | |
DE69422097T2 (de) | Training von kombinierten Kettenmodellen mit minimaler Fehlerrate | |
DE69725802T2 (de) | Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung | |
DE69815067T2 (de) | Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster | |
DE69519453T2 (de) | Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien | |
DE3853880T2 (de) | Einrichtung zur mustererkennung. | |
EP0862161A2 (de) | Verfahren zur Spracherkennung mit Sprachmodellanpassung | |
EP0994461A2 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung | |
EP0987683A2 (de) | Spracherkennungsverfahren mit Konfidenzmassbewertung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: LOQUENDO-SOCIETA PER AZIONI, TURIN/TORINO, IT |