[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

DE3048107A1 - Verfahren zur mustervorverarbeitung fuer ein spracherkennungssystem - Google Patents

Verfahren zur mustervorverarbeitung fuer ein spracherkennungssystem

Info

Publication number
DE3048107A1
DE3048107A1 DE19803048107 DE3048107A DE3048107A1 DE 3048107 A1 DE3048107 A1 DE 3048107A1 DE 19803048107 DE19803048107 DE 19803048107 DE 3048107 A DE3048107 A DE 3048107A DE 3048107 A1 DE3048107 A1 DE 3048107A1
Authority
DE
Germany
Prior art keywords
speech
patterns
property
amplitude
aij
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE19803048107
Other languages
English (en)
Inventor
Nobuo Hachiouji Tokyo Hataoka
Akira Musashino Tokyo Ichikawa
Yoshiaki Sayama Saitama Kitazume
Eiji Hachiouji Tokyo Ohira
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of DE3048107A1 publication Critical patent/DE3048107A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Complex Calculations (AREA)

Description

  • Beschreibung
  • Die Erfindung betrifft ein Verfahren zur Mustervorverarbeitung in einem Spracherkennungssystem, bei dem im allgemeinen eine Normierung der Korrektur von Schwankungen bei Merkmalsmusters'in einem Sprachmuster erfolgt, das sich in Form einer Zeitfolge von Merkmalsvektoren ausdrückt, wobei die Schwankungen Differenzen unter Individuen zuzuschreiben sind.
  • Als Merkmalsparameter, die repräsentativ für die Werte der entsprechenden Bestandteile von Merkmalsvektoren eines Sprachmusters sind, sind bislang die verschiedensten Größen verwendet worden, einschließlich der folgenden: (i) Ausgangswerte von Filterbänken, die einem entsprechenden Kanal von einigen Kanälen entsprechen, in die das Frequenzband der Sprache unterteilt ist, (ii) Auto-Korrelationskoeffizienten, (iii) partielle Auto-Korrelationskoeffizienten, die nachstehend auch als PARCOR-Koeffizienten bezeichnet werden, usw.
  • Mit all diesen Werten sind jedoch verschiede Variationen bei den Merkmalsparametern auf der Basis der Differenzen von Sprachinformation unter Individuen verbunden. Infolgedessen hat das Problem bestanden, daß die Fehler von herausgezogenen Merkmalsparametern groß sind, was die korrekte Erkennung des Sprachmusters schwierig macht.
  • Im Falle von Sprachmustern sind typische Beispiele von Schwankungen auf der Basis der Differenzen unter Individuen folgende: (1) Schwankungen der Absolutwerte der Merkmalsparameter, die auf Schwankungen der Eingangswerte beruhen und (2) Schwankungen der Formantenfrequenzen in dem Falle, wo die Ausgangswerte der Filterbänke als Merkmalsparameter verwendet werden.
  • Um die Verschlechterung der Erkennungsgenauigkeit aufgrund dieser Schwänkungen zu verhindern, sind die folgenden Methoden ins Auge gefaßt worden: Hinsichtlich i1) werden zum Beispiel im Falle der Verwehdung der Ausgangswerte der Filterbänke als Merkmalsparameter die Filterausgangssignale in der Frequenzrichtung zu entsprechenden Zeiten normiert (die Filterausgangssignale werden in Relativwerte umgewandelt).
  • Hinsichtlich (2) beruhen die Schwankungen der Formantenfrequenzen auf ungleichen Vokalzuglänge der Individuen.
  • S@@@t wird iin4 vokalzulänge aus der Sprachinformation geschätzt und diese vokalzuglänge normiert.
  • Mit dose. herkö@@lichen Normierungsverfahren zur Berücksichtigung von (1) wird jedoch zum Beispiel eine Struktur au@ den zusammenhänge der Absolutwerte der Merkmalspara-@@ter In det Zeitrichtung zerstört. Dies hat zu dem Nachteil @@@@hrt, dah ein Teil Von wesentlicher Information, die die Srachinformation besitzt, verlorengeht.
  • Bei einem herkömmlichen Verfahren zur Berücksichtigung von (2) ist es schwierig, die Vokalzuglänge genau zu schätzen, und somit tritt ein Schätzfehler auf. Dementsprechend bestand bislang der Nachteil daß eine ridhtige Normierung nicht @@@glich war.
  • Aufgabe der Erfindung ist es daher, ein Verfahren zur M@@tervorverarbeitung für Spracherkennungssysteme anzugeben, @@i dem die Schwankungen von Eigenschaften bei Merkmalsparam@tern absoiert werden, die aus einem Sprachmuster.herausgezogen @ den, wobei die Schwankungen auf Differenzen unter den Indiv@@@en beruhen, ohne daß wesentliche Information aus dem Sprachmuster verlorengeht.
  • Weiterhin ist es Ziel der Erfindung, ein Verfahren zur Mustervorverarbeitung zu schaffen, bei dem schließlich auch die Schwankungen der Formantenfrequenze als Schwankungen d@r Frequenzeigenschaften aufgrund der Differenzen unter Individuen absorbiert werden, während die Struktur der Merkmalsparameter in der Zeitrichtung gehalten wird.
  • Gemäß der Erfindung ist vorgesehen, daß bei einem System, bei dem von den Koordinatenachsen eine zweidimensionale Ebene aufgespannt wird, die eine Achse eine Zeitachse und die andere Achse eine Frequenzachse sind, und bei dem die Eigenschaftsparameter bei einer Reihe von Punkten auf der Zeitachse einem Punkt auf der Frequenzachse entsprechen' eine Vorverarbeitung in der nachstehenden Weise durchgeführt wird, wobei die Größenrelationen der Werte der Merkmalsparameter in Richtung der Zeitachse gehalten werden: (a) die entsprechenden Eigenschaftsparameter werden durch den Maximalwert der Reihe von Eigenschaftsparametern geteilt, (b) die Eigenschaftsparameter werden logarithmischen, nicht-linearen Korrekturen unterworfen, (c) die Reihe von logarithmischen, nicht-linearen Korrekturen unterworfenen Eigenschaftsparamtern wird durch ihren Maximalwert geteilt.
  • Die Erfindung wird nachstehend anhand der Beschreibung von Ausführungsbeispielen und unter Bezugnahme auf die beiliegen Zeichnungen näher erläutert. Die Zeichnungen zeigen in Fig. 1 eine graphische Darstellung zur Erläuterung der Differenz der Filterbank-Ausgangssignale bezüglich einem identischen Sprachmuster, wobei die Differenz den Sprechern zuzuschreiben ist; Fig. 2 ein Blockschaltbild zur Erläuterung einer Schaltungsanordnung bei einer Ausführungsform einer Vorrichtung zur Mustervorverarbeitung gemäß der Erfindung; Fig. 3 ein Blockschaltbild zur Erläuterung einer Schaltungsanordnung einer Ausführungsform einer Maximum-Abtastschaltung; Fig. 4 ein Blockschaltbild zur Erläuterung einer Schaltungsanordnung einer Ausführungsform eines Spracherkennungssystems gemäß der Erfindung; und Fig. 5 ein Diagramm zur Erläuterung der Differenzen ton Unterscheidungsgraden, die sich aus Erkennungsuntersuchungen eines Eingangssprachmusters ergeben, wenn man das erfindungsgemäße Verfahren einerseits und herkömmliche Verfahren andererseits einsetzt.
  • Fig. 1 zeigt die Diskrepanz von Filterbank-Ausgangssignalen hinsichtlich eines identischen Sprachinhaltes, der ton verschiedenen Sprechern in einem bestimmten spezifizierten kanal in dem Falle gegeben ist, wo die Filterbank-Ausgangssignale für Sprache als Eigenschaftsparameter verwendet werden.
  • Aus Fig. 1 ergibt sich, daß die Positionen auf der Zeitachse, die maximale und minimale Extrempunkte angeben, ähnlich sind, daß aber die Amplitudenwerte in hohem Maße unterschiedlich sind. Wenn die Gleichheitswerte zwischen den von unterschiedlichen Sprechern geliferten Sprachmustern A und B erhalten werden, indem man den üblichen euklidischen Abstand als Skala verwendet, werden die Schwankungen aufgrund der Diskrepanz der Sprecher groBer als die Schwankungen aufgrund der Diskrepanz der Sprachmuster selbst. Es ist somit unmöglich, die Differenz der Sprachmuster korrekt abzutasten.
  • Dementsprechend müssen die Schwankungen aufgrund der Diskrepanz der Sprechen verringert werden, indem man die Amplitudenwerte normiert c.der korrigiert. Um die Amplitudenwerte zu normieren oder zu korrigieren, werden gemäß der Erfindung einer von zwei nachstehend beschriebenen Schritten oder ein Verfahren, das diese in Nombination umfaßt, eingesettt.
  • Nachstehend wird das Vorverarbeitungsverfahren mit den beiden k @@inierten Schritten beispialsteise erläutert, jedoch sind ein Vorverarbeitungsverfahren, das hur den Schritt 1 umfaßt, sowie ein Vorverarbeitungsverf8hren, bei dem der Schritt 1 weggelaSsen ist, ebenfalls mSglich.
  • Die Eigenschaftsvektoren ai zu den Zeitpunkten i (i 1, 2, ... und I), die aus einem Sprachmuster herausgezogen sind, und Eigenschaftsmuster A, die sich als Zeitfolge von ausdrücken lassen, sind folgendermaßen definiert: ai = (ai1, ai2, ... und aij) A = a1, a2, ... und aI Hierbei bezeichnen aij ( j = 1, 2, ... und J) Eigenschaftsparameterwerte, die den Filterbank-Ausgangssignalen des j-ten Kanals zu den Zeitpunkten i entsprechen.
  • Schritt 1: Korrektur durch Logarithmieren Um Amplituden zu erhalten, die der Schalleigenschaft-oder Struktur des Menschen angenähert sind, werden die Eigenschaftsparameterwerte aij nicht-linearen Korrekturen unter Verwendung eines Logarithmus unterworfen, dessen Basis 10, e o. dgl. sein kann.
  • Werte aij', die den Eigenschaftsparametern nach den Korrekturen entsprechen, sind durch die nachstehende Gleichung gegeben: ij' = log (1 + aij/Ao) (1), wobei Ao eine Konstante ist.
  • Die 1 (eins) in Gleichung (1) ist dazuaddiert worden, um abrupte Schwankungen von aij' zu dem Zeitpunkt zu verhindern, wo aij/Ao dicht an O (null) herankommt.
  • Schritt 2: Normierung in Zeitachsenrichtung Die allgemeine Normierung in Richtung der Zeitachse wird für jeden Kanal in Richtung einer Frequenzachse durchgeführt.
  • Sei M. der maximale oder größte Wert unter den Werten 3 a1j, a2' ... und aIj im j-ten Kanal in der Frequenzachsenrichtung, so sind die Eigenschaftsparameter nach der Normierung aij", die den Eigenschaftsparametern aij entsprechen, durch die nachstehende Gleichnung gegeben: aij" = aij'/Mj (2), wobei Mj = Max (aij', a2j, ... und aIj) (3).
  • Das Normierunys- oder Korrekturverfahren, bestehend aus den beiden Schritten, hält die Größenrelationen der Eigenschaftsparameter in Richtung der Zeitachse in der angegebenen Weise und ermöglicht außerdem den Erhalt der neuen Eigenschaftsparameter aij, die wirklich wesentliche Eigenschaften ausdrücken, welche die ursprüngliche Sprachinformation besitzt.
  • Man kann sagen, daß die Eigenschaftsparameter aij" wesentlich besser sind als die Eigenschaftsparameter aij, ' und zwar in folgender Hinsicht: (a) Da die Maßnahme eine Abbildung darstellt, bei der die Maximalwerte der Eigenschaftsparameter in Richtung der Zeitachse auf einen identischen Pegel, z.B. den maximalen Pegel 1 im Falle der Normierung auf Werte 0 bis 1, für die entsprechenden Kanäle in Richtung der Frequenzachse umgewandelt werden, werden die Schwankungen der Absolutwerte der Eigenschaftsparameter absorbiert, die bislang problematisch waren.
  • Insbesondere kann gemäß der Normierung nur mit dem Schritt 2, d.h.
  • aij" = aij/Max (a1j, a2j, ... und aIj) die Unzulänglichkeit eintreten, daß, obwohl die Schwankungen der Absolutwerte in einem Bereich klein sind, in dem die Amplitudenwerte der Eigenschaftsparameter aij klein sind, die Schwankungen der Relativwerte nach der Normierung groß werden. Die Korrekturen durch den Schritt 1 sind wirksam im Hinblick auf die Beseitigung dieser Unzulänglichkeit.
  • (ß) Die Normierung gemäß Schritt 2 ist eine Abbildung, bei der die Eigenschaftsparameter der Sprache mit identischem Inhalt allgemeiner und definitiver extrahiert werden als beim Stande der Technik, und zwar auch im Falle von unterschiedlichen Sprechern.
  • Die Maßnahme ist eine Transformation, gemäß der z.B.
  • die Anderungen der Eigenschaftsparameter in den çntsprechenden Kanälen auf der Frequenzachse betont werden, oder umgekehrt, in dem Kanal, der die Eigenschaftsparameter von kleinen Werten über die gesamte Zeitperiode hat, werden die Werte von aij" vergrößert, wobei die kleinen Werte eine Eigenschaft oder ein Merkmal bilden.
  • (y) Die Normierung im Schritt 2, insbesondere in dem Falle, wo die Ausgangswerte der Filterbank als Eigenschaftsparameter verwendet werden, ist wirksam, um die Schwankungen in Richtung der Frequenzachse zu absorbieren, die Differenzen zwischen den Sprechern zuzuschreiben sind, z.B. dem Einfluß der Formanten-Frequenzen auf den benachbarten Kanälen zwischen den Sprechern.
  • Genauer gesagt, zum Zeitpunkt i, bei dem der Maximalwert der Eigenschaftsparameter im j-ten Kanal auf der Frequenzachse gegeben ist, ist die Wahrscheinlichkeit hoch, bei der die Eigenschaftsparameter in den benachbarten (j - 1)-ten und (j + 1)-ten Kanälen maximiert werden. Somit sind die Eigenschaftsparameter nach dem Schritt 2 äquivalent zu einer Verringerung des Wertes Q für die Resonanzqualität in einer Frequenzanalyse. Dies entspricht einer Verringerung der Schwankungen der Eigenschaftsparameter auf der Basis der Differenz zwischen den Sprechern und liefert eine Maßnahme gegenüber dem oben beschriebenen Nachteil (2).
  • Obwohl der Fall der Anwendung der erfindungsgemäßen Vorverarbeitung auf die Filterbank-Ausgangswerte des Sprachmusters bislang im wesentlichen erläutert worden ist, ist es auch möglich, die Anwendung der Vorverarbeitung bei den Auto-Korrelationskoeffizienten und den partiellen Auto-Korrelationskoeffizienten vorzunehmen. Im Falle der Anwendung auf die partiellen Auto-Korrelationskoeffizienten können beispielsweise die partiellen Auto-Korrelationskoeffizienten einer zur An- passung dienenden Umkehrfilterung in Werte unterworfen unterworfen werden, die den Reflexionskoeffizienten entsprechen, um damit eine Linearität für die Absolutwert-Schwankungen auszubilden.
  • Figur 2 zeigt ein Blockschaltbild einer Ausführungsform einer Schaltungsanordnung, in der das erfindungsgemäße Vorverarbeitungsverfahren realisiert ist. Die Eigenschaftsparameter aij, die aus einem Eingangssprachsignal erhalten werden, werden aus einem Eingangspuffer 21 in jedem Kanal i mit (a1j, a2j, ... und aIj) als 1-Block-Daten ausgelesen und an eine logarithmische Transformationsschaltung 221 einer Schaltung 22 zur logarithmischen Transformation und Normierung angelegt. Die Berechnung gemäß Gleichung (1) wird in der logarithmischen Transformationsschaltung 221 ausgeführt, und die resultierenden Blockdaten (a1j', a2j', ... und aIj') werden an eine Maximum-Abtastschaltung 223 und eine Normierungsschaltung 224 über eine Ausgangsleitung 222 angelegt.
  • Die Berechnung gemäß Gleichung (3) wird in der Maximum-Abtastschaltung 223 ausgeführt, und das Resultat Mj wird an die Normierungsschaltung 224 angelegt. Die Berechnung gemäß Gleichung (2) wird in der Normierungsschaltung 224 durchgeführt, und die resultierenden Blockdaten a1j", a2j", und a111) werden in einem Ausgangspuffer 23 gespeichert.
  • Die Berechnungsvorgänge der oben angegebenen Art werden gemäß Steuersignalen ausgeführt, die von einer Steuerschaltung 24 geliefert werden, z.B. in der Reihenfolge j = 1, 2, und J.
  • Die logarithmische Transformationsschaltung 221 in Figur 2 kann beispielsweise aus einem Festwertspeicher oder ROM bestehen.
  • In diesem Fall können, unter Verwendung der Ausgangssignale des Eingangspuffers 21 als Adressensignale für den ROM, die Daten (a1j', a2j, ... und aIj) als berechnete Resultate der Gleichung (1) in die Adressen (a1j, mi ... und aIj) eingeschrieben werden, woraufhin sie gemäß Auslesesignalen ausge- lesen werden können, die von der Steuerschaltung 24 angelegt werden.
  • Wie in Figur 3 dargestellt, ist die Maximum-Abtastschaltung 223 aus einem Subtrahierer 301 und einem Register 302 zum Speichern der subtrahierten Ergebnisse aufgebaut. Sie kann die folgende Verarbeitung für i = 1, 2, ... und I durchführen.
  • Die Daten (aij') werden an den Subtrahierer 301 z.B. in der Reihenfolge a1j', a2j', ... und aIj' angelegt die Subtraktionen hinsichtlich der im Register 302 gespeicherten Daten (R) durchgeführt. Nur wenn die Ungleichung aij - R > O gilt, wird der Inhalt des Registers 302 erneuert und aij in das Register 302 neu eingespeichert, und zwar in Abhängigkeit von einem Borge-Signal.
  • Die Normierungsschaltung 224 kann mit einem herkömmlichen Teiler aufgebaut werden.
  • Die Berechnungen in der Schaltung 22 zur logarithmischen Transformation und Normierung können auch auf Software-Basis durchgeführt werden.
  • Figur 4 zeigt ein Blockschaltbild zur Erläuterung einer Ausführungsform eines Spracherkennungssystems, bei dem die erfindungsgemäße Schaltungsanordnung gemäß Figur 2 verwendet wird. Die in Figur 2 dargestellten Teile sind dabei mit gleichen Bezugszeichen versehen.
  • Ein Eingangssprachsignal wird einer Frequenzanalyse in einer Eigenschaftsauswerteschaltung 31 unterzogen. Eigenschaftsvektoren a1, a2, ... und aI, die als Resultat herausgezogen werden, werden im Eingangspuffer 21 sequentiell in einer Zeitfolge gespeichert. Die normierten Daten, die im Ausgangspuffer 23 durch Ausführung des unter Bezugnahme auf Figur 2 erläuterten Vorganges gespeichert worden sind, werden an eine Erkennungsschaltung 34 angelegt. Andererseits werden normierte Standardmuster der Sprache nacheinander aus einem Standardmusterspeicher 32 ausgelesen und eines von ihnen an die Erkennungsschaltung 34 über einen Standardmusterpuffer 33 angelegt.
  • In der Erkennungsschaltung 34 werden Gleichheitswerte zwischen den normierten Daten, entsprechend dem Sprachmuster-Eingangssignal und dem normierten Standardmuster berechnet, um die Erkennung vorzunehmen. Das Erkennungsresultat wird einem Anschluß 35 zugeführt.
  • Figur 5 zeigt experimentelle Daten hinsichtlich der Differenzen von Unterscheidungsgraden, die sich aus der Spracherkennung in den Fällen ergeben, wenn man einerseits die erfindungsgemäßen Vorverarbeitungsverfahren und andererseits herkömmliche Vorverarbeitungsverfahren einsetzt.
  • In Figur 5 bezeichnet die Abszissenachse den Gewichtswert für die Erkennung, während die Ordinatenachse den Unterscheidungsgrad angibt, der gegeben ist als das Verhältnis (S?/SZ) zwischen dem meisten Gleichheitswert (S1) und dem zweiten Gleichheitswert (S>) zu der Zeit, wenn ein richtiges Erkennungsresultat erhalten worden ist. Die Kurven (I) bis (III) entsprechen den Fällen der Durchführung der jeweiligen folgenden Vorverarbeitungen, während die Kurve (IV) einem Fall entspricht, bei dem ein herkömmliches Verfahren eingesetzt wird.
  • (I); aij" = log (1 + wobei Mj = Max {log (1 + a1j/A0), log (1 + a2j/A0), bis log (1 + aIj/A0)}.
  • (II): aij" = log (1 + aij/A0).
  • (III): aij" = aij/Max (a1j, a2j, ... und aIj).
  • Aus den experimentellen Ergebnissen gemäß Figur 5 läßt sich entnehmen, daß bei den erfindungsgemäßen Vorverarbeitungsverfahren die Unterscheidungsgrade größer sind als die Werte, die mit anderen Verfahren erreicht werden, indem man die Gewichtswerte bei der Berechnung der Gleichheitswerte in richtiger Weise einsetzt.
  • Aus den obigen Ausführungen ergibt sich, daß es das erfindungsgemäße Vorverarbeitungsverfahren ermöglicht, Eigenschaftsmuster in neue Eigenschaftsmuster umzuwandeln, wobei die Eigenschaften der vorherigen Eigenschaftsmuster definitiv herausgezogen werden. Die mit den Vorverarbeitungsverfahren erhaltenen Eigenschaftsparameter haben eine gute Unterscheidbarkeit (die Reiheneigenschaften sind definitiv), und sie sind wirksam, um die Zuverlässigkeit der Erkennung zu steigern. Diese Wirkung läßt sich auch aus dem Ergebnis verifizieren, daß die Erkennungsrate in einem Spracherkennungssystem steigern läßt, bei dem das Vorverarbeitungs-Normierungsverfahren eingesetzt wird.
  • Beim erfindungsgemäßen Verfahren wird somit folgender maßen vorgegangen: Vor dem Herausziehen einer Vielzahl von Eigenschaftsmustern mit einer Vielzahl von Eigenschaftsparametern in Richtung einer Zeitachse aus einem Sprachmustereingangssignal in einer Zeitfolge und Erkennung des Sprachmuster-Eingangssignals unter Verwendung der herausgezogenen Eigenschaftsparameter werden die Eigenschaftsparameter, die das jeweilige Eienschaftsmuster bilden, einer Vorverarbeitung, wie z.B. einer logarithmischen Transformation und Normierung mit einem Maximalwert unterworfen, um die Größenrelationen unter ihren Werten aufrecht zu erhalten.

Claims (3)

  1. Verfahren zur Mustervorverarbeitung für ein Spracherkennungssystem PATENTANSPRÜCHE Verfahren zur Mustervorverarbeitung für ein Spracherkennungssystem, bei dem eine Vielzahl von Eigenschaftsmustern mit einer Vielzahl von Eigenschaftsparametern in der Richtung einer Zeitachse aus einem Sprachmuster-Eingangssignal herausgezogen wird und die herausgezogenen Eigenschaftsmuster zur Erkennung des Sprachmusters verwendet werden, dadurch g e -k e n n z e i c h n e t , daß die Eigenschaftsparameter, die das jeweilige Eigenschaftsmuster bilden, einer vorgegebenen Vorverarbeitung unterworfen werden, um die Gröen-Relationen unter ihren Werten aufrecht zu erhalten.
  2. 2. Verfahren nach Anspruch 1, dadurch g e k e n n -z e i c h n e t , daß bei der Vorverarbeitung Korrekturen der logarithmischen Transformation der Werte der Eigenschaftsparameter vorgenommen werden.
  3. 3 Verfahren nach Anspruch 1, dadurch g e k e n n -æ 9 i t n n b t , daß die jeweiligen Eigenschaftsparameter mit einem Maximalwert der Eigenschaftsparameter in dem jeweiligen Eigenschaftsmuster bei der Vorverarbeitung normiert werden.
DE19803048107 1979-12-21 1980-12-19 Verfahren zur mustervorverarbeitung fuer ein spracherkennungssystem Ceased DE3048107A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP16557879A JPS5688199A (en) 1979-12-21 1979-12-21 Pattern pretreatment method in voice identifier

Publications (1)

Publication Number Publication Date
DE3048107A1 true DE3048107A1 (de) 1981-09-10

Family

ID=15815011

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19803048107 Ceased DE3048107A1 (de) 1979-12-21 1980-12-19 Verfahren zur mustervorverarbeitung fuer ein spracherkennungssystem

Country Status (2)

Country Link
JP (1) JPS5688199A (de)
DE (1) DE3048107A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0178509A1 (de) * 1984-10-02 1986-04-23 Kabushiki Kaisha Toshiba System zum Lernen von Referenzmustern für Spracherkennung

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57178299A (en) * 1981-04-27 1982-11-02 Kyosan Electric Mfg Recognition pattern preparation system
JPS57178300A (en) * 1981-04-27 1982-11-02 Kyosan Electric Mfg Automatic voice recognition system
JPS58136097A (ja) * 1982-02-08 1983-08-12 株式会社京三製作所 認識パタ−ン照合方式
JPS58136098A (ja) * 1982-02-08 1983-08-12 株式会社京三製作所 認識パタ−ン学習方式
JPS58145996A (ja) * 1982-02-24 1983-08-31 株式会社京三製作所 音声認識方式
JPS5979300A (ja) * 1982-10-28 1984-05-08 電子計算機基本技術研究組合 認識装置
JPH0727519Y2 (ja) * 1988-11-21 1995-06-21 ソニー株式会社 音声認識装置
US6826224B2 (en) 2000-03-27 2004-11-30 Matsushita Electric Industrial Co., Ltd. High-power semiconductor laser array apparatus that outputs laser lights matched in wavelength and phase, manufacturing method therefor, and multi-wavelength laser emitting apparatus using such high-power semiconductor laser array apparatus

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2347738A1 (de) * 1972-09-21 1974-03-28 Threshold Tech Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1433770A (en) * 1973-01-05 1976-04-28 Xerox Corp Word recognition system with character string encoding
JPS5272504A (en) * 1975-12-15 1977-06-17 Fuji Xerox Co Ltd Device for recognizing word audio

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2347738A1 (de) * 1972-09-21 1974-03-28 Threshold Tech Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DE-Z.: Umschau in Wissenschaft und Technik, 1972, H. 6, S. 193/194 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0178509A1 (de) * 1984-10-02 1986-04-23 Kabushiki Kaisha Toshiba System zum Lernen von Referenzmustern für Spracherkennung
US4783802A (en) * 1984-10-02 1988-11-08 Kabushiki Kaisha Toshiba Learning system of dictionary for speech recognition

Also Published As

Publication number Publication date
JPS5688199A (en) 1981-07-17
JPS628800B2 (de) 1987-02-24

Similar Documents

Publication Publication Date Title
DE69800006T2 (de) Verfahren zur Durchführung stochastischer Mustervergleiche für die Sprecherverifizierung
DE69420400T2 (de) Verfahren und gerät zur sprechererkennung
DE69725172T2 (de) Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch
DE3878001T2 (de) Spracherkennungseinrichtung unter anwendung von phonemermittlung.
DE69524994T2 (de) Verfahren und Vorrichtung zur Signalerkennung unter Kompensation von Fehlzusammensetzungen
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69423692T2 (de) Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln
DE69318447T2 (de) Erkennungssystem
DE19630109A1 (de) Verfahren zur Sprecherverifikation anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals, durch einen Rechner
EP0925579A1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
EP1214703B1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
DE4031638C2 (de)
DE2659083A1 (de) Verfahren und vorrichtung zur sprechererkennung
DE2919085A1 (de) Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE602004008666T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung eines nichtlinearen Prädiktors
DE3048107A1 (de) Verfahren zur mustervorverarbeitung fuer ein spracherkennungssystem
DE3733391A1 (de) Verfahren zur spracherkennung
DE3019823A1 (de) Datenumsetzer und damit ausgestattete sprachsyntheseanordnung
DE2720666C2 (de) Verfahren und Anordnung zur Geräuschanalyse
DE69801493T2 (de) Sprachanalysessystem

Legal Events

Date Code Title Description
8128 New person/name/address of the agent

Representative=s name: STREHL, P., DIPL.-ING. DIPL.-WIRTSCH.-ING. SCHUEBE

8110 Request for examination paragraph 44
8131 Rejection