DE69419615T2

DE69419615T2 - Sprachaktivitaetsdetektor

Info

Publication number: DE69419615T2
Application number: DE69419615T
Authority: DE
Inventors: Paul Barrett
Original assignee: British Telecommunications PLC
Current assignee: LG Electronics Inc
Priority date: 1993-09-14
Filing date: 1994-09-14
Publication date: 2000-05-25
Anticipated expiration: 2014-09-15
Also published as: ATE182420T1; GR3031515T3; EP0719439A1; US5749067A; JPH09502814A; NO307979B1; CA2169745A1; HK1014392A1; JP3224132B2; CN1130952A; ES2136204T3; NZ273045A; BR9407535A; FI961158A; IN184794B; DK0719439T3; CN1064772C; WO1995008170A1; US6061647A; HU219994B

Description

Ein Sprachaktivitätsdetektor ist eine Vorrichtung, die zum Zweck des Erfassens von Sprachperioden oder von Perioden, die nur ein Rauschen enthalten, mit einem Signal gespeist wird. Auch wenn die vorliegende Erfindung nicht darauf beschränkt ist, ist eine Anwendung dieser Detektoren in Mobilfunk-Telephonsystemen, in denen die Kenntnis hinsichtlich enthaltener oder nicht enthaltener Sprache ausgewertet werden kann, um die Stromaufnahme und -beeinflussung durch Abschalten eines Senders während der Ruheperioden zu verringern, von besonderem Interesse. Hier ist auch der Geräuschpegel (aus einer im Fahrzeug montierten Einheit) wahrscheinlich hoch. Eine weitere mögliche Anwendung in Funksystemen besteht in der Verbesserung der effizienten Nutzung des Funkspektrums.
Fig. 1 zeigt einen Sprachaktivitätsdetektor, wie er in der Internationalen Patentanmeldung WO89/08910 des Anmelders beschrieben ist.
Verrauschte Sprachsignale werden an einem Eingang 1 empfangen. Ein Speicher 2 enthält Daten, die eine Abschätzung oder ein Modell des Rauschfrequenzspektrums definieren; zwischen diesem Modell und dem Spektrum des momentanen Signals wird ein Vergleich durchgeführt, um ein Maß für die Ähnlichkeit zu erhalten, das mit einem Schwellenwert verglichen wird. Um Änderungen in der Rauschkomponente zu verfolgen, wird das Rauschmodell aus dem Eingangssignal nur bei nicht enthaltener Sprache aktualisiert. Außerdem kann die Schwelle angepaßt werden (Adapter 6).
Um zu garantieren, daß die Anpassung nur während Perioden ausschließlichen Rauschens ohne die Gefahr einer auf eine falsche Entscheidung folgenden fortlaufenden, unkorrekten Anpassung geschieht, wird die Anpassung unter der Steuerung eines Hilfsdetektors 7 ausgeführt, der einen Detektor 8 für nicht gesprochene Sprache und einen Detektor 9 für gesprochene Sprache enthält: der Detektor 7 schätzt, daß Sprache enthalten ist, wenn einer der Detektoren Sprache erkennt, und unterdrückt das Aktualisieren und die Schwellenanpassung des Hauptdetektors. Gewöhnlich erhält der Detektor 8 für nicht gesprochene Sprache einen Satz von LPC-Koeffizienten für das Signal und vergleicht die Autokorrelationsfunktion dieser Koeffizienten zwischen aufeinanderfolgenden Rahmenperioden, während der Detektor 9 für gesprochene Sprache nach Änderungen in der Autokorrelation des LPC-Residuums sucht.
Diese Anordnung ist sehr erfolgreich beim Unterscheiden zwischen Sprachperioden und Perioden, in denen nur ein Rauschen empfangen wird. Jedoch entsteht ein Problem dadurch, daß Signalisierungstöne vom Hilfsdetektor häufig als einfaches Rauschen angenommen werden (d. h., diese nicht als Sprache erkannt werden), so daß sich der Hauptdetektor den Tönen anpaßt, als wären diese ein Rauschen, wobei die Übertragung der Töne verhindert oder wenigstens vorzeitig beendet wird.
Dieses Problem kann durch das Vorsehen von Tondetektoren beseitigt werden, wovon jeder auf die Frequenz(en) eines bestimmten Signalisierungstons abgestimmt ist; jedoch ist die Vielfalt verschiedener Signalisierungstöne in der ganzen Welt groß, so daß eine große Anzahl einzelner Detektoren erforderlich wäre, derart, daß z. B. ein Mobilfunkbenutzer, der einen internationalen Anruf tätigt, den "Besetzt"-Ton unabhängig von dem Land, aus dem dieser stammt, zuverlässig hören kann.
Gemäß der vorliegenden Erfindung wird ein Sprachaktivitätsdetektor zum Erfassen von Sprache in einem Eingangssignal geschaffen, der umfaßt:
(a) eine Vorrichtung zum Abspeichern einer Abschätzung der Rauschkomponenten in einem Eingangssignal,
(b) eine Vorrichtung zum Erkennen der spektralen Ähnlichkeit des Eingangssignals und der abgespeicherten Abschätzung zum Erzeugen eines Entscheidungsausgangssignals,
(c) eine Vorrichtung zum Aktualisieren der abgespeicherten Abschätzung,
(d) einen Hilfsdetektor, der dazu geeignet ist, die Aktualisierungsvorrichtung derart zu steuern, daß eine Aktualisierung nur stattfindet, wenn durch den Hilfsdetektor angezeigt wird, daß keine Sprache in dem Eingangssignal enthalten ist,
gekennzeichnet durch
eine Vorrichtung, die dazu dient, einen Vorhersage-Verstärkungsparameter (Prädiktor-Gain-Parameter) für das Eingangssignal zu berechnen, und eine Modifizierungsvorrichtung, die das Aktualisieren für den Fall unterdrückt, daß der Prädiktor-Gain einen Schwellenwert überschreitet.
Im folgenden sind einige Ausführungen der Erfindung beispielhaft unter Bezug auf die begleitende Zeichnung beschrieben, worin:
Fig. 2 ein Blockdiagramm eines Sprachcodierers mit einem Sprachaktivitätsdetektor gemäß einem Aspekt der vorliegenden Erfindung ist,
die Fig. 3 und 4 auf graphische Weise Prädiktor-Gain- Werte aus verschiedenen Eingangssignalen zeigen, die Fig. 5, 6 und 7 Blockdiagramme weiterer Ausführungen des Erfinders sind.
In Fig. 2 hat ein herkömmlicher Sprachcodierer 100 einen Spracheingang 101, wobei das Sprachsignal mit 8 kHz abgetastet und durch einen Analog-Digital-Umsetzer 102 in eine digitale Form umgesetzt wird. Eine Fenstertechnikeinheit 103 teilt die Sprachabtastwerte in Rahmen von (z. B.) 160 Abtastwerten (d. h. in 20-ms-Rahmen) ein und multipliziert diese mit einem Hamming-Fenster oder mit einer anderen Funktion, die den Anteil der Abtastwerte am Beginn und am Ende des Rahmens reduziert. Ein Korrelator 104 empfängt die digitalisierten Sprachabtastwerte und erzeugt die Autokorrelationskoeffizienten Ri für jeden Rahmen. Eine LPC-Analyseeinheit 105 berechnet die Koeffizienten ai eines (auch als Synthesefilter bezeichneten) Filters, das eine Frequenzantwort besitzt, die dem Frequenzspektrum des Spracheingangssignals entspricht, mit Hilfe eines herkömmlichen Verfahrens, z. B. eines Levinson-Durbin- oder Schurr-Algorithmus.
Das digitalisierte Eingangssignal wird außerdem durch ein durch die Koeffizienten gesteuertes Umkehrfilter (oder Analysefilter) 106 geführt, um ein Restsignal zu erzeugen, das durch eine Langzeitvorhersage-Analyseeinheit 107, die die optimale Verzögerung berechnet, weiter analysiert wird, um das LPC-Restsignal aus seinen vorhergehenden Werten sowie einen entsprechenden Gain-Wert für die Vorhersage vorherzusagen. Die Analyseeinheit 106 bildet außerdem ein zweites Residuum (d. h. die Differenz zwischen dem momentanen LPC-Residuum und dem durch die erhaltenen Parameter verzögerten und skalierten LPC- Residuum). Eine Erregereinheit 108 leitet die Erregungsparameter für die Übertragung zu einem Decodierer einfach durch Quantisieren des LPC-Residuums oder durch herkömmliche Mittel ab.
Die LPC-Koeffizienten ai, die Langzeitvorhersage-Verzögerung d und die Langzeitvorhersage-Verstärkung g sowie die Erregungsparameter e werden zu einem Decodierer übertragen.
Ein Haupt-Sprachaktivitätsdetektor gemäß der früheren Patentanmeldung des Anmelders mittelt die Autokorrelationskoeffizienten Ri mit Hilfe eines Mittelwertbilders 110, der eine gewichtete Summe Ri' der momentanen Koeffizienten und derjenigen aus den vorhergehenden, in einem Puffer 111 gespeicherten Rahmen erzeugt. Ein weiterer Autokorrelator 112 bildet die Autokorrelationskoeffizienten B der LPC-Koeffizienten ai, die zu einem Puffer 113 weitergeleitet werden. Die Inhalte des Puffers werden nur in Perioden aktualisiert, in denen ein (weiter unten zu beschreibender) Hilfsdetektor annimmt, daß sie nur Rauschen enthalten, so daß die Inhalte Bi' des Puffers 113 eine Abschätzung des Rauschspektrums des Eingangssignals darstellen. Eine Multiplikations-/Additionseinheit 114 bildet ein Maß M für die spektrale Ähnlichkeit zwischen dem Eingangssignal und dem Rauschmodell, das wie folgt definiert ist:
wobei der Suffix "0" den Autokorrelationskoeffizienten 0. Ordnung bezeichnet und n die Anzahl der Abtastwerte in einem Sprachrahmen ist.
Das Maß M wird in einem Komparator 115 mit einem Schwellenpegel verglichen und erzeugt an einem Ausgang 116 ein Signal, das enthaltene oder nicht enthaltene Sprache angibt. Die Schwelle kann dem momentanen Rauschleistungspegel entsprechend adaptiv eingestellt werden (117).
Das Aktualisieren der Rauschabschätzung in dem Pufferspeicher 113 wird nicht durch den Ausgang 116 des eben beschriebenen Detektors gesteuert, da ein Fehler in der Spracherkennung zu einem Aktualisieren des Puffers mit Sprachinformationen führen würde und in der Folge weitere Erkennungsfehler zu einer "Sperr"-Situation führen würden. Deshalb wird das Aktualisieren durch einen Hilfsdetektor 200 gesteuert. Um zwischen einem Rauschen und nicht gesprochener Sprache zu unterscheiden, bildet dieser (201) eine Summe aus den Produkten der (nicht gemittelten) Autokorrelationskoeffizienten Ri des Eingangs und der (nicht zwischengespeicherten) Autokorrelationskoeffizienten Bi der LPC-Koeffizienten. Ein Subtrahierer 202 vergleicht diese Summe mit der entsprechenden Summe für einen vorhergehenden, in einem Puffer 203 verzögerten Sprachrahmen. Diese Differenz, die die spektrale Ähnlichkeit zwischen aufeinanderfolgenden Rahmen des Eingangssignals darstellt, wird mit einer Schwelle verglichen (204), um ein Entscheidungssignal zu erzeugen.
Zum Erkennen gesprochener Sprache wird die Langzeitvorhersage-Verzögerung d durch eine Tonhöhe-Analyseeinheit 205 gemessen. Deren Ausgänge werden mit denen der schwellenbildenden Stufe 204 durch ein ODER-Glied 206 verknüpft - d. h., daß der Hilfsdetektor 200 schätzt, daß Sprache enthalten ist, wenn eine der Einheiten 204 und 205 oder beide ein Ausgangssignal erzeugen, das angibt, daß Sprache enthalten ist. Wie einleitend gesagt, müssen, wenn ein System Signalisierungstöne weiterleitet, diese als Sprache anstatt als Rauschen erkannt werden, wobei der eben beschriebene Hilfsdetektor beim Erreichen dieses Ziels nicht sehr effektiv ist. Obwohl er manche Töne erkennt, werden andere (im allgemeinen diejenigen mit relativ unvermischtem spektralem Inhalt) nicht erkannt. Wenn der Hilfsdetektor 200 versagt hat, versagt der Hauptdetektor ebenfalls, da die Rauschabschätzung im Puffer 113 dann auf den Signalisierungston "gerichtet" wird.
Dementsprechend wird ein weiterer Hilfsdetektor für die Erfassung von Signalisierungstönen vorgesehen. Vorzugsweise nutzt dieser die Beobachtung aus, daß Signalisierungstöne, wenn sie künstlich erzeugt werden, eine kleine Anzahl von Frequenzkomponenten (die moduliert sein können) enthalten. Die Leistungsfähigkeit eines LPC-Prädiktors ist für solche Signale außergewöhnlich hoch, wobei dies ausgenutzt wird, um zwischen Signalen, die auf Tönen basieren, (einschließlich Mehrfachtonsignalen) und Hintergrund- oder Umgebungsrauschsignalen zu unterscheiden.
Der LPC-Prädiktor-Gain Gp ist als Verhältnis der Eingangssignalenergie zur Ausgangssignalenergie für einen Sprachrahmen definiert, nämlich als
wobei xi der Filtereingang ist, während yi der Ausgang des Umkehrfilters
ist, wobei m die Anzahl der Filterkoeffizienten, gewöhnlich 8 oder 10, ist. Die Signale x(i) und y(i) werden vom LPC-Codierer 100 an den Ausgängen des Konverters 102 bzw. des Filters 106 bereitgestellt. Diese Werte werden quadriert (301, 302), während der Prädiktor-Gain durch eine Arithmetikeinheit 303, die Gp gemäß der obigen Gleichung berechnet, erhalten wird. Deren Ausgang wird durch einen Komparator 304 mit einem festgelegten Schwellenwert T verglichen; wenn der Gain die Schwelle überschreitet (gewöhnlich ist T = 63 oder 18 dB), wird angenommen, daß ein Ton erkannt worden ist. Es gibt verschiedene mögliche Reaktionen auf die Tonerkennung:
(a) Aufschalten des Hauptdetektorausgangs mit Hilfe eines ODER-Glieds 303
(b) Aufschalten des Hilfsdetektors mit Hilfe eines dritten Eingangs des ODER-Glieds 206
(c) beides (wie gezeigt)
Natürlich kann statt der Berechnung des Quotienten der Σx²-Ausdruck mit dem durch den Schwellenwert multiplizierten Σy²-Ausdruck verglichen werden. Fig. 3 zeigt Histogramme von Prädiktor-Gains in 45, die aus Hintergrund-Umgebungsrauschen, Sprache, Hintergrundrauschen in Signalisierungstönen und Signalisierungstönen selbst erhalten worden sind, während Fig. 4 Aufzeichnungen des Prädiktor-Gains für verschiedene Signalisierungstöne aus Großbritannien zeigt, nämlich:
"Teilnehmer-besetzt"-Ton
Wählton
Rufton
"Nummer-unerreichbar"-Ton
"Gerät-belegt"-Ton
In der Praxis werden "Teilnehmer-besetzt"-Ton, Wählton und "Nummer-unerreichbar"-Ton durch den weiteren Detektor erkannt, da diese tatsächlich Mehrfrequenztöne (z. B. von einem Tastenfeld) sind. Rufton und "Gerät-belegt"-Ton werden durch die Tonhöhe-Analyseeinheit 205 erkannt.
Der weitere Detektor 300 kann als Detektor für bestimmte Tontypen betrachtet werden; alternativ (in der Ausführung nach Fig. 2) kann er zur Erfassung einer Situation vorgesehen werden, in der das Residuum yi klein ist, so daß die Operation des Langzeit-Prädiktors 107 (und somit die der Tonhöhe-Analyse 205) nicht betriebssicher ist.
Eine alternative Option für das Erfassen gesprochener Sprache besteht darin, den Tonhöhendetektor 205 durch Elemente zu ersetzen, die zu 301, 302, 303 und 304 analog sind, Um auf der Grundlage der Langzeitvorhersage-Analyse 107 einen Prädiktor-Gain zu bilden (und diesen mit einer Schwelle zu vergleichen).
Im folgenden werden zwei weitere Modifikationen der Einrichtung aus Fig. 2 mit Bezug auf Fig. 5 beschrieben. Erstens beruht in der in Fig. 2 gezeigten Ausführung der berechnetet Prädiktor-Gain auf der LPC-Analyse des Sprachcodierers 100, der gewöhnlich einen Prädiktor 8. oder 10. Ordnung verwenden könnte. Jedoch ist unter Beachtung, daß die Grundlage dieses Teils der Analyse darin besteht, daß Meldungstöne zu höheren Prädiktor- Gains führen, als dies das Umgebungsrauschen tut, und daß die Fähigkeit des Prädiktors, die Rauschumgebung nachzubilden, um so größer ist, je höher die Ordnung der Analyse ist, festgestellt worden, daß durch Eingrenzen der Gain-Berechnung auf eine Analyse 4. Ordnung die aus einem oder zwei Tönen bestehenden Meldungssignale einen höheren Prädiktor-Gain ergeben, während der Prädiktor-Gain für das Umgebungsrauschen verkleinert werden kann.
Im Prinzip könnte dies durch das Vorsehen einer Analyse und eines Filters 4. Ordnung parallel zu den Einheiten 8. Ordnung 105, 106, um den Hilfsdetektor zu speisen, erreicht werden. Jedoch ist es einfacher, den Prädiktor- Gain aus den (auch als Parcor-Koeffizienten bezeichneten) Reflexionskoeffizienten zu berechnen. In Fig. 5 werden diese auf herkömmliche Weise durch eine Einheit 400 aus den Autokorrelationskoeffizienten Ri berechnet (obwohl es vom Entwurf des Sprachcodierers abhängig möglich wäre, diese mit der LPC-Analyseeinheit 105 an einem Zwischenpunkt aufzunehmen). Ein Maß für den Prädiktor-Gain kann durch Berechnung des Prädiktorfehlers Pe aus den ersten vier Reflexionskoeffizienten Rci wie folgt erhalten werden:
wobei diese bei 401 ausgeführt wird. Ein größerer Prädiktorfehler entspricht einem niedrigeren Prädiktor-Gain und umgekehrt, so daß geschätzt wird, daß ein Signalisierungston enthalten ist, wenn Pe kleiner als ein Schwellenwert Pth ist. Dieser Vergleich 403 ersetzt den Vergleich 304 aus Fig. 2.
Zweitens enthält ein Rauschen in einer Mobilfunkumgebung sehr starke Resonanzen bei niedrigen Frequenzen, so daß eine weitere Prüfung durchgeführt wird, ob der "Ton" unter einer Schwellenfrequenz liegt. Die Auswahl einer Schwelle birgt einen gewissen Kompromiß, jedoch werden 385 Hz vorgeschlagen, da die meisten Signalisierungstöne über 400 Hz liegen.
Diese weitere Prüfung geschieht durch Bestimmen der Frequenzen der Pole des LPC-Filters. Ein Filter niedriger Ordnung wird vorgezogen, um den Umfang der Analyse zu reduzieren. Wiederum könnte eine weitere LPC-Analyse durchgeführt werden, jedoch ist es einfacher, wie in Fig. 5 mit der Berechnung der LPC-Koeffizienten aus den Reflexionskoeffizienten fortzufahren. Angenommen, daß nur die ersten zwei Reflexionskoeffizienten der Einheit 400 verwendet werden, dann werden die LPC-Koeffizienten ai auf herkömmliche Weise durch eine Einheit 404 berechnet, die so definiert ist, daß die Antwort des Synthesefilters
H(z) = 1 / {a&sub0; + a&sub1;z&supmin;¹ + a&sub2;z&supmin;²}
lautet.
Dann ist die Lage der Pole in der z-Ebene durch die Lösung der quadratischen Gleichung
a&sub0;z² + a&sub1;z + a&sub2; = 0 a&sub0; = 1
d. h.
gegeben.
Wenn der Ausdruck unter der Quadratwurzel negativ ist, dann liegt der Pol auf der reellen Achse und das Signal ist kein Ton. Wenn er positiv ist, jedoch der reelle Teil der Pollage negativ ist (d. h.: a&sub1; < 0), dann liegt der Pol in der linken Hälfte der z-Ebene. Dies impliziert notwendigerweise, daß die Frequenz größer als 25% der Abtastfrequenz ist - d. h. bei einer Abtastfrequenz fs von 8 kHz über 2000 Hz beträgt, wobei in diesem Fall die Frequenzberechnung überflüssig ist und ein "> 385"-Signal unmittelbar erzeugt werden kann.
Die Polfrequenz ist gegeben durch:
Die Bedingung, daß f < 385 Hz, kann (unter Vermeidung von Quadratwurzeln) wie folgt geschrieben werden:
(4a&sub2; - a&sub1;²)/a&sub1;² < 0,0973 bei fs = 8 kHz
Diese Berechnung wird durch die Einheit 405 durchgeführt.
Deren Ausgang wird mit jenem des Komparators 403 durch ein UND-Glied verknüpft, so daß eine "Ton"-Entscheidung nur erzeugt wird, wenn gleichzeitig der Prädiktor-Gain groß ist und die Polfrequenz größer als 385 Hz ist.
Falls erwünscht können Polfrequenzen über 200 Hz (oder einer beliebigen anderen Obergrenze) ebenfalls erfaßt werden, so daß hohe Frequenzen über dem erwarteten Signalisierungstonbereich nicht als Töne erkannt würden.
Wenn die zusätzliche Berechnung bei der Lösung einer Gleichung 4. Grades berücksichtigt werden kann, dann ist es möglich, die dritten und vierten Reflexionskoeffizienten ebenfalls zu verwenden; in diesem Fall könnten potentiell zwei konjugiert komplexe Polpaare - mit zwei zugehörigen Frequenzen - identifiziert werden, mit der Absicht, daß ein Ton als nicht enthalten betrachtet wird, wenn beide Frequenzen unterhalb der Schwelle liegen.
Es ist bereits erwähnt worden, daß die Ausführungen der Fig. 2 und 5 vor der Autokorrelationsberechnung 103 (wie auch bei der auf der Autokorrelation basierenden LPC- Analyse) ein Hamming-Fenster verwenden. Wenn eine solche Fenstertechnik in dem Sprachcodierer nicht erwünscht ist, dann besteht eine mögliche Alternative im Fall von Fig. 5 darin, die Fenstertechnik 103 auszulassen und die Reflexionskoeffizientenberechnung 400 durch Konvertierung der Autokorrelationswerte in Kovarianzwerte zu ersetzen, wobei die Einheiten 401, 404 modifiziert werden, um statt Reflexionskoeffizienten Kovarianzwerte zu verwenden. Alternativ kann, wie in Fig. 6 (die nur die Teile zeigt, die sich in bezug auf Fig. 5 geändert haben) gezeigt ist, die anfängliche Verarbeitung mit Hilfe einer Kovarianzanalyse 109 erfolgen, deren Ausgang zu einer Reflexionskoeffizienten-Berechnungsvorrichtung 400' und einer modifizierten Autokorrelationskoeffizienteneinheit 104' geführt wird. Die LPC-Analyseeinheit 105 kann wie zuvor mit der Autokorrelationskoeffizienteneinheit 104' oder, wie gezeigt, direkt mit der Kovarianzanalyseeinheit 109 verbunden sein.
Die obenbeschriebenen "Tonerfassungs"-Ausführungen erzeugen gute Ergebnisse; sie können jedoch bei mechanisch erzeugten Tönen, wie sie in manchen Staatsgebieten verwendet werden, versagen, da diese häufig einen Oberwellengehalt besitzen, der zu einem niedrigen Prädiktor-Gain führt. Die Oberwellen einfach herauszufiltern, ist keine Lösung, da das Einführen eines Filters häufig die Autokorrelation sämtlicher Signale ansteigen läßt und somit auch zu höheren Prädiktor-Gains für andere Signale führt. Es ist festgestellt worden, daß der Prädiktor eher die Filterpole als die Eigenschaften des Eingangssignals nachbildet. Es ist jedoch entdeckt worden, daß bei Anwendung der Filterung gute Ergebnisse erzielt werden können, wenn die Prädiktor-Gain-Analyse darauf beschränkt werden kann, die Vorhersagbarkeit des Signals nur innerhalb eines Frequenzbereichs zu schätzen, der dem Durchlaßbereich des Oberwellenfilters entspricht. Dies kann durch Unterabtastung des Signals bei einer Frequenz, die der doppelten Filterbandbreite entspricht, vor der Prädiktor- Gain-Analyse erreicht werden.
So verwendet die Ausführung nach Fig. 7, die in anderen. Aspekten der Fig. 5 ähnlich ist, ein Filter 450. Dies ist ein FIR-Gleichwelligkeits-Tiefpaßfilter mit Nullstellen auf dem Einheitskreis, mit einem Durchlaßbereich von bis zu 600 (3-dB-Punkt) und mit einer Sperrbereichsdämpfung von 200 dE bei 1200 Hz. Zweckmäßigerweise wird darauf geachtet, daß die Sperrbereichsdämpfung nicht zu groß ist. Der Filterausgang wird bei 1200 Hz in der Unterabtastungseinheit 451 unterabgetastet.
Wird diese Filterung angewandt, sind die Möglichkeiten, daß die Tonerfassung und der Sprachcodierer gemeinsame Komponenten besitzen, natürlich sehr verringert; so wird das Filter 450 mit dem digitalisierten Eingangssignal direkt von dem Analog-Digital-Umsetzer 102 gespeist und versorgt eine Reflexionskoeffizienten-Analyseeinheit 400" oder, wie oben besprochen, eine Kovarianz- oder Autokorrelations-Analalyseeinheit. Die Autokorrelationsoption erfordert, wie oben erwähnt, die Fenstertechnik.
Eine weitere Ausführung verkleinert das "Oberwellen"- Problem, ohne den Frequenzbereich der Prädiktor-Gain- Analyse übermäßig zu beschränken; dies wird dadurch erreicht, daß Filter verwendet werden, um das Signal in zwei oder mehrere Frequenzbänder zu zerlegen, wovon jedes schmal genug ist, so daß es die erste und die dritte Oberwelle eines Tons nicht gleichzeitig enthalten kann. Jeder Kanal wird dann unterabgetastet und einer getrennten Prädiktor-Gain-Analyse unterzogen.
So wird in Fig. 6 das Signal durch die Filter 450a, 450b in die Frequenzbänder 400-1200 Hz und 1200-2000 Hz zerlegt und bei 1,6 kHz unterabgetastet (451a, 451b). Die Reflexionskoeffizientenberechnung 400"a, 400"b sowie die Prädiktorfehleranalyse 401a, 401b werden für die zwei Bänder getrennt durchgeführt. Die zwei Ausgänge der Komparatoren 403a, 403b werden zu getrennten Eingängen des ODER-Glieds 206 geführt, so daß ein großer Prädiktor- Gain in jedem der Kanäle zur Angabe eines enthaltenen Tons vorausgesetzt wird. Die anderen Elemente 100-303 aus Fig. 7 sind in Fig. 8 nicht gezeigt, da sie nicht verändert sind.

Claims

1. Sprachaktivitätsdetektor zum Erfassen von Sprache in einem Eingangssignal, der umfaßt:

(a) eine Vorrichtung zum Abspeichern einer Abschätzung der Rauschkomponenten in einem Eingangssignal,

(b) eine Vorrichtung zum Erkennen der spektralen Ähnlichkeit des Eingangssignals und der abgespeicherten Abschätzung zum Erzeugen eines Entscheidungsausgangssignals,

(c) eine Vorrichtung zum Aktualisieren der abgespeicherten Abschätzung,

(d) einen Hilfsdetektor, der dazu ausgelegt ist, die Aktualisierungsvorrichtung derart zu steuern, daß eine Aktualisierung nur stattfindet, wenn durch den Hilfsdetektor angezeigt wird, daß keine Sprache in dem Eingangssignal enthalten ist,

gekennzeichnet durch

eine Vorrichtung, die dazu dient, einen Prädiktor-Gain- Parameter für das Eingangssignal als Verhältnis der Prädiktorfiltereingangssignalenergie zu der Prädiktorfilterausgangssignalenergie für einen Sprachrahmen zu berechnen, und eine Modifizierungsvorrichtung, die das Aktualisieren für den Fall unterdrückt, daß der Prädiktor-Gain einen Schwellenwert überschreitet.

2. Sprachaktivitätsdetektor nach Anspruch 1, bei dem der Hilfsdetektor einen Detektor für gesprochene Sprache umfaßt, der auf Signale reagiert, die aus einem LPC- Restsignal abgeleitet worden sind.

3. Sprachaktivitätsdetektor nach Anspruch 1 oder 2, bei dem der Gain-Parameter den Prädiktor-Gain einer LPC- Vorhersage 6. oder niedrigerer Ordnung darstellt.

4. Sprachaktivitätsdetektor nach Anspruch 3, bei dem der Gain-Parameter den Prädiktor-Gain einer LPC-Vorhersage 4. oder niedrigerer Ordnung darstellt.

5. Sprachaktivitätsdetektor nach einem der vorangehenden Ansprüche, der außerdem eine Vorrichtung zum Erfassen einer oder mehrerer primärer Frequenzkomponenten des Eingangssignals und eine Vorrichtung umfaßt, die dazu dient, die Frequenzen mit einem vorgegebenen Schwellenwert zu vergleichen und die Unterdrückung der Aktualisierung ausschließlich zuzulassen, wenn eine primäre Komponente den Schwellenwert übersteigt.

6. Sprachaktivitätsdetektor nach einem der vorangehenden Ansprüche, bei dem die Gain-Berechnungsvorrichtung auf ein Filter zum Entfernen eines oberen Abschnittes des Frequenzbereiches des Eingangssignals folgt, wobei die Gain-Berechnung nur für Frequenzkomponenten innerhalb des Durchlaßbereiches des Filters erfolgt.

7. Sprachaktivitätsdetektor nach Anspruch 6 mit zwei Filtern mit jeweiligen Durchlaßbereichen und jeweiligen Gain-Berechnungsvorrichtungen zum Berechnen von Gain- Paramentern für die jeweiligen Durchlaßbereiche, wobei die Modifizierungsvorrichtung das Aktualisieren für den Fall unterdrückt, daß der Prädiktor-Gain innerhalb eines Durchlaßbereiches einen Schwellenwert überschreitet.

8. Sprachaktivitätsdetektor nach Anspruch 6 oder 7 mit einer Vorrichtung zum Durchführen einer Unterabtastung des/der gefilterten Signals/Signale.