DE69131739T2

DE69131739T2 - Einrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal

Info

Publication number: DE69131739T2
Application number: DE69131739T
Authority: DE
Inventors: Joji Kane; Akira Nohara
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1990-05-28
Filing date: 1991-05-28
Publication date: 2001-10-04
Anticipated expiration: 2011-05-29
Also published as: DE69131739D1; EP0763813B1; EP0459382A2; EP0763811B1; EP0763813A1; DE69132659T2; EP0763811A1; DE69132645D1; EP0763812A1; EP0763812B1; EP0763810B1; US5621850A; US5355431A; DE69132644D1; KR910020642A; KR950013552B1; DE69132645T2; DE69132749D1; DE69132644T2; DE69132749T2

Description

Die vorliegende Erfindung betrifft einen Sprachsignalprozessor und insbesondere einen Signalprozessor zum Untersuchen verrauschter Eingangssignale, um ein rauschunterdrücktes Sprachsignal durch Trennen des Rauschens aus dem Signal mit charakteristischen Merkmalen abzuleiten.
Konventionell wurde eine Vorrichtung zum Unterscheiden zwischen Sprache und Rauschen in einem verrauschten Sprachsignal vorgeschlagen (siehe z. B. JP-A Nr. 59-124397/1984 und JP-A Nr. 59-131997/1984). Das von der Vorrichtung ausgegebene Unterscheidungsergebnis wird in einer Spracherkennungsvorrichtung zur Erkennung von Sprache verwendet.
Weiterhin ist in einem Dokument "SIGNAL PROCESSING. EUROPEAN JOURNAL DEVOTED TO THE METHODS AND APPLICATIONS OF SIGNAL PROCESSING", Band 15, Nr. 1, Juli 1988, Seiten 43-56, "Acoustic noise analysis and speech enhancement techniques for mobile radio applications" und insbesondere in den Absätzen 4.4. "Spectral Subtraction technique", eine spektrale Subtraktionstechnik beschrieben, und Bezug genommen wird auf einen Artikel von P. Vary, "Noise suppression by spectral magnitude estimation - Mechanism and theoretical limits", Signal Processing, Band 8, Nr. 4, Juli 1985, Seiten 387-400, in welchem mehr Einzelheiten beschrieben werden. Ein gemeinsames Merkmal sämtlicher Sprachverbesserungstechniken, basierend auf Spektralauflösung, ist die Abschätzung der Signalhöhe während der Sprachaktivität für einen Satz von Frequenzbändern. Eine Rauschunterdrückung wird in jedem Band unter Berücksichtigung nur der Höhe und nicht der Phase des additiven Rauschens ausgeführt. Der zuletzt erwähnte Beitrag zeigt, daß die Phase bei der Sprachverbesserung uninteressant ist, solange die örtlichen Signal/Rausch-Verhältnisse weniger als etwa 6 dB betragen.
Es ist eine Aufgabe der vorliegenden Erfindung, einen Sprachsignalprozessor anzugeben, welcher in der Lage ist, ein rauschunterdrücktes Sprachsignal aus einem verrauschten Sprachsignal abzuleiten.
Diese Aufgabe wird gelöst durch einen Sprachsignalprozessor, mit: einer Speichereinrichtung zum Speichern von Informationen vorbestimmter Merkmale einer Mehrzahl von Arten von vorbestimmten Sprachsignalen entsprechend einer Mehrzahl von Sprechern, einer Cepstrum-Analyseeinrichtung zum Ausführen einer Cepstrum-Analyseverarbeitung für das eingegebene, verrauschte Sprachsignal und Ausgeben eines Cepstrum des eingegebenen, verrauschten Sprachsignales, einer Signalbeurteilungseinrichtung zum Erfassen solch eines vorbestimmten Merkmales aus einem eingegebenen Cepstrum des verrauschten Sprachsignales und Ausgeben eines Steuerungssignales, welches ein Intervall angibt, wann ein Sprachsignal vorhanden ist, einer Maximal-Wahrscheinlichkeits-Abschätzungseinrichtung zum Erfassen einer der Arten der vorbestimmten Signale des eingegebenen, verrauschten Sprachsignales durch Vergleichen der Merkmale des Cepstrum des Eingangssignales in dem durch das Steuerungssignal angezeigten Intervall mit den in der Speichereinrichtung gespeicherten, vorbestimmten Merkmalen, und einer Signal- Ausgabeeinrichtung zum Ausgeben des durch die Signal-Beurteilungseinrichtung ausgegebenen Steuerungssignales und der Art des durch die Maximal-Wahrscheinlichkeits-Abschätzung erfaßten Signales als Signalpaar.
Bevorzugte Ausführungsformen sind durch die Unteransprüche gekennzeichnet.
Diese und andere Merkmale der vorliegenden Erfindung werden aus der folgenden Beschreibung in Verbindung mit deren bevorzugten Ausführungsformen anhand der beigefügten Zeichnungen deutlich, in welchen gleiche Teile durch gleiche Bezugszeichen bezeichnet sind. Dabei zeigen:
Fig. 1 ein vereinfachtes Blockschaltbild einer Signalerfassungsvorrichtung einer ersten bevorzugten Ausführungsform der vorliegenden Erfindung;
Fig. 2 ein vereinfachtes Blockschaltbild einer Signalerfassungsvorrichtung einer zweiten bevorzugten Ausführungsform der vorliegenden Erfindung;
Fig. 3 ein vereinfachtes Blockschaltbild einer Rauschunterdrückungsvorrichtung einer dritten bevorzugten Ausführungsform der vorliegenden Erfindung;
Fig. 4a und 4b Kennlinien, welche eine in den bevorzugten Ausführungsformen verwendete Cepstrum-Analyse zeigen;
Fig. 5 eine Kennlinie zum Zeigen eines in den bevorzugten Ausführungsformen verwendeten Rausch-Vorhersageverfahrens;
Fig. 6 und 7 Darstellungen, welche Wellenformen zum Erläutern eines in den bevorzugten Ausführungsformen verwendeten Rausch-Löschverfahrens zeigen.
Die bevorzugten Ausführungsformen der vorliegenden Erfindung werden unten detailliert anhand der beigefügten Zeichnungen beschrieben.
Fig. 1 zeigt eine Signalerfassungsvorrichtung einer ersten bevorzugten Ausführungsform der vorliegenden Erfindung. In der bevorzugten Ausführungsform wird ein Beispiel der Verwendung eines Sprachsignales als ein zu verarbeitendes Signal beschrieben.
In Fig. 1 umfaßt die Signalerfassungsvorrichtung eine Cepstrum-Analyse Sektion 1, eine Speichereinheit 2, eine Signal-Beurteilungssektion 3, einen Maximal- Wahrscheinlichkeits-Abschätzer 4 und eine Signal-Ausgabesektion 5.
Die Cepstrum-Analyse Sektion 1 führt eine Cepstrum-Analyse für ein eingegebenes Sprachsignal aus, welches vorher durch eine Band-Aufteilungssektion Fouriertransformiert wurde. Ein Cepstrum wird durch Berechnen eines Logarithmus' eines Amplitudenspektrums für ein kurzes Zeitintervall einer Wellenform des eingegebenen Sprachsignales und inverse Fourier-Transformation des berechneten Logarithmus' erhalten. Fig. 4a zeigt ein Amplitudenspektrum für ein kurzes Zeitintervall eines Sprachsignales, und Fig. 4b zeigt ein Cepstrum des Sprachsignales.
Die Speichereinheit 2 ist vorgesehen zum vorherigen Speichern vorbestimmter Merkmalsinformationen bekannter Arten von mehreren Sprachsignalen und ist durch ein RAM oder ROM gebildet. Insbesondere speichert die Speichereinheit 2 zum Beispiel Informationen einer Beziehung zwischen einem Cepstrum-Analyse- Ergebnis eines Sprachsignals eines Sprechers A und dem Sprecher A. Das Cepstrum-Analyse-Ergebnis beinhaltet wenigstens eine vorhandene Position einer Spitze oder einen Abstand des erhaltenen Cepstrums und Formanten-Informationen, wie in Fig. 4b bezeigt. Ebenso werden die Cepstrum-Analyse-Ergebnisse der Sprachen der anderen Sprecher B, C und so weiter vorab in der Speichereinheit 2 gespeichert. Die Positionen der Spitzen oder Abstände und der Formanten-Information der entsprechenden Sprecher sind für jeden Sprecher voneinander verschieden. Es ist anzumerken, daß als Merkmalsinformation einer Sprache jedes Sprachmerkmal wie eine Amplitude und eine Phase einer Sprache und so weiter zusätzlich zu dem oben erwähnten Cepstrum-Analyse-Ergebnis verwendet werden kann.
Die Signalbeurteilungssektion 3 unterscheidet zwischen einer Sprache und einem Rauschen eines verrauschten Sprachsignals durch Verwenden des durch die Cepstrum-Analyse Sektion 1 erhaltenen Cepstrums. Als ein Verfahren zum Erfassen eines Sprachsignalintervalls durch Verwendung des Cepstrums des Sprachsignales ist dem Durchschnittsfachmann zum Beispiel ein Verfahren zum Unterscheiden zwischen einem Sprachsignal und einem Rauschen durch Erfassen einer Spitze oder eines Abstandes des Cepstrums bekannt. Insbesondere, wie in Fig. 2 gezeigt, kann die Signalbeurteilungssektion 3 eine Spitzen-Erfassungssektion 31 umfassen, zum Erfassen einer Spitze des erhaltenen Cepstrums, und eine Sprachbeurteilungssektion 32 zum Erfassen eines Sprachsignalintervalls basierend auf der erfaßten Spitzeninformation. Der in Fig. 4b gezeigte Abstand stellt eine Spitze des Sprachsignals dar, und ein Zeitintervall, wenn die Spitze in dem Cepstrum ausläuft, ist ein Sprachsignalintervall. Die Spitze wird zum Beispiel durch Voreinstellen eines vorbestimmten Schwellwertes für ein Cepstrum und Vergleichen entsprechender Energiepegel des Cepstrums mit dem voreingestellten Schwellwert erfaßt.
Zu einer Zeit, wenn ein Sprachsignalintervall durch die Signalbeurteilungssektion 3 erfaßt wird, wird ein Steuerungssignal von der Signalbeurteilungssektion 3 zu der Speichereinheit 2 ausgegeben und die vorher in der Speichereinheit 2 gespeicherte Merkmalsinformation wird in den Maximal-Wahrscheinlichkeits-Abschätzer 4 eingegeben. Andererseits wird die Merkmalsinformation des Cepstrum-Analyse- Ergebnisses der Sprache von der Cepstrum-Analysesektion 1 in den Maximal- Wahrscheinlichkeits-Abschätzer 4 eingegeben. Der Maximal-Wahrscheinlichkeits- Abschätzer 4 vergleicht das eingegebene Cepstrum-Analyse-Ergebnis mit der von der Speichereinheit 2 ausgegebenen Merkmalsinformation sequentiell, Umschalten der Merkmalsinformation in einer Reihenfolge der Merkmalsinformation der Sprecher A, B, C, D und so weiter, Suchen der Merkmalsinformation, welche dem eingegebenen Cepstrum-Analyse-Ergebnis am ähnlichsten ist, und Erfassen, welcher Sprecher der eingegebenen Sprache entspricht. Als ein Verfahren zum Erfassen des Grades der Ähnlichkeit dazwischen kann ein Musterübereinstimmungsverfahren verwendet werden, ein Verfahren zum Erfassen eines Grades der Ähnlichkeit von Amplituden davon, und ein Verfahren zum Erfassen eines Grades der Phasen davon, welche dem Durchschnittsfachmann bekannt sind.
Die Signalausgabesektion 5 gibt ein Paar von Erfassungsergebnissen als Reaktion auf das von der Signalbeurteilungssektion 3 ausgegebene Erfassungsergebnis und das von dem Maximal-Wahrscheinlichkeits-Abschätzer 4 ausgegebene Erfassungsergebnis aus. Insbesondere gibt die Signalausgabesektion 5 nicht nur Präsenzinformationen der Sprache oder Informationen des Sprachsignalintervalls, sondern auch Informationen des Sprechers des Sprachsignales aus.
Eine Wirkungsweise der Signalerfassungsvorrichtung der bevorzugten Ausführungsform wird unten beschrieben.
Zuerst werden Cepstrum-Analyse-Ergebnisse der Sprachen der entsprechenden Sprecher vorab in der Speichereinheit 2 gespeichert. Danach wird ein verrauschtes Sprachsignal in die Cepstrum-Analysesektion 1 eingegeben und die Cepstrum- Analysesektion 1 führt dann eine Cepstrum-Analyse für das eingegebene, verrauschte Sprachsignal aus, wie oben beschrieben. Es ist anzumerken, daß die Cepstrum-Analyse von Sprachen entsprechender Sprecher durch eine Cepstrum- Analysesektion 1 ausgeführt werden kann, wie durch eine Linie 6 (Fig. 1) gezeigt.
Die Signalbeurteilungssektion 3 erfaßt ein Sprachsignalintervall des eingegebenen, verrauschten Sprachsignales unter Verwendung der Spitze, etc., des von der Cepstrum-Analysesektion 1 ausgegebenen Cepstrum-Analyse-Ergebnisses. Dann wird zu einem Zeitpunkt, wenn ein Sprachsignalintervall durch die Signalbeurteilungssektion 3 erfaßt wird, ein Steuerungssignal von der Signalbeurteilungssektion 3 zur Speichereinheit 2 ausgegeben, wie durch eine Linie 7 angezeigt, und dann wird das in der Speichereinheit 2 gespeicherte Cepstrum-Analyse-Ergebnis zu dem Maximal-Wahrscheinlichkeits-Abschätzer 4 ausgegeben. Andererseits wird das Cepstrum-Analyse-Ergebnis von der Cepstrum-Analysesektion 1 in den Maximal- Wahrscheinlichkeits-Abschätzer 4 eingegeben. Der Maximal-Wahrscheinlichkeits- Abschätzer 4 vergleicht das von der Cepstrum-Analysesektion 1 eingegebene Cepstrum-Analyse-Ergebnis mit dem von der Speichereinheit 2 eingegebenen Cepstrum-Analyse-Ergebnis und bestimmt eines der in der Speichereinheit 2 gespeicherten Cepstrum-Analyse-Ergebnisse, welches das von der Cepstrum- Analyse-Sektion 1 ausgegebene, ähnlichste Cepstrum-Analyse-Ergebnis ist. Wenn keines der Cepstrum-Analyse-Ergebnisse vorhanden ist, welches dem von der Cepstrum-Analysesektion 1 ausgegebenen Cepstrum-Analyse-Ergebnis mit einer größeren Ähnlichkeit als ein Schwellwert gleicht, erkennt der Maximal-Wahrscheinlichkeits-Abschätzer 4, daß kein Cepstrum-Analyse-Ergebnis vorhanden ist, welches dem Cepstrum-Analyse-Ergebnis des eingegebenen Sprachsignales gleicht. Schließlich gibt die Signalausgabesektion 5 ein Paar der Erfassungsergebnisse, die von dem Maximal-Wahrscheinlichkeits-Abschätzer 4 ausgegeben werden, und das von der Signalbeurteilungssektion 3 ausgegebene Erfassungsergebnis aus.
In der vorliegenden, bevorzugten Ausführungsform wird als Eingangssignal ein Sprachsignal verwendet, die vorliegende Erfindung ist jedoch nicht darauf beschränkt. Anstelle des Sprachsignals kann ein Signal eines Klanges eines Automobils oder ein Signal eines Klanges eines Flugzeugs etc. verwendet werden, und dann können andere Signale als Rauschen betrachtet werden. In diesem Fall wird nicht das Cepstrum-Analyse-Ergebnis verwendet, und andere Merkmalsinformationen davon werden genutzt.
Fig. 2 zeigt eine Signalerfassungsvorrichtung einer zweiten bevorzugten Ausführungsform der vorliegenden Erfindung. In Fig. 2 sind die gleichen Komponenten wie die in Fig. 1 gezeigten mit den gleichen Bezugszeichen wie den in Fig. 1 verwendeten bezeichnet.
Wie in Fig. 2 gezeigt, umfaßt die Signalbeurteilungssektion 3 in einer mit der in Fig. 1 gezeigten ersten Ausführungsform vergleichbaren Weise die Spitzenerfassungssektion 31 und die Sprachbeurteilungssektion 32. Die Vorrichtung umfaßt jedoch weiterhin eine Rauschvorhersagesektion 8 und eine Rauschleistungs-Berechnungssektion 9 zusätzlich zu den entsprechenden Sektionen der ersten, bevorzugten Ausführungsform. Unterschiede zwischen der ersten und zweiten bevorzugten Ausführungsform werden unten detailliert beschrieben.
Der Maximal-Wahrscheinlichkeits-Abschätzer 4 erfaßt eine Art von Sprache, welche am wahrscheinlichsten diejenige eines eingegebenen Sprachsignales ist, unter Berücksichtigung eines vorhergesagten Rauschens in der Sprache zusätzlich zu den von der Speichereinheit 2 ausgegebenen Cepstrum-Analyse-Ergebnissen und dem von der Cepstrum-Analysesektion 1 ausgegebenen Cepstrum-Analyse- Ergebnis. Insbesondere, wenn die Sprachbeurteilungssektion 32 ein Zeitintervall erfaßt, während welchem Sprache vorhanden ist, wird das Erfassungsergebnis von der Sprachbeurteilungssektion 32 zu der Rauschvorhersagesektion 8 ausgegeben. Andererseits wird ein verrauschtes Sprachsignal in die Rauschvorhersagesektion 8 eingegeben. Da ein Teil, in welchem keine Sprache vorhanden ist, ein Teil ist, in welchem nur Rauschen (nachfolgend als Nur-Rausch-Abschnitt bezeichnet) vorhanden ist, sagt die Rauschvorhersagesektion 8 ein Rauschen einer Sprache basierend auf Daten des Nur-Rauschen-Abschnittes voraus. Die Rauschvorhersagesektion 8 sagt zum Beispiel insbesondere eine Rauschkomponente durch entsprechende Kanäle basierend auf dem verrauschten Sprachsignal voraus, welches in mehrere m-Band-Kanäle aufgeteilt ist, wobei jedes Band eine vorbestimmte Bandbreite aufweist und entsprechende Bandkanäle Bänder aufweisen, welche sich voneinander unterscheiden.
Fig. 5 zeigt ein Beispiel eines Rauschvorhersageverfahrens. In Fig. 5 ist eine x-Achse eine Frequenz, eine y-Achse ist ein Leistungspegel eines eingegebenen Sprachsignals und eine z-Achse ist die Zeit. Bei einer Frequenz f1 befinden sich Daten p1, p2, ..., pi, wenn eine Zeit verstrichen ist, und dann werden Daten pj, welche Daten nach dem Datenwert pi auf der Linie der Daten p1, p2, ..., pi darstellen, vorhergesagt. Ein Mittelwert von Rauschdaten p1 bis pi wird zum Beispiel berechnet, und der berechnete Mittelwert wird dann als ein vorhergesagter Wert pj gesetzt. Alternativ werden, wenn ein Sprachsignal kontinuierlich vorhanden ist, Daten pj mit einem Dämpfungsfaktor multipliziert und das Produkt der Daten pj und des Dampfungsfaktors wird als ein vorhergesagter Wert gesetzt.
Die Rauschleistungs-Berechnungssektion 9 berechnet einen Leistungspegel des vorhergesagten Rauschens wie einen Mittelwert einer Amplitude davon. Wenn der berechnete Leistungspegel des vorhergesagten Rauschens größer als ein vorbestimmter Schwellwert ist, auch wenn sich das in der Speichereinheit 2 gespeicherte Cepstrum-Analyse-Ergebnis geringfügig von dem von der Cepstrum-Analysesektion 1 ausgegebenen Cepstrum-Analyse-Ergebnis unterscheidet, beurteilt der Maximal-Wahrscheinlichkeits-Abschätzer 4, daß sie im wesentlichen einander ähneln, und der Pegel des Vergleichbarkeits-Beurteilungsstandards wird verringert. Wenn andererseits der Leistungspegel des vorhergesagten Rauschens geringer als der vorbestimmte Schwellwert ist, erkennt der Maximal-Wahrscheinlichkeits- Abschätzer 4, daß im wesentlichen kein Rauschen vorhanden ist, und dann wird der Pegel des Vergleichbarkeits-Beurteilungsstandards erhöht.
Fig. 3 zeigt eine Vorrichtung mit einer Rauschunterdrückungsvorrichtung einer dritten, bevorzugten Ausführungsform der vorliegenden Erfindung. In Fig. 3 werden die gleichen Komponenten wie die in den Fig. 1 und 2 gezeigten mit den gleichen Bezugszeichen wie den in den Fig. 1 und 2 gezeigten bezeichnet.
Die Rauschunterdrückungsvorrichtung der dritten bevorzugten Ausführungsform ist gekennzeichnet durch Ausgeben eines rauschunterdrückten Sprachsignals unter Verwendung eines Vorhersagewertes eines vorhergesagten Rauschens, und umfaßt weiterhin eine Bandaufteilungssektion 10, eine Löschsektion 11 und eine Band- Kombinationssektion 12 zusätzlich zu der zweiten bevorzugten Ausführungsform.
In Fig. 3 wird ein verrauschtes Sprachsignal in die Bandaufteilungseinrichtung 10 eingegeben und als Reaktion darauf wandelt dann die Bandaufteilungssektion 10 das eingegebene, analoge, verrauschte Sprachsignal in ein digitales, verrauschtes Sprachsignal um, Fourier-transformiert das digitale, verrauschte Sprachsignal in ein Spektralsignal und dividiert dann das transformierte Spektralsignal in Spektral-signale mehrerer m Kanäle. Die Spektralsignale mehrerer m Kanäle, welche von der Bandaufteilungssektion 10 ausgegeben werden, werden in die oben erwähnte Cepstrum-Analysesektion 1 und die Rauschvorhersagesektibn 8 eingegeben. Die verrauschten Spektralsignale der entsprechenden Frequenzkanäle, die von der Bandaufteilungssektion 10 ausgegeben werden, werden in die Löschsektion 11 eingegeben, und die Löschsektion 11 löscht oder weist ein Rauschen eines durch die Rauschvorhersagesektion 8 vorhergesagten Vorhersagewertes zurück, wie folgt.
Fig. 6 zeigt ein Beispiel eines allgemeinen Löschverfahrens einer Zeitachse. Wie in Fig. 6 gezeigt, wird eine durch die Rauschvorhersagesektion 8 vorhergesagte Rausch-Wellenform (b) von einem verrauschten Sprachsignal (a) subtrahiert, um dadurch nur ein Sprachsignal (c) zu extrahieren.
In der bevorzugten Ausführungsform wird ein Löschverfahren auf einer in Fig. 7 gezeigten Frequenzachse verwendet. In Fig. 7 wird ein verrauschtes Sprachsignal (a) in ein Spektralsignal (b) Fourier-transformiert, und dann wird ein Spektrum (c) des vorhergesagten Rauschens von dem umgewandelten Spektralsignal (b) subtrahiert, um das subtrahierte Spektralergebnis (d) zu erhalten. Das subtrahierte Spektralergebnis (d) wird weiterhin invers Fourier-transformiert in ein Sprachsignal (e) ohne Rauschen oder in ein rauschunterdrücktes Sprachsignal (e).
Die Band-Kombinationssektion 12 kombiniert die Spektralsignale mehrerer m Kanäle, welche von der Löschsektion 11 ausgegeben werden, und führt eine inverse Fourier-Transformation der kombinierten Spektralsignale in ein rauschunterdrücktes Sprachsignal aus.
Wie oben beschrieben, wird in der bevorzugten Ausführungsform eine Rauschkomponente aus dem verrauschten Sprachsignal durch die Löschsektion 11 gelöscht, und ein Sprachsignal wird durch die Band-Kombinationssektion 12 erhalten. Daher kann ein rauschunterdrücktes Sprachsignal zusammen mit der Information eines Sprechers des Sprachsignals erhalten werden.
Es ist anzumerken, daß in der bevorzugten Ausführungsform, soweit Merkmale in der Speichereinheit 2 zu speichern sind, ausgewählte Spitzeninformationen der Cepstrum-Analyse-Ergebnisse der entsprechenden Sprecher vorhanden sind.

Claims

1. Sprachsignalprozessor, mit:

einer Speichereinrichtung (2) zum Speichern von Informationen vorbestimmter Merkmale mehrerer Arten vorbestimmter Sprachsignale entsprechend mehreren Sprechern; einer Cepstrum-Untersuchungseinrichtung (1) zum Ausführen eines Cepstrum-Untersuchungsvorgangs für das eingegebene, verrauschte Sprachsignal und Ausgeben eines Cepstrum des eingegebenen, verrauschten Sprachsignales;

einer Signalbeurteilungseinrichtung (3) zum Erfassen solch eines vorbestimmten Merkmales aus einem eingegebenen Cepstrum des verrauschten Sprachsignales und Ausgeben eines Steuerungssignales, welches ein Intervall anzeigt, wenn ein Sprachsignal vorhanden ist;

einer Maximal-Wahrscheinlichkeits-Abschätzungseinrichtung (4) zum Erfassen einer der Arten der vorbestimmten Signale des eingegebenen, verrauschten Sprachsignales durch Vergleichen der Merkmale des Cepstrums des Eingangssignales in dem durch das Steuerungssignal angegebenen Intervall, mit den in der Speichereinrichtung gespeicherten, vorbestimmten Merkmalen, und einer Signal-Ausgabeeinrichtung (5) zum Ausgeben des von der Signal-Beurteilungseinrichtung (3) ausgegebenen Steuerungssignales und der durch die Maximal-Wahrscheinlichkeits-Abschätzung als Signalpaar erfaßten Art von Signalen.

2. Sprachsignalprozessor nach Anspruch 1,

mit einer Rauschvorhersageeinrichtung (8) zum Vorhersagen von Rauschen des Signales als Reaktion auf das eingegebene, verrauschte Signal;

wobei die Maximal-Wahrscheinlichkeits-Abschätzungseinrichtung (4) die Art des Sprachsignales als Reaktion auf das durch die Rauschvorhersageeinrichtung (8) vorhergesagte Rauschen erfaßt.

3. Sprachsignalprozessor nach Anspruch 1,

und mit:

einer Bandaufteilungseinrichtung (10) zum Ausführen eines Bandaufteilungsvorgangs einschließlich einer Fourier-Transformation für ein eingegebenes Sprachsignal und Ausgeben von Spektralsignalen mehrerer Kanäle;

einer Cepstrum-Untersuchungseinrichtung (1) zum Ausführen eines Cepstrum- Untersuchungsvorgangs für die Spektralsignale der von der Bandaufteilungseinrichtung (10) ausgegebenen, mehreren Kanäle und Ausgeben eines Cepstrum- Untersuchungsergebnisses;

wobei die Beurteilungseinrichtung (3) aus einer Spitzenerfassungseinrichtung (31) zum Erfassen einer Spitze eines Cepstrums als Reaktion auf das von der Cepstrum- Untersuchungseinrichtung ausgegebene Cepstrum-Untersuchungsergebnis, und einer Sprachbeurteilungseinrichtung (32) zum Erfassen eines Sprachsignalintervalls des eingegebenen, verrauschten Sprachsignales basierend auf der durch die Spitzenerfassungseinrichtung erfaßten Spitze und Ausgeben des erfaßten Sprachsignalintervalls besteht;

einer Rausch-Vorhersageeinrichtung (8) zum Vorhersagen eines Rauschens in der Sprache des eingegebenen, verrauschten Sprachsignales außerhalb des von der Sprachbeurteilungseinrichtung (32) ausgegebenen, erfaßten Sprachsignalintervalls;

einer Löscheinrichtung (11) zum Löschen des Rauschens aus dem eingegebenen, verrauschten Sprachsignal durch Subtrahieren des Spektrums des durch die Rausch-Vorhersageeinrichtung (8) vorhergesagten Rauschens aus den Spektralsignalen der von der Bandaufteilungseinrichtung (10) ausgegebenen, mehreren Kanäle und Ausgeben von rauschunterdrückten Spektral-Signalen mehrerer Kanäle; und

einer Band-Zusammenfassungseinrichtung (12) zum Zusammenfassen der rauschunterdrückten Spektralsignale mehrerer Kanäle, zur inversen Fourier-Transformation der zusammengefaßten Spektralsignale und zum Ausgeben eines transformierten Sprachsignales.