[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

DE69131739T2 - Einrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal - Google Patents

Einrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal

Info

Publication number
DE69131739T2
DE69131739T2 DE69131739T DE69131739T DE69131739T2 DE 69131739 T2 DE69131739 T2 DE 69131739T2 DE 69131739 T DE69131739 T DE 69131739T DE 69131739 T DE69131739 T DE 69131739T DE 69131739 T2 DE69131739 T2 DE 69131739T2
Authority
DE
Germany
Prior art keywords
speech signal
signal
noise
cepstrum
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69131739T
Other languages
English (en)
Other versions
DE69131739D1 (de
Inventor
Joji Kane
Akira Nohara
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE69131739D1 publication Critical patent/DE69131739D1/de
Application granted granted Critical
Publication of DE69131739T2 publication Critical patent/DE69131739T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

  • Die vorliegende Erfindung betrifft einen Sprachsignalprozessor und insbesondere einen Signalprozessor zum Untersuchen verrauschter Eingangssignale, um ein rauschunterdrücktes Sprachsignal durch Trennen des Rauschens aus dem Signal mit charakteristischen Merkmalen abzuleiten.
  • Konventionell wurde eine Vorrichtung zum Unterscheiden zwischen Sprache und Rauschen in einem verrauschten Sprachsignal vorgeschlagen (siehe z. B. JP-A Nr. 59-124397/1984 und JP-A Nr. 59-131997/1984). Das von der Vorrichtung ausgegebene Unterscheidungsergebnis wird in einer Spracherkennungsvorrichtung zur Erkennung von Sprache verwendet.
  • Weiterhin ist in einem Dokument "SIGNAL PROCESSING. EUROPEAN JOURNAL DEVOTED TO THE METHODS AND APPLICATIONS OF SIGNAL PROCESSING", Band 15, Nr. 1, Juli 1988, Seiten 43-56, "Acoustic noise analysis and speech enhancement techniques for mobile radio applications" und insbesondere in den Absätzen 4.4. "Spectral Subtraction technique", eine spektrale Subtraktionstechnik beschrieben, und Bezug genommen wird auf einen Artikel von P. Vary, "Noise suppression by spectral magnitude estimation - Mechanism and theoretical limits", Signal Processing, Band 8, Nr. 4, Juli 1985, Seiten 387-400, in welchem mehr Einzelheiten beschrieben werden. Ein gemeinsames Merkmal sämtlicher Sprachverbesserungstechniken, basierend auf Spektralauflösung, ist die Abschätzung der Signalhöhe während der Sprachaktivität für einen Satz von Frequenzbändern. Eine Rauschunterdrückung wird in jedem Band unter Berücksichtigung nur der Höhe und nicht der Phase des additiven Rauschens ausgeführt. Der zuletzt erwähnte Beitrag zeigt, daß die Phase bei der Sprachverbesserung uninteressant ist, solange die örtlichen Signal/Rausch-Verhältnisse weniger als etwa 6 dB betragen.
  • Es ist eine Aufgabe der vorliegenden Erfindung, einen Sprachsignalprozessor anzugeben, welcher in der Lage ist, ein rauschunterdrücktes Sprachsignal aus einem verrauschten Sprachsignal abzuleiten.
  • Diese Aufgabe wird gelöst durch einen Sprachsignalprozessor, mit: einer Speichereinrichtung zum Speichern von Informationen vorbestimmter Merkmale einer Mehrzahl von Arten von vorbestimmten Sprachsignalen entsprechend einer Mehrzahl von Sprechern, einer Cepstrum-Analyseeinrichtung zum Ausführen einer Cepstrum-Analyseverarbeitung für das eingegebene, verrauschte Sprachsignal und Ausgeben eines Cepstrum des eingegebenen, verrauschten Sprachsignales, einer Signalbeurteilungseinrichtung zum Erfassen solch eines vorbestimmten Merkmales aus einem eingegebenen Cepstrum des verrauschten Sprachsignales und Ausgeben eines Steuerungssignales, welches ein Intervall angibt, wann ein Sprachsignal vorhanden ist, einer Maximal-Wahrscheinlichkeits-Abschätzungseinrichtung zum Erfassen einer der Arten der vorbestimmten Signale des eingegebenen, verrauschten Sprachsignales durch Vergleichen der Merkmale des Cepstrum des Eingangssignales in dem durch das Steuerungssignal angezeigten Intervall mit den in der Speichereinrichtung gespeicherten, vorbestimmten Merkmalen, und einer Signal- Ausgabeeinrichtung zum Ausgeben des durch die Signal-Beurteilungseinrichtung ausgegebenen Steuerungssignales und der Art des durch die Maximal-Wahrscheinlichkeits-Abschätzung erfaßten Signales als Signalpaar.
  • Bevorzugte Ausführungsformen sind durch die Unteransprüche gekennzeichnet.
  • Diese und andere Merkmale der vorliegenden Erfindung werden aus der folgenden Beschreibung in Verbindung mit deren bevorzugten Ausführungsformen anhand der beigefügten Zeichnungen deutlich, in welchen gleiche Teile durch gleiche Bezugszeichen bezeichnet sind. Dabei zeigen:
  • Fig. 1 ein vereinfachtes Blockschaltbild einer Signalerfassungsvorrichtung einer ersten bevorzugten Ausführungsform der vorliegenden Erfindung;
  • Fig. 2 ein vereinfachtes Blockschaltbild einer Signalerfassungsvorrichtung einer zweiten bevorzugten Ausführungsform der vorliegenden Erfindung;
  • Fig. 3 ein vereinfachtes Blockschaltbild einer Rauschunterdrückungsvorrichtung einer dritten bevorzugten Ausführungsform der vorliegenden Erfindung;
  • Fig. 4a und 4b Kennlinien, welche eine in den bevorzugten Ausführungsformen verwendete Cepstrum-Analyse zeigen;
  • Fig. 5 eine Kennlinie zum Zeigen eines in den bevorzugten Ausführungsformen verwendeten Rausch-Vorhersageverfahrens;
  • Fig. 6 und 7 Darstellungen, welche Wellenformen zum Erläutern eines in den bevorzugten Ausführungsformen verwendeten Rausch-Löschverfahrens zeigen.
  • Die bevorzugten Ausführungsformen der vorliegenden Erfindung werden unten detailliert anhand der beigefügten Zeichnungen beschrieben.
  • Fig. 1 zeigt eine Signalerfassungsvorrichtung einer ersten bevorzugten Ausführungsform der vorliegenden Erfindung. In der bevorzugten Ausführungsform wird ein Beispiel der Verwendung eines Sprachsignales als ein zu verarbeitendes Signal beschrieben.
  • In Fig. 1 umfaßt die Signalerfassungsvorrichtung eine Cepstrum-Analyse Sektion 1, eine Speichereinheit 2, eine Signal-Beurteilungssektion 3, einen Maximal- Wahrscheinlichkeits-Abschätzer 4 und eine Signal-Ausgabesektion 5.
  • Die Cepstrum-Analyse Sektion 1 führt eine Cepstrum-Analyse für ein eingegebenes Sprachsignal aus, welches vorher durch eine Band-Aufteilungssektion Fouriertransformiert wurde. Ein Cepstrum wird durch Berechnen eines Logarithmus' eines Amplitudenspektrums für ein kurzes Zeitintervall einer Wellenform des eingegebenen Sprachsignales und inverse Fourier-Transformation des berechneten Logarithmus' erhalten. Fig. 4a zeigt ein Amplitudenspektrum für ein kurzes Zeitintervall eines Sprachsignales, und Fig. 4b zeigt ein Cepstrum des Sprachsignales.
  • Die Speichereinheit 2 ist vorgesehen zum vorherigen Speichern vorbestimmter Merkmalsinformationen bekannter Arten von mehreren Sprachsignalen und ist durch ein RAM oder ROM gebildet. Insbesondere speichert die Speichereinheit 2 zum Beispiel Informationen einer Beziehung zwischen einem Cepstrum-Analyse- Ergebnis eines Sprachsignals eines Sprechers A und dem Sprecher A. Das Cepstrum-Analyse-Ergebnis beinhaltet wenigstens eine vorhandene Position einer Spitze oder einen Abstand des erhaltenen Cepstrums und Formanten-Informationen, wie in Fig. 4b bezeigt. Ebenso werden die Cepstrum-Analyse-Ergebnisse der Sprachen der anderen Sprecher B, C und so weiter vorab in der Speichereinheit 2 gespeichert. Die Positionen der Spitzen oder Abstände und der Formanten-Information der entsprechenden Sprecher sind für jeden Sprecher voneinander verschieden. Es ist anzumerken, daß als Merkmalsinformation einer Sprache jedes Sprachmerkmal wie eine Amplitude und eine Phase einer Sprache und so weiter zusätzlich zu dem oben erwähnten Cepstrum-Analyse-Ergebnis verwendet werden kann.
  • Die Signalbeurteilungssektion 3 unterscheidet zwischen einer Sprache und einem Rauschen eines verrauschten Sprachsignals durch Verwenden des durch die Cepstrum-Analyse Sektion 1 erhaltenen Cepstrums. Als ein Verfahren zum Erfassen eines Sprachsignalintervalls durch Verwendung des Cepstrums des Sprachsignales ist dem Durchschnittsfachmann zum Beispiel ein Verfahren zum Unterscheiden zwischen einem Sprachsignal und einem Rauschen durch Erfassen einer Spitze oder eines Abstandes des Cepstrums bekannt. Insbesondere, wie in Fig. 2 gezeigt, kann die Signalbeurteilungssektion 3 eine Spitzen-Erfassungssektion 31 umfassen, zum Erfassen einer Spitze des erhaltenen Cepstrums, und eine Sprachbeurteilungssektion 32 zum Erfassen eines Sprachsignalintervalls basierend auf der erfaßten Spitzeninformation. Der in Fig. 4b gezeigte Abstand stellt eine Spitze des Sprachsignals dar, und ein Zeitintervall, wenn die Spitze in dem Cepstrum ausläuft, ist ein Sprachsignalintervall. Die Spitze wird zum Beispiel durch Voreinstellen eines vorbestimmten Schwellwertes für ein Cepstrum und Vergleichen entsprechender Energiepegel des Cepstrums mit dem voreingestellten Schwellwert erfaßt.
  • Zu einer Zeit, wenn ein Sprachsignalintervall durch die Signalbeurteilungssektion 3 erfaßt wird, wird ein Steuerungssignal von der Signalbeurteilungssektion 3 zu der Speichereinheit 2 ausgegeben und die vorher in der Speichereinheit 2 gespeicherte Merkmalsinformation wird in den Maximal-Wahrscheinlichkeits-Abschätzer 4 eingegeben. Andererseits wird die Merkmalsinformation des Cepstrum-Analyse- Ergebnisses der Sprache von der Cepstrum-Analysesektion 1 in den Maximal- Wahrscheinlichkeits-Abschätzer 4 eingegeben. Der Maximal-Wahrscheinlichkeits- Abschätzer 4 vergleicht das eingegebene Cepstrum-Analyse-Ergebnis mit der von der Speichereinheit 2 ausgegebenen Merkmalsinformation sequentiell, Umschalten der Merkmalsinformation in einer Reihenfolge der Merkmalsinformation der Sprecher A, B, C, D und so weiter, Suchen der Merkmalsinformation, welche dem eingegebenen Cepstrum-Analyse-Ergebnis am ähnlichsten ist, und Erfassen, welcher Sprecher der eingegebenen Sprache entspricht. Als ein Verfahren zum Erfassen des Grades der Ähnlichkeit dazwischen kann ein Musterübereinstimmungsverfahren verwendet werden, ein Verfahren zum Erfassen eines Grades der Ähnlichkeit von Amplituden davon, und ein Verfahren zum Erfassen eines Grades der Phasen davon, welche dem Durchschnittsfachmann bekannt sind.
  • Die Signalausgabesektion 5 gibt ein Paar von Erfassungsergebnissen als Reaktion auf das von der Signalbeurteilungssektion 3 ausgegebene Erfassungsergebnis und das von dem Maximal-Wahrscheinlichkeits-Abschätzer 4 ausgegebene Erfassungsergebnis aus. Insbesondere gibt die Signalausgabesektion 5 nicht nur Präsenzinformationen der Sprache oder Informationen des Sprachsignalintervalls, sondern auch Informationen des Sprechers des Sprachsignales aus.
  • Eine Wirkungsweise der Signalerfassungsvorrichtung der bevorzugten Ausführungsform wird unten beschrieben.
  • Zuerst werden Cepstrum-Analyse-Ergebnisse der Sprachen der entsprechenden Sprecher vorab in der Speichereinheit 2 gespeichert. Danach wird ein verrauschtes Sprachsignal in die Cepstrum-Analysesektion 1 eingegeben und die Cepstrum- Analysesektion 1 führt dann eine Cepstrum-Analyse für das eingegebene, verrauschte Sprachsignal aus, wie oben beschrieben. Es ist anzumerken, daß die Cepstrum-Analyse von Sprachen entsprechender Sprecher durch eine Cepstrum- Analysesektion 1 ausgeführt werden kann, wie durch eine Linie 6 (Fig. 1) gezeigt.
  • Die Signalbeurteilungssektion 3 erfaßt ein Sprachsignalintervall des eingegebenen, verrauschten Sprachsignales unter Verwendung der Spitze, etc., des von der Cepstrum-Analysesektion 1 ausgegebenen Cepstrum-Analyse-Ergebnisses. Dann wird zu einem Zeitpunkt, wenn ein Sprachsignalintervall durch die Signalbeurteilungssektion 3 erfaßt wird, ein Steuerungssignal von der Signalbeurteilungssektion 3 zur Speichereinheit 2 ausgegeben, wie durch eine Linie 7 angezeigt, und dann wird das in der Speichereinheit 2 gespeicherte Cepstrum-Analyse-Ergebnis zu dem Maximal-Wahrscheinlichkeits-Abschätzer 4 ausgegeben. Andererseits wird das Cepstrum-Analyse-Ergebnis von der Cepstrum-Analysesektion 1 in den Maximal- Wahrscheinlichkeits-Abschätzer 4 eingegeben. Der Maximal-Wahrscheinlichkeits- Abschätzer 4 vergleicht das von der Cepstrum-Analysesektion 1 eingegebene Cepstrum-Analyse-Ergebnis mit dem von der Speichereinheit 2 eingegebenen Cepstrum-Analyse-Ergebnis und bestimmt eines der in der Speichereinheit 2 gespeicherten Cepstrum-Analyse-Ergebnisse, welches das von der Cepstrum- Analyse-Sektion 1 ausgegebene, ähnlichste Cepstrum-Analyse-Ergebnis ist. Wenn keines der Cepstrum-Analyse-Ergebnisse vorhanden ist, welches dem von der Cepstrum-Analysesektion 1 ausgegebenen Cepstrum-Analyse-Ergebnis mit einer größeren Ähnlichkeit als ein Schwellwert gleicht, erkennt der Maximal-Wahrscheinlichkeits-Abschätzer 4, daß kein Cepstrum-Analyse-Ergebnis vorhanden ist, welches dem Cepstrum-Analyse-Ergebnis des eingegebenen Sprachsignales gleicht. Schließlich gibt die Signalausgabesektion 5 ein Paar der Erfassungsergebnisse, die von dem Maximal-Wahrscheinlichkeits-Abschätzer 4 ausgegeben werden, und das von der Signalbeurteilungssektion 3 ausgegebene Erfassungsergebnis aus.
  • In der vorliegenden, bevorzugten Ausführungsform wird als Eingangssignal ein Sprachsignal verwendet, die vorliegende Erfindung ist jedoch nicht darauf beschränkt. Anstelle des Sprachsignals kann ein Signal eines Klanges eines Automobils oder ein Signal eines Klanges eines Flugzeugs etc. verwendet werden, und dann können andere Signale als Rauschen betrachtet werden. In diesem Fall wird nicht das Cepstrum-Analyse-Ergebnis verwendet, und andere Merkmalsinformationen davon werden genutzt.
  • Fig. 2 zeigt eine Signalerfassungsvorrichtung einer zweiten bevorzugten Ausführungsform der vorliegenden Erfindung. In Fig. 2 sind die gleichen Komponenten wie die in Fig. 1 gezeigten mit den gleichen Bezugszeichen wie den in Fig. 1 verwendeten bezeichnet.
  • Wie in Fig. 2 gezeigt, umfaßt die Signalbeurteilungssektion 3 in einer mit der in Fig. 1 gezeigten ersten Ausführungsform vergleichbaren Weise die Spitzenerfassungssektion 31 und die Sprachbeurteilungssektion 32. Die Vorrichtung umfaßt jedoch weiterhin eine Rauschvorhersagesektion 8 und eine Rauschleistungs-Berechnungssektion 9 zusätzlich zu den entsprechenden Sektionen der ersten, bevorzugten Ausführungsform. Unterschiede zwischen der ersten und zweiten bevorzugten Ausführungsform werden unten detailliert beschrieben.
  • Der Maximal-Wahrscheinlichkeits-Abschätzer 4 erfaßt eine Art von Sprache, welche am wahrscheinlichsten diejenige eines eingegebenen Sprachsignales ist, unter Berücksichtigung eines vorhergesagten Rauschens in der Sprache zusätzlich zu den von der Speichereinheit 2 ausgegebenen Cepstrum-Analyse-Ergebnissen und dem von der Cepstrum-Analysesektion 1 ausgegebenen Cepstrum-Analyse- Ergebnis. Insbesondere, wenn die Sprachbeurteilungssektion 32 ein Zeitintervall erfaßt, während welchem Sprache vorhanden ist, wird das Erfassungsergebnis von der Sprachbeurteilungssektion 32 zu der Rauschvorhersagesektion 8 ausgegeben. Andererseits wird ein verrauschtes Sprachsignal in die Rauschvorhersagesektion 8 eingegeben. Da ein Teil, in welchem keine Sprache vorhanden ist, ein Teil ist, in welchem nur Rauschen (nachfolgend als Nur-Rausch-Abschnitt bezeichnet) vorhanden ist, sagt die Rauschvorhersagesektion 8 ein Rauschen einer Sprache basierend auf Daten des Nur-Rauschen-Abschnittes voraus. Die Rauschvorhersagesektion 8 sagt zum Beispiel insbesondere eine Rauschkomponente durch entsprechende Kanäle basierend auf dem verrauschten Sprachsignal voraus, welches in mehrere m-Band-Kanäle aufgeteilt ist, wobei jedes Band eine vorbestimmte Bandbreite aufweist und entsprechende Bandkanäle Bänder aufweisen, welche sich voneinander unterscheiden.
  • Fig. 5 zeigt ein Beispiel eines Rauschvorhersageverfahrens. In Fig. 5 ist eine x-Achse eine Frequenz, eine y-Achse ist ein Leistungspegel eines eingegebenen Sprachsignals und eine z-Achse ist die Zeit. Bei einer Frequenz f1 befinden sich Daten p1, p2, ..., pi, wenn eine Zeit verstrichen ist, und dann werden Daten pj, welche Daten nach dem Datenwert pi auf der Linie der Daten p1, p2, ..., pi darstellen, vorhergesagt. Ein Mittelwert von Rauschdaten p1 bis pi wird zum Beispiel berechnet, und der berechnete Mittelwert wird dann als ein vorhergesagter Wert pj gesetzt. Alternativ werden, wenn ein Sprachsignal kontinuierlich vorhanden ist, Daten pj mit einem Dämpfungsfaktor multipliziert und das Produkt der Daten pj und des Dampfungsfaktors wird als ein vorhergesagter Wert gesetzt.
  • Die Rauschleistungs-Berechnungssektion 9 berechnet einen Leistungspegel des vorhergesagten Rauschens wie einen Mittelwert einer Amplitude davon. Wenn der berechnete Leistungspegel des vorhergesagten Rauschens größer als ein vorbestimmter Schwellwert ist, auch wenn sich das in der Speichereinheit 2 gespeicherte Cepstrum-Analyse-Ergebnis geringfügig von dem von der Cepstrum-Analysesektion 1 ausgegebenen Cepstrum-Analyse-Ergebnis unterscheidet, beurteilt der Maximal-Wahrscheinlichkeits-Abschätzer 4, daß sie im wesentlichen einander ähneln, und der Pegel des Vergleichbarkeits-Beurteilungsstandards wird verringert. Wenn andererseits der Leistungspegel des vorhergesagten Rauschens geringer als der vorbestimmte Schwellwert ist, erkennt der Maximal-Wahrscheinlichkeits- Abschätzer 4, daß im wesentlichen kein Rauschen vorhanden ist, und dann wird der Pegel des Vergleichbarkeits-Beurteilungsstandards erhöht.
  • Fig. 3 zeigt eine Vorrichtung mit einer Rauschunterdrückungsvorrichtung einer dritten, bevorzugten Ausführungsform der vorliegenden Erfindung. In Fig. 3 werden die gleichen Komponenten wie die in den Fig. 1 und 2 gezeigten mit den gleichen Bezugszeichen wie den in den Fig. 1 und 2 gezeigten bezeichnet.
  • Die Rauschunterdrückungsvorrichtung der dritten bevorzugten Ausführungsform ist gekennzeichnet durch Ausgeben eines rauschunterdrückten Sprachsignals unter Verwendung eines Vorhersagewertes eines vorhergesagten Rauschens, und umfaßt weiterhin eine Bandaufteilungssektion 10, eine Löschsektion 11 und eine Band- Kombinationssektion 12 zusätzlich zu der zweiten bevorzugten Ausführungsform.
  • In Fig. 3 wird ein verrauschtes Sprachsignal in die Bandaufteilungseinrichtung 10 eingegeben und als Reaktion darauf wandelt dann die Bandaufteilungssektion 10 das eingegebene, analoge, verrauschte Sprachsignal in ein digitales, verrauschtes Sprachsignal um, Fourier-transformiert das digitale, verrauschte Sprachsignal in ein Spektralsignal und dividiert dann das transformierte Spektralsignal in Spektral-signale mehrerer m Kanäle. Die Spektralsignale mehrerer m Kanäle, welche von der Bandaufteilungssektion 10 ausgegeben werden, werden in die oben erwähnte Cepstrum-Analysesektion 1 und die Rauschvorhersagesektibn 8 eingegeben. Die verrauschten Spektralsignale der entsprechenden Frequenzkanäle, die von der Bandaufteilungssektion 10 ausgegeben werden, werden in die Löschsektion 11 eingegeben, und die Löschsektion 11 löscht oder weist ein Rauschen eines durch die Rauschvorhersagesektion 8 vorhergesagten Vorhersagewertes zurück, wie folgt.
  • Fig. 6 zeigt ein Beispiel eines allgemeinen Löschverfahrens einer Zeitachse. Wie in Fig. 6 gezeigt, wird eine durch die Rauschvorhersagesektion 8 vorhergesagte Rausch-Wellenform (b) von einem verrauschten Sprachsignal (a) subtrahiert, um dadurch nur ein Sprachsignal (c) zu extrahieren.
  • In der bevorzugten Ausführungsform wird ein Löschverfahren auf einer in Fig. 7 gezeigten Frequenzachse verwendet. In Fig. 7 wird ein verrauschtes Sprachsignal (a) in ein Spektralsignal (b) Fourier-transformiert, und dann wird ein Spektrum (c) des vorhergesagten Rauschens von dem umgewandelten Spektralsignal (b) subtrahiert, um das subtrahierte Spektralergebnis (d) zu erhalten. Das subtrahierte Spektralergebnis (d) wird weiterhin invers Fourier-transformiert in ein Sprachsignal (e) ohne Rauschen oder in ein rauschunterdrücktes Sprachsignal (e).
  • Die Band-Kombinationssektion 12 kombiniert die Spektralsignale mehrerer m Kanäle, welche von der Löschsektion 11 ausgegeben werden, und führt eine inverse Fourier-Transformation der kombinierten Spektralsignale in ein rauschunterdrücktes Sprachsignal aus.
  • Wie oben beschrieben, wird in der bevorzugten Ausführungsform eine Rauschkomponente aus dem verrauschten Sprachsignal durch die Löschsektion 11 gelöscht, und ein Sprachsignal wird durch die Band-Kombinationssektion 12 erhalten. Daher kann ein rauschunterdrücktes Sprachsignal zusammen mit der Information eines Sprechers des Sprachsignals erhalten werden.
  • Es ist anzumerken, daß in der bevorzugten Ausführungsform, soweit Merkmale in der Speichereinheit 2 zu speichern sind, ausgewählte Spitzeninformationen der Cepstrum-Analyse-Ergebnisse der entsprechenden Sprecher vorhanden sind.

Claims (3)

1. Sprachsignalprozessor, mit:
einer Speichereinrichtung (2) zum Speichern von Informationen vorbestimmter Merkmale mehrerer Arten vorbestimmter Sprachsignale entsprechend mehreren Sprechern; einer Cepstrum-Untersuchungseinrichtung (1) zum Ausführen eines Cepstrum-Untersuchungsvorgangs für das eingegebene, verrauschte Sprachsignal und Ausgeben eines Cepstrum des eingegebenen, verrauschten Sprachsignales;
einer Signalbeurteilungseinrichtung (3) zum Erfassen solch eines vorbestimmten Merkmales aus einem eingegebenen Cepstrum des verrauschten Sprachsignales und Ausgeben eines Steuerungssignales, welches ein Intervall anzeigt, wenn ein Sprachsignal vorhanden ist;
einer Maximal-Wahrscheinlichkeits-Abschätzungseinrichtung (4) zum Erfassen einer der Arten der vorbestimmten Signale des eingegebenen, verrauschten Sprachsignales durch Vergleichen der Merkmale des Cepstrums des Eingangssignales in dem durch das Steuerungssignal angegebenen Intervall, mit den in der Speichereinrichtung gespeicherten, vorbestimmten Merkmalen, und einer Signal-Ausgabeeinrichtung (5) zum Ausgeben des von der Signal-Beurteilungseinrichtung (3) ausgegebenen Steuerungssignales und der durch die Maximal-Wahrscheinlichkeits-Abschätzung als Signalpaar erfaßten Art von Signalen.
2. Sprachsignalprozessor nach Anspruch 1,
mit einer Rauschvorhersageeinrichtung (8) zum Vorhersagen von Rauschen des Signales als Reaktion auf das eingegebene, verrauschte Signal;
wobei die Maximal-Wahrscheinlichkeits-Abschätzungseinrichtung (4) die Art des Sprachsignales als Reaktion auf das durch die Rauschvorhersageeinrichtung (8) vorhergesagte Rauschen erfaßt.
3. Sprachsignalprozessor nach Anspruch 1,
und mit:
einer Bandaufteilungseinrichtung (10) zum Ausführen eines Bandaufteilungsvorgangs einschließlich einer Fourier-Transformation für ein eingegebenes Sprachsignal und Ausgeben von Spektralsignalen mehrerer Kanäle;
einer Cepstrum-Untersuchungseinrichtung (1) zum Ausführen eines Cepstrum- Untersuchungsvorgangs für die Spektralsignale der von der Bandaufteilungseinrichtung (10) ausgegebenen, mehreren Kanäle und Ausgeben eines Cepstrum- Untersuchungsergebnisses;
wobei die Beurteilungseinrichtung (3) aus einer Spitzenerfassungseinrichtung (31) zum Erfassen einer Spitze eines Cepstrums als Reaktion auf das von der Cepstrum- Untersuchungseinrichtung ausgegebene Cepstrum-Untersuchungsergebnis, und einer Sprachbeurteilungseinrichtung (32) zum Erfassen eines Sprachsignalintervalls des eingegebenen, verrauschten Sprachsignales basierend auf der durch die Spitzenerfassungseinrichtung erfaßten Spitze und Ausgeben des erfaßten Sprachsignalintervalls besteht;
einer Rausch-Vorhersageeinrichtung (8) zum Vorhersagen eines Rauschens in der Sprache des eingegebenen, verrauschten Sprachsignales außerhalb des von der Sprachbeurteilungseinrichtung (32) ausgegebenen, erfaßten Sprachsignalintervalls;
einer Löscheinrichtung (11) zum Löschen des Rauschens aus dem eingegebenen, verrauschten Sprachsignal durch Subtrahieren des Spektrums des durch die Rausch-Vorhersageeinrichtung (8) vorhergesagten Rauschens aus den Spektralsignalen der von der Bandaufteilungseinrichtung (10) ausgegebenen, mehreren Kanäle und Ausgeben von rauschunterdrückten Spektral-Signalen mehrerer Kanäle; und
einer Band-Zusammenfassungseinrichtung (12) zum Zusammenfassen der rauschunterdrückten Spektralsignale mehrerer Kanäle, zur inversen Fourier-Transformation der zusammengefaßten Spektralsignale und zum Ausgeben eines transformierten Sprachsignales.
DE69131739T 1990-05-28 1991-05-28 Einrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal Expired - Fee Related DE69131739T2 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP13806390 1990-05-28
JP13806790 1990-05-28
JP13806290 1990-05-28
JP13806190 1990-05-28
JP13805390 1990-05-28

Publications (2)

Publication Number Publication Date
DE69131739D1 DE69131739D1 (de) 1999-12-02
DE69131739T2 true DE69131739T2 (de) 2001-10-04

Family

ID=27527503

Family Applications (5)

Application Number Title Priority Date Filing Date
DE69131739T Expired - Fee Related DE69131739T2 (de) 1990-05-28 1991-05-28 Einrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal
DE69132749T Expired - Fee Related DE69132749T2 (de) 1990-05-28 1991-05-28 Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal
DE69132645T Expired - Fee Related DE69132645T2 (de) 1990-05-28 1991-05-28 Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal
DE69132644T Expired - Fee Related DE69132644T2 (de) 1990-05-28 1991-05-28 Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals
DE69132659T Expired - Fee Related DE69132659T2 (de) 1990-05-28 1991-05-28 Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal

Family Applications After (4)

Application Number Title Priority Date Filing Date
DE69132749T Expired - Fee Related DE69132749T2 (de) 1990-05-28 1991-05-28 Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal
DE69132645T Expired - Fee Related DE69132645T2 (de) 1990-05-28 1991-05-28 Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal
DE69132644T Expired - Fee Related DE69132644T2 (de) 1990-05-28 1991-05-28 Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals
DE69132659T Expired - Fee Related DE69132659T2 (de) 1990-05-28 1991-05-28 Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal

Country Status (4)

Country Link
US (4) US5355431A (de)
EP (5) EP0763813B1 (de)
KR (1) KR950013552B1 (de)
DE (5) DE69131739T2 (de)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1272653B (it) * 1993-09-20 1997-06-26 Alcatel Italia Metodo di riduzione del rumore, in particolare per riconoscimento automatico del parlato, e filtro atto ad implementare lo stesso
US5586126A (en) * 1993-12-30 1996-12-17 Yoder; John Sample amplitude error detection and correction apparatus and method for use with a low information content signal
DE19524847C1 (de) * 1995-07-07 1997-02-13 Siemens Ag Vorrichtung zur Verbesserung gestörter Sprachsignale
US5687243A (en) * 1995-09-29 1997-11-11 Motorola, Inc. Noise suppression apparatus and method
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5822370A (en) * 1996-04-16 1998-10-13 Aura Systems, Inc. Compression/decompression for preservation of high fidelity speech quality at low bandwidth
US5806025A (en) * 1996-08-07 1998-09-08 U S West, Inc. Method and system for adaptive filtering of speech signals using signal-to-noise ratio to choose subband filter bank
US6098038A (en) * 1996-09-27 2000-08-01 Oregon Graduate Institute Of Science & Technology Method and system for adaptive speech enhancement using frequency specific signal-to-noise ratio estimates
JP3006677B2 (ja) * 1996-10-28 2000-02-07 日本電気株式会社 音声認識装置
AU4884297A (en) * 1996-11-07 1998-05-29 Matsushita Electric Industrial Co., Ltd. Sound source vector generator, voice encoder, and voice decoder
US5946649A (en) * 1997-04-16 1999-08-31 Technology Research Association Of Medical Welfare Apparatus Esophageal speech injection noise detection and rejection
DE59900797D1 (de) * 1998-03-19 2002-03-14 Siemens Ag Verfahren und vorrichtung zur bearbeitung eines tonsignals
EP2009785B1 (de) * 1998-04-14 2010-09-15 Hearing Enhancement Company, Llc. Verfahren und Vorrichtung, die es einem End-Benutzer ermöglichen, Hörer-Präferenzen für Hörbehinderte und Nicht-Hörbehinderte einzustellen
US6311155B1 (en) * 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US7415120B1 (en) 1998-04-14 2008-08-19 Akiba Electronics Institute Llc User adjustable volume control that accommodates hearing
US6985594B1 (en) 1999-06-15 2006-01-10 Hearing Enhancement Co., Llc. Voice-to-remaining audio (VRA) interactive hearing aid and auxiliary equipment
US6442278B1 (en) 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
US6349278B1 (en) * 1999-08-04 2002-02-19 Ericsson Inc. Soft decision signal estimation
US6366880B1 (en) * 1999-11-30 2002-04-02 Motorola, Inc. Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
US6351733B1 (en) 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US7266501B2 (en) * 2000-03-02 2007-09-04 Akiba Electronics Institute Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US20040096065A1 (en) * 2000-05-26 2004-05-20 Vaudrey Michael A. Voice-to-remaining audio (VRA) interactive center channel downmix
US6990061B2 (en) * 2000-05-31 2006-01-24 Interuniversitair Micro-Elektronica Centrum Method and apparatus for channel estimation
AU2001294989A1 (en) * 2000-10-04 2002-04-15 Clarity, L.L.C. Speech detection
US7177808B2 (en) * 2000-11-29 2007-02-13 The United States Of America As Represented By The Secretary Of The Air Force Method for improving speaker identification by determining usable speech
GB2375027B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
US6591991B2 (en) 2001-08-06 2003-07-15 Luce Belle Collapsible tire stand
US7571095B2 (en) * 2001-08-15 2009-08-04 Sri International Method and apparatus for recognizing speech in a noisy environment
JP3673507B2 (ja) * 2002-05-16 2005-07-20 独立行政法人科学技術振興機構 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
US7013272B2 (en) * 2002-08-14 2006-03-14 Motorola, Inc. Amplitude masking of spectra for speech recognition method and apparatus
JP2004297273A (ja) * 2003-03-26 2004-10-21 Kenwood Corp 音声信号雑音除去装置、音声信号雑音除去方法及びプログラム
NO324318B1 (no) * 2005-04-29 2007-09-24 Tandberg Telecom As Fremgangsmate og anordning for stoydeteksjon.
JP4246755B2 (ja) * 2006-05-30 2009-04-02 株式会社エヌ・ティ・ティ・ドコモ 受信信号周波数帯域検出器
JP4757158B2 (ja) * 2006-09-20 2011-08-24 富士通株式会社 音信号処理方法、音信号処理装置及びコンピュータプログラム
US7813924B2 (en) * 2007-04-10 2010-10-12 Nokia Corporation Voice conversion training and data collection
JPWO2009004718A1 (ja) * 2007-07-03 2010-08-26 パイオニア株式会社 楽音強調装置、楽音強調方法、楽音強調プログラムおよび記録媒体
JP4660578B2 (ja) * 2008-08-29 2011-03-30 株式会社東芝 信号補正装置
US8442831B2 (en) * 2008-10-31 2013-05-14 International Business Machines Corporation Sound envelope deconstruction to identify words in continuous speech
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US20140025374A1 (en) * 2012-07-22 2014-01-23 Xia Lou Speech enhancement to improve speech intelligibility and automatic speech recognition
WO2015005914A1 (en) * 2013-07-10 2015-01-15 Nuance Communications, Inc. Methods and apparatus for dynamic low frequency noise suppression
US10121488B1 (en) 2015-02-23 2018-11-06 Sprint Communications Company L.P. Optimizing call quality using vocal frequency fingerprints to filter voice calls
CN107274895B (zh) * 2017-08-18 2020-04-17 京东方科技集团股份有限公司 一种语音识别设备及方法
JP7404664B2 (ja) * 2019-06-07 2023-12-26 ヤマハ株式会社 音声処理装置及び音声処理方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5272504A (en) * 1975-12-15 1977-06-17 Fuji Xerox Co Ltd Device for recognizing word audio
GB1541041A (en) * 1976-04-30 1979-02-21 Int Computers Ltd Sound analysing apparatus
GB2104218B (en) * 1981-07-28 1984-08-30 Ferranti Ltd Detecting harmonically-rich acoustic sources
JPS59124397A (ja) 1982-12-29 1984-07-18 松下電器産業株式会社 無音区間検出回路
JPS59131997A (ja) 1983-01-19 1984-07-28 松下電器産業株式会社 音声の有声・無声判定方法
DE3482627D1 (de) * 1983-04-11 1990-08-09 Nec Corp Orthogonale transformation und geraet zu ihrer durchfuehrung.
KR940009391B1 (ko) * 1985-07-01 1994-10-07 모토로라 인코포레이티드 잡음 억제 시스템
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
US4852181A (en) * 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
US4827516A (en) * 1985-10-16 1989-05-02 Toppan Printing Co., Ltd. Method of analyzing input speech and speech analysis apparatus therefor
EP0255529A4 (de) * 1986-01-06 1988-06-08 Motorola Inc Rahmenvergleichsverfahren zur worterkennung in einer umgebung mit viel lärm.
GB8608289D0 (en) * 1986-04-04 1986-05-08 Pa Consulting Services Noise compensation in speech recognition
US4837830A (en) * 1987-01-16 1989-06-06 Itt Defense Communications, A Division Of Itt Corporation Multiple parameter speaker recognition system and methods
US4989249A (en) * 1987-05-29 1991-01-29 Sanyo Electric Co., Ltd. Method of feature determination and extraction and recognition of voice and apparatus therefore
US5036539A (en) * 1989-07-06 1991-07-30 Itt Corporation Real-time speech processing development system
AU633775B2 (en) * 1989-07-11 1993-02-04 Cheyenne Advanced Technology Limited A method of operating a data processing system
AU633673B2 (en) * 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device

Also Published As

Publication number Publication date
DE69131739D1 (de) 1999-12-02
EP0763813B1 (de) 2001-07-11
EP0459382A2 (de) 1991-12-04
EP0763811B1 (de) 2001-06-20
EP0763813A1 (de) 1997-03-19
DE69132659T2 (de) 2002-05-02
EP0763811A1 (de) 1997-03-19
DE69132645D1 (de) 2001-07-26
EP0763812A1 (de) 1997-03-19
EP0763812B1 (de) 2001-06-20
EP0763810B1 (de) 2001-09-26
US5621850A (en) 1997-04-15
US5355431A (en) 1994-10-11
DE69132644D1 (de) 2001-07-26
KR910020642A (ko) 1991-12-20
KR950013552B1 (ko) 1995-11-08
DE69132645T2 (de) 2002-04-18
DE69132749D1 (de) 2001-10-31
DE69132644T2 (de) 2002-05-29
DE69132749T2 (de) 2002-07-04
US5630015A (en) 1997-05-13
EP0459382B1 (de) 1999-10-27
EP0459382A3 (en) 1993-03-03
DE69132659D1 (de) 2001-08-16
US5617505A (en) 1997-04-01
EP0763810A1 (de) 1997-03-19

Similar Documents

Publication Publication Date Title
DE69131739T2 (de) Einrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal
DE69124005T2 (de) Sprachsignalverarbeitungsvorrichtung
DE69105760T2 (de) Einrichtung zur Signalverarbeitung.
DE69326044T2 (de) Verfahren zur Erkennung von Sprachsignalen
DE602004001241T2 (de) Vorrichtung zur Unterdrückung von impulsartigen Windgeräuschen
DE112009000805B4 (de) Rauschreduktion
DE69430082T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69420027T2 (de) Rauschverminderung
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE69901606T2 (de) Breitbandsprachsynthese von schmalbandigen sprachsignalen
DE69121312T2 (de) Geräuschsignalvorhersagevorrichtung
EP1091349B1 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE112011105791B4 (de) Störungsunterdrückungsvorrichtung
DE69321656T2 (de) Verfahren zur Spracherkennung
EP1386307B1 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE68929442T2 (de) Vorrichtung zur Erfassung von Sprachlauten
DE69105154T2 (de) Sprachsignalverarbeitungsvorrichtung.
DE69130687T2 (de) Sprachsignalverarbeitungsvorrichtung zum Herausschneiden von einem Sprachsignal aus einem verrauschten Sprachsignal
DE69106588T2 (de) Vorrichtung um Sprachgeräusch zu trennen.
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE4106405C2 (de) Geräuschunterdrückungseinrichtung für ein Spracherkennungsystem
DE69020736T2 (de) Wellenanalyse.
DE69511508T2 (de) Sprachaktivitätsdetektion

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee