[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

DE69808339T2 - Verfahren zur sprachkodierung bei hintergrundrauschen - Google Patents

Verfahren zur sprachkodierung bei hintergrundrauschen

Info

Publication number
DE69808339T2
DE69808339T2 DE69808339T DE69808339T DE69808339T2 DE 69808339 T2 DE69808339 T2 DE 69808339T2 DE 69808339 T DE69808339 T DE 69808339T DE 69808339 T DE69808339 T DE 69808339T DE 69808339 T2 DE69808339 T2 DE 69808339T2
Authority
DE
Germany
Prior art keywords
detected
adaptive codebook
gain
signal
codebook gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69808339T
Other languages
English (en)
Other versions
DE69808339D1 (de
Inventor
Adil Benyassine
Huan-Yu Su
Jes Thyssen
Kwok Yuen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Conexant Systems LLC
Original Assignee
Conexant Systems LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Conexant Systems LLC filed Critical Conexant Systems LLC
Publication of DE69808339D1 publication Critical patent/DE69808339D1/de
Application granted granted Critical
Publication of DE69808339T2 publication Critical patent/DE69808339T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die vorliegende Erfindung betrifft im Allgemeinen das Gebiet der Kommunikation, und insbesondere das Gebiet der codierten Sprach-Übertragung.
  • Während einer Konversation zwischen zwei oder mehr Personen sind Umgebungs-Untergrundgeräusche der gesamten Hörerfahrung des menschlichen Ohrs eigen. Fig. 1 stellt die analogen Schallwellen 100 einer typisch aufgenommenen Konversation dar, die Umgebungs-Untergrundgeräusch-Signale 102 zusammen mit Sprachgruppen 104-108, verursacht von Sprach- Kommunikation, aufweist. Innerhalb des technischen Gebiets des Übermittelns, Empfangens, und Speicherns von Sprach- Kommunikation existieren mehrere unterschiedliche Techniken zum Codieren und Decodieren eines Signals 100. Eine der Techniken zum Codieren und Decodieren eines Signals 100 ist das Verwenden eines Analysis-by-Synthesis-Codier-Systems, das den Fachleuten wohlbekannt ist.
  • Fig. 2 stellt ein Allgemeinüberblick-Blockdiagramm eines aus dem Stand der Technik bekannten Analysis-by-Synthesis-Systems 200 zum Codieren und Decodieren von Sprache dar. Ein Analysis-by-Synthesis-System 200 zum Codieren und Decodieren des Signals 100 von Fig. 1 verwendet eine Analysier-Einheit 204 zusammen mit einer zugehörigen Synthese-Einheit 222. Die Analysier-Einheit 204 repräsentiert einen Sprach-Codierer des Analysis-by-Synthesis-Typs, wie beispielsweise einen Code Excited Linear Prediction (CELP)-Codierer. Ein Code Excited Linear Prediction-Codierer stellt einen Weg dar, das Codier- Signal 100 für ein Medium geringer Bitrate zu codieren, um die Einschränkungen von Kommunikationsnetzwerken und Speicherkapazitäten zu erfüllen. Ein Beispiel eines CELP- basierten Sprach-Codierers ist der vor kurzem angenommene International Telecommunication Union (ITU) G.729 Standard.
  • Um Sprache zu codieren, empfängt das Mikrofon 206 der Analysier-Einheit 204 die analogen Schallwellen 100 von Fig. 1 als ein Eingabe-Signal. Das Mikrofon 206 gibt die empfangenen analogen Schallwellen 100 an den Analog-zu- Digital-(A/D)Abtast-Schaltkreis 208 aus. Der Analog-zu- Digital-Abtaster 208 konvertiert die analogen Schallwellen 100 in ein in Abschnitte zerlegtes digitales Sprach-Signal (in Abschnitte zerlegt über diskrete Zeitperioden), welches an den Linear-Prädiktions-Koeffizienten (LPC)-Extraktor 210 und den Pitch-Extraktor 212 ausgegeben wird, um die Formant- Struktur (oder die spektrale Hülle) bzw. die harmonische Struktur des Sprach-Signals aufzufinden.
  • Die Formant-Struktur entspricht der Kurzzeit-Korrelation, und die harmonische Struktur entspricht der Langzeit-Korrelation. Die Kurzzeit-Korrelation kann beschrieben werden mittels Zeit-variierender Filter, deren Koeffizienten die erhaltenen Linear-Prädiktions-Koeffizienten (LPC) sind. Die Langzeit- Korrelation kann auch mittels Zeit-variierender Filter beschrieben werden, deren Koeffizienten von dem Pitch- Extraktor erhalten werden. Filtern des ankommenden Sprach- Signals mit dem LPC-Filter entfernt die Kurzzeit-Korrelation und erzeugt ein LPC-Restsignal. Dieses LPC-Restsignal wird weiter mittels des Pitch-Filters verarbeitet, um die verbleibende Langzeit-Korrelation zu entfernen. Das erhaltene Signal ist das totale Restsignal. Falls dieses Restsignal durch die Invers-Pitch- und LPC-Filter (auch Synthese-Filter genannt) geleitet wird, wird das originale Sprach-Signal aufgefunden oder synthetisiert. In dem Kontext der Sprach- Codierung muss dieses Rest-Signal quantisiert (codiert) werden, um die Bitrate zu reduzieren. Das quantisierte Restsignal wird als das Anregungssignal bezeichnet, das sowohl durch den quantisierten Pitch- als auch durch den LPC- Synthese-Filter geleitet wird, um eine nahe Reproduktion des originalen Sprach-Signals zu erzeugen. In dem Kontext der Analysis-by-Synthesis-CELP Codierung von Sprache wird der quantisierte Rest von einem Code-Buch 214 erhalten, das normalerweise das feste Code-Buch genannt wird. Dieses Verfahren ist im Detail in dem ITU G.729 Dokument beschrieben.
  • Das feste Code-Buch 214 von Fig. 2 enthält eine spezielle Anzahl von gespeicherten Digital-Mustern, welche auf Code- Vektoren bezogen sind. Das feste Code-Buch 214 wird normalerweise durchsucht, um den das Restsignal am besten repräsentierenden Code-Vektor bereitzustellen, auf irgendeine Wahrnehmungsweise bezogen, wie dem Fachmann bekannt ist. Der ausgewählte Code-Vektor wird typischerweise als das feste Anregungssignal bezeichnet. Nach Bestimmen des besten Cöde- Vektors, der das Restsignal repräsentiert, berechnet die feste Code-Buch-Einheit 214 auch den Verstärkungsfaktor des festen Anregungssignals. Der nächste Schritt ist, das feste Anregungssignal durch den Pitch-Synthese-Filter zu leiten. Dies wird normalerweise unter Verwendung der Vorgehensweise der adaptiven Code-Buch-Suche implementiert, um die optimale Pitch-Verstärkung und Verzögerung auf eine "closed-loop"- Weise ("geschlossene Schleife") zu bestimmen, wie dem Fachmann bekannt. Das "geschlossene Schleife"-Verfahren, oder Analysis-by-Synthesis, bedeutet, dass die anzupassenden Signale gefiltert werden. Die optimale Pitch-Verstärkung und Verzögerung erlauben das Generieren eines sogenannten adaptiven Anregungssignals. Die determinierten Verstärkungsfaktoren sowohl für die adaptive als auch für die feste Code-Buch-Anregungen werden dann mittels des Verstärkungs-Quantisierers 216 auf eine "geschlossene Schleife"-Weise quantisiert, unter Verwendung einer Tabelle mit einem Index, was für den Fachmann ein wohlbekanntes Quantisierungsschema ist. Der Index von der besten festen Anregung von dem festen Code-Buch 214 zusammen mit den Indizes der quantisierten Verstärkungen, Pitch-Verzögerung und LPC-Koeffizienten werden dann zu der Speicherung/Übermittlungs-Einheit 218 geleitet.
  • Die Speicherung/Übermittlung 218 (von Fig. 2) der Analysier- Einheit 204 übermittelt dann der Synthese-Einheit 222, über das Kommunikations-Netzwerk 220, die Index-Werte der Pitch- Verzögerung, Pitch-Verstärkung, Linear-Prädiktions- Koeffizienten, des festen Anregungs-Code-Vektors, und der festen Anregungs-Code-Vektor-Verstärkung, die alle das empfangene analoge Schallwellen-Signal 100 repräsentieren. Die Synthese-Einheit 222 decodiert die unterschiedlichen Parameter, die es von der Speicherung/Übermittlung 218 empfängt, um ein synthetisiertes Sprach-Signal zu erhalten. Um Menschen zu ermöglichen, das synthetisierte Sprach-Signal zu hören, gibt die Synthese-Einheit 222 das synthetisierte Sprach-Signal zu einem Lautsprecher 224 aus.
  • Das Analysis-by-Synthesis-System 200, das oben bezugnehmend auf Fig. 2 beschrieben ist, ist erfolgreich verwendet worden, um hochqualitative Sprach-Codierer zu realisieren. Wie es Fachleute zu schätzen wissen, kann natürliche Sprache mit sehr geringen Bitraten mit hoher Qualität codiert werden. Das hochqualitative Codieren bei einer geringen Bitrate kann unter Verwendung eines festen Anregungs-Code-Buchs 214 erreicht werden, dessen Code-Vektoren eine hohe Seltenheit aufweisen (das heißt, mit wenigen Nicht-Null-Elementen). Zum Beispiel gibt es nur vier Nicht-Null-Pulse pro 5 ms in der ITU Recommendation G.729. Wenn die Sprache jedoch mittels Umgebungs-Untergrundgeräuschen beschädigt ist, ist die wahrgenommene Leitungsfähigkeit von diesen Codier-Systemen herabgesetzt. Diese Herabsetzung kann nur abgestellt werden, falls das feste Code-Buch 214 hochdichte Nicht-Null-Pseudo- Zufalls-Code-Vektoren aufweist, und falls das Wellenform- Abstimm-Kriterium in CELP-Systemen gelockert wird.
  • Anspruchsvolle Lösungen einschließlich Multi-Mode-Codieren und das Verwenden von gemischten Anregungen sind vorgeschlagen worden, um die Sprachqualität unter Untergrundgeräusch-Bedingungen zu verbessern. Allerdings führen diese Lösungen üblicherweise zu unerwünschter hoher Komplexität oder hoher Sensitivität bezüglich Übermittlungs- Fehlern. Die vorliegende Erfindung stellt eine einfache Lösung zum Bekämpfen dieses Problems bereit.
  • Aus Miki et al. (Miki, S, Moriya, T, Mano, K, Ohmuro, H [1994] "Pitch Synchronous Innovation Code Excited Linear Prediction (PSI-CELP)", Electronics and Communications in Japan, Teil 3, Band 77, Nummer 12, Seiten 36-49) ist ein CELP-basiertes Sprachcodier-Verfahren bekannt, das als PSI- CELP bezeichnet wird, welches Pitch-synchrone Innovation (PSI, pitch synchronous innovation) zu dem CELP-Verfahren hinzufügt. Gemäß dem PSI-CELP-Verfahren werden Zufalls-Code- Vektoren von einem Zufalls-Code-Buch adaptiv umgewandelt, um Pitch-Periodizität für Sprach-Frames zu haben. Ein von diesen Verfahren verwendetes Zufalls-Code-Buch kann die nicht- stationäre Komponente des Sprach-Frames repräsentieren, das unter Verwendung des adaptiven Code-Buchs nicht repräsentiert werden kann. PSI-CELP hat einen Pitch-Synchronisierer nach dem Zufalls-Code-Buch, um die Zufalls-Code-Vektoren zu veranlassen, Pitch-Periodizität zu haben.
  • Die vorliegende Erfindung weist ein Verfahren zum Verbessern der Qualität von codierter Sprache auf, wenn Umgebungs- Untergrundgeräusch vorliegt. Für die meisten Analysis-by- Synthesis-Sprach-Codierer bedeutet Pitch-Prädiktions-Beitrag, die Periodizität von der Sprache während Sprach-Segmenten zu repräsentieren. Ein Ausführungsbeispiel des Pitch-Prädiktors ist in der Form eines adaptiven Code-Buchs, wie dem Fachmann wohlbekannt ist. Für Untergrundgeräusch-Segmente von der Sprache gibt es eine schwache oder sogar nicht-existierende Langzeit-Korrelation für den zu repräsentierenden Pitch- Prädiktions-Beitrag. Allerdings ist der Pitch-Prädiktions- Beitrag reich an Abtast-Inhalt und repräsentiert daher eine gute Quelle für eine gewünschte Pseudo-Zufalls-Sequenz, was geeigneter zum Codieren von Untergrundgeräusch ist.
  • Die vorliegende Erfindung weist einen Klassifizierer auf, der aktive Abschnitte des Eingabe-Signals (aktive Sprache) von den inaktiven Abschnitten (Untergrundgeräusch) des Eingabe- Signals unterscheidet. Während aktiven Sprach-Segmenten ist das herkömmliche Analysis-by-Synthesis-System zum Codieren aufgerufen. Allerdings verwendet die vorliegende Erfindung während Untergrundgeräusch-Segmenten den Pitch-Prädiktions- Beitrag als eine Quelle einer Pseudo-Zufalls-Sequenz, bestimmt mittels eines geeigneten Verfahrens. Die vorliegende Erfindung bestimmt auch den geeigneten Verstärkungsfaktor für den Pitch-Prädiktions-Beitrag. Da dieselbe Pitch-Prädiktioris- Einheit und die zugehörige Verstärkungs-Quantisier-Einheit sowohl für die aktiven Sprach-Segmente als auch für Untergrundgeräusch-Segmente verwendet werden, gibt es kein Erfordernis, die Synthese-Einheit zu ändern. Dies impliziert, dass das Format der von der Analysier-Einheit zu der Synthese-Einheit übermittelten Information immer das gleiche ist, was weniger anfällig für Übermittlungsfehler ist.
  • Ein Verfahren zum Sprach-Codieren ist mittels der Erfindung bereitgestellt, wobei das Verfahren die Schritte aufweist des Digitalisierens eines Eingabe-Sprach-Signals, des Detektierens von aktiver Sprach- und Untergrundgeräusch- Segmenten innerhalb des digitalisierten Eingabe-Sprach- Signals, des Bestimmens vom Linear-Prädiktions-Koeffizienten (LPC) und eines LPC-Restsignals von dem digitalisierten Eingabe-Sprach-Signal, des Bestimmens eines Pitch- Prädiktions-Beitrags von den Linear-Prädiktions-Koeffizienten und dem digitalisierten Eingabe-Sprach-Signal gemäß einem Analysis-by-Synthesis Verfahren, wenn ein aktives Sprach- Segment detektiert ist, und des Bestimmens eines Pitch- Prädiktions-Beitrags von den Linear-Prädiktions-Koeffizienten und dem digitalisierten Eingabe-Sprach-Signal unter Verwendung eines adaptiven Code-Buch-Beitrags als eine Quelle einer Pseudo-Zufallssequenz, jedes Mal wenn ein Untergrundgeräusch-Segment detektiert wird.
  • Das erfindungsgemäße Verfahren zur Sprach-Codierung kann ferner die Schritte aufweisen des Quantisierens eines festen Code-Buch-Verstärkungsfaktors und des adaptiven Code-Buch- Verstärkungsfaktors gemäß dem Analysis-by-Synthesis Verfahren, wenn ein aktives Sprach-Segment detektiert wird, und des Quantisierens des festen Code-Buch- Verstärkungsfaktors und des adaptiven Code-Buch- Verstärkungsfaktors mittels Anpassens einer Energie von einer totalen Anregung mit quantisierten Verstärkungen an eine Energie einer totalen Anregung mit unquantisierten Verstärkungen, immer wenn ein Untergrundgeräusch-Segment detektiert wird.
  • Kurze Beschreibung der Zeichnungen
  • Die begleitenden Zeichnungen, die in diese Beschreibung aufgenommen sind und einem Teil dieser Beschreibung bilden, stellen Ausführungsbeispiele der Erfindung dar und, gemeinsam mit der Beschreibung, dienen zum Erklären der Prinzipien der Erfindung:
  • Fig. 1 stellt die analogen Schallwellen einer typischen Sprachkonversation dar, die Umgebungs-Untergrundgeräusche während des Signals aufweisen;
  • Fig. 2 stellt ein Allgemeinüberblick-Blockdiagramm eines aus dem Stand der Technik bekannten Analysis-by-Synthesis-Systems zum Codieren und Decodieren von Sprache dar;
  • Fig. 3 stellt einen Allgemeinüberblick des Analysis-by- Synthesis-Systems zum Codieren und Decodieren von Sprache dar, in dem die vorliegende Erfindung operiert;
  • Fig. 4 stellt ein Blockdiagramm eines Ausführungsbeispiels einer Pitch-Extrahier-Einheit in Übereinstimmung mit einem Ausführungsbeispiel der vorliegenden Erfindung dar, lokalisiert innerhalb des Analysis-by-Synthesis-Systems von Fig. 3;
  • Fig. 5(A) und 5(B) stellen die kombinierten Verstärkungs-skalierten adaptiven Code-Buch- und feste Anregungs-Code-Buch-Beiträge für ein typisches Untergrundgeräusch-Segment dar.
  • Detaillierte Beschreibung der bevorzugten Ausführungsbeispiele
  • In der folgenden detaillierten Beschreibung der vorliegenden Erfindung, ein Verfahren zum Verbessern der Qualität von codierter Sprache wenn Umgebungs-Untergrundgeräusch vorliegt, sind zahlreiche spezielle Details beschrieben, um ein vollkommenes Verständnis der vorliegenden Erfindung bereitzustellen. Allerdings wird es für einen Fachmann offensichtlich sein, dass die vorliegende Erfindung ohne diese speziellen Details betrieben werden kann. In anderen Beispielen, sind wohlbekannte Verfahren, Prozeduren, Komponenten und Schaltkreise nicht im Detail beschrieben worden, um nicht unnötig Aspekte der vorliegenden Erfindung undeutlich zu machen.
  • Die vorliegende Erfindung operiert innerhalb des Gebiets der codierten Sprach-Übertragung. Im Speziellen stellt Fig. 3 einen allgemeinen Überblick des Analysis-by-Synthesis-Systems 300 dar, das verwendet wird zum Codieren und Decodieren von Sprache zur Kommunikation und Speicherung, in dem die vorliegende Erfindung betrieben wird. Die Analysier-Einheit 304 empfängt ein Konversationssignal 100, das ein Signal ist, das zusammengesetzt ist von Repräsentationen von Sprach- Kommunikation mit Untergrundgeräusch. Signal 100 wird mittels des Mikrofons 206 erfasst und dann mittels des A/D-Abtast- Schaltkreises 208 in ein digitales Sprach-Signal digitalisiert. Die digitale Sprache wird an die Klassifizier- Einheit 310, und den LPC-Extraktor 210 ausgegeben.
  • Die Klassifizier-Einheit 310 von Fig. 3 unterscheidet die Nicht-Sprach-Perioden (z. B. Perioden nur mit Untergrundgeräusch), die in dem Eingabe-Signal 100 enthalten sind, von den Sprach-Perioden (siehe G.729 Annex D Empfehlung, die einen Sprach-Aktivität-Detektor (VAD), wie beispielsweise die Klassifizier-Einheit 310 beschreibt). Wenn die Klassifizier-Einheit 310 die Nicht-Sprach-Perioden des Eingabe-Signals 100 bestimmt, übermittelt sie an den Pitch- Extraktor 314 und an den Verstärkungs-Quantisierer 318 einen Hinweis als ein Signal 328. Der Pitch-Extraktor 314 verwendet das Signal 328, um den Pitch-Prädiktions-Beitrag am besten zu bestimmen. Der Verstärkungs-Quantisierer 314 verwendet das Signal 328, um die Verstärkungsfaktoren für den Pitch- Prädiktions-Beitrag und den festen Code-Buch-Beitrag am besten zu quantisieren.
  • Fig. 4 stellt ein Blockdiagramm des Pitch-Extraktors 400 dar, was ein Ausführungsbeispiel der Pitch-Extraktor-Einheit 314 von Fig. 3 gemäß einem Ausführungsbeispiel der vorliegenden Erfindung ist. Falls das Signal 328 (abgeleitet von der Klassifizier-Einheit 310) anzeigt, dass das gegenwärtige Signal 330 ein aktives Sprach-Segment ist, wird die Pitch-Prädiktions-Einheit-Suche 406 verwendet. Unter Verwendung des herkömmlichen Analysis-by-Synthesis-Verfahrens (siehe G.729 Recommendation, zum Beispiel) findet die Pitch- Prädiktions-Einheit 406 die Pitch-Periode des gegenwärtigen Segments und erzeugt einen Beitrag basierend auf dem adaptiven Code-Buch. Die Verstärkungs-Berechnungs-Einheit 408 berechnet dann den zugehörigen Verstärkungsfaktor.
  • Falls das Signal 328 anzeigt, dass das gegenwärtige Signal 330 ein Untergrundgeräusch-Segment ist, wird der Code-Vektor von dem adaptiven Code-Buch, der am besten eine Pseudo- Zufalls-Anregung repräsentiert, mittels der Anregungs-Such- Einheit 402 als Beitrag ausgesucht. In dem Ausführungsbeispiel wird, um den besten Code-Vektor auszuwählen, die Energie des Verstärkungs-skalierten adaptiven Code-Buch-Beitrags an die Energie des LPC- Restsignals 330 angepasst. Im Speziellen wird eine umfassende Suche verwendet, um den besten Index für das adaptive Code- Buch zu bestimmen, der das folgende Fehler-Kriterium minimiert, wobei L die Länge des Code-Vektors ist:
  • (residual(i) - Gindex · acb(i - index))²
  • [Vergleiche die obige Gleichung mit Gleichung (37) von dem G.729 Dokument:
  • Diese Suche wird in der Anregungs-Such-Einheit 402 durchgeführt, und dann wird die adaptive Code-Buch- Verstärkung (Pitch-Verstärkung) Gindex in dem Verstärkungs- Berechnungs-Block 403 berechnet zu:
  • Gindex = wobei
  • Eres = residual(i) · residual(i) wobei residual das Signal 330 ist.
  • Eacb = acb(i - index) · acb(i - ndex) wobei acb das adaptive Code-Buch ist.
  • [Vergleiche mit Gleichung (43) des G.729 Dokuments:
  • Dasselbe adaptive Code-Buch wird verwendet sowohl für die aktive Sprach- als auch für die Untergrundgeräusch-Segmente. Wenn der beste Index für das adaptive Code-Buch gefunden ist (Pitch-Verzögerung), wird der adaptive Code-Buch- Verstärkungsfaktor wie folgt bestimmt:
  • Gbest_index = 0.8 ·
  • E = residual(i) · residual(i)
  • Eacb = acb(i - best_index) · acb(i - best_index)
  • Der Wert von Gbest_index ist immer positiv und auf einen maximalen Wert von 0.5 begrenzt.
  • Wenn die Pitch-Extraktor-Einheit 314 und die feste Code-Buch- Einheit 214 des besten Pitch-Prädiktions-Beitrag bzw. den Code-Buch-Beitrag finden, werden ihre zugehörigen Verstärkungsfaktoren mittels der Verstärkungs-Quantisier- Einheit 318 quantisiert. Für ein aktives Sprach-Segment werden die Verstärkungsfaktoren mit dem herkömmlichen Analysis-by-Synthesis-Verfahren quantisiert. Für ein Untergrundgeräusch-Segment jedoch wird ein unterschiedliches Verstärkungs-Quantisierungs-Verfahren benötigt, um den Nutzen zu vervollständigen, der mittels Verwendens des adaptiven Code-Buchs als eine Quelle einer Pseudo-Zufalls-Sequenz erhalten wird. Allerdings kann diese Quantisierungs-Technik sogar verwendet werden, falls der Pitch-Prädiktions-Beitrag unter Verwendung eines herkömmlichen Verfahrens abgeleitet wird. Die folgenden Gleichungen stellen das Quantisierungsverfahren der vorliegenden Erfindung dar, wobei die Energie der totalen Anregung mit quantisierten Verstärkungen (E ) mit der Energie der totalen Anregung mit unquantisierten Verstärkungen (E ) angepasst wird. Im Speziellen wird eine umfassende Suche verwendet, um die quantisierten Verstärkungen zu bestimmen, die das folgende Fehler-Kriterium minimieren:
  • [Diese Gleichung sollte verglichen werden mit Gleichung (63) des G.729 Dokuments:
  • E = x'x + gp²y'y + gc²z'z - 2gpx'y - 2gcx'z + 2gpgcy'z]
  • = (Gacb · acb(i - best_index) + Gcodebook · codebook(i))²
  • wobei Gacb und Gcodebook die unquantisierte optimale adaptive feste Code-Buch und Code-Buch Verstärkung von Einheiten 314 bzw. 214 sind, acb(i-best_index) der adaptive Code-Buch- Beitrag ist, und codebook(i) der feste Code-Buch-Beitrag ist.
  • wobei p und c die quantisierte adaptive Code-Buch bzw. die feste Code-Buch Verstärkung sind.
  • Dieselbe Verstärkungs-Quantisier-Einheit 318 wird sowohl für die aktive Sprach- als auch für die Untergrundgeräusch- Segmente verwendet:
  • Da dasselbe adaptive Code-Buch und dieselbe Verstärkungs- Quantisier-Tabelle sowohl für aktive Sprach- als auch für Untergrundgeräusch-Segmente verwendet werden, bleibt die Synthese-Einheit 222 unverändert. Dies impliziert, dass das Format der von der Analysier-Einheit 304 an die Synthese- Einheit 222 übermittelten Information immer dasselbe ist, was weniger anfällig für Übermittlungs-Fehler ist, verglichen mit Systemen, die Multi-Mode-Codierung verwenden.
  • Fig. 5(A) und 5(B) stellen die kombinierten Verstärkungsskalierten adaptiven Code-Buch- und festen Anregungs-Code- Buch-Beiträge dar. Für ein typisches Untergrundgeräusch- Segment ist das in Fig. 5(A) gezeigte Signal der kombinierte Beitrag, generiert mittels eines herkömmlichen Analysis-by- Synthesis-Systems. Für dasselbe Untergrundgeräusch-Segment ist das in Fig. 5(B) gezeigte Signal der kombinierte Beitrag, generiert mittels der vorliegenden Erfindung. Es ist sichtbar, dass das Signal in Fig. 5(B) reicher an Abtast- Inhalt ist als das Signal in Fig. 5(A). Daher ist die Qualität des synthetisierten Untergrundgeräuschs unter Verwendung der vorliegenden Erfindung wahrnehmbar besser.
  • Die vorangehenden Beschreibungen von speziellen Ausführungsbeispielen der vorliegenden Erfindung sind zum Zwecke der Illustration und Beschreibung präsentiert worden. Es ist nicht beabsichtigt, dass diese umfassend sind oder dass die Erfindung auf die präzise offenbarten Formen begrenzt ist, und offensichtlich sind viele Modifikationen und Veränderungen im Lichte der obigen Lehre möglich. Die Ausführungsbeispiele wurden ausgewählt und beschrieben, um die Prinzipien der Erfindung und ihre praktische Anwendung am besten zu erklären, um es dadurch anderen Fachleuten zu ermöglichen, die Erfindung und zahlreiche Ausführungsbeispiele mit unterschiedlichen Modifikationen am besten zu verwenden, in passender Weise zu der speziellen beabsichtigten Verwendung. Es ist beabsichtigt, dass der Schutzumfang der Erfindung mittels der angehängten Patentansprüche und deren Äquivalenten definiert wird.

Claims (6)

1. Ein Verfahren zum Sprach-Codieren, das die Schritte aufweist:
Digitalisieren eines Eingabe-Sprach-Signals (208);
Detektieren von aktiven Sprach- und Untergrundgeräusch- Segmenten innerhalb des digitalisierten Eingabe-Sprach- Signals (310);
Bestimmen von Lineär-Prädiktions-Koeffizienten (LPC) und eines LPC-Restsignals des digitalisierten Eingabe-Sprach- Signals (210);
Bestimmen eines Pitch-Prädiktions-Beitrags von den Linear-Prädiktions-Koeffizienten und dem digitalisierten Eingabe-Sprach-Signal gemäß einem Analysis-by-Synthesis- Verfahren, wenn ein aktives Sprach-Segment detektiert wird (406); und
Bestimmen eines Pitch-Prädiktions-Beitrags von den Linear-Prädiktions-Koeffizienten und dem digitalisierten Eingabe-Sprach-Signal unter Verwendung eines adaptiven Code- Buch-Beitrags als eine Quelle einer Pseudo-Zufalls-Sequenz, immer wenn ein Untergrundgeräusch-Segment detektiert wird (402).
2. Das Verfahren von Anspruch 1, ferner aufweisend die Schritte:
Berechnen eines adaptiven Code-Buch-Verstärkungsfaktors gemäß dem Analysis-by-Synthesis-Verfahren, wenn ein aktives Sprach-Segment detektiert wird (408); und
Berechnen eines adaptiven Code-Buch-Verstärkungsfaktors mittels Anpassens eines Verstärkungs-skalierten adaptiven Code-Buch-Beitrags an eine Energie von dem LPC-Restsignal, wenn ein Untergrundgeräusch-Segment detektiert wird (404).
3. Das Verfahren von Anspruch 2, ferner aufweisend die Schritte:
Quantisieren eines festen Code-Buch-Verstärkungsfaktors und des adaptiven Code-Buch-Verstärkungsfaktors gemäß dem Analysis-by-Synthesis-Verfahren, wenn ein aktives Sprach- Segment detektiert wird; und
Quantisieren des festen Code-Buch-Verstärkungsfaktors und des adaptiven Code-Buch-Verstärkungsfaktors mittels Anpassens einer Energie einer totalen Anregung mit quantisierten Verstärkungen an eine Energie von totaler Anregung mit unquantisierten Verstärkungen, immer wenn ein Untergrundgeräusch-Segment detektiert wird.
4. Das Verfahren von Anspruch 1, ferner aufweisend die Schritte:
Berechnen des adaptiven Code-Buch-Beitrags gemäß dem Analysis-by-Synthesis-Verfahren, wenn ein aktives Sprach- Segment detektiert wird; und
Berechnen des adaptiven Code-Buch-Beitrags mittels Anpassens des Restsignals mit dem Verstärkungs-skalierten adaptiven Code-Buch-Beitrag, wenn ein Untergrundgeräusch- Segment detektiert wird.
5. Das Verfahren von Anspruch 1, ferner aufweisend die Schritte:
Quantisieren eines festen Code-Buch-Verstärkungsfaktors und eines adaptiven Code-Buch-Verstärkungsfaktors gemäß dem Analysis-by-Synthesis-Verfahren, wenn ein aktives Sprach- Segment detektiert wird; und
Quantisieren des festen Code-Buch-Verstärkungsfaktors und des adaptiven Code-Buch-Verstärkungsfaktors mittels Anpassens einer Energie einer totalen Anregung mit quantisierten Verstärkungen an eine Energie von totaler Verstärkung mit unquantisierten Verstärkungen, immer wenn ein Untergrundgeräusch-Signal detektiert wird.
6. Das Verfähren von Anspruch 1, ferner aufweisend die folgenden Schritte zum Quantisieren einer festen Code-Buch- Verstärkung und einer adaptiven Code-Buch-Verstärkung:
Quantisieren der festen Code-Buch-Verstärkung und der adaptiven Code-Buch-Verstärkung gemäß einem Analysis-by- Synthesis-Verfahren, wenn ein aktives Sprach-Segment detektiert wird; und
Quantisieren der festen Code-Buch-Verstärkung und der adaptiven Code-Buch-Verstärkung mittels Anpassens einer Energie von totaler Anregung mit quantisierten Verstärkungen an eine Energie von totaler Verstärkung mit unquantisierten Verstärkungen, immer wenn ein Untergrundgeräusch-Segment detektiert wird.
DE69808339T 1998-01-13 1998-11-25 Verfahren zur sprachkodierung bei hintergrundrauschen Expired - Fee Related DE69808339T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/006,422 US6104994A (en) 1998-01-13 1998-01-13 Method for speech coding under background noise conditions
PCT/US1998/025254 WO1999036906A1 (en) 1998-01-13 1998-11-25 Method for speech coding under background noise conditions

Publications (2)

Publication Number Publication Date
DE69808339D1 DE69808339D1 (de) 2002-10-31
DE69808339T2 true DE69808339T2 (de) 2003-08-07

Family

ID=21720805

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69808339T Expired - Fee Related DE69808339T2 (de) 1998-01-13 1998-11-25 Verfahren zur sprachkodierung bei hintergrundrauschen

Country Status (6)

Country Link
US (2) US6104994A (de)
EP (1) EP1048024B1 (de)
JP (1) JP2002509294A (de)
AU (1) AU1537899A (de)
DE (1) DE69808339T2 (de)
WO (1) WO1999036906A1 (de)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6104994A (en) * 1998-01-13 2000-08-15 Conexant Systems, Inc. Method for speech coding under background noise conditions
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6937978B2 (en) * 2001-10-30 2005-08-30 Chungwa Telecom Co., Ltd. Suppression system of background noise of speech signals and the method thereof
US7065486B1 (en) * 2002-04-11 2006-06-20 Mindspeed Technologies, Inc. Linear prediction based noise suppression
US6973339B2 (en) * 2003-07-29 2005-12-06 Biosense, Inc Lasso for pulmonary vein mapping and ablation
US20050102476A1 (en) * 2003-11-12 2005-05-12 Infineon Technologies North America Corp. Random access memory with optional column address strobe latency of one
CN1815552B (zh) * 2006-02-28 2010-05-12 安徽中科大讯飞信息科技有限公司 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法
US20080109217A1 (en) * 2006-11-08 2008-05-08 Nokia Corporation Method, Apparatus and Computer Program Product for Controlling Voicing in Processed Speech
CN101286320B (zh) * 2006-12-26 2013-04-17 华为技术有限公司 增益量化系统用于改进语音丢包修补质量的方法
US8688437B2 (en) 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
RU2440627C2 (ru) 2007-02-26 2012-01-20 Долби Лэборетериз Лайсенсинг Корпорейшн Повышение разборчивости речи в звукозаписи развлекательных программ
CN101609677B (zh) * 2009-03-13 2012-01-04 华为技术有限公司 一种预处理方法、装置及编码设备
JP5994639B2 (ja) * 2011-02-01 2016-09-21 日本電気株式会社 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58140798A (ja) * 1982-02-15 1983-08-20 株式会社日立製作所 音声ピツチ抽出方法
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
EP1998319B1 (de) * 1991-06-11 2010-08-11 Qualcomm Incorporated Vocoder mit veränderlicher Bitrate
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
FR2702590B1 (fr) * 1993-03-12 1995-04-28 Dominique Massaloux Dispositif de codage et de décodage numériques de la parole, procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP, et procédé d'analyse LTP.
US5784532A (en) * 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
US5570454A (en) * 1994-06-09 1996-10-29 Hughes Electronics Method for processing speech signals as block floating point numbers in a CELP-based coder using a fixed point processor
GB2297465B (en) * 1995-01-25 1999-04-28 Dragon Syst Uk Ltd Methods and apparatus for detecting harmonic structure in a waveform
JP3522012B2 (ja) * 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
JPH0990974A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
US6104994A (en) * 1998-01-13 2000-08-15 Conexant Systems, Inc. Method for speech coding under background noise conditions

Also Published As

Publication number Publication date
JP2002509294A (ja) 2002-03-26
DE69808339D1 (de) 2002-10-31
EP1048024B1 (de) 2002-09-25
US6205423B1 (en) 2001-03-20
US6104994A (en) 2000-08-15
WO1999036906A1 (en) 1999-07-22
EP1048024A1 (de) 2000-11-02
AU1537899A (en) 1999-08-02

Similar Documents

Publication Publication Date Title
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE3856211T2 (de) Verfahren zur adaptiven Filterung von Sprach- und Audiosignalen
DE60011051T2 (de) Celp-transkodierung
DE69900786T2 (de) Sprachkodierung
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE60129544T2 (de) Kompensationsverfahren bei rahmenauslöschung in einem sprachkodierer mit veränderlicher datenrate
DE60128677T2 (de) Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE69928288T2 (de) Kodierung periodischer sprache
DE69331079T2 (de) CELP-Vocoder
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
DE60012760T2 (de) Multimodaler sprachkodierer
DE60124274T2 (de) Codebuchstruktur und suchverfahren für die sprachkodierung
DE69615302T2 (de) Maskierung des wahrnehmbaren Rauschens auf der Basis der Frequenzantwort eines Synthesefilters
DE602004007786T2 (de) Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate
DE60027573T2 (de) Quantisierung der spektralen amplitude in einem sprachkodierer
DE60123651T2 (de) Verfahren und vorrichtung zur robusten sprachklassifikation
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE602004003610T2 (de) Halbrätiger Vocoder
DE69808339T2 (de) Verfahren zur sprachkodierung bei hintergrundrauschen
DE60133757T2 (de) Verfahren und vorrichtung zur kodierung von stimmloser sprache
DE19647298C2 (de) Kodiersystem
DE69132885T2 (de) CELP-Kodierung niedriger Verzögerung und 32 kbit/s für ein Breitband-Sprachsignal
DE69730779T2 (de) Verbesserungen bei oder in Bezug auf Sprachkodierung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee