DE69808339T2

DE69808339T2 - Verfahren zur sprachkodierung bei hintergrundrauschen

Info

Publication number: DE69808339T2
Application number: DE69808339T
Authority: DE
Inventors: Adil Benyassine; Huan-Yu Su; Jes Thyssen; Kwok Yuen
Original assignee: Conexant Systems LLC
Current assignee: Conexant Systems LLC
Priority date: 1998-01-13
Filing date: 1998-11-25
Publication date: 2003-08-07
Anticipated expiration: 2018-11-26
Also published as: EP1048024A1; US6205423B1; US6104994A; DE69808339D1; JP2002509294A; EP1048024B1; AU1537899A; WO1999036906A1

Description

Die vorliegende Erfindung betrifft im Allgemeinen das Gebiet der Kommunikation, und insbesondere das Gebiet der codierten Sprach-Übertragung.
Während einer Konversation zwischen zwei oder mehr Personen sind Umgebungs-Untergrundgeräusche der gesamten Hörerfahrung des menschlichen Ohrs eigen. Fig. 1 stellt die analogen Schallwellen 100 einer typisch aufgenommenen Konversation dar, die Umgebungs-Untergrundgeräusch-Signale 102 zusammen mit Sprachgruppen 104-108, verursacht von Sprach- Kommunikation, aufweist. Innerhalb des technischen Gebiets des Übermittelns, Empfangens, und Speicherns von Sprach- Kommunikation existieren mehrere unterschiedliche Techniken zum Codieren und Decodieren eines Signals 100. Eine der Techniken zum Codieren und Decodieren eines Signals 100 ist das Verwenden eines Analysis-by-Synthesis-Codier-Systems, das den Fachleuten wohlbekannt ist.
Fig. 2 stellt ein Allgemeinüberblick-Blockdiagramm eines aus dem Stand der Technik bekannten Analysis-by-Synthesis-Systems 200 zum Codieren und Decodieren von Sprache dar. Ein Analysis-by-Synthesis-System 200 zum Codieren und Decodieren des Signals 100 von Fig. 1 verwendet eine Analysier-Einheit 204 zusammen mit einer zugehörigen Synthese-Einheit 222. Die Analysier-Einheit 204 repräsentiert einen Sprach-Codierer des Analysis-by-Synthesis-Typs, wie beispielsweise einen Code Excited Linear Prediction (CELP)-Codierer. Ein Code Excited Linear Prediction-Codierer stellt einen Weg dar, das Codier- Signal 100 für ein Medium geringer Bitrate zu codieren, um die Einschränkungen von Kommunikationsnetzwerken und Speicherkapazitäten zu erfüllen. Ein Beispiel eines CELP- basierten Sprach-Codierers ist der vor kurzem angenommene International Telecommunication Union (ITU) G.729 Standard.
Um Sprache zu codieren, empfängt das Mikrofon 206 der Analysier-Einheit 204 die analogen Schallwellen 100 von Fig. 1 als ein Eingabe-Signal. Das Mikrofon 206 gibt die empfangenen analogen Schallwellen 100 an den Analog-zu- Digital-(A/D)Abtast-Schaltkreis 208 aus. Der Analog-zu- Digital-Abtaster 208 konvertiert die analogen Schallwellen 100 in ein in Abschnitte zerlegtes digitales Sprach-Signal (in Abschnitte zerlegt über diskrete Zeitperioden), welches an den Linear-Prädiktions-Koeffizienten (LPC)-Extraktor 210 und den Pitch-Extraktor 212 ausgegeben wird, um die Formant- Struktur (oder die spektrale Hülle) bzw. die harmonische Struktur des Sprach-Signals aufzufinden.
Die Formant-Struktur entspricht der Kurzzeit-Korrelation, und die harmonische Struktur entspricht der Langzeit-Korrelation. Die Kurzzeit-Korrelation kann beschrieben werden mittels Zeit-variierender Filter, deren Koeffizienten die erhaltenen Linear-Prädiktions-Koeffizienten (LPC) sind. Die Langzeit- Korrelation kann auch mittels Zeit-variierender Filter beschrieben werden, deren Koeffizienten von dem Pitch- Extraktor erhalten werden. Filtern des ankommenden Sprach- Signals mit dem LPC-Filter entfernt die Kurzzeit-Korrelation und erzeugt ein LPC-Restsignal. Dieses LPC-Restsignal wird weiter mittels des Pitch-Filters verarbeitet, um die verbleibende Langzeit-Korrelation zu entfernen. Das erhaltene Signal ist das totale Restsignal. Falls dieses Restsignal durch die Invers-Pitch- und LPC-Filter (auch Synthese-Filter genannt) geleitet wird, wird das originale Sprach-Signal aufgefunden oder synthetisiert. In dem Kontext der Sprach- Codierung muss dieses Rest-Signal quantisiert (codiert) werden, um die Bitrate zu reduzieren. Das quantisierte Restsignal wird als das Anregungssignal bezeichnet, das sowohl durch den quantisierten Pitch- als auch durch den LPC- Synthese-Filter geleitet wird, um eine nahe Reproduktion des originalen Sprach-Signals zu erzeugen. In dem Kontext der Analysis-by-Synthesis-CELP Codierung von Sprache wird der quantisierte Rest von einem Code-Buch 214 erhalten, das normalerweise das feste Code-Buch genannt wird. Dieses Verfahren ist im Detail in dem ITU G.729 Dokument beschrieben.
Das feste Code-Buch 214 von Fig. 2 enthält eine spezielle Anzahl von gespeicherten Digital-Mustern, welche auf Code- Vektoren bezogen sind. Das feste Code-Buch 214 wird normalerweise durchsucht, um den das Restsignal am besten repräsentierenden Code-Vektor bereitzustellen, auf irgendeine Wahrnehmungsweise bezogen, wie dem Fachmann bekannt ist. Der ausgewählte Code-Vektor wird typischerweise als das feste Anregungssignal bezeichnet. Nach Bestimmen des besten Cöde- Vektors, der das Restsignal repräsentiert, berechnet die feste Code-Buch-Einheit 214 auch den Verstärkungsfaktor des festen Anregungssignals. Der nächste Schritt ist, das feste Anregungssignal durch den Pitch-Synthese-Filter zu leiten. Dies wird normalerweise unter Verwendung der Vorgehensweise der adaptiven Code-Buch-Suche implementiert, um die optimale Pitch-Verstärkung und Verzögerung auf eine "closed-loop"- Weise ("geschlossene Schleife") zu bestimmen, wie dem Fachmann bekannt. Das "geschlossene Schleife"-Verfahren, oder Analysis-by-Synthesis, bedeutet, dass die anzupassenden Signale gefiltert werden. Die optimale Pitch-Verstärkung und Verzögerung erlauben das Generieren eines sogenannten adaptiven Anregungssignals. Die determinierten Verstärkungsfaktoren sowohl für die adaptive als auch für die feste Code-Buch-Anregungen werden dann mittels des Verstärkungs-Quantisierers 216 auf eine "geschlossene Schleife"-Weise quantisiert, unter Verwendung einer Tabelle mit einem Index, was für den Fachmann ein wohlbekanntes Quantisierungsschema ist. Der Index von der besten festen Anregung von dem festen Code-Buch 214 zusammen mit den Indizes der quantisierten Verstärkungen, Pitch-Verzögerung und LPC-Koeffizienten werden dann zu der Speicherung/Übermittlungs-Einheit 218 geleitet.
Die Speicherung/Übermittlung 218 (von Fig. 2) der Analysier- Einheit 204 übermittelt dann der Synthese-Einheit 222, über das Kommunikations-Netzwerk 220, die Index-Werte der Pitch- Verzögerung, Pitch-Verstärkung, Linear-Prädiktions- Koeffizienten, des festen Anregungs-Code-Vektors, und der festen Anregungs-Code-Vektor-Verstärkung, die alle das empfangene analoge Schallwellen-Signal 100 repräsentieren. Die Synthese-Einheit 222 decodiert die unterschiedlichen Parameter, die es von der Speicherung/Übermittlung 218 empfängt, um ein synthetisiertes Sprach-Signal zu erhalten. Um Menschen zu ermöglichen, das synthetisierte Sprach-Signal zu hören, gibt die Synthese-Einheit 222 das synthetisierte Sprach-Signal zu einem Lautsprecher 224 aus.
Das Analysis-by-Synthesis-System 200, das oben bezugnehmend auf Fig. 2 beschrieben ist, ist erfolgreich verwendet worden, um hochqualitative Sprach-Codierer zu realisieren. Wie es Fachleute zu schätzen wissen, kann natürliche Sprache mit sehr geringen Bitraten mit hoher Qualität codiert werden. Das hochqualitative Codieren bei einer geringen Bitrate kann unter Verwendung eines festen Anregungs-Code-Buchs 214 erreicht werden, dessen Code-Vektoren eine hohe Seltenheit aufweisen (das heißt, mit wenigen Nicht-Null-Elementen). Zum Beispiel gibt es nur vier Nicht-Null-Pulse pro 5 ms in der ITU Recommendation G.729. Wenn die Sprache jedoch mittels Umgebungs-Untergrundgeräuschen beschädigt ist, ist die wahrgenommene Leitungsfähigkeit von diesen Codier-Systemen herabgesetzt. Diese Herabsetzung kann nur abgestellt werden, falls das feste Code-Buch 214 hochdichte Nicht-Null-Pseudo- Zufalls-Code-Vektoren aufweist, und falls das Wellenform- Abstimm-Kriterium in CELP-Systemen gelockert wird.
Anspruchsvolle Lösungen einschließlich Multi-Mode-Codieren und das Verwenden von gemischten Anregungen sind vorgeschlagen worden, um die Sprachqualität unter Untergrundgeräusch-Bedingungen zu verbessern. Allerdings führen diese Lösungen üblicherweise zu unerwünschter hoher Komplexität oder hoher Sensitivität bezüglich Übermittlungs- Fehlern. Die vorliegende Erfindung stellt eine einfache Lösung zum Bekämpfen dieses Problems bereit.
Aus Miki et al. (Miki, S, Moriya, T, Mano, K, Ohmuro, H [1994] "Pitch Synchronous Innovation Code Excited Linear Prediction (PSI-CELP)", Electronics and Communications in Japan, Teil 3, Band 77, Nummer 12, Seiten 36-49) ist ein CELP-basiertes Sprachcodier-Verfahren bekannt, das als PSI- CELP bezeichnet wird, welches Pitch-synchrone Innovation (PSI, pitch synchronous innovation) zu dem CELP-Verfahren hinzufügt. Gemäß dem PSI-CELP-Verfahren werden Zufalls-Code- Vektoren von einem Zufalls-Code-Buch adaptiv umgewandelt, um Pitch-Periodizität für Sprach-Frames zu haben. Ein von diesen Verfahren verwendetes Zufalls-Code-Buch kann die nicht- stationäre Komponente des Sprach-Frames repräsentieren, das unter Verwendung des adaptiven Code-Buchs nicht repräsentiert werden kann. PSI-CELP hat einen Pitch-Synchronisierer nach dem Zufalls-Code-Buch, um die Zufalls-Code-Vektoren zu veranlassen, Pitch-Periodizität zu haben.
Die vorliegende Erfindung weist ein Verfahren zum Verbessern der Qualität von codierter Sprache auf, wenn Umgebungs- Untergrundgeräusch vorliegt. Für die meisten Analysis-by- Synthesis-Sprach-Codierer bedeutet Pitch-Prädiktions-Beitrag, die Periodizität von der Sprache während Sprach-Segmenten zu repräsentieren. Ein Ausführungsbeispiel des Pitch-Prädiktors ist in der Form eines adaptiven Code-Buchs, wie dem Fachmann wohlbekannt ist. Für Untergrundgeräusch-Segmente von der Sprache gibt es eine schwache oder sogar nicht-existierende Langzeit-Korrelation für den zu repräsentierenden Pitch- Prädiktions-Beitrag. Allerdings ist der Pitch-Prädiktions- Beitrag reich an Abtast-Inhalt und repräsentiert daher eine gute Quelle für eine gewünschte Pseudo-Zufalls-Sequenz, was geeigneter zum Codieren von Untergrundgeräusch ist.
Die vorliegende Erfindung weist einen Klassifizierer auf, der aktive Abschnitte des Eingabe-Signals (aktive Sprache) von den inaktiven Abschnitten (Untergrundgeräusch) des Eingabe- Signals unterscheidet. Während aktiven Sprach-Segmenten ist das herkömmliche Analysis-by-Synthesis-System zum Codieren aufgerufen. Allerdings verwendet die vorliegende Erfindung während Untergrundgeräusch-Segmenten den Pitch-Prädiktions- Beitrag als eine Quelle einer Pseudo-Zufalls-Sequenz, bestimmt mittels eines geeigneten Verfahrens. Die vorliegende Erfindung bestimmt auch den geeigneten Verstärkungsfaktor für den Pitch-Prädiktions-Beitrag. Da dieselbe Pitch-Prädiktioris- Einheit und die zugehörige Verstärkungs-Quantisier-Einheit sowohl für die aktiven Sprach-Segmente als auch für Untergrundgeräusch-Segmente verwendet werden, gibt es kein Erfordernis, die Synthese-Einheit zu ändern. Dies impliziert, dass das Format der von der Analysier-Einheit zu der Synthese-Einheit übermittelten Information immer das gleiche ist, was weniger anfällig für Übermittlungsfehler ist.
Ein Verfahren zum Sprach-Codieren ist mittels der Erfindung bereitgestellt, wobei das Verfahren die Schritte aufweist des Digitalisierens eines Eingabe-Sprach-Signals, des Detektierens von aktiver Sprach- und Untergrundgeräusch- Segmenten innerhalb des digitalisierten Eingabe-Sprach- Signals, des Bestimmens vom Linear-Prädiktions-Koeffizienten (LPC) und eines LPC-Restsignals von dem digitalisierten Eingabe-Sprach-Signal, des Bestimmens eines Pitch- Prädiktions-Beitrags von den Linear-Prädiktions-Koeffizienten und dem digitalisierten Eingabe-Sprach-Signal gemäß einem Analysis-by-Synthesis Verfahren, wenn ein aktives Sprach- Segment detektiert ist, und des Bestimmens eines Pitch- Prädiktions-Beitrags von den Linear-Prädiktions-Koeffizienten und dem digitalisierten Eingabe-Sprach-Signal unter Verwendung eines adaptiven Code-Buch-Beitrags als eine Quelle einer Pseudo-Zufallssequenz, jedes Mal wenn ein Untergrundgeräusch-Segment detektiert wird.
Das erfindungsgemäße Verfahren zur Sprach-Codierung kann ferner die Schritte aufweisen des Quantisierens eines festen Code-Buch-Verstärkungsfaktors und des adaptiven Code-Buch- Verstärkungsfaktors gemäß dem Analysis-by-Synthesis Verfahren, wenn ein aktives Sprach-Segment detektiert wird, und des Quantisierens des festen Code-Buch- Verstärkungsfaktors und des adaptiven Code-Buch- Verstärkungsfaktors mittels Anpassens einer Energie von einer totalen Anregung mit quantisierten Verstärkungen an eine Energie einer totalen Anregung mit unquantisierten Verstärkungen, immer wenn ein Untergrundgeräusch-Segment detektiert wird.

Kurze Beschreibung der Zeichnungen

Die begleitenden Zeichnungen, die in diese Beschreibung aufgenommen sind und einem Teil dieser Beschreibung bilden, stellen Ausführungsbeispiele der Erfindung dar und, gemeinsam mit der Beschreibung, dienen zum Erklären der Prinzipien der Erfindung:
Fig. 1 stellt die analogen Schallwellen einer typischen Sprachkonversation dar, die Umgebungs-Untergrundgeräusche während des Signals aufweisen;
Fig. 2 stellt ein Allgemeinüberblick-Blockdiagramm eines aus dem Stand der Technik bekannten Analysis-by-Synthesis-Systems zum Codieren und Decodieren von Sprache dar;
Fig. 3 stellt einen Allgemeinüberblick des Analysis-by- Synthesis-Systems zum Codieren und Decodieren von Sprache dar, in dem die vorliegende Erfindung operiert;
Fig. 4 stellt ein Blockdiagramm eines Ausführungsbeispiels einer Pitch-Extrahier-Einheit in Übereinstimmung mit einem Ausführungsbeispiel der vorliegenden Erfindung dar, lokalisiert innerhalb des Analysis-by-Synthesis-Systems von Fig. 3;
Fig. 5(A) und 5(B) stellen die kombinierten Verstärkungs-skalierten adaptiven Code-Buch- und feste Anregungs-Code-Buch-Beiträge für ein typisches Untergrundgeräusch-Segment dar.

Detaillierte Beschreibung der bevorzugten Ausführungsbeispiele

In der folgenden detaillierten Beschreibung der vorliegenden Erfindung, ein Verfahren zum Verbessern der Qualität von codierter Sprache wenn Umgebungs-Untergrundgeräusch vorliegt, sind zahlreiche spezielle Details beschrieben, um ein vollkommenes Verständnis der vorliegenden Erfindung bereitzustellen. Allerdings wird es für einen Fachmann offensichtlich sein, dass die vorliegende Erfindung ohne diese speziellen Details betrieben werden kann. In anderen Beispielen, sind wohlbekannte Verfahren, Prozeduren, Komponenten und Schaltkreise nicht im Detail beschrieben worden, um nicht unnötig Aspekte der vorliegenden Erfindung undeutlich zu machen.
Die vorliegende Erfindung operiert innerhalb des Gebiets der codierten Sprach-Übertragung. Im Speziellen stellt Fig. 3 einen allgemeinen Überblick des Analysis-by-Synthesis-Systems 300 dar, das verwendet wird zum Codieren und Decodieren von Sprache zur Kommunikation und Speicherung, in dem die vorliegende Erfindung betrieben wird. Die Analysier-Einheit 304 empfängt ein Konversationssignal 100, das ein Signal ist, das zusammengesetzt ist von Repräsentationen von Sprach- Kommunikation mit Untergrundgeräusch. Signal 100 wird mittels des Mikrofons 206 erfasst und dann mittels des A/D-Abtast- Schaltkreises 208 in ein digitales Sprach-Signal digitalisiert. Die digitale Sprache wird an die Klassifizier- Einheit 310, und den LPC-Extraktor 210 ausgegeben.
Die Klassifizier-Einheit 310 von Fig. 3 unterscheidet die Nicht-Sprach-Perioden (z. B. Perioden nur mit Untergrundgeräusch), die in dem Eingabe-Signal 100 enthalten sind, von den Sprach-Perioden (siehe G.729 Annex D Empfehlung, die einen Sprach-Aktivität-Detektor (VAD), wie beispielsweise die Klassifizier-Einheit 310 beschreibt). Wenn die Klassifizier-Einheit 310 die Nicht-Sprach-Perioden des Eingabe-Signals 100 bestimmt, übermittelt sie an den Pitch- Extraktor 314 und an den Verstärkungs-Quantisierer 318 einen Hinweis als ein Signal 328. Der Pitch-Extraktor 314 verwendet das Signal 328, um den Pitch-Prädiktions-Beitrag am besten zu bestimmen. Der Verstärkungs-Quantisierer 314 verwendet das Signal 328, um die Verstärkungsfaktoren für den Pitch- Prädiktions-Beitrag und den festen Code-Buch-Beitrag am besten zu quantisieren.
Fig. 4 stellt ein Blockdiagramm des Pitch-Extraktors 400 dar, was ein Ausführungsbeispiel der Pitch-Extraktor-Einheit 314 von Fig. 3 gemäß einem Ausführungsbeispiel der vorliegenden Erfindung ist. Falls das Signal 328 (abgeleitet von der Klassifizier-Einheit 310) anzeigt, dass das gegenwärtige Signal 330 ein aktives Sprach-Segment ist, wird die Pitch-Prädiktions-Einheit-Suche 406 verwendet. Unter Verwendung des herkömmlichen Analysis-by-Synthesis-Verfahrens (siehe G.729 Recommendation, zum Beispiel) findet die Pitch- Prädiktions-Einheit 406 die Pitch-Periode des gegenwärtigen Segments und erzeugt einen Beitrag basierend auf dem adaptiven Code-Buch. Die Verstärkungs-Berechnungs-Einheit 408 berechnet dann den zugehörigen Verstärkungsfaktor.
Falls das Signal 328 anzeigt, dass das gegenwärtige Signal 330 ein Untergrundgeräusch-Segment ist, wird der Code-Vektor von dem adaptiven Code-Buch, der am besten eine Pseudo- Zufalls-Anregung repräsentiert, mittels der Anregungs-Such- Einheit 402 als Beitrag ausgesucht. In dem Ausführungsbeispiel wird, um den besten Code-Vektor auszuwählen, die Energie des Verstärkungs-skalierten adaptiven Code-Buch-Beitrags an die Energie des LPC- Restsignals 330 angepasst. Im Speziellen wird eine umfassende Suche verwendet, um den besten Index für das adaptive Code- Buch zu bestimmen, der das folgende Fehler-Kriterium minimiert, wobei L die Länge des Code-Vektors ist:
(residual(i) - Gindex · acb(i - index))²
[Vergleiche die obige Gleichung mit Gleichung (37) von dem G.729 Dokument:
Diese Suche wird in der Anregungs-Such-Einheit 402 durchgeführt, und dann wird die adaptive Code-Buch- Verstärkung (Pitch-Verstärkung) Gindex in dem Verstärkungs- Berechnungs-Block 403 berechnet zu:
Gindex = wobei
Eres = residual(i) · residual(i) wobei residual das Signal 330 ist.
Eacb = acb(i - index) · acb(i - ndex) wobei acb das adaptive Code-Buch ist.
[Vergleiche mit Gleichung (43) des G.729 Dokuments:
Dasselbe adaptive Code-Buch wird verwendet sowohl für die aktive Sprach- als auch für die Untergrundgeräusch-Segmente. Wenn der beste Index für das adaptive Code-Buch gefunden ist (Pitch-Verzögerung), wird der adaptive Code-Buch- Verstärkungsfaktor wie folgt bestimmt:
Gbest_index = 0.8 ·
E = residual(i) · residual(i)
Eacb = acb(i - best_index) · acb(i - best_index)
Der Wert von Gbest_index ist immer positiv und auf einen maximalen Wert von 0.5 begrenzt.
Wenn die Pitch-Extraktor-Einheit 314 und die feste Code-Buch- Einheit 214 des besten Pitch-Prädiktions-Beitrag bzw. den Code-Buch-Beitrag finden, werden ihre zugehörigen Verstärkungsfaktoren mittels der Verstärkungs-Quantisier- Einheit 318 quantisiert. Für ein aktives Sprach-Segment werden die Verstärkungsfaktoren mit dem herkömmlichen Analysis-by-Synthesis-Verfahren quantisiert. Für ein Untergrundgeräusch-Segment jedoch wird ein unterschiedliches Verstärkungs-Quantisierungs-Verfahren benötigt, um den Nutzen zu vervollständigen, der mittels Verwendens des adaptiven Code-Buchs als eine Quelle einer Pseudo-Zufalls-Sequenz erhalten wird. Allerdings kann diese Quantisierungs-Technik sogar verwendet werden, falls der Pitch-Prädiktions-Beitrag unter Verwendung eines herkömmlichen Verfahrens abgeleitet wird. Die folgenden Gleichungen stellen das Quantisierungsverfahren der vorliegenden Erfindung dar, wobei die Energie der totalen Anregung mit quantisierten Verstärkungen (E ) mit der Energie der totalen Anregung mit unquantisierten Verstärkungen (E ) angepasst wird. Im Speziellen wird eine umfassende Suche verwendet, um die quantisierten Verstärkungen zu bestimmen, die das folgende Fehler-Kriterium minimieren:
[Diese Gleichung sollte verglichen werden mit Gleichung (63) des G.729 Dokuments:
E = x'x + gp²y'y + gc²z'z - 2gpx'y - 2gcx'z + 2gpgcy'z]
= (Gacb · acb(i - best_index) + Gcodebook · codebook(i))²
wobei Gacb und Gcodebook die unquantisierte optimale adaptive feste Code-Buch und Code-Buch Verstärkung von Einheiten 314 bzw. 214 sind, acb(i-best_index) der adaptive Code-Buch- Beitrag ist, und codebook(i) der feste Code-Buch-Beitrag ist.
wobei p und c die quantisierte adaptive Code-Buch bzw. die feste Code-Buch Verstärkung sind.
Dieselbe Verstärkungs-Quantisier-Einheit 318 wird sowohl für die aktive Sprach- als auch für die Untergrundgeräusch- Segmente verwendet:
Da dasselbe adaptive Code-Buch und dieselbe Verstärkungs- Quantisier-Tabelle sowohl für aktive Sprach- als auch für Untergrundgeräusch-Segmente verwendet werden, bleibt die Synthese-Einheit 222 unverändert. Dies impliziert, dass das Format der von der Analysier-Einheit 304 an die Synthese- Einheit 222 übermittelten Information immer dasselbe ist, was weniger anfällig für Übermittlungs-Fehler ist, verglichen mit Systemen, die Multi-Mode-Codierung verwenden.
Fig. 5(A) und 5(B) stellen die kombinierten Verstärkungsskalierten adaptiven Code-Buch- und festen Anregungs-Code- Buch-Beiträge dar. Für ein typisches Untergrundgeräusch- Segment ist das in Fig. 5(A) gezeigte Signal der kombinierte Beitrag, generiert mittels eines herkömmlichen Analysis-by- Synthesis-Systems. Für dasselbe Untergrundgeräusch-Segment ist das in Fig. 5(B) gezeigte Signal der kombinierte Beitrag, generiert mittels der vorliegenden Erfindung. Es ist sichtbar, dass das Signal in Fig. 5(B) reicher an Abtast- Inhalt ist als das Signal in Fig. 5(A). Daher ist die Qualität des synthetisierten Untergrundgeräuschs unter Verwendung der vorliegenden Erfindung wahrnehmbar besser.
Die vorangehenden Beschreibungen von speziellen Ausführungsbeispielen der vorliegenden Erfindung sind zum Zwecke der Illustration und Beschreibung präsentiert worden. Es ist nicht beabsichtigt, dass diese umfassend sind oder dass die Erfindung auf die präzise offenbarten Formen begrenzt ist, und offensichtlich sind viele Modifikationen und Veränderungen im Lichte der obigen Lehre möglich. Die Ausführungsbeispiele wurden ausgewählt und beschrieben, um die Prinzipien der Erfindung und ihre praktische Anwendung am besten zu erklären, um es dadurch anderen Fachleuten zu ermöglichen, die Erfindung und zahlreiche Ausführungsbeispiele mit unterschiedlichen Modifikationen am besten zu verwenden, in passender Weise zu der speziellen beabsichtigten Verwendung. Es ist beabsichtigt, dass der Schutzumfang der Erfindung mittels der angehängten Patentansprüche und deren Äquivalenten definiert wird.

Claims

1. Ein Verfahren zum Sprach-Codieren, das die Schritte aufweist:

Digitalisieren eines Eingabe-Sprach-Signals (208);

Detektieren von aktiven Sprach- und Untergrundgeräusch- Segmenten innerhalb des digitalisierten Eingabe-Sprach- Signals (310);

Bestimmen von Lineär-Prädiktions-Koeffizienten (LPC) und eines LPC-Restsignals des digitalisierten Eingabe-Sprach- Signals (210);

Bestimmen eines Pitch-Prädiktions-Beitrags von den Linear-Prädiktions-Koeffizienten und dem digitalisierten Eingabe-Sprach-Signal gemäß einem Analysis-by-Synthesis- Verfahren, wenn ein aktives Sprach-Segment detektiert wird (406); und

Bestimmen eines Pitch-Prädiktions-Beitrags von den Linear-Prädiktions-Koeffizienten und dem digitalisierten Eingabe-Sprach-Signal unter Verwendung eines adaptiven Code- Buch-Beitrags als eine Quelle einer Pseudo-Zufalls-Sequenz, immer wenn ein Untergrundgeräusch-Segment detektiert wird (402).

2. Das Verfahren von Anspruch 1, ferner aufweisend die Schritte:

Berechnen eines adaptiven Code-Buch-Verstärkungsfaktors gemäß dem Analysis-by-Synthesis-Verfahren, wenn ein aktives Sprach-Segment detektiert wird (408); und

Berechnen eines adaptiven Code-Buch-Verstärkungsfaktors mittels Anpassens eines Verstärkungs-skalierten adaptiven Code-Buch-Beitrags an eine Energie von dem LPC-Restsignal, wenn ein Untergrundgeräusch-Segment detektiert wird (404).

3. Das Verfahren von Anspruch 2, ferner aufweisend die Schritte:

Quantisieren eines festen Code-Buch-Verstärkungsfaktors und des adaptiven Code-Buch-Verstärkungsfaktors gemäß dem Analysis-by-Synthesis-Verfahren, wenn ein aktives Sprach- Segment detektiert wird; und

Quantisieren des festen Code-Buch-Verstärkungsfaktors und des adaptiven Code-Buch-Verstärkungsfaktors mittels Anpassens einer Energie einer totalen Anregung mit quantisierten Verstärkungen an eine Energie von totaler Anregung mit unquantisierten Verstärkungen, immer wenn ein Untergrundgeräusch-Segment detektiert wird.

4. Das Verfahren von Anspruch 1, ferner aufweisend die Schritte:

Berechnen des adaptiven Code-Buch-Beitrags gemäß dem Analysis-by-Synthesis-Verfahren, wenn ein aktives Sprach- Segment detektiert wird; und

Berechnen des adaptiven Code-Buch-Beitrags mittels Anpassens des Restsignals mit dem Verstärkungs-skalierten adaptiven Code-Buch-Beitrag, wenn ein Untergrundgeräusch- Segment detektiert wird.

5. Das Verfahren von Anspruch 1, ferner aufweisend die Schritte:

Quantisieren eines festen Code-Buch-Verstärkungsfaktors und eines adaptiven Code-Buch-Verstärkungsfaktors gemäß dem Analysis-by-Synthesis-Verfahren, wenn ein aktives Sprach- Segment detektiert wird; und

Quantisieren des festen Code-Buch-Verstärkungsfaktors und des adaptiven Code-Buch-Verstärkungsfaktors mittels Anpassens einer Energie einer totalen Anregung mit quantisierten Verstärkungen an eine Energie von totaler Verstärkung mit unquantisierten Verstärkungen, immer wenn ein Untergrundgeräusch-Signal detektiert wird.

6. Das Verfähren von Anspruch 1, ferner aufweisend die folgenden Schritte zum Quantisieren einer festen Code-Buch- Verstärkung und einer adaptiven Code-Buch-Verstärkung:

Quantisieren der festen Code-Buch-Verstärkung und der adaptiven Code-Buch-Verstärkung gemäß einem Analysis-by- Synthesis-Verfahren, wenn ein aktives Sprach-Segment detektiert wird; und

Quantisieren der festen Code-Buch-Verstärkung und der adaptiven Code-Buch-Verstärkung mittels Anpassens einer Energie von totaler Anregung mit quantisierten Verstärkungen an eine Energie von totaler Verstärkung mit unquantisierten Verstärkungen, immer wenn ein Untergrundgeräusch-Segment detektiert wird.