DE69808339T2 - Verfahren zur sprachkodierung bei hintergrundrauschen - Google Patents
Verfahren zur sprachkodierung bei hintergrundrauschenInfo
- Publication number
- DE69808339T2 DE69808339T2 DE69808339T DE69808339T DE69808339T2 DE 69808339 T2 DE69808339 T2 DE 69808339T2 DE 69808339 T DE69808339 T DE 69808339T DE 69808339 T DE69808339 T DE 69808339T DE 69808339 T2 DE69808339 T2 DE 69808339T2
- Authority
- DE
- Germany
- Prior art keywords
- detected
- adaptive codebook
- gain
- signal
- codebook gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 27
- 230000003044 adaptive effect Effects 0.000 claims description 38
- 238000003786 synthesis reaction Methods 0.000 claims description 26
- 230000005284 excitation Effects 0.000 claims description 24
- 230000015572 biosynthetic process Effects 0.000 claims description 12
- 238000001308 synthesis method Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000013139 quantization Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0002—Codebook adaptations
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- Die vorliegende Erfindung betrifft im Allgemeinen das Gebiet der Kommunikation, und insbesondere das Gebiet der codierten Sprach-Übertragung.
- Während einer Konversation zwischen zwei oder mehr Personen sind Umgebungs-Untergrundgeräusche der gesamten Hörerfahrung des menschlichen Ohrs eigen. Fig. 1 stellt die analogen Schallwellen 100 einer typisch aufgenommenen Konversation dar, die Umgebungs-Untergrundgeräusch-Signale 102 zusammen mit Sprachgruppen 104-108, verursacht von Sprach- Kommunikation, aufweist. Innerhalb des technischen Gebiets des Übermittelns, Empfangens, und Speicherns von Sprach- Kommunikation existieren mehrere unterschiedliche Techniken zum Codieren und Decodieren eines Signals 100. Eine der Techniken zum Codieren und Decodieren eines Signals 100 ist das Verwenden eines Analysis-by-Synthesis-Codier-Systems, das den Fachleuten wohlbekannt ist.
- Fig. 2 stellt ein Allgemeinüberblick-Blockdiagramm eines aus dem Stand der Technik bekannten Analysis-by-Synthesis-Systems 200 zum Codieren und Decodieren von Sprache dar. Ein Analysis-by-Synthesis-System 200 zum Codieren und Decodieren des Signals 100 von Fig. 1 verwendet eine Analysier-Einheit 204 zusammen mit einer zugehörigen Synthese-Einheit 222. Die Analysier-Einheit 204 repräsentiert einen Sprach-Codierer des Analysis-by-Synthesis-Typs, wie beispielsweise einen Code Excited Linear Prediction (CELP)-Codierer. Ein Code Excited Linear Prediction-Codierer stellt einen Weg dar, das Codier- Signal 100 für ein Medium geringer Bitrate zu codieren, um die Einschränkungen von Kommunikationsnetzwerken und Speicherkapazitäten zu erfüllen. Ein Beispiel eines CELP- basierten Sprach-Codierers ist der vor kurzem angenommene International Telecommunication Union (ITU) G.729 Standard.
- Um Sprache zu codieren, empfängt das Mikrofon 206 der Analysier-Einheit 204 die analogen Schallwellen 100 von Fig. 1 als ein Eingabe-Signal. Das Mikrofon 206 gibt die empfangenen analogen Schallwellen 100 an den Analog-zu- Digital-(A/D)Abtast-Schaltkreis 208 aus. Der Analog-zu- Digital-Abtaster 208 konvertiert die analogen Schallwellen 100 in ein in Abschnitte zerlegtes digitales Sprach-Signal (in Abschnitte zerlegt über diskrete Zeitperioden), welches an den Linear-Prädiktions-Koeffizienten (LPC)-Extraktor 210 und den Pitch-Extraktor 212 ausgegeben wird, um die Formant- Struktur (oder die spektrale Hülle) bzw. die harmonische Struktur des Sprach-Signals aufzufinden.
- Die Formant-Struktur entspricht der Kurzzeit-Korrelation, und die harmonische Struktur entspricht der Langzeit-Korrelation. Die Kurzzeit-Korrelation kann beschrieben werden mittels Zeit-variierender Filter, deren Koeffizienten die erhaltenen Linear-Prädiktions-Koeffizienten (LPC) sind. Die Langzeit- Korrelation kann auch mittels Zeit-variierender Filter beschrieben werden, deren Koeffizienten von dem Pitch- Extraktor erhalten werden. Filtern des ankommenden Sprach- Signals mit dem LPC-Filter entfernt die Kurzzeit-Korrelation und erzeugt ein LPC-Restsignal. Dieses LPC-Restsignal wird weiter mittels des Pitch-Filters verarbeitet, um die verbleibende Langzeit-Korrelation zu entfernen. Das erhaltene Signal ist das totale Restsignal. Falls dieses Restsignal durch die Invers-Pitch- und LPC-Filter (auch Synthese-Filter genannt) geleitet wird, wird das originale Sprach-Signal aufgefunden oder synthetisiert. In dem Kontext der Sprach- Codierung muss dieses Rest-Signal quantisiert (codiert) werden, um die Bitrate zu reduzieren. Das quantisierte Restsignal wird als das Anregungssignal bezeichnet, das sowohl durch den quantisierten Pitch- als auch durch den LPC- Synthese-Filter geleitet wird, um eine nahe Reproduktion des originalen Sprach-Signals zu erzeugen. In dem Kontext der Analysis-by-Synthesis-CELP Codierung von Sprache wird der quantisierte Rest von einem Code-Buch 214 erhalten, das normalerweise das feste Code-Buch genannt wird. Dieses Verfahren ist im Detail in dem ITU G.729 Dokument beschrieben.
- Das feste Code-Buch 214 von Fig. 2 enthält eine spezielle Anzahl von gespeicherten Digital-Mustern, welche auf Code- Vektoren bezogen sind. Das feste Code-Buch 214 wird normalerweise durchsucht, um den das Restsignal am besten repräsentierenden Code-Vektor bereitzustellen, auf irgendeine Wahrnehmungsweise bezogen, wie dem Fachmann bekannt ist. Der ausgewählte Code-Vektor wird typischerweise als das feste Anregungssignal bezeichnet. Nach Bestimmen des besten Cöde- Vektors, der das Restsignal repräsentiert, berechnet die feste Code-Buch-Einheit 214 auch den Verstärkungsfaktor des festen Anregungssignals. Der nächste Schritt ist, das feste Anregungssignal durch den Pitch-Synthese-Filter zu leiten. Dies wird normalerweise unter Verwendung der Vorgehensweise der adaptiven Code-Buch-Suche implementiert, um die optimale Pitch-Verstärkung und Verzögerung auf eine "closed-loop"- Weise ("geschlossene Schleife") zu bestimmen, wie dem Fachmann bekannt. Das "geschlossene Schleife"-Verfahren, oder Analysis-by-Synthesis, bedeutet, dass die anzupassenden Signale gefiltert werden. Die optimale Pitch-Verstärkung und Verzögerung erlauben das Generieren eines sogenannten adaptiven Anregungssignals. Die determinierten Verstärkungsfaktoren sowohl für die adaptive als auch für die feste Code-Buch-Anregungen werden dann mittels des Verstärkungs-Quantisierers 216 auf eine "geschlossene Schleife"-Weise quantisiert, unter Verwendung einer Tabelle mit einem Index, was für den Fachmann ein wohlbekanntes Quantisierungsschema ist. Der Index von der besten festen Anregung von dem festen Code-Buch 214 zusammen mit den Indizes der quantisierten Verstärkungen, Pitch-Verzögerung und LPC-Koeffizienten werden dann zu der Speicherung/Übermittlungs-Einheit 218 geleitet.
- Die Speicherung/Übermittlung 218 (von Fig. 2) der Analysier- Einheit 204 übermittelt dann der Synthese-Einheit 222, über das Kommunikations-Netzwerk 220, die Index-Werte der Pitch- Verzögerung, Pitch-Verstärkung, Linear-Prädiktions- Koeffizienten, des festen Anregungs-Code-Vektors, und der festen Anregungs-Code-Vektor-Verstärkung, die alle das empfangene analoge Schallwellen-Signal 100 repräsentieren. Die Synthese-Einheit 222 decodiert die unterschiedlichen Parameter, die es von der Speicherung/Übermittlung 218 empfängt, um ein synthetisiertes Sprach-Signal zu erhalten. Um Menschen zu ermöglichen, das synthetisierte Sprach-Signal zu hören, gibt die Synthese-Einheit 222 das synthetisierte Sprach-Signal zu einem Lautsprecher 224 aus.
- Das Analysis-by-Synthesis-System 200, das oben bezugnehmend auf Fig. 2 beschrieben ist, ist erfolgreich verwendet worden, um hochqualitative Sprach-Codierer zu realisieren. Wie es Fachleute zu schätzen wissen, kann natürliche Sprache mit sehr geringen Bitraten mit hoher Qualität codiert werden. Das hochqualitative Codieren bei einer geringen Bitrate kann unter Verwendung eines festen Anregungs-Code-Buchs 214 erreicht werden, dessen Code-Vektoren eine hohe Seltenheit aufweisen (das heißt, mit wenigen Nicht-Null-Elementen). Zum Beispiel gibt es nur vier Nicht-Null-Pulse pro 5 ms in der ITU Recommendation G.729. Wenn die Sprache jedoch mittels Umgebungs-Untergrundgeräuschen beschädigt ist, ist die wahrgenommene Leitungsfähigkeit von diesen Codier-Systemen herabgesetzt. Diese Herabsetzung kann nur abgestellt werden, falls das feste Code-Buch 214 hochdichte Nicht-Null-Pseudo- Zufalls-Code-Vektoren aufweist, und falls das Wellenform- Abstimm-Kriterium in CELP-Systemen gelockert wird.
- Anspruchsvolle Lösungen einschließlich Multi-Mode-Codieren und das Verwenden von gemischten Anregungen sind vorgeschlagen worden, um die Sprachqualität unter Untergrundgeräusch-Bedingungen zu verbessern. Allerdings führen diese Lösungen üblicherweise zu unerwünschter hoher Komplexität oder hoher Sensitivität bezüglich Übermittlungs- Fehlern. Die vorliegende Erfindung stellt eine einfache Lösung zum Bekämpfen dieses Problems bereit.
- Aus Miki et al. (Miki, S, Moriya, T, Mano, K, Ohmuro, H [1994] "Pitch Synchronous Innovation Code Excited Linear Prediction (PSI-CELP)", Electronics and Communications in Japan, Teil 3, Band 77, Nummer 12, Seiten 36-49) ist ein CELP-basiertes Sprachcodier-Verfahren bekannt, das als PSI- CELP bezeichnet wird, welches Pitch-synchrone Innovation (PSI, pitch synchronous innovation) zu dem CELP-Verfahren hinzufügt. Gemäß dem PSI-CELP-Verfahren werden Zufalls-Code- Vektoren von einem Zufalls-Code-Buch adaptiv umgewandelt, um Pitch-Periodizität für Sprach-Frames zu haben. Ein von diesen Verfahren verwendetes Zufalls-Code-Buch kann die nicht- stationäre Komponente des Sprach-Frames repräsentieren, das unter Verwendung des adaptiven Code-Buchs nicht repräsentiert werden kann. PSI-CELP hat einen Pitch-Synchronisierer nach dem Zufalls-Code-Buch, um die Zufalls-Code-Vektoren zu veranlassen, Pitch-Periodizität zu haben.
- Die vorliegende Erfindung weist ein Verfahren zum Verbessern der Qualität von codierter Sprache auf, wenn Umgebungs- Untergrundgeräusch vorliegt. Für die meisten Analysis-by- Synthesis-Sprach-Codierer bedeutet Pitch-Prädiktions-Beitrag, die Periodizität von der Sprache während Sprach-Segmenten zu repräsentieren. Ein Ausführungsbeispiel des Pitch-Prädiktors ist in der Form eines adaptiven Code-Buchs, wie dem Fachmann wohlbekannt ist. Für Untergrundgeräusch-Segmente von der Sprache gibt es eine schwache oder sogar nicht-existierende Langzeit-Korrelation für den zu repräsentierenden Pitch- Prädiktions-Beitrag. Allerdings ist der Pitch-Prädiktions- Beitrag reich an Abtast-Inhalt und repräsentiert daher eine gute Quelle für eine gewünschte Pseudo-Zufalls-Sequenz, was geeigneter zum Codieren von Untergrundgeräusch ist.
- Die vorliegende Erfindung weist einen Klassifizierer auf, der aktive Abschnitte des Eingabe-Signals (aktive Sprache) von den inaktiven Abschnitten (Untergrundgeräusch) des Eingabe- Signals unterscheidet. Während aktiven Sprach-Segmenten ist das herkömmliche Analysis-by-Synthesis-System zum Codieren aufgerufen. Allerdings verwendet die vorliegende Erfindung während Untergrundgeräusch-Segmenten den Pitch-Prädiktions- Beitrag als eine Quelle einer Pseudo-Zufalls-Sequenz, bestimmt mittels eines geeigneten Verfahrens. Die vorliegende Erfindung bestimmt auch den geeigneten Verstärkungsfaktor für den Pitch-Prädiktions-Beitrag. Da dieselbe Pitch-Prädiktioris- Einheit und die zugehörige Verstärkungs-Quantisier-Einheit sowohl für die aktiven Sprach-Segmente als auch für Untergrundgeräusch-Segmente verwendet werden, gibt es kein Erfordernis, die Synthese-Einheit zu ändern. Dies impliziert, dass das Format der von der Analysier-Einheit zu der Synthese-Einheit übermittelten Information immer das gleiche ist, was weniger anfällig für Übermittlungsfehler ist.
- Ein Verfahren zum Sprach-Codieren ist mittels der Erfindung bereitgestellt, wobei das Verfahren die Schritte aufweist des Digitalisierens eines Eingabe-Sprach-Signals, des Detektierens von aktiver Sprach- und Untergrundgeräusch- Segmenten innerhalb des digitalisierten Eingabe-Sprach- Signals, des Bestimmens vom Linear-Prädiktions-Koeffizienten (LPC) und eines LPC-Restsignals von dem digitalisierten Eingabe-Sprach-Signal, des Bestimmens eines Pitch- Prädiktions-Beitrags von den Linear-Prädiktions-Koeffizienten und dem digitalisierten Eingabe-Sprach-Signal gemäß einem Analysis-by-Synthesis Verfahren, wenn ein aktives Sprach- Segment detektiert ist, und des Bestimmens eines Pitch- Prädiktions-Beitrags von den Linear-Prädiktions-Koeffizienten und dem digitalisierten Eingabe-Sprach-Signal unter Verwendung eines adaptiven Code-Buch-Beitrags als eine Quelle einer Pseudo-Zufallssequenz, jedes Mal wenn ein Untergrundgeräusch-Segment detektiert wird.
- Das erfindungsgemäße Verfahren zur Sprach-Codierung kann ferner die Schritte aufweisen des Quantisierens eines festen Code-Buch-Verstärkungsfaktors und des adaptiven Code-Buch- Verstärkungsfaktors gemäß dem Analysis-by-Synthesis Verfahren, wenn ein aktives Sprach-Segment detektiert wird, und des Quantisierens des festen Code-Buch- Verstärkungsfaktors und des adaptiven Code-Buch- Verstärkungsfaktors mittels Anpassens einer Energie von einer totalen Anregung mit quantisierten Verstärkungen an eine Energie einer totalen Anregung mit unquantisierten Verstärkungen, immer wenn ein Untergrundgeräusch-Segment detektiert wird.
- Die begleitenden Zeichnungen, die in diese Beschreibung aufgenommen sind und einem Teil dieser Beschreibung bilden, stellen Ausführungsbeispiele der Erfindung dar und, gemeinsam mit der Beschreibung, dienen zum Erklären der Prinzipien der Erfindung:
- Fig. 1 stellt die analogen Schallwellen einer typischen Sprachkonversation dar, die Umgebungs-Untergrundgeräusche während des Signals aufweisen;
- Fig. 2 stellt ein Allgemeinüberblick-Blockdiagramm eines aus dem Stand der Technik bekannten Analysis-by-Synthesis-Systems zum Codieren und Decodieren von Sprache dar;
- Fig. 3 stellt einen Allgemeinüberblick des Analysis-by- Synthesis-Systems zum Codieren und Decodieren von Sprache dar, in dem die vorliegende Erfindung operiert;
- Fig. 4 stellt ein Blockdiagramm eines Ausführungsbeispiels einer Pitch-Extrahier-Einheit in Übereinstimmung mit einem Ausführungsbeispiel der vorliegenden Erfindung dar, lokalisiert innerhalb des Analysis-by-Synthesis-Systems von Fig. 3;
- Fig. 5(A) und 5(B) stellen die kombinierten Verstärkungs-skalierten adaptiven Code-Buch- und feste Anregungs-Code-Buch-Beiträge für ein typisches Untergrundgeräusch-Segment dar.
- In der folgenden detaillierten Beschreibung der vorliegenden Erfindung, ein Verfahren zum Verbessern der Qualität von codierter Sprache wenn Umgebungs-Untergrundgeräusch vorliegt, sind zahlreiche spezielle Details beschrieben, um ein vollkommenes Verständnis der vorliegenden Erfindung bereitzustellen. Allerdings wird es für einen Fachmann offensichtlich sein, dass die vorliegende Erfindung ohne diese speziellen Details betrieben werden kann. In anderen Beispielen, sind wohlbekannte Verfahren, Prozeduren, Komponenten und Schaltkreise nicht im Detail beschrieben worden, um nicht unnötig Aspekte der vorliegenden Erfindung undeutlich zu machen.
- Die vorliegende Erfindung operiert innerhalb des Gebiets der codierten Sprach-Übertragung. Im Speziellen stellt Fig. 3 einen allgemeinen Überblick des Analysis-by-Synthesis-Systems 300 dar, das verwendet wird zum Codieren und Decodieren von Sprache zur Kommunikation und Speicherung, in dem die vorliegende Erfindung betrieben wird. Die Analysier-Einheit 304 empfängt ein Konversationssignal 100, das ein Signal ist, das zusammengesetzt ist von Repräsentationen von Sprach- Kommunikation mit Untergrundgeräusch. Signal 100 wird mittels des Mikrofons 206 erfasst und dann mittels des A/D-Abtast- Schaltkreises 208 in ein digitales Sprach-Signal digitalisiert. Die digitale Sprache wird an die Klassifizier- Einheit 310, und den LPC-Extraktor 210 ausgegeben.
- Die Klassifizier-Einheit 310 von Fig. 3 unterscheidet die Nicht-Sprach-Perioden (z. B. Perioden nur mit Untergrundgeräusch), die in dem Eingabe-Signal 100 enthalten sind, von den Sprach-Perioden (siehe G.729 Annex D Empfehlung, die einen Sprach-Aktivität-Detektor (VAD), wie beispielsweise die Klassifizier-Einheit 310 beschreibt). Wenn die Klassifizier-Einheit 310 die Nicht-Sprach-Perioden des Eingabe-Signals 100 bestimmt, übermittelt sie an den Pitch- Extraktor 314 und an den Verstärkungs-Quantisierer 318 einen Hinweis als ein Signal 328. Der Pitch-Extraktor 314 verwendet das Signal 328, um den Pitch-Prädiktions-Beitrag am besten zu bestimmen. Der Verstärkungs-Quantisierer 314 verwendet das Signal 328, um die Verstärkungsfaktoren für den Pitch- Prädiktions-Beitrag und den festen Code-Buch-Beitrag am besten zu quantisieren.
- Fig. 4 stellt ein Blockdiagramm des Pitch-Extraktors 400 dar, was ein Ausführungsbeispiel der Pitch-Extraktor-Einheit 314 von Fig. 3 gemäß einem Ausführungsbeispiel der vorliegenden Erfindung ist. Falls das Signal 328 (abgeleitet von der Klassifizier-Einheit 310) anzeigt, dass das gegenwärtige Signal 330 ein aktives Sprach-Segment ist, wird die Pitch-Prädiktions-Einheit-Suche 406 verwendet. Unter Verwendung des herkömmlichen Analysis-by-Synthesis-Verfahrens (siehe G.729 Recommendation, zum Beispiel) findet die Pitch- Prädiktions-Einheit 406 die Pitch-Periode des gegenwärtigen Segments und erzeugt einen Beitrag basierend auf dem adaptiven Code-Buch. Die Verstärkungs-Berechnungs-Einheit 408 berechnet dann den zugehörigen Verstärkungsfaktor.
- Falls das Signal 328 anzeigt, dass das gegenwärtige Signal 330 ein Untergrundgeräusch-Segment ist, wird der Code-Vektor von dem adaptiven Code-Buch, der am besten eine Pseudo- Zufalls-Anregung repräsentiert, mittels der Anregungs-Such- Einheit 402 als Beitrag ausgesucht. In dem Ausführungsbeispiel wird, um den besten Code-Vektor auszuwählen, die Energie des Verstärkungs-skalierten adaptiven Code-Buch-Beitrags an die Energie des LPC- Restsignals 330 angepasst. Im Speziellen wird eine umfassende Suche verwendet, um den besten Index für das adaptive Code- Buch zu bestimmen, der das folgende Fehler-Kriterium minimiert, wobei L die Länge des Code-Vektors ist:
- (residual(i) - Gindex · acb(i - index))²
- [Vergleiche die obige Gleichung mit Gleichung (37) von dem G.729 Dokument:
- Diese Suche wird in der Anregungs-Such-Einheit 402 durchgeführt, und dann wird die adaptive Code-Buch- Verstärkung (Pitch-Verstärkung) Gindex in dem Verstärkungs- Berechnungs-Block 403 berechnet zu:
- Gindex = wobei
- Eres = residual(i) · residual(i) wobei residual das Signal 330 ist.
- Eacb = acb(i - index) · acb(i - ndex) wobei acb das adaptive Code-Buch ist.
- [Vergleiche mit Gleichung (43) des G.729 Dokuments:
- Dasselbe adaptive Code-Buch wird verwendet sowohl für die aktive Sprach- als auch für die Untergrundgeräusch-Segmente. Wenn der beste Index für das adaptive Code-Buch gefunden ist (Pitch-Verzögerung), wird der adaptive Code-Buch- Verstärkungsfaktor wie folgt bestimmt:
- Gbest_index = 0.8 ·
- E = residual(i) · residual(i)
- Eacb = acb(i - best_index) · acb(i - best_index)
- Der Wert von Gbest_index ist immer positiv und auf einen maximalen Wert von 0.5 begrenzt.
- Wenn die Pitch-Extraktor-Einheit 314 und die feste Code-Buch- Einheit 214 des besten Pitch-Prädiktions-Beitrag bzw. den Code-Buch-Beitrag finden, werden ihre zugehörigen Verstärkungsfaktoren mittels der Verstärkungs-Quantisier- Einheit 318 quantisiert. Für ein aktives Sprach-Segment werden die Verstärkungsfaktoren mit dem herkömmlichen Analysis-by-Synthesis-Verfahren quantisiert. Für ein Untergrundgeräusch-Segment jedoch wird ein unterschiedliches Verstärkungs-Quantisierungs-Verfahren benötigt, um den Nutzen zu vervollständigen, der mittels Verwendens des adaptiven Code-Buchs als eine Quelle einer Pseudo-Zufalls-Sequenz erhalten wird. Allerdings kann diese Quantisierungs-Technik sogar verwendet werden, falls der Pitch-Prädiktions-Beitrag unter Verwendung eines herkömmlichen Verfahrens abgeleitet wird. Die folgenden Gleichungen stellen das Quantisierungsverfahren der vorliegenden Erfindung dar, wobei die Energie der totalen Anregung mit quantisierten Verstärkungen (E ) mit der Energie der totalen Anregung mit unquantisierten Verstärkungen (E ) angepasst wird. Im Speziellen wird eine umfassende Suche verwendet, um die quantisierten Verstärkungen zu bestimmen, die das folgende Fehler-Kriterium minimieren:
- [Diese Gleichung sollte verglichen werden mit Gleichung (63) des G.729 Dokuments:
- E = x'x + gp²y'y + gc²z'z - 2gpx'y - 2gcx'z + 2gpgcy'z]
- = (Gacb · acb(i - best_index) + Gcodebook · codebook(i))²
- wobei Gacb und Gcodebook die unquantisierte optimale adaptive feste Code-Buch und Code-Buch Verstärkung von Einheiten 314 bzw. 214 sind, acb(i-best_index) der adaptive Code-Buch- Beitrag ist, und codebook(i) der feste Code-Buch-Beitrag ist.
- wobei p und c die quantisierte adaptive Code-Buch bzw. die feste Code-Buch Verstärkung sind.
- Dieselbe Verstärkungs-Quantisier-Einheit 318 wird sowohl für die aktive Sprach- als auch für die Untergrundgeräusch- Segmente verwendet:
- Da dasselbe adaptive Code-Buch und dieselbe Verstärkungs- Quantisier-Tabelle sowohl für aktive Sprach- als auch für Untergrundgeräusch-Segmente verwendet werden, bleibt die Synthese-Einheit 222 unverändert. Dies impliziert, dass das Format der von der Analysier-Einheit 304 an die Synthese- Einheit 222 übermittelten Information immer dasselbe ist, was weniger anfällig für Übermittlungs-Fehler ist, verglichen mit Systemen, die Multi-Mode-Codierung verwenden.
- Fig. 5(A) und 5(B) stellen die kombinierten Verstärkungsskalierten adaptiven Code-Buch- und festen Anregungs-Code- Buch-Beiträge dar. Für ein typisches Untergrundgeräusch- Segment ist das in Fig. 5(A) gezeigte Signal der kombinierte Beitrag, generiert mittels eines herkömmlichen Analysis-by- Synthesis-Systems. Für dasselbe Untergrundgeräusch-Segment ist das in Fig. 5(B) gezeigte Signal der kombinierte Beitrag, generiert mittels der vorliegenden Erfindung. Es ist sichtbar, dass das Signal in Fig. 5(B) reicher an Abtast- Inhalt ist als das Signal in Fig. 5(A). Daher ist die Qualität des synthetisierten Untergrundgeräuschs unter Verwendung der vorliegenden Erfindung wahrnehmbar besser.
- Die vorangehenden Beschreibungen von speziellen Ausführungsbeispielen der vorliegenden Erfindung sind zum Zwecke der Illustration und Beschreibung präsentiert worden. Es ist nicht beabsichtigt, dass diese umfassend sind oder dass die Erfindung auf die präzise offenbarten Formen begrenzt ist, und offensichtlich sind viele Modifikationen und Veränderungen im Lichte der obigen Lehre möglich. Die Ausführungsbeispiele wurden ausgewählt und beschrieben, um die Prinzipien der Erfindung und ihre praktische Anwendung am besten zu erklären, um es dadurch anderen Fachleuten zu ermöglichen, die Erfindung und zahlreiche Ausführungsbeispiele mit unterschiedlichen Modifikationen am besten zu verwenden, in passender Weise zu der speziellen beabsichtigten Verwendung. Es ist beabsichtigt, dass der Schutzumfang der Erfindung mittels der angehängten Patentansprüche und deren Äquivalenten definiert wird.
Claims (6)
1. Ein Verfahren zum Sprach-Codieren, das die Schritte
aufweist:
Digitalisieren eines Eingabe-Sprach-Signals (208);
Detektieren von aktiven Sprach- und Untergrundgeräusch-
Segmenten innerhalb des digitalisierten Eingabe-Sprach-
Signals (310);
Bestimmen von Lineär-Prädiktions-Koeffizienten (LPC) und
eines LPC-Restsignals des digitalisierten Eingabe-Sprach-
Signals (210);
Bestimmen eines Pitch-Prädiktions-Beitrags von den
Linear-Prädiktions-Koeffizienten und dem digitalisierten
Eingabe-Sprach-Signal gemäß einem Analysis-by-Synthesis-
Verfahren, wenn ein aktives Sprach-Segment detektiert wird
(406); und
Bestimmen eines Pitch-Prädiktions-Beitrags von den
Linear-Prädiktions-Koeffizienten und dem digitalisierten
Eingabe-Sprach-Signal unter Verwendung eines adaptiven Code-
Buch-Beitrags als eine Quelle einer Pseudo-Zufalls-Sequenz,
immer wenn ein Untergrundgeräusch-Segment detektiert wird
(402).
2. Das Verfahren von Anspruch 1, ferner aufweisend die
Schritte:
Berechnen eines adaptiven Code-Buch-Verstärkungsfaktors
gemäß dem Analysis-by-Synthesis-Verfahren, wenn ein aktives
Sprach-Segment detektiert wird (408); und
Berechnen eines adaptiven Code-Buch-Verstärkungsfaktors
mittels Anpassens eines Verstärkungs-skalierten adaptiven
Code-Buch-Beitrags an eine Energie von dem LPC-Restsignal,
wenn ein Untergrundgeräusch-Segment detektiert wird (404).
3. Das Verfahren von Anspruch 2, ferner aufweisend die
Schritte:
Quantisieren eines festen Code-Buch-Verstärkungsfaktors
und des adaptiven Code-Buch-Verstärkungsfaktors gemäß dem
Analysis-by-Synthesis-Verfahren, wenn ein aktives Sprach-
Segment detektiert wird; und
Quantisieren des festen Code-Buch-Verstärkungsfaktors
und des adaptiven Code-Buch-Verstärkungsfaktors mittels
Anpassens einer Energie einer totalen Anregung mit
quantisierten Verstärkungen an eine Energie von totaler
Anregung mit unquantisierten Verstärkungen, immer wenn ein
Untergrundgeräusch-Segment detektiert wird.
4. Das Verfahren von Anspruch 1, ferner aufweisend die
Schritte:
Berechnen des adaptiven Code-Buch-Beitrags gemäß dem
Analysis-by-Synthesis-Verfahren, wenn ein aktives Sprach-
Segment detektiert wird; und
Berechnen des adaptiven Code-Buch-Beitrags mittels
Anpassens des Restsignals mit dem Verstärkungs-skalierten
adaptiven Code-Buch-Beitrag, wenn ein Untergrundgeräusch-
Segment detektiert wird.
5. Das Verfahren von Anspruch 1, ferner aufweisend die
Schritte:
Quantisieren eines festen Code-Buch-Verstärkungsfaktors
und eines adaptiven Code-Buch-Verstärkungsfaktors gemäß dem
Analysis-by-Synthesis-Verfahren, wenn ein aktives Sprach-
Segment detektiert wird; und
Quantisieren des festen Code-Buch-Verstärkungsfaktors
und des adaptiven Code-Buch-Verstärkungsfaktors mittels
Anpassens einer Energie einer totalen Anregung mit
quantisierten Verstärkungen an eine Energie von totaler
Verstärkung mit unquantisierten Verstärkungen, immer wenn ein
Untergrundgeräusch-Signal detektiert wird.
6. Das Verfähren von Anspruch 1, ferner aufweisend die
folgenden Schritte zum Quantisieren einer festen Code-Buch-
Verstärkung und einer adaptiven Code-Buch-Verstärkung:
Quantisieren der festen Code-Buch-Verstärkung und der
adaptiven Code-Buch-Verstärkung gemäß einem Analysis-by-
Synthesis-Verfahren, wenn ein aktives Sprach-Segment
detektiert wird; und
Quantisieren der festen Code-Buch-Verstärkung und der
adaptiven Code-Buch-Verstärkung mittels Anpassens einer
Energie von totaler Anregung mit quantisierten Verstärkungen
an eine Energie von totaler Verstärkung mit unquantisierten
Verstärkungen, immer wenn ein Untergrundgeräusch-Segment
detektiert wird.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/006,422 US6104994A (en) | 1998-01-13 | 1998-01-13 | Method for speech coding under background noise conditions |
PCT/US1998/025254 WO1999036906A1 (en) | 1998-01-13 | 1998-11-25 | Method for speech coding under background noise conditions |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69808339D1 DE69808339D1 (de) | 2002-10-31 |
DE69808339T2 true DE69808339T2 (de) | 2003-08-07 |
Family
ID=21720805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69808339T Expired - Fee Related DE69808339T2 (de) | 1998-01-13 | 1998-11-25 | Verfahren zur sprachkodierung bei hintergrundrauschen |
Country Status (6)
Country | Link |
---|---|
US (2) | US6104994A (de) |
EP (1) | EP1048024B1 (de) |
JP (1) | JP2002509294A (de) |
AU (1) | AU1537899A (de) |
DE (1) | DE69808339T2 (de) |
WO (1) | WO1999036906A1 (de) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6104994A (en) * | 1998-01-13 | 2000-08-15 | Conexant Systems, Inc. | Method for speech coding under background noise conditions |
US6353808B1 (en) * | 1998-10-22 | 2002-03-05 | Sony Corporation | Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal |
US6691084B2 (en) | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
SE9903553D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
US6937978B2 (en) * | 2001-10-30 | 2005-08-30 | Chungwa Telecom Co., Ltd. | Suppression system of background noise of speech signals and the method thereof |
US7065486B1 (en) * | 2002-04-11 | 2006-06-20 | Mindspeed Technologies, Inc. | Linear prediction based noise suppression |
US6973339B2 (en) * | 2003-07-29 | 2005-12-06 | Biosense, Inc | Lasso for pulmonary vein mapping and ablation |
US20050102476A1 (en) * | 2003-11-12 | 2005-05-12 | Infineon Technologies North America Corp. | Random access memory with optional column address strobe latency of one |
CN1815552B (zh) * | 2006-02-28 | 2010-05-12 | 安徽中科大讯飞信息科技有限公司 | 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法 |
US20080109217A1 (en) * | 2006-11-08 | 2008-05-08 | Nokia Corporation | Method, Apparatus and Computer Program Product for Controlling Voicing in Processed Speech |
CN101286320B (zh) * | 2006-12-26 | 2013-04-17 | 华为技术有限公司 | 增益量化系统用于改进语音丢包修补质量的方法 |
US8688437B2 (en) | 2006-12-26 | 2014-04-01 | Huawei Technologies Co., Ltd. | Packet loss concealment for speech coding |
RU2440627C2 (ru) | 2007-02-26 | 2012-01-20 | Долби Лэборетериз Лайсенсинг Корпорейшн | Повышение разборчивости речи в звукозаписи развлекательных программ |
CN101609677B (zh) * | 2009-03-13 | 2012-01-04 | 华为技术有限公司 | 一种预处理方法、装置及编码设备 |
JP5994639B2 (ja) * | 2011-02-01 | 2016-09-21 | 日本電気株式会社 | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58140798A (ja) * | 1982-02-15 | 1983-08-20 | 株式会社日立製作所 | 音声ピツチ抽出方法 |
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
US5276765A (en) * | 1988-03-11 | 1994-01-04 | British Telecommunications Public Limited Company | Voice activity detection |
EP1998319B1 (de) * | 1991-06-11 | 2010-08-11 | Qualcomm Incorporated | Vocoder mit veränderlicher Bitrate |
US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
FR2702590B1 (fr) * | 1993-03-12 | 1995-04-28 | Dominique Massaloux | Dispositif de codage et de décodage numériques de la parole, procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP, et procédé d'analyse LTP. |
US5784532A (en) * | 1994-02-16 | 1998-07-21 | Qualcomm Incorporated | Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system |
US5651090A (en) * | 1994-05-06 | 1997-07-22 | Nippon Telegraph And Telephone Corporation | Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor |
US5570454A (en) * | 1994-06-09 | 1996-10-29 | Hughes Electronics | Method for processing speech signals as block floating point numbers in a CELP-based coder using a fixed point processor |
GB2297465B (en) * | 1995-01-25 | 1999-04-28 | Dragon Syst Uk Ltd | Methods and apparatus for detecting harmonic structure in a waveform |
JP3522012B2 (ja) * | 1995-08-23 | 2004-04-26 | 沖電気工業株式会社 | コード励振線形予測符号化装置 |
JPH0990974A (ja) * | 1995-09-25 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | 信号処理方法 |
US6104994A (en) * | 1998-01-13 | 2000-08-15 | Conexant Systems, Inc. | Method for speech coding under background noise conditions |
-
1998
- 1998-01-13 US US09/006,422 patent/US6104994A/en not_active Expired - Lifetime
- 1998-11-25 WO PCT/US1998/025254 patent/WO1999036906A1/en active IP Right Grant
- 1998-11-25 JP JP2000540536A patent/JP2002509294A/ja not_active Withdrawn
- 1998-11-25 DE DE69808339T patent/DE69808339T2/de not_active Expired - Fee Related
- 1998-11-25 EP EP98959615A patent/EP1048024B1/de not_active Expired - Lifetime
- 1998-11-25 AU AU15378/99A patent/AU1537899A/en not_active Abandoned
-
1999
- 1999-10-19 US US09/420,876 patent/US6205423B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2002509294A (ja) | 2002-03-26 |
DE69808339D1 (de) | 2002-10-31 |
EP1048024B1 (de) | 2002-09-25 |
US6205423B1 (en) | 2001-03-20 |
US6104994A (en) | 2000-08-15 |
WO1999036906A1 (en) | 1999-07-22 |
EP1048024A1 (de) | 2000-11-02 |
AU1537899A (en) | 1999-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60121405T2 (de) | Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen | |
DE3856211T2 (de) | Verfahren zur adaptiven Filterung von Sprach- und Audiosignalen | |
DE60011051T2 (de) | Celp-transkodierung | |
DE69900786T2 (de) | Sprachkodierung | |
DE69916321T2 (de) | Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen | |
DE60129544T2 (de) | Kompensationsverfahren bei rahmenauslöschung in einem sprachkodierer mit veränderlicher datenrate | |
DE60128677T2 (de) | Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen | |
DE69910058T2 (de) | Verbesserung der periodizität eines breitbandsignals | |
DE60029990T2 (de) | Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer | |
DE69928288T2 (de) | Kodierung periodischer sprache | |
DE69331079T2 (de) | CELP-Vocoder | |
DE60219351T2 (de) | Signaländerungsverfahren zur effizienten kodierung von sprachsignalen | |
DE60012760T2 (de) | Multimodaler sprachkodierer | |
DE60124274T2 (de) | Codebuchstruktur und suchverfahren für die sprachkodierung | |
DE69615302T2 (de) | Maskierung des wahrnehmbaren Rauschens auf der Basis der Frequenzantwort eines Synthesefilters | |
DE602004007786T2 (de) | Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate | |
DE60027573T2 (de) | Quantisierung der spektralen amplitude in einem sprachkodierer | |
DE60123651T2 (de) | Verfahren und vorrichtung zur robusten sprachklassifikation | |
DE69634645T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE602004003610T2 (de) | Halbrätiger Vocoder | |
DE69808339T2 (de) | Verfahren zur sprachkodierung bei hintergrundrauschen | |
DE60133757T2 (de) | Verfahren und vorrichtung zur kodierung von stimmloser sprache | |
DE19647298C2 (de) | Kodiersystem | |
DE69132885T2 (de) | CELP-Kodierung niedriger Verzögerung und 32 kbit/s für ein Breitband-Sprachsignal | |
DE69730779T2 (de) | Verbesserungen bei oder in Bezug auf Sprachkodierung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |