DE69123500T2 - 32 Kb/s codeangeregte prädiktive Codierung mit niedrigen Verzögerung für Breitband-Sprachsignal - Google Patents
32 Kb/s codeangeregte prädiktive Codierung mit niedrigen Verzögerung für Breitband-SprachsignalInfo
- Publication number
- DE69123500T2 DE69123500T2 DE69123500T DE69123500T DE69123500T2 DE 69123500 T2 DE69123500 T2 DE 69123500T2 DE 69123500 T DE69123500 T DE 69123500T DE 69123500 T DE69123500 T DE 69123500T DE 69123500 T2 DE69123500 T2 DE 69123500T2
- Authority
- DE
- Germany
- Prior art keywords
- filter
- weighting
- parameters
- coding
- celp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims abstract description 32
- 230000003595 spectral effect Effects 0.000 claims abstract description 24
- 238000004891 communication Methods 0.000 claims abstract description 11
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims 1
- 230000005284 excitation Effects 0.000 description 14
- 239000013598 vector Substances 0.000 description 6
- 230000006872 improvement Effects 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 2
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 2
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 2
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010011376 Crepitations Diseases 0.000 description 1
- 101100445834 Drosophila melanogaster E(z) gene Proteins 0.000 description 1
- 208000037656 Respiratory Sounds Diseases 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
- Die vorliegende Erfindung betrifft Verfahren und Einrichtungen zur wirkungsvollen Codierung und Decodierung von Signalen einschließlich von Sprachsignalen. Insbesondere betrifft die vorliegende Erfindung Verfahren und Einrichtungen zur Codierung und Decodierung von klanggetreuen Sprachsignalen. Weiterhin betrifft die vorliegende Erfindung insbesondere digitale Kommunikationssysteme einschließlich derer, die ISDN-Dienste anbieten, bei denen diese Codierer und Decodierer zum Einsatz kommen.
- In jüngsten Jahren sind viele Verbesserungen bei der Codierung und Decodierung für digitale Kommunikationssysteme erschienen. Unter Verwendung von Verfahren wie beispielsweise der linearen Prädiktionscodierung sind bedeutende Verbesserungen der Qualität wiedergegebener Signale mit verringerten Bitraten erreicht worden.
- Ein Bereich dieser Verbesserungen trägt die Bezeichnung lineare Prädiktionscodierer mit Codeanregung (CELP - code excited linear predictive coders) und ist beispielsweise beschrieben von B. S. Atal und M. R. Schroeder, "Stochastic Coding of Speech Signals at Very Low Bit Rates" (Stochastische Codierung von Sprachsignalen mit sehr niedrigen Bitraten), Proc. IEEE Int. Conf. Comm., Mai 1984, Seite 48.1; M . R. Schroeder und B. S. Atal, "Code-Excited Linear Predictive (CELP): High Quality Speech at Very Low Bit Rates" (Lineare Prädiktionscodierung mit Codeanregung (CELP): klanggetreue Sprache mit sehr niedrigen Bitraten), Proc. IEEE Int. Conf. ASSP., 1985, Seiten 937-940; P. Kroon und E. F. Deprettere "A Class of Analysis-by-Synthesis Predictive Coders for High-Quality Speech Coding at Rate Between 4.8 and 16 kB/s" (Eine Klasse von Prädiktions codierern mit Analyse durch Synthese für klanggetreue Sprachcodierung mit Raten zwischen 4,8 und 16 kB/s), IEEE J. on Sel. Area in Comm SAC-6(2), Februar 1988, Seiten 353-363, und dem oben angeführten US-Patent 4 827 517. Diese Verfahren haben beispielsweise in Fernsprechkanälen mit Sprachbandbreite einschließlich von Mobilfunkkanälen Anwendung gefunden.
- Die Aussicht auf klanggetreue Mehrkanal-/Mehrbenutzer-Sprachkommunikation über das entstehende ISDN hat das Interesse an fortgeschrittenen Codieralgorithmen für Breitbandsprache gesteigert. Im Gegensatz zum standardmäßigen Fernsprechband von 200 bis 3400 Hz ist der Breitbandsprache das Band von 50 bis 7000 Hz zugewiesen und wird für die digitale Weiterverarbeitung mit einer Rate von 16000 Hz abgetastet. Die zusätzlichen niedrigen Frequenzen erhöhen die Natürlichkeit der Sprache und verstärken das Gefühl der Nähe, während die zusätzlichen hohen- Frequenzen die Sprache klarer und verständlicher klingen lassen. Die Gesamtqualität von Breitbandsprache nach der obigen Definition genügt für eine andauernde Sprachkommunikation mit Kommentargüte so wie sie beispielsweise bei der Mehrbenutzer-Audio/Videokonferenz erforderlich ist. Breitbandsprache ist jedoch schwieriger zu codieren, da die Daten auf hohen Frequenzen sehr unstrukturiert sind und die spektrale Dynamik sehr hoch ist. In manchen Netzanwendungen besteht auch ein Erfordernis einer kurzen Codierverzögerung, die die Größe des Verarbeitungsrahmens begrenzt und die Wirksamkeit des Codieralgorithmus verringert. Damit wird der Schwierigkeit dieses Codierproblems eine weitere Dimension hinzugefügt.
- Wenn die gutbekannten CELP-Codierer und -Decodierer auf die Kommunikation von Breitband-Sprachinformationen (z.B im Frequenzbereich 50 bis 7000 Hz) angewandt werden, werden viele ihrer Vorteile nicht vollständig realisiert. Die vorliegende Erfindung versucht in typischen Ausführungsformen, bestehende CELP-Verfahren so anzupassen, daß sie sich auf die Kommunikation solcher Breitband-Sprach- und anderer derartiger Signale erstrecken.
- Insbesondere bieten die beispielhaften Ausführungsformen der vorliegenden Erfindung die geänderte Gewichtung von Eingangssignalen zur Verstärkung der relativen Höhe der Signalenergie im Verhältnis zur Geräuschenergie als Funktion der Frequenz. Zusätzlich wird die spektrale Gesamtschräge der Gewichtungsfilterkennlinie vorteilhafterweise von der Bestimmung des Verlaufs bei bestimmten Frequenzen, die z.B. Formanten entsprechen, abgekuppelt.
- Während CELP-Codierer des Standes der Technik ein Gewichtungsfilter benutzen, das hauptsächlich auf dem Formanteninhalt basiert, erweist es sich daher entsprechend einer Lehre der vorliegenden Erfindung als vorteilhaft, eine Kaskade eines Gewichtungsfilters des Standes der Technik und eines zusätzlichen Filtergliedes zur Steuerung der spektralen Schräge des zusammengesetzten Gewichtungsfilters zu benutzen.
- Figur 1 zeigt ein digitales Kommunikationssystem mit der vorliegenden Erfindung.
- Figur 2 zeigt eine Modifikation des Systems nach Figur 1 entsprechend der Ausführungsform der vorliegenden Erfindung.
- Figur 3 zeigt einen geänderten Frequenzgang, der sich aus der Anwendung einer typischen Ausführungsform der vorliegenden Erfindung ergibt.
- In Figur 1 ist die Grundstruktur herkömmlicher CELP (beispielsweise nach der Beschreibung in den oben angeführten Schriften) dargestellt.
- Gezeigt ist der Senderteil oben in der Figur, der Empfängerteil unten und die verschiedenen Parameter (j, g, M, β und A), die über einen Kommunikationskanal 50 übertragen werden. CELP beruht auf dem klassischen Anregungsfiltermodell, bei dem ein aus einer Anregungscodetabelle 10 entzogenes Anregungssignal als Eingabe in ein Allpolfilter benutzt wird, das gewöhnlich eine Kaskade eines LPC-abgeleiteten Filters 1/A(z) (20 in der Figur 1) und eines sogenannten Tonhöhenfilters 1/B(z) 30 ist. Das LPC-Polynom ist durch A(z) =
- gegeben und wird durch eine standardmäßige LPC Analyse Mter Ordnung des Sprachsignais erhalten. Das Tonhöhenfilter wird durch das Polynom B(z) =
- bestimmt, wobei P die aktuelle "Tonhöhen-"Nacheilung ist - ein Wert, der am besten die aktuelle Periodizität der Eingabe darstellt, und bj die aktuellen Tonhöhenanzapfungen sind. Die Ordnung des Tonhöhenfilters ist am häufigsten q = 1 und ist selten höher als 3. Die beiden Polynome A(z), B(z) sind monomorph.
- Der CELP-Algorithmus implementiert ein Suchverfahren mit geschlossener Schleife (Analyse durch Synthese) zum Finden der besten Anregung und möglicherweise der besten Tonhöhenparameter. In der Anregungssuchschleife wird jeder der Anregungsvektoren durch das LPC- und das Tonhöhenfilter durchgeführt, in einer Bemühung, die beste Paarigkeit (nach Bestimmung durch Vergleicher und Minimierschaltung 41) mit der Ausgabe zu finden, gewöhnlich im Sinne eines gewichteten mittleren Fehlerquadrats (WMSE - weighted mean-squared error). Nach der Figur 1 wird die WMSE-Anpassung durch Verwendung eines Rauschgewichtungsfilters W(z) 35 erreicht. Die Eingangssprache s(n) wird erst von W(z) vorgefiltert und das sich ergebende Signal x(n) (X(z) = S(z) W(z)) dient als Bezugssignal in der Suche in geschlossener Schleife. Die quantisierte Version von x(n), die durch y(n) bezeichnet wird, ist eine gefilterte Anregung, die x(n) in einem MSE-Sinn am nächsten ist. Das in der Suchschleife benutzte Filter ist das gewichtete Synthesefilter H(z) = W(z)/[B(z) A(z)]. Man beachte jedoch, daß das quantisierte Endsignal am Ausgang des ungewichteten Synthesefilters 1/ erhalten wird, was bedeutet, daß W(z) vom Empfänger nicht zur Synthetisierung der Ausgabe benutzt wird. Im wesentlichen (aber nicht streng genommen) minimiert diese Schleife den WMSE zwischen der Eingabe und der Ausgabe, nämlich den MSE des Signals (S(z) - (z)) W(z).
- Das Filter W(z) ist zum Erreichen einer hohen perzeptorischen Güte in CELP-Systemen von Bedeutung und spielt eine zentrale Rolle in dem hier dargestellten CELP-basierenden Breitbandcodierer, wie noch erläutert wird.
- Die Suche in geschlossener Schleife nach den besten Tonhöhenparametern findet gewöhnlich durch Durchgabe von Segmenten vergangener Anregung durch das gewichtete Filter und Optimierung von B(z) auf minimalen WMSE in Bezug auf das Zielsignal X(z) statt. Der Suchalgorithmus wird noch ausführlicher beschrieben.
- Nach der Figur 1 sind die Codetabelleneinträge durch einen an die Skalierschaltung 15 angelegten Verstärkungsfaktor g skaliert. Diese Verstärkung kann entweder explizit optimiert und übertragen werden (Vorwärtsmodus) oder kann von vorher quantisierten Daten erhalten werden (Rückwärtsmodus). Eine Kombination der Vorwärts- und Rückwärtsmoden wird ebenfalls manchmal benutzt (man sehe z.B. den Vorschlag von AT&T für den CCITT-Standard für 16 kB/s-Sprachcodierung COM N Nr. 2., STUDY GROUP N, "Description of 16 kB/s Low-Delay Code-excited Linear Predictive Coding (LD-CELP) Algorithm" (Beschreibung des 16-kB/s-Algorithmus für lineare Prädiktionscodierung mit Codeanregung und niedriger Laufzeit), März 1989).
- Im allgemeinen codiert und überträgt der CELP-Sender die folgenden fünf Instanzen: den Anregungsvektor (j), die Anregungsverstärkung (g), die Tonhöhennacheilung (p), die Tonhöhenanzapfung(en) (β) und die LPC-Parameter (A). Die Gesamt-Übertragungsbitrate wird durch die Summe aller zur Codierung dieser Instanzen erforderlichen Bit bestimmt. Die übertragenen Informationen werden auf gutbekannte Weise am Empfänger zur Wiedergewinnung der ursprünglichen Eingangsinformationen benutzt.
- Der CELP ist ein vorwärtsschauender Codierer und muß in seinem Speicher einen Block uzukünftigern Abtastwerte aufweisen, um den aktuellen Abtastwert zu verarbeiten, wodurch natürlich eine Codierverzögerung erzeugt wird. Die Größe dieses Blocks ist von der spezifischen Struktur des Codierers abhängig. Im allgemeinen benötigen unterschiedliche Teile des Codieralgorithmus gegebenenfalls zukünftige Blöcke unterschiedlicher Größe. Der kleinste Block von Abtastwerten der unmittelbaren Zukunft wird gewöhnlich durch den Codetabellensuchalgorithmus benötigt und gleicht der Codevektorabmessung. Die Tonhöhenschleife benötigt u.U. eine längere Blockgröße je nach der Aktualisierungsrate der Tonhöhenparameter. Bei einem herkömmlichen CELP wird die längste Blocklänge durch den LPC-Analysator bestimmt, der gewöhnlich ca. 20 msec an zukünftigen Daten benötigt. Die sich ergebende lange Codierverzögerung der herkömmlichen CELP ist daher in manchen Anwendungen unannehmbar. Dadurch wurde die Entwicklung des CELP-Algorithmus mit kurzer Verzögerung (LD-CELP - Low-Delay CELP) motiviert (siehe auch den oben angeführten Vorschlag von AT&T für den 16-kB/s-Sprachcodierstandard des CCITT).
- Die CELP mit kurzer Verzögerung leitet ihren Namen aus der Tatsache ab, daß sie die kürzestmögliche Blocklänge - die Vektorabmessung - benutzt. Anders gesagt dürfen die Tonhöhen- und LPC-Analysatoren keine Daten jenseits dieser Grenze benutzen. So entspricht die Grund- Codierverzögerungseinheit der Vektorgröße mit nur wenigen Abtastwerten (zwischen 5 bis 10 Abtastwerten). Der LPC- Analysator braucht typischerweise einen viel längeren Datenblock als die Vektorabmessung. Bei LD-CELP kann daher die LPC-Analyse an einem hinreichend langen Block der jüngsten vergangenen Daten zuzüglich (möglicherweise) der verfügbaren neuen Daten durchgeführt werden. Man beachte jedoch, daß eine codierte Version der vergangenen Daten sowohl am Empfänger als auch am Sender verfügbar ist. Das legt einen äußerst wirksamen Codiermodus nahe, der rückwärts adaptive Codierung genannt wird. In dieser Betriebsart kopiert der Empfänger die LPC-Analyse des Senders unter Verwendung derselben quantisierten vergangenen Daten und erzeugt die LPC-Parameter lokal. Es werden keine LPC-Informationen übertragen und die eingesparten Bit werden der Anregung zugewiesen. Das wiederum trägt dazu bei, die Codierverzögerung weiter zu verringern, da das Vorhandensein von mehr Bit für die Anregung die Verwendung kürzerer Eingangsblöcke erlaubt. Dieser Codiermodus ist jedoch für den Pegel des Quantisierungsrauschens empfindlich. Rauschen mit hohem Pegel beeinträchtigt die Güte der LPC-Analyse und mindert den Codier-Wirkungsgrad. Das Verfahren ist daher nicht auf Codierer mit niedriger Rate anwendbar. Es ist erfolgreich in 16-kB/s-LD-CELP-Systemen angewandt worden (siehe oben angeführten Vorschlag von AT&T für den 16-kB/s-Sprachcodierstandard des CCITT), aber nicht so erfolgreich bei niedrigeren Raten.
- Wenn die Rückwärts-LPC-Analyse aufgrund übermäßigen Rauschens unwirksam wird, kann innerhalb der Struktur von LD-CELP eine Vorwärts-LPC-Analyse eingesetzt werden. In dieser Betriebsart wird die LPC-Analyse an einem sauberen vergangenen Signal durchgeführt und dem Empfänger LPC-Informationen zugesandt. Vorwärts- und kombinierte Vorwärts-Rückwärts-LD-CELP-Systeme werden gegenwärtig untersucht.
- Die Tonhöhenanalyse kann auch in einem Rückwärtsmodus unter Verwendung von nur vergangenen quantisierten Daten durchgeführt werden. Es hat sich jedoch herausgestellt, daß diese Analyse äußerst empfindlich für Kanalfehler ist, die nur am Empfänger erscheinen und eine Fehlanpassung zwischen Sender und Empfänger verursachen. So wird bei LD-CELP das Tonhöhenfilter B(z) entweder vollständig vermieden oder wird in einem kombinierten Rückwärts-Vorwärtsmodus implementiert, bei dem einige Informationen über die Tonhöhenverzögerung und/oder Tonhöhenanzapfung zum Empfänger gesandt werden.
- Die hier vorgeschlagene LD-CELP zur Codierung von Breitbandsprache mit 32 kB/s verwendet vorteilhafterweise Rückwrts-LPC. Zwei Versionen des Codierers werden noch ausführlicher unten beschrieben. Der erste enthält eine Vorwärts-Tonhöhenschleife und der zweite benutzt überhaupt keine Tonhöhenschleife. Die allgemeine Struktur des Codierers ist die der Figur 1 ausschließlich der Übertragung der LPC-Informationen. Auch ist bei unbenutzter Tonhöhenschleife B(z) - 1 und die Tonhöheninformationen werden nicht übertragen. Die algorithmischen Einzelheiten des Codierers werden unten gegeben.
- Ein Grundergebnis bei der MSE-Wellenformcodierung besteht darin, daß das Quantisierungsrauschen an der Minimierungsstelle ein flaches Spektrum aufweist, nämlich das Differenzsignal zwischen Ausgabe und Ziel weiß ist. Andererseits ist das Eingangssprachsignal nicht weiß und weist aufgrund der Formantenstruktur und dem Hochfrequenzabfall eine breite Spektraldynamik auf. Als Ergebnis ist der Rauschabstand (SNR - signal-noise ratio) über den Frequenzbereich nicht gleichförmig. Der SNR ist an spektralen Spitzen hoch und in spektralen Tälern niedrig. Die spektralen Informationen mit niedriger Energie werden durch das Rauschen maskiert und es ergibt sich eine hörbare Verzerrung, es sei denn dem flachen Rauschen wird eine neue Form gegeben. Dieses Problem ist erkannt worden und im Zusammenhang mit CELP-Codierung von Sprache mit Fernsprechbandbreite adressiert worden (siehe "Predictive Coding of Speech Signals and Subjective Error Criteria" (Prädiktionscodierung von Sprachsignalen und subjektive Fehlerkriterien), IEEE Tr. ASSP, Band ASSP-27, Nr. 3, Juni 1979, Seiten 247-254). Die Lösung nahm die Form eines Rauschgewichtungsfilters an, der der CELP-Suchschleife wie in Figur 1 gezeigt hinzugefügt wurde. Die Standardform dieses Filters ist:
- (1)
- wobei A(z) das LPC-Polynom ist. Die Wirkung von g&sub1; oder g&sub2; besteht in der Verlegung der Wurzeln von A(z) zum Ursprung hin, wodurch die spektralen Spitzen von 1/A(z) verringert werden. Bei g&sub1; und g&sub2; wie in Gleichung (1) weist der Verlauf von W(z) Täler (Antiformanten) an den Formantenstellen auf und die Bereiche zwischen den Formanten werden betont. Zusätzlich wird die Höhe eines spektralen Gesamtabfalls im Vergleich zu der durch 1/A(z) gegebenen spektralen Hüllkurve von Sprache verringert.
- Im CELP-System der Figur 1 ist das ungewichtete Fehlersignal E(z) = Y(z) - X(z) weiß, da dies das Signal ist, das wirklich minimiert wird. Das Endfehlersignal ist
- (2)
- und hat die spektrale Form von W&supmin;¹(z). Das bedeutet, daß das Rauschen nunmehr an den Formantenspitzen konzentriert ist und zwischen den Formanten abgedämpft ist. Der Gedanke hinter dieser Rauschformung ist die Ausnutzung der Maskierwirkung des Gehörs. Rauschen ist nicht so hörbar, wenn es dasselbe spektrale Band mit einem tonähnlichen Signal hohen Pegeis teilt. Aus diesem Effekt Kapital schlagend verbessert das Filter W(z) sehr die perzeptorische Qualität des CELP-Codierers.
- Im Gegensatz zu dem standardmäßigen Fernsprechband von 200 bis 3400 Hz ist die hier betrachtete Breitbandsprache durch ein spektrales Band von 50 bis 7000 Hz gekennzeichnet. Die zusätzlichen niedrigen Frequenzen verbessern die Natürlichkeit und Echtheit der Sprachtöne. Die zusätzlichen hohen Frequenzen machen den Ton klarer und verständlicher. Das Signal wird für die digitale Verarbeitung durch das CELP-System mit 16 kllz abgetastet. Durch die höhere Abtastrate und die zusätzlichen niedrigen Frequenzen wird das Signal vorhersagbarer und die Gesamtprädiktionsverstärkung ist typischerweise auch höher als die der standardmäßigen Fernsprechsprache. Die spektrale Dynamik ist beträchtlich höher als die der Fernsprechsprache, bei der der zusätzliche Hochfrequenzbereich von 3400 bis 6000 Hz gewöhnlich am unteren Ende dieses Bereichs liegt. Auf Grundlage der Analyse im vorangehenden Teil ist es klar, daß, während die Codierung des niederfrequenten Gebiets leichter sein sollte, die Codierung des Hochfrequenzgebiets ein ernsthaftes Problem darstellt. In diesem Gebiet neigt der anfängliche ungewichtete spektrale Rauschabstand dazu, Behr negativ zu sein. Andererseits ist das Gehörsystem in diesem Gebiet sehr empfindlich und die Quantisierungsverzerrungen sind in der Form von Knacken und Zischen deutlich hörbar. Bei Breitband-CELP ist daher die Rauschgewichtung kritischer. Das Gleichgewicht zwischen Niederfrequenz- und Hochfrequenzcodierung ist heikler. Bei dieser Studie bestanden die Hauptbemühungen darin, ein gutes Gewichtungsfilter zu finden, das eine bessere Steuerung dieses Gleichgewichts erlauben würde.
- Ein Ausgangspunkt für das bessere Verständnis des durch die vorliegende Erfindung beigetragenen technischen Fortschritts ist das Gewichtungsfilter der herkömmlichen CELP nach Gleichung (1). Das Anfangsziel bestand darin, eine Menge (g&sub1;, g&sub2;) für beste perzeptorische Leistung zu finden. Es hat sich herausgestellt, daß ähnlich dem Schmalbandfall, die Werte g&sub1; = 0,9, g&sub2; = 0,4 vernünftige Ergebnisse lieferten. Die Leistung ließ jedoch Raum für Verbesserung. Es stellte sich heraus, daß das Filter W(z) nach Gleichung (1) eine ihm eigene Begrenzung bei der gleichzeitigen Modellierung der Formantenstruktur und der erforderlichen spektralen Schräge aufwies. Man fand, daß die spektrale Schräge annähernd durch die Differenz g&sub1; - g&sub2; gesteuert wurde. Die Schräge ist globaler Beschaffenheit und es ist nicht leicht möglich, sie getrennt bei hohen Frequenzen anzuheben. Ändern der Schräge beeinflußt auch die Form der Formanten von W(z). Es wird zusammen mit höheren und breiteren Formanten eine betonte Schräge erhalten, die zu viel Rauschen auf niedrige Frequenzen und zwischen die Formanten legt. Die Schlußfolgerung war, daß die Probleme der Formanten und der Schräge voneinander abgekoppelt sein müßten. Der eingeschlagene Weg bestand darin, W(z) nur für die Formantenmodellierung zu benutzen und ein weiteres Glied zur Steuerung von nur der Schräge hinzuzufügen. Die allgemeine Form des neuen Filters ist
- Wp(z) = W(z) P(z) (3)
- wobei P(z) nur für die Schräge verantwortlich ist. Die Realisierung dieser Verbesserung ist in Figur 2 dargestellt, wo das Gewichtungsfilter 35 der Figur 1 durch eine Kaskade des Filters 220, das einen durch P(z) gegebenen Verlauf mit dem ursprünglichen Filter 35 aufweist, ersetzt wird. Das kaskadierte Filter Wp(z) ist durch Gleichung (3) gegeben. Es können verschiedene Formen von P(z) benutzt werden.
- Diese Formen sind: festes Drei-Pol-Glied (zwei komplex, einer real), festes Drei-Null-Glied, adaptives Drei-Pol-Glied, adaptives Drei-Null-Glied und adaptives Zwei-Pol-Glied. Die festen Glieder wurden so ausgelegt, daß sie eine ungleiche aber feste spektrale Schräge mit einer steileren Schräge bei hohen Frequenzen aufwiesen. Die Koeffizienten der adaptiven Glieder wurden dynamisch über LPC-Analyse berechnet, um p-1 (z) zu einer Annäherung zweiter oder dritter Ordnung des aktuellen Spektrums zu machen, wodurch im wesentlichen nur die spektrale Schräge eingefangen wird.
- Zusätzlich war ein für P(z) gewählter Modus eine Schrittfunktion im Frequenzbereich in Bereichmitte. Dadurch wird der Verlauf in der unteren Hälfte des Bereichs gedämpft und in der höheren Hälfte um eine vorbestimmte Konstante verstärkt. Für diesen Zweck wurde ein All-Pol-Glied 14ter Ordnung benutzt.
- Durch sorgfältige Hörproben stellte es sich heraus, daß das Zwei-Pol-Glied die beste Wahl darstellte. Für diesen Fall ist das Glied gegeben durch
- (4)
- Die Koeffizienten pi werden durch Anwendung des standardmäßigen LPC-Algorithmus auf die ersten drei Korrelationskoeffizienten der Folge ai des inversen LPC-Filters (A(z)) für den aktuellen Rahmen gefunden. Der Parameter δ wird zur Einstellung der spektralen Schräge von P(z) benutzt. Es stellte sich heraus, daß der Wert δ = 0,7 eine gute Wahl darstellte. Diese Form von P(z) in Kombination mit W(z), wobei g&sub1; = 0,98, g&sub2; = 0,8, ergab die beste perzeptorische Leistung gegenüber allen anderen in dieser Arbeit untersuchten Systemen.
- Zusätzlich zu dem oben beschriebenen P(z)-Verfahren beruht das erste Nicht-P(z)-Verfahren auf psychoakustischer Wahrnehmungstheorie (siehe Brian C. J. Moore, "An Introduction to the Psychology of Hearing" (Einführung in die Psychologie des Hörens), Academic Press Inc., 1982), die gegenwärtig bei der perzeptorischen Transformationscodierung (PTC - Perceptual Transform Coding) von Tonsignalen angewandt wird (siehe auch James D. Johnston, "Transform Coding of Audio Signals Using Perceptual Noise Criteria" (Transformationscodierung von Tonsignalen unter Verwendung von perzeptorischen Rauschkriterien), IEEE Sel. Areas in Comm., 6(2), Februar 1988, und K. Brandenburg, "A Contribution to the Methods and the Evaluation of Quality for High-Grade Musi Coding" (Beitrag zu den Verfahren und der Qualitätsbewertung für tongetreue Musikcodierung), Dr.-Dissertation, Universität von Erlangen-Nürnberg, 1989). Bei der PTC werden bei der Berechnung einer Rauschschwellwertfunktion (NTF - Noise Threshold Function) der Frequenz bekannte psychoakustische Gehörmaskierungseffekte benutzt. Nach der Theorie sollte alles Rauschen unterhalb dieses Schwellwerts unhörbar sein. Die NTF wird bei der Bestimmung der Bitzuteilung und/oder der Quantisiererschrittgröße für jeden der Transformationskoeffizienten benutzt, die später zur Neusynthetisierung des Signals mit der gewünschten Quantisierungsrauschform benutzt werden. Hier wird die NTF im Rahmen eines LPC-basierenden Codierers wie CELP benutzt. Grundlegend ist W(z) so ausgelegt, daß es die NTF-Form für den aktuellen Rahmen aufweist. Die NTF kann jedoch eine ziemlich komplexe Funktion der Frequenz mit scharfen Tälern und Spitzen sein. Bei der genauen Modellierung der NTF wird daher vorteilhafterweise ein Pol-Null-Filter hoher Ordnung benutzt, was in der Technik gut bekannt ist.
- Ein zweiter erfolgreich benutzter Ansatz besteht in CELP-Codierung mit geteiltem Band&sub1; wobei das Signal zuerst durch einen Satz von zwei Quadraturspiegelfiltern (QMF - quadrature-mirror filters) in Nieder- und Hochfrequenzbänder geteilt wird und dann jedes Band separat durch seinen eigenen Codierer codiert wird. Ein ähnliches Verfahren wurde bei P. Mermelstein "G.722, a New CCITT Coding Standard for Digital Transmission of Wideband Audio Signals" (G.722, ein neuer CCITT-Codierstandard für digitale Übertragung von Breitbandtonsignalen), IEEE Comm. Mag., Seiten 8-15, Januar 1988, benutzt. Dieser Ansatz bietet die Flexibilität der Zuteilung unterschiedlicher Bitraten zu den niedrigen und hohen Bändern und zum Erreichen eines optimalen Gleichgewichts zwischen spektralen Verzerrungen des hohen und niedrigen Bands. Flexibilität wird auch in dem Sinne erreicht, daß in jedem Band vollständig unterschiedliche Codiersysteme eingesetzt werden knnen, wodurch die Leistung in jedem Frequenzbereich optimiert wird. In der vorliegenden beispielhaften Ausführungsform wird jedoch LD-CELP in allen (beiden) Bändern benutzt. Für die beiden Bänder wurden verschiedene Bitratenzuteilungen versucht, mit der Beschränkung einer Gesamtrate von 32 kB/s. Es stellte sich heraus, daß das beste Verhältnis zwischen der Bitratenzuteilung des niedrigen und hohen Bandes 3:1 war.
- Alle oben erwähnten Systeme können verschiedene Tonhöhenschleifen, d.h. verschiedene Ordnungen für B(z) und verschiedene Anzahlen von Bit für die Tonhöhenanzapfungen enthalten. Ein interessanter Punkt ist, daß es sich manchmal als vorteilhaft herausstellen kann, ein System ohne Tonhöhenschleife zu benutzen, d.h. B(z) = 1. In der Tat bot in manchen Prüfungen ein solches System das beste Ergebnis. Die Erklärung dafür kann wie folgt sein. Die Tonhöhenschleife beruht auf der Verwendung vergangener Restfolgen als Anfangsanregung des Synthesefilters. Dies stellt eine Quantisierung der ersten Stufe in einem zweistufigen VQ-System dar, wobei der vergangene Rest als adaptive Codetabelle dient. Es ist bekannt, daß zweistufige VQ mindestens aus einem MSE-Gesichtspunkt schlechter als einstufige (reguläre) VQ ist. Anders gesagt finden die Bit bessere Verwendung, wenn sie mit einer Codetabelle mit Einzelanregung benutzt werden. Die Tonhöhenschleife bietet dann hauptsächlich perzeptorische Verbesserung aufgrund der verstärkten Periodizität, was bei niedrigratigen Codierern wie 4-8-kB/s-CELP von Wichtigkeit ist, wo der MSE-Rauschabstand sowieso niedrig ist. Bei 32 kB/s mit hohem MSE-Rauschabstand überwiegt der Beitrag der Tonhöhenschleife nicht die Wirksamkeit einer Einzel-VQ-Konfiguration und es besteht daher kein Grund, sie zu benutzen.
- Während die obige Beschreibung anhand von Breitbandsprache erfolgte, wird es dem Fachmann klar sein, daß die vorliegende Erfindung Anwendung in anderen bestimmten Zusammenhängen finden wird. Figur 3 zeigt eine repräsentative Modifikation des Frequenzganges des Gesamtgewichtungsfilters nach den Lehren der vorliegenden Erfindung. In der Figur 3 stellt eine durchgezogene Linie Gewichtung nach einem Verfahren des Standes der Technik dar und die gepunktete Kurve entspricht einem beispielhaften modifizierten Verlauf nach einer typischen beispielhaften Ausführungsform der vorliegenden Erfindung.
Claims (17)
1. Kommunikationsverfahren zur Übermittlung von
Informationen in Eingangsfolgen anzeigenden Parametern
über einen Kommunikationskanal, wobei die besagten
Parameter Frequenzgewichtung der besagten
Eingangsinformationen widerspiegelnde Parameter enthalten,
dadurch gekennzeichnet, daß die besagte
Frequenzgewichtung Gewichtung in Bezug auf relative Amplitude bei
bestimmten Frequenzen und die spektrale Gesamtschräge
widerspiegelnde Gewichtung umfaßt.
2. Verfahren nach Anspruch 1, dadurch
gekennzeichnet, daß die besagten Eingangsinformationen
Sprachinformationen sind und die besagte Gewichtung bei bestimmten
Frequenzen Gewichtung bei mit einem Formanten der
besagten Sprachinformationen verbundenen Frequenzen umfaßt.
3. Verfahren nach Anspruch 1, dadurch
gekennzeichnet, daß die besagte Gewichtung in einem durch
W,(z) = W(z)P(z),
gekennzeichneten Filter erreicht wird, wobei P(z)
hauptsächlich nur die spektrale Schräge des Filters
beeinflußt.
4. Verfahren nach Anspruch 3, dadurch
gekennzeichnet, daß P(z) ein Drei-Pol-Filterglied ist.
5. Verfahren nach Anspruch 3, dadurch
gekennzeichnet, daß P(z) ein Drei-Null-Filterglied ist.
6. Verfahren nach Anspruch 3, dadurch
gekennzeichnet, daß P(z) ein Zwei-Null-Filterglied ist.
7. Verfahren nach Anspruch 3, dadurch
gekennzeichnet, daß P(z) ein Zwei-Pol-Glied ist.
8. Verfahren nach Anspruch 3, dadurch
gekennzeichnet, daß P(z) ein adaptives Filterglied ist, das durch
von einer linearen Prädiktionsanalyse des aktuellen
Spektrums der besagten Eingangsfolgen abgeleitete
Parameter gekennzeichnet ist.
9. Verfahren nach Anspruch 3, dadurch
gekennzeichnet, daß P(z) ein Filterglied mit einem Frequenzgang mit
einem ersten Wert für einen Bereich von Frequenzen
unterhalb eines im wesentlichen in der Mitte des
Spektrums der besagten Eingangsfolgen liegenden Punkts und
einem zweiten Wert für andere Punkte des besagten
Spektrums ist.
10. Verfahren nach Anspruch 9, dadurch
gekennzeichnet, daß das besagte Filter ein Allpolfilter einer
größeren Ordnung als 3 ist.
11. Verfahren nach Anspruch 10, dadurch
gekennzeichnet, daß das besagte Allpolfilter ein Filter der Ordnung
14 ist.
12. Verfahren nach Anspruch 2, dadurch
gekennzeichnet, daß die besagte Gewichtung in einem perzeptorischen
Transformationscodierungsfilter erreicht wird.
13. Verfahren nach Anspruch 12, dadurch
gekennzeichnet, daß das besagte perzeptorische Transformationsfilter
einen durch die Rauschschwellwertfunktion für die
gegenwärtige Eingangsfolge bestimmten Frequenzgang aufweist.
14. Verfahren nach Anspruch 2, dadurch
gekennzeichnet, daß die besagte Gewichtung in einem
Quadraturspiegelfilter mit einer Mehrzahl von Frequenzbändern erreicht
wird und die besagten Eingangsfolgen getrennt für jedes
Frequenzband codiert werden.
15. Verfahren nach Anspruch 2, dadurch
gekennzeichnet, daß die besagten Parameter ein CELP-Codierverfahren
kennzeichnen.
16. Verfahren nach Anspruch 15, dadurch
gekennzeichnet, daß die besagten Parameter keine Tonhöhenparameter
enthalten.
17. Verfahren nach Anspruch 1, dadurch
gekennzeichnet, daß die besagten Eingangsinformationen ein
nichtgleichförmiges Spektrum aufweisen und die besagte
Gewichtung bei bestimmten Frequenzen Gewichtung bei mit einem
Formanten der besagten Informationen verbundenen
Frequenzen umfaßt.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/546,627 US5235669A (en) | 1990-06-29 | 1990-06-29 | Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69123500D1 DE69123500D1 (de) | 1997-01-23 |
DE69123500T2 true DE69123500T2 (de) | 1997-04-17 |
Family
ID=24181283
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69123500T Expired - Lifetime DE69123500T2 (de) | 1990-06-29 | 1991-06-20 | 32 Kb/s codeangeregte prädiktive Codierung mit niedrigen Verzögerung für Breitband-Sprachsignal |
DE69132885T Expired - Lifetime DE69132885T2 (de) | 1990-06-29 | 1991-06-20 | CELP-Kodierung niedriger Verzögerung und 32 kbit/s für ein Breitband-Sprachsignal |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69132885T Expired - Lifetime DE69132885T2 (de) | 1990-06-29 | 1991-06-20 | CELP-Kodierung niedriger Verzögerung und 32 kbit/s für ein Breitband-Sprachsignal |
Country Status (4)
Country | Link |
---|---|
US (1) | US5235669A (de) |
EP (2) | EP0732686B1 (de) |
JP (1) | JP3234609B2 (de) |
DE (2) | DE69123500T2 (de) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI95086C (fi) * | 1992-11-26 | 1995-12-11 | Nokia Mobile Phones Ltd | Menetelmä puhesignaalin tehokkaaksi koodaamiseksi |
FI96248C (fi) * | 1993-05-06 | 1996-05-27 | Nokia Mobile Phones Ltd | Menetelmä pitkän aikavälin synteesisuodattimen toteuttamiseksi sekä synteesisuodatin puhekoodereihin |
JP3321971B2 (ja) * | 1994-03-10 | 2002-09-09 | ソニー株式会社 | 音声信号処理方法 |
IT1271182B (it) * | 1994-06-20 | 1997-05-27 | Alcatel Italia | Metodo per migliorare le prestazioni dei codificatori vocali |
JP3237089B2 (ja) * | 1994-07-28 | 2001-12-10 | 株式会社日立製作所 | 音響信号符号化復号方法 |
SE504010C2 (sv) * | 1995-02-08 | 1996-10-14 | Ericsson Telefon Ab L M | Förfarande och anordning för prediktiv kodning av tal- och datasignaler |
US5751907A (en) * | 1995-08-16 | 1998-05-12 | Lucent Technologies Inc. | Speech synthesizer having an acoustic element database |
DE69628103T2 (de) * | 1995-09-14 | 2004-04-01 | Kabushiki Kaisha Toshiba, Kawasaki | Verfahren und Filter zur Hervorbebung von Formanten |
US5864798A (en) * | 1995-09-18 | 1999-01-26 | Kabushiki Kaisha Toshiba | Method and apparatus for adjusting a spectrum shape of a speech signal |
US5950151A (en) * | 1996-02-12 | 1999-09-07 | Lucent Technologies Inc. | Methods for implementing non-uniform filters |
US6516299B1 (en) | 1996-12-20 | 2003-02-04 | Qwest Communication International, Inc. | Method, system and product for modifying the dynamic range of encoded audio signals |
US6463405B1 (en) | 1996-12-20 | 2002-10-08 | Eliot M. Case | Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband |
US6477496B1 (en) | 1996-12-20 | 2002-11-05 | Eliot M. Case | Signal synthesis by decoding subband scale factors from one audio signal and subband samples from different one |
US5864820A (en) * | 1996-12-20 | 1999-01-26 | U S West, Inc. | Method, system and product for mixing of encoded audio signals |
US5864813A (en) * | 1996-12-20 | 1999-01-26 | U S West, Inc. | Method, system and product for harmonic enhancement of encoded audio signals |
US6782365B1 (en) | 1996-12-20 | 2004-08-24 | Qwest Communications International Inc. | Graphic interface system and product for editing encoded audio data |
US5845251A (en) * | 1996-12-20 | 1998-12-01 | U S West, Inc. | Method, system and product for modifying the bandwidth of subband encoded audio data |
US7024355B2 (en) | 1997-01-27 | 2006-04-04 | Nec Corporation | Speech coder/decoder |
JP3329216B2 (ja) * | 1997-01-27 | 2002-09-30 | 日本電気株式会社 | 音声符号化装置及び音声復号装置 |
GB9714001D0 (en) * | 1997-07-02 | 1997-09-10 | Simoco Europ Limited | Method and apparatus for speech enhancement in a speech communication system |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
SE9803698L (sv) | 1998-10-26 | 2000-04-27 | Ericsson Telefon Ab L M | Metoder och anordningar i ett telekommunikationssystem |
CA2252170A1 (en) | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
DE19906223B4 (de) * | 1999-02-15 | 2004-07-08 | Siemens Ag | Verfahren und Funk-Kommunikationssystem zur Sprachübertragung, insbesondere für digitale Mobilkummunikationssysteme |
US6233552B1 (en) * | 1999-03-12 | 2001-05-15 | Comsat Corporation | Adaptive post-filtering technique based on the Modified Yule-Walker filter |
US7058572B1 (en) * | 2000-01-28 | 2006-06-06 | Nortel Networks Limited | Reducing acoustic noise in wireless and landline based telephony |
US6691085B1 (en) | 2000-10-18 | 2004-02-10 | Nokia Mobile Phones Ltd. | Method and system for estimating artificial high band signal in speech codec using voice activity information |
KR100503415B1 (ko) * | 2002-12-09 | 2005-07-22 | 한국전자통신연구원 | 대역폭 확장을 이용한 celp 방식 코덱간의 상호부호화 장치 및 그 방법 |
US6983241B2 (en) * | 2003-10-30 | 2006-01-03 | Motorola, Inc. | Method and apparatus for performing harmonic noise weighting in digital speech coders |
US8725501B2 (en) * | 2004-07-20 | 2014-05-13 | Panasonic Corporation | Audio decoding device and compensation frame generation method |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4133976A (en) * | 1978-04-07 | 1979-01-09 | Bell Telephone Laboratories, Incorporated | Predictive speech signal coding with reduced noise effects |
US4472832A (en) * | 1981-12-01 | 1984-09-18 | At&T Bell Laboratories | Digital speech coder |
USRE32580E (en) * | 1981-12-01 | 1988-01-19 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech coder |
US4694298A (en) * | 1983-11-04 | 1987-09-15 | Itt Gilfillan | Adaptive, fault-tolerant narrowband filterbank |
US4701954A (en) * | 1984-03-16 | 1987-10-20 | American Telephone And Telegraph Company, At&T Bell Laboratories | Multipulse LPC speech processing arrangement |
US4617676A (en) * | 1984-09-04 | 1986-10-14 | At&T Bell Laboratories | Predictive communication system filtering arrangement |
US4811261A (en) * | 1985-03-04 | 1989-03-07 | Oki Electric Industry Co., Ltd. | Adaptive digital filter for determining a transfer equation of an unknown system |
US4827517A (en) * | 1985-12-26 | 1989-05-02 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech processor using arbitrary excitation coding |
US4941178A (en) * | 1986-04-01 | 1990-07-10 | Gte Laboratories Incorporated | Speech recognition using preclassification and spectral normalization |
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
FR2624675B1 (fr) * | 1987-12-15 | 1990-05-11 | Charbonnier Alain | Dispositif et procede de traitement d'un signal de base echantillonne, en particulier representatif de sons |
EP0331405B1 (de) * | 1988-02-29 | 1996-11-27 | Sony Corporation | Verfahren und Einrichtung zur Digitalsignalverarbeitung |
-
1990
- 1990-06-29 US US07/546,627 patent/US5235669A/en not_active Expired - Lifetime
-
1991
- 1991-06-20 DE DE69123500T patent/DE69123500T2/de not_active Expired - Lifetime
- 1991-06-20 EP EP96107666A patent/EP0732686B1/de not_active Expired - Lifetime
- 1991-06-20 EP EP91305598A patent/EP0465057B1/de not_active Expired - Lifetime
- 1991-06-20 DE DE69132885T patent/DE69132885T2/de not_active Expired - Lifetime
- 1991-06-28 JP JP15726291A patent/JP3234609B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE69123500D1 (de) | 1997-01-23 |
DE69132885D1 (de) | 2002-01-31 |
JP3234609B2 (ja) | 2001-12-04 |
EP0465057A1 (de) | 1992-01-08 |
JPH04233600A (ja) | 1992-08-21 |
EP0732686A3 (de) | 1997-03-19 |
US5235669A (en) | 1993-08-10 |
EP0465057B1 (de) | 1996-12-11 |
EP0732686A2 (de) | 1996-09-18 |
EP0732686B1 (de) | 2001-12-19 |
DE69132885T2 (de) | 2002-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69123500T2 (de) | 32 Kb/s codeangeregte prädiktive Codierung mit niedrigen Verzögerung für Breitband-Sprachsignal | |
DE69634645T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE3856211T2 (de) | Verfahren zur adaptiven Filterung von Sprach- und Audiosignalen | |
DE602004007786T2 (de) | Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate | |
DE69916321T2 (de) | Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen | |
DE69621393T2 (de) | Quantisierung von Sprachsignalen in prädiktiven Kodiersystemen unter Verwendung von Modellen menschlichen Hörens | |
DE60006271T2 (de) | Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung | |
DE60029990T2 (de) | Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer | |
EP2022043B1 (de) | Informationssignalcodierung | |
EP1979901B1 (de) | Verfahren und anordnungen zur audiosignalkodierung | |
DE60024501T2 (de) | Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution | |
DE69926821T2 (de) | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen | |
DE69615302T2 (de) | Maskierung des wahrnehmbaren Rauschens auf der Basis der Frequenzantwort eines Synthesefilters | |
DE60011051T2 (de) | Celp-transkodierung | |
DE69618422T2 (de) | Verfahren zur Sprachdekodierung und tragbares Endgerät | |
DE60110679T3 (de) | Perzeptuelle Kodierung von Audiosignalen unter Verwendung von getrennter Reduzierung von Irrelevanz und Redundanz | |
DE69910058T2 (de) | Verbesserung der periodizität eines breitbandsignals | |
DE69608947T2 (de) | Verfahren zur Analyse eines Audiofrequenzsignals durch lineare Prädiktion, und Anwendung auf ein Verfahren zur Kodierung und Dekodierung eines Audiofrequenzsignals | |
DE69317958T2 (de) | Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken | |
DE69620967T2 (de) | Synthese von Sprachsignalen in Abwesenheit kodierter Parameter | |
DE69615839T2 (de) | Sprachkodierer | |
DE60128121T2 (de) | Wahrnehmungsbezogen verbesserte aufbesserung kodierter akustischer signale | |
DE69930848T2 (de) | Skalierbarer audiokodierer und dekodierer | |
DE60012760T2 (de) | Multimodaler sprachkodierer | |
EP1388147B1 (de) | Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals, insbesondere eines von einem telekommunikationsgerät gesendeten sprachsignals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |