[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

DE69431622T2 - Verfahren und gerät zum kodieren von mit mehreren bits kodiertem digitalem ton durch subtraktion eines adaptiven zittersignals, einfügen von versteckten kanalbits und filtrierung, sowie kodiergerät zur verwendung bei diesem verfahren - Google Patents

Verfahren und gerät zum kodieren von mit mehreren bits kodiertem digitalem ton durch subtraktion eines adaptiven zittersignals, einfügen von versteckten kanalbits und filtrierung, sowie kodiergerät zur verwendung bei diesem verfahren

Info

Publication number
DE69431622T2
DE69431622T2 DE69431622T DE69431622T DE69431622T2 DE 69431622 T2 DE69431622 T2 DE 69431622T2 DE 69431622 T DE69431622 T DE 69431622T DE 69431622 T DE69431622 T DE 69431622T DE 69431622 T2 DE69431622 T2 DE 69431622T2
Authority
DE
Germany
Prior art keywords
bits
signal
hidden channel
samples
channel bits
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69431622T
Other languages
English (en)
Other versions
DE69431622D1 (de
Inventor
Edwin Groenewegen
Werner Oomen
Gerbrand Van Der Waal
Nicolaas Veldhuis
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of DE69431622D1 publication Critical patent/DE69431622D1/de
Publication of DE69431622T2 publication Critical patent/DE69431622T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Description

    BEREICH DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Codieren einer Schalldarstellung, empfangen als ein Strom von Eingangsabtastwerten mit mehreren Bits, während versteckte Kanalbits eingefügt werden. Ein derartiges Verfahren ist in einer Veröffentlichung von M. A. Gerzon und P. G. Craven "A High-Rate Buried Channel for Audio CD", Vordruck '3551 der "Audio Eng, Soc. Conv." Berlin, März 1993 beschrieben worden. Siehe ebenfalls die internationale Patentanmeldung WO 94/03988, Priorität vom 5. August 1992, veröffentlicht am 17. Februar 1994 derselben Aufhören. Das erste Bezugsmaterial basiert auf eine relativ einfache Art und Weise der Addierung eines versteckten Kanals durch subtraktive gezitterte rauschförmige Quantisierung. Obschon das hinzugefügte Merkmal es ermöglicht, dass die hohe Qualität des übertragenen Schalles durch einen versteckten Kanal verbessert wird, haben die Erfinder der vorliegenden Erfindung entdeckt, dass das Bezugsmaterial die Möglichkeiten des "Subtraktions"-Prinzips nicht völlig ausnutzt, wobei diese Unzulänglichkeit entweder zu einer niedrigeren als optimalen Übertragungskapazität des versteckten Kanals führt, oder, auf alternative Weise, zu einer niedrigeren als beabsichtigten restlichen Perzeptionsqualität des ursprünglichen Schalles hoher Qualität, beispielsweise CD-Qualität, aber sie ist nicht darauf begrenzt.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Deswegen ist es u. a. eine Aufgabe der vorliegenden Erfindung die Charakteristiken des versteckten Kanaleinschlusses zu verbessern zur Optimierung der restlichen Perzeptionsqualität und der Übertragungsqualität des versteckten Tonkanals. Nun wird, nach einem dieser Aspekte, die vorliegende Erfindung gekennzeichnet durch die nachfolgenden Verfahrensschritte:
  • - das Bilden einer Sequenz endlicher Länge der genannten Abtastwerte und das Bestimmen einer instantanen Schwelle-zu-Frequenzcharakteristik einer nicht einheitlichen Hörbarkeit in der genannten Sequenz;
  • - das Subtrahieren eines geformten Rauschsignals aus den genannten Eingangsabtastwerten zum Erzeugen von Verarbeitungsabtastwerten;
  • - das dynamische Überspringen der Verarbeitung von Abtastwertbits unterhalb eines mit der genannten Charakteristik assoziierten Bitpegels, durch Subtraktion eines Zittersignals (v) und einer nachfolgenden Quantisierung durch eine variable Anzahl von b Bits unterhalb des genannten Bitpegels, aber das Aufrechterhalten wenigstens aller Verarbeitungsabtastwertbits über dem genannten Bitpegel;
  • - das Ersetzen derartiger übersprungener Verarbeitungsabtastwertbits durch das genannte Zittersignal als versteckte Kanalbits, die eine einstellbare Anzahl von b Bits je genannter Verarbeitungsabtastwert bilden;
  • - das Ausliefern erweiterter Abtastwerte (y) mit nicht übersprungener Verarbeitungsabtastwertbits und versteckter Kanalbits;
  • - während der Erzeugung des genannten Rauschsignals durch Fromfilterung durch ein Rauschformfilter bei einer zitterbestimmten Differenz zwischen den genannten erweiterten Abtastwerten und den genannten Verarbeitungsabtastwerten, wobei die genannte Formulierung ein empfangenes Differenzsignal in Richtung der genannten instantanen Schwelle-zu-Frequenzcharakteristik korrigiert.
  • Insbesondere ermöglicht die Formfilterung der Differenz in Richtung der instantanen Schwelle-zu-Frequenzcharakteristik die Erzeugung von "Spektrumraum" bei denjenigen Frequenzen, für die das menschliche Hörsystem relativ unempfindlich ist. Das Ergebnis ist, dass für eine ziemlich große Länge von Abtastwerten eine einheitliche Anzahl versteckter Kanalbits je Abtastwert injiziert werden kann. Für eine nachfolgende Sequenz soll die Anzahl versteckter Kanalbits wieder bestimmt werden. Ein weiteres Merkmal ist, dass nach der Formgestaltung der Charakteristik des Hauptkanals auch die Charakteristik des versteckten Kanals auf dieselbe Art und Weise geformt werden kann zur Optimierung der Übertragungskapazität. Insbesonde re sollte das Zittersignal geformt werden. Dies fügt dem System einen bestimmten Betrag an Komplexität zu.
  • Auf vorteilhafte Weise empfängt das Rauschformfilter ein Differenzsignal, das einer "Weißes Rauschen"-ähnlichen Charakteristik nähert. In vielen Fällen sind die Anforderungen an dem Differenzsignal nicht hoch in Bezug auf den möglichen Einfluss auf die Qualität des Hauptkanals und deswegen kann das Zittern einen beliebigen Inhalt haben. In anderen Situationen kann die Differenz nicht mit der Information des Hauptkanals korreliert werden, oder kann sogar nicht selbst korreliert sein. In diesen letzteren Situationen wird das Zittern vorverarbeitet um das geeignete Fehlen der Korrelation zu erhalten. Solche Maßnahmen sind an sich durchaus bekannt.
  • Auf vorteilhafte Weise geschieht eine derartige Erzeugung durch ein Quantisierungsfilter mit einer variablen Charakteristik. Auf diese Weise werden eine verbesserte Anpassung an die instantane Hörbarkeit und eine verbesserte subjektive Audioqualität erzielt.
  • Auf vorteilhafte Weise erfolgt die Formfilterung mit einem Filter mit einer gesamten Filterkurve, zusammengesetzt aus einer Reihe elementarer Filterkurven, die je auf einer betreffenden einzigartigen Gitterfrequenz θck positioniert werden mit einer Breite Δk, die einer örtlichen Leistungsspaktraldichte des gesamten Spektrums nähert. Dies ist eine extrem Geradeaus-Verfahren zum Modellieren der Leistungsspektrumdichte, wodurch u. a. ermöglicht wird, dass die genannten Gitterfrequenzen einen nicht einheitlichen Raum haben. Im Allgemeinen verbessert dies die verwendete Genauigkeit-zu-der Anzahl Gitterfrequenzen und folglich beschleunigt dies die Berechnung.
  • Die vorliegende Erfindung bezieht sich ebenfalls auf ein Codierungsgerät zum Verwirklichen der Codierung. Aus den abhängigen Patentansprüchen gehen weitere Merkmale hervor.
  • KURZE BESCHREIBUNG DER ZEICHNUNG
  • Ausführungsbeispiele der vorliegenden Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
  • Fig. 1 ein allgemeines Blockschaltbild einer Anordnung nach der vorliegenden Erfindung,
  • Fig. 2 einen subtraktiv gezitterten Quantisierer zur Verwendung als Basis für einen Codierer eines versteckten Kanals nach der vorliegenden Erfindung,
  • Fig. 3 eine von der Frequenz abhängige maskierte Schwelle durch ein als Beispiel geltendes Schallspektrum,
  • Fig. 4 ein Beispiel einer ersten Bildung eines versteckten Kanals,
  • Fig. 5 ein Beispiel einer zweiten Bildung eines versteckten Kanals,
  • Fig. 6 eine Darstellung eines vereinfachten CELP-Codierers ohne Teilungsprädiktion,
  • Fig. 7 einen Rauschformquantisierer,
  • Fig. 8 eine Elementarfilterkurve.
  • KURZE BESCHREIBUNG DER PRINZIPIEN
  • Die Technologie der versteckten Kanäle nutzt die Tatsache aus, dass ein Audio- oder Schallsignal oft durch eine Genauigkeit dargestellt wird, die durch die Länge der Abtastwertbitreihe ausgedrückt wird, die in Tennen der erfahrenen Audio- Qualität im Wesentlichen zu hoch ist. Deswegen kann die Informationsmenge dadurch reduziert werden, dass die Übertragungskapazität für einen zusätzlichen Informationsdienst frei gelassen wird. Die zusätzliche Information wird in den am wenigsten signi fikanten Teil des Hauptsignals eingefügt. Für einen herkömmlichen Empfänger ist diese Modifikation des Hauptsignals insofern nicht relevant, dass ein menschlicher Zuhörer die Differenz nicht spürt. Ein verbessertes Empfangssystem aber wird die zusätzliche Information finden und diese an einem separaten Ausgang erzeugen. Nach der vorliegenden Erfindung wird das Differenzspektrum formgefiltert zum Korrigieren eines empfangenen Signals in Richtung einer aktuellen Schwelle-zu-Frequenzcharakteristik. Dies ermöglicht die Erzeugung eines "Spektrumraums" bei derartigen Frequenzen, für die das menschliche Hörsystem relativ unempfindlich ist. Wenn die Differenz "weisses-Rauschen"-ähnlich ist, wird der Zuhörer sogar noch unempfindlicher sein für den hinzugefügten Kanal.
  • DETAILLIERTE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
  • Fig. 1 zeigt ein gesamtes Blockschaltbild einer Anordnung nach der vorliegenden Erfindung. Der Block 20 ist eine Quelle digitalen Schalles, der als ein Strom von Abtastwerten codiert wird, die beispielsweise aus je 16 Bits bestehen kann, die bei etwa 44 kHz wiederkehren. Der Schall hat eine vordefinierte Bandbreite und kann einen beliebigen Inhalt haben, wie Musik, Sprache, oder etwas anderes. Der Block 22 bildet eine endliche Länge dieser Abtastwerte, so dass diese ein bestimmten Zeitintervall, sagen wird 1024 Abtastwerte = 0,02 Sekunden, dauern und bestimmen darin eine Hörbarkeitsschwelle-zu-Frequenzcharakteristik. Die Hörbarkeit kann auf Basis einer beschränkten Anzahl Charakteristiken des eintreffenden Audios bestimmt werden. Dies ist abhängig von der augenblicklichen Frequenz, von Maskierungseffekten in nur einem Frequenzband durch den Einfluss eines anderen Bandes, es ist abhängig von der allgemeinen oder örtlichen Lautstärke des Schalles und kann von Zuhörer zu Zuhörer variieren, wobei die letzte Variation aber im Allgemeinen übersprungen wird. Die Schwelle kann verschiedenartig aber auf an sich bekannte Art und Weise bestimmt werden. Weiterhin werden nach der Bestimmung der Schwelle die Abtastwerte durch Überspringen einer Anzahl von b weniger signifikanten Bits derselben quantisiert. Der Block 24 ist eine Quelle für versteckte Kanalbits. Die Art des versteckten Kanals kann beliebig sein, wie ein zusätzlicher Kommentar zu dem Hauptkanal, wie wiedergebbare Untertitel oder Text, ein zusätzlicher Tonkanal in einer Mehrkanal-Tonwiedergabe, gleicher oder betreffender anderer Qualitätspegel, Mehrsprachendienst, Karaoke oder sogar Video. Auch nicht relatierte Dienste sind empfangbar. Ein spezieller vorteilhafter Gebrauch aber ist den versteckten Kanal als MPEG-Audiokanal zu definieren. An sich hat sich diese Standard als nützlich erwiesen zum Liefern einer Audio-Übertragung hoher Qualität mit einer mäßigen Bitrate. Weiterhin kann der versteckte Kanal selber aus zwei oder mehr Unterkanälen bestehen, die funktionell nicht relatiert sind, obschon sie zusammen den versteckten Teil der erweiterten Abtastwerten bilden. In dem Block 26 sind die übersprungenen Abtastwertbits von der Quelle 20, oder von einem Teil davon, ausgehend von den niedrigeren signifikanten Pegeln, durch Bits von der Quelle 24 ersetzt. Weiterhin werden an in einem Abstand voneinander liegenden Stellen des Stromes erweiterter Abtastwerte Angaben in den versteckten Kanal eingefügt über wie groß danach die Anzahl übersprungener Bits Je Abtastwert ist oder sein wird und wenn akzeptabel, wann die nächste Angabe auftreten wird. Für einen effizienten Betrieb sollte der Anstand zwischen diesen Angaben auf einen optimalen Wert gesetzt werden. Wenn der Abstand zu klein ist, nimmt das "Overhead" zu. Wenn der Abstand zu groß ist, wird, gesehen von den einzelnen Abtastwerten, die Anzahl übersprungener Bits zu niedrig. Der Kanal 28, der übertragen, Speichern kann oder weitere Qualitäten hat, transportiert die erweiterten Abtastwerte zu dem Empfänger 30. Der Empfänger 30 kann auf Basis dieser empfangenen Angaben den Standardteil der Abtastwerte von den versteckten Kanalbits trennen. Der Standardteil der Abtastwerte wird zu dem Decoder 32 transportiert, der das Audio auf standardisierte Weise darstellt, wobei die substituierten Bits beibehalten werden, da sie sub-hörbaren Schall darstellen. Die versteckten Kanalbits werden zu einem zugeordneten Decoder (34) zugerührt, der zum einwandfreien Verarbeiten derselben programmiert ist. Ein anderer Aufsatz ist, dass der versteckte Kanaldecoder die ganzen Abtastwerte empfängt, wie diese an einem digitalen Ausgang eines Kanalempfängers und extrahiert die versteckte Kanalinformation daraus, während der Standardkanal übersprungen wird. Wenn andererseits ein normaler nicht erweiterter Empfänger für den Kanal vorgesehen ist, wird dieser die erweiterten Abtastwerte verarbeiten, als wären sie normale Abtastwerte. Dies endet ggf. in einem analogen Audioverstärker, der eine Art von Lautsprecher speist. Die versteckten Kanalbits, die im Allgemeinen zu den Hauptkanalbits nicht korreliert sind, stellen nun direkt eine Art von Rauschen dar, wobei dieser Rauschwert unterhalb der beabsichtigten Hörbarkeitsschwelle bleibt.
  • Fig. 2 zeigt einen subtraktiv gezitterten Quantisierer zur Verwendung als Basis für einen versteckten Kanalcodierer entsprechend dem Bezugsmaterial, wie verbessert mit bestimmten Merkmalen nach der vorliegenden Erfindung. An dem Ein gang 52 wird ein b-Bit Zittersignal v in einer nachher noch zu beschreibenden Weise eingegeben. Die Elemente 54, 58, 60, 62 sind digitale Addierer-Subtrahierer einer geeigneten Bitweite. Das Element 56 ist ein Quantisierer, der die Genauigkeit des exemplarischen 16-Bit empfangenen Signals x zu einer niedrigeren Anzahl von 16-b Bits durch Abrundung reduziert. Ein derartiges Merkmal ist in dem Artikel von S. P. Lipshitz u. a.: Quantization and Dither: A theoretical Survey" J. Audio Eng. Soc. Heft 40 Nr. 5, Seiten 355-375, Mai 1992 beschrieben worden. Die Verwendung eines b-Bit gezitterten Signals v, wenn der Mangel an Korrelation mit dem Hauptkanal ausreicht, gewährleistet, dass der Quantisierungsfehler e spektral weiß bleibt und statistisch unabhängig von dem Eingangssignal x, was aus perzeptiven Gründen bevorzugt wird. Das Zittersignal kann eine beliebige Version des versteckten Kanalsignals sein, ohne Hinzufügung oder Aufopferung von Information. Eine derartige Statistisierung kann umgekehrt werden ohne dass eine Neusynchronisierung erforderlich ist. Es wurde erkannt, dass der beliebige Charakter relativ zu dem Hauptkanal spezifiziert ist, sowie innerhalb des versteckten Kanal selbst. Wenn im Kontext des versteckten Kanals selbst das Signal gut strukturiert ist, kann es durch herkömmliche Mittel statistisiert werden. Dasselbe Zittersignal v wird in dem Element 54 hinzugefügt zum Bilden des kompatiblen Ausgangssignals y an dem Ausgang 66 zur Speicherung, Übertragung oder zur weiteren Verarbeitung. Der Block 64 ist ein Rauschformfilter und empfängt die Differenz zwischen dem kompatiblen Ausgangssignal y und dem Eingangssignal vor der Einrührung des Zittersignals v, wie dies von dem Subtrahierer 62 erzeugt wird. Das Ausgangssignal des Rauschformfilters 64 wird zu dem Subtrahierer 60 zurückgeführt, der seinerseits das ursprüngliche Audiosignal x empfängt. Es hat sich herausgestellt, dass die Lautstärke des Rauschens mit nur einem FIR-Filter 9. Ord nung um etwa 16 dB reduziert werden kann. Diese Annäherung wird den Rauschpegel eines 2-3 Bits je Abtastwert versteckten Kanalsignals einer vergleichbaren Lautstärke wie der inhärente Rauschpegel in dem CD-Signal machen. Die Filtercharakteristik H(Z) soll derart sein, dass y, definiert als:
  • Y = x + 1 - H(Z) ²·Δ²/12
  • gegenüber x um einen Betrag geändert werden sollte, der subjektiv inkonsequent ist für den Zuhörer, wobei Δ = 2b die elementare Schrittgröße ist. Nun ist die Übertragungsrate des versteckten Kanals abhängig von der Grobheit des Requantisierungsvorgangs. In dieser Hinsicht geben Seite 2, 1.40 Flip-Flop-Schaltung und Seite 13, fünfter Abschnitt des ersten Artikels von Gerzon u. a. an, dass die Requantisierung gröber gemacht werden kann, wenn der resultierende Fehler durch ein Haupt- Audiosignal hohen Pegels maskiert wird. Die Erfinder der vorliegenden Erfindung haben andererseits eine noch effektivere Art und Weise entdeckt, um die Übertragungsrate des versteckten Kanals zu vergrößern, und zwar durch Anwendung der von der Frequenz abhängigen Empfindlichkeit des menschlichen Hörsystems. Eine weitere Verfeinerung der Anordnung nach Fig. 2 ist der Puffer 50, der vorübergehend die Daten speichern kann, die von dem versteckten Kanal 68 geliefert werden. Wegen der nicht einheitlichen Rate des versteckten Kanals an dem Ausgang 66 kann der Puffer eine Art von Rückkopplungsorganisation haben, der den Füllgrad mehr oder weniger konstant halten kann. Wenn der Puffer zu leer wird, kann die ganze Kapazität des versteckten Kanals in Teilen übergeben werden. Wenn der Puffer zu voll wird, gibt es mehrere Strategien: eine davon ist das Herabsetzen der Zuführrate von der Quelle 68. Eine mehr drastische Strategie ist, wenn es mehr als nur einen versteckten Kanal gibt, dass Übergeben des am wenigstens wichtigen Unterkanals davon. Wenn der Unterkanal Bewegtvideo darstellt, könnte dies vorübergehend zu einer Sequenz von Standbildern reduziert werden. Mehrere Modifikationen der Anordnung nach Fig. 2 sind selbstverständlich: so können beispielsweise bestimmte Addieranordnungen zu Subtrahieranordnungen geändert werden. Dies würde die Hardware etwas ändern, und zwar wegen der erforderlichen Fortpflanzung von Übernahmen. Insbesondere bei bestimmten Abtastwertnotierungssystemen ist aber der Eindruck minimal.
  • In dieser Hinsicht zeigt Fig. 3 eine von der Frequenz abhängige Maskierungsschwelle durch ein erstes beispielhaftes Tonsystem. Fig. 4 zeigt eine erste beispielhafte versteckte Kanalformation auf Basis eines Null-Ton-Eingangs.
  • In Fig. 4 gibt für ein genormtes oder vorausgesetztes menschliches Hörsystem die Kurve 4 den Hörbarkeitspegel, basiert auf einzelnen Frequenzen. Aus rechnerischen Gründen ist die Kurve 4 simuliert (siehe die geraden teile derselben), aber sie folgt den natürlichen Phänomenen sehr nahe. Bei etwa 4000 Hz ist diese Schwelle am niedrigsten, während sie bei höheren oder niedrigeren Frequenzen viel höher ist. Nun gibt die Spur 1 den flachen CD-Rauschboden an, der als 10¹&sup0; log (1/12 · 22050) dB gegeben wird. Nun sind, obschon die Kurve 4 die Hörbarkeitsschwelle für einzelne Frequenzen angibt, für Rauschen die Hörbarkeitseffekte viel höher, und die Frequenzcharakteristik sollte viel niedriger liegen als die Kurve 4. Nun ist die Kurve 2 das Spektrum des flachen Rauschens der Kurve 1, geformt zum Erhalten nahezu derselben Frequenzabhängigkeit wie die Schwelle der Kurve 4. Es hat sich experimentell herausgestellt, dass weder die wenigen dB Abweichung von der genauen Annäherung, noch die merkbar flachere Form über etwa 15 kHz einen negativen Einfluss auf die Gesamtleistung haben. Die Kurve 3 entspricht der Kurve 2 aber relativ nach oben verschoben, und zwar über einen Abstand von b*6 dB, wobei in Fig. 4b = 2 ist. Dies bedeutet einen versteckten Kanal von zwei (2) Bits breit je Abtastwert. Es hat sich herausgestellt, dass der Abstand zwischen den Kurven 3 und 4 die hinzugefügte Information unberührt lässt. Der minimale Abstand zwischen den Kurven 1 und 4 ist 10¹&sup0; log (660), was der kritischen Bandbreite um 4 kHz herum entspricht. Der Entwurf ist vorzugsweise mit Hilfe einer zusätzlichen Kurve gemacht worden, welche die integrierte Leistung des Spektrums der Kurve 3 angibt, und welche die Kurve 4 nicht berühren darf; der Einfachheit halber ist diese zusätzliche Kurve nicht dargestellt.
  • Fig. 3 zeigt den Einfluss eines aktuellen Tonspektrums auf die Form der Hörbarkeitsschwelle. Nun ist die Kurve A das aktuelle Tonspektrum. Die Kurve B zeigt wieder die Hörbarkeitsschwelle für einzelne Töne. Es ist deutlich zu sehen, dass der talförmige Charakter der Kurve 4 in Fig. 4 verschwunden ist.
  • Fig. 5 zeigt eine zweite beispielhafte versteckte Kanalbildung. Dabei sorgt das simulierte Audiospektrum, das aber eine andere Form als die Kurve A in Fig. 3 haben kann, dafür, dass die maskierte Audioschwelle auf einem angenäherten Pegel von 40 dB liegt mit einer untiefen Senke von etwa 10 dB bei 13 kHz. Der Deutlichkeit halber ist das Spektrum des Audios selber nicht dargestellt. Wie aus Fig. 3 deutlich hervorgeht, kann jede einzelne Spektrumspitze die maskierte Schwelle über eine Frequenzbreite in der Größenordnung der kritischen Frequenz gesteigert werden, was im Allgemeinen für das glatte Aussehen der Schwellenkurve sorgt. Auch hier ist der Einfluss des Hochfrequenzbereichs über 16 kHz ignoriert. Nun ist die Kurve 1 dieselbe wie in Fig. 4. Die Kurve 2 ist wieder das Spektrum des flachen Rauschens, geformt zum Erhalten nahezu desselben Aussehen wie die maskierte Schwelle der Kurve 4; in diesem Fall ist die gesamte Form der Kurve 2 viel flacher als in der vorhergehenden Figur. Die Kurve 3 entspricht der Kurve 2, aber über einen Abstand von b*6 dB relativ aufwärts geschoben, wobei in Fig. 5 b = 6 ist. Dies bedeutet einen versteckten Kanal von sechs Bits breit je Abtastwert. Es hat sich herausgestellt, dass für höhere Tonenergie die Breite des versteckten Kanals zunehmen kann. Weiterhin hat es sich herausgestellt, dass die Form des Tonspektrums in vielen Fällen sehr wichtig ist. Mit der Form der Kurve 2 in Fig. 4, angewandt in Fig. 5, würde die Verbesserung viel weniger gewesen sein in der letzteren Figur. Die Annäherung der vorhergehenden Figuren basiert auf dem vollen Frequenzspektrum. Bei bestimmten Audiosystemen ist das Spektrum in Teilbänder aufgeteilt, wobei die betreffenden Teilbänder weitgehend unabhängige Audiosignale trägt. In einer solchen Situation kann das Verfahren und die Anordnung nach der vorliegenden Erfindung für jedes Teilband oder jede Teilbandkombination einzeln angewandt werden. Zum Preis einer etwas höheren Komplexität würde dies die Übertragungsdatenrate des versteckten Kanals weiter steigern.
  • BERECHNUNG VON RAUSCHGEWICHTUNGSFILTERN UND RAUSCHFORMFILTERN AUS MASKIERTEN ZIELPEGELN
  • Nachstehend wird eine bevorzugte Ausführungsform zur Berechnung einer zusammengesetzten Filterkurve für das Filter 64 in Fig. 2 beschrieben. Eine re levante Veröffentlichung auf diesem Gebiet ist von E. Ordentlich und Y. Shoham, "Low-delay code-excited linear-predictive coding of wideband speech Aufzeichnungsträger 32 kbps", "Proc. ICASSP-91", Seiten 9-12, Torronto, 1991. An sich ist die präsentierte Technik geeignet für mehrere Applikationen in verschiedenen Bereichen, wie MPE, RPE, und CELP. Darin wird auf Basis des Kriteriums eines gewichteten statistischen Gesamtfehlers eine Anregungssequenz (MPE, RPE) oder ein Anregungsvektor (CELP = codebook excited linear prediction) selektiert.
  • In einem derartigen Codierer werden kurze Ausgangsequenzen aus einer Anzahl Anregungssequenzen oder -vektoren erzeugt. Die erzeugten Ausgangssequenzen werden mit den ursprünglichen Eingangssequenzen verglichen. Das Kriterium zum Vergleichen ist der gewichtete statistische Gesamtfehler. Dies bedeutet, dass die Differenz zwischen dem Eingang und dem erzeugten Ausgang durch ein Rauschgewichtungsfilter hindurchgeführt wird. Die Leistung der gefilterten Differenzsequenz wird danach geschätzt. Diese Leistung wird als der gewichtete statistische Gesamtfehler bezeichnet. Die Anregungssequenz, die den minimalen gewichteten statistischen Gesamtfehler ergibt, wird selektiert.
  • Fig. 6 zeigt, wie ein Gewichtungsfilter in einem CELP-Codierer benutzt wird. Aus dem eintreffenden Sprachsignal x[i] berechnet der Kasten LPC Analyse die Prädiktionskoeffizienten a&sub1;, ... ap, die Koeffizienten für das Gewichtungsfilter und einen Verstärkungsfaktor. Das Codebuch enthält eine Anzahl Anregungsvektoren. Die Vektorlänge ist N. Während der Selektion werden alle Vekloren mit dem Verstärkungsfaktor multipliziert und durch ein Analysenfilter hindurchgeführt. Dies führt zu einer Sequenz von N Abtastwerten, bezeichnet durch [i]. Eine Fehlersequenz wird durch Subtrahierung von N Eingangsabtastwerten x[i] von N Abtastwerten [i]. Die Fehlersequenz wird durch das Gewichtungsfilter hindurchgeführt. Der gewichtete statistische Gesamtfehler, der die kurzfristige Leistung der gewichteten Fehlersequenz ist, wird berechnet. Der Selektionskasten selektiert den Codevektor, der zu dem niedrigsten gewichteten statistischen Gesamtfehler führt. Der Verstärkungsfaktor, die Prädiktionskoeffizienten und der Index der Vektoren werden dem Decoder zugeführt.
  • In diesem Zusammenhang wird ein Anregungsvektor als eine Anregungssequenz betrachtet, wozu nur der Ausdruck Anregungssequenz geprägt wird.
  • Die üblicherweise benutzten Gewichtungsfilter basieren auf den Prädiktionskoeffizienten (LPC-Koeffizienten) a&sub1;, ..., ap des Sprachsignals. Eine etwaige Form dieses Filters ist
  • Die Koeffizienten p&sub1; und p&sub2; werden dadurch gefunden, dass eine LPC-Analyse auf die ersten drei Autokorrelationsschenkel der Sequenz angewandt wird. Die Koeffizienten δ, γ&sub1; und γ&sub2; steuern den Betrag der Gewichtung an der Stelle der Formanten. Sie werden derart abgestimmt, dass eine gute perzeptuelle Leistung erhalten wird. Vorteilhafte Werte sind:
  • δ = 0,7, γ&sub1; = 0,95, γ&sub2; = 0,8.
  • Andere ähnliche Formen sind ebenfalls nützlich. Für ein gut gewähltes Codebuch ist die leistungsspektrale Dichtefunktion des Codierungsfehlers proportional zu
  • RAUSCHFORMER
  • Die Funktion eines Rauschformers ist Quantisierungsrauschen eine spektrale Form zu geben. Fig. 7 zeigt das Basisdiagramm eines Rauschformers. Es kann dargelegt werden, dass nach Decodierung die leistungsspektrale Dichtefunktion des Quantisierungsrauschens gegeben wird durch:
  • Wobei Δ wieder die Quantisierungsschrittgröße ist. Ein allgemein übliches Filter F(z) bei der linearen Codierung von Sprache ist
  • mit &gamma; < 1. In diesem Fall wird die leistungsspektrale Dichtefunktion des Quantisierungsrauschens gegeben durch:
  • Der Zweck eines Gewichtungsfilters und eines Rauschformers ist die spektrale Formung des Codierungsfehlers derart, dass Verzerrung perzeptuell am wenigsten störend ist. Bei der Codierung von Musik schätzen mehrere Verfahren den Maskierungspegel des Quantisierungsrauschens in den Frequenzbändern. Dieser Pegel wird als maskierender Zielpegel bezeichnet. Das Ziel dieser Verfahren ist auch eine Verzerrung zu erhalten, die perzeptuell am wenigstens stört. Sie haben aber eine bessere psychoakustische Grundlage als das Gewichtungsfilter von (1) oder der Rauschformen von (4) und wird deswegen zu einer besseren Annäherung der leistungsspektralen Dichtefunktion maskierten Rauschens fuhren.
  • Untenstehendes kombiniert die Gewichtungsfiltertechnik oder die Rauschformungstechnik mkt der Berechnung des maskierten Zielpegels. Die Gewichtungsfilter oder Rauschformer, die auf diese Art und Weise erhalten werden, sind besser als die bekannten, weil deren Übertragungsfunktionen der spektralen Form des maskierten Rauschens besser entsprechen.
  • ZIELPEGEL UND FREQUENZBÄNDER
  • Es wird vorausgesetzt, dass ein Satz von Zielpegeln t&sub1;, ..., tm im Voraus berechnet wird, beispielsweise durch Messungen, die anhand der Fig. 3, 4, 5 beschrie ben worden sind. Die Zielpegel stellen Rauschleistungen in den Frequenzbändern bei einer Maskierungsschwelle dar. Diese Frequenzbänder müssen aneinander anschließend sein und müssen den Bereich von Null bis die Hälfte der Abtastfrequenz bedecken. Normalisierte Frequenzen &theta; werden benutzt, deswegen ist
  • -&pi; &le; &theta; &le; &pi;.
  • Die entsprechende normalisierte Audio-Frequenz f folgt aus den nachfolgenden Gleichung:
  • Wobei fs die Abtastrate ist.
  • In dem Nachfolgenden können die Bandbreiten beliebig gewählt werden. In der Praxis werden kritische Bänder oder in gleichen Abständen voneinander liegende Bänder verwendet. Die untere Frequenz, die obere Frequenz und die mittlere Frequenz des Frequenzbandes, das dem maskierten Zielpegel tk entspricht, werden wie folgt bezeichnet: &theta; ,&theta; bzw. &theta; .
  • REKONSTRUKTION DER LEISTUNGSSPEKTRALEN DICHTE
  • Eine geschmeidige leistungsspektrale Dichtefunktion (psd): S(exp(j&theta;)) kann dadurch von den maskierten Zielpegeln hergeleitet werden, dass mit dem k. Frequenzband eine psd-Rekonstruktionsfunktion Sk(&theta;) assoziiert wird. Die psd folgt dann aus der nachfolgenden Gleichung:
  • Es gibt einige Beschränkungen für die psd-Rekonstruktionsfunktionen. An erster Stelle muss die psd nicht negativ sein. Dies bedeutet, dass
  • Sk(&theta;) &ge; 0,k = 1 ..., m (7)
  • An zweiter Stelle, falls Leistungssparung, d. h.
  • erforderlich ist, dann gilt:
  • Eine schrittweise Annäherung der psd wird dadurch erhalten, dass psd- Rekonstruktionsfunktionen gewählt werden
  • wobei &Delta;k = &theta; - &theta; . Schrittweise Annäherungen rühren nicht zu einer geschmeidigen psd. Dazu ist eine gesteigerte Kosinus psd-Rekonstruktionsfunktion besser geeignet. Dies wird gegeben durch
  • Fig. 8 zeigt eine derartige elementare Filterkurve. Auch die gesteigerte Kosinus psd Rekonstruktionsfunktion hat ihre Beschränkungen. Sie kann beispielsweise nicht eine flache psd rekonstruieren, wenn die Frequenzbänder nicht in gleichen Abständen voneinander liegen. Dies kann dadurch verbessert werden, dass verschiedene obere und untere Neigungen verwendet werden. Die Wahl einer psd-Rekonstruktionsfünktion wird bestimmt durch das gewünschte spektrale Verhalten des maskierten Rauschens.
  • ANNÄHERUNG DER LEISTUNGSSPEKTRALEN DICHTE
  • Die rekonstruierte psd S(exp(j&theta;)) wird durch ein Alle-Pole-Spektrum angenähert
  • wobei q die Größenordnung des Alle-Pole-Spektrums ist. Dies fuhrt zu einem Gewichtungsfilter mit einer Übertragungsfunktion
  • Das Gewichtungsfilter ist ein FIR-Filter, dies im Gegensatz zu dem Filter aus (1). In dem Nachfolgenden werden b&sub1;, ..., bq aus t&sub1;, ..., tm dadurch berechnet, dass die nachfolgende Gleichung minimiert wird:
  • als eine Funktion von b&sub1;, ..., bq. In (14) folgt S(exp(j&theta;)) aus (6). Zusammenfassend lässt sich sagen: es ist erforderlich dem Spektrum S(&theta;) anzunähern, wobei &theta; eine normalisierte Frequenz ist. Nun ist die Funktion B die inverse Funktion von F(eq.23) und Q ist eine Konstante. Nun führt die Berechnung von Abgeleiteten:
  • und die Tatsache, dass diese gleich Null gemacht werden, zu dem nachfolgenden Satz von Gleichungen:
  • Oder,
  • Definieren
  • und
  • Die gk,n kann im Voraus aus den psd-Rekonstruktionsfunktionen berechnet und in einer m · q Matrix gespeichert werden. Bei Substitution dieser Ergebnisse in (16) erhält man den nachfolgenden Satz von Gleichungen
  • Dies ist ein symmetrisches, positiv-endgültiges Toeplitz-System, das den Yle-Walker- Gleichungen, bekannt aus der linearen prädiktiven Codierung, entspricht. Definiere die q · q Matrix R durch
  • ri,j = pi-j, i,j = 1, ..., q
  • Und den q-Vektor r durch
  • ri = pi, i = 1, ..., q.
  • Dies führt zu
  • Rb = -r, (20)
  • wobei der q-Vektor b die Koeffizienten b&sub1;, ..., bq enthält. Der Satz (19) oder (20) wird auf einfache Weise durch den bekannten Levinson-Durbin-Algorithmus gelöst.
  • BEISPIELE VON gk,n
  • Für die schrittweise Annäherung von S(exp(j&theta;)) werden die gk,n gegeben durch:
  • Für die gesteigerte Kosinusannäherung von S(exp(j&theta;)) werden die kk,n gegeben durch:
  • Die Koeffizienten b&sub1;, ..., bq können unmittelbar in einem Gewichtungsfilter W(z) angewandt werden, wie in Fig. 7 angegeben, wobei W(z) = B(z) ist, mit B(z) definiert in (13). Im Falle eines Rauschformers folgt F(z) aus:
  • so dass

Claims (15)

1. Verfahren zum Codieren einer Schalldarstellung, empfangen als ein Strom von Eingangsabtastwerten (20) mit mehreren Bits, gekennzeichnet durch die nachfolgenden Verfahrensschritte:
- das Bilden einer Sequenz endlicher Länge der genannten Abtastwerte und das Bestimmen einer instantanen Schwelle-zu-Frequenzcharakteristik (22) einer nicht einheitlichen Hörbarkeit in der genannten Sequenz;
- das Subtrahieren eines geformten Rauschsignals aus den genannten Eingangsabtastwerten zum Erzeugen von Verarbeitungsabtastwerten;
- das dynamische Überspringen der Verarbeitung von Abtastbits, unterhalb eines mit der genannten Charakteristik assoziierten Bitpegels, durch Subtraktion eines Zittersignals (v) und einer nachfolgenden Quantisierung (56) durch eine variable Anzahl von b Bits unterhalb des genannten Bitpegels, aber das Aufrechterhalten wenigstens aller Verarbeitungsabtastwertbits über dem genannten Bitpegel;
- das Ersetzen derartiger übersprungener Verarbeitungsabtastwertbits durch das genannte Zittersignal als versteckte Kanalbits (24), die eine einstellbare Anzahl von b Bits je genannter Verarbeitungsabtastwert (26) bilden;
- das Ausliefern erweiterter Abtastwerte (y) mit nicht übersprungenen Verarbeitungsabtastwertbits und versteckter Kanalbits (24);
- während der Erzeugung des genannten Rauschsignals durch Fromfilterung durch ein Rauschformfilter (64) bei einer zitterbestimmten Differenz zwischen den genannten erweiterten Abtastwerten und den genannten Verarbeitungsabtastwerten, wobei die genannte Formfilterung ein empfangenes Differenzsignal (e) in Richtung der genannten instantanen Schwelle-zu-Frequenzcharakteristik korrigiert.
2. Verfahren nach Anspruch 1, wobei das genannte Rauschformfilter (64) ein Differenzsignal (e) empfängt, das einer Weißes-Rauschen-artigen Charakteristik nähert.
3. Verfahren nach Anspruch 1 oder 2, wobei das genannte Erzeugen durch ein Rauschformfilter (64) mit einer variablen Charakteristik erfolgt.
4. Verfahren nach Anspruch 1, 2 oder 3, wobei ein musikalischer Übergang in einem bestimmten Zeitintervall delektiert wird, und wobei während einer derartigen Detektion der Wert von b in diesem Intervall auf einen Wert gesetzt wird, der wenigstens aus einem benachbarten Zeitintervall ohne diesen musikalischen Übergang mit bestimmt wird.
5. Verfahren nach einem der Ansprüche 1 bis 4, wobei vorübergehend Daten (50) gepuffert werden, die als versteckte Kanaldaten verwendet werden sollen bevor die genannte Neuplatzierung in einen Puffer stattfindet und durch eine in der Zeit variierende Ratensteuerung eine zeitartige Gleichsetzung eines Füllgrades des genannten Puffers durchgerührt wird.
6. Verfahren nach einem der Ansprüche 1 bis 5, wobei die genannten versteckten Kanaldaten als ein MPEG-Audio-Kanal empfangen werden.
7. Verfahren nach einem der Ansprüche 1 bis 6, wobei die genannte Formfilterung (64) mit einem Filter durchgeführt wird, das eine Gesamtfilterkurve hat, zusammengesetzt aus einer Reihe elementarer Filterkurven, die je auf einer betreffenden einzigartigen Gitterfrequenz 0 positioniert sind und eine Breite 0 haben, einer örtlichen leistungsspektralen Dichte des Gesamtspektrums annähernd.
8. Verfahren nach Anspruch 7, wobei die genannten Gitterfrequenzen einen nicht einheitlichen Zwischenraum haben.
9. Verfahren nach einem der Ansprüche 1 bis 8 und einzeln angewandt auf betreffende Frequenz-Teilbänder, die in einem Frequenzspektrum der genannten Schalldarstellung koexistieren.
10. Codierungsanordnung mit Mitteln (22, 56, 26, 64, 50), angepasst zum Durchführen der Schritte des Codierungsverfahrens nach einem der Ansprüche 1 bis 9.
11. Signal mit erweiterten Audio-Abtastwerten (y) mit Hauptkanalbits, die nicht übersprungene Verarbeitungsabtastwertbits darstellen, und mit versteckten Kanalbits (24), die Hilfsdaten darstellen, wobei die Anzahl versteckter Kanalbits je Abtastwert von eine Hörbarkeitsschwelle-zu-Frequenzcharakteristik der Hauptkanalbits abhängig ist.
12. Signal nach Anspruch 11, wobei die versteckten Kanalbits (24) Angaben aufweisen, welche die Anzahl versteckter Kanalbits je Abtastwert angeben.
13 Signal nach Anspruch 12, wobei die versteckten Kanalbits (24) weiterhin Angaben enthalten, welche die Position einer nächsten Angabe in den versteckten Kanalbits angeben.
14. Signal nach einem der Ansprüche 11 bis 13, wenn das Signal in einem speziellen Zeitintervall einen musikalischen Übergang aufweist, wobei die Anzahl versteckter Kanalbits je Abtastwert wenigstens aus einem benachbarten Zeitintervall ohne diesen musikalischen Übergang mitbestimmt wird.
15. Signal nach einem der Ansprüche 11 bis 14, wobei die Hilfsdaten ein MPEG-Audiosignal sind.
DE69431622T 1993-12-23 1994-12-13 Verfahren und gerät zum kodieren von mit mehreren bits kodiertem digitalem ton durch subtraktion eines adaptiven zittersignals, einfügen von versteckten kanalbits und filtrierung, sowie kodiergerät zur verwendung bei diesem verfahren Expired - Lifetime DE69431622T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP93203652 1993-12-23
PCT/IB1994/000418 WO1995018523A1 (en) 1993-12-23 1994-12-13 Method and apparatus for encoding multibit coded digital sound through subtracting adaptive dither, inserting buried channel bits and filtering, and encoding and decoding apparatus for use with this method

Publications (2)

Publication Number Publication Date
DE69431622D1 DE69431622D1 (de) 2002-12-05
DE69431622T2 true DE69431622T2 (de) 2003-06-26

Family

ID=8214237

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69431622T Expired - Lifetime DE69431622T2 (de) 1993-12-23 1994-12-13 Verfahren und gerät zum kodieren von mit mehreren bits kodiertem digitalem ton durch subtraktion eines adaptiven zittersignals, einfügen von versteckten kanalbits und filtrierung, sowie kodiergerät zur verwendung bei diesem verfahren

Country Status (6)

Country Link
US (1) US5649054A (de)
EP (1) EP0691052B1 (de)
JP (2) JP3782103B2 (de)
KR (1) KR100518470B1 (de)
DE (1) DE69431622T2 (de)
WO (1) WO1995018523A1 (de)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6449377B1 (en) 1995-05-08 2002-09-10 Digimarc Corporation Methods and systems for watermark processing of line art images
US5768426A (en) * 1993-11-18 1998-06-16 Digimarc Corporation Graphics processing system employing embedded code signals
US6611607B1 (en) 1993-11-18 2003-08-26 Digimarc Corporation Integrating digital watermarks in multimedia content
US6408082B1 (en) 1996-04-25 2002-06-18 Digimarc Corporation Watermark detection using a fourier mellin transform
US6944298B1 (en) 1993-11-18 2005-09-13 Digimare Corporation Steganographic encoding and decoding of auxiliary codes in media signals
US7171016B1 (en) 1993-11-18 2007-01-30 Digimarc Corporation Method for monitoring internet dissemination of image, video and/or audio files
US5748763A (en) 1993-11-18 1998-05-05 Digimarc Corporation Image steganography system featuring perceptually adaptive and globally scalable signal embedding
US6516079B1 (en) 2000-02-14 2003-02-04 Digimarc Corporation Digital watermark screening and detecting strategies
US6983051B1 (en) 1993-11-18 2006-01-03 Digimarc Corporation Methods for audio watermarking and decoding
US6424725B1 (en) 1996-05-16 2002-07-23 Digimarc Corporation Determining transformations of media signals with embedded code signals
US6614914B1 (en) 1995-05-08 2003-09-02 Digimarc Corporation Watermark embedder and reader
US6757406B2 (en) 1993-11-18 2004-06-29 Digimarc Corporation Steganographic image processing
US6122403A (en) 1995-07-27 2000-09-19 Digimarc Corporation Computer system linked by using information in data objects
US20030056103A1 (en) * 2000-12-18 2003-03-20 Levy Kenneth L. Audio/video commerce application architectural framework
US6307949B1 (en) * 1996-05-07 2001-10-23 Digimarc Corporation Methods for optimizing watermark detection
US6381341B1 (en) * 1996-05-16 2002-04-30 Digimarc Corporation Watermark encoding method exploiting biases inherent in original signal
KR100573627B1 (ko) 1997-01-27 2006-11-10 코닌클리케 필립스 일렉트로닉스 엔.브이. 기록된신호의복사방지용시스템
US6012031A (en) * 1997-09-24 2000-01-04 Sony Corporation Variable-length moving-average filter
JP3022462B2 (ja) * 1998-01-13 2000-03-21 興和株式会社 振動波の符号化方法及び復号化方法
US6792542B1 (en) 1998-05-12 2004-09-14 Verance Corporation Digital system for embedding a pseudo-randomly modulated auxiliary data sequence in digital samples
US6442283B1 (en) * 1999-01-11 2002-08-27 Digimarc Corporation Multimedia data embedding
US6233552B1 (en) 1999-03-12 2001-05-15 Comsat Corporation Adaptive post-filtering technique based on the Modified Yule-Walker filter
AUPQ122699A0 (en) * 1999-06-25 1999-07-22 Lake Dsp Pty Limited Sigma delta modulator with buried data
RU2258266C2 (ru) * 1999-07-20 2005-08-10 Конинклейке Филипс Электроникс Н.В. Носитель записи, несущий стереофонический сигнал и сигнал данных, и устройство и способ для записи и воспроизведения стереофонического сигнала и сигнала данных на/с носителе(я)
WO2001033555A1 (en) * 1999-10-30 2001-05-10 Stmicroelectronics Asia Pacific Pte. Ltd. Method of encoding an audio signal using a quality value for bit allocation
JP2003518354A (ja) * 1999-12-21 2003-06-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 伝送媒体を介する第1及び第2のデジタル情報信号の伝送
US7043312B1 (en) * 2000-02-17 2006-05-09 Sonic Solutions CD playback augmentation for higher resolution and multi-channel sound
EP1275107A4 (de) * 2000-02-18 2005-09-21 Intervideo Inc Verknüpfen von internet-dokumenten mit komprimierten audiodateien
JP2002076898A (ja) * 2000-08-25 2002-03-15 Nippon Precision Circuits Inc ノイズシェーパ
US6674876B1 (en) 2000-09-14 2004-01-06 Digimarc Corporation Watermarking in the time-frequency domain
EP1323161A2 (de) * 2000-09-20 2003-07-02 Koninklijke Philips Electronics N.V. Inhaltslieferung
US20020060605A1 (en) * 2000-09-22 2002-05-23 Kowkutla Venkateswar R. Amplifiers
US7376242B2 (en) * 2001-03-22 2008-05-20 Digimarc Corporation Quantization-based data embedding in mapped data
US8050452B2 (en) * 2001-03-22 2011-11-01 Digimarc Corporation Quantization-based data embedding in mapped data
JP2002311975A (ja) * 2001-04-16 2002-10-25 Sony Corp 記録方法、記録装置、再生方法及び再生装置
US7006662B2 (en) * 2001-12-13 2006-02-28 Digimarc Corporation Reversible watermarking using expansion, rate control and iterative embedding
JP2005533271A (ja) * 2002-07-16 2005-11-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化
US7590251B2 (en) * 2003-03-21 2009-09-15 D2Audio Corporation Clip detection in PWM amplifier
CN1768386A (zh) * 2003-04-08 2006-05-03 皇家飞利浦电子股份有限公司 与隐藏数据信道有关的脆弱音频水印
US7929718B1 (en) 2003-05-12 2011-04-19 D2Audio Corporation Systems and methods for switching and mixing signals in a multi-channel amplifier
US7460684B2 (en) 2003-06-13 2008-12-02 Nielsen Media Research, Inc. Method and apparatus for embedding watermarks
EP1758100B1 (de) * 2004-05-19 2010-11-03 Panasonic Corporation Audiosignalcodierer und audiosignaldecodierer
MX2007000076A (es) 2004-07-02 2007-03-28 Nielsen Media Res Inc Metodos y aparatos para mezclar corrientes comprimidas de bits digitales.
US7315264B2 (en) * 2006-01-17 2008-01-01 D2Audio Corporation Systems and methods for controlling transient response in the output of a noise shaper
US8078301B2 (en) 2006-10-11 2011-12-13 The Nielsen Company (Us), Llc Methods and apparatus for embedding codes in compressed audio data streams
US20080167879A1 (en) * 2006-10-16 2008-07-10 Du Bois Denis D Speech delimiting processing system and method
US8054969B2 (en) * 2007-02-15 2011-11-08 Avaya Inc. Transmission of a digital message interspersed throughout a compressed information signal
US8081028B2 (en) * 2007-12-31 2011-12-20 Intersil Americas Inc. Systems and methods for improved over-current clipping
GB2466674B (en) 2009-01-06 2013-11-13 Skype Speech coding
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466670B (en) * 2009-01-06 2012-11-14 Skype Speech encoding
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466669B (en) * 2009-01-06 2013-03-06 Skype Speech coding
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
US8452606B2 (en) * 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
US8494180B2 (en) * 2010-01-08 2013-07-23 Intersil Americas Inc. Systems and methods to reduce idle channel current and noise floor in a PWM amplifier
US8594167B2 (en) * 2010-08-25 2013-11-26 Indian Institute Of Science Determining spectral samples of a finite length sequence at non-uniformly spaced frequencies
WO2014141413A1 (ja) * 2013-03-13 2014-09-18 株式会社東芝 情報処理装置、出力方法およびプログラム
GB2524784B (en) * 2014-04-02 2018-01-03 Law Malcolm Transparent lossless audio watermarking

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5185800A (en) * 1989-10-13 1993-02-09 Centre National D'etudes Des Telecommunications Bit allocation device for transformed digital audio broadcasting signals with adaptive quantization based on psychoauditive criterion
KR100294163B1 (ko) * 1991-05-29 2001-09-17 조셉 비. 파워즈 개선된신호엔코드/디코드시스템
GB2257606B (en) * 1991-06-28 1995-01-18 Sony Corp Recording and/or reproducing apparatuses and signal processing methods for compressed data
FI89439C (fi) * 1991-10-30 1993-09-27 Salon Televisiotehdas Oy Foerfarande foer att dekoda en audiosignal i vilken annan information aer infoerd med anvaendning av maskningseffekt
GB9216659D0 (en) * 1992-08-05 1992-09-16 Gerzon Michael A Subtractively dithered digital waveform coding system
GB9302982D0 (en) * 1993-02-15 1993-03-31 Gerzon Michael A Data transmission method in digital waveform signal words
JP3396512B2 (ja) * 1993-08-31 2003-04-14 パイオニア株式会社 ディザ生成装置

Also Published As

Publication number Publication date
KR960701518A (ko) 1996-02-24
EP0691052B1 (de) 2002-10-30
KR100518470B1 (ko) 2005-12-27
WO1995018523A1 (en) 1995-07-06
JP2006139306A (ja) 2006-06-01
US5649054A (en) 1997-07-15
EP0691052A1 (de) 1996-01-10
JP3782103B2 (ja) 2006-06-07
JPH08507391A (ja) 1996-08-06
DE69431622D1 (de) 2002-12-05

Similar Documents

Publication Publication Date Title
DE69431622T2 (de) Verfahren und gerät zum kodieren von mit mehreren bits kodiertem digitalem ton durch subtraktion eines adaptiven zittersignals, einfügen von versteckten kanalbits und filtrierung, sowie kodiergerät zur verwendung bei diesem verfahren
DE69924431T2 (de) Vorrichtung und Verfahren zur dynamischen Bitverteilung für Audiokodierung
DE69531471T2 (de) Mehrkanalsignalkodierung unter Verwendung gewichteter Vektorquantisierung
DE69232251T2 (de) Digitaler Kodierer mit dynamischer Quantisierungsbitverteilung
DE69326484T2 (de) Vorrichtung und Verfahren zur Datenkompression
DE69323106T2 (de) Verfahren und Vorrichtung für perceptuelles Kodieren von Audio-Signalen
DE69432012T2 (de) Wahrnehmungsgebundene Kodierung von Audiosignalen
DE60110679T3 (de) Perzeptuelle Kodierung von Audiosignalen unter Verwendung von getrennter Reduzierung von Irrelevanz und Redundanz
DE69329796T2 (de) Verfahren zur kodierung, dekodierung und kompression von audiodaten
EP0954909B1 (de) Verfahren zum codieren eines audiosignals
DE69731677T2 (de) Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung
DE60310716T2 (de) System für die audiokodierung mit füllung von spektralen lücken
DE69804478T2 (de) Verfahren und vorrichtung zur codierung und decodierung mehrere tonkanäle mit geringer bitrate
DE69633633T2 (de) Mehrkanaliger prädiktiver subband-kodierer mit adaptiver, psychoakustischer bitzuweisung
DE60214027T2 (de) Kodiervorrichtung und dekodiervorrichtung
DE69023604T2 (de) Digitalsignalkodiergerät.
DE69618422T2 (de) Verfahren zur Sprachdekodierung und tragbares Endgerät
EP0290581B1 (de) Verfahren zum übertragen digitalisierter tonsignale
DE69422343T2 (de) Gerät, verfahren und system zur komprimierung eines digitalen eingangssignals in mehr als einem kompressionsmodus
EP0931386B1 (de) Verfahren zum signalisieren einer rauschsubstitution beim codieren eines audiosignals
DE60103424T2 (de) Verbessern der leistung von kodierungssystemen, die hochfrequenz-rekonstruktionsverfahren verwenden
DE602006000239T2 (de) Energieabhängige quantisierung für effiziente kodierung räumlicher audioparameter
DE60015030T2 (de) Auf Block Umschaltung basierender Teilband-Audiokodierer
DE69810361T2 (de) Verfahren und Vorrichtung zur mehrkanaligen akustischen Signalkodierung und -dekodierung
DE69123500T2 (de) 32 Kb/s codeangeregte prädiktive Codierung mit niedrigen Verzögerung für Breitband-Sprachsignal

Legal Events

Date Code Title Description
8364 No opposition during term of opposition