DE69431622T2 - Verfahren und gerät zum kodieren von mit mehreren bits kodiertem digitalem ton durch subtraktion eines adaptiven zittersignals, einfügen von versteckten kanalbits und filtrierung, sowie kodiergerät zur verwendung bei diesem verfahren - Google Patents
Verfahren und gerät zum kodieren von mit mehreren bits kodiertem digitalem ton durch subtraktion eines adaptiven zittersignals, einfügen von versteckten kanalbits und filtrierung, sowie kodiergerät zur verwendung bei diesem verfahrenInfo
- Publication number
- DE69431622T2 DE69431622T2 DE69431622T DE69431622T DE69431622T2 DE 69431622 T2 DE69431622 T2 DE 69431622T2 DE 69431622 T DE69431622 T DE 69431622T DE 69431622 T DE69431622 T DE 69431622T DE 69431622 T2 DE69431622 T2 DE 69431622T2
- Authority
- DE
- Germany
- Prior art keywords
- bits
- signal
- hidden channel
- samples
- channel bits
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 25
- 238000001914 filtration Methods 0.000 title claims description 7
- 230000008569 process Effects 0.000 title description 4
- 230000003044 adaptive effect Effects 0.000 title 1
- 238000001228 spectrum Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 16
- 230000003595 spectral effect Effects 0.000 claims description 13
- 238000013139 quantization Methods 0.000 claims description 11
- 238000007493 shaping process Methods 0.000 claims description 9
- 230000001419 dependent effect Effects 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims 4
- 238000001514 detection method Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 18
- 239000013598 vector Substances 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 9
- 230000005284 excitation Effects 0.000 description 8
- 230000000873 masking effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 239000012925 reference material Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000005465 channeling Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000032258 transport Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/665—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Filters That Use Time-Delay Elements (AREA)
Description
- Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Codieren einer Schalldarstellung, empfangen als ein Strom von Eingangsabtastwerten mit mehreren Bits, während versteckte Kanalbits eingefügt werden. Ein derartiges Verfahren ist in einer Veröffentlichung von M. A. Gerzon und P. G. Craven "A High-Rate Buried Channel for Audio CD", Vordruck '3551 der "Audio Eng, Soc. Conv." Berlin, März 1993 beschrieben worden. Siehe ebenfalls die internationale Patentanmeldung WO 94/03988, Priorität vom 5. August 1992, veröffentlicht am 17. Februar 1994 derselben Aufhören. Das erste Bezugsmaterial basiert auf eine relativ einfache Art und Weise der Addierung eines versteckten Kanals durch subtraktive gezitterte rauschförmige Quantisierung. Obschon das hinzugefügte Merkmal es ermöglicht, dass die hohe Qualität des übertragenen Schalles durch einen versteckten Kanal verbessert wird, haben die Erfinder der vorliegenden Erfindung entdeckt, dass das Bezugsmaterial die Möglichkeiten des "Subtraktions"-Prinzips nicht völlig ausnutzt, wobei diese Unzulänglichkeit entweder zu einer niedrigeren als optimalen Übertragungskapazität des versteckten Kanals führt, oder, auf alternative Weise, zu einer niedrigeren als beabsichtigten restlichen Perzeptionsqualität des ursprünglichen Schalles hoher Qualität, beispielsweise CD-Qualität, aber sie ist nicht darauf begrenzt.
- Deswegen ist es u. a. eine Aufgabe der vorliegenden Erfindung die Charakteristiken des versteckten Kanaleinschlusses zu verbessern zur Optimierung der restlichen Perzeptionsqualität und der Übertragungsqualität des versteckten Tonkanals. Nun wird, nach einem dieser Aspekte, die vorliegende Erfindung gekennzeichnet durch die nachfolgenden Verfahrensschritte:
- - das Bilden einer Sequenz endlicher Länge der genannten Abtastwerte und das Bestimmen einer instantanen Schwelle-zu-Frequenzcharakteristik einer nicht einheitlichen Hörbarkeit in der genannten Sequenz;
- - das Subtrahieren eines geformten Rauschsignals aus den genannten Eingangsabtastwerten zum Erzeugen von Verarbeitungsabtastwerten;
- - das dynamische Überspringen der Verarbeitung von Abtastwertbits unterhalb eines mit der genannten Charakteristik assoziierten Bitpegels, durch Subtraktion eines Zittersignals (v) und einer nachfolgenden Quantisierung durch eine variable Anzahl von b Bits unterhalb des genannten Bitpegels, aber das Aufrechterhalten wenigstens aller Verarbeitungsabtastwertbits über dem genannten Bitpegel;
- - das Ersetzen derartiger übersprungener Verarbeitungsabtastwertbits durch das genannte Zittersignal als versteckte Kanalbits, die eine einstellbare Anzahl von b Bits je genannter Verarbeitungsabtastwert bilden;
- - das Ausliefern erweiterter Abtastwerte (y) mit nicht übersprungener Verarbeitungsabtastwertbits und versteckter Kanalbits;
- - während der Erzeugung des genannten Rauschsignals durch Fromfilterung durch ein Rauschformfilter bei einer zitterbestimmten Differenz zwischen den genannten erweiterten Abtastwerten und den genannten Verarbeitungsabtastwerten, wobei die genannte Formulierung ein empfangenes Differenzsignal in Richtung der genannten instantanen Schwelle-zu-Frequenzcharakteristik korrigiert.
- Insbesondere ermöglicht die Formfilterung der Differenz in Richtung der instantanen Schwelle-zu-Frequenzcharakteristik die Erzeugung von "Spektrumraum" bei denjenigen Frequenzen, für die das menschliche Hörsystem relativ unempfindlich ist. Das Ergebnis ist, dass für eine ziemlich große Länge von Abtastwerten eine einheitliche Anzahl versteckter Kanalbits je Abtastwert injiziert werden kann. Für eine nachfolgende Sequenz soll die Anzahl versteckter Kanalbits wieder bestimmt werden. Ein weiteres Merkmal ist, dass nach der Formgestaltung der Charakteristik des Hauptkanals auch die Charakteristik des versteckten Kanals auf dieselbe Art und Weise geformt werden kann zur Optimierung der Übertragungskapazität. Insbesonde re sollte das Zittersignal geformt werden. Dies fügt dem System einen bestimmten Betrag an Komplexität zu.
- Auf vorteilhafte Weise empfängt das Rauschformfilter ein Differenzsignal, das einer "Weißes Rauschen"-ähnlichen Charakteristik nähert. In vielen Fällen sind die Anforderungen an dem Differenzsignal nicht hoch in Bezug auf den möglichen Einfluss auf die Qualität des Hauptkanals und deswegen kann das Zittern einen beliebigen Inhalt haben. In anderen Situationen kann die Differenz nicht mit der Information des Hauptkanals korreliert werden, oder kann sogar nicht selbst korreliert sein. In diesen letzteren Situationen wird das Zittern vorverarbeitet um das geeignete Fehlen der Korrelation zu erhalten. Solche Maßnahmen sind an sich durchaus bekannt.
- Auf vorteilhafte Weise geschieht eine derartige Erzeugung durch ein Quantisierungsfilter mit einer variablen Charakteristik. Auf diese Weise werden eine verbesserte Anpassung an die instantane Hörbarkeit und eine verbesserte subjektive Audioqualität erzielt.
- Auf vorteilhafte Weise erfolgt die Formfilterung mit einem Filter mit einer gesamten Filterkurve, zusammengesetzt aus einer Reihe elementarer Filterkurven, die je auf einer betreffenden einzigartigen Gitterfrequenz θck positioniert werden mit einer Breite Δk, die einer örtlichen Leistungsspaktraldichte des gesamten Spektrums nähert. Dies ist eine extrem Geradeaus-Verfahren zum Modellieren der Leistungsspektrumdichte, wodurch u. a. ermöglicht wird, dass die genannten Gitterfrequenzen einen nicht einheitlichen Raum haben. Im Allgemeinen verbessert dies die verwendete Genauigkeit-zu-der Anzahl Gitterfrequenzen und folglich beschleunigt dies die Berechnung.
- Die vorliegende Erfindung bezieht sich ebenfalls auf ein Codierungsgerät zum Verwirklichen der Codierung. Aus den abhängigen Patentansprüchen gehen weitere Merkmale hervor.
- Ausführungsbeispiele der vorliegenden Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
- Fig. 1 ein allgemeines Blockschaltbild einer Anordnung nach der vorliegenden Erfindung,
- Fig. 2 einen subtraktiv gezitterten Quantisierer zur Verwendung als Basis für einen Codierer eines versteckten Kanals nach der vorliegenden Erfindung,
- Fig. 3 eine von der Frequenz abhängige maskierte Schwelle durch ein als Beispiel geltendes Schallspektrum,
- Fig. 4 ein Beispiel einer ersten Bildung eines versteckten Kanals,
- Fig. 5 ein Beispiel einer zweiten Bildung eines versteckten Kanals,
- Fig. 6 eine Darstellung eines vereinfachten CELP-Codierers ohne Teilungsprädiktion,
- Fig. 7 einen Rauschformquantisierer,
- Fig. 8 eine Elementarfilterkurve.
- Die Technologie der versteckten Kanäle nutzt die Tatsache aus, dass ein Audio- oder Schallsignal oft durch eine Genauigkeit dargestellt wird, die durch die Länge der Abtastwertbitreihe ausgedrückt wird, die in Tennen der erfahrenen Audio- Qualität im Wesentlichen zu hoch ist. Deswegen kann die Informationsmenge dadurch reduziert werden, dass die Übertragungskapazität für einen zusätzlichen Informationsdienst frei gelassen wird. Die zusätzliche Information wird in den am wenigsten signi fikanten Teil des Hauptsignals eingefügt. Für einen herkömmlichen Empfänger ist diese Modifikation des Hauptsignals insofern nicht relevant, dass ein menschlicher Zuhörer die Differenz nicht spürt. Ein verbessertes Empfangssystem aber wird die zusätzliche Information finden und diese an einem separaten Ausgang erzeugen. Nach der vorliegenden Erfindung wird das Differenzspektrum formgefiltert zum Korrigieren eines empfangenen Signals in Richtung einer aktuellen Schwelle-zu-Frequenzcharakteristik. Dies ermöglicht die Erzeugung eines "Spektrumraums" bei derartigen Frequenzen, für die das menschliche Hörsystem relativ unempfindlich ist. Wenn die Differenz "weisses-Rauschen"-ähnlich ist, wird der Zuhörer sogar noch unempfindlicher sein für den hinzugefügten Kanal.
- Fig. 1 zeigt ein gesamtes Blockschaltbild einer Anordnung nach der vorliegenden Erfindung. Der Block 20 ist eine Quelle digitalen Schalles, der als ein Strom von Abtastwerten codiert wird, die beispielsweise aus je 16 Bits bestehen kann, die bei etwa 44 kHz wiederkehren. Der Schall hat eine vordefinierte Bandbreite und kann einen beliebigen Inhalt haben, wie Musik, Sprache, oder etwas anderes. Der Block 22 bildet eine endliche Länge dieser Abtastwerte, so dass diese ein bestimmten Zeitintervall, sagen wird 1024 Abtastwerte = 0,02 Sekunden, dauern und bestimmen darin eine Hörbarkeitsschwelle-zu-Frequenzcharakteristik. Die Hörbarkeit kann auf Basis einer beschränkten Anzahl Charakteristiken des eintreffenden Audios bestimmt werden. Dies ist abhängig von der augenblicklichen Frequenz, von Maskierungseffekten in nur einem Frequenzband durch den Einfluss eines anderen Bandes, es ist abhängig von der allgemeinen oder örtlichen Lautstärke des Schalles und kann von Zuhörer zu Zuhörer variieren, wobei die letzte Variation aber im Allgemeinen übersprungen wird. Die Schwelle kann verschiedenartig aber auf an sich bekannte Art und Weise bestimmt werden. Weiterhin werden nach der Bestimmung der Schwelle die Abtastwerte durch Überspringen einer Anzahl von b weniger signifikanten Bits derselben quantisiert. Der Block 24 ist eine Quelle für versteckte Kanalbits. Die Art des versteckten Kanals kann beliebig sein, wie ein zusätzlicher Kommentar zu dem Hauptkanal, wie wiedergebbare Untertitel oder Text, ein zusätzlicher Tonkanal in einer Mehrkanal-Tonwiedergabe, gleicher oder betreffender anderer Qualitätspegel, Mehrsprachendienst, Karaoke oder sogar Video. Auch nicht relatierte Dienste sind empfangbar. Ein spezieller vorteilhafter Gebrauch aber ist den versteckten Kanal als MPEG-Audiokanal zu definieren. An sich hat sich diese Standard als nützlich erwiesen zum Liefern einer Audio-Übertragung hoher Qualität mit einer mäßigen Bitrate. Weiterhin kann der versteckte Kanal selber aus zwei oder mehr Unterkanälen bestehen, die funktionell nicht relatiert sind, obschon sie zusammen den versteckten Teil der erweiterten Abtastwerten bilden. In dem Block 26 sind die übersprungenen Abtastwertbits von der Quelle 20, oder von einem Teil davon, ausgehend von den niedrigeren signifikanten Pegeln, durch Bits von der Quelle 24 ersetzt. Weiterhin werden an in einem Abstand voneinander liegenden Stellen des Stromes erweiterter Abtastwerte Angaben in den versteckten Kanal eingefügt über wie groß danach die Anzahl übersprungener Bits Je Abtastwert ist oder sein wird und wenn akzeptabel, wann die nächste Angabe auftreten wird. Für einen effizienten Betrieb sollte der Anstand zwischen diesen Angaben auf einen optimalen Wert gesetzt werden. Wenn der Abstand zu klein ist, nimmt das "Overhead" zu. Wenn der Abstand zu groß ist, wird, gesehen von den einzelnen Abtastwerten, die Anzahl übersprungener Bits zu niedrig. Der Kanal 28, der übertragen, Speichern kann oder weitere Qualitäten hat, transportiert die erweiterten Abtastwerte zu dem Empfänger 30. Der Empfänger 30 kann auf Basis dieser empfangenen Angaben den Standardteil der Abtastwerte von den versteckten Kanalbits trennen. Der Standardteil der Abtastwerte wird zu dem Decoder 32 transportiert, der das Audio auf standardisierte Weise darstellt, wobei die substituierten Bits beibehalten werden, da sie sub-hörbaren Schall darstellen. Die versteckten Kanalbits werden zu einem zugeordneten Decoder (34) zugerührt, der zum einwandfreien Verarbeiten derselben programmiert ist. Ein anderer Aufsatz ist, dass der versteckte Kanaldecoder die ganzen Abtastwerte empfängt, wie diese an einem digitalen Ausgang eines Kanalempfängers und extrahiert die versteckte Kanalinformation daraus, während der Standardkanal übersprungen wird. Wenn andererseits ein normaler nicht erweiterter Empfänger für den Kanal vorgesehen ist, wird dieser die erweiterten Abtastwerte verarbeiten, als wären sie normale Abtastwerte. Dies endet ggf. in einem analogen Audioverstärker, der eine Art von Lautsprecher speist. Die versteckten Kanalbits, die im Allgemeinen zu den Hauptkanalbits nicht korreliert sind, stellen nun direkt eine Art von Rauschen dar, wobei dieser Rauschwert unterhalb der beabsichtigten Hörbarkeitsschwelle bleibt.
- Fig. 2 zeigt einen subtraktiv gezitterten Quantisierer zur Verwendung als Basis für einen versteckten Kanalcodierer entsprechend dem Bezugsmaterial, wie verbessert mit bestimmten Merkmalen nach der vorliegenden Erfindung. An dem Ein gang 52 wird ein b-Bit Zittersignal v in einer nachher noch zu beschreibenden Weise eingegeben. Die Elemente 54, 58, 60, 62 sind digitale Addierer-Subtrahierer einer geeigneten Bitweite. Das Element 56 ist ein Quantisierer, der die Genauigkeit des exemplarischen 16-Bit empfangenen Signals x zu einer niedrigeren Anzahl von 16-b Bits durch Abrundung reduziert. Ein derartiges Merkmal ist in dem Artikel von S. P. Lipshitz u. a.: Quantization and Dither: A theoretical Survey" J. Audio Eng. Soc. Heft 40 Nr. 5, Seiten 355-375, Mai 1992 beschrieben worden. Die Verwendung eines b-Bit gezitterten Signals v, wenn der Mangel an Korrelation mit dem Hauptkanal ausreicht, gewährleistet, dass der Quantisierungsfehler e spektral weiß bleibt und statistisch unabhängig von dem Eingangssignal x, was aus perzeptiven Gründen bevorzugt wird. Das Zittersignal kann eine beliebige Version des versteckten Kanalsignals sein, ohne Hinzufügung oder Aufopferung von Information. Eine derartige Statistisierung kann umgekehrt werden ohne dass eine Neusynchronisierung erforderlich ist. Es wurde erkannt, dass der beliebige Charakter relativ zu dem Hauptkanal spezifiziert ist, sowie innerhalb des versteckten Kanal selbst. Wenn im Kontext des versteckten Kanals selbst das Signal gut strukturiert ist, kann es durch herkömmliche Mittel statistisiert werden. Dasselbe Zittersignal v wird in dem Element 54 hinzugefügt zum Bilden des kompatiblen Ausgangssignals y an dem Ausgang 66 zur Speicherung, Übertragung oder zur weiteren Verarbeitung. Der Block 64 ist ein Rauschformfilter und empfängt die Differenz zwischen dem kompatiblen Ausgangssignal y und dem Eingangssignal vor der Einrührung des Zittersignals v, wie dies von dem Subtrahierer 62 erzeugt wird. Das Ausgangssignal des Rauschformfilters 64 wird zu dem Subtrahierer 60 zurückgeführt, der seinerseits das ursprüngliche Audiosignal x empfängt. Es hat sich herausgestellt, dass die Lautstärke des Rauschens mit nur einem FIR-Filter 9. Ord nung um etwa 16 dB reduziert werden kann. Diese Annäherung wird den Rauschpegel eines 2-3 Bits je Abtastwert versteckten Kanalsignals einer vergleichbaren Lautstärke wie der inhärente Rauschpegel in dem CD-Signal machen. Die Filtercharakteristik H(Z) soll derart sein, dass y, definiert als:
- Y = x + 1 - H(Z) ²·Δ²/12
- gegenüber x um einen Betrag geändert werden sollte, der subjektiv inkonsequent ist für den Zuhörer, wobei Δ = 2b die elementare Schrittgröße ist. Nun ist die Übertragungsrate des versteckten Kanals abhängig von der Grobheit des Requantisierungsvorgangs. In dieser Hinsicht geben Seite 2, 1.40 Flip-Flop-Schaltung und Seite 13, fünfter Abschnitt des ersten Artikels von Gerzon u. a. an, dass die Requantisierung gröber gemacht werden kann, wenn der resultierende Fehler durch ein Haupt- Audiosignal hohen Pegels maskiert wird. Die Erfinder der vorliegenden Erfindung haben andererseits eine noch effektivere Art und Weise entdeckt, um die Übertragungsrate des versteckten Kanals zu vergrößern, und zwar durch Anwendung der von der Frequenz abhängigen Empfindlichkeit des menschlichen Hörsystems. Eine weitere Verfeinerung der Anordnung nach Fig. 2 ist der Puffer 50, der vorübergehend die Daten speichern kann, die von dem versteckten Kanal 68 geliefert werden. Wegen der nicht einheitlichen Rate des versteckten Kanals an dem Ausgang 66 kann der Puffer eine Art von Rückkopplungsorganisation haben, der den Füllgrad mehr oder weniger konstant halten kann. Wenn der Puffer zu leer wird, kann die ganze Kapazität des versteckten Kanals in Teilen übergeben werden. Wenn der Puffer zu voll wird, gibt es mehrere Strategien: eine davon ist das Herabsetzen der Zuführrate von der Quelle 68. Eine mehr drastische Strategie ist, wenn es mehr als nur einen versteckten Kanal gibt, dass Übergeben des am wenigstens wichtigen Unterkanals davon. Wenn der Unterkanal Bewegtvideo darstellt, könnte dies vorübergehend zu einer Sequenz von Standbildern reduziert werden. Mehrere Modifikationen der Anordnung nach Fig. 2 sind selbstverständlich: so können beispielsweise bestimmte Addieranordnungen zu Subtrahieranordnungen geändert werden. Dies würde die Hardware etwas ändern, und zwar wegen der erforderlichen Fortpflanzung von Übernahmen. Insbesondere bei bestimmten Abtastwertnotierungssystemen ist aber der Eindruck minimal.
- In dieser Hinsicht zeigt Fig. 3 eine von der Frequenz abhängige Maskierungsschwelle durch ein erstes beispielhaftes Tonsystem. Fig. 4 zeigt eine erste beispielhafte versteckte Kanalformation auf Basis eines Null-Ton-Eingangs.
- In Fig. 4 gibt für ein genormtes oder vorausgesetztes menschliches Hörsystem die Kurve 4 den Hörbarkeitspegel, basiert auf einzelnen Frequenzen. Aus rechnerischen Gründen ist die Kurve 4 simuliert (siehe die geraden teile derselben), aber sie folgt den natürlichen Phänomenen sehr nahe. Bei etwa 4000 Hz ist diese Schwelle am niedrigsten, während sie bei höheren oder niedrigeren Frequenzen viel höher ist. Nun gibt die Spur 1 den flachen CD-Rauschboden an, der als 10¹&sup0; log (1/12 · 22050) dB gegeben wird. Nun sind, obschon die Kurve 4 die Hörbarkeitsschwelle für einzelne Frequenzen angibt, für Rauschen die Hörbarkeitseffekte viel höher, und die Frequenzcharakteristik sollte viel niedriger liegen als die Kurve 4. Nun ist die Kurve 2 das Spektrum des flachen Rauschens der Kurve 1, geformt zum Erhalten nahezu derselben Frequenzabhängigkeit wie die Schwelle der Kurve 4. Es hat sich experimentell herausgestellt, dass weder die wenigen dB Abweichung von der genauen Annäherung, noch die merkbar flachere Form über etwa 15 kHz einen negativen Einfluss auf die Gesamtleistung haben. Die Kurve 3 entspricht der Kurve 2 aber relativ nach oben verschoben, und zwar über einen Abstand von b*6 dB, wobei in Fig. 4b = 2 ist. Dies bedeutet einen versteckten Kanal von zwei (2) Bits breit je Abtastwert. Es hat sich herausgestellt, dass der Abstand zwischen den Kurven 3 und 4 die hinzugefügte Information unberührt lässt. Der minimale Abstand zwischen den Kurven 1 und 4 ist 10¹&sup0; log (660), was der kritischen Bandbreite um 4 kHz herum entspricht. Der Entwurf ist vorzugsweise mit Hilfe einer zusätzlichen Kurve gemacht worden, welche die integrierte Leistung des Spektrums der Kurve 3 angibt, und welche die Kurve 4 nicht berühren darf; der Einfachheit halber ist diese zusätzliche Kurve nicht dargestellt.
- Fig. 3 zeigt den Einfluss eines aktuellen Tonspektrums auf die Form der Hörbarkeitsschwelle. Nun ist die Kurve A das aktuelle Tonspektrum. Die Kurve B zeigt wieder die Hörbarkeitsschwelle für einzelne Töne. Es ist deutlich zu sehen, dass der talförmige Charakter der Kurve 4 in Fig. 4 verschwunden ist.
- Fig. 5 zeigt eine zweite beispielhafte versteckte Kanalbildung. Dabei sorgt das simulierte Audiospektrum, das aber eine andere Form als die Kurve A in Fig. 3 haben kann, dafür, dass die maskierte Audioschwelle auf einem angenäherten Pegel von 40 dB liegt mit einer untiefen Senke von etwa 10 dB bei 13 kHz. Der Deutlichkeit halber ist das Spektrum des Audios selber nicht dargestellt. Wie aus Fig. 3 deutlich hervorgeht, kann jede einzelne Spektrumspitze die maskierte Schwelle über eine Frequenzbreite in der Größenordnung der kritischen Frequenz gesteigert werden, was im Allgemeinen für das glatte Aussehen der Schwellenkurve sorgt. Auch hier ist der Einfluss des Hochfrequenzbereichs über 16 kHz ignoriert. Nun ist die Kurve 1 dieselbe wie in Fig. 4. Die Kurve 2 ist wieder das Spektrum des flachen Rauschens, geformt zum Erhalten nahezu desselben Aussehen wie die maskierte Schwelle der Kurve 4; in diesem Fall ist die gesamte Form der Kurve 2 viel flacher als in der vorhergehenden Figur. Die Kurve 3 entspricht der Kurve 2, aber über einen Abstand von b*6 dB relativ aufwärts geschoben, wobei in Fig. 5 b = 6 ist. Dies bedeutet einen versteckten Kanal von sechs Bits breit je Abtastwert. Es hat sich herausgestellt, dass für höhere Tonenergie die Breite des versteckten Kanals zunehmen kann. Weiterhin hat es sich herausgestellt, dass die Form des Tonspektrums in vielen Fällen sehr wichtig ist. Mit der Form der Kurve 2 in Fig. 4, angewandt in Fig. 5, würde die Verbesserung viel weniger gewesen sein in der letzteren Figur. Die Annäherung der vorhergehenden Figuren basiert auf dem vollen Frequenzspektrum. Bei bestimmten Audiosystemen ist das Spektrum in Teilbänder aufgeteilt, wobei die betreffenden Teilbänder weitgehend unabhängige Audiosignale trägt. In einer solchen Situation kann das Verfahren und die Anordnung nach der vorliegenden Erfindung für jedes Teilband oder jede Teilbandkombination einzeln angewandt werden. Zum Preis einer etwas höheren Komplexität würde dies die Übertragungsdatenrate des versteckten Kanals weiter steigern.
- Nachstehend wird eine bevorzugte Ausführungsform zur Berechnung einer zusammengesetzten Filterkurve für das Filter 64 in Fig. 2 beschrieben. Eine re levante Veröffentlichung auf diesem Gebiet ist von E. Ordentlich und Y. Shoham, "Low-delay code-excited linear-predictive coding of wideband speech Aufzeichnungsträger 32 kbps", "Proc. ICASSP-91", Seiten 9-12, Torronto, 1991. An sich ist die präsentierte Technik geeignet für mehrere Applikationen in verschiedenen Bereichen, wie MPE, RPE, und CELP. Darin wird auf Basis des Kriteriums eines gewichteten statistischen Gesamtfehlers eine Anregungssequenz (MPE, RPE) oder ein Anregungsvektor (CELP = codebook excited linear prediction) selektiert.
- In einem derartigen Codierer werden kurze Ausgangsequenzen aus einer Anzahl Anregungssequenzen oder -vektoren erzeugt. Die erzeugten Ausgangssequenzen werden mit den ursprünglichen Eingangssequenzen verglichen. Das Kriterium zum Vergleichen ist der gewichtete statistische Gesamtfehler. Dies bedeutet, dass die Differenz zwischen dem Eingang und dem erzeugten Ausgang durch ein Rauschgewichtungsfilter hindurchgeführt wird. Die Leistung der gefilterten Differenzsequenz wird danach geschätzt. Diese Leistung wird als der gewichtete statistische Gesamtfehler bezeichnet. Die Anregungssequenz, die den minimalen gewichteten statistischen Gesamtfehler ergibt, wird selektiert.
- Fig. 6 zeigt, wie ein Gewichtungsfilter in einem CELP-Codierer benutzt wird. Aus dem eintreffenden Sprachsignal x[i] berechnet der Kasten LPC Analyse die Prädiktionskoeffizienten a&sub1;, ... ap, die Koeffizienten für das Gewichtungsfilter und einen Verstärkungsfaktor. Das Codebuch enthält eine Anzahl Anregungsvektoren. Die Vektorlänge ist N. Während der Selektion werden alle Vekloren mit dem Verstärkungsfaktor multipliziert und durch ein Analysenfilter hindurchgeführt. Dies führt zu einer Sequenz von N Abtastwerten, bezeichnet durch [i]. Eine Fehlersequenz wird durch Subtrahierung von N Eingangsabtastwerten x[i] von N Abtastwerten [i]. Die Fehlersequenz wird durch das Gewichtungsfilter hindurchgeführt. Der gewichtete statistische Gesamtfehler, der die kurzfristige Leistung der gewichteten Fehlersequenz ist, wird berechnet. Der Selektionskasten selektiert den Codevektor, der zu dem niedrigsten gewichteten statistischen Gesamtfehler führt. Der Verstärkungsfaktor, die Prädiktionskoeffizienten und der Index der Vektoren werden dem Decoder zugeführt.
- In diesem Zusammenhang wird ein Anregungsvektor als eine Anregungssequenz betrachtet, wozu nur der Ausdruck Anregungssequenz geprägt wird.
- Die üblicherweise benutzten Gewichtungsfilter basieren auf den Prädiktionskoeffizienten (LPC-Koeffizienten) a&sub1;, ..., ap des Sprachsignals. Eine etwaige Form dieses Filters ist
- Die Koeffizienten p&sub1; und p&sub2; werden dadurch gefunden, dass eine LPC-Analyse auf die ersten drei Autokorrelationsschenkel der Sequenz angewandt wird. Die Koeffizienten δ, γ&sub1; und γ&sub2; steuern den Betrag der Gewichtung an der Stelle der Formanten. Sie werden derart abgestimmt, dass eine gute perzeptuelle Leistung erhalten wird. Vorteilhafte Werte sind:
- δ = 0,7, γ&sub1; = 0,95, γ&sub2; = 0,8.
- Andere ähnliche Formen sind ebenfalls nützlich. Für ein gut gewähltes Codebuch ist die leistungsspektrale Dichtefunktion des Codierungsfehlers proportional zu
- Die Funktion eines Rauschformers ist Quantisierungsrauschen eine spektrale Form zu geben. Fig. 7 zeigt das Basisdiagramm eines Rauschformers. Es kann dargelegt werden, dass nach Decodierung die leistungsspektrale Dichtefunktion des Quantisierungsrauschens gegeben wird durch:
- Wobei Δ wieder die Quantisierungsschrittgröße ist. Ein allgemein übliches Filter F(z) bei der linearen Codierung von Sprache ist
- mit γ < 1. In diesem Fall wird die leistungsspektrale Dichtefunktion des Quantisierungsrauschens gegeben durch:
- Der Zweck eines Gewichtungsfilters und eines Rauschformers ist die spektrale Formung des Codierungsfehlers derart, dass Verzerrung perzeptuell am wenigsten störend ist. Bei der Codierung von Musik schätzen mehrere Verfahren den Maskierungspegel des Quantisierungsrauschens in den Frequenzbändern. Dieser Pegel wird als maskierender Zielpegel bezeichnet. Das Ziel dieser Verfahren ist auch eine Verzerrung zu erhalten, die perzeptuell am wenigstens stört. Sie haben aber eine bessere psychoakustische Grundlage als das Gewichtungsfilter von (1) oder der Rauschformen von (4) und wird deswegen zu einer besseren Annäherung der leistungsspektralen Dichtefunktion maskierten Rauschens fuhren.
- Untenstehendes kombiniert die Gewichtungsfiltertechnik oder die Rauschformungstechnik mkt der Berechnung des maskierten Zielpegels. Die Gewichtungsfilter oder Rauschformer, die auf diese Art und Weise erhalten werden, sind besser als die bekannten, weil deren Übertragungsfunktionen der spektralen Form des maskierten Rauschens besser entsprechen.
- Es wird vorausgesetzt, dass ein Satz von Zielpegeln t&sub1;, ..., tm im Voraus berechnet wird, beispielsweise durch Messungen, die anhand der Fig. 3, 4, 5 beschrie ben worden sind. Die Zielpegel stellen Rauschleistungen in den Frequenzbändern bei einer Maskierungsschwelle dar. Diese Frequenzbänder müssen aneinander anschließend sein und müssen den Bereich von Null bis die Hälfte der Abtastfrequenz bedecken. Normalisierte Frequenzen θ werden benutzt, deswegen ist
- -π ≤ θ ≤ π.
- Die entsprechende normalisierte Audio-Frequenz f folgt aus den nachfolgenden Gleichung:
- Wobei fs die Abtastrate ist.
- In dem Nachfolgenden können die Bandbreiten beliebig gewählt werden. In der Praxis werden kritische Bänder oder in gleichen Abständen voneinander liegende Bänder verwendet. Die untere Frequenz, die obere Frequenz und die mittlere Frequenz des Frequenzbandes, das dem maskierten Zielpegel tk entspricht, werden wie folgt bezeichnet: θ ,θ bzw. θ .
- Eine geschmeidige leistungsspektrale Dichtefunktion (psd): S(exp(jθ)) kann dadurch von den maskierten Zielpegeln hergeleitet werden, dass mit dem k. Frequenzband eine psd-Rekonstruktionsfunktion Sk(θ) assoziiert wird. Die psd folgt dann aus der nachfolgenden Gleichung:
- Es gibt einige Beschränkungen für die psd-Rekonstruktionsfunktionen. An erster Stelle muss die psd nicht negativ sein. Dies bedeutet, dass
- Sk(θ) ≥ 0,k = 1 ..., m (7)
- An zweiter Stelle, falls Leistungssparung, d. h.
- erforderlich ist, dann gilt:
- Eine schrittweise Annäherung der psd wird dadurch erhalten, dass psd- Rekonstruktionsfunktionen gewählt werden
- wobei Δk = θ - θ . Schrittweise Annäherungen rühren nicht zu einer geschmeidigen psd. Dazu ist eine gesteigerte Kosinus psd-Rekonstruktionsfunktion besser geeignet. Dies wird gegeben durch
- Fig. 8 zeigt eine derartige elementare Filterkurve. Auch die gesteigerte Kosinus psd Rekonstruktionsfunktion hat ihre Beschränkungen. Sie kann beispielsweise nicht eine flache psd rekonstruieren, wenn die Frequenzbänder nicht in gleichen Abständen voneinander liegen. Dies kann dadurch verbessert werden, dass verschiedene obere und untere Neigungen verwendet werden. Die Wahl einer psd-Rekonstruktionsfünktion wird bestimmt durch das gewünschte spektrale Verhalten des maskierten Rauschens.
- Die rekonstruierte psd S(exp(jθ)) wird durch ein Alle-Pole-Spektrum angenähert
- wobei q die Größenordnung des Alle-Pole-Spektrums ist. Dies fuhrt zu einem Gewichtungsfilter mit einer Übertragungsfunktion
- Das Gewichtungsfilter ist ein FIR-Filter, dies im Gegensatz zu dem Filter aus (1). In dem Nachfolgenden werden b&sub1;, ..., bq aus t&sub1;, ..., tm dadurch berechnet, dass die nachfolgende Gleichung minimiert wird:
- als eine Funktion von b&sub1;, ..., bq. In (14) folgt S(exp(jθ)) aus (6). Zusammenfassend lässt sich sagen: es ist erforderlich dem Spektrum S(θ) anzunähern, wobei θ eine normalisierte Frequenz ist. Nun ist die Funktion B die inverse Funktion von F(eq.23) und Q ist eine Konstante. Nun führt die Berechnung von Abgeleiteten:
- und die Tatsache, dass diese gleich Null gemacht werden, zu dem nachfolgenden Satz von Gleichungen:
- Oder,
- Definieren
- und
- Die gk,n kann im Voraus aus den psd-Rekonstruktionsfunktionen berechnet und in einer m · q Matrix gespeichert werden. Bei Substitution dieser Ergebnisse in (16) erhält man den nachfolgenden Satz von Gleichungen
- Dies ist ein symmetrisches, positiv-endgültiges Toeplitz-System, das den Yle-Walker- Gleichungen, bekannt aus der linearen prädiktiven Codierung, entspricht. Definiere die q · q Matrix R durch
- ri,j = pi-j, i,j = 1, ..., q
- Und den q-Vektor r durch
- ri = pi, i = 1, ..., q.
- Dies führt zu
- Rb = -r, (20)
- wobei der q-Vektor b die Koeffizienten b&sub1;, ..., bq enthält. Der Satz (19) oder (20) wird auf einfache Weise durch den bekannten Levinson-Durbin-Algorithmus gelöst.
- BEISPIELE VON gk,n
- Für die schrittweise Annäherung von S(exp(jθ)) werden die gk,n gegeben durch:
- Für die gesteigerte Kosinusannäherung von S(exp(jθ)) werden die kk,n gegeben durch:
- Die Koeffizienten b&sub1;, ..., bq können unmittelbar in einem Gewichtungsfilter W(z) angewandt werden, wie in Fig. 7 angegeben, wobei W(z) = B(z) ist, mit B(z) definiert in (13). Im Falle eines Rauschformers folgt F(z) aus:
- so dass
Claims (15)
1. Verfahren zum Codieren einer Schalldarstellung, empfangen als ein
Strom von Eingangsabtastwerten (20) mit mehreren Bits, gekennzeichnet durch die
nachfolgenden Verfahrensschritte:
- das Bilden einer Sequenz endlicher Länge der genannten Abtastwerte und das
Bestimmen einer instantanen Schwelle-zu-Frequenzcharakteristik (22) einer nicht
einheitlichen Hörbarkeit in der genannten Sequenz;
- das Subtrahieren eines geformten Rauschsignals aus den genannten
Eingangsabtastwerten zum Erzeugen von Verarbeitungsabtastwerten;
- das dynamische Überspringen der Verarbeitung von Abtastbits, unterhalb eines mit
der genannten Charakteristik assoziierten Bitpegels, durch Subtraktion eines
Zittersignals (v) und einer nachfolgenden Quantisierung (56) durch eine variable Anzahl von
b Bits unterhalb des genannten Bitpegels, aber das Aufrechterhalten wenigstens aller
Verarbeitungsabtastwertbits über dem genannten Bitpegel;
- das Ersetzen derartiger übersprungener Verarbeitungsabtastwertbits durch das
genannte Zittersignal als versteckte Kanalbits (24), die eine einstellbare Anzahl von b
Bits je genannter Verarbeitungsabtastwert (26) bilden;
- das Ausliefern erweiterter Abtastwerte (y) mit nicht übersprungenen
Verarbeitungsabtastwertbits und versteckter Kanalbits (24);
- während der Erzeugung des genannten Rauschsignals durch Fromfilterung durch ein
Rauschformfilter (64) bei einer zitterbestimmten Differenz zwischen den genannten
erweiterten Abtastwerten und den genannten Verarbeitungsabtastwerten, wobei die
genannte Formfilterung ein empfangenes Differenzsignal (e) in Richtung der
genannten instantanen Schwelle-zu-Frequenzcharakteristik korrigiert.
2. Verfahren nach Anspruch 1, wobei das genannte Rauschformfilter (64)
ein Differenzsignal (e) empfängt, das einer Weißes-Rauschen-artigen Charakteristik
nähert.
3. Verfahren nach Anspruch 1 oder 2, wobei das genannte Erzeugen durch
ein Rauschformfilter (64) mit einer variablen Charakteristik erfolgt.
4. Verfahren nach Anspruch 1, 2 oder 3, wobei ein musikalischer
Übergang in einem bestimmten Zeitintervall delektiert wird, und wobei während einer
derartigen Detektion der Wert von b in diesem Intervall auf einen Wert gesetzt wird, der
wenigstens aus einem benachbarten Zeitintervall ohne diesen musikalischen Übergang
mit bestimmt wird.
5. Verfahren nach einem der Ansprüche 1 bis 4, wobei vorübergehend
Daten (50) gepuffert werden, die als versteckte Kanaldaten verwendet werden sollen
bevor die genannte Neuplatzierung in einen Puffer stattfindet und durch eine in der
Zeit variierende Ratensteuerung eine zeitartige Gleichsetzung eines Füllgrades des
genannten Puffers durchgerührt wird.
6. Verfahren nach einem der Ansprüche 1 bis 5, wobei die genannten
versteckten Kanaldaten als ein MPEG-Audio-Kanal empfangen werden.
7. Verfahren nach einem der Ansprüche 1 bis 6, wobei die genannte
Formfilterung (64) mit einem Filter durchgeführt wird, das eine Gesamtfilterkurve hat,
zusammengesetzt aus einer Reihe elementarer Filterkurven, die je auf einer
betreffenden einzigartigen Gitterfrequenz 0 positioniert sind und eine Breite 0 haben, einer
örtlichen leistungsspektralen Dichte des Gesamtspektrums annähernd.
8. Verfahren nach Anspruch 7, wobei die genannten Gitterfrequenzen
einen nicht einheitlichen Zwischenraum haben.
9. Verfahren nach einem der Ansprüche 1 bis 8 und einzeln angewandt
auf betreffende Frequenz-Teilbänder, die in einem Frequenzspektrum der genannten
Schalldarstellung koexistieren.
10. Codierungsanordnung mit Mitteln (22, 56, 26, 64, 50), angepasst zum
Durchführen der Schritte des Codierungsverfahrens nach einem der Ansprüche 1 bis
9.
11. Signal mit erweiterten Audio-Abtastwerten (y) mit Hauptkanalbits, die
nicht übersprungene Verarbeitungsabtastwertbits darstellen, und mit versteckten
Kanalbits (24), die Hilfsdaten darstellen, wobei die Anzahl versteckter Kanalbits je
Abtastwert von eine Hörbarkeitsschwelle-zu-Frequenzcharakteristik der Hauptkanalbits
abhängig ist.
12. Signal nach Anspruch 11, wobei die versteckten Kanalbits (24)
Angaben aufweisen, welche die Anzahl versteckter Kanalbits je Abtastwert angeben.
13 Signal nach Anspruch 12, wobei die versteckten Kanalbits (24)
weiterhin Angaben enthalten, welche die Position einer nächsten Angabe in den versteckten
Kanalbits angeben.
14. Signal nach einem der Ansprüche 11 bis 13, wenn das Signal in einem
speziellen Zeitintervall einen musikalischen Übergang aufweist, wobei die Anzahl
versteckter Kanalbits je Abtastwert wenigstens aus einem benachbarten Zeitintervall
ohne diesen musikalischen Übergang mitbestimmt wird.
15. Signal nach einem der Ansprüche 11 bis 14, wobei die Hilfsdaten ein
MPEG-Audiosignal sind.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP93203652 | 1993-12-23 | ||
PCT/IB1994/000418 WO1995018523A1 (en) | 1993-12-23 | 1994-12-13 | Method and apparatus for encoding multibit coded digital sound through subtracting adaptive dither, inserting buried channel bits and filtering, and encoding and decoding apparatus for use with this method |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69431622D1 DE69431622D1 (de) | 2002-12-05 |
DE69431622T2 true DE69431622T2 (de) | 2003-06-26 |
Family
ID=8214237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69431622T Expired - Lifetime DE69431622T2 (de) | 1993-12-23 | 1994-12-13 | Verfahren und gerät zum kodieren von mit mehreren bits kodiertem digitalem ton durch subtraktion eines adaptiven zittersignals, einfügen von versteckten kanalbits und filtrierung, sowie kodiergerät zur verwendung bei diesem verfahren |
Country Status (6)
Country | Link |
---|---|
US (1) | US5649054A (de) |
EP (1) | EP0691052B1 (de) |
JP (2) | JP3782103B2 (de) |
KR (1) | KR100518470B1 (de) |
DE (1) | DE69431622T2 (de) |
WO (1) | WO1995018523A1 (de) |
Families Citing this family (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6449377B1 (en) | 1995-05-08 | 2002-09-10 | Digimarc Corporation | Methods and systems for watermark processing of line art images |
US5768426A (en) * | 1993-11-18 | 1998-06-16 | Digimarc Corporation | Graphics processing system employing embedded code signals |
US6611607B1 (en) | 1993-11-18 | 2003-08-26 | Digimarc Corporation | Integrating digital watermarks in multimedia content |
US6408082B1 (en) | 1996-04-25 | 2002-06-18 | Digimarc Corporation | Watermark detection using a fourier mellin transform |
US6944298B1 (en) | 1993-11-18 | 2005-09-13 | Digimare Corporation | Steganographic encoding and decoding of auxiliary codes in media signals |
US7171016B1 (en) | 1993-11-18 | 2007-01-30 | Digimarc Corporation | Method for monitoring internet dissemination of image, video and/or audio files |
US5748763A (en) | 1993-11-18 | 1998-05-05 | Digimarc Corporation | Image steganography system featuring perceptually adaptive and globally scalable signal embedding |
US6516079B1 (en) | 2000-02-14 | 2003-02-04 | Digimarc Corporation | Digital watermark screening and detecting strategies |
US6983051B1 (en) | 1993-11-18 | 2006-01-03 | Digimarc Corporation | Methods for audio watermarking and decoding |
US6424725B1 (en) | 1996-05-16 | 2002-07-23 | Digimarc Corporation | Determining transformations of media signals with embedded code signals |
US6614914B1 (en) | 1995-05-08 | 2003-09-02 | Digimarc Corporation | Watermark embedder and reader |
US6757406B2 (en) | 1993-11-18 | 2004-06-29 | Digimarc Corporation | Steganographic image processing |
US6122403A (en) | 1995-07-27 | 2000-09-19 | Digimarc Corporation | Computer system linked by using information in data objects |
US20030056103A1 (en) * | 2000-12-18 | 2003-03-20 | Levy Kenneth L. | Audio/video commerce application architectural framework |
US6307949B1 (en) * | 1996-05-07 | 2001-10-23 | Digimarc Corporation | Methods for optimizing watermark detection |
US6381341B1 (en) * | 1996-05-16 | 2002-04-30 | Digimarc Corporation | Watermark encoding method exploiting biases inherent in original signal |
KR100573627B1 (ko) | 1997-01-27 | 2006-11-10 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 기록된신호의복사방지용시스템 |
US6012031A (en) * | 1997-09-24 | 2000-01-04 | Sony Corporation | Variable-length moving-average filter |
JP3022462B2 (ja) * | 1998-01-13 | 2000-03-21 | 興和株式会社 | 振動波の符号化方法及び復号化方法 |
US6792542B1 (en) | 1998-05-12 | 2004-09-14 | Verance Corporation | Digital system for embedding a pseudo-randomly modulated auxiliary data sequence in digital samples |
US6442283B1 (en) * | 1999-01-11 | 2002-08-27 | Digimarc Corporation | Multimedia data embedding |
US6233552B1 (en) | 1999-03-12 | 2001-05-15 | Comsat Corporation | Adaptive post-filtering technique based on the Modified Yule-Walker filter |
AUPQ122699A0 (en) * | 1999-06-25 | 1999-07-22 | Lake Dsp Pty Limited | Sigma delta modulator with buried data |
RU2258266C2 (ru) * | 1999-07-20 | 2005-08-10 | Конинклейке Филипс Электроникс Н.В. | Носитель записи, несущий стереофонический сигнал и сигнал данных, и устройство и способ для записи и воспроизведения стереофонического сигнала и сигнала данных на/с носителе(я) |
WO2001033555A1 (en) * | 1999-10-30 | 2001-05-10 | Stmicroelectronics Asia Pacific Pte. Ltd. | Method of encoding an audio signal using a quality value for bit allocation |
JP2003518354A (ja) * | 1999-12-21 | 2003-06-03 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 伝送媒体を介する第1及び第2のデジタル情報信号の伝送 |
US7043312B1 (en) * | 2000-02-17 | 2006-05-09 | Sonic Solutions | CD playback augmentation for higher resolution and multi-channel sound |
EP1275107A4 (de) * | 2000-02-18 | 2005-09-21 | Intervideo Inc | Verknüpfen von internet-dokumenten mit komprimierten audiodateien |
JP2002076898A (ja) * | 2000-08-25 | 2002-03-15 | Nippon Precision Circuits Inc | ノイズシェーパ |
US6674876B1 (en) | 2000-09-14 | 2004-01-06 | Digimarc Corporation | Watermarking in the time-frequency domain |
EP1323161A2 (de) * | 2000-09-20 | 2003-07-02 | Koninklijke Philips Electronics N.V. | Inhaltslieferung |
US20020060605A1 (en) * | 2000-09-22 | 2002-05-23 | Kowkutla Venkateswar R. | Amplifiers |
US7376242B2 (en) * | 2001-03-22 | 2008-05-20 | Digimarc Corporation | Quantization-based data embedding in mapped data |
US8050452B2 (en) * | 2001-03-22 | 2011-11-01 | Digimarc Corporation | Quantization-based data embedding in mapped data |
JP2002311975A (ja) * | 2001-04-16 | 2002-10-25 | Sony Corp | 記録方法、記録装置、再生方法及び再生装置 |
US7006662B2 (en) * | 2001-12-13 | 2006-02-28 | Digimarc Corporation | Reversible watermarking using expansion, rate control and iterative embedding |
JP2005533271A (ja) * | 2002-07-16 | 2005-11-04 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ符号化 |
US7590251B2 (en) * | 2003-03-21 | 2009-09-15 | D2Audio Corporation | Clip detection in PWM amplifier |
CN1768386A (zh) * | 2003-04-08 | 2006-05-03 | 皇家飞利浦电子股份有限公司 | 与隐藏数据信道有关的脆弱音频水印 |
US7929718B1 (en) | 2003-05-12 | 2011-04-19 | D2Audio Corporation | Systems and methods for switching and mixing signals in a multi-channel amplifier |
US7460684B2 (en) | 2003-06-13 | 2008-12-02 | Nielsen Media Research, Inc. | Method and apparatus for embedding watermarks |
EP1758100B1 (de) * | 2004-05-19 | 2010-11-03 | Panasonic Corporation | Audiosignalcodierer und audiosignaldecodierer |
MX2007000076A (es) | 2004-07-02 | 2007-03-28 | Nielsen Media Res Inc | Metodos y aparatos para mezclar corrientes comprimidas de bits digitales. |
US7315264B2 (en) * | 2006-01-17 | 2008-01-01 | D2Audio Corporation | Systems and methods for controlling transient response in the output of a noise shaper |
US8078301B2 (en) | 2006-10-11 | 2011-12-13 | The Nielsen Company (Us), Llc | Methods and apparatus for embedding codes in compressed audio data streams |
US20080167879A1 (en) * | 2006-10-16 | 2008-07-10 | Du Bois Denis D | Speech delimiting processing system and method |
US8054969B2 (en) * | 2007-02-15 | 2011-11-08 | Avaya Inc. | Transmission of a digital message interspersed throughout a compressed information signal |
US8081028B2 (en) * | 2007-12-31 | 2011-12-20 | Intersil Americas Inc. | Systems and methods for improved over-current clipping |
GB2466674B (en) | 2009-01-06 | 2013-11-13 | Skype | Speech coding |
GB2466671B (en) | 2009-01-06 | 2013-03-27 | Skype | Speech encoding |
GB2466675B (en) | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
GB2466670B (en) * | 2009-01-06 | 2012-11-14 | Skype | Speech encoding |
GB2466673B (en) | 2009-01-06 | 2012-11-07 | Skype | Quantization |
GB2466669B (en) * | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
GB2466672B (en) * | 2009-01-06 | 2013-03-13 | Skype | Speech coding |
US8452606B2 (en) * | 2009-09-29 | 2013-05-28 | Skype | Speech encoding using multiple bit rates |
US8494180B2 (en) * | 2010-01-08 | 2013-07-23 | Intersil Americas Inc. | Systems and methods to reduce idle channel current and noise floor in a PWM amplifier |
US8594167B2 (en) * | 2010-08-25 | 2013-11-26 | Indian Institute Of Science | Determining spectral samples of a finite length sequence at non-uniformly spaced frequencies |
WO2014141413A1 (ja) * | 2013-03-13 | 2014-09-18 | 株式会社東芝 | 情報処理装置、出力方法およびプログラム |
GB2524784B (en) * | 2014-04-02 | 2018-01-03 | Law Malcolm | Transparent lossless audio watermarking |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5185800A (en) * | 1989-10-13 | 1993-02-09 | Centre National D'etudes Des Telecommunications | Bit allocation device for transformed digital audio broadcasting signals with adaptive quantization based on psychoauditive criterion |
KR100294163B1 (ko) * | 1991-05-29 | 2001-09-17 | 조셉 비. 파워즈 | 개선된신호엔코드/디코드시스템 |
GB2257606B (en) * | 1991-06-28 | 1995-01-18 | Sony Corp | Recording and/or reproducing apparatuses and signal processing methods for compressed data |
FI89439C (fi) * | 1991-10-30 | 1993-09-27 | Salon Televisiotehdas Oy | Foerfarande foer att dekoda en audiosignal i vilken annan information aer infoerd med anvaendning av maskningseffekt |
GB9216659D0 (en) * | 1992-08-05 | 1992-09-16 | Gerzon Michael A | Subtractively dithered digital waveform coding system |
GB9302982D0 (en) * | 1993-02-15 | 1993-03-31 | Gerzon Michael A | Data transmission method in digital waveform signal words |
JP3396512B2 (ja) * | 1993-08-31 | 2003-04-14 | パイオニア株式会社 | ディザ生成装置 |
-
1994
- 1994-12-13 WO PCT/IB1994/000418 patent/WO1995018523A1/en active IP Right Grant
- 1994-12-13 DE DE69431622T patent/DE69431622T2/de not_active Expired - Lifetime
- 1994-12-13 EP EP95901577A patent/EP0691052B1/de not_active Expired - Lifetime
- 1994-12-13 KR KR1019950703544A patent/KR100518470B1/ko not_active IP Right Cessation
- 1994-12-13 JP JP51787295A patent/JP3782103B2/ja not_active Expired - Lifetime
- 1994-12-21 US US08/361,083 patent/US5649054A/en not_active Expired - Lifetime
-
2006
- 2006-01-25 JP JP2006016429A patent/JP2006139306A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
KR960701518A (ko) | 1996-02-24 |
EP0691052B1 (de) | 2002-10-30 |
KR100518470B1 (ko) | 2005-12-27 |
WO1995018523A1 (en) | 1995-07-06 |
JP2006139306A (ja) | 2006-06-01 |
US5649054A (en) | 1997-07-15 |
EP0691052A1 (de) | 1996-01-10 |
JP3782103B2 (ja) | 2006-06-07 |
JPH08507391A (ja) | 1996-08-06 |
DE69431622D1 (de) | 2002-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69431622T2 (de) | Verfahren und gerät zum kodieren von mit mehreren bits kodiertem digitalem ton durch subtraktion eines adaptiven zittersignals, einfügen von versteckten kanalbits und filtrierung, sowie kodiergerät zur verwendung bei diesem verfahren | |
DE69924431T2 (de) | Vorrichtung und Verfahren zur dynamischen Bitverteilung für Audiokodierung | |
DE69531471T2 (de) | Mehrkanalsignalkodierung unter Verwendung gewichteter Vektorquantisierung | |
DE69232251T2 (de) | Digitaler Kodierer mit dynamischer Quantisierungsbitverteilung | |
DE69326484T2 (de) | Vorrichtung und Verfahren zur Datenkompression | |
DE69323106T2 (de) | Verfahren und Vorrichtung für perceptuelles Kodieren von Audio-Signalen | |
DE69432012T2 (de) | Wahrnehmungsgebundene Kodierung von Audiosignalen | |
DE60110679T3 (de) | Perzeptuelle Kodierung von Audiosignalen unter Verwendung von getrennter Reduzierung von Irrelevanz und Redundanz | |
DE69329796T2 (de) | Verfahren zur kodierung, dekodierung und kompression von audiodaten | |
EP0954909B1 (de) | Verfahren zum codieren eines audiosignals | |
DE69731677T2 (de) | Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung | |
DE60310716T2 (de) | System für die audiokodierung mit füllung von spektralen lücken | |
DE69804478T2 (de) | Verfahren und vorrichtung zur codierung und decodierung mehrere tonkanäle mit geringer bitrate | |
DE69633633T2 (de) | Mehrkanaliger prädiktiver subband-kodierer mit adaptiver, psychoakustischer bitzuweisung | |
DE60214027T2 (de) | Kodiervorrichtung und dekodiervorrichtung | |
DE69023604T2 (de) | Digitalsignalkodiergerät. | |
DE69618422T2 (de) | Verfahren zur Sprachdekodierung und tragbares Endgerät | |
EP0290581B1 (de) | Verfahren zum übertragen digitalisierter tonsignale | |
DE69422343T2 (de) | Gerät, verfahren und system zur komprimierung eines digitalen eingangssignals in mehr als einem kompressionsmodus | |
EP0931386B1 (de) | Verfahren zum signalisieren einer rauschsubstitution beim codieren eines audiosignals | |
DE60103424T2 (de) | Verbessern der leistung von kodierungssystemen, die hochfrequenz-rekonstruktionsverfahren verwenden | |
DE602006000239T2 (de) | Energieabhängige quantisierung für effiziente kodierung räumlicher audioparameter | |
DE60015030T2 (de) | Auf Block Umschaltung basierender Teilband-Audiokodierer | |
DE69810361T2 (de) | Verfahren und Vorrichtung zur mehrkanaligen akustischen Signalkodierung und -dekodierung | |
DE69123500T2 (de) | 32 Kb/s codeangeregte prädiktive Codierung mit niedrigen Verzögerung für Breitband-Sprachsignal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |