[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

DE60015030T2 - Auf Block Umschaltung basierender Teilband-Audiokodierer - Google Patents

Auf Block Umschaltung basierender Teilband-Audiokodierer Download PDF

Info

Publication number
DE60015030T2
DE60015030T2 DE60015030T DE60015030T DE60015030T2 DE 60015030 T2 DE60015030 T2 DE 60015030T2 DE 60015030 T DE60015030 T DE 60015030T DE 60015030 T DE60015030 T DE 60015030T DE 60015030 T2 DE60015030 T2 DE 60015030T2
Authority
DE
Germany
Prior art keywords
blocks
acoustic signal
short
block
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60015030T
Other languages
English (en)
Other versions
DE60015030D1 (de
Inventor
Tadashi Araki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Application granted granted Critical
Publication of DE60015030D1 publication Critical patent/DE60015030D1/de
Publication of DE60015030T2 publication Critical patent/DE60015030T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die vorliegende Erfindung betrifft eine Vorrichtung zum Kodieren eines akustischen Signals, ein Verfahren zum Kodieren eines akustischen Signals und ein Computerprogrammprodukt zum Aufzeichnen eines Programms zum Kodieren des digitalen. akustischen Signals, und betrifft insbesondere die Komprimierung/Kodierung eines digitalen akustischen Signals, das beispielsweise für die DVD oder den digitalen Rundfunk etc. verwendet wird.
  • Nachfolgend wird der Stand der Technik der vorliegenden Erfindung, der sich auf die vorstehenden Inhalte bezieht, beschrieben werden, wobei der Schwerpunkt hauptsächlich auf die Komprimierung eines akustischen Signals gelegt wird.
  • Augenblicklich ist auf dem digitalen Audiogebiet MP3 weit und breit und mit großen Ambitionen popularisiert worden. MP3 ist die Abkürzung für ein Verfahren zum Komprimieren und Kodieren des akustischen Signals, das als "MPEG-1 Audioschicht III" bezeichnet wird. Durch Verwenden von MP3 können die Daten eines digitalen Audiosignals, beispielsweise von einer CD, auf 1/11 komprimiert werden, ohne dass die Klangqualität verschlechtert wird. Wegen der Zweckmäßigkeit der Komprimierung von großen (umfangreichen) akustischen Datenmengen in kompakter Form und der Übermittlung der komprimierten Daten in kurzer Zeit begann MP3 zunächst auf dem Gebiet des Internets populär zu werden. Augenblicklich wird eine Wiedergabevorrichtung nach der anderen zur Verwendung für MP3 von den jeweiligen Herstellerfirmen bekannt gemacht und gewisse Musik-Verteilungsfirmen beginnen mit ihren Aktivitäten.
  • Andererseits ist selbst auf dem Gebiet des Rundfunks, in Entsprechung zu der Entwick-lung der Digitalisierung, die Übernahme der Komprimierungstechnologie zum Komprimieren von Klangsignalen (akustischen Signalen) weit fortgeschritten. Augenblicklich wird das Verfahren von MPEG-2 Audio BC bei der CS-Rundfunkübertragung verwendet. Außerdem soll das Verfahren MPEG-2 Audio AAC in dem BS- oder dem digitalen Rundfunk mit terrestrischer Ausstrahlung im Jahr 2000 oder in den nachfolgenden Jahren eingesetzt werden.
  • Das Vorgenannte betrifft die Technologie, die zu der internationalen Norm der Komprimierung von akustischen Signalen gehört, die insgesamt als "MPEG-Audio" bezeichnet wird. Zusätzlich zu MPEG-Audio werden beispielsweise Verfahren zum Komprimieren von akustischen Signalen; Dolby Digital (AC-3) und ATRAC jeweils für DVD und MD verwendet.
  • Wie vorstehend ausgeführt, wurde die Technologie zum Komprimieren/Kodieren von digitalen Audiosignalen von Tag zu Tag beliebter. Die grundlegende Technologie des Verfahrens zum Komprimieren von akustischen Signalen und der jüngste Trend werden nachfolgend beschrieben.
  • Bei dem Verfahren zum Komprimieren von akustischen Signalen wird das akustische Signal größtenteils in "Sprachgeräusche" und "Musikgeräusche" klassifiziert. Hierbei stehen die Sprachgeräusche für die menschliche Stimme und stehen die Musikgeräusche nicht nur für die menschliche Stimme, sondern auch für allgemeine akustische Signale, einschließlich von Musik, Life-Geräuschen, natürlichen Geräuschen etc. Der Grund, weshalb die Geräusche klassifiziert werden müssen, besteht darin, dass das Ziel und die verwendete Technologie zum Kodieren jeweils unterschiedlich sind.
  • Bei dem Verfahren zum Kodieren von Sprachgeräuschen wird das menschliche Geräuschsignal mit einer niedrigen Abtastrate von beinahe 8–16 kHz zur Verwendung in der niedrigen Bitrate komprimiert, beispielsweise in der Telefonschaltung. Andererseits wird bei dem Verfahren zum Kodieren von Musikgeräuschen das akustische Signal mit einer hohen Abtastrate von beinahe 32–96 kHz mit einer bestmöglichen Klangqualität komprimiert. Bei dem erstgenannten Verfahren kann die Verschlechterung der Klangqualität im Vergleich zu dem ursprünglichen Geräusch nicht vermieden werden, während bei dem letztgenannten Verfahren die KlangKomprimierung im Wesentlichen ohne Verschlechterung erzielt werden kann. Sowohl MP3 als auch AAC sind bei dem letztgenannten Kodierverfahren (der Kodierung von Musikgeräuschen) enthalten. Hier wird die Technologie des Kodierens von Musikgeräuschen beschrieben.
  • Das Verfahren zur Komprimierung der digitalen Information wird in zwei Verfahren klassifiziert: nämlich in eine reversible Komprimierung und eine nicht reversible Komprimierung. Bei dem erstgenannten Verfahren kann das ursprüngliche Signal zum Zeitpunkt der Dekodierung zuverlässig wiedergegeben werden. Bei dem letztgenannten Verfahren tritt jedoch im Allgemeinen eine Verschlechterung des Signals auf. Bei dem Verfahren zum Komprimieren und Kodieren von akustischen Signalen werden diese beiden Verfahren in geeigneter Weise kombiniert. Zunächst wird das Verfahren der reversiblen Komprimierung beschrieben.
  • Hierbei wird die Huffman-Kodierung, die ebenfalls in dem MPEG-Audio eingesetzt wird, als repräsentatives reversibles Komprimierungsverfahren beschrieben. Die Huffman-Kodierung ist das Verfahren, bei dem ein kurzer Kode und ein langer Kode jeweils den hohen Frequenzwerten und den niedrigen Frequenzwerten in Entsprechung zu der Frequenz des Auftretens des ursprünglichen Signalwerts zugewiesen wird und bei dem das Signal so komprimiert wird, dass der gesamte Kodewert so klein wie möglich gemacht wird. Der Kode von nicht konstanter Länge wird als Kode mit variabler Länge bezeichnet, während der Kode von gleicher (konstanter) Länge für sämtliche Werte als Kode mit fester Länge bezeichnet wird. Das ursprüngliche Signal der akustischen Komprimierung ist der Kode fester Länge, der durch die Bitzahl der jeweiligen konstanten digitalen Abtastwerte (16 Bit für den Fall von CD) repräsentiert wird.
  • Die 21 zeigt das Beispiel des Kodes fester Länge und der Huffman-Kodierung und die 28 zeigt das Beispiel der Zuordnung des Kodes zu der Reihe des tatsächlichen numerischen Wertes unter Verwendung der vorgenannten beiden Kodes. Wie in der 21 gezeigt ist, ist es zur Diskriminierung von sechs Arten von unterschiedlichen ur sprünglichen Signalwerten mit dem Kode fester Länge erforderlich, den jeweiligen Werten mindestens einen 3-Bit-Kode zuzuordnen.
  • Andererseits, wie aus der Reihe von numerischen Werten, wie in der 28 gezeigt, ersichtlich ist, wird hierbei für den Fall, dass die Frequenz des Auftretens von " 2" am höchsten ist (beispielsweise 7-fach) und die Frequenz des Auftretens von "1" und "5" am niedrigsten ist (beispielsweise einfach), unter Berücksichtigung des in der 21 gezeigten Huffman-Kodes der 2-Bit-Kode dem "2"- und 4-Bit-Kode zu "1" und "5" zugewiesen. In Bezug auf die anderen verbleibenden Werte wird der Kode mit der Länge, die den jeweiligen Frequenzen des Auftretens entspricht, diesen zugeordnet.
  • Als die wichtigste Eigenschaft des Huffman-Kodes kann die ursprüngliche Signalreihe mit einer Bedeutung bzw. eindeutig dekodiert werden. Bei dem Beispiel gemäß der 21 ist, falls die Huffman-Kode-Reihe "00110" beträgt, die ursprüngliche Signalreihe offensichtlich "20". Weil die Eigenschaft der Eindeutigkeit der Dekodierung gewährleistet ist, ist die Huffman-Kodierung reversibel.
  • Zum Vergleich ist in der 21 auch das Beispiel des Kodes gezeigt, der nicht eindeutig dekodiert werden kann. Bei dem Beispiel ist es, wenn die Kodereihe "000001" empfangen wird, nicht möglich, die Bedeutungen des ursprünglichen Signals zu unterscheiden; diese sind "25", "13" oder "223". Außerdem ist bereits das Verfahren zum Konstruieren eines Kodes, der eindeutig dekodiert werden kann, bekannt. Seine Beschreibung wird hier ausgelassen.
  • Nun wird für den Fall der Zuordnung des Kodes fester Länge, der in der 21 gezeigt ist, zu der Reihe von numerischen Werten, die in (a) OF 28 gezeigt ist, die Kodezeile zu derjenigen, die in (b) gemäß der 28 gezeigt ist, und die gesamte Kodemenge wird schließlich zu 3 × 20 = 60 Bit. Andererseits wird für den Fall der Zuordnung des Huffman-Kodes, der ebenfalls in der 21 gezeigt ist, zu der Reihe von numerischen Werten, die in (a) gemäß der 28 gezeigt ist, die Kodezeile zu derjenigen, die in (c) gemäß der 28 gezeigt ist, und stellt sich heraus, dass die gesamte Kodemenge weiterhin klein ist (46 Bit). In solcher Weise wird die gesamte Kodemenge weiter für den Fall der Zuordnung des Huffman-Kodes reduziert, und zwar im Vergleich zu dem Fall des Kodes fester Länge. Denn, wenn der Huffman-Kode verwendet wird, kann der ursprüngliche Signalwert zuverlässig mit einer kleineren Kodemenge reproduziert werden als im Vergleich zu dem Kode fester Länge. Es gibt jedoch bezüglich des Komprimierungsfaktors eine Grenze, beispielsweise beinahe 77% in dem oberen Grenzwert. Somit ist es nicht möglich, einen hohen Komprimierungsfaktor von beispielsweise 1/11 in einer solchen Situation, wie diese vorstehend erörtert wurde, zu erwarten. Deshalb ist die Technologie einer nicht reversiblen Komprimierung unvermeidbar erforderlich. Die Technologie einer Basisquantisierung wird deshalb nachfolgend beschrieben.
  • Die Quantisierung betrifft das Verfahren zum Klassifizieren des Pegels des ursprünglichen Signalwerts in mehreren Schritten und die Veranlassung dafür, dass die Werte, die die jeweiligen Pegel repräsentieren, dem wieder hergestellten Wert (dekodierten Wert) entsprechen. Das vorgenannte Verfahren wird anhand des Beispiels gemäß der 22 beschrieben.
  • Hierbei sei angenommen, dass der ursprüngliche Signalwert als Ganzzahl von 0-59 verteilt ist. Wenn der Wert in den Kode fester Länge gewandelt wird, wie dieser durch die binäre Zahl dargestellt wird, muss der jeweilige Wert mit sechs Bits ausgedrückt werden. Bei diesem Beispiel wird der ursprüngliche Signalwert in sechs Pegel quantifiziert und wird veranlasst, dass dieser den jeweils wieder hergestellten (dekodierten) Werten entspricht, wie diese in der 22 gezeigt sind.
  • Zum Zeitpunkt der Kodierung wird der ursprüngliche Signalwert durch "10" geteilt und wird der dezimale Rest entfernt (abgeschnitten). Die vorgenannte Zahl "10" wird als Skalenfaktor bezeichnet. Der ganzzahlige Teil des Bruchs wird auf die sechs Arten von Werten 0–5 begrenzt. Das vorgenannte Verfahren wird als die "Quantisierung" bezeichnet. Wie in der 22 gezeigt ist, reicht es aus, den Wert mit einem 3-Bit-Kode von fester Länge auszudrücken und auf diese Weise kann der Komprimierungsfaktor von 50% realisiert werden. Falls der quantisierte Wert in den Huffman-Kode gewandelt wird, der den jeweiligen Frequenzen des Auftretens entspricht, kann der Komprimierungsfaktor weiter verbessert werden. Die 22 zeigt den Fall der Zuweisung des Huffman-Kodes in der 21 als ein Beispiel.
  • Auf der Seite der Dekodierung wird der quantisierte Wert zunächst aus dem Huffman-Kode wieder hergestellt (dekodiert). Das Verfahren kann jedoch eindeutig ausgeführt werden, wie vorstehend ausgeführt. Danach wird der quantisierte Wert mit dem vorgenannten Skalenfaktor "10" multipliziert und zu "5 = 10/2" addiert. In solcher Weise wird der Wert wieder hergestellt (dekodiert). Der ursprüngliche Signalwert fällt jedoch im Allgemeinen nicht mit dem wieder hergestellten Wert zusammen und deshalb tritt der Fehler auf. Ein solcher Fehler wird als "Quantisierungsfehler" bezeichnet. Das konkrete Beispiel für die Zahl ist in der 23 gezeigt.
  • Auf solche Weise kann für den Fall der Verwendung der Quantisierung der ursprüngliche Signalwert nicht vollständig wieder hergestellt werden. Obwohl die Quantisierung irreversibel ist, kann deren Komprimierungsfaktor in diesem Sinne verbessert werden, und zwar dank der nicht reversiblen Quantisierung. Außerdem entspricht der Komprimierungsgrad der Pegelzahl der Quantisierung. Je kleiner die Pegelzahl ist, desto stärker kann das akustische Signal komprimiert werden. Der durchschnittliche Quantisierungsfehler nimmt jedoch zu.
  • Bisher wurde die Komprimierung der digitalen Införmation vergleichsweise allgemein beschrieben. Der Huffman-Kode und die Quantisierung, die beide vorstehend beschrieben wurden, stellen die grundlegendste Technologie dar, die in großem Umfang für die Komprimierung nicht nur des akustischen Signals, sondern auch von Standbildsignalen und dynamischen (Bewegt-)Bildsignalen verwendet wird.
  • Als Nächstes werden nachfolgend der Maskierungseffekt und der Quantisierungsfehler beschrieben. Der vorgenannte Quantisierungsfehler resultiert in der Verschlechterung der Klangqualität bei der Komprimierung von akustischen Signalen. Andererseits müssen bei der Kodierung von Musikgeräuschen die akustischen Signaldaten in dem Ausmaß komprimiert werden, in dem die Verschlechterung der Klangqualität nicht wahrgenommen wird.
  • Für das Verfahren zum Bestimmen der optimalen Pegelzahl für die Quantisierung wird die Eigenschaft des menschlichen Gehörs, die als "Maskierungseffekt" bezeichnet wird, in geschickter Weise ausgenutzt. Der Maskierungseffekt ist ein Phänomen, bei dem laute Geräusche die umgebenden leisen Geräusche auslöschen (wegnehmen bzw. größtenteils löschen). Dieses Phänomen ist sehr beliebt geworden. Um etwas präziser zu sein, löscht dabei ein lautes Geräusch mit einer gewissen Frequenz ein schwaches Geräusch einer anderen Frequenz, benachbart (in der Nachbarschaft) zu der vorgenannten Frequenz, aus.
  • Der vorgenannte Maskierungseffekt wird nachfolgend ausführlicher beschrieben. Die Beziehung zwischen der Frequenz (kHz), die durch die horizontale Koordinate (Abszisse) repräsentiert wird, und der Lautstärke, die durch die vertikale Koordinate (Ordinate) repräsentiert wird, und die Lautstärkenverteilung der akustischen Eingangsdaten auf den beiden Koordinaten wird beschrieben. Hierbei werden beispielsweise die Eingangsgeräusche (b) und (c) von dem weiteren lauten Geräusch (a) ausgelöscht bzw. übertönt und können sowohl (b) als auch (c) nicht gehört werden. Dies ist der Maskierungseffekt. Der Maskierungs-Schwellenwert gibt einen Grenzwert (eine Grenzlinie) zwischen, dem hörbaren Geräusch und dem nicht hörbaren Geräusch an.
  • Außerdem hat das menschliche Gehör inhärent die Eigenschaft eines absoluten Schwellenwerts (bzw. minimalen hörbaren Schwellenwerts). Dies repräsentiert das leiseste Geräusch (die minimale Lautstärke), welches das menschliche Gehör in einer ruhigen Umgebung hören kann. Das menschliche Gehör hat die größte (schärfste) Empfindlichkeit für Geräusche in der Nähe von 2 kHz – 5 kHz. Das menschliche Gehör wird allmählich außer Stande gesetzt, Geräusche mit Frequenzen unterhalb von 2 kHz oder oberhalb von 5 kHz zu hören.
  • Hierbei ändert sich der Maskierungs-Schwellenwert in Entsprechung zu den eingegebenen akustischen Signaldaten. Man beachte jedoch, dass der absolute Schwellenwert sich überhaupt nicht ändert.
  • Daraus kann man schließen, dass unter all den Geräuschen nur die Geräusche, deren Lautstärke größer als der Maskierungs-Schwellenwert und der absolute Schwellenwert ist, in dem hörbaren Bereich liegen. Obwohl die Geräuschinformation in dem anderen Bereich (in dem nicht hörbaren Bereich) beseitigt ist, kann das menschliche Gehör folglich das Geräusch in demselben Zustand wie in demjenigen des ursprünglich eingegebenen Geräusches hören.
  • Bei der Komprimierung von akustischen Signalen, welche eine solche Eigenschaft des Maskierungseffekts einsetzt, können nur die eingegebenen akustischen Signaldaten in dem Bereich, die lauter sind als beide Maskierungs-Schwellenwerte, das heißt die Daten in dem grau markierten Bereich, kodiert werden und kann somit die Datenmenge erheblich reduziert werden.
  • Um die Wahrheit zu sagen, entsprechen beide vorgenannten Schwellenwerte dem tolerierbaren oberen Grenzwert des vorgenannten Quantisierungsfehlers. Denn, wenn die eingegebenen akustischen Signaldaten quantisiert werden, nimmt das menschliche Gehör die Verschlechterung der Qualität des Audiogeräuschs dann nicht wahr, wenn der Quantisierungsfehler nicht den höheren der beiden Schwellenwerte übersteigt. In dem Bereich des niedrigen Schwellenwertes kann die Verschlechterung der Klangqualität vorrangig werden, falls die Anzahl von Quantisierungspegeln nicht groß genug gemacht wird. Andererseits kann es in dem Bereich des hohen Schwellenwertes zulässig sein, die Anzahl der Quantisierungspegel zu verringern.
  • Als Nächstes wird nachfolgend das Verfahren zum Wandeln der eingegebenen akustischen Signaldaten beschrieben. Die eingegebenen akustischen Daten sind allgemein als die Reihe bzw. Sequenz der digitalen Abtastwerte in der Zeitrichtung dargestellt (ausgedrückt). Der vorgenannte Maskierungseffekt kann jedoch so nicht geeignet angewendet werden. Aus diesem Grund ist es erforderlich, die Reihe bzw. Sequenz der vorgenannten digitalen Abtastwerte zu wandeln, so dass diese ohne weiteres verarbeitet werden können.
  • Es gibt verschiedene Verfahren zum Wandeln der eingegebenen akustischen Signaldaten. Bei einem von diesen handelt es sich um ein Verfahren zum Kombinieren bzw. Verknüpfen der Datenreihe bzw. -sequenz in dem Zeitbereich, um diese pro konstanter Anzahl von Abtastwerten in einen Block zu wandeln und die Datenreihe bzw. -sequenz in dem Frequenzbereich für jede gleiche konstante Anzahl von Abtastwerten in die andere Datenreihe zu wandeln. Die 24 zeigt die Signalformen der akustischen Signale vor und nach der vorgenannten Wandlung. Genauer gesagt, zeigt die 24A die Signalform der Datenreihe des akustischen Signals von 1.024 Abtastwerten (samples) in dem Zeitbereich und zeigt die 24B die in die Signalform gewandelte Datenreihe der Reihe von akustischen Signaldaten von 1.024 Abtastwerten in dem Frequenzbereich.
  • Allgemein tritt eine Abweichung der Klangmenge (Energie) in einem gewissen Frequenzbereich auf, wenn das akustische Signal in den Frequenzbereich gewandelt wird. Beispielsweise, wie in den 24A und 24B gezeigt, wird die Energie des akustischen Signals in dem Frequenzbereich auf die niederfrequente Seite verschoben bzw. verzerrt, obwohl der Signalwert in dem Zeitbereich gleichförmig verteilt ist. Zum Zeitpunkt der Kodierung wird das Bit verteilt, wobei ein Schwerpunkt auf den Teil gelegt wird, wo die Energie konzentriert ist. Als Folge kann die Komprimierungseffizienz weiter verbessert werden.
  • Was die Wandlung der Zeit in die Frequenz anbelangt, gibt es außerdem gewisse Verfahren; beispielsweise DFT (digitale Fourier-Transformation) und DCT (digitale Kosinustransformation) etc. Für den Zweck einer Komprimierung der Bilddaten und der akustischen Daten wird jedoch sehr häufig DCT und seine Modifikation MDCT (modifizierte digitale Kosinustransformation) eingesetzt.
  • Was die Wandlung der eingegebenen akustischen Signaldaten anbelangt, gibt es zusätzlich zu dem vorgenannten Verfahren ein Verfahren der Subband-Division. Bei dem Verfahren der Subband-Division wird (das Band der) die eingegebene Signalform in mehrere Frequenzbänder unterteilt und wird die jeweils unterteilte Signalform so aufrecht erhalten, dass diese die Signalform in dem Zeitbereich darstellt. Dies ist ein Unterschied zu dem vorgenannten Verfahren.
  • Wenn die eingegebenen Daten, die aus den Abtastwerten mit der Anzahl m bestehen, in die Abtastbänder mit der Anzahl n unterteilt werden, wird außerdem die Anzahl von Abtastwerten der jeweiligen Subbänder zu m/n. Die 25 zeigt ein einfaches Beispiel für die Unterteilung der eingegebenen Signalform in zwei Subbänder.
  • Als Nächstes wird der Fluss des grundlegenden Prozesses der Kodierung und Komprimierung des akustischen Signals beschrieben. Die grundlegendste Technologie, die zur Kodierung des akustischen Signals verwendet wird, ist vorstehend sorgfältig beschrieben worden. Hierbei wird der Fluss des grundlegenden Prozesses der Komprimierung und Kodierung des akustischen Signals, der aus der Kombination der vorstehend erörterten Prozesse erhalten wird, zusammengefasst. Die 26 zeigt den Fluss bzw. das Flussdiagramm.
  • Als Erstes wird für die eingegebenen akustischen Signaldaten die Wandlung der eingegebenen akustischen Signaldaten in die Daten in dem Frequenzbereich oder die Subband-Division ausgeführt. Als Nächstes werden die jeweiligen Abtastwerte nach der Wandlung quantisiert. Zu diesem Zeitpunkt werden parallel der Maskierungs-Schwellenwert der akustischen Signaldaten berechnet und der obere Grenzwert des Quantisierungsfehlers in den jeweiligen Frequenzen wird zuvor aus der Kombination des vorstehend berechneten Schwellenwertes mit dem absoluten Schwellenwert erhalten. Der vorgenannte Schritt wird von dem psychoakustischen Modellabschnitt ausgeführt, der in der 26 gezeigt ist. Die Quantisierung wird so ausgeführt, dass der Fehler dessen oberen Grenzwert nicht überschreitet. Schließlich wird der Huffman-Kode in Entsprechung zu der Frequenz des Auftretens der jeweiligen Quantisierung zugewiesen und dann werden die schlussendlichen Kodierungsdaten erzeugt.
  • Außerdem zeigt der vorgenannte Schritt das Schema des grundlegendsten Prozesses der Komprimierung und Kodierung von akustischen Signalen. Bei dem in der Praxis ausgeführten Verfahren zur Kodierung, beispielsweise MP3, AAC etc., können zahlreiche Prozesse zusätzlich zu dem vorgenannten Verfahren vorgesehen sein und somit kann die Verbesserung des Komprimierungsfaktors darauf abzielen, den Komprimierungsfaktor weiter zu verbessern.
  • Hierbei wird der Kodierungsprozess gemäß MP3 beschrieben, wobei ein Schwergewicht auf den Unterschied zwischen MP3 und AAC gelegt wird. Der Fluss des grundlegenden Prozesses ist wie folgt:
    • (1) Wandlung in den Frequenzbereich,
    • (2) Quantisierung und
    • (3) Huffman-Kodierung.
  • Als Nächstes wird die Subband-Division und MDCT beschrieben. Die 27 zeigt den Fluss des Kodierungsprozesses gemäß MP3, wobei ein Schwergewicht auf die Subband-Division und den MDCT-Prozess gelegt wird. Der große Unterschied zwischen MP3 und AAC besteht darin, dass der Subband-Divisionsprozess vor MDCT in MP3 ausgeführt wird. Die Subband-Division steht für die Division der eingegebenen Daten in mehrere Frequenzbänder. Die Daten sind auf der Zeitachse in den jeweiligen Unterteilungsbereichen angeordnet.
  • Bei MP3 werden die eingegebenen Daten in 32 Bänder unterteilt und wird die MDCT für jedes der jeweils unterteilten Bänder ausgeführt. Wie in dem Fall von AAC, können zwei Arten von Fensterfunktionen von LANG/KURZ (LONG/SHORT) geeignet verwendet werden. Die Länge von LANG beträgt 36 Abtastwerte (samples}, während die Länge von KURZ 12 Abtastwerte beträgt. Anders als bei AAC kann MP3 jedoch bewirken, dass LANG/KURZ in vermischender Weise koexistieren. In der 27 wird die hohe Frequenz für KURZ verwendet und wird die niedrige Frequenz für LANG verwendet. Es ist überflüssig, zu erwähnen, dass es zulässig sein kann, sämtliche Frequenzen für KURZ oder LANG zu verwenden. Zusätzlich beträgt bei AAC die Länge des LANG-Fensters 2.048 Abtastwerte. Bei MP3 wird die Wandlungsberechnung der vorgenannten 36 Abtastwerte bezüglich der Länge vor der Subband-Division ausgeführt, wobei der berechnete Wert gleich 36 × 32 = 1.152 Abtastwerte wird.
  • Vorstehend ist das allgemeine Konzept der Komprimierung von akustischen Signalen im Zusammenhang mit der vorliegenden Erfindung erörtert worden. Die Diskussion des Standes der Technik wird nachfolgend konkret beschrieben, und zwar auf der Grundlage des vorgenannten Standes der Technik.
  • Bei der hochqualitativen Komprimierung/Kodierung des digitalen akustischen Signals ist bisher die psychologische Charakteristik des menschlichen Hörsinnes verwendet worden. Wie vorstehend ausgeführt, werden entsprechend einer solchen Charakteristik leise Geräusche von lauten Geräuschen maskiert. Als Folge kann das leise Geräusch nicht gehört werden. Denn, wenn das laute Geräusch mit einer Frequenz abgestrahlt wird, kann das leise Geräusch mit einer anderen Frequenz in der Nähe der vorgenannten Frequenz von dem menschlichen Gehör nicht wahrgenommen werden. Hierbei wird die grenzwertige (kritische) Lautstärke, die auf Grund einer solchen Maskierung nicht gehört werden kann, als der "Maskierungs-Schwellenwert" bezeichnet.
  • Andererseits hat das menschliche Gehör die Eigenschaft, dass die Empfindlichkeit für Geräusche mit Frequenzen nahe 4 kHz am größten ist und dass die Empfindlichkeit für Geräusche anderer Frequenzen allmählich geringer wird, je weiter diese Frequenz von 4 kHz wegliegt. Eine solche Eigenschaft wird als die kritische Empfindlichkeit ausgedrückt, bei der man in der Lage ist, das Geräusch in ruhiger Umgebung wahrzunehmen, und diese Empfindlichkeit wird als "absoluter Hörschwellenwert" bezeichnet.
  • Die vorgenannten Tatsachen werden nachfolgend anhand der 9 weiter beschrieben, welche die Lautstärkverteilung des akustischen Signals darstellt. In der 9 stellen die gezackte durchgezogene Linie (A), die gestrichelte Linie (B) und die dünne durchgezogene Linie jeweils die Lautstärkeverteilung des akustischen Signals, den Maskierungs-Schwellenwert für das akustische Signal bzw. den absoluten Hörschwellenwert dar. Wie in der 9 gezeigt ist, kann das menschliche Gehör nur diejenigen Geräusche wahrnehmen, die lauter (intensiver) als der Maskierungs-Schwellenwert und der absolute Hörschwellenwert für das akustische Signal sind. Selbst wenn nur die Information desjenigen Abschnittes, dessen Lautstärke über dem Maskierungs-Schwellenwert und dem absoluten Hörschwellenwert für das akustische Signal liegt, aus der Lautstärkever teilung des akustischen Signals herausgenommen wird, wird folglich die Information von dem menschlichen Gehör im selben Umfang wie das ursprüngliche akustische Signal wahrgenommen.
  • Bei der Kodierung des akustischen Signals ist die vorgenannte Tatsache äquivalent zu einer Zuordnung des kodierten Bits nur zu denjenigen Abschnitten, die in der 9 durch die schräg verlaufenden Linien angedeutet sind. Der gesamte Bereich des akustischen Signals ist jedoch in mehrere kleine Bereiche unterteilt und die Bitzuweisung wird hierbei in der Einheit des Frequenzbands (D) vorgenommen. Die transversale Breite der jeweiligen Bereiche, die durch die schräg verlaufenden Linien dargestellt sind, entspricht dem Frequenzband.
  • In den jeweiligen Frequenzbändern liegt die Lautstärke nicht oberhalb des unteren Grenzwerts des mit schräg verlaufenden Linien dargestellten Bereichs, der von dem menschlichen Gehör nicht wahrgenommen wird. Falls der Lautstärkefehler des ursprünglichen Geräuschs und das kodierteldekodierte Geräusch nicht diesen unteren Grenzwert überschreiten, kann deshalb der Unterschied zwischen diesen beiden Geräuschen nicht gehört bzw. wahrgenommen werden. In diesem Sinne wird die Lautstärke des niedrigeren Grenzwertes als "tolerierbare Fehlerlautstärke" bezeichnet. Wenn das akustische Signal quantisiert und komprimiert wird, kann, falls die Lautstärke des Quantisierungsfehlers des kodierten dekodierten Geräuschs für das ursprüngliche Geräusch so quantisiert wurde, dass diese nicht größer als die tolerierbare Fehlerlautstärke gemacht wird, das akustische Signal nicht ohne Beeinträchtigung an der Qualität des ursprünglichen Geräuschs komprimiert werden. Deshalb ist die Zuweisung des kodierten Bits nur zu dem in der 9 mit schräg verlaufenden Linien dargestellten Bereich äquivalent dazu, dass die Quantisierung so ausgeführt wird, dass die Quantisierungs-Fehlerlautstärke in den jeweiligen Frequenzbändern gerade gleich der tolerierbaren Fehlerlautstärke ist.
  • Was das Verfahren zum Kodieren des akustischen Signals anbelangt, so gibt es MPEG (Moving Picture Experts Group), Audio und Dolby Digital etc. Sämtliche dieser Verfahren nützen die hierin beschriebene Eigenschaft aus. Unter diesen Verfahren ist dasje nige, das die höchste Kodierungseffizienz aufweist, gegenwärtig das Verfahren MPEG-2 Audio AAC (Advanced Audio Encoding), nämlich die Norm ISO/IEC 13818-7.
  • Die 10 ist ein Blockdiagramm, das das grundlegende Prinzip der AAC-Kodierung darstellt. In der 10 berechnet der psychoakustische Modellabschnitt 101 die tolerierbare Fehlerlautstärke für jedes der jeweiligen Frequenzbänder des eingegebenen akustischen Signals, das entlang der Zeitachse in Blöcke unterteilt bzw. aufgetrennt ist. Andererseits erfolgt die Wandlung in den Frequenzbereich mittels MDCT (modifizierte diskrete Kosinustransformation) in einem Verstärkungssteuerabschnitt 102 und einer Filterbank 103 für das eingegebene Signal, das ebenfalls in Blöcke unterteilt bzw. aufgetrennt ist. Eine TNS (zeitliche Geräuschformung; Temporal Noise Shaping) 104 und eine Vorhersageeinheit 106 führen die abschätzende Kodierung aus. Ein Lautstärke/Kopplungsabschnitt 105 und ein MS-Stereoabschnitt (Middle Side Stereo) (nachfolgend abgekürzt als "M/S") 107 führen den Kodierungsprozess mit Stereokorrelation aus. Danach wird ein Skalenfaktor 108 bestimmt. Das akustische Signal wird in der Quantisierungseinheit 109 auf der Grundlage des Skalenfaktors 108 quantisiert. Der Skalenfaktor entspricht der in der 9 gezeigten tolerierbaren Fehlerlautstärke und der Koeffizient wird für jedes der jeweiligen Frequenzbänder bestimmt. Nach der Quantisierung wird dem Huffman-Kode jeweils der Skalenfaktor und der Quantisierungswert in einem Geräusch-Kodierungsabschnitt 110 auf der Grundlage der vorbestimmten Huffman-Kode-Liste zugewiesen. Schließlich wird in einem Multiplexer 111 ein Kode-Bitstrom erzeugt.
  • Nun stellt die MDCT in der vorgenannten Filterbank 103 diejenige dar, um die Wandlungsbereiche um 50% entlang der Zeitachse überlappen zu lassen, wie dies in der 11 gezeigt ist, und um gleichzeitig eine DCT (diskrete Kosinustransformation) auszuführen. Dank dieser Funktion kann das Auftreten der Verzerrung in dem Randbereich (Grenze) der jeweiligen Wandlungsbereiche unterdrückt werden. Bei AAC (Advanced Audio Encoding) wird entweder der lange Wandlungsbereich (langer Block) von 2.048 Abtastwerten angewendet oder werden die acht kurzen Wandlungsbereiche (kurze Blöcke) mit jeweils 256 Abtastwerten für den eingegebenen akustischen Signal-Frame angewendet. Folglich beträgt die Anzahl der MDCT-Koeffizienten für den langen Block 1.024 und für die kurzen Blöcke 128. Für den Fall, dass die kurzen Blöcke verwendet werden, werden stets acht Blöcke nacheinander angewendet und wird auf diese Weise die Anzahl der MDCT-Koeffizienten gleich der Anzahl von MDCT-Koeffizienten zum Zeitpunkt der Verwendung des langen Blocks.
  • Für gewöhnlich wird der lange Block in dem regelmäßigen Teil einer kleinen Änderung der Signalform eingesetzt, wie in der 12 gezeigt, während die kurzen Blöcke in dem ansteigenden Teil der heftigen (scharfen) Signalformänderung eingesetzt werden. Es ist wichtig, den langen und die kurzen Blöcke in unterschiedlicher Weise einzusetzen. Wenn der lange Block auf das Signal, das in der 13 gezeigt ist, angewendet wird, tritt ein Rauschen, das als "Vorecho" (pre-echo) bezeichnet wird, vor dem wesentlichen Signalanstieg auf. Wenn andererseits die kurzen Blöcke auf das Signal angewendet wird, wie in der 12 gezeigt, kann wegen der nicht ausreichenden Auflösung in dem Frequenzbereich die geeignete Bitzuordnung nicht ausgeführt werden. Als Folge wird die Effizienz der Kodierung herabgesetzt und tritt ein Rauschen auf. Diese Tatsache wird insbesondere für Geräusche mit niedrigen Frequenzen wichtig.
  • Was die kurzen Blöcke anbelangt, so taucht ein weiteres Problem der Unterteilung (Trennung) in Gruppen auf. Die Unterteilung in Gruppen bedeutet, dass die vorgenannten acht kurzen Blöcke gemeinsam in Gruppen für jeden der aufeinander folgenden Blöcke desselben Skalenfaktors eingegeben werden. Die Wirkung der Reduzierung der Informationsmenge kann dadurch erhöht werden, dass der Skalenfaktor in der Gruppe gemeinsam zugänglich gemacht wird. Um dies konkret auszuführen, wird, wenn der Huffman-Kode dem Skalenfaktor in dem geräuschlosen Kodierabschnitt (Abschnitt) 110, der in der 10 gezeigt ist, zugeordnet wird, der zugeordnete Kode nicht für jeden der jeweiligen kurzen Blockeinheiten zugewiesen, sondern pro Gruppeneinheit. Die 14 zeigt ein Beispiel für die Unterteilung in Gruppen. Hierbei beträgt die Anzahl von Gruppen drei. Die Anzahl der Blöcke in der obersten Gruppe (der 0-ten Gruppe) beträgt fünf die Anzahl der Blöcke in der nächsten Gruppe (der ersten Gruppe) beträgt eins und die Anzahl der Blöcke in der letzte Gruppe (zweite Gruppe) beträgt zwei. Falls die Unterteilung in Gruppen nicht in geeigneter Weise ausgeführt wird, resultiert dies in der Zunahme des Kodeumfangs (Kodeanzahl) und in der Minderung der Klangqualität.
  • Falls die Unterteilungszahl der Gruppen zu groß ist, stellt sich heraus, dass der Skalenfaktor, der gemeinsam zugänglich sein sollte, im Kode im Wesentlichen doppelt vorliegt (verdoppelt ist). Als Folge wird die Effizienz der Kodierung herabgesetzt. Wenn andererseits die (Unterteilungs-)Zahl der Gruppen zu klein ist, weil die Quantisierung trotz der heftigen (scharfen) Änderung des akustischen Signals mit dem gemeinsamen Skalenfaktor ausgeführt wird, wird die Klangqualität gemindert. Außerdem wird in ISO/IEC 13818-7, obwohl dort eine Vorschrift für die Kode-Syntax (syntactics) in Bezug auf die Unterteilung in Gruppen existiert, die konkrete Norm und das konkrete Verfahren zur Unterteilung in Gruppen nicht berücksichtigt.
  • Wie vorstehend ausgeführt, müssen, was die Kodierung anbelangt, der lange Block und die kurzen Blöcke in geeigneter Weise und mit Unterscheidung zwischen diesen für das eingegebene akustische Signal angewendet werden. Der psychoakustische Modellabschnitt 101, der in der 10 gezeigt ist, führt die Beurteilung langkurz aus. Ein Beispiel für ein Verfahren zur Beurteilung von langkurz für die jeweiligen Blöcke, das von dem psychoakustischen Modellabschnitt 101 ausgeführt werden soll, ist in ISO/IEC 13818-7 gezeigt. Der Umriss des Beurteilungsverfahrens wird nachfolgend erklärt.
  • Schritt 1: Rekonstruktion des akustischen Signals
  • 1.024 Abtastwerte werden für den langen Block erneut eingelesen (aufgenommen) und das Signalsystem (die Signalfolge) von 2.048 Abtastwerten zusätzlich zu den vorher in dem neuen Block enthaltenen 1.024 Abtastwerten wird rekonstruiert, während 128 Abtastwerte für die kurzen Blöcke erneut eingelesen (aufgenommen) werden und das Signalsystem (die Signalfolge) von 256 Abtastwerten zusätzlich zu den zuvor in dem neuen Block enthaltenen 128 Abtastwerten rekonstruiert wird.
  • Schritt 2: Modifikation des Hann-Fensters und FFT
  • Das akustische Signal aus 2.048 Abtastwerten (256 Abtastwerten), das in dem Schritt 1 aufgebaut wird, wird mit dem Hann-Fenster multipliziert (Hanning). Außerdem wird eine FFT (schnelle Fourier-Transformation; Fast Fourier Transform) ausgeführt und werden auf diese Weise 1.024 (128) FFT-Koeffizienten berechnet.
  • Schritt 3: Berechnung des Schätzwertes des FFT-Koeffizienten
  • Der Realteil und der Imaginärteil der jeweiligen FFT-Koeffizienten in dem Block, der gegenwärtig angedacht ist, wird aus dem Realteil und dem Imaginärteil der FFT-Koeffizienten von den (jedem der) vorhergehenden beiden Blöcke geschätzt und dann werden die geschätzten Werte von 1.024 (128) jeweils berechnet.
  • Schritt 4: Berechnung des Unvorhersehbarkeitswertes
  • Die jeweiligen Unvorhersehbarkeitswerte werden aus den Schätzwerten für den Realteil und den Imaginärteil der jeweiligen FFT-Koeffizienten, die in dem Schritt 2 berechnet wurden, und aus denen der jeweiligen FFT-Koeffizienten, die in dem Schritt 3 berechnet wurden, berechnet. Hierbei nimmt der Unvorhersehbarkeitswert einen Wert zwischen 0 und 1 ein. Je näher der Wert bei 0 liegt, desto größer ist die Reinheit (Klangqualität) des akustischen Signals, wohingegen gilt, dass, je näher der Wert bei 1 liegt, desto größer das Rauschen des akustischen Signals ist. Mit anderen Worten, die Tatsache zeigt an, dass die Reinheit bzw. Qualität gering ist.
  • Schritt 5: Berechnung der Lautstärke des akustischen Signals und des Unvorhersehbarkeitswerts in dem jeweiligen Frequenzband
  • Hierbei entspricht das Frequenzband demjenigen, das in der 9 gezeigt ist. Die Lautstärke des akustischen Signals wird auf der Grundlage der jeweiligen FFT-Koeffizienten, die in dem Schritt 2 berechnet wurden, für jede der jeweils unterteilten Bandbreite berechnet. Außerdem wird der Unvorhersehbarkeitswert, der in dem Schritt 4 berechnet wurde, mit der Intensität gewichtet und wird der Unvorhersehbarkeitswert für jedes der jeweiligen Frequenzbänder berechnet.
  • Schritt 6: Hineinfalten (Faltung) der Lautstärke, multipliziert mit der Ausdehnungs-(Aufspreiz-Funktion und dem Unvorhersehbarkeitswert
  • Der Einfluss der Lautstärke des akustischen Signals und des Unvorhersehbarkeitswerts des anderen Frequenzbandes in den jeweiligen Frequenzbändern wird durch Verwenden der Ausdehnungs-(Aufspreiz-)Funktion erhalten. Die so erzielte Wirkung wird jeweils hineingefaltet (gefaltet) und auf diese Weise normiert.
  • Schritt 7: Berechnung des Tonalitäts-Indexes
  • In der jeweils unterteilten Bandbreite b wird der Tonalitäts-Index tb(b) C = –0,299 – 0,43 log.(cb(b)) auf der Grundlage des hineingefalteten (gefalteten) Unvorhersehbarkeitswertes (cb(b)), der in dem Schritt 6 berechnet wurde, berechnet. Außerdem ist der Tonalitäts-Index auf den Bereich zwischen 0 und 1 beschränkt. Hierbei zeigt die vorgenannte Tatsache, dass gilt, dass, je näher der Index bei 1 liegt, desto höher die Tonalität des akustischen Signals ist, während gilt, dass, je näher der Index bei 0 liegt, desto größer der Rauschanteil des akustischen Signals ist.
  • Schritt 8: Berechnung S/N-Verhältnisses (Signal-zu-Rausch-Verhältnis)
  • Das S/N-Verhältnis (Signal-zu-Rausch-Verhältnis) wird auf der Grundlage des in dem Schritt 7 berechneten Tonalitäts-Index in den jeweiligen Frequenzbändern berechnet. Hierbei wird allgemein die Eigenschaft ausgenutzt, dass der Maskierungseffekt der Geräuschkomponente desto größer ist, je reiner die Geräuschkomponente ist.
  • Schritt 9: Berechnung des Lautstärkeverhältnisses
  • Das Verhältnis der Lautstärke des hineingefalteten (gefalteten) akustischen Signals und des Maskierungs-Schwellenwerts wird auf der Grundlage des in dem Schritt 8 berechneten S/N-Verhältnisses in den jeweils unterteilten Bandbreiten berechnet.
  • Schritt 10: Berechnung der akzeptablen Fehlerlautstärke (Maskierungs-Schwellenwert)
  • Der Maskierungs-Schwellenwert wird auf der Grundlage der Lautstärke des hineingefalteten akustischen Signals, die in dem Schritt 6 berechnet wurde, und des Verhältnisses der Lautstärke des akustischen Signals, die in dem Schritt 9 berechnet wurde, und des Maskierungs-Schwellenwertes in den jeweils unterteilten Bandbreiten berechnet.
  • Schritt 11: Einstellung des Vorechos und Berücksichtigung des absolut hörbaren (Frequenz-)Schwellenwerts
  • Die Einstellung des Vorechos wird für den in dem Schritt 10 berechneten Maskierungs-Schwellenwert durch Verwenden der zulässigen Fehlerlautstärke des vorherigen Blocks in den jeweiligen unterteilten Bandbreiten vorgenommen. Außerdem wird der höhere Wert des eingestellten Wertes und des absoluten Hör-(Frequenz-) Schwellenwertes als die zulässige bzw. akzeptable Fehlerlautstärke des aktuellen Blocks verwendet.
  • Schritt 12: Berechnung der Wahrnehmungsentropie
  • Die Wahrnehmungsentropie PE (Wahrnehmungsentropie), wie diese in der Gleichung (1) definiert ist, wird jeweils für den langen Block und für die kurzen Blöcke berechnet.
  • [Gleichung (1)]
    Figure 00190001
  • In der Gleichung (1) repräsentiert w(b) die Breite der unterteilten Bandbreite b, repräsentiert nb(b) die akzeptable Fehlerlautstärke in dem Frequenzband b, die in dem Schritt 11 berechnet wurde, und repräsentiert e(b) die Lautstärke des akustischen Signals in dem Frequenzband b, die in dem Schritt 5 berechnet wurde. Hierbei ist angenommen, dass PE der Summe der quadratischen Messwerte der Bitzuweisungsbereiche (mit schrägen Linien bezeichnete Bereiche) entspricht, die in der 9 gezeigt sind.
  • Schritt 13: Beurteilung der langen/kurzen Blöcke
  • Was die Beurteilung der langen/kurzen Blöcke anbelangt, so wird auf die Beurteilungsoperation für lange kurze Blöcke Bezug genommen, deren Flussdiagramm in der 15 gezeigt ist.
  • Wenn der Wert der PE (Schritt S10) für den in dem Schritt 12 berechneten langen Block größer als die vorbestimmte Konstante (switch_pe) ist, wird der wahrgenommene Block so beurteilt, dass es sich bei diesem um kurze Blöcke handelt (Schritte S11 und S12). Wenn derselbe Wert der PE kleiner als die vorbestimmte Konstante ist, wird der wahrgenommene Block so beurteilt, als ob es sich bei diesem um den langen Block handelt (Schritte S11 und S13). Hierbei ist die Konstante (switch_pe) ein Wert, der in Abhängigkeit von der Applikation bestimmt wird.
  • Das vorgenannte Verfahren ist bisher das Verfahren zum Beurteilen von lang/kurz, das in ISO/IEC 13818-7 beschrieben ist. Bei dem vorgenannten Verfahren zum Beurteilen von langen/kurzen Blöcken wird jedoch nicht immer eine geeignete Beurteilung vorgenommen. Denn derjenige Teil, der im Wesentlichen für kurz befunden werden sollte, wird als lang befunden bzw. beurteilt (oder umgekehrt) und auf diese Weise wird die Klangqualität in gewissen Fällen gemindert.
  • Andererseits ist in der Veröffentlichungsschrift der japanischen Patent-Offenlegungsschrift Nr. 9-232946 eine Schaltung 2 zum Detektieren von transienten Zuständen so ausgebildet, dass das Eingangssignal in jedem der jeweiligen vorbestimmten Abschnitte aufgenommen bzw. eingelesen wird und deren quadratische Summen jeweils erhalten werden und der transiente Zustand des vorgenannten Signals in Entsprechung zu der Änderungsfrequenz (Änderungsumfang) über zumindest zwei oder mehr Abschnitte des quadratisch aufsummierten Signals für jeden der je weiligen Abschnitte aufsummiert wird. Bei einem solchen Aufbau kann der transiente Zustand detektiert werden, das heißt derjenige Teil, in welchem lang/kurz variiert, und zwar nur durch Ausführen der Berechnung der quadratischen Summen des Eingangssignals auf der Zeitachse ohne Ausführen irgendeiner senkrechten (rechteckigen) Wandlungsverarbeitung und Filterverarbeitung. Gemäß einem solchen Verfahren kann, weil die Wahrnehmungsentropie nicht nur unter Berücksichtigung der quadratischen Summe des Eingangssignals berücksichtigt wird, die Beurteilung, die mit der Audioeigenschaft koinzidiert, nicht immer vorgenommen werden. Folglich besteht die Gefahr, dass die Klangqualität verschlechtert wird.
  • In einer solchen Situation wird der eingegebene akustische Signalblock in mehrere Gruppen unterteilt (klassifiziert), so dass die Differenz zwischen dem maximalen Wert und dem minimalen Wert der Wahrnehmungsentropie in Bezug auf die jeweiligen kurzen Blöcke in derselben Gruppe liegt. Als Folge gibt es ein Verfahren, bei dem dann, wenn die Gruppenanzahl 1 ist oder wenn die Gruppenzahl 1 ist und die andere Bedingung erfüllt ist, der eingegebene akustische Signalblock in den Frequenzbereich mit einem langen Block gewandelt wird und in dem anderen Fall der Signalblock mit mehreren kurzen Blöcken in den Frequenzbereich gewandelt wird. Der vorgenannte Block wird genauer nachfolgend anhand der 16 beschrieben, die das Flussdiagramm dieses Vorgangs darstellt. Außerdem werden als ein Beispiel des akustischen Eingangssignals die in der 17 gezeigten akustischen Daten verwendet und sind durchgehend die Zahlen angefügt, die den jeweiligen aufeinander folgenden acht kurzen Blöcken in der 17 entsprechen.
  • Als Erstes wird das eingegebene akustische Signal in die aufeinander folgenden acht kurzen Blöcke unterteilt. Und dann werden die Wahrnehmungsentropien der acht kurzen Blöcke jeweils berechnet. Es wird angenommen, dass die berechneten Werte PE(i) (0 ≤ i ≤ 7) sind und der Reihe nach geordnet sind (Schritt S20). Die Berechnung kann dadurch realisiert werden, dass für die jeweiligen kurzen Blöcke das in den Schritten 1 bis 12 erläuterte Verfahren des Verfahrens zum Beurteilen von lang/kurz für die jeweiligen wahrgenommenen Blöcke in der vorgenannten ISO/IEC 13818-7 ausgeführt wird. Als Nächstes wird die Initialisierungsoperation an dem Zustand von group_len [0] = 1, group_len [gnum] = (0 ≤ gnum ≤ 7) ausgeführt (Schritt S21).
  • Hierbei repräsentiert gnum die Durchgangszahl einer gewissen Gruppe in den gesamten Gruppen und repräsentiert group_len [gnum] die Anzahl der kurzen Blöcke, die in der gnum-ten Gruppe enthalten sind, und dann wird die Initialisierungsoperation jeweils auf den Zustand angewendet, sodass gilt gnum = 0, min = PE(0) und max = PE(0) (Schritt S20). In dem vorgenannten Zustand repräsentieren min bzw. max den minimalen Wert bzw. den maximalen Wert von PE(i). In der 18 sind min bzw. max jeweils gleich 110 bzw. 110 (min = 110, max = 110). Außerdem wird der Index i mit i = 1 initialisiert (Schritt S23). Der Index entspricht der Durchlaufzahl der kurzen Blöcke.
  • Als Nächstes werden min oder max in Entsprechung zu PE(i) erneuert. Denn, wenn PE(i) kleiner ist als min, ist min gleich PE(i), oder, wenn PE(i) größer als max ist, ist max gleich PE(i). (Schritt S24) PE(i) < min ..... min = PE(i) PE(i) > max ..... max = PE(i)
  • Bei dem in der 18 gezeigten Beispiel gilt, falls PE(i) > max gilt, max = PE(i). (Schritt S24)
  • Und die Klassifikation der Gruppe wird beurteilt. (Schritt S25) Denn der erhaltene Wert (max-min) wird mit dem vorbestimmten Schwellenwert th verglichen. Wenn der erhaltene Wert (max-min) größer oder gleich dem Wert th ist, geht der Schritt über zu dem Schritt S26, um die Gruppenklassifikation zwischen den kurzen Blöcken (i-1) und i vorzunehmen. Wenn der Wert (max-min) kleiner als der Wert th ist, wird beurteilt, dass die kurzen Blöcke (i-1) und i in derselben Gruppe enthalten sind, und geht der Schritt über zu dem Schritt S27. In diesem Beispiel ist der Wert th gleich 50 (th = 50). Denn die Gruppenklassifikation wird so ausgeführt, dass die Differenz zwischen dem maximalen Wert und dem minimalen Wert der jeweiligen kurzen Blöcke PE(i), die in derselben Gruppe enthalten sind, kleiner als 50 wird.
  • Wenn i=1 gilt, werden, weil max-min = 110 – 96 = 14 < 50 = th gilt, die kurzen Blöcke 0 und 1 so beurteilt, dass diese in derselben Gruppe enthalten sind, und geht der Schritt über zu dem Schritt S27. Weil gnum = 0 gilt, gehen hierbei die kurzen Blöcke 0 und 1 über zu dem Schritt S27. Weil hier außerdem gnum = 0 gilt, sind die kurzen Blöcke 0 und 1 in der 0-ten Gruppe enthalten und wird der Wert von group_len [gnum] um 1 inkrementiert (Schritt S28). Dies zeigt eine Minderung der Zahl der kurzen Blöcke, die in der gnum-ten Gruppe enthalten sind, um 1 an. Weil die Initialisierung in dem Zustand von gnum = 0 und group_len [0] = 1 ausgeführt wird, wird der Zustand in dem Schritt S27 group_len [0] = 2. Dies entspricht der Tatsache, dass die beiden Blöcke in den Blöcken 0 und 1 bereits als die kurzen Blöcke, die in der 0-ten Gruppe enthalten sind, festgelegt (abgelegt) sind.
  • Als Nächstes wird der Index i um 1 inkrementiert (Schritt S28). Wenn i kleiner als 7 ist, kehrt der Schritt zurück zu dem Schritt S24 (Schritt S29). Weil in diesem Beispiel i gleich 2 gilt (< 7), i = 2 < 7, kehrt der Schritt zurück zu dem Schritt S24.
  • Danach folgt dieselbe Operation, wie diese vorstehend beschrieben wurde, solange bis gilt i = 4. Wenn i gleich 4 ist, wird, weil die Werte von min und max jeweils gleich 96 und 137 in dem Schritt S24 gemäß der 16 sind, wie in der 18 gezeigt, die Beurteilung: max – min = 41 < 50 = th, in dem Schritt S25 ausgeführt und geht der Schritt direkt über von dem Schritt S25 zu dem Schritt S27. In dem Schritt 27 wird group_len [0] gleich 5. group_len [0] = 5
  • Denn dies entspricht der Tatsache, dass die fünf Blöcke: 0, 1, 2, 3 und 4 als die kurzen Blöcke gesetzt sind, die in der 0-ten Gruppe enthalten sind und bereits festgelegt sind. Wenn der Schritt erneut über den Schritt S29 zu dem Schritt S24 zurückkehrt, nachdem i in dem Schritt S28 gleich 5 wird, wird PE(5) zu diesem Zeitpunkt gleich 152 und werden deshalb die Werte von min und max jeweils gleich 96 und 152. Weil die Beurteilung: max – min = 56 > 50 = th in dem Schritt S25 ausgeführt wird, geht der Schritt dann über zu dem Schritt S26. Dieser zeigt an, dass die Gruppenklassifikation zwischen den kurzen Blöcken 4 und 5 ausgeführt wird. Der Wert von gnum wird in dem Schritt S26 um 1 inkrementiert und die Werte von min und max werden jeweils durch den neuesten Wert von PE(i) ersetzt. Hierbei sind die jeweiligen Werte von gnum, min und max 1, 152 und 152. Die Gleichung gnum = 1 entspricht der Tatsache, dass die Gruppe der kurzen Blöcke 5, die darin enthalten sind, die erste Gruppe ist.
  • Als Nächstes wird in dem Schritt S27 der Wert group_len [1] um 1 inkrementiert. Weil der Wert von group_len [1] in dem Schritt S21 auf 0 (Null) initialisiert worden ist, wird der Wert group_len [1] in einem solchen Zustand gleich 1. Dies entspricht der Tatsache, dass ein Block in dem Block 5 als die kurzen Blöcke in der ersten Gruppe enthalten sind.
  • In ähnlicher Weise wird später in dem Schritt S28 gemäß der 16 i gleich 6. Wenn der Schritt vor dem Schritt S29 zu dem Schritt S24 zurückkehrt, werden, weil der Wert von PE(6) das nächste Mal gleich 269 wird, wie in der 18 gezeigt, die Werte von min bzw. max gleich 152 und 269. Zu diesem Zeitpunkt wird die Beurteilung von max – min = 117 > 50 in dem Schritt S25 ausgeführt und geht der Schritt über zu dem Schritt S26. Denn die Gruppenklassifikation wird zwischen den kurzen Blöcken 5 und 6 ausgeführt. Und dann wird in dem Schritt S26 gnum = 2, min = 269 und max = 269 ausgeführt und wird in dem Schritt S27 group_len [2] = 1 ausgeführt. Und dann wird in dem Schritt S28 i = 7 ausgeführt. Danach wird, weil in dem Schritt S24 in derselben Weise wie zuvor PE(7) = 231 gilt, min = 231 und max = 269 und wird die Beurteilung von max – min = 38 < 50 in dem Schritt S25 ausgeführt und geht der Schritt über zu dem Schritt S27. Denn beide kurzen Blöcke 7 und 6 sind in der zweiten Gruppe enthalten. In Entsprechung zu dem, was vorstehend ausgeführt wurde, gilt in dem Schritt S27 für den Wert von group_len [2] = 2. Wenn i gleich 8 (i = 8) in dem nächsten Schritt S28 wird, geht der Schritt über zu dem Schritt S30, und zwar in Entsprechung zu der Beurteilung des Schrittes S29. Zu die sem Zeitpunkt ist die Gruppenklassifikation für sämtliche der acht kurzen Blöcke abgeschlossen.
  • In diesem Beispiel wird schließlich die nachfolgende Beziehung in Kraft gesetzt: Gnum = 2; Group_len [0] = 5; Group_len [ 1 ] = 1; und Group_len [2] = 2.
  • Denn als Ergebnis beträgt die Anzahl der Gruppen 5 und beträgt die Anzahl der kurzen Blöcke, die in den jeweiligen Gruppen enthalten sind, für die 0-te Gruppe, die erste Gruppe und die erste Gruppe jeweils 5, 1 und 2. Das vorgenannte Ergebnis ist dasselbe wie das Beispiel der Gruppenklassifikation, wie dies in der 14 gezeigt ist.
  • Es gibt jedoch den Fall, dass die geeignete Beurteilung von langkurz nicht ausgeführt werden kann, und zwar selbst bei diesem Verfahren, das vorstehend erläutert wurde. Beispielsweise ist dies der Fall bei der Kodierung der akustischen Daten, welche die Komponente der hochreinen Klangqualität in der niederfrequenten Komponente (dem niederfrequenten Bereich) enthalten. Die unter Verwendung der kurzen Blöcke vorgenommene Wandlung resultiert in der Erhöhung der Auflösung in dem Zeitbereich, während die Auflösung in dem Frequenzbereich herabgesetzt (gemindert) wird. Andererseits hat das menschliche Gehör die Eigenschaft der Maskierung mit hoher Auflösung in dem niederfrequenten Bereich. Insbesondere wird nur das sehr schmale Frequenzband für die akustischen Daten der hochreinen Klangeigenschaft maskiert.
  • Falls die akustischen Daten, welche die Komponente der Tonalitätseigenschaft in der niederfrequenten Komponente (dem niederfrequenten Bereich) enthalten, mit den kurzen Blöcken gewandelt werden, wird andererseits die Energie der ursprünglichen (anfänglichen) akustischen Daten in die umgebende (benachbarte) Frequenz bandbreite wegen der unzureichenden Auflösung in der Frequenzbandbreite, die durch die kurzen Blöcke verursacht wird, verteilt und wird die Energie weiter über die Breite der Maskierung in dem niederfrequenten Audiobereich aufgespreizt, der von dem menschlichen Gehör wahrgenommen werden kann. Als Folge nimmt das menschliche Gehör die Verschlechterung der Klangqualität wahr. Die vorgenannte Tatsache deutet an, dass es nicht ausreicht, einfach die Beurteilung von lang/kurz auf der Grundlage der Wahrnehmungsentropie in Bezug auf die kurzen Blöcke auszuführen, so dass es ferner notwendig ist, die Kombination der Tonalität der akustischen Daten und der Frequenzabhängigkeit der Maskierungseigenschaft zu berücksichtigen.
  • In einer solchen Situation wird als Nächstes der eingegebene akustische Signal-Frame in mehrere kurze Blöcke unterteilt und wird bestimmt, ob der Tonalitätsindex der akustischen Komponente, die in dem vorbestimmten Frequenzband oder in mehreren Frequenzbändern (Bereichen) enthalten ist, größer ist als der Schwellenwert. Für den Fall, dass es zumindest einen kurzen Block gibt, der größer ist als der vorgenannte vorbestimmte Schwellenwert, und zwar in sämtlichen vorbestimmten einfach oder mehrfach unterteilten Frequenzbändern (Bereichen), wird festgestellt, dass der eingegebene akustische Signal-Frame mit einem Block in den Frequenzbereich gewandelt wurde. In der Vergangenheit haben wir bereits die Anmeldung eingereicht, die sich auf ein solches Verfahren bezieht, wie vorstehend ausgeführt. Die 19 stellt das konkrete Beispiel einer Realisierung eines solchen Verfahrens dar.
  • Die 19 ist ein Flussdiagramm, das den Betrieb einer Vorrichtung zum Kodieren eines digitalen akustischen Signals darstellt. Der Betrieb der vorliegenden Ausführungsform wird nachfolgend anhand der 19 konkret beschrieben. Bei dieser Gelegenheit werden die akustischen Daten gemäß der 17 als ein Beispiel für das eingegebene akustische Signal verwendet. In der 17 sind die Durchlaufzahlen in Entsprechung zu den jeweiligen acht aufeinander folgenden kurzen Blöcken angefügt.
  • Als Erstes werden im Zusammenhang mit den aufeinander folgenden acht kurzen Blöcken i (0 ≤ i ≤ 7) für das eingegebene akustische Signal jeweils die Werte des Tonalitätsindex in den jeweiligen Frequenzbändern sfb berechnet. Für diese berechneten Werte wird angenommen, dass diese gleich tb[i][sfb] sind (Schritt S40). Hierbei ist, wie in der 17 gezeigt, sfb die Durchlaufzahl, um das jeweilige Frequenzband zu erkennen. Die Berechnung des Tonalitätsindex wird mit Hilfe des Verfahrens, das in dem Schritt 7 erläutert wurde, in dem Schritt zum Beurteilen von lang/kurz für die jeweils wahrgenommenen Blöcke in der vorgenannten ISO/IEC 13818-7 ausgeführt. Als Nächstes wird der Initialisierungsvorgang von tonal-flag = 0 ausgeführt (Schritt S41). Außerdem wird die Durchlaufzahl i der kurzen Blöcke als i = 0 initialisiert (Schritt S42). Und dann wird in den vorbestimmten einfach oder mehrfach unterteilten Bereichen, und zwar in Bezug auf die kurzen Blöcke i, danach gesucht, ob die jeweiligen Tonalitätsindices größer als der vorbestimmte Schwellenwert für die jeweiligen Frequenzbänder sind (Schritt S43). In dem in der 19 gezeigten Beispiel wird die Suche in Bezug auf die Frequenzbänder ausgeführt: sfb = 7, 8 und 9, sowie in Bezug auf die jeweiligen Tonalitätsindices: th7, th8 und th9.
  • Nun sei in diesem Beispiel angenommen, dass die Werte der Tonalitätsindices bei sfb = 7, 8 und 9 diejenigen sind, die in der 20 gezeigt sind, und zwar in Bezug auf die jeweiligen kurzen Blöcke i, und sei weiter angenommen, dass die jeweiligen Schwellenwerte wie folgt festgelegt sind: th7 = 0,6, th8 = 0,9 und th9 = 0,8.
  • Bei dem ersten Vorgang i = 0 werden die nachfolgenden Beziehungen in Kraft gesetzt: tb[0][7] = 0.12 < 0.6 = th7, tb[0][8] = 0.08 < 0.9 = th8, und tb[0][9] = 0.15 < 0.8 = th9.
  • Folglich wird die Beurteilung in dem Schritt S43 "nein" und geht der Schritt über zu dem nächsten Schritt S45. Und dann wird der Wert i um 1 inkrementiert und wird der Wert i gleich 1 (i = 1) und kehrt der Schritt über die Beurteilung des Schrittes S46 erneut zurück zu dem Schritt S43.
  • Danach wird derselbe Vorgang wie der vorstehende Vorgang so lange ausgeführt, bis i = 5 gilt. Danach wird i gleich 6 (i = 6) (Schritt S45), kehrt der Schritt über den Schritt S46 erneut zurück zu dem Schritt S43. Weil die nachfolgenden Gleichungen in Kraft gesetzt werden, gilt dann: tb[6][7] = 0.67 > 0.6 = th7; tb[6][8] = 0:95 > 0.9 = th8; und tb[6][9] = 0.89 > 0.8 = th9,
  • Die Beurteilung im Schritt S43 wird "ja" und der Schritt geht über zu dem Schritt S44. Zu diesem Zeitpunkt wird der Wert von tonal_flag gleich 1 (Schritt S44). Tonal_flag = 1
  • Als Nächstes wird i gleich 7 (i = 7) (Schritt S45) und dann kehrt der Schritt über den Schritt S43 erneut zu dem Schritt S43 zurück. Zu diesem Zeitpunkt von i = 7 gilt, weil die nachfolgenden Beziehungen in Kraft gesetzt sind: tb[7][7] = 0.42 < 0.6 = th7; tb[7][8] = 0.84 < 0.9 = th8; und tb[7][9] = 0.81 > 0.8 = th9,
  • Die Beurteilung in dem Schritt S43 wird "nein" und der Schritt geht über zu dem Schritt S45. Andererseits wird der Wert von tonal_flag auf 1 gehalten und ändert sich überhaupt nicht. Und dann, nachdem i gleich 8 wird (i = 8) (Schritt S45), geht der Schritt dieses Mal über die Beurteilung des Schrittes S46 über zu dem Schritt S47 und dann wird der Wert von tonal_flag gesetzt (Schritt S47). Bei diesem Beispiel wird, weil tonal_flag = 1 gilt, die Beurteilung "ja" und geht der Schritt über zu dem Schritt S48. Folglich wird beurteilt, dass der eingegebene akustische Block mittels eines langen Blockes MDCT-gewandelt wird.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Bisher wurde der relevante Stand der Technik in Bezug auf die Vorrichtung zum Kodieren von digitalen akustischen Signalen, in Bezug auf das Verfahren zum Kodieren von digitalen akustischen Signalen und in Bezug auf das Aufzeichnungsmedium zum Aufzeichnen des Programms zum Kodieren der digitalen akustischen Signale beschrieben.
  • Gemäß diesem relevanten Stand der Technik wird jedoch beispielsweise in den Dokumenten des Standes der Technik, wie beispielsweise der Veröffentlichungsschrift der japanischen Patent-Offenlegungsschrift Nr. 9-232964, und in den anderen Dokumenten, die sich auf MPEG-2 Audio AAC (Advanced Audio Encoding) beziehen, die in ISO/IEC 13818-7 genormt ist, die MDCT (modifizierte diskrete Kosinustransformation) und die M/S (M/S Stereo-Mittel-Seitenstereo) etc. gibt es keinen vorteilhaften funktionellen Effekt, um die vorgenannte Vorrichtung, das vorgenannte Verfahren und das vorgenannte Aufzeichnungsmedium zu verbessern. Die vorliegende Erfindung ist im Hinblick auf die vorgenannten Probleme und andere Probleme gemacht worden, um die vorgenannten Unzulänglichkeiten und Schwierigkeiten des Standes der Technik zu beheben. Die vorliegende Erfindung verbessert die zahlreichen Probleme des vorstehend angeführten Standes der Technik. Die vorliegende Erfindung stellt eine Vorrichtung zum Kodieren von digitalen akustischen Signalen nach Anspruch 4 und ein Verfahren nach Anspruch 1 und ein Aufzeichnungsmedium nach Anspruch 8 zum Aufzeichnen eines Programms und nach Anspruch 7 zum Kodieren der digitalen akustischen Signale bereit.
  • In dem vorgenannten Verfahren gemäß dem Stand der Technik wird die Beurteilung von langkurz in gewissen Fällen nicht geeignet ausgeführt. Dies bedeutet, dass, trotz der Tatsache, dass es sich bei der Wandlung unter Verwendung des kurzen Blockes bzw. der kurzen Blöcke im Wesentlichen um das herkömmliche Verfahren handelt, weil das Ergebnis der vorgenannten Gruppenklassifikation gemäß dem Stand der Technik 1 wird, die Gruppe, die beurteilt wird, in gewissen Fällen der lange Block ist.
  • Weil die kleinere (niedrigere) Abtastfrequenz des eingegebenen akustischen Signals in dem Frequenzbereich gleich 4 kHz wird oder größer wird, gilt, dass, je geringer der Beitrag auf Grund des absoluten Hörbarkeits-Schwellenwertes wird, die (gesamte) quadratische Messung der Bitzuordnungsbereiche (in der 9 der mit schrägen Linien angedeutete Bereich) im Vergleich dazu vergrößert. Als Folge wird auch der Wert der Wahrnehmungsentropie (PE), die in dem Schritt S12 in dem Verfahren zur Beurteilung der langen/kurzen Blöcke, das in der vorstehend genannten ISO/IEC 13818-7 beschrieben wurde, berechnet wird, allmählich größer.
  • Wenn der Schwellenwert relativ zu der Differenz zwischen den Summen (Summenwerten) der Wahrnehmungsentropien der jeweiligen kurzen Blöcke ungeachtet der Abtastfrequenz einen gemeinsamen bzw. konstanten Wert annimmt, tritt andererseits ein zu lösendes Problem dahingehend in den Vordergrund, dass, obwohl die Beurteilung langkurz bei einer (gewissen) Abtastfrequenz in geeigneter Weise ausgeführt werden kann, dieselbe Beurteilung bei einer anderen Abtastfrequenz nicht in geeigneter Weise ausgeführt werden kann.
  • EP 0 986 047 A2 , bei der es sich um Stand der Technik gemäß Art. 54(3) des Europäischen Patentübereinkommens handelt, offenbart ein Verfahren zum Wechseln zwischen einer Langblock-Kodierung und einer Kurzblock-Kodierung von Frames bzw. Rahmen von Audiodaten, bei dem eine Differenz in der Langblock-Wahrnehmungsentropie eines aktuellen Frames bzw. Rahmens und des vorherigen Frames bzw. Rahmens berechnet wird und bei dem auf der Grundlage der Berechnung der Differenz der Wahrnehmungsentropien Entscheidungen getroffen werden.
  • US 5,627,938 offenbart ein Verfahren und eine Vorrichtung zum Kodieren von Audiosignalen unter Verwendung eines Skalenfaktors, der zwischen einem Schwellenwert, der auf der berechneten Hörschwelle bei einer vorgegebenen Frequenz basiert, und dem absoluten Hörschwellenwert bei derselben Frequenz interpoliert.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Ein vollständigeres Verständnis der Erfindung und vieler ihrer begleitenden Vorteile werden aus der nun folgenden ausführlichen Beschreibung, die Bezug nimmt auf die beigefügten Zeichnungen, besser zugänglich sein, worin:
  • 1 ein Blockdiagramm ist, das den Aufbau einer Vorrichtung zum Kodieren von digitalen akustischen Signalen gemäß der vorliegenden Erfindung darstellt;
  • 2 ein Flussdiagramm ist, das den Betrieb des Verfahrens zum Kodieren von digitalen akustischen Signalen der ersten Ausführungsform gemäß der vorliegenden Erfindung darstellt;
  • 3 ein erläuterndes Signalformdiagramm ist, um als ein Beispiel die Signalform des akustischen Signals in der ersten Ausführungsform gemäß der vorliegenden Erfindung zu erläutern;
  • 4 ein Diagramm (Liste) ist, um die Beziehung zwischen den Wahrnehmungsentropien in den beiden Frames bzw. Rahmen zu erläutern, die in Zeitrichtung für die jeweiligen kurzen Blöcke aufeinander folgen;
  • 5 ein Flussdiagramm ist, das den Betrieb des Verfahrens zum Kodieren von digitalen akustischen Signalen der zweiten Ausführungsform gemäß der vorliegenden Erfindung darstellt;
  • 6 ein erläuterndes Signalformdiagramm ist, um die Gruppenklassifikation in der zweiten Ausführungsform gemäß der vorliegenden Erfindung zu erläutern;
  • 7 ein Diagramm (eine Liste) ist, um ein Beispiel des Schwellenwertes für jede der Abtastfrequenzen zu erläutern;
  • 8 ein System-Blockdiagramm ist, um den Aufbau des Systems gemäß der vorliegenden Erfindung zu erläutern;
  • 9 ein erläuterndes Signalformdiagramm ist, um die Lautstärkeverteilungen des akustischen Signals, den Maskierungs-Schwellenwert und den absoluten Hörschwellenwert zu erläutern;
  • 10 ein Blockdiagramm ist, das den grundlegenden Aufbau der AAC-Kodierung darstellt;
  • 11 ein Diagramm ist, das den Wandlungsbereich der MDCT zeigt;
  • 12 ein Diagramm ist, das den Wandlungsbereich der MDCT für die Signalform des Signals zeigt, das sich ein wenig ändert;
  • 13 ein Diagramm ist, das die Signalform des sich heftig (rasch) ändernden Signals zeigt;
  • 14 ein erläuterndes Diagramm ist, um ein Beispiel der Gruppenklassifikation zu erläutern;
  • 15 ein Flussdiagramm ist, das die Operation zur Beurteilung von langen/kurzen Blöcken gemäß ISO/IEC 13818-7 darstellt;
  • 16A und 16B Flussdiagramme sind, die den Betrieb des Verfahrens zum Kodieren von digitalen akustischen Signalen gemäß dem Stand der Technik darstellen;
  • 17 ein erläuterndes Signalformdiagramm ist, und zwar als ein Beispiel für das akustische Signal;
  • 18 eine Diagrammbeziehung (Listenbeziehung) zwischen den kurzen Blöcken und der Wahrnehmungsentropie ist;
  • 19A und 19B Flussdiagramme sind, die den Betrieb des anderen Verfahrens zum Kodieren von digitalen akustischen Signalen darstellen;
  • 20 ein erläuterndes Diagramm ist, um die Beziehung zwischen dem kurzen Block und dem Tonalitätsindex zu erläutern;
  • 21 ein erläuterndes Diagramm ist, um die Beziehung zwischen dem ursprünglichen Signalwert, dem Festlängenkode, dem Huffman-Kode und dem Kode zu erläutern, mit dem nicht dekodiert werden kann;
  • 22 ein erläuterndes Diagramm ist, um die Quantisierung zu erläutern;
  • 23 ein erläuterndes Diagramm ist, um das konkrete Zahlenbeispiel des Quantisierungsfehlers zu erläutern;
  • 24A und 24B erläuternde Signalformdiagramme sind, um die Wandlung der Signalform in den Zeitbereich in die Signalform in dem Frequenzbereich zu erläutern, wobei die 24A die Beziehung zwischen der Klangamplitude und der Zeit zeigt, und die 24B die Beziehung zwischen dem Klangvolumen bzw. der Lautstärke und der Frequenz zeigt;
  • 25 ein erläuterndes Diagramm ist, um das Beispiel zum Unterteilen des Signals in dem Frequenzbereich in zwei Bandbreiten zu erläutern;
  • 26 ein Signal-Flussdiagramm ist, um den grundlegenden Ablauf der Kodierung von akustischen Signalen zu zeigen;
  • 27 ein Signal-Flussdiagramm ist, um den Ablauf der Kodierung von akustischen Signalen gemäß MP3 zu zeigen; und
  • 28 ein Beispiel einer nummerischen Zahlenreihe und von zwei Fällen zeigt, um der nummerischen Zahlreihe jeweils einen Festlängen-Kode und einen Huffman-Kode zuzuordnen.
  • AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Beim Beschreiben der vorgenannten Ausführungsform gemäß der vorliegenden Erfindung, die in den Zeichnungen dargestellt ist, wird aus Gründen der Übersichtlichkeit eine spezielle Terminologie verwendet. Es ist jedoch nicht beabsichtigt, dass die vorliegende Erfindung auf die so gewählte spezielle Terminologie beschränkt ist, und es sei darauf hingewiesen, dass jedes spezielle Element sämtliche technischen Äquivalente, die in ähnlicher bzw. gleichwirkender Weise funktionieren, mit umfasst.
  • Anhand der Zeichnungen, in denen gleiche Bezugszeichen identische oder einander entsprechende Teile in sämtlichen der unterschiedlichen Ansichten (Diagrammen) zeigen, und insbesondere anhand der 1 bis 8, wird die verbesserte Vorrichtung zum Kodieren von digitalen akustischen Signalen, das verbesserte Verfahren zum Kodieren der digitalen akustischen Signale und das verbesserte Medium zum Aufzeichnen des Programms zum Kodieren der digitalen akustischen Signale erläutert.
  • Um die vorgenannte Aufgabe zu lösen, besteht, genauer gesagt, die erfindungsgemäße Vorrichtung zum Kodieren von digitalen akustischen Signalen aus einem Wahrneh mungsentropie-Berechnungsmittel zum Berechnen der Wahrnehmungsentropie für ein eingegebenes akustisches Signal, die für jeden der jeweiligen kurzen Wandlungsblöcke berechnet wird; aus einem Wahrnehmungsentropie-Gesamtsummen-Berechnungsmittel, um die Gesamtsumme in dem Frame der Wahrnehmungsentropie zu erhalten, die mit Hilfe des Wahrnehmungsentropie-Berechnungsmittels berechnet wird; aus einem Vergleichsmittel zum Vergleichen des Absolutwertes der Differenz zwischen den jeweiligen Gesamtsummen in dem Frame bzw. Rahmen der Wahrnehmungsentropie von den beiden Frames, die in Bezug auf die verstreichende Zeit aufeinander folgen, mit einem zuvor bestimmten Schwellenwert; und aus einem Beurteilungsmittel für lange/kurze Blöcke, um das eingegebene akustische Signal auf der Grundlage des Vergleichsergebnisses, das von dem Vergleichsmittel erhalten wird, zu beurteilen.
  • Wenn der Absolutwert größer als der Schwellenwert als dem Vergleichsergebnis, das von dem Vergleichsmittel erhalten wird, ist, stellt bei der erfindungsgemäßen Vorrichtung zum Kodieren von digitalen akustischen Signalen das Beurteilungsmittel für lange/kurze Blöcke außerdem fest, dass der letzte Frame bzw. Rahmen von den beiden Frames bzw. Rahmen, die zeitlich aufeinander folgen, mit Hilfe der kurzen Blöcke gewandelt wurde; und, wenn der Absolutwert kleiner als der Schwellenwert ist, stellt das Beurteilungsmittel für lange/kurze Blöcke fest, dass der spätere Frame bzw. Rahmen von den beiden Frames bzw. Rahmen mit Hilfe des langen Blocks gewandelt wurde.
  • Folglich kann eine Vorrichtung zum Kodieren von digitalen akustischen Signalen bereitgestellt werden, welche in der Lage ist, die Blockwandlung so auszuführen, dass diese zusätzlich die Eigenschaft des eingegebenen akustischen Signals reflektiert (wirksam ausnutzt).
  • Außerdem besteht die andere Vorrichtung zum Kodieren von digitalen akustischen Signalen gemäß der vorliegenden Erfindung aus einem Wahrnehmungsentropie-Berechnungsmittel zum Berechnen der Wahrnehmungsentropie eines eingegebenen akustischen Signals, die für jeden der jeweiligen kurzen Wandlungsblöcke berechnet wird; aus einem Wahrnehmungsentropie-Gesamtsummen-Berechnungsmittel zum Erhalten der Gesamtsumme in dem Frame der Gesamtentropie, die von dem Gesamtentro pie-Berechnungsmittel berechnet wurde; aus einem Vergleichsmittel zum Vergleichen des Absolutwertes der Differenz zwischen den jeweiligen Gesamtsummen in dem Frame der Wahrnehmungsentropie der beiden Frames, die zeitlich aufeinander folgen, relativ zu einem zuvor bestimmten Schwellenwert; und aus einem Beurteilungsmittel, das beurteilt bzw. feststellt, dass der spätere Frame von den beiden Frames, die zeitlich aufeinander folgen, mit Hilfe der kurzen Blöcke gewandelt ist, wenn der Absolutwert größer als der Schwellenwert als dem Vergleichsergebnis ist, das von dem Vergleichsmittel erhalten wird, und dass die Beurteilung nicht ausgeführt werden kann, wenn der Absolutwert größer als der Schwellenwert ist.
  • Außerdem ist bei der erfindungsgemäßen Vorrichtung zum Kodieren von digitalen akustischen Signalen der Schwellenwert gleich einem Wert, der pro Abtastfrequenz des eingegebenen akustischen Signals bestimmt wird. Das erfindungsgemäße Verfahren zum Kodieren von digitalen akustischen Signalen als dem anderen Gesichtspunkt einer Ausführungsform umfasst die folgenden Schritte: Berechnen der Wahrnehmungsentropie eines eingegebenen akustischen Signals, die für jeden der jeweiligen kurzen Wandlungsblöcke berechnet wird; Erhalten der Gesamtsumme in dem Frame bzw. Rahmen der berechneten Wahrnehmungsentropie; Vergleichen des Absolutwertes der Differenz zwischen den jeweiligen Gesamtsummen in dem Frame der Wahrnehmungsentropie der beiden Frames, die in der Zeit aufeinander folgen, mit einem zuvor bestimmten Schwellenwert; und Bestimmen bzw. Beurteilen, ob der lange Block oder der kurze Block den Block des eingegebenen akustischen Signals wandeln sollte, und zwar auf der Grundlage des Vergleichsergebnisses.
  • Bei dem anderen erfindungsgemäßen Verfahren zum Kodieren von digitalen akustischen Signalen wird, wenn der Absolutwert größer als der Schwellenwert ist, der spätere Frame von den beiden in der Zeit aufeinander folgenden beiden Frames bestimmt, der mit Hilfe der kurzen Blöcke gewandelt werden sollte; und wird dann, wenn der Absolutwert kleiner ist als der Schwellenwert, der spätere Frame von den beiden Frames festgelegt, der mit Hilfe des langen Blocks gewandelt werden sollte.
  • Das andere erfindungsgemäße Verfahren zum Kodieren von digitalen akustischen Signalen umfasst die Schritte: Berechnen der Wahrnehmungsentropie eines eingegebenen akustischen Signals, die für jeden der jeweiligen kurzen Wandlungsblöcke berechnet wird; Erhalten der Gesamtsumme in dem Frame der berechneten Wahrnehmungsentropie; Vergleichen des Absolutwertes der Differenz zwischen den jeweiligen Gesamtsummen in dem Frame der Wahrnehmungsentropie der beiden Frames, die in der Zeit aufeinander folgen, mit einem zuvor bestimmten Schwellenwert; und Festlegen des späteren Frames von den beiden in der Zeit aufeinander folgenden Frames, der mit Hilfe der kurzen Blöcke gewandelt werden sollte, wenn der Absolutwert größer als der Schwellenwert ist, und Festlegen bzw. Bestimmen des späteren Frames von den beiden in der Zeit aufeinander folgenden Frames, der mit Hilfe des langen Blocks gewandelt werden sollte, wenn der Absolutwert kleiner ist als der Schwellenwert.
  • Bei dem anderen erfindungsgemäßen Verfahren zum Kodieren von digitalen akustischen Signalen ist der Schwellenwert gleich einem Wert, der für die Abtastfrequenz des akustischen Eingangssignals bestimmt wird.
  • Außerdem kann durch Verwenden eines Computerprogrammprodukts, das auf einem Aufzeichnungsmedium gespeichert werden kann, um das erfindungsgemäße Verfahren zum Kodieren von digitalen akustischen Signalen zu praktizieren, die Vorrichtung, die für das Kodierungssystem ausgelegt ist, in großem Umfang für verschiedene Zwecke verwendet werden, ohne das bestehende System zu verändern. Das vorgenannte Computerprogrammprodukt bzw. Aufzeichnungsmedium wird später ausführlicher beschrieben.
  • GESICHTSPUNKTE DER AUSFÜHRUNGSFORMEN GEMÄSS DER VORLIEGENDEN ERFINDUNG
  • In der erfindungsgemäßen Vorrichtung zum Kodieren von digitalen akustischen Signalen, in die ein digitales akustisches Signal entlang der Zeitachse eingegeben wird und in der dieses entlang der Zeitachse in Blöcke unterteilt wird, werden für jeden der jeweiligen Blöcke Verarbeitungsvorgänge ausgeführt, wie beispielsweise eine Subband-Unterteilung, eine Wandlung in den Frequenzbereich etc. Das akustische Signal wird in mehrere Frequenzbänder unterteilt. Kodierte Bits werden jedem der jeweiligen Frequenzbänder zugewiesen. Ein Skalenfaktor wird erhalten, der der kodierten Bitzahl der zugewiesenen Bits entspricht. Das digitale akustische Signal wird komprimiert und durch Quantisieren des akustischen Signals mit Hilfe des Skalenfaktors kodiert. Wenn die Wandlung in den Frequenzbereich ausgeführt wird, wird das in die Blöcke unterteilte akustische Signal entweder in einen langen Wandlungsblock oder in mehrere kurze Wandlungsblöcke gewandelt. Wenn die kurzen Wandlungsblöcke verwendet werden, werden die mehreren kurzen Wandlungsblöcke in die Gruppe von mehreren Blöcken unterteilt, die jeweils einen oder mehrere kurze Wandlungsblöcke beinhalten. Das akustische Signal wird quantisiert, was bewirkt, dass einer oder mehrere kurze Wandlungsblöcke, der bzw. die in derselben Gruppe enthalten ist bzw. sind, einem gemeinsamen Skalenfaktor entspricht oder entsprechen.
  • Die Vorrichtung zum Kodieren von digitalen akustischen Signalen besteht aus einem Wahrnehmungsentropie-Berechnungsmittel zum Berechnen der Wahrnehmungsentropie eines eingegebenen akustischen Signals, die für jeden der jeweiligen kurzen Wandlungsblöcke berechnet wird; aus einem Wahrnehmungsentropie-Gesamtsummen-Berechnungsmittel zum Erhalten der Gesamtsumme in dem Frame der Wahrnehmungsentropie, die mit Hilfe des Wahrnehmungsentropie-Berechnungsmittels berechnet wird; aus einem Vergleichsmittel zum Vergleichen des Absolutwertes der Differenz zwischen den jeweiligen Gesamtsummen in dem Frame der Wahrnehmungsentropie der beiden zeitlich aufeinander folgenden Frames mit einem zuvor bestimmten Schwellenwert; und aus einem Mittel zum Beurteilen bzw, Festlegen von langen kurzen Blöcken, um festzulegen, ob der lange Block oder die kurzen Blöcke den Block des eingegebenen akustischen Signals wandeln sollte bzw. sollten, und zwar auf der Grundlage des von dem Vergleichsmittel erhaltenen Vergleichsergebnisses.
  • ERSTE AUSFÜHRUNGSFORM
  • Die erste Ausführungsform gemäß der vorliegenden Erfindung wird nachfolgend anhand der beigefügten Zeichnungen beschrieben werden.
  • Die 1 ist ein Blockdiagramm, das den Aufbau einer Vorrichtung zum Kodieren eines digitalen akustischen Signals darstellt, die eine erste Ausführungsform der Erfindung betrifft. Die Vorrichtung zum Kodieren von digitalen akustischen Signalen der Ausführungsform, wie dies in der 1 gezeigt ist, besteht aus einem Block-Unterteilungsmittel zum Unterteilen des eingegebenen akustischen Signals in die vorbestimmte Anzahl von Blöcken, beispielsweise in die acht aufeinander folgenden Blöcke in der nachfolgenden Erläuterung; aus einem Wahrnehmungsentropie-Berechnungsmittel 12 zum Berechnen der Wahrnehmungsentropie PE der jeweiligen unterteilten Blöcke gemäß der vorstehenden Berechnungsformel; aus einem Wahrnehmungsentropie-Gesamtsummen-Berechnungsmittel 13 zum Erhalten der Gesamtsumme in dem Frame der berechneten Wahrnehmungsentropie; aus einem Vergleichsmittel 14 zum Vergleichen des Absolutwerts der Differenz zwischen den jeweiligen Gesamtsummen, und zwar in dem Frame, der Wahrnehmungsentropie der beiden Frames, die in der Zeit aufeinander folgen, mit dem vorbestimmten Schwellenwert, und aus einem Mittel 15 zum Festlegen von langen/kurzen Blöcken, um entweder den langen Block oder die kurzen Blöcke zu bestimmen, und zwar in Entsprechung zu dem Vergleichsergebnis.
  • Hierbei stellt die 2 ein Flussdiagramm dar, das den Betrieb der Vorrichtung zum Kodieren von digitalen akustischen Signalen darstellt, die die erste Ausführungsform gemäß der Erfindung betrifft. Der Betrieb der Ausführungsform wird nachfolgend konkret anhand der 1 und der 2 beschrieben. Bei dieser Gelegenheit werden die in der 3 gezeigten akustischen Daten als ein Beispiel für das eingegebene akustische Signal verwendet. Hierbei zeigt die 3 insgesamt 16 kurze Blöcke, die in den beiden Frames bzw. Rahmen enthalten sind, die in der Zeit aufeinander folgen. Was die Frames anbelangt, so sind der Frame f-1 und der Frame f in dieser zeitlichen Reihenfolge angeordnet. Der wahrgenommene Frame ist der spätere Frame f. Die Durchlaufzahlen, die den jeweiligen kurzen Blöcken entsprechen, sind an die jeweiligen Frames angehängt.
  • Zuerst wird das akustische Signal von dem Block-Unterteilungsmittel 11 in Blöcke unterteilt und berechnet das Wahrnehmungsentropie-Berechnungsmittel 12 jeweils die Wahrnehmungsentropie PE[f][I] für aufeinander folgende acht kurze Blöcke I (0 ≤ i ≤ 7) in dem Frame f (Schritt S101). Die Berechnung der Wahrnehmungsentropie wird mit Hilfe des Verfahrens ausgeführt, das in dem Schritt 12 des Verfahrens zur Beurteilung der langen/kurzen Blöcke erläutert wurde, das in der vorgenannten ISO/IEC 13818-7 beschrieben ist. Als Nächstes wird der aufsummierte Wert SPE[f] in Bezug auf 0 ≤ i ≤ 7 von PE[f][I] erhalten, wie in der nachfolgenden Gleichung (2) definiert, und zwar durch die Verwendung des Wahrnehmungsentropie-Gesamtsummen-Berechnungsmittels 13 (Schritt S102).
  • [Gleichung (2)]
    Figure 00390001
  • Der Absolutwert der Differenz zwischen dem Wert von SPE [f-1], der zuvor in vergleichbarer Weise bei dem vorherigen Frame f-1 unter Verwendung des Vergleichsmittels 14 und des Werts von SPE[f] erhalten wird. Der so erhaltene Absolutwert wird mit dem zuvor bestimmten Schwellenwert switch_pe_s verglichen, also der Vergleich, dessen Wert größer ist, wird bewerkstelligt (Schritt S103). Es wird in dem Beurteilungsmittel 14 für lange/kurze Blöcke festgestellt, wenn der erhaltene Absolutwert größer als der Wert switch_pe_s ist, der Schritt geht über zu dem Schritt S104 und der Frame f wird mit den mehreren kurzen Blöcken gewandelt. Andererseits wird festgestellt, und zwar in dem Beurteilungsmittel 15 für lange/kurze Blöcke, wenn der erhaltene Absolutwert kleiner als der Wert switch_pe_s ist, wobei dann der Schritt zu dem Schritt S105 übergeht und der Frame f mit einem (einzelnen) langen Block gewandelt wird.
  • Die 4 ist ein Diagramm (eine Liste), das die Werte PE[f][I] zeigt, die den jeweiligen kurzen Blöcken entsprechen, die in der 3 gezeigt sind. Bei dem in der 4 gezeigten Beispiel gilt: SPE[f-1]=1394, und SPE[F]=1030.
  • Deshalb gilt, wenn switch_pe_s = 500, |SPE(f-1]-SPE[f]| = 360 < switch_pe_s = 500.
  • Folglich wird für den Frame f festgestellt, dass die Wandlung mit dem einen (einzelnen) langen Block ausgeführt wurde.
  • ZWEITE AUSFÜHRUNGSFORM
  • Als Nächstes wird der Betrieb der Vorrichtung zum Kodieren von digitalen akustischen Signalen anhand der zweiten erfindungsgemäßen Ausführungsform im Zusammenhang mit dem in der 5 gezeigten Flussdiagramm erläutert. Selbe Verarbeitungsschritte vom Schritt S101 bis zum Schritt S104, die in der 2 gezeigt sind, werden jeweils in dem Schritt S201 bis Schritt S204 ausgeführt, die in der 5 gezeigt sind. Nur unterschiedliche Operationen werden nachfolgend beschrieben und die Beschreibung derselben Operationen wird nachfolgend weggelassen.
  • In dem Schritt S203 wird der Absolutwert der Differenz zwischen dem Wert SPE[f-1], der bereits bei dem vorherigen Frame f-1 in derselben Weise, wie vorstehend erläutert, erhalten wurde, und dem Wert SPE[f] und der so erhaltene Absolutwert mit dem vorbestimmten Schwellenwert switch_pe_s verglichen. Wenn der erhaltene Absolutwert größer als switch_pe_s ist, geht der Schritt über zu dem Schritt S204 und wird für den Frame f festgestellt, dass dieser mit den mehreren kurzen Blöcken gewandelt wurde. Wenn andererseits der erhaltene Absolutwert kleiner als switch_pe_s ist, kann die Feststellung nur aus der Information bezüglich der Differenz zwischen den Gesamtsummenwerten der Wahrnehmungsentropie der jeweiligen kurzen Blöcke in dem Frame vorgenommen werden, und wird die Beurteilung lang/kurz mit Hilfe des anderen Mittels ausgeführt.
  • Als Beispiel hierfür wird der Frame f in die Gruppen unterteilt (klassifiziert), so dass die Differenz zwischen dem maximalen Wert und dem minimalen Wert der Wahrnehmungsentropie, was die jeweiligen kurzen Blöcke in derselben Gruppe anbelangt, kleiner wird als der vorbestimmte Schwellenwert. Als Folge geht, wenn die Anzahl der Gruppen 1 ist, der Schritt über zu dem Schritt S206 und wird der Frame f in den Frequenzbereich mit dem einen (einzelnen) langen Block gewandelt. Wenn die Anzahl der Gruppen 2 beträgt oder größer ist, geht der Schritt über zu dem Schritt S204 und wird für die Wandlung festgestellt, dass diese mit den mehreren kurzen Blöcken ausgeführt wurde. Die Einzelheiten der Gruppenklassifikation sind so, wie in dem Flussdiagramm gemäß der 16 gezeigt.
  • Als konkretes Beispiel wird ein Beispiel herangezogen, wie dies in den Zeichnungen einschließlich der 6 gezeigt ist, welche das Ergebnis der Gruppenklassifikation des Frames f zusätzlich zu der 3 und der 4 zeigt. Hierbei ist switch_pe_s gleich 500. Wie vorstehend ausgeführt, weil gilt SPE[f-1]-SPE[F]| = 360 < switch_pe_s = 500hängt dies schließlich von der Feststellung auf Grund des Ergebnisses der Gruppenklassifikation ab. Weil der Frame f in drei Gruppen in der 6 klassifiziert ist (0-te Gruppe entspricht den kurzen Blöcken i = 0, 1, 2, 3 und 4; erste Gruppe ist der kurze Block i = 5; und zweite Gruppen sind die kurzen Blöcke i = 6 und 7), wird für die Wandlung festgestellt, dass diese mit Hilfe der mehreren kurzen Blöcke ausgeführt wurde. Hierbei ist das Verfahren zur Feststellung lang/kurz, das in dem Schritt S205 eingesetzt wird, nicht auf das Verfahren beschränkt, das auf dem Ergebnis der hier bei verwendeten Gruppenklassifikation beruht. Es können andere Feststellungsverfahren eingesetzt werden.
  • DRITTE AUSFÜHRUNGSFORM
  • Obwohl ein Wert für switch_pe_s in der 2 und in der 5 bestimmt wird, kann es außerdem auch zulässig sein, den Wert für jede der Abtastfrequenzen des akustischen Eingangssignals im Voraus zu bestimmen, wie für den Fall der 7, die das Beispiel für den Wert von switch_pe_s für jede der Abtastfrequenzen zeigt, um den Wert von switch_pe_s, wie anhand der 7 erläutert, in Entsprechung zu der Abtastfrequenz des eingegebenen akustischen Signals in der Praxis festzusetzen.
  • Als Nächstes ist die Systemstruktur gemäß der vorliegenden Erfindung in dem Blockdiagramm gemäß der 8 dargestellt. Genauer gesagt, zeigt die 8 die Hardware, die den Mikroprozessor umfasst, der die Software ausführt, die das Verfahren zum Kodieren von digitalen akustischen Signalen gemäß der vorstehenden Ausführungsform ausführt. In der 8 ist das System zum Kodieren von digitalen akustischen Signalen mit einer Schnittstelle (nachfolgend abgekürzt als I/F) 81, einer CPU 82, einem ROM 83, einem RAM 84, einer Anzeigevorrichtung 85, einer Festplatte 86, einer Tastatur 87 und einem CD-ROM-Laufwerk 88 ausgestattet.
  • Außerdem ist die gemeinsam verwendete Datenverarbeitungsvorrichtung dazu ausgelegt und ist das Programm zum Ausführen des erfindungsgemäßen Verfahrens zum Kodieren von digitalen akustischen Signalen auf dem Aufzeichnungsmedium so aufgezeichnet, dass diese bzw. dieses die CD-ROM 89 etc. auslesen kann. Das Steuersignal wird über die OF 81 von der externen Vorrichtung eingegeben und die Bedienperson gibt durch Betätigen der Tastatur 87 oder mit Hilfe des erfindungsgemäßen Programms, das automatisch initialisiert wird, den Befehl (die Instruktion) ein. Die CPU 82 führt gemäß dem vorgenannten Programm den Steuerprozess zum Kodieren aus, der das vorgenannte Verfahren zum Kodieren von digitalen akustischen Signalen begleitet. Das Ergebnis des Prozesses wird in der Speichervorrichtung (dem Speicher), beispielsweise dem RAM 84, der Festplatte 86 etc. abgespeichert. Sie so gespeicherte Information wird je nach Bedarf an die Anzeigevorrichtung ausgegeben.
  • Wie vorstehend ausgeführt, kann durch Verwenden des Computerprogrammprodukts bzw. des Aufzeichnungsmediums zum Ausführen des erfindungsgemäßen Verfahrens zur Kodierung von digitalen akustischen Signalen die Vorrichtung, die dazu ausgelegt ist, um das Kodierungssystem auszubilden, gemeinsam bzw. universell verwendet werden, ohne dass das gegenwärtig verwendete System geändert werden muss.
  • Die Einzelheiten des Computerprogrammprodukts, das auf einem Aufzeichnungsmedium abgespeichert sein kann, werden nachfolgend weiter beschrieben.
  • Ein Aufzeichnungsmedium gemäß der vorliegenden Erfindung wird zum Aufzeichnen eines Computerprogrammprodukts oder eines Programms zum Kodieren der Vorrichtung zum Kodieren von digitalen akustischen Signalen verwendet. In dem Aufzeichnungsmedium wird das digitale akustische Signal entlang der Zeitachse eingegeben und entlang der Zeitachse mit Hilfe eines Computers in Blöcke unterteilt. Verarbeitungsvorgänge, wie beispielsweise eine Subband-Unterteilung oder eine Wandlung in den Frequenzbereich etc., werden für jeden der jeweiligen Blöcke ausgeführt. Das akustische Signal ist in mehrere Frequenzbänder unterteilt. Kodierte Bits werden jeder der jeweiligen Bandbreiten zugewiesen. Ein Skalenfaktor wird erhalten, der der kodierten Bitzahl der zugewiesen Bits entspricht. Das digitale akustische Signal wird komprimiert und durch Quantisieren des akustischen Signals mit dem Skalenfaktor kodiert. Wenn die Wandlung in den Frequenzbereich ausgeführt wird, wird das akustische Signal, das in die Blöcke unterteilt ist, entweder in einen langen Wandlungsblock oder in mehrere kurze Wandlungsblöcke gewandelt. Wenn die kurzen Wandlungsblöcke eingesetzt werden, sind die mehreren kurzen Wandlungsblöcke in die Gruppen von mehreren Blöcken unterteilt, die jeweils einen kurzen Wandlungsblock oder mehrere kurze Wandlungsblöcke enthalten. An dem akustischen Signal wird eine Quantisierung ausgeführt, die bewirkt, dass ein kurzer Wandlungsblock oder mehrere kurze Wandlungsblöcke, der bzw. die in derselben Gruppe enthalten ist bzw. sind, einem gemeinsamen Skalenfaktor entspricht oder entsprechen.
  • Das Medium hat die folgenden Funktionen: Berechnen der Wahrnehmungsentropie eines akustischen Eingangssignals, die für jeden der jeweiligen kurzen Wandlungsblöcke berechnet wird; Erhalten der Gesamtsumme in dem Frame bzw. Rahmen der berechneten Wahrnehmungsentropie; Vergleichen des Absolutwertes der Differenz zwischen den jeweiligen Gesamtsummen in dem Frame der Wahrnehmungsentropie von den beiden Frames, die zeitlich aufeinander folgen, mit einem zuvor bestimmten Schwellenwert; und Feststellen bzw. Bestimmen, ob der lange Block oder die kurzen Blöcke den Block des akustischen Eingangssignals wandeln sollte oder sollten, und zwar auf der Grundlage des Vergleichsergebnisses.
  • Ein anderes Aufzeichnungsmedium gemäß der vorliegenden Erfindung wird zum Aufzeichnen eines Programms für eine kodierende Vorrichtung zum Kodieren von digitalen akustischen Signalen eingesetzt. In dem Aufzeichnungsmedium wird das digitale akustische Signal entlang der Zeitachse eingegeben und entlang der Zeitachse mit Hilfe eines Computers in Blöcke unterteilt. Verarbeitungsvorgänge, wie beispielsweise eine Subband-Division bzw. -Teilung oder eine Wandlung in den Frequenzbereich, werden für jeden der jeweiligen Blöcke ausgeführt. Das akustische Signal wird in mehrere Bandbreiten unterteilt. Kodierte Bits werden jeder der jeweiligen Bandbreiten zugewiesen. Ein Skalenfaktor wird erhalten, der der kodierten Bitzahl der zugewiesenen Bits entspricht. Das digitale akustische Signal wird komprimiert und durch Quantisieren des akustischen Signals mit dem Skalenfaktor kodiert. Wenn die Wandlung in den Frequenzbereich ausgeführt wird, wird das akustische Signal, das in die Blöcke unterteilt ist, entweder in einen langen Wandlungsblock oder in mehrere kurze Wandlungsblöcke gewandelt. Wenn die kurzen Wandlungsblöcke eingesetzt werden, werden die mehreren kurzen Wandlungsblöcke in die Gruppen von mehreren Blöcken unterteilt, die jeweils einen kurzen Wandlungsblock oder mehrere kurze Wandlungsblöcke enthalten. An dem akustischen Signal wird ein Quantisierung ausgeführt, die bewirkt, dass ein kurzer Wandlungsblock oder mehrere kurze Wandlungsblöcke, der bzw. die in derselben Gruppe enthalten ist bzw. sind, einem gemeinsamen Skalenfaktor entspricht bzw. entsprechen. Das Medium hat die folgenden Funktionen: Berechnen der Wahrnehmungsentropie eines akustischen Eingangssig nals, die für jeden der jeweiligen kurzen Wandlungsblöcke berechnet wird; Erhalten der Gesamtsumme in dem Frame bzw. Rahmen der berechneten Gesamtentropie; Vergleichen des Absolutwertes der Differenz zwischen den jeweiligen Gesamtsummen in dem Frame der Wahrnehmungsentropie von den beiden Frames, die zeitlich aufeinander folgen, mit einem zuvor bestimmten Schwellenwert; und Bestimmen bzw. Feststellen, ob der spätere Frame von den in der Zeit aufeinander folgenden Frames mit Hilfe der kurzen Blöcke gewandelt werden soll, wenn der Absolutwert größer als der Schwellenwert ist, und Bestimmen bzw. Feststellen, dass der spätere Frame von den beiden zeitlich aufeinander folgenden Frames mit Hilfe des langen Blocks gewandelt werden soll, wenn der Absolutwert kleiner als der Schwellenwert ist.
  • Vorstehend sind die Vorrichtung zum Kodieren von digitalen akustischen Signalen, das Verfahren zum Kodieren von digitalen akustischen Signalen und das Aufzeichnungsmedium zum Aufzeichnen des Programms zum Kodieren von digitalen akustischen Signalen beschrieben worden.
  • Die vorliegende Erfindung ist jedoch nicht auf die vorstehend beschriebene Ausführungsform beschränkt. Denn man braucht eigentlich gar nicht auszuführen, dass verschiedene Arten von Modifikationen, Variationen oder Austauschungen verwendet werden können, ohne den Schutzbereich der Erfindung, wie in den beigefügten Patentansprüchen beschrieben, zu verlassen.
  • Wie aus der vorstehenden Beschreibung ersichtlich ist, ist ein Merkmal der erfindungsgemäßen Ausführungsform, dass die Vorrichtung zum Kodieren von digitalen akustischen Signalen das Berechnungsmittel zum Berechnen der Wahrnehmungsentropie des akustischen Eingangssignals, das Wahrnehmungsentropie-Gesamtsummen-Berechnungsmittel zum Berechnen der Wahrnehmungsentropie-Gesamtsumme in dem Frame der Wahrnehmungsentropie, die von dem Wahrnehmungsentropie-Berechnungsmittel berechnet wurde, das Vergleichsmittel zum Vergleichen des Absolutwertes der Differenz zwischen den jeweiligen Gesamtsummen in dem Frame der zeitlich aufeinander folgenden beiden Frames der Wahrnehmungsentropie mit dem vorbestimmten Schwellenwert und das Mittel zum Feststellen von langen/kurzen Blö cken zum Feststellen, ob der lange Block oder die kurzen Blöcke den Block des akustischen Eingangssignals wandelt, und zwar auf der Grundlage des Vergleichsergebnisses, umfasst. Außerdem besteht ein Merkmal der Ausführungsform darin, dass das Mittel zum Feststellen von langen/kurzen Blöcken feststellt bzw. bestimmt, dass der spätere Frame von den beiden zeitlich aufeinander folgenden Frames mit Hilfe des kurzen Blocks gewandelt wurde, wenn der Absolutwert größer als der Schwellenwert als dem Vergleichsergebnis, das mit Hilfe des Vergleichsmittels erhalten wird, ist, während das Mittel zum Feststellen von langen/kurzen Blöcken feststellt, dass der spätere Frame von den beiden Frames mit Hilfe des langen Blocks gewandelt wird, wenn der Absolutwert kleiner als der Schwellenwert ist.
  • Folglich kann die Vorrichtung zum Kodieren von digitalen akustischen Signalen die Feststellung langkurz in Entsprechung zu den Eigenschaften des akustischen Eingangssignals treffen.
  • Ein Merkmal der anderen Ausführungsform gemäß der vorliegenden Erfindung besteht darin, dass die Vorrichtung zum Kodieren von digitalen akustischen Signalen das Wahrnehmungsentropie-Berechnungsmittel zum Berechnen der Wahrnehmungsentropie des akustischen Eingangssignals, das Wahrnehmungsentropie-Gesamtsummen-Berechnungsmittel zum Berechnen der Wahrnehmungsentropie-Gesamtsumme in dem Frame der Wahrnehmungsentropie, die von dem Wahrnehmungsentropie-Berechnungsmittel berechnet wird, das Vergleichsmittel zum Vergleichen de:. Absolutwertes der Differenz zwischen den jeweiligen Gesamtsummen in dem Frame der zeitlich aufeinander folgenden beiden Frames der Wahrnehmungsentropie mit dem vorbestimmten Schwellenwert und das Feststellungsmittel umfasst, das feststellt, dass der spätere Frame von den beiden zeitlich aufeinander folgenden Frames mit Hilfe des kurzen Blocks gewandelt wird, wenn der Absolutwert größer als der Schwellenwert als dem Vergleichsergebnis, das mit Hilfe des Vergleichsmittels erhalten wird, ist, und dass die Feststellung nicht getroffen werden kann, wenn der Absolutwert kleiner als der Schwellenwert ist.
  • Folglich kann die Vorrichtung zum Kodieren von digitalen akustischen Signalen die Feststellung der Blockwandlung ausführen, die außerdem die Eigenschaft des akustischen Eingangssignals widerspiegelt.
  • Außerdem wird der Schwellenwert für jede der Abtastfrequenzen des akustischen Eingangssignals berechnet und kann auf diese Weise die geeignete Feststellung langkurz in Entsprechung zu der Differenz zwischen den Abtastfrequenzen des akustischen Eingangssignals getroffen werden.
  • Ein Merkmal einer weiteren Ausführungsform gemäß der vorliegenden Erfindung besteht darin, dass das Verfahren zum Kodieren von digitalen akustischen Signalen die folgenden Schritte umfasst: Berechnen der Wahrnehmungsentropie eines akustischen Eingangssignals, die für jeden der jeweiligen kurzen Wandlungsblöcke berechnet wird; Erhalten der Gesamtsumme in dem Frame der berechneten Wahrnehmungsentropie; Vergleichen des Absolutwertes der Differenz zwischen den jeweiligen Gesamtsummen in dem Frame der Wahrnehmungsentropie der beiden Frames, die zeitlich aufeinander folgen, mit einem zuvor bestimmten Schwellenwert; und Feststellen bzw. Bestimmen, ob der lange Block oder der kurze Block den Block des akustischen Eingangssignals wandeln sollte, und zwar auf der Grundlage des Vergleichsergebnisses.
  • Folglich kann das Verfahren zum Kodieren von digitalen akustischen Signalen bereitgestellt werden, das die Feststellung langkurz in Entsprechung zu den Eigenschaften des akustischen Eingangssignals treffen kann.
  • Außerdem umfasst das Verfahren zum Kodieren von digitalen akustischen Signalen die folgenden Schritte: Berechnen der Wahrnehmungsentropie eines akustischen Eingangssignals, die für jeden der jeweiligen kurzen Wandlungsblöcke berechnet wird; Erhalten der Gesamtsumme in dem Frame der berechneten Wahrnehmungsentropie; Vergleichen des Absolutwertes der Differenz zwischen den jeweiligen Gesamtsummen in dem Frame der Wahrnehmungsentropie der beiden zeitlich aufeinander folgenden Frames mit einem zuvor bestimmten Schwellenwert; und Feststellen, dass der spätere Frame von den beiden zeitlich aufeinander folgenden Frames mit Hilfe des kurzen Blocks gewan delt werden soll, wenn der Absolutwert größer als der Schwellenwert ist, und Feststellen, dass der spätere Frame von den beiden zeitlich aufeinander folgenden Frames mit Hilfe des langen Blocks gewandelt werden sollte, wenn der Absolutwert kleiner als der Schwellenwert ist.
  • Folglich kann das Verfahren zum Kodieren von digitalen akustischen Signalen bereitgestellt werden, das die Feststellung der Blockwandlung ausführen kann, die weiter die Eigenschaften des akustischen Eingangssignals widerspiegelt.
  • Durch Verwenden des Mediums, auf welchem das Programm zum Ausführen des erfindungsgemäßen Verfahrens zum Kodieren von digitalen akustischen Signalen gespeichert ist, kann die Vorrichtung zum Ausbilden des Kodierungssystems gemeinsam bzw. universell verwendet werden, ohne dass das bisher verwendete System geändert werden muss.
  • Die bevorzugten Ausführungsformen gemäß der vorliegenden Erfindung sind vorstehend beschrieben worden. Zahlreiche weitere Modifikationen und Variationen sind jedoch gemäß der vorliegenden Erfindung im Lichte der vorstehenden Lehren möglich. Es sei deshalb darauf hingewiesen, dass innerhalb des Schutzbereichs der beigefügten Patentansprüche die vorliegende Erfindung auch in anderer Weise als speziell vorstehend beschrieben, ausgeübt werden kann.
  • Diese Anmeldung genießt den Vorzug der Beanspruchung der Priorität aus der japanischen Patentanmeldung Nr. 11-222054, die am 5. August 1999 beim japanischen Patentamt eingereicht wurde.

Claims (8)

  1. Verfahren zum Kodieren eines digitalen akustischen Signals, mit den Schritten: ein digitaler akustischer Signal-Frame entlang einer Zeitachse wird bereitgestellt; der digitale akustische Signal-Frame wird mit Hilfe eines Computers in Blöcke unterteilt; für jeden der jeweiligen Blöcke werden Verarbeitungsschritte ausgeführt, einschließlich einer Teilband-Teilung bzw. -Wandlung in einen Frequenzbereich; das akustische Signal wird in eine Mehrzahl von Frequenzbändern unterteilt; jedem der jeweiligen Frequenzbänder werden kodierte Bits zugewiesen; ein Skalenfaktor, der der kodierten Bitzahl der zugewiesenen Bits entspricht, wird erhalten; und das digitale akustische Signal wird komprimiert und durch Quantisieren des akustischen Signals mit dem Skalenfaktor kodiert, wobei dann, wenn die Wandlung in den Frequenzbereich ausgeführt wird, der akustische Signal-Frame, der in Blöcke unterteilt ist, entweder unter Verwendung eines langen Wandlungsblocks oder unter Verwendung einer Mehrzahl von kurzen Wandlungsblöcken gewandelt wird; wobei dann, wenn die kurzen Wandlungsblöcke verwendet werden, die Mehrzahl von kurzen Wandlungsblöcken in Gruppen einer Mehrzahl von Blöcken unterteilt werden, die jeweils einen kurzen Wandlungsblock oder eine Mehrzahl von kurzen Wandlungsblöcken enthalten; und wobei das akustische Signal quantisiert wird, was bewirkt, dass ein kurzer Wandlungsblock oder eine Mehrzahl von kurzen Wandlungsblöcken, der bzw. die in derselben Gruppe enthalten ist bzw. sind, einem gemeinsamen Skalenfaktor entsprechen; dadurch gekennzeichnet, dass das Verfahren zusätzlich die Schritte umfasst: die Wahrnehmungsentropie eines eingegebenen akustischen Signal-Frames wird für jeden der jeweiligen kurzen Wandlungsblöcke berechnet (S101; 5201); die Gesamtsumme in dem Frame der berechneten Wahrnehmungsentropie wird erhalten (S102; S202); der Absolutwert der Differenz zwischen den jeweiligen Gesamtsummen in dem Frame der Wahrnehmungsentropie der beiden Frames, die in Relation zu der verstreichenden Zeit aufeinander folgen, wird mit einem zuvor bestimmten Schwellenwert verglichen (S103; S203); und auf der Grundlage des Vergleichsergebnisses wird beurteilt, ob der lange Block oder die kurzen Blöcke den Block des eingegebenen akustischen Signals wandeln sollten.
  2. Verfahren nach Anspruch 1, bei dem dann, wenn der Absolutwert größer ist als der Schwellenwert, beurteilt wird, dass der letzte Frame der beiden Frames, die in der verstreichenden Zeit aufeinander folgen, mit Hilfe des langen Blocks gewandelt werden soll, wobei dann, wenn der Absolutwert kleiner ist als der Schwellenwert, beurteilt wird, dass der letzte Frame von den beiden Frames mit Hilfe des langen Blocks gewandelt werden soll.
  3. Verfahren nach einem der Ansprüche 1 bis 2, bei dem der Schwellenwert gleich einem Wert ist, der für die Abtastfrequenz des eingegebenen akustischen Signals bestimmt wird.
  4. Vorrichtung zum Kodieren eines digitalen akustischen Signals, mit einem Mittel, in welchem ein digitaler akustischer Signal-Frame entlang einer Zeitachse bereitgestellt wird und in Blöcke unterteilt wird, mit einem Verarbeitungsmittel, das eine Teilband-Teilung, die für jeden der jeweiligen Blöcke bereitgestellt wird, oder eine Teilband-Wandlung in einen Frequenzbereich, die für jeden der jeweiligen Blöcke angewendet wird, enthält, mit einem Teilungsmittel, in welchem das akustische Signal in eine Mehr zahl von Frequenzbändern unterteilt wird, mit einem Quantisierungsmittel, wo jedem der jeweiligen Frequenzbänder kodierte Bits zugewiesen werden, wo ein Skalenfaktor erhalten wird, der der kodierten Bitzahl der zugewiesenen Bits entspricht, und wo das digitale akustische Signal komprimiert und durch Quantisieren des akustischen Signals mit dem Skalenfaktor kodiert wird, mit einem Mittel, um den akustischen Signal-Frame, der in Blöcke unterteilt ist, entweder in einen langen Wandlungsblock oder in eine Mehrzahl von kurzen Wandlungsblöcken zu wandeln, wenn die Wandlung in den Frequenzbereich ausgeführt wird; mit einem Mittel, um die Mehrzahl von kurzen Wandlungsblöcken in Gruppen aus einer Mehrzahl von Blöcken zu unterteilen, die jeweils einen kurzen Wandlungsblock oder eine Mehrzahl von kurzen Wandlungsblöcken enthalten, wenn die kurzen Wandlungsblöcke verwendet werden; und einem Mittel, um das akustische Signal zu quantisieren, was bewirkt, dass ein kurzer Wandlungsblock oder eine Mehrzahl von kurzen Wandlungsblöcken, der bzw. die in derselben Gruppe enthalten sind, einem gemeinsamen Skalenfaktor entspricht, bzw. entsprechen; dadurch gekennzeichnet, dass die Vorrichtung zum Kodieren des digitalen akustischen Signals ferner umfasst: ein Mittel (12) zum Berechnen einer Wahrnehmungsentropie, um die Wahrnehmungsentropie des eingegebenen akustischen Signal-Frames zu berechnen, die für jeden der jeweiligen kurzen Wandlungsblöcke berechnet wird, ein Mittel (13) zum Berechnen einer Wahrnehmungsentropie-Gesamtsumme, um die Gesamtsumme in dem Frame der Wahrnehmungsentropie zu erhalten, die von dem Mittel (12) zum Berechnen der Wahrnehmungsentropie berechnet wird; ein Vergleichsmittel (14), um den Absolutwert der Differenz zwischen den jeweiligen Gesamtsummen in dem Frame der Wahrnehmungsentropie der beiden Frames, die in Relation zu der verstreichenden Zeit aufeinander folgen, mit einem zuvor bestimmten Schwellenwert zu vergleichen; und ein Mittel (15) zum Beurteilen von langen kurzen Blöcken, um auf der Grundlage des Vergleichsergebnisses, das von dem Vergleichsmittel erhalten wird, zu beurteilen, ob der lange Block oder die kurzen Blöcke den Block des eingegebenen akustischen Signals wandeln soll oder sollten.
  5. Vorrichtung nach Anspruch 4, bei der das Mittel (15) zum Beurteilen der langen/kurzen Blöcke ausgelegt ist, so dass dieses beurteilt, dass der letzte Frame von zwei Frame, die in der verstreichenden Zeit aufeinander folgen, mit Hilfe der kurzen Blöcke gewandelt wird, wenn der Absolutwert größer als der Schwellenwert als das Vergleichsergebnis, das mit Hilfe des Vergleichsmittels erhalten wird, ist; und bei der dieses beurteilt, dass der letzte Frame von den beiden Frames mit Hilfe des langen Blocks gewandelt werden soll, wenn der Absolutwert kleiner als der Schwellenwert ist.
  6. Vorrichtung nach einem der Ansprüche 4 bis 5, mit einem Schwellenwert-Bestimmungsmittel, wobei der Schwellenwert gleich einem Wert ist, der für die Abtastfrequenz des eingegebenen akustischen Signals bestimmt ist.
  7. Computerprogrammprodukt, das direkt in den internen Speicher eines digitalen Computers (82) ladbar ist, mit Softwarekode-Abschnitten, um die Schritte nach einem der Ansprüche 1 bis 3 auszuführen, wenn das Produkt auf einem Computer läuft.
  8. Computerprogrammprodukt, das auf einem Aufzeichnungsmedium gespeichert ist und von einer Vorrichtung zum Kodieren eines digitalen akustischen Signals verwendbar ist, wobei das Programmprodukt Befehle umfasst, um die Schritte nach einem der Ansprüche 1 bis 3 auszuführen, um die Kodierungsvorrichtung zu steuern.
DE60015030T 1999-08-05 2000-08-04 Auf Block Umschaltung basierender Teilband-Audiokodierer Expired - Lifetime DE60015030T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP22205499 1999-08-05
JP22205499A JP3762579B2 (ja) 1999-08-05 1999-08-05 デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体

Publications (2)

Publication Number Publication Date
DE60015030D1 DE60015030D1 (de) 2004-11-25
DE60015030T2 true DE60015030T2 (de) 2005-11-10

Family

ID=16776386

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60015030T Expired - Lifetime DE60015030T2 (de) 1999-08-05 2000-08-04 Auf Block Umschaltung basierender Teilband-Audiokodierer

Country Status (6)

Country Link
US (1) US6799164B1 (de)
EP (1) EP1074976B1 (de)
JP (1) JP3762579B2 (de)
KR (1) KR100348368B1 (de)
DE (1) DE60015030T2 (de)
ES (1) ES2231090T3 (de)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006555B1 (en) 1998-07-16 2006-02-28 Nielsen Media Research, Inc. Spectral audio encoding
US7065416B2 (en) * 2001-08-29 2006-06-20 Microsoft Corporation System and methods for providing automatic classification of media entities according to melodic movement properties
US7035873B2 (en) 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
US7532943B2 (en) * 2001-08-21 2009-05-12 Microsoft Corporation System and methods for providing automatic classification of media entities according to sonic properties
WO2002056297A1 (en) 2001-01-11 2002-07-18 Sasken Communication Technologies Limited Adaptive-block-length audio coder
JP4141235B2 (ja) * 2002-02-08 2008-08-27 株式会社リコー 画像補正装置及びプログラム
US20030215013A1 (en) * 2002-04-10 2003-11-20 Budnikov Dmitry N. Audio encoder with adaptive short window grouping
US7426462B2 (en) * 2003-09-29 2008-09-16 Sony Corporation Fast codebook selection method in audio encoding
US7325023B2 (en) 2003-09-29 2008-01-29 Sony Corporation Method of making a window type decision based on MDCT data in audio encoding
US7349842B2 (en) * 2003-09-29 2008-03-25 Sony Corporation Rate-distortion control scheme in audio encoding
US7283968B2 (en) * 2003-09-29 2007-10-16 Sony Corporation Method for grouping short windows in audio encoding
US7516064B2 (en) * 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
DE102004009949B4 (de) * 2004-03-01 2006-03-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes
US7436969B2 (en) * 2004-09-02 2008-10-14 Hewlett-Packard Development Company, L.P. Method and system for optimizing denoising parameters using compressibility
US7627481B1 (en) * 2005-04-19 2009-12-01 Apple Inc. Adapting masking thresholds for encoding a low frequency transient signal in audio data
JP2008542816A (ja) 2005-05-26 2008-11-27 エルジー エレクトロニクス インコーポレイティド オーディオ信号の符号化及び復号化方法
US8214221B2 (en) 2005-06-30 2012-07-03 Lg Electronics Inc. Method and apparatus for decoding an audio signal and identifying information included in the audio signal
US7966190B2 (en) 2005-07-11 2011-06-21 Lg Electronics Inc. Apparatus and method for processing an audio signal using linear prediction
US7565018B2 (en) * 2005-08-12 2009-07-21 Microsoft Corporation Adaptive coding and decoding of wide-range coefficients
JP5111374B2 (ja) 2005-08-30 2013-01-09 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法
US7696907B2 (en) 2005-10-05 2010-04-13 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
US8068569B2 (en) 2005-10-05 2011-11-29 Lg Electronics, Inc. Method and apparatus for signal processing and encoding and decoding
KR100857118B1 (ko) 2005-10-05 2008-09-05 엘지전자 주식회사 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치
EP1946063A4 (de) 2005-10-05 2009-08-12 Lg Electronics Inc Verfahren und vorrichtung zur signalverarbeitung und codierungs- und decodierungsverfahren und vorrichtung dafür
US7672379B2 (en) 2005-10-05 2010-03-02 Lg Electronics Inc. Audio signal processing, encoding, and decoding
US7646319B2 (en) 2005-10-05 2010-01-12 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
US20070092086A1 (en) 2005-10-24 2007-04-26 Pang Hee S Removing time delays in signal paths
JP2007183528A (ja) * 2005-12-06 2007-07-19 Fujitsu Ltd 符号化装置、符号化方法、および符号化プログラム
US20090144054A1 (en) * 2007-11-30 2009-06-04 Kabushiki Kaisha Toshiba Embedded system to perform frame switching
US9313359B1 (en) 2011-04-26 2016-04-12 Gracenote, Inc. Media content identification on mobile devices
US20190379931A1 (en) 2012-02-21 2019-12-12 Gracenote, Inc. Media Content Identification on Mobile Devices
EP2830064A1 (de) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Decodierung und Codierung eines Audiosignals unter Verwendung adaptiver Spektralabschnittsauswahl
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
US9943253B2 (en) 2015-03-20 2018-04-17 Innovo IP, LLC System and method for improved audio perception
WO2019007969A1 (en) * 2017-07-03 2019-01-10 Dolby International Ab DETECTION AND CODING OF LOW COMPLEXITY DENSED TRANSIENT EVENTS
US11232804B2 (en) 2017-07-03 2022-01-25 Dolby International Ab Low complexity dense transient events detection and coding
US10922139B2 (en) 2018-10-11 2021-02-16 Visa International Service Association System, method, and computer program product for processing large data sets by balancing entropy between distributed data segments

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0559348A3 (de) * 1992-03-02 1993-11-03 AT&T Corp. Rateurregelschleifenprozessor für einen wahrnehmungsgebundenen Koder/Dekoder
US5537510A (en) * 1994-12-30 1996-07-16 Daewoo Electronics Co., Ltd. Adaptive digital audio encoding apparatus and a bit allocation method thereof
EP0721257B1 (de) * 1995-01-09 2005-03-30 Daewoo Electronics Corporation Bitverteilung für Mehrkanal-Audiokodierer auf Grund von wahrnehmungsgebundener Entropie
US5699479A (en) * 1995-02-06 1997-12-16 Lucent Technologies Inc. Tonality for perceptual audio compression based on loudness uncertainty
GB9819920D0 (en) * 1998-09-11 1998-11-04 Nds Ltd Audio encoding system

Also Published As

Publication number Publication date
EP1074976B1 (de) 2004-10-20
JP3762579B2 (ja) 2006-04-05
EP1074976A2 (de) 2001-02-07
KR20010021226A (ko) 2001-03-15
JP2001053617A (ja) 2001-02-23
US6799164B1 (en) 2004-09-28
ES2231090T3 (es) 2005-05-16
KR100348368B1 (ko) 2002-08-10
EP1074976A3 (de) 2001-06-27
DE60015030D1 (de) 2004-11-25

Similar Documents

Publication Publication Date Title
DE60015030T2 (de) Auf Block Umschaltung basierender Teilband-Audiokodierer
DE69233094T2 (de) Verfahren und Anordnung zur Datenkompression bei welchem Quantisierungsbits einem Block in einem gegenwärtigen Rahmen in Abhängigkeit eines Blocks in einem vergangenen Rahmen zugeteilt werden
DE69431622T2 (de) Verfahren und gerät zum kodieren von mit mehreren bits kodiertem digitalem ton durch subtraktion eines adaptiven zittersignals, einfügen von versteckten kanalbits und filtrierung, sowie kodiergerät zur verwendung bei diesem verfahren
DE69737302T2 (de) Verfahren zum Codieren von digitalen Audiosignalen
DE69422343T2 (de) Gerät, verfahren und system zur komprimierung eines digitalen eingangssignals in mehr als einem kompressionsmodus
DE69418994T2 (de) Kodier- und Dekodierapparat welcher keine Tonqualität verschlechtert, sogar wenn ein Sinuswellen-Signal dekodiert wird
DE69321201T2 (de) Gerät und Verfahren zur Digitalsignalverarbeitung
DE69901273T2 (de) Verfahren zur Codierung und Quantisierung von Audiosignalen
DE60208426T2 (de) Vorrichtung zur signalkodierung, signaldekodierung und system zum verteilen von audiodaten
DE69432538T2 (de) Digitales Signalkodierungsgerät, dazugehöriges Dekodiergerät und Aufzeichnungsträger
DE69232251T2 (de) Digitaler Kodierer mit dynamischer Quantisierungsbitverteilung
DE102004036154B3 (de) Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
DE69320872T2 (de) Kompression und Dehnung von digitalen Signalen
DE69533577T2 (de) Kodierungs- und/oder Dekodierungsverfahren eines digitalen Audiosignals
DE69333394T2 (de) Hochwirksames Kodierverfahren und -gerät
DE69732761T2 (de) Verfahren und Vorrichtung zur kalkulierbaren Audiocodierung bzw.-decodie- rung
DE69533500T2 (de) Verfahren und vorrichtung zum kodieren und dekodieren von nachrichten
DE69431025T2 (de) Signalkodier- oder -dekodiergerät und Aufzeichnungsmedium
DE60103424T2 (de) Verbessern der leistung von kodierungssystemen, die hochfrequenz-rekonstruktionsverfahren verwenden
DE69323106T2 (de) Verfahren und Vorrichtung für perceptuelles Kodieren von Audio-Signalen
DE69431816T2 (de) Kodierung mit hoher Wirksamkeit
DE10109648C2 (de) Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE60313332T2 (de) Audiocodierung mit niedriger bitrate
DE69515907T2 (de) Verfahren und gerät zum anwenden von wellenformprädiktion auf teilbänder in einem perzeptiven kodiersystem
DE10134471C2 (de) Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals

Legal Events

Date Code Title Description
8364 No opposition during term of opposition