-
Die
Erfindung betrifft ein Verfahren zur Audiocodierung gemäss den Merkmalen
des Oberbegriffes des Anspruch 1.
-
Bei
der Wiedergabe von Filmton und Musiksignalen wird versucht, die
Abbildung des Klanges mit der Position der Entstehung in Einklang
zu bringen. Bei reinen Musiksignalen wird schon eine gute Approximation
durch Verwendung von Stereolautsprechern erreicht. Will man allerdings
bei Musikstücken
einen anderen Raumeindruck erzielen, beispielsweise den eines Jazz-Clubs,
so reichen diese zwei Lautsprecher kaum aus. Insbesondere bei Filmmaterial
sind mehr Kanäle
wünschenswert,
da auch akustische Effekte, die von hinten kommen, wiedergegeben
werden sollen.
-
Eines
der bekanntesten Verfahren hierfür
ist das sogenannte „Dolby
Pro Logic" Verfahren,
welches bei Filmmaterial im wesentlichen dazu eingesetzt wird, die
Lokalisation des Klanges beeinflussen zu können. So werden Sprecher üblicherweise
auf den Center-Kanal abgebildet und Geräusche können ausschließlich aus
den hinteren Lautsprechern kommen.
-
Weiterhin
gibt es eine ganze Klasse von Verfahren, die zur Nachbildung von
Raumakustiken verwendet werden. Häufig anzutreffende Bezeichnungen
derartiger Verfahren lauten „Hall", „Stadium", „Jazz", „Club" etc.. Bei diesen
auf Musiksignale optimierten Verfahren ist es nicht erwünscht, Sprachsignale
(Gesang) nur aus dem Center-Lautsprecher zu vernehmen oder ein Musiksignal
nur aus den hinteren Lautsprechern auszugeben, welches unter Verwendung
des „Dolby
Pro Logic" Verfahrens
möglich ist.
-
Bei
dem Nachfolgeverfahren von Dolby Pro Logic, welches Dolby Pro Logic
II genannt wurde, ist abgesehen von dem Filmmodus ein Modus für Musik vorgesehen,
der diese Unterschiede berücksichtigt.
-
Aus
EP 0 481 374 B1 ist
ein Verfahren zum Kodieren von Sprache bekannt. Hierbei wird eine
diskrete Umformung eines Sprachfensters vorgenommen, um ein diskretes
Spektrum von Koeffizienten zu erhalten. Eine angenäherte Einhüllenden
des diskreten Spektrums wird in jedem einer Vielzahl von Unterbändern errechnet
und zum digitalen Kodieren der definierten Einhüllenden eines jeden Unterbands
verwendet. Innerhalb von Subbändern
wird jeder skalierte Koeffizient in eine Anzahl von Bits mit mindestens
einem von einer Vielzahl von Quantisierern unterschiedlicher Bitlängen umgerechnet.
Der für
jedes Unterband benutzte Ouantisierer wird für jedes Sprachfenster durch
Berechnen der Zuweisung von Bits als eine Anzahl von Bits größer als
oder gleich Null bestimmt, in Abhängigkeit einer Leistungsdichteabschätzung für das Unterband
und einer Verzerrungsfehlerabschätzung
für das
Sprachfenster.
-
Aus
EP 0 587 733 B1 ist
ein Signalanalysesystem zur Filterung von einem ein oder mehrere
Signale repräsentierenden
Eingangsabtastwert bekannt. Es sind Eingangspuffermittel zum Gruppieren der
Eingangsabtastwerte in Zeitbereichs-Signalabtastwertblöcke vorgesehen. Die Eingangsabtastwerte
sind analysefenster-gewichtete Abtastwerte. Außerdem sind Analysemittel zur
Erzeugung von Spektralinformation als Antwort auf die Zeitbereichs-Signalabtastwertblöcke vorhanden;
wobei die Spektralinformation Spektralkoeffizienten umfaßt, die
im wesentlichen einer geradzahlig gestapelten Zeitbereichs-Aliasingaufhebungs-Transformation
angewendet auf die Zeitbereichs-Signal-Abtastwertblöcke entspricht.
Bei den Spektralkoeffizienten handelt es sich im wesentlichen um
Koeffizienten einer modifizierten diskreten Cosinus-Transformation
bzw. Koeffizienten einer modifizierten diskreten Sinus-Transformation. Die
Analysemittel umfassen Vorwärts-Vor-Transformationsmittel
zur Erzeugung modifizierter Abtastwertblöcke und Vorwärts-Transformationsmittel
zur Erzeugung von Frequenzbereichs-Transformationskoeffizienten.
-
Aus
EP 0 664 943 B1 ist
eine Kodiervorrichtung zur adaptiven Verarbeitung von Audiosignalen für das Kodieren, Übertragen
oder Speichern und Wiedergewinnen bekannt, wobei der Rauschpegel mit
dem Signalamplitudenpegel schwankt. Es ist eine Verarbeitungseinrichtung
vorhanden, welche auf Eingangssignale derart anspricht, daß sie entweder
ein erstes und ein zweites Signal oder die Summe und Differenz des
ersten und zweiten Signals ausgibt. Das erste und zweite Signal
entsprechen den beiden matrixkodierten Audiosignalen einer vier
zu zwei Audiosignalmatrix, wobei die Verarbeitungseinrichtung auch
ein Steuersignal erzeugt, welches anzeigt, ob das erste und zweite
Signal oder die Summe und Differenz des ersten und zweiten Signals
ausgegeben wird.
-
Aus
EP 0 519 055 B1 ist
ein Decoder, bestehend aus einem Empfangsmittel zum Empfang einer Mehrzahl
von Lieferkanälen
formatierter Information, Deformatierungsmitteln zur Erzeugung ansprechend auf
die Empfangsmittel, einer deformatierten Darstellung abhängig von
jedem Lieferkanal, und Synthesemittel zur Erzeugung von Ausgangssignalen
abhängig
von den deformatierten Darstellungen, bekannt. Zwischen den Deformatierungsmitteln
und den Synthesemitteln sind Verteilermittel angeordnet, welche auf
die Deformatierungsmittel ansprechen und einen oder mehrere Zwischensignale
erzeugen, wobei wenigstens ein Zwischensignal durch Kombination
der Information von zwei oder mehr der deformatierten Darstellungen
erzeugt wird. Die Synthesemittel erzeugen ein jeweiliges Ausgangssignal
als Antwort auf jedes der Zwischensignale.
-
Aus
EP 0 520 068 B1 ist
ein Kodierer zum Kodieren von zwei oder mehr Audiokanälen bekannt. Der
Kodierer weist eine Teilbandeinrichtung zum Erzeugen von Teilbandsignalen,
eine Mischeinrichtung zum Schaffen eines oder mehrerer zusammengesetzter
Signale, und Mittel zum Erzeugen von Steuerinformation für ein entsprechendes
zusammengesetztes Signal auf. Außerdem weist der Kodierer eine Kodiereinrichtung
zum Erzeugen kodierter Information durch Zuteilen von Bits zu dem
einen oder mehreren zusammengesetzten Signalen auf. Es ist weiterhin
eine Formatiereinrichtung zum Zusammensetzen der kodierten Information
und der Steuerinformation zu einem Ausgabesignal vorhanden.
-
Aus
EP 0 208 712 B1 ist
ein Sprachkodierer bekannt. Dieser Sprachkodierer enthält eine
Fourier-Transformationseinrichtung zur Ausführung einer diskreten Fourier-Transformation
eines ankommenden Sprachsignals zur Erzeugung eines diskreten Transformationsspektrums
von Koeffizienten, eine Normierungseinrichtung zum Modifizieren
des Transformationsspektrums zur Erzeugung eines normierten, flacheren
Spektrums und zum Codieren einer Funktion, durch die das diskrete
Spektrum modifiziert wird. Außerdem
ist eine Einrichtung zum Codieren wenigstens eines Teils des Spektrums
vorhanden. Die Normierungseinrichtung weist eine Einrichtung (44)
zum Definieren der approximierten Einhüllenden des diskreten Spektrums
in jedem von mehreren Unterbändern
von Koeffizienten und zum Codieren der definierten Einhüllenden
eines jedes Unterbandes von Koeffizienten und Einrichtungen zum
Skalieren jedes Spektrumkoeffizienten relativ zur definierten Einhüllenden
des betreffenden Unterbandes von Koeffizienten auf.
-
Als
weitere allgemein bekannte Verfahren zur Verbesserung dieses Problems
wurden dann die Verfahren Dolby Digital (auch bekannt unter dem
Namen AC3) und DTS eingeführt,
welche die Wiedergabe von 6 unterschiedlichen Kanälen gestatten.
Trotzdem damit ein rechter und ein linker hinterer separater Kanal
möglich
sind, war dies für
eine perfekte Wiedergabe immer noch nicht genug, daher wurden diese
Verfahren durch Matrizierung wieder so erweitert, dass ein zusätzlicher
hinterer Centerkanal möglich
ist. Mit DTS-ES DISCRETE wurde dann auf die Matrizierung verzichtet
und ein echter siebter Audiokanal übertragen. THX-EX erzeugt mittlerweile
8 Kanäle
und bei AAC sind sogar über
100 separate Audiokanäle
möglich.
-
Aus
ISO/IEC JTC 1/SC 29/WG11 (MPEG 4 Structured Audio) ist ein Verfahren
bekannt, welches für
die synthetische Erzeugung von Musiksignalen die Möglichkeit
bietet, den künstlich
erzeugten Musikinstrumenten eine Positionsinformation sowie einen
oder mehrere Effekte zuzuweisen. Es ist auch möglich, Samples derart zu integrieren.
-
Nachteilig
bei MPEG 4 Structured Audio ist, dass es für die Echtzeitübertragung über einen
Kanal mit begrenzter Datenrate nicht geeignet ist, da keine obere
Begrenzung für
die Datenrate und die Rechenleistung vorgesehen ist. Auch die Beschränkung auf Samples,
welche normalerweise nur kurzen Klangstücken entsprechen und die auch
schon dem Wiedergabegerät
zu dem Zeitpunkt komplett bekannt sein müssen, wenn deren abspielen
beginnt stellt ein Problem dar. Weiterhin ist eine Synchronisation schwierig,
soll mit dem Abspielen an einer bestimmten Stelle begonnen werden
so ist es eventuell nötig, die
Datei komplett von Anfang an zu berechnen. Einer Anwendung bei Filmmaterial
wiederspricht auch das Fehlen einer Kompression der Samples, welche dadurch
unnötig
viel Datenspeicher benötigen.
Die Angabe der Winkel der Schallquellen alleine reicht auch nicht
aus, um immer eine gute Zuordnung der Schallquellen zum Bildmaterial
zu erreichen, da das Bildmaterial durch verschiedene Projektionstechniken
unterschiedliche Größen und
Entfernungen zum Beobachter aufweisen kann. Ist am linken Bildrand ein
Sprecher zu sehen, so sollte dessen Sprache in einem Kino auch aus
den linken Lautsprechern wiedergegeben werden, bei einer Darstellung über einen 5
Meter entfernten Fernseher mit 72 cm Bildschirmdiagonale macht es
aber mehr Sinn, die Sprache auch auf dem mittleren Lautsprecher
auszugeben, da dann auch dort der Sprecher zu sein scheint.
-
Nachteilig
bei allen bekannten Erfindungen bezüglich der Audiodatenkompression
ist, dass aufgrund der Fixierung der Positionen der Klangquellen eine
hohe Anzahl an Audikanälen
zur Nachbildung des gewünschten
Klangfeldes benötigt
wird. Dies verursacht eine hohe Datenmenge, die sowohl bei Speichermedien
als auch bei der Übertragung
unerwünscht
ist. Weiterhin ist die Möglichkeit
der Nachbildung von Raumakustiken durch die Fixierung der Lautsprecherpositionen
eingeschränkt.
-
Beispielsweise
ist bei Dolby Digital und DTS kein Deckenlautsprecher vorgesehen,
der von oben kommende Klänge
nachbilden könnte.
-
Aus „CARROUSO-SYSTEM
Specifications and Functional Architecture"; Projekt CARROUSO Information Society
Technology (IST) Program, Deliverable 1, public version, 12. Juni
2006, Seiten 1-14 ist ein System offenbart, bei welchem bei der
Aufnahme von akustischen Signalen ein MPEG4-Kompressionsverfahren
sowie eine Zuordnung von Klangquellen zu Klangfelder offenbart ist.
-
Aus
BOUNE M.M. „acoustic
rendering with wave field synthesis: ACM SIGGRAPH AND EUROGRAPHIC
CAMPFIRE; acoustic rendering for virtual environments, Snowbird,
Utah, 26.-29. Mai 2001, ist ebenfalls bekannt, Klangquellen Klangfeldern
zuzuweisen.
-
Aufgabe
der Erfindung ist es, ein Verfahren anzugeben, welches eine effiziente
Codierung von mehreren Audiosignalen unter Berücksichtigung des zugehörigen Klangfeldes
ermöglicht.
-
Die
vorliegende Erfindung löst
diese Aufgabe durch die Merkmale der Ansprüche 1 und 12. Vorteilhafte
Ausgestaltungen und Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen, der zugehörigen Beschreibung
nebst 1 angegeben.
-
Die
vorliegende Erfindung löst
die Aufgabe dadurch, dass die zu einem Klangfeld gehörenden Klangquellen
zuerst einzeln mit einem herkömmlichen
Kompressionsverfahren, beispielsweise AC3, MP3, AAC, WMA, usw. komprimiert
werden. Bei einer Überschreitung
einer maximal erlaubten Datenrate wird eine Zusammenfassung von
Klangquellen oder eine stärkere
Kompression zur Verringerung der Datenrate durchgeführt. Jeder
dieser Klangquellen werden Informationen über deren Art sowie eine Positionsinformation
hinzugefügt,
die angibt, wo sich das Objekt in Bezug auf den Betrachter befindet.
Informationen über
die Eigenschaften des nachzubildenden Raumes sowie über die
aktuellen horizontalen und vertikalen Sichtwinkel werden übertragen. Basierend
auf den Positionsinformationen und Informationen über die
Quellen, den Informationen über die
Eigenschaften des nachzubildenden Raumes, den aktuellen horizontalen
und vertikalen Sichtwinkeln sowie über der Größe und Position des Bildes des
Wiedergabegerätes
werden dann Nachbearbeitungen und Abbildungen der einzelnen Quellen
auf die vorhandenen Lautsprecher oder ein Kopfhörersignal durchgeführt.
-
Betrachtet
man natürliche
Klangfelder, so stellt man fest, dass das menschliche Gehör diese derart
analysiert, dass eine Aufteilung in verschiedene Klangquellen sowie
deren Charakteristiken stattfindet und zudem die Eigenschaft des
Raumes, in welchem die akustische Wiedergabe erfolgt, ausgewertet
wird. Die Aufteilung der Klangquellen erfolgt in erster Linie durch
Auswertung der spektralen Zusammensetzung und der Position der Schallquelle.
Laufzeitunterschiede und die richtungsabhängige Frequenzempfindlichkeitskurve
des Gehörs
haben nur einen geringen Einfluss auf die Aufteilung. Eine gute Approximation
vieler Klangfelder kann schon erreicht werden, wenn zwei Sprachkanäle sowie
zwei Effektkanäle
zur Verfügung
stehen. Damit kann die Kommunikation zweier Personen sowie diverse
Umgebungsgeräusche
(beispielsweise vorbeifahrende Autos) erfasst und nachgebildet werden.
-
Erfindungsgemäß werden
die von verschiedenen Klangquellen erzeugten Audiodaten in der Art und
Weise codiert, dass Klangquellen zusammengefasst werden, die für das Gehör gleiche
Eigenschaften besitzen und diese dann mit einer Positionsinformation,
einer Information über
die Art des Kanales (Gesang, Hintergrundgeräusch, Sprache ...) sowie einer
Information über
eventuell mögliche
Effekte (Hall, Dynamikkompressor) versehen werden. Diese Informationen
werden kontinuierlich übertragen.
Bei der Wiedergabe kann über
die Art des Kanales eine Nachbearbeitung erfolgen, in der dann z.B.
für Hintergrundgeräusche dieses
Signal mehrfach dekorreliert und auf die Lautsprecher ausgegeben
wird. Es wird jeder Signalart ein individueller Nachverarbeitungsalgorithmus
zugeordnet. Eine vorteilhafte Implementierung ergibt sich, wenn
zusätzlich
noch zu jeder Klangquelle eine Information über deren Abstrahlcharakteristik,
wie kugelförmig,
nierenförmig etc., übertragen
wird. Eine weitere vorteilhafte Implementierung ergibt sich, wenn
zusätzlich
noch Informationen über
die gewünschte
Raumcharakteristik (z.B. Badezimmer, Kathedrale, usw.), Parameter (z.B.
Hallzeit) bzw. direkt algorithmische Beschreibungen zur Erzielung
dieser Klangeindrücke
sowie Eigenschaften der einzelnen Schallquellen (wie z.B. Sprache
oder Musik oder Effekt) mitübertragen
werden. Als Parameter zur Beschreibung der Raumcharakteristik sind
z.B. die Raumgeometrie und die Raumabsorptionseigenschaften zu übertragen.
Ein Wohnzimmer mit Gardinen und Teppichböden schluckt nämlich den
Schall viel stärker
als ein Badezimmer oder eine Kirche.
-
Ist
ein Wiedergabegerät
nicht leistungsfähig genug,
diese Daten auszuwerten, so ignoriert es eben diese Zusatzdaten
bei der Wiedergabe.
-
Eine
weitere vorteilhafte Ausgestaltung der Erfindung ergibt sich, wenn
zusätzlich
noch Eigenschaften über
den Sichtwinkel übertragen
werden, d.h. dass man aus den Winkeln der Klangquelle und diesen
Sichtwinkeln direkt schließen
kann, ob das dazugehörige
Objekt im Bild sichtbar ist. Dies ist dann der Fall, wenn der horizontale
Winkel des Objektes innerhalb des horizontalen Sichtwinkelbereiches
und der vertikale Winkel des Objektes innerhalb des vertikalen Sichtwinkelbereiches
liegt. Der Sichtwinkel ist dabei wie auch die Position der Objekte
auf den Betrachter der Orginalszene bezogen. Der Sichtwinkel kann
sich laufend ändern,
daher wird dieser vorteilhafterweise zu jedem einzelnen Bild übertragen.
Basierend auf dem Winkel des Objektes, des Sichtwinkels sowie der
Position und Größe des projezierten
Bildes wird dann ein virtueller Winkel bezogen auf die Abhörposition
ermittelt. Damit beim Verlassen von Objekten aus dem Sichtwinkelbereich kein
abrupter Sprung stattfindet, wird dort vorteilhafterweise eine nichtlineare
Abbildung verwendet.
-
So
kann z.B. der bei kleinen Bildschirmen geschrumpfte Winkelbereich
durch eine Streckung des restlichen Winkelbereiches ausgeglichen
werden. Eine vorteilhafte Ausgestaltungung ergibt sich, wenn die
Stärke
der Stauchung/Streckung durch den Anwender einstellbar ist.
-
Durch
die Erfindung wird
- – eine wesentlich realistischere
Audiodarbietung erreicht;
- – die
Ausnutzung der vorhandenen Kanäle
wesentlich verbessert, somit wird bei DVDs Kapazität und bei
Broadcast-Verfahren Bandbreite gespart;
- – bei
Hinzufügung
der Klangeffekte im Endgerät bei
der Codierung der unverfälschten
Originalsignale eine wesentlich geringere Datenrate benötigt, dies
gibt eine zusätzliche
Datenratenersparnis;
- – die
Kanalabbildung wesentlich verbessert, ein überfliegender Hubschrauber
kann mit nur einem Kanal perfekt nachgebildet werden;
- – das
System abwärtskompatibel
gehalten, die Wiedergabe anderer Standards kann durch Annahme der
Positionen der Klangquellen auf die dabei üblichen Aufstellungspositionen
der Lautsprecher erfolgen; es muss die vom Kunden gewählte Lautsprecherkonstellation
nicht modifiziert werden;
- – die
Aufstellungspositionen der Lautsprecher nicht vorgegeben und kann
beliebig sein, die Lautsprecher müssen dem System nur bekannt gemacht
werden; das System berechnet dann, auf welchen Lautsprechern es
bestimmte Kanäle am
geeignetesten ausgibt; so ist es möglich, die räumlichen
Gegebenheiten perfekt auszunutzen;
- – eine
bessere Anpassung an verschiedene Bildformate bei der Wiedergabe
erreicht, Klangquellen zu im Bildbereich gehörenden Objekten können klanglich
auch dorthin fokussiert werden.
-
Außerdem ist
die Anzahl an aufgestellten Lautsprechern theoretisch unbegrenzt,
sie ist nur begrenzt durch die Anzahl an Verstärkerkanälen und durch die Rechenleistung
des Systems. Ein Nutzer kann nachträglich ohne großen Aufwand
und Probleme zwei seitliche Lautsprecher nachrüsten oder einen Deckenlautsprecher
entfernen.
-
Schließlich ist
die zur Übertragung
der Zusatzinformationen benötigte
Datenmenge gegenüber der
Datenmenge zur Codierung der einzelnen Audiokanäle vernachlässigbar gering.
-
Im
Weiteren wird die Erfindung anhand eines konkreten Ausführungsbeispieles 1 beschrieben.
-
Das
Ausführungsbeispiel
zeigt eine erfindungsgemäße Vorrichtung.
Die erfindungsgemäße Vorrichtung
weist die Audiosignaleingänge
A1 bis An auf. Über
die Eingänge
I1 bis In werden zu den n Audiosignalen Informationen zu der Position
und die Eigenschaften des entsprechenden Audiosignales übertragen. Über den
Eingang SF werden die horizontalen und vertikalen Sichtwinkel sowie
die Eigenschaft des nachzubildenden Raumes eingespeist. Die eingehenden
Audiosignale werden in den Vorrichtungen K1 bis Kn in der Datenrate
zu den Signalen C1 bis Cn komprimiert. Die Datenströme C, I
und SF werden dann in der Vorrichtung MX zu einem einzelnen Datenstrom
US zusammengemischt. Der Datenstrom US kann dann entweder im Broadcasting-Format übertragen
werden oder auch auf einem Speichermedium zwischengespeichert werden.
Zur Ausgabe wird dieser Datenstrom dann auf eine Vorrichtung DX
gegeben, die daraus wieder die Datenströme C1 bis Cn regeneriert sowie
ISF1 bis ISFn erzeugt. ISFi entspricht dabei dem Datenstrom Ii,
dem noch SF hinzugefügt
ist. Die komprimierten Datenströme
C1 bis Cn werden in den Vorrichtungen D1 bis Dn dekomprimiert. Die
einzelnen dekomprimierten Datenströme werden dann jeweils zusammen
mit ihrem zugehörigen
Datenstrom ISFi sowie dem Signal BP auf die Vorrichtungen R1 bis
Rn gegeben. Das Signal BP entspricht dabei einer Information über das Bildformat,
der Position des Wiedergabegerätes
sowie den vom Kunden gewählten
Parametern zur Wiedergabe. In den Vorrichtungen Ri erfolgt dann
eine Abbildung der dekodierten Audiosignale auf die Summensignale
S1 bis Sk unter Berücksichtigung
der in BP und ISFi vorhandenen Parameter. Die Anzahl der Summensignale
k entspricht dabei der vom Kunden installierten Anzahl an Lautsprechern.
Die von den einzelnen Vorrichtungen Ri erzeugten Summensignale S
werden summiert und dann auf die Lautsprecher L1 bis Lk ausgegeben.
-
- A
- Audiosignaleingang
- BP
- Information über Bildformat,
Position der Klangquelle und Kundenparameter
- C
- Komprimierte
Audiosignale
- D
- Vorrichtung
zur Dekompression einzelner Audiosignale
- DX
- Vorrichtung
zur Aufspaltung des Datenstromes
- I
- Eingang
für Informationen
zu einem Audiosignal
- ISF
- Information
zu einem Audiosignal sowie Informationen über die Sichtwinkel der Klangquelle
- K
- Vorrichtung
zur Kompression einzelner Audiosignale
- L
- Lautsprecherausgangssignal
- MX
- Vorrichtung
zur Zusammenmischung einzelner Datenströme
- R
- Vorrichtung
zur Abbildung eines Audiosignales auf die Lautsprechersignale
- S
- Summenkanäle für die Lautsprecher
- SF
- Informationen über die
Sichtwinkel der Klangquellen
- US
- Übertragungsstrecke