[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

DE10154932B4 - Verfahren zur Audiocodierung - Google Patents

Verfahren zur Audiocodierung Download PDF

Info

Publication number
DE10154932B4
DE10154932B4 DE10154932A DE10154932A DE10154932B4 DE 10154932 B4 DE10154932 B4 DE 10154932B4 DE 10154932 A DE10154932 A DE 10154932A DE 10154932 A DE10154932 A DE 10154932A DE 10154932 B4 DE10154932 B4 DE 10154932B4
Authority
DE
Germany
Prior art keywords
information
room
speakers
playback
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE10154932A
Other languages
English (en)
Other versions
DE10154932A1 (de
Inventor
Donald Dr. Schulz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Grundig Multimedia BV
Original Assignee
Grundig Multimedia BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grundig Multimedia BV filed Critical Grundig Multimedia BV
Priority to DE10154932A priority Critical patent/DE10154932B4/de
Priority to EP02024643A priority patent/EP1318502B1/de
Priority to AT02024643T priority patent/ATE470925T1/de
Priority to ES02024643T priority patent/ES2347221T3/es
Priority to DE50214481T priority patent/DE50214481D1/de
Publication of DE10154932A1 publication Critical patent/DE10154932A1/de
Application granted granted Critical
Publication of DE10154932B4 publication Critical patent/DE10154932B4/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0091Means for obtaining special acoustic effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/002Instruments in which the tones are synthesised from a data store, e.g. computer organs using a common processing for different operations or calculations, and a set of microinstructions (programme) to control the sequence thereof
    • G10H7/006Instruments in which the tones are synthesised from a data store, e.g. computer organs using a common processing for different operations or calculations, and a set of microinstructions (programme) to control the sequence thereof using two or more algorithms of different types to generate tones, e.g. according to tone color or to processor workload
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/02Instruments in which the tones are synthesised from a data store, e.g. computer organs in which amplitudes at successive sample points of a tone waveform are stored in one or more memories
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/295Spatial effects, musical uses of multiple audio channels, e.g. stereo
    • G10H2210/301Soundscape or sound field simulation, reproduction or control for musical purposes, e.g. surround or 3D sound; Granular synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/046File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
    • G10H2240/051AC3, i.e. Audio Codec 3, Dolby Digital
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/046File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
    • G10H2240/061MP3, i.e. MPEG-1 or MPEG-2 Audio Layer III, lossy audio compression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/541Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
    • G10H2250/571Waveform compression, adapted for music synthesisers, sound banks or wavetables
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Verfahren zur Codierung von Audiosignalen, wobei mehrere Audiosignale mit einem an und für sich bekannten Kompressionsverfahren komprimiert werden, wobei ähnliche zu einem Klangfeld gehörende Klangquellen so zusammengefasst und die Kompressionsfaktoren so gewählt werden, dass die maximal zulässige Datenrate nicht überschritten wird,
zu jeder dieser zusammengefassten Klangquellen Informationen über die Art der Quelle sowie eine Positionsinformation, die angibt, wo sich das Objekt in Bezug auf den Betrachter befindet, beigefügt wird,
dadurch gekennzeichnet, dass
jeder Klangquelle eine Information über deren Abstrahleigenschaften zugewiesen werden kann, wobei die Abstrahleigenschaften kugelförmig, kegelförmig, flächenförmig oder nierenförmig sind und die Information über deren Abstrahleigenschaften auch zur Wiedergabe übertragen werden.

Description

  • Die Erfindung betrifft ein Verfahren zur Audiocodierung gemäss den Merkmalen des Oberbegriffes des Anspruch 1.
  • Bei der Wiedergabe von Filmton und Musiksignalen wird versucht, die Abbildung des Klanges mit der Position der Entstehung in Einklang zu bringen. Bei reinen Musiksignalen wird schon eine gute Approximation durch Verwendung von Stereolautsprechern erreicht. Will man allerdings bei Musikstücken einen anderen Raumeindruck erzielen, beispielsweise den eines Jazz-Clubs, so reichen diese zwei Lautsprecher kaum aus. Insbesondere bei Filmmaterial sind mehr Kanäle wünschenswert, da auch akustische Effekte, die von hinten kommen, wiedergegeben werden sollen.
  • Eines der bekanntesten Verfahren hierfür ist das sogenannte „Dolby Pro Logic" Verfahren, welches bei Filmmaterial im wesentlichen dazu eingesetzt wird, die Lokalisation des Klanges beeinflussen zu können. So werden Sprecher üblicherweise auf den Center-Kanal abgebildet und Geräusche können ausschließlich aus den hinteren Lautsprechern kommen.
  • Weiterhin gibt es eine ganze Klasse von Verfahren, die zur Nachbildung von Raumakustiken verwendet werden. Häufig anzutreffende Bezeichnungen derartiger Verfahren lauten „Hall", „Stadium", „Jazz", „Club" etc.. Bei diesen auf Musiksignale optimierten Verfahren ist es nicht erwünscht, Sprachsignale (Gesang) nur aus dem Center-Lautsprecher zu vernehmen oder ein Musiksignal nur aus den hinteren Lautsprechern auszugeben, welches unter Verwendung des „Dolby Pro Logic" Verfahrens möglich ist.
  • Bei dem Nachfolgeverfahren von Dolby Pro Logic, welches Dolby Pro Logic II genannt wurde, ist abgesehen von dem Filmmodus ein Modus für Musik vorgesehen, der diese Unterschiede berücksichtigt.
  • Aus EP 0 481 374 B1 ist ein Verfahren zum Kodieren von Sprache bekannt. Hierbei wird eine diskrete Umformung eines Sprachfensters vorgenommen, um ein diskretes Spektrum von Koeffizienten zu erhalten. Eine angenäherte Einhüllenden des diskreten Spektrums wird in jedem einer Vielzahl von Unterbändern errechnet und zum digitalen Kodieren der definierten Einhüllenden eines jeden Unterbands verwendet. Innerhalb von Subbändern wird jeder skalierte Koeffizient in eine Anzahl von Bits mit mindestens einem von einer Vielzahl von Quantisierern unterschiedlicher Bitlängen umgerechnet. Der für jedes Unterband benutzte Ouantisierer wird für jedes Sprachfenster durch Berechnen der Zuweisung von Bits als eine Anzahl von Bits größer als oder gleich Null bestimmt, in Abhängigkeit einer Leistungsdichteabschätzung für das Unterband und einer Verzerrungsfehlerabschätzung für das Sprachfenster.
  • Aus EP 0 587 733 B1 ist ein Signalanalysesystem zur Filterung von einem ein oder mehrere Signale repräsentierenden Eingangsabtastwert bekannt. Es sind Eingangspuffermittel zum Gruppieren der Eingangsabtastwerte in Zeitbereichs-Signalabtastwertblöcke vorgesehen. Die Eingangsabtastwerte sind analysefenster-gewichtete Abtastwerte. Außerdem sind Analysemittel zur Erzeugung von Spektralinformation als Antwort auf die Zeitbereichs-Signalabtastwertblöcke vorhanden; wobei die Spektralinformation Spektralkoeffizienten umfaßt, die im wesentlichen einer geradzahlig gestapelten Zeitbereichs-Aliasingaufhebungs-Transformation angewendet auf die Zeitbereichs-Signal-Abtastwertblöcke entspricht. Bei den Spektralkoeffizienten handelt es sich im wesentlichen um Koeffizienten einer modifizierten diskreten Cosinus-Transformation bzw. Koeffizienten einer modifizierten diskreten Sinus-Transformation. Die Analysemittel umfassen Vorwärts-Vor-Transformationsmittel zur Erzeugung modifizierter Abtastwertblöcke und Vorwärts-Transformationsmittel zur Erzeugung von Frequenzbereichs-Transformationskoeffizienten.
  • Aus EP 0 664 943 B1 ist eine Kodiervorrichtung zur adaptiven Verarbeitung von Audiosignalen für das Kodieren, Übertragen oder Speichern und Wiedergewinnen bekannt, wobei der Rauschpegel mit dem Signalamplitudenpegel schwankt. Es ist eine Verarbeitungseinrichtung vorhanden, welche auf Eingangssignale derart anspricht, daß sie entweder ein erstes und ein zweites Signal oder die Summe und Differenz des ersten und zweiten Signals ausgibt. Das erste und zweite Signal entsprechen den beiden matrixkodierten Audiosignalen einer vier zu zwei Audiosignalmatrix, wobei die Verarbeitungseinrichtung auch ein Steuersignal erzeugt, welches anzeigt, ob das erste und zweite Signal oder die Summe und Differenz des ersten und zweiten Signals ausgegeben wird.
  • Aus EP 0 519 055 B1 ist ein Decoder, bestehend aus einem Empfangsmittel zum Empfang einer Mehrzahl von Lieferkanälen formatierter Information, Deformatierungsmitteln zur Erzeugung ansprechend auf die Empfangsmittel, einer deformatierten Darstellung abhängig von jedem Lieferkanal, und Synthesemittel zur Erzeugung von Ausgangssignalen abhängig von den deformatierten Darstellungen, bekannt. Zwischen den Deformatierungsmitteln und den Synthesemitteln sind Verteilermittel angeordnet, welche auf die Deformatierungsmittel ansprechen und einen oder mehrere Zwischensignale erzeugen, wobei wenigstens ein Zwischensignal durch Kombination der Information von zwei oder mehr der deformatierten Darstellungen erzeugt wird. Die Synthesemittel erzeugen ein jeweiliges Ausgangssignal als Antwort auf jedes der Zwischensignale.
  • Aus EP 0 520 068 B1 ist ein Kodierer zum Kodieren von zwei oder mehr Audiokanälen bekannt. Der Kodierer weist eine Teilbandeinrichtung zum Erzeugen von Teilbandsignalen, eine Mischeinrichtung zum Schaffen eines oder mehrerer zusammengesetzter Signale, und Mittel zum Erzeugen von Steuerinformation für ein entsprechendes zusammengesetztes Signal auf. Außerdem weist der Kodierer eine Kodiereinrichtung zum Erzeugen kodierter Information durch Zuteilen von Bits zu dem einen oder mehreren zusammengesetzten Signalen auf. Es ist weiterhin eine Formatiereinrichtung zum Zusammensetzen der kodierten Information und der Steuerinformation zu einem Ausgabesignal vorhanden.
  • Aus EP 0 208 712 B1 ist ein Sprachkodierer bekannt. Dieser Sprachkodierer enthält eine Fourier-Transformationseinrichtung zur Ausführung einer diskreten Fourier-Transformation eines ankommenden Sprachsignals zur Erzeugung eines diskreten Transformationsspektrums von Koeffizienten, eine Normierungseinrichtung zum Modifizieren des Transformationsspektrums zur Erzeugung eines normierten, flacheren Spektrums und zum Codieren einer Funktion, durch die das diskrete Spektrum modifiziert wird. Außerdem ist eine Einrichtung zum Codieren wenigstens eines Teils des Spektrums vorhanden. Die Normierungseinrichtung weist eine Einrichtung (44) zum Definieren der approximierten Einhüllenden des diskreten Spektrums in jedem von mehreren Unterbändern von Koeffizienten und zum Codieren der definierten Einhüllenden eines jedes Unterbandes von Koeffizienten und Einrichtungen zum Skalieren jedes Spektrumkoeffizienten relativ zur definierten Einhüllenden des betreffenden Unterbandes von Koeffizienten auf.
  • Als weitere allgemein bekannte Verfahren zur Verbesserung dieses Problems wurden dann die Verfahren Dolby Digital (auch bekannt unter dem Namen AC3) und DTS eingeführt, welche die Wiedergabe von 6 unterschiedlichen Kanälen gestatten. Trotzdem damit ein rechter und ein linker hinterer separater Kanal möglich sind, war dies für eine perfekte Wiedergabe immer noch nicht genug, daher wurden diese Verfahren durch Matrizierung wieder so erweitert, dass ein zusätzlicher hinterer Centerkanal möglich ist. Mit DTS-ES DISCRETE wurde dann auf die Matrizierung verzichtet und ein echter siebter Audiokanal übertragen. THX-EX erzeugt mittlerweile 8 Kanäle und bei AAC sind sogar über 100 separate Audiokanäle möglich.
  • Aus ISO/IEC JTC 1/SC 29/WG11 (MPEG 4 Structured Audio) ist ein Verfahren bekannt, welches für die synthetische Erzeugung von Musiksignalen die Möglichkeit bietet, den künstlich erzeugten Musikinstrumenten eine Positionsinformation sowie einen oder mehrere Effekte zuzuweisen. Es ist auch möglich, Samples derart zu integrieren.
  • Nachteilig bei MPEG 4 Structured Audio ist, dass es für die Echtzeitübertragung über einen Kanal mit begrenzter Datenrate nicht geeignet ist, da keine obere Begrenzung für die Datenrate und die Rechenleistung vorgesehen ist. Auch die Beschränkung auf Samples, welche normalerweise nur kurzen Klangstücken entsprechen und die auch schon dem Wiedergabegerät zu dem Zeitpunkt komplett bekannt sein müssen, wenn deren abspielen beginnt stellt ein Problem dar. Weiterhin ist eine Synchronisation schwierig, soll mit dem Abspielen an einer bestimmten Stelle begonnen werden so ist es eventuell nötig, die Datei komplett von Anfang an zu berechnen. Einer Anwendung bei Filmmaterial wiederspricht auch das Fehlen einer Kompression der Samples, welche dadurch unnötig viel Datenspeicher benötigen. Die Angabe der Winkel der Schallquellen alleine reicht auch nicht aus, um immer eine gute Zuordnung der Schallquellen zum Bildmaterial zu erreichen, da das Bildmaterial durch verschiedene Projektionstechniken unterschiedliche Größen und Entfernungen zum Beobachter aufweisen kann. Ist am linken Bildrand ein Sprecher zu sehen, so sollte dessen Sprache in einem Kino auch aus den linken Lautsprechern wiedergegeben werden, bei einer Darstellung über einen 5 Meter entfernten Fernseher mit 72 cm Bildschirmdiagonale macht es aber mehr Sinn, die Sprache auch auf dem mittleren Lautsprecher auszugeben, da dann auch dort der Sprecher zu sein scheint.
  • Nachteilig bei allen bekannten Erfindungen bezüglich der Audiodatenkompression ist, dass aufgrund der Fixierung der Positionen der Klangquellen eine hohe Anzahl an Audikanälen zur Nachbildung des gewünschten Klangfeldes benötigt wird. Dies verursacht eine hohe Datenmenge, die sowohl bei Speichermedien als auch bei der Übertragung unerwünscht ist. Weiterhin ist die Möglichkeit der Nachbildung von Raumakustiken durch die Fixierung der Lautsprecherpositionen eingeschränkt.
  • Beispielsweise ist bei Dolby Digital und DTS kein Deckenlautsprecher vorgesehen, der von oben kommende Klänge nachbilden könnte.
  • Aus „CARROUSO-SYSTEM Specifications and Functional Architecture"; Projekt CARROUSO Information Society Technology (IST) Program, Deliverable 1, public version, 12. Juni 2006, Seiten 1-14 ist ein System offenbart, bei welchem bei der Aufnahme von akustischen Signalen ein MPEG4-Kompressionsverfahren sowie eine Zuordnung von Klangquellen zu Klangfelder offenbart ist.
  • Aus BOUNE M.M. „acoustic rendering with wave field synthesis: ACM SIGGRAPH AND EUROGRAPHIC CAMPFIRE; acoustic rendering for virtual environments, Snowbird, Utah, 26.-29. Mai 2001, ist ebenfalls bekannt, Klangquellen Klangfeldern zuzuweisen.
  • Aufgabe der Erfindung ist es, ein Verfahren anzugeben, welches eine effiziente Codierung von mehreren Audiosignalen unter Berücksichtigung des zugehörigen Klangfeldes ermöglicht.
  • Die vorliegende Erfindung löst diese Aufgabe durch die Merkmale der Ansprüche 1 und 12. Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen, der zugehörigen Beschreibung nebst 1 angegeben.
  • Die vorliegende Erfindung löst die Aufgabe dadurch, dass die zu einem Klangfeld gehörenden Klangquellen zuerst einzeln mit einem herkömmlichen Kompressionsverfahren, beispielsweise AC3, MP3, AAC, WMA, usw. komprimiert werden. Bei einer Überschreitung einer maximal erlaubten Datenrate wird eine Zusammenfassung von Klangquellen oder eine stärkere Kompression zur Verringerung der Datenrate durchgeführt. Jeder dieser Klangquellen werden Informationen über deren Art sowie eine Positionsinformation hinzugefügt, die angibt, wo sich das Objekt in Bezug auf den Betrachter befindet. Informationen über die Eigenschaften des nachzubildenden Raumes sowie über die aktuellen horizontalen und vertikalen Sichtwinkel werden übertragen. Basierend auf den Positionsinformationen und Informationen über die Quellen, den Informationen über die Eigenschaften des nachzubildenden Raumes, den aktuellen horizontalen und vertikalen Sichtwinkeln sowie über der Größe und Position des Bildes des Wiedergabegerätes werden dann Nachbearbeitungen und Abbildungen der einzelnen Quellen auf die vorhandenen Lautsprecher oder ein Kopfhörersignal durchgeführt.
  • Betrachtet man natürliche Klangfelder, so stellt man fest, dass das menschliche Gehör diese derart analysiert, dass eine Aufteilung in verschiedene Klangquellen sowie deren Charakteristiken stattfindet und zudem die Eigenschaft des Raumes, in welchem die akustische Wiedergabe erfolgt, ausgewertet wird. Die Aufteilung der Klangquellen erfolgt in erster Linie durch Auswertung der spektralen Zusammensetzung und der Position der Schallquelle. Laufzeitunterschiede und die richtungsabhängige Frequenzempfindlichkeitskurve des Gehörs haben nur einen geringen Einfluss auf die Aufteilung. Eine gute Approximation vieler Klangfelder kann schon erreicht werden, wenn zwei Sprachkanäle sowie zwei Effektkanäle zur Verfügung stehen. Damit kann die Kommunikation zweier Personen sowie diverse Umgebungsgeräusche (beispielsweise vorbeifahrende Autos) erfasst und nachgebildet werden.
  • Erfindungsgemäß werden die von verschiedenen Klangquellen erzeugten Audiodaten in der Art und Weise codiert, dass Klangquellen zusammengefasst werden, die für das Gehör gleiche Eigenschaften besitzen und diese dann mit einer Positionsinformation, einer Information über die Art des Kanales (Gesang, Hintergrundgeräusch, Sprache ...) sowie einer Information über eventuell mögliche Effekte (Hall, Dynamikkompressor) versehen werden. Diese Informationen werden kontinuierlich übertragen. Bei der Wiedergabe kann über die Art des Kanales eine Nachbearbeitung erfolgen, in der dann z.B. für Hintergrundgeräusche dieses Signal mehrfach dekorreliert und auf die Lautsprecher ausgegeben wird. Es wird jeder Signalart ein individueller Nachverarbeitungsalgorithmus zugeordnet. Eine vorteilhafte Implementierung ergibt sich, wenn zusätzlich noch zu jeder Klangquelle eine Information über deren Abstrahlcharakteristik, wie kugelförmig, nierenförmig etc., übertragen wird. Eine weitere vorteilhafte Implementierung ergibt sich, wenn zusätzlich noch Informationen über die gewünschte Raumcharakteristik (z.B. Badezimmer, Kathedrale, usw.), Parameter (z.B. Hallzeit) bzw. direkt algorithmische Beschreibungen zur Erzielung dieser Klangeindrücke sowie Eigenschaften der einzelnen Schallquellen (wie z.B. Sprache oder Musik oder Effekt) mitübertragen werden. Als Parameter zur Beschreibung der Raumcharakteristik sind z.B. die Raumgeometrie und die Raumabsorptionseigenschaften zu übertragen. Ein Wohnzimmer mit Gardinen und Teppichböden schluckt nämlich den Schall viel stärker als ein Badezimmer oder eine Kirche.
  • Ist ein Wiedergabegerät nicht leistungsfähig genug, diese Daten auszuwerten, so ignoriert es eben diese Zusatzdaten bei der Wiedergabe.
  • Eine weitere vorteilhafte Ausgestaltung der Erfindung ergibt sich, wenn zusätzlich noch Eigenschaften über den Sichtwinkel übertragen werden, d.h. dass man aus den Winkeln der Klangquelle und diesen Sichtwinkeln direkt schließen kann, ob das dazugehörige Objekt im Bild sichtbar ist. Dies ist dann der Fall, wenn der horizontale Winkel des Objektes innerhalb des horizontalen Sichtwinkelbereiches und der vertikale Winkel des Objektes innerhalb des vertikalen Sichtwinkelbereiches liegt. Der Sichtwinkel ist dabei wie auch die Position der Objekte auf den Betrachter der Orginalszene bezogen. Der Sichtwinkel kann sich laufend ändern, daher wird dieser vorteilhafterweise zu jedem einzelnen Bild übertragen. Basierend auf dem Winkel des Objektes, des Sichtwinkels sowie der Position und Größe des projezierten Bildes wird dann ein virtueller Winkel bezogen auf die Abhörposition ermittelt. Damit beim Verlassen von Objekten aus dem Sichtwinkelbereich kein abrupter Sprung stattfindet, wird dort vorteilhafterweise eine nichtlineare Abbildung verwendet.
  • So kann z.B. der bei kleinen Bildschirmen geschrumpfte Winkelbereich durch eine Streckung des restlichen Winkelbereiches ausgeglichen werden. Eine vorteilhafte Ausgestaltungung ergibt sich, wenn die Stärke der Stauchung/Streckung durch den Anwender einstellbar ist.
  • Durch die Erfindung wird
    • – eine wesentlich realistischere Audiodarbietung erreicht;
    • – die Ausnutzung der vorhandenen Kanäle wesentlich verbessert, somit wird bei DVDs Kapazität und bei Broadcast-Verfahren Bandbreite gespart;
    • – bei Hinzufügung der Klangeffekte im Endgerät bei der Codierung der unverfälschten Originalsignale eine wesentlich geringere Datenrate benötigt, dies gibt eine zusätzliche Datenratenersparnis;
    • – die Kanalabbildung wesentlich verbessert, ein überfliegender Hubschrauber kann mit nur einem Kanal perfekt nachgebildet werden;
    • – das System abwärtskompatibel gehalten, die Wiedergabe anderer Standards kann durch Annahme der Positionen der Klangquellen auf die dabei üblichen Aufstellungspositionen der Lautsprecher erfolgen; es muss die vom Kunden gewählte Lautsprecherkonstellation nicht modifiziert werden;
    • – die Aufstellungspositionen der Lautsprecher nicht vorgegeben und kann beliebig sein, die Lautsprecher müssen dem System nur bekannt gemacht werden; das System berechnet dann, auf welchen Lautsprechern es bestimmte Kanäle am geeignetesten ausgibt; so ist es möglich, die räumlichen Gegebenheiten perfekt auszunutzen;
    • – eine bessere Anpassung an verschiedene Bildformate bei der Wiedergabe erreicht, Klangquellen zu im Bildbereich gehörenden Objekten können klanglich auch dorthin fokussiert werden.
  • Außerdem ist die Anzahl an aufgestellten Lautsprechern theoretisch unbegrenzt, sie ist nur begrenzt durch die Anzahl an Verstärkerkanälen und durch die Rechenleistung des Systems. Ein Nutzer kann nachträglich ohne großen Aufwand und Probleme zwei seitliche Lautsprecher nachrüsten oder einen Deckenlautsprecher entfernen.
  • Schließlich ist die zur Übertragung der Zusatzinformationen benötigte Datenmenge gegenüber der Datenmenge zur Codierung der einzelnen Audiokanäle vernachlässigbar gering.
  • Im Weiteren wird die Erfindung anhand eines konkreten Ausführungsbeispieles 1 beschrieben.
  • Das Ausführungsbeispiel zeigt eine erfindungsgemäße Vorrichtung. Die erfindungsgemäße Vorrichtung weist die Audiosignaleingänge A1 bis An auf. Über die Eingänge I1 bis In werden zu den n Audiosignalen Informationen zu der Position und die Eigenschaften des entsprechenden Audiosignales übertragen. Über den Eingang SF werden die horizontalen und vertikalen Sichtwinkel sowie die Eigenschaft des nachzubildenden Raumes eingespeist. Die eingehenden Audiosignale werden in den Vorrichtungen K1 bis Kn in der Datenrate zu den Signalen C1 bis Cn komprimiert. Die Datenströme C, I und SF werden dann in der Vorrichtung MX zu einem einzelnen Datenstrom US zusammengemischt. Der Datenstrom US kann dann entweder im Broadcasting-Format übertragen werden oder auch auf einem Speichermedium zwischengespeichert werden. Zur Ausgabe wird dieser Datenstrom dann auf eine Vorrichtung DX gegeben, die daraus wieder die Datenströme C1 bis Cn regeneriert sowie ISF1 bis ISFn erzeugt. ISFi entspricht dabei dem Datenstrom Ii, dem noch SF hinzugefügt ist. Die komprimierten Datenströme C1 bis Cn werden in den Vorrichtungen D1 bis Dn dekomprimiert. Die einzelnen dekomprimierten Datenströme werden dann jeweils zusammen mit ihrem zugehörigen Datenstrom ISFi sowie dem Signal BP auf die Vorrichtungen R1 bis Rn gegeben. Das Signal BP entspricht dabei einer Information über das Bildformat, der Position des Wiedergabegerätes sowie den vom Kunden gewählten Parametern zur Wiedergabe. In den Vorrichtungen Ri erfolgt dann eine Abbildung der dekodierten Audiosignale auf die Summensignale S1 bis Sk unter Berücksichtigung der in BP und ISFi vorhandenen Parameter. Die Anzahl der Summensignale k entspricht dabei der vom Kunden installierten Anzahl an Lautsprechern. Die von den einzelnen Vorrichtungen Ri erzeugten Summensignale S werden summiert und dann auf die Lautsprecher L1 bis Lk ausgegeben.
  • A
    Audiosignaleingang
    BP
    Information über Bildformat, Position der Klangquelle und Kundenparameter
    C
    Komprimierte Audiosignale
    D
    Vorrichtung zur Dekompression einzelner Audiosignale
    DX
    Vorrichtung zur Aufspaltung des Datenstromes
    I
    Eingang für Informationen zu einem Audiosignal
    ISF
    Information zu einem Audiosignal sowie Informationen über die Sichtwinkel der Klangquelle
    K
    Vorrichtung zur Kompression einzelner Audiosignale
    L
    Lautsprecherausgangssignal
    MX
    Vorrichtung zur Zusammenmischung einzelner Datenströme
    R
    Vorrichtung zur Abbildung eines Audiosignales auf die Lautsprechersignale
    S
    Summenkanäle für die Lautsprecher
    SF
    Informationen über die Sichtwinkel der Klangquellen
    US
    Übertragungsstrecke

Claims (12)

  1. Verfahren zur Codierung von Audiosignalen, wobei mehrere Audiosignale mit einem an und für sich bekannten Kompressionsverfahren komprimiert werden, wobei ähnliche zu einem Klangfeld gehörende Klangquellen so zusammengefasst und die Kompressionsfaktoren so gewählt werden, dass die maximal zulässige Datenrate nicht überschritten wird, zu jeder dieser zusammengefassten Klangquellen Informationen über die Art der Quelle sowie eine Positionsinformation, die angibt, wo sich das Objekt in Bezug auf den Betrachter befindet, beigefügt wird, dadurch gekennzeichnet, dass jeder Klangquelle eine Information über deren Abstrahleigenschaften zugewiesen werden kann, wobei die Abstrahleigenschaften kugelförmig, kegelförmig, flächenförmig oder nierenförmig sind und die Information über deren Abstrahleigenschaften auch zur Wiedergabe übertragen werden.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass Informationen über die Eigenschaften des nachzubildenden Raumes sowie Informationen über die aktuellen horizontalen und vertikalen Sichtwinkel in den erzeugten Datenstrom eingefügt werden.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass im Wiedergabegerät die Große und Position einer Bildprojektion ausgewertet und basierend darauf auf den Eigenschaften des nachzubildenden Raumes, auf den Informationen über die aktuellen horizontalen und vertikalen Sichtwinkeln sowie den Positionsinformationen und Informationen über die Arten und Abstrakteigenschaften der Quellen eine Abbildung der Klangquellen auf die vorhandenen Lautsprecher durchgeführt wird.
  4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass zur Codierung das AC3-Verfahren, das DTS-Verfahren oder das MP3-Verfahren, oder das AAC-Verfahren, das WMA-Verfahren oder ein ähnliches Verfahren angewendet wird.
  5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass die Informationen über die Art der Quelle in Form von Algorithmen oder Parametern zu vorgegebenen Algorithmen angegeben wird.
  6. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass die Informationen über die Eigenschaften des nachzubildenden Raumes in Form von Algorithmen oder Parametern zu vorgegebenen Algorithmen angegeben wird.
  7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass eine Wiedergabe über Kopfhörer oder über Lautsprecher erfolgt.
  8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass im Wiedergabegerät die Eigenschaften des Abhörraumes, d.h. des Raumes in dem die Lautsprecher aufgestellt werden, einstellbar sind und/oder durch Messungen bestimmt werden können und diese bei der Wiedergabe berücksichtigt werden.
  9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die Eigenschaften des Abhörraumes durch die Geometrie des Raumes und Beschaffenheit der Wände und des Bodens vorgegeben werden.
  10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass eine beliebige Anzahl an Lautsprechern zur Wiedergabe verwendbar ist.
  11. Verfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass die Lautsprecherpositionen dem Wiedergabegerät bekannt gemacht werden, so dass die bestmögliche Abbildung der einzelnen Kanäle auf die Lautsprecher vorgenommen wird.
  12. Vorrichtung zur Durchführung des Verfahren nach einem oder mehreren der vorangehenden Ansprüche.
DE10154932A 2001-11-08 2001-11-08 Verfahren zur Audiocodierung Expired - Lifetime DE10154932B4 (de)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE10154932A DE10154932B4 (de) 2001-11-08 2001-11-08 Verfahren zur Audiocodierung
EP02024643A EP1318502B1 (de) 2001-11-08 2002-11-05 Verfahren zur Audiocodierung
AT02024643T ATE470925T1 (de) 2001-11-08 2002-11-05 Verfahren zur audiocodierung
ES02024643T ES2347221T3 (es) 2001-11-08 2002-11-05 Metodo para la codificacion de audio.
DE50214481T DE50214481D1 (de) 2001-11-08 2002-11-05 Verfahren zur Audiocodierung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10154932A DE10154932B4 (de) 2001-11-08 2001-11-08 Verfahren zur Audiocodierung

Publications (2)

Publication Number Publication Date
DE10154932A1 DE10154932A1 (de) 2003-06-12
DE10154932B4 true DE10154932B4 (de) 2008-01-03

Family

ID=7705086

Family Applications (2)

Application Number Title Priority Date Filing Date
DE10154932A Expired - Lifetime DE10154932B4 (de) 2001-11-08 2001-11-08 Verfahren zur Audiocodierung
DE50214481T Expired - Lifetime DE50214481D1 (de) 2001-11-08 2002-11-05 Verfahren zur Audiocodierung

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE50214481T Expired - Lifetime DE50214481D1 (de) 2001-11-08 2002-11-05 Verfahren zur Audiocodierung

Country Status (4)

Country Link
EP (1) EP1318502B1 (de)
AT (1) ATE470925T1 (de)
DE (2) DE10154932B4 (de)
ES (1) ES2347221T3 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2637427A1 (de) 2012-03-06 2013-09-11 Thomson Licensing Verfahren und Vorrichtung zur Wiedergabe eines Ambisonic-Audiosignals höherer Ordnung
EP2928216A1 (de) 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren für bildschirmbezogene audioobjekt-neuabbildung

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
JP3594854B2 (ja) * 1999-11-08 2004-12-02 三菱電機株式会社 音声符号化装置及び音声復号化装置

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
"CARROUSO - Dissemination and Use Plan". Project CARROUSO Information Society Technologies (IST) Programme, Deliverable D12-V1, public version, 2003, Nachveröffentlicht *
"CARROUSO-System Specifications and Funktional Architecture". Project CARROUSO Information Society Technologies (IST) Programme, Deliverable 1, public version, 12-th of June 2001, S.1-14 *
BOONE,M.M.: "Acoustic Rendering with Wave Field Synthesis: ACM Siggraph and Eurographics Camp- fire". Acoustic Rendering for Virtual Enviroments, Snowbird, Utah, May 26-29, 2001
BOONE,M.M.: "Acoustic Rendering with Wave Field Synthesis: ACM Siggraph and Eurographics Campfire". Acoustic Rendering for Virtual Enviroments, Snowbird, Utah, May 26-29, 2001 *
DOLIWA,P.: MPEG-4 Advanced Audio Coding, 2004, Nachveröffentlicht *
RABENSTEIN,R., u.a.: "Raumklangwiedergabe und der MPEG-4 Standard: Das CARROUSO-Projekt". Tonmeis- tertagung (VDT International Audio Convention), Hannover, 22-25 Nov. 2005, Nachveröffentlicht
RABENSTEIN,R., u.a.: "Raumklangwiedergabe und der MPEG-4 Standard: Das CARROUSO-Projekt". Tonmeistertagung (VDT International Audio Convention), Hannover, 22-25 Nov. 2005, Nachveröffentlicht *

Also Published As

Publication number Publication date
DE50214481D1 (de) 2010-07-22
ES2347221T3 (es) 2010-10-27
DE10154932A1 (de) 2003-06-12
EP1318502B1 (de) 2010-06-09
ATE470925T1 (de) 2010-06-15
EP1318502A2 (de) 2003-06-11
EP1318502A3 (de) 2009-10-07

Similar Documents

Publication Publication Date Title
DE69214523T3 (de) Dekodierer für variable anzahl von kanaldarstellungen mehrdimensionaler schallfelder
DE69933659T2 (de) Verfahren und system zur räumlichen kodierung mit niedriger bitrate
DE60312553T2 (de) Verfahren zum kodieren und dekodieren von der breite einer schallquelle in einer audioszene
DE602004008613T2 (de) Treueoptimierte kodierung mit variabler rahmenlänge
EP1854334B1 (de) Vorrichtung und verfahren zum erzeugen eines codierten stereo-signals eines audiostücks oder audiodatenstroms
DE69210689T2 (de) Kodierer/dekodierer für mehrdimensionale schallfelder
DE60206390T2 (de) Effiziente und skalierbare parametrische stereocodierung für anwendungen mit niedriger bitrate
EP1864279B1 (de) Vorrichtung und verfahren zum erzeugen eines datenstroms und zum erzeugen einer multikanal-darstellung
DE602006000239T2 (de) Energieabhängige quantisierung für effiziente kodierung räumlicher audioparameter
DE69431622T2 (de) Verfahren und gerät zum kodieren von mit mehreren bits kodiertem digitalem ton durch subtraktion eines adaptiven zittersignals, einfügen von versteckten kanalbits und filtrierung, sowie kodiergerät zur verwendung bei diesem verfahren
DE102006053919A1 (de) Vorrichtung und Verfahren zum Erzeugen einer Anzahl von Lautsprechersignalen für ein Lautsprecher-Array, das einen Wiedergaberaum definiert
Avendano et al. Frequency domain techniques for stereo to multichannel upmix
DE10254404B4 (de) Audiowiedergabesystem und Verfahren zum Wiedergeben eines Audiosignals
EP1652405A2 (de) Vorrichtung und verfahren zum erzeugen, speichern oder bearbeiten einer audiodarstellung einer audioszene
DE19646055A1 (de) Verfahren und Vorrichtung zur Abbildung von Schallquellen auf Lautsprecher
EP1687809A1 (de) Vorrichtung und verfahren zur wiederherstellung eines multikanal-audiosignals und zum erzeugen eines parameterdatensatzes hierfür
DE60112407T2 (de) Verfahren und vorrichtung zur konvertierung eines audiosignals zwischen unterschiedlichen datenkompressionsformaten
EP2457390A1 (de) Vorrichtung und verfahren zur optimierung stereophoner oder pseudostereophoner audiosignale
DE10254470A1 (de) Vorrichtung und Verfahren zum Bestimmen einer Impulsantwort und Vorrichtung und Verfahren zum Vorführen eines Audiostücks
EP1430750B1 (de) Verfahren und vorrichtung zur auswahl eines klangalgorithmus
Sporer Wave field synthesis-generation and reproduction of natural sound environments
DE10197182B4 (de) Verfahren zum Codieren und Decodieren von Digital-Audiodaten
DE10154932B4 (de) Verfahren zur Audiocodierung
DE112020006211T5 (de) Steuervorrichtung, Signalverarbeitungsverfahren und Lautsprechervorrichtung
DE602004007979T2 (de) Audiopegelsteuerung für komprimierte Audiosignale

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8127 New person/name/address of the applicant

Owner name: GRUNDIG MULTIMEDIA B.V., AMSTERDAM, NL

8128 New person/name/address of the agent

Representative=s name: PROELL, J., RECHTSANW., 90471 NUERNBERG

8364 No opposition during term of opposition
R082 Change of representative
R071 Expiry of right