ES2739886T3 - Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores - Google Patents
Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores Download PDFInfo
- Publication number
- ES2739886T3 ES2739886T3 ES15713461T ES15713461T ES2739886T3 ES 2739886 T3 ES2739886 T3 ES 2739886T3 ES 15713461 T ES15713461 T ES 15713461T ES 15713461 T ES15713461 T ES 15713461T ES 2739886 T3 ES2739886 T3 ES 2739886T3
- Authority
- ES
- Spain
- Prior art keywords
- data
- audio
- metadata
- audio data
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 claims abstract description 192
- 238000000034 method Methods 0.000 claims abstract description 45
- 230000008569 process Effects 0.000 claims abstract description 8
- 230000005540 biological transmission Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 7
- 238000009877 rendering Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000003550 marker Substances 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000000945 filler Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000001343 mnemonic effect Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 241001025261 Neoraja caerulea Species 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011038 discontinuous diafiltration by volume reduction Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 125000000446 sulfanediyl group Chemical group *S* 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
- H04N21/4355—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/436—Interfacing a local distribution network, e.g. communicating with another STB or one or more peripheral devices inside the home
- H04N21/4363—Adapting the video stream to a specific local network, e.g. a Bluetooth® network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
- H04N21/44222—Analytics of user selections, e.g. selection of programs or purchase activity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44227—Monitoring of local network, e.g. connection or bandwidth variations; Detecting new devices in the local network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/485—End-user interface for client configuration
- H04N21/4852—End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Circuits Of Receivers In General (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
Procesador de datos de audio (1), que comprende: una interfaz de receptor (2) para recibir datos de audio codificados (3) y metadatos (4) relacionados con los datos de audio codificados (3); un analizador de metadatos (5) para analizar los metadatos (4) para determinar una posibilidad de manipulación de datos de audio; una interfaz de interacción (6) para recibir una entrada de interacción (7) y para generar, a partir de la entrada de interacción (7), datos de control de la interacción (8) relacionados con la posibilidad de manipulación de datos de audio; y un generador de flujos de datos (9) para obtener los datos de control de la interacción (8) y los datos de audio codificados (3) y los metadatos (4) y para generar un flujo de datos de salida (10), comprendiendo el flujo de datos de salida (10) los datos de audio codificados (3), los metadatos (4), y los datos de control de la interacción (8), en el que el generador de flujo de datos (9) está configurado para procesar un flujo de datos de entrada (15) que comprende los datos de audio codificados (3) y los metadatos (4) recibidos por la interfaz del receptor (2) sin decodificar los datos de audio codificados (3) para generar el flujo de datos de salida codificados (10), o para copiar los datos de audio codificados (3) y al menos una porción de los metadatos (4) sin cambios en el flujo de datos de salida codificados (10), para incrustar los datos de control de interacción (8) como una porción de datos adicional en el flujo de datos de salida (10), y para reenviar los datos de salida codificados (10) que comprende los datos de audio codificados (3), los metadatos (4) y los datos de control de interacción (8) a un decodificador externo (31) para decodificar el flujo de datos de salida codificados (10).
Description
DESCRIPCIÓN
Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores
[0001] La presente invención se refiere a un procesador de datos de audio según la reivindicación 1, un procedimiento para procesar datos de audio según la reivindicación 14 y un programa informático según la reivindicación 15 para ejecutar el procedimiento de procesamiento de datos de audio.
[0002] En instalaciones de aparatos electrónicos para Consumidores domésticos (CE), la funcionalidad se reparte entre varios dispositivos por medio de interfaces normalizadas. Además, con frecuencia los equipos (de alta calidad) están construidos no solo formando un único dispositivo, sino que se dispone de sofisticados dispositivos únicos (considérense las Cajas de Conexión (o decodificadores) de televisión, equipos de televisión, Receptores AVR). Estos dispositivos se comunican a través de interfaces normalizadas (tales como HDMI).
[0003] Mientras un primer dispositivo extrae los flujos deseados y ofrece todas las interfaces al usuario, con frecuencia un segundo dispositivo realiza la decodificación en “modo esclavo”) sin interfaz alguna para el usuario. Cuando llega el momento de la interacción y control del decodificador por el usuario, es esencial transferir esta información del usuario desde el dispositivo #1 al dispositivo #2 en esta situación.
[0004] Por ejemplo, como se ilustra en la figura 9, a menudo un programa de televisión es recibido por un primer dispositivo tal como un receptor digital externo, que selecciona el canal de transmisión apropiado y extrae los flujos elementales pertinentes que contienen la esencia codificada buscada. Estos flujos extraídos pueden ser alimentados a un segundo dispositivo tal como un Receptor de Audio-Vídeo para su reproducción. La transmisión entre estos dos dispositivos se puede realizar transmitiendo una representación decodificada/descomprimida (audio PCM) o en una representación codificada, especialmente si se aplican restricciones de ancho de banda a la línea de interconexión utilizada.
[0005] Además, como la selección de los flujos deseados y/o, opcionalmente, la interacción con el usuario se realiza en el dispositivo #1 (por ejemplo, el receptor digital externo), en la mayoría de los casos solo este dispositivo ofrece una interfaz de control al usuario. El segundo dispositivo (por ejemplo, el Receptor de A/V) solo presenta una interfaz de configuración a la que habitualmente el usuario solo accede una vez al configurar el sistema y actúa en “modo esclavo” durante los períodos de operación normal.
[0006] Los esquemas modernos de códec de audio no solo admiten la codificación de señales de audio, sino que también ofrecen un medio para la interactividad con el usuario a fin de adaptar la reproducción y renderización del audio a las preferencias del usuario. El flujo de datos de audio consiste en un número de señales de audio codificadas, por ejemplo, señales de canales u objetos de audio, e información de metadatos que describen cómo estas señales de audio forman una escena de audio que se renderiza a los altavoces.
[0007] Los ejemplos de objetos de audio son:
• diálogo en diferentes idiomas,
• diálogo adicional como descripción de audio o
• fondo de música y efectos.
[0008] Los ejemplos de información de metadatos son:
• el nivel de volumen por defecto de cada señal de objeto (es decir con qué volumen se debe mezclar para formar una señal mixta para la presentación al altavoz),
• la posición espacial por defecto (es decir dónde debe ser renderizada),
• información, si se admite la interacción con el usuario con respecto a un objeto específico o
• información sobre cómo se permite interactuar al usuario, por ejemplo, niveles de volumen mínimo/máximo o restricciones sobre las posiciones a las cuales el usuario puede redirigir los objetos.
• clasificación y/o descripción de los objetos de audio
[0009] En la técnica anterior, dicha interactividad del usuario puede proporcionarse en el lado del codificador, que también puede denominarse autoría. Por ejemplo, el documento US 2014/119581 A1 describe una herramienta
de autoría. Un autor, o creador de contenido, puede editar los metadatos asociados con los datos de audio. Dicha edición de los metadatos se realiza en el lado del codificador, de modo que los metadatos editados se transmiten del codificador al decodificador.
[0010] El documento Simone Füg et al: "Tecnología y casos de uso de interacción de objetos" 108. Reunión MPEG; 31-3-2014- 4-4-2014; Valencia; (GRUPO DE EXPERTOS DE IMAGEN EN MOVIMIENTO O ISO / IEC JTC1 / SC29 / WG11), no. m33224, 27 de marzo de 2014 (2014-03-27), el documento XP030061676 describe una autoría en el lado del codificador. Describe otra posibilidad de interacción del usuario en el lado del decodificador implementando un procesador de metadatos de objetos en el decodificador.
[0011] El documento Stephan Schreiner et al: "Formato de flujo de audio 3D MPEG-H propuesto", 108. Reunión MPEG; 31-3-2014 - 4-4-2014; Valencia; (GRUPO DE EXPERTOS DE IMAGEN EN MOVIMIENTO O ISO / IEC JTC1 / SC29 / WG11), no. m33190, 26 de marzo de 2014 (2014-03-26), el documento XP03006164s describe la posibilidad de incrustar la carga útil de datos de audio codificados y los datos de configuración asociados en un flujo de transporte de sincronización automática. Para mejorar la sincronización de la corriente de transporte, los paquetes de flujo de sincronización se pueden incrustar con mayor frecuencia y también se pueden usar paquetes adicionales de sincronización.
[0012] Para lograr la interactividad del usuario, es necesario que los decodificadores/ renderizadores de audio (por ejemplo, el dispositivo #2) presenten una interfaz adicional (de entrada o interacción) para información de control para la interacción pretendida con el usuario.
[0013] Por otro lado, también podría ser conveniente implementar el control por el usuario para la selección de objetos y audio y la manipulación del dispositivo #1 y alimentar estos datos al dispositivo #2 cuando se implementa la decodificación y renderización en el dispositivo #2 y no en el dispositivo #1.
[0014] Sin embargo, la transmisión de esos datos es restringida debido a que las conexiones normalizadas existentes no admiten la transmisión de datos de control por el usuario ni/o información del renderizador.
[0015] Por otro lado, la selección de flujos y la interacción del usuario antes descritas con respecto al dispositivo #1, y la decodificación antes descrita con respecto al dispositivo #2 pueden ser procesadas por dos componentes funcionales separados contenidos dentro del mismo dispositivo y con las mismas restricciones a la transmisión de datos entre ambos componentes, es decir que solo se dispone de una interfaz para datos codificados y datos de interacción con el usuario, preferentemente la interfaz de interacción del dispositivo #1, y se puede omitir a la vez una segunda interfaz para datos de interacción con el usuario, es decir una interfaz habitualmente proporcionada por el dispositivo #2. Aunque tanto el dispositivo #1 como el dispositivo #2 están contenidos o implementados dentro del mismo dispositivo (hardware), esto lleva a la misma situación descrita con respecto al caso de los dispositivos #1 y #2.
[0016] Para obtener el caso de uso descrito y a fin de superar las limitaciones antes descritas, se propone incrustar los datos de información de control del usuario, o los datos de interacción en general, en el flujo de datos de audio codificados.
[0017] En consecuencia, un objetivo de la presente invención es mejorar los procesadores de datos de audio existentes.
[0018] En términos generales, el primer dispositivo puede ser configurado en forma de procesador de datos de audio que comprende: una interfaz de receptor para recibir datos de audio codificados y metadatos relacionados con los datos de audio codificados; un analizador de metadatos para analizar los metadatos para determinar una posibilidad de manipulación de datos de audio; una interfaz de interacción para recibir una entrada de interacción y para generar, a partir de la entrada de interacción, datos de control de la interacción relacionados con la posibilidad de manipulación de datos de audio; y un generador de flujos de datos para obtener los datos de control de la interacción y los datos de audio codificados y los metadatos y para generar un flujo de datos de salida, donde el flujo de datos de salida comprende los datos de audio codificados, al menos una porción de los metadatos, y los datos de control de la interacción según lo definido en la reivindicación 1. Se describen otras formas de realización preferidas en las reivindicaciones dependientes y otras independientes que se adjuntan.
[0019] Los datos de audio codificados pueden comprender objetos de audio codificados separados, en los que al menos una porción de los metadatos está asociada a un objeto de audio correspondiente, en los que el analizador de metadatos está configurado para analizar la porción correspondiente a los objetos de audio codificados a fin de determinar, con respecto al menos a un objeto de audio, la posibilidad de manipulación de objetos, en los que la interfaz de interacción está configurada para generar, con respecto al menos a dicho un objeto de audio codificado, los datos de control de la interacción a partir de la entrada de interacción relacionada con dicho al menos un objeto de audio codificado. De esa manera, los objetos de audio pueden ser fácil y directamente manipulados dentro de sus correspondientes posibilidades de manipulación de objetos almacenadas dentro de los metadatos mediante el uso de los respectivos datos de control de interacción.
[0020] La interfaz de interacción puede estar configurada para presentar a un usuario, la posibilidad de manipulación de datos de audio derivada de los metadatos por el analizador de metadatos, y para recibir del usuario una entrada del usuario con respecto a la manipulación de datos específica de la posibilidad de manipulación de datos. Esto puede representar una manera práctica de ofrecer una interfaz del usuario a un usuario para interactuar con el dispositivo de la invención, por ejemplo, para manipular objetos de audio, preferentemente fuera de un decodificador.
[0021] El generador de flujos de datos puede estar configurado para procesar un flujo de datos que comprende los datos de audio codificados y los metadatos recibidos por la interfaz de receptor sin decodificar los datos de audio codificados o para copiar los datos de audio codificados y al menos una porción de los metadatos sin cambios en el flujo de datos de salida, donde el generador de flujos de datos está configurado para añadir una porción adicional de datos que contiene los datos de control de la interacción a los datos de audio codificados y/o los metadatos contenidos en el flujo de datos de salida. Esto proporciona la ventaja de una menor complejidad, ya que no es necesario que el procesador de datos de audio decodifique las señales de audio. Solo necesita analizar los metadatos y reescribirlos en la parte de metadatos del flujo de datos de audio codificados.
[0022] El generador de flujos de datos puede estar configurado para generar, en el flujo de datos de salida, los datos de control de la interacción en el mismo formato que los metadatos. De esa manera, se puede integrar ventajosamente cualquier dato de control de la interacción al flujo de datos de salida.
[0023] El generador de flujos de datos puede estar configurado para asociar, con los datos de control de la interacción, un identificador en el flujo de datos de salida, siendo el identificador diferente de un identificador asociado a los metadatos. La ventaja de utilizar un identificador diferente para los metadatos manipulados es que se podría habilitar un decodificador remoto para identificar la interacción en virtud del flujo de datos manipulados recibido mientras se reciben también los datos originales.
[0024] El generador de flujos de datos puede estar configurado para añadir a los datos de control de la interacción, datos de verificación de firma, datos de verificación de firma que indican información sobre una aplicación, un dispositivo o un usuario que realiza una interacción, por ejemplo, una manipulación de datos de audio o el suministro de la entrada del usuario. Mediante el transporte de los datos originales y los manipulados, es posible un reinicio de los metadatos. Una verificación de firma en los metadatos permite rastrear el origen de la manipulación.
[0025] El analizador de metadatos puede estar configurado para identificar una posibilidad de deshabilitación con respecto a uno o más objetos de audio representados por los datos de audio codificados, en el que la interfaz de interacción está configurada para recibir una información de deshabilitación correspondiente a dicho uno o más objetos de audio, y en el que el generador de flujos de datos está configurado para marcar dichos uno o más objetos de audio como deshabilitaos en los datos de control de la interacción o para eliminar dichos uno o más objetos de audio deshabilitados de los datos de audio codificados de manera que el flujo de datos de salida no incluya datos de audio codificados correspondientes a dichos uno o más objetos de audio deshabilitados. Por consiguiente, el flujo de datos se puede adaptar a los objetos de audio que estén disponibles en realidad o en el momento, de tal manera que se pueda reducir el contenido de datos total de un flujo de bits en curso.
[0026] El generador de flujos de datos puede estar configurado para generar de manera dinámica el flujo de datos de salida, en el que en respuesta a una nueva entrada de interacción, los datos de control de la interacción se actualicen para adaptarse a la nueva entrada de interacción, y en el que el generador de flujos de datos está configurado para incluir los datos de control de interacción actualizados en el flujo de datos de salida. De esa manera,
se puede enviar un flujo de datos con información en tiempo real. Dicho de otro modo, se puede actualizar y procesar la entrada de interacción referente a cualquier valor de objeto de audio específico de manera expeditiva, preferentemente en tiempo real.
[0027] La interfaz de receptor puede estar configurada para recibir un flujo principal de datos de audio que comprende los datos de audio codificados y metadatos relacionados con los datos de audio codificados, y para recibir asimismo datos de audio opcionales que comprenden un objeto de audio opcional, donde los metadatos relacionados con dicho objeto de audio opcional están contenidos en dicho flujo de datos de audio principal. Con esta configuración, el procesador de datos de audio puede fusionar los datos de audio codificados del objeto de audio opcional seleccionado con el flujo principal de datos de audio para dar lugar a un flujo de datos de audio completo de salida generado por el generador de flujos de datos. De esa manera, posteriormente o a petición también se pueden presentar a un usuario objetos de audio opcionales.
[0028] El analizador de metadatos puede estar configurado para determinar la posibilidad de manipulación de audio correspondiente a un objeto de audio que falta que no está incluido en los datos de audio codificados, en el que la interfaz de interacción está configurada para recibir una entrada de interacción correspondiente al objeto de audio que falta, y en el que la interfaz de receptor está configurada para solicitar datos de audio correspondientes al objeto de audio que falta a un proveedor de datos de audio o para recibir los datos de audio correspondientes al objeto de audio que falta de un subflujo diferente contenido en un flujo de transmisión o una conexión por protocolo de Internet. De esa manera, un dispositivo o un usuario puede manipular de antemano un objeto de audio adicional que opcionalmente está disponible, es decir cuando aún falta en realidad. A continuación se puede solicitar, entonces, el objeto de audio adicional, a través de Internet u otro flujo de transmisión.
[0029] El generador de flujos de datos puede estar configurado para asignar, en el flujo de datos de salida, otro tipo de paquetes a los datos de control de la interacción, donde el tipo de paquetes adicional son diferentes de los tipos de paquetes correspondientes a los datos de audio codificados y los metadatos, o en el que el generador de flujos de datos está configurado para añadir, incorporándolos al flujo de datos de salida, datos de relleno de un tipo de paquetes de datos de relleno, donde la cantidad de datos de relleno se determina sobre la base de la demanda de tasa de datos determinada por una interfaz de salida del procesador de datos de audio. De esa manera, solo es necesario asignar un tipo adicional de paquetes para lograr el transporte de los metadatos o datos de control de la interacción manipulados, respectivamente. Además, puede ser necesario que el procesador de datos de audio añada datos de relleno adicionales a un flujo de datos de transmisión subsiguiente para cumplir con el requisito de tasa de datos más elevada correspondiente a ese vínculo. Estos datos de relleno pueden no contener información alguna y lo más probable es que sean ignorados por el decodificador.
[0030] El procesador de datos de audio puede ser implementado en forma de dispositivo separado, en el que la interfaz de receptor puede conformar una entrada al dispositivo separado a través de una conexión por cable o inalámbrica, en el que el procesador de datos de audio puede comprender además una interfaz de salida conectada al generador de flujos de datos, estando la interfaz de salida configurada para emitir el flujo de datos de salida, en el que la interfaz de salida ejecuta una salida del dispositivo y comprende una interfaz inalámbrica o un conector de cable. De esa manera, se puede producir una conectividad sencilla, por ejemplo dentro de una red.
[0031] La presente invención puede incorporarse también a un procedimiento para procesar datos de audio, comprendiendo el procedimiento: recibir datos de audio codificados y metadatos relacionados con los datos de audio codificados; analizar los metadatos para determinar una posibilidad de manipulación de datos de audio; recibir una entrada de interacción y generar, a partir de la entrada de interacción, datos de control de la interacción relacionados con la posibilidad de manipulación de datos de audio; y obtener los datos de control de la interacción y los datos de audio codificados y los metadatos y generar un flujo de datos de salida, donde el flujo de datos de salida comprenden los datos de audio codificados, al menos una porción de los metadatos y los datos de control de la interacción.
[0032] La presente invención se puede realizar además mediante un programa informático para llevar a cabo, cuando se ejecuta en un ordenador o un procesador, el procedimiento de procesamiento de datos de audio antes mencionado.
[0033] La presente invención se puede realizar además por medio de las siguientes formas de realización:
La posibilidad de manipulación de datos de audio puede ser seleccionada del grupo que comprende al menos una de: la selección de un objeto, una selección entre varios idiomas, una selección de objetos de audio adicionales, una manipulación de objetos, un cambio de volumen de uno o más objetos, un cambio de posición de los objetos, como por ejemplo mover un comentario adicional del altavoz central a un altavoz derecho o a una posición arbitraria entre ambos, una selección de opciones preestablecidas en lugar de la selección y manipulación de cada objeto por separado, donde se selecciona una opción preestablecida de los metadatos, donde una opción preestablecida es una preselección de objetos recomendados por un creador de contenidos para una aplicación específica o una situación de uso específica, donde una opción preestablecida contiene una combinación de objetos con, por ejemplo, diferentes niveles de volumen, posiciones y datos de compresión de volumen/intervalo dinámico en comparación con una presentación por defecto.
[0034] El generador de flujos de datos puede estar configurado para generar los datos de control de la interacción en forma de información independiente o como información dependiente, donde la información dependiente depende de los metadatos y da lugar, si se aplica a los datos de audio decodificados junto con los metadatos, a una manipulación de datos definida por la entrada de interacción.
[0035] Los datos de audio codificados pueden comprender objetos de audio opcionales y los metadatos pueden comprender metadatos correspondientes a los objetos de audio opcionales, en los que la interfaz de receptor puede estar configurada para recibir además un flujo principal de datos de audio que consta de datos de audio principales, en los que el generador de flujos de datos puede estar configurado para generar el flujo de datos de salida de tal manera que el flujo de datos de salida comprenda a su vez los datos de audio principales.
[0036] El generador de flujos de datos puede estar configurado para añadir datos de protección contra errores al flujo de datos de salida y para asignar otro tipo de paquetes a los datos de protección contra errores, donde el generador de flujos de datos está configurado para derivar los datos de protección contra errores de los datos de audio codificados, los metadatos o los datos de control de interacción.
[0037] El generador de flujos de datos puede estar configurado para generar el flujo de datos de salida en forma de flujo de datos para el flujo continuo o en forma de archivo basado en contenedores en un formato de archivo tal como el formato de archivos ISO MPEG-4.
[0038] También se sugiere que el procesador de datos de audio no tenga la funcionalidad de decodificar los datos de audio codificados.
[0039] El procesador de datos de audio puede ser implementado en un receptor digital externo, un aparato de televisión o un grabador-receptor de audio/vídeo.
[0040] El procesador de datos de audio puede comprender además una interfaz de salida para transmitir el flujo de datos de salida a otro dispositivo a través de una conexión HDMI.
[0041] Con respecto a las características antes citadas, el procesador de datos de audio según la invención es capaz de proporcionar una fácil interacción con un dispositivo o un usuario sumado a una configuración de dispositivo sencilla, preferentemente empleando instalaciones existentes.
[0042] Además, el procesador de datos de audio según la invención otorga una solución al problema antes citado incluyendo una interacción con dispositivos o interacción con el usuario como datos de interacción adicionales dentro del flujo de bits de audio. Mediante la implementación de las características anteriormente descritas, las implementaciones del decodificador pueden requerir solo una interfaz que tome tanto los datos de representación como los datos de control de interacción. Puede no ser necesario que las interconexiones ya existentes implementen nuevos canales para la información de control, sino que el esfuerzo de implementación se concentre en el códec en sí. En configuraciones complejas, también se garantiza que la información de control de interacción esté estrechamente vinculada a la esencia codificada y, por lo tanto, no se pueda perder al alimentarla a través de varias etapas de procesamiento.
[0043] En los dibujos se muestran ejemplos de las formas de realización según la presente invención, que se explican a continuación, en los que:
La fig. 1 muestra un procesador de datos de audio según la presente invención,
La fig. 2 muestra un procedimiento para procesar datos de audio según la invención,
La fig. 3 muestra un ejemplo de datos de audio codificados y metadatos relacionados,
La fig. 4 muestra un ejemplo de procesamiento de flujos de entrada y salida,
La fig. 5 muestra otro ejemplo de procesamiento de flujos de entrada y salida,
La fig. 6 muestra un procesador de datos de audio que procesa datos de audio opcionales,
La fig. 7 muestra un procesador de datos de audio que ha sido implementado en forma de dispositivo separado,
La fig. 8 muestra un ejemplo de caso de uso con un primer dispositivo y un segundo dispositivo y
La fig. 9 muestra un ejemplo de configuración con un receptor digital externo y un Receptor de Audio-Vídeo.
[0044] En la totalidad de este documento, y en particular en la siguiente descripción, se utiliza el término “interacción” en el sentido de una interacción realizada por un usuario o una interacción realizada por un dispositivo, así como una interacción en general, es decir una interacción en el sentido habitual. Dicho de otro modo, “interacción” se puede referir a una “interacción del usuario” o a una “interacción del dispositivo”, o a una interacción en general. En ciertas partes de la descripción, los términos “usuario” e “interacción” se utilizan como sinónimos. Por ejemplo, la expresión una interfaz del usuario se puede utilizar de manera equivalente en el sentido de una interfaz de interacción y viceversa.
[0045] Además, un “usuario” puede ser un usuario humano o un usuario máquina, como por ejemplo un dispositivo (hardware) o un dispositivo implementado por software.
[0046] Además, la interfaz del usuario puede estar presente en una configuración preestablecida específica para el dispositivo que, de forma exclusiva o además de la entrada del usuario, puede controlar la manipulación de datos.
[0047] La figura 1 muestra un procesador de datos de audio 1 según la presente invención. El procesador de datos de audio 1 comprende una interfaz de receptor 2 para recibir un flujo de entrada codificado 15 que comprende datos de audio codificados 3 y metadatos 4. Los metadatos 4 están asociados a los datos de audio codificados 3, cuya relación se indica por medio de la flecha 110. Por ejemplo, los datos de audio codificados 3 pueden contener objetos de audio mientras que los metadatos 4 pueden contener información adicional sobre las posibilidades de manipulación de dichos objetos de audio.
[0048] El procesador de datos de audio 1 comprende además un analizador de metadatos 5 para analizar los metadatos 4 a fin de determinar una posibilidad de manipulación de datos de audio. Por ejemplo, un nivel de volumen ajustable, una posición espacial ajustable o un idioma para seleccionar puede representar una posibilidad de manipulación de datos de audio de un objeto de audio.
[0049] Además el procesador de datos de audio 1 comprende una interfaz de interacción 6 para recibir una entrada de interacción 7. La interfaz de interacción 6 está configurada a su vez para generar datos de control de la interacción 8 sobre la base de la entrada de interacción 7. Dichos datos de control de la interacción 8 están asociados a la posibilidad de manipulación de datos de audio antes citada. Por ejemplo, un usuario puede interactuar con el dispositivo ajustando el nivel de volumen o la posición espacial de un objeto de audio, o seleccionando un idioma por medio de la interfaz de interacción 6. En este caso, la interfaz de interacción 6 es una interfaz del usuario 6 que puede generar datos de control por el usuario 8 correspondientes, es decir, relacionados con la elección del usuario.
[0050] Además o por otro lado, la interfaz de interacción 6 puede ser una interfaz de interacción (específica) de un dispositivo 6. En este caso, la interfaz de interacción del dispositivo 6 está configurada para generar datos de control de interacción del dispositivo 8 sobre la base de la entrada de interacción del dispositivo 7. Por ejemplo, podría haber un dispositivo tal como un auricular o similar conectado a la interfaz de interacción 6. La conexión entre el auricular y la interfaz de interacción 6 puede ser detectada por el procesador de audio y, por consiguiente, se puede
considerar como entrada de interacción 7. De esa manera, al conectarse el auricular, la interfaz de interacción 6 emite datos de control de interacción específicos para auriculares 8, como por ejemplo la manipulación de objetos de audio, por ejemplo, una reducción automática del volumen, un idioma preseleccionado o un ajuste de la configuración de hardware.
[0051] Dicho de otro modo, en lugar de una interacción del usuario manual, la interfaz de interacción 6 selecciona automáticamente los objetos o los ajustes sobre la base de la detección de ciertos dispositivos. La interfaz de interacción 6 genera datos de control de interacción específicos del dispositivo 8.
[0052] El procesador de datos de audio 1 comprende además un generador de flujos de datos 9. El generador de flujos de datos 9 obtiene los datos de control de la interacción 8, los datos de audio codificados 3 y los metadatos 4. El generador de flujos de datos 9 está configurado para generar un flujo de datos de salida 10 que comprende los datos de control de la interacción 8, los datos de audio codificados 3 y los metadatos 4 antes citados.
[0053] La figura 2 muestra un procedimiento correspondiente para procesar datos de audio según la presente invención.
[0054] En la etapa 201 se reciben datos de audio codificados 3 y metadatos relacionados 4.
[0055] En la etapa 202 se analizan los metadatos 4 para determinar una posibilidad de manipulación de datos de audio.
[0056] En la etapa 203 se recibe una entrada de interacción, en la que se generan datos de control de la interacción relacionados con la posibilidad de manipulación de datos de audio a partir de dicha entrada de interacción en la etapa 204.
[0057] En la etapa 205 se obtienen los datos de control de la interacción y los datos de audio codificados y los metadatos y se genera un flujo de datos de salida, donde dicho flujo de datos de salida comprende los datos de audio codificados, al menos una porción de los metadatos y los datos de control de la interacción.
[0058] Con referencia a la figura 3, los datos de audio codificados 3 comprenden objetos de audio separados codificados 11, 12. Además, al menos una porción 13, 14 de los metadatos 4 está asociada (según lo indican las flechas 110, 120) a un correspondiente objeto de audio 11, 12. Por ejemplo, la porción 'MD1' 13 de los metadatos 4 está asociada al correspondiente objeto de audio codificado 'AO1' 11, mientras que la porción 'MD2' 14 de los metadatos 4 está asociada a un correspondiente objeto de audio codificado 'AO2' 12.
[0059] El analizador de metadatos 5 está configurado para analizar la porción correspondiente 13, 14 a los objetos de audio codificados 11, 12 a fin de determinar la posibilidad de manipulación de objetos de al menos uno de dichos objetos de audio 11, 12. Dicho de otro modo, el analizador de metadatos 5 analiza los metadatos 13, 14 correspondientes a los respectivos objetos de audio 11, 12 para determinar la posibilidad de manipulación de objetos de audio por cada objeto de audio 11, 12. Por ejemplo, el analizador de metadatos 5 determina que el objeto de audio 'AO1' 11 puede comprender un nivel de volumen ajustable. El analizador de metadatos 5 puede presentar esta capacidad de ajuste del nivel de volumen (posibilidad de manipulación de objetos de audio) a un usuario a través de la interfaz del usuario 6.
[0060] La interfaz del usuario 6 está configurada para generar, con respecto al menos a un objeto de audio 11, 12, los datos de control del usuario 8 a partir de la entrada del usuario 7 relacionada con dicho al menos un objeto de audio codificado 11, 12. Por ejemplo, el usuario puede desear ajustar el nivel de volumen del objeto de audio 'AO1' 11 y por ello produce la entrada respectiva 7 a través de la interfaz del usuario 6. La interfaz del usuario 6 genera datos de control por el usuario respectivos 8 que contienen la información de la que el usuario desea ajustar el nivel de volumen del objeto de audio 'AO1' 11 y en qué medida desea hacerlo.
[0061] En consecuencia, la interfaz del usuario 6 está configurada para presentar a un usuario la posibilidad de manipulación de objetos de audio de un objeto de audio 11, 12 derivada de los metadatos 4 por el analizador de metadatos 5. La interfaz del usuario 6 está configurada a su vez para recibir una entrada de usuario 7 del usuario con respecto a la manipulación de datos específica (por ejemplo, un nivel de volumen específico o un idioma específico)
de la posibilidad de manipulación de datos (por ejemplo, un intervalo de ajuste del nivel de volumen o una serie de idiomas disponibles).
[0062] Con referencia a la figura 1 y a la figura 9, el generador de flujos de datos 9 está configurado para procesar un flujo de datos 15 que comprende los datos de audio codificados 3 y los metadatos 4 recibidos por la interfaz de receptor 2 sin decodificar los datos de audio codificados 3. Por ejemplo, suponiendo que un procesador de datos de audio 1 según la invención está implementado en un receptor digital externo 19, 26, éste puede enviar un flujo de datos de salida 10, 32 a un receptor de Audio-Vídeo externo 28, 33 que comprende un decodificador. En este caso, el flujo de datos de salida 10, 32 aún esta codificado, ya que la decodificación no es ejecutada por el receptor digital externo 19, 26 sino por el receptor de Audio-Vídeo 28, 33.
[0063] Por otro lado, el generador de flujos de datos 9 está configurado para copiar los datos de audio codificados 3 y los metadatos 4 sin cambios en el flujo de datos de salida 10.
[0064] En todo caso, el generador de flujos de datos 9 está configurado para añadir una porción adicional de datos que contiene los datos de control de la interacción 8 a los datos de audio codificados 3 y/o a los metadatos 4 en el flujo de datos de salida 10, como se puede ver en la figura 4.
[0065] Con referencia a la figura 5, el generador de flujos de datos 9 está configurado a su vez para fusionar dos flujos de entrada 15a, 15b para formar un flujo de salida común 10, en el que se añade una porción adicional de datos que contiene los datos de control de la interacción 8 a los datos de audio codificados 3 y/o a los metadatos 4 en el flujo de datos de salida 10.
[0066] De preferencia, el generador de flujos de datos 9 está configurado para generar, en el flujo de datos de salida 10, los datos de control de la interacción 8 en el mismo formato que los metadatos 4. De esa manera, se pueden combinar fácilmente los datos de control de la interacción 8 con los metadatos disponibles 4.
[0067] Si, como se ha mencionado anteriormente, el generador de flujos de datos 9 copia los metadatos 4, los metadatos originales 4 pueden permanecer en el flujo de salida 10 además de todo metadato manipulado que contiene datos de control de interacción 8 adicionales correspondientes a respectivos objetos de audio 11, 12. Tanto los metadatos originales como los manipulados pueden ser enviados a un decodificador 28, 33 para dar lugar a que el decodificador 28, 33 identifique las diferencias como resultado de la interacción (usuario) y obtenga toda la información acerca de los valores por defecto según la intención del creador de contenidos, o calcule el resultado de la interacción (usuario) de los metadatos originales 4 y los datos de control de interacción 8.
[0068] También con referencia a la figura 1, el generador de flujos de datos 9 está configurado para generar de manera dinámica el flujo de datos de salida 10. Cada vez que un usuario o un dispositivo presenta una nueva entrada de interacción 7 a la interfaz de interacción 6, los datos de control de la interacción 8 se actualizan de manera acorde para coincidir con dicha nueva entrada de interacción 7. El generador de flujos de datos 9 incluye estos datos de control de la interacción actualizados 8 en el flujo de datos de salida 10.
[0069] La figura 6 ilustra un procesador de datos de audio 1 según la invención, donde se procesa información de audio opcional. Como se puede ver, el flujo de datos de entrada 15 es un flujo principal de datos de audio que comprende datos de audio codificados 3 y metadatos relacionados 4. Además, la interfaz de receptor 2 recibe además datos de audio opcionales 16 que comprenden un objeto de audio opcional 17.
[0070] Sin embargo, los metadatos relacionados con dicho objeto de audio opcional adicional 'AOx' 17, es decir la información con respecto a las posibilidades de manipulación de dicho objeto de audio opcional 'AOx' 17, están contenidos en el flujo principal de datos de audio 15. De esa manera, el objeto de audio 17 es conocido, aunque no está presente y, por lo tanto, es opcional.
[0071] Por ejemplo, el usuario escucha una orquesta que contiene batería, cuerdas y un piano. Opcionalmente se pueden añadir instrumentos de viento. Si el oyente desea añadir ahora un instrumento de viento, puede hacerlo añadiendo un instrumento de viento opcional, por ejemplo una trompeta, como objeto de audio opcional 17. Como las posibilidades de manipulación correspondientes a dicha trompeta ya están contenidas dentro de los metadatos 4 del flujo principal de datos de audio 15, el usuario tiene la posibilidad de manipular la trompeta ahora añadida según sus
deseos.
[0072] Además con referencia a la figura 6, dicho objeto de audio adicional 'AOx' 17 puede ser un objeto de audio que falta que no está incluido en los datos de audio codificados 3 y/o en los metadatos 4. De esa manera, no se conoce el objeto de audio 17 y por lo tanto ha sido omitido.
[0073] En este caso, la interfaz de receptor 2 está configurada para solicitar datos de audio 16 pertenecientes a dicho objeto de audio omitido 17 de un proveedor de datos de audio 35. La interfaz de receptor 2 está configurada también para recibir dichos datos de audio 16 de un subflujo diferente contenido en un flujo de transmisión 36. La interfaz de receptor 2 está configurada a su vez para obtener dichos datos de audio 16 de Internet 37 por medio de una conexión por protocolo de Internet.
[0074] Por ejemplo, un usuario que está viendo una película puede optar por un idioma específico de la serie de idiomas disponible que contiene, por ejemplo, inglés alemán y francés. Se conoce un cuarto idioma, pero no está presente y, por lo tanto, falta. Sin embargo, posteriormente se puede incluir un cuarto idioma a través de Internet, por ejemplo.
[0075] Con referencia a la figura 4 y a la figura 5 de nuevo, el flujo de datos de entrada 15 y el flujo de datos de salida 10 pueden presentarse en general en una estructura de paquetes. Por ejemplo, el transporte de audio MPEG-H a través de interfaces en serie está definido por la sintaxis de transporte MHAS (véase la sección 13 de N14459 (Texto de Borrador del Comité ISO/IEC 23008-3) [1]). Esta sintaxis está definida en forma de paquetes.
[0076] Por lo tanto, para lograr el transporte de los metadatos 4 o los datos de control de la interacción 8 manipulados, solo es necesario asignar un tipo de paquete adicional para la nueva información de control.
[0077] Además, un primer dispositivo 'dispositivo #1' 19 que comprende el procesador de datos de audio 1 podría querer añadir datos de relleno 18 adicionales al flujo de transmisión 10 subsiguiente para satisfacer el requisito de tasa de datos dado, habitualmente mucho más elevada para ese vínculo. Estos datos de relleno 18 pueden no contener información alguna y se espera que sean ignorados por un segundo dispositivo que recibe el flujo de salida manipulado 10. Para lograr esto, se puede asignar otro tipo de paquete de datos.
[0078] Además, como la capa de transporte de los flujos entrantes al 'dispositivo #1' 19 puede tener su propia protección contra errores, aunque el vínculo saliente no ofrece dicha capa de seguridad, el dispositivo #1 puede añadir paquetes de datos que contienen datos de verificación de paridad. Estos pueden ser añadidos a los flujos de MHAS en forma de tipo de paquetes adicional.
[0079] Además, como la capa de transporte puede transportar datos adicionales como información lateral, estos paquetes de datos también pueden estar contenidos en el flujo de audio MHAS como tipo de paquetes adicional. Un ejemplo de estos datos son los descriptores contenidos en el flujo de Transporte y Programa de MPEG-2.
[0080] Otro ejemplo de almacenamiento de datos de audio codificados es el formato de archivos ISO mp4. Como ocurre con el formato de flujos, también es posible en el caso de un formato de archivos leer, manipular y reescribir los metadatos en el archivo o almacenar los datos de control del usuario además de los metadatos originales sin cambiar los datos de señal de audio codificada.
Referencias
[0081]
[1] ISO N14459 (ISO/IEC 23008-3 Committee Draft Text)
[2] IEC 60958-3: “Digital audio interface - Part 3: Consumer applications”
[3] IEC 61937-11, “Digital audio - Interface for non-linear PCM encoded audio bitstreams applying IEC 60958 - Part 11: MPEG-4 AAC and its extensions in LATM/LOAS"
[0082] Con referencia, ahora, a la figura 7, el procesador de datos de audio 1 se implementa en forma de dispositivo separado 'dispositivo #1' 19. En dicho dispositivo separado 19, la interfaz de receptor 2 forma una entrada 20 al dispositivo separado 19 a través de una conexión por cable 21 o una conexión inalámbrica 22.
[0083] El procesador de datos de audio 1 comprende además una interfaz de salida 23 que está conectada al generador de flujos de datos 9 y produce una salida para el dispositivo 19. Además, la interfaz de salida 23 está configurada para emitir el flujo de datos de salida 10 a través de una interfaz inalámbrica 24 o un conector por cable 25.
[0084] Se pueden describir otras maneras de poner en práctica la invención, a título de ejemplo, en una situación en que existen dos dispositivos separados. Un primer dispositivo 'el dispositivo #1' comprende el procesador de datos de audio según la invención. Un segundo dispositivo 'el dispositivo #2' recibe los datos de audio procesados, aunque aún codificados, del 'dispositivo #1 ’ para decodificar dichos datos de audio.
[0085] Como se puede apreciar en las figuras 8 y 9, el primer dispositivo 19, 26 recibe un flujo de entrada 15 que comprende datos de audio codificados 3 y metadatos relacionados 4. El primer dispositivo 19, 26 lee la información de metadatos 4 del flujo entrante de datos de audio 15 o del flujo de transporte y deja intactos los datos de señal de audio codificados 3. El primer dispositivo 19, 26 analiza los metadatos 4 y presenta información acerca de los objetos a la aplicación, por ejemplo, en la interfaz de interacción 6, incluyendo las restricciones a la manipulación de objetos que forman parte de los metadatos 4. De la interfaz de aplicación o interacción 6 un usuario puede seleccionar y manipular los objetos para adaptar la presentación de audio a sus preferencias personales:
• Selección de objetos: por ejemplo, seleccionar uno de varios idiomas, seleccionar objetos de audio adicionales opcionales, etc.
• Manipulación de objetos: por ejemplo, cambio de volumen de los objetos, cambio de la posición de los objetos, como por ejemplo desplazamiento de un comentario adicional desde el altavoz central al altavoz derecho o una posición arbitraria entre estos,
• Selección de opciones preestablecidas: en lugar de seleccionar y manipular cada objeto por separado, el usuario también puede seleccionar una opción preestablecida de los metadatos. Una opción preestablecida es una preselección de objetos recomendada por el creador de contenidos para aplicaciones o configuraciones de uso específicas. Una opción preestablecida puede contener una combinación de objetos con, por ejemplo, datos de niveles de volumen, posiciones y volumen/intervalo dinámico diferentes en comparación con la presentación por defecto.
[0086] En la etapa siguiente, el primer dispositivo 19, 26 almacena la información acerca de la interactividad del usuario (datos de control de la interacción 8) en los flujos de datos de audio codificados 10, 32. El primer dispositivo 19, 26 puede escribir los valores modificados o la cantidad de manipulación, por ejemplo, los valores de desplazamiento y el factor de multiplicación de nuevo en la parte de los metadatos 4 o una parte especializada de los flujos de datos de audio codificados de manera que la salida del primer dispositivo 19, 26 sea, una vez más, un flujo de audio codificado válido 10, 32.
[0087] El primer dispositivo 19, 26 puede usar un identificador, etiqueta o tipo de paquetes diferente para encapsular los datos de control del usuario 8, respectivamente. Los metadatos originales 4 pueden permanecer en el flujo de salida 10, 32. Se utiliza un identificador, etiqueta o tipo de paquetes diferente para los datos de control de la interacción 8. Los metadatos originales 4 permanecen en el flujo 10, 32 para permitir que el segundo dispositivo 28, 33 identifique las diferencias como resultado de la interacción del usuario o del dispositivo y para reunir toda la información acerca de los valores por defecto pretendidos por el creador de contenidos, o para calcular el resultado de la interacción del usuario o del dispositivo a partir de los metadatos originales 4 y los datos de control por el usuario 8.
[0088] Los objetos de audio que no son seleccionados por el usuario pueden ser marcados como deshabilitados en los metadatos 4 o los datos de control de interacción 8, o de lo contrario, la parte de audio codificada de estos objetos puede ser eliminada del flujo de audio 10.
[0089] El procedimiento de interactividad del usuario o el dispositivo puede ser dinámico, es decir que cada vez que el usuario o el dispositivo cambia los ajustes para la selección y manipulación, el primer dispositivo 19, 26 reescribe esos valores cambiados de nuevo en la parte de metadatos 4 de los flujos de datos de audio codificados 10.
[0090] También es posible que el segundo dispositivo 28, 33 manipule a su vez los metadatos 4, ya sea debido a un procedimiento automático (por ejemplo, para adaptar la escena de audio a la situación de escucha) o una interfaz
de interacción adicional. En este caso, el segundo dispositivo 28, 33 puede reescribir los valores manipulados en los flujos de datos de audio codificados 10, por ejemplo, sobrescribiendo los valores escritos por el primer dispositivo 19, 26.
[0091] Con referencia, de nuevo, a la figura 6, se describe otra manera de llevar a la práctica la invención a modo de ejemplo en un denominado Caso de uso hi brido.
[0092] Los datos de audio codificados 3 de los objetos de audio opcionales 17 seleccionados pueden no formar parte del flujo principal de datos de audio 15, sino que pueden ser obtenidos utilizando otros canales de transporte. Por ejemplo, el flujo principal de datos de audio 15 se transfiere por un canal de transmisión, mientras que los datos de audio codificados 3 de los objetos de audio opcionales 17 son transferidos a petición a través de una conexión IP 37.
[0093] Los metadatos completos 4 correspondientes a todos los objetos están incluidos en el flujo principal de datos de audio 15 de tal manera que toda la información con respecto a la interacción y la selección de objetos esté disponible en el primer dispositivo 19. Por lo tanto, el procedimiento de interacción y almacenamiento de los datos de control de la interacción 8 al flujo 10 es idéntico al caso anteriormente descrito.
[0094] Si un usuario selecciona un objeto 17 y los datos de audio codificados 3 no son parte del flujo principal de datos de audio 15, el primer dispositivo 19 puede recibir los datos de audio codificados 3 de este objeto 17 a través de una conexión de datos diferente de la utilizada para el flujo principal de datos de audio 15, por ejemplo, un subflujo diferente 36 dentro del flujo de transmisión o una conexión IP 37.
[0095] En la etapa siguiente, el primer dispositivo 19 fusiona los datos de audio codificados 3 del objeto seleccionado 17 en el flujo de audio principal 15, produciendo así un flujo de datos de audio completo 10 para ser transferido, a su vez, al segundo dispositivo 33.
[0096] Además, se propone una posibilidad de transportar los datos de interacción 8 incrustados en un flujo de bits MPEG-H 10 apropiado.
[0097] Como se puede ver en la figura 9, los sistemas de audio avanzados con frecuencia no integran toda la funcionalidad ventajosa a un dispositivo único, sino que implementan diferentes componentes funcionales diferentes en dispositivos especializados tales como receptores digitales externos 26, el aparato de televisión 27 o un receptor AVR 28, por ejemplo. Estos dispositivos se comunican a través de interfaces normalizadas tales como HDMI.
[0098] Un caso de uso de reproducción de contenido de MPEG-H con múltiples dispositivos participantes es el caso en que un programa de televisión es recibido por un primer dispositivo 19 tal como un receptor digital externo (STB) 26, que selecciona el canal de transmisión apropiado y extrae los flujos elementales pertinentes que contienen la esencia codificada buscada. En este caso también se implementa la interacción, es decir el control por el usuario de la selección de elementos de audio e interacción/manipulación.
[0099] El decodificador MPEG-H 31 puede no estar ubicado en el STB 26 sino, por el contrario, en el receptor de audio y vídeo (AVR) 28. Este caso de uso está ilustrado en la figura 9.
[0100] En este caso, es necesario alimentar los flujos extraídos al AVR 28 para la reproducción; la transmisión entre estos dos dispositivos 26, 28 se puede realizar ya sea transmitiendo una representación decodificada/ comprimida (PCM con audio) o, especialmente si se aplican restricciones de ancho de banda a la línea de interconexión utilizada, en una representación codificada.
[0101] El AVR 28 solo presenta entonces una interfaz de configuración a la que habitualmente el usuario accede solo una vez al configurar el sistema y actúa en “modo esclavo” en los períodos de operación normal.
[0102] Como la interacción tiene lugar en el STB (el dispositivo #1) 26 y la decodificación y renderización son implementadas en el AVR (el dispositivo #2) 28, es inevitable poder enviar al usuario información de interactividad del STB 26 al AVR 28.
[0103] Para lograr el caso de uso descrito y para superar las limitaciones descritas, se propone incluir datos de
información de interacción 8 en los flujos de datos de audio codificados 10, como se puede ver en la figura 8.
[0104] El primer dispositivo 19 lee la información de metadatos 4 de la mpegh3daConfig() del flujo entrante de datos de audio 15 o a través de una señalización tal como los Descriptores de MPEG-2 TS. A continuación analiza los metadatos de elementos de audio 4 y presenta información acerca de los objetos en la interfaz de interacción 6, incluyendo las restricciones a la manipulación de objetos que forman parte de los metadatos 4. De la interfaz de interacción 6 el usuario puede seleccionar y manipular el contenido de audio para adaptar la presentación de audio a sus preferencias personales. Los “datos de interacción del usuario” describen la selección y manipulación de los objetos.
[0105] En la etapa siguiente, el primer dispositivo 19 escribe estos datos en el flujo de datos de audio MHAS 32 utilizando un nuevo MHASPacketType. La salida del primer dispositivo 19 es, de nuevo, un flujo de audio codificado válido 10, 32. Los metadatos originales 4 presentes en mpegh3daConfig() y en la datos de señal de audio codificados 3 no se modifican.
[0106] La presencia de un paquete de este MHASPacketType habilita al segundo dispositivo 28, 33 para identificar que se ha producido una interacción (por el usuario). Los metadatos originales 4 se mantienen en el flujo 10, 32 para permitir que el segundo dispositivo 10, 33 obtenga toda la información acerca de los valores por defecto, según la intención del creador de contenidos.
[0107] Los elementos de audio que no son seleccionados por el usuario pueden ser marcados como deshabilitados en los metadatos 4, o de lo contrario se puede eliminar del flujo de audio 10 la parte de audio codificada 3 de los objetos.
[0108] El procedimiento de interacción, es decir la interactividad del dispositivo o del usuario. puede ser dinámico, es decir que cada vez que un usuario o un dispositivo cambia los ajustes para la selección y manipulación, el primer dispositivo 19, 26 escribe esos valores modificados en la parte específica de los flujos de datos de audio codificados 10.
Extensión MHAS
[0109] El transporte de Audio MPEG-H a través de interfaces en serie está definido en la sintaxis de transporte de MHAS (véase la sección 13 de N14459 (ISO/IEC 23008-3 Committee Draft Text) [1]). Esta sintaxis se define en forma de paquetes. Por lo tanto, para efectuar el transporte de los datos de interacción del usuario, solo se necesita asignar un tipo de paquetes adicional para la nueva información de control:
Tabla 1 — Sintaxis de MHASPacketPa load
(continuación)
}
Tabla 2 — Valor de MHASPacketT e
PACTYP_USERINTERACTION
[0110] La MHASPacketType PACTYP_USERINTERACTION se puede utilizar para alimentar los datos de interacción de los elementos al decodificador.
[0111] Para este tipo de paquetes, MHASPacketLabel tiene el mismo valor que para el paquete de MHASPacketType PACTYP_MPEGH3DACFG, al cual hacen referencia los datos de interacción (usuario) 8.
Sintaxis
[0112] El elemento de sintaxis mpegh3daElementInteracción() (véase [2]) de la interfaz para interacción del usuario es reutilizado para llevar los datos de interacción (usuario) 8 contenidos en el flujo de bits 10.
Referencias
[0113]
[1] ISO/IEC JTC1/SC29/WG11 N14459, "Text of ISO/IEC 23008-3/CD, 3D audio"
[2] FhG, “Normative Interface for user interaction”, Input to the Meeting of AHG on 3D Audio, DRC and Audio Maintenance, junio 2-3, 2014, París, Francia
[0114] Además, se propone una posible sintaxis para una interfaz normativa para la interactividad con el usuario.
[0115] Se propone extraer la interfaz para el control de interacción de la interfaz para el control de la renderización. A continuación, el elemento de sintaxis mpegh3daAudioRendering() define los parámetros de renderización y el elemento de sintaxis recientemente definido mpegh3daElementInteracción() contiene la información que se necesita para la interacción (usuario).
Definición del Elemento de sintaxis mepegh3daElementInteracción()
[0116] El elemento de sintaxis mpegh3daElementInteracción() proporciona una interfaz para cualquier posible interacción de (usuario). Se definen dos modos de interacción.
[0117] El primero es el modo de interacción avanzada, en el cual se puede señalizar la interacción por cada grupo de elementos que está presente en la escena de audio. Este modo habilita al usuario para elegir libremente
(dentro de las restricciones de las definiciones de los grupos de conmutación) qué grupos reproducir y para interactuar con todos ellos (dentro de los intervalos y restricciones dados).
[0118] El segundo modo es un modo de interacción básica, en el que el usuario podría elegir una de las opciones preestablecidas definidas GroupPresets (del elemento de sintaxis mae_AudioSceneInfo(), véase 14.2 de [1]) como opción preestablecida. Seguidamente se define el estado activo-inactivo de los grupos a los que se hace referencia en las condiciones de los GroupPresets elegidos y no pueden ser modificados por el usuario. El usuario solo puede cambiar el estado activo-inactivo de los demás grupos y las posiciones y ganancias de todos los grupos según las concesiones e intervalos definidos.
[0119] Se distinguen cuatro modificaciones de elementos diferentes:
- Interactividad activa/ inactiva: se activa o desactiva un grupo de elementos (Nota editorial: anteriormente llamada “cambio de objeto” [4])
- Interactividad de posiciones: se cambian las posiciones de un a grupo de elementos (azimut, elevación y distancia, nota editorial: anteriormente denominada “cambio de posición” [4])
- Interactividad de ganancia: se cambia el nivel/ganancia de un grupo de elementos (Nota editorial:
anteriormente denominada “cambio de ganancia” [4])
- Interactividad de cable: una salida por cable es una salida arbitraria además de los altavoces conectados. Se enruta el contenido de audio de los elementos de un grupo hacia una salida de cable, por ejemplo un contenido para personas con discapacidad auditiva o una pista de idioma adicional.
[0120] Todas las modificaciones se definen en el nivel de grupos de elementos, puesto que los grupos reúnen elementos relacionados que solo deben ser manipulados de forma conjunta.
[0121] Se introduce una firma para señalizar, por ejemplo, en qué dispositivo ha tenido lugar la interactividad.
T l in xi m h El m n In r i n
[0122] En la tabla 3b se expone otra forma de realización de mpegh3daElementInteraction():
Tabla 3b Sintaxis de mpegh3daElementInteraction()
Sintaxis N. ° de bits Mnemónica mpegh3daElementInteraction()
{
ei_InteractionSignatureDataLength; 8 uimsbf
if (eiJnteractionSignatureDataLength >0) {
ei_InteractionSignatureDataType; 8 uimsbf
for ( c = 0; c < bsInteractionSignatureDataLength 1; c++ ) {
ei InteractionSignatureData[c]; 8 uimsbf
}
}
ElementInteractionData();
hasLocalZoomAreaSize; 1 bslbf
si (hasLocalZoomAreaSize) {
LocalZoomAreaSize();
(continuación)
T l 4 V l r i In r i n i n rD T
ei_InteractionSignatureData Este campo contiene una firma que define quién originó los datos de interacción.
[0123] En la tabla 4b se expone otra forma de realización de ei_InteractionSignatureDataType:
T l 4 V l r i In r i n n rD T
ei_InteractionSignatureData Este campo contiene una firma que define quién ha originado los datos de interacción.
hasLocalZoomAreaSize Indicador que define si hay información acerca del tamaño del área de zoom local. Si este indicador está habilitado, se aplica el Remapeo de Objetos para Zooming (acercamiento-alejamiento).
Tabla 5 Sintaxis de ElementInteractionData
T l in xi i r In r iv
[0124] En la tabla 6b se presenta otra forma de realización de ei_GroupInteractivityStatus():
T l in xi L r In r ivi
(continuación)
si ( ei_onOff [grp] == 1) {
ei_changePosition[grp]; /* cambio de posición */ 1 bslbf
si ( ei_changePosition[grp] ) {
ei_azOffset[grp]; 8 uimsbf ei_elOffset[grp]; 6 uimsbf ei distFact[grp]; 4 uimsbf }
ei_changeGain; /* cambio de ganancia */ 1 bslbf
si ( ei_changeGain ) {
ei_gain; 7 uimsbf
}
}
}
L_
[0125] Los datos de interacción se definen según los campos de Elementos de metadatos de audio (véase 14.2 de [1]). En la definición de elementos de audio de metadatos, se da el intervalo de interactividad en dB, los intervalos de interactividad correspondientes a azimut y elevación se dan en términos de valores de desplazamiento mínimo y máximo (con la misma resolución que aquí: 1,5° en el caso del azimut y 3° en el caso de la elevación) y los intervalos correspondientes a la distancia se dan en términos de factores de multiplicación. Por lo tanto, la interfaz se define de manera similar.
[0126] En el caso de la interacción del usuario, todos los cambios (activo/inactivo, ganancia, posición, CABLE) correspondientes a todos los grupos de elementos están señalizados dentro de un elemento de sintaxis ElementInteraction() en lugar de usar una repetición de un elemento de sintaxis por cada tipo de interacción y cada grupo o elemento.
[0127] La salida de CABLE también se define con respecto a los grupos que se inactivan, puesto que solo entonces es posible enrutar las pistas de idioma alternativos a una salida de CABLE. La posible lógica de grupo de activación violada tiene que ser tratada en el decodificador.
[0128] El tipo de contenidos (canal, objeto, HOA) que se había propuesto anteriormente en [4] es eliminado aquí. Ya es conocido implícitamente por la groupID, puesto que cada grupo de elementos tiene un signalGroupType (Canales, Objetos, SAOC, HOA) que definen el tipo de contenido de las señales y se señaliza en el elemento de sintaxis Signals3d()).
Interacción básica por medio de GroupPresets
[0129] Si se establece el modo de interacción básica, el usuario puede elegir una de las GroupPresets definidas (del elemento de sintaxis mae_AudioSceneInfo() groupCollection, propuesta como tecnología posible en w14464 [7]).
[0130] Las condiciones de la opción preestablecida elegida definen el estado activo-inactivo de los grupos de referencia. El usuario no debe poder modificar el estado activo-inactivo de estos grupos.
[0131] El campo correspondiente ei_onOff del elemento de sintaxis ei_GroupInteractivityStatus [2] tiene que reflejar la condición establecida en la groupPreset elegida para todos los grupos a los que se hace referencia en las condiciones de la groupPreset elegida.
[0132] El estado activo-inactivo de todos los demás grupos puede ser elegido por el usuario.
Conclusión
[0133] Esta contribución propone una definición correspondiente a una interfaz para la interacción con el usuario. Se presenta una definición de interfaz que da lugar a dos modos de interacción diferentes (básica y avanzada). Se propone adoptar la interfaz propuesta al CD.
Referencias
[0134]
[1] ISO/IEC JTC1/SC29/WG11 N14459, "Text of ISO/IEC 23008-3/CD, 3D audio"
[2] FhG, “Rendering Interfaces to MPEG-H y Unification of Loudspeaker Signaling”, Input to the Meeting of AHG on 3D Audio, DRC y Audio Maintenance, junio 2-3, 2014, París, Francia
[3] ISO/IEC JTC1/SC29/WG11 N14463, “Normative Interface for Binaural Data”, abril de 2014, Valencia, España [4] ISO/IEC JTC1/SC29/WG11 M33134, “3D Audio Decoder Interfaces”, abril de 2014, Valencia, España (Aportación de Philips)
[5] ISO/IEC JTC1/SC29/WG11 M31427, “Thoughts on binaural parameterization of MPEG codecs”, octubre de 2013, Ginebra, Suiza (Aportación de Orange)
[6] ISO/IEC JTC1/SC29/WG11 M30249, “BRIR interface format: update and implementation”, julio de 2013, Viena, Austria (Aportación de Philips)
[7] ISO/IEC JTC1/SC29/WG11 N14464 “Candidate Technologies for 3D Audio”
[0135] Además, la sección 13 del texto de ISO/IEC 23008-3 CD [1] define la sintaxis de MHAS que se debe utilizar para encapsular las cargas útiles de Audio 3D de MPEG-H en los flujos (tiempo real). Con este documento se proponen capacidades adicionales para habilitar un uso fiable de MHAS en otros sistemas de transporte aparte del flujo de transporte de MPEG-2.
Filldata (Datos de relleno)
[0136] Ciertos canales de transmisión solo pueden ser operados a una tasa de bits instantánea constante. Para hacerlo, se propone un tipo de paquetes de datos de relleno para poder llenar el flujo de MHAS hasta obtener una tasa de bits determinada.
crc
[0137] La capa de flujo de transporte MPEG-2 [2] se hace cargo de la protección del flujo elemental MHAS encapsulado. De esa manera se puede identificar la pérdida o corrupción de datos en la transmisión.
[0138] Por otra parte, las interfaces en serie comunes (por ejemplo, AES/EBU, S/PDIF, [3], [4], [5]) no ofrecen una protección suficiente contra errores. Se propone un tipo de paquetes CRC opcional para habilitar la detección de errores si se utiliza MHAS en tales interfaces.
Encapsulación de descriptores
[0139] Se utilizan flujos de MHAS para transportar audio codificado a y desde los codificadores/decodificadores de flujos de transporte MPEG-2. Se propone transportar información de descriptores relacionada en tipos de paquetes MHAS adicionales.
__________________________Tabla 7 — Sintaxis de MHASPacketPayload()__________________________ Sintaxis N. ° de bits Mnemónica MHASPacketPayload(MHASPacketType)
{
switch (MHASPacketType) {
case PACTYP_SYNC:
0xA5; /* syncword*/ 8 uimsbf break;
case PACTYP_MPEGH3DACFG:
mpegh3daConfig();
break;
case PACTYP_MPEGH3DAFRAME:
mpegh3daFrame();
break;
case PACTYP_FI LLDATA:
para (i=0; i< MHASPacketLength; i++) {
mhas fill data byte(i); 8 bslbf }
break;
case PACTYP SYNCGAP:
syncSpacingLength = escapedValue(16,24,24); 16,40,64 uimsbf break;
case PACTYP_MARKER:
(continuación)
para (i=0; i< MHASPacketLength; i++) {
marker byte(i); 8
}
break;
case PACTYP_CRC16:
mhasParityl6Data; 16 bslbf break;
case PACTYP_CRC32:
mhasParity32Data; 32 bslbf break;
case PACTYP_DESCRIPTOR:
para (i=0; i< MHASPacketLength; i++) {
mhas descriptor data byte(i); 8 bslbf }
break;
}
ByteAlign();
1
Tabla 8a — Valor de MHASPacketT e
[0140] En la tabla 8b se detalla otra forma de realización de MHASPacketType:
Tabla 8b — Valor de MHASPacketT e
(continuación)
mhasParityl6Data un campo de 16 bits que contiene el valor CRC que produce una salida de cero de los 16 registros en el decodificador con el polinomio:
r íe x 15 x5 1
y el estado inicial del registro de desplazamiento de 0xFFFF.
mhasParity32Data un campo de 32 bits que contiene el valor CRC que produce una salida de cero de los 32 registros en el decodificador con el polinomio:
x32 x2e x23 x22 x 1e x 12 x 11 x 10 x8 x7 x5 x4 x2 x 1
y el estado inicial del registro de desplazamiento de 0xFFFFFFFF.
mhas_fill_data_byte elementos de datos de 8 bits. No se aplican restricciones
Marcador de reproducción inmediata / acceso aleatorio
[0141] Cuando el primer marker_byte de la carga útil del paquete es “0x02”, el siguiente paquete del tipo PACTYP_MPEG3DAFRAME con idéntica etiqueta MHASPacketLabel es codificado siguiendo las reglas establecidas en la sección 5.5.5 “Preroll de audio”.
Marcador de límites de programa
[0142] Cuando el primer marker_byte de la carga útil del paquete es “0x03”, se produce un límite de programa en este punto temporal y todos los paquetes siguientes pertenecen a un nuevo programa.
PSCTYP_CRC16 y PACTYP_CRC32
[0143] Se puede utilizar el MHASPacketType PACTYP_CRC16 y PACTYP_CRC32 para la detección de errores en el paquete anterior MHAS estableciendo MHASPacketLabel en el mismo valor. Seguirá directamente al paquete MHAS al que se refiere su valor CRC. Esto puede ser ventajoso cuando se transporta un flujo MHAS por un canal proclive a errores.
[0144] El procedimiento de detección de errores utiliza uno de un generador de polinomios y estados de registro de desplazamiento asociados según lo definido respecto de mhasParityl6Data o mhasParity32Data respectivamente.
[0145] Los bits incluidos en la verificación de CRC son la MHASPacketPayload() completa para el paquete MHAS asociado seguido por las palabras mhasParityl6Data o mhasParity32Data respectivamente.
[0146] En caso de no haber error alguno, cada una de las salidas del registro de desplazamiento tiene que ser cero. En el codificador CRC el campo de datos mhasParityl6Data / mhasParity32Data es codificado con un valor de tal forma que esto se garantice.
PACTYP_FILLDATA
[0147] El MHASPacketType PACTYP_FILLDATA ofrece la posibilidad de añadir datos de relleno para ajustar la tasa de bits instantánea. Esto puede ser conveniente en ciertas aplicaciones en tiempo real utilizando un canal de transmisión de tasa constante.
[0148] Como los paquetes de este tipo no están asociados a ciertos datos de carga útil, se fija MHASPacketLabel en 0.
[0149] Se espera que el decodificador pase por alto los datos transmitidos en paquetes del tipo PACTYP_FILLDATA. Además, las herramientas intermedias de procesamientos de flujos de MHAS están habilitadas para eliminar dichos paquetes del flujo.
[0150] Está permitido fijar MHASPacketLength en 0. Esto da un tamaño mínimo de paquete de 2 bytes.
PACTYP_DESCRIPTOR
[0151] El PACTYP_DESCRIPTOR se puede utilizar para incorporar descriptores MPEG-2 TS/PS a flujos MHAS. Los datos transportados como mhas_descriptor_data_byte tienen la misma sintaxis y semántica que las definidas con respecto al descriptor() de ISO/IEC 13818-1.
[0152] Para este tipo de paquetes y en el caso de los descriptores transmitidos en el primer bucle de descriptores de TS_program_map_section() (véase ISO/IEC 13818-1), se ajusta MHASPacketLabel a 0.
Para este tipo de paquetes y para los descriptores asignados a un flujo elemental (es decir el segundo bucle de descriptores de la TS_program_map_section()), MHASPacketLabel se ajusta al mismo valor que PACTYPE_CONFIG del flujo elemental asociado.
Referencias
[0153]
[1] ISO/IEC JTC1/SC29/WG11 N14459, "Text of ISO/IEC 23008-3/CD, 3D audio"
[2] ISO/IEC 13818-1:2013, Information technology — Generic Coding of moving pictures and associated audio information: Systems
[3] IEC 60958-3: “Digital audio interface - Part 3: Consumer applications”
[4] IEC 61937-11, “Digital audio - Interface for non-linear PCM encoded audio bitstreams applying IEC 60958 -Part 11: MPEG-4 AAC and its extensions in LATM/LOAS"
[5] SMPTE 2041: Format for Non-PCM Audio y Data in AES-3 - MPEG-4 AAC and HE AAC Compressed Digital Audio in ADTS and LATM/LOAS Wrappers
[0154] Aunque la presente invención se ha descrito en el contexto de diagramas de bloques en los que los bloques representan componentes reales o lógicos, la presente invención también puede ser implementada por un procedimiento implementado por ordenador. En este último caso, los bloques representan etapas correspondientes del procedimiento, donde estas etapas representan las funcionalidades ejecutadas por bloques lógicos o físicos de hardware correspondientes.
[0155] Aunque se han descrito algunos aspectos en el contexto de un aparato, es evidente que estos aspectos también representan una descripción del procedimiento correspondiente, en el cual un bloque o dispositivo corresponde a una etapa del procedimiento o a una característica de una etapa del procedimiento. De manera análoga, los aspectos descritos en el contexto de una etapa del procedimiento también representan una descripción de un bloque o elemento correspondiente o de una característica de un aparato correspondiente. Algunas o todas las etapas del procedimiento pueden ser ejecutadas por (o utilizando) un aparato de hardware, como por ejemplo un microprocesador, un ordenador programable o un circuito electrónico. En algunas formas de realización, una o más de las etapas más importantes del procedimiento pueden ser ejecutadas por ese tipo de aparato.
[0156] La señal de la invención transmitida o codificada puede ser almacenada en un medio de almacenamiento digital o puede ser transmitida por un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión por cable tal como Internet.
[0157] Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención pueden ser implementadas en hardware o en software. La implementación se puede realizar empleando un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un Blue-Ray, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene almacenadas en la misma señales de control legibles electrónicamente, que cooperan (o tienen capacidad para cooperar) con un sistema informático programable de tal manera que se ejecute el procedimiento respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.
[0158] Algunas formas de realización según la invención comprenden un soporte de datos que comprende señales de control legibles electrónicamente, con capacidad para cooperar con un sistema informático programable de tal manera que se ejecute uno de los procedimientos descritos en esta invención.
[0159] En general, las realizaciones de la presente invención pueden ser implementadas en forma de producto programa informático con un código de programa, donde el código de programa cumple la función de ejecutar uno de los procedimientos al ejecutarse el programa informático en un ordenador. El código de programa puede ser almacenado, por ejemplo, en un soporte legible por máquina.
[0160] Otras formas de realización comprenden el programa informático para ejecutar uno de los procedimientos descritos en esta invención, almacenado en un soporte legible por máquina.
[0161] Dicho de otro modo, una forma de realización del procedimiento de la invención consiste, por lo tanto, en un programa informático que consta de un código de programa para realizar uno de los procedimientos descritos en esta invención al ejecutarse el programa informático en un ordenador.
[0162] Otra forma de realización de los procedimientos de la invención consiste, por lo tanto, en un soporte de datos (o medio de almacenamiento digital, o medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para ejecutar uno de los procedimientos descritos en esta invención. El soporte de datos, el medio de almacenamiento digital o el medio grabado son por lo general tangibles y/o no transitorios.
[0163] Otra forma de realización del procedimiento de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representa el programa informático para ejecutar uno de los procedimientos descritos en esta invención. El flujo de datos o la secuencia de señales pueden estar configurados, por ejemplo, para ser transferidos a través de una conexión de comunicación de datos, por ejemplo a través de Internet.
[0164] Otra forma de realización comprende un medio de procesamiento, por ejemplo un ordenador, o un dispositivo lógico programable, configurado o adaptado para ejecutar uno de los procedimientos descritos en esta invención.
[0165] Otra forma de realización comprende un ordenador en el que se ha instalado el programa informático para ejecutar uno de los procedimientos descritos en esta invención.
[0166] Otra forma de realización según la invención comprende un aparato o un sistema configurado para transferir (por ejemplo por vía electrónica u óptica) un programa informático para transferir uno de los procedimientos descritos en esta invención a un receptor. El receptor puede ser, por ejemplo, un ordenador, un dispositivo móvil, un dispositivo de memoria o similar. El aparato o sistema puede comprender, por ejemplo, un servidor de archivos para transferir el programa informático al receptor.
[0167] En algunas formas de realización, se puede utilizar un dispositivo lógico programable (por ejemplo una matriz de puertas programables en el campo) para ejecutar algunas o todas las funcionalidades de los procedimientos descritos en esta invención. En algunas formas de realización, una matriz de puertas programables en el campo puede cooperar con un microprocesador para ejecutar uno de los procedimientos descritos en esta invención. Por lo general, los procedimientos son ejecutados preferentemente por cualquier aparato de hardware.
[0168] Las formas de realización anteriormente descritas son meramente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en esta invención tienen que ser evidentes para otras personas expertas en la materia. Por lo tanto, solo se pretende limitarse al alcance de las siguientes reivindicaciones de patente y no a los detalles específicos presentados a modo de ilustración y explicación de las formas de realización de esta invención.
Claims (14)
1. Procesador de datos de audio (1), que comprende:
una interfaz de receptor (2) para recibir datos de audio codificados (3) y metadatos (4) relacionados con los datos de audio codificados (3);
un analizador de metadatos (5) para analizar los metadatos (4) para determinar una posibilidad de manipulación de datos de audio;
una interfaz de interacción (6) para recibir una entrada de interacción (7) y para generar, a partir de la entrada de interacción (7), datos de control de la interacción (8) relacionados con la posibilidad de manipulación de datos de audio; y
un generador de flujos de datos (9) para obtener los datos de control de la interacción (8) y los datos de audio codificados (3) y los metadatos (4) y para generar un flujo de datos de salida (10), comprendiendo el flujo de datos de salida (10) los datos de audio codificados (3), los metadatos (4), y los datos de control de la interacción (8),
en el que el generador de flujo de datos (9) está configurado para procesar un flujo de datos de entrada (15) que comprende los datos de audio codificados (3) y los metadatos (4) recibidos por la interfaz del receptor (2) sin decodificar los datos de audio codificados (3) para generar el flujo de datos de salida codificados (10), o para copiar los datos de audio codificados (3) y al menos una porción de los metadatos (4) sin cambios en el flujo de datos de salida codificados (10),
para incrustar los datos de control de interacción (8) como una porción de datos adicional en el flujo de datos de salida (10), y para reenviar los datos de salida codificados (10) que comprende los datos de audio codificados (3), los metadatos (4) y los datos de control de interacción (8) a un decodificador externo (31) para decodificar el flujo de datos de salida codificados (10).
2. Procesador de datos de audio de la reivindicación 1, en el que los datos de audio codificados (3) comprenden objetos de audio codificados separados (11; 12), en el que al menos una porción (13; 14) de los metadatos (4) está asociada a un objeto de audio correspondiente (11; 12),
en el que el analizador de metadatos (5) está configurado para analizar la porción correspondiente (13; 14) para los objetos de audio codificados (11; 12) para determinar, para al menos un objeto de audio (11), la posibilidad de manipulación de objetos,
en el que la interfaz de interacción (6) está configurada para generar, con respecto a dicho al menos un objeto de audio codificado (11), los datos de control de la interacción (8) a partir de la entrada de interacción (7) asociada al menos a un objeto de audio codificado (11).
3. Procesador de datos de audio de una de las reivindicaciones anteriores, en el que la interfaz de interacción (6) está configurada para generar los datos de control de interacción (8) de forma que los datos de control de interacción (8) estén representados por una cantidad de manipulación con respecto a los metadatos (4).
4. Procesador de datos de audio de una de las reivindicaciones anteriores, en el que el generador de flujos de datos (9) está configurado para generar, en el flujo de datos de salida (10), los datos de control de interacción (8) en el mismo formato que los metadatos (4).
5. Procesador de datos de audio de una de las reivindicaciones anteriores, en el que el generador de flujos de datos (9) está configurado para asociar, con los datos de control de interacción (8), un identificador en el flujo de datos de salida (10), siendo el identificador diferente de un identificador asociado a los metadatos (4).
6. Procesador de datos de audio de una de las reivindicaciones anteriores, en el que el generador de flujos de datos (9) está configurado para añadir, a los datos de control de la interacción (8), datos de verificación de firma, indicando los datos de verificación de firma información sobre una aplicación, un dispositivo o un usuario que ejecuta una manipulación de los datos de audio o que proporciona la entrada de interacción.
7. Procesador de datos de audio de una de las reivindicaciones anteriores, en el que el analizador de metadatos (5) está configurado para identificar una posibilidad de deshabilitación para uno o más objetos de audio (11, 12) representados por los datos de audio codificados (3),
en el que la interfaz de interacción (6) está configurada para recibir una información de deshabilitación para uno o más objetos de audio (11, 12) y
en el que el generador de flujos de datos (9) está configurado para marcar uno o más objetos de audio (11, 12) como deshabilitados en los datos de control de la interacción (8).
8. Procesador de datos de audio de una de las reivindicaciones anteriores, en el que el generador de flujos de datos (9) está configurado para generar de manera dinámica el flujo de datos de salida (10), en el que en respuesta a una nueva entrada de interacción (7), los datos de control de la interacción (8) se actualizan para adaptarse a la
nueva entrada de interacción (7), y en el que el generador de flujos de datos (9) está configurado para incluir los datos de control de interacción actualizados (8) en el flujo de datos de salida (10).
9. Procesador de datos de audio de una de las reivindicaciones anteriores, en el que la interfaz de receptor (2) está configurada para recibir un flujo principal de datos de audio (15) que comprende los datos de audio codificados (3) y metadatos (4) relacionados con los datos de audio codificados (3), y para recibir asimismo datos de audio opcionales (16) que comprenden un objeto de audio opcional (17),
en el que los metadatos (4) relacionados con dicho objeto de audio opcional (17) están contenidos en dicho flujo de datos de audio principal (15).
10. Procesador de datos de audio de una de las reivindicaciones anteriores,
en el que el analizador de metadatos (5) está configurado para determinar la posibilidad de manipulación de audio para un objeto de audio que falta (17) que no está incluido en los datos de audio codificados (3), en el que la interfaz de interacción (6) está configurada para recibir una entrada de interacción (7) correspondiente al objeto de audio que falta (17) y
en el que la interfaz de receptor (2) está configurada para solicitar datos de audio (16) para el objeto de audio que falta (17) de un proveedor de datos de audio (35) o para recibir los datos de audio (16) para el objeto de audio que falta (17) de un subflujo diferente contenido en un flujo de transmisión (36) o una conexión por protocolo de Internet (37).
11. Procesador de datos de audio de una de las reivindicaciones anteriores,
en el que el generador de flujos de datos (9) está configurado para asignar, en el flujo de datos de salida (10), otro tipo de paquetes a los datos de control de la interacción (8), siendo el tipo de paquetes adicional diferente de los tipos de paquetes correspondientes a los datos de audio codificados (3) y los metadatos (4), o en el que el generador de flujos de datos (9) está configurado para añadir, en el flujo de datos de salida (10), datos de relleno (18) en un tipo de paquetes de datos de relleno, en el que se determina una cantidad de datos de relleno (18) basándose en un requisito de tasa de datos determinada por una interfaz de salida del procesador de datos de audio.
12. Procesador de datos de audio de una de las reivindicaciones anteriores que se implementa en forma de dispositivo separado (19) que está separado de un segundo dispositivo (28) que está configurado para recibir los datos de audio procesados, pero aún codificados, del primer dispositivo (19) para decodificar dichos datos de audio, en el que la interfaz de receptor (2) forma una entrada (20) al primer dispositivo separado (19) a través de una conexión por cable (21) o inalámbrica (22), en el que el procesador de datos de audio (1) comprende además una interfaz de salida (23) conectada al generador de flujos de datos (9), estando la interfaz de salida (23) configurada para emitir el flujo de datos de salida (10), en el que la interfaz de salida (23) ejecuta una salida del dispositivo (19) y comprende una interfaz inalámbrica (24) o un conector de cable (25).
13. Procedimiento para procesar datos de audio, en un procesador de datos de audio, comprendiendo el procedimiento:
recibir datos de audio codificados (3) y metadatos (4) relacionados con los datos de audio codificados (3); analizar los metadatos (4) para determinar una posibilidad de manipulación de datos de audio; presentar, a un usuario, la posibilidad de manipulación de datos de audio derivada de los metadatos analizados (4) y recibir, del usuario, una entrada de interacción (7) en una manipulación de datos específica de la posibilidad de manipulación de datos; y generar, a partir de la entrada de interacción (7), datos de control de la interacción (8) relacionados con la posibilidad de manipulación de datos de audio y
obtener los datos de control de la interacción (8) y los datos de audio codificados (3) y los metadatos (4) y generar un flujo de datos de salida codificado (10), comprendiendo el flujo de datos de salida codificado (10) los datos de audio codificados (3), los metadatos (4) y los datos de control de la interacción (8),
procesar un flujo de datos de entrada (15) que comprende los datos de audio codificados (3) y los metadatos (4) sin decodificar los datos de audio codificados (3) para generar el flujo de datos de salida codificados (10), o copiar los datos de audio codificados (3) y al menos una porción de los metadatos (4) sin cambios en el flujo de datos de salida codificados (10), incrustando los datos de control de interacción (8) como una porción de datos adicional en el flujo de datos de salida codificados (10), y enviando el flujo de datos de salida codificados (10) que comprende los datos de audio codificados (3), los metadatos (4) y los datos de control de interacción (8) a un decodificador externo (31) para decodificar el flujo de datos de salida codificados (10).
14. Programa informático para llevar a cabo, cuando se ejecuta en un ordenador o un procesador, el procedimiento de datos de audio de procesamiento de la reivindicación 13.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14170416 | 2014-05-28 | ||
PCT/EP2015/056768 WO2015180866A1 (en) | 2014-05-28 | 2015-03-27 | Data processor and transport of user control data to audio decoders and renderers |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2739886T3 true ES2739886T3 (es) | 2020-02-04 |
Family
ID=50884250
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES15713461T Active ES2739886T3 (es) | 2014-05-28 | 2015-03-27 | Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores |
ES20209268T Active ES2956362T3 (es) | 2014-05-28 | 2015-03-27 | Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores |
ES19163481T Active ES2883498T3 (es) | 2014-05-28 | 2015-03-27 | Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES20209268T Active ES2956362T3 (es) | 2014-05-28 | 2015-03-27 | Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores |
ES19163481T Active ES2883498T3 (es) | 2014-05-28 | 2015-03-27 | Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores |
Country Status (19)
Country | Link |
---|---|
US (5) | US10674228B2 (es) |
EP (4) | EP4236331A3 (es) |
JP (1) | JP6371416B2 (es) |
KR (1) | KR101967810B1 (es) |
CN (2) | CN106537929B (es) |
AR (6) | AR100623A1 (es) |
AU (1) | AU2015266343B2 (es) |
BR (1) | BR112016027639B1 (es) |
CA (1) | CA2950197C (es) |
ES (3) | ES2739886T3 (es) |
MX (1) | MX359385B (es) |
MY (1) | MY174199A (es) |
PL (3) | PL3149955T3 (es) |
PT (2) | PT3522554T (es) |
RU (1) | RU2653858C1 (es) |
SG (1) | SG11201609920SA (es) |
TW (1) | TWI587283B (es) |
WO (1) | WO2015180866A1 (es) |
ZA (1) | ZA201608160B (es) |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2581810C (en) | 2004-10-26 | 2013-12-17 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
TWI529703B (zh) | 2010-02-11 | 2016-04-11 | 杜比實驗室特許公司 | 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法 |
CN103325380B (zh) | 2012-03-23 | 2017-09-12 | 杜比实验室特许公司 | 用于信号增强的增益后处理 |
US10844689B1 (en) | 2019-12-19 | 2020-11-24 | Saudi Arabian Oil Company | Downhole ultrasonic actuator system for mitigating lost circulation |
EP2850612B1 (en) | 2012-05-18 | 2019-04-10 | Dolby Laboratories Licensing Corporation | System for maintaining reversible dynamic range control information associated with parametric audio coders |
MX2021011251A (es) | 2013-01-21 | 2022-10-28 | Dolby Laboratories Licensing Corp | Codificador y decodificador de audio con metadatos de límite y sonoridad de programa. |
BR122020007931B1 (pt) | 2013-01-21 | 2022-08-30 | Dolby International Ab | Dispositivo de processamento de áudio e método para decodificar um ou mais quadros de um fluxo de bits de áudio codificado |
US9715880B2 (en) | 2013-02-21 | 2017-07-25 | Dolby International Ab | Methods for parametric multi-channel encoding |
CN107093991B (zh) | 2013-03-26 | 2020-10-09 | 杜比实验室特许公司 | 基于目标响度的响度归一化方法和设备 |
EP2981910A1 (en) | 2013-04-05 | 2016-02-10 | Dolby Laboratories Licensing Corporation | Acquisition, recovery, and matching of unique information from file-based media for automated file detection |
TWM487509U (zh) | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
CN105531759B (zh) | 2013-09-12 | 2019-11-26 | 杜比实验室特许公司 | 用于下混合音频内容的响度调整 |
CN109979472B (zh) | 2013-09-12 | 2023-12-15 | 杜比实验室特许公司 | 用于各种回放环境的动态范围控制 |
CN110808723B (zh) | 2014-05-26 | 2024-09-17 | 杜比实验室特许公司 | 音频信号响度控制 |
EP3196876B1 (en) * | 2014-09-04 | 2020-11-18 | Sony Corporation | Transmitting device, transmitting method, receiving device and receiving method |
EP4254405A3 (en) * | 2014-09-30 | 2023-12-13 | Sony Group Corporation | Transmitting device, transmission method, receiving device, and receiving method |
EP3518236B8 (en) | 2014-10-10 | 2022-05-25 | Dolby Laboratories Licensing Corporation | Transmission-agnostic presentation-based program loudness |
TWI631835B (zh) * | 2014-11-12 | 2018-08-01 | 弗勞恩霍夫爾協會 | 用以解碼媒體信號之解碼器、及用以編碼包含用於主要媒體資料之元資料或控制資料的次要媒體資料之編碼器 |
JP6699564B2 (ja) * | 2015-02-10 | 2020-05-27 | ソニー株式会社 | 送信装置、送信方法、受信装置および受信方法 |
WO2016129981A1 (ko) | 2015-02-13 | 2016-08-18 | 삼성전자 주식회사 | 미디어 데이터를 송수신하는 방법 및 장치 |
EP4436072A2 (en) | 2015-06-02 | 2024-09-25 | Sony Group Corporation | Transmission device, transmission method, media processing device, media processing method, and reception device |
KR102668642B1 (ko) * | 2015-06-17 | 2024-05-24 | 소니그룹주식회사 | 송신 장치, 송신 방법, 수신 장치 및 수신 방법 |
US10027994B2 (en) * | 2016-03-23 | 2018-07-17 | Dts, Inc. | Interactive audio metadata handling |
US10492016B2 (en) * | 2016-09-29 | 2019-11-26 | Lg Electronics Inc. | Method for outputting audio signal using user position information in audio decoder and apparatus for outputting audio signal using same |
JP6955029B2 (ja) | 2017-01-10 | 2021-10-27 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | オーディオデコーダ、オーディオエンコーダ、復号化オーディオ信号の供給方法、符号化オーディオ信号の供給方法、オーディオストリーム、オーディオストリーム供給器、ストリーム識別子を使用するオーディオストリーム供給器およびコンピュータプログラム |
US11595774B2 (en) | 2017-05-12 | 2023-02-28 | Microsoft Technology Licensing, Llc | Spatializing audio data based on analysis of incoming audio data |
WO2019046065A1 (en) | 2017-08-28 | 2019-03-07 | Dolby Laboratories Licensing Corporation | NAVIGATION METADATA WITH MULTIMEDIA CONTENT AWARENESS |
CN108122558B (zh) * | 2017-12-22 | 2020-12-29 | 深圳国微技术有限公司 | 一种latm aac音频流的实时转容实现方法及装置 |
CN115691519A (zh) | 2018-02-22 | 2023-02-03 | 杜比国际公司 | 用于处理嵌入在mpeg-h 3d音频流中的辅媒体流的方法及设备 |
WO2019203627A1 (ko) * | 2018-04-20 | 2019-10-24 | 엘지전자 주식회사 | 트랜지션 이펙트에 관한 오디오 데이터를 송수신하는 방법 및 그 장치 |
CN108521584B (zh) * | 2018-04-20 | 2020-08-28 | 广州虎牙信息科技有限公司 | 互动信息处理方法、装置、主播侧设备和介质 |
KR102352721B1 (ko) | 2018-05-07 | 2022-01-19 | 애플 인크. | 라이브 비디오 피드들 및 기록된 비디오를 보기 위한 사용자 인터페이스들 |
WO2020038938A1 (en) | 2018-08-21 | 2020-02-27 | Dolby International Ab | Methods, apparatus and systems for generation, transportation and processing of immediate playout frames (ipfs) |
JP7196331B2 (ja) * | 2019-03-15 | 2022-12-26 | ドルビー・インターナショナル・アーベー | ニューラルネットワークを更新するための方法および装置 |
US11622219B2 (en) * | 2019-07-24 | 2023-04-04 | Nokia Technologies Oy | Apparatus, a method and a computer program for delivering audio scene entities |
CN110413253A (zh) * | 2019-08-02 | 2019-11-05 | 北京清流鼎点科技有限公司 | 音频设备控制方法和装置、音频设备及存储介质 |
US11967330B2 (en) | 2019-08-15 | 2024-04-23 | Dolby International Ab | Methods and devices for generation and processing of modified audio bitstreams |
KR102253524B1 (ko) * | 2019-09-02 | 2021-05-20 | 네이버 주식회사 | 라우드니스 정규화 방법 및 시스템 |
EP4062649A2 (en) * | 2019-11-20 | 2022-09-28 | Dolby International AB | Methods and devices for personalizing audio content |
CN114115787B (zh) * | 2020-09-01 | 2024-10-18 | 瑞昱半导体股份有限公司 | 用于音频传输界面上进行数据传输的信号传输方法与装置 |
WO2022051112A1 (en) | 2020-09-05 | 2022-03-10 | Apple Inc. | User interfaces for managing audio for media items |
CN114650456B (zh) * | 2020-12-17 | 2023-07-25 | 深圳Tcl新技术有限公司 | 一种音频描述符的配置方法、系统、存储介质及配置设备 |
KR20230021508A (ko) * | 2021-08-05 | 2023-02-14 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 멀티미디어 재생 방법 |
EP4322536A4 (en) | 2021-08-05 | 2024-10-09 | Samsung Electronics Co Ltd | ELECTRONIC DEVICE AND METHOD FOR MULTIMEDIA PLAYBACK IN AN ELECTRONIC DEVICE |
EP4458023A1 (en) * | 2021-12-30 | 2024-11-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-device and multi-user personalized and interactive audio through social media metadata |
US11785285B1 (en) * | 2022-05-20 | 2023-10-10 | Lenbrook Industries Limited | Audio video receiver (AVR) architecture |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6642966B1 (en) | 2000-11-06 | 2003-11-04 | Tektronix, Inc. | Subliminally embedded keys in video for synchronization |
US7546173B2 (en) | 2003-08-18 | 2009-06-09 | Nice Systems, Ltd. | Apparatus and method for audio content analysis, marking and summing |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
JP4229058B2 (ja) * | 2004-12-10 | 2009-02-25 | ヤマハ株式会社 | 端末装置および記録媒体 |
RU2393556C2 (ru) * | 2005-01-28 | 2010-06-27 | Панасоник Корпорейшн | Носитель записи, устройство воспроизведения и способы записи и воспроизведения |
US7573912B2 (en) | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
TW200638335A (en) | 2005-04-13 | 2006-11-01 | Dolby Lab Licensing Corp | Audio metadata verification |
KR100749503B1 (ko) * | 2005-08-29 | 2007-08-14 | 엠텍비젼 주식회사 | 프로세서와 오디오 입출력 제어기가 데이터 메모리를공유하는 방법 및 이를 위한 장치 |
FR2910586B1 (fr) * | 2006-12-22 | 2009-02-06 | Vernet Sa | Vanne thermostatique de regulation d'un fluide, circuit de liquide de refroidissement incorporant une telle vanne et procede de fabrication d'une telle vanne. |
US8175289B2 (en) * | 2008-03-13 | 2012-05-08 | Gordon Raymond L | Digital audio distribution network |
EP2146522A1 (en) * | 2008-07-17 | 2010-01-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating audio output signals using object based metadata |
US8798776B2 (en) * | 2008-09-30 | 2014-08-05 | Dolby International Ab | Transcoding of audio metadata |
EP2441268A1 (en) | 2009-06-09 | 2012-04-18 | Thomson Licensing | Decoding apparatus, decoding method, and editing apparatus |
PL2491551T3 (pl) | 2009-10-20 | 2015-06-30 | Fraunhofer Ges Forschung | Urządzenie do dostarczania reprezentacji sygnału upmixu w oparciu o reprezentację sygnału downmixu, urządzenie do dostarczania strumienia bitów reprezentującego wielokanałowy sygnał audio, sposoby, program komputerowy i strumień bitów wykorzystujący sygnalizację sterowania zniekształceniami |
US8908874B2 (en) * | 2010-09-08 | 2014-12-09 | Dts, Inc. | Spatial audio encoding and reproduction |
US9258665B2 (en) * | 2011-01-14 | 2016-02-09 | Echostar Technologies L.L.C. | Apparatus, systems and methods for controllable sound regions in a media room |
WO2013006330A2 (en) | 2011-07-01 | 2013-01-10 | Dolby Laboratories Licensing Corporation | System and tools for enhanced 3d audio authoring and rendering |
WO2013078056A1 (en) * | 2011-11-22 | 2013-05-30 | Dolby Laboratories Licensing Corporation | Method and system for generating an audio metadata quality score |
EP2637427A1 (en) * | 2012-03-06 | 2013-09-11 | Thomson Licensing | Method and apparatus for playback of a higher-order ambisonics audio signal |
JP6015085B2 (ja) * | 2012-04-13 | 2016-10-26 | 船井電機株式会社 | 音声信号出力機器 |
US9516446B2 (en) * | 2012-07-20 | 2016-12-06 | Qualcomm Incorporated | Scalable downmix design for object-based surround codec with cluster analysis by synthesis |
US9826328B2 (en) * | 2012-08-31 | 2017-11-21 | Dolby Laboratories Licensing Corporation | System for rendering and playback of object based audio in various listening environments |
MX2021011251A (es) * | 2013-01-21 | 2022-10-28 | Dolby Laboratories Licensing Corp | Codificador y decodificador de audio con metadatos de límite y sonoridad de programa. |
WO2015140082A1 (en) * | 2014-03-18 | 2015-09-24 | Koninklijke Philips N.V. | Audiovisual content item data streams |
US9971319B2 (en) * | 2014-04-22 | 2018-05-15 | At&T Intellectual Property I, Lp | Providing audio and alternate audio simultaneously during a shared multimedia presentation |
CN106465036B (zh) * | 2014-05-21 | 2018-10-16 | 杜比国际公司 | 配置经由家庭音频回放系统的音频的回放 |
-
2015
- 2015-03-27 ES ES15713461T patent/ES2739886T3/es active Active
- 2015-03-27 CN CN201580028647.8A patent/CN106537929B/zh active Active
- 2015-03-27 EP EP23176867.2A patent/EP4236331A3/en active Pending
- 2015-03-27 EP EP15713461.0A patent/EP3149955B1/en active Active
- 2015-03-27 ES ES20209268T patent/ES2956362T3/es active Active
- 2015-03-27 EP EP19163481.5A patent/EP3522554B1/en active Active
- 2015-03-27 PL PL15713461T patent/PL3149955T3/pl unknown
- 2015-03-27 CN CN201910510021.0A patent/CN110177297B/zh active Active
- 2015-03-27 WO PCT/EP2015/056768 patent/WO2015180866A1/en active Application Filing
- 2015-03-27 MY MYPI2016002089A patent/MY174199A/en unknown
- 2015-03-27 PL PL19163481T patent/PL3522554T3/pl unknown
- 2015-03-27 BR BR112016027639-6A patent/BR112016027639B1/pt active IP Right Grant
- 2015-03-27 EP EP20209268.0A patent/EP3800898B1/en active Active
- 2015-03-27 JP JP2016569951A patent/JP6371416B2/ja active Active
- 2015-03-27 MX MX2016015388A patent/MX359385B/es active IP Right Grant
- 2015-03-27 PT PT191634815T patent/PT3522554T/pt unknown
- 2015-03-27 PT PT15713461T patent/PT3149955T/pt unknown
- 2015-03-27 RU RU2016151354A patent/RU2653858C1/ru active
- 2015-03-27 AU AU2015266343A patent/AU2015266343B2/en active Active
- 2015-03-27 KR KR1020167036597A patent/KR101967810B1/ko active IP Right Grant
- 2015-03-27 ES ES19163481T patent/ES2883498T3/es active Active
- 2015-03-27 SG SG11201609920SA patent/SG11201609920SA/en unknown
- 2015-03-27 CA CA2950197A patent/CA2950197C/en active Active
- 2015-03-27 PL PL20209268.0T patent/PL3800898T3/pl unknown
- 2015-05-25 TW TW104116674A patent/TWI587283B/zh active
- 2015-05-27 AR ARP150101659A patent/AR100623A1/es active IP Right Grant
-
2016
- 2016-11-21 US US15/357,640 patent/US10674228B2/en active Active
- 2016-11-24 ZA ZA2016/08160A patent/ZA201608160B/en unknown
-
2020
- 2020-05-13 US US15/931,422 patent/US11381886B2/en active Active
-
2022
- 2022-04-26 AR ARP220101085A patent/AR125773A2/es unknown
- 2022-04-26 AR ARP220101088A patent/AR125776A2/es unknown
- 2022-04-26 AR ARP220101086A patent/AR125774A2/es unknown
- 2022-04-26 AR ARP220101084A patent/AR125772A2/es unknown
- 2022-04-26 AR ARP220101087A patent/AR125775A2/es unknown
- 2022-05-20 US US17/664,397 patent/US11743553B2/en active Active
-
2023
- 2023-07-05 US US18/347,546 patent/US12035018B2/en active Active
-
2024
- 2024-06-17 US US18/745,720 patent/US20240357212A1/en active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2739886T3 (es) | Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores | |
ES2970490T3 (es) | Optimización de la transmisión de audio para aplicaciones de realidad virtual | |
KR101800604B1 (ko) | 오브젝트 기반 오디오의 상호 작용적 렌더링을 위한 방법들 및 시스템들 | |
US12035127B2 (en) | Spatial audio capture, transmission and reproduction | |
BR122024013710A2 (pt) | Método e equipamento para uso e entrega eficaz de mensagens de áudio para experiência de alta qualidade | |
BR122020016999B1 (pt) | Método de geração de um fluxo de dados do item de conteúdo audiovisual, e aparelho para gerar um fluxo de dados do item de conteúdo audiovisual |