RU2653858C1 - Процессор данных и транспорт данных пользовательского управления на устройства декодирования и воспроизведения аудио - Google Patents
Процессор данных и транспорт данных пользовательского управления на устройства декодирования и воспроизведения аудио Download PDFInfo
- Publication number
- RU2653858C1 RU2653858C1 RU2016151354A RU2016151354A RU2653858C1 RU 2653858 C1 RU2653858 C1 RU 2653858C1 RU 2016151354 A RU2016151354 A RU 2016151354A RU 2016151354 A RU2016151354 A RU 2016151354A RU 2653858 C1 RU2653858 C1 RU 2653858C1
- Authority
- RU
- Russia
- Prior art keywords
- data
- interaction
- audio
- metadata
- audio data
- Prior art date
Links
- 230000003993 interaction Effects 0.000 claims abstract description 189
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000004458 analytical method Methods 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 39
- 238000004590 computer program Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 8
- 238000003672 processing method Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 2
- 101150025129 POP1 gene Proteins 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 150000001875 compounds Chemical class 0.000 claims 1
- 238000009434 installation Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 239000000126 substance Substances 0.000 abstract 1
- 230000005540 biological transmission Effects 0.000 description 14
- 230000008859 change Effects 0.000 description 9
- 239000003550 marker Substances 0.000 description 7
- 230000001343 mnemonic effect Effects 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 6
- 230000001419 dependent effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- IUSARDYWEPUTPN-OZBXUNDUSA-N (2r)-n-[(2s,3r)-4-[[(4s)-6-(2,2-dimethylpropyl)spiro[3,4-dihydropyrano[2,3-b]pyridine-2,1'-cyclobutane]-4-yl]amino]-3-hydroxy-1-[3-(1,3-thiazol-2-yl)phenyl]butan-2-yl]-2-methoxypropanamide Chemical compound C([C@H](NC(=O)[C@@H](C)OC)[C@H](O)CN[C@@H]1C2=CC(CC(C)(C)C)=CN=C2OC2(CCC2)C1)C(C=1)=CC=CC=1C1=NC=CS1 IUSARDYWEPUTPN-OZBXUNDUSA-N 0.000 description 1
- 206010011878 Deafness Diseases 0.000 description 1
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 229940125807 compound 37 Drugs 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000010370 hearing loss Effects 0.000 description 1
- 231100000888 hearing loss Toxicity 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
- H04N21/4355—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/436—Interfacing a local distribution network, e.g. communicating with another STB or one or more peripheral devices inside the home
- H04N21/4363—Adapting the video stream to a specific local network, e.g. a Bluetooth® network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
- H04N21/44222—Analytics of user selections, e.g. selection of programs or purchase activity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44227—Monitoring of local network, e.g. connection or bandwidth variations; Detecting new devices in the local network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/485—End-user interface for client configuration
- H04N21/4852—End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Circuits Of Receivers In General (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
Изобретение относится к обработке аудиоданных в установках домашней бытовой электроники. Технический результат заключается в повышении эффективности обработки аудиоданных. Предложен процессор аудиоданных, содержащий: интерфейс приемника для приема кодированных аудиоданных и метаданных, связанных с кодированными аудиоданными; анализатор метаданных для анализа метаданных, чтобы определять возможности манипулирования аудиоданными; интерфейс взаимодействия для приема вводимых данных взаимодействия и для формирования исходя из вводимых данных взаимодействия, данных управления взаимодействием, связанных с возможностью манипулирования аудиоданными; и генератор потока данных для получения данных управления взаимодействием и кодированных аудиоданных и метаданных и для формирования выходного потока данных, выходной поток данных содержит кодированные аудиоданные по меньшей мере часть метаданных и данные управления взаимодействием. 3 н. и 12 з.п. ф-лы, 8 табл., 9 ил.
Description
Настоящее изобретение имеет отношение к процессору аудиоданных по п.1, способу для обработки аудиоданных по п.14 и компьютерной программе по п.15 для выполнения способа обработки аудиоданных.
В установках домашней бытовой электроники (CE) функциональность разнесена по нескольким устройствам, соединенным через стандартизированные интерфейсы. Кроме того, (высокого качества) оборудование часто встроено не только в единственное устройство, но и сложные отдельные устройства (если рассмотреть телевизионную абонентскую приставку, ТВ-приемник, AVR-приемник (приемник-аудио-видео)) являются доступными. Эти устройства осуществляют связь через стандартизированные интерфейсы (такой как HDMI (интерфейс мультимедиа высокой четкости)).
Тогда как первое устройство извлекает требуемые потоки и предлагает все интерфейсы пользователю, второе устройство часто выполняет декодирование в ʺрежиме ведомогоʺ без какого-либо пользовательского интерфейса. Когда дело доходит до взаимодействия пользователя и управления декодером, является существенным передача этой пользовательской информации от устройства #1 к устройству #2 в этом сценарии.
Например, как показано на Фиг. 9, телевизионную программу часто принимает первое устройство, такое как телевизионная абонентская приставка, которое выбирает надлежащий канал передачи и извлекает соответствующие элементарные потоки, содержащие требуемое кодированное содержание. Эти извлеченные потоки могут подаваться на второе устройство, такое как приемник аудио-видео, для воспроизведения. Передача между этими двумя устройствами может выполняться путем либо осуществления передачи декодированного/разуплотненного представления (аудио с импульсно-кодовой модуляцией (PCM)), либо в кодированном представлении, особенно если ограничения полосы пропускания применяют на используемой линии внутренней связи.
Кроме того, если выбор требуемых потоков и/или необязательно взаимодействие пользователя выполняется в устройстве #1 (например, телевизионной абонентской приставке), в большинстве случаев только это устройство предлагает интерфейс управления пользователю. Второе устройство (например, приемник A/V) обеспечивает только интерфейс конфигурации, к которому обычно пользователем осуществляется доступ только один раз при настройке системы, и действует в ʺрежиме ведомогоʺ в периоды нормальной работы.
Современные схемы кодека аудио не только поддерживают кодирование аудиосигналов, но также и обеспечивают средство для интерактивности пользователя, чтобы приспосабливать проигрывание и воспроизведение аудио к предпочтениям слушателя. Поток аудиоданных состоит из ряда кодированных аудиосигналов, например, сигналов каналов или аудиообъектов, и сопутствующей информации метаданных, которая описывает, каким образом эти аудиосигналы формируют аудио сцену, которая воспроизводится на громкоговорителях.
Примерами для аудио (звуковых) объектов являются:
- диалог на различных языках,
- дополнительный диалог подобный аудиосопровождению, или
- музыкальный и с эффектами фон (задний план).
Примерами для информации метаданных являются:
- значение «по умолчанию» уровня громкости каждого сигнала объекта (то есть, несколько громким он должен смешиваться в смешанный сигнал для представления громкоговорителем),
- значение «по умолчанию» пространственной позиции (то есть где он должен воспроизводиться),
- информация, если взаимодействие пользователя разрешено для специфического объекта, или
- информация, каким образом пользователю разрешено взаимодействовать, например, минимальный/максимальный уровни громкости или ограничения на позиции, к которой пользователь может повторно панорамировать объекты.
- классификация и/или описание аудиообъектов
Чтобы выполнить интерактивность пользователя, устройству декодирования/воспроизведения аудио (например, устройству #2) требуется обеспечить дополнительный интерфейс (ввода или взаимодействия) для управляющей информации для требуемого взаимодействия пользователя.
Альтернативно может также требоваться реализовывать пользовательское управление выбором и манипулированием аудиообъектом в устройстве #1 и подавать эти данные на устройство #2, когда декодирование и воспроизведение реализуются в устройстве #2, а не в устройстве #1.
Однако передача таких данных ограничена вследствие факта, что существующие стандартизированные соединения не поддерживают передачу данных пользовательского управления и/или информации устройства воспроизведения.
Альтернативно, выбор потоков и взаимодействие пользователя, как описано выше для устройства #1, и декодирование, как описано выше для устройства #2, могут обрабатываться двумя отдельными функциональными компонентами, содержащимися в том же устройстве и с теми же ограничениями на передачу данных между обоими компонентами, а именно, что доступным является только один интерфейс для кодированных данных и данных взаимодействия пользователя, предпочтительно интерфейс взаимодействия устройства #1, тогда как второй интерфейс для данных взаимодействия пользователя, то есть интерфейс, обычно обеспечиваемый устройством #2, можно опустить. Даже если и устройство #1, и устройство #2 содержатся или реализованы в рамках того же (аппаратно-реализованного) устройства, это ведет к той же ситуации, как описано для случая отдельных устройств #1 и #2.
Чтобы выполнить описанный вариант использования и устранить описанные выше ограничения, предлагается вкладывать данные информации пользовательского управления, или данные взаимодействия в общем, в кодированный поток аудиоданных.
Соответственно, объект настоящего изобретения состоит в усовершенствовании существующих процессоров обработки аудиоданных.
Обычно, первое устройство может быть сконфигурировано в виде процессора аудиоданных, содержащего: интерфейс приемника для приема кодированных аудиоданных и метаданных, связанных с кодированными аудиоданными; (синтаксический) анализатор метаданных для анализа метаданных, чтобы определять возможность манипулирования аудиоданными; интерфейс взаимодействия для приема вводимых данных взаимодействия и для формирования, из вводимых данных взаимодействия, данных управления взаимодействием, связанных с возможностью манипулирования аудиоданными; и генератор потока данных для получения данных управления взаимодействием и кодированных аудиоданных и метаданных и для генерирования потока выходных данных, выходной поток данных содержит кодированные аудиоданные, по меньшей мере, часть метаданных и данные управления взаимодействием, как определено в п.1. Другие предпочтительные варианты осуществления определены во включенных в документ зависимых и дополнительных независимых пунктах формулы изобретения.
Кодированные аудиоданные могут содержать отдельные кодированные аудиообъекты, причем, по меньшей мере, часть метаданных связана с соответствующим аудиообъектом, при этом анализатор метаданных сконфигурирован для анализа соответствующей части для кодированных аудиообъектов, чтобы определить, для, по меньшей мере, аудиообъекта, возможности манипулирования объектом, причем интерфейс взаимодействия сконфигурирован для генерирования, по меньшей мере, для одного кодированного аудиообъекта, данных управления взаимодействием из вводимых данных взаимодействия, связанного, по меньшей мере, с одним кодированным аудиообъектом. Таким образом, аудиообъектами можно легко и непосредственно манипулировать в рамках их соответствующих возможностей манипулирования объектами, сохраненных в метаданных, путем использования соответственных данных управления взаимодействием.
Интерфейс взаимодействия может быть сконфигурирован для представления пользователю возможности манипулирования аудиоданными, выведенной из метаданных анализатором метаданных, и для приема от пользователя пользовательского ввода по конкретному манипулированию данными в возможности манипулирования данными. Это может реализовывать практический способ предоставления пользовательского интерфейса пользователю для осуществления взаимодействия с устройством по изобретению, например, для манипулирования аудиообъектами, предпочтительно внешне от декодера.
Генератор потока данных может быть сконфигурирован для обработки потока данных, содержащего кодированные аудиоданные и метаданные, принятые интерфейсом приемника, без декодирования кодированных аудиоданных, или для копирования кодированных аудиоданных и, по меньшей мере, части метаданных без изменений в выходном потоке данных, причем генератор потока данных сконфигурирован для добавления добавочной части данных, содержащей данные управления взаимодействием, к кодированным аудиоданным и/или метаданным в выходном потоке данных. Это обеспечивает преимущество меньшей сложности, поскольку процессору аудиоданных не требуется декодировать аудиосигналы. Он нуждается только в анализе метаданных и записывает их обратно в часть метаданных кодированного потока аудиоданных.
Генератор потока данных может быть сконфигурирован для формирования в выходном потоке данных данных управления взаимодействием в том же формате, что и метаданные. Таким образом, любые данные управления взаимодействием могут быть полезно интегрированы в выходной поток данных.
Генератор потока данных может быть сконфигурирован для увязки с данными управления взаимодействием идентификатора в выходном потоке данных, идентификатор является отличным от идентификатора, увязанного с метаданными. Преимущество использования другого идентификатора для манипулируемых метаданных состоит в том, что удаленному декодеру может предоставляться возможность идентифицировать взаимодействие из принятого потока манипулируемых данных, принимая при этом исходные (необработанные) данные.
Генератор потока данных может быть сконфигурирован для добавления, к данным управления взаимодействием, данные (цифровой) подписи, указывающие информацию о приложении, устройстве или пользователе, выполняющем взаимодействие, например, манипулирование аудиоданными, или обеспечивающем пользовательский ввод. Посредством транспорта (передачи) исходных и манипулируемых данных является возможной перенастройка метаданных. Подпись в метаданных позволяет отслеживать источник манипулирования.
Анализатор метаданных может быть сконфигурирован для идентификации возможности отключения для одного или нескольких аудиообъектов, представленных кодированными аудиоданными, причем интерфейс взаимодействия сконфигурирован для приема информации отключения для одного или нескольких аудиообъектов, и при этом генератор потока данных сконфигурирован для пометки одного или нескольких аудиообъектов как «отключенный» в данных управления взаимодействием, или для удаления отключенного одного или нескольких аудиообъектов из кодированных аудиоданных, так что выходной поток данных не включает кодированные аудиоданные для отключенного одного или нескольких аудиообъектов. Таким образом, поток данных может быть приспособлен к тем аудиообъектам, которые являются фактически или в текущий момент доступными, так что общий контент данных текущего потока битов может быть уменьшен.
Генератор потока данных может быть сконфигурирован для динамического формирования выходного потока данных, причем в ответ на новый вводимые данные взаимодействия, данные управления взаимодействием обновляются, чтобы соответствовать новому вводимым данным взаимодействия, и при этом генератор потока данных сконфигурирован для включения обновленных данных управления взаимодействием в выходной поток данных. Таким образом, поток данных может посылаться с информацией реального времени. Другими словами, вводимые данные взаимодействия относительно каких-либо конкретных значений аудиообъектов может обновляться и обрабатываться быстро, предпочтительно в реальном времени.
Интерфейс приемника может быть сконфигурирован для приема основного потока аудиоданных, содержащего кодированные аудиоданные и метаданные, связанные с кодированными аудиоданными, и для дополнительного приема необязательных аудиоданных, содержащих необязательный аудиообъект, причем метаданные, связанные с упомянутым необязательным аудиообъектом, содержатся в упомянутом основном потоке аудиоданных. С помощью этой конфигурации процессор аудиоданных может объединить кодированные аудиоданные выбранного необязательного аудиообъекта в основной поток аудиоданных, получая в результате полный выходной поток аудиоданных, формируемый генератором потока данных. Таким образом, необязательные аудиообъекты могут быть дополнительно предоставлены пользователю впоследствии или по запросу.
Анализатор метаданных может быть сконфигурирован для определения возможности манипулирования аудио относительно отсутствующего аудиообъекта, не включенного в кодированные аудиоданные, причем интерфейс взаимодействия сконфигурирован для приема вводимых данных взаимодействия для отсутствующего аудиообъекта, и при этом интерфейс приемника сконфигурирован для запроса аудиоданных относительно отсутствующего аудиообъекта от поставщика аудиоданных или для приема аудиоданных относительно отсутствующего аудиообъекта из другого подпотока, содержащегося в широковещательном потоке, или соединения по межсетевому протоколу. Таким образом, устройство или пользователь могут манипулировать необязательно доступным добавочным аудиообъектом заранее, то есть, тогда как он фактически отсутствует. Добавочный аудиообъект может затем запрашиваться впоследствии через сеть Интернет или другой широковещательный поток.
Генератор потока данных может быть сконфигурирован для назначения, в выходном потоке данных, дополнительного типа пакета данным управления взаимодействием, дополнительный тип пакета является отличным от типов пакетов для кодированных аудиоданных и метаданных, или при этом генератор потока данных сконфигурирован для добавления, в выходной поток данных, данных заполнения в типе пакета данных заполнения, причем количество данных заполнения определяют на основании требования к скорости передачи данных, определенного выходным интерфейсом процессора аудиоданных. Таким образом, только один дополнительный тип пакета требуется назначать для того, чтобы выполнить транспорт манипулируемых метаданных, или данных управления взаимодействием, соответственно. Кроме того, процессор аудиоданных может пожелать добавить добавочные данные заполнения в последующий поток передачи данных, чтобы удовлетворять заданному требованию обычно более высокой скорости передачи данных для этой линии связи. Эти данные заполнения могут не содержать информацию и, считается, что подлежат игнорированию декодером.
Процессор аудиоданных может быть реализован как отдельное устройство, причем интерфейс приемника может образовывать вход в отдельное устройство через проводное или беспроводное соединение, при этом процессор аудиоданных может дополнительно содержать выходной интерфейс, подключенный к генератору потока данных, выходной интерфейс является конфигурируемым для вывода выходного потока данных, причем выходной интерфейс выполняет выход устройства и содержит беспроводной интерфейс или проводной блок соединения. Таким образом, может обеспечиваться простая связность, например в рамках сети.
Настоящее изобретение дополнительно может быть осуществлено посредством способа для обработки аудиоданных, способ содержит: прием кодированных аудиоданных и метаданных, связанных с кодированными аудиоданными; анализ метаданных для определения возможности манипулирования аудиоданными; прием вводимых данных взаимодействия и формирование из вводимых данных взаимодействия, данных управления взаимодействием, связанных с возможностью манипулирования аудиоданными; и получение данных управления взаимодействием и кодированных аудиоданных и метаданных и генерирование выходного потока данных, выходной поток данных содержит кодированные аудиоданные, по меньшей мере, часть метаданных и данные управления взаимодействием.
Настоящее изобретение дополнительно может быть реализовано посредством компьютерной программы для выполнения, при исполнении на компьютере или процессоре, вышеупомянутого способа обработки аудиоданных.
Настоящее изобретение дополнительно может быть реализовано согласно последующим вариантам осуществления:
Возможность манипулирования аудиоданными может выбираться из группы, содержащей, по меньшей мере, одно из выбора объекта, выбора из нескольких языков, выбора необязательных добавочных аудиообъектов, манипулирования объектом, изменения громкости для одного или нескольких объектов, изменения позиции объектов подобно перемещению дополнительного комментария от центрального динамика к правому динамику или произвольной позиции между ними, выбора предварительных установок, вместо выбора и манипулирования каждым объектом отдельно, причем выбирается предварительная установка из метаданных, где предварительная установка является предварительной выборкой объектов, рекомендуемых создателем контента для конкретного приложения или конкретного сценария использования, где предварительная установка содержит комбинацию объектов, например, с данными для различных уровней громкости, позиций и громкости/динамического диапазона сжатия по сравнению с представлением по умолчанию.
Генератор потока данных может быть сконфигурирован для формирования данных управления взаимодействием в виде независимой информации или в виде зависимой информации, причем зависимая информация зависит от метаданных и приводит, если применяется к декодированным аудиоданным, вместе с метаданными к манипулированию данными, заданному вводимыми данными взаимодействия.
Кодированные аудиоданные могут содержать необязательные аудиообъекты, и метаданные могут содержать метаданные для необязательных аудиообъектов, причем интерфейс приемника может быть сконфигурирован, чтобы дополнительно принимать основной поток аудиоданных, имеющий основные аудиоданные, при этом генератор потока данных может быть сконфигурирован для формирования выходного потока данных так, что выходной поток данных дополнительно содержит основные аудиоданные.
Генератор потока данных может быть сконфигурирован для добавления данных защиты от ошибок к выходному потоку данных и назначать дополнительный тип пакета данным защиты от ошибок, при этом генератор потока данных сконфигурирован, чтобы вывести данные защиты от ошибок из кодированных аудиоданных, метаданных или данных управления взаимодействием.
Генератор потока данных может быть сконфигурирован для формирования выходного потока данных в виде потока данных для потоковой передачи или в виде файла на основе контейнера в файловом формате, таком как файловый формат стандарта MPEG-4 ISO.
Кроме того предлагается, что процессор аудиоданных не имеет функциональности для декодирования кодированных аудиоданных.
Процессор аудиоданных может быть реализован в телевизионной абонентской приставке, телевизионном приемнике или записывающем-приемном устройстве аудио/видео.
Процессор аудиоданных может дополнительно содержать выходной интерфейс, чтобы передавать выходной поток данных на последующее устройство через соединение HDMI.
Также может быть обеспечен процессор аудиоданных, то есть интегрирован или реализован, вместе с декодером в рамках того же (аппаратно-реализованного) устройства. Например, процессор аудиоданных и декодер могут обеспечиваться вместе в TV-приемнике, телевизионной абонентской приставке, A/V приемнике или подобном. Процессор аудиоданных и декодер могут осуществлять связь через структуры внутренних шин данных. Такая конфигурация может быть особенно требуемой в телевизионных устройствах, содержащих решения «Система на кристалле» (SoC).
Соответственно или альтернативно, процессор аудиоданных может быть реализован как независимый и отдельный функциональный компонент в том же устройстве, подобно случаю, описанному выше для случая отдельного устройства, с единственным отличием, что выходной интерфейс выполняет выход процессора аудиоданных на соединение, внутреннее к устройству, например, используя внутреннюю шину данных.
Относительно упомянутых выше признаков, процессор аудиоданных согласно изобретению способен обеспечить легкое взаимодействие с устройством или пользователем, тогда как обеспечивая в то же время простую настройку устройства, предпочтительно используя существующие установки.
Кроме того, процессор аудиоданных согласно изобретению обеспечивает решение вышеупомянутой проблемы, вкладывая взаимодействие устройства или взаимодействие пользователя в виде добавочных данных взаимодействия в битовый поток аудио. Путем реализации вышеописанных признаков, реализации декодера могут требовать только одного интерфейса, который воспринимает и кодированные данные представления, и данные управления взаимодействием. Уже существующие соединения могут не требовать реализации новых каналов для управляющей информации, но усилие по реализации перемещается в кодек непосредственно. В сложных настройках дополнительно гарантируется, что информация управления взаимодействием тесно связана с кодированным содержанием и, следовательно, не может потеряться, когда подается через несколько этапов обработки.
Примеры вариантов осуществления согласно настоящему изобретению показаны на чертежах и будут пояснены в последующем, причем:
Фиг.1 показывает процессор аудиоданных согласно настоящему изобретению,
Фиг.2 показывает способ для обработки аудиоданных согласно изобретению,
Фиг.3 показывает пример кодированных аудиоданных и связанных метаданных,
Фиг.4 показывает пример обработки входных и выходных потоков,
Фиг.5 показывает дополнительный пример обработки входных и выходных потоков,
Фиг.6 показывает процессор аудиоданных, обрабатывающий необязательные аудиоданные,
Фиг.7 показывает процессор аудиоданных, реализуемый в отдельном устройстве,
Фиг.8 показывает примерный вариант использования с первым устройством и вторым устройством, и
Фиг.9 показывает примерный сценарий с телевизионной абонентской приставкой и приемником аудио-видео.
В этом документе в целом, и конкретно в последующем описании термин "взаимодействие" используется в смысле взаимодействия пользователем или взаимодействия устройством, а также взаимодействия в общем, то есть, взаимодействия в общем смысле. Другими словами, "взаимодействие" может означать ʺвзаимодействие пользователяʺ или ʺвзаимодействие устройстваʺ, или взаимодействие в общем. В некоторых частях описания термины "пользователь" и "взаимодействие" используются синонимично. Например, пользовательский интерфейс может синонимично использоваться в смысле интерфейса взаимодействия и наоборот.
Кроме того, "пользователь" может быть или пользователем- человеком, или пользователем-машиной, таким как (аппаратно-реализованное) устройство или программно-реализованное устройство.
Кроме того, пользовательский интерфейс может присутствовать как специфическая для устройства предварительно установленная конфигурация, которая, исключительно или в дополнение к пользовательскому вводу, может управлять манипулированием данными.
Фиг. 1 показывает процессор 1 аудиоданных согласно настоящему изобретению. Процессор 1 аудиоданных содержит интерфейс 2 приемника для приема кодированного входного потока 15, который содержит кодированные аудиоданные 3 и метаданные 4. Метаданные 4 связаны с кодированными аудиоданными 3, каковая связь указана стрелкой 110. Например, кодированные аудиоданные 3 могут содержать аудиообъекты, тогда как метаданные 4 могут содержать дополнительную информацию о возможностях манипулирования для упомянутых аудиообъектов.
Процессор 1 аудиоданных дополнительно содержит анализатор 5 метаданных для анализа метаданных 4, чтобы определить возможность манипулирования аудиоданными. Например, регулируемый уровень громкости, регулируемая пространственная позиция или выбираемый язык могут представлять возможность манипулирования аудиоданными для аудиообъекта.
Кроме того, процессор 1 аудиоданных содержит интерфейс 6 взаимодействия для приема вводимых данных 7 взаимодействия. Интерфейс 6 взаимодействия дополнительно сконфигурирован для формирования данных 8управления взаимодействием на основе вводимых данных 7 взаимодействия. Упомянутые данных 8 управления взаимодействием связаны с вышеупомянутой возможностью манипулирования аудиоданными. Например, пользователь может взаимодействовать с устройством путем регулировки громкости или пространственной позиции аудиообъекта, или путем выбора языка через интерфейс 6 взаимодействия. В этом случае интерфейс 6 взаимодействия является пользовательским интерфейсом 6, который может формировать соответствующие данные 8 пользовательского управления, которые связаны с пользовательским выбором.
Дополнительно или альтернативно, интерфейс 6 взаимодействия может быть интерфейсом 6 взаимодействия (специфическим для) устройства. В этом случае, интерфейс 6 взаимодействия устройства конфигурируется для формирования данных 8 управления взаимодействием устройства на основании вводимых данных 7 взаимодействия устройства. Например, устройство, такое как наушники и т.п. может быть соединено с интерфейсом 6 взаимодействия. Соединение между наушниками и интерфейсом 6 взаимодействия, может обнаруживаться посредством аудио процессора и таким образом рассматриваться в качестве вводимых данных 7 взаимодействия. Таким образом, при подключении наушников, интерфейс 6 взаимодействия обеспечивает специфические для наушников данные 8 управления взаимодействием, такие как манипулирования аудио-объектом, например, автоматическое снижение громкости, предварительно выбранный язык или настройка в аппаратной конфигурации.
Другими словами, вместо ручного взаимодействия пользователя, интерфейс 6 взаимодействия автоматически выбирает объекты или настройки на основании обнаружения некоторых устройств. Интерфейс 6 взаимодействия формирует специфические для устройства данные 8 управления взаимодействием.
Процессор 1 аудиоданных дополнительно содержит генератор 9 потока данных. Генератор 9 потока данных получает данные 8 управления взаимодействием, кодированные аудиоданные 3 и метаданные 4. Генератор 9 потока данных сконфигурирован для формирования выходного потока 10 данных, который содержит вышеупомянутые данные 8 управления взаимодействием, кодированные аудиоданные 3 и метаданные 4.
Фиг. 2 показывает соответствующий способ для обработки аудиоданных согласно настоящему изобретению.
На этапе 201 принимают кодированные аудиоданные 3 и связанные метаданные 4.
На этапе 202 метаданные 4 анализируют для определения возможности манипулирования аудиоданными.
На этапе 203 принимают вводимые данные взаимодействия, причем данные управления взаимодействием, связанные с возможностью манипулирования аудиоданными, формируют из упомянутого вводимых данных взаимодействия на этапе 204.
На этапе 205 получают данные управления взаимодействием и кодированные аудиоданные и метаданные, и формируют выходной поток данных, причем упомянутый выходной поток данных содержит кодированные аудиоданные, по меньшей мере, часть метаданных и данные управления взаимодействием.
Со ссылкой на Фиг. 3 кодированные аудиоданные 3 содержат отдельные кодированные аудиообъекты 11, 12. Кроме того, по меньшей мере, часть 13, 14 метаданных 4 относится (указано стрелками 110, 120) к соответствующему аудиообъекту 11, 12. Например, часть ʹMD1ʹ, 13 метаданных 4 связана с соответствующим кодированным аудиообъектом ʹAO1ʹ 11, тогда как часть ʹMD2ʹ 14 метаданных 4 связана с соответствующим кодированным аудиообъектом ʹAO2ʹ 12.
Анализатор 5 метаданных сконфигурирован для анализа соответствующей части 13, 14 относительно кодированных аудиообъектов 11, 12, чтобы определять возможность манипулирования объектом, по меньшей мере, для одного из упомянутых аудиообъектов 11, 12. Другими словами, анализатор 5 метаданных осуществляет анализ метаданных 13, 14 относительно соответственных аудиообъектов 11, 12, чтобы определить возможность манипулирования аудиообъектом для каждого аудиообъекта 11, 12. Например, анализатор 5 метаданных определяет, что аудиообъект ʹAO1ʹ 11 может содержать регулируемый уровень громкости. Анализатор 5 метаданных может представить эту потенциальную регулируемость уровня громкости (возможность манипулирования аудиообъектом) пользователю через пользовательский интерфейс 6.
Пользовательский интерфейс 6 сконфигурирован для формирования, для, по меньшей мере, одного аудиообъекта 11, 12, данных 8 пользовательского управления из пользовательского ввода 7, связанного, по меньшей мере, с одним кодированным аудиообъектом 11, 12. Например, пользователь может пожелать скорректировать уровень громкости аудиообъекта ʹAO1ʹ 11 и таким образом обеспечивает соответственный ввод 7 через пользовательский интерфейс 6. Пользовательский интерфейс 6 формирует соответственные данные 8 пользовательского управления, содержащие информацию, что и насколько пользователь желает скорректировать уровень громкости аудиообъекта ʹAO1ʹ 11.
Соответственно, пользовательский интерфейс 6 конфигурируется для представления пользователю возможности манипулирования аудиообъектом для аудиообъекта 11, 12, выведенной из метаданных 4 анализатором 5 метаданных. Пользовательский интерфейс 6 дополнительно сконфигурирован для приема пользовательского ввода 7 от пользователя относительно конкретного манипулирования данными (например, конкретного уровня громкости или конкретного языка) для возможности манипулирования данными (например, диапазона регулировки уровня громкости или набора доступных языков).
Со ссылкой на Фиг.1 и 9, генератор 9 потока данных сконфигурирован для обработки потока 15 данных, содержащего кодированные аудиоданные 3 и метаданные 4, принятые интерфейсом 2 приемника, без декодирования кодированных аудиоданных 3. Например, при условии, что процессор 1 аудиоданных согласно изобретению реализован в телевизионной абонентской приставке 19, 26, он может пересылать выходной поток 10, 32 данных на внешний приемник 28, 33 аудио-видео, который содержит декодер. В этом случае, выходной поток 10, 32 данных может быть еще кодированным, поскольку декодирование будет выполняться не телевизионной абонентской приставкой 19, 26, а приемником 28, 33 аудио-видео.
Альтернативно, генератор 9 потока данных сконфигурирован для копирования кодированных аудиоданных 3 и метаданных 4 без изменений в выходном потоке 10 данных.
В любом случае генератор 9 потока данных сконфигурирован для добавления добавочной части данных, содержащей данные 8 управления взаимодействием, к кодированным аудиоданным 3 и/или метаданным 4 в выходном потоке 10 данных, как можно видеть на Фиг.4.
Со ссылкой на Фиг.5 генератор 9 потока данных дополнительно сконфигурирован, чтобы объединять два входных потока 15a, 15b в общий выходной поток 10, причем дополнительная часть данных, содержащая данные 8 управления взаимодействием, добавляется к кодированным аудиоданным 3 и/или метаданным 4 в выходном потоке 10 данных.
Предпочтительно, генератор 9 потока данных сконфигурирован для формирования в выходном потоке 10 данных данных 8 управления взаимодействием в том же формате, что и метаданные 4. Таким образом, данные 8 управления взаимодействием могут легко объединяться с доступными метаданными 4.
Если, как упомянуто выше, генератор 9 потока данных копирует метаданные 4, исходные метаданные 4 могут оставаться в выходном потоке 10 в дополнение к каким-либо манипулируемым метаданным, содержащим дополнительные данные 8 управления взаимодействием для соответственных аудиообъектов 11, 12. И исходные и манипулируемые метаданные могут посылаться на декодер 28, 33, чтобы позволять декодеру 28, 33 либо идентифицировать различия как результат взаимодействия (пользователя) и получать всю информацию о значениях по умолчанию, как предназначено создателем контента, либо вычислять результат взаимодействия (пользователя) из исходных метаданных 4 и манипулируемых метаданных 4ʹ (или данных 8 управления взаимодействием).
Кроме того со ссылкой на Фиг.1, генератор 9 потока данных сконфигурирован для динамического формирования выходного потока 10 данных. Каждый раз, когда пользователь или устройство обеспечивает новые вводимые данные 7 взаимодействия в интерфейс 6 взаимодействия, данные 8 управления взаимодействием обновляются соответственно, чтобы соответствовать упомянутым новым вводимым данным 7 взаимодействия. Генератор 9 потока данных включает эти обновленные данные 8 управления взаимодействием в выходной поток 10 данных.
Фиг. 6 показывает процессор 1 аудиоданных согласно изобретению, причем обрабатывается необязательная аудио информация. Как можно видеть, входной поток 15 данных является основным потоком аудиоданных, содержащим кодированные аудиоданные 3 и связанные метаданные 4. Кроме того, интерфейс 2 приемника дополнительно принимает необязательные аудиоданные 16, содержащие необязательный аудиообъект 17.
Однако метаданные, связанные с упомянутым дополнительным необязательным аудиообъектом ʹAOxʹ 17, то есть информация относительно возможностей манипулирования для упомянутого необязательного аудиообъекта ʹAOxʹ 17, содержится в основном потоке 15 аудиоданных. Таким образом, аудиообъект 17 является известным, но не присутствующим и, следовательно, необязательным.
Например, пользователь прослушивает оркестр, содержащий барабаны, струнные и фортепьяно. Духовые инструменты могут включаться по выбору. Если слушатель желает теперь добавить духовой инструмент, он может сделать это добавлением необязательного духового инструмента, например трубы, в качестве необязательного аудиообъекта 17. Поскольку возможности манипулирования для упомянутой трубы уже содержатся в метаданных 4 в основном потоке 15 аудиоданных, пользователь имеет возможность манипулирования добавленной в текущий момент трубой согласно своим желаниям.
Кроме того со ссылкой на Фиг. 6, упомянутый добавочный аудиообъект ʹAOxʹ 17 может быть отсутствующим аудиообъектом, который не включен в кодированные аудиоданные 3 и/или метаданные 4. Таким образом, аудиообъект 17 не является известным и, следовательно, является отсутствующим.
В этом случае, интерфейс 2 приемника конфигурируется для запроса аудиоданных 16, принадлежащих упомянутому отсутствующему аудиообъекту 17, от поставщика аудиоданных 35. Интерфейс 2 приемника также конфигурируется для приема упомянутых аудиоданных 16 из другого подпотока, содержащегося в широковещательном потоке 36. Интерфейс 2 приемника дополнительно конфигурируется для извлечения упомянутых аудиоданных 16 из сети Интернет 37 через соединение по межсетевому протоколу.
Например, пользователь, смотрящий фильм, может выбрать конкретный язык из доступного набора языков, содержащего, например, английский язык, немецкий язык и французский язык. Четвертый язык является известным, но не присутствующим и, следовательно, является отсутствующим. Однако четвертый язык может впоследствии обеспечиваться через сеть Интернет, например.
Снова со ссылкой на Фиг. 4 и 5, входной поток 15 данных и выходной поток 10 данных могут быть обычно доступными в пакетизированной структуре. Например, транспорт аудио MPEG-H поверх последовательных интерфейсов определен синтаксисом транспорта MHAS (см. раздел 13 в N14459 (проект текста документа Комитета ISO/IEC 23008-3) [1]). Этот синтаксис определяют пакетизированным образом.
Следовательно, для выполнения транспорта манипулируемых метаданных 4 или данных 8 управления взаимодействием только один дополнительный тип пакета подлежит назначению для новой управляющей информации.
Кроме того, первое устройство ʹустройство #1ʹ 19, содержащее процессор 1 аудиоданных, может пожелать добавить добавочные данные 18 заполнения в последующий поток передачи 10, чтобы удовлетворять заданному требованию обычно намного более высокой скорости передачи данных для этой линии связи. Эти данные 18 заполнения могут не содержать информацию и, считается, что подлежат игнорированию вторым устройством, которое принимает манипулируемый выходной поток 10. Чтобы выполнить это, может назначаться дополнительный тип пакета данных.
Кроме того, поскольку транспортный уровень входящих потоков на ʹустройство #1ʹ 19 может иметь свою собственную защиту от ошибок, но исходящая линия связи не предлагает такой уровень безопасности, устройство #1 может добавить пакеты данных, содержащие данные контроля по четности. Они могут добавляться к потокам MHAS в виде дополнительного типа пакета.
Кроме того, поскольку транспортный уровень может передавать добавочные данные в виде дополнительной информации, эти пакеты данных также могут быть упакованы в аудиопоток MHAS в виде другого типа пакета. Примером для этих данных являются дескрипторы в транспортном и программном потоке по MPEG-2.
Другим примером для хранения кодированных аудиоданных является разработанный ISO файловый формат mp4. Подобно потоковому формату, для случая файлового формата также возможно считывать, манипулировать и записывать обратно метаданные в файл или сохранять данные пользовательского управления в дополнение к исходным метаданным без изменения данных кодированного аудиосигнала.
Ссылки
[1] ISO N14459 (ISO/IEC 23008-3 Committee Draft Text)
[2] IEC 60958-3: ʺDigital audio interface - Part 3: Consumer applicationsʺ
[3] IEC 61937-11, ʺDigital audio - Interface for non-linear PCM encoded audio bitstreams applying IEC 60958 - Part 11: MPEG-4 AAC and its extensions in LATM/LOAS"
Обращаясь теперь к Фиг.7, процессор 1 аудиоданных реализуется в виде отдельного устройства ʹустройство #1ʹ 19. В упомянутом отдельном устройстве 19, интерфейс 2 приемника образует вход 20 в отдельное устройство 19 через проводное соединение 21 или беспроводное соединение 22.
Процессор 1 аудиоданных дополнительно содержит выходной интерфейс 23, который подключен к генератору 9 потока данных и обеспечивает выход для устройства 19. Кроме того, выходной интерфейс 23 сконфигурирован, чтобы выводить выходной поток 10 данных через беспроводной интерфейс 24 или проводной блок 25 соединения.
Дополнительные способы выполнения изобретения могут быть описаны на примере в сценарии, в котором являются доступными два отдельных устройства. Первое устройство ʹустройство #1ʹ содержит процессор аудиоданных согласно изобретению. Второе устройство ʹустройство #2ʹ принимает обработанные, но все еще кодированные аудиоданные от ʹустройства #1ʹ для декодирования упомянутых аудиоданных.
Как можно видеть на фигурах Фиг. 8 и 9, первое устройство 19, 26 принимает входной поток 15, содержащий кодированные аудиоданные 3 и связанные метаданные 4. Первое устройство 19, 26 считывает информацию метаданных 4 из входящего потока 15 аудиоданных или транспортного потока и оставляет кодированные данные аудиосигнала 3 неизменными. Первое устройство 19, 26 осуществляет анализ метаданных 4 и представляет информацию об объектах на приложение, например, в интерфейсе 6 взаимодействия, включая ограничения на манипулирование объектом, которые являются частью метаданных 4. Из приложения или интерфейса 6 взаимодействия пользователь может выбирать объекты и оперировать ими, чтобы приспособить презентацию аудио к своим персональным предпочтениям:
- Выбор объекта: например, выбрать один из нескольких языков, выбрать необязательные добавочные аудиообъекты, и т.д.
- Манипулирование объектом: например, изменение громкости объектов, изменение позиции объектов подобно перемещению добавочного комментария от центрального динамика к правому динамику или произвольной позиции между ними,
- Выбор предварительных установок: вместо выбора и манипулирования каждым объектом отдельно, пользователь может также выбрать предварительную установку из метаданных. Предварительной установкой является предварительный выбор объектов, рекомендуемых создателем контента для конкретных приложений или сценариев использования. Предварительная установка может содержать комбинацию объектов, например, с различными уровнями громкости, позициями и данными громкости/динамического диапазона сжатия по сравнению с представлением по умолчанию.
На следующем этапе первое устройство 19, 26 сохраняет информацию об интерактивности пользователя (данные 8 управления взаимодействием) в кодированный поток 10, 32 аудиоданных. Первое устройство 19, 26 может записать либо измененные значения, либо величину манипулирования, например, значения смещения и коэффициент умножения, назад в часть 4 метаданных или выделенную часть потока кодированных аудиоданных, так что выход первого устройства 19, 26 является снова действительным кодированным аудио потоком 10, 32.
Первое устройство 19, 26 может использовать другой идентификатор, метку или тип пакета, чтобы инкапсулировать манипулируемые метаданные, или данные 8 пользовательского управления, соответственно. Исходные метаданные 4 могут оставаться в выходном потоке 10, 32 в дополнение к манипулируемым метаданным. Другой идентификатор, метка или тип пакета используются для манипулируемых метаданных или данных 8 управления взаимодействием, соответственно, чтобы давать возможность второму устройству 28, 33 идентифицировать, было ли манипулирование метаданными 4 ранее. Исходные метаданные 4 остаются в потоке 10, 32, чтобы позволять второму устройству 28, 33 либо идентифицировать различия как результат взаимодействия пользователя или устройства и получать всю информацию о значениях по умолчанию, как намечено создателем контента, либо вычислять результат взаимодействия пользователя или устройства из исходных метаданных 4 и манипулируемых метаданных (или данных 8 пользовательского управления).
В виде части манипулируемых метаданных, данные электронной подписи могут вкладываться в метаданные 4. Подпись может содержать информацию о приложении, устройстве или пользователе, который манипулировал метаданными 4.
Аудиообъекты, которые не выбраны пользователем, могут либо помечаться как отключенные в метаданных 4 или данных 8 управления взаимодействием, либо альтернативно часть кодированного аудио этих объектов может удаляться из аудиопотока 10.
Процесс обработки интерактивности пользователя или устройства может быть динамическим, то есть, каждый раз, когда пользователь или устройство изменяет настройки для выбора и манипулирования, первое устройство 19, 26 записывает эти измененные значения назад в часть 4 метаданных кодированного потока 10 аудиоданных.
Также является возможным, что второе устройство 28, 33 дополнительно манипулирует метаданными 4, либо по причине автоматизированного процесса (например, чтобы приспособить аудио сцену к ситуации прослушивания), либо дополнительного интерфейса взаимодействия. В этом случае, второе устройство 28, 33 может записать манипулируемые значения назад в кодированный поток 10 аудиоданных, например, путем перезаписи значений, записанных первым устройством 19, 26.
С возвратом на Фиг. 6, дополнительный способ выполнения изобретения описывается на примере в так называемом Гибридном варианте использования.
Кодированные аудиоданные 3 выбранных необязательных аудиообъектов 17 могут не быть частью основного потока 15 аудиоданных, но могут доставляться с использованием других транспортных каналов. Например, основной поток 15 аудиоданных доставляют на широковещательном канале, тогда как кодированные аудиоданные 3 необязательного аудиообъекта 17 по запросу доставляют по IP соединению 37.
Полные метаданные 4 для всех объектов включают в основной поток 15 аудиоданных, так что вся информация для взаимодействия и выбора объекта является доступной в первом устройстве 19. Следовательно, процесс обработки взаимодействия и сохранения данных 8 управления взаимодействием в потоке 10 являются идентичными случаю, описанному выше.
Если пользователь выбирает объект 17, и кодированные аудиоданные 3 не являются частью основного потока 15 аудиоданных, первое устройство 19 может принимать кодированные аудиоданные 3 этого объекта 17 на информационном соединении, отличном от основного потока 15 аудиоданных, например, другом подпотоке 36 в широковещательном потоке или IP соединении 37.
На следующем этапе, первое устройство 19 объединяет кодированные аудиоданные 3 выбранного объекта 17 в основной аудиопоток 15, имея в результате полный поток 10 аудиоданных для последующей доставки на второе устройство 33.
Кроме того, предлагается возможность транспортировать данные 8 взаимодействия вложенными в совместимый с MPEG-H битовый поток 10.
Как можно видеть на Фиг. 9, усовершенствованные мультимедийные системы часто не интегрируют всю требуемую функциональность в одном единственном устройстве, а предпочтительнее реализуют различные функциональные компоненты в специализированных устройствах, таких как телевизионная абонентская приставка 26, TV-приемник 27 или AVR-приемник 28, например. Эти устройства осуществляют связь через стандартизированные интерфейсы, такие как HDMI.
Однако также является возможным, что, по меньшей мере, процессор и декодер аудиоданных встраивают в одно одиночное устройство. Может быть обеспечен процессор аудиоданных, то есть встроен или реализован, вместе с декодером в рамках того же (аппаратно-реализованного) устройства. Например, процессор и декодер аудиоданных могут обеспечиваться вместе в TV-приемнике, телевизионной абонентской приставке или AV-приемнике или подобном. Процессор аудиоданных и декодер могут осуществлять связь через структуры внутренних шин данных. Такая конфигурация может быть особенно требуемой в телевизионных устройствах, содержащих решения Системы на кристалле (SoC).
Соответственно или альтернативно, процессор аудиоданных может быть реализован как независимый и отдельный функциональный компонент в том же устройстве, подобно случаю, описанному выше для случая двух отдельных устройств, с единственным различием, что выходной интерфейс выполняет выход процессора аудиоданных на соединение, внутреннее по отношению к устройству, например, использующее внутреннюю шину данных.
Один вариант использования для воспроизведения контента по MPEG-H с множеством участвующих устройств является случаем, когда телевизионная программа принимается первым устройством 19, таким как телевизионная абонентская приставка (STB) 26, которое выбирает соответствующий канал передачи и извлекает соответствующие элементарные потоки, содержащие требуемое кодированное содержание. Взаимодействие, то есть, пользовательское управление для выбора аудио элемента и взаимодействия/манипулирования также обычно является реализуемым здесь.
Декодер MPEG-H 31 может находиться не в STB 26, а в приемнике аудио-видео (AVR) 28 вместо этого. Этот пример использования изображен на Фиг. 9.
В этом случае, извлеченные потоки должны подаваться на AVR 28 для воспроизведения; передача между этими двумя устройствами 26, 28 может выполняться либо путем передачи декодированного/ разуплотненного представления (PCM с аудио), либо, особенно если ограничения полосы пропускания применяются на используемой линии внутренней связи, в кодированном представлении.
AVR 28 затем обеспечивает только интерфейс конфигурирования, к которому обычно осуществляет доступ пользователь только один раз при установке системы, и действует в ʺрежиме ведомогоʺ во время нормальной работы.
Поскольку взаимодействие происходит в STB (устройство #1) 26, и декодирование и воспроизведение реализуются в AVR (устройство #2) 28, обязательно наличие способности посылать информацию интерактивности пользователя от STB 26 на AVR 28.
Чтобы выполнить описанный вариант использования и устранить описанные ограничения, предлагается вкладывать данные 8 информации взаимодействия в кодированный поток 10 аудиоданных, как можно видеть на Фиг. 8.
Первое устройство 19 считывает информацию 4 метаданных из mpegh3daConfig() для входящего потока 15 аудиоданных или посредством внеполосной сигнализации, такой как дескрипторы из документа TS MPEG-2. Оно затем анализирует метаданные 4 аудио элемента и представляет информацию об объектах в интерфейсе 6 взаимодействия, включая ограничения на манипулирование объектом, которые являются частью метаданных 4. Из интерфейса 6 взаимодействия пользователь может выбирать и манипулировать аудио элементом, чтобы приспособить представление аудио к своему персональному предпочтению. ʺДанные взаимодействия пользователяʺ описывают выбор объекта и манипулирование им.
На следующем этапе, первое устройство 19 записывает эти данные в поток 32 аудиоданных MHAS, используя новый (тип пакета) MHASPacketType. Выход первого устройства 19 является снова действительным кодированным аудиопотоком 10, 32. Исходные метаданные 4 в mpegh3daConfig() и данные 3 кодированного аудиосигнала не модифицируют.
Присутствие пакета этого MHASPacketType дает возможность второму устройству 28, 33 идентифицировать, что произошло взаимодействие (пользователя). Исходные метаданные 4 остаются в потоке 10, 32, чтобы позволять второму устройству 10, 33 получать всю информацию о значениях по умолчанию, как намечено создателем контента.
Аудио элементы, которые не выбраны пользователем, могут быть либо помечены как отключенные в метаданных 4, либо альтернативно часть 3 кодированного аудиообъектов может быть удалена из аудиопотока 10.
Процесс обработки взаимодействия, то есть, интерактивность либо устройства, либо пользователя может быть динамической, то есть всякий раз, когда пользователь или устройство изменяют настройки для выбора и манипулирования, первое устройство 19, 26 записывает эти измененные значения назад в указанную часть кодированного потока 10 аудиоданных.
MHAS-расширение
Транспорт аудио в MPEG-H поверх последовательных интерфейсов определен синтаксисом транспорта MHAS (см. раздел 13 из N14459 (проект текста документа комитета 23008-3 ISO/IEC) [1]). Этот синтаксис задается пакетизированным образом. Следовательно, для выполнения транспорта данных взаимодействия пользователя только один дополнительный упакованный тип требует назначения для новой управляющей информации:
Таблица 1 - Синтаксис MHASPacketPayload()
Синтаксис | Количество битов | Мнемоника |
MHASPacketPayload (MHASPacketType) | ||
{ | ||
switch (MHASPacketType) { | ||
case PACTYP_SYNC: | ||
0xA5; /* синхрогруппа */ | 8 | uimsbf |
break; | ||
case PACTYP_MPEGH3DACFG: | ||
mpegh3daConfig(); | ||
break; | ||
case PACTYP_MPEGH3DAFRAME: | ||
mpegh3daFrame(); | ||
break; | ||
case PACTYP_SYNCGAP: | ||
syncSpacingLength=escapedValue(16,24,24); | 16,40,64 | uimsbf |
break; | ||
case PACTYP_MARKER: | ||
for (i=0; i< MHASPacketLength; i++) { | ||
marker_byte(i); | 8 | |
} | ||
break; | ||
case PACTYP_USERINTERACTION: | ||
mpegh3daElementInteraction(); | ||
break; | ||
} | ||
ByteAlign(); | ||
} |
Таблица 2 - Значение MHASPacketType
MHASPacketType | Значение |
PACTYP_SYNC | 0 |
PACTYP_MPEGH3DACFG | 1 |
PACTYP_MPEGH3DAFRAME | 2 |
/* зарезервировано для ISO использования */ | 3-6 |
PACTYP_SYNCGAP | 7 |
PACTYPE_MARKER | 8 |
PACTYP_USERINTERACTION | 12 |
/* зарезервировано для ISO использования */ | 13-127 |
/* зарезервировано для использования вне контекста ISO */ | 128-261 |
/* зарезервировано для ISO использования */ | 262-389 |
/* зарезервировано для использования вне контекста ISO */ | 390-517 |
Примечание: специфические для приложения значения MHASPacketType предписаны находиться в пространстве, зарезервированном для использования вне контекста ISO. Они пропускаются декодером, если минимум структуры требуется декодером для пропуска этих расширений. |
PACTYP_USERINTERACTION
PACTYP_USERINTERACTION в MHASPacketType может использоваться для подачи данных взаимодействия элемента на декодер.
Для этого типа пакета MHASPacketLabel имеет такое же значение, что и пакет PACTYP_MPEGH3DACFG в MHASPacketType, к которому данные взаимодействия (пользователя) 8 относятся.
Синтаксис
Синтаксический элемент mpegh3daElementInteraction() (см. [2]) из интерфейса для взаимодействия пользователя является повторно используемым для переноса данных 8 взаимодействия (пользователя), вложенных в битовый поток 10.
Ссылки
[1] ISO/IEC JTC1/SC29/WG11 N14459, "Text of ISO/IEC 23008-3/CD, 3D audio"
[2] FhG, ʺNormative Interface for User Interactionʺ, Input to the Meeting of AHG on 3D Audio, DRC and Audio Maintenance, June 2-3, 2014, Paris, France
Кроме того, предложен возможный синтаксис для нормативного интерфейса для интерактивности пользователя.
Предлагается извлекать интерфейс для управления взаимодействием из интерфейса для управления воспроизведением. Синтаксический элемент mpegh3daAudioRendering() затем задает параметры воспроизведения и вновь определенный синтаксический элемент mpegh3daElementInteraction() содержит информацию, которая необходима для взаимодействия (пользователя).
Определение синтаксического элемента mepegh3daElementInteraction()
Синтаксический элемент mpegh3daElementInteraction() обеспечивает интерфейс для любых возможных взаимодействий (пользователя). Определены два режима взаимодействия.
Первый является усовершенствованным режимом взаимодействия, где взаимодействие может сигнализироваться для каждой группы элементов, которая присутствует в аудио сцене. Этот режим дает возможность пользователю свободно выбирать (в рамках ограничений группы переключения), какие группы воспроизводить, и взаимодействовать со всеми из них (в рамках заданных диапазонов и ограничений).
Второй режим является основным режимом взаимодействия, где пользователь может выбрать одну из определенных GroupPresets (из синтаксических элементов mae_AudioSceneInfo(), см. 14.2 в [1]) в качестве предварительной установки. Состояние включена-отключена для групп, на которые имеются ссылки в условиях выбранной GroupPresets, затем задается и не может изменяться пользователем. Пользователь может только изменить состояние включена-отключена других групп и позицию и коэффициент усиления для всех групп согласно определенным допущениям и областям значений (частот/дальностей).
Различают четыре различные модификации элемента:
- Интерактивность включена/отключена (On/Off): Группа элементов включена или отключена (Редакционное замечание: называемое ранее ʺизменение объектаʺ [4]),
- Интерактивность позиции: Позиции группы элементов изменяются (азимут, высота и расстояние, Редакционное замечание: называемое ранее ʺизменение позицииʺ [4])
- Интерактивность коэффициента усиления: Изменяется уровень/усиление группы элементов (Редакционное замечание: называемое ранее ʺизменение коэффициента усиленияʺ [4])
- Интерактивность WIRE: Выход WIRE является произвольный выходом в дополнение к подключенным громкоговорителям. Аудио контент элементов группы направляется на выход WIRE, например, контент для прослушивания с ослабленным слухом или дорожка для дополнительного языка.
Все модификации определены на группе уровня элемента, поскольку группы собирают связанные элементы, которыми следует манипулировать только совместно.
Введена подпись, чтобы сигнализировать, например, в каком устройстве имела место интерактивность.
Таблица 3a Синтаксис mpegh3daElementInteraction()
Синтаксис | Количество битов | Мнемоника |
mpegh3daElementInteraction() | ||
{ | ||
ei_InteractionSignatureDataLength; | 8 | uimsbf |
if (ei_InteractionSignatureDataLength>0) { | ||
ei_InteractionSignatureDataType; | 8 | uimsbf |
for (c=0; c < bsInteractionSignatureDataLength+1; c++) { | ||
ei_InteractionSignatureData[c]; | 8 | uimsbf |
} | ||
} | ||
ElementInteractionData(); | ||
} |
ei_InteractionSignatureDataLength Это поле задает длину последующей подписи взаимодействия в байтах.
ei_InteractionSignatureDataType Это поле задает тип подписи. Следующие значения являются возможными:
В Таблице 3b показан дополнительный вариант осуществления mpegh3daElementInteraction():
Таблица 3b Синтаксис mpegh3daElementInteraction()
Синтаксис | Количество битов | Мнемоника |
mpegh3daElementInteraction() | ||
{ | ||
ei_InteractionSignatureDataLength; | 8 | uimsbf |
if (ei_InteractionSignatureDataLength >0) { | ||
ei_InteractionSignatureDataType; | 8 | uimsbf |
for ( c=0; c < bsInteractionSignatureDataLength+1; c++ ) { | ||
ei_InteractionSignatureData [c]; | 8 | uimsbf |
} | ||
} | ||
ElementInteractionData(); | ||
hasLocalZoomAreaSize; | 1 | bslbf |
if (hasLocalZoomAreaSize) { | ||
LocalZoomAreaSize(); | ||
} | ||
} |
Таблица 4a Значение ei_InteractionSignatureDataType
значение | смысл |
0 | Общая строка |
1-127 | Зарезервировано для ISO использования |
128-255 | Зарезервировано для использования вне контекста ISO |
ei_InteractionSignatureData Это поле содержит подпись, задающую создателя данных взаимодействия.
Дополнительный вариант осуществления ei_InteractionSignatureDataType показан в Таблице 4b:
Таблица 4b Значение ei_InteractionSignatureDataType
значение | смысл |
0 | Общая строка в коде UTF-8 согласно ISO/IEC 10646 |
1-127 | Зарезервировано для ISO использования |
128-255 | Зарезервировано для использования вне контекста ISO |
ei_InteractionSignatureData Это поле содержит подпись, задающую создателя данных взаимодействия.
hasLocalZoomAreaSize Флаг, который задает, является ли доступной информация о размере локальной области изменения масштаба. Если этот флаг включен, применяется повторное отображение объекта для изменения масштаба.
Таблица 5 Синтаксис ElementInteractionData()
Синтаксис | Количество битов | Мнемоника |
ElementInteractionData() | ||
{ | ||
ei_interactionMode; | 1 | bslbf |
ei_numGroups; /*Канал, Объект, HOA, SAOC*/ | 7 | uimsbf |
if (ei_interactionMode == 0) { | ||
/* прямое взаимодействие элемента группы=advanced */ | ||
ei_GroupInteractivityStatus (ei_numGroups); | ||
} else { | ||
/* взаимодействие GroupPreset=basic */ | ||
ei_groupPresetID; | 5 | uimsbf |
ei_GroupInteractivityStatus (ei_numGroups); | ||
} |
ei_interactionMode Флаг, который задает, выбран ли усовершенствованный тип взаимодействия или основной режим взаимодействия.
ei_numGroups Это поле содержит число групп в аудио сцене.
ei_groupPresetID Это поле содержит groupPresetID, который задается в аудио сцене. Этот ID отражает предварительно заданный выбор пользователя.
Таблица 6a Синтаксис ei_GroupInteractivityStatus()
Синтаксис | Количество битов | Мнемоника |
ei_GroupInteractivityStatus (numGroups) | ||
{ | ||
for (grp=0; grp < numGroups; grp++) { | ||
ei_groupID[grp]; | 7 | uimsbf |
ei_onOff[grp]; | 1 | bslbf |
ei_routeToWIRE[grp]; | 1 | bslbf |
if (ei_routeToWIRE[grp] == 1) { | ||
routeToWireID[grp]; | 4 | uimsbf |
} | ||
if (ei_onOff[grp] == 1) { | ||
ei_changePosition[grp]; /*изменение позиции*/ | 1 | bslbf |
if (ei_changePosition[grp]) { | ||
ei_azOffset[grp]; | 8 | uimsbf |
ei_elOffset[grp]; | 6 | uimsbf |
ei_distFact[grp]; | 4 | uimsbf |
} | ||
ei_changeGain; /* изменение усиления */ | 1 | bslbf |
if (ei_changeGain) { | ||
ei_gain; | 7 | uimsbf |
} | ||
} | ||
} | ||
} |
ei_groupID Значение GroupID для текущей группы, для которой описано взаимодействие.
ei_routeToWIRE Это поле, которое задает, следует ли направлять аудио контент группы на выход WIRE.
ei_routeToWireID Идентификатор выхода WIRE, куда следует направлять группу.
ei_onOff Задает состояние включена-отключена текущей группы. В случае если выбран основной режим взаимодействия (взаимодействие в GroupPresets), это значение должно быть идентичным заданному состоянию включена-отключена для группы с идентификатором ei_groupID, если эта группа является частью условий выбранной GroupPreset с ei_groupPrersetID. Для основного режима взаимодействия здесь не разрешается сигнализировать другое состояние включена-отключена. Состояние включена-отключена для всех групп, которые не являются частью условий выбранного GroupPreset, состояние включена-отключена может сигнализироваться произвольно.
ei_changePosition Этот флаг задает, была ли изменена позиция элементов группы.
ei_azOffset Изменение азимута дается в виде смещения. Это поле может принимать значения между AzOffset=-180° и AzOffset=180°:
AzOffset=1,5 ⋅ (ei_azOffset - 128)
AzOffset=min(max (AzOffset,-180), 180);
ei_elOffset Изменение азимута дается в виде смещения. Это поле может принимать значения между ElOffset=-90° и ElOffset=90°:
ElOffset=3 ⋅ (ei_elOffset - 32)
ElOffset=min(max(ElOffset,-90), 90);
ei_distFact Интерактивность расстояния дается в виде коэффициента умножения. Поле может принимать значения между 0 до 15, приводя к значению DistFactor между 0,00025 и 8:
DistFactor=min(max(DistFactor, 0,00025), 8);
ei_changeGain Этот флаг задает, было ли изменено усиление/уровень для элементов группы.
ei_gain Это поле задает добавочное усиление для элементов, текущей группы. Поле может принимать значения между 0 и 127, представляющими значения усиления между
Gain =-63 дБ и Gain=31 дБ с шагами в 1 дБ,
при
Gain[дБ]=ei_gain - 64
Gain [дБ]=min/max(Gain,-63), 31);
Если ei_gain установлен в 0, то Gain должно быть установлено в минус бесконечность дБ.
В Таблице 6b показан дополнительный вариант осуществления ei_GroupInteractivityStatus():
Таблица 6b Синтаксис ei_GroupInteractivityStatus()
Синтаксис | Количество битов | Мнемоника |
ei_GroupInteractivityStatus (numGroups) | ||
{ | ||
for (grp=0; grp < numGroups; grp++) { | ||
ei_groupID[grp]; | 7 | uimsbf |
ei_onOff[grp]; | 1 | bslbf |
ei_routeToWIRE[grp]; | 1 | bslbf |
if (ei_routeToWIRE[grp] == 1) { | ||
routeToWireID[grp]; | 16 | uimsbf |
} | ||
if (ei_onOff[grp] == 1) { | ||
ei_changePosition[grp];/*изменение позиции*/ | 1 | bslbf |
if (ei_changePosition[grp]) { | ||
ei_azOffset[grp]; | 8 | uimsbf |
ei_elOffset[grp]; | 6 | uimsbf |
ei_distFact[grp]; | 4 | uimsbf |
} | ||
ei_changeGain; /* изменение усиления */ | 1 | bslbf |
if (ei_changeGain) { | ||
ei_gain; | 7 | uimsbf |
} | ||
} | ||
} | ||
} |
Данные взаимодействия задают согласно полям аудио элемента в метаданных (Metadata Audio Element) (см. 14.2 в [1]). В определении элемента аудио метаданных область значений интерактивности для интерактивности усиления дается в дБ, области значений интерактивности для азимута и высоты даются как минимальное и максимальное значения смещения (с тем же разрешением, как здесь: 1,5° для азимута и 3° для высоты), и области значений для расстояния даются как коэффициенты умножения. Следовательно, интерфейс задается подобным образом.
Для взаимодействия пользователя все возможные изменения (включено/отключено, усиление, позиция, WIRE) для всех групп элементов сигнализируются внутри одного синтаксического элемента ElementInteraction() вместо того, чтобы использовать одно повторение синтаксического элемента для каждого типа взаимодействия и каждой группы или элемента.
Выход WIRE также определен для групп, которые отключают, поскольку только тогда возможно направить дорожки (саундтреки) альтернативного языка на выход WIRE. Возможная нарушенная логика группы переключения должна обрабатываться в декодере.
Тип контента (канал, объект, HOA), который был прежде предложен в [4], здесь удален. Он уже неявно известен согласно groupID, поскольку каждая группа элементов имеет signalGroupType (канал, объект, SAOC, HOA), который задает тип контента сигнала и сигнализируется в синтаксическом элементе Signals3d()).
Основное взаимодействие через GroupPresets
Если установлен режим основного взаимодействия, пользователь может выбрать одну из заданных предустановок GroupPresets (из синтаксического элемента mae_AudioSceneInfo() groupCollection, предложенного в качестве возможной технологи в w14464 [7]).
Условия из выбранной предварительной установки задают состояние включена-отключена указанных групп. Пользователь не должен быть спобным модифицировать состояние «включена-отключена» для этих групп.
Соответствующее поле ei_onOff в синтаксическом элементе ei_GroupInteractivityStatus [2] должно отразить условие в выбранной groupPreset для всех групп, которые указаны в условиях выбранной groupPreset.
Состояние «включена-отключена» всех других групп может быть выбрано пользователем.
Заключение
Этот вклад предлагает определение для интерфейса для взаимодействия пользователя. Обеспечивается определение интерфейса, которое предусматривает два различных режима взаимодействия (основной и усовершенствованный). Предлагается приспособить предложенный интерфейс для CD.
Ссылки
[1] ISO/IEC JTC1/SC29/WG11 N14459, "Text of ISO/IEC 23008-3/CD, 3D audio"
[2] FhG, ʺRendering Interfaces to MPEG-H and Unification of Loudspeaker Signalingʺ, Input to the Meeting of AHG on 3D Audio, DRC and Audio Maintenance, June 2-3, 2014, Paris, France
[3] ISO/IEC JTC1/SC29/WG11 N14463, ʺNormative Interface for Binaural Dataʺ, April 2014, Valencia, Spain
[4] ISO/IEC JTC1/SC29/WG11 M33134, ʺ3D Audio Decoder Interfacesʺ, April 2014, Valencia, Spain (Input from Philips)
[5] ISO/IEC JTC1/SC29/WG11 M31427, ʺThoughts on binaural parameterization of MPEG codecsʺ, October 2013, Geneva, Switzerland (Input from Orange)
[6] ISO/IEC JTC1/SC29/WG11 M30249, ʺBRIR interface format: update and implementationʺ, July 2013, Vienna, Austria (Input from Philips)
[7] ISO/IEC JTC1/SC29/WG11 N14464 ʺCandidate Technologies for 3D Audioʺ
Кроме того, раздел 13 в тексте 23008-3 CD ISO/IEC [1] определяет синтаксис MHAS, подлежащий использованию для инкапсуляции потоков (реального времени) полезной нагрузки 3D аудио по MPEG-H. С помощью этого документа предлагаются дополнительные средства для предоставления возможности надежного использования MHAS в других транспортных системах помимо Транспортного потока по MPEG-2.
Заполнение данными (Filldata)
Некоторыми каналами передачи можно оперировать только на постоянной мгновенной битовой скорости передачи. Для осуществления этого, предложен тип пакета заполнения данных, чтобы иметь способность заполнять поток MHAS до некоторой заданной битовой скорости передачи.
Контроль циклическим избыточным кодом (CRC)
Уровень [2] Транспортного потока в MPEG-2 занимается защитой инкапсулировавшего элементарного потока MHAS. Таким образом, могут идентифицироваться потеря данных или искажение данных в передаче.
С другой стороны, обычные последовательные интерфейсы (например, AES/EBU, S/PDIF, [3], [4], [5]) не обеспечивают достаточной защиты от ошибок. Предложен необязательный тип пакета CRC для предоставления возможности обнаружения ошибок, если MHAS используется на таких интерфейсах.
Инкапсуляция дескриптора
Потоки MHAS используются, чтобы передать кодированное аудио на кодер/декодер транспортного потока MPEG-2 или от такового кодера/декодера. Предлагается передавать связанную информацию дескриптора в дополнительном типе пакета MHAS.
Таблица 7 - Синтаксис MHASPacketPayload()
Синтаксис | Количество битов | Мнемоника |
MHASPacketPayload(MHASPacketType) | ||
{ | ||
switch (MHASPacketType) { | ||
case PACTYP_SYNC: | ||
0xA5; /* синхрогруппа*/ | 8 | uimsbf |
break; | ||
case PACTYP_MPEGH3DACFG: | ||
mpegh3daConfig(); | ||
break; | ||
case PACTYP_MPEGH3DAFRAME: | ||
mpegh3daFrame(); | ||
break; | ||
case PACTYP_FILLDATA: | ||
for (i=0; i< MHASPacketLength; i++) { | ||
mhas_fill_data_byte(i); | 8 | bslbf |
} | ||
break; | ||
case PACTYP_SYNCGAP: | ||
syncSpacingLength=escapedValue(16,24,24); | 16,40,64 | uimsbf |
break; | ||
case PACTYP_MARKER: | ||
for (i=0; i< MHASPacketLength; i++) { | ||
marker_byte(i); | 8 | |
} | ||
break; | ||
case PACTYP_CRC16: | ||
mhasParity16Data; | 16 | bslbf |
break; | ||
case PACTYP_CRC32: | ||
mhasParity32Data; | 32 | bslbf |
break; | ||
case PACTYP_DESCRIPTOR: | ||
for (i=0; i< MHASPacketLength; i++) { | ||
mhas_descriptor_data_byte(i); | 8 | bslbf |
} | ||
break; | ||
} | ||
ByteAlign(); | ||
} |
Таблица 8a - Значение MHASPacketType
MHASPacketType | Значение |
PACTYP_SYNC | 0 |
PACTYP_MPEGH3DACFG | 1 |
PACTYP_MPEGH3DAFRAME | 2 |
/* зарезервировано для ISO использования */ | 3-5 |
PACTYPE_FILLDATA | 6 |
PACTYP_SYNCGAP | 7 |
PACTYPE_MARKER | 8 |
PACTYPE_CRC16 | 9 |
PACTYPE_CRC32 | 10 |
PACTYPE_DESCRIPTOR | 11 |
/* зарезервировано для ISO использования */ | 13-127 |
/* зарезервировано для использования вне контекста ISO */ | 128-261 |
/* зарезервировано для ISO использования */ | 262-389 |
/* зарезервировано для использования вне контекста ISO */ | 390-517 |
Примечание: Специфические для приложения значения MHASPacketType предписаны находиться в пространстве, зарезервированном для использования вне контекста ISO. Они пропускаются декодером, если минимум структуры требуется декодером для пропуска этих расширений. |
Дополнительный вариант осуществления MHASPacketType показан в Таблице 8b:
Таблица 8b - Значение MHASPacketType
MHASPacketType | Значение |
PACTYP_SYNC | 6 |
PACTYP_MPEGH3DACFG | 1 |
PACTYP_MPEGH3DAFRAME | 2 |
/*зарезервировано для ISO использования */ | 3-5 |
PACTYPE_FILLDATA | 0 |
PACTYP_SYNCGAP | 7 |
PACTYPE_MARKER | 8 |
PACTYPE_CRC16 | 9 |
PACTYPE_CRC32 | 10 |
PACTYPE_DESCRIPTOR | 11 |
/*зарезервировано для ISO использования */ | 13-127 |
/* зарезервировано для использования вне контекста ISO */ | 128-261 |
/*зарезервировано для ISO использования */ | 262-389 |
/* зарезервировано для использования вне контекста ISO */ | 390-517 |
Примечание: Специфические для приложения значения MHASPacketType предписаны находиться в пространстве, зарезервированном для использования вне контекста ISO. Они пропускаются декодером, если минимум структуры требуется декодером для пропуска этих расширений. |
mhasParity16Data - 16-разрядное поле, которое содержит значение CRC, которое выдает нулевой выход для 16 регистров в декодере с полиномом: и начальным состоянием 0xFFFF для сдвигового регистра.
mhasParity32Data - 32-разрядное поле, которое содержит значение CRC, которое выдает нулевой выход для 32 регистров в декодере с полиномом:
и начальном состоянии 0xFFFFFFFF сдвигового регистра.
mhas_fill_data_byte - 8-битовые элементы данных, без ограничений для применения
Произвольный доступ/Маркер немедленного проигрывания
Когда первым байтом marker_byte в полезной нагрузке пакета является ʺ0×02ʺ, следующий пакет типа PACTYP_MPEG3DAFRAME с идентичным MHASPacketLabel кодируется, следуя правилам, заданным в разделе 5.5.5 ʺПредпуск аудиоʺ.
Маркер границы программы
Когда первым байтом marker_byte полезной нагрузки пакета является ʺ0×03ʺ, в этой точке во времени имеет место граница программы, и все последующие пакеты принадлежит новой программе.
PSCTYP_CRC16 и PACTYP_CRC32
PACTYP_CRC16 и PACTYP_CRC32 в MHASPacketType могут использоваться для обнаружения ошибок в предшествующем пакете MHAS при MHASPacketLabel, установленной в то же значение. Это должно непосредственно следовать за пакетом MHAS, к которому относится его значение CRC. Это может быть полезным, когда поток MHAS передается по подверженному ошибкам каналу.
Способ обнаружения ошибок использует одно из порождающего полинома и связанных с ним состояний сдвигового регистра, как определено для mhasParity16Data или mhasParity32Data соответственно.
Битами, включенными в контроль CRC, являются полная MHASPacketPayload() для связанного пакета MHAS, за которыми следуют слова mhasParity16Data или mhasParity32Data соответственно.
В случае, где нет ошибок, каждый из выходов сдвигового регистра должен быть нулевым. В кодере с CRC поле mhasParity16Data/mhasParity32Data кодируются значением так, что это гарантируется.
PACTYP_FILLDATA
PACTYP_FILLDATA в MHASPacketType обеспечивает возможность добавлять данные заполнения, чтобы подстроить мгновенную битовую скорость передачи. Это может быть требуемым в некоторых приложениях реального времени, использующих канал передачи с постоянной скоростью.
Поскольку пакеты этого типа не относятся к некоторым данным полезной нагрузки, MHASPacketLabel устанавливают в 0.
Считается, что декодер пренебрегает данными, переданными в пакетах типа PACTYP_FILLDATA. Кроме того, промежуточным инструментальным средствам, обрабатывающим потоки MHAS, позволяется удалять такие пакеты из потока.
Позволяется установить MHASPacketLength в 0. Это дает минимальный размер пакета в 2 байта.
PACTYP_DESCRIPTOR
PACTYP_DESCRIPTOR может использоваться для вложения дескрипторов TS/PS MPEG-2 в потоки MHAS. Данные, передаваемые в виде mhas_descriptor_data_byte, имеют такие же синтаксис и семантику, которые определены для descriptor() в документе 13818-1 ISO/IEC.
Для этого типа пакета и для дескрипторов, переданных в первом цикле дескриптора в TS_program_map_section() (см. документ 13818-1 ISO/IEC), значение MHASPacketLabel устанавливают в 0.
Для этого типа пакета и для дескрипторов, назначенных одному элементарному потоку (то есть второй цикл дескриптора в TS_program_map_section()), MHASPacketLabel устанавливают в то же значение, что и PACTYPE_CONFIG из увязанного с ним элементарного потока.
Ссылки
[1] ISO/IEC JTC1/SC29/WG11 N14459, "Text of ISO/IEC 23008-3/CD, 3D audio"
[2] ISO/IEC 13818 1:2013, Information technology - Generic Coding of moving pictures and associated audio information: Systems
[3] IEC 60958-3: ʺDigital audio interface - Part 3: Consumer applicationsʺ
[4] IEC 61937-11, ʺDigital audio - Interface for non-linear PCM encoded audio bitstreams applying IEC 60958 - Part 11: MPEG-4 AAC and its extensions in LATM/LOAS"
[5] SMPTE 2041: Format for Non-PCM Audio and Data in AES-3 - MPEG-4 AAC and HE AAC Compressed Digital Audio in ADTS and LATM/LOAS Wrappers
Хотя настоящее изобретение было описано в контексте блок-схем, где блоки представляют фактические или логические аппаратно-реализованные компоненты, настоящее изобретение также может быть осуществлено посредством реализуемого компьютером способа. В последнем случае блоки представляют соответствующие этапы способа, где эти этапы обозначают функциональности, выполняемые соответствующими логическими или физическими аппаратными блоками.
Хотя некоторые аспекты были описаны в контексте устройства, ясно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствуют этапу способа или функции этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента или функции соответствующего устройства. Некоторые или все этапы способа могут быть исполняемыми посредством (или с использованием) аппаратно-реализованного устройства, подобного, например, микропроцессору, программируемому компьютеру или электронной схеме. В некоторых вариантах осуществления некоторые один или несколько наиболее важных этапов способа могут исполняться таким устройством.
Передаваемый или кодированный сигнал по изобретению может сохраняться на цифровом носителе данных или может передаваться в среде передачи, такой как беспроводная среда передачи или проводная среда передачи, например, сеть Интернет.
В зависимости от некоторых требований к реализации варианты осуществления изобретения могут быть реализованы аппаратно или программно. Реализация может выполняться с использованием цифрового носителя данных, например, гибкого диска, цифрового многофункционального диска (DVD), диска по технологии Blu-Ray, компакт-диска (CD), памятей ROM, PROM и EPROM, EEPROM или флэш-памяти, имеющих сохраненные на них электронно читаемые управляющие сигналы, которые действуют совместно (или способны действовать совместно) с программируемой компьютерной системой с тем, что выполняется соответственный способ. Следовательно, цифровой носитель данных может быть читаемым компьютером.
Некоторые варианты осуществления согласно изобретению содержат носитель информации с электронно читаемыми управляющими сигналами, которые способны действовать совместно с программируемой компьютерной системой с тем, что выполняется один из способов, описанных здесь.
В общем, варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с кодом программы, оперативно действующим для выполнения одного из способов, когда продукт компьютерной программы работает на компьютере. Код программы, например, может быть сохранен на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для выполнения одного из описанных здесь способов, сохраненную на машиночитаемом носителе.
Другими словами, вариант осуществления способа по изобретению является, следовательно, компьютерной программой с наличием кода программы для выполнения одного из описанных здесь способов, когда компьютерная программа исполняется на компьютере.
Дополнительный вариант осуществления способа по изобретению являет, следовательно, носитель информации (или невременный носитель данных, такой как цифровой носитель данных, или читаемый компьютером носитель), содержащий записанную на нем компьютерную программу для выполнения одного из способов, описанных здесь. Носитель информации, цифровой носитель данных или носитель с записанными данными являются обычно материальными и/или невременными.
Дополнительным вариантом осуществления способа по изобретению является, следовательно, поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных здесь. Поток данных или последовательность сигналов могут, например, быть сконфигурированы с возможностью передаваться через соединение передачи данных, например, через сеть интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, сконфигурированное или приспособленное для выполнения одного из способов, описанных здесь.
Дополнительный вариант осуществления содержит компьютер с наличием установленной на нем компьютерной программы для выполнения одного из способов, описанных здесь.
Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, сконфигурированную для передачи (например, электронно или оптически) компьютерной программы для выполнения одного из описанных здесь способов на приемник. Приемник, например, может быть компьютером, мобильным устройством, запоминающим устройством или подобным. Устройство или система могут, например, содержать файловый сервер для осуществления передачи компьютерной программы на приемник.
В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая вентильная матрица) может использоваться, чтобы выполнять некоторую или всю функциональность способов, описанных здесь. В некоторых вариантах осуществления программируемая вентильная матрица может совместно действовать с микропроцессором для того, чтобы выполнять один из способов, описанных здесь. Обычно способы предпочтительно выполняются каким-либо аппаратно-реализованным устройством.
Вышеописанные варианты осуществления являются просто иллюстративными для принципов настоящего изобретения. Понятно, что модификации и изменения компоновок и деталей, описанных здесь, будут очевидны другим специалистам в данной области техники. Назначение, следовательно, состоит в том, чтобы ограничиваться только объемом последующих пунктов формулы изобретения, а не конкретными деталями, представленными в виде описания и пояснения вариантов осуществления в документе.
Claims (34)
1. Процессор (1) аудиоданных, содержащий:
интерфейс (2) приемника для приема кодированных аудиоданных (3) и метаданных (4), связанных с кодированными аудиоданными (3);
анализатор (5) метаданных для анализа метаданных (4) для определения возможности манипулирования аудиоданными;
интерфейс (6) взаимодействия для приема ввода данных (7) взаимодействия и для формирования исходя из ввода данных (7) взаимодействия данных (8) управления взаимодействием, связанных с возможностью манипулирования аудиоданными; и
генератор (9) потока данных для получения управляющих данных (8) взаимодействия и кодированных аудиоданных (3) и метаданных (4) и для формирования выходного потока (10) данных, выходной поток (10) данных содержит кодированные аудиоданные (3), метаданные (4) и данные (8) управления взаимодействием,
причем генератор (9) потока данных сконфигурирован для обработки входного потока (15) данных, содержащего кодированные аудиоданные (3) и метаданные (4), принятые посредством интерфейса (2) приемника, без декодирования кодированных аудиоданных (3) для формирования выходного потока (10) данных, или для копирования кодированных аудиоданных (3) и по меньшей мере части метаданных (4) без изменений в выходном потоке (10) данных, и для вложения данных (8) управления взаимодействием в выходной поток (10) данных в качестве добавочной части данных.
2. Процессор аудиоданных по п.1, в котором кодированные аудиоданные (3) содержат отдельные кодированные аудиообъекты (11; 12), причем по меньшей мере часть (13; 14) метаданных (4) связана с соответствующим аудиообъектом (11; 12),
при этом анализатор (5) метаданных сконфигурирован для анализа соответствующей части (13; 14) относительно кодированных аудиообъектов (11; 12), чтобы определить по меньшей мере для аудиообъекта (11), возможность манипулирования объектом,
при этом интерфейс (6) взаимодействия сконфигурирован для формирования по меньшей мере для одного кодированного аудиообъекта (11), данных (8) управления взаимодействием исходя из ввода данных (7) взаимодействия, связанного по меньшей мере с одним кодированным аудиообъектом (11).
3. Процессор аудиоданных по п.1, в котором интерфейс (6) взаимодействия сконфигурирован для представления пользователю возможности манипулирования аудиоданными, выведенной из метаданных (4) анализатором (5) метаданных, и для приема от пользователя пользовательского ввода (7) по конкретному манипулированию данными в возможности манипулирования данными.
4. Процессор аудиоданных по п.1, причем интерфейс (6) взаимодействия сконфигурирован для формирования данных (8) управления взаимодействием таким образом, что данные (8) управления взаимодействием представлены измененными значениями метаданных или величиной манипулирования по отношению к метаданным (4).
5. Процессор аудиоданных по п.1, в котором генератор (9) потока данных сконфигурирован для формирования в выходном потоке (10) данных (8) управления взаимодействием в том же формате, что и метаданные (4).
6. Процессор аудиоданных поп.1, в котором генератор (9) потока данных сконфигурирован, чтобы связывать с данными (8) управления взаимодействием идентификатор в выходном потоке (10) данных, идентификатор является отличным от идентификатора, связанного с метаданными (4).
7. Процессор аудиоданных по п.1, в котором генератор (9) потока данных сконфигурирован, чтобы добавлять к данным (8) управления взаимодействием данные подписи, указывающие информацию о приложении, устройстве или пользователе, выполняющем манипулирование аудиоданными или обеспечивающем вводимые данные взаимодействия.
8. Процессор аудиоданных по п.1, в котором анализатор (5) метаданных сконфигурирован для идентификации возможности отключения для одного или нескольких аудиообъектов (11, 12), представленных кодированными аудиоданными (3),
причем интерфейс (6) взаимодействия сконфигурирован для приема информации отключения для одного или нескольких аудиообъектов (11, 12), и
при этом генератор (9) потока данных сконфигурирован для пометки одного или нескольких аудиообъектов (11, 12) как отключенных в управляющих данных (8) взаимодействия.
9. Процессор аудиоданных по п.1, в котором генератор (9) потока данных сконфигурирован для динамического формирования выходного потока (10) данных, причем в ответ на новый ввод данных (7) взаимодействия, данные (8) управления взаимодействием обновляют для соответствия новому вводу данных (7) взаимодействия, и при этом генератор (9) потока данных сконфигурирован для включения обновленных данных (8) управления взаимодействием в выходной поток (10) данных.
10. Процессор аудиоданных по п.1, в котором интерфейс (2) приемника сконфигурирован для приема основного потока (15) аудиоданных, содержащего кодированные аудиоданные (3) и метаданные (4), связанные с кодированными аудиоданными (3), и для дополнительного приема добавочных аудиоданных (16), содержащих необязательные аудиообъекты (17),
при этом метаданные (4), связанные с упомянутым необязательным аудиообъектом (17), содержатся в упомянутом основном потоке (15) аудиоданных.
11. Процессор аудиоданных по п.1, в котором анализатор (5) метаданных сконфигурирован для определения возможности манипулирования аудио для необязательного аудиообъекта (17), не включенного в кодированные аудиоданные (3),
причем интерфейс (6) взаимодействия сконфигурирован для приема ввода данных (7) взаимодействия относительно о необязательного аудиообъекта (17), и
при этом интерфейс (2) приемника сконфигурирован для запроса аудиоданных (16) относительно необязательного аудиообъекта (17) от поставщика (35) аудиоданных или для приема аудиоданных (16) относительно отсутствующего аудиообъекта (17) из другого подпотока, содержащегося в широковещательном потоке (36), или соединения (37) по межсетевому протоколу.
12. Процессор аудиоданных по п.1, в котором генератор (9) потока данных сконфигурирован для назначения в выходном потоке (10) данных дополнительного типа пакета данным (8) управления взаимодействием, дополнительный тип пакета является отличным от типов пакетов для кодированных аудиоданных (3) и метаданных (4), или
при этом генератор (9) потока данных сконфигурирован, чтобы добавлять в выходной поток (10) данных данные (18) заполнения в типе пакета данных заполнения, причем количество данных (18) заполнения определяют на основании требования к скорости передачи данных, определяемого выходным интерфейсом процессора аудиоданных.
13. Процессор аудиоданных по п.1, реализуемый в виде отдельного первого устройства (19), которое отделено от второго устройства (28), которое сконфигурировано для приема обработанных, но еще кодированных аудиоданных от первого устройства (19) для декодирования упомянутых аудиоданных, причем интерфейс (2) приемника образует вход (20) в отдельное первое устройство (19) через соединение проводной (21) или беспроводной (22) связи, при этом процессор (1) аудиоданных дополнительно содержит выходной интерфейс (23), подключенный к генератору (9) потока данных, выходной интерфейс (23), конфигурируемый для вывода выходного потока (10) данных, причем выходной интерфейс (23) выполняет выход отдельного первого устройства (19) и содержит беспроводной интерфейс (24) или проводной блок (25) соединения.
14. Способ для обработки аудиоданных, содержащий:
прием кодированных аудиоданных (3) и метаданных (4), связанных с кодированными аудиоданными (3);
анализ метаданных (4) для определения возможности манипулирования аудиоданными;
прием ввода данных (7) взаимодействия и формирование, исходя из ввода данных (7) взаимодействия, данных (8) управления взаимодействием, связанных с возможностью манипулирования аудиоданными; и
получение данных (8) управления взаимодействием и кодированных аудиоданных (3) и метаданных (4) и формирование выходного потока (10) данных, выходной поток (10) данных содержит кодированные аудиоданные (3) по меньшей мере часть метаданных (4) и данные (8) управления взаимодействием,
обработку входного потока (15) данных, содержащего кодированные аудиоданные (3) и метаданные (4), без декодирования кодированных аудиоданных (3) для формирования выходного потока (10) данных или копирование кодированных аудиоданных (3) и по меньшей мере части метаданных (4) без изменения в выходном потоке (10) данных, и
вложение данных (8) управления взаимодействием в выходной поток (10) данных в качестве добавочной части данных.
15. Машиночитаемый носитель, содержащий компьютерную программу для выполнения, при исполнении на компьютере или процессоре, способа обработки аудиоданных по п.14.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14170416 | 2014-05-28 | ||
EP14170416.3 | 2014-05-28 | ||
PCT/EP2015/056768 WO2015180866A1 (en) | 2014-05-28 | 2015-03-27 | Data processor and transport of user control data to audio decoders and renderers |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2653858C1 true RU2653858C1 (ru) | 2018-05-15 |
Family
ID=50884250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2016151354A RU2653858C1 (ru) | 2014-05-28 | 2015-03-27 | Процессор данных и транспорт данных пользовательского управления на устройства декодирования и воспроизведения аудио |
Country Status (19)
Country | Link |
---|---|
US (5) | US10674228B2 (ru) |
EP (4) | EP4236331A3 (ru) |
JP (1) | JP6371416B2 (ru) |
KR (1) | KR101967810B1 (ru) |
CN (2) | CN106537929B (ru) |
AR (6) | AR100623A1 (ru) |
AU (1) | AU2015266343B2 (ru) |
BR (1) | BR112016027639B1 (ru) |
CA (1) | CA2950197C (ru) |
ES (3) | ES2739886T3 (ru) |
MX (1) | MX359385B (ru) |
MY (1) | MY174199A (ru) |
PL (3) | PL3149955T3 (ru) |
PT (2) | PT3522554T (ru) |
RU (1) | RU2653858C1 (ru) |
SG (1) | SG11201609920SA (ru) |
TW (1) | TWI587283B (ru) |
WO (1) | WO2015180866A1 (ru) |
ZA (1) | ZA201608160B (ru) |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2581810C (en) | 2004-10-26 | 2013-12-17 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
TWI529703B (zh) | 2010-02-11 | 2016-04-11 | 杜比實驗室特許公司 | 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法 |
CN103325380B (zh) | 2012-03-23 | 2017-09-12 | 杜比实验室特许公司 | 用于信号增强的增益后处理 |
US10844689B1 (en) | 2019-12-19 | 2020-11-24 | Saudi Arabian Oil Company | Downhole ultrasonic actuator system for mitigating lost circulation |
EP2850612B1 (en) | 2012-05-18 | 2019-04-10 | Dolby Laboratories Licensing Corporation | System for maintaining reversible dynamic range control information associated with parametric audio coders |
MX2021011251A (es) | 2013-01-21 | 2022-10-28 | Dolby Laboratories Licensing Corp | Codificador y decodificador de audio con metadatos de límite y sonoridad de programa. |
BR122020007931B1 (pt) | 2013-01-21 | 2022-08-30 | Dolby International Ab | Dispositivo de processamento de áudio e método para decodificar um ou mais quadros de um fluxo de bits de áudio codificado |
US9715880B2 (en) | 2013-02-21 | 2017-07-25 | Dolby International Ab | Methods for parametric multi-channel encoding |
CN107093991B (zh) | 2013-03-26 | 2020-10-09 | 杜比实验室特许公司 | 基于目标响度的响度归一化方法和设备 |
EP2981910A1 (en) | 2013-04-05 | 2016-02-10 | Dolby Laboratories Licensing Corporation | Acquisition, recovery, and matching of unique information from file-based media for automated file detection |
TWM487509U (zh) | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
CN105531759B (zh) | 2013-09-12 | 2019-11-26 | 杜比实验室特许公司 | 用于下混合音频内容的响度调整 |
CN109979472B (zh) | 2013-09-12 | 2023-12-15 | 杜比实验室特许公司 | 用于各种回放环境的动态范围控制 |
CN110808723B (zh) | 2014-05-26 | 2024-09-17 | 杜比实验室特许公司 | 音频信号响度控制 |
EP3196876B1 (en) * | 2014-09-04 | 2020-11-18 | Sony Corporation | Transmitting device, transmitting method, receiving device and receiving method |
EP4254405A3 (en) * | 2014-09-30 | 2023-12-13 | Sony Group Corporation | Transmitting device, transmission method, receiving device, and receiving method |
EP3518236B8 (en) | 2014-10-10 | 2022-05-25 | Dolby Laboratories Licensing Corporation | Transmission-agnostic presentation-based program loudness |
TWI631835B (zh) * | 2014-11-12 | 2018-08-01 | 弗勞恩霍夫爾協會 | 用以解碼媒體信號之解碼器、及用以編碼包含用於主要媒體資料之元資料或控制資料的次要媒體資料之編碼器 |
JP6699564B2 (ja) * | 2015-02-10 | 2020-05-27 | ソニー株式会社 | 送信装置、送信方法、受信装置および受信方法 |
WO2016129981A1 (ko) | 2015-02-13 | 2016-08-18 | 삼성전자 주식회사 | 미디어 데이터를 송수신하는 방법 및 장치 |
EP4436072A2 (en) | 2015-06-02 | 2024-09-25 | Sony Group Corporation | Transmission device, transmission method, media processing device, media processing method, and reception device |
KR102668642B1 (ko) * | 2015-06-17 | 2024-05-24 | 소니그룹주식회사 | 송신 장치, 송신 방법, 수신 장치 및 수신 방법 |
US10027994B2 (en) * | 2016-03-23 | 2018-07-17 | Dts, Inc. | Interactive audio metadata handling |
US10492016B2 (en) * | 2016-09-29 | 2019-11-26 | Lg Electronics Inc. | Method for outputting audio signal using user position information in audio decoder and apparatus for outputting audio signal using same |
JP6955029B2 (ja) | 2017-01-10 | 2021-10-27 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | オーディオデコーダ、オーディオエンコーダ、復号化オーディオ信号の供給方法、符号化オーディオ信号の供給方法、オーディオストリーム、オーディオストリーム供給器、ストリーム識別子を使用するオーディオストリーム供給器およびコンピュータプログラム |
US11595774B2 (en) | 2017-05-12 | 2023-02-28 | Microsoft Technology Licensing, Llc | Spatializing audio data based on analysis of incoming audio data |
WO2019046065A1 (en) | 2017-08-28 | 2019-03-07 | Dolby Laboratories Licensing Corporation | NAVIGATION METADATA WITH MULTIMEDIA CONTENT AWARENESS |
CN108122558B (zh) * | 2017-12-22 | 2020-12-29 | 深圳国微技术有限公司 | 一种latm aac音频流的实时转容实现方法及装置 |
CN115691519A (zh) | 2018-02-22 | 2023-02-03 | 杜比国际公司 | 用于处理嵌入在mpeg-h 3d音频流中的辅媒体流的方法及设备 |
WO2019203627A1 (ko) * | 2018-04-20 | 2019-10-24 | 엘지전자 주식회사 | 트랜지션 이펙트에 관한 오디오 데이터를 송수신하는 방법 및 그 장치 |
CN108521584B (zh) * | 2018-04-20 | 2020-08-28 | 广州虎牙信息科技有限公司 | 互动信息处理方法、装置、主播侧设备和介质 |
KR102352721B1 (ko) | 2018-05-07 | 2022-01-19 | 애플 인크. | 라이브 비디오 피드들 및 기록된 비디오를 보기 위한 사용자 인터페이스들 |
WO2020038938A1 (en) | 2018-08-21 | 2020-02-27 | Dolby International Ab | Methods, apparatus and systems for generation, transportation and processing of immediate playout frames (ipfs) |
JP7196331B2 (ja) * | 2019-03-15 | 2022-12-26 | ドルビー・インターナショナル・アーベー | ニューラルネットワークを更新するための方法および装置 |
US11622219B2 (en) * | 2019-07-24 | 2023-04-04 | Nokia Technologies Oy | Apparatus, a method and a computer program for delivering audio scene entities |
CN110413253A (zh) * | 2019-08-02 | 2019-11-05 | 北京清流鼎点科技有限公司 | 音频设备控制方法和装置、音频设备及存储介质 |
US11967330B2 (en) | 2019-08-15 | 2024-04-23 | Dolby International Ab | Methods and devices for generation and processing of modified audio bitstreams |
KR102253524B1 (ko) * | 2019-09-02 | 2021-05-20 | 네이버 주식회사 | 라우드니스 정규화 방법 및 시스템 |
EP4062649A2 (en) * | 2019-11-20 | 2022-09-28 | Dolby International AB | Methods and devices for personalizing audio content |
CN114115787B (zh) * | 2020-09-01 | 2024-10-18 | 瑞昱半导体股份有限公司 | 用于音频传输界面上进行数据传输的信号传输方法与装置 |
WO2022051112A1 (en) | 2020-09-05 | 2022-03-10 | Apple Inc. | User interfaces for managing audio for media items |
CN114650456B (zh) * | 2020-12-17 | 2023-07-25 | 深圳Tcl新技术有限公司 | 一种音频描述符的配置方法、系统、存储介质及配置设备 |
KR20230021508A (ko) * | 2021-08-05 | 2023-02-14 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 멀티미디어 재생 방법 |
EP4322536A4 (en) | 2021-08-05 | 2024-10-09 | Samsung Electronics Co Ltd | ELECTRONIC DEVICE AND METHOD FOR MULTIMEDIA PLAYBACK IN AN ELECTRONIC DEVICE |
EP4458023A1 (en) * | 2021-12-30 | 2024-11-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-device and multi-user personalized and interactive audio through social media metadata |
US11785285B1 (en) * | 2022-05-20 | 2023-10-10 | Lenbrook Industries Limited | Audio video receiver (AVR) architecture |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2393556C2 (ru) * | 2005-01-28 | 2010-06-27 | Панасоник Корпорейшн | Носитель записи, устройство воспроизведения и способы записи и воспроизведения |
EP2637427A1 (en) * | 2012-03-06 | 2013-09-11 | Thomson Licensing | Method and apparatus for playback of a higher-order ambisonics audio signal |
WO2013153967A1 (ja) * | 2012-04-13 | 2013-10-17 | 船井電機株式会社 | 音声信号出力機器および音声出力システム |
US20140119581A1 (en) * | 2011-07-01 | 2014-05-01 | Dolby Laboratories Licensing Corporation | System and Tools for Enhanced 3D Audio Authoring and Rendering |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6642966B1 (en) | 2000-11-06 | 2003-11-04 | Tektronix, Inc. | Subliminally embedded keys in video for synchronization |
US7546173B2 (en) | 2003-08-18 | 2009-06-09 | Nice Systems, Ltd. | Apparatus and method for audio content analysis, marking and summing |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
JP4229058B2 (ja) * | 2004-12-10 | 2009-02-25 | ヤマハ株式会社 | 端末装置および記録媒体 |
US7573912B2 (en) | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
TW200638335A (en) | 2005-04-13 | 2006-11-01 | Dolby Lab Licensing Corp | Audio metadata verification |
KR100749503B1 (ko) * | 2005-08-29 | 2007-08-14 | 엠텍비젼 주식회사 | 프로세서와 오디오 입출력 제어기가 데이터 메모리를공유하는 방법 및 이를 위한 장치 |
FR2910586B1 (fr) * | 2006-12-22 | 2009-02-06 | Vernet Sa | Vanne thermostatique de regulation d'un fluide, circuit de liquide de refroidissement incorporant une telle vanne et procede de fabrication d'une telle vanne. |
US8175289B2 (en) * | 2008-03-13 | 2012-05-08 | Gordon Raymond L | Digital audio distribution network |
EP2146522A1 (en) * | 2008-07-17 | 2010-01-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating audio output signals using object based metadata |
US8798776B2 (en) * | 2008-09-30 | 2014-08-05 | Dolby International Ab | Transcoding of audio metadata |
EP2441268A1 (en) | 2009-06-09 | 2012-04-18 | Thomson Licensing | Decoding apparatus, decoding method, and editing apparatus |
PL2491551T3 (pl) | 2009-10-20 | 2015-06-30 | Fraunhofer Ges Forschung | Urządzenie do dostarczania reprezentacji sygnału upmixu w oparciu o reprezentację sygnału downmixu, urządzenie do dostarczania strumienia bitów reprezentującego wielokanałowy sygnał audio, sposoby, program komputerowy i strumień bitów wykorzystujący sygnalizację sterowania zniekształceniami |
US8908874B2 (en) * | 2010-09-08 | 2014-12-09 | Dts, Inc. | Spatial audio encoding and reproduction |
US9258665B2 (en) * | 2011-01-14 | 2016-02-09 | Echostar Technologies L.L.C. | Apparatus, systems and methods for controllable sound regions in a media room |
WO2013078056A1 (en) * | 2011-11-22 | 2013-05-30 | Dolby Laboratories Licensing Corporation | Method and system for generating an audio metadata quality score |
US9516446B2 (en) * | 2012-07-20 | 2016-12-06 | Qualcomm Incorporated | Scalable downmix design for object-based surround codec with cluster analysis by synthesis |
US9826328B2 (en) * | 2012-08-31 | 2017-11-21 | Dolby Laboratories Licensing Corporation | System for rendering and playback of object based audio in various listening environments |
MX2021011251A (es) * | 2013-01-21 | 2022-10-28 | Dolby Laboratories Licensing Corp | Codificador y decodificador de audio con metadatos de límite y sonoridad de programa. |
WO2015140082A1 (en) * | 2014-03-18 | 2015-09-24 | Koninklijke Philips N.V. | Audiovisual content item data streams |
US9971319B2 (en) * | 2014-04-22 | 2018-05-15 | At&T Intellectual Property I, Lp | Providing audio and alternate audio simultaneously during a shared multimedia presentation |
CN106465036B (zh) * | 2014-05-21 | 2018-10-16 | 杜比国际公司 | 配置经由家庭音频回放系统的音频的回放 |
-
2015
- 2015-03-27 ES ES15713461T patent/ES2739886T3/es active Active
- 2015-03-27 CN CN201580028647.8A patent/CN106537929B/zh active Active
- 2015-03-27 EP EP23176867.2A patent/EP4236331A3/en active Pending
- 2015-03-27 EP EP15713461.0A patent/EP3149955B1/en active Active
- 2015-03-27 ES ES20209268T patent/ES2956362T3/es active Active
- 2015-03-27 EP EP19163481.5A patent/EP3522554B1/en active Active
- 2015-03-27 PL PL15713461T patent/PL3149955T3/pl unknown
- 2015-03-27 CN CN201910510021.0A patent/CN110177297B/zh active Active
- 2015-03-27 WO PCT/EP2015/056768 patent/WO2015180866A1/en active Application Filing
- 2015-03-27 MY MYPI2016002089A patent/MY174199A/en unknown
- 2015-03-27 PL PL19163481T patent/PL3522554T3/pl unknown
- 2015-03-27 BR BR112016027639-6A patent/BR112016027639B1/pt active IP Right Grant
- 2015-03-27 EP EP20209268.0A patent/EP3800898B1/en active Active
- 2015-03-27 JP JP2016569951A patent/JP6371416B2/ja active Active
- 2015-03-27 MX MX2016015388A patent/MX359385B/es active IP Right Grant
- 2015-03-27 PT PT191634815T patent/PT3522554T/pt unknown
- 2015-03-27 PT PT15713461T patent/PT3149955T/pt unknown
- 2015-03-27 RU RU2016151354A patent/RU2653858C1/ru active
- 2015-03-27 AU AU2015266343A patent/AU2015266343B2/en active Active
- 2015-03-27 KR KR1020167036597A patent/KR101967810B1/ko active IP Right Grant
- 2015-03-27 ES ES19163481T patent/ES2883498T3/es active Active
- 2015-03-27 SG SG11201609920SA patent/SG11201609920SA/en unknown
- 2015-03-27 CA CA2950197A patent/CA2950197C/en active Active
- 2015-03-27 PL PL20209268.0T patent/PL3800898T3/pl unknown
- 2015-05-25 TW TW104116674A patent/TWI587283B/zh active
- 2015-05-27 AR ARP150101659A patent/AR100623A1/es active IP Right Grant
-
2016
- 2016-11-21 US US15/357,640 patent/US10674228B2/en active Active
- 2016-11-24 ZA ZA2016/08160A patent/ZA201608160B/en unknown
-
2020
- 2020-05-13 US US15/931,422 patent/US11381886B2/en active Active
-
2022
- 2022-04-26 AR ARP220101085A patent/AR125773A2/es unknown
- 2022-04-26 AR ARP220101088A patent/AR125776A2/es unknown
- 2022-04-26 AR ARP220101086A patent/AR125774A2/es unknown
- 2022-04-26 AR ARP220101084A patent/AR125772A2/es unknown
- 2022-04-26 AR ARP220101087A patent/AR125775A2/es unknown
- 2022-05-20 US US17/664,397 patent/US11743553B2/en active Active
-
2023
- 2023-07-05 US US18/347,546 patent/US12035018B2/en active Active
-
2024
- 2024-06-17 US US18/745,720 patent/US20240357212A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2393556C2 (ru) * | 2005-01-28 | 2010-06-27 | Панасоник Корпорейшн | Носитель записи, устройство воспроизведения и способы записи и воспроизведения |
US20140119581A1 (en) * | 2011-07-01 | 2014-05-01 | Dolby Laboratories Licensing Corporation | System and Tools for Enhanced 3D Audio Authoring and Rendering |
EP2637427A1 (en) * | 2012-03-06 | 2013-09-11 | Thomson Licensing | Method and apparatus for playback of a higher-order ambisonics audio signal |
WO2013153967A1 (ja) * | 2012-04-13 | 2013-10-17 | 船井電機株式会社 | 音声信号出力機器および音声出力システム |
Non-Patent Citations (1)
Title |
---|
Text of ISO/IEC 23008-3/CD, 3D audio, 108. MPEG MEETING, MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11. * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2653858C1 (ru) | Процессор данных и транспорт данных пользовательского управления на устройства декодирования и воспроизведения аудио | |
KR101800604B1 (ko) | 오브젝트 기반 오디오의 상호 작용적 렌더링을 위한 방법들 및 시스템들 | |
JP2017513297A (ja) | オーディオビジュアルコンテンツアイテムデータストリーム |