[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN102934162A - 搜索随后被重放的包括基本层和至少一个增强层分层分级比特流的方法和设备 - Google Patents

搜索随后被重放的包括基本层和至少一个增强层分层分级比特流的方法和设备 Download PDF

Info

Publication number
CN102934162A
CN102934162A CN2011800287561A CN201180028756A CN102934162A CN 102934162 A CN102934162 A CN 102934162A CN 2011800287561 A CN2011800287561 A CN 2011800287561A CN 201180028756 A CN201180028756 A CN 201180028756A CN 102934162 A CN102934162 A CN 102934162A
Authority
CN
China
Prior art keywords
bit stream
layer
data
basic layer
enhancement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800287561A
Other languages
English (en)
Other versions
CN102934162B (zh
Inventor
P.杰克斯
S.科顿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
International Digital Madison Patent Holding SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of CN102934162A publication Critical patent/CN102934162A/zh
Application granted granted Critical
Publication of CN102934162B publication Critical patent/CN102934162B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4621Controlling the complexity of the content stream or additional data, e.g. lowering the resolution or bit-rate of the video stream for a mobile client with a small screen
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一个两层的分级音频比特流可以具有基本层比特流的基于帧的结构,并且可以独立于更高层被解码,解码可以在每个同步首标之后开始。在扩展层比特流中,帧结构可能未反映在比特流层级上。为了方便在如此高度压缩的扩展层数据中进行寻找操作,扩展层比特流的首标包括具有寻找目标位置的FAT表。由于在增强层中进入点少于基本层中的同步首标,因此需要重新同步以及某些基本层帧以开始解码增强层并生成完整的音频质量。描述了三种寻找方式,每一种都提供了一种在寻找精度、重新同步等待时间和音频质量之间的不同的折衷方案。

Description

搜索随后被重放的包括基本层和至少一个增强层分层分级比特流的方法和设备
技术领域
本发明涉及用于搜索随后重放的分层分级比特流(layered hierarchical bitstream)的方法和装置,所述比特流包括基本层和具有比基本层更少的入口点的至少一个增强层。
背景技术
与有损音频编码技术相比(如mp3、AAC等),无损压缩算法仅利用原始音频信号的冗余性降低数据率。如在目前最先进的有损音频编解码器中的心理声学模型所识别的那样,依靠不相关性是不可能的。因此,所有无损音频编码方案常用的技术原理是应用滤波或变换以去相关(例如,预测滤波或频率变换),然后以无损方式对已变换的信号进行编码。已编码的比特流包括变换或滤波的参数以及已变换信号的无损表示。
例如,可参照J.Makhoul的《Linear prediction:A tutorial review》,(Proceedings of the IEEE,Vol.63,pp.561-580,1975),T.Painter和A.Spanias的《Perceptual coding of digital audio》(Proceedings of the IEEE,Vol.88,No.4,pp.451-513,2000),以及M.Hans和R.W.Schafer的《Lossless compression ofdigital audio》(IEEE信号处理杂志,2001年7月,pp.21-32)。
基于有损的无损编码的基本原理如下:在编码部分,PCM音频输入信号SPCM通过有损编码器到达有损解码器,并作为有损比特流到达解码部分的有损解码器,借此使用有损编码和解码对信号进行去相关处理。编码部分的有损解码器的输出信号被从输入信号SPCM中除去,由此得到的差信号作为扩展比特流通过无损编码器到达解码部分的无损解码器。对解码部分的有损解码器和无损解码器的输出信号进行组合以再次获得原始信号SPCM
该基本原理在EP-B-0756386和US-B-6498811中公开,在P.Craven和M.Gerzon的《Lossless Coding for Audio Discs》(J.Audio Eng.Soc.,Vol.44,No.9,1996年9月),以及J.Koller、Th.Sporer和K.H.Brandenburg的《RobustCoding of High Quality Audio Signals》(AES 103rd Convention,Preprint 4621,1997年8月)中也有讨论。更具体地说,在有损编码器中,PCM音频输入信号SPCM通过分析滤波器组(filter bank)和子带样本量化以便编码和比特流打包,其中使用从分析滤波器组接收信号SPCM和相应的信息的感知模型计算器控制量化过程。
在解码器侧,对已编码的有损比特流输入进行解包,有损解码器对子带样本进行解码,合成滤波器组输出已解码的有损PCM信号。
标准ISO/IEC 11172-3(MPEG-1音频)详细描述了有损编码和解码的实例。
对由编码产生的两个或更多的差信号或比特流进行组合以形成单个输出信号。相似的解决方案对例如MPEG环绕、mp3PRO和AAC+也存在。对于后两个实例,将添加到基本层数据流(AAC或mp3)上的额外数据量(SBR信息)较小。因此,这些额外信息可以被打包成符合标准的AAC或mp3比特流,例如作为“辅助数据”。尽管环绕信息的额外数据量比SBR信息的要大,但是仍然可以用相同方式将这些数据打包成符合标准的比特流。
使用相似技术的另外一个应用是添加到mp3标准音频流上的ID3标签,如在http://www.id3.org中所述。数据被添加在已有mp3文件的开头或结尾。使用了一种特殊机制以使得mp3解码器不会试图对这些额外信息进行解码。
然而,对基于有损的无损编码,额外信息量超过基本层的数据量多个基本层数据量。因此,额外数据不能被完全打包成基本层数据流,例如,作为辅助数据。由有损编码格式和无损编码扩展组合形成的至少两个数据流就是包含有损编码信息(例如,标准编码算法)以及用于重建数学上无损的原始输入信号的增强数据流的基本层。还有可能有其它的若干中间层,每个都具有自己的数据流。然而,这些数据流都不是独立的。每个较高的层都依赖于较低的层,并且只有在与这些较低的层结合时才能被合理地解码。
更通用地,数据格式使用具有一个基本层BL和一个或多个增强层EL的分级层。层内的数据通常被分组化,即组织为若干分组或若干帧。虽然可以对单独的BL信号解码以获得可复制的多媒体数据,且单独的BL信号包括所有用于基本解码的信息,但是EL信号包括不可以被单独解码以获得有用的多媒体数据的额外信息。而是,EL数据紧紧地耦合在BL数据上,并且仅只能和BL数据一起使用。通常将BL和EL数据相加或相互叠加,用于常规解码或在其被单独解码之后。在任一种情形中,都必须同步EL数据和BL数据,原因是若不这样做EL数据就不会表示有用信息。
将数据率保持为尽量低的水平是期望的,这要求使用高级的数据压缩方法。可变长度编码VLC被用于对数据字进行编码,其数值直方图非均匀分布。出现较为频繁(即具有较高概率)的数据字被编码成较短的码字,而出现概率较低的数据字被编码成较长的码字。因此,已编码消息中的平均比特量比使用固定码字长度更短。然而,使用例如VLC的高度压缩处理对比特错误比较敏感,这可能导致全部数据丢失。尤其对于VLC,失去同步性之后,确定哪一个比特属于某个码字是不可能的。
一种已知的用于限制可能的数据丢失的解决方案是插入可以被以非常高的概率识别的独特同步字。然而,这种独特同步字会增加数据率,并且使用的同步字越多,数据率就越高。
另一个挑战是尽可能快地——搜索或寻找(seek)运行中或存储的音频节目中的特定时间点,即,直接跳至音轨中特定的帧或样本。
在下面的描述中,“寻找”的意思是在音频比特流中搜索。因此,寻找使得用户能够跳到已编码信号中的期望位置的音频解码器的一部分。寻找位置由待跳过的样本数目、重放时间或以音轨总持续时间的百分比给定。
寻找过程较强地依赖于音频格式的组织形式。大部分已建立的音频格式像MPEG-1层III或AAC都是流传输格式,这种格式都组织为若干独立的帧。因此,解码器可以从每个帧开始解码,而不需要了解前面的帧。对这种流媒体格式可以使用下面两种寻找方法:
第一种寻找方法基于下列情形:每个帧都具有相同的长度并携带相同数目的已编码样本。那么,以总重放时间的百分比形式表达的寻找位置就等于以总比特流(文件)大小的百分比形式表达的位置。因此,解码器将期望的寻找位置变换成以总重放时间的百分比形式表达的寻找位置,接着在总比特流长度的相同百分比的地方开始解码。然而,解码器需要重新同步到位于寻找位置处的比特流帧。
一种鲁棒性更强的在基于帧的比特流中进行的寻找处理是从流开始处到期望位置进行逐帧的解析。尽管每帧已编码样本的数目和帧的长度必须已知,但是帧的大小和每帧已编码样本的数目可以每帧都不相同。这种寻找处理的缺点是寻找等待时间取决于寻找位置。期望的寻找位置越靠近比特流的结束处,就需要对越多的进行解析。在有限的处理功率架构上,需要的处理时间可能会引起额外的等待时间或处理负荷中的尖峰。
在基于若干格式的文件中,每个帧的大小是未知的,并且上述流媒体格式的帧首标都被忽略。解码器只能够从文件的开始处开始解码。帧存取表(FAT)或表示帧存取表的线索点表(cue point table)数据块都可以被用来定义用于在比特流中寻找的指定的进入点。这些表可以含有一个或多个例如块长度、帧间隔信息、表项数目、指针表。线索点定义了允许开始解码的进入点。FAT的每个进入点都连接至指定的寻找位置,从而解码器可以从每个表项处开始解码。寻找精度被限制为FAT项或线索点的数目。
发明内容
在音频格式是包括例如基础质量层和具有与基础质量层不同的接入点的提升质量层的分层格式的情形下,无法执行上述寻找处理。
本发明将要解决的一个问题是为分层的音频比特流提供——在其中若干层具有不同的寻找接入点——一种在寻找精度、音频复制质量、重放等待时间(playback latency)和所需处理功率负荷之间取得较好折衷的寻找处理。权利要求1和3公开了解决这该问题的方法。权利要求2和4公开了使用该方法的设备。
下面将描述三种不同的处理方式,其中尤其是第二种寻找处理为分层的音频格式提供了在寻找精度、音频复制质量、重放等待时间和所需处理能量负荷之间取得的最优折衷。
在原理上说,本发明的创新性方法适合用于在随后被重放的分层分级的音频或视频比特流中搜索或寻找,所述分层的比特流包括可以从基本层进入点开始被单独解码的基本层,还包括至少一个在没有来自所述基本层的重新同步数据的情况下不能被重放且具有比所述基本层更少的进入点的增强层,所述方法包括下列步骤:
-从直接位于期望的基本层进入点之前的增强层进入点开始对相关增强层数据进行部分解码,然后重新同步相关增强层数据,与之部分并行地,开始静音基本层解码;
-一进行所述重新同步,就从下面的基本层进入点,而不需要是增强层进入点,开始对增强层数据进行解码,对基本层数据进行解码,并组合已解码的基本层数据和已解码的增强层数据以输出完整的高质量的音频或视频信号。
在原理上说,本发明的创新性设备适合用于在随后被重放的分层分级的音频或视频比特流中搜索或寻找,所述分层的比特流包括可以从基本层进入点开始被单独解码的基本层,还包括至少一个在没有来自所述基本层的重新同步数据的情况下不能被重放且具有比所述基本层更少的进入点的增强层,所述设备包括若干部件,适应用于:
-从直接位于期望的基本层进入点之前的增强层进入点开始对相关增强层数据进行部分解码,然后重新同步相关增强层数据,与之部分并行地,开始静音基本层解码;
-一进行所述重新同步,就从下面的基本层进入点,而不需要是增强层进入点,开始对增强层数据进行解码,开始对基本层数据进行解码,并组合已解码的基本层数据和已解码的增强层数据以输出完整的高质量的音频或视频信号。
附图说明
下面参照附图描述本发明的示例性实施例,其中:
图1示出了mp3HD比特流的基本层和增强层的简化格式;
图2示出了三种在mp3HD比特流中寻找的方法。
图3示出了根据本发明的音频解码器的框图。
具体实施方式
分层的音频格式在一个比特流中包括两种或更多的质量。两层的分级比特流(如在mp3HD文件格式中使用的)如图1所示。图1的上半部分示出了基本层比特流基于帧的结构。基本层BL包含若干个每个都以包括额外帧大小信息的同步首标SH开头的、后面跟有NX个已编码样本的KX字节长度的连续部分,其中X=0,1,2,3,...,L。该基本层BL可以独立于较高层进行解码,对已编码样本的解码可以从每个同步首标SH后面开始。每个帧代表确定数目的已编码样本。同步首标和额外帧大小信息允许从一帧跳到另外一帧以寻找到音频轨道中特定的样本位置。重要的是注意到,由于该寻找操作仅基于已编码的比特流数据进行,因此并不要求解码中间PCM数据以进行该逐帧寻找操作。
图1的下面部分示出了扩展层比特流。虽然扩展层比特流组织为若干样本的帧,这与基本层相似,但是一个重要的区别是帧结构没有反映在比特流层级。换言之,虽然比特流的某一部分仍然代表某特定数目的K个样本,即L字节,但是没有办法仅通过分析比特流就在原始比特流中找到相邻帧之间的边界。为了便于对于这样高度压缩的扩展层数据的寻找操作,扩展层比特流的首标包括寻找目标位置的表格、FAT。该表格包括有限数目的寻找目标位置,指针指向高度压缩的扩展层比特流中的相应位置EP0,EP1,EP2,……。每个进入点EPX的前面都有具有长度为LX的MX个已编码的增强样本。增强层中的进入点EPX比基本层数据中的同步首标要少。这种基于表格的方法的缺点在于在扩展层比特流中的寻找精度限制为这些进入点的精度,还在于增强层需要对前面的一个或更多基本层帧的的解码进行(至少部分)解码,并且然后增强整体音频质量。
开始解码并生成完整的音频质量所需的基本层帧或已编码样本的数目被称作增强层的重新同步延迟。
从上面的描述中,得出结论:对根据本发明的寻找方法,基本层的寻找精度必须比增强层的寻找精度要高。只要基本层的寻找精度比增强层的寻找精度高,那么该寻找处理就可以被应用。
寻找处理1
这种处理如图2A所示。在垂直轴上给出了三种质量等级:静音(即不存在解码音频信号)、基本层质量的解码音频信号可用,以及增强层质量的解码音频信号可用。水平轴展示了基本层的进入点EPBL和增强层的进入点EPEL。给定优选地位于某个EPBL位置的理想进入点DEP,处理暂停(即音频质量等级“静音”)直到到达下一个EPBL的位置。该处理使用较低寻找精度以提供较低的等待时间(即增强层的重新同步延迟)并避免相关处理负荷中的高峰。它进一步提供了一种在等待时间和复制音频质量之间谋求平衡的折衷方案。
仅使用增强层的寻找精度进行寻找。在此实例中,增强层使用具有有限数目进入点的FAT。因此,在静音之后开始寻找处理时,两个层都从增强层FAT的进入点开始解码。因此,基本层必须能够使得从存储在增强层FAT中的位置开始寻找成为可能。然而,基本层可以通过对帧进行解析、通过使用基本层FAT或通过结合基本层FAT和解析从存储在FAT的比特流位置到期望的位置来获得该位置。对高质量的解码(对所有层解码)而言,使得基本层与增强层同步所需的帧或样本必须是静音的。这会导致出现处理负载峰值或等待时间,因为重新同步的处理必须在很短的时间内进行。为了克服这个问题,解码器可以在重新同步增强层期间返回已解码的基本层样本。因此,不存在重放等待时间,并且重放时间可以被用于降低峰值处理负载的增强层的重新同步。这种寻找处理的缺点在于解码以基本层的较低的音频质量开始。
寻找处理2
该方法使用基础层的寻找精度,优点是可以避免上述静音时间段,缺点是以基础层质量对某些样本进行解码和复制。它具有较高的寻找精度,并在理想位置DEP直接开始音频重放(可能包括较小的音频解码处理延迟)。如果不要求从一开始就对所有样本进行全质量的解码,那么该寻找处理可以提供较高的基本层寻找精度以及在音频重放时没有等待时间。
基本层仅用于寻找。音频解码器将基本层设置在比特流中的期望位置,并开始解码以及重放基本层样本。
这种寻找处理以另一种方式利用寻找目标位置表格以获得与可以通过在基本层比特流中寻找获得的精度相似的优异的寻找精度。该机制以及获得的已解码信号的质量如图2B所示。首先,解码器仅将基本层设置在比特流中的期望位置,并开始解码以及重放基本层样本。如上所述,寻找操作后短时间内的解码质量被限制为基本层的解码质量,增强层必须被设置成重新同步状态。这意味着增强层跟踪基本层的位置,并在增强层比特流中的下一个进入点开始同步。增强层的重新同步从该进入点开始。由于重新同步是在重放基本层样本期间进行的,因此避免了处理负载中的峰值。当增强层与基本层同步时,音频质量自动转变为完整的音频质量。接之而来的是,对比特流的解码以全质量继续,使用来自基本层和扩展层的信息。与第一寻找处理形成对比的是,第二寻找处理允许以非常高的精度寻找音频轨道中的任何位置,尽管对从该位置到FAT表格中下一个寻找目标位置的解码将仅传递基本层质量的音频样本。该寻找方法的一个显著优点是在计算性能保持在连续水平的同时可以获得该折衷方案,并且不导致出现任何性能峰值(因为BL的重放时间段可以被用于同步EL数据)。
寻找处理3
该处理提供以全音频质量进行的高精度寻找,缺点是存在等待时间或处理负载峰值(由实时环境引起:在较短时间的时间段以内在寻找时间段期间将对许多数据进行解码)。一方面,对高清晰度音频重放系统而言,并不希望重放以较低的基本层质量开始。另外一方面,仍然希望获得高的基本层寻找精度。然而,在此种情况下,无法避免而只能最小化由寻找过程导致出现的重放等待时间或较高的处理负载。
当以较高质量和较高精度进行寻找时必须考虑进去的第一点是增强层的重新同步延迟。如果重新同步延迟是固定的或者可以通过最差情形估计被预测,那么它可以从期望寻找位置减去。然后,可以从期望位置开始高质量的解码,尽管该寻找进行到同步增强层所需的位置。增强层必须在基本层的搜素位置开始同步,这是通过使用增强层比特流中在重新同步位置之前的最接近的进入点获得的。增强层解码器对从该增强层进入点到期望位置的增强层比特流进行解析。对某些比特流格式来说,解析在不需要来自基本层的信息的情况下也是可行的。例如,在mp3HD格式下,增强层可以对增强层进行熵解码以对若干帧进行解析。在其它格式下,基本层对对增强层比特流进行解析来说是必需的。然后,基本层必须寻找增强层的进入点,并且两个层都必须对它们的比特流进行解析到重新同步点。在对比特流进行解析期间,音频输出是零或被关闭。因此,所有对对比特流进行解析来说不是必需的解码处理功能也都可以被关闭。例如,这类功能是合成滤波器组或样本的重新量化。当两个层都已经到达重新同步位置时,期望位置和当前位置之间的样本被用来重新同步基本层和增强层。重新同步在期望的搜素位置处执行,音频重放可以以全质量开始。
每一种分层音频格式寻找处理都提供一种不同的在寻找精度、等待时间和音频质量之间的折衷方案。
对于标准解码,图3中的开关SW1位于位置3,开关SW2和SW3闭合。基本层比特流读取器31读取基本层BL比特流并将该比特流数据发送给输出已解码基本层音频信号的基本层解码器步骤或级32。增强层比特流读取器34从EL比特流读取增强层EL数据。增强层解码器步骤或级37对这些数据进行解码并输出已解码的增强层音频信号。组合器39组合已解码的BL和EL信号,开关SW3输出高清晰度音频信号HDAS。
当工作在寻找处理1模式时,音频解码器的工作情况基本如上所述。鼠标或键盘控制的或图形用户界面GUI 382将期望的进入点EP发送到寻找控制步骤或级381,该寻找控制步骤或级381使得当前常规重放停止,打开开关SW3,将开关SW1设置到位置2,以字节计算EL的EP,以字节确定相关的BL比特流EP,将BL比特流位置馈入BL比特流位置设置步骤或级30,并将EL比特流位置馈入EL比特流位置设置步骤或级33。
步骤/级30将步骤/级31的比特流指针设置为指向新的BL位置,步骤/级33将步骤/级34的比特流指针设置为指向新的EL位置。
基本层比特流读取器31读取相应位置的基本层BL比特流,基本层解码器步骤或级32输出已解码的基本层音频信号。为了在EL重新同步期间重放BL,寻找控制步骤或级381闭合开关SW3。
增强层比特流读取器34读取相应位置的增强层EL比特流,并通过SW1向增强层同步步骤或级36发送相应的信号,增强层同步步骤或级36通过使用来自基本层解码器步骤或级32的相关信息使得EL和BL同步。步骤/级36发信号给寻找控制步骤或级381告知EL重新同步结束。
为了开始全质量重放,步骤/级381将开关SW1设置到位置3并闭合SW2。增强层解码器步骤/级37在使用来自基本层解码器步骤或级32的相关信息并闭合SW3的同时对来自步骤/级34的EL信号进行解码。
当工作在寻找处理2模式时,鼠标或键盘控制的或图形用户界面GUI 382将期望的进入点EP发送到寻找控制步骤或级381,该寻找控制步骤或级381使得当前常规重放停止,打开开关SW3,通过打开开关SW2停止增强层解码器步骤/级37,以BL比特流的字节计算EP,闭合开关SW3,并将BL比特流位置发送到BL比特流位置设置步骤/级30,BL比特流位置设置步骤/级30将BL比特流读取器31的比特流指针设置为指向新的BL位置。读取器31相应地读取BL比特流,BL解码器32对基本层信号进行解码。为了等待下一个EL EP,BL解码器32将样本中的当前位置发送给寻找控制步骤/级381,寻找控制步骤/级381通过对比样本中的当前位置和EL EP以找到下一个EL EP来检查是否已经到达下一个EL EP。
为了在已经到达下一个EL EP时开始EL重新同步,寻找控制步骤/级381将开关SW1设置到位置2,并发送新的EL比特流位置到EL比特流位置设置步骤/级33,EL比特流位置设置步骤/级33将EL比特流读取器34的比特流指针设置为指向新的EL位置。读取器34读取EL比特流,并将其输出信号发送给EL同步步骤/级36,EL同步步骤/级36通过使用来自BL解码器32的相关信息使得EL和BL同步,并向寻找控制步骤/级381证实已经执行重新同步。
为了开始全质量重放,寻找控制步骤/级381将开关SW1设置在位置3并闭合开关SW2。EL解码器步骤/级37通过使用来自BL解码器32的相应信息对EL信号进行解码。BL解码器32和EL解码器37的输出信号在组合器39中组合,组合器39通过开关SW3输出全质量已解码的音频信号HDAS。
当工作在寻找处理3模式时,鼠标或键盘控制的或图形用户界面GUI 382将期望的进入点EP发送到寻找控制步骤或级381,该寻找控制步骤或级381使得当前常规重放停止,打开开关SW2和SW3,以BL比特流的字节计算EP,并以直接在GUI 382提供的进入点之前的EL比特流的字节计算EP。为了开始部分解码,寻找控制步骤/级381将计算好的EL比特流位置发送到EL比特流位置设置步骤/级33,EL比特流位置设置步骤/级33将EL比特流读取器34的比特流指针设置为指向新的EL位置。进一步地,寻找步骤/级381将已部分解码的样本的数目发送给EL部分解码器35,并将开关SW1设置在位置1。EL部分解码器35通过选择性地使用来自BL解码器32的信息对多个给定的样本进行部分解码,并发信号给寻找控制步骤/级381告知部分解码结束。为了在不重放的情况下开始对BL进行解码,步骤/级381将开关SW1设置在位置2,并将BL比特流位置发送给BL比特流位置设置步骤/级30,步骤/级30将BL比特流读取器31的比特流指针设置为指向新的BL位置。读取器31相应地读取BL比特流,BL解码器32对基本层信号进行解码。
为了开始EL重新同步,EL比特流读取器34读取EL比特流并将其输出信号发送给EL同步步骤/级36,EL同步步骤/级36通过使用来自BL解码器32的相应信息使得EL和BL同步,并向寻找控制步骤/级381证实已经执行重新同步。
为了开始全质量重放,寻找控制步骤/级381将开关SW1设置在位置3并闭合开关SW2和SW3。EL解码器步骤/级37通过使用来自BL解码器32的相应信息对EL信号进行解码。BL解码器32和EL解码器37的输出信号在组合器39中组合,组合器39通过开关SW3输出全质量已解码的音频信号HDAS。

Claims (2)

1.一种用于在随后被重放的分层分级的音频或视频比特流中搜寻的方法,所述分层的比特流包括可以从基本层进入点(EPBL)开始被单独解码的基本层(BL),还包括至少一个在没有来自所述基本层的重新同步数据的情况下不能被重放且具有比所述基本层更少的进入点(EPEL)的增强层(EL),所述方法包括下列步骤:
-从直接位于期望的基本层进入点(EPBL)之前的增强层进入点(EPEL)开始对相关增强层数据进行部分解码,然后重新同步相关增强层数据,与之部分并行地,开始静音基本层解码;
-一进行所述重新同步,就从下一个基本层进入点(EPBL),而不需要是增强层进入点(EPEL),开始对增强层数据进行解码,对基本层数据进行解码,并组合已解码的基本层数据和已解码的增强层数据以输出完整质量的音频或视频信号。
2.一种用于在随后被重放的分层分级的音频或视频比特流中搜寻的设备,所述分层的比特流包括可以从基本层进入点(EPBL)开始被单独解码的基本层(BL),还包括至少一个在没有来自所述基本层的重新同步数据的情况下不能被重放且具有比所述基本层更少的进入点(EPEL)的增强层(EL),所述设备包括部件,适应用于:
-从直接位于期望的基本层进入点(EPBL)之前的增强层进入点(EPEL)开始对相关增强层数据进行部分解码,然后重新同步相关增强层数据,与之部分并行地,开始静音基本层解码;
-一进行所述重新同步,就从下一个基本层进入点(EPBL),而不需要是增强层进入点(EPEL),开始对增强层数据进行解码,对基本层数据进行解码,并组合已解码的基本层数据和已解码的增强层数据以输出完整质量的音频或视频信号。
CN201180028756.1A 2010-06-11 2011-06-01 搜索随后被重放的包括基本层和至少一个增强层分层分级比特流的方法和设备 Active CN102934162B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP10305628.9 2010-06-11
EP10305628A EP2395505A1 (en) 2010-06-11 2010-06-11 Method and apparatus for searching in a layered hierarchical bit stream followed by replay, said bit stream including a base layer and at least one enhancement layer
PCT/EP2011/059040 WO2011154297A1 (en) 2010-06-11 2011-06-01 Method and apparatus for searching in a layered hierarchical bit stream followed by replay, said bit stream including a base layer and at least one enhancement layer

Publications (2)

Publication Number Publication Date
CN102934162A true CN102934162A (zh) 2013-02-13
CN102934162B CN102934162B (zh) 2014-12-10

Family

ID=42829936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180028756.1A Active CN102934162B (zh) 2010-06-11 2011-06-01 搜索随后被重放的包括基本层和至少一个增强层分层分级比特流的方法和设备

Country Status (6)

Country Link
US (1) US9355644B2 (zh)
EP (2) EP2395505A1 (zh)
JP (1) JP5902154B2 (zh)
KR (1) KR101826375B1 (zh)
CN (1) CN102934162B (zh)
WO (1) WO2011154297A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109584891A (zh) * 2019-01-29 2019-04-05 乐鑫信息科技(上海)股份有限公司 嵌入式环境下的音频解码方法、装置、设备及介质
CN111179948A (zh) * 2014-03-21 2020-05-19 杜比国际公司 对压缩的高阶高保真立体声(hoa)表示进行解码的方法和装置以及介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9602841B2 (en) * 2012-10-30 2017-03-21 Texas Instruments Incorporated System and method for decoding scalable video coding
CN106412597A (zh) * 2015-07-29 2017-02-15 飞思卡尔半导体公司 多核视频解码器中的工作负载均衡
UA123055C2 (uk) * 2015-10-08 2021-02-10 Долбі Інтернешнл Аб Багаторівневе кодування стиснених представлень звуку або звукового поля
MD3678134T2 (ro) 2015-10-08 2022-01-31 Dolby Int Ab Codificare ierarhică pentru reprezentări comprimate de sunet sau câmpuri acustice
CA3228657A1 (en) 2015-10-08 2017-04-13 Dolby International Ab Layered coding and data structure for compressed higher-order ambisonics sound or sound field representations
US11269951B2 (en) 2016-05-12 2022-03-08 Dolby International Ab Indexing variable bit stream audio formats
TWI731063B (zh) * 2017-04-13 2021-06-21 物聯智慧科技(深圳)有限公司 影音檔案處理方法及建置方法
US10083754B1 (en) * 2017-06-05 2018-09-25 Western Digital Technologies, Inc. Dynamic selection of soft decoding information

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101490746A (zh) * 2006-07-18 2009-07-22 汤姆森许可贸易公司 有损编码信号及所述信号的无损编码扩展数据的音频比特流数据结构布置
EP2146343A1 (en) * 2008-07-16 2010-01-20 Deutsche Thomson OHG Method and apparatus for synchronizing highly compressed enhancement layer data
WO2010014123A1 (en) * 2008-07-26 2010-02-04 Thomson Licensing A real-time transport protocol (rtp) packetization method for fast channel change applications using scalable video coding (svc)

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0756386B1 (en) 1995-07-27 2003-09-17 Victor Company Of Japan, Limited Method and apparatus for coding a digital, acoustic signal
EP0993733B1 (en) 1998-04-09 2013-06-19 Koninklijke Philips Electronics N.V. Lossless encoding/decoding in a transmission system
US6816194B2 (en) * 2000-07-11 2004-11-09 Microsoft Corporation Systems and methods with error resilience in enhancement layer bitstream of scalable video coding
JP2005079793A (ja) * 2003-08-29 2005-03-24 Nec Corp 画像通信方法、画像通信システム、画像送信装置および画像受信装置
US8879635B2 (en) * 2005-09-27 2014-11-04 Qualcomm Incorporated Methods and device for data alignment with time domain boundary
KR20080066784A (ko) * 2005-10-11 2008-07-16 노키아 코포레이션 규모가변적 비디오 코딩을 위한 효율적 디코딩 화상 버퍼관리
US8306827B2 (en) * 2006-03-10 2012-11-06 Panasonic Corporation Coding device and coding method with high layer coding based on lower layer coding results
EP1852848A1 (en) * 2006-05-05 2007-11-07 Deutsche Thomson-Brandt GmbH Method and apparatus for lossless encoding of a source signal using a lossy encoded data stream and a lossless extension data stream
CA2692484C (en) * 2007-07-02 2013-04-16 Lg Electronics Inc. Digital broadcasting system and data processing method
JP4973422B2 (ja) * 2007-09-28 2012-07-11 ソニー株式会社 信号記録再生装置及び方法
EP2131590A1 (en) 2008-06-02 2009-12-09 Deutsche Thomson OHG Method and apparatus for generating or cutting or changing a frame based bit stream format file including at least one header section, and a corresponding data structure

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101490746A (zh) * 2006-07-18 2009-07-22 汤姆森许可贸易公司 有损编码信号及所述信号的无损编码扩展数据的音频比特流数据结构布置
EP2146343A1 (en) * 2008-07-16 2010-01-20 Deutsche Thomson OHG Method and apparatus for synchronizing highly compressed enhancement layer data
WO2010014123A1 (en) * 2008-07-26 2010-02-04 Thomson Licensing A real-time transport protocol (rtp) packetization method for fast channel change applications using scalable video coding (svc)

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A. GARZELLI: "Two-layer hierarchical coding for MPEG-2 video", 《ELECTRONICS LETTERS》, vol. 36, no. 20, 28 September 2000 (2000-09-28), pages 1696 - 1697, XP006015763, DOI: doi:10.1049/el:20001211 *
HEIKO SCHWARZ,ET AL.: "Overview of the Scalable Video Coding Extension of the H.264/AVC Standard", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》, 30 September 2007 (2007-09-30), pages 1 - 18 *
P.CUENCA,ET AL.: "PACKING SCHEME FOR LAYERED CODING MPEG-2 VIDEO TRANSMISSION QVER ATM BASED NETWORKS", 《IEEE ATM WORKSHOP 1997》, 28 May 1997 (1997-05-28), pages 168 - 177, XP010247401, DOI: doi:10.1109/ATM.1997.624674 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179948A (zh) * 2014-03-21 2020-05-19 杜比国际公司 对压缩的高阶高保真立体声(hoa)表示进行解码的方法和装置以及介质
US11722830B2 (en) 2014-03-21 2023-08-08 Dolby Laboratories Licensing Corporation Methods, apparatus and systems for decompressing a Higher Order Ambisonics (HOA) signal
US12069465B2 (en) 2014-03-21 2024-08-20 Dolby Laboratories Licensing Corporation Methods, apparatus and systems for decompressing a Higher Order Ambisonics (HOA) signal
CN109584891A (zh) * 2019-01-29 2019-04-05 乐鑫信息科技(上海)股份有限公司 嵌入式环境下的音频解码方法、装置、设备及介质

Also Published As

Publication number Publication date
KR20130112708A (ko) 2013-10-14
EP2580752B1 (en) 2014-08-13
WO2011154297A1 (en) 2011-12-15
CN102934162B (zh) 2014-12-10
EP2580752A1 (en) 2013-04-17
JP2013535023A (ja) 2013-09-09
JP5902154B2 (ja) 2016-04-13
KR101826375B1 (ko) 2018-02-06
EP2395505A1 (en) 2011-12-14
US20130096929A1 (en) 2013-04-18
US9355644B2 (en) 2016-05-31

Similar Documents

Publication Publication Date Title
CN102934162B (zh) 搜索随后被重放的包括基本层和至少一个增强层分层分级比特流的方法和设备
CN101189662B (zh) 带多级码本和冗余编码的子带话音编解码器
RU2496156C2 (ru) Маскирование ошибки передачи в цифровом аудиосигнале в иерархической структуре декодирования
RU2437172C1 (ru) Способ кодирования/декодирования индексов кодовой книги для квантованного спектра мдкп в масштабируемых речевых и аудиокодеках
TW519616B (en) Method and apparatus for predictively quantizing voiced speech
KR101386270B1 (ko) 손실 인코딩된 신호와 함께 상기 신호에 대한 무손실 인코딩된 확장 데이터의 오디오 비트스트림 데이터 구조 배열
US7805292B2 (en) Method and apparatus for audio transcoding
CN1653521B (zh) 用于音频代码转换中的自适应码本音调滞后计算的方法
CN101484937B (zh) 使用缓冲器调节对已预测编码的数据进行解码
TW200935401A (en) Lossless multi-channel audio codec using adaptive segmentation with random access point (RAP) and multiple prediction parameter set (MPPS) capability
CN103534754A (zh) 在不活动阶段期间利用噪声合成的音频编解码器
CN101268351A (zh) 健壮解码器
US20130317811A1 (en) Efficient Encoding/Decoding of Audio Signals
EP2849180A1 (en) Hybrid audio signal encoder, hybrid audio signal decoder, method for encoding audio signal, and method for decoding audio signal
KR20220042166A (ko) Ivas 비트스트림들의 인코딩 및 디코딩
CN1965352B (zh) 音频编码
EP2270775B1 (en) Lossless multi-channel audio codec
CN1874163B (zh) 数字音频数据的压缩与解压缩的方法
JP2024102106A (ja) ステレオ信号符号化方法および装置、ならびにステレオ信号復号方法および装置
JP2003216183A (ja) 情報検索方法及び装置
CN101740075A (zh) 音频信号播放装置、音频信号播放方法和程序
Huong et al. A new vocoder based on AMR 7.4 kbit/s mode in speaker dependent coding system
JP2008533522A (ja) 低演算量符号励振線形予測符号化

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190212

Address after: Paris France

Patentee after: International Digital Madison Patent Holding Co.

Address before: I Si Eli Murli Nor, France

Patentee before: THOMSON LICENSING

Effective date of registration: 20190212

Address after: I Si Eli Murli Nor, France

Patentee after: THOMSON LICENSING

Address before: I Si Eli Murli Nor, France

Patentee before: THOMSON LICENSING

TR01 Transfer of patent right