[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN106448688B - 音频编码方法及相关装置 - Google Patents

音频编码方法及相关装置 Download PDF

Info

Publication number
CN106448688B
CN106448688B CN201611123625.2A CN201611123625A CN106448688B CN 106448688 B CN106448688 B CN 106448688B CN 201611123625 A CN201611123625 A CN 201611123625A CN 106448688 B CN106448688 B CN 106448688B
Authority
CN
China
Prior art keywords
subband
spectral coefficient
audio frame
threshold value
current audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611123625.2A
Other languages
English (en)
Other versions
CN106448688A (zh
Inventor
刘泽新
苗磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201611123625.2A priority Critical patent/CN106448688B/zh
Publication of CN106448688A publication Critical patent/CN106448688A/zh
Application granted granted Critical
Publication of CN106448688B publication Critical patent/CN106448688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Electrolytic Production Of Non-Metals, Compounds, Apparatuses Therefor (AREA)

Abstract

本发明实施例本发明实施例提供了一种音频编码方法以及相关装置。一种音频编码方法,包括:对当前音频帧的时域信号进行时频变换处理以得到上述当前音频帧的频谱系数;获取当前音频帧的编码参考参数;若获取的上述当前音频帧的编码参考参数符合第一参数条件,基于变换码激励编码算法对上述当前音频帧的频谱系数进行编码;若获取的上述当前音频帧的编码参考参数符合第二参数条件,基于高质量变换编码算法对上述当前音频帧的频谱系数进行编码。其中,本发明实施例提供的技术方案有利于提高音频帧编码的编码质量或编码效率。

Description

音频编码方法及相关装置
技术领域
本发明涉及音频编码技术,具体涉及音频编码方法及相关装置。
背景技术
目前已有音频(如音乐)编码算法中,在相同的码率,有的音频编码算法限制一定的编码带宽,侧重于编码较小的带宽,而有的音频编码算法则不对编码带宽做限制,侧重于编码更宽的带宽。当然,这两类音频编码算法是各有利弊的。
然而,现有技术中,在进行音频帧编码时,直接使用固定的某一种编码算法对音频帧编码,这样就很可能导致所采用的音频编码算法难以获得较优良的编码质量或编码效率。
发明内容
本发明实施例提供了音频编码方法以及相关装置,以期提高音频帧编码的编码质量或编码效率。
本发明实施例第一方面提供一种音频编码方法,包括:
对当前音频帧的时域信号进行时频变换处理以得到所述当前音频帧的频谱系数;
获取当前音频帧的编码参考参数;
若获取的所述当前音频帧的编码参考参数符合第一参数条件,基于变换码激励编码算法对所述当前音频帧的频谱系数进行编码;若获取的所述当前音频帧的编码参考参数符合第二参数条件,基于高质量变换编码算法对所述当前音频帧的频谱系数进行编码。
结合第一方面,在第一方面的第一种可能的实施方式中,所述编码参考参数包括如下参数中的至少一种:所述当前音频帧的编码速率,所述当前音频帧的位于子带z内的频谱系数的峰均比,所述当前音频帧的位于子带w内的频谱系数的包络偏差,所述当前音频帧的位于子带i内的频谱系数的能量均值与位于子带j的频谱系数的能量均值,所述当前音频帧的位于子带m内的频谱系数的幅度均值与位于子带n内的频谱系数的幅度均值,所述当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y内的频谱系数的峰均比,所述当前音频帧的位于子带r内的频谱系数的包络偏差和位于子带s内的频谱系数的包络偏差,所述当前音频帧的位于子带e内的频谱系数的包络和位于子带f内的频谱系数的包络,以及所述当前音频帧的位于子带p内的频谱系数和位于子带q内的频谱系数的频谱相关性参数值;
其中,所述子带z的最高频点大于临界频点F1;所述子带w的最高频点大于所述临界频点F1;所述子带j的最高频点大于临界频点F2;所述子带n的最高频点大于所述临界频点F2;
其中,所述临界频点F1的取值范围为6.4kHz至12kHz;
其中,所述临界频点F2的取值范围为4.8kHz至8kHz;
所述子带i的最高频点小于所述子带j的最高频点;所述子带m的最高频点小于所述子带n的最高频点;所述子带x的最高频点小于或等于所述子带y的最低频点;所述子带p的最高频点小于或等于所述子带q的最低频点;所述子带r的最高频点小于或等于所述子带s的最低频点;所述子带e的最高频点小于或等于所述子带f的最低频点。
结合第一方面的第一种可能的实施方式,在第一方面的第二种可能的实施方式中,
如下条件中的至少一个被满足:所述子带w的最低频点大于或者等于临界频点F1,所述子带z的最低频点大于或等于所述临界频点F1,所述子带i的最高频点小于或等于所述子带j的最低频点,所述子带m的最高频点小于或等于所述子带n的最低频点,所述子带j的最低频点大于所述临界频点F2,以及所述子带n的最低频点大于所述临界频点F2。
结合第一方面的第一种可能的实施方式或第一方面的第二种可能的实施方式,在第一方面的第三种可能的实施方式中,所述第一参数条件包括如下条件中的至少一个:
所述当前音频帧的编码速率小于阈值T1,
所述当前音频帧的位于所述子带z内的频谱系数的峰均比小于或者等于阈值T2,
所述当前音频帧的位于所述子带w内的频谱系数的包络偏差小于或者等于阈值T3,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商大于或者等于阈值T4,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值减去位于所述子带j的频谱系数的能量均值得到的差值大于或者等于阈值T5,
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值除以位于所述子带n内的频谱系数的幅度均值得到的商大于或者等于阈值T6,
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值减去位于所述子带n内的频谱系数的幅度均值得到的差值大于或者等于阈值T7,
所述当前音频帧的位于子带x内的频谱系数的峰均比和位于所述子带y内的频谱系数的峰均比的比值落入区间R1,
所述当前音频帧的位于所述子带x内的频谱系数的峰均比与位于所述子带y内的频谱系数的峰均比的差值的绝对值小于或者等于阈值T8,
所述当前音频帧的位于所述子带r内的频谱系数的包络偏差和位于所述子带s内的频谱系数的包络偏差的比值落入区间R2,
所述当前音频帧的位于所述子带r内的频谱系数的包络偏差和位于所述子带s内的频谱系数的包络偏差的差值的绝对值小于或者等于阈值T9,
所述当前音频帧的位于所述子带e内的频谱系数的包络和位于所述子带f内的频谱系数的包络的比值落入区间R3,
所述当前音频帧的位于所述子带e内的频谱系数的包络和位于所述子带f内的频谱系数的包络的差值的绝对值小于或者等于阈值T10,以及
所述当前音频帧的位于所述子带p内的频谱系数和位于所述子带q内的频谱系数的频谱相关性参数值大于或者等于阈值T11。
结合第一方面的第一种可能的实施方式或第一方面的第二种可能的实施方式或第一方面的第三种可能的实施方式,在第一方面的第四种可能的实施方式中,所述第一参数条件包括如下条件中的其中一个:
所述当前音频帧的位于子带x内的频谱系数的峰均比除以位于所述子带y内的频谱系数的峰均比得到的商小于阈值T44,且所述子带y内的频谱系数的峰均比小于阈值T45,
所述当前音频帧的位于子带x内的频谱系数的峰均比除以位于所述子带y内的频谱系数的峰均比得到的商大于阈值T46,且所述子带y内的频谱系数的峰均比大于阈值T47,
所述当前音频帧的位于子带x内的频谱系数的峰均比减位于所述子带y内的频谱系数的峰均比得到的差值小于阈值T48,且所述子带y内的频谱系数的峰均比小于阈值T49,
所述当前音频帧的位于子带x内的频谱系数的峰均比减位于所述子带y内的频谱系数的峰均比得到的差值大于阈值T50,且所述子带y内的频谱系数的峰均比大于阈值T51,
所述当前音频帧的位于子带r内的频谱系数的包络偏差除以位于所述子带s内的频谱系数的包络偏差得到的商小于阈值T52,且所述子带s内的频谱系数的包络偏差小于阈值T53,
所述当前音频帧的位于子带r内的频谱系数的包络偏差除以位于所述子带s内的频谱系数的包络偏差得到的商大于阈值T54,且所述子带s内的频谱系数的包络偏差大于阈值T55,
所述当前音频帧的位于子带r内的频谱系数的包络偏差减位于所述子带s内的频谱系数的包络偏差得到的差值小于阈值T56,且所述子带s内的频谱系数的包络偏差小于阈值T57,
所述当前音频帧的位于子带r内的频谱系数的包络偏差减位于所述子带s内的频谱系数的包络偏差得到的差值大于阈值T58,且所述子带s内的频谱系数的包络偏差大于阈值T59,
所述当前音频帧的位于子带e内的频谱系数的包络除以位于所述子带f内的频谱系数的包络得到的商小于阈值T60,且所述子带f内的频谱系数的包络小于阈值T61,
所述当前音频帧的位于子带e内的频谱系数的包络除以位于所述子带f内的频谱系数的包络得到的商大于阈值T62,且所述子带f内的频谱系数的包络大于阈值T63,
所述当前音频帧的位于子带e内的频谱系数的包络减位于所述子带f内的频谱系数的包络得到的差值小于阈值T64,且所述子带f内的频谱系数的包络小于阈值T65,
所述当前音频帧的位于子带e内的频谱系数的包络减位于所述子带f内的频谱系数的包络得到的差值大于阈值T66,且所述子带f内的频谱系数的包络大于阈值T67,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商小于或等于阈值T68,且所述当前音频帧的位于所述子带z内的频谱系数的峰均比小于或者等于阈值T69,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值减位于所述子带j的频谱系数的能量均值得到的差值小于或等于阈值T70,且所述当前音频帧的位于所述子带z内的频谱系数的峰均比小于或者等于阈值T71,
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值除以位于所述子带n内的频谱系数的幅度均值得到的商小于或等于阈值T72,且所述当前音频帧的位于所述子带z内的频谱系数的峰均比小于或者等于阈值T73,
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值减位于所述子带n内的频谱系数的幅度均值得到的差值小于或等于阈值T74,且所述当前音频帧的位于所述子带z内的频谱系数的峰均比小于或者等于阈值T75,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商小于或等于阈值T76,且所述当前音频帧的位于所述子带w内的频谱系数的包络偏差小于或者等于阈值T77,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值减位于所述子带j的频谱系数的能量均值得到的差值小于或等于阈值T78,且所述当前音频帧的位于所述子带w内的频谱系数的包络偏差小于或者等于阈值T79,
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值除以位于所述子带n内的频谱系数的幅度均值得到的商小于或等于阈值T80且所述当前音频帧的位于所述子带w内的频谱系数的包络偏差小于或者等于阈值T81,以及
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值减位于所述子带n内的频谱系数的幅度均值得到的差值小于或等于阈值T82,且所述当前音频帧的位于所述子带w内的频谱系数的包络偏差小于或者等于阈值T83。
结合第一方面的第一种可能的实施方式或者第一方面的第二种可能的实施方式或第一方面的第三种可能的实施方式或者第一方面的第四种可能的实施方式,在第一方面的第五种可能的实施方式中,所述第二参数条件包括如下条件中的至少一个:
所述当前音频帧的编码速率大于或等于阈值T1,
所述当前音频帧的位于所述子带z内的频谱系数的峰均比大于阈值T2,
所述当前音频帧的位于所述子带w内的频谱系数的包络偏差大于阈值T3,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商小于阈值T4,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值减去位于所述子带j的频谱系数的能量均值得到的差值小于阈值T5,
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值除以位于所述子带n内的频谱系数的幅度均值得到的商小于阈值T6,
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值减去位于所述子带n内的频谱系数的幅度均值得到的差值小于阈值T7,
所述当前音频帧的位于子带x内的频谱系数的峰均比和位于所述子带y内的频谱系数的峰均比的比值未落入区间R1,
所述当前音频帧的位于所述子带x内的频谱系数的峰均比与位于所述子带y内的频谱系数的峰均比的差值的绝对值大于阈值T8,
所述当前音频帧的位于所述子带r内的频谱系数的包络偏差和位于所述子带s内的频谱系数的包络偏差的比值未落入区间R2,
所述当前音频帧的位于所述子带r内的频谱系数的包络偏差和位于所述子带s内的频谱系数的包络偏差的差值的绝对值大于阈值T9,
所述当前音频帧的位于所述子带e内的频谱系数的包络和位于所述子带f内的频谱系数的包络的比值未落入区间R3,
所述当前音频帧的位于所述子带e内的频谱系数的包络和位于所述子带f内的频谱系数的包络的差值的绝对值大于阈值T10,以及
所述当前音频帧的位于所述子带p内的频谱系数和位于所述子带q内的频谱系数的频谱相关性参数值小于阈值T11。
结合第一方面的第一种可能的实施方式或者第一方面的第二种可能的实施方式或第一方面的第三种可能的实施方式或者第一方面的第四种可能的实施方式或者第一方面的第五种可能的实施方式,在第一方面的第六种可能的实施方式中,所述第二参数条件包括如下条件中的其中一个:
所述当前音频帧的位于子带x内的频谱系数的峰均比除以位于所述子带y内的频谱系数的峰均比得到的商小于阈值T44,且所述子带y内的频谱系数的峰均比大于阈值T45,
所述当前音频帧的位于子带x内的频谱系数的峰均比除以位于所述子带y内的频谱系数的峰均比得到的商大于阈值T46,且所述子带y内的频谱系数的峰均比小于阈值T47,
所述当前音频帧的位于子带x内的频谱系数的峰均比减位于所述子带y内的频谱系数的峰均比得到的差值小于阈值T48,且所述子带y内的频谱系数的峰均比大于阈值T49,
所述当前音频帧的位于子带x内的频谱系数的峰均比减位于所述子带y内的频谱系数的峰均比得到的差值大于阈值T50,且所述子带y内的频谱系数的峰均比小于阈值T51,
所述当前音频帧的位于子带r内的频谱系数的包络偏差除以位于所述子带s内的频谱系数的包络偏差得到的商小于阈值T52,且所述子带s内的频谱系数的包络偏差大于阈值T53,
所述当前音频帧的位于子带r内的频谱系数的包络偏差除以位于所述子带s内的频谱系数的包络偏差得到的商大于阈值T54,且所述子带s内的频谱系数的包络偏差小于阈值T55,
所述当前音频帧的位于子带r内的频谱系数的包络偏差减位于所述子带s内的频谱系数的包络偏差得到的差值小于阈值T56,且所述子带s内的频谱系数的包络偏差大于阈值T57,
所述当前音频帧的位于子带r内的频谱系数的包络偏差减位于所述子带s内的频谱系数的包络偏差得到的差值大于阈值T58,且所述子带s内的频谱系数的包络偏差小于阈值T59,
所述当前音频帧的位于子带e内的频谱系数的包络除以位于所述子带f内的频谱系数的包络得到的商小于阈值T60,且所述子带f内的频谱系数的包络大于阈值T61,
所述当前音频帧的位于子带e内的频谱系数的包络除以位于所述子带f内的频谱系数的包络得到的商大于阈值T62,且所述子带f内的频谱系数的包络小于阈值T63,
所述当前音频帧的位于子带e内的频谱系数的包络减位于所述子带f内的频谱系数的包络得到的差值小于阈值T64,且所述子带f内的频谱系数的包络大于阈值T65,
所述当前音频帧的位于子带e内的频谱系数的包络减位于所述子带f内的频谱系数的包络得到的差值大于阈值T66,且所述子带f内的频谱系数的包络小于阈值T67,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商小于或等于阈值T68,且所述当前音频帧的位于所述子带z内的频谱系数的峰均比大于阈值T69,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值减位于所述子带j的频谱系数的能量均值得到的差值小于或等于阈值T70,且所述当前音频帧的位于所述子带z内的频谱系数的峰均比大于阈值T71,
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值除以位于所述子带n内的频谱系数的幅度均值得到的商小于或等于阈值T72,且所述当前音频帧的位于所述子带z内的频谱系数的峰均比大于阈值T73,
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值减位于所述子带n内的频谱系数的幅度均值得到的差值小于或等于阈值T74,且所述当前音频帧的位于所述子带z内的频谱系数的峰均比大于阈值T75,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商小于或等于阈值T76,且所述当前音频帧的位于所述子带w内的频谱系数的包络偏差大于阈值T77,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值减位于所述子带j的频谱系数的能量均值得到的差值小于或等于阈值T78,且所述当前音频帧的位于所述子带w内的频谱系数的包络偏差大于阈值T79,
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值除以位于所述子带n内的频谱系数的幅度均值得到的商小于或等于阈值T80且所述当前音频帧的位于所述子带w内的频谱系数的包络偏差大于阈值T81,以及
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值减位于所述子带n内的频谱系数的幅度均值得到的差值小于或等于阈值T82,且所述当前音频帧的位于所述子带w内的频谱系数的包络偏差大于阈值T83。
结合第一方面的第三种可能的实施方式或者第一方面的第四种可能的实施方式或者第一方面的第五种可能的实施方式或者第一方面的第六种可能的实施方式,在第一方面的第七种可能的实施方式中,
如下条件中的至少一个被满足:
所述阈值T2大于或等于2,
所述阈值T4小于或等于1/1.2,
所述区间R1为[1/2.25,2.25],
所述阈值T44小于或等于1/2.56,
所述阈值T45大于或等于1.5,
所述阈值T46大于或等于1/2.56,
所述阈值T47小于或等于1.5,
所述阈值T68小于或等于1.25,以及
所述阈值T69大于或等于2。
本发明第二方面提供一种音频编码器,包括:
时频变换单元,用于对当前音频帧的时域信号进行时频变换处理以得到所述当前音频帧的频谱系数;
获取单元,用于获取当前音频帧的编码参考参数;
编码单元,用于若所述获取单元获取到的所述当前音频帧的编码参考参数符合第一参数条件,基于变换码激励编码算法对所述当前音频帧的频谱系数进行编码;若所述获取单元获取到的所述当前音频帧的编码参考参数符合第二参数条件,基于高质量变换编码算法对所述当前音频帧的频谱系数进行编码。
结合第二方面,在第二方面的第一种可能的实施方式中,所述编码参考参数包括如下参数中的至少一种:所述当前音频帧的编码速率,所述当前音频帧的位于子带z内的频谱系数的峰均比,所述当前音频帧的位于子带w内的频谱系数的包络偏差,所述当前音频帧的位于子带i内的频谱系数的能量均值与位于子带j的频谱系数的能量均值,所述当前音频帧的位于子带m内的频谱系数的幅度均值与位于子带n内的频谱系数的幅度均值,所述当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y内的频谱系数的峰均比,所述当前音频帧的位于子带r内的频谱系数的包络偏差和位于子带s内的频谱系数的包络偏差,所述当前音频帧的位于子带e内的频谱系数的包络和位于子带f内的频谱系数的包络,以及所述当前音频帧的位于子带p内的频谱系数和位于子带q内的频谱系数的频谱相关性参数值;
其中,所述子带z的最高频点大于临界频点F1;所述子带w的最高频点大于所述临界频点F1;所述子带j的最高频点大于临界频点F2;所述子带n的最高频点大于所述临界频点F2;其中,所述临界频点F1的取值范围为6.4kHz至12kHz;其中,所述临界频点F2的取值范围为4.8kHz至8kHz;
所述子带i的最高频点小于所述子带j的最高频点;所述子带m的最高频点小于所述子带n的最高频点;所述子带x的最高频点小于或等于所述子带y的最低频点;所述子带p的最高频点小于或等于所述子带q的最低频点;所述子带r的最高频点小于或等于所述子带s的最低频点;所述子带e的最高频点小于或等于所述子带f的最低频点。
结合第二方面的第一种可能的实施方式,在第二方面的第二种可能的实施方式中,如下条件中的至少一个被满足:所述子带w的最低频点大于或者等于临界频点F1,所述子带z的最低频点大于或等于所述临界频点F1,所述子带i的最高频点小于或等于所述子带j的最低频点,所述子带m的最高频点小于或等于所述子带n的最低频点,所述子带j的最低频点大于所述临界频点F2,以及所述子带n的最低频点大于所述临界频点F2。
结合第二方面的第一种可能的实施方式或者第二方面的第二种可能的实施方式,在第二方面的第三种可能的实施方式中,所述第一参数条件包括如下条件中的至少一个:
所述当前音频帧的编码速率小于阈值T1,
所述当前音频帧的位于所述子带z内的频谱系数的峰均比小于或者等于阈值T2,
所述当前音频帧的位于所述子带w内的频谱系数的包络偏差小于或者等于阈值T3,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商大于或者等于阈值T4,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值减去位于所述子带j的频谱系数的能量均值得到的差值大于或者等于阈值T5,
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值除以位于所述子带n内的频谱系数的幅度均值得到的商大于或者等于阈值T6,
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值减去位于所述子带n内的频谱系数的幅度均值得到的差值大于或者等于阈值T7,
所述当前音频帧的位于子带x内的频谱系数的峰均比和位于所述子带y内的频谱系数的峰均比的比值落入区间R1,
所述当前音频帧的位于所述子带x内的频谱系数的峰均比与位于所述子带y内的频谱系数的峰均比的差值的绝对值小于或者等于阈值T8,
所述当前音频帧的位于所述子带r内的频谱系数的包络偏差和位于所述子带s内的频谱系数的包络偏差的比值落入区间R2,
所述当前音频帧的位于所述子带r内的频谱系数的包络偏差和位于所述子带s内的频谱系数的包络偏差的差值的绝对值小于或者等于阈值T9,
所述当前音频帧的位于所述子带e内的频谱系数的包络和位于所述子带f内的频谱系数的包络的比值落入区间R3,
所述当前音频帧的位于所述子带e内的频谱系数的包络和位于所述子带f内的频谱系数的包络的差值的绝对值小于或者等于阈值T10,以及
所述当前音频帧的位于所述子带p内的频谱系数和位于所述子带q内的频谱系数的频谱相关性参数值大于或者等于阈值T11。
结合第二方面的第一种可能的实施方式或者第二方面的第二种可能的实施方式或第二方面的第三种可能的实施方式,在第二方面的第四种可能的实施方式中,所述第一参数条件包括如下条件中的其中一个:
所述当前音频帧的位于子带x内的频谱系数的峰均比除以位于所述子带y内的频谱系数的峰均比得到的商小于阈值T44,且所述子带y内的频谱系数的峰均比小于阈值T45,
所述当前音频帧的位于子带x内的频谱系数的峰均比除以位于所述子带y内的频谱系数的峰均比得到的商大于阈值T46,且所述子带y内的频谱系数的峰均比大于阈值T47,
所述当前音频帧的位于子带x内的频谱系数的峰均比减位于所述子带y内的频谱系数的峰均比得到的差值小于阈值T48,且所述子带y内的频谱系数的峰均比小于阈值T49,
所述当前音频帧的位于子带x内的频谱系数的峰均比减位于所述子带y内的频谱系数的峰均比得到的差值大于阈值T50,且所述子带y内的频谱系数的峰均比大于阈值T51,
所述当前音频帧的位于子带r内的频谱系数的包络偏差除以位于所述子带s内的频谱系数的包络偏差得到的商小于阈值T52,且所述子带s内的频谱系数的包络偏差小于阈值T53,
所述当前音频帧的位于子带r内的频谱系数的包络偏差除以位于所述子带s内的频谱系数的包络偏差得到的商大于阈值T54,且所述子带s内的频谱系数的包络偏差大于阈值T55,
所述当前音频帧的位于子带r内的频谱系数的包络偏差减位于所述子带s内的频谱系数的包络偏差得到的差值小于阈值T56,且所述子带s内的频谱系数的包络偏差小于阈值T57,
所述当前音频帧的位于子带r内的频谱系数的包络偏差减位于所述子带s内的频谱系数的包络偏差得到的差值大于阈值T58,且所述子带s内的频谱系数的包络偏差大于阈值T59,
所述当前音频帧的位于子带e内的频谱系数的包络除以位于所述子带f内的频谱系数的包络得到的商小于阈值T60,且所述子带f内的频谱系数的包络小于阈值T61,
所述当前音频帧的位于子带e内的频谱系数的包络除以位于所述子带f内的频谱系数的包络得到的商大于阈值T62,且所述子带f内的频谱系数的包络大于阈值T63,
所述当前音频帧的位于子带e内的频谱系数的包络减位于所述子带f内的频谱系数的包络得到的差值小于阈值T64,且所述子带f内的频谱系数的包络小于阈值T65,
所述当前音频帧的位于子带e内的频谱系数的包络减位于所述子带f内的频谱系数的包络得到的差值大于阈值T66,且所述子带f内的频谱系数的包络大于阈值T67,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商小于或等于阈值T68,且所述当前音频帧的位于所述子带z内的频谱系数的峰均比小于或者等于阈值T69,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值减位于所述子带j的频谱系数的能量均值得到的差值小于或等于阈值T70,且所述当前音频帧的位于所述子带z内的频谱系数的峰均比小于或者等于阈值T71,
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值除以位于所述子带n内的频谱系数的幅度均值得到的商小于或等于阈值T72,且所述当前音频帧的位于所述子带z内的频谱系数的峰均比小于或者等于阈值T73,
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值减位于所述子带n内的频谱系数的幅度均值得到的差值小于或等于阈值T74,且所述当前音频帧的位于所述子带z内的频谱系数的峰均比小于或者等于阈值T75,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商小于或等于阈值T76,且所述当前音频帧的位于所述子带w内的频谱系数的包络偏差小于或者等于阈值T77,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值减位于所述子带j的频谱系数的能量均值得到的差值小于或等于阈值T78,且所述当前音频帧的位于所述子带w内的频谱系数的包络偏差小于或者等于阈值T79,
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值除以位于所述子带n内的频谱系数的幅度均值得到的商小于或等于阈值T80且所述当前音频帧的位于所述子带w内的频谱系数的包络偏差小于或者等于阈值T81,以及
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值减位于所述子带n内的频谱系数的幅度均值得到的差值小于或等于阈值T82,且所述当前音频帧的位于所述子带w内的频谱系数的包络偏差小于或者等于阈值T83。
结合第二方面的第一种可能的实施方式或者第二方面的第二种可能的实施方式或第二方面的第三种可能的实施方式或者第二方面的第四种可能的实施方式,在第二方面的第五种可能的实施方式中,所述第二参数条件包括如下条件中的至少一个:
所述当前音频帧的编码速率大于或等于阈值T1,
所述当前音频帧的位于所述子带z内的频谱系数的峰均比大于阈值T2,
所述当前音频帧的位于所述子带w内的频谱系数的包络偏差大于阈值T3,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商小于阈值T4,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值减去位于所述子带j的频谱系数的能量均值得到的差值小于阈值T5,
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值除以位于所述子带n内的频谱系数的幅度均值得到的商小于阈值T6,
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值减去位于所述子带n内的频谱系数的幅度均值得到的差值小于阈值T7,
所述当前音频帧的位于子带x内的频谱系数的峰均比和位于所述子带y内的频谱系数的峰均比的比值未落入区间R1,
所述当前音频帧的位于所述子带x内的频谱系数的峰均比与位于所述子带y内的频谱系数的峰均比的差值的绝对值大于阈值T8,
所述当前音频帧的位于所述子带r内的频谱系数的包络偏差和位于所述子带s内的频谱系数的包络偏差的比值未落入区间R2,
所述当前音频帧的位于所述子带r内的频谱系数的包络偏差和位于所述子带s内的频谱系数的包络偏差的差值的绝对值大于阈值T9,
所述当前音频帧的位于所述子带e内的频谱系数的包络和位于所述子带f内的频谱系数的包络的比值未落入区间R3,
所述当前音频帧的位于所述子带e内的频谱系数的包络和位于所述子带f内的频谱系数的包络的差值的绝对值大于阈值T10,以及
所述当前音频帧的位于所述子带p内的频谱系数和位于所述子带q内的频谱系数的频谱相关性参数值小于阈值T11。
结合第二方面的第一种可能的实施方式或者第二方面的第二种可能的实施方式或第二方面的第三种可能的实施方式或者第二方面的第四种可能的实施方式或者第二方面的第五种可能的实施方式,在第二方面的第六种可能的实施方式中,所述第二参数条件包括如下条件中的其中一个:
所述当前音频帧的位于子带x内的频谱系数的峰均比除以位于所述子带y内的频谱系数的峰均比得到的商小于阈值T44,且所述子带y内的频谱系数的峰均比大于阈值T45,
所述当前音频帧的位于子带x内的频谱系数的峰均比除以位于所述子带y内的频谱系数的峰均比得到的商大于阈值T46,且所述子带y内的频谱系数的峰均比小于阈值T47,
所述当前音频帧的位于子带x内的频谱系数的峰均比减位于所述子带y内的频谱系数的峰均比得到的差值小于阈值T48,且所述子带y内的频谱系数的峰均比大于阈值T49,
所述当前音频帧的位于子带x内的频谱系数的峰均比减位于所述子带y内的频谱系数的峰均比得到的差值大于阈值T50,且所述子带y内的频谱系数的峰均比小于阈值T51,
所述当前音频帧的位于子带r内的频谱系数的包络偏差除以位于所述子带s内的频谱系数的包络偏差得到的商小于阈值T52,且所述子带s内的频谱系数的包络偏差大于阈值T53,
所述当前音频帧的位于子带r内的频谱系数的包络偏差除以位于所述子带s内的频谱系数的包络偏差得到的商大于阈值T54,且所述子带s内的频谱系数的包络偏差小于阈值T55,
所述当前音频帧的位于子带r内的频谱系数的包络偏差减位于所述子带s内的频谱系数的包络偏差得到的差值小于阈值T56,且所述子带s内的频谱系数的包络偏差大于阈值T57,
所述当前音频帧的位于子带r内的频谱系数的包络偏差减位于所述子带s内的频谱系数的包络偏差得到的差值大于阈值T58,且所述子带s内的频谱系数的包络偏差小于阈值T59,
所述当前音频帧的位于子带e内的频谱系数的包络除以位于所述子带f内的频谱系数的包络得到的商小于阈值T60,且所述子带f内的频谱系数的包络大于阈值T61,
所述当前音频帧的位于子带e内的频谱系数的包络除以位于所述子带f内的频谱系数的包络得到的商大于阈值T62,且所述子带f内的频谱系数的包络小于阈值T63,
所述当前音频帧的位于子带e内的频谱系数的包络减位于所述子带f内的频谱系数的包络得到的差值小于阈值T64,且所述子带f内的频谱系数的包络大于阈值T65,
所述当前音频帧的位于子带e内的频谱系数的包络减位于所述子带f内的频谱系数的包络得到的差值大于阈值T66,且所述子带f内的频谱系数的包络小于阈值T67,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商小于或等于阈值T68,且所述当前音频帧的位于所述子带z内的频谱系数的峰均比大于阈值T69,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值减位于所述子带j的频谱系数的能量均值得到的差值小于或等于阈值T70,且所述当前音频帧的位于所述子带z内的频谱系数的峰均比大于阈值T71,
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值除以位于所述子带n内的频谱系数的幅度均值得到的商小于或等于阈值T72,且所述当前音频帧的位于所述子带z内的频谱系数的峰均比大于阈值T73,
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值减位于所述子带n内的频谱系数的幅度均值得到的差值小于或等于阈值T74,且所述当前音频帧的位于所述子带z内的频谱系数的峰均比大于阈值T75,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商小于或等于阈值T76,且所述当前音频帧的位于所述子带w内的频谱系数的包络偏差大于阈值T77,
所述当前音频帧的位于所述子带i内的频谱系数的能量均值减位于所述子带j的频谱系数的能量均值得到的差值小于或等于阈值T78,且所述当前音频帧的位于所述子带w内的频谱系数的包络偏差大于阈值T79,
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值除以位于所述子带n内的频谱系数的幅度均值得到的商小于或等于阈值T80且所述当前音频帧的位于所述子带w内的频谱系数的包络偏差大于阈值T81,以及
所述当前音频帧的位于所述子带m内的频谱系数的幅度均值减位于所述子带n内的频谱系数的幅度均值得到的差值小于或等于阈值T82,且所述当前音频帧的位于所述子带w内的频谱系数的包络偏差大于阈值T83。
结合第二方面的第三种可能的实施方式或者第二方面的第四种可能的实施方式或者第二方面的第五种可能的实施方式或者第二方面的第六种可能的实施方式,在第二方面的第七种可能的实施方式中,
如下条件中的至少一个被满足:
所述阈值T2大于或等于2,
所述阈值T4小于或等于1/1.2,
所述区间R1为[1/2.25,2.25],
所述阈值T44小于或等于1/2.56,
所述阈值T45大于或等于1.5,
所述阈值T46大于或等于1/2.56,
所述阈值T47小于或等于1.5,
所述阈值T68小于或等于1.25,以及
所述阈值T69大于或等于2。
可以看出,在本发明一些实施例的技术方案中,获取当前音频帧的编码参考参数后,基于获取的当前音频帧的编码参考参数来选择TCX算法或HQ算法对上述当前音频帧的频谱系数进行编码。由于将当前音频帧的编码参考参数与编码上述当前音频帧的频谱系数的编码算法进行关联,这样就有利于提高编码算法和当前音频帧的编码参考参数之间的适应性和匹配性,进而有利于提高上述当前音频帧的编码质量或编码效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1~8为本发明实施例提供的几种音频编码方法的流程示意图;
图9~10为本发明实施例提供的两种音频编码器的示意图。
具体实施方式
本发明实施例提供了音频编码方法以及相关装置,以期提高音频帧编码的编码质量或编码效率。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚,完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
以下分别进行详细说明。
本发明的说明书和权利要求书及上述附图中的术语“第一”,“第二”,“第三”,“第四”等是用于区别不同的对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程,方法,系统,产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程,方法,产品或设备固有的其它步骤或单元。
下面先介绍本发明实施例提供的音频编码方法,本发明实施例提供的音频编码方法的执行主体可为音频编码器,该音频编码器可为任何需要采集,存储或者向外传输音频信号的装置,例如手机,平板电脑,个人电脑,笔记本电脑等等。
本发明音频编码方法的一实施例,一种音频编码方法包括:对当前音频帧的时域信号进行时频变换处理以得到上述当前音频帧的频谱系数;获取当前音频帧的编码参考参数;若获取的上述当前音频帧的编码参考参数符合第一参数条件,基于变换码激励编码算法对上述当前音频帧的频谱系数进行编码;若获取的上述当前音频帧的编码参考参数符合第二参数条件,基于高质量变换编码算法对上述当前音频帧的频谱系数进行编码。
首先请参见图1,图1为本发明的一个实施例提供的一种音频编码方法的流程示意图。其中,如图1所示,本发明实施例提供的一种音频编码方法可包括以下内容:
101,对当前音频帧的时域信号进行时频变换处理以得到上述当前音频帧的频谱系数。
其中,本发明各实施例中提及的音频帧可以是语音帧或音乐帧。
102,获取当前音频帧的编码参考参数。
103,若获取的上述当前音频帧的编码参考参数符合第一参数条件,基于变换码激励编码(英文:transform coded excitation,缩写,TCX)算法对上述当前音频帧的频谱系数进行编码。
104,若获取的上述当前音频帧的编码参考参数符合第二参数条件,基于高质量变换编码(英文:high quality transform coder,缩写,HQ)算法对上述当前音频帧的频谱系数进行编码。
可以看出,本实施例方案中,获取当前音频帧的编码参考参数后,基于获取的当前音频帧的编码参考参数来选择TCX算法或HQ算法对上述当前音频帧的频谱系数进行编码。由于将当前音频帧的编码参考参数与编码上述当前音频帧的频谱系数的编码算法进行关联,这样就有利于提高编码算法和当前音频帧的编码参考参数之间的适应性和匹配性,进而有利于提高上述当前音频帧的编码质量或编码效率。
其中,TCX算法通常会对当前音频帧的时域信号进行分带处理(例如使用正交镜像滤波器对当前音频帧的时域信号进行分带处理,而HQ算法一般不对当前音频帧的时域信号进行分带处理。
其中,根据应用场景的需求,步骤102中获取的当前音频帧的编码参考参数可能是多种多样的。
例如,上述编码参考参数例如可包括如下参数中的至少一种:上述当前音频帧的编码速率,上述当前音频帧的位于子带z内的频谱系数的峰均比,上述当前音频帧的位于子带w内的频谱系数的包络偏差,上述当前音频帧的位于子带i内的频谱系数的能量均值与位于子带j的频谱系数的能量均值,上述当前音频帧的位于子带m内的频谱系数的幅度均值与位于子带n内的频谱系数的幅度均值,上述当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y内的频谱系数的峰均比,上述当前音频帧的位于子带r内的频谱系数的包络偏差和位于子带s内的频谱系数的包络偏差,上述当前音频帧的位于子带e内的频谱系数的包络和位于子带f内的频谱系数的包络,上述当前音频帧的位于子带p内的频谱系数和位于子带q内的频谱系数的频谱相关性参数值。
其中,上述当前音频帧的位于子带p内的频谱系数和位于子带q内的频谱系数的频谱相关性参数值越大,表示位于子带p内的频谱系数和位于子带q内的频谱系数的频谱相关性越强,其中,频谱相关性参数值例如可为归一化互相关参数值。
其中,上述各子带的频点范围具体可根据实际需要确定。
可选的,在本发明的一些可能的实施方式中,上述子带z的最高频点可以大于临界频点F1。上述子带w的最高频点可大于上述临界频点F1。其中,上述临界频点F1的取值范围例如可为6.4kHz至12kHz。例如,临界频点F1的取值可以为6.4kHz,8kHz,9kHz,10kHz,12kHz等等,当然,临界频点F1也可为其他取值。
可选的,在本发明的一些可能的实施方式中,上述子带j的最高频点大于临界频点F2。上述子带n的最高频点大于上述临界频点F2。例如,上述临界频点F2的取值范围可以为4.8kHz至8kHz。具体例如,临界频点F2的取值可以为6.4kHz,4.8kHz,6kHz,8kHz,5kHz,7kHz等等,当然,临界频点F2也可为其他取值。
可选的,在本发明的一些可能的实施方式中,上述子带i的最高频点可以小于上述子带j的最高频点。上述子带m的最高频点可以小于上述子带n的最高频点。上述子带x的最高频点可小于或等于上述子带y的最低频点。上述子带p的最高频点可小于或等于上述子带q的最低频点,上述子带r的最高频点可小于或等于上述子带s的最低频点。上述子带e的最高频点可小于或等于上述子带f的最低频点。
可选的,在本发明的一些可能的实施方式中,如下条件之中的至少一个可以被满足:
上述子带w的最低频点大于或等于临界频点F1,上述子带z的最低频点大于或等于上述临界频点F1,上述子带i的最高频点小于或等于上述子带j的最低频点,上述子带m的最高频点小于或等于上述子带n的最低频点,上述子带j的最低频点大于或等于临界频点F2,上述子带n的最低频点大于或等于上述临界频点F2,上述子带i的最高频点小于或等于临界频点F2,上述子带m的最高频点小于或等于临界频点F2,子带j的最低频点大于或等于临界频点F2,上述子带n的最低频点大于或等于临界频点F2。
可选的,在本发明的一些可能的实施方式中,如下条件之中的至少一个可以被满足:上述子带e的最高频点小于或等于临界频点F2,上述子带x的最高频点小于或等于临界频点F2,上述子带p的最高频点小于或等于临界频点F2,上述子带r的最高频点小于或等于临界频点F2。
可选的,在本发明的一些可能的实施方式中,上述子带f的最高频点可小于或者等于临界频点F2,当然,上述子带f的最低频点也可能大于或者等于临界频点F2。上述子带q的最高频点可小于或者等于临界频点F2,当然,上述子带q的最低频点也可能大于或者等于临界频点F2。上述子带s的最高频点可小于或者等于临界频点F2,当然,上述子带s的最低频点也可能大于或者等于临界频点F2。
举例来说,上述子带z的最高频点的取值范围可为12kHz至16kHz。子带z的最低频点的取值范围可为8kHz至14kHz。子带z的带宽的取值范围可为1.6kHz~8kHz。具体例如,子带z的频点范围可为8kHz至12kHz,9kHz至11kHz或8kHz至9.6kHz或12kHz至14kHz等。当然,子带z的频点范围也并不限于上述举例。
例如,子带w的频点范围也可根据实际需要确定,例如子带w的最高频点的取值范围可为12kHz至16kHz,子带w的最低频点的取值范围可为8kHz至14kHz。具体例如子带w的频点范围为8kHz至12kHz,9kHz至11kHz,8kHz至9.6kHz,12kHz至14kHz,12.2kHz至14.5kHz等。当然,子带w的频点范围也并不限于上述举例。在一些可能的实施方式中,子带w的频点范围和子带z的频点范围可相同或相近。
例如,上述子带i的频点范围可为3.2kHz至6.4kHz,3.2kHz至4.8kHz,4.8kHz至6.4kHz,0.4kHz至6.4kHz或0.4kHz至3.6kHz,当然,子带i的频点范围也不限于上述举例。
例如,上述子带j的频点范围可为6.4kHz至9.6kHz,6.4kHz至8kHz,8kHz至9.6kHz,4.8kHz至9.6kHz或4.8kHz至8kHz等。当然,子带j的频点范围也不限于上述举例。
例如,上述子带m的频点范围为3.2kHz至6.4kHz,3.2kHz至4.8kHz,4.8kHz至6.4kHz,0.4kHz至6.4kHz或0.4kHz至3.6kHz,当然,子带m的频点范围也不限于上述举例。在一些可能的实施方式中,子带m的频点范围和子带i的频点范围可相同或相近。
例如,上述子带n的频点范围可为6.4kHz至9.6kHz,6.4kHz至8kHz,8kHz至9.6kHz,4.8kHz至9.6kHz或4.8kHz至8kHz等。当然,子带n的频点范围也不限于上述举例。在一些可能的实施方式中,子带n的频点范围和子带j的频点范围可相同或相近。
例如,上述子带x的频点范围可为0kHz至1.6kHz,1kHz至2.6kHz,1.6kHz至3.2kHz,2kHz至3.2kHz或2.5kHz至3.4kHz。当然,子带x的频点范围也不限于上述举例。
例如,上述子带y的频点范围可为6.4kHz至8kHz,7.4kHz至9kHz,4.8kHz至6.4kHz,4.4kHz至6.4kHz或4.5kHz至6.2kHz。当然,子带y的频点范围也不限于上述举例。
例如,上述子带p的频点范围可为0kHz至1.6kHz,1kHz至2.6kHz,1.6kHz至3.2kHz,2.1kHz至3.2kHz或2.5kHz至3.5kHz。当然,子带p的频点范围也不限于上述举例。在一些可能的实施方式中,子带p的频点范围和子带x的频点范围可相同或相近。
例如,上述子带q的频点范围可为6.4kHz至8kHz,7.4kHz至9kHz,4.8kHz至6.4kHz,4.2kHz至6.4kHz或4.7kHz至6.2kHz。当然,子带q的频点范围也不限于上述举例。在一些可能的实施方式中,子带q的频点范围和子带y的频点范围可相同或相近。
例如,上述子带r的频点范围可为0kHz至1.6kHz,1kHz至2.6kHz,1.6kHz至3.2kHz,2.05kHz至3.27kHz或2.59kHz至3.51kHz。当然,子带r的频点范围也不限于上述举例。在一些可能的实施方式中,子带r的频点范围和子带x的频点范围可相同或相近。
例如,上述子带s的频点范围可为6.4kHz至8kHz,7.4kHz至9kHz,4.8kHz至6.4kHz,5.4kHz至7.1kHz或4.55kHz至6.29kHz。当然,子带s的频点范围也不限于上述举例。在一些可能的实施方式中,子带s的频点范围和子带y的频点范围可相同或相近。
例如,上述子带e的频点范围可为0kHz至1.6kHz,1kHz至2.6kHz,1.6kHz至3.2kHz,0.8kHz至3kHz或1.9kHz至3.8kHz。当然,子带e的频点范围也不限于上述举例。在一些可能的实施方式中,子带e的频点范围和子带x的频点范围可相同或相近。
例如,上述子带f的频点范围可为6.4kHz至8kHz,7.4kHz至9kHz,4.8kHz至6.4kHz,5.3kHz至7.15kHz或4.58kHz至6.52kHz。当然,子带f的频点范围也不限于上述举例。在一些可能的实施方式中,子带f的频点范围和子带y的频点范围可相同或相近。
其中,上述第一参数条件可能是多种多样的。
例如,在本发明一些可能的实施方式中,上述第一参数条件例如可包括如下条件中的至少一个:
上述当前音频帧的编码速率小于阈值T1(其中,阈值T1例如可以大于或等于24.4kbps,32kbps,64kbp或其他速率),
上述当前音频帧的位于上述子带z内的频谱系数的峰均比小于或者等于阈值T2(其中,阈值T2例如可以大于或等于1,2,3,5或其他值),
上述当前音频帧的位于上述子带w内的频谱系数的包络偏差小于或者等于阈值T3(其中,阈值T3例如可以大于或等于10,20,35或其他值),
上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商大于或者等于阈值T4(其中,阈值T4例如可以大于或等于0.5,1,2,3或其他值),
上述当前音频帧的位于上述子带i内的频谱系数的能量均值减去位于上述子带j的频谱系数的能量均值得到的差值大于或者等于阈值T5(其中,阈值T5例如可以大于或等于10,20,51,100或其他值),
上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商大于或者等于阈值T6(其中,阈值T6例如可以大于或等于0.5,1.1,2,3或其他值),
上述当前音频帧的位于上述子带m内的频谱系数的幅度均值减去位于上述子带n内的频谱系数的幅度均值得到的差值大于或者等于阈值T7(其中,阈值T7例如可以大于或等于11,20,50,101或其他值),
上述当前音频帧的位于子带x内的频谱系数的峰均比和位于上述子带y内的频谱系数的峰均比的比值落入区间R1(其中,区间R1例如可以为[0.5,2]或[0.4,2.5]或其范围),
上述当前音频帧的位于上述子带x内的频谱系数的峰均比与位于上述子带y内的频谱系数的峰均比的差值的绝对值小于或者等于阈值T8(其中,阈值T8例如可以大于或等于1,2,3或其他值),
上述当前音频帧的位于上述子带r内的频谱系数的包络偏差和位于上述子带s内的频谱系数的包络偏差的比值落入区间R2(其中,区间R2例如可以为[0.5,2]或[0.4,2.5]或其范围),
上述当前音频帧的位于上述子带r内的频谱系数的包络偏差和位于上述子带s内的频谱系数的包络偏差的差值的绝对值小于或者等于阈值T9(其中,阈值T9例如可以大于或等于10,20,35或其他值),
上述当前音频帧的位于上述子带e内的频谱系数的包络和位于上述子带f内的频谱系数的包络的比值落入区间R3(其中,区间R3例如可以为[0.5,2]或[0.4,2.5]或其范围),
上述当前音频帧的位于上述子带e内的频谱系数的包络和位于上述子带f内的频谱系数的包络的差值的绝对值小于或者等于阈值T10(其中,阈值T10例如可以大于或等于11,20,50,101或其他值),
上述当前音频帧的位于上述子带p内的频谱系数和位于上述子带q内的频谱系数的频谱相关性参数值大于或者等于阈值T11(其中,阈值T11例如可以等于0.5,0.8,0.9,1或其他值)。
又例如,在本发明一些可能的实施方式中,上述第一参数条件例如可包括如下条件中的其中一个:
上述当前音频帧的编码速率大于或等于阈值T1,且上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商大于或等于阈值T12(阈值T12例如可以大于或等于阈值T4,阈值T12例如可以大于或等于2,3,5或8或其他值),
上述当前音频帧的编码速率大于或等于阈值T1,且上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商大于或等于阈值T13(其中,阈值T13例如可以大于或等于阈值T6,阈值T13例如可以大于或等于2,3,9或7或其他值),
上述当前音频帧的编码速率大于或等于阈值T1,且上述当前音频帧的位于上述子带z内的频谱系数的峰均比小于或等于阈值T14(其中,阈值T14例如可以小于或等于阈值T2,阈值T14例如可以小于或等于0.5,2,3,1.5,4或其他值),
上述当前音频帧的编码速率大于或等于阈值T1,且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差小于或等于阈值T15(其中,阈值T15例如可以小于或等于阈值T3,阈值T15例如可以小于或等于5,8,10,20或其他值),
上述当前音频帧的位于子带x内的频谱系数的峰均比和位于上述子带y内的频谱系数的峰均比的比值未落入区间R1,且上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商大于或等于阈值T16(阈值T16例如可以大于或等于阈值T4,阈值T16例如可以大于或等于2,3,5或8或其他值),
上述当前音频帧的位于子带x内的频谱系数的峰均比和位于上述子带y内的频谱系数的峰均比的比值未落入区间R1,且上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商大于或等于阈值T17(其中,阈值T17例如可以大于或等于阈值T6,阈值T17例如可以大于或等于2,3,9或7或其他值),
上述当前音频帧的位于子带x内的频谱系数的峰均比和位于上述子带y内的频谱系数的峰均比的比值未落入区间R1,且上述当前音频帧的位于上述子带z内的频谱系数的峰均比小于或等于阈值T18(其中,阈值T18例如可以小于或等于阈值T2,其中,阈值T18例如可以小于或等于0.5,2,3,1.5,4,5或其他值),
上述当前音频帧的位于子带x内的频谱系数的峰均比和位于上述子带y内的频谱系数的峰均比的比值未落入区间R1,且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差小于或等于阈值T19(其中,阈值T19例如可以小于或等于阈值T3,阈值T19例如可以小于或等于5,8,10,20或其他值),
上述当前音频帧的位于上述子带x内的频谱系数的峰均比与位于上述子带y内的频谱系数的峰均比的差值的绝对值大于阈值T8,且上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商大于或等于阈值T20(阈值T20例如可以大于或等于阈值T4,阈值T20例如可以大于或等于2,3,5或8或其他值),
上述当前音频帧的位于上述子带x内的频谱系数的峰均比与位于上述子带y内的频谱系数的峰均比的差值的绝对值大于阈值T8,且上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商大于或等于阈值T21(其中,阈值T21例如可以大于或等于阈值T6,阈值T21例如可以大于或等于2,3,9或7或其他值),
上述当前音频帧的位于上述子带x内的频谱系数的峰均比与位于上述子带y内的频谱系数的峰均比的差值的绝对值大于阈值T8,且上述当前音频帧的位于上述子带z内的频谱系数的峰均比小于或等于阈值T22(其中,阈值T22例如可以小于或等于阈值T2,其中,阈值T22例如可以小于或等于0.5,2,3,1.5或4,5或其他值),
上述当前音频帧的位于上述子带x内的频谱系数的峰均比与位于上述子带y内的频谱系数的峰均比的差值的绝对值大于阈值T8,且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差小于或等于阈值T23(其中,阈值T23例如可以小于或等于阈值T3,阈值T23例如可以小于或等于5,8,10,20或其他值),
上述当前音频帧的位于上述子带r内的频谱系数的包络偏差和位于上述子带s内的频谱系数的包络偏差的比值未落入区间R2,且上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商大于或等于阈值T24(阈值T24例如可以大于或等于阈值T4,阈值T24例如可以大于或等于2,3,5或8或其他值),
上述当前音频帧的位于上述子带r内的频谱系数的包络偏差和位于上述子带s内的频谱系数的包络偏差的比值未落入区间R2,且上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商大于或等于阈值T25(其中,阈值T25例如可以大于或等于阈值T6,阈值T25例如可以大于或等于2,3,9或7或其他值),
上述当前音频帧的位于上述子带r内的频谱系数的包络偏差和位于上述子带s内的频谱系数的包络偏差的比值未落入区间R2,且上述当前音频帧的位于上述子带z内的频谱系数的峰均比小于或等于阈值T26(其中,阈值T26例如可以小于或等于阈值T2,其中,阈值T26例如可小于或等于0.5,2,3,1.5,4或5或其他值),
上述当前音频帧的位于上述子带r内的频谱系数的包络偏差和位于上述子带s内的频谱系数的包络偏差的比值未落入区间R2,且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差小于或等于阈值T27(其中,阈值T27例如可以小于或等于阈值T3,其中,阈值T27例如可以小于或等于5,8,10,20或其他值),
上述当前音频帧的位于上述子带r内的频谱系数的包络偏差和位于上述子带s内的频谱系数的包络偏差的差值的绝对值大于阈值T9,且上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商大于或等于阈值T28(其中,阈值T28例如可以大于或等于阈值T4,阈值T28例如可以大于或等于2,3,5或8或其他值),
上述当前音频帧的位于上述子带r内的频谱系数的包络偏差和位于上述子带s内的频谱系数的包络偏差的差值的绝对值大于阈值T9,且上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商大于或等于阈值T29(其中,阈值T29例如可以大于或等于阈值T6,阈值T29例如可以大于或等于2,3,9或7或其他值),
上述当前音频帧的位于上述子带r内的频谱系数的包络偏差和位于上述子带s内的频谱系数的包络偏差的差值的绝对值大于阈值T9,且上述当前音频帧的位于上述子带z内的频谱系数的峰均比小于或等于阈值T30(其中,阈值T30例如可以小于或等于阈值T2,其中,阈值T30例如可小于或等于0.5,2,3,1.5或4,5或其他值),
上述当前音频帧的位于上述子带r内的频谱系数的包络偏差和位于上述子带s内的频谱系数的包络偏差的差值的绝对值大于阈值T9,且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差小于或等于阈值T31(其中,阈值T31例如可以小于或等于阈值T3,其中,阈值T31例如可以小于或等于5,8或10,20或其他值),
上述当前音频帧的位于上述子带e内的频谱系数的包络和位于上述子带f内的频谱系数的包络的比值落入区间R3,且上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商大于或等于阈值T32(其中,阈值T32例如可以大于或等于阈值T4,阈值T32例如可以大于或等于2,3,5或8或其他值),
上述当前音频帧的位于上述子带e内的频谱系数的包络和位于上述子带f内的频谱系数的包络的比值落入区间R3,且上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商大于或等于阈值T33(其中,阈值T33例如可以大于或等于阈值T6,阈值T33例如可以大于或等于2,3,9或7或其他值),
上述当前音频帧的位于上述子带e内的频谱系数的包络和位于上述子带f内的频谱系数的包络的比值落入区间R3,且上述当前音频帧的位于上述子带z内的频谱系数的峰均比小于或等于阈值T34(其中,阈值T34例如可以小于或等于阈值T2,其中,阈值T34例如可小于或等于0.5,2,3,1.5或4,5或其他值),
上述当前音频帧的位于上述子带e内的频谱系数的包络和位于上述子带f内的频谱系数的包络的比值落入区间R3,且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差小于或等于阈值T35(其中,阈值T35例如可以小于或等于阈值T3,其中,阈值T35例如可以小于或等于5,8,9.5,10,15,20或其他值),
上述当前音频帧的位于上述子带e内的频谱系数的包络和位于上述子带f内的频谱系数的包络的差值的绝对值大于阈值T10,且上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商大于或等于阈值T36(阈值T36例如可以大于或等于阈值T4,阈值T36例如可以大于或等于2,3,5或8或其他值),
上述当前音频帧的位于上述子带e内的频谱系数的包络和位于上述子带f内的频谱系数的包络的差值的绝对值大于阈值T10,且上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商大于或等于阈值T37(其中,阈值T37例如可以大于或等于阈值T6,阈值T37例如可以大于或等于2,3,9或7或其他值),
上述当前音频帧的位于上述子带e内的频谱系数的包络和位于上述子带f内的频谱系数的包络的差值的绝对值大于阈值T10,且上述当前音频帧的位于上述子带z内的频谱系数的峰均比小于或等于阈值T38(其中,阈值T38例如可以小于或等于阈值T2,其中,阈值T38例如可小于或等于0.5,2,3,1.5或4,5或其他值),
上述当前音频帧的位于上述子带e内的频谱系数的包络和位于上述子带f内的频谱系数的包络的差值的绝对值大于阈值T10,且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差小于或等于阈值T39(其中,阈值T39例如可以小于或等于阈值T3,其中,阈值T39例如可以小于或等于5,8,9.5,10或15,20或其他值),
上述当前音频帧的位于上述子带p内的频谱系数和位于上述子带q内的频谱系数的频谱相关性参数值小于或等于阈值T11,且上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商大于或等于阈值T40(阈值T40例如可以大于或等于阈值T4,阈值T40例如可以大于或等于2,3,5或8或其他值);
上述当前音频帧的位于上述子带p内的频谱系数和位于上述子带q内的频谱系数的频谱相关性参数值小于或等于阈值T11,且上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商大于或等于阈值T41(阈值T41例如可以大于或等于阈值T6,阈值T41例如可以大于或等于2,3,9或7或其他值),
上述当前音频帧的位于上述子带p内的频谱系数和位于上述子带q内的频谱系数的频谱相关性参数值小于或等于阈值T11,且上述当前音频帧的位于上述子带z内的频谱系数的峰均比小于或等于阈值T42(其中,阈值T42例如可以小于或等于阈值T2,其中,阈值T42例如可小于或等于0.5,2,3,1.5或4,5或其他值);
上述当前音频帧的位于上述子带p内的频谱系数和位于上述子带q内的频谱系数的频谱相关性参数值小于或等于阈值T11,且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差小于或等于阈值T43(其中,阈值T43例如可以小于或等于阈值T3,其中,阈值T43例如可以小于或等于5,8,9.5,10,15或20或其他值);
上述当前音频帧的位于子带x内的频谱系数的峰均比除以位于上述子带y内的频谱系数的峰均比得到的商小于阈值T44(其中,阈值T44的取值范围例如可以为1.5~3),且上述子带y内的频谱系数的峰均比小于阈值T45(阈值T45的取值范围例如可以为1~3),
上述当前音频帧的位于子带x内的频谱系数的峰均比除以位于上述子带y内的频谱系数的峰均比得到的商大于阈值T46(其中,阈值T46的取值范围例如可以为1.5~3),且上述子带y内的频谱系数的峰均比大于阈值T47(阈值T47的取值范围例如可以为1~3),
上述当前音频帧的位于子带x内的频谱系数的峰均比减位于上述子带y内的频谱系数的峰均比得到的差值小于阈值T48(其中,阈值T48的取值范围例如可以为-1~3),且上述子带y内的频谱系数的峰均比小于阈值T49(阈值T49的取值范围例如可以为1~3),
上述当前音频帧的位于子带x内的频谱系数的峰均比减位于上述子带y内的频谱系数的峰均比得到的差值大于阈值T50(其中,阈值T50的取值范围例如可以为-1~3),且上述子带y内的频谱系数的峰均比大于阈值T51(阈值T51值范围例如可以为1~3),
上述当前音频帧的位于子带r内的频谱系数的包络偏差除以位于上述子带s内的频谱系数的包络偏差得到的商小于阈值T52(其中,阈值T52取值范围例如可以为1~3),且上述子带s内的频谱系数的包络偏差小于阈值T53(其中,阈值T53例如可等于10,20,30或其他值),
上述当前音频帧的位于子带r内的频谱系数的包络偏差除以位于上述子带s内的频谱系数的包络偏差得到的商大于阈值T54(其中,阈值T54取值范围例如可以为1~3),且上述子带s内的频谱系数的包络偏差大于阈值T55(其中,阈值T55例如可等于10,20,30或其他值),
上述当前音频帧的位于子带r内的频谱系数的包络偏差减位于上述子带s内的频谱系数的包络偏差得到的差值小于阈值T56(其中,阈值T54取值范围例如可为-40~40),且上述子带s内的频谱系数的包络偏差小于阈值T57(阈值T57例如可等于10,20,30或其他值),
上述当前音频帧的位于子带r内的频谱系数的包络偏差减位于上述子带s内的频谱系数的包络偏差得到的差值大于阈值T58(其中,阈值T58取值范围例如可为-40~40),且上述子带s内的频谱系数的包络偏差大于阈值T59(阈值T59例如可等于10,20,30或其他值),
上述当前音频帧的位于子带e内的频谱系数的包络除以位于上述子带f内的频谱系数的包络得到的商小于阈值T60(其中,阈值T60取值范围例如可以为1~3),且上述子带f内的频谱系数的包络小于阈值T61(其中,阈值T61例如可等于10,20,30或其他值),
上述当前音频帧的位于子带e内的频谱系数的包络除以位于上述子带f内的频谱系数的包络得到的商大于阈值T62(其中,阈值T62取值范围例如可以为1~3),且上述子带f内的频谱系数的包络大于阈值T63(其中,阈值T63例如可等于10,20,30或其他值),
上述当前音频帧的位于子带e内的频谱系数的包络减位于上述子带f内的频谱系数的包络得到的差值小于阈值T64(其中,阈值T64取值范围例如可为-40~40),且上述子带f内的频谱系数的包络小于阈值T65(其中,阈值T65例如可等于10,20,30或其他值),
上述当前音频帧的位于子带e内的频谱系数的包络减位于上述子带f内的频谱系数的包络得到的差值大于阈值T66(其中,阈值T66取值范围例如可为-40~40),且上述子带f内的频谱系数的包络大于阈值T67(其中,阈值T67例如可等于10,20,30或其他值);
上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商小于或等于阈值T68(其中,阈值T68例如可以小于或等于0.5,1,2,3或其他值),且上述当前音频帧的位于上述子带z内的频谱系数的峰均比小于或者等于阈值T69(其中,阈值T2例如可以小于或者等于1,2,3,5或其他值),
上述当前音频帧的位于上述子带i内的频谱系数的能量均值减位于上述子带j的频谱系数的能量均值得到的差值小于或等于阈值T70(其中,阈值T70例如可以小于或等于10,20,51,100或其他值),且上述当前音频帧的位于上述子带z内的频谱系数的峰均比小于或者等于阈值T71(其中,阈值T71例如可以小于或者等于1,2,3,5或其他值),
上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商小于或等于阈值T72(其中,阈值T72例如可以大于或等于0.5,1.1,2,3或其他值),且上述当前音频帧的位于上述子带z内的频谱系数的峰均比小于或者等于阈值T73(其中,阈值T73例如可以小于或者等于1,2,3,5或其他值),
上述当前音频帧的位于上述子带m内的频谱系数的幅度均值减位于上述子带n内的频谱系数的幅度均值得到的差值小于或等于阈值T74(其中,阈值T74例如可以大于或等于11,20,50,101或其他值),且上述当前音频帧的位于上述子带z内的频谱系数的峰均比小于或者等于阈值T75(其中,阈值T75例如可以小于或者等于1,2,3,5或其他值),
上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商小于或等于阈值T76(其中,阈值T76例如可以小于或等于0.5,1,2,3或其他值),且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差小于或者等于阈值T77(其中,阈值T77例如可以大于或等于10,20,35或其他值),
上述当前音频帧的位于上述子带i内的频谱系数的能量均值减位于上述子带j的频谱系数的能量均值得到的差值小于或等于阈值T78(其中,阈值T78例如可以小于或等于10,20,51,100或其他值),且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差小于或者等于阈值T79(其中,阈值T79例如可以大于或等于10,20,35或其他值),
上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商小于或等于阈值T80(其中,阈值T80例如可以大于或等于0.5,1.1,2,3或其他值),且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差小于或者等于阈值T81(其中,阈值T81例如可以大于或等于10,20,35或其他值),以及
上述当前音频帧的位于上述子带m内的频谱系数的幅度均值减位于上述子带n内的频谱系数的幅度均值得到的差值小于或等于阈值T82(其中,阈值T82例如可以大于或等于11,20,50,101或其他值),且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差小于或者等于阈值T83(其中,阈值T83例如可以大于或等于10,20,35或其他值)。
可以理解,第一参数条件并不限于上述举例,还可基于上述举例扩展出其他多种可能的实施方式。
例如,在本发明一些可能的实施方式中,上述第二参数条件包括如下条件中的至少一个:
上述当前音频帧的编码速率大于或等于阈值T1,
上述当前音频帧的位于上述子带z内的频谱系数的峰均比大于阈值T2,
上述当前音频帧的位于上述子带w内的频谱系数的包络偏差大于阈值T3,
上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商小于阈值T4,
上述当前音频帧的位于上述子带i内的频谱系数的能量均值减去位于上述子带j的频谱系数的能量均值得到的差值小于阈值T5,
上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商小于阈值T6,
上述当前音频帧的位于上述子带m内的频谱系数的幅度均值减去位于上述子带n内的频谱系数的幅度均值得到的差值小于阈值T7,
上述当前音频帧的位于子带x内的频谱系数的峰均比和位于上述子带y内的频谱系数的峰均比的比值未落入区间R1,
上述当前音频帧的位于上述子带x内的频谱系数的峰均比与位于上述子带y内的频谱系数的峰均比的差值的绝对值大于阈值T8,
上述当前音频帧的位于上述子带r内的频谱系数的包络偏差和位于上述子带s内的频谱系数的包络偏差的比值未落入区间R2,
上述当前音频帧的位于上述子带r内的频谱系数的包络偏差和位于上述子带s内的频谱系数的包络偏差的差值的绝对值大于阈值T9,
上述当前音频帧的位于上述子带e内的频谱系数的包络和位于上述子带f内的频谱系数的包络的比值未落入区间R3,
上述当前音频帧的位于上述子带e内的频谱系数的包络和位于上述子带f内的频谱系数的包络的差值的绝对值大于阈值T10,以及
上述当前音频帧的位于上述子带p内的频谱系数和位于上述子带q内的频谱系数的频谱相关性参数值小于阈值T11。
又例如,在本发明一些可能的实施方式中,上述第二参数条件包括如下条件中的其中一个:
上述当前音频帧的编码速率大于或等于阈值T1,且上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商小于阈值T12,
上述当前音频帧的编码速率大于或等于阈值T1,且上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商小于阈值T13,
上述当前音频帧的编码速率大于或等于阈值T1,且上述当前音频帧的位于上述子带z内的频谱系数的峰均比大于阈值T14,
上述当前音频帧的编码速率大于或等于阈值T1,且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差大于阈值T15,
上述当前音频帧的位于子带x内的频谱系数的峰均比和位于上述子带y内的频谱系数的峰均比的比值未落入区间R1,且上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商小于阈值T16,
上述当前音频帧的位于子带x内的频谱系数的峰均比和位于上述子带y内的频谱系数的峰均比的比值未落入区间R1,且上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商小于阈值T17,
上述当前音频帧的位于子带x内的频谱系数的峰均比和位于上述子带y内的频谱系数的峰均比的比值未落入区间R1,且上述当前音频帧的位于上述子带z内的频谱系数的峰均比大于阈值T18,
上述当前音频帧的位于子带x内的频谱系数的峰均比和位于上述子带y内的频谱系数的峰均比的比值未落入区间R1,且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差大于阈值T19,
上述当前音频帧的位于上述子带x内的频谱系数的峰均比与位于上述子带y内的频谱系数的峰均比的差值的绝对值大于阈值T8,且上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商小于阈值T20,
上述当前音频帧的位于上述子带x内的频谱系数的峰均比与位于上述子带y内的频谱系数的峰均比的差值的绝对值大于阈值T8,且上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商小于阈值T21,
上述当前音频帧的位于上述子带x内的频谱系数的峰均比与位于上述子带y内的频谱系数的峰均比的差值的绝对值大于阈值T8,且上述当前音频帧的位于上述子带z内的频谱系数的峰均比大于阈值T22,
上述当前音频帧的位于上述子带x内的频谱系数的峰均比与位于上述子带y内的频谱系数的峰均比的差值的绝对值大于阈值T8,且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差大于阈值T23,
上述当前音频帧的位于上述子带r内的频谱系数的包络偏差和位于上述子带s内的频谱系数的包络偏差的比值未落入区间R2,且上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商小于阈值T24,
上述当前音频帧的位于上述子带r内的频谱系数的包络偏差和位于上述子带s内的频谱系数的包络偏差的比值未落入区间R2,且上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商小于阈值T25,
上述当前音频帧的位于上述子带r内的频谱系数的包络偏差和位于上述子带s内的频谱系数的包络偏差的比值未落入区间R2,且上述当前音频帧的位于上述子带z内的频谱系数的峰均比大于阈值T26,
上述当前音频帧的位于上述子带r内的频谱系数的包络偏差和位于上述子带s内的频谱系数的包络偏差的比值未落入区间R2,且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差大于阈值T27,
上述当前音频帧的位于上述子带r内的频谱系数的包络偏差和位于上述子带s内的频谱系数的包络偏差的差值的绝对值大于阈值T9,且上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商小于阈值T28,
上述当前音频帧的位于上述子带r内的频谱系数的包络偏差和位于上述子带s内的频谱系数的包络偏差的差值的绝对值大于阈值T9,且上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商小于阈值T29,
上述当前音频帧的位于上述子带r内的频谱系数的包络偏差和位于上述子带s内的频谱系数的包络偏差的差值的绝对值大于阈值T9,且上述当前音频帧的位于上述子带z内的频谱系数的峰均比大于阈值T30,
上述当前音频帧的位于上述子带r内的频谱系数的包络偏差和位于上述子带s内的频谱系数的包络偏差的差值的绝对值大于阈值T9,且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差大于阈值T31,
上述当前音频帧的位于上述子带e内的频谱系数的包络和位于上述子带f内的频谱系数的包络的比值落入区间R3,且上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商小于阈值T32,
上述当前音频帧的位于上述子带e内的频谱系数的包络和位于上述子带f内的频谱系数的包络的比值落入区间R3,且上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商小于阈值T33,
上述当前音频帧的位于上述子带e内的频谱系数的包络和位于上述子带f内的频谱系数的包络的比值落入区间R3,且上述当前音频帧的位于上述子带z内的频谱系数的峰均比大于阈值T34,
上述当前音频帧的位于上述子带e内的频谱系数的包络和位于上述子带f内的频谱系数的包络的比值落入区间R3,且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差大于阈值T35,
上述当前音频帧的位于上述子带e内的频谱系数的包络和位于上述子带f内的频谱系数的包络的差值的绝对值大于阈值T10,且上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商小于阈值T36,
上述当前音频帧的位于上述子带e内的频谱系数的包络和位于上述子带f内的频谱系数的包络的差值的绝对值大于阈值T10,且上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商小于阈值T37,
上述当前音频帧的位于上述子带e内的频谱系数的包络和位于上述子带f内的频谱系数的包络的差值的绝对值大于阈值T10,且上述当前音频帧的位于上述子带z内的频谱系数的峰均比大于阈值T38,
上述当前音频帧的位于上述子带e内的频谱系数的包络和位于上述子带f内的频谱系数的包络的差值的绝对值大于阈值T10,且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差大于阈值T39,
上述当前音频帧的位于上述子带p内的频谱系数和位于上述子带q内的频谱系数的频谱相关性参数值小于或等于阈值T11,且上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商小于阈值T40,
上述当前音频帧的位于上述子带p内的频谱系数和位于上述子带q内的频谱系数的频谱相关性参数值小于或等于阈值T11,且上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商小于阈值T41,
上述当前音频帧的位于上述子带p内的频谱系数和位于上述子带q内的频谱系数的频谱相关性参数值小于或等于阈值T11,且上述当前音频帧的位于上述子带z内的频谱系数的峰均比大于阈值T42,
上述当前音频帧的位于上述子带p内的频谱系数和位于上述子带q内的频谱系数的频谱相关性参数值小于或等于阈值T11,且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差大于阈值T43,
上述当前音频帧的位于子带x内的频谱系数的峰均比除以位于上述子带y内的频谱系数的峰均比得到的商小于阈值T44,且上述子带y内的频谱系数的峰均比大于阈值T45,
上述当前音频帧的位于子带x内的频谱系数的峰均比除以位于上述子带y内的频谱系数的峰均比得到的商大于阈值T46,且上述子带y内的频谱系数的峰均比小于阈值T47,
上述当前音频帧的位于子带x内的频谱系数的峰均比减位于上述子带y内的频谱系数的峰均比得到的差值小于阈值T48,且上述子带y内的频谱系数的峰均比大于阈值T49,
上述当前音频帧的位于子带x内的频谱系数的峰均比减位于上述子带y内的频谱系数的峰均比得到的差值大于阈值T50,且上述子带y内的频谱系数的峰均比小于阈值T51,
上述当前音频帧的位于子带r内的频谱系数的包络偏差除以位于上述子带s内的频谱系数的包络偏差得到的商小于阈值T52,且上述子带s内的频谱系数的包络偏差大于阈值T53,
上述当前音频帧的位于子带r内的频谱系数的包络偏差除以位于上述子带s内的频谱系数的包络偏差得到的商大于阈值T54,且上述子带s内的频谱系数的包络偏差小于阈值T55,
上述当前音频帧的位于子带r内的频谱系数的包络偏差减位于上述子带s内的频谱系数的包络偏差得到的差值小于阈值T56,且上述子带s内的频谱系数的包络偏差大于阈值T57,
上述当前音频帧的位于子带r内的频谱系数的包络偏差减位于上述子带s内的频谱系数的包络偏差得到的差值大于阈值T58,且上述子带s内的频谱系数的包络偏差小于阈值T59,
上述当前音频帧的位于子带e内的频谱系数的包络除以位于上述子带f内的频谱系数的包络得到的商小于阈值T60,且上述子带f内的频谱系数的包络大于阈值T61,
上述当前音频帧的位于子带e内的频谱系数的包络除以位于上述子带f内的频谱系数的包络得到的商大于阈值T62,且上述子带f内的频谱系数的包络小于阈值T63,
上述当前音频帧的位于子带e内的频谱系数的包络减位于上述子带f内的频谱系数的包络得到的差值小于阈值T64,且上述子带f内的频谱系数的包络大于阈值T65,
上述当前音频帧的位于子带e内的频谱系数的包络减位于上述子带f内的频谱系数的包络得到的差值大于阈值T66,且上述子带f内的频谱系数的包络小于阈值T67,
上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商小于或等于阈值T68,且上述当前音频帧的位于上述子带z内的频谱系数的峰均比大于阈值T69,
上述当前音频帧的位于上述子带i内的频谱系数的能量均值减位于上述子带j的频谱系数的能量均值得到的差值小于或等于阈值T70,且上述当前音频帧的位于上述子带z内的频谱系数的峰均比大于阈值T71,
上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商小于或等于阈值T72,且上述当前音频帧的位于上述子带z内的频谱系数的峰均比大于阈值T73,
上述当前音频帧的位于上述子带m内的频谱系数的幅度均值减位于上述子带n内的频谱系数的幅度均值得到的差值小于或等于阈值T74,且上述当前音频帧的位于上述子带z内的频谱系数的峰均比大于阈值T75,
上述当前音频帧的位于上述子带i内的频谱系数的能量均值除以位于上述子带j的频谱系数的能量均值得到的商小于或等于阈值T76,且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差大于阈值T77,
上述当前音频帧的位于上述子带i内的频谱系数的能量均值减位于上述子带j的频谱系数的能量均值得到的差值小于或等于阈值T78,且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差大于阈值T79,
上述当前音频帧的位于上述子带m内的频谱系数的幅度均值除以位于上述子带n内的频谱系数的幅度均值得到的商小于或等于阈值T80且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差大于阈值T81,以及
上述当前音频帧的位于上述子带m内的频谱系数的幅度均值减位于上述子带n内的频谱系数的幅度均值得到的差值小于或等于阈值T82,且上述当前音频帧的位于上述子带w内的频谱系数的包络偏差大于阈值T83。
可以理解,第二参数条件并不限于上述举例,还可基于上述举例扩展出其他多种可能的实施方式。
可以理解,上述举例的第一参数条件和第一参数条件并非全部的可能实施方式,在实际应用中,还可能扩展上述举例,以丰富第一参数条件和第一参数条件的可能实施方式。
为便于更好的理解本发明实施例的上述方案,下面结合一些具体的应用场景进行举例说明。
首先请参见图2,图2为本发明的另一个实施例提供的另一种音频编码方法的流程示意图。图2所示举例中,主要以基于当前音频帧的位于子带i内的频谱系数的能量均值和位于子带j的频谱系数的能量均值,来确定编码上述当前音频帧的频谱系数的编码算法。
其中,如图2所示,本发明的另一个实施例提供的另一种音频编码方法可包括以下内容:
201,对当前音频帧的时域信号进行时频变换处理以得到上述当前音频帧的频谱系数。
其中,本发明各实施例中提及的音频帧可以是语音帧或音乐帧。
其中,假设当前音频帧的时域信号的带宽为16kHz。
基于采用快速傅里叶变换(英文:fast fourier transform,缩写:FFT)算法或修正离散余弦变换(英文:modified discrete cosine transform,缩写:MDCT)算法或其他时频变换算法,对当前音频帧的时域信号进行时频变换处理以得到上述当前音频帧的频谱系数。
202,获取当前音频帧的位于子带i内的频谱系数的能量均值和位于子带j的频谱系数的能量均值。
203,判断当前音频帧的位于子带i内的频谱系数的能量均值除以位于子带j的频谱系数的能量均值得到的商是否大于或等于阈值T4。
若是,则执行步骤204。若否,则执行步骤205。
其中,阈值T4可大于或等于0.5,阈值T4例如等于0.5,1,1.5,2,3或其他值。
例如,上述子带i的频点范围可为3.2kHz至6.4kHz,3.2kHz至4.8kHz,4.8kHz至6.4kHz或0.4kHz至6.4kHz。
例如,上述子带j的频点范围可为6.4kHz至9.6kHz,6.4kHz至8kHz,8kHz至9.6kHz或4.8kHz至9.6kHz等。
204,基于TCX算法对上述当前音频帧的频谱系数进行编码。
205,基于HQ算法对上述当前音频帧的频谱系数进行编码。
可以看出,本实施例方案中,获取当前音频帧的位于子带i内的频谱系数的能量均值和位于子带j的频谱系数的能量均值后,基于获取的当前音频帧的位于子带i内的频谱系数的能量均值和位于子带j的频谱系数的能量均值来选择TCX算法或HQ算法对上述当前音频帧的频谱系数进行编码。由于将当前音频帧的位于子带i内的频谱系数的能量均值和位于子带j的频谱系数的能量均值之间的关系,与编码上述当前音频帧的频谱系数的编码算法进行关联,这样就有利于提高编码算法和当前音频帧的编码参考参数之间的适应性和匹配性,进而有利于提高上述当前音频帧的编码质量或编码效率。
请参见图3,图3为本发明的另一个实施例提供的另一种音频编码方法的流程示意图。图3所示举例中,主要是以基于当前音频帧的位于子带i内的频谱系数的能量均值和位于子带j的频谱系数的能量均值,以及当前音频帧的位于子带z内的频谱系数的峰均比,来共同确定编码上述当前音频帧的频谱系数的编码算法。
其中,如图3所示,本发明的另一个实施例提供的另一种音频编码方法可包括以下内容:
301,对当前音频帧的时域信号进行时频变换处理以得到上述当前音频帧的频谱系数。
其中,本发明各实施例中提及的音频帧可以是语音帧或音乐帧。
其中,假设当前音频帧的时域信号的带宽为16kHz。
302,获取上述当前音频帧的位于子带i内的频谱系数的能量均值和位于子带j的频谱系数的能量均值。
303,判断上述当前音频帧的位于子带i内的频谱系数的能量均值除以位于子带j的频谱系数的能量均值得到的商是否大于或等于阈值T68。
若否,则执行步骤304。若是,则执行步骤306。
其中,阈值T68大于或等于阈值T4,例如阈值T68可大于或等于0.6,阈值T68例如等于0.8,0.6,1,1.5,2,3,5或其他值。
例如,上述子带i的频点范围可为3.2kHz至6.4kHz,3.2kHz至4.8kHz,4.8kHz至6.4kHz或0.4kHz至6.4kHz。
例如,上述子带j的频点范围可为6.4kHz至9.6kHz,6.4kHz至8kHz,8kHz至9.6kHz或4.8kHz至9.6kHz等。
304,获取上述当前音频帧的位于子带z内的频谱系数的峰均比。
305,判断上述当前音频帧的位于子带z内的频谱系数的峰均比是否大于阈值T69。
若是,则执行步骤307。若否,则执行步骤306。
其中,阈值T69可大于或等于1,阈值T69例如等于1,1.1,1.5,2,3.5,5或6或4.6或其他值。
例如上述子带z的最高频点的取值范围可为12kHz至16kHz,子带z的最低频点的取值范围可为8kHz至14kHz,具体例如,子带z的频点范围可为8kHz至12kHz,9kHz至11kHz,8kHz至9.6kHz等。
306,基于TCX算法对上述当前音频帧的频谱系数进行编码。
307,基于HQ算法对上述当前音频帧的频谱系数进行编码。
可以看出,本实施例方案中,基于获取的当前音频帧的位于子带i内的频谱系数的能量均值和位于子带j的频谱系数的能量均值,以及当前音频帧的位于子带z内的频谱系数的峰均比,来选择TCX算法或HQ算法对上述当前音频帧的频谱系数进行编码。由于将当前音频帧的位于子带i内的频谱系数的能量均值和位于子带j的频谱系数的能量均值之间的关系,以及当前音频帧的位于子带z内的频谱系数的峰均比,与编码上述当前音频帧的频谱系数的编码算法进行关联,这样就有利于提高编码算法和当前音频帧的编码参考参数之间的适应性和匹配性,进而有利于提高上述当前音频帧的编码质量或编码效率。
请参见图4,图4为本发明的另一个实施例提供的另一种音频编码方法的流程示意图。图4所示举例中,主要以基于当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y的频谱系数的峰均比,来共同确定编码上述当前音频帧的频谱系数的编码算法。
其中,如图4所示,本发明的另一个实施例提供的另一种音频编码方法可包括以下内容:
401,对当前音频帧的时域信号进行时频变换处理以得到上述当前音频帧的频谱系数。
其中,本发明各实施例中提及的音频帧可以是语音帧或音乐帧。
其中,假设当前音频帧的时域信号的带宽为16kHz。
402,获取当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y的频谱系数的峰均比。
403,判断当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y的频谱系数的峰均比的比值是否落入区间R1。
若是,则执行步骤404。若否,则执行步骤405。
其中,区间R1例如可为[0.5,2],[0.8,1.25],[0.4,2.5]或其他范围。
例如,上述子带x的频点范围可为0kHz至1.6kHz,1kHz至2.6kHz或1.6kHz至3.2kHz。上述子带y的频点范围可为6.4kHz至8kHz,7.4kHz至9kHz或4.8kHz至6.4kHz。
404,基于TCX算法对上述当前音频帧的频谱系数进行编码。
405,基于HQ算法对上述当前音频帧的频谱系数进行编码。
可以看出,本实施例方案中,主要基于获取的当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y的频谱系数的峰均比,来选择TCX算法或HQ算法对上述当前音频帧的频谱系数进行编码。由于将当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y的频谱系数的峰均比,与编码上述当前音频帧的频谱系数的编码算法进行关联,这样就有利于提高编码算法和当前音频帧的编码参考参数之间的适应性和匹配性,进而有利于提高上述当前音频帧的编码质量或编码效率。
请参见图5,图5为本发明的另一个实施例提供的另一种音频编码方法的流程示意图。图5所示举例中,主要以基于当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y的频谱系数的峰均比,来共同确定编码上述当前音频帧的频谱系数的编码算法。
其中,如图5所示,本发明的另一个实施例提供的另一种音频编码方法可包括以下内容:
501,对当前音频帧的时域信号进行时频变换处理以得到上述当前音频帧的频谱系数。
其中,本发明各实施例中提及的音频帧可以是语音帧或音乐帧。
其中,假设当前音频帧的时域信号的带宽为16kHz。
502,获取当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y的频谱系数的峰均比。
503,判断当前音频帧的位于子带x内的频谱系数的峰均比除以位于子带y的频谱系数的峰均比得到的商是否大于或等于阈值T46。
若是,则执行步骤504。若否,则执行步骤505。
其中,阈值T46可大于或等于0.5,阈值T4例如等于0.5,1,1.5,2,3或其他值。
例如,上述子带x的频点范围可为0kHz至1.6kHz,1kHz至2.6kHz或1.6kHz至3.2kHz。上述子带y的频点范围可为6.4kHz至8kHz,7.4kHz至9kHz或4.8kHz至6.4kHz。
504,判断上述当前音频帧的位于子带y的频谱系数的峰均比是否大于或者等于阈值T47。
若是,则执行步骤506。若否,则执行步骤507。
505,判断上述当前音频帧的位于子带y的频谱系数的峰均比是否小于阈值T47。
若是,则执行步骤506。若否,则执行步骤507。
506,基于TCX算法对上述当前音频帧的频谱系数进行编码。
507,基于HQ算法对上述当前音频帧的频谱系数进行编码。
可以看出,本实施例方案中,主要基于获取的当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y的频谱系数的峰均比,来选择TCX算法或HQ算法对上述当前音频帧的频谱系数进行编码。由于将当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y的频谱系数的峰均比,与编码上述当前音频帧的频谱系数的编码算法进行关联,这样就有利于提高编码算法和当前音频帧的编码参考参数之间的适应性和匹配性,进而有利于提高上述当前音频帧的编码质量或编码效率。
参见图6,图6为本发明的另一个实施例提供的另一种音频编码方法的流程示意图。图6所示举例中,主要以基于当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y的频谱系数的峰均比,以及当前音频帧的位于子带i内的频谱系数的能量均值和位于子带j的频谱系数的能量均值,来共同确定编码上述当前音频帧的频谱系数的编码算法。
其中,如图6所示,本发明的另一个实施例提供的另一种音频编码方法可包括以下内容:
601,对当前音频帧的时域信号进行时频变换处理以得到上述当前音频帧的频谱系数。
其中,本发明各实施例中提及的音频帧可以是语音帧或音乐帧。
其中,假设当前音频帧的时域信号的带宽为16kHz。
602,获取当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y的频谱系数的峰均比。
603,判断当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y的频谱系数的峰均比的比值是否落入区间R1。
若否,则执行步骤604。若是,则执行步骤606。
其中,区间R1例如可为[0.5,2],[0.8,1.25],[0.4,2.5]或其他范围。
例如,上述子带x的频点范围可为0kHz至1.6kHz,1kHz至2.6kHz或1.6kHz至3.2kHz。上述子带y的频点范围可为6.4kHz至8kHz,7.4kHz至9kHz或4.8kHz至6.4kHz。
604,获取当前音频帧的位于子带i内的频谱系数的能量均值和位于子带j的频谱系数的能量均值。
605,判断当前音频帧的位于子带i内的频谱系数的能量均值除以位于子带j的频谱系数的能量均值得到的商是否大于或等于阈值T16。
若是,则执行步骤606。若否,则执行步骤607。
其中,子带i的频点范围例如可为0kHz至1.6kHz或1kHz至2.6kHz,子带j的频点范围例如可为6.4kHz至8kHz或4.8kHz至6.4kHz或7.4kHz至9kHz。
其中,阈值T16大于阈值T4,例如阈值T16可大于或等于2,阈值T16例如等于2,2.5,3,3.5,5,5.1或其他值。
606,基于TCX算法对上述当前音频帧的频谱系数进行编码。
607,基于HQ算法对上述当前音频帧的频谱系数进行编码。
可以看出,本实施例方案中,主要基于获取的当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y的频谱系数的峰均比,以及当前音频帧的位于子带i内的频谱系数的能量均值和位于子带j的频谱系数的能量均值,来选择TCX算法或HQ算法对上述当前音频帧的频谱系数进行编码。由于将当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y的频谱系数的峰均比,以及当前音频帧的位于子带i内的频谱系数的能量均值和位于子带j的频谱系数的能量均值,与编码上述当前音频帧的频谱系数的编码算法进行关联,这样就有利于提高编码算法和当前音频帧的编码参考参数之间的适应性和匹配性,进而有利于提高上述当前音频帧的编码质量或编码效率。
参见图7,图7为本发明的另一个实施例提供的另一种音频编码方法的流程示意图。其中,图7所示举例当中,主要是以当前音频帧的编码速率,以及当前音频帧的位于子带i内的频谱系数的能量均值和位于子带j的频谱系数的能量均值,来共同确定编码上述当前音频帧的频谱系数的编码算法。
其中,如图7所示,本发明的另一个实施例提供的另一种音频编码方法可包括以下内容:
701,对当前音频帧的时域信号进行时频变换处理以得到上述当前音频帧的频谱系数。
其中,本发明各实施例中提及的音频帧可以是语音帧或音乐帧。
其中,假设当前音频帧的时域信号的带宽为16kHz。
702,判断当前音频帧的编码速率是否大于或等于阈值T1。
若是,则执行步骤703。若否,则执行步骤705。
其中,阈值T1例如大于或等于24.4kbps。例如阈值T1等于24.4kbps,32kbps或64kbps或其他速率。
703,获取当前音频帧的位于子带i内的频谱系数的能量均值和位于子带j的频谱系数的能量均值。
704,判断当前音频帧的位于子带i内的频谱系数的能量均值除以位于子带j的频谱系数的能量均值得到的商是否大于或等于阈值T12。
若是,则执行步骤705。若否,则执行步骤706。
其中,子带i的频点范围例如可为0kHz至1.6kHz或1kHz至2.6kHz,子带j的频点范围例如可为6.4kHz至8kHz或4.8kHz至6.4kHz或7.4kHz至9kHz。
其中,阈值T12可大于阈值T4,例如阈值T12可大于或等于2,阈值T12例如等于2,2.5,3,3.5,5,5.2或其他值。
705,基于TCX算法对上述当前音频帧的频谱系数进行编码。
706,基于HQ算法对上述当前音频帧的频谱系数进行编码。
可以看出,本实施例方案中,主要基于当前音频帧的编码速率,以及当前音频帧的位于子带i内的频谱系数的能量均值和位于子带j的频谱系数的能量均值,来选择TCX算法或HQ算法对上述当前音频帧的频谱系数进行编码。由于将当前音频帧的编码速率,以及当前音频帧的位于子带i内的频谱系数的能量均值和位于子带j的频谱系数的能量均值,与编码上述当前音频帧的频谱系数的编码算法进行关联,这样就有利于提高编码算法和当前音频帧的编码参考参数之间的适应性和匹配性,进而有利于提高上述当前音频帧的编码质量或编码效率。
请参见图8,图8为本发明的另一个实施例提供的另一种音频编码方法的流程示意图。图2所示举例中,主要以基于当前音频帧的位于子带m内的频谱系数的幅度均值和位于子带n内的频谱系数的幅度均值,来确定编码上述当前音频帧的频谱系数的编码算法。
其中,如图8所示,本发明的另一个实施例提供的另一种音频编码方法可包括以下内容:
801,对当前音频帧的时域信号进行时频变换处理以得到上述当前音频帧的频谱系数。
其中,本发明各实施例中提及的音频帧可以是语音帧或音乐帧。
其中,假设当前音频帧的时域信号的带宽为16kHz。
802,获取当前音频帧的位于子带m内的频谱系数的幅度均值和位于子带n内的频谱系数的幅度均值。
803,判断当前音频帧的位于子带m内的频谱系数的幅度均值除以位于子带n的频谱系数的幅度均值得到的商是否大于或等于阈值T6。
若是,则执行步骤804。若否,则执行步骤805。
其中,阈值T6可大于或等于0.3,阈值T6例如等于0.5,1,1.5,2,3.2或其他值。
例如,子带m的频点范围可为3.2kHz至6.4kHz,3.2kHz至4.8kHz,4.8kHz至6.4kHz或0.4kHz至6.4kHz。
例如,上述子带n的频点范围可为6.4kHz至9.6kHz,6.4kHz至8kHz,8kHz至9.6kHz或4.8kHz至9.6kHz等。
804,基于TCX算法对上述当前音频帧的频谱系数进行编码。
805,基于HQ算法对上述当前音频帧的频谱系数进行编码。
可以看出,本实施例的方案中,基于获取的当前音频帧的位于子带m内的频谱系数的幅度均值和位于子带n内的频谱系数的幅度均值,来选择TCX算法或HQ算法对上述当前音频帧的频谱系数进行编码。由于将当前音频帧的位于子带m内的频谱系数的幅度均值和位于子带n内的频谱系数的幅度均值之间的关系,以及当前音频帧的位于子带z内的频谱系数的峰均比,与编码上述当前音频帧的频谱系数的编码算法进行关联,这样就有利于提高编码算法和当前音频帧的编码参考参数之间的适应性和匹配性,进而有利于提高上述当前音频帧的编码质量或编码效率。
可以理解,图2~图8所举例的实施方式仅为本发明的部分实施方式,在实际应用中,还可基于图1所对应的实施例中的相关举例描述,扩展出其他多个可能的实施方式。
在有些场景下,进行子带选择时可以进行如下考虑:
计算位于两个子带内的频谱系数的特性参数的相似性时,可以选择匹配的两个子带,如0kHz~1.6kHz和6.4~8kHz这两个子带,而在一些场景中,0~1kHz范围内的频谱系数和1~16kHz范围内的频谱系数的特性差别较大,所以在计算频谱系数的特性参数的相似性时可不选择这段频谱,例如可选择1kHz~2.6kHz范围内的频谱系数来代替0~1.6kHz范围内的频谱系数,来计算低频频谱系数的特性参数。这时1kHz~2.6kHz范围内的低频如果拷贝到高频,对应的应该是7.4kHz~9kHz范围内的高频频谱系数,计算高频频谱系数的特性参数时,计算7.4kHz~9kHz范围内的频谱特性更合适。但在有些场景下,0kHz~6.4kHz范围的频谱系数的分辨率可能特别高,计算特性参数较优,如果6.4kHz~16kHz范围的频谱系数的分辨率较低,可能不适合计算频谱系数的特性参数。所以在计算高频频谱系数的特性参数时,也可以选择了4.8kHz~6.4kHz范围内的频谱系数来计算特性参数,此特性参数作为高频的特性参数。
其中,基于变换码激励编码算法对上述当前音频帧的频谱系数进行编码具体可以包括:将频谱系数分成N个子带;计算并量化每个子带的包络;根据量化后的包络值和可用比特数对每个子带进行比特分配;根据每个子带分配的比特数,量化每个子带的频谱系数;将量化的频谱系数和频谱包络的索引值写入码流。
下面还提供用于实施上述方案的相关装置。
参见图9,本发明实施例还提供一种音频编码器900,可以包括:时频变换单元910,获取单元920和编码单元930。
时频变换单元910,用于对当前音频帧的时域信号进行时频变换处理以得到上述当前音频帧的频谱系数。
获取单元920,用于获取当前音频帧的编码参考参数;
编码单元930,用于若获取单元920获取到的上述当前音频帧的编码参考参数符合第一参数条件,基于变换码激励编码算法对上述当前音频帧的频谱系数进行编码;若上述获取单元获取到的上述当前音频帧的编码参考参数符合第二参数条件,基于高质量变换编码算法对上述当前音频帧的频谱系数进行编码。
其中,根据应用场景的需求,获取单元920获取的当前音频帧的编码参考参数可能是多种多样的。
例如,上述编码参考参数例如可包括如下参数中的至少一种:上述当前音频帧的编码速率,上述当前音频帧的位于子带z内的频谱系数的峰均比,上述当前音频帧的位于子带w内的频谱系数的包络偏差,上述当前音频帧的位于子带i内的频谱系数的能量均值与位于子带j的频谱系数的能量均值,上述当前音频帧的位于子带m内的频谱系数的幅度均值与位于子带n内的频谱系数的幅度均值,上述当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y内的频谱系数的峰均比,上述当前音频帧的位于子带r内的频谱系数的包络偏差和位于子带s内的频谱系数的包络偏差,上述当前音频帧的位于子带e内的频谱系数的包络和位于子带f内的频谱系数的包络,上述当前音频帧的位于子带p内的频谱系数和位于子带q内的频谱系数的频谱相关性参数值。
其中,上述当前音频帧的位于子带p内的频谱系数和位于子带q内的频谱系数的频谱相关性参数值越大,表示位于子带p内的频谱系数和位于子带q内的频谱系数的频谱相关性越强,其中,频谱相关性参数值例如可为归一化互相关参数值。
其中,上述各子带的频点范围具体可根据实际需要确定。
可选的,在本发明的一些可能的实施方式中,上述子带z的最高频点可以大于临界频点F1。上述子带w的最高频点可大于上述临界频点F1。其中,上述临界频点F1的取值范围例如可为6.4kHz至12kHz。例如,临界频点F1的取值可以为6.4kHz,8kHz,9kHz,10kHz,12kHz等等,当然,临界频点F1也可为其他取值。
可选的,在本发明的一些可能的实施方式中,上述子带j的最高频点大于临界频点F2。上述子带n的最高频点大于上述临界频点F2。例如,上述临界频点F2的取值范围可以为4.8kHz至8kHz。具体例如,临界频点F2的取值可以为6.4kHz,4.8kHz,6kHz,8kHz,5kHz,7kHz等等,当然,临界频点F2也可为其他取值。
可选的,在本发明的一些可能的实施方式中,上述子带i的最高频点可以小于上述子带j的最高频点。上述子带m的最高频点可以小于上述子带n的最高频点。上述子带x的最高频点可小于或等于上述子带y的最低频点。上述子带p的最高频点可小于或等于上述子带q的最低频点,上述子带r的最高频点可小于或等于上述子带s的最低频点。上述子带e的最高频点可小于或等于上述子带f的最低频点。
可选的,在本发明的一些可能的实施方式中,如下条件之中的至少一个可以被满足:
上述子带w的最低频点大于或等于临界频点F1,上述子带z的最低频点大于或等于上述临界频点F1,上述子带i的最高频点小于或等于上述子带j的最低频点,上述子带m的最高频点小于或等于上述子带n的最低频点,上述子带j的最低频点大于或等于临界频点F2,上述子带n的最低频点大于或等于上述临界频点F2,上述子带i的最高频点小于或等于临界频点F2,上述子带m的最高频点小于或等于临界频点F2,子带j的最低频点大于或等于临界频点F2,上述子带n的最低频点大于或等于临界频点F2。
可选的,在本发明的一些可能的实施方式中,如下条件之中的至少一个可以被满足:上述子带e的最高频点小于或等于临界频点F2,上述子带x的最高频点小于或等于临界频点F2,上述子带p的最高频点小于或等于临界频点F2,上述子带r的最高频点小于或等于临界频点F2。
可选的,在本发明的一些可能的实施方式中,上述子带f的最高频点可小于或者等于临界频点F2,当然,上述子带f的最低频点也可能大于或者等于临界频点F2。上述子带q的最高频点可小于或者等于临界频点F2,当然,上述子带q的最低频点也可能大于或者等于临界频点F2。上述子带s的最高频点可小于或者等于临界频点F2,当然,上述子带s的最低频点也可能大于或者等于临界频点F2。
举例来说,上述子带z的最高频点的取值范围可为12kHz至16kHz。子带z的最低频点的取值范围可为8kHz至14kHz。子带z的带宽的取值范围可为1.6kHz~8kHz。具体例如,子带z的频点范围可为8kHz至12kHz,9kHz至11kHz或8kHz至9.6kHz或12kHz至14kHz等。当然,子带z的频点范围也并不限于上述举例。
例如,子带w的频点范围也可根据实际需要确定,例如子带w的最高频点的取值范围可为12kHz至16kHz,子带w的最低频点的取值范围可为8kHz至14kHz。具体例如子带w的频点范围为8kHz至12kHz,9kHz至11kHz,8kHz至9.6kHz,12kHz至14kHz,12.2kHz至14.5kHz等。当然,子带w的频点范围也并不限于上述举例。在一些可能的实施方式中,子带w的频点范围和子带z的频点范围可相同或相近。
例如,上述子带i的频点范围可为3.2kHz至6.4kHz,3.2kHz至4.8kHz,4.8kHz至6.4kHz,0.4kHz至6.4kHz或0.4kHz至3.6kHz,当然,子带i的频点范围也不限于上述举例。
例如,上述子带j的频点范围可为6.4kHz至9.6kHz,6.4kHz至8kHz,8kHz至9.6kHz,4.8kHz至9.6kHz或4.8kHz至8kHz等。当然,子带j的频点范围也不限于上述举例。
例如,上述子带m的频点范围为3.2kHz至6.4kHz,3.2kHz至4.8kHz,4.8kHz至6.4kHz,0.4kHz至6.4kHz或0.4kHz至3.6kHz,当然,子带m的频点范围也不限于上述举例。在一些可能的实施方式中,子带m的频点范围和子带i的频点范围可相同或相近。
例如,上述子带n的频点范围可为6.4kHz至9.6kHz,6.4kHz至8kHz,8kHz至9.6kHz,4.8kHz至9.6kHz或4.8kHz至8kHz等。当然,子带n的频点范围也不限于上述举例。在一些可能的实施方式中,子带n的频点范围和子带j的频点范围可相同或相近。
例如,上述子带x的频点范围可为0kHz至1.6kHz,1kHz至2.6kHz,1.6kHz至3.2kHz,2kHz至3.2kHz或2.5kHz至3.4kHz。当然,子带x的频点范围也不限于上述举例。
例如,上述子带y的频点范围可为6.4kHz至8kHz,7.4kHz至9kHz,4.8kHz至6.4kHz,4.4kHz至6.4kHz或4.5kHz至6.2kHz。当然,子带y的频点范围也不限于上述举例。
例如,上述子带p的频点范围可为0kHz至1.6kHz,1kHz至2.6kHz,1.6kHz至3.2kHz,2.1kHz至3.2kHz或2.5kHz至3.5kHz。当然,子带p的频点范围也不限于上述举例。在一些可能的实施方式中,子带p的频点范围和子带x的频点范围可相同或相近。
例如,上述子带q的频点范围可为6.4kHz至8kHz,7.4kHz至9kHz,4.8kHz至6.4kHz,4.2kHz至6.4kHz或4.7kHz至6.2kHz。当然,子带q的频点范围也不限于上述举例。在一些可能的实施方式中,子带q的频点范围和子带y的频点范围可相同或相近。
例如,上述子带r的频点范围可为0kHz至1.6kHz,1kHz至2.6kHz,1.6kHz至3.2kHz,2.05kHz至3.27kHz或2.59kHz至3.51kHz。当然,子带r的频点范围也不限于上述举例。在一些可能的实施方式中,子带r的频点范围和子带x的频点范围可相同或相近。
例如,上述子带s的频点范围可为6.4kHz至8kHz,7.4kHz至9kHz,4.8kHz至6.4kHz,5.4kHz至7.1kHz或4.55kHz至6.29kHz。当然,子带s的频点范围也不限于上述举例。在一些可能的实施方式中,子带s的频点范围和子带y的频点范围可相同或相近。
例如,上述子带e的频点范围可为0kHz至1.6kHz,1kHz至2.6kHz,1.6kHz至3.2kHz,0.8kHz至3kHz或1.9kHz至3.8kHz。当然,子带e的频点范围也不限于上述举例。在一些可能的实施方式中,子带e的频点范围和子带x的频点范围可相同或相近。
例如,上述子带f的频点范围可为6.4kHz至8kHz,7.4kHz至9kHz,4.8kHz至6.4kHz,5.3kHz至7.15kHz或4.58kHz至6.52kHz。当然,子带f的频点范围也不限于上述举例。在一些可能的实施方式中,子带f的频点范围和子带y的频点范围可相同或相近。
其中,上述第一参数条件和第二参数条件可能是多种多样的。
例如,在本发明一些可能的实施方式中,本实施例中的第一参数条件例如可为上述方法实施例中举例的第一参数条件。本实施例中的第二参数条件例如可为上述方法实施例中举例的第二参数条件,相关描述请参考上述方法实施例中的记载。
可以理解的是,本实施例的音频编码器900的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
其中,音频编码器900音频编码器可为任何需要采集,存储或者向外传输音频信号的装置,例如手机,平板电脑,个人电脑,笔记本电脑等等
可以看出,本实施例方案中,音频编码器900获取当前音频帧的编码参考参数后,基于获取的当前音频帧的编码参考参数来选择TCX算法或HQ算法对上述当前音频帧的频谱系数进行编码。由于将当前音频帧的编码参考参数与编码上述当前音频帧的频谱系数的编码算法进行关联,这样就有利于提高编码算法和当前音频帧的编码参考参数之间的适应性和匹配性,进而有利于提高上述当前音频帧的编码质量或编码效率。
参见图10,图10是本发明另一实施例提供的音频编码器的结构框图。
音频编码器1000可包括:至少1个处理器1001,存储器1005和至少1个通信总线1002。通信总线1002用于实现这些组件之间的连接通信。
可选的,该音频编码器1000还可包括:至少1个网络接口1004和用户接口1003等。其中,可选的,用户接口1003包括显示器(如触摸屏,液晶显示器或者全息成像(英文:Holographic)或者投影(英文:Projector)等等),点击设备(例如鼠标,轨迹球(英文:trackball)触感板或触摸屏等),摄像头和/或拾音装置等。
其中,存储器1005可以包括只读存储器和随机存取存储器,并向处理器1001提供指令和数据。存储器1005中的一部分还可以包括非易失性随机存取存储器。
在一些可能的实施方式中,存储器1005存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:时频变换单元910,获取单元920和编码单元930。
在本发明实施例中,处理器1001执行存储器1005中的代码或指令,以用于对当前音频帧的时域信号进行时频变换处理以得到上述当前音频帧的频谱系数;获取当前音频帧的编码参考参数;若获取的上述当前音频帧的编码参考参数符合第一参数条件,基于变换码激励编码算法对上述当前音频帧的频谱系数进行编码;若获取的上述当前音频帧的编码参考参数符合第二参数条件,基于高质量变换编码算法对上述当前音频帧的频谱系数进行编码。
其中,根据应用场景的需求,处理器1001中获取的当前音频帧的编码参考参数可能是多种多样的。
例如,上述编码参考参数例如可包括如下参数中的至少一种:上述当前音频帧的编码速率,上述当前音频帧的位于子带z内的频谱系数的峰均比,上述当前音频帧的位于子带w内的频谱系数的包络偏差,上述当前音频帧的位于子带i内的频谱系数的能量均值与位于子带j的频谱系数的能量均值,上述当前音频帧的位于子带m内的频谱系数的幅度均值与位于子带n内的频谱系数的幅度均值,上述当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y内的频谱系数的峰均比,上述当前音频帧的位于子带r内的频谱系数的包络偏差和位于子带s内的频谱系数的包络偏差,上述当前音频帧的位于子带e内的频谱系数的包络和位于子带f内的频谱系数的包络,上述当前音频帧的位于子带p内的频谱系数和位于子带q内的频谱系数的频谱相关性参数值。
其中,上述当前音频帧的位于子带p内的频谱系数和位于子带q内的频谱系数的频谱相关性参数值越大,表示位于子带p内的频谱系数和位于子带q内的频谱系数的频谱相关性越强,其中,频谱相关性参数值例如可为归一化互相关参数值。
其中,上述各子带的频点范围具体可根据实际需要确定。
可选的,在本发明的一些可能的实施方式中,上述子带z的最高频点可以大于临界频点F1。上述子带w的最高频点可大于上述临界频点F1。其中,上述临界频点F1的取值范围例如可为6.4kHz至12kHz。例如,临界频点F1的取值可以为6.4kHz,8kHz,9kHz,10kHz,12kHz等等,当然,临界频点F1也可为其他取值。
可选的,在本发明的一些可能的实施方式中,上述子带j的最高频点大于临界频点F2。上述子带n的最高频点大于上述临界频点F2。例如,上述临界频点F2的取值范围可以为4.8kHz至8kHz。具体例如,临界频点F2的取值可以为6.4kHz,4.8kHz,6kHz,8kHz,5kHz,7kHz等等,当然,临界频点F2也可为其他取值。
可选的,在本发明的一些可能的实施方式中,上述子带i的最高频点可以小于上述子带j的最高频点。上述子带m的最高频点可以小于上述子带n的最高频点。上述子带x的最高频点可小于或等于上述子带y的最低频点。上述子带p的最高频点可小于或等于上述子带q的最低频点,上述子带r的最高频点可小于或等于上述子带s的最低频点。上述子带e的最高频点可小于或等于上述子带f的最低频点。
可选的,在本发明的一些可能的实施方式中,如下条件之中的至少一个可以被满足:
上述子带w的最低频点大于或等于临界频点F1,上述子带z的最低频点大于或等于上述临界频点F1,上述子带i的最高频点小于或等于上述子带j的最低频点,上述子带m的最高频点小于或等于上述子带n的最低频点,上述子带j的最低频点大于或等于临界频点F2,上述子带n的最低频点大于或等于上述临界频点F2,上述子带i的最高频点小于或等于临界频点F2,上述子带m的最高频点小于或等于临界频点F2,子带j的最低频点大于或等于临界频点F2,上述子带n的最低频点大于或等于临界频点F2。
可选的,在本发明的一些可能的实施方式中,如下条件之中的至少一个可以被满足:
上述子带e的最高频点小于或等于临界频点F2,上述子带x的最高频点小于或等于临界频点F2,上述子带p的最高频点小于或等于临界频点F2,上述子带r的最高频点小于或等于临界频点F2。
可选的,在本发明的一些可能的实施方式中,上述子带f的最高频点可小于或者等于临界频点F2,当然,上述子带f的最低频点也可能大于或者等于临界频点F2。上述子带q的最高频点可小于或者等于临界频点F2,当然,上述子带q的最低频点也可能大于或者等于临界频点F2。上述子带s的最高频点可小于或者等于临界频点F2,当然,上述子带s的最低频点也可能大于或者等于临界频点F2。
举例来说,上述子带z的最高频点的取值范围可为12kHz至16kHz。子带z的最低频点的取值范围可为8kHz至14kHz。子带z的带宽的取值范围可为1.6kHz~8kHz。具体例如,子带z的频点范围可为8kHz至12kHz,9kHz至11kHz或8kHz至9.6kHz或12kHz至14kHz等。当然,子带z的频点范围也并不限于上述举例。
例如,子带w的频点范围也可根据实际需要确定,例如子带w的最高频点的取值范围可为12kHz至16kHz,子带w的最低频点的取值范围可为8kHz至14kHz。具体例如子带w的频点范围为8kHz至12kHz,9kHz至11kHz,8kHz至9.6kHz,12kHz至14kHz,12.2kHz至14.5kHz等。当然,子带w的频点范围也并不限于上述举例。在一些可能的实施方式中,子带w的频点范围和子带z的频点范围可相同或相近。
例如,上述子带i的频点范围可为3.2kHz至6.4kHz,3.2kHz至4.8kHz,4.8kHz至6.4kHz,0.4kHz至6.4kHz或0.4kHz至3.6kHz,当然,子带i的频点范围也不限于上述举例。
例如,上述子带j的频点范围可为6.4kHz至9.6kHz,6.4kHz至8kHz,8kHz至9.6kHz,4.8kHz至9.6kHz或4.8kHz至8kHz等。当然,子带j的频点范围也不限于上述举例。
例如,上述子带m的频点范围为3.2kHz至6.4kHz,3.2kHz至4.8kHz,4.8kHz至6.4kHz,0.4kHz至6.4kHz或0.4kHz至3.6kHz,当然,子带m的频点范围也不限于上述举例。在一些可能的实施方式中,子带m的频点范围和子带i的频点范围可相同或相近。
例如,上述子带n的频点范围可为6.4kHz至9.6kHz,6.4kHz至8kHz,8kHz至9.6kHz,4.8kHz至9.6kHz或4.8kHz至8kHz等。当然,子带n的频点范围也不限于上述举例。在一些可能的实施方式中,子带n的频点范围和子带j的频点范围可相同或相近。
例如,上述子带x的频点范围可为0kHz至1.6kHz,1kHz至2.6kHz,1.6kHz至3.2kHz,2kHz至3.2kHz或2.5kHz至3.4kHz。当然,子带x的频点范围也不限于上述举例。
例如,上述子带y的频点范围可为6.4kHz至8kHz,7.4kHz至9kHz,4.8kHz至6.4kHz,4.4kHz至6.4kHz或4.5kHz至6.2kHz。当然,子带y的频点范围也不限于上述举例。
例如,上述子带p的频点范围可为0kHz至1.6kHz,1kHz至2.6kHz,1.6kHz至3.2kHz,2.1kHz至3.2kHz或2.5kHz至3.5kHz。当然,子带p的频点范围也不限于上述举例。在一些可能的实施方式中,子带p的频点范围和子带x的频点范围可相同或相近。
例如,上述子带q的频点范围可为6.4kHz至8kHz,7.4kHz至9kHz,4.8kHz至6.4kHz,4.2kHz至6.4kHz或4.7kHz至6.2kHz。当然,子带q的频点范围也不限于上述举例。在一些可能的实施方式中,子带q的频点范围和子带y的频点范围可相同或相近。
例如,上述子带r的频点范围可为0kHz至1.6kHz,1kHz至2.6kHz,1.6kHz至3.2kHz,2.05kHz至3.27kHz或2.59kHz至3.51kHz。当然,子带r的频点范围也不限于上述举例。在一些可能的实施方式中,子带r的频点范围和子带x的频点范围可相同或相近。
例如,上述子带s的频点范围可为6.4kHz至8kHz,7.4kHz至9kHz,4.8kHz至6.4kHz,5.4kHz至7.1kHz或4.55kHz至6.29kHz。当然,子带s的频点范围也不限于上述举例。在一些可能的实施方式中,子带s的频点范围和子带y的频点范围可相同或相近。
例如,上述子带e的频点范围可为0kHz至1.6kHz,1kHz至2.6kHz,1.6kHz至3.2kHz,0.8kHz至3kHz或1.9kHz至3.8kHz。当然,子带e的频点范围也不限于上述举例。在一些可能的实施方式中,子带e的频点范围和子带x的频点范围可相同或相近。
例如,上述子带f的频点范围可为6.4kHz至8kHz,7.4kHz至9kHz,4.8kHz至6.4kHz,5.3kHz至7.15kHz或4.58kHz至6.52kHz。当然,子带f的频点范围也不限于上述举例。在一些可能的实施方式中,子带f的频点范围和子带y的频点范围可相同或相近。
其中,上述第一参数条件和第二参数条件可能是多种多样的。
例如,在本发明一些可能的实施方式中,本实施例中的第一参数条件例如可为上述方法实施例中举例的第一参数条件。本实施例中的第二参数条件例如可为上述方法实施例中举例的第二参数条件,相关描述请参考上述方法实施例中的记载。
可以理解的是,本实施例的音频编码器1000的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
其中,音频编码器1000音频编码器可为任何需要采集,存储或者向外传输音频信号的装置,例如手机,平板电脑,个人电脑,笔记本电脑等等
可以看出,本实施例方案中,音频编码器1000获取当前音频帧的编码参考参数后,基于获取的当前音频帧的编码参考参数来选择TCX算法或HQ算法对上述当前音频帧的频谱系数进行编码。由于将当前音频帧的编码参考参数与编码上述当前音频帧的频谱系数的编码算法进行关联,这样就有利于提高编码算法和当前音频帧的编码参考参数之间的适应性和匹配性,进而有利于提高上述当前音频帧的编码质量或编码效率。
进一步的,利用多种可选的编码参考参数,有利于满足多种场景下的算法选择需求。
本发明实施例还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时包括上述方法实施例中记载的任意一种音频编码方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机,服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘,只读存储器(ROM,Read-Only Memory),随机存取存储器(RAM,Random Access Memory),移动硬盘,磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅仅是用以说明本发明的技术方案,而并非是对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (42)

1.一种音频编码方法,其特征在于,包括:
对当前音频帧的时域信号进行时频变换处理以得到所述当前音频帧的频谱系数;所述当前音频帧为语音帧或音乐帧;
获取当前音频帧的编码参考参数;
若获取的所述当前音频帧的编码参考参数符合第一参数条件,基于变换码激励编码算法对所述当前音频帧的频谱系数进行编码;若获取的所述当前音频帧的编码参考参数符合第二参数条件,基于高质量变换编码算法对所述当前音频帧的频谱系数进行编码;
所述编码参考参数包括如下参数组中的至少一组:
第一组:所述当前音频帧的位于子带i内的频谱系数的能量均值与位于子带j的频谱系数的能量均值;
第二组:所述当前音频帧的位于子带z内的频谱系数的峰均比,所述当前音频帧的位于子带i内的频谱系数的能量均值与位于子带j的频谱系数的能量均值;
第三组:所述当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y内的频谱系数的峰均比;
其中,所述子带z的最高频点大于临界频点F1,所述临界频点F1的取值范围为6.4kHz至12kHz;
所述子带i的最高频点小于所述子带j的最高频点,所述子带j的最高频点大于临界频点F2,所述临界频点F2的取值范围为4.8kHz至8kHz;所述子带x的最高频点小于或等于所述子带y的最低频点。
2.根据权利要求1所述的方法,其特征在于,如下条件中的至少一个被满足:所述子带z的最低频点大于或等于所述临界频点F1,所述子带i的最高频点小于或等于所述子带j的最低频点,所述子带m的最高频点小于或等于所述子带n的最低频点,以及所述子带j的最低频点大于所述临界频点F2。
3.根据权利要求1或2所述的方法,其特征在于,所述第二参数条件包括如下参数条件中的任意一个:
条件一:所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商小于阈值T4;
条件二:所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商小于阈值T4,以及所述当前音频帧的位于所述子带z内的频谱系数的峰均比大于阈值T2;
条件三:所述当前音频帧的位于子带x内的频谱系数的峰均比和位于所述子带y内的频谱系数的峰均比的比值未落入区间R1。
4.根据权利要求1至3任一所述的方法,其特征在于,所述第一参数条件包括如下参数条件中的任意一个:
条件I:所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商大于或等于阈值T4;
条件II:所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商大于或等于阈值T4,以及所述当前音频帧的位于所述子带z内的频谱系数的峰均比小于或等于阈值T2;
条件III:所述当前音频帧的位于子带x内的频谱系数的峰均比和位于所述子带y内的频谱系数的峰均比的比值落入区间R1。
5.根据权利要求1或2所述的方法,其特征在于,所述第二参数条件包括:
所述当前音频帧的位于子带x内的频谱系数的峰均比除以位于上述子带y内的频谱系数的峰均比得到的商小于阈值T44,且所述子带y内的频谱系数的峰均比大于阈值T45;或者
所述当前音频帧的位于子带x内的频谱系数的峰均比除以位于上述子带y内的频谱系数的峰均比得到的商大于阈值T46,且所述子带y内的频谱系数的峰均比小于阈值T47。
6.根据权利要求1或2所述的方法,其特征在于,所述第二参数条件包括如下参数条件中的至少一个:
所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商小于阈值T68;和
所述子带y内的频谱系数的峰均比小于阈值T47。
7.根据权利要求1-2和5-6任一所述的方法,其特征在于,所述第一参数条件包括如下参数条件中的至少一个:
所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商大于或等于阈值T16;
所述当前音频帧的位于所述子带x内的频谱系数的峰均比和位于所述子带y内的频谱系数的峰均比的比值未落入区间R1;和
所述子带y内的频谱系数的峰均比大于阈值T47。
8.根据权利要求5所述的方法,其特征在于,所述阈值T44小于或等于1/2.56;
所述阈值T45大于或等于1.5;
所述阈值T46大于或等于1/2.56;
所述阈值T47小于或等于1.5。
9.根据权利要求6所述的方法,其特征在于,所述阈值T68小于或等于1.25;
所述阈值T47小于或等于1.5。
10.根据权利要求7所述的方法,其特征在于,所述阈值T16大于或等于2;
所述区间R1为[0.5,2],或者所述区间R1为[0.4,2.5],或者所述区间R1为[0.8,1.25],或者所述区间R1为[1/2.25,2.25]。
11.根据权利要求7所述的方法,其特征在于,其特征在于,所述阈值T47小于或等于1.5。
12.根据权利要求1所述的方法,其特征在于,所述子带x的频点范围是1kHz至2.6kHz,所述子带y的频点范围是4.8kHz至6.4kHz。
13.根据权利要求4或5所述的方法,其特征在于,所述阈值T4大于或等于0.5,或者所述阈值T4大于或等于1,或者所述阈值T4大于或等于2,或者所述阈值T4大于或等于3;
所述阈值T2大于或等于1,或者所述阈值T2大于或等于2,或者所述阈值T2大于或等于3,或者所述阈值T2大于或等于5;
所述区间R1为[0.5,2],或者所述区间R1为[0.4,2.5],或者所述区间R1为[0.8,1.25],或者所述区间R1为[1/2.25,2.25]。
14.根据权利要求1所述的方法,其特征在于,所述编码参考参数还包括所述当前音频帧的编码速率。
15.一种音频编码器,其特征在于,包括:
时频变换单元,用于基于快速傅里叶变换法或修正离散余弦变换算法,对当前音频帧的时域信号进行时频变换处理以得到所述当前音频帧的频谱系数;所述当前音频帧为语音帧或音乐帧;
获取单元,用于获取当前音频帧的编码参考参数;
编码单元,用于若所述获取单元获取到的所述当前音频帧的编码参考参数符合第一参数条件,基于变换码激励编码算法对所述当前音频帧的频谱系数进行编码;若所述获取单元获取到的所述当前音频帧的编码参考参数符合第二参数条件,基于高质量变换编码算法对所述当前音频帧的频谱系数进行编码;
所述编码参考参数包括如下参数组中的至少一组:
第一组:所述当前音频帧的位于子带i内的频谱系数的能量均值与位于子带j的频谱系数的能量均值;
第二组:所述当前音频帧的位于子带z内的频谱系数的峰均比,所述当前音频帧的位于子带i内的频谱系数的能量均值与位于子带j的频谱系数的能量均值;
第三组:所述当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y内的频谱系数的峰均比;
其中,所述子带z的最高频点大于临界频点F1,所述临界频点F1的取值范围为6.4kHz至12kHz;
所述子带i的最高频点小于所述子带j的最高频点,所述子带j的最高频点大于临界频点F2,所述临界频点F2的取值范围为4.8kHz至8kHz;所述子带x的最高频点小于或等于所述子带y的最低频点。
16.根据权利要求15所述的音频编码器,其特征在于,如下条件中的至少一个被满足:所述子带z的最低频点大于或等于所述临界频点F1,所述子带i的最高频点小于或等于所述子带j的最低频点,所述子带m的最高频点小于或等于所述子带n的最低频点,以及所述子带j的最低频点大于所述临界频点F2。
17.根据权利要求15或16所述的音频编码器,其特征在于,所述第二参数条件包括如下参数条件中的任意一个:
条件一:所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商小于阈值T4;
条件二:所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商小于阈值T4,以及所述当前音频帧的位于所述子带z内的频谱系数的峰均比大于阈值T2;
条件三:所述当前音频帧的位于子带x内的频谱系数的峰均比和位于所述子带y内的频谱系数的峰均比的比值未落入区间R1。
18.根据权利要求15至17任一所述的音频编码器,其特征在于,所述第一参数条件包括如下参数条件中的任意一个:
条件I:所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商大于或等于阈值T4;
条件II:所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商大于或等于阈值T4,以及所述当前音频帧的位于所述子带z内的频谱系数的峰均比小于或等于阈值T2;
条件III:所述当前音频帧的位于子带x内的频谱系数的峰均比和位于所述子带y内的频谱系数的峰均比的比值落入区间R1。
19.根据权利要求15或16所述的音频编码器,其特征在于,所述第二参数条件包括:
所述当前音频帧的位于子带x内的频谱系数的峰均比除以位于上述子带y内的频谱系数的峰均比得到的商小于阈值T44,且上述子带y内的频谱系数的峰均比大于阈值T45;或者
所述当前音频帧的位于子带x内的频谱系数的峰均比除以位于上述子带y内的频谱系数的峰均比得到的商大于阈值T46,且所述子带y内的频谱系数的峰均比小于阈值T47。
20.根据权利要求15或16所述的音频编码器,其特征在于,所述第二参数条件包括如下参数条件中的至少一个:
所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商小于阈值T68;和
所述子带y内的频谱系数的峰均比小于阈值T47。
21.根据权利要求15或16所述的音频编码器,其特征在于,所述第一参数条件包括如下参数条件中的至少一个:
所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商大于或等于阈值T16;
所述当前音频帧的位于所述子带x内的频谱系数的峰均比和位于所述子带y内的频谱系数的峰均比的比值未落入区间R1;和
所述子带y内的频谱系数的峰均比大于阈值T47。
22.根据权利要求19所述的音频编码器,其特征在于,所述阈值T44小于或等于1/2.56;
所述阈值T45大于或等于1.5;
所述阈值T46大于或等于1/2.56;所述阈值T47小于或等于1.5。
23.根据权利要求20所述的音频编码器,其特征在于,所述阈值T68小于或等于1.25;
所述阈值T47小于或等于1.5。
24.根据权利要求21所述的音频编码器,其特征在于,所述阈值T16大于或等于2;
所述区间R1为[0.5,2],或者所述区间R1为[0.4,2.5],或者所述区间R1为[0.8,1.25],或者所述区间R1为[1/2.25,2.25]。
25.根据权利要求21所述的音频编码器,其特征在于,其特征在于,所述阈值T47小于或等于1.5。
26.根据权利要求15所述的音频编码器,其特征在于,所述子带x的频点范围是1kHz至2.6kHz,所述子带y的频点范围是4.8kHz至6.4kHz。
27.根据权利要求17所述的音频编码器,其特征在于,所述阈值T4大于或等于0.5,或者所述阈值T4大于或等于1,或者所述阈值T4大于或等于2,或者所述阈值T4大于或等于3;
所述阈值T2大于或等于1,或者所述阈值T2大于或等于2,或者所述阈值T2大于或等于3,或者所述阈值T2大于或等于5;
所述区间R1为[0.5,2],或者所述区间R1为[0.4,2.5],或者所述区间R1为[0.8,1.25],或者所述区间R1为[1/2.25,2.25]。
28.根据权利要求15所述的音频编码器,其特征在于,所述编码参考参数还包括所述当前音频帧的编码速率。
29.一种音频编码方法,其特征在于,包括:
对当前音频帧的时域信号进行时频变换处理以得到所述当前音频帧的频谱系数;所述当前音频帧为语音帧或音乐帧;
获取当前音频帧的编码参考参数,其中:所述编码参考参数包括如下参数组中的至少一组:
第一组:所述当前音频帧的位于子带i内的频谱系数的能量均值与位于子带j的频谱系数的能量均值;
第二组:所述当前音频帧的位于子带z内的频谱系数的峰均比,所述当前音频帧的位于子带i内的频谱系数的能量均值与位于子带j的频谱系数的能量均值;
第三组:所述当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y内的频谱系数的峰均比;
若获取的所述当前音频帧的编码参考参数符合第二参数条件,基于高质量变换编码算法对所述当前音频帧的频谱系数进行编码;其中,所述第二参数条件包括如下参数条件中的任意一个:
条件一:所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商小于阈值T4;
条件二:所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商小于阈值T4,以及所述当前音频帧的位于所述子带z内的频谱系数的峰均比大于阈值T2;
条件三:所述当前音频帧的位于子带x内的频谱系数的峰均比和位于所述子带y内的频谱系数的峰均比的比值未落入区间R1。
30.根据权利要求29所述的方法,其特征在于,所述方法还包括:
若获取的所述当前音频帧的编码参考参数符合第一参数条件,基于变换码激励编码算法对所述当前音频帧的频谱系数进行编码;其中,所述第二参数条件包括如下参数条件中的任意一个:
条件I:所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商大于或等于阈值T4;
条件II:所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商大于或等于阈值T4,以及所述当前音频帧的位于所述子带z内的频谱系数的峰均比小于或等于阈值T2;
条件III:所述当前音频帧的位于子带x内的频谱系数的峰均比和位于所述子带y内的频谱系数的峰均比的比值落入区间R1。
31.根据权利要求29或30所述的方法,其特征在于,所述子带z的最高频点大于临界频点F1,所述临界频点F1的取值范围为6.4kHz至12kHz;
所述子带i的最高频点小于所述子带j的最高频点,所述子带j的最高频点大于临界频点F2,所述临界频点F2的取值范围为4.8kHz至8kHz;
所述子带x的最高频点小于或等于所述子带y的最低频点。
32.根据权利要求31所述的方法,其特征在于,所述子带z的最低频点大于或等于所述临界频点F1;
所述子带i的最高频点小于或等于所述子带j的最低频点;
所述子带m的最高频点小于或等于所述子带n的最低频点;
所述子带j的最低频点大于所述临界频点F2。
33.根据权利要求29至32任一所述的方法,其特征在于,所述子带x的频点范围是1kHz至2.6kHz,所述子带y的频点范围是4.8kHz至6.4kHz。
34.根据权利要求29至32任一所述的方法,其特征在于,所述阈值T4大于或等于0.5,或者所述阈值T4大于或等于1,或者所述阈值T4大于或等于2,或者所述阈值T4大于或等于3;
所述阈值T2大于或等于1,或者所述阈值T2大于或等于2,或者所述阈值T2大于或等于3,或者所述阈值T2大于或等于5;
所述区间R1为[0.5,2],或者所述区间R1为[0.4,2.5],或者所述区间R1为[0.8,1.25],或者所述区间R1为[1/2.25,2.25]。
35.根据权利要求29至32任一所述的方法,其特征在于,所述编码参考参数还包括所述当前音频帧的编码速率。
36.一种音频编码器,其特征在于,包括:
时频变换单元,用于对当前音频帧的时域信号进行时频变换处理以得到所述当前音频帧的频谱系数;所述当前音频帧为语音帧或音乐帧;
获取单元,用于获取当前音频帧的编码参考参数;其中:所述编码参考参数包括如下参数组中的至少一组:
第一组:所述当前音频帧的位于子带i内的频谱系数的能量均值与位于子带j的频谱系数的能量均值;
第二组:所述当前音频帧的位于子带z内的频谱系数的峰均比,所述当前音频帧的位于子带i内的频谱系数的能量均值与位于子带j的频谱系数的能量均值;
第三组:所述当前音频帧的位于子带x内的频谱系数的峰均比和位于子带y内的频谱系数的峰均比;
编码单元,用于若所述获取单元获取到的所述当前音频帧的编码参考参数符合第二参数条件,基于高质量变换编码算法对所述当前音频帧的频谱系数进行编码其中,所述第二参数条件包括如下参数条件中的任意一个:
条件一:所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商小于阈值T4;
条件二:所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商小于阈值T4,以及所述当前音频帧的位于所述子带z内的频谱系数的峰均比大于阈值T2;
条件三:所述当前音频帧的位于子带x内的频谱系数的峰均比和位于所述子带y内的频谱系数的峰均比的比值未落入区间R1。
37.根据权利要求36所述的音频编码器,其特征在于,所述编码单元,还用于若所述获取单元获取到的所述当前音频帧的编码参考参数符合第一参数条件,基于变换码激励编码算法对所述当前音频帧的频谱系数进行编码;其中,所述第二参数条件包括如下参数条件中的任意一个:
条件I:所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商大于或等于阈值T4;
条件II:所述当前音频帧的位于所述子带i内的频谱系数的能量均值除以位于所述子带j的频谱系数的能量均值得到的商大于或等于阈值T4,以及所述当前音频帧的位于所述子带z内的频谱系数的峰均比小于或等于阈值T2;
条件III:所述当前音频帧的位于子带x内的频谱系数的峰均比和位于所述子带y内的频谱系数的峰均比的比值落入区间R1。
38.根据权利要求36或37所述的音频编码器,其特征在于,所述子带z的最高频点大于临界频点F1,所述临界频点F1的取值范围为6.4kHz至12kHz;
所述子带i的最高频点小于所述子带j的最高频点,所述子带j的最高频点大于临界频点F2,所述临界频点F2的取值范围为4.8kHz至8kHz;
所述子带x的最高频点小于或等于所述子带y的最低频点。
39.根据权利要求38所述的音频编码器,其特征在于,所述子带z的最低频点大于或等于所述临界频点F1;
所述子带i的最高频点小于或等于所述子带j的最低频点;
所述子带m的最高频点小于或等于所述子带n的最低频点;
所述子带j的最低频点大于所述临界频点F2。
40.根据权利要求36或37所述的音频编码器,其特征在于,所述子带x的频点范围是1kHz至2.6kHz,所述子带y的频点范围是4.8kHz至6.4kHz。
41.根据权利要求36或37所述的音频编码器,其特征在于,所述阈值T4大于或等于0.5,或者所述阈值T4大于或等于1,或者所述阈值T4大于或等于2,或者所述阈值T4大于或等于3;
所述阈值T2大于或等于1,或者所述阈值T2大于或等于2,或者所述阈值T2大于或等于3,或者所述阈值T2大于或等于5;
所述区间R1为[0.5,2],或者所述区间R1为[0.4,2.5],或者所述区间R1为[0.8,1.25],或者所述区间R1为[1/2.25,2.25]。
42.根据权利要求36或37任一所述的音频编码器,其特征在于,所述编码参考参数还包括所述当前音频帧的编码速率。
CN201611123625.2A 2014-07-28 2014-07-28 音频编码方法及相关装置 Active CN106448688B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611123625.2A CN106448688B (zh) 2014-07-28 2014-07-28 音频编码方法及相关装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201611123625.2A CN106448688B (zh) 2014-07-28 2014-07-28 音频编码方法及相关装置
CN201410363905.5A CN104143335B (zh) 2014-07-28 2014-07-28 音频编码方法及相关装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201410363905.5A Division CN104143335B (zh) 2014-07-28 2014-07-28 音频编码方法及相关装置

Publications (2)

Publication Number Publication Date
CN106448688A CN106448688A (zh) 2017-02-22
CN106448688B true CN106448688B (zh) 2019-11-05

Family

ID=51852493

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201611123625.2A Active CN106448688B (zh) 2014-07-28 2014-07-28 音频编码方法及相关装置
CN201410363905.5A Active CN104143335B (zh) 2014-07-28 2014-07-28 音频编码方法及相关装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201410363905.5A Active CN104143335B (zh) 2014-07-28 2014-07-28 音频编码方法及相关装置

Country Status (15)

Country Link
US (4) US10056089B2 (zh)
EP (2) EP3157010B1 (zh)
JP (2) JP6538822B2 (zh)
KR (2) KR102022500B1 (zh)
CN (2) CN106448688B (zh)
AU (2) AU2015296447B2 (zh)
BR (1) BR112016029904B1 (zh)
CA (3) CA3064092C (zh)
ES (2) ES2814154T3 (zh)
MX (1) MX360606B (zh)
MY (1) MY174461A (zh)
PL (1) PL3790007T3 (zh)
RU (1) RU2670790C9 (zh)
SG (2) SG11201610047RA (zh)
WO (1) WO2016015485A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106448688B (zh) 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
US20220254331A1 (en) * 2021-02-05 2022-08-11 Cambium Assessment, Inc. Neural network and method for machine learning assisted speech recognition
CN112767956B (zh) * 2021-04-09 2021-07-16 腾讯科技(深圳)有限公司 音频编码方法、装置、计算机设备及介质
WO2023274507A1 (en) * 2021-06-29 2023-01-05 Telefonaktiebolaget Lm Ericsson (Publ) Spectrum classifier for audio coding mode selection

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1465137A (zh) * 2001-07-13 2003-12-31 松下电器产业株式会社 音频信号解码装置及音频信号编码装置
US6704705B1 (en) * 1998-09-04 2004-03-09 Nortel Networks Limited Perceptual audio coding
CN102067212A (zh) * 2008-06-20 2011-05-18 高通股份有限公司 用于低位速率应用的对过渡语音帧的译码

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3364825B2 (ja) 1996-05-29 2003-01-08 三菱電機株式会社 音声符号化装置および音声符号化復号化装置
DE69926821T2 (de) * 1998-01-22 2007-12-06 Deutsche Telekom Ag Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
US6721280B1 (en) 2000-04-19 2004-04-13 Qualcomm Incorporated Method and apparatus for voice latency reduction in a voice-over-data wireless communication system
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
WO2003085644A1 (en) * 2002-04-11 2003-10-16 Matsushita Electric Industrial Co., Ltd. Encoding device and decoding device
US7054807B2 (en) * 2002-11-08 2006-05-30 Motorola, Inc. Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters
US7333930B2 (en) 2003-03-14 2008-02-19 Agere Systems Inc. Tonal analysis for perceptual audio coding using a compressed spectral representation
GB0408856D0 (en) * 2004-04-21 2004-05-26 Nokia Corp Signal encoding
US20070147518A1 (en) 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
CN101180676B (zh) * 2005-04-01 2011-12-14 高通股份有限公司 用于谱包络表示的向量量化的方法和设备
JP2009524100A (ja) 2006-01-18 2009-06-25 エルジー エレクトロニクス インコーポレイティド 符号化/復号化装置及び方法
TWI343560B (en) * 2006-07-31 2011-06-11 Qualcomm Inc Systems, methods, and apparatus for wideband encoding and decoding of active frames
CN101145345B (zh) * 2006-09-13 2011-02-09 华为技术有限公司 音频分类方法
CN101145343B (zh) * 2006-09-15 2011-07-20 展讯通信(上海)有限公司 一种用于音频处理框架中的编码和解码方法
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
KR101411901B1 (ko) * 2007-06-12 2014-06-26 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
KR101452722B1 (ko) * 2008-02-19 2014-10-23 삼성전자주식회사 신호 부호화 및 복호화 방법 및 장치
EP2352147B9 (en) * 2008-07-11 2014-04-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus and a method for encoding an audio signal
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
MY181247A (en) * 2008-07-11 2020-12-21 Frauenhofer Ges Zur Forderung Der Angenwandten Forschung E V Audio encoder and decoder for encoding and decoding audio samples
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
MX2011000372A (es) 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Sintetizador de señales de audio y codificador de señales de audio.
CA2871268C (en) * 2008-07-11 2015-11-03 Nikolaus Rettelbach Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
KR20130133917A (ko) * 2008-10-08 2013-12-09 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 다중 분해능 스위치드 오디오 부호화/복호화 방법
US8498874B2 (en) 2009-09-11 2013-07-30 Sling Media Pvt Ltd Audio signal encoding employing interchannel and temporal redundancy reduction
JP5678071B2 (ja) * 2009-10-08 2015-02-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 線形予測符号化ベースのノイズ整形を用いた多重モードオーディオ信号デコーダ、多重モードオーディオ信号エンコーダ、方法およびコンピュータプログラム
PL2491556T3 (pl) * 2009-10-20 2024-08-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder sygnału audio, odpowiadający mu sposób oraz program komputerowy
CN102859589B (zh) 2009-10-20 2014-07-09 弗兰霍菲尔运输应用研究公司 多模式音频编译码器及其适用的码簿激励线性预测编码
US20130030796A1 (en) * 2010-01-14 2013-01-31 Panasonic Corporation Audio encoding apparatus and audio encoding method
US8886523B2 (en) 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
CN102934161B (zh) 2010-06-14 2015-08-26 松下电器产业株式会社 音频混合编码装置以及音频混合解码装置
WO2011156905A2 (en) 2010-06-17 2011-12-22 Voiceage Corporation Multi-rate algebraic vector quantization with supplemental coding of missing spectrum sub-bands
KR101826331B1 (ko) 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
CN102074242B (zh) * 2010-12-27 2012-03-28 武汉大学 语音音频混合分级编码中核心层残差提取系统及方法
CN102208188B (zh) 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
US9037456B2 (en) 2011-07-26 2015-05-19 Google Technology Holdings LLC Method and apparatus for audio coding and decoding
CN103477388A (zh) * 2011-10-28 2013-12-25 松下电器产业株式会社 声音信号混合解码器、声音信号混合编码器、声音信号解码方法及声音信号编码方法
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
KR101762210B1 (ko) * 2012-05-30 2017-07-27 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 부호화 장치, 프로그램 및 기록 매체
CN106448688B (zh) * 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6704705B1 (en) * 1998-09-04 2004-03-09 Nortel Networks Limited Perceptual audio coding
CN1465137A (zh) * 2001-07-13 2003-12-31 松下电器产业株式会社 音频信号解码装置及音频信号编码装置
CN102067212A (zh) * 2008-06-20 2011-05-18 高通股份有限公司 用于低位速率应用的对过渡语音帧的译码

Also Published As

Publication number Publication date
AU2018201411A1 (en) 2018-03-22
SG11201610047RA (en) 2017-01-27
KR101947127B1 (ko) 2019-02-12
KR102022500B1 (ko) 2019-11-25
RU2670790C9 (ru) 2018-11-23
EP3157010B1 (en) 2020-06-10
US10504534B2 (en) 2019-12-10
RU2017101806A3 (zh) 2018-08-30
US10269366B2 (en) 2019-04-23
AU2015296447A1 (en) 2017-01-05
JP6538822B2 (ja) 2019-07-03
MX360606B (es) 2018-11-09
CA3064092A1 (en) 2016-02-04
CN106448688A (zh) 2017-02-22
SG10201805102PA (en) 2018-08-30
CA3064092C (en) 2022-04-19
KR20190014603A (ko) 2019-02-12
ES2938742T3 (es) 2023-04-14
US20170125031A1 (en) 2017-05-04
PL3790007T3 (pl) 2023-05-02
BR112016029904A2 (pt) 2017-08-22
EP3790007A1 (en) 2021-03-10
CA2951321A1 (en) 2016-02-04
AU2018201411B2 (en) 2019-08-22
AU2015296447B2 (en) 2018-01-18
JP2017522608A (ja) 2017-08-10
RU2017101806A (ru) 2018-08-30
ES2814154T3 (es) 2021-03-26
BR112016029904B1 (pt) 2023-04-18
KR20170010822A (ko) 2017-02-01
CN104143335A (zh) 2014-11-12
JP2019164379A (ja) 2019-09-26
US10056089B2 (en) 2018-08-21
EP3157010A1 (en) 2017-04-19
MX2017001039A (es) 2017-05-04
EP3157010A4 (en) 2017-10-25
MY174461A (en) 2020-04-20
US20180268832A1 (en) 2018-09-20
US20200066290A1 (en) 2020-02-27
US10706866B2 (en) 2020-07-07
US20190164562A1 (en) 2019-05-30
RU2670790C2 (ru) 2018-10-25
CA2951321C (en) 2019-12-31
WO2016015485A1 (zh) 2016-02-04
JP6888051B2 (ja) 2021-06-16
CA3058990A1 (en) 2016-02-04
CN104143335B (zh) 2017-02-01
EP3790007B1 (en) 2023-01-04

Similar Documents

Publication Publication Date Title
CN106448688B (zh) 音频编码方法及相关装置
WO2019202886A1 (en) Audio signal processing system and method for transforming input audio signals
CN110263913A (zh) 一种深度神经网络压缩方法及相关设备
EP2661746A1 (en) Multi-channel encoding and/or decoding
CN102158692B (zh) 编码方法、解码方法、编码器和解码器
Ahn et al. HILCodec: High Fidelity and Lightweight Neural Audio Codec
WO2015000373A1 (zh) 信号编码和解码方法以及设备
Liu et al. RFWave: Multi-band Rectified Flow for Audio Waveform Reconstruction
KR20230008815A (ko) 최소한의 트레이닝을 사용하여 일반화된 스테레오 배경들로부터 패닝된 소스들의 분리
WO2012054631A3 (en) Talent booking system and method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant