[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

TWI615834B - 編碼裝置及方法、解碼裝置及方法、以及程式 - Google Patents

編碼裝置及方法、解碼裝置及方法、以及程式 Download PDF

Info

Publication number
TWI615834B
TWI615834B TW103117629A TW103117629A TWI615834B TW I615834 B TWI615834 B TW I615834B TW 103117629 A TW103117629 A TW 103117629A TW 103117629 A TW103117629 A TW 103117629A TW I615834 B TWI615834 B TW I615834B
Authority
TW
Taiwan
Prior art keywords
preamble
mode
encoding
position information
information
Prior art date
Application number
TW103117629A
Other languages
English (en)
Other versions
TW201503113A (zh
Inventor
Runyu Shi
Yuki Yamamoto
Toru Chinen
Mitsuyuki Hatanaka
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of TW201503113A publication Critical patent/TW201503113A/zh
Application granted granted Critical
Publication of TWI615834B publication Critical patent/TWI615834B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本技術是有關於,能夠獲得更高品質之聲音的編碼裝置及方法、解碼裝置及方法、以及程式。
編碼部係將目前音框的物件的位置資訊及增益,以複數編碼模式進行編碼。壓縮部係針對各位置資訊及增益的編碼模式之每一組合,生成由表示編碼模式之編碼模式資訊、和已被編碼過的位置資訊及增益亦即編碼資料所成的編碼詮釋資料,並且進行編碼詮釋資料中所含之編碼模式資訊的壓縮。決定部係從針對各組合所被生成之編碼詮釋資料之中,選擇出資料量最少的編碼詮釋資料,藉此以決定各位置資訊及增益的編碼模式。本技術係可適用於編碼器及解碼器。

Description

編碼裝置及方法、解碼裝置及方法、以及程式
本技術係有關於編碼裝置及方法、解碼裝置及方法、以及程式,尤其是有關於,能夠獲得更高品質之聲音的編碼裝置及方法、解碼裝置及方法、以及程式。
先前,使用複數揚聲器來控制音像之定位的技術,係有VBAP(Vector Base Amplitude Panning)為人所知(例如,參照非專利文獻1)。
在VBAP中,目標之音像之定位位置,係用朝向位於該定位位置之周圍的2個或3個揚聲器之方向的向量的線性和來表現。然後,於該線性和中,對各向量所乘算之係數,係被當成從各揚聲器所輸出之聲音之增益來使用而進行增益調整,使得音像被定位在目標之位置。
[先前技術文獻] [非專利文獻]
[非專利文獻1]Ville Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”, Journal of AES, vol.45, no.6, pp.456-466, 1997
順便一提,於多聲道之音訊再生中,若能一併取得音源之音訊資料、音源之位置資訊,則可正確定義各音源之音像定位位置,因此可實現更有臨場感的音訊再生。
可是,在欲對再生裝置傳輸音源之音訊資料、和該音源之位置資訊等之詮釋資料的情況下,當資料傳輸之位元速率是已被決定時,詮釋資料的資料量越多,就必須越削減音訊資料的資料量。如此一來,音訊資料的聲音之品質就會降低。
本技術係有鑑於此種狀況而研發,目的在於能夠獲得更高品質之聲音。
本技術之第1側面的編碼裝置,係具備:編碼部,係將所定時刻上的音源之位置資訊,根據比前記所定時刻前面之時刻上的前記音源之前記位置資訊,以所定編碼模式加以編碼;和決定部,係將複數前記編碼模式之其中1者,決定成為前記位置資訊之前記編碼模式;和輸出部,係將表示已被前記決定部所決定之前記編碼模式的編碼模式資訊、和藉由已被前記決定部所決定之前記編碼 模式而被編碼過的前記位置資訊,予以輸出。
可將前記編碼模式設成:將前記位置資訊直接當成前記已被編碼過的前記位置資訊的RAW模式、假設前記音源為靜止而將前記位置資訊進行編碼的靜止模式、假設前記音源是以等速度移動而將前記位置資訊進行編碼的等速度模式、假設前記音源是以等加速度移動而將前記位置資訊進行編碼的等加速度模式、或根據前記位置資訊之殘差而將前記位置資訊進行編碼的殘差模式。
可將前記位置資訊設為表示前記音源之位置的水平方向角度、垂直方向角度、或距離。
可將藉由前記殘差模式而被編碼過的前記位置資訊,設為作為前記位置資訊的表示角度之差分的資訊。
可令前記輸出部,針對複數前記音源,前記所定時刻上的所有前記音源之前記位置資訊之前記編碼模式,都和前記所定時刻之前一時刻上的前記編碼模式是相同的情況下,則不輸出前記編碼模式資訊。
可令前記輸出部,於前記所定時刻上,複數前記音源之其中一部分前記音源之前記位置資訊之前記編碼模式,是和前記所定時刻之前一時刻上的前記編碼模式不同的情況下,則在全部的前記編碼模式資訊之中,僅將前記編碼模式是與前記前一時刻不同的前記音源之前記位置資訊之前記編碼模式資訊,予以輸出。
在編碼裝置中,係還設有:量化部,係將前 記位置資訊以所定之量化寬度進行量化;和壓縮率決定部,係根據前記音源之音訊資料之特徵量,來決定前記量化寬度;可令前記編碼部,將已被量化之前記位置資訊,予以編碼。
編碼裝置中,係可還設有:切換部,係根據過去輸出的前記編碼模式資訊及前記已被編碼過的前記位置資訊之資料量,來進行將前記位置資訊予以編碼的前記編碼模式之替換。
可令前記編碼部,還將前記音源之增益予以編碼;可令前記輸出部,還將前記增益的前記編碼模式資訊、和已被編碼的前記增益,予以輸出。
本技術之第1側面的編碼訊號或程式,係含有以下步驟:將所定時刻上的音源之位置資訊,根據比前記所定時刻前面之時刻上的前記音源之前記位置資訊,以所定編碼模式加以編碼;將複數前記編碼模式之其中1者,決定成為前記位置資訊之前記編碼模式;將表示已被決定之前記編碼模式的編碼模式資訊、和藉由已被決定之前記編碼模式而被編碼過的前記位置資訊,予以輸出。
在本技術的第1側面中,所定時刻上的音源之位置資訊,是根據比前記所定時刻前面之時刻上的前記音源之前記位置資訊,以所定編碼模式而被編碼,複數前記編碼模式之其中1者,會被決定成為前記位置資訊之前記編碼模式,表示已被決定之前記編碼模式的編碼模式資訊、和藉由已被決定之前記編碼模式而被編碼過的前記位 置資訊,會被輸出。
本技術之第2側面的解碼裝置,係具備:取得部,係將所定時刻上的音源之已被編碼過的位置資訊、和表示複數編碼模式之中的把前記位置資訊予以編碼之編碼模式的編碼模式資訊,加以取得;和解碼部,係根據比前記所定時刻前面之時刻上的前記音源之前記位置資訊,以前記編碼模式資訊所示之前記編碼模式所對應的方式,將前記所定時刻上的前記已被編碼過的前記位置資訊予以解碼。
可將前記編碼模式設成:將前記位置資訊直接當成前記已被編碼過的前記位置資訊的RAW模式、假設前記音源為靜止而將前記位置資訊進行編碼的靜止模式、假設前記音源是以等速度移動而將前記位置資訊進行編碼的等速度模式、假設前記音源是以等加速度移動而將前記位置資訊進行編碼的等加速度模式、或根據前記位置資訊之殘差而將前記位置資訊進行編碼的殘差模式。
可將前記位置資訊設為表示前記音源之位置的水平方向角度、垂直方向角度、或距離。
可將藉由前記殘差模式而被編碼過的前記位置資訊,設為作為前記位置資訊的表示角度之差分的資訊。
可令前記取得部,針對複數前記音源,前記所定時刻上的所有前記音源之前記位置資訊之前記編碼模式,都和前記所定時刻之前一時刻上的前記編碼模式是相 同的情況下,則只取得前記已被編碼過的前記位置資訊。
可令前記取得部,於前記所定時刻上,複數前記音源之其中一部分前記音源之前記位置資訊之前記編碼模式,是和前記所定時刻之前一時刻上的前記編碼模式不同的情況下,則將前記已被編碼過的前記位置資訊、和前記編碼模式是與前記前一時刻不同的前記音源之前記位置資訊之前記編碼模式資訊,予以取得。
可令前記取得部,還將根據前記音源之音訊資料之特徵量而被決定的,表示前記位置資訊之編碼時將前記位置資訊進行量化之量化寬度的資訊,加以取得。
本技術之第2側面的解碼方法或程式,係含有以下步驟:將所定時刻上的音源之已被編碼過的位置資訊、和表示複數編碼模式之中的把前記位置資訊予以編碼之編碼模式的編碼模式資訊,加以取得;根據比前記所定時刻前面之時刻上的前記音源之前記位置資訊,以前記編碼模式資訊所示之前記編碼模式所對應的方式,將前記所定時刻上的前記已被編碼過的前記位置資訊予以解碼。
在本技術的第2側面中,所定時刻上的音源之已被編碼過的位置資訊、和表示複數編碼模式之中的把前記位置資訊予以編碼之編碼模式的編碼模式資訊,會被取得;根據比前記所定時刻前面之時刻上的前記音源之前記位置資訊,以前記編碼模式資訊所示之前記編碼模式所對應的方式,前記所定時刻上的前記已被編碼過的前記位置資訊會被解碼。
若依據本技術的第1側面及第2側面,則可獲得更高品質之聲音。
11‧‧‧麥克風
12‧‧‧空間位置資訊輸出裝置
13‧‧‧編碼器
14‧‧‧解碼器
15‧‧‧再生裝置
16‧‧‧揚聲器
21‧‧‧音訊資料編碼器
22‧‧‧詮釋資料編碼器
31‧‧‧音訊資料解碼器
32‧‧‧詮釋資料解碼器
71‧‧‧取得部
72‧‧‧編碼部
73‧‧‧壓縮部
74‧‧‧決定部
75‧‧‧輸出部
76‧‧‧記錄部
77‧‧‧切換部
81‧‧‧量化部
82‧‧‧RAW編碼部
83‧‧‧預測編碼部
84‧‧‧殘差編碼部
121‧‧‧取得部
122‧‧‧抽出部
123‧‧‧解碼部
124‧‧‧輸出部
125‧‧‧記錄部
141‧‧‧RAW解碼部
142‧‧‧預測解碼部
143‧‧‧殘差解碼部
144‧‧‧逆量化部
181‧‧‧壓縮率決定部
501‧‧‧CPU
502‧‧‧ROM
503‧‧‧RAM
504‧‧‧匯流排
505‧‧‧輸出入介面
506‧‧‧輸入部
507‧‧‧輸出部
508‧‧‧記錄部
509‧‧‧通訊部
510‧‧‧驅動機
511‧‧‧可移除式媒體
[圖1]音訊系統之構成例的圖示。
[圖2]物件之詮釋資料的說明圖。
[圖3]已被編碼之詮釋資料的說明圖。
[圖4]詮釋資料編碼器之構成例的圖示。
[圖5]說明編碼處理的流程圖。
[圖6]說明運動模態預測模式所致之編碼處理的流程圖。
[圖7]說明殘差模式所致之編碼處理的流程圖。
[圖8]說明編碼模式資訊壓縮處理的流程圖。
[圖9]說明替換處理的流程圖。
[圖10]詮釋資料解碼器之構成例的圖示。
[圖11]說明解碼處理的流程圖。
[圖12]詮釋資料編碼器之構成例的圖示。
[圖13]說明編碼處理的流程圖。
[圖14]電腦之構成例的圖示。
以下,參照圖面,說明適用了本技術的實施形態。
〈第1實施形態〉 〈音訊系統之構成例〉
本技術係有關於,將表示音源之位置的資訊等、有關音源之資訊亦即詮釋資料的資料量予以壓縮所需的編碼及解碼。圖1係適用了本技術之音訊系統的一實施形態之構成例的圖。
該音訊系統係由:麥克風11-1乃至麥克風11-N、空間位置資訊輸出裝置12、編碼器13、解碼器14、再生裝置15、及揚聲器16-1乃至揚聲器16-J所構成。
麥克風11-1乃至麥克風11-N,係例如被安裝在作為音源之物件上,將周圍之聲音予以收音而得到的音訊資料,供給至編碼器13。此處,作為音源之物件係假設為,例如隨著時刻而會靜止或運動的移動物體等。
此外,以下若沒有特別需要區別麥克風11-1乃至麥克風11-N時,則簡稱麥克風11。在圖1之例子中,各麥克風11是被安裝在彼此互異之N個物件。
空間位置資訊輸出裝置12,係將麥克風11所被安裝之物件的表示各時刻上空間內之位置的資訊等,當作音訊資料之詮釋資料而供給至編碼器13。
編碼器13,係將從麥克風11所供給之音訊資 料、和從空間位置資訊輸出裝置12所供給之詮釋資料予以編碼,輸出至解碼器14。編碼器13係具備:音訊資料編碼器21及詮釋資料編碼器22。
音訊資料編碼器21,係將從麥克風11所供給之音訊資料予以編碼而輸出至解碼器14。亦即,已被編碼之音訊資料係被多工化而成為位元串流,被傳輸至解碼器14。
又,詮釋資料編碼器22係將從空間位置資訊輸出裝置12所供給之詮釋資料予以編碼而供給至解碼器14。亦即,已被編碼之詮釋資料是被描述在位元串流中而被傳輸至解碼器14。
解碼器14,係將從編碼器13所供給之音訊資料和詮釋資料予以解碼而供給至再生裝置15。解碼器14係具備:音訊資料解碼器31及詮釋資料解碼器32。
音訊資料解碼器31,係將從音訊資料編碼器21所供給的、已被編碼之音訊資料予以解碼,將其結果所得之音訊資料,供給至再生裝置15。又,詮釋資料解碼器32,係將從詮釋資料編碼器22所供給的、已被編碼之詮釋資料予以解碼,將其結果所得之詮釋資料,供給至再生裝置15。
再生裝置15,係根據從詮釋資料解碼器32所供給之詮釋資料,將從音訊資料解碼器31所供給之音訊資料之增益等進行調整,將進行過適宜調整的音訊資料,供給至揚聲器16-1乃至揚聲器16-J。揚聲器16-1乃至揚 聲器16-J,係根據從再生裝置15所供給之音訊資料,而再生聲音。藉此,可把音像定位在對應於各物件之空間上的位置可實現有臨場感的音訊再生。
此外,以下若沒有特別需要區別揚聲器16-1乃至揚聲器16-J時,則簡稱揚聲器16。
順便一提,編碼器13與解碼器14之間所收授的音訊資料和詮釋資料的傳輸時的合計位元速率若有被預定的情況下,若詮釋資料的資料量越大,則音訊資料的資料量就必須削減其相對之份量。如此一來,音訊資料之音質就會劣化。
於是,在本技術中,係藉由提升詮釋資料的編碼效率而壓縮資料量就可獲得較高品質的音訊資料。
〈關於詮釋資料〉
首先說明詮釋資料。
從空間位置資訊輸出裝置12供給至詮釋資料編碼器22的詮釋資料,係為含有用來特定N個各物件(音源)之位置所需之資料的有關於物件的資料。例如詮釋資料中係針對每個物件而含有以下(D1)乃至(D5)所示的5個資訊。
(D1)表示物件的索引
(D2)物件的水平方向角度θ
(D3)物件的垂直方向角度γ
(D4)物件至視聽者的距離r
(D5)物件的聲音之增益g
此種詮釋資料,係每所定間隔之時刻,具體而言係物件的音訊資料的每一音框地,被供給至詮釋資料編碼器22。
例如圖2所示,以正在聆聽從揚聲器16(未圖示)所輸出之聲音的視聽者之位置為原點O,將圖中右上方向、左上方向、及上方向考慮成彼此垂直的x軸、y軸、及z軸之方向的3維座標系。此時,假設對應於1個物件的音源為虛擬音源VS11,則只要令音像被定位在3維座標系中的虛擬音源VS11之位置即可。
此處,例如表示虛擬音源VS11的資訊,係被視為表示詮釋資料中所含之物件的索引,該索引係被設成N個離散值之其中任一值。
又,例如若令虛擬音源VS11與原點O連結的直線為直線L,則在xy平面上直線L與x軸所夾的圖中水平方向之角度(方位角),係為詮釋資料中所含之水平方向角度θ,水平方向角度θ係被設成滿足-180°≦θ≦180°的任意值。
甚至,直線L與xy平面所夾的角度、亦即圖、垂直方向的角度(仰角),係為詮釋資料中所含之垂直方向角度γ,垂直方向角度γ係被設成滿足-90°≦γ≦90°之任意值。又,直線L的長度、亦即原點O至虛擬音源VS11的距離,係被設成詮釋資料中所含之到視聽者為止之距離r,距離r係被設成0以上之值。亦即,距離r係 被設成滿足0≦r≦∞之值。
詮釋資料中所含之各物件的水平方向角度θ、垂直方向角度γ、及距離r,係為表示物件位置的資訊。以下,若沒有必要特別區分物件的水平方向角度θ、垂直方向角度γ、及距離r時,則也會簡稱為物件的位置資訊。
又,若根據增益g來進行物件的音訊資料之增益調整,則可以所望之音量來輸出聲音。
〈關於詮釋資料之編碼〉
接著說明,上述的詮釋資料之編碼。
詮釋資料之編碼時,係係用以下所示的(E1)及(E2)之2階段的處理,來進行物件的位置資訊及增益之編碼。此處,(E1)所示之處理係為第1階段的編碼處理,(E2)所示之處理係為第2階段的編碼處理。
(E1)將各物件的位置資訊及增益予以量化
(E2)將已被量化之位置資訊及增益,再隨著編碼模式而進行壓縮
此外,編碼模式中係有以下所示的(F1)乃至(F3)之3種模式。
(F1)RAW模式
(F2)運動模態預測模式
(F3)殘差模式
(F1)所示之RAW模式,係將(E1)所示之第1 階段的編碼處理所得到之代碼,當作已被編碼之位置資訊或增益,直接描述在位元串流中的模式。
又,(F2)所示之運動模態預測模式,係詮釋資料中所含之物件的位置資訊或增益,是可根據該物件的過去之位置資訊或增益來做預測時,則將可預測之運動模態,描述在位元串流中的模式。
(F3)所示之殘差模式,係為根據位置資訊或增益之殘差來進行編碼的模式,亦即將物件的位置資訊或增益之差分(位移),當作已被編碼之位置資訊或增益而描述在位元串流中的模式。
最終所得的已被編碼之詮釋資料中係會含有,以上述(F1)乃至(F3)所示之3種編碼模式的其中某一種編碼模式而被編碼之位置資訊或增益。
編碼模式,係針對音訊資料的各音框,隨著各物件的位置資訊或增益而被決定,但各位置資訊或增益之編碼模式係被決定成,會使最終所得之詮釋資料的資料量(位元數)呈最小。
此外,以下,已被編碼之詮釋資料、亦即從詮釋資料編碼器22所輸出的詮釋資料,特別會稱之為編碼詮釋資料。
〈關於第1階段的編碼處理〉
接下來,關於詮釋資料之編碼時的第1階段的處理與第2階段的處理,更詳細說明之。
首先,說明編碼時的第1階段的處理。
例如,在第1階段的編碼處理中,作為物件位置資訊的水平方向角度θ、垂直方向角度γ、及距離r和增益g,係分別被量化。
具體而言,例如對於水平方向角度θ及垂直方向角度γ,分別進行下式(1)之計算,以R度刻而等間隔地進行量化(編碼)。
[數1]Codearc=round(Arcraw/R)‧‧‧(1)
式(1)中,Codearc係表示對水平方向角度θ或垂直方向角度γ之量化所得的代碼Arcraw係表示水平方向角度θ或垂直方向角度γ之量化前的角度、亦即θ或γ之值。又,於式(1)中,round()係表示例如四捨五入的概算函數,R係表示量化之間隔的量化寬度、亦即量化的步進尺寸。
又,位置資訊之解碼時所進行的對代碼Codearc的逆量化(解碼處理)中,針對水平方向角度θ或垂直方向角度γ之代碼Codearc,係進行下式(2)之計算。
[數2]Arcdecoded=Codearc×R‧‧‧(2)
於式(2)中,Arcdecoded係表示對代碼Codearc的逆量化所獲得之角度、亦即解碼所得到的水平方向角度θ或垂直方向角度γ。
作為具體例,例如步進尺寸R=1度的情況下,假設將水平方向角度θ=-15.35°進行量化。此時,若將水平方向角度θ=-15.35°代入式(1),則為Codearc=round(-15.35/1)=-15。反之,若將量化所得到的Codearc=-15代入式(2)以進行逆量化,則為Arcdecoded=-15×1=-15°。亦即,逆量化所得到的水平方向角度θ係為-15度。
又,例如步進尺寸R=3度的情況下,假設將垂直方向角度γ=22.73°進行量化。此時,若將垂直方向角度γ=22.73°代入式(1),則為Codearc=round(22.73/3)=8。反之,若將量化所得到的Codearc=8代入式(2)以進行逆量化,則為Arcdecoded=8×3=24°。亦即,逆量化所得到的垂直方向角度γ係為24度。
〈關於第2階段的編碼處理〉
接著說明第2階段的編碼處理。
如上述,在第2階段的編碼處理中,作為編碼模式係有:RAW模式、運動模態預測模式、及殘差模式之3種模式。
在RAW模式中,第1階段的編碼處理所得到之代碼,是直接被當成已被編碼之位置資訊或增益而被描 述在位元串流中。又,此情況下,表示編碼模式是RAW模式之編碼模式資訊,也被描述在位元串流中。例如,描述有表示RAW模式的識別號碼,來作為編碼模式資訊。
又,在運動模態預測模式中,若可根據物件的過去音框的位置資訊或增益藉由預先決定之預測係數,來預測物件的現在音框之位置資訊或增益,則該預測係數所對應之運動模態預測模式的識別號碼會被描述在位元串流中。亦即,運動模態預測模式的識別號碼會被當成編碼模式資訊而描述。
此處,作為編碼模式的運動模態預測模式中,係有複數模式被決定。例如,作為運動模態預測模式之一例係有靜止模式、等速度模式、等加速度模式、P20正弦模式、2音調正弦模式等被預定。以下若沒有特別需要區別這些靜止模式等時,就單純簡稱為運動模態預測模式。
例如,假設處理對象的目前音框是第n個音框(以下亦稱作音框n),將針對音框n所得到之代碼Codearc,以代碼Codearc(n)來表示。
又,令時間上比音框n前面k個音框(其中1≦k≦K)知音框為音框(n-k),將針對該音框(n-k)所得到之代碼Codearc,以代碼Codearc(n-k)來表示。
甚至,假設在作為編碼模式資訊的識別號碼之中,針對靜止模式等之各運動模態預測模式的每一識別號碼i,有K個音框(n-k)的各預測係數aik係被預定。
此時,使用對靜止模式等之每一運動模態預測模式所預定之預測係數aik而可以用下式(3)來表示代碼Codearc(n)的情況下,該運動模態預測模式的識別號碼i係被當成編碼模式資訊而被描述在位元串流中。此情況下,於詮釋資料之解碼側中,若可獲得對運動模態預測模式的識別號碼i而被決定之預測係數,則藉由使用了預測係數之預測就可獲得位置資訊,因此亦可不在位元串流中描述已被編碼之位置資訊。
[數3]Codearc(n)=Codearc(n-1)×ai1+Codearc(n-2)×ai2+…+Codearc(n-K)×aiK‧‧‧(3)
在式(3)中,預測係數aik所被乘算的過去音框的代碼Codearc(n-k)的和,係被視為目前音框的代碼Codearc(n)。
具體而言,例如作為識別號碼i的預測係數aik是定為ai1=2、ai2=-1、及aik=0(其中k≠1,2),假設使用這些預測係數而藉由式(3)可以預測出代碼Codearc(n)。亦即,假設下式(4)成立。
[數4]Codearc(n)=Codearc(n-1)×2-Codearc(n-2)×1‧‧‧(4)
此情況下,表示編碼模式(運動模態預測模式)之識別號碼i,係被當成編碼模式資訊而被描述在位元串流中。
在式(4)的例子中係為,針對含有目前音框的連續3個音框,其相鄰音框的角度(位置資訊)之差分係為相同。亦即,音框(n)及音框(n-1)的位置資訊之差分、與音框(n-1)及音框(n-2)的位置資訊之差分,係為相等。相鄰的位置資訊之差分,係代表物件的速度,因此式(4)成立時,物件以等角速度移動。
如此,將藉由式(4)而預測目前音框之位置資訊的運動模態預測模式,稱作等速度模式。例如,若表示作為編碼模式(運動模態預測模式)的等速度模式的識別號碼i是「2」的情況下,則等速度模式之預測係數a2k係為a21=2、a22=-1、及a2k=0(其中k≠1,2)。
同樣地,假設物件是靜止,將過去音框的位置資訊或增益直接當成目前音框的位置資訊或增益的運動模態預測模式,稱作靜止模式。例如,若表示作為編碼模式(運動模態預測模式)的靜止模式的識別號碼i是「1」的情況下,則靜止模式之預測係數a1k係為a11=1、及a1k=0(其中k≠1)。
然後,假設物件是以等加速度移動,根據過去音框的位置資訊或增益來表現目前音框的位置資訊或增益的運動模態預測模式,稱作等加速度模式。例如,若表 示作為編碼模式之等加速度模式的識別號碼i是「3」的情況下,則等加速度模式之預測係數a3k,係為a31=3、a32=-3、a33=1、及a3k=0(其中k≠1,2,3)。如此訂定預測係數的原因是,相鄰音框間的位置資訊之差分係代表著速度,該速度的差係為加速度。
又,物件的水平方向角度θ之運動若為下式(5)所示之週期20音框的正弦運動,則作為預測係數aik是使用ai1=1.8926、ai2=-0.99、及aik=0(其中k≠1,2),就可藉由式(3)來預測物件的位置資訊。此外,於式(5)中,Arc(n)表示水平方向角度。
Figure TWI615834BD00001
使用如此預測係數aik來預測正在進行式(5)所示之正弦運動之物件的位置資訊的運動模態預測模式,稱作P20正弦模式。
然後,物件的垂直方向角度γ的運動係為下式(6)所示之週期20音框之正弦運動與週期10音框之正弦運動的和。此種情況下,若作為預測係數aik是使用ai1=2.324、ai2=-2.0712、ai3=0.665、及aik=0(其中k≠1,2,3),就可藉由式(3)來預測物件的位置資訊。此外,於式(6)中,Arc(n)表示垂直方向角度。
Figure TWI615834BD00002
使用如此預測係數aik來預測正在進行式(6)所示之運動之物件的位置資訊的運動模態預測模式,稱作2音調正弦模式。
此外,以上作為被分類成運動模態預測模式的編碼模式係以靜止模式、等速度模式、等加速度模式、P20正弦模式、及2音調正弦模式之5種模式為例來說明,但其他無論哪種運動模態預測模式均可。又,作為運動模態預測模式而被分類的編碼模式之數目亦可為任意。
甚至,此處係針對水平方向角度θ及垂直方向角度γ而說明具體的例子,但關於距離r或增益g係也可以藉由和上述式(3)相同的式子,來表示目前音框的距離或增益。
在運動模態預測模式所致之位置資訊或增益的編碼中,例如選擇預先準備的X種類之運動模態預測模式的其中3種類,僅藉由已被選擇的運動模態預測模式(以下亦稱作選擇運動模態預測模式),來進行位置資訊或增益之預測。然後,針對音訊資料的每一音框,在過去所定數之音框中所獲得之編碼後之詮釋資料會被使用,適合削減詮釋資料的資料量的3種運動模態預測模式會被選擇,成為新的選擇運動模態預測模式。亦即,每一音框地 因應需要而進行運動模態預測模式的替換。
此外,此處雖然假設選擇運動模態預測模式係為3個來說明,但選擇運動模態預測模式之數目係可為任意,被進行替換的運動模態預測模式也可為任意個。又,亦可每複數音框地進行運動模態預測模式之替換。
在殘差模式中,會隨著目前音框的前一個音框是被哪種編碼模式所編碼,而進行不同的處理。
例如,若前一個的編碼模式是運動模態預測模式,則依照該運動模態預測模式就可預測目前音框的已被量化之位置資訊或增益。亦即,對於靜止模式等之運動模態預測模式會使用被訂定之預測係數,進行式(3)等之計算,求出目前音框的已被量化之位置資訊或增益的預測值。此處,所謂已被量化之位置資訊或增益,係藉由上述之第1階段的編碼處理所獲得的,已被編碼(量化)過的位置資訊或增益。
然後,所得到的目前音框之預測值、和目前音框的實際之已被量化之位置資訊或增益(實測值)的差分,若以2進位數表示是能夠以M位元以下之值、亦即M位元以內來描述的值,則該差分之值,係被當成已被編碼之位置資訊或增益而用M位元被描述在位元串流中。又,表示殘差模式的編碼模式資訊也被描述在位元串流中。
此外,位元數M係為預定的值,例如位元數M係根據步進尺寸R而被決定。
又,前一個的編碼模式是RAW模式的情況下,若目前音框的已被量化之位置資訊或增益、和前一個音框的已被量化之位置資訊或增益的差分是用M位元以內就能描述的值,則該差分之值,係被當成已被編碼之位置資訊或增益而用M位元被描述在位元串流中。此時,表示殘差模式的編碼模式資訊也被描述在位元串流中。
此外,目前音框的前一個音框中是以殘差模式進行編碼的情況下,則往過去回朔直到首次以非殘差模式的編碼模式進行編碼之音框的編碼模式,視為前一個音框的編碼模式。
又,此處雖然說明,關於作為位置資訊的距離r係不進行殘差模式所致之編碼的情形,但關於距離r也是可以進行殘差模式所致之編碼。
〈關於編碼模式資訊的位元壓縮〉
在以上係說明了,編碼模式所致之編碼所得到的位置資訊或增益、差分(殘差)等之資料,是被當成已被編碼之位置資訊或增益,已被編碼之位置資訊或增益與編碼模式資訊係被描述在位元串流中。
可是,同一編碼模式會被頻繁地選擇、或目前音框和前一個音框上的位置資訊或增益進行編碼的編碼模式是相同的情況也非常多,因此在本技術中還會進行編碼模式資訊的位元壓縮。
首先,在本技術中,作為事前準備而被進行 的編碼模式的識別號碼之賦予時,進行編碼模式資訊的位元壓縮。
亦即,各編碼模式的重現機率會藉由統計學習而被推定,根據其結果而藉由霍夫曼編碼方式來決定各編碼模式的識別號碼之位元數。藉此,可使重現機率高的編碼模式的識別號碼(編碼模式資訊)之位元數變得較小,相較於將編碼模式資訊設成固定位元長度的情況,可減少編碼詮釋資料的資料量。
具體而言,例如假設RAW模式的識別號碼被設為「0」,殘差模式的識別號碼被設為「10」,靜止模式的識別號碼被設為「110」,等速度模式的識別號碼被設為「1110」,等加速度模式的識別號碼被設為「1111」等。
又,在本技術中,因應需要而使得編碼詮釋資料中,不含有和前一個音框的情形相同的編碼模式資訊,藉此以進行編碼模式資訊的位元壓縮。
具體而言,以上所說明的第2階段的編碼中所得到之目前音框的全物件的各資訊的編碼模式,是和前一個音框的各資訊的編碼模式相同的情況下,則目前音框的編碼模式資訊係不被發送至解碼器14。亦即,若目前音框和前一個音框中,編碼模式完全沒有改變時,則使得編碼詮釋資料中,不會含有編碼模式資訊。
又,目前音框和前一個音框中,若只要有1個編碼模式有發生變更的資訊時,則在以下所示之(G1)和 (G2)之方式之中,藉由會使編碼詮釋資料的資料量(位元數)變得較少的方式,來進行編碼模式資訊的描述。
(G1)描述所有的位置資訊及增益的編碼模式資訊
(G2)僅針對編碼模式有發生變更的位置資訊或增益,描述編碼模式資訊
此外,以(G2)之方式來描述編碼模式資訊時,係還會有表示編碼模式有變更之位置資訊或增益的要素資訊、表示該位置資訊或增益之物件的索引、及表示有變更之位置資訊與增益之數目的模式變更數資訊,被描述在位元串流中。
藉由以上所說明之處理,隨應於編碼模式有無變更,圖3所示之各資訊的其中數者所成之資訊,會被當成編碼詮釋資料而被描述在位元串流中,從詮釋資料編碼器22輸出至詮釋資料解碼器32輸出。
圖3之例子中,編碼詮釋資料的開頭係配置有模式變更旗標,接著配置有模式清單模式旗標,然後在其後配置有模式變更數資訊、及預測係數切換旗標。
模式變更旗標,係為用來表示目前音框的所有物件的各位置資訊及增益的編碼模式,是否和前一個音框的各位置資訊及增益的編碼模式相同,亦即編碼模式是否有發生變更的資訊。
模式清單模式旗標,係為用來表示是以上述(G1)或(G2)之何種方式來描述編碼模式資訊的資訊,係只 有在編碼模式有變更之意旨之值是被當成模式變更旗標而被描述時,才會被描述。
模式變更數資訊,係用來表示編碼模式有發生變更之位置資訊及增益之數目、亦即以(G2)之方式來描述編碼模式資訊時所被描述之編碼模式資訊之數目的資訊。因此,該模式變更數資訊,係只有在以(G2)之方式來描述編碼模式資訊時,才會被描述在編碼詮釋資料中。
預測係數切換旗標,係用來表示目前音框中是否進行運動模態預測模式之替換的資訊。若被預測係數切換旗標,表示有進行過替換,則例如在預測係數切換旗標之後等之適切位置上,會配置有新的選擇運動模態預測模式之預測係數。
又,在編碼詮釋資料中,預測係數切換旗標之後續會配置有物件的索引。該索引係為,作為詮釋資料而從空間位置資訊輸出裝置12所供給的索引。
物件的索引之後,針對各位置資訊及增益,依序配置有表示這些位置資訊或增益之種別的要素資訊、和表示位置資訊或增益之編碼模式的編碼模式資訊。
此處,被要素資訊所表示的位置資訊或增益,係物件的水平方向角度θ、垂直方向角度γ、物件至視聽者的距離r、或增益g之任一者。因此,物件的索引之後,最多會配置4個要素資訊與編碼模式資訊之集合。
例如,針對3個位置資訊和1個增益,要素資訊與編碼模式資訊之集合所被排列之順序,係被預定。
又,在編碼詮釋資料中,物件的索引、和該物件的要素資訊及編碼模式資訊,是按照每一物件而被依序排列。
圖1之例子中,物件係為N個,因此針對最大N個物件,物件的索引、要素資訊、及編碼模式資訊,係依照物件的索引之值的順序而被排列。
再者,在編碼詮釋資料中,在物件的索引、要素資訊、及編碼模式資訊之後,還配置有已被編碼過的位置資訊或增益,來作為編碼資料。該編碼資料,係在已編碼模式資訊所示之編碼模式所對應之方式來將位置資訊或增益予以解碼時會需要,是用來獲得位置資訊或增益所需的資料。
具體而言,作為圖3所示之編碼資料,係配置有:藉由式(1)所示之代碼Codearc等之RAW模式所致之編碼所得到的已被量化之位置資訊或增益、藉由殘差模式所致之編碼所得到的已被量化之位置資訊或增益的差分。此外,各物件的位置資訊及增益的編碼資料所被排列之順序,係等於這些位置資訊及增益的編碼模式資訊所被排列之順序等。
詮釋資料之編碼時,若進行上述的第1階段及第2階段的編碼處理,則會獲得各位置資訊及增益的編碼模式資訊和編碼資料。
在詮釋資料編碼器22中,一旦獲得編碼模式資訊和編碼資料,則在目前音框與前一個音框之間是否有 發生編碼模式之變更,就會被特定。
然後,所有物件的各位置資訊及增益的編碼模式若沒有變更,則模式變更旗標、預測係數切換旗標、及編碼資料,係被當成編碼詮釋資料而被描述在位元串流中。又,位元串流也會因應需要而描述有預測係數。亦即,此情況下,模式清單模式旗標、模式變更數資訊、物件的索引、要素資訊、及編碼模式資訊,係不被發送至詮釋資料解碼器32。
又,編碼模式有變更,且是以(G1)之方式來描述編碼模式資訊的情況下,則模式變更旗標、模式清單模式旗標、預測係數切換旗標、編碼模式資訊、及編碼資料,係被當成編碼詮釋資料而被描述在位元串流中。然後,因應需要,預測係數也會被描述在位元串流中。
因此,此情況下,模式變更數資訊、物件的索引、及要素資訊係不會被發送至詮釋資料解碼器32。在此例子中,所有的編碼模式資訊是以預定之順序被排列而發送,因此即使沒有物件的索引或要素資訊,仍可特定出各編碼模式資訊是表示哪個物件的哪個位置資訊或增益的編碼模式之資訊。
然後,編碼模式有變更,且是以(G2)之方式來描述編碼模式資訊的情況下,則模式變更旗標、模式清單模式旗標、模式變更數資訊、預測係數切換旗標、物件的索引、要素資訊、編碼模式資訊、及編碼資料,係被當成編碼詮釋資料而被描述在位元串流中。又,因應需要, 預測係數也會被描述在位元串流中。
但是,此情況下,所有的物件的索引、要素資訊、及編碼模式資訊,並未被描述在位元串流中。亦即,關於編碼模式有被變更之位置資訊或增益的要素資訊及編碼模式資訊、和其位置資訊或增益的物件的索引是有被描述在位元串流中,關於編碼模式未被變更者係沒有被描述。
如此藉由(G2)之方式而描述編碼模式資訊的情況下,係隨著編碼模式之有無變化,編碼詮釋資料中所含之編碼模式資訊之數目會跟著變化。於是,為了使解碼側中能夠從編碼詮釋資料正確讀出編碼資料,編碼詮釋資料中係描述有模式變更數資訊。
〈詮釋資料編碼器之構成例〉
接著說明,將詮釋資料予以編碼的編碼裝置亦即詮釋資料編碼器22的具體的實施形態。
圖4係圖1所示之詮釋資料編碼器22的構成例之圖示。
圖4所示之詮釋資料編碼器22,係由:取得部71、編碼部72、壓縮部73、決定部74、輸出部75、記錄部76、及切換部77所構成。
取得部71,係從空間位置資訊輸出裝置12取得物件之詮釋資料,供給至編碼部72及記錄部76。例如作為詮釋資料係取得:N個物件的索引、水平方向角度 θ、垂直方向角度γ、距離r、及增益g。
編碼部72,係將取得部71所取得的詮釋資料予以編碼然後供給至壓縮部73。編碼部72係具備:量化部81、RAW編碼部82、預測編碼部83、及殘差編碼部84。
量化部81,係作為上述的第1階段的編碼處理,是將各物件的位置資訊及增益予以量化,將已被量化之位置資訊及增益供給至記錄部76而令其被記錄。
RAW編碼部82、預測編碼部83、及殘差編碼部84,作為上述的第2階段的編碼處理,係以各編碼模式將物件的位置資訊及增益予以編碼。
亦即,RAW編碼部82係藉由RAW編碼模式而將位置資訊及增益予以編碼,預測編碼部83係藉由運動模態預測模式而將位置資訊及增益予以編碼,殘差編碼部84係藉由殘差模式而將位置資訊及增益予以編碼。在編碼時,預測編碼部83及殘差編碼部84係因應需要而一面參照記錄部76中所記錄的過去音框之資訊,一面進行編碼。
位置資訊及增益的編碼之結果,從編碼部72往壓縮部73係會供給各物件的索引、編碼模式資訊、以及已被編碼之位置資訊及增益。
壓縮部73,係一面參照記錄部76中所記錄之資訊,一面進行從編碼部72所供給之編碼模式資訊的壓縮。
亦即,壓縮部73,係針對各物件而每一位置資訊及增益地選擇任意的編碼模式,生成以所選擇之編碼模式之組合而將各位置資訊及增益進行編碼時所獲得的編碼詮釋資料。壓縮部73,係關於彼此互異之編碼模式的每種組合所生成的編碼詮釋資料,進行編碼模式資訊的壓縮,並供給至決定部74。
決定部74,係從壓縮部73所供給之各位置資訊及增益的編碼模式之每種組合所得到的編碼詮釋資料之中,選擇出資料量最少的編碼詮釋資料,以決定各位置資訊及增益的編碼模式。
又,決定部74,係將表示所決定之編碼模式的編碼模式資訊,供給至記錄部76,同時,將所選擇之編碼詮釋資料,當作最終的編碼詮釋資料而描述在位元串流中然後供給至輸出部75。
輸出部75,係將從決定部74所供給之位元串流,輸出至詮釋資料解碼器32。記錄部76,係將從取得部71或編碼部72、決定部74所供給之資訊加以記錄,以保持所有物件的過去音框的已被量化之各位置資訊及增益、或這些位置資訊及增益的編碼模式資訊,並且將這些資訊供給至編碼部72或壓縮部73。又,記錄部76,係將表示各運動模態預測模式的編碼模式資訊、和這些運動模態預測模式之預測係數,建立對應而記錄。
再者,在編碼部72、壓縮部73、及決定部74中,為了選擇運動模態預測模式之替換,會將數種運動模 態預測模式之組合當作新的選擇運動模態預測模式之候補,而進行詮釋資料的編碼處理。決定部74,係將針對各組合所得到的、所定音框數份之編碼詮釋資料的資料量、和含有實際輸出之目前音框的所定音框數份之編碼詮釋資料的資料量,供給至切換部77。
切換部77,係根據從決定部74所供給之資料量,決定新的選擇運動模態預測模式,將該決定結果供給至編碼部72及壓縮部73。
〈編碼處理之說明〉
接下來,說明圖4之詮釋資料編碼器22的動作。
此外,以下中,上述的式(1)及式(2)中所使用的量化之刻度寬度、亦即步進尺寸R,係假設為1度。因此,此情況下,量化後的水平方向角度θ之範圍係以361個離散值來表現,量化後的水平方向角度θ之值係為9位元之值。同樣地,量化後的垂直方向角度γ之範圍係以181個離散值來表現,量化後的垂直方向角度γ之值係為8位元之值。
又,距離r係使用,量化後之值為4位元之尾數與4位元之指數的浮點數,進行以合計8位元所能表現的量化。然後,假設增益g係被設為例如-128dB乃至+127.5dB之範圍之值,在第1階段的編碼中,以0.5dB刻度,亦即步進尺寸為「0.5」,而被量化成9位元之值。
又,殘差模式所致之編碼中,作為與差分進 行比較之閾值而被使用的位元數M,係設為1位元。
一旦對詮釋資料編碼器22供給詮釋資料,指示詮釋資料之編碼,則詮釋資料編碼器22係開始將詮釋資料予以編碼並輸出的編碼處理。以下,參照圖5的流程圖,說明詮釋資料編碼器22所做的編碼處理。此外,該編碼處理係針對音訊資料的每一音框而進行。
於步驟S11中,取得部71,係取得從空間位置資訊輸出裝置12所輸出的詮釋資料,供給至編碼部72及記錄部76。又,記錄部76係將從取得部71所供給之詮釋資料予以記錄。例如,在詮釋資料中係含有:N個各物件的索引、位置資訊、及增益。
於步驟S12中,編碼部72係將N個物件之中的1個,選擇作為處理對象之物件。
於步驟S13中,量化部81係將從取得部71所供給之處理對象之物件的位置資訊及增益,予以量化。又,量化部81係將已被量化之位置資訊及增益供給至記錄部76,並記錄之。
例如,作為位置資訊的水平方向角度θ或垂直方向角度γ,係藉由上述的式(1)而已R=1度刻度被量化。又,距離r或增益g也同樣地被量化。
於步驟S14中,RAW編碼部82係將處理對象之物件的已被量化之位置資訊及增益,以RAW編碼模式進行編碼。亦即,已被量化之位置資訊及增益,係被直接當成以RAW編碼模式而被編碼的位置資訊及增益。
於步驟S15中,預測編碼部83係進行運動模態預測模式所致之編碼處理,將處理對象之物件的已被量化之位置資訊及增益,以運動模態預測模式進行編碼。此外,運動模態預測模式所致之編碼處理之詳細將於後述,但運動模態預測模式所致之編碼處理中,針對各選擇運動模態預測模式,會進行使用了預測係數的預測。
於步驟S16中,殘差編碼部84係進行殘差模式所致之編碼處理,將處理對象之物件的已被量化之位置資訊及增益,以殘差模式進行編碼。此外,殘差模式所致之編碼處理的細節,將於後述。
於步驟S17中,編碼部72係判定是否針對所有的物件都已經進行過處理。
於步驟S17中,若判斷為尚未針對全部物件進行處理,則處理係返回步驟S12,重複上述處理。亦即,新的物件會被選擇成為處理對象之物件,對該物件的位置資訊及增益,以各編碼模式進行編碼。
相對於此,於步驟S17中,若判定為針對全部物件都進行過處理,則處理係前進至步驟S18。此時,編碼部72,係將各編碼模式下的編碼所得到之位置資訊及增益(編碼資料)、表示各位置資訊及增益的編碼模式的編碼模式資訊、及物件的索引,供給至壓縮部73。
於步驟S18中,壓縮部73,係進行編碼模式資訊壓縮處理。此外,編碼模式資訊壓縮處理之細節將於後述,但在編碼模式資訊壓縮處理中,是根據從編碼部 72所供給之物件的索引、編碼資料、及編碼模式資訊,針對編碼模式之每種組合而生成編碼詮釋資料。
亦即,壓縮部73係針對1個物件,每一物件的位置資訊及增益地選擇任意的編碼模式。同樣地壓縮部73係針對其他所有物件,也是各物件的位置資訊及增益地選擇任意的編碼模式,將已選擇的這些編碼模式之組合,當作1個組合。
然後,壓縮部73,係針對編碼模式之組合所可能採取的全部之組合,進行編碼模式資訊的壓縮,同時,生成以組合所示的編碼模式而將位置資訊或增益編碼所得之編碼詮釋資料。
於步驟S19中,壓縮部73係判定目前音框中是否有選擇運動模態預測模式之替換。例如,從切換部77供給了表示新的選擇運動模態預測模式之資訊時,則判定為有選擇運動模態預測模式之替換。
於步驟S19中,若判定為有選擇運動模態預測模式之替換,則於步驟S20中,壓縮部73係在各組合之編碼詮釋資料中,插入預測係數切換旗標及預測係數。
亦即,壓縮部73,係將從切換部77所供給之資訊所示的選擇運動模態預測模式之預測係數,從記錄部76讀出,將所讀出之預測係數、和有替換之意旨的預測係數切換旗標,插入至各組合的編碼詮釋資料中。
一旦步驟S20之處理被進行,則壓縮部73係將已被插入有預測係數和預測係數切換旗標的各組合的編 碼詮釋資料,供給至決定部74,處理係前進至步驟S21。
相對於此,於步驟S19中,若判定為選擇運動模態預測模式沒有替換,則壓縮部73係將沒有替換之意旨的預測係數切換旗標,插入至各組的編碼詮釋資料然後供給至決定部74,處理係前進至步驟S21。
步驟S20之處理被進行、或是於步驟S19中判定為沒有替換的情況下,則於步驟S21中,決定部74係根據從壓縮部73所供給之各組合的編碼詮釋資料,決定各位置資訊及增益的編碼模式。
亦即,決定部74係在各組合的編碼詮釋資料之中,將資料量(總位元數)最少的編碼詮釋資料,決定成為最終的編碼詮釋資料,將已被決定之編碼詮釋資料,寫入至位元串流而供給至輸出部75。藉此,關於各物件的位置資訊及及增益,就決定了編碼模式。因此,藉由選擇資料量最少的編碼詮釋資料,各位置資訊及增益的編碼模式就可被決定。
決定部74係將表示已被決定之各位置資訊及增益之編碼模式的編碼模式資訊,供給至記錄部76而記錄之,並且將目前音框的編碼詮釋資料之資料量,供給至切換部77。
於步驟S22中,輸出部75,係將從決定部74所供給之位元串流,發送至詮釋資料解碼器32,結束編碼處理。
如以上,詮釋資料編碼器22,係將構成詮釋 資料的位置資訊或增益等之各要素,藉由適切的編碼模式而進行編碼,變成編碼詮釋資料。
如此,藉由對每一要素決定適切的編碼模式而進行編碼,就可提升編碼效率,而削減編碼詮釋資料的資料量。其結果為,在音訊資料之解碼時,可獲得更高品質的聲音,可實現有臨場感的音訊再生。又,藉由在編碼詮釋資料之生成時進行編碼模式資訊之壓縮,就可更為削減編碼詮釋資料的資料量。
〈運動模態預測模式所致之編碼處理之說明〉
接著,參照圖6的流程圖,說明圖5的步驟S15之處理所對應的運動模態預測模式所致之編碼處理。
此外,此處理係針對每一個處理對象之物件的位置資訊及增益而進行。亦即,物件的水平方向角度θ、垂直方向角度γ、距離r、及增益g之每一者係被當成處理對象,針對這些每一個處理對象而進行運動模態預測模式所致之編碼處理。
於步驟S51中,預測編碼部83係針對現時點而被選擇成為選擇運動模態預測模式的各運動模態預測模式,進行物件的位置資訊或增益之預測。
例如,假設針對作為位置資訊之水平方向角度θ而進行編碼,作為選擇運動模態預測模式而會選擇靜止模式、等速度模式、及等加速度模式。
此種情況下,首先預測編碼部83係從記錄部 76讀出過去音框的已被量化之水平方向角度θ、選擇運動模態預測模式的預測係數。然後,預測編碼部83係使用已讀出之水平方向角度θ和預測係數,而特定出以可用靜止模式、等速度模式、或等加速度模式之哪一種選擇運動模態預測模式,來預測水平方向角度θ。亦即,特定出上述的式(3)是否成立。
在式(3)之演算時,預測編碼部83係將圖5之步驟S13之處理中已被量化之目前音框的水平方向角度θ、和過去音框的已被量化之水平方向角度θ,代入式(3)。
於步驟S52中,預測編碼部83係在選擇運動模態預測模式之中,判定是否有可以預測處理對象之位置資訊或增益的選擇運動模態預測模式。
例如在步驟S51之處理中,若被特定為,使用作為選擇運動模態預測模式的靜止模式之預測係數時式(3)成立,則靜止模式下的預測係為可能,亦即判定為有可預測的選擇運動模態預測模式存在。
於步驟S52中,若判定為有可預測之選擇運動模態預測模式存在,則處理係前進至步驟S53。
於步驟S53中,預測編碼部83係將被認為是可預測之選擇運動模態預測模式,當成處理對象之位置資訊或增益的編碼模式,運動模態預測模式所致之編碼處理就結束。然後,其後,處理係往圖5的步驟S16前進。
相對於此,於步驟S52中,若判定為沒有可 預測之選擇運動模態預測模式存在,則處理對象之位置資訊或增益,係被視為無法用運動模態預測模式進行編碼,運動模態預測模式所致之編碼處理就結束。然後,其後,處理係往圖5的步驟S16前進。
此情況下,在決定用來生成編碼詮釋資料所需的編碼模式之組合時,關於處理對象的位置資訊或增益,係就變成無法採取運動模態預測模式來作為編碼模式。
如以上,預測編碼部83係使用過去音框之資訊來進行目前音框的已被量化之位置資訊或增益的預測,若為可預測,則只有被認為可預測之運動模態預測模式的編碼模式資訊,會被含在編碼詮釋資料中。藉此,可削減編碼詮釋資料的資料量。
〈殘差模式所致之編碼處理之說明〉
接下來,參照圖7的流程圖,說明圖5的步驟S16之處理所對應的殘差模式所致之編碼處理。此外,在此處理中,處理對象之物件的水平方向角度θ、垂直方向角度γ、及增益g之每一者係被當成處理對象,針對這些處理對象一一進行處理。
於步驟S81中,殘差編碼部84係參照記錄部76中所被記錄之過去音框的編碼模式資訊,而將前一個音框的編碼模式予以特定。
具體而言,殘差編碼部84係將時間上最靠近 目前音框的過去音框,且為處理對象之位置資訊或增益的編碼模式係為不是殘差模式的模式,亦即是運動模態預測模式或RAW模式的音框,予以特定。然後,殘差編碼部84係將已特定之音框的處理對象之位置資訊或增益的編碼模式,設成前一個音框的編碼模式。
於步驟S82中,殘差編碼部84係判定步驟S81之處理中所特定的前一個音框的編碼模式,是否為RAW模式。
於步驟S82中,若判定為是RAW模式,則於步驟S83中,殘差編碼部84係求出目前音框和前一個音框的差分(殘差)。
亦即,殘差編碼部84係求出記錄部76中所記錄的前一個音框,亦即目前音框之前1個音框中的處理對象之已被量化之位置資訊或增益之值、和目前音框的已被量化之位置資訊或增益之值的差分。
此時,差分已被求出之目前音框和前一個音框的位置資訊或增益之值,係為已被量化部81所量化之位置資訊或增益之值、亦即量化值之值。一旦差分被求出,則其後,處理係往步驟S86前進。
另一方面,若步驟S82中判定為並非RAW模式,亦即是運動模態預測模式,則於步驟S84中,殘差編碼部84係依照步驟S81中所特定之編碼模式,求出目前音框的已被量化之位置資訊或增益的預測值。
例如,假設作為位置資訊的水平方向角度θ 會變成處理對象,步驟S81中所特定之前一個音框的編碼模式係為靜止模式。此種情況下,殘差編碼部84係使用記錄部76中所記錄之已被量化之水平方向角度θ和靜止模式的預測係數,來預測目前音框的已被量化之水平方向角度θ。
亦即,式(3)會被計算而求出目前音框的已被量化之水平方向角度θ之預測值。
於步驟S85中,殘差編碼部84係求出目前音框的已被量化之位置資訊或增益的預測值與實測值之差分。亦即,藉由步驟S84之處理而被求出的預測值、與圖5之步驟S13之處理所得到的目前音框的處理對象之已被量化之位置資訊或增益之值的差分,會被求出。
一旦差分被求出,則其後,處理係往步驟S86前進。
一旦進行了步驟S83或步驟S85之處理,則於步驟S86中,殘差編碼部84係判定,已求出之差分若以2進位數來表示,是否可以在M位元以內做描述。如上述,此處係假設M=1位元,判定差分是否為能夠用1位元來描述的值。
於步驟S86中,若判定為差分是可用M位元以內來描述,則於步驟S87中,殘差編碼部84係將表示所求出之差分的資訊,當成以殘差模式而被編碼過的位置資訊或增益、亦即圖3所示的編碼資料。
例如,作為位置資訊的水平方向角度θ或垂 直方向角度γ是變成處理對象的情況下,殘差編碼部84係將表示步驟S83或步驟S85中所求出之差分之符號是正還是負的旗標,當成已被編碼過的位置資訊。這是因為,步驟S86之處理中所使用的位元數M係為1位元,因此在解碼側中若是知道差分之符號,就可以特定出差分的之值。
一旦步驟S87之處理被進行,則殘差模式所致之編碼處理就結束,其後,處理係往圖5的步驟S17前進。
相對於此,於步驟S86中,若判定為差分不是可用M位元以內來描述,則處理對象之位置資訊或增益係被視為無法用殘差模式進行編碼,殘差模式所致之編碼處理就結束。然後,其後,處理係往圖5的步驟S17前進。
此情況下,在決定用來生成編碼詮釋資料所需的編碼模式之組合時,關於處理對象的位置資訊或增益,係就變成無法採取殘差模式來作為編碼模式。
如以上,殘差編碼部84係隨應於過去音框的編碼模式而求出目前音框的已被量化之位置資訊或增益之差分(殘差),若該差分是能夠用M位元來描述,則將表示該差分之資訊,當成已被編碼之位置資訊或增益。如此,藉由將表示差分之資訊,當成已被編碼之位置資訊或增益,相較於直接描述位置資訊或增益的情況,可削減編碼詮釋資料的資料量。
〈編碼模式資訊壓縮處理之說明〉
然後,參照圖8的流程圖,說明圖5的步驟S18之處理所對應的編碼模式資訊壓縮處理。
此外,該處理被開始的時點上,關於目前音框的所有物件的各位置資訊及增益,係為各編碼模式所致之編碼已被進行之狀態。
於步驟S101中,壓縮部73係根據從編碼部72所供給之所有物件的各位置資訊及增益的編碼模式資訊,將尚未被選擇成為處理對象之編碼模式之組合,選擇1個。
亦即,壓縮部73係針對各物件,每一位置資訊及增益地選擇編碼模式,將已選擇的這些編碼模式之組合,視為新的處理對象之組合。
於步驟S102中,壓縮部73係針對處理對象之組合,判定各物件的位置資訊及增益的編碼模式是否有變更。
具體而言,壓縮部73係將視為所有物件的各位置資訊及增益的處理對象之組合的編碼模式、和記錄部76中所被記錄之編碼模式資訊所表示的前一個音框的所有物件的各位置資訊及增益的編碼模式,進行比較。然後,壓縮部73係在只要有1個位置資訊或增益是在目前音框和前一個音框中編碼模式為不同的情況下,就判定編碼模式有變更。
於步驟S102中若判定為有變更,則於步驟S103中,壓縮部73係將所有物件的位置資訊及增益的編碼模式資訊所被描述而成者,當作編碼詮釋資料之候補而予以生成。
亦即,壓縮部73係將模式變更旗標、模式清單模式旗標、表示所有位置資訊及增益的變成處理對象之組合的編碼模式的編碼模式資訊、以及編碼資料所成的1筆資料,當成編碼詮釋資料之候補而予以生成。
此處,模式變更旗標係被設成表示編碼模式有變之意旨之值,模式清單模式旗標係被設成所有位置資訊及增益的編碼模式資訊是有被描述之意旨之值。又,編碼詮釋資料之候補中所含之編碼資料,係從編碼部72所供給之編碼資料之中、各位置資訊及增益的變成處理對象之組合的編碼模式所對應的資料。
此外,步驟S103所得之編碼詮釋資料中,係尚未被插入預測係數切換旗標和預測係數。
於步驟S104中,壓縮部73係在各物件的位置資訊及增益之中,將僅編碼模式有變更之位置資訊或增益而描述有編碼模式資訊者,當作編碼詮釋資料之候補而予以生成。
亦即,壓縮部73係將模式變更旗標、模式清單模式旗標、模式變更數資訊、物件的索引、要素資訊、編碼模式資訊、及編碼資料所成的1筆資料,當成編碼詮釋資料之候補而予以生成。
此處,模式變更旗標係被設成表示編碼模式有變之意旨之值,模式清單模式旗標係被設成,僅編碼模式有變更之位置資訊或增益而編碼模式資訊未被描述之意旨之值。
又,物件的索引,係僅描述有編碼模式有發生變更之位置資訊或增益的物件的索引,要素資訊及編碼模式資訊也是僅針對編碼模式有發生變更的位置資訊或增益而被描述。然後,編碼詮釋資料之候補中所含之編碼資料,係為從編碼部72所供給之編碼資料之中、各位置資訊及增益的變成處理對象之組合的編碼模式所對應的資料。
此外,步驟S104中所得之編碼詮釋資料中也是,和步驟S103的情況相同,在編碼詮釋資料中係尚未被插入預測係數切換旗標和預測係數。
於步驟S105中,壓縮部73係將步驟S103中所生成之編碼詮釋資料之候補的資料量,和步驟S104中所生成之編碼詮釋資料之候補的資料量,進行比較,選擇資料量較少者。然後,壓縮部73係將已選擇之編碼詮釋資料之候補,當成關於處理對象之編碼模式之組合的編碼詮釋資料,處理係前進至步驟S107。
又,於步驟S102中若判定為編碼模式沒有變更,則於步驟S106中,壓縮部73係將模式變更旗標和編碼資料所被描述而成者,當成編碼詮釋資料而予以生成。
亦即,壓縮部73係將編碼模式沒有變更之意旨的模式變更旗標、及編碼資料所成的1筆資料,當成關於處理對象之編碼模式之組合的編碼詮釋資料而予以生成。
此處,編碼詮釋資料中所含之編碼資料,係從編碼部72所供給之編碼資料之中、各位置資訊及增益的變成處理對象之組合的編碼模式所對應的資料。此外,步驟S106所得之編碼詮釋資料中,係尚未被插入預測係數切換旗標和預測係數。
於步驟S106中一旦編碼詮釋資料被生成,則其後,處理係前進至步驟S107。
於步驟S105或步驟S106中,一旦針對處理對象之組合而取得了編碼詮釋資料,則於步驟S107中,壓縮部73係判定是否針對編碼模式的所有組合都進行過處理。亦即,判定是否可能採取之組合的所有的編碼模式之組合都有成為處理對象,而生成了編碼詮釋資料。
於步驟S107中,若判斷為尚未針對所有組合進行過處理,則處理係返回步驟S101,重複上述處理。亦即,新的組合會變成處理對象,針對該組合而生成編碼詮釋資料。
相對於此,於步驟S107中若判定為針對全部組合都已經進行過處理,則編碼模式資訊壓縮處理係結束。一旦編碼模式資訊壓縮處理結束,則其後,處理係往圖5的步驟S19前進。
如以上,壓縮部73係針對所有的編碼模式之組合,隨著編碼模式有無變更,而生成編碼詮釋資料。如此,藉由隨著編碼模式之有無變更來生成編碼詮釋資料,可獲得僅含有必要資訊的編碼詮釋資料,可壓縮編碼詮釋資料的資料量。
此外,在本實施形態中,係說明了針對編碼模式之組合的每一組合而生成編碼詮釋資料,其後,於圖5所示的編碼處理的步驟S21中,選擇資料量最小的編碼詮釋資料,藉此以決定各位置資訊及增益的編碼模式的例子。可是,亦可各位置資訊及增益的編碼模式被決定之後,才進行編碼模式資訊的壓縮。
在此種情況下,首先進行各編碼模式下的位置資訊及增益之編碼後,針對每一位置資訊及增益而決定編碼資料之資料量最少的編碼模式。然後,針對已被決定之各位置資訊及增益的編碼模式之組合,進行圖8之步驟S102至步驟S106之處理,生成編碼詮釋資料。
〈替換處理之說明〉
順便一提,於詮釋資料編碼器22中重複進行參照圖5所說明之編碼處理的期間,係在1音框份的編碼處理剛被進行後、或與編碼處理大致同時,進行將選擇運動模態預測模式予以替換的替換處理。
以下,參照圖9的流程圖,說明被詮釋資料編碼器22所進行的替換處理。
於步驟S131中,切換部77係選擇運動模態預測模式之組合,將該選擇結果供給至編碼部72。具體而言,切換部77係將所有運動模態預測模式之中的任意3個運動模態預測模式,選擇成為運動模態預測模式的1個組合。
此外,切換部77係將表示現時點上被認為選擇運動模態預測模式的3個運動模態預測模式的資訊予以保持,使得步驟S131中,現時點上的選擇運動模態預測模式之組合不會被選擇。
於步驟S132中,切換部77係選擇處理對象之音框,將該選擇結果供給至編碼部72。
例如,音訊資料的目前音框、和比該目前音框還過去之音框所成的所定數之連續的音框,係在時間上從較舊起依序被當成處理對象之音框而逐一選擇。此處,被當成處理對象的連續音框之數目,係設為例如10音框等。
於步驟S132中一旦處理對象之音框被選擇,則其後,針對處理對象之音框,進行步驟S133乃至步驟S140之處理。此外,這些步驟S133乃至步驟S140之處理,係和圖5的步驟S12乃至步驟S18、及步驟S21之處理相同,因此省略其說明。
但是,在步驟S134中,對於記錄部76中所被記錄之過去音框的位置資訊及增益係亦可進行量化,亦可直接使用記錄部76中所被記錄之過去音框的已被量化 之位置資訊及增益。
又,在步驟S136中,步驟S131中所選擇之運動模態預測模式之組合,是被當成選擇運動模態預測模式而進行運動模態預測模式所致之編碼處理。因此,無論針對哪個位置資訊及增益,都會使用處理對象之組合的運動模態預測模式,進行位置資訊或增益的預測。
然後,步驟S137之處理中所使用的過去音框的編碼模式,係被視為針對該過去音框而以步驟S140之處理所得到的編碼模式。又,在步驟S139中,以使得編碼詮釋資料中會含有未進行選擇運動模態預測模式之替換之意旨的預測係數切換旗標的方式,生成編碼詮釋資料。
藉由以上處理,針對處理對象之音框,步驟S131中所選擇之運動模態預測模式之組合是假定為選擇運動模態預測模式時的編碼詮釋資料,就被獲得。
於步驟S141中,切換部77係判定是否針對所有音框都已經進行過處理。例如,若包含目前音框的連續所定數之音框全部都已經被選擇成為處理對象之音框而生成了編碼詮釋資料,則判定為針對所有的音框都進行過處理。
於步驟S141中,若判斷為尚未針對全部音框進行處理,則處理係返回步驟S132,重複上述處理。亦即,新的音框會被視為處理對象之音框,針對該音框而生成編碼詮釋資料。
相對於此,於步驟S141中,若判定為針對所有的音框都進行過處理,則於步驟S142中,切換部77係將處理對象之所定數之音框的編碼詮釋資料的總位元數,當成資料量的合計而求出。
亦即,切換部77係從決定部74取得處理對象之所定數之各音框的編碼詮釋資料,求出這些編碼詮釋資料的資料量之合計。藉此,於連續之所定數之音框中,將步驟S131所選擇之運動模態預測模式之組合視為選擇運動模態預測模式而獲得的編碼詮釋資料的資料量之合計,就可被獲得。
於步驟S143中,切換部77係判定是否針對運動模態預測模式的所有組合都已經進行過處理。於步驟S143中,若判斷為尚未針對所有組合進行過處理,則處理係返回步驟S131,重複進行上述處理。亦即,針對新的組合,算出編碼詮釋資料的資料量之合計。
另一方面,於步驟S143中,若判定為針對全部組合都已經進行過處理,則於步驟S144中,切換部77係將編碼詮釋資料的資料量之合計,進行比較。
亦即,切換部77係從運動模態預測模式之組合之中,選擇出編碼詮釋資料的資料量之合計(總位元數)最少的組合。然後,切換部77係將已選擇之組合的編碼詮釋資料的資料量之合計、和連續所定數之音框的實際之編碼詮釋資料的資料量之合計,進行比較。
此外,在上述的圖5之步驟S21中,實際輸 出的編碼詮釋資料之資料量,係從決定部74被供給至切換部77,因此切換部77係藉由求出各音框的編碼詮釋資料的資料量的和,就可獲得實際的資料量之合計。
於步驟S145中,切換部77係根據步驟S144之處理所致之編碼詮釋資料的資料量之合計之比較結果,來判定是否進行選擇運動模態預測模式之替換。
例如,假設資料量之合計為最少的運動模態預測模式之組合,若在過去所定數音框中被當成選擇運動模態預測模式,則可削減達到所定的A%量之位元數以上的資料量之情況下,就判定為要進行替換。
亦即,假設步驟S144之處理中的比較結果所得之運動模態預測模式之組合的編碼詮釋資料的資料量之合計、和實際的編碼詮釋資料的資料量之合計的差分是DF位元。
此情況下,資料量之合計的差分之位元數DF,是實際編碼詮釋資料的資料量之合計的A%量之位元數以上時,就判定為要進行選擇運動模態預測模式之替換。
於步驟S145中,若判定為要進行替換,則於步驟S146中,切換部77係進行選擇運動模態預測模式之替換,替換處理就結束。
具體而言,切換部77係在步驟S144中與實際之編碼詮釋資料的資料量之合計進行比較過的組合、亦即已被當成處理對象之組合之中,將編碼詮釋資料的資料 量之合計為最少之組合的運動模態預測模式,視為新的選擇運動模態預測模式。然後,切換部77係將表示新的選擇運動模態預測模式的資訊,供給至編碼部72及壓縮部73。
編碼部72,係使用從切換部77所供給之資訊所示的選擇運動模態預測模式,而針對下個音框,進行參照圖5所說明過的編碼處理。
又,於步驟S145中,若判定為不進行替換,則替換處理就結束。此情況下,現時點上的選擇運動模態預測模式,係被當成下個音框的選擇運動模態預測模式而直接使用。
如以上,詮釋資料編碼器22係針對運動模態預測模式之組合,生成所定數音框份的編碼詮釋資料,將該編碼詮釋資料與實際的編碼詮釋資料之資料量進行比較,進行選擇運動模態預測模式之替換。藉此,可更加削減編碼詮釋資料的資料量。
〈詮釋資料解碼器之構成例〉
接著說明,將從詮釋資料編碼器22所輸出之位元串流予以接收,將編碼詮釋資料予以解碼的解碼裝置亦即詮釋資料解碼器32。
圖1所示的詮釋資料解碼器32,係被構成為例如圖10所示。
詮釋資料解碼器32係由:取得部121、抽出 部122、解碼部123、輸出部124、及記錄部125所構成。
取得部121,係從詮釋資料編碼器22取得位元串流,供給至抽出部122。抽出部122,係一面參照被供給至記錄部125的資訊,一面從取得部121所供給之位元串流抽出物件的索引、編碼模式資訊、編碼資料、預測係數等,供給至解碼部123。又,抽出部122係將表示目前音框之所有物件的各位置資訊及增益之編碼模式的編碼模式資訊,供給至記錄部125而記錄之。
解碼部123係一面參照記錄部125中所被記錄之資訊,一面根據從抽出部122所供給之編碼模式資訊、編碼資料、預測係數,來進行編碼詮釋資料的解碼。解碼部123係具備:RAW解碼部141、預測解碼部142、殘差解碼部143、及逆量化部144。
RAW解碼部141,係以作為編碼模式的RAW模式所對應之方式(以下簡稱為RAW模式),進行位置資訊及增益的解碼。預測解碼部142,係以作為編碼模式的運動模態預測模式所對應之方式(以下簡稱為運動模態預測模式),進行位置資訊及增益的解碼。
又,殘差解碼部143,係以作為編碼模式的殘差模式所對應之方式(以下簡稱為殘差模式),進行位置資訊及增益的解碼。
逆量化部144,係將藉由RAW模式、運動模態預測模式、或殘差模式之任一模式(方式)所解碼出來的 位置資訊及增益,予以逆量化。
解碼部123係將藉由RAW模式等之模式而被解碼之位置資訊及增益、亦即已被量化之位置資訊及增益,供給至記錄部125而記錄之。又,解碼部123係將已被解碼(逆量化)之位置資訊及增益、和從抽出部122所供給之物件的索引,當成已被解碼之詮釋資料而供給至輸出部124。
輸出部124,係將從解碼部123所供給之詮釋資料,輸出至再生裝置15。記錄部125,係將各物件的索引、從抽出部122所供給之編碼模式資訊、以及從解碼部123所供給之已被量化之位置資訊及增益,予以記錄。
〈解碼處理之說明〉
其次,說明詮釋資料解碼器32的動作。
詮釋資料解碼器32,係一旦從詮釋資料編碼器22有位元串流被發送過來,則接收該位元串流而開始將詮釋資料予以解碼的解碼處理。以下,參照圖11的流程圖,說明詮釋資料解碼器32所進行的解碼處理。此外,該解碼處理係針對音訊資料的每一音框而進行。
於步驟S171中,取得部121係將從詮釋資料編碼器22所發送過來的位元串流予以接收,並供給至抽出部122。
於步驟S172中,抽出部122,係根據從取得 部121所供給之位元串流、亦即編碼詮釋資料的模式變更旗標,來判定目前音框與前一個音框中編碼模式是否有變更。
於步驟S172中,若判定為編碼模式沒有變更,則處理係前進至步驟S173。
於步驟S173中,抽出部122,係從記錄部125取得所有物件的索引、和目前音框之前一個音框的所有物件之各位置資訊及增益的編碼模式資訊。
然後,抽出部122,係將所取得之物件的索引及編碼模式資訊,供給至解碼部123,並且從取得部121所供給之編碼詮釋資料中抽出編碼資料而供給至解碼部123。
步驟S173之處理有被進行的情況下,針對所有物件的各位置資訊及增益,目前音框與前一個音框中編碼模式係為相同,在編碼詮釋資料中係沒有描述編碼模式資訊。因此,從記錄部125所取得之前一個音框的編碼模式資訊,係被當成目前音框的編碼模式資訊而直接使用。
又,抽出部122係將表示目前音框中的物件的各位置資訊及增益之編碼模式的編碼模式資訊,供給至記錄部125而記錄之。
一旦步驟S173之處理被進行,其後,處理係前進至步驟S178。
又,於步驟S172中,若判定為編碼模式有變 更,則處理係前進至步驟S174。
於步驟S174中,抽出部122,係判定從取得部121所供給之位元串流、亦即編碼詮釋資料中,是否描述有所有物件的位置資訊及增益的編碼模式資訊。例如,編碼詮釋資料中所含之模式清單模式旗標,是所有位置資訊及增益的編碼模式資訊是有被描述之意旨的情況下,則判定為有描述。
於步驟S174中,若判定為所有物件的位置資訊及增益的編碼模式資訊都有被描述,則步驟S175之處理會被進行。
於步驟S175中,抽出部122係從記錄部125讀出物件之索引,並且從取得部121所供給之編碼詮釋資料中,抽出所有物件的各位置資訊及增益的編碼模式資訊。
然後,抽出部122,係將所有物件的索引、和這些物件的各位置資訊及增益的編碼模式資訊,供給至解碼部123,並且從取得部121所供給之編碼詮釋資料中抽出編碼資料而供給至解碼部123。又,抽出部122係將目前音框中的物件的各位置資訊及增益之編碼模式資訊,供給至記錄部125而記錄之。
一旦步驟S175之處理被進行,其後,處理係前進至步驟S178。
又,於步驟S174中,若判定為所有物件的位置資訊及增益的編碼模式資訊沒有被描述,則步驟S176 之處理會被進行。
於步驟S176中,抽出部122,係根據從取得部121所供給之位元串流、亦即編碼詮釋資料中所被描述的模式變更數資訊,而從編碼詮釋資料中,抽出編碼模式有變更的編碼模式資訊。亦即,編碼詮釋資料中所含之編碼模式資訊,會全部被讀出。此時,抽出部122,係從編碼詮釋資料中,也抽出物件的索引。
於步驟S177中,抽出部122,係根據步驟S176之抽出結果,而將編碼模式未被變更之位置資訊及增益的編碼模式資訊和物件的索引,從記錄部125取得之。亦即,編碼模式未被變更之位置資訊及增益的前一個音框的編碼模式資訊,是被當成目前音框的編碼模式資訊而被讀出。
藉此,目前音框中的所有物件的各位置資訊及增益的編碼模式資訊就會被獲得。
抽出部122,係將目前音框中的所有物件的索引和各位置資訊及增益的編碼模式資訊,供給至解碼部123,並且從取得部121所供給之編碼詮釋資料中抽出編碼資料而供給至解碼部123。又,抽出部122係將目前音框中的物件的各位置資訊及增益之編碼模式資訊,供給至記錄部125而記錄之。
一旦步驟S177之處理被進行,其後,處理係前進至步驟S178。
一旦步驟S173、步驟S175、或步驟S177之 處理被進行,則於步驟S178中,抽出部122,係根據從取得部121所供給之編碼詮釋資料的預測係數切換旗標,而判定選擇運動模態預測模式是否有替換。
若步驟S178中判定為有替換的情況下,則抽出部122,係從編碼詮釋資料抽出新的選擇運動模態預測模式的預測係數而供給至解碼部123。預測係數一旦被抽出,則其後,處理係往步驟S180前進。
相對於此,於步驟S178中,若判定為選擇運動模態預測模式沒有替換,則處理係前進至步驟S180。
步驟S179之處理有被進行,或步驟S178中判定為沒有替換,則於步驟S180中,解碼部123係從所有物件之中選擇出1個物件當作處理對象之物件。
於步驟S181中,解碼部123係選擇處理對象之物件的位置資訊或增益。亦即,針對處理對象之物件,水平方向角度θ、垂直方向角度γ、距離r、或增益g的其中某1個,會被選擇成為處理對象。
於步驟S182中,解碼部123係根據從抽出部122所供給之編碼模式資訊,而判定處理對象之位置資訊或增益的編碼模式是否為RAW模式。
若步驟S182中判定是RAW模式,則於步驟S183中,RAW解碼部141係將處理對象之位置資訊或增益以RAW模式進行解碼。
具體而言,RAW解碼部141係將從抽出部122所供給之作為處理對象之位置資訊或增益的編碼資料 的代碼,直接當成以RAW模式而被解碼之位置資訊或增益。此處,所謂以RAW模式而被解碼之位置資訊或增益,係為圖5之步驟S13中量化所得到的位置資訊或增益。
一旦以RAW模式進行解碼,則RAW解碼部141係將所得到之位置資訊或增益,供給至記錄部125當成目前音框的已被量化之位置資訊或增益而記錄,其後,處理前進至步驟S187。
又,若步驟S182中判定不是RAW模式,則於步驟S184中,解碼部123係根據從抽出部122所供給之編碼模式資訊,而判定處理對象之位置資訊或增益的編碼模式是否為運動模態預測模式。
若步驟S184中判定是運動模態預測模式,則於步驟S185中,預測解碼部142係將處理對象之位置資訊或增益以運動模態預測模式進行解碼。
具體而言,預測解碼部142係使用處理對象之位置資訊或增益的編碼模式資訊所示的運動模態預測模式之預測係數,而算出目前音框的已被量化之位置資訊或增益。
已被量化之位置資訊或增益之算出時,係進行和上述的式(3)或、式(3)同樣之計算。例如,處理對象之位置資訊是水平方向角度θ,該水平方向角度θ的編碼模式資訊所示的運動模態預測模式是靜止模式的情況下,則藉由靜止模式的預測係數來進行式(3)之計算。然後, 其結果所得之代碼Codearc(n),係被視為已被量化之目前音框的水平方向角度θ。
此外,已被量化之位置資訊或增益之算出時所被使用的預測係數,係使用隨著預先保持之預測係數、或選擇運動模態預測模式之替換而從抽出部122所供給之預測係數。又,預測解碼部142,係將已被量化之位置資訊或增益之算出時所使用的、過去音框的已被量化之位置資訊或增益,從記錄部125中讀出而進行預測。
一旦步驟S185之處理被進行,則預測解碼部142係將所得到之位置資訊或增益,供給至記錄部125當成目前音框的已被量化之位置資訊或增益而記錄,其後,處理前進至步驟S187。
又,於步驟S184中,若判定處理對象之位置資訊或增益的編碼模式不是運動模態預測模式,亦即是殘差模式時,則步驟S186之處理會被進行。
於步驟S186中,殘差解碼部143係將處理對象之位置資訊或增益,以殘差模式進行解碼。
具體而言,殘差解碼部143係根據記錄部125中所被記錄之編碼模式資訊,而將時間上最靠近目前音框的過去音框,且為處理對象之位置資訊或增益的編碼模式係為不是殘差模式的音框予以特定。因此,所被特定之音框的處理對象之位置資訊或增益的編碼模式,會是運動模態預測模式或RAW模式之其中一者。
已被特定之音框中的處理對象之位置資訊或 增益的編碼模式是運動模態預測模式的情況下,殘差解碼部143係使用該運動模態預測模式的預測係數,來預測目前音框的處理對象之已被量化之位置資訊或增益。在此預測中,記錄部125中所記錄的、過去音框中的已被量化之位置資訊或增益會被使用,進行對應於上述的式(3)或式(3)之計算。
然後,殘差解碼部143,係對預測所得之目前音框中的處理對象之已被量化之位置資訊或增益,加算上從抽出部122所供給之表示作為處理對象的位置資訊或增益的編碼資料之差分的資訊所示的差分。藉此,針對處理對象之位置資訊或增益,就可獲得目前音框的已被量化之位置資訊或增益。
另一方面,已被特定之音框中的處理對象之位置資訊或增益的編碼模式是RAW模式的情況下,殘差解碼部143係將目前音框的前一個音框的、關於處理對象之位置資訊或增益的已被量化之位置資訊或增益,從記錄部125取得之。然後,殘差解碼部143,係對所取得的已被量化之位置資訊或增益,加算上從抽出部122所供給之表示作為處理對象之位置資訊或增益之編碼資料之差分的資訊所示的差分。藉此,針對處理對象之位置資訊或增益,就可獲得目前音框的已被量化之位置資訊或增益。
一旦步驟S186之處理被進行,則殘差解碼部143係將所得到之位置資訊或增益,供給至記錄部125當 成目前音框的已被量化之位置資訊或增益而記錄,其後,處理前進至步驟S187。
藉由以上處理,關於處理對象的位置資訊或增益,就會獲得藉由圖5之步驟S13之處理所得之已被量化之位置資訊或增益。
一旦步驟S183、步驟S185、或步驟S186之處理被進行,則於步驟S187中,逆量化部144,係將步驟S183、步驟S185、或步驟S186之處理所得到的位置資訊或增益,予以逆量化。
例如,若作為位置資訊的水平方向角度θ是變成處理對象時,則逆量化部144,係藉由計算上述的式(2),以進行處理對象之水平方向角度θ的逆量化,亦即解碼。
於步驟S188中,解碼部123係針對步驟S180之處理中當成處理對象而選擇的物件,判定是否所有的位置資訊及增益都已經解碼。
於步驟S188中,若判斷為尚未解碼全部的位置資訊及增益,則處理係返回步驟S181,重複上述處理。
相對於此,於步驟S188中,若判定為全部的位置資訊及增益都已解碼,則於步驟S189中,解碼部123係判定是否針對所有物件都已進行過處理。
於步驟S189中,若判斷為尚未針對全部物件進行處理,則處理係返回步驟S180,重複上述處理。
另一方面,於步驟S189中,若判定為針對所有物件都進行過處理,則針對目前音框的所有物件,會獲得已被解碼之各位置資訊及增益。
此情況下,解碼部123係將目前音框的所有物件的索引、位置資訊、及增益所成之資料,當成已被解碼之詮釋資料而供給至輸出部124,處理係前進至步驟S190。
於步驟S190中,輸出部124,係將從解碼部123所供給之詮釋資料,輸出至再生裝置15,結束解碼處理。
如以上,詮釋資料解碼器32,係根據已接收之編碼詮釋資料中所含之資訊,而將各位置資訊及增益的編碼模式予以特定,隨著該特定結果而將位置資訊或增益予以解碼。
如此,於解碼側中會將各位置資訊與增益之編碼模式予以特定,將位置資訊及增益予以解碼,藉此,可削減詮釋資料編碼器22和詮釋資料解碼器32間所收授的編碼詮釋資料的資料量。其結果為,在音訊資料之解碼時,可獲得更高品質的聲音,可實現有臨場感的音訊再生。
又,於解碼側中,根據編碼詮釋資料中所含之模式變更旗標或模式清單模式旗標,而將各位置資訊或增益的編碼模式予以特定,藉此,可更加削減編碼詮釋資料的資料量。
(第2實施形態〉 〈詮釋資料編碼器之構成例〉
此外,於以上係針對由量化之步進尺寸R等所決定的量化位元數、或作為與差分進行比較之閾值而被使用的位元數M是已經被預定的情況,加以說明。可是,這些位元數係亦可隨著物件的位置或增益、音訊資料之特徵、或含有已被編碼之詮釋資料與音訊資料之資訊的位元串流的位元速率等,而動態地變更。
例如,亦可從音訊資料算出物件的位置資訊及增益的重要度,隨著該重要度,動態地調整位置資訊或增益的壓縮率。又,亦可隨著含有已被編碼之詮釋資料與音訊資料之資訊的位元串流的位元速率之高低,來動態調整位置資訊或增益的壓縮率。
具體而言,例如,根據音訊資料,上述的式(1)或式(2)中所使用的步進尺寸R被動態決定的情況下,則詮釋資料編碼器22係被構成如圖12所示。此外,圖12中,和圖4對應的部份,係標示同一符號,並適宜地省略其說明。
圖12所示之詮釋資料編碼器22,係在圖4所示之詮釋資料編碼器22中還設有壓縮率決定部181。
壓縮率決定部181,係將被供給至編碼器13的N個各物件的音訊資料加以取得,根據所取得之音訊資料,而決定各物件的步進尺寸R。然後,壓縮率決定部 181係將已決定之步進尺寸R,供給至編碼部72。
又,編碼部72的量化部81,係根據從壓縮率決定部181所供給之步進尺寸R,而進行各物件的位置資訊之量化。
〈編碼處理之說明〉
接著,參照圖13的流程圖,說明圖12所示之詮釋資料編碼器22所進行的編碼處理。
此外,步驟S221之處理,係和圖5之步驟S11之處理相同,因此省略其說明。
於步驟S222中,壓縮率決定部181係根據從編碼器13所供給之音訊資料的特徵量,每一物件地決定位置資訊的壓縮率。
具體而言,例如壓縮率決定部181係例如,來作為物件的音訊資料的特徵量的訊號之大小(音量)是所定之第1閾值以上時,則將該物件的步進尺寸R設成所定之第1值,供給至編碼部72。
又,壓縮率決定部181係物件的音訊資料的特徵量亦即訊號之大小(音量)是小於第1閾值,且為所定之第2閾值以上時,則將該物件的步進尺寸R設成比第1值大的所定之第2值,供給至編碼部72。
如此,音訊資料的聲音之音量較大時,藉由增高量化解析度,亦即縮小步進尺寸R,在解碼時就可獲得更正確的位置資訊。
又,壓縮率決定部181係物件的音訊資料的訊號之大小、亦即音量是無聲或甚至小到聽不見時,則不將該物件的位置資訊及增益當成編碼詮釋資料而送訊。此情況下,壓縮率決定部181係將不發送位置資訊及增益之意旨的資訊,供給至編碼部72。
一旦步驟S222之處理被進行,則其後,步驟S223至步驟S233之處理會被進行,結束編碼處理,但這些處理係和圖5的步驟S12乃至步驟S22之處理相同,因此省略其說明。
但是,在步驟S224之處理中,量化部81係使用從壓縮率決定部181所供給之步進尺寸R,來進物件的位置資訊之量化。又,針對被從壓縮率決定部181供給了不發送位置資訊及增益之意旨之資訊的物件,係於步驟S223中不被選擇成為處理對象,該物件的位置資訊及增益係不被當成已被編碼之詮釋資料而發送。
然後,在編碼詮釋資料中係藉由壓縮部73而被描述有各物件之步進尺寸R然後被發送至詮釋資料解碼器32。壓縮部73,係從編碼部72、或從壓縮率決定部181,取得各物件的步進尺寸R。
如以上,詮釋資料編碼器22,係根據音訊資料之特徵量,來動態變更步進尺寸R。
如此,藉由動態變更步進尺寸R,針對音量較大重要度較高之物件,係藉由縮小步進尺寸R,在解碼時就可獲得更正確的位置資訊。又,針對音量係為幾乎無 聲、重要度低之物件,係藉由不發送位置資訊及增益,就可有效率地削減編碼詮釋資料的資料量。
此處,作為音訊資料之特徵量,雖然說明了是使用訊號之大小(音量)時的處理,但音訊資料之特徵量係亦可為其以外之特徵量。例如作為特徵量係可為,訊號的基本頻率(音高)、訊號的高頻率域之功率與全體功率的比值、或使用這些之組合的情況下,仍可進行同樣之處理。
然後,藉由圖12所示的詮釋資料編碼器22而生成編碼詮釋資料的情況也是,藉由圖10所示之詮釋資料解碼器32而進行參照圖11所說明過的解碼處理。
但是,此情況下,抽出部122係從取得部121所供給之編碼詮釋資料中,抽出各物件的量化之步進尺寸R而供給至解碼部123。然後,解碼部123的逆量化部144,係於步驟S187中,使用從抽出部122所供給之步進尺寸R來進行逆量化。
順便一提,上述一連串處理,係可藉由硬體來執行,也可藉由軟體來執行。在以軟體來執行一連串之處理時,構成該軟體的程式,係可安裝至電腦。此處,電腦係包含:被組裝在專用硬體中的電腦、或藉由安裝各種程式而可執行各種機能的例如通用之個人電腦等。
圖14係以程式來執行上述一連串處理的電腦的硬體之構成例的區塊圖。
於電腦中,CPU(Central Processing Unit)501, ROM(Read Only Memory)502,RAM(Random Access Memory)503,係藉由匯流排504而被彼此連接。
在匯流排504上係還連接有輸出入介面505。輸出入介面505上係連接有:輸入部506、輸出部507、記錄部508、通訊部509、及驅動機510。
輸入部506,係由鍵盤、滑鼠、麥克風、攝像元件等所成。輸出部507係由顯示器、揚聲器等所成。記錄部508,係由硬碟或非揮發性記憶體等所成。通訊部509係由網路介面等所成。驅動機510係驅動:磁碟、光碟、光磁碟、或半導體記憶體等之可移除式媒體511。
在如以上構成的電腦中,藉由CPU501而例如將記錄部508中所記錄之程式透過輸出入介面505及匯流排504,而載入至RAM503裡並加以執行,就可進行上述一連串處理。
電腦(CPU501)所執行的程式,係可記錄在例如封裝媒體等之可移除式媒體511中而提供。又,程式係可透過區域網路、網際網路、數位衛星播送這類有線或無線的傳輸媒介而提供。
在電腦中,程式係藉由將可移除式媒體511裝著至驅動機510,就可透過輸出入介面505,安裝至記錄部508。又,程式係可透過有線或無線之傳輸媒體,以通訊部509接收之,安裝至記錄部508。除此以外,程式係可事前安裝在ROM502或記錄部508中。
此外,電腦所執行的程式,係可為依照本說 明書所說明之順序而在時間序列上進行處理的程式,也可平行地、或呼叫進行時等必要之時序上進行處理的程式。
又,本技術的實施形態係不限定於上述實施形態,在不脫離本技術主旨的範圍內可做各種變更。
例如,本技術係亦可將1個機能透過網路而分擔給複數台裝置,採取共通進行處理的雲端運算之構成。
又,上述的流程圖中所說明的各步驟,係可由1台裝置來執行以外,亦可由複數台裝置來分擔執行。
甚至,若1個步驟中含有複數處理的情況下,該1個步驟中所含之複數處理,係可由1台裝置來執行以外,也可由複數台裝置來分擔執行。
甚至,本技術係亦可採取以下構成。
[1]
一種編碼裝置,係具備:編碼部,係將所定時刻上的音源之位置資訊,根據比前記所定時刻前面之時刻上的前記音源之前記位置資訊,以所定編碼模式加以編碼;和決定部,係將複數前記編碼模式之其中1者,決定成為前記位置資訊之前記編碼模式;和輸出部,係將表示已被前記決定部所決定之前記編碼模式的編碼模式資訊、和藉由已被前記決定部所決定之前記編碼模式而被編碼過的前記位置資訊,予以輸出。
[2]
如[1]所記載之編碼裝置,其中,前記編碼模式,係為:將前記位置資訊直接當成前記已被編碼過的前記位置資訊的RAW模式、假設前記音源為靜止而將前記位置資訊進行編碼的靜止模式、假設前記音源是以等速度移動而將前記位置資訊進行編碼的等速度模式、假設前記音源是以等加速度移動而將前記位置資訊進行編碼的等加速度模式、或根據前記位置資訊之殘差而將前記位置資訊進行編碼的殘差模式。
[3]
如[1]或[2]所記載之編碼裝置,其中,前記位置資訊係為表示前記音源之位置的水平方向角度、垂直方向角度、或距離。
[4]
如[2]所記載之編碼裝置,其中,藉由前記殘差模式而被編碼過的前記位置資訊,係為作為前記位置資訊的表示角度之差分的資訊。
[5]
如[1]乃至[4]之任一項所記載之編碼裝置,其中,前記輸出部,係針對複數前記音源,前記所定時刻上的所有前記音源之前記位置資訊之前記編碼模式,都和前記所定時刻之前一時刻上的前記編碼模式是相同的情況下,則不輸出前記編碼模式資訊。
[6]
如[1]乃至[5]之任一項所記載之編碼裝置,其中, 前記輸出部,係於前記所定時刻上,複數前記音源之其中一部分前記音源之前記位置資訊之前記編碼模式,是和前記所定時刻之前一時刻上的前記編碼模式不同的情況下,則在全部的前記編碼模式資訊之中,僅將前記編碼模式是與前記前一時刻不同的前記音源之前記位置資訊之前記編碼模式資訊,予以輸出。
[7]
如[1]乃至[6]之任一項所記載之編碼裝置,其中,還具備:量化部,係將前記位置資訊以所定之量化寬度進行量化;和壓縮率決定部,係根據前記音源之音訊資料之特徵量,來決定前記量化寬度;前記編碼部,係將已被量化之前記位置資訊,予以編碼。
[8]
如[1]乃至[7]之任一項所記載之編碼裝置,其中,還具備:切換部,係根據過去輸出的前記編碼模式資訊及前記已被編碼過的前記位置資訊之資料量,來進行將前記位置資訊予以編碼的前記編碼模式之替換。
[9]
如[1]乃至[8]之任一項所記載之編碼裝置,其中,前記編碼部,係還將前記音源之增益予以編碼;前記輸出部,係還將前記增益的前記編碼模式資訊、 和已被編碼的前記增益,予以輸出。
[10]
一種編碼方法,係含有以下步驟:將所定時刻上的音源之位置資訊,根據比前記所定時刻前面之時刻上的前記音源之前記位置資訊,以所定編碼模式加以編碼;將複數前記編碼模式之其中1者,決定成為前記位置資訊之前記編碼模式;將表示已被決定之前記編碼模式的編碼模式資訊、和藉由已被決定之前記編碼模式而被編碼過的前記位置資訊,予以輸出。
[11]
一種程式,係令電腦執行包含以下步驟之處理:將所定時刻上的音源之位置資訊,根據比前記所定時刻前面之時刻上的前記音源之前記位置資訊,以所定編碼模式加以編碼;將複數前記編碼模式之其中1者,決定成為前記位置資訊之前記編碼模式;將表示已被決定之前記編碼模式的編碼模式資訊、和藉由已被決定之前記編碼模式而被編碼過的前記位置資訊,予以輸出。
[12]
一種解碼裝置,係具備:取得部,係將所定時刻上的音源之已被編碼過的位置 資訊、和表示複數編碼模式之中的把前記位置資訊予以編碼之編碼模式的編碼模式資訊,加以取得;和解碼部,係根據比前記所定時刻前面之時刻上的前記音源之前記位置資訊,以前記編碼模式資訊所示之前記編碼模式所對應的方式,將前記所定時刻上的前記已被編碼過的前記位置資訊予以解碼。
[13]
如[12]所記載之解碼裝置,其中,前記編碼模式,係為:將前記位置資訊直接當成前記已被編碼過的前記位置資訊的RAW模式、假設前記音源為靜止而將前記位置資訊進行編碼的靜止模式、假設前記音源是以等速度移動而將前記位置資訊進行編碼的等速度模式、假設前記音源是以等加速度移動而將前記位置資訊進行編碼的等加速度模式、或根據前記位置資訊之殘差而將前記位置資訊進行編碼的殘差模式。
[14]
如[12]或[13]所記載之解碼裝置,其中,前記位置資訊係為表示前記音源之位置的水平方向角度、垂直方向角度、或距離。
[15]
如[13]所記載之解碼裝置,其中,藉由前記殘差模式而被編碼過的前記位置資訊,係為作為前記位置資訊的表示角度之差分的資訊。
[16]
如[12]乃至[15]之任一項所記載之解碼裝置,其中,前記取得部,係針對複數前記音源,前記所定時刻上的所有前記音源之前記位置資訊之前記編碼模式,都和前記所定時刻之前一時刻上的前記編碼模式是相同的情況下,則只取得前記已被編碼過的前記位置資訊。
[17]
如[12]乃至[16]之任一項所記載之解碼裝置,其中,前記取得部,係於前記所定時刻上,複數前記音源之其中一部分前記音源之前記位置資訊之前記編碼模式,是和前記所定時刻之前一時刻上的前記編碼模式不同的情況下,則將前記已被編碼過的前記位置資訊、和前記編碼模式是與前記前一時刻不同的前記音源之前記位置資訊之前記編碼模式資訊,予以取得。
[18]
如[12]乃至[17]之任一項所記載之解碼裝置,其中,前記取得部,係還將根據前記音源之音訊資料之特徵量而被決定的,表示前記位置資訊之編碼時將前記位置資訊進行量化之量化寬度的資訊,加以取得。
[19]
一種解碼方法,係含有以下步驟:將所定時刻上的音源之已被編碼過的位置資訊、和表示複數編碼模式之中的把前記位置資訊予以編碼之編碼模式的編碼模式資訊,加以取得;根據比前記所定時刻前面之時刻上的前記音源之前記 位置資訊,以前記編碼模式資訊所示之前記編碼模式所對應的方式,將前記所定時刻上的前記已被編碼過的前記位置資訊予以解碼。
[20]
一種程式,係令電腦執行包含以下步驟之處理:將所定時刻上的音源之已被編碼過的位置資訊、和表示複數編碼模式之中的把前記位置資訊予以編碼之編碼模式的編碼模式資訊,加以取得;根據比前記所定時刻前面之時刻上的前記音源之前記位置資訊,以前記編碼模式資訊所示之前記編碼模式所對應的方式,將前記所定時刻上的前記已被編碼過的前記位置資訊予以解碼。
22‧‧‧詮釋資料編碼器
71‧‧‧取得部
72‧‧‧編碼部
73‧‧‧壓縮部
74‧‧‧決定部
75‧‧‧輸出部
76‧‧‧記錄部
77‧‧‧切換部
81‧‧‧量化部
82‧‧‧RAW編碼部
83‧‧‧預測編碼部
84‧‧‧殘差編碼部

Claims (20)

  1. 一種編碼裝置,係具備:編碼部,係將所定時刻上的音源之位置資訊,根據比前記所定時刻前面之時刻上的前記音源之前記位置資訊,以所定編碼模式加以編碼;和決定部,係將複數前記編碼模式之其中1者,決定成為前記位置資訊之前記編碼模式;和輸出部,係將表示已被前記決定部所決定之前記編碼模式的編碼模式資訊、和藉由已被前記決定部所決定之前記編碼模式而被編碼過的前記位置資訊,予以輸出。
  2. 如請求項1所記載之編碼裝置,其中,前記編碼模式,係為:將前記位置資訊直接當成前記已被編碼過的前記位置資訊的RAW模式、假設前記音源為靜止而將前記位置資訊進行編碼的靜止模式、假設前記音源是以等速度移動而將前記位置資訊進行編碼的等速度模式、假設前記音源是以等加速度移動而將前記位置資訊進行編碼的等加速度模式、或根據前記位置資訊之殘差而將前記位置資訊進行編碼的殘差模式。
  3. 如請求項2所記載之編碼裝置,其中,前記位置資訊係為表示前記音源之位置的水平方向角度、垂直方向角度、或距離。
  4. 如請求項2所記載之編碼裝置,其中,藉由前記殘差模式而被編碼過的前記位置資訊,係為作為前記位置資訊的表示角度之差分的資訊。
  5. 如請求項2所記載之編碼裝置,其中,前記輸出部,係針對複數前記音源,前記所定時刻上的所有前記音源之前記位置資訊之前記編碼模式,都和前記所定時刻之前一時刻上的前記編碼模式是相同的情況下,則不輸出前記編碼模式資訊。
  6. 如請求項2所記載之編碼裝置,其中,前記輸出部,係於前記所定時刻上,複數前記音源之其中一部分前記音源之前記位置資訊之前記編碼模式,是和前記所定時刻之前一時刻上的前記編碼模式不同的情況下,則在全部的前記編碼模式資訊之中,僅將前記編碼模式是與前記前一時刻不同的前記音源之前記位置資訊之前記編碼模式資訊,予以輸出。
  7. 如請求項2所記載之編碼裝置,其中,還具備:量化部,係將前記位置資訊以所定之量化寬度進行量化;和壓縮率決定部,係根據前記音源之音訊資料之特徵量,來決定前記量化寬度;前記編碼部,係將已被量化之前記位置資訊,予以編碼。
  8. 如請求項2所記載之編碼裝置,其中,還具備:切換部,係根據過去輸出的前記編碼模式資訊及前記已被編碼過的前記位置資訊之資料量,來進行將前記位置資訊予以編碼的前記編碼模式之替換。
  9. 如請求項2所記載之編碼裝置,其中,前記編碼部,係還將前記音源之增益予以編碼;前記輸出部,係還將前記增益的前記編碼模式資訊、和已被編碼的前記增益,予以輸出。
  10. 一種編碼方法,係含有以下步驟:將所定時刻上的音源之位置資訊,根據比前記所定時刻前面之時刻上的前記音源之前記位置資訊,以所定編碼模式加以編碼;將複數前記編碼模式之其中1者,決定成為前記位置資訊之前記編碼模式;將表示已被決定之前記編碼模式的編碼模式資訊、和藉由已被決定之前記編碼模式而被編碼過的前記位置資訊,予以輸出。
  11. 一種程式,係令電腦執行包含以下步驟之處理:將所定時刻上的音源之位置資訊,根據比前記所定時刻前面之時刻上的前記音源之前記位置資訊,以所定編碼模式加以編碼;將複數前記編碼模式之其中1者,決定成為前記位置資訊之前記編碼模式;將表示已被決定之前記編碼模式的編碼模式資訊、和藉由已被決定之前記編碼模式而被編碼過的前記位置資訊,予以輸出。
  12. 一種解碼裝置,係具備:取得部,係將所定時刻上的音源之已被編碼過的位置 資訊、和表示複數編碼模式之中的把前記位置資訊予以編碼之編碼模式的編碼模式資訊,加以取得;和解碼部,係根據比前記所定時刻前面之時刻上的前記音源之前記位置資訊,以前記編碼模式資訊所示之前記編碼模式所對應的方式,將前記所定時刻上的前記已被編碼過的前記位置資訊予以解碼。
  13. 如請求項12所記載之解碼裝置,其中,前記編碼模式,係為:將前記位置資訊直接當成前記已被編碼過的前記位置資訊的RAW模式、假設前記音源為靜止而將前記位置資訊進行編碼的靜止模式、假設前記音源是以等速度移動而將前記位置資訊進行編碼的等速度模式、假設前記音源是以等加速度移動而將前記位置資訊進行編碼的等加速度模式、或根據前記位置資訊之殘差而將前記位置資訊進行編碼的殘差模式。
  14. 如請求項13所記載之解碼裝置,其中,前記位置資訊係為表示前記音源之位置的水平方向角度、垂直方向角度、或距離。
  15. 如請求項13所記載之解碼裝置,其中,藉由前記殘差模式而被編碼過的前記位置資訊,係為作為前記位置資訊的表示角度之差分的資訊。
  16. 如請求項13所記載之解碼裝置,其中,前記取得部,係針對複數前記音源,前記所定時刻上的所有前記音源之前記位置資訊之前記編碼模式,都和前記所定時刻之前一時刻上的前記編碼模式是相同的情況 下,則只取得前記已被編碼過的前記位置資訊。
  17. 如請求項13所記載之解碼裝置,其中,前記取得部,係於前記所定時刻上,複數前記音源之其中一部分前記音源之前記位置資訊之前記編碼模式,是和前記所定時刻之前一時刻上的前記編碼模式不同的情況下,則將前記已被編碼過的前記位置資訊、和前記編碼模式是與前記前一時刻不同的前記音源之前記位置資訊之前記編碼模式資訊,予以取得。
  18. 如請求項13所記載之解碼裝置,其中,前記取得部,係還將根據前記音源之音訊資料之特徵量而被決定的,表示前記位置資訊之編碼時將前記位置資訊進行量化之量化寬度的資訊,加以取得。
  19. 一種解碼方法,係含有以下步驟:將所定時刻上的音源之已被編碼過的位置資訊、和表示複數編碼模式之中的把前記位置資訊予以編碼之編碼模式的編碼模式資訊,加以取得;根據比前記所定時刻前面之時刻上的前記音源之前記位置資訊,以前記編碼模式資訊所示之前記編碼模式所對應的方式,將前記所定時刻上的前記已被編碼過的前記位置資訊予以解碼。
  20. 一種程式,係令電腦執行包含以下步驟之處理:將所定時刻上的音源之已被編碼過的位置資訊、和表示複數編碼模式之中的把前記位置資訊予以編碼之編碼模式的編碼模式資訊,加以取得; 根據比前記所定時刻前面之時刻上的前記音源之前記位置資訊,以前記編碼模式資訊所示之前記編碼模式所對應的方式,將前記所定時刻上的前記已被編碼過的前記位置資訊予以解碼。
TW103117629A 2013-05-31 2014-05-20 編碼裝置及方法、解碼裝置及方法、以及程式 TWI615834B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013115724 2013-05-31

Publications (2)

Publication Number Publication Date
TW201503113A TW201503113A (zh) 2015-01-16
TWI615834B true TWI615834B (zh) 2018-02-21

Family

ID=51988635

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103117629A TWI615834B (zh) 2013-05-31 2014-05-20 編碼裝置及方法、解碼裝置及方法、以及程式

Country Status (6)

Country Link
US (1) US9805729B2 (zh)
EP (1) EP3007168A4 (zh)
JP (1) JP6380389B2 (zh)
CN (1) CN105229734B (zh)
TW (1) TWI615834B (zh)
WO (1) WO2014192602A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3657823A1 (en) * 2013-11-28 2020-05-27 Dolby Laboratories Licensing Corporation Position-based gain adjustment of object-based audio and ring-based channel audio
CN106774930A (zh) * 2016-12-30 2017-05-31 中兴通讯股份有限公司 一种数据处理方法、装置及采集设备
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
EP4113512A1 (en) * 2017-11-17 2023-01-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions
US11202088B2 (en) * 2018-03-15 2021-12-14 Sony Corporation Image processing apparatus and method
KR102637876B1 (ko) * 2018-04-10 2024-02-20 가우디오랩 주식회사 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치
EP4246443A3 (en) 2018-04-12 2023-11-22 Sony Group Corporation Information processing device, method, and program
GB2582916A (en) * 2019-04-05 2020-10-14 Nokia Technologies Oy Spatial audio representation and associated rendering
GB2585187A (en) * 2019-06-25 2021-01-06 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
US20220383881A1 (en) * 2021-05-27 2022-12-01 Qualcomm Incorporated Audio encoding based on link data
CN114333858B (zh) * 2021-12-06 2024-10-18 安徽听见科技有限公司 音频编码及解码方法和相关装置、设备、存储介质
CN117581566A (zh) * 2022-05-05 2024-02-20 北京小米移动软件有限公司 音频处理方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009522610A (ja) * 2006-01-09 2009-06-11 ノキア コーポレイション バイノーラルオーディオ信号の復号制御
JP2010515099A (ja) * 2006-12-27 2010-05-06 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート 情報ビットストリーム変換を含む多様なチャネルで構成されたマルチオブジェクトオーディオ信号の符号化および復号化装置、並びに方法
JP2010521002A (ja) * 2006-09-29 2010-06-17 韓國電子通信研究院 多様なチャネルから構成されたマルチオブジェクトオーディオ信号の符号化および復号化装置、並びにその方法
WO2010109918A1 (ja) * 2009-03-26 2010-09-30 パナソニック株式会社 復号化装置、符号化復号化装置および復号化方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
US7167828B2 (en) * 2000-01-11 2007-01-23 Matsushita Electric Industrial Co., Ltd. Multimode speech coding apparatus and decoding apparatus
CN1288625C (zh) * 2002-01-30 2006-12-06 松下电器产业株式会社 音频编码与解码设备及其方法
CN1677493A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
KR20070077652A (ko) * 2006-01-24 2007-07-27 삼성전자주식회사 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법
TWI326448B (en) 2006-02-09 2010-06-21 Lg Electronics Inc Method for encoding and an audio signal and apparatus thereof and computer readable recording medium for method for decoding an audio signal
US7876904B2 (en) 2006-07-08 2011-01-25 Nokia Corporation Dynamic decoding of binaural audio signals
CA2874451C (en) * 2006-10-16 2016-09-06 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
CN101197134A (zh) * 2006-12-05 2008-06-11 华为技术有限公司 消除编码模式切换影响的方法和装置以及解码方法和装置
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
KR101439205B1 (ko) * 2007-12-21 2014-09-11 삼성전자주식회사 오디오 매트릭스 인코딩 및 디코딩 방법 및 장치
KR20090110242A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 신호를 처리하는 방법 및 장치
WO2012122397A1 (en) * 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
JP6088444B2 (ja) * 2011-03-16 2017-03-01 ディーティーエス・インコーポレイテッドDTS,Inc. 3次元オーディオサウンドトラックの符号化及び復号
TWI607654B (zh) * 2011-07-01 2017-12-01 杜比實驗室特許公司 用於增強3d音頻編輯與呈現之設備、方法及非暫態媒體
KR102608968B1 (ko) * 2011-07-01 2023-12-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009522610A (ja) * 2006-01-09 2009-06-11 ノキア コーポレイション バイノーラルオーディオ信号の復号制御
JP2010521002A (ja) * 2006-09-29 2010-06-17 韓國電子通信研究院 多様なチャネルから構成されたマルチオブジェクトオーディオ信号の符号化および復号化装置、並びにその方法
JP2010515099A (ja) * 2006-12-27 2010-05-06 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート 情報ビットストリーム変換を含む多様なチャネルで構成されたマルチオブジェクトオーディオ信号の符号化および復号化装置、並びに方法
WO2010109918A1 (ja) * 2009-03-26 2010-09-30 パナソニック株式会社 復号化装置、符号化復号化装置および復号化方法

Also Published As

Publication number Publication date
TW201503113A (zh) 2015-01-16
JPWO2014192602A1 (ja) 2017-02-23
WO2014192602A1 (ja) 2014-12-04
CN105229734A (zh) 2016-01-06
EP3007168A1 (en) 2016-04-13
EP3007168A4 (en) 2017-01-25
JP6380389B2 (ja) 2018-08-29
US9805729B2 (en) 2017-10-31
US20160133261A1 (en) 2016-05-12
CN105229734B (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
TWI615834B (zh) 編碼裝置及方法、解碼裝置及方法、以及程式
US11798568B2 (en) Methods, apparatus and systems for encoding and decoding of multi-channel ambisonics audio data
CN101223582B (zh) 一种音频编码方法、音频解码方法及音频编码器
CN101371447B (zh) 使用扩展带频率编码的复变换信道编码
CN101223570B (zh) 获得用于数字媒体的高效编码的频带的频率分段
CN101268351A (zh) 健壮解码器
CN101243489A (zh) 编码和解码音频信号的装置和方法
US7644001B2 (en) Differentially coding an audio signal
WO2015146860A1 (ja) 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
US20240185872A1 (en) Method and apparatus for decoding a bitstream including encoded higher order ambisonics representations
TW201606751A (zh) 將高階保真立體音響信號表示之次頻帶內主導方向信號之方向編碼/解碼之方法及裝置
CN105659320A (zh) 音频编码器和解码器
CN114097028A (zh) 用于编解码音频流中的元数据及用于灵活对象内和对象间比特率适配的方法和系统
US9781539B2 (en) Encoding device and method, decoding device and method, and program
US20120035939A1 (en) Method of processing signal, encoding apparatus thereof, decoding apparatus thereof, and signal processing system
CN114913862B (zh) 基于禁忌转移矩阵的声码器参数误码掩盖方法及系统
CN118038882A (zh) 音频编码方法、装置、计算机可读介质及电子设备
CN115881141A (zh) 一种全景声编解码方法及系统
KR20230152156A (ko) 스테레오 오디오 신호에 대한 인코딩 및 디코딩 방법, 인코딩 디바이스, 및 디코딩 디바이스

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees