KR20050017088A - Sinusoidal audio coding - Google Patents
Sinusoidal audio codingInfo
- Publication number
- KR20050017088A KR20050017088A KR10-2005-7000332A KR20057000332A KR20050017088A KR 20050017088 A KR20050017088 A KR 20050017088A KR 20057000332 A KR20057000332 A KR 20057000332A KR 20050017088 A KR20050017088 A KR 20050017088A
- Authority
- KR
- South Korea
- Prior art keywords
- sinusoidal
- tracks
- track
- phase
- components
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims description 14
- 230000001052 transient effect Effects 0.000 description 28
- 230000006870 function Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002844 continuous effect Effects 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
오디오 신호(x)를 부호화하는 단계(1)는 복수의 순차 세그먼트들 각각에 대한 샘플링된 신호 값들의 각각의 세트를 제공하는 단계를 포함한다. 상기 샘플링된 신호 값들은 복수의 순차 세그먼트들 각각에 대한 하나 이상의 사인 곡선 성분들을 발생시키기 위해 분석된다(130). 사인 곡선 성분들은 복수의 순차 세그먼트들에 걸쳐 연결된다. 사인 곡선 부호들(CS)은 상기 복수의 순차 세그먼트들 각각에 대한 연결된 사인 곡선 성분들의 트랙들을 포함한다. 각 트랙은 트랙의 시작 세그먼트에 사인 곡선 성분에 대한 주파수 및 진폭을 포함하고, 한편 선택된 트랙들은 아무런 위상도 상기 시작 세그먼트에 대해 포함되지 않는 표시기를 포함한다.Encoding (1) the audio signal (x) comprises providing each set of sampled signal values for each of the plurality of sequential segments. The sampled signal values are analyzed 130 to generate one or more sinusoidal components for each of the plurality of sequential segments. Sinusoidal components are connected across a plurality of sequential segments. Sinusoidal signs CS comprise tracks of connected sinusoidal components for each of the plurality of sequential segments. Each track includes the frequency and amplitude for the sinusoidal component in the start segment of the track, while the selected tracks include an indicator that no phase is included for the start segment.
Description
본 발명은 오디오 신호들을 부호화 및 복호화하는 것에 관한 것이다.The present invention relates to encoding and decoding audio signals.
파라메트릭 부호화 방식은 특히 사인 곡선 부호기는 WO 제 00/79519-A1 호(대리인 참조 PHN 017502) 및 PCT 특허 출원 번호 IB02/01297(대리인 참조 PHNL010252)에 설명되어 있다. 이 부호기에서, 오디오 세그먼트 또는 프레임은 진폭, 주파수 및 위상 파라미터들로 표현되는 다수의 사인 함수들을 이용하는 사인 곡선 부호기에 의해 설계되어 있다. 세그먼트에 대한 사인 곡선들이 추정되면, 추적 알고리즘이 시작된다. 이 알고리즘은 사인 함수들을 세그먼트 대 세그먼트 방식으로 서로 연결하고자 한다. 따라서 순차적인 세그먼트들로부터 적당한 사인 함수들로부터의 사인 함수 파라미터들은 소위 트랙들을 얻기 위해 연결된다. 연결 표준은 두 개의 후속 세그먼트들의 주파수들에 기초하지만, 또한 진폭 및/또는 위상 정보가 사용될 수 있다. 이 정보는 연결될 사인 함수들을 결정하는 비용 함수에 결합된다. 따라서 추적 알고리즘은 특정 시간에 시작하는 사인 곡선 트랙들로 되고, 복수의 시간 세그먼트들에 대해 어떤 시간의 양동안 전개하고나서, 정지된다.Parametric coding schemes are described in particular in sinusoidal coders in WO 00 / 79519-A1 (representative reference PHN 017502) and PCT Patent Application No. IB02 / 01297 (representative reference PHNL010252). In this encoder, the audio segment or frame is designed by a sinusoidal encoder using a number of sinusoidal functions expressed in amplitude, frequency and phase parameters. Once the sinusoids for the segment are estimated, the tracking algorithm begins. This algorithm attempts to connect the sine functions to each other in a segment-to-segment fashion. Thus sine function parameters from appropriate sine functions from sequential segments are concatenated to obtain the so-called tracks. The connection standard is based on the frequencies of the two subsequent segments, but also amplitude and / or phase information can be used. This information is combined into a cost function that determines the sine functions to be concatenated. The tracking algorithm thus becomes sinusoidal tracks starting at a particular time, and for a certain amount of time for multiple time segments, then stops.
그 방식에서, 사인 곡선 트랙에 대해, 초기 위상이 전송되고 트랙에서의 다른 사인 곡선들의 위상들은 상기 초기 위상 및 다른 사인 곡선들의 주파수들로부터 검색된다. 사인 곡선의 진폭 및 주파수는 또한 이전 사인 곡선들에 대해 차별적으로 부호화될 수 있다. 더욱이, 매우 짧은 트랙들은 제거될 수 있다. 그럼으로써, 추적에 기인하여, 사인 곡선 부호기의 비트율은 상당히 낮아질 수 있다.In that way, for a sinusoidal track, an initial phase is transmitted and the phases of the other sinusoids in the track are retrieved from the frequencies of the initial phase and the other sinusoids. The amplitude and frequency of the sinusoid can also be coded differentially with respect to the previous sinusoids. Moreover, very short tracks can be eliminated. As such, due to the tracking, the bit rate of the sinusoidal encoder can be significantly lowered.
도 1은 본 발명에 따른 오디오 부호기의 실시예를 도시한 도면.1 shows an embodiment of an audio encoder according to the invention.
도 2는 본 발명에 따른 오디오 재생기의 실시예를 도시한 도면.2 shows an embodiment of an audio player according to the invention.
도 3은 본 발명에 따른 오디오 부호기 및 오디오 재생기를 포함하는 시스템을 도시한 도면.3 shows a system comprising an audio encoder and an audio player according to the invention.
본 발명에 따르면 청구항 제 1 항에 따라 오디오 신호를 부호화하는 방법이 제공된다.According to the present invention there is provided a method for encoding an audio signal according to claim 1.
바람직한 실시예의 설명Description of the Preferred Embodiments
본 발명의 바람직한 실시예에서, 도 1, 부호기는 WO 제 01/69593-A1 호(대리인 참조 PHNL000120)에 기술된 유형의 사인 곡선 부호기이다. 이 부호기 및 그의 대응하는 복호기의 동작은 잘 설명되었고 본 발명과 관련된 설명만이 본 명세서에 제공된다.In a preferred embodiment of the invention, Fig. 1, the encoder is a sinusoidal encoder of the type described in WO 01 / 69593-A1 (representative reference PHNL000120). The operation of this encoder and its corresponding decoder is well described and only the description relating to the present invention is provided herein.
종래의 경우와 바람직한 실시예 모두에서, 오디오 부호기(1)는 오디오 신호의 디지털 표현 x(t)로 되는 특정 샘플링 주파수로 입력 오디오 신호를 샘플링한다. 이후 부호기(1)는 샘플링된 입력 신호를 세 개의 성분들, 즉 과도 신호 성분들, 유지 결정 성분들, 및 유지 확률 성분들로 분리한다. 오디오 부호기(1)는 과도 부호기(11), 사인 곡선 부호기(13) 및 노이즈 부호기(14)를 포함한다. 오디오 부호기는 선택적으로 이득 압축 메커니즘(GC)(12)을 포함한다.In both the conventional case and the preferred embodiment, the audio encoder 1 samples the input audio signal at a particular sampling frequency which is the digital representation x (t) of the audio signal. The encoder 1 then separates the sampled input signal into three components: transient signal components, sustain decision components, and sustain probability components. The audio encoder 1 includes a transient encoder 11, a sinusoidal encoder 13 and a noise encoder 14. The audio encoder optionally includes a gain compression mechanism (GC) 12.
과도 부호기(11)는 과도 검출기(TD)(110), 과도 분석기(TA)(111) 및 과도 합성기(TS)(112)를 포함한다. 먼저, 신호 x(t)는 과도 검출기(110)로 들어간다. 이 검출기(110)는 과도 신호 성분 및 그의 위치가 있는지의 여부를 추정한다. 이 정보는 과도 분석기(111)로 공급된다. 과도 신호 성분의 위치가 결정되면, 과도 분석기(111)는 과도 신호 성분(의 주 부분)을 추출하려고 한다. 그것은 형상 함수를 추정된 시작 위치에서 바람직하게 시작하는 신호 세그먼트에 정합시키고, 예를 들어 (어느정도) 다수의 사인 곡선 성분들을 이용함으로써, 상기 형상 함수 아래의 내용(content)을 결정한다. 이 정보는 과도 부호 CT에 포함되고 과도 부호 CT를 발생시킬시 더 상세한 정보가 WO 제 01/69593-A1 호에서 제공된다.The transient encoder 11 includes a transient detector (TD) 110, a transient analyzer (TA) 111, and a transient synthesizer (TS) 112. First, the signal x (t) enters the transient detector 110. This detector 110 estimates whether there is a transient signal component and its position. This information is supplied to the transient analyzer 111. Once the position of the transient signal component is determined, the transient analyzer 111 attempts to extract the transient signal component (the main part of). It matches the shape function to the signal segment that preferably starts at the estimated starting position, and determines the content below the shape function, for example by using (somewhat) a number of sinusoidal components. This information is included in the transient code CT and more detailed information is provided in WO 01 / 69593-A1 when generating the transient code CT.
과도 부호 CT는 과도 합성기(112)에게 주어진다. 합성된 과도 신호 성분은 감산기(16)에서 입력 신호 x(t)로부터 감산되어, 신호 x1로 된다. 만일을 생각하여, GC(12)는 생략되고, x1=x2이다.Transient code CT is given to transient synthesizer 112. The synthesized transient signal component is subtracted from the input signal x (t) in the subtractor 16, resulting in a signal x1. Considering the case, GC 12 is omitted and x1 = x2.
신호 x2는 자신이 사인 곡선 분석기(SA)(130)에서 분석되는 장소인 사인 곡선 부호기(13)에게 주어지고, 상기 분석기는 (결정성) 사인 곡선 성분들을 결정한다. 따라서 과도 분석기의 존재가 요구되지만, 상기 분석기는 필요한 것이 아니고 본 발명은 그러한 분석기 없이 구현될 수 있음을 알게될 것이다. 어느 경우라도, 사인 곡선 부호화의 최종 결과는 사인 곡선 부호(CS)이고 예시적인 사인 곡선 부호(CS)의 종래의 생성을 예시하는 더 상세한 예가 WO 제 00/79519-A1 호에 제공되어 있다.The signal x2 is given to a sinusoidal encoder 13, which is where it is analyzed in a sinusoidal analyzer (SA) 130, which determines the (deterministic) sinusoidal components. Thus, although the presence of a transient analyzer is required, it will be appreciated that the analyzer is not necessary and that the present invention can be implemented without such an analyzer. In either case, the final result of the sinusoidal coding is sinusoidal sign CS and a more detailed example illustrating the conventional generation of an exemplary sinusoidal sign CS is provided in WO 00 / 79519-A1.
그러나, 간략하게 말해서, 그러한 사인 곡선 부호기는 하나의 프레임 세그먼트에서 다음으로 연결되는 사인 곡선 성분들의 트랙들로서 입력 신호 x2를 부호화한다. 종래 기술에서, 트랙들은 처음에 주어진 세그먼트 - 발생에서 시작하는 사인곡선에 대한 시작 주파수, 시작 진폭 및 시작 위상에 의해 나타내어진다.In short, however, such a sinusoidal encoder encodes the input signal x2 as tracks of sinusoidal components that are connected next in one frame segment. In the prior art, the tracks are initially represented by a start frequency, start amplitude and start phase for a sinusoid that starts at a given segment-generation.
본 발명의 바람직한 실시예에 있어서, 시작 위상은 트랙의 길이의 함수로서의 트랙에 대해 선택적으로 부호화된다. 더 상세하게, 시작-위상은 긴 시간의 트랙들에 대해서만 이용된다. 이것은 긴 지속 시간의 트랙들이 아마도 토널(tonal) 정보를 부호화한다고 가정되기 때문이고, 그러한 경우들에, 상기 트랙의 시작 위상을 전송함으로써 상기 트랙의 토널 특징들을 가능한 많이 보존하는 것이 중요하기 때문이다. 짧은 지속 시간의 트랙들은 비토널(non-tonal) 정보를 부호화한다고 가정되고 따라서 그러한 트랙들을 가진 시작 위상을 전송하는 것은 사실상 토널 특징을 트랙에 부가할 수도 있어서 부호화된 비트스트림을 재생할 때 왜곡의 인식을 줄 수도 있다.In a preferred embodiment of the invention, the starting phase is selectively encoded for the track as a function of the track's length. More specifically, the start-phase is only used for long tracks. This is because long duration tracks are probably assumed to encode tonal information, and in such cases, it is important to preserve as many of the tonal characteristics of the track as possible by transmitting the starting phase of the track. Short duration tracks are assumed to encode non-tonal information and thus transmitting a starting phase with such tracks may actually add a tonal feature to the track, thus recognizing distortion when playing the coded bitstream. You can also give
짧은 트랙에 대한 시작-위상 데이터의 오버헤드가 더 긴 트랙에 대해서보다 비례적으로 더 높을 때 짧은 트랙들에 대한 시작-위상을 전송하지 않음으로써 비트율에서 중요한 절약이 있을 수도 있음을 알게 될 것이다.It will be appreciated that there may be a significant saving in bit rate by not transmitting the start-phase for short tracks when the overhead of the start-phase data for the short track is proportionally higher than for the longer track.
트랙이 시작 위상을 요구하기에 충분히 긴지 또는 시작-위상을 요구하지 않도록 일치하여 충분히 짧은지 결정하는 다수의 대안의 기준이 있다.There are a number of alternative criteria for determining whether a track is long enough to require a start phase or short enough to match so as not to require a start-phase.
가장 단순한 기준은 절대적인 트랙 길이를 취하는 것이다 - 40ms보다 적은 트랙들이 시작 위상을 요구하지 않음이 실험적으로 발견되었고 반면에 더 긴 트랙들은 시작-위상으로 유리하게 전송된다. 8ms의 최근 간격을 가진 부호기에서 이것은 길이에서 5개의 세그먼트들보다 적은 트랙들이 시작-위상을 포함하지 않고 오히려 시작-위상이 트랙으로 이용되지 않는 표시기를 포함함을 의미한다. (시작-위상 값과의 비교에 의하여, 그러한 표시기를 부호화하는 것이 더 효율적임이 가정된다.) 대안적으로, 부호기는 부호기가 생성하는 부호화된 신호가 호환 복호기에 의해 복호될 것이라고 가정한다면, 상기 부호기는 어느 시작-위상도 이용되지 않고 시작-위상 없이 트랙들을 진행시키는 방법을 결정하도록 그것을 복호기에 맡길 수 없는 지시를 포함할 필요가 없다.The simplest criterion is to take an absolute track length-it has been found experimentally that tracks less than 40ms do not require a starting phase, while longer tracks are advantageously transferred to the start-phase. In encoders with a recent interval of 8 ms this means that tracks less than five segments in length do not contain a start-phase but rather include an indicator that the start-phase is not used as a track. (It is assumed that by comparison with the start-phase value, it is more efficient to encode such an indicator.) Alternatively, the encoder assumes that the encoded signal generated by the encoder will be decoded by a compatible decoder. Need not include an indication that no start-phase is used and cannot leave it to the decoder to determine how to advance the tracks without the start-phase.
대안의 기준은 트랙이 위치하는 시간 구간이 유성인지 또는 무성인지의 여부를 결정하는 것에 기초한다. 시간 구간이 유성이라고 결정되는 장소에서, 상기 시간 구간은 원래 비토널하고 그래서 트랙들은 시작-위상을 포함하지 말아야 함이 가정되고, 역으로 비음성 시간 구간들에 대해서도 마찬가지이다. 음향학, 연설 및 신호 처리에 관한 IEEE 트랜잭션에서, 1976년 10월 발행의, 엘.알.래비너(L.R.Rabiner), 엠.제이.쳉(M.J.Cheng), 에이.이.로젠버그(A.E.Rosenberg), 시.에이.맥고네갈(C.A.McGonegal)의, "몇몇 피치 검출 알고리즘들의 비교 성능 연구(A Comparative Performance Study of Several Pitch Detection Algorithms)", 볼륨 ASSP-24, 페이지 399-417는 그러한 결정을 하는 방법을 밝히고 있고 추적 알고리즘내에서 그러한 방법을 구현하는 성분을 포함함으로써, 상기 추적 알고리즘은 토널 시간 구간내에 존재하는 트랙들에 대한 시작-위상 정보를 포함할 것이고, 반면에 비토널 시간 구간내에 존재하는 트랙들에 대하여, 어느 시작 위상도 부호화된 비트스트림에 포함되지 않는다. 이 표준은 토널 시간-구간에서, 트랙들은 비-토널 시간-구간에서 보다 더 긴 경향이 있을 것이라는 것을 가정하고 그래서 트랙의 최종 길이가 결정 전에 알려질 필요가 없다는 것은 트랙이 시작-위상을 포함해야 하는지 아닌지에 관하여 행해진다.An alternative criterion is based on determining whether the time interval in which the track is located is voiced or unvoiced. In places where it is determined that the time interval is voiced, it is assumed that the time interval is originally non-tonal and so that the tracks should not contain a start-phase, and vice versa for non-voice time intervals. In the IEEE Transactions on Acoustics, Speech, and Signal Processing, published in October 1976, L. R. Rabiner, M. J. Cheng, A. E. Rosenberg, CAMcGonegal, "A Comparative Performance Study of Several Pitch Detection Algorithms," Volume ASSP-24, pages 399-417, describes how to make such a decision. By revealing and including components that implement such a method in the tracking algorithm, the tracking algorithm will include start-phase information for tracks that exist within the tonal time interval, while tracks that exist within the non-tonal time interval. For, no start phase is included in the coded bitstream. This standard assumes that in tonal time-segment, tracks will tend to be longer than in non-tonal time-segment, so that the track's final length does not need to be known prior to determination that the track should include the start-phase Or not.
시간 구간이 토널 혹은 비토널 오디오 신호를 나타내는지의 여부를 결정하는 대안의 방법은 이하 논의되는, 상기 신호의 노이즈 성분의 에너지 레벨을 고찰하는 것이다. 노이즈 에너지 대 사인 곡선 성분 에너지의 비율이 주어진 시간 구간에 대한 주어진 문턱치를 초과함을 알게 되면, 상기와 같은 방식으로 오디오 신호는 비토널이고 시작-위상 정보는 트랙들에 포함될 필요가 없다는 것과 노이즈 에너지 대 사인 곡선 성분 에너지의 비율이 주어진 문턱치 미만일 때는 역이 됨을 가정할 수 있다.An alternative method of determining whether a time interval represents a tonal or non-tonal audio signal is to consider the energy level of the noise component of the signal, discussed below. Knowing that the ratio of noise energy to sinusoidal component energy exceeds a given threshold for a given time interval, in this way the audio signal is non-tonal and the start-phase information does not need to be included in the tracks and the noise energy. It can be assumed that the ratio of the sinusoidal component energy to the inverse is less than a given threshold.
바람직한 실시예와 종래 기술 모두에서, 트랙이 끝나는 (죽는) 세그먼트까지 상기 트랙은 주파수 차이들, 진폭 차이들 및 긴 트랙들동안 가능하게 위상차들(연속들)에 의한 후속 세그먼트들에 나타내어진다. 실제적으로, 긴 트랙들에 대해서 조차도 위상차들을 부호화하는 데에 약간의 이득이 있음이 결정될 수도 있다. 따라서, 위상 정보는 연속들에 대해 결코 부호화될 필요가 없고 긴 트랙들에 대한 위상 정보는 연속적인 위상 재구성을 사용하여 재발생될 수도 있다.In both the preferred embodiment and the prior art, the track is represented in subsequent segments by possible phase differences (continuouss) during frequency differences, amplitude differences and long tracks up to the segment where the track ends. In practice, it may be determined that there is some gain in coding phase differences even for long tracks. Thus, phase information never needs to be coded for successives and phase information for long tracks may be regenerated using successive phase reconstruction.
종래 기술에서 처럼, 본 발명의 향상된 사인 곡선 부호기로 발생된 사인 곡선 부호 CS로부터, 사인 곡선 신호 성분은 사인 곡선 합성기(SS)(131)에 의해 재구성된다. 이 신호는 입력 x2로부터 사인 곡선 부호기(13)으로의 감산기(17)에서 감산되고, (큰) 과도 신호 성분들 및 (주) 결정 사인 곡선 성분들의 결여된 잔여 신호 x3가 된다.As in the prior art, from a sinusoidal sign CS generated with the improved sinusoidal coder of the present invention, a sinusoidal signal component is reconstructed by a sinusoidal synthesizer (SS) 131. This signal is subtracted from subtractor 17 from input x2 to sinusoidal encoder 13, resulting in a residual signal x3 lacking (large) transient signal components and (main) crystal sinusoidal components.
잔여 신호 x3는 노이즈를 주로 포함한다고 추정되고 바람직한 실시예의 노이즈 분석기(14)는 예를 들면, WO 제 01/89086-A1 호(대리인 참조:PHNL000287)에 기술된 바와 같은, 상기 노이즈를 대표하는 노이즈 부호 CN을 생성한다. 다시, 그러한 분석기의 사용은 본 발명의 구현에 필수적인 것이 아니라, 그럼에도 불구하고 그러한 사용에 보완적임을 알게될 것이다.The residual signal x3 is assumed to mainly contain noise and the noise analyzer 14 of the preferred embodiment is a noise representative of the noise, as described, for example, in WO 01 / 89086-A1 (representative reference: PHNL000287). Generates the sign CN. Again, it will be appreciated that the use of such an analyzer is not essential to the implementation of the invention, but nevertheless is complementary to such use.
최종적으로, 멀티플렉서(15)에서, 부호들(CT,CS 및 CN)을 포함하는 오디오 스트림(AS)이 구성된다. 상기 오디오 스트림(AS)은 예컨대 데이터 버스, 안테나 시스템, 저장 매체 등에 제공된다.Finally, in the multiplexer 15, an audio stream AS comprising the signs CT, CS and CN is constructed. The audio stream AS is provided for example in a data bus, an antenna system, a storage medium and the like.
도 2는 본 발명에 따른 오디오 재생기(3)를 도시하고 있다. 예컨대 도 1에 따른 부호기에 의해 발생된 오디오 스트림(AS')은 데이터 버스, 안테나 시스템, 저장 매체 등으로부터 얻어진다. 부호들(CT,CS 및 CN)을 얻기 위해 오디오 스트림(AS)은 디멀티플렉서(30)에서 역다중화된다(de-multiplexed). 이들 부호들은 과도 합성기(31), 사인 곡선 합성기(32) 및 노이즈 합성기(33)에 각각 제공된다. 과도 부호 CT로부터, 과도 신호 성분들은 과도 합성기(31)에서 계산된다. 상기 과도 부호가 형상 함수를 가리키는 경우, 상기 형상은 수신된 파라미터들에 기초하여 계산된다. 또한, 형상 내용은 사인 곡선 성분들의 주파수들 및 진폭들에 기초하여 계산된다. 과도 부호 CT가 단계를 가리키면, 아무런 과도도 계산되지 않는다. 총 과도 신호 yT는 모든 과도들의 합계이다.2 shows an audio player 3 according to the invention. For example, the audio stream AS 'generated by the encoder according to FIG. 1 is obtained from a data bus, an antenna system, a storage medium and the like. The audio stream AS is de-multiplexed in the demultiplexer 30 to obtain the signs CT, CS and CN. These codes are provided to the transient synthesizer 31, the sinusoidal synthesizer 32 and the noise synthesizer 33, respectively. From the transient sign CT, the transient signal components are calculated in the transient synthesizer 31. If the transient sign indicates a shape function, the shape is calculated based on the received parameters. In addition, the shape content is calculated based on the frequencies and amplitudes of the sinusoidal components. If the transient sign CT indicates a step, no transient is calculated. The total transient signal yT is the sum of all transients.
사인 곡선 코드 CS는 주어진 세그먼트 상에 사인 곡선들의 합으로서 설명된, 신호 yS를 발생시키도록 사용된다. 복호기에서, 사인 곡선 트랙에서의 사인 곡선의 위상은 두 방법들 중 하나에서 결정된다. 종래 기술에서 처럼, 상기 트랙이 시작-위상을 포함하는 장소에서, 상기 위상은 발신 사인 곡선 및 중간 사인 곡선들의 주파수들의 위상으로부터 계산된다. 바람직한 실시예에서, 트랙이 아무런 시작 위상이 제공되지 않는 표시를 포함하는 곳에서, 상기 복호기는 상기 트랙에서 모든 사인 곡선들에 대한 랜덤(random) 시작 위상을 발생시키고 이후 전과 같이 트랙을 합성한다. (상기 복호기는 선택적으로 발신 사인 곡선 만에 대한 랜덤 시작-위상을 계산할 수도 있고 종래 기술에서 처럼 잔여 위상들을 계산할 수도 있다.) 그러한 표시 또는 시작-위상이 아무것도 제공되지 않는 곳에서, 상기 복호기는 상기 트랙의 사인 곡선들에 대해 랜덤 시작-위상을 생성하는 것이 요구되는 것을 추정한다.Sinusoidal code CS is used to generate signal yS, described as the sum of sinusoids on a given segment. In the decoder, the phase of the sinusoid in the sinusoidal track is determined in one of two ways. As in the prior art, at a location where the track contains a start-phase, the phase is calculated from the phase of the frequencies of the outgoing sinusoidal and intermediate sinusoidal curves. In a preferred embodiment, where the track contains an indication that no starting phase is provided, the decoder generates a random starting phase for all sinusoids in the track and then synthesizes the track as before. (The decoder may optionally calculate a random start-phase for only the outgoing sine curve or calculate residual phases as in the prior art.) Where no such indication or start-phase is provided, the decoder Infer that it is required to generate a random start-phase for the sine curves of the track.
본 발명의 하나의 특징은 비-토널 오디오 단편에서 비-음질을 보존하는 것임을 이해할 것이다. 따라서, 매우 짧은 트랙들이 비트스트림내 어디서라도 포함되지 않는 종래 기술과는 달리, 비토널 오디오 단편들에 대해 매우 짧은 트랙들을 보존하기 위한 부호기에 그리고 랜덤 시작 위상들로 이들 짧은 트랙들을 재생하기 위한 복호기에 본 발명을 채용할 때 바람직할 수 있다.It will be appreciated that one feature of the present invention is to preserve non-sound quality in non-tonal audio fragments. Thus, unlike the prior art, where very short tracks are not included anywhere in the bitstream, a decoder for reproducing these short tracks with random start phases and an encoder to preserve very short tracks for non-tonal audio fragments. It may be desirable when employing the present invention.
동시에, 잡음 코드 CN은 노이즈 합성기 NS 33에 공급되고, 상기 합성기는 주로 상기 노이즈의 스펙트럼을 접근시키는 주파수 응답을 가진 필터이다. NS 33은 백색 노이즈 신호를 노이즈 부호 CN으로 필터링함으로써 재구성되는 노이즈 yN을 발생시킨다.At the same time, noise code CN is supplied to noise synthesizer NS 33, which is primarily a filter with a frequency response that approximates the spectrum of the noise. NS 33 generates noise yN that is reconstructed by filtering the white noise signal with noise code CN.
총 신호 y(t)는 과도 신호 yT 및 임의의 진폭 압축해제(g)의 제품의 합과 사인 곡선 신호 yS 및 노이즈 신호 yN의 합을 포함한다. 각각의 신호들을 합하기 위해 오디오 재생기는 두 개의 가산기(36 및 37)를 포함한다. 합한 신호는 출력 유닛(35)로 제공되고, 상기 출력은 예컨대 스피커이다.The total signal y (t) includes the sum of the product of the transient signal yT and any amplitude decompression (g) and the sum of the sinusoidal signal yS and the noise signal yN. The audio player includes two adders 36 and 37 to sum the respective signals. The combined signal is provided to an output unit 35, which output is for example a speaker.
도 3은 도 1에 도시된 것과 같은 오디오 부호기(1) 및 도 2에 도시된 것과 같은 오디오 재생기(3)를 포함하는 본 발명에 따른 오디오 시스템을 도시하고 있다. 그러한 시스템은 재생 및 기록 특징들을 제공한다. 오디오 스트림 AS는 오디오 부호기로부터 통신 채널(2) 상의 오디오 재생기로 공급되고, 이것은 무선 접속, 데이터(20) 버스 또는 저장 매체일 수도 있다. 통신 채널(2)이 저장 매체인 경우, 상기 저장 매체는 시스템에 고정될 수도 있거나 또한 제거 가능한 디스크, 메모리 스틱 등일 수도 있다. 통신 채널(2)은 오디오 시스템의 일부일 수도 있지만, 종종 오디오 시스템 외부에 있을 것이다.FIG. 3 shows an audio system according to the invention comprising an audio encoder 1 as shown in FIG. 1 and an audio player 3 as shown in FIG. 2. Such a system provides playback and recording features. The audio stream AS is fed from the audio encoder to the audio player on the communication channel 2, which may be a wireless connection, a data 20 bus or a storage medium. If the communication channel 2 is a storage medium, the storage medium may be fixed to the system or may be a removable disk, a memory stick or the like. The communication channel 2 may be part of the audio system, but will often be outside the audio system.
본 발명은 임의의 사인 곡선 오디오 부호기에 이용될 수 있다. 그 자체로서, 본 발명은 그러한 부호기들이 사용되는 어느 곳에서도 적용 가능하다.The present invention can be used with any sinusoidal audio encoder. As such, the present invention is applicable wherever such encoders are used.
상기 언급된 실시예들은 본 발명을 제한하는 것이라기 보다는 오히려 예시하는 것임을 주목해야 하고, 본 기술의 당업자들은 첨부된 청구항들의 범위를 벗어나지 않는 많은 대안의 실시예들을 설계할 수 있을 것이다. 청구항들에서, 괄호들 사이에 놓인 임의의 참조 기호들은 청구항을 제한하는 것으로서 해석되지 않을 것이다. '포함하는'이란 단어는 청구항에 목록된 것들 보다 다른 요소들 또는 단계들의 존재를 배제하지 않는다. 본 발명은 몇몇 별개의 요소들을 포함하는 하드웨어에 의해, 그리고 적절히 프로그램된 컴퓨터에 의해 구현될 수 있다. 몇몇 수단을 열거하는 장치 항에서, 이들 수단 중 몇몇은 하드웨어의 하나 및 동 아이템에 의해 구현될 수 있다. 어떤 측정들이 상호 다른 종속 청구항들에 기술되는 단순한 사실은 이들 측정들의 결합이 유리하도록 사용될 수 없음을 지시하지 않는다.It should be noted that the above-mentioned embodiments illustrate rather than limit the invention, and those skilled in the art will be able to design many alternative embodiments without departing from the scope of the appended claims. In the claims, any reference signs placed between parentheses shall not be construed as limiting the claim. The word 'comprising' does not exclude the presence of elements or steps other than those listed in a claim. The invention can be implemented by means of hardware comprising several distinct elements, and by means of a suitably programmed computer. In the apparatus claim enumerating several means, some of these means may be implemented by one and the same item of hardware. The simple fact that some measurements are described in mutually dependent claims does not indicate that a combination of these measurements cannot be used to advantage.
Claims (15)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2005-7000332A KR20050017088A (en) | 2002-07-08 | 2003-06-18 | Sinusoidal audio coding |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02077727.2 | 2002-07-08 | ||
KR10-2005-7000332A KR20050017088A (en) | 2002-07-08 | 2003-06-18 | Sinusoidal audio coding |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20050017088A true KR20050017088A (en) | 2005-02-21 |
Family
ID=41783744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2005-7000332A KR20050017088A (en) | 2002-07-08 | 2003-06-18 | Sinusoidal audio coding |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20050017088A (en) |
-
2003
- 2003-06-18 KR KR10-2005-7000332A patent/KR20050017088A/en not_active Application Discontinuation
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6134518A (en) | Digital audio signal coding using a CELP coder and a transform coder | |
KR101513184B1 (en) | Concealment of transmission error in a digital audio signal in a hierarchical decoding structure | |
US7146324B2 (en) | Audio coding based on frequency variations of sinusoidal components | |
US8239192B2 (en) | Transmission error concealment in audio signal | |
US7805297B2 (en) | Classification-based frame loss concealment for audio signals | |
US7386445B2 (en) | Compensation of transient effects in transform coding | |
MX2007011102A (en) | Time warping frames inside the vocoder by modifying the residual. | |
JP2005533272A (en) | Audio coding | |
MXPA05000285A (en) | Method and device for efficient in-band dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems. | |
KR100852613B1 (en) | Editing of audio signals | |
JP3680374B2 (en) | Speech synthesis method | |
US7197454B2 (en) | Audio coding | |
EP1522063B1 (en) | Sinusoidal audio coding | |
US20060009967A1 (en) | Sinusoidal audio coding with phase updates | |
KR101261524B1 (en) | Method and apparatus for encoding/decoding audio signal containing noise using low bitrate | |
KR101261528B1 (en) | Method and apparatus for error concealment of decoded audio signal | |
KR20050017088A (en) | Sinusoidal audio coding | |
KR20050085761A (en) | Sinusoid selection in audio encoding | |
KR20080092823A (en) | Apparatus and method for encoding and decoding signal | |
JPS58128000A (en) | Voice parameter coding system | |
JPH07288476A (en) | Coded signal decoding method/device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Withdrawal due to no request for examination |