[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR101414412B1 - 오디오 신호의 인코딩 장치, 오디오 신호의 디코딩 장치, 오디오 신호의 인코딩 방법, 스케일러블 인코딩 오디오 신호의 디코딩 방법, 인코더, 디코더, 전자기기 및 컴퓨터 판독가능한 기록 매체 - Google Patents

오디오 신호의 인코딩 장치, 오디오 신호의 디코딩 장치, 오디오 신호의 인코딩 방법, 스케일러블 인코딩 오디오 신호의 디코딩 방법, 인코더, 디코더, 전자기기 및 컴퓨터 판독가능한 기록 매체 Download PDF

Info

Publication number
KR101414412B1
KR101414412B1 KR1020107025041A KR20107025041A KR101414412B1 KR 101414412 B1 KR101414412 B1 KR 101414412B1 KR 1020107025041 A KR1020107025041 A KR 1020107025041A KR 20107025041 A KR20107025041 A KR 20107025041A KR 101414412 B1 KR101414412 B1 KR 101414412B1
Authority
KR
South Korea
Prior art keywords
audio signal
audio
microphone
scalable encoded
coding
Prior art date
Application number
KR1020107025041A
Other languages
English (en)
Other versions
KR20110002086A (ko
Inventor
라세 라크소넨
미코 타미
아드리아나 바실라체
안시 라모
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20110002086A publication Critical patent/KR20110002086A/ko
Application granted granted Critical
Publication of KR101414412B1 publication Critical patent/KR101414412B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Stereophonic System (AREA)
  • Telephone Function (AREA)

Abstract

사용자 장치에서 암호화된 콘텐츠를 수신하는 단계를 포함하는 방법. 콘텐츠는 상기 사용자 장치에 암호화된 형태로 저장된다. 상기 저장된 암호화 콘텐츠의 복호를 위한 적어도 하나의 키는 사용자 장치에 저장된다.

Description

오디오 신호의 인코딩 장치, 오디오 신호의 디코딩 장치, 오디오 신호의 인코딩 방법, 스케일러블 인코딩 오디오 신호의 디코딩 방법, 인코더, 디코더, 전자기기 및 컴퓨터 판독가능한 기록 매체{AN APPARATUS}
본 발명은 오디오 인코딩 및 재생을 위한 장치 및 방법에 관한 것으로, 특히, 인코딩된 스피치 및 오디오 신호용 장치에 관한 것이지만 이에 국한되지는 않는다.
스피치(speech) 또는 음악 등의 오디오 신호는, 예컨대, 오디오 신호의 효과적 전송 또는 기억을 가능하게 하도록 인코딩된다.
오디오 인코더 및 디코더는 음악 및 배경 노이즈 등의 오디오 기반 신호를 표현하는 데 사용된다. 이들 타입의 코더(coder)는 일반적으로 코딩 프로세스에 스피치 모델을 이용하지 않고, 스피치를 포함한 모든 타입의 오디오 신호를 표현하는 프로세스를 이용한다.
스피치 인코더 및 디코더(코덱(codec))는 보통 스피치 신호에 최적화되고, 고정되거나 가변의 비트 레이트로 동작할 수 있다.
오디오 코덱은 비트 레이트를 변화시키면서 동작하도록 구성될 수도 있다. 낮은 비트 레이트에서, 그러한 오디오 코덱은 순수한 스피치 코덱과 등가인 코딩 레이트에서 스피치 신호에 의해 작업할 수 있다. 높은 비트레이트에서 오디오 코덱은 음악, 배경 노이즈 및 스피치를 포함하는 임의의 신호를 고품질, 고성능으로 코딩할 수 있다.
일부 오디오 코덱에서, 입력 신호는 제한된 수의 대역으로 나누어진다. 각 대역 신호는 양자화될 수 있다. 음향심리학(psychoacoustics)의 이론으로부터, 스펙트럼에서 가장 높은 주파수는 낮은 주파수보다 지각적으로(perceptually) 덜 중요한 것이 알려져 있다. 이것은 일부 오디오 코덱에서 낮은 주파수 신호보다 높은 주파수 신호에 더 적은 비트가 할당되는 비트 할당에 의해 반영된다.
미디어 코딩 분야에서 나타나는 하나의 경향은 예컨대, ITU-T 내장 가변 비트레이트(EV-VBR) 스피치/오디오 코덱 및 ITU-T 스케일러블(scalable) 비디오 코덱(SVC)인 이른바 레이어드 코덱(layered codec)이다. 스케일러블 미디어 데이터는 수신측에서 복원할 수 있게 하는 것이 항상 요구되는 코어층, 및 재건된 미디어에 부가된 값을 제공하는 데 사용될 수 있는 하나 또는 다수의 강화층(enhancement layer)으로 구성된다.
이들 코덱의 확장성은 예컨대, 네트워크 용량을 제어하거나 멀티캐스트 미디어 스트림을 형성하기 위한 전송 레벨에서 이용되어 상이한 대역폭의 액세스 링크 뒤에 참가자와의 작업을 용이하게 할 수 있다. 애플리케이션 레벨에서 확장성은 계산적 복잡도, 인코딩 지연 또는 바람직한 품질 레벨 등의 변수를 제어하는 데 이용될 수 있다. 일부 시나리오에서 확장성은 송신 종료점에서 적용될 수 있지만, 중간의 네트워크 요소가 스케일링을 실행 가능한 것이 더 적당한 운영 시나리오도 있음을 유의한다.
다수의 실시간 스피치 코딩은 모노 신호에 관한 것이지만, 일부 하이엔드 비디오 및 오디오 화상회의 시스템에 대해서는, 청취자가 더 나은 스피치 재생을 하게 하기 위해 스테레오 인코딩이 이용되고 있다. 전통적인 스테레오 스피치 인코딩은 개별적인 좌측 및 우측 채널의 인코딩을 포함하고, 이것은 청각 장면(auditory scene)의 일부 위치에 소스를 배치한다. 통상 사용되는 스피치용 스테레오 인코딩은 바이노럴(binaural) 인코딩으로서, 음원(스피커의 소리 등)은 시뮬레이트된 기준 머리의 왼쪽 및 오른쪽 귀의 위치에 배치되는 두 개의 마이크로폰에 의해 검출된다.
왼쪽 및 오른쪽 마이크로폰이 생성한 신호의 인코딩 및 전송(또는 저장)은 종래의 모노 음원 레코딩보다 더 많은 신호를 인코딩 및 디코딩해야 하기 때문에, 더 많은 전송 대역폭과 연산을 필요로 한다. 스테레오 인코딩 방법에서 사용된 전송(저장) 대역폭의 양을 줄이는 한가지 방식은 인코더가 왼쪽 및 오른쪽 채널을 혼합한 후 코어층으로 구성된(결합된) 모노 신호를 인코딩하도록 요구하는 것이다. 왼쪽 및 오른쪽 채널의 차이에 대한 정보는 개별적인 비트 스트림 또는 강화층으로 인코딩될 수 있다. 그러나 이러한 형태의 인코딩은, 결합된 두 개의 마이크로폰 신호가 음원(예컨대, 입) 근처에 배치된 단일 마이크로폰보다 더 많은 배경 또는 환경적 노이즈를 수신하기 때문에, 디코더에서 모노 신호를 (예컨대 입 근처에 위치한) 단일 마이크로폰으로부터의 모노 신호의 종래의 인코딩보다 더 나쁜 음질로 생성한다. 이것은 본래의 모노 레코딩 및 모노 재생 프로세스보다 나쁜 기존의 재생 장비를 사용하는 '모노' 출력 품질과 호환되게 한다.
또한, 시뮬레이트된 머리(simulated head)의 시뮬레이트된 귀의 위치에 마이크로폰이 배치되는 바이노럴 스테레오 마이크로폰 배치는 특히 음원이 빠르게 또는 갑자기 이동하는 경우 청취자에 대해 오디오 신호를 분산하여 생성할 수 있다. 예컨대, 마이크로폰 배치가 소스, 스피커 가까이에 있는 배치에서는, 열악한 청취 품질을 경험하는 것은 단순히 스피커가 헤드를 회전할 때 왼쪽 및 오른쪽으로 극적이거나 갑자기 전환하게 하여 출력 신호를 생성할 수 있다.
이 출원은 회의 활동 및 이동식 사용자 장비를 사용하는 등의 환경에서 효과적인 스테레오 이미지 생성을 용이하게 하는 메커니즘을 제안한다.
본 발명의 실시예는 상기 문제를 해결하거나 적어도 완화하는 것을 목적으로 한다.
본 발명의 제 1 관점에 따라 음원으로부터의 오디오 요소중 더 큰 부분을 포함하는 제 1 오디오 신호를 생성하고, 음원으로부터의 오디오 요소중 더 작은 부분을 포함하는 제 2 오디오 신호를 생성하도록 구성된 오디오 신호의 인코딩 장치가 제공된다.
따라서 본 발명의 실시예에서, 오디오 요소중 더 큰 부분은 상이한 방법을 이용하여 인코딩될 수 있고 또는 음원으로부터의 오디오 요소중 더 작은 부분을 포함하는 제 2 오디오 신호와 다른 파라미터를 이용할 수 있고, 따라서 오디오 신호의 더 큰 부분은 더 적당하게 인코딩된다.
장치는 음원으로부터의 오디오 요소중 더 큰 부분을 음원에 배치된 또는 음원을 향하는 적어도 하나의 마이크로폰으로부터 수신하고, 음원으로부터의 오디오 요소중 더 작은 부분을 음원에 배치된 또는 음원으로부터 먼쪽을 향해 배치된 적어도 하나의 또 다른 마이크로폰으로부터 수신하도록 더 구성될 수 있다.
장치는 제 1 오디오 신호로부터 제 1 스케일러블 인코딩 신호층을 생성하고, 제 2 오디오 신호로부터 제 2 스케일러블 인코딩 신호층을 생성하고, 제 1 및 제 2 스케일러블 인코딩 신호층을 결합하여 제 3 스케일러블 인코딩 신호층을 형성하도록 더 구성될 수 있다.
따라서 본 발명의 실시예에서는, 장치에서 신호를 인코딩할 수 있고, 이에 따라, 신호는 적어도 두 개의 오디오 신호로 레코딩되고, 그 신호는 개별적으로 인코딩되어, 적어도 두 개의 오디오 신호의 각각에 대한 인코딩은 오디오 신호를 더 적당하게 표현하기 위해 서로 다른 인코딩 방법 또는 파라미터를 사용할 수 있다.
장치는 개선된 오디오 코딩(AAC), MPEG-1 계층 3(MP3), ITU-T 내장 가변 레이트(EV-VBR) 스피치 코딩 기반의 라인 코딩, 적응형 멀티레이트 광대역(AMR-WB) 코딩, ITU-T G.729.1(G.722.1, G.722.1C), 적응형 멀티레이트 광대역플러스(AMR-WB+) 코딩 중 적어도 하나에 의해 제 1 스케일러블 인코딩층을 생성하도록 더 구성될 수 있다.
장치는 개선된 오디오 코딩(AAC), MPEG-1 계층 3(MP3), ITU-T 내장 가변 레이트(EV-VBR) 스피치 코딩 기반의 라인 코딩, 적응형 멀티레이트 광대역(AMR-WB) 코딩, 컴포트 노이즈 생성(comfort noise generation, CNG) 코딩, 적응형 멀티레이트 광대역플러스(AMR-WB+) 코딩 중 적어도 하나에 의해 제 2 스케일러블 인코딩층을 생성하도록 더 구성될 수 있다.
본 발명의 제 2 관점에 따르면, 스케일러블 인코딩 오디오 신호를 적어도 제 1 스케일러블 인코딩 오디오 신호와 제 2 스케일러블 인코딩 오디오 신호로 분할하고, 제 1 스케일러블 인코딩 오디오 신호를 디코딩하여 음원으로부터의 오디오 요소중 더 큰 부분을 포함하는 제 1 오디오 신호를 생성하고, 제 2 스케일러블 인코딩 오디오 신호를 디코딩하여 음원으로부터의 오디오 요소중 더 작은 부분을 포함하는 제 2 오디오 신호를 생성하도록 구성된 스케일러블 인코딩 오디오 신호를 디코딩하는 장치가 제공될 수 있다.
장치는 제 1 스피커로 적어도 제 1 오디오 신호를 출력하도록 더 구성될 수 있다.
장치는 제 1 오디오 신호와 제 2 오디오 신호의 적어도 제 1 조합을 생성하고, 제 1 조합을 제 1 스피커로 출력하도록 더 구성될 수 있다.
장치는 제 1 오디오 신호와 제 2 오디오 신호의 또 다른 조합을 생성하고, 제 2 조합을 제 2 스피커로 출력하도록 더 구성될 수 있다.
제 1 스케일러블 인코딩 오디오 신호와 제 2 스케일러블 인코딩 오디오 신호 중 적어도 하나는 개선된 오디오 코딩(AAC), MPEG-1 계층 3(MP3), ITU-T 내장 가변 레이트(EV-VBR) 스피치 코딩 기반의 라인 코딩, 적응형 멀티레이트 광대역(AMR-WB) 코딩, ITU-T G.729.1(G.722.1, G.722.1C), 컴포트 노이즈 생성(CNG) 코딩, 적응형 멀티레이트 광대역플러스(AMR-WB+) 코딩 중 적어도 하나를 포함할 수 있다.
본 발명의 제 3 관점에 따르면, 음원으로부터의 오디오 요소중 더 큰 부분을 포함하는 제 1 오디오 신호를 생성하고, 음원으로부터의 오디오 요소중 더 작은 부분을 포함하는 제 2 오디오 신호를 생성하는 것을 포함하는 오디오 신호를 인코딩하는 방법이 제공된다.
그 방법은 음원으로부터의 오디오 신호의 더 큰 부분을 음원에 배치되거나 음원을 향하는 적어도 하나의 마이크로폰으로부터 수신하고, 음원으로부터의 오디오 신호의 더 작은 부분을 음원으로부터 떨어져 배치되거나 음원에서 먼 쪽을 향해 배치된 적어도 하나의 또 다른 마이크로폰으로부터 수신하는 것을 더 포함할 수 있다.
그 방법은 제 1 오디오 신호로부터 제 1 스케일러블 인코딩 신호층을 생성하고, 제 2 오디오 신호로부터 제 2 스케일러블 인코딩 신호를 생성하고, 제 1 및 제 2 스케일러블 인코딩 신호층을 결합하여 제 3 스케일러블 인코딩 신호층을 형성하는 것을 더 포함할 수 있다.
그 방법은 개선된 오디오 코딩(AAC), MPEG-1 계층 3(MP3), ITU-T 내장 가변 레이트(EV-VBR) 스피치 코딩 기반의 라인 코딩, 적응형 멀티레이트 광대역(AMR-WB) 코딩, ITU-T G.729.1(G.722.1, G.722.1C), 적응형 멀티레이트 광대역플러스(AMR-WB+) 코딩 중 적어도 하나에 의해 제 1 스케일러블 인코딩층을 생성하는 것을 더 포함할 수 있다.
그 방법은 개선된 오디오 코딩(AAC), MPEG-1 계층 3(MP3), ITU-T 내장 가변 레이트(EV-VBR) 스피치 코딩 기반의 라인 코딩, 적응형 멀티레이트 광대역(AMR-WB) 코딩, 컴포트 노이즈 생성(CNG) 코딩, 적응형 멀티레이트 광대역플러스(AMR-WB+) 코딩 중 적어도 하나에 의해 제 2 스케일러블 인코딩층을 생성하는 것을 더 포함할 수 있다.
본 발명의 제 4 관점에 따르면, 스케일러블 인코딩 오디오 신호를 적어도 제 1 스케일러블 인코딩 오디오 신호와 제 2 스케일러블 인코딩 오디오 신호로 분할하고, 제 1 스케일러블 인코딩 오디오 신호를 디코딩하여 음원으로부터의 오디오 요소중 더 큰 부분을 포함하는 제 1 오디오 신호를 생성하고, 제 2 스케일러블 인코딩 오디오 신호를 디코딩하여 음원으로부터의 오디오 요소중 더 작은 부분을 포함하는 제 2 오디오 신호를 생성하는 것을 포함하는 스케일러블 인코딩 오디오 신호의 디코딩 방법이 제공된다.
그 방법은 적어도 제 1 오디오 신호를 제 1 스피커로 출력하는 것을 더 포함할 수 있다.
그 방법은 제 1 오디오 신호와 제 2 오디오 신호의 적어도 제 1 조합을 생성하고, 제 1 조합을 제 1 스피커로 출력하는 것을 더 포함할 수 있다.
그 방법은 제 1 오디오 신호와 제 2 오디오 신호의 또 다른 조합을 생성하고, 제 2 조합을 제 2 스피커로 출력하는 것을 더 포함할 수 있다.
제 1 스케일러블 인코딩 오디오 신호와 제 2 스케일러블 인코딩 오디오 신호 중 적어도 하나는 개선된 오디오 코딩(AAC), MPEG-1 계층 3(MP3), ITU-T 내장 가변 레이트(EV-VBR) 스피치 코딩 기반의 라인 코딩, 적응형 멀티레이트 광대역(AMR-WB) 코딩, ITU-T G.729.1(G.722.1, G.722.1C), 컴포트 노이즈 생성(CNG) 코딩, 적응형 멀티레이트 광대역플러스(AMR-WB+) 코딩 중 적어도 하나를 포함할 수 있다.
인코더는 상술한 바와 같은 장치를 포함할 수 있다.
디코더는 상술한 바와 같은 장치를 포함할 수 있다.
전자기기는 상술한 바와 같은 장치를 포함할 수 있다.
칩셋(chipset)은 상술한 바와 같은 장치를 포함할 수 있다.
본 발명의 제 5 관점에 따르면, 음원으로부터의 오디오 요소중 더 큰 부분을 포함하는 제 1 오디오 신호를 생성하고, 음원으로부터의 오디오 요소중 더 작은 부분을 포함하는 제 2 오디오 신호를 생성하는 것을 포함하는 오디오 신호의 인코딩 방법을 실행하도록 구성된 컴퓨터 프로그램 제품이 제공된다.
본 발명의 제 6 관점에 따르면, 스케일러블 인코딩 오디오 신호를 적어도 제 1 스케일러블 인코딩 오디오 신호와 제 2 스케일러블 인코딩 오디오 신호로 분할하고, 제 1 스케일러블 인코딩 오디오 신호를 디코딩하여 음원으로부터의 오디오 요소중 더 큰 부분을 포함하는 제 1 오디오 신호를 생성하고, 제 2 스케일러블 인코딩 오디오 신호를 디코딩하여 음원으로부터의 오디오 요소중 더 작은 부분을 포함하는 제 2 오디오 신호를 생성하는 것을 포함하는 스케일러블 인코딩 오디오 신호의 디코딩 방법을 실행하도록 구성된 컴퓨터 프로그램 제품이 제공된다.
본 발명의 제 7 관점에 따르면, 음원으로부터의 오디오 요소중 더 큰 부분을 포함하는 제 1 오디오 신호를 생성하는 수단과, 음원으로부터의 오디오 요소중 더 작은 부분을 포함하는 제 2 오디오 신호를 생성하는 수단을 포함하는 오디오 신호의 인코딩 장치가 제공된다.
본 발명의 제 8 관점에 따르면, 스케일러블 인코딩 오디오 신호를 적어도 제 1 스케일러블 인코딩 오디오 신호와 제 2 스케일러블 인코딩 오디오 신호로 분할하는 수단과, 제 1 스케일러블 인코딩 오디오 신호를 디코딩하여 음원으로부터의 오디오 요소중 더 큰 부분을 포함하는 제 1 오디오 신호를 생성하는 수단과, 제 2 스케일러블 인코딩 오디오 신호를 디코딩하여 음원으로부터의 오디오 요소중 더 작은 부분을 포함하는 제 2 오디오 신호를 생성하는 수단을 포함하는 스케일러블 인코딩 오디오 신호의 디코딩 장치가 제공된다.
본 발명에 의하면, 오디오 인코딩 및 재생을 위한 장치 및 방법을 제공할 수 있다.
본 발명의 이해를 더 돕기 위해, 첨부 도면을 예로서 참조할 것이다.
도 1은 본 발명의 실시예를 채용하는 전자기기를 개략적으로 도시하는 도면,
도 2는 본 발명의 실시예를 채용하는 오디오 코덱 시스템을 개략적으로 도시하는 도면,
도 3은 도 2에 도시된 오디오 코덱 시스템의 인코더 부분을 개략적으로 도시하는 도면,
도 4는 본 발명에 따른 도 3에 도시된 바와 같은 오디오 인코더의 실시예의 동작을 나타내는 흐름도를 개략적으로 도시하는 도면,
도 5는 도 2에 도시된 오디오 코덱 시스템의 디코더 부분을 개략적으로 도시하는 도면,
도 6은 본 발명에 따른 도 5에 도시된 오디오 디코더의 실시예의 동작을 나타내는 흐름도를 도시하는 도면,
도 7a~7h는 본 발명의 실시예에 따른 마이크로폰/스피커의 가능한 위치를 도시하는 도면이다.
다음에는 스케일러블 오디오 코딩 시스템을 제공하는 가능한 메커니즘을 더 상세히 설명한다. 이와 관련하여 예시적 전자기기(10)의 개략적 블럭도를 나타내는 도 1을 우선 참조하며, 이는 본 발명의 실시예에 따른 코덱을 포함할 수 있다.
전자기기(10)는 예컨대, 휴대 단말 또는 무선 통신 시스템의 사용자 장치일 수 있다.
전자기기(10)는 아날로그-디지털 컨버터(14)를 통해 프로세서(21)에 연결되는 마이크로폰(11)을 포함한다. 프로세서(21)는 디지털-아날로그 컨버터(32)를 통해 스피커(33)에 더 연결된다. 프로세서(21)는 트랜시버(TX/RX)(13), 사용자 인터페이스(UI)(15), 메모리(22)에 더 연결된다.
프로세서(21)는 다양한 프로그램 코드를 실행하도록 구성될 수 있다. 구현된 프로그램 코드는 결합된 오디오 신호와 코드를 인코딩하여, 다수의 채널의 공간 정보에 관련되는 보조 정보를 추출하고 인코딩하는 오디오 인코딩 코드를 포함한다. 구현된 프로그램 코드(23)는 오디오 디코딩 코드를 더 포함한다. 구현된 프로그램 코드(23)는, 예컨대, 필요할 때마다 프로세서(21)에 의해 검색되도록 메모리(22)에 저장될 수 있다. 메모리(22)는 예컨대, 본 발명에 따라 인코딩된 데이터를 저장하기 위한 구획(24)을 더 제공할 수 있다.
본 발명의 실시예에서 인코딩 및 디코딩 코드는 하드웨어 또는 펌웨어로 구현될 수 있다.
사용자 인터페이스(15)는 사용자가 예컨대, 키패드를 통해 전자기기(10)에 커맨드를 입력하고, 예컨대 디스플레이를 통해 전자기기(10)로부터 정보를 얻을 수 있게 한다. 트랜시버(13)는 예컨대, 무선 통신 네트워크를 통해 다른 전자기기와의 통신을 가능하게 한다.
또 전자기기(10)의 구조는 많은 방법으로 보충 및 변경될 수 있음이 이해될 것이다.
전자기기(10)의 사용자는 어떤 다른 전자기기로 송신되거나 메모리(22)의 데이터 구획(24)에 저장되어야 할 스피치를 입력하기 위해 마이크로폰(11)을 사용할 수 있다. 이를 위해 대응하는 애플리케이션은 사용자 인터페이스(15)를 통해 사용자에 의해 활성화되었다. 프로세서(21)에 의해 실행될 수 있는 이 애플리케이션은 프로세서(21)가 메모리(22)에 저장된 인코딩 코드를 실행하게 한다.
아날로그-디지털 컨버터(14)는 입력된 아날로그 오디오 신호를 디지털 오디오 신호로 변환하고, 프로세서(21)에 디지털 오디오 신호를 제공한다.
그러면 프로세서(21)는 도 3 및 4를 참조하여 설명되는 것과 마찬가지의 방식으로 디지털 오디오 신호를 처리할 수 있다.
그 결과로 생성된 비트 스트림이 다른 전자기기로의 전송을 위해 트랜시버(13)에 제공된다. 이와 달리, 코딩된 데이터는, 예컨대 추후 송신을 위해, 또는 동일한 전자기기(10)에 의한 추후 표현을 위해 메모리(22)의 데이터 구획(24)에 저장될 수 있다.
전자기기(10)는 트랜시버(13)를 통해 다른 전자기기로부터 비트 스트림과 그에 상응하는 인코딩된 데이터를 수신할 수도 있다. 이 경우, 프로세서(21)는 메모리(22)에 저장된 디코딩 프로그램 코드를 실행할 수 있다. 프로세서(21)는 수신된 데이터를 디코딩하고, 디코딩된 데이터를 디지털-아날로그 컨버터(32)에 제공한다. 디지털-아날로그 컨버터(32)는 디코딩된 디지털 데이터를 아날로그 오디오 데이터로 변환하여 스피커(33)를 통해 출력한다. 디코딩 프로그램 코드의 실행은 사용자 인터페이스(15)를 통해 사용자에 의해 호출된 애플리케이션에 의해 마찬가지로 동작될 수 있다.
수신된 인코딩된 데이터는 예컨대, 추후 표현을 가능하게 하거나 또 다른 전자기기로 전달하기 위해, 스피커(33)를 통해 즉시 표현되는 대신 메모리(22)의 데이터 구획(24)에 저장될 수 있다.
도 1에 도시된 전자기기로 구현되어 예시적으로 도시된 바와 같이, 도 3, 5에 기술된 개략적 구조 및 도 4, 6의 방법 단계는 완전한 오디오 코덱의 일부 동작만을 표현하는 것임이 이해될 것이다.
도 7a, 7b에, 본 발명의 실시예에 적합한 마이크로폰 배치의 예가 도시된다. 도 7a에서, 제 1 및 제 2 마이크로폰(11a, 11b)의 예시적 배치가 도시된다. 제 1 마이크로폰(11a)은 제 1 음원, 예컨대, 회의 발표자(701a)에 가깝게 배치된다. 제 1 마이크로폰(11a)으로부터 수신된 오디오 신호는 "가까운(near)" 신호로 지정될 수 있다. 또 제 2 마이크로폰(11b)은 음원(701a)으로부터 멀리 떨어져 배치된 것으로 도시된다. 제 2 마이크로폰(11b)으로부터 수신된 오디오 신호는 "먼(far)" 오디오 신호로 정의될 수 있다.
당업자에게 명백히 이해되는 바와 같이, "가까운" 오디오 신호 및 "먼" 오디오 신호를 생성하기 위한 마이크로폰의 위치 차이는 음원(701a)으로부터의 상대적 차이 중 하나이다. 따라서 제 2 음원인 또 다른 회의 발표자(701b)에 대해, 제 2 마이크로폰(11b)으로부터 유래된 오디오 신호는 "가까운" 오디오 신호일 수 있는 반면, 제 1 마이크로폰(11a)으로부터 유래된 오디오 신호는 "먼" 오디오 신호로 간주될 것이다.
도 7b에, 일반적인 이동 통신 장치에 대해 "가까운" 오디오 신호 및 "먼" 오디오 신호를 생성하기 위한 마이크로폰 배치의 예가 도시된다. 그러한 배치에서, "가까운" 오디오 신호를 생성하는 마이크로폰(11a)은 예컨대, 종래의 이동 통신 장치의 마이크로폰과 유사한 위치에, 따라서 이동 통신 장치의 사용자(705)의 입에 가깝게 될 수 있는 반면, "먼" 오디오 신호를 생성하는 제 2 마이크로폰(11b)은 이동 통신 장치(707)의 다른 쪽에 배치되고, 이동 통신 장치(707) 자체에 의해 음원(703)으로부터의 직접적인 오디오 경로를 강화하지 않게 되어 주위로부터의 오디오 신호를 수신하도록 구성된다.
도 7에 제 1 마이크로폰(11a)과 제 2 마이크로폰(11b)을 도시하지만, "가까운" 오디오 신호 및 "먼" 오디오 신호가 임의의 수의 마이크로폰 소스로부터 생성될 수 있음이 당업자에게 이해될 것이다.
예컨대, "가까운" 오디오 신호 및 "먼" 오디오 신호는 지향성 요소를 갖는 단일 마이크로폰을 이용하여 생성될 수 있다. 본 실시예에서, 음원을 향하는 것을 나타내는 마이크로폰의 지향성 요소를 이용하여 "가까운" 신호를 생성하고, 음원으로부터 떨어져 배치된 것을 나타내는 마이크로폰의 지향성 요소로부터 "먼" 오디오 신호를 생성하는 것이 가능할 것이다.
또한, 본 발명의 다른 실시예에서, "가까운" 오디오 신호 및 "먼" 오디오 신호를 생성하기 위해 다수의 마이크로폰을 이용하는 것이 가능할 것이다. 이들 실시예에서는, 음원 가까이에 있는 마이크로폰(들)로부터 수신된 오디오 신호를 혼합하여 "가까운" 오디오 신호를 생성하고, 음원으로부터 떨어져 배치되거나 지향된 마이크로폰으로부터 수신된 오디오 신호를 혼합하여 "먼" 오디오 신호를 생성하기 위해 마이크로폰들로부터의 신호를 전처리(pre-processing)할 수 있다.
상기 및 이하에서 마이크로폰에 의해 직접 생성되거나 마이크로폰에 의해 생성된 신호를 전처리함으로써 생성되는 것으로서 "가까운" 신호 및 "먼" 신호를 논의하지만, "가까운" 신호 및 "먼" 신호는 이전에 기록/저장되거나 아니면 마이크로폰/전처리기로부터 직접 수신된 신호일 수 있음이 이해될 것이다.
또한, 상기 및 이하에서 "가까운" 오디오 신호 및 "먼" 오디오 신호의 인코딩과 디코딩을 논의하지만, 본 발명의 실시예에서 3 이상의 오디오 신호가 인코딩될 수 있음이 이해될 것이다. 예컨대, 일 실시예에서, 다수의 "가까운" 오디오 신호 또는 다수의 "먼" 오디오 신호가 있을 수 있다. 본 발명의 다른 실시예에서는, 신호가 "가까운" 오디오 신호 및 "먼" 오디오 신호의 사이의 위치로부터 얻어지는 경우, 주요한 "가까운" 오디오 신호 및 다수의 부차적인 "가까운" 오디오 신호가 있을 수 있다.
본 발명의 나머지 논의에 대해서, 두 개의 마이크로폰에 대한 인코딩 및 디코딩과, 가까운 및 먼 채널의 인코딩 및 디코딩 프로세스를 논의할 것이다.
도 7c, 7d에, 본 발명의 실시예에 적합한 스피커 배치의 예가 도시된다. 도 7c에서 종래의 또는 기존의 모노 스피커 배치가 도시된다. 사용자(705)는 사용자(705)의 한 귀에 근접하게 배치된 스피커(709)를 갖는다. 도 7c에 도시된 바와 같은 그러한 배치에서는, 단일 스피커(709)는 선호하는 귀에 대해 "가까운" 신호를 제공할 수 있다. 본 발명의 일부 실시예에서, 단일 스피커(709)는 출력 신호에 어떤 "공간(space)"을 부가하기 위해, "먼" 신호의 처리된 또는 필터링된 요소에 "가까운" 신호를 더하여 제공할 수 있다.
도 7d에서, 사용자(705)는 한 쌍의 스피커(711a, 711b)를 포함하는 헤드셋(711)을 구비한다. 그러한 배치에서, 제 1 스피커(711a)는 "가까운" 신호를 출력할 수 있고, 제 2 스피커(711b)는 "먼" 신호를 출력할 수 있다.
본 발명의 다른 실시예에서, 제 1 스피커(711a)와 제 2 스피커(711b)에는 모두 "가까운" 신호 및 "먼" 신호의 조합이 제공된다.
본 발명의 일부 실시예에서, 제 1 스피커(711a)에는 "가까운" 오디오 신호 및 "먼" 오디오 신호의 조합이 제공되어, 제 1 스피커(711a)는 "가까운" 신호와 α 수정된 "먼" 오디오 신호를 수신한다. 제 2 스피커(711b)는 "먼" 오디오 신호와 β 수정된 "가까운" 오디오 신호를 수신한다. 본 실시예에서, 용어 α 및 β는 오디오 신호에 실행된 필터링 또는 처리를 나타낸다.
도 7e에, 본 발명의 실시예에 적합한 마이크로폰 및 스피커의 양쪽 배치의 또 다른 예가 도시된다. 그러한 실시예에서, 사용자(705)는 선호하는 귀와 입에 각각 근접하여 배치되는 스피커(713a) 및 마이크로폰(713b)을 포함하는 제 1 핸드셋/헤드셋을 구비한다. 사용자(705)는 별개의 블루투스 장치 스피커(715a)와 별개의 블루투스 장치 마이크로폰(715b)이 구비되는 별개의 블루투스 장치(715)를 더 구비한다. 별개의 블루투스 장치(715)의 마이크로폰(715b)은 사용자(705)의 음원, 즉 사용자(705)의 입으로부터의 신호를 직접 수신하지 않도록 구성된다. 헤드셋 스피커(713a)와 별개의 블루투스 장치의 스피커(715a)의 배치는 도 7d에 도시된 단일 헤드셋(711)의 두 개의 스피커의 배치와 마찬가지로 되는 것으로 간주될 수 있다.
또한 도 7f에, 본 발명의 실시예에 적합한 마이크로폰과 스피커 배치의 또 다른 예가 도시된다. 도 7f에서, 전자기기에 직접 연결되거나 연결되지 않을 수 있는 케이블이 도시된다. 케이블(717)은 스피커(729)와 다수의 개별 마이크로폰을 포함한다. 마이크로폰은 케이블의 길이를 따라 배치되어 마이크로폰 어레이를 형성한다. 따라서, 제 1 마이크로폰(727)은 스피커(729)에 가깝게 배치되고, 제 2 마이크로폰(725)은 케이블(717)을 따라 제 1 마이크로폰(727)으로부터 더 멀리 배치된다. 제 3 마이크로폰(723)은 제 2 마이크로폰(725)보다 더 아래의 케이블(717)에 배치된다. 제 4 마이크로폰(721)은 제 3 마이크로폰(723)보다 더 아래의 케이블(717)에 배치된다. 제 5 마이크로폰(719)은 제 4 마이크로폰(721)보다 더 아래의 케이블(717)에 배치된다. 마이크로폰의 간격은 본 발명의 실시예에 따라 선형 또는 비선형 구성으로 할 수 있다. 그러한 배치에서, "가까운" 신호는 사용자(705)의 입에 가장 가까운 마이크로폰에 의해 수신된 오디오 신호의 조합으로부터의 혼합에 의해 형성될 수 있다. "먼" 오디오 신호는 사용자(705)의 입으로부터 가장 먼 마이크로폰으로부터 수신된 오디오 신호의 조합을 혼합함으로써 생성될 수 있다. 상기와 같이, 본 발명의 일부 실시예에서, 마이크로폰의 각각은, 이하에 더 상세히 설명하는 바와 같이, 나중에 처리되는 개별적인 오디오 신호를 생성하는 데 사용될 수 있다.
이들 실시예에서, 마이크로폰의 실제 수는 중요하지 않음을 당업자에 의해 이해 될 것이다. 따라서 임의의 배치에서 마이크로폰의 다양성은 오디오 필드를 캡쳐하기 위해 본 발명의 실시예에 이용될 수 있고, 신호 처리 방법은 "가까운" 신호 및 "먼" 신호를 포함하는 데 이용될 수 있다.
도 7g에, 본 발명의 실시예에 적합한 마이크로폰과 스피커의 배치의 다른 예가 도시된다. 도 7g에서, 블루투스 장치가 사용자(705)의 선호되는 귀에 접속되는 것이 도시된다. 블루투스 장치(735)는 사용자(705)의 입에 근접하여 배치된 "가까운" 마이크로폰(731)을 포함한다. 블루투스 장치(735)는 근접한(가까운) 마이크로폰(731) 위치에 상대적으로 멀리 배치된 "먼" 마이크로폰(733)을 더 구비한다.
또한 도 7h에는 본 발명의 실시예에 적합한 마이크로폰/스피커의 배치의 예가 도시된다. 도 7h에서, 사용자(705)는 헤드셋(751)을 동작하도록 구성된다. 헤드셋은 제 1 스피커(737)와 제 2 스피커(739)를 갖는 바이노럴 스테레오 헤드셋을 포함한다. 헤드셋(751)은 한 쌍의 마이크로폰을 더 갖는 것으로 도시된다. 도 7h에 도시된 바와 같이, 제 1 마이크로폰(741)은 스피커(739)로부터 100밀리미터의 위치에 배치되고, 제 2 마이크로폰(743)은 스피커(739)로부터 200밀리미터의 위치에 배치된다. 그러한 배치에서, 제 1 스피커(737)와 제 2 스피커(739)는 도 7d에 대해 설명된 재생 배치에 따라 구성될 수 있다.
또한, 제 1 마이크로폰(741)과 제 2 마이크로폰(743)의 마이크로폰 배치는 제 1 마이크로폰(741)이 "가까운" 오디오 신호 요소를 수신 또는 생성하도록 구성되고, 제 2 마이크로폰(743)이 "먼" 오디오 신호를 생성하도록 구성되게 이루어질 수 있다.
본 발명의 실시예에 의해 채용된 오디오 코덱의 일반적 동작이 도 2에 도시된다. 도 2에 개략적으로 도시된 바와 같이, 일반적인 오디오 코딩/디코딩 시스템은 인코더 및 디코더로 구성된다. 시스템(102)은 인코더(104), 스토리지 또는 미디어 채널(106), 디코더(108)를 갖는 것으로 도시된다.
인코더(104)는 미디어 채널(106)을 통해 기억되거나 송신되는 비트 스트림을 생성하는 입력 오디오 신호(110)를 압축한다. 비트 스트림(112)은 디코더(108) 내에서 수신될 수 있다. 디코더(108)는 비트 스트림(112)의 압축을 풀어 출력 오디오 신호(114)를 생성한다. 입력 신호(110)와 관련한 비트 스트림(112)의 비트 레이트 및 출력 오디오 신호(114)의 품질은 코딩 시스템(102)의 성능을 결정하는 주요 특징이다.
도 3은 본 발명의 예시적 실시예에 따른 인코더(104)를 개략적으로 나타낸다.
인코더(104)는 "가까운" 오디오 신호, 예컨대, 도 3에 도시된 바와 같이 마이크로폰(11a)으로부터의 오디오 신호를 수신하도록 구성되는 코어 코덱 프로세서(301)를 구비한다. 코어 코덱 프로세서는 멀티플렉서(305)와 강화층 프로세서(enhanced layer processor)(303)에 접속되도록 더 배치된다.
또한 강화층 프로세서(303)는 도 3에 마이크로폰(11b)으로부터 수신된 오디오 신호로 도시되는 "먼" 오디오 신호를 수신하도록 구성된다. 강화층 프로세서는 멀티플렉서(305)에 접속되도록 더 구성된다. 멀티플렉서(305)는 도 2에 도시된 비트 스트림(112) 등의 비트 스트림을 출력하도록 구성된다.
이들 구성요소의 동작은 인코더(104)의 동작을 도시하는 도 4의 흐름도를 참조하여 더 상세히 설명된다.
"가까운" 오디오 신호 및 "먼" 오디오 신호는 인코더(104)에 의해 수신된다. 본 발명의 제 1 실시예에서, "가까운" 오디오 신호 및 "먼" 오디오 신호는 디지털 방식으로 샘플링된 신호이다. 본 발명의 다른 실시예에서, "가까운" 오디오 신호 및 "먼" 오디오 신호는 마이크로폰(11a, 11b)으로부터 수신된 아날로그 오디오 신호일 수 있는데, 이것은 아날로그에서 디지털(A/D)로 변환된다. 본 발명의 다른 실시예에서, 오디오 신호는 펄스 코드 변조(PCM) 디지털 신호로부터 진폭 변조(AM) 디지털 신호로 변환된다. 마이크로폰으로부터 오디오 신호를 수신하는 것은 도 4에서 단계 401로 도시된다.
상기에 나타낸 바와 같이, 본 발명의 일부 실시예에서, "가까운" 오디오 신호 및 "먼" 오디오 신호는 마이크로폰 어레이(3 이상의 마이크로폰을 포함할 수 있음)로부터 처리될 수 있다. 도 7f에 도시된 어레이 등의 마이크로폰 어레이로부터 수신된 오디오 신호는 빔포밍, 스피치 향상, 소스 트랙킹, 노이즈 억제 등의 신호 처리 방법을 이용하여 "가까운" 오디오 신호 및 "먼" 오디오 신호를 생성할 수 있다. 따라서, 본 발명의 실시예에서 생성된 "가까운" 오디오 신호는, 바람직하게는 (깨끗한) 스피치 신호(즉 노이즈가 별로 없는 오디오 신호)를 포함하도록 선택 및 결정되고, 생성된 "먼" 오디오 신호는, 바람직하게는 주위 환경으로부터의 발표자 자신의 메아리(voice echo)와 함께 배경 노이즈 요소를 포함하도록 선택 및 결정된다.
코어 코덱 프로세서(301)는 인코딩될 "가까운" 오디오 신호를 수신하고, 코어 레벨 인코딩 신호를 표현하는 인코딩 파라미터를 출력한다. 또한 코어 코덱 프로세서(301)는 내부적 이용을 위해 합성된 "가까운" 오디오 신호를 생성할 수 있다(즉, "가까운" 오디오 신호는 파라미터로 인코딩되고 그 후 파라미터는 합성된 "가까운" 오디오 신호를 생성하기 위해 상호 프로세스를 이용하여 디코딩된다.
코어 코덱 프로세서(301)는 코어층을 생성하기 위해 임의의 적절한 인코딩 기술을 이용할 수 있다.
본 발명의 제 1 실시예에서, 코어 코덱 프로세서(301)는 내장된 가변 비트레이트 코덱(EB-VBR)을 이용하여 코어층을 생성한다.
본 발명의 다른 실시예에서, 코어 코덱 프로세서는 ACELP(algebraic code excited linear prediction encoding)일 수 있고 일반적인 ACELP 파라미터의 비트 스트림을 출력하도록 구성된다.
본 발명의 실시예는 코어층을 표현하기 위해 임의의 오디오 또는 스피치 기반 코덱을 동등하게 이용할 수 있음이 이해될 것이다.
코어층 인코딩 신호의 생성은 도 4에서 단계 403으로 도시된다. 코어층 인코딩 신호는 코어 코덱 프로세서(301)로부터 멀티플렉서(305)로 전달된다.
강화층 프로세서(303)는 "먼" 오디오 신호를 수신하고, "먼" 오디오 신호로부터 강화층 출력을 생성한다. 본 발명의 일부 실시예에서, 강화층 프로세서는 "먼" 오디오 신호에 대한 인코딩을, "가까운" 오디오 신호에 대해 코어 코덱 프로세서(301)에 의해 실행되는 것과 유사하게 실행한다. 본 발명의 다른 실시예에서, "먼" 오디오 신호는 임의의 적당한 인코딩 방법을 이용하여 인코딩된다. 예컨대, "먼" 오디오 신호는 불연속적인 전송(DTX)에 이용된 것과 같은 방식을 이용하여 인코딩될 수 있는데, 컴포트 노이즈 생성(CNG) 코덱은 낮은 비트 레이트층에서 사용되고, ACELP 및 수정된 이산 코사인 변환(MDCT) 잔여 인코딩 방법은 중간 및 높은 비트 레이트 용량의 인코더에 사용될 수 있다. 본 발명의 일부 실시예에서, "먼" 신호의 양자화는 구체적으로 신호 타입에 적당하게 선택될 수도 있다.
본 발명의 일부 실시예에서, 강화층 프로세서는 합성된 "가까운" 오디오 신호와 "먼" 오디오 신호를 수신하도록 구성된다. 본 발명의 실시예에서 강화층 프로세서(303)는 인코딩된 비트 스트림을 생성할 수 있고, 이는 "먼" 오디오 신호와, 합성된 "가까운" 오디오 신호에 따른 강화층으로도 알려져 있다. 예컨대, 본 발명의 일 실시예에서, 강화층 프로세서는 예컨대, 시간-주파수 도메인 변환을 실행하고 주파수 도메인 출력을 강화층으로서 인코딩함으로써, "먼" 오디오 신호에서 합성된 "가까운" 오디오 신호를 빼고, 그 차이의 오디오 신호를 인코딩한다.
본 발명의 일 실시예에서, 강화층 프로세서(303)는 "먼" 오디오 신호, 합성된 "가까운" 오디오 신호, "가까운" 오디오 신호를 수신하고 3개의 입력의 조합에 따라 강화층 비트 스트림을 생성하도록 구성된다.
따라서 본 발명의 실시예에서, 오디오 신호를 인코딩하는 장치는 제 1 오디오 신호로부터 제 1 스케일러블 인코딩 신호층을 생성하고, 제 2 오디오 신호로부터 제 2 스케일러블 인코딩 신호층을 생성하고, 제 1 및 제 2 스케일러블 인코딩 신호층을 결합하여 제 3 스케일러블 인코딩 신호층을 형성하도록 구성될 수 있다.
실시예에서, 장치는 음원으로부터 오디오 요소중 더 큰 부분을 포함하는 제 1 오디오 신호를 생성하고, 음원으로부터 오디오 요소중 더 작은 부분을 포함하는 제 2 오디오 신호를 생성하도록 더 구성될 수 있다.
실시예에서, 장치는 음원으로부터의 오디오 요소중 더 큰 부분을 음원에 배치되거나 음원을 향하는 적어도 하나의 마이크로폰으로부터 수신하고, 음원으로부터의 오디오 요소중 더 작은 부분을 음원으로부터 떨어져 배치되거나 음원에서 먼 쪽을 향해 배치된 적어도 하나의 다른 마이크로폰으로부터 수신하도록 더 구성될 수 있다.
예컨대, 본 발명의 일부 실시예에서, 강화층 비트 스트림 출력의 적어도 일부는 합성된 "가까운" 오디오 신호와 "가까운" 오디오 신호에 의존하여 생성되고, 강화층 비트 스트림 출력의 일부는 "먼" 오디오 신호에만 의존한다. 본 실시예에서, 강화층 프로세서(303)는 "먼" 오디오 신호의 유사한 코어 코덱 처리를 실행하여, "가까운" 오디오 신호이지만 "먼" 오디오 신호 부분에 대해 코어 코덱 프로세서(301)에 의해 생성되는 것과 유사한 "먼" 인코딩층을 생성한다.
본 발명의 다른 실시예에서, "가까운" 합성 신호와 "먼" 오디오 신호는 주파수 도메인으로 변환되고, 두 개의 주파수 도메인 신호 사이의 차이는 강화층 데이터를 생성하도록 인코딩된다.
주파수 대역 인코딩을 사용하는 본 발명의 실시예에서, 시간-주파수 도메인 변환은 이산 코사인 변환(DCT), 이산 푸리에 변환(DFT), 패스트 푸리에 변환(FFT) 등의 임의의 적당한 컨버터일 수 있다.
본 발명의 일부 실시예에서, ITU-T 내장 가변 비트 레이트(EV-VBR) 스피치/오디오 코덱 강화층 및 ITU-T 스케일러블 비디오 코덱(SVC) 강화층이 생성될 수 있다.
다른 실시예는 가변 멀티레이트 광대역(VMR-WB), ITU-T G.729, ITU-T G.729.1, ITU-T G.722.1, ITU-T G.722.1C, 적응형 멀티레이트 광대역(AMR-WB), 적응형 멀티레이트 광대역플러스(AMR-WB+) 코딩 방식을 이용하여 강화층을 생성하는 것을 포함할 수 있지만 이것에 한정되는 것은 아니다.
본 발명의 다른 실시예에서, 임의의 적당한 층 코덱은 합성된 "가까운" 신호 및 "먼" 신호 사이의 관계를 추출하여, 유리하게 인코딩된 강화층 데이터 신호를 생성하기 위해 채용될 수 있다.
강화층의 생성은 도 4에서 단계 405로 도시된다.
강화층 데이터는 강화층 프로세서(303)로부터 멀티플렉서(305)로 전달된다.
그러면 멀티플렉서(305)는 코어 코덱 프로세서(301)로부터 수신된 코어층과 강화층 프로세서(303)로부터의 단일 또는 복수의 강화층을 다중화하여 인코딩된 신호의 비트 스트림(112)을 형성한다. 비트 스트림을 생성하기 위한 코어 및 강화층에 대한 다중화는 도 4에서 단계 407로 도시된다.
본 발명의 이해를 더 돕기 위해, 본 발명의 실시예와 관련된 디코더(108)의 동작이 도 5에 개략적으로 도시된 디코더와 도 6의 디코더의 동작을 나타내는 흐름도와 관련하여 도시된다.
디코더(108)는 인코딩 비트 스트림(112)이 수신될 수 있는 입력(502)을 포함한다. 입력(502)은 비트 수신기/디멀티플렉서(1401)에 접속된다. 디멀티플렉서(1401)는 비트 스트림(112)으로부터 코어 및 강화층을 제거하도록 구성된다. 코어층 데이터는 디멀티플렉서(1401)로부터 코어 코덱 디코더 프로세서(1403)로 전달되고 강화층 데이터는 디멀티플렉서(1401)로부터 강화층 디코더 프로세서(1405)로 전달된다.
또한 코어 코덱 디코더 프로세서(1403)는 오디오 신호 결합기 및 혼합기(1407)와 강화층 디코더 프로세서(1405)에 접속된다.
강화층 디코더 프로세서(1405)는 오디오 신호 결합기 및 혼합기(1407)에 접속된다. 오디오 신호 결합기 및 혼합기(1407)의 출력은 출력 오디오 신호(114)에 접속된다.
다중화 코딩된 비트 스트림의 수신은 도 6에서 단계 501로 도시된다.
비트 스트림의 디코딩 및 코어층 데이터와 강화층 데이터로의 분리는 도 6에서 단계 503으로 도시된다.
코어 코덱 디코더 프로세서(1403)는 합성된 "가까운" 오디오 신호를 생성하기 위해 인코더(104)에서 도시된 코어 코덱 프로세서(301)에 대해 상호 처리를 실행한다. 이것은 코어 코덱 디코더 프로세서(1403)로부터 오디오 신호 결합기 및 혼합기(1407)로 전달된다.
또한, 본 발명의 일부 실시예에서 합성된 "가까운" 오디오 신호는 강화층 디코더 프로세서(1405)로도 전달된다.
합성된 "가까운" 오디오 신호를 형성하기 위해 코어층을 디코딩하는 것은 도 6에서 단계 505로 도시된다.
강화층 디코더 프로세서(1405)는 디멀티플렉서(1401)로부터 적어도 강화층 신호를 수신한다. 또한, 본 발명의 일부 실시예에서, 강화층 디코더 프로세서(1405)는 코어 코덱 디코더 프로세서(1403)로부터 합성된 "가까운" 오디오 신호를 수신한다. 또한 본 발명의 일부 실시예에서, 강화층 디코더 프로세서(1405)는 코어 코덱 디코더 프로세서(1403)로부터의 합성된 "가까운" 오디오 신호와 일부의 코어층의 디코딩 파라미터를 수신한다.
그 후 강화층 디코더 프로세서(1405)는 적어도 "먼" 오디오 신호를 생성하기 위해 인코더(104)의 강화층 프로세서(303) 내에 생성한 것과 상호 처리를 실행한다.
본 발명의 일부 실시예에서, 강화층 디코더 프로세서(1405)는 "가까운" 오디오 신호에 대해 추가의 오디오 요소를 더 생성할 수 있다. 강화층(그리고 일부 실시예에서 합성된 코어층)의 디코딩으로부터 "먼" 오디오 신호를 생성하는 것은 도 6에서 단계 507)로 도시된다.
강화층 디코더 프로세서로부터의 "먼" 오디오 신호는 오디오 신호 결합기 및 혼합기(1407)로 전달된다.
오디오 신호 결합기 및 혼합기(1407)는, 합성된 "가까운" 오디오 신호와 디코딩된 "먼" 오디오 신호를 수신하면, 결합 및/또는 선택된 두 개의 수신 신호의 조합을 생성하고, 출력된 오디오 신호 출력과 혼합된 오디오 신호를 출력한다.
본 발명의 일부 실시예에서, 오디오 신호 결합기 및 혼합기는 디멀티플렉서(1401)를 통해 입력 비트 스트림으로부터의 정보를 더 수신하거나, "가까운" 오디오 신호 및 "먼" 오디오 신호의 정확하거나 유리한 측정 조합을 생성하기 위해, "가까운" 오디오 신호 및 "먼" 오디오 신호를 생성하여, 청취자의 스피커 또는 헤드폰의 배치 위치에 관해 합성된 "가까운" 및 디코딩된 "먼" 오디오 신호를 디지털 방식으로 신호 처리하는 데 사용된 마이크로폰의 배치에 대해 이미 알고 있다.
본 발명의 일부 실시예에서, 오디오 신호 결합기 및 혼합기는 "가까운" 오디오 신호만을 출력할 수 있다. 그러한 실시예에서, 기존의 모노 인코딩/디코딩과 유사한 오디오 신호를 생성할 수 있고, 따라서 현재의 오디오 신호와 호환 가능하게 될 수 있는 결과를 생성할 수 있다.
본 발명의 일부 실시예에서, 모노 청취 배경에서 유쾌한 사운딩(sounding)을 얻기 위해, "가까운" 신호 및 "먼" 신호는 모두 비트 스트림으로부터 디코딩되고, 상당한 "먼" 신호는 "가까운" 신호와 혼합된다. 그러한 본 발명의 실시예에서, 청취자가 음원의 이해를 방해하지 않고 음원의 환경을 인식할 수 있게 하는 것이 가능할 것이다. 이것은 또한 수신하는 사람이 자신의 선호도에 맞춰 "환경"의 양을 조정할 수 있게 할 것이다.
"가까운" 신호 및 "먼" 신호의 사용은 종래의 바이노럴 프로세스보다 더 안정적이고, 음원의 움직임에 영향을 덜 받는 출력을 생성한다. 또한 본 발명의 실시예에서, 유쾌한 청취 환경을 만들기 위해 인코더가 다수의 마이크로폰에 접속될 필요가 없다는 다른 이점이 있다.
따라서, 상기로부터 본 발명의 실시예에서 스케일러블 인코딩 오디오 신호를 디코딩하는 장치는 스케일러블 인코딩 오디오 신호를 적어도 제 1 스케일러블 인코딩 오디오 신호와 제 2 스케일러블 인코딩 오디오 신호로 분할하도록 구성된다. 또한, 장치는 제 1 스케일러블 인코딩 오디오 신호를 디코딩하여 제 1 오디오 신호를 생성하도록 구성된다. 또한 장치는 제 2 스케일러블 인코딩 오디오 신호를 디코딩하여 제 2 오디오 신호를 생성하도록 구성된다.
또한 본 발명의 실시예에서, 장치는 적어도 제 1 오디오 신호를 제 1 스피커로 출력하도록 더 구성될 수 있다.
상기한 바와 같이, 장치의 일부 실시예에서, 제 1 오디오 신호와 제 2 오디오 신호의 적어도 제 1 조합을 생성하고 그 제 1 조합을 제 1 스피커로 출력하도록 더 구성될 수 있다.
다른 실시예에서, 장치는 제 1 오디오 신호와 제 2 오디오 신호의 다른 조합을 생성하고 제 2 조합을 제 2 스피커로 출력하도록 더 구성될 수 있다.
본 발명이 코어층 및 단일의 강화층의 관점에서 예시적으로 설명되었지만, 본 발명은 또 다른 강화층에 적용될 수 있음이 이해될 것이다.
상기와 같이, 본 발명의 실시예는 연관된 처리의 이해를 돕기 위해 별개의 인코더(104)와 디코더(108)의 관점에서 코덱을 설명하였다. 그러나, 장치, 구조, 동작은 단일 인코더-디코더의 장치/구조/동작으로서 구현될 수 있음이 이해될 것이다. 또한, 본 발명의 일부 실시예에서, 코더 및 디코더는 일부 또는 전부의 공통 구성요소를 공유할 수 있다.
상술한 바와 같이, 상기 프로세서는 단일 코어 오디오 인코딩 신호와 단일 강화층 오디오 인코딩 신호를 설명하지만, 동일한 방식이 동기되도록 적용되거나, 동일하거나 유사한 패킷 전송 프로토콜을 이용하는 두 개의 미디어 스트림에 적용될 수 있다.
상기 예는 전자기기(610)의 코덱 내에서 동작하는 본 발명의 실시예를 설명하지만, 이하에 설명하는 본 발명은 임의의 가변적 레이트/적응형 레이트 오디오(또는 스피치) 코덱의 일부로 구현될 수 있음이 이해될 것이다. 따라서, 예컨대, 본 발명의 실시예는 고정되거나 유선 통신 경로를 통해 오디오 코딩을 구현할 수 있는 오디오 코덱으로 구현될 수 있다.
따라서 사용자 장치는 상기의 본 발명의 실시예에 기술된 바와 같은 오디오 코덱을 포함할 수 있다.
사용자 장치라는 용어는 휴대 전화, 휴대형 데이터 처리 장치 또는 휴대형 웹브라우저 등의 임의의 적당한 타입의 무선 사용자 장치를 포함하는 것으로 의도된다.
또한 공공 육상 이동 네트워크(public land mobile network, PLMN)의 요소는 상술한 바와 같은 오디오 코덱을 포함할 수도 있다.
일반적으로, 본 발명의 다양한 실시예는 하드웨어 또는 특수 목적 회로, 소프트웨어, 로직 또는 그들의 임의의 조합으로 구현될 수 있다. 예컨대, 일부 관점은 하드웨어로 구현될 수 있는 반면, 다른 관점은 컨트롤러, 마이크로프로세서 또는 다른 컴퓨팅 장치에 의해 실행될 수 있는 펌웨어 또는 소프트웨어로 구현될 수 있지만, 본 발명은 여기에 한정되는 것은 아니다. 본 발명의 다양한 관점이 블럭도, 흐름도 또는 어떤 다른 그림에 의한 표현을 이용하여 도시 및 설명될 수 있는 반면, 여기에 설명된 이들 블럭, 장치, 시스템, 기술 또는 방법은 하드웨어, 소프트웨어, 펌웨어, 특수목적 회로 또는 로직, 범용 하드웨어 또는 컨트롤러 또는 다른 컴퓨팅 장치 또는 그들의 일부 조합으로 구현될 수 있지만 이 예에 한정되지 않는다.
예컨대 본 발명의 실시예는 칩셋(chipset), 즉 상호간에 통신하는 일련의 집적 회로로 구현될 수 있다. 칩셋은 코드를 실행하도록 마련된 마이크로프로세서, 주문형 반도체(ASIC) 또는 상술한 동작을 실행하기 위한 프로그램 가능한 디지털 신호 처리 장치를 포함할 수 있다.
본 발명의 실시예는 프로세서 엔티티 등의 휴대 장치의 데이터 프로세서에 의해 실행 가능한 컴퓨터 소프트웨어에 의해, 또는 하드웨어에 의해, 또는 소프트웨어 및 하드웨어의 조합에 의해 구현될 수 있다. 또한, 이와 관련하여 도면에서 논리 흐름의 임의의 블럭이 프로그램 단계 또는 상호접속된 논리 회로, 블럭 및 기능 또는 프로그램 단계 및 논리 회로, 블럭, 기능의 조합을 표현할 수 있음을 유의한다.
메모리는 국소적인 기술 환경에 적당한 임의의 타입일 수 있고, 반도체 기반 메모리 장치, 마그네틱 메모리 장치 및 시스템, 광학 메모리 장치 및 시스템, 고정 메모리 및 분리 가능한 메모리 등의 임의의 적당한 데이터 저장 기술을 이용하여 구현될 수 있다. 데이터 프로세서는 국소적인 기술 환경에 적합한 임의의 타입일 수 있고, 범용 컴퓨터, 특수 목적 컴퓨터, 마이크로프로세서, 디지털 신호 처리장치(DSP), 멀티코어 프로세서 구조에 기초한 프로세서 중 하나 이상을 포함할 수 있지만 이 예에 한정되지는 않는다.
본 발명의 실시예는 집적 회로 모듈 등의 다양한 구성요소로 실시될 수 있다. 집적 회로의 설계는 대체로 매우 자동화된 프로세스이다. 복잡하고 성능좋은 소프트웨어 툴은 논리 레벨 설계를 반도체 기판에 에칭 및 형성될 수 있는 반도체 회로 설계로 변환하는 데 이용할 수 있다.
미국 캘리포니아 마운틴뷰의 시놉시스주식회사(Synopsys Inc.), 미국 캘리포니아 산호세의 케이던스 디자인(Cadence Design) 등에 의해 제공된 프로그램은 자동으로 컨덕터를 라우팅하고 미리 기억된 설계 모듈의 라이브러리와 마찬가지로 잘 확립된 설계규칙을 이용하여 반도체 칩에 구성요소를 배치한다. 반도체 회로의 설계가 완료되면, 표준화된 전자적 포맷(예컨대, Opus, GDSII 등)으로 완료된 설계가 제조를 위해 반도체 제조 시설 또는 공장으로 송신될 수 있다.
상기 설명은 예로서 제공된 것이며 본 발명의 예시적 실시예의 전체의 유용한 설명에 한정되지 않는다. 그러나, 첨부되는 도면 및 청구범위와 함께 읽으면, 다양한 변형 및 적응(adaptation)이 상기 설명을 고려하여 당업자에게 명백해질 것이다. 그러나 본 발명의 교시의 그와 같은 모든 변형예는 첨부된 청구범위에 정의된 바와 같이 본 발명의 범위 내에 포함될 것이다.
10 : 전자기기 11 : 마이크로폰
21 : 프로세서 22 : 메모리
23 : 프로그램 데이터 24 : 인코딩 데이터
104 : 인코더 108 : 디코더
112 : 비트 스트림

Claims (30)

  1. 적어도 하나의 프로세서 및 컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리를 구비하고, 오디오 신호를 인코딩하는 장치로서,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서를 이용하여 상기 장치로 하여금,
    음원(audio source)에 배치되거나 상기 음원을 향해 배치된 적어도 하나의 마이크로폰으로부터 오디오 요소(audio component)를 수신하고,
    적어도 하나의 다른 마이크로폰으로부터 오디오 요소를 수신 -상기 적어도 하나의 다른 마이크로폰은 상기 음원에서 상기 적어도 하나의 마이크로폰의 위치보다 더 떨어진 장소에 배치되거나 상기 음원에서 먼 쪽을 향한 위치에 배치되며, 상기 적어도 하나의 다른 마이크로폰으로부터 수신한 오디오 요소는 상기 적어도 하나의 마이크로폰으로부터 수신한 상기 음원의 오디오 요소보다 상기 음원의 오디오 요소를 적게 포함함-하고,
    상기 음원에 배치되거나 상기 음원을 향하여 배치된 상기 적어도 하나의 마이크로폰으로부터 수신한 오디오 요소로부터 제 1 스케일러블 인코딩 신호층을 생성하고,
    상기 적어도 하나의 다른 마이크로폰으로부터 수신한 오디오 요소의 적어도 일 부분으로부터 제 2 스케일러블 인코딩 신호층을 생성하도록 하는
    오디오 신호의 인코딩 장치.
  2. 제 1 항에 있어서,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서를 이용하여 상기 장치로 하여금,
    상기 제 1 스케일러블 인코딩 신호층 및 상기 제 2 스케일러블 인코딩 신호층을 결합하여 제 3 스케일러블 인코딩 신호층을 형성하도록 더 구성된
    오디오 신호의 인코딩 장치.
  3. 제 2 항에 있어서,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서를 이용하여 상기 장치로 하여금,
    개선된 오디오 코딩(AAC),
    MPEG-1 계층 3(MP3),
    ITU-T 내장 가변 레이트(EV-VBR) 스피치 코딩 기반의 라인 코딩,
    적응형 멀티레이트 광대역(AMR-WB) 코딩,
    ITU-T G.729.1, ITU-T G.722.1, ITU-T G.722.1C 중 하나,
    적응형 멀티레이트 광대역플러스(AMR-WB+) 코딩
    중 적어도 하나에 의해 상기 제 1 스케일러블 인코딩 신호층을 생성하도록 더 구성된
    오디오 신호의 인코딩 장치.
  4. 제 2 항에 있어서,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서를 이용하여 상기 장치로 하여금,
    개선된 오디오 코딩(AAC),
    MPEG-1 계층 3(MP3),
    ITU-T 내장 가변 레이트(EV-VBR) 스피치 코딩 기반의 라인 코딩,
    적응형 멀티레이트 광대역(AMR-WB) 코딩,
    컴포트 노이즈 생성(comfort noise generation, CNG) 코딩,
    적응형 멀티레이트 광대역플러스(AMR-WB+) 코딩
    중 적어도 하나에 의해 상기 제 2 스케일러블 인코딩 신호층을 생성하도록 더 구성된
    오디오 신호의 인코딩 장치.
  5. 적어도 하나의 프로세서 및 컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리를 구비하고, 스케일러블 인코딩 오디오 신호를 디코딩하는 장치로서,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서를 이용하여 상기 장치로 하여금,
    상기 스케일러블 인코딩 오디오 신호를 적어도 제 1 스케일러블 인코딩 오디오 신호와 제 2 스케일러블 인코딩 오디오 신호로 분할하고,
    상기 제 1 스케일러블 인코딩 오디오 신호를 디코딩하여 음원에 배치되거나 상기 음원을 향하여 배치된 적어도 하나의 마이크로폰으로부터의 오디오 요소를 포함하는 제 1 오디오 신호를 생성하고,
    상기 제 2 스케일러블 인코딩 오디오 신호를 디코딩하여 상기 제 1 오디오 신호의 상기 음원으로부터의 오디오 요소의 수보다 적은 수의 상기 음원으로부터의 오디오 요소를 포함하는 제 2 오디오 신호를 생성 -상기 적은 수의 오디오 요소는 상기 음원에서 상기 적어도 하나의 마이크로폰의 위치보다 더 떨어진 위치에 배치된 다른 마이크로폰으로부터 또는 상기 음원에서 먼 쪽을 향한 위치에 배치된 다른 마이크로폰으로부터의 오디오 요소임-하도록 구성된
    오디오 신호의 디코딩 장치.
  6. 제 5 항에 있어서,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서를 이용하여 상기 장치로 하여금,
    적어도 상기 제 1 오디오 신호를 제 1 스피커로 출력하도록 더 구성된
    오디오 신호의 디코딩 장치.
  7. 제 5 항 또는 제 6 항에 있어서,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서를 이용하여 상기 장치로 하여금,
    상기 제 1 오디오 신호와 상기 제 2 오디오 신호의 적어도 제 1 조합을 생성하고, 상기 제 1 조합을 제 1 스피커로 출력하도록 더 구성된
    오디오 신호의 디코딩 장치.
  8. 제 7 항에 있어서,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서를 이용하여 상기 장치로 하여금,
    상기 제 1 오디오 신호와 상기 제 2 오디오 신호의 제 2 조합을 생성하고, 상기 제 2 조합을 제 2 스피커로 출력하도록 더 구성된
    오디오 신호의 디코딩 장치.
  9. 제 5 항 또는 제 6 항에 있어서,
    상기 제 1 스케일러블 인코딩 오디오 신호 및 상기 제 2 스케일러블 인코딩 오디오 신호 중 적어도 하나는,
    개선된 오디오 코딩(AAC),
    MPEG-1 계층 3(MP3),
    ITU-T 내장 가변 레이트(EV-VBR) 스피치 코딩 기반의 라인 코딩,
    적응형 멀티레이트 광대역(AMR-WB) 코딩,
    ITU-T G.729.1, ITU-T G.722.1, ITU-T G.722.1C 중 하나,
    컴포트 노이즈 생성(CNG) 코딩,
    적응형 멀티레이트 광대역플러스(AMR-WB+) 코딩 중 적어도 하나를 포함하는
    오디오 신호의 디코딩 장치.
  10. 오디오 신호를 인코딩하는 방법으로서,
    음원(audio source)에 배치되거나 상기 음원을 향해 배치된 적어도 하나의 마이크로폰으로부터 오디오 요소(audio component)를 수신하는 단계와,
    적어도 하나의 다른 마이크로폰으로부터 오디오 요소를 수신 -상기 적어도 하나의 다른 마이크로폰은 상기 음원에서 상기 적어도 하나의 마이크로폰의 위치보다 더 떨어진 장소에 배치되거나 상기 음원에서 먼 쪽을 향한 위치에 배치되며, 상기 적어도 하나의 다른 마이크로폰으로부터 수신한 오디오 요소는 상기 적어도 하나의 마이크로폰으로부터 수신한 상기 음원의 오디오 요소보다 상기 음원의 오디오 요소를 적게 포함함-하는 단계와,
    상기 음원에 배치되거나 상기 음원을 향해 배치된 상기 적어도 하나의 마이크로폰으로부터 수신한 오디오 요소로부터 제 1 스케일러블 인코딩 신호층을 생성하는 단계와,
    상기 적어도 하나의 다른 마이크로폰으로부터 수신한 오디오 요소의 적어도 일 부분으로부터 제 2 스케일러블 인코딩 신호층을 생성하는 단계를 포함하는
    오디오 신호의 인코딩 방법.
  11. 제 10 항에 있어서,
    상기 제 1 스케일러블 인코딩 신호층 및 상기 제 2 스케일러블 인코딩 신호층을 결합하여 제 3 스케일러블 인코딩 신호층을 형성하는 단계를 더 포함하는
    오디오 신호의 인코딩 방법.
  12. 제 11 항에 있어서,
    상기 제 1 스케일러블 인코딩 신호층은,
    개선된 오디오 코딩(AAC),
    MPEG-1 계층 3(MP3),
    ITU-T 내장 가변 레이트(EV-VBR) 스피치 코딩 기반의 라인 코딩,
    적응형 멀티레이트 광대역(AMR-WB) 코딩,
    ITU-T G.729.1, ITU-T G.722.1, ITU-T G.722.1C 중 하나,
    적응형 멀티레이트 광대역플러스(AMR-WB+) 코딩
    중 적어도 하나에 의해 생성되는
    오디오 신호의 인코딩 방법.
  13. 제 11 항에 있어서,
    상기 제 2 스케일러블 인코딩 신호층은,
    개선된 오디오 코딩(AAC),
    MPEG-1 계층 3(MP3),
    ITU-T 내장 가변 레이트(EV-VBR) 스피치 코딩 기반의 라인 코딩,
    적응형 멀티레이트 광대역(AMR-WB) 코딩,
    컴포트 노이즈 생성(CNG) 코딩,
    적응형 멀티레이트 광대역플러스(AMR-WB+) 코딩
    중 적어도 하나에 의해 생성되는
    오디오 신호의 인코딩 방법.
  14. 스케일러블 인코딩 오디오 신호를 디코딩하는 방법으로서,
    상기 스케일러블 인코딩 오디오 신호를 적어도 제 1 스케일러블 인코딩 오디오 신호와 제 2 스케일러블 인코딩 오디오 신호로 분할하는 단계와,
    상기 제 1 스케일러블 인코딩 오디오 신호를 디코딩하여 음원에 배치되거나 상기 음원을 향하여 배치된 적어도 하나의 마이크로폰으로부터의 오디오 요소를 포함하는 제 1 오디오 신호를 생성하는 단계와,
    상기 제 2 스케일러블 인코딩 오디오 신호를 디코딩하여 상기 제 1 오디오 신호의 상기 음원으로부터의 오디오 요소의 수 보다 적은 수의 상기 음원으로부터의 오디오 요소를 포함하는 제 2 오디오 신호를 생성하는 단계 -상기 적은 수의 오디오 요소는 상기 음원에서 상기 적어도 하나의 마이크로폰의 위치보다 더 떨어진 위치에 배치된 다른 마이크로폰으로부터 또는 상기 음원에서 먼 쪽을 향한 위치에 배치된 다른 마이크로폰으로부터의 오디오 요소임-를 포함하는
    스케일러블 인코딩 오디오 신호의 디코딩 방법.
  15. 제 14 항에 있어서,
    적어도 상기 제 1 오디오 신호를 제 1 스피커로 출력하는 단계를 더 포함하는
    스케일러블 인코딩 오디오 신호의 디코딩 방법.
  16. 제 14 항 또는 제 15 항에 있어서,
    상기 제 1 오디오 신호와 상기 제 2 오디오 신호의 적어도 제 1 조합을 생성하고, 상기 제 1 조합을 제 1 스피커로 출력하는 단계를 더 포함하는
    스케일러블 인코딩 오디오 신호의 디코딩 방법.
  17. 제 16 항에 있어서,
    상기 제 1 오디오 신호와 상기 제 2 오디오 신호의 제 2 조합을 생성하고, 상기 제 2 조합을 제 2 스피커로 출력하는 단계를 더 포함하는
    스케일러블 인코딩 오디오 신호의 디코딩 방법.
  18. 제 14 항 또는 제 15 항에 있어서,
    상기 제 1 스케일러블 인코딩 오디오 신호 및 상기 제 2 스케일러블 인코딩 오디오 신호 중 적어도 하나는,
    개선된 오디오 코딩(AAC),
    MPEG-1 계층 3(MP3),
    ITU-T 내장 가변 레이트(EV-VBR) 스피치 코딩 기반의 라인 코딩,
    적응형 멀티레이트 광대역(AMR-WB) 코딩,
    ITU-T G.729.1, ITU-T G.722.1, ITU-T G.722.1C 중 하나,
    컴포트 노이즈 생성(CNG) 코딩,
    적응형 멀티레이트 광대역플러스(AMR-WB+) 코딩 중 적어도 하나를 포함하는
    스케일러블 인코딩 오디오 신호의 디코딩 방법.
  19. 청구항 1 또는 2에 기재된 오디오 신호의 인코딩 장치를 포함하는 인코더.
  20. 청구항 5 또는 6에 기재된 오디오 신호의 디코딩 장치를 포함하는 디코더.
  21. 청구항 1 또는 2에 기재된 오디오 신호의 인코딩 장치를 포함하는 전자기기.
  22. 청구항 5 또는 6에 기재된 오디오 신호의 디코딩 장치를 포함하는 전자기기.
  23. 컴퓨터 프로그램 코드가 기록되어 있는 컴퓨터 판독가능한 기록 매체로서,
    상기 컴퓨터 프로그램 코드는 프로세서로 하여금,
    음원(audio source)에 배치되거나 상기 음원을 향해 배치된 적어도 하나의 마이크로폰으로부터 오디오 요소(audio component)를 수신하고,
    적어도 하나의 다른 마이크로폰으로부터 오디오 요소를 수신 -상기 적어도 하나의 다른 마이크로폰은 상기 음원에서 상기 적어도 하나의 마이크로폰의 위치보다 더 떨어진 장소에 배치되거나 상기 음원에서 먼 쪽을 향한 위치에 배치되며, 상기 적어도 하나의 다른 마이크로폰으로부터 수신한 오디오 요소는 상기 적어도 하나의 마이크로폰으로부터 수신한 상기 음원의 오디오 요소보다 상기 음원의 오디오 요소를 적게 포함함-하고,
    상기 음원에 배치되거나 상기 음원을 향해 배치된 상기 적어도 하나의 마이크로폰으로부터 수신한 오디오 요소로부터 제 1 스케일러블 인코딩 신호층을 생성하고,
    상기 적어도 하나의 다른 마이크로폰으로부터 수신한 오디오 요소의 적어도 일 부분으로부터 제 2 스케일러블 인코딩 신호층을 생성하게 하도록 동작 가능한 명령을 포함하는
    컴퓨터 판독가능한 기록 매체.
  24. 컴퓨터 프로그램 코드가 기록되어 있는 컴퓨터 판독가능한 기록 매체로서,
    상기 컴퓨터 프로그램 코드는 프로세서로 하여금,
    스케일러블 인코딩 오디오 신호를 적어도 제 1 스케일러블 인코딩 오디오 신호와 제 2 스케일러블 인코딩 오디오 신호로 분할하고,
    상기 제 1 스케일러블 인코딩 오디오 신호를 디코딩하여 음원에 배치되거나 상기 음원을 향하여 배치된 적어도 하나의 마이크로폰으로부터의 오디오 요소를 포함하는 제 1 오디오 신호를 생성하고,
    상기 제 2 스케일러블 인코딩 오디오 신호를 디코딩하여 상기 제 1 오디오 신호의 상기 음원으로부터의 오디오 요소의 수 보다 적은 수의 상기 음원으로부터의 오디오 요소를 포함하는 제 2 오디오 신호를 생성 -상기 적은 수의 오디오 요소는 상기 음원에서 상기 적어도 하나의 마이크로폰의 위치보다 더 떨어진 위치에 배치된 다른 마이크로폰으로부터 또는 상기 음원에서 먼 쪽을 향한 위치에 배치된 다른 마이크로폰으로부터의 오디오 요소임-하게 하도록 동작 가능한 명령을 포함하는
    컴퓨터 판독가능한 기록 매체.
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
KR1020107025041A 2008-05-09 2008-05-09 오디오 신호의 인코딩 장치, 오디오 신호의 디코딩 장치, 오디오 신호의 인코딩 방법, 스케일러블 인코딩 오디오 신호의 디코딩 방법, 인코더, 디코더, 전자기기 및 컴퓨터 판독가능한 기록 매체 KR101414412B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2008/055776 WO2009135532A1 (en) 2008-05-09 2008-05-09 An apparatus

Publications (2)

Publication Number Publication Date
KR20110002086A KR20110002086A (ko) 2011-01-06
KR101414412B1 true KR101414412B1 (ko) 2014-07-01

Family

ID=40090076

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020107025041A KR101414412B1 (ko) 2008-05-09 2008-05-09 오디오 신호의 인코딩 장치, 오디오 신호의 디코딩 장치, 오디오 신호의 인코딩 방법, 스케일러블 인코딩 오디오 신호의 디코딩 방법, 인코더, 디코더, 전자기기 및 컴퓨터 판독가능한 기록 매체

Country Status (9)

Country Link
US (1) US8930197B2 (ko)
EP (1) EP2301017B1 (ko)
KR (1) KR101414412B1 (ko)
CN (1) CN102067210B (ko)
CA (1) CA2721702C (ko)
ES (1) ES2613693T3 (ko)
PL (1) PL2301017T3 (ko)
RU (1) RU2477532C2 (ko)
WO (1) WO2009135532A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013156814A1 (en) * 2012-04-18 2013-10-24 Nokia Corporation Stereo audio signal encoder
US9460729B2 (en) 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US8804035B1 (en) * 2012-09-25 2014-08-12 The Directv Group, Inc. Method and system for communicating descriptive data in a television broadcast system
RU2633107C2 (ru) * 2012-12-21 2017-10-11 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Добавление комфортного шума для моделирования фонового шума при низких скоростях передачи данных
US9338551B2 (en) * 2013-03-15 2016-05-10 Broadcom Corporation Multi-microphone source tracking and noise suppression
TW201442482A (zh) * 2013-04-26 2014-11-01 Chi Mei Comm Systems Inc 語音留言系統及方法
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
CN106028208A (zh) * 2016-07-25 2016-10-12 北京塞宾科技有限公司 一种无线k歌麦克风耳机

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060262943A1 (en) * 2005-04-29 2006-11-23 Oxford William V Forming beams with nulls directed at noise sources
WO2007043642A1 (ja) * 2005-10-14 2007-04-19 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法
US20070154031A1 (en) 2006-01-05 2007-07-05 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6137887A (en) 1997-09-16 2000-10-24 Shure Incorporated Directional microphone system
KR100335611B1 (ko) * 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
DK1133899T3 (da) * 1998-11-16 2009-01-12 Univ Illinois Teknikker til behandling af binauralt signal
BR0304542A (pt) * 2002-04-22 2004-07-20 Koninkl Philips Electronics Nv Método e codificador para codificar um sinal de áudio de multicanal, aparelho para fornecer um sinal de áudio, sinal de áudio codificado, meio de armazenamento, e, método e decodificador para decodificar um sinal de áudio
JP2005533271A (ja) * 2002-07-16 2005-11-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化
US7783061B2 (en) * 2003-08-27 2010-08-24 Sony Computer Entertainment Inc. Methods and apparatus for the targeted sound detection
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
US8446947B2 (en) 2003-10-10 2013-05-21 Agency For Science, Technology And Research Method for encoding a digital signal into a scalable bitstream; method for decoding a scalable bitstream
US7447630B2 (en) 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7499686B2 (en) * 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7391870B2 (en) * 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
US8340309B2 (en) * 2004-08-06 2012-12-25 Aliphcom, Inc. Noise suppressing multi-microphone headset
US7574008B2 (en) * 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
EP1798724B1 (en) * 2004-11-05 2014-06-18 Panasonic Corporation Encoder, decoder, encoding method, and decoding method
DE602006014809D1 (de) * 2005-03-30 2010-07-22 Koninkl Philips Electronics Nv Skalierbare mehrkanal-audiokodierung
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
WO2007098808A1 (en) * 2006-03-03 2007-09-07 Widex A/S Hearing aid and method of utilizing gain limitation in a hearing aid
WO2007105586A1 (ja) * 2006-03-10 2007-09-20 Matsushita Electric Industrial Co., Ltd. 符号化装置および符号化方法
US20080004883A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Scalable audio coding
KR101313170B1 (ko) * 2006-09-12 2013-09-30 삼성전자주식회사 전화통화시 잡음을 제거하는 단말기 및 그 방법
US20080152006A1 (en) * 2006-12-22 2008-06-26 Qualcomm Incorporated Reference frame placement in the enhancement layer
KR100798623B1 (ko) * 2007-04-10 2008-01-28 에스케이 텔레콤주식회사 이동통신단말기에서의 음성 처리 장치 및 방법
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8428661B2 (en) * 2007-10-30 2013-04-23 Broadcom Corporation Speech intelligibility in telephones with multiple microphones
JP4735640B2 (ja) * 2007-11-19 2011-07-27 ヤマハ株式会社 音声会議システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060262943A1 (en) * 2005-04-29 2006-11-23 Oxford William V Forming beams with nulls directed at noise sources
WO2007043642A1 (ja) * 2005-10-14 2007-04-19 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法
US20070154031A1 (en) 2006-01-05 2007-07-05 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement

Also Published As

Publication number Publication date
CA2721702C (en) 2016-09-27
RU2477532C2 (ru) 2013-03-10
PL2301017T3 (pl) 2017-05-31
CN102067210A (zh) 2011-05-18
CN102067210B (zh) 2013-05-15
US20110093276A1 (en) 2011-04-21
ES2613693T3 (es) 2017-05-25
US8930197B2 (en) 2015-01-06
RU2010149667A (ru) 2012-06-20
EP2301017B1 (en) 2016-12-21
CA2721702A1 (en) 2009-11-12
WO2009135532A1 (en) 2009-11-12
EP2301017A1 (en) 2011-03-30
KR20110002086A (ko) 2011-01-06

Similar Documents

Publication Publication Date Title
KR101414412B1 (ko) 오디오 신호의 인코딩 장치, 오디오 신호의 디코딩 장치, 오디오 신호의 인코딩 방법, 스케일러블 인코딩 오디오 신호의 디코딩 방법, 인코더, 디코더, 전자기기 및 컴퓨터 판독가능한 기록 매체
CA2775828C (en) Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value
US8958566B2 (en) Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
JP4838361B2 (ja) オーディオ信号のデコーディング方法及びその装置
JP5243527B2 (ja) 音響符号化装置、音響復号化装置、音響符号化復号化装置および会議システム
TWI794911B (zh) 用以編碼音訊信號或用以解碼經編碼音訊場景之設備、方法及電腦程式
US20080004883A1 (en) Scalable audio coding
US20150371643A1 (en) Stereo audio signal encoder
JP5377505B2 (ja) 結合装置、遠隔通信システム及び結合方法
JP2006085183A (ja) 低ビットレートオーディオ符号化用の効率的かつスケーラブルなパラメトリックステレオ符号化
EP2313886A1 (en) Multichannel audio coder and decoder
JP2009543142A (ja) 複数のパラメータ的に符号化された音源を合成するための概念
US10176812B2 (en) Decoder and method for multi-instance spatial-audio-object-coding employing a parametric concept for multichannel downmix/upmix cases
CN114600188A (zh) 用于音频编码的装置和方法
WO2020152394A1 (en) Audio representation and associated rendering
US8838460B2 (en) Apparatus for playing and producing realistic object audio

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
E902 Notification of reason for refusal
E902 Notification of reason for refusal
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170601

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180529

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190530

Year of fee payment: 6