KR20150005979A

KR20150005979A - 오디오 신호 프로세싱을 위한 시스템들 및 방법들

Info

Publication number: KR20150005979A
Application number: KR1020147032347A
Authority: KR
Inventors: 에릭 비제르; 래훈 김; 종원 신; 인이 궈; 상욱 류; 안드레 구스타보 피 스체비우
Original assignee: 퀄컴 인코포레이티드
Priority date: 2012-04-23
Filing date: 2013-04-18
Publication date: 2015-01-15
Also published as: IN2014MN02011A; WO2013162995A2; WO2013162993A1; US20130282369A1; WO2013162994A2; CN104246877A; WO2013162995A3; US20130282373A1; US20130282372A1; US9305567B2; WO2013162994A3; CN104246877B

Abstract

전자 디바이스에 의한 신호 레벨 매칭 방법은 설명된다. 본 방법은 복수의 마이크로폰들로부터 복수의 오디오 신호들을 캡쳐하는 단계를 포함한다. 본 방법은 또한 마이크로폰간 감산 (inter-microphone subtraction) 에 기초하여 차이 신호를 결정하는 단계를 포함한다. 차이 신호는 다수의 고조파들을 포함한다. 본 방법은 또한 차이 신호의 고조파도가 고조파도 임계치를 초과하는지의 여부를 결정하는 단계를 포함한다. 본 방법은 또한 엔벨로프를 결정하기 위해 고조파들을 보존하는 단계를 포함한다. 본 방법은 또한 상기 엔벨로프를 잡음-억제된 신호에 인가한다.

Description

오디오 신호 프로세싱을 위한 시스템들 및 방법들{SYSTEMS AND METHODS FOR AUDIO SIGNAL PROCESSING}

관련 출원들

본 출원은, "DEVICES FOR APPROXIMATELY MATCHING OUTPUT LEVEL TO INPUT LEVEL AFTER NOISE SUPPRESSION" 으로, 2012년 4월 23일자로 출원된 미국 가특허출원 번호 제 61/637,175호, "DEVICES FOR PRESERVING AN AUDIO ENVELOPE" 으로, 2012년 6월 12일자로 출원된 미국 가특허출원 번호 제 61/658,843호, "SYSTEMS AND METHODS FOR SIGNAL LEVEL MATCHING" 으로 2012년 11월 14일자로 출원된 미국 가특허출원 번호 제 61/726,458호, 및 "DEVICES FOR SIGNAL LEVEL MATCHING" 으로 2012년 12월 18일자로 출원된 미국 가특허출원 번호 제 61/738,976호에 관련된 것으로, 이로부터 우선권을 주장한다.

기술 분야

본 개시물은 일반적으로 통신 시스템들에 관한 것이다. 더 구체적으로는, 본 개시물은 오디오 신호 프로세싱을 위한 시스템들 및 방법들에 관한 것이다.

통신 시스템들은 데이터, 보이스, 비디오 및 기타 등등과 같은, 여러 유형들의 통신 콘텐츠를 제공하기 위해 널리 이용되고 있다. 이들 시스템들은 하나 이상의 다른 통신 디바이스들 (예컨대, 기지국들, 액세스 지점들 등) 과의 다수의 통신 디바이스들 (예컨대, 무선 통신 디바이스들, 액세스 단말기들 등) 의 동시 통신을 지원하는 것이 가능한 다중-액세스 시스템들일 수도 있다. 일부 통신 디바이스들 (예컨대, 액세스 단말기들, 랩탑 컴퓨터들, 스마트폰들, 매체들 플레이어들, 게이밍 디바이스들 등) 은 다른 통신 디바이스들과 무선으로 통신할 수도 있다.

조용한 사무실 또는 홈 환경들에서 이전에 수행되었던 많은 활동들이 현재는 차, 거리 또는 까페와 같은, 음향적으로 가변 상황들에서 수행될 수도 있 있다. 예를 들어, 사람은 보이스 통신 채널을 이용하여 또 다른 사람과 통신할 수도 있다. 채널은 예를 들어, 모바일 무선 핸드셋 또는 헤드셋, 워키-토키, 2-방향 라디오, 자동차-키트 또는 또 다른 통신 디바이스에 의해 제공될 수도 있다. 그 결과, 상당한 양의 보이스 통신이, 사람이 모이는 경향이 있는 장소에서 일반적으로 만나게 되는 유형의 잡음 콘텐츠를 가지는, 사용자들이 다른 사람에 의해 둘러 싸인 환경들에서, 휴대형 오디오 감지 디바이스들 (예컨대, 스마트폰들, 핸드셋들 및/또는 헤드셋들) 을 이용하여 일어나고 있다.

이러한 잡음은 전화기 대화의 원단 (far end) 에서 사용자를 산만하게 하거나 또는 귀찮게 하는 경향이 있다. 더욱이, 많은 표준 자동화된 비즈니스 거래들 (예컨대, 계정 잔고 또는 주식 시세 체크들) 은 보이스-인식-기반의 데이터 조회를 채용하며, 이들 시스템들의 정확도가 간섭 잡음에 의해 현저히 방해될 수도 있다. 따라서, 이들 비효율들을 감소시키는 것을 도울 수도 있는 디바이스들이 유익할 수도 있다.

전자 디바이스에 의한 신호 레벨 매칭 방법이 설명된다. 본 방법은 복수의 마이크로폰들로부터 복수의 오디오 신호들을 캡쳐하는 단계를 포함한다. 본 방법은 또한 마이크로폰간 감산 (inter-microphone subtraction) 에 기초하여 차이 신호를 결정하는 단계를 포함한다. 차이 신호는 다수의 고조파들을 포함한다. 본 방법은 또한 차이 신호의 고조파도 (harmonicity) 가 고조파도 임계치를 초과하는지의 여부를 결정하는 단계를 포함한다. 본 방법은 또한 엔벨로프를 결정하기 위해 고조파들을 보존하는 단계를 포함한다. 본 방법은 엔벨로프를 잡음-억제된 신호에 인가하는 단계를 포함한다.

본 방법은 입력 스펙트럼을 하나 이상의 대역들로 세그먼트화하는 단계를 포함할 수도 있다. 본 방법은 또한 각각의 대역에 대해 신호-대-잡음비를 측정하는 단계를 포함할 수도 있다. 본 방법은 또한 신호-대-잡음비들이 제 1 임계치 보다 낮은지의 여부를 결정하는 단계를 포함할 수도 있다. 본 방법은 목표 스펙트럼을 조합하는 단계를 더 포함할 수도 있다. 본 방법은 목표 스펙트럼에 기초하여 잡음-억제된 신호에서 하나 이상의 대역들의 이득을 조정하는 단계를 포함할 수도 있다.

목표 스펙트럼을 조합하는 것은 스피치 참조 스펙트럼의 부분을 스피치 템플릿 스펙트럼의 부분으로 대체하는 단계를 포함할 수도 있다. 대체되는 스피치 참조 스펙트럼의 부분은 신호-대-잡음비가 제 1 임계치 미만인 하나 이상의 대역들을 하나 이상의 대역들을 포함할 수도 있다. 스피치 참조 스펙트럼은 입력 스펙트럼에 기초할 수도 있다. 스피치 템플릿 스펙트럼은 코드북에 기초할 수도 있다. 스피치 템플릿 스펙트럼은 신호-대-잡음비가 제 1 임계치보다 큰 입력 스펙트럼의 대역들의 내삽에 기초할 수도 있다.

목표 스펙트럼을 조합하는 것은 고조파 합성 발생을 포함할 수도 있다. 본 방법은 복수의 오디오 신호들에 기초하여 잔여 잡음을 억제하는 단계를 포함할 수도 있다. 엔벨로프를 잡음-억제된 신호에 인가하는 단계는 잡음-억제된 신호 레벨이 대략 오디오 신호 레벨과 매칭하도록 잡음-억제된 신호의 이득을 조정하는 단계를 포함할 수도 있다. 차이 신호를 결정하는 단계는 스피치 신호에 대응하는 입력 스펙트럼의 부분들을 결정하는 단계를 포함할 수도 있다. 목표 스펙트럼은 이득 차이들 및 피치 추정에 기초할 수도 있다.

본 방법은 신호를 수신하는 단계를 포함할 수도 있다. 본 방법은 필터링된 잡음 신호를 발생하기 위해 잡음 신호를 필터링하는 단계를 포함할 수도 있다. 본 방법은 필터링된 잡음 신호 및 스피치 신호에 기초하여 제 1 합산 신호를 발생하는 단계를 포함할 수도 있다. 본 방법은 제 1 합산 신호에 기초하여 변환된 신호를 발생하는 단계를 포함할 수도 있다. 본 방법은 또한 변환된 신호의 기본 주파수를 발생하는 단계를 포함할 수도 있다. 본 방법은 신뢰성 척도 (confidence measure) 또는 보이싱 파라미터 (voicing parameter) 를 발생하는 단계를 포함할 수도 있다. 본 방법은 기본 주파수에 기초하여 하나 이상의 사인파 파라미터들을 추정하는 단계를 더 포함할 수도 있다. 본 방법은 또한 하나 이상의 사인파 파라미터들에 기초하여 사인파 신호를 발생하는 단계를 포함할 수도 있다. 본 방법은 스케일링된 사인파 신호를 발생하기 위해 사인파 신호를 신뢰성 척도 또는 보이싱 파라미터로 곱하는 단계를 포함할 수도 있다. 본 방법은 또한 제 1 필터링된 신호를 발생하기 위해 그 스케일링된 사인파 신호를 필터링하는 단계를 포함할 수도 있다. 본 방법은 제 2 필터링된 신호를 발생하기 위해 그 변환된 신호를 필터링하는 단계를 포함할 수도 있다. 본 방법은 제 2 합산 신호를 발생하기 위해 제 1 필터링된 신호와 제 2 필터링된 신호를 합산하는 단계를 더 포함할 수도 있다. 본 방법은 제 2 합산 신호를 시간 영역으로 변환하는 단계를 더 포함할 수도 있다.

신호 레벨 매칭을 위한 전자 디바이스가 또한 설명된다. 전자 디바이스는 복수의 오디오 신호들을 캡쳐하는 복수의 마이크로폰들을 포함한다. 전자 디바이스는 또한 복수의 오디오 마이크로폰들에 커플링된 마이크로폰간 감산 회로를 포함한다. 마이크로폰간 감산 회로는 마이크로폰간 감산에 기초하여 차이 신호를 결정한다. 차이 신호는 다수의 고조파들을 포함한다. 전자 디바이스는 또한 마이크로폰간 감산 회로에 커플링된 엔벨로프 결정 회로를 포함한다. 엔벨로프 결정 회로는 차이 신호의 고조파도가 고조파도 임계치를 초과하는지의 여부를 결정한다. 엔벨로프 결정 회로는 또한 엔벨로프를 결정하기 위해 고조파들을 보존한다. 전자 디바이스는 또한 엔벨로프 결정 회로에 커플링된 엔벨로프 인가 회로를 포함한다. 엔벨로프 인가 회로는 엔벨로프를 잡음-억제된 신호에 인가한다.

신호 레벨 매칭을 위한 컴퓨터-프로그램 제품이 또한 설명된다. 컴퓨터-프로그램 제품은 명령들을 가진 비일시적인 유형의 컴퓨터-판독가능 매체를 포함한다. 명령들은 전자 디바이스로 하여금 복수의 마이크로폰들로부터 복수의 오디오 신호들을 캡쳐하도록 하는 코드를 포함한다. 명령들은 또한 전자 디바이스로 하여금 마이크로폰간 감산에 기초하여 차이 신호를 결정하도록 하는 코드를 포함한다. 차이 신호는 다수의 고조파들을 포함한다. 명령들은 전자 디바이스로 하여금 차이 신호의 고조파도가 고조파도 임계치를 초과하는지의 여부를 결정하도록 하는 코드를 포함한다. 명령들은 또한 전자 디바이스로 하여금 엔벨로프를 결정하기 위해 고조파들을 보존하도록 하는 코드를 포함한다. 명령들은 전자 디바이스로 하여금 엔벨로프를 잡음-억제된 신호에 인가하도록 하는 코드를 더 포함한다.

신호 레벨 매칭을 위한 장치가 또한 설명된다. 본 장치는 복수의 오디오 신호들을 캡쳐하는 수단을 포함한다. 본 장치는 또한 마이크로폰간 감산에 기초하여 차이 신호를 결정하는 수단을 포함한다. 차이 신호는 다수의 고조파들을 포함한다. 본 장치는 또한 차이 신호의 고조파도가 고조파도 임계치를 초과하는지의 여부를 결정하는 수단을 포함한다. 본 장치는 또한 엔벨로프를 결정하기 위해 고조파들을 보존하는 수단을 포함한다. 본 장치는 또한 엔벨로프를 잡음-억제된 신호에 인가하는 수단을 포함한다.

전자 디바이스에 의한 신호 레벨 매칭의 또 다른 방법이 또한 설명된다. 본 방법은 입력 스펙트럼을 다수의 대역들로 세그먼트화하는 단계를 포함한다. 본 방법은 또한 각각의 대역에서 신호-대-잡음비를 측정하는 단계를 포함한다. 본 방법은 신호-대-잡음비가 제 1 임계치 보다 낮은지의 여부를 결정하는 단계를 더 포함한다. 본 방법은 추가적으로 목표 스펙트럼을 조합하는 단계를 포함한다. 본 방법은 또한 목표 스펙트럼에 기초하여 잡음-억제된 신호에서 하나 이상의 대역들의 이득을 조정하는 단계를 포함한다.

신호 레벨 매칭을 위한 또 다른 전자 디바이스가 또한 설명된다. 전자 디바이스는 입력 스펙트럼을 다수의 대역들로 세그먼트화하는 세그먼트화 회로를 포함한다. 전자 디바이스는 또한 세그먼트화 회로에 커플링된 측정 회로를 포함한다. 측정 회로는 각각의 대역에서 신호-대-잡음비를 측정한다. 전자 디바이스는 또한 측정 회로에 커플링된 임계치 회로를 포함한다. 임계치 회로는 신호-대-잡음비가 제 1 임계치보다 낮은지의 여부를 결정한다. 전자 디바이스는 임계치 회로에 커플링된 어셈블리 회로를 더 포함한다. 어셈블리 회로는 목표 스펙트럼을 조합한다. 전자 디바이스는 추가적으로 어셈블리 회로에 커플링된 조정 회로를 포함한다. 조정 회로는 목표 스펙트럼에 기초하여 잡음-억제된 신호에서 각각의 대역의 이득을 조정한다.

신호 레벨 매칭을 위한 또 다른 컴퓨터-프로그램 제품이 또한 설명된다. 컴퓨터-프로그램 제품은 명령들을 가진 비일시적인 유형의 컴퓨터-판독가능 매체를 포함한다. 명령들은 전자 디바이스로 하여금 입력 스펙트럼을 다수의 대역들로 세그먼화하도록 하는 코드를 포함한다. 명령들은 또한 전자 디바이스로 하여금 각각의 대역에서 신호-대-잡음비를 측정하도록 하는 코드를 포함한다. 명령들은 전자 디바이스로 하여금 신호-대-잡음비가 제 1 임계치보다 낮은지의 여부를 결정하도록 하는 코드를 더 포함한다. 명령들은 추가적으로 전자 디바이스로 하여금 목표 스펙트럼을 조합하도록 하는 코드를 포함한다. 명령들은 또한 전자 디바이스로 하여금 목표 스펙트럼에 기초하여 잡음-억제된 신호에서 각각의 대역의 이득을 조정하도록 하는 코드를 포함한다.

신호 레벨 매칭을 위한 또 다른 장치가 또한 설명된다. 본 장치는 입력 스펙트럼을 다수의 대역들로 세그먼트화하는 수단을 포함한다. 본 장치는 또한 각각의 대역에서 신호-대-잡음비를 측정하는 수단을 포함한다. 본 장치는 신호-대-잡음비가 제 1 임계치 보다 낮은지의 여부를 결정하는 수단을 더 포함한다. 본 장치는 추가적으로 목표 스펙트럼을 조합하는 수단을 포함한다. 본 장치는 또한 목표 스펙트럼에 기초하여 잡음-억제된 신호에서 각각의 대역의 이득을 조정하는 수단을 포함한다.

도 1 은 신호 레벨 매칭을 위한 시스템들 및 방법들이 구현될 수도 있는 전자 디바이스의 하나의 구성을 예시하는 블록도이다.
도 2 는 신호 레벨 매칭 방법의 하나의 구성을 예시하는 흐름도이다.
도 3 은 스피치 엔벨로프 보존 (preservation) 및/또는 복원 (restoration) 을 위한 방법의 하나의 구성을 예시하는 흐름도이다.
도 4 는 신호 레벨 매칭을 위한 시스템들 및 방법들이 구현될 수도 있는 전자 디바이스의 또 다른 구성을 예시하는 블록도이다.
도 5 는 신호 레벨 매칭 방법의 또 다른 구성을 예시하는 흐름도이다.
도 6 은 잡음 억제를 위한 방법의 하나의 구성을 예시하는 흐름도이다.
도 7 는 신호 레벨 매칭을 위한 시스템들 및 방법들이 구현될 수도 있는 전자 디바이스의 또 다른 구성을 예시하는 블록도이다.
도 8 는 신호 레벨 매칭 방법의 또 다른 구성을 예시하는 흐름도이다.
도 9 는 신호 레벨 매칭을 위한 시스템들 및 방법들이 구현될 수도 있는 전자 디바이스의 또 다른 구성을 예시하는 블록도이다.
도 10 은 보이스 활성도 (voice activity) 를 검출하는 시스템들 및 방법들이 구현될 수도 있는 전자 디바이스의 하나의 구성을 예시하는 블록도이다.
도 11 은 보이스 활성도를 검출하는 방법의 하나의 구성을 예시하는 흐름도이다.
도 12 는 보이스 활성도를 검출하는 시스템들 및 방법들이 구현될 수도 있는 무선 통신 디바이스의 하나의 구성을 예시하는 블록도이다.
도 13 은 보이스 활성도를 검출하는 방법의 또 다른 구성을 예시하는 흐름도이다.
도 13a 는 마이크로폰 스위칭을 위한 방법의 하나의 구성을 예시하는 흐름도이다.
도 14 은 보이스 활성도를 검출하는 방법의 또 다른 구성을 예시하는 흐름도이다.
도 15 는 핑크 잡음에서, 레코딩된 보이스 스피치의 스펙트럼들을 예시하는 그래프이다.
도 16a 내지 도 16b 는 음악 잡음에서 고조파 생성 스펙트럼 통계치 (harmonic product spectrum statistic) 를 예시하는 여러 그래프들을 포함한다.
도 17a 는 이중-마이크로폰 잡음 억제 시스템의 하나의 구성의 부분을 예시하는 블록도이다.
도 17b 는 이중-마이크로폰 잡음 억제 시스템의 하나의 구성의 또 다른 부분을 예시하는 블록도이다.
도 18 은 자동차 잡음에서 스테레오 스피치 레코딩을 예시하는 그래프이다.
도 19 는 자동차 잡음에서 스테레오 스피치 레코딩을 예시하는 또 다른 그래프이다.
도 20 은 본원에서 개시된 시스템들 및 방법들에 따라서 구현될 수도 있는 엘리먼트들의 하나의 구성을 예시하는 블록도이다.
도 21 은 프로세싱된 스피치 신호를 전자 디바이스에 의해 복원하는 방법의 하나의 구성을 예시하는 흐름도이다.
도 22 는 포스트-프로세싱의 더 구체적인 예를 예시하는 블록도이다.
도 23 은 프로세싱된 스피치 신호를 복원하는 시스템들 및 방법들이 구현될 수도 있는 전자 디바이스의 더 구체적인 구성을 예시하는 블록도이다.
도 24 는 리파이너의 하나의 구성을 예시하는 블록도이다.
도 25 는 본원에서 개시된 시스템들 및 방법들에 따른, 정규화된 고조파도의 예들을 예시한다.
도 26 은 본원에서 개시된 시스템들 및 방법들에 따른, 주파수-의존적인 임계화의 예들을 예시한다.
도 27 은 본원에서 개시된 시스템들 및 방법들에 따른, 피크 맵들의 예들을 예시한다.
도 28a 는 본원에서 개시된 시스템들 및 방법들에 따른, 포스트-프로세싱의 일 예를 예시한다.
도 28b 는 본원에서 개시된 시스템들 및 방법들에 따른, 포스트-프로세싱의 또 다른 예를 예시한다.
도 28c 는 본원에서 개시된 시스템들 및 방법들에 따른, 포스트-프로세싱의 또 다른 예를 예시한다.
도 29 는 신호 레벨 매칭하여 보이스 활성도를 검출하는 시스템들 및 방법들이 구현될 수도 있는 전자 디바이스에서 여러 구성요소들 중 하나의 구성을 예시하는 블록도이다.
도 30 은 전자 디바이스에서 이용될 수도 있는 여러 구성요소들을 예시한다.
도 31 은 무선 통신 디바이스 내에 포함될 수도 있는 어떤 구성요소들을 예시한다.

3세대 파트너십 프로젝트 (3rd Generation Partnership Project; 3GPP) 는 전세계적으로 적용가능한 3세대 (3G) 모바일 폰 사양을 정의하는 것을 목표로 하는 원격통신 협회들의 그룹들 간의 공동작업물이다. 3GPP 롱텀 에볼류션 (LTE) 은 범용 이동 통신 시스템 (UMTS) 모바일 폰 표준을 향상시키는 것을 목표로 하는 3GPP 프로젝트이다. 3GPP 는 차세대 모바일 네트워크들, 모바일 시스템들 및 모바일 디바이스들에 대한 사양들을 정의할 수도 있다.

일부 통신 디바이스들 (예컨대, 액세스 단말기들, 클라이언트 디바이스들, 클라이언트 스테이션들 등) 은 다른 통신 디바이스들과 무선으로 통신할 수도 있다. 일부 통신 디바이스들 (예컨대, 무선 통신 디바이스들) 은 모바일 디바이스들, 이동국들, 가입자국들, 클라이언트들, 클라이언트 스테이션들, 사용자 장비 (UEs), 원격국들, 액세스 단말기들, 모바일 단말기들, 단말기들, 사용자 단말기들, 가입자 유닛들 등으로서 지칭될 수도 있다. 통신 디바이스들의 예들은 셀룰러 전화기 기지국들 또는 노드들, 액세스 지점들, 무선 게이트웨이들, 무선 라우터들, 랩탑 또는 데스크탑 컴퓨터들, 셀룰러폰들, 스마트폰들, 무선 모뎀들, e-리더기들, 태블릿 디바이스들, 게이밍 시스템들 등을 포함한다. 이들 통신 디바이스들의 일부는 위에서 설명한 바와 같이 하나 이상의 산업 표준들에 따라서 동작할 수도 있다. 따라서, 일반 용어 "통신 디바이스" 는 산업 표준들에 따른 다양한 전문용어들로 설명된 통신 디바이스들 (예컨대, 액세스 단말기, 사용자 장비, 원격 단말기, 액세스 지점, 기지국, 노드 B, 진화된 노드 B 등) 을 포함할 수도 있다.

또한, 문서의 부분의 참조에 의한 임의의 포함은 그 부분 내에 참조된 용어들 또는 변수들의 정의들을 포함하는 것으로 이해되어야 할 것이며, 여기서, 이러한 정의들은 그 포함된 부분에서 참조된 임의의 도면들뿐만 아니라, 그 문서에서 다른 어딘가에 나타난다. 처음에 정관사로 도입되지 않는다면, 청구범위 엘리먼트를 한정하는데 사용되는 서수의 용어 (예컨대, "제 1", "제 2", "제 3" 등) 는 그것만으로 또 다른 것들에 대한 청구범위 엘리먼트의 임의의 우선순위 또는 순서를 나타내는 것이 아니라, 오히려 (서수의 용어의 사용이 없다면) 청구범위 엘리먼트를 동일한 이름을 가지는 또 다른 청구범위 엘리먼트와 단지 식별할 뿐이다. 그의 문맥에 의해 명확하게 한정되지 않는 한, 용어들 "복수" 및 "세트" 각각은 본원에서 1보다 큰 정수의 양을 나타내기 위해 사용된다.

잡음 환경들에서 통신이 발생하는 애플리케이션에 있어서, 백그라운드 잡음으로부터 원하는 스피치 신호를 분리하는 것이 바람직할 수도 있다. 잡음은 원하는 신호와 간섭하거나 또는 아니면 열화시키는 모든 신호들의 조합으로서 정의될 수도 있다. 백그라운드 잡음은 원하는 신호 및/또는 다른 신호들 중 임의의 신호로부터 발생된 반사들 및 반향뿐만 아니라, 다른 사람의 백그라운드 대화들과 같은, 음향 환경 내에서 발생되는 매우 많은 잡음 신호들을 포함할 수도 있다. 원하는 스피치 신호가 백그라운드 잡음으로부터 분리되지 않는 한, 그의 신뢰성있는 및 효율적인 사용을 하는 것이 어려울 수도 있다. 하나의 구체적인 예에서, 스피치 신호는 잡음 환경에서 발생되며, 환경의 잡음으로부터 스피치 신호를 분리하는데 스피치 프로세싱 방법들이 이용된다.

모바일 환경에서 조우되는 잡음은 경합하는 화자들, 음악, 혼선음 (babble), 거리 잡음 및/또는 공항 잡음과 같은, 다양한 상이한 구성요소들을 포함할 수도 있다. 잡음은, 이러한 잡음의 시그너쳐 (signature) 가 일반적으로 고정되어 있지 않고 사용자 자신의 주파수 시그너쳐에 가깝기 때문에, 전통적인 단일-마이크로폰 또는 고정된 빔형성 유형 방법들을 이용하여 모델링하기가 어려울 수도 있다. 단일-마이크로폰 잡음 감소 기법들은 최적의 성능을 달성하기 위해 유의한 파라미터 튜닝을 일반적으로 필요로 한다. 예를 들어, 적합한 잡음 참조 (noise reference) 가 이러한 경우들에 직접 이용불가능할 수도 있으며, 잡음 참조를 간접적으로 유도하는 것이 필요할 수도 있다. 따라서, 다수의-마이크로폰 기반의 진보된 신호 프로세싱은 잡음 환경들에서 보이스 통신들을 위한 모바일 디바이스들의 사용을 지원하는 것이 바람직할 수도 있다.

본원에서 개시된 기법들은 보이스 코딩과 같은, 스피치 프로세싱을 향상시키기 위해 보이스 활성도 검출 (VAD) 을 향상시키는데 이용될 수도 있다. 개시된 보이스 활성도 검출 기법들은 보이스 검출의 정확도 및 신뢰성을 향상시키고, 따라서, 보이스 활성도 검출, 예컨대 잡음 감소, 에코 소거, 레이트 코딩 및 기타 등등에 의존하는 기능들을 향상시키는데 이용될 수도 있다. 이러한 향상은 예를 들어, 하나 이상의 별개의 디바이스들로부터 제공될 수도 있는 보이스 활성도 검출 정보를 이용함으로써, 달성될 수도 있다. 보이스 활성도 검출 정보는 더 정확한 보이스 활성도 검출기를 제공하기 위해 다수의 마이크로폰들 또는 다른 센서 모달리티 (modality) 들을 이용하여 발생될 수도 있다.

본원에서 설명되는 바와 같은 보이스 활성도 검출기의 사용은 전통적인 보이스 활성도 검출에서, 특히 낮은 신호-대-잡음-비 (SNR) 시나리오들에서, 비-고정 잡음 및 경합하는 보이스들 경우들, 및 보이스가 존재할 수도 있는 다른 경우들에 종종 경험되는 스피치 프로세싱 에러들을 감소시킬 것으로 기대될 수도 있다. 게다가, 목표 보이스가 식별될 수도 있으며, 이러한 보이스 활성도 검출기가 목표 보이스 활성도의 신뢰성있는 추정을 제공하는데 이용될 수도 있다. 잡음 추정 업데이트들, 에코 소거 (EC), 레이트-제어 및 기타 등등과 같은, 보코더 기능들을 제어하기 위해, 보이스 활성도 검출 정보를 이용하는 것이 바람직할 수도 있다. 더 신뢰성있고 정확한 보이스 활성도 검출기가 다음과 같은 스피치 프로세싱 기능들을 향상시키기 위해 이용될 수도 있다: 잡음 감소 (NR) (즉, 더 신뢰성있는 보이스 활성도 검출로, 더 높은 잡음 감소가 비-보이스 세그먼트들에서 수행될 수도 있다), 보이스 및 비-보이스 세그먼트 추정, 에코 소거, 향상된 이중 검출 방식들, 및 레이트 코딩 향상들, 이들은 더 적극적 레이트 코딩 방식들 (예를 들어, 비-보이스 세그먼트들에 대해 낮은 레이트) 을 허용한다.

본원에서 설명되는 방법은 캡쳐된 신호를 세그먼트들의 시리즈로서 프로세싱하도록 구성될 수도 있다. 전형적인 세그먼트 길이들은 약 5 또는 10 밀리초로부터 약 40 또는 50 밀리초까지 범위이며, 세그먼트들은 중첩하거나 (예컨대, 인접한 세그먼트들은 25% 또는 50% 로 중첩한다) 또는 비-중첩할 수도 있다. 하나의 구체적인 예에서, 신호는 10 밀리초의 길이를 각각 갖는 비-중첩하는 세그먼트들 또는 "프레임들" 의 시리즈로 분할된다. 이러한 방법에 의해 프로세싱되는 세그먼트는 또한 상이한 동작에 의해 프로세싱되는 더 큰 세그먼트의 세그먼트 (즉, "서브프레임") 일 수도 있거나, 또는 그 역 또한 마찬가지이다.

불리한 환경들에서의 잡음 억제는 잡음 및 보이스 (voice) 파라미터들의 정확한 추정을 필요로 할 수도 있다. 그 레코딩된 신호들의 어느 부분들이 스피치 또는 잡음에 대응하는지의 라벨링은 이들 신호들의 성질들을 이용하는 단일 또는 멀티-채널 보이스 활성도 검출기들을 통해서 달성될 수도 있다. 보이스 활성도 검출기들 중 어느 보이스 활성도 검출기들이 신뢰성있는지의 여부를 결정하기 위해 신호-대-잡음비 조건들이 평가될 수도 있다. 대응하는 체크들 및 경계들 (bounds) 은 라벨링 방식으로 설정될 수도 있다. 이러한 예방책들 및 정교한 라벨링에도 불구하고, 특히, 낮은 신호-대-잡음비 조건들을 가지는 신호들에서, 또는 결정 에러들이 일시적인 보이스 감쇠를 초래할 수도 있는 동적 시나리오들에서, 어느 정도의 손상이 그 프로세싱된 스피치에 일어날 수도 있다. 이것은 스피치 엔벨로프의 요철부들 (bumps and dips), 스피치 출력 신호의 완전한 감쇠 또는 상당한 왜곡에서 뚜렷하다. 따라서, 어떤 지각 출력 레벨 일관성을 유지하기 위해 복원 스테이지가 이용될 수도 있다. 이것은, 잡음 억제 방식을, 레코딩된 스피치 입력 스펙트럼 및 레벨들에 대해 잡음 억제 출력을 체크함으로써 최종 출력 이득이 결정될 수도 있는 폐루프 시스템으로 만든다.

스피치 엔벨로프는 그의 보이스 부분에서, 더 구체적으로는 기본적인 피치 주파수의 배수의 스펙트럼 이득에서 인코딩될 수도 있다. 이들 이득들을 결정하는 것은 레코딩된 스펙트럼에서의 피크들의 트래킹 및/또는 완전한 피치 추정 포함할 수도 있다. 신호-대-잡음비 측정치들은 스펙트럼의 부분들 중 어느 부분들이 이들 이득들을 결정하는데 이용될 수 있는지의 여부를 결정할 수도 있다. 핸드셋 구성에서, 우수한 신호-대-잡음비를 가진 신호가 있도록 보장하는 한 방법은, 동일한 콘텐츠를 가지지만 사용자의 입으로부터의 마이크로폰들의 거리로 인해 상이한 레코딩된 신호-대-잡음비들을 가지는 2개의 (또는 더이상의) 신호들을 감산하는 마이크로폰간 감산 스테이지의 출력에서, 피크 로케이션들 또는 피치를 추정하는 것일 수도 있다. 일단 피크 로케이션들이 알려지면, 그들은 원래 입력 스펙트럼으로부터 취출될 수도 있다. 입력 스펙트럼의 어느 부분들이 분석을 위한 보이스 스피치인지를 라벨링하는 것은 단일 및 멀티-채널 보이스 활성도 검출기들의 사용을 통해서 달성될 수도 있다. 스피치 엔벨로프가 주어지면, 잡음 억제 출력 또는 이득은 보이스 스피치 피크 로케이션들에서, 사전-정의된 레벨 또는 레코딩된 입력과 관련된 레벨로 축소 (scale back) 될 수도 있다. 예를 들어, 억제된 출력이 축소되면, 일부 정밀도 손실이 고정-소수점 구현에서 일어날 수도 있다. 이것을 방지하기 위해, 이득이 대신에 작용될 수도 있으며, 최종 이득은 모든 기능들 이후에 인가된다. 이것은 일관된 라우드니스 및 스피치 컬러의 감각 (sensation) 을 초래할 수도 있다. 스피커폰 또는 분산된 마이크로폰 어레이들과 같은, 다른 시나리오들에서, 신호-대-잡음비는, 잡음 억제가 너무 많은 손상을 초래할 수 있기 때문에, 스피치 엔벨로프의 완전한 재구성이 요구될 수도 있는 스펙트럼의 부분들에서 너무 불량할 수도 있다. 이것은 손실된 파라미터들이 일부 코드북에 기초하거나 또는 스펙트럼의 더 적은 잡음 부분들로부터 외삽되는 보이스 및 비보이스 스피치 양쪽의 합성 (예컨대, 이득 합성 및 위상 합성) 을 필요로 한다.

일부 구현예들에서, 스피치 엔벨로프를 보존하기 위해, 전자 디바이스는 보이스 스피치 보이스 활성도 검출기를 포함할 수도 있다. 전자 디바이스는 또한 (예컨대, 이중 마이크로폰으로부터 단일 마이크로폰 등으로 스위칭하기 위한) 스위치 메카니즘을 포함할 수도 있다. 하나의 접근법에 따르면, 스위칭 메카니즘은 위상 및 이중 마이크로폰 이득 차이들에 기초할 수도 있다. 또 다른 접근법에서, 스위칭 메카니즘은 위상, 이중-마이크로폰 이득 차이들 및 단일-마이크로폰 보이스 활성도 검출기에 기초할 수도 있다. 이 스위칭 메카니즘은 0-5 dB 신호-대-잡음비를 가진 공중 잡음 및/또는 음악 잡음의 존재 하에서는 충분하지 않을 수도 있다. 따라서, 스피치 고조파도에 기초한 더 신뢰성있는 보이스 활성도 검출기가 본원에서 개시된 시스템들 및 방법들에 따라서 이용될 수도 있다. 근단 보이스 스피치 검출기의 일 예는 고조파 생성 스펙트럼 (HPS) 보이스 활성도 검출기다.

일부 구현예들에서, 전자 디바이스는 향상된 신호의 피치를 평가함으로써 고조파 콘텐츠에 민감한 통계치를 계산할 수도 있다. 일부 구현예들에서, 향상된 신호는 Mic1 - a*Mic2 로서 특성화될 수도 있다. 따라서, 제 2 마이크로폰 (예컨대, Mic2) 의 신호는 제 1 마이크로폰 (예컨대, Mic1) 의 신호로부터 감산될 수도 있다. 게다가, 제 2 마이크로폰 (예컨대, Mic2) 의 신호는 (예컨대, a 팩터 (factor) 만큼) 스케일링될 수도 있다. 일부 예들에서, 피치 추정은 자기 상관, 켑스트럼, 고조파 생성 스펙트럼 및/또는 선형 예측 코딩 (LPC) 기법들에 기초하여 수행될 수도 있다. 예를 들어, 고조파 생성 스펙트럼은 피치를 계산하는데 주파수 영역 접근법을 이용할 수도 있다. 전자 디바이스는 또한 스피치 피치 히스토그램을 최적의 유지 패턴 간격들로 계산할 수도 있다. 스피치 피치 히스토그램은 고조파 통계치들을 게이트 (gate) 하는데 이용될 수도 있다. 예를 들어, 히스토그램은 스피치 피치 범위에만 민감하게 함으로써 고조파 통계치를 게이트할 수도 있다. 일부 구현예들에서, 히스토그램은 고정된 버퍼 길이로 업데이트될 수도 있어, 경시적으로 조정될 수 있다. 최종 고조파 통계치 (예컨대, 게이트된 고조파 통계치) 가 근단 보이스 스피치 검출기를 계산하는데 이용될 수도 있다. 일부 구현예들에서, 용어 "근단 (near end)" 은, 피치 추정이 2개의 마이크로폰들 사이의 차이 (예컨대, Mic1-Mic2) 에 기초할 수도 있는 신호를 지칭한다. 이것은 Mic1 (따라서, 근단 폰 사용자) 에 더 가까운 신호들을 강조할 수도 있다. 보이스 스피치 검출기는 고조파도를 어떤 피치 범위에서 찾을 수도 있다. 피치 범위 또는 윤곽선은 스피치 히스토그램에 의해 학습될 수도 있다. 일부 구현예들에서, 피치 범위가 고조파도 통계치를 가중하는데 이용될 수도 있다. 예를 들어, 1에 가까운 가중치는 현재의 프레임에서의 피치가 히스토그램의 최대치에 가깝게 로케이트될 때 이용될 수도 있다. 또는, 제로에 가까운 가중치는 피치 범위가 히스토그램의 테일 엔드 (tail end) 들을 따라서 로케이트될 때 이용될 수도 있다. 일부 구현예들에서, 히스토그램은 마이크로폰 이득 차이가 크거나 및/또는 측정된 고조파도가 클 때에만 업데이트될 수도 있다. 근단 보이스 스피치 검출기는 근단 스피치를 검출하기 위해 다른 단일 채널 보이스 활성도 검출들과 통합될 수도 있다. 감쇠된 근단 스피치가 일부 간격들 (예컨대, 1.5 초 간격들) 동안 검출되면, 스위칭 메카니즘은 단일 마이크로폰으로 스위칭할 수도 있다. 일부 경우들에서, 용어들 "고조파 (harmonic)" 및 "고조파도 (harmonic)" 는 본원에서, 상호교환가능하게 사용될 수도 있다는 점에 유의해야 한다. 예를 들어, "고조파 통계치" 는 "고조파도 통계치" 로서 대안적으로 지칭될 수도 있다.

보이스 활성도 검출이 음악, 잡음, 또는 다른 사운드들을 또한 포함할 수도 있는 오디오 신호의 세그먼트들에서, 인간 스피치의 존재 또는 부재를 나타내는데 사용될 수도 있다. 스피치-비활성 프레임들과의 스피치-활성 프레임들의 이러한 구별은 스피치 강화 및 스피치 코딩의 중요한 부분이며, 보이스 활성도 검출은 다양한 스피치-기반의 애플리케이션들을 위한 중요한 인에이블링 기술 (enabling technology) 이다. 예를 들어, 보이스 활성도 검출은 보이스 코딩 및 스피치 인식과 같은 애플리케이션들을 지원하는데 이용될 수도 있다. 보이스 활성도 검출은 또한 비-스피치 세그먼트들 동안 일부 프로세스들을 비활성화하기 위해 이용될 수도 있다. 이러한 비활성화는 오디오 신호의 무음 (silent) 프레임들의 불필요한 코딩 및/또는 송신을 회피하여, 계산 및 네트워크 대역폭을 절감하는데 이용될 수도 있다. (예컨대, 본원에서 설명되는 바와 같은) 보이스 활성도 검출의 방법은 통상적으로, 스피치가 세그먼트에 존재하는지의 여부를 나타내기 위해서, 오디오 신호의 일련의 세그먼트들의 각각에 대해 반복하도록 구성된다.

보이스 통신 시스템 내 보이스 활성도 검출 동작은 매우 다양한 유형들의 음향 백그라운드 잡음의 존재 하에서 보이스 활성도를 검출할 수 있는 것이 바람직할 수도 있다. 잡음 환경들에서 보이스의 검출에 있어 하나의 어려움은 종종 만나게 되는 매우 낮은 신호-대-잡음비들이다. 이들 상황들에서, 보이스와 잡음, 음악 또는 다른 사운드들간에 구별하는 것은 종종 어렵다.

여러 구성들이 이하에서 도면들을 참조하여 설명되며, 여기서, 유사한 참조 번호들은 기능적으로 유사한 엘리먼트들을 나타낼 수도 있다. 본원에서 도면들에 일반적으로 설명되고 예시된 바와 같은 시스템들 및 방법들은 폭넓게 다양한 상이한 구성들로 배열되어 설계될 수 있다. 따라서, 도면들에 나타낸 바와 같은, 여러 구성들의 다음의 더 상세한 설명은, 청구된 대로, 범위를 한정하려고 의도되지 않으며, 단지 시스템들 및 방법들을 나타낼뿐이다. 도면에 도시된 특성들 및/또는 엘리먼트들은 일부 구성들에서 하나 이상의 다른 도면들에 도시된 하나 이상의 특성들 및/또는 엘리먼트들과 결합되거나 또는 그들로 대체될 수도 있다. 예를 들어, 본원에서 설명되는 전자 디바이스들 중 하나 이상은 본원에서 설명되는 방법들 중 하나 이상과 관련하여 설명된 기능들 중 하나 이상을 수행하는 회로를 포함할 수도 있다. 더욱이, 일부 구성들에서 기능들 및/또는 블록들/모듈들 중 하나 이상은 다른 구성들에서 기능들 및/또는 블록들/모듈들 중 하나 이상으로 대체되거나 또는 그들과 결합될 수도 있다.

도 1 은 신호 레벨 매칭을 위한 시스템들 및 방법들이 구현될 수도 있는 전자 디바이스 (102) 의 하나의 구성을 예시하는 블록도이다. 전자 디바이스 (102) 의 예들은 무선 통신 디바이스들, 디지털 오디오 리코더들, 비디오 카메라들, 데스크탑 컴퓨터들 등을 포함한다. 예를 들어, 무선 통신 디바이스들의 예들은 스마트폰들, 셀룰러폰들, 개인 휴대정보 단말기들 (PDAs), 무선 모뎀들, 휴대형 디바이스들, 랩탑 컴퓨터들, 세션 개시 프로토콜 (SIP) 폰들, 무선 로컬 루프 (WLL) 국들, 다른 무선 디바이스들 등을 포함한다.

전자 디바이스 (102) 는 복수의 마이크로폰들 (104), 마이크로폰간 감산 블록/모듈 (106), 엔벨로프 결정 블록/모듈 (110), 조정된 잡음 억제 이득 인가 블록/모듈 (118) 및 잡음 억제 블록/모듈 (114) 중 하나 이상을 포함할 수도 있다. 본원에서 사용될 때, 어구 "블록/모듈" 은 특정의 구성요소가 하드웨어, 소프트웨어 또는 양자의 조합으로 구현될 수도 있다는 것을 나타낸다. 예를 들어, 마이크로폰간 감산 블록/모듈 (106) 은 회로와 같은 하드웨어 구성요소들 및/또는 명령들 또는 코드 등과 같은 소프트웨어 구성요소들로 구현될 수도 있다.

복수의 마이크로폰들 (104) 은 복수의 오디오 신호들 (182) 을 수신 (예컨대, 캡쳐) 할 수도 있다. 일부 구현예들에서, 오디오 신호 (182) 는 하나 이상의 성분들을 가질 수도 있다. 예를 들어, 마이크로폰 (104) 은 스피치 성분 및 잡음 성분을 가진 오디오 신호 (182) 를 수신할 수도 있다. 일 예에서, 스피치 성분은 전자 디바이스 (102) 상에서 말하는 사용자의 보이스를 포함할 수도 있다. 위에서 설명한 바와 같이, 오디오 신호 (182) 의 잡음 성분은 원하는 스피치 성분과 간섭하는 임의의 성분일 수도 있다. 잡음 성분들의 예들은 경합하는 화자들, 환경 잡음, 스피치 신호의 반향 등을 포함한다.

일부 구성들에서, 복수의 마이크로폰들 (104) 은 전자 디바이스 (102) 상에서 이격될 수도 있다. 예를 들어, 제 1 마이크로폰 (104) 은 전자 디바이스 (102) 상에서 제 1 로케이션에 배치될 수도 있다. 제 2 마이크로폰 (104) 은 제 1 로케이션과는 다른 전자 디바이스 (102) 상의 제 2 로케이션에 배치될 수도 있다. 이 예에서, 제 1 마이크로폰 (104) 및 제 2 마이크로폰 (104) 은 상이한 오디오 신호들 (182) 을 수신할 수도 있다. 예를 들어, 제 1 마이크로폰 (104) 은 오디오 신호 (182) 의 소스에 가깝게 로케이트될 수도 있다. 제 2 마이크로폰 (104) 은 오디오 신호 (182) 의 소스로부터 더 멀리 로케이트될 수도 있다. 이 예에서, 제 1 마이크로폰 (104) 은 제 2 마이크로폰 (104) 에 의해 수신되는 오디오 신호 (182) 와는 상이한 오디오 신호 (182) 를 수신할 수도 있다. 예를 들어, 제 1 마이크로폰 (104) 에 의해 수신된 오디오 신호 (182) 의 스피치 성분은 제 2 마이크로폰 (104) 에 의해 수신되는 오디오 신호 (182) 의 스피치 성분보다 더 강할 수도 있다.

전자 디바이스 (102) 가 입력 스펙트럼을 하나 이상의 대역들로 세그먼트화할 수도 있다는 점에 유의해야 한다 (여기서, 예를 들어, 입력 스펙트럼은 오디오 신호들 (182) 에 기초한다). 예를 들어, 전자 디바이스 (102) 는 오디오 신호들 (182) 의 입력 스펙트럼을 세그먼트화하여 대역(들)을 도 1 에 예시된 블록들/모듈들 중 하나 이상에 제공하는 세그멘테이션 블록/모듈 (도 1 에 미도시) 을 포함할 수도 있다. 따라서, 세그멘테이션 블록/모듈은 도 1 에 예시된 다른 블록들/모듈들 중 하나 이상에 커플링될 수도 있다. 이에 추가적으로 또는 대안적으로, 도 1 에 예시된 블록들/모듈들 (예컨대, 잡음 억제 블록/모듈 (114), 마이크로폰간 감산 블록/모듈 (106), 엔벨로프 결정 블록/모듈 (110), 조정된 잡음 억제 이득 인가 블록/모듈 (118) 등) 중 하나 이상은 입력 스펙트럼을 하나 이상의 대역들로 세그먼트화할 수도 있다.

잡음 억제 블록/모듈 (114) 은 복수의 마이크로폰들 (104) 에 커플링될 수도 있다. 잡음 억제 블록/모듈 (114) 은 복수의 마이크로폰들 (104) 로부터 복수의 오디오 신호들 (182) 을 수신할 수도 있다. 복수의 오디오 신호들 (182) 에 기초하여, 잡음 억제 블록/모듈 (114) 은 잡음 억제 이득 (116) 을 발생할 수도 있다. 일부 구현예들에서, 잡음 억제 이득 (116) 은 억제된 잡음을 가진 오디오 신호 (182) 에 대한 필터 이득의 버전을 반영할 수도 있다. 예를 들어, 잡음 억제 블록/모듈 (114) 은 복수의 마이크로폰들 (104) 로부터 복수의 오디오 신호들 (182) 을 수신할 수도 있다. 잡음 억제 블록/모듈 (114) 은 그후 잡음 오디오 신호 (182) 를 다양한 잡음 억제 기법들 (예컨대, 클리핑 (clipping) 기법) 을 이용하여 감소시킬 수도 있다.

마이크로폰간 감산 블록/모듈 (106) 은 복수의 마이크로폰들 (104) 에 커플링될 수도 있다. 마이크로폰간 감산 블록/모듈 (106) 은 복수의 마이크로폰들 (104) 로부터 복수의 오디오 신호들 (182) 을 수신할 수도 있다. 일부 구성들에서, 마이크로폰간 감산 블록/모듈 (106) 은 복수의 오디오 신호들 (182) 에 기초하여 차이 신호 (108) 를 결정할 수도 있다. 예를 들어, 마이크로폰간 감산 블록/모듈 (106) 은 제 1 마이크로폰 (104) 에 의해 수신된 오디오 신호 (182) 로부터 제 2 마이크로폰 (104) 에 의해 수신된 오디오 신호 (182) 를 감산하여, 차이 신호 (108) 를 발생할 수도 있다.

전자 디바이스 (102) 의 사용 동안, 전자 디바이스 (102) 은 여러 방위들로 유지될 수도 있다. 스피치 오디오 신호 (182) 는 대부분의 핸드셋 유지 (holding) 각도들에 대해 제 1 마이크로폰 (104) (예컨대, 오디오 신호 (182) 의 소스에 더 가까운 마이크로폰 (104)) 으로부터 제 2 마이크로폰 (104) (예컨대, 오디오 신호 (182) 의 소스로부터 더 먼 마이크로폰 (104)) 까지 상이할 것으로 예상될 수도 있다. 그러나, 잡음 오디오 신호 (182) 는 제 1 마이크로폰 (104) 로부터 제 2 마이크로폰 (104) 까지 대략 동일하게 남을 것으로 예상될 수도 있다. 그 결과, 마이크로폰간 감산은 제 1 마이크로폰 (104) (예컨대, 오디오 신호 (182) 의 소스에 더 가까운 마이크로폰 (104)) 에서 신호-대-잡음비를 향상시킬 것으로 예상될 수도 있다.

일부 구성들에서, 차이 신호 (108) 는 복수의 마이크로폰들 (104) 로부터의 하나 이상의 오디오 신호들 (182) 사이의 차이들을 나타낼 수도 있다. 예를 들어, 차이 신호 (108) 는 제 1 마이크로폰 (104) 에 의해 수신된 오디오 신호 (182) 와 제 2 마이크로폰 (104) 에 의해 수신된 오디오 신호 (182) 사이의 차이를 나타낼 수도 있다. 일부 예들에서, 차이 신호 (108) 는 수신된 오디오 신호들 (182) 의 하나 이상의 특성들을 나타낼 수도 있다. 예를 들어, 차이 신호 (108) 는 수신된 오디오 신호들 (182) 에서 위상 차이를 나타낼 수도 있다. 이에 추가적으로 또는 대안적으로, 차이 신호 (108) 는 수신된 오디오 신호들 (182) 에서 레벨 차이를 나타낼 수도 있다. 차이 신호 (108) 는 또한 오디오 신호 (182) 의 상이한 성분들을 강조할 수도 있다. 예를 들어, 위에서 설명한 바와 같이, 제 1 마이크로폰 (104) 은 제 2 마이크로폰 (104) 과는 상이한 스피치 오디오 신호 (182) 를 가질 수도 있다. 이 예에서, 제 1 마이크로폰 (104) 및 제 2 마이크로폰 (104) 은 유사한 잡음 오디오 신호들 (182) 을 가질 수도 있다. 이 예에서, 차이 신호 (108) 는 스피치 오디오 신호들 (182) 에서의 차이를 나타낼 수도 있으며, 따라서 스피치 오디오 신호 (182) 를 강조한다.

차이 신호 (108) 는 다수의 고조파들을 포함할 수도 있다. 일부 구성들에서, 고조파는 기본 주파수의 정수배일 수도 있다. 예를 들어, 기본 주파수는 보이스의 공진 주파수를 나타낼 수도 있다. 즉, 고조파는 성대들의 진동에 의해 초래될 수도 있다. 따라서, 차이 신호 (108) 는 기본 주파수의 다수의 정수 변형들을 포함할 수도 있다. 이 예에서, 차이 신호 (108) 는 기본 주파수에 기초하는 복수의 고조파들을 포함할 수도 있다.

일부 구성들에서, 고조파도는 차이 신호 (108) 에 기초하여 계산될 수도 있다. 예를 들어, 고조파도는 고조파 생성 스펙트럼 (HPS) 접근법 (예컨대, 주기성의 정도) 을 이용하여 계산될 수도 있다. 고조파도 임계치가 고조파도의 레벨에 인가될 수도 있다. 차이 신호 (108) 의 고조파도가 특정 고조파도 임계치를 초과하면, 이 프레임은 보이스 스피치 프레임으로서 라벨링될 수 있거나 또는 적어도 보이스 스피치를 가질 가능성있는 후보이다. 엔벨로프 결정 블록/모듈 (110) 은 일부 구성들에서 고조파도를 계산할 수도 있다. 이의 대안으로, 또 다른 구성요소 또는 블록/모듈은 고조파도를 계산할 수도 있다.

일부 구현예들에서, 향상된 변수 레이트 코덱 (EVRC) 에서 보이스/비보이스 스피치 분류들을 위한 고조파도 임계치는 파형의 에너지에서 기초할 수도 있다. 고조파도 임계치는 자기상관에 관한 Levinson-Durbin 알고리즘에서의 초기 항들 중 일부에 관련될 수도 있다. 일부 구현예들에서, 고조파도 임계치는 경험적으로 결정되거나 및/또는 조정가능할 수도 있다. 고조파도 임계치들의 일부 예들은 제로-교차점들의 개수 또는 에너지의 퍼센티지 범위에 기초할 수도 있다.

일부 구현예들에서, 임계치가 차이 신호 (108) 에 또한 인가될 수도 있다. 이 차이 신호 (108) 임계치는 암묵적 임계치 (implicit threshold) 일 수도 있다. 이 암묵적인 임계치는 제로일 수도 있다. 예를 들어, 빈-방식 (bin-wise) 감산 이후, 음의 차이들이 제로에 클립될 수도 있다. 게다가, 차이 신호 (108) 임계치는 제로로부터 임의의 고정된 값까지 조정될 수도 있거나, 또는 고조파도 또는 신호-대-잡음비와 같은 통계치들에 따라서 설정될 수 있다. 예를 들어, 고조파도가 최근에 높았으면, 강한 고조파 성분의 일부가 이 조건에서 여하튼 살아남을 가능성이 더 높을 것이기 때문에, 차이 신호 (108) 임계치는 작은 차이들이 무시되도록 조정 (예컨대, 증가) 될 수 있다. 또 다른 예에서, 낮은 신호-대-잡음비 경우에, 차이 신호 (108) 임계치는 차이 신호 (108) 에서 잡음을 폐기하도록 상승될 수 있다. 또 다른 접근법에서, 차이 신호 (108) 임계치가 제로 아래로 낮아질 수도 있으며 바이어스가 추가되어 임계치에서의 차이를 제로로 만듦으로써 잡음의 원하는 신호가 고조파도 계산에 이용될 수 있다.

일부 접근법들에서, 차이 신호 (108) 는 오디오 신호들 (182) 중 하나 이상을 하나 이상의 이득들로 곱한 이후에 결정되거나 또는 획득될 수도 있다. 예를 들어, 차이 신호 (108) 는 Mic1-a*Mic2 로서 표현될 수도 있으며, 여기서, "Mic1" 는 제 1 마이크로폰 (104) 신호이고, "Mic2" 는 제 2 마이크로폰 신호 (104) 이고, "a" 는 이득이다. 이득들 중 하나 이상이 0일 수도 있다는 점에 유의해야 한다. 예를 들어, 차이 신호 (108) 는 Mic1-0*Mic2 로서 표현될 수도 있다. 따라서, 차이 신호 (108) 는 일부 구성들에서 오디오 신호들 (182) 중 하나일 수도 있다. 마이크로폰간 감산 블록/모듈 (106) 은 옵션적일 수도 있으며, 일부 구성들에서 전자 디바이스 (102) 에 포함되지 않을 수도 있다는 점에 유의해야 한다. 이들 구성들에서, 오디오 신호들 (182) 중 하나 이상이 엔벨로프 결정 블록/모듈 (110) 에 제공될 수도 있다.

엔벨로프 결정 블록/모듈 (110) 은 마이크로폰간 감산 블록/모듈 (106) 에 커플링될 수도 있다. 엔벨로프 결정 블록/모듈 (110) 은 엔벨로프 (112) 를 결정할 수도 있다. 즉, 엔벨로프 결정 블록/모듈 (110) 은 엔벨로프 (112) 의 형상을 결정할 수도 있다. 엔벨로프 결정 블록/모듈 (110) 은 다수의 주파수 대역 윤곽선 (contour) 들을 발생하거나 및/또는 조합하여, 엔벨로프 (112) 를 발생할 수도 있다. 일부 구현예들에서, 엔벨로프 결정 블록/모듈 (110) 은 복수의 오디오 신호들 (182) 에 기초하여 엔벨로프 (112) 를 결정할 수도 있다. 더 구체적으로는, 엔벨로프 결정 블록/모듈 (110) 은 오디오 신호 (182) 에 기초하여 엔벨로프 (112) 를 결정할 수도 있다. 예를 들어, 엔벨로프 결정 블록/모듈 (110) 은 차이 신호 (108) 에서 나타낸 바와 같이 오디오 신호 (182) 의 스피치 성분에 기초하여 엔벨로프 (112) 를 결정할 수도 있다.

일부 구성들에서, 엔벨로프 결정 블록/모듈 (110) 은 엔벨로프 (112) 를 오디오 신호 (182) 의 하나 이상의 고조파들에 둘 수도 있다. 위에서 설명한 바와 같이, 오디오 신호 (182) 는 (스피치에 대응하는) 기본 주파수의 하나 이상의 고조파들을 포함할 수도 있다. 이 예에서, 엔벨로프 결정 블록/모듈 (110) 은 엔벨로프 (112) 를 결정함에 있어서 오디오 신호들 (182) 의 고조파들을 보존할 수도 있다.

일부 구현예들에서, 일단 프레임이 보이스 스피치로서 라벨링되었으면 (예컨대, 보이스 스피치가 스피치 엔벨로프를 인코딩하면), 피치는 검출된 고조파도 및 그 피치에 기초한 원래 마이크로폰 입력 신호의 스피치 피크들에 기초하여 결정될 수 있다. 피크들은 또한 검출된 보이스 스피치를 가진 각각의 프레임에서 최소치/최대치 검색을 수행함으로써 결정될 수도 있다. 이들 피크 진폭들은 잡음 억제에 의해 손상되어 그들은 원래 입력 레벨들로 축소되거나 또는 복원될 필요가 있을 수도 있다.

조정된 잡음 억제 이득 인가 블록/모듈 (118) 은 엔벨로프 결정 블록/모듈 (110), 잡음 억제 블록/모듈 (114) 및/또는 하나 이상의 마이크로폰들 (104) 에 커플링될 수도 있다. 조정된 잡음 억제 이득 인가 블록/모듈 (118) 은 잡음 억제 이득 (116), 엔벨로프 (112) 및 참조 오디오 신호 (103) 중 하나 이상에 기초하여 출력 (101) (예컨대, 잡음-억제된 출력 신호) 을 발생할 수도 있다. 예를 들어, 조정된 잡음 억제 이득 인가 블록/모듈 (118) 은 엔벨로프 (112) 를 잡음-억제된 신호에 인가할 수도 있다. 앞에서 설명한 바와 같이, 잡음 억제 이득 (116) 은 억제된 잡음을 가진 오디오 신호 (182) 에 대한 필터 이득을 반영할 수도 있으며, 여기서, 잡음은 임의 개수의 잡음-억제 기법들을 이용하여 억제되었다. 일부 구성들에서, 조정된 잡음 억제 이득 인가 블록/모듈 (118) 은 잡음 억제 블록/모듈 (114) 로부터 잡음 억제 이득 (116) 을 수신할 수도 있다. 조정된 잡음 억제 이득 인가 블록/모듈 (118) 은 또한 엔벨로프 결정 블록/모듈 (110) 로부터 엔벨로프 (112) 를 수신할 수도 있다. 게다가, 조정된 잡음 억제 이득 인가 블록/모듈 (118) 은 하나 이상의 마이크로폰들 (104) 로부터 참조 오디오 신호 (103) 를 수신할 수도 있다. 일부 구성들에서, 참조 오디오 신호 (103) 는 오디오 신호들 (182) 중 하나일 수도 있다. 예를 들어, 참조 오디오 신호 (103) 는 목표 스피치의 실제 이득이 측정될 수도 있는 마이크로폰 (104) 신호들 중 하나일 수도 있다.

일 예에서, 조정된 잡음 억제 이득 인가 블록/모듈 (118) 은 엔벨로프 (112) 및 잡음 억제 이득 중 하나 이상을 잡음-억제된 신호에 인가할 수도 있다. 일부 구현예들에서, 조정된 잡음 억제 이득 인가 블록/모듈 (118) 은 엔벨로프 (112) 및 잡음 억제 이득 (116) 을 인가하여 출력 (101) 레벨이 오디오 신호 (182) 레벨과 대략 매칭하게 할 수도 있다. 예를 들어, 조정된 잡음 억제 이득 인가 블록/모듈 (118) 은 잡음-억제된 신호의 하나 이상의 피크들 및 골짜기들을 클립할 수도 있다. 이에 추가적으로 또는 대안적으로, 조정된 잡음 억제 이득 인가 블록/모듈 (118) 은 잡음-억제된 신호의 부분 스케일링하여 그것이 엔벨로프 (112) 와 대략 매칭하게 할 수도 있다. 예를 들어, 조정된 잡음 억제 이득 인가 블록/모듈 (118) 은 잡음-억제된 신호의 하나 이상의 대역들을 곱하여 그것이 엔벨로프 (112) 와 대략 매칭하게 할 수도 있다. 일부 구성들에서, 조정된 잡음 억제 이득 인가 블록/모듈 (118) 은 엔벨로프 (112) 및 잡음 억제 이득 (116) 을 인가하여 출력 (101) 레벨이 복수의 오디오 신호들 (182) 레벨과 대략 매칭하게 할 수도 있다.

일부 구성들에서, 전자 디바이스 (102) 는 스펙트럼 피크들을 결정하기 위해서 차이 신호 (108) 및/또는 참조 오디오 신호 (103) 를 이용할 수도 있다. 스펙트럼 피크들은 스펙트럼 피크들에 기초하여 최종 잡음 억제 이득을 복원하거나 및/또는 조정하는데 이용될 수도 있다. 복원 또는 엔벨로프 조정이 잡음-억제된 신호에 대해 이득 함수를 적용하기 전에 적용될 수도 있다는 점에 유의해야 한다. 예를 들어, 복원 또는 엔벨로프 조정이 이득 함수 이후에 적용되면, 고정-소수점 코딩에서 일부 정밀도 손실이 발생할 수도 있다. 이들 구성들에 관한 더 많은 상세는 도 20 내지 도 28 과 관련하여 아래에 주어진다.

도 2 는 신호 레벨 매칭 방법 (200) 의 하나의 구성을 예시하는 흐름도이다. 방법 (200) 은 전자 디바이스 (102) 에 의해 수행될 수도 있다. 예를 들어, 방법 (200) 은 무선 통신 디바이스에 의해 수행될 수도 있다. 전자 디바이스 (102) 는 복수의 마이크로폰들 (104) 로부터 복수의 오디오 신호들 (182) 을 캡쳐할 수도 있다 (202). 예를 들어, 복수의 마이크로폰들 (104) 은 복수의 음향 오디오 신호들을 복수의 전자 오디오 신호들로 변환할 수도 있다. 일부 구성들에서, 전자 디바이스 (102) 는 입력 스펙트럼을 하나 이상의 대역들로 세그먼트화할 수도 있다 (여기서, 예를 들어, 입력 스펙트럼은 오디오 신호들 (182) 에 기초한다).

전자 디바이스 (102) 는 마이크로폰간 감산에 기초하여 차이 신호 (108) 를 결정할 수도 있다 (204). 더 구체적으로는, 전자 디바이스 (102) 는 복수의 오디오 신호들 (182) 의 마이크로폰간 감산에 기초하여 차이 신호 (108) 를 결정할 수도 있다 (204). 예를 들어, 전자 디바이스 (102) 는 제 1 마이크로폰 (104) 에 의해 수신된 오디오 신호 (182) 및 제 2 마이크로폰 (104) 에 의해 수신된 오디오 신호 (182) 에 기초하여 차이 신호 (108) 를 결정할 수도 있다 (204). 일부 구현예들에서, 전자 디바이스 (102) 는 마이크로폰간 감산에 기초하여 차이 신호를 결정할 수도 있으며 (204), 여기서, 차이 신호는 다수의 고조파들을 포함한다. 예를 들어, 차이 신호 (108) 는 기본 주파수의 다수의 고조파들을 포함할 수도 있다. 일부 구현예들에서, 마이크로폰간 감산에 기초하여 차이 신호 (108) 를 결정하는 것 (204) 은 스피치 신호에 대응하는 입력 스펙트럼의 부분들을 결정하는 것을 포함할 수도 있다.

전자 디바이스 (102) 는 차이 신호 (108) 의 고조파도가 고조파도 임계치를 초과하는지의 여부를 결정할 수도 있다 (206). 예를 들어, 고조파도는 차이 신호 (108) 에 기초하여 계산될 수도 있다. 일부 구현예들에서, 이것은 위에서 설명한 바와 같이 이루어질 수도 있다. 차이 신호 (108) 의 고조파도가 특정 고조파도 임계치를 초과하면, 이 프레임은 보이스 스피치 프레임으로 라벨링될 수 있거나 또는 적어도 보이스 스피치를 가질 가능성있는 후보이다.

전자 디바이스 (102) 는 엔벨로프 (112) 를 결정하기 위해 고조파들을 보존할 수도 있다 (208). 예를 들어, 전자 디바이스 (102) 는 엔벨로프 (112) 를 발생하기 위해 다수의 주파수 대역 윤곽선들을 발생/조합함으로써 엔벨로프 (112) 를 결정할 수도 있다. 일부 구현예들에서, 엔벨로프 결정 블록/모듈 (110) 은 복수의 오디오 신호들 (182) 에 기초하여 엔벨로프 (112) 를 결정할 수도 있다. 더 구체적으로는, 엔벨로프 결정 블록/모듈 (110) 은 스피치 오디오 신호 (182) 에 기초하여 엔벨로프 (112) 를 결정할 수도 있다. 예를 들어, 엔벨로프 결정 블록/모듈 (110) 은 차이 신호 (108) 에서 표현되는 바와 같이 스피치 오디오 신호 (182) 에 기초하여 엔벨로프 (112) 를 결정할 수도 있다.

일부 구성들에서, 엔벨로프 결정 블록/모듈 (110) 은 엔벨로프 (112) 를 오디오 신호 (182) 의 하나 이상의 고조파들에 둘 수도 있다. 이 예에서, 엔벨로프 결정 블록/모듈 (110) 은 오디오 신호 (182) 의 고조파들을 보존할 수도 있다 (208). 고조파들은 그후 엔벨로프 (112) 를 결정하는데 이용될 수도 있다. 위에서 설명한 바와 같이, 차이 신호 (108) 는 오디오 신호 (182) 의 하나 이상의 고조파들을 나타낼 수도 있다. 일부 구현예들에서, 엔벨로프 결정 블록/모듈 (110) 은 차이 신호 (108) 에서 표현되는 바와 같이 오디오 신호 (182) 의 고조파들을 보존할 수도 있다 (208). 일부 구성들에서, 엔벨로프 (112) 를 전개 (develop) 하기 위해 고조파들을 보존하는 것 (208) 은 마이크로폰들 (104) 에 의해 수신된 복수의 오디오 신호들 (182) 의 레벨들과 대략 동일한 엔벨로프 (112) 레벨들을 초래할 수도 있다.

전자 디바이스 (102) 는 엔벨로프 (112) 및 조정된 잡음 억제 이득 중 하나 이상을 인가하여, 잡음-억제된 신호를 획득할 수도 있다 (210). 예를 들어, 전자 디바이스 (102) 는 출력 신호 (예컨대, 정규화된 신호) 레벨(들) 이 입력 오디오 신호 (182) 의 하나 이상의 레벨들 (예컨대, 보이스 신호 레벨들) 과 매칭하도록 엔벨로프 (112) 를 인가할 수도 있다 (210). 위에서 설명한 바와 같이, 잡음-억제된 신호는 복수의 오디오 신호들 (182) 에 기초할 수도 있다. 예를 들어, 잡음-억제된 신호는 잡음이 억제된 복수의 오디오 신호들 (182) 의 버전을 반영할 수도 있다.

일부 구현예들에서, 엔벨로프 (112) 를 인가하는 것 (210) 은 엔벨로프 (112) 와 대략 매칭시키기 위해 잡음-억제된 신호를 조정하는 것을 포함할 수도 있다. 예를 들어, 조정된 잡음 억제 이득 인가 블록/모듈 (118) 은 잡음-억제된 신호가 엔벨로프 (112) 와 대략 매칭하도록, 잡음-억제된 신호의 하나 이상의 피크들 및 골짜기들을 클립할 수도 있다. 이에 추가적으로 또는 대안적으로, 조정된 잡음 억제 이득 인가 블록/모듈 (118) 은 엔벨로프 (112) 와 대략 매칭하도록 잡음-억제된 신호의 부분을 스케일링할 수도 있다. 예를 들어, 조정된 잡음 억제 이득 인가 블록/모듈 (118) 은 잡음-억제된 신호의 하나 이상의 대역들을 곱하여 그것이 엔벨로프 (112) 에 대략 매칭하게 할 수도 있다. 일부 구성들에서, 조정된 잡음 억제 이득 인가 블록/모듈 (118) 은 엔벨로프 (112) 를 신호에 인가하여, 잡음-억제된 신호 레벨들이 복수의 오디오 신호들 (182) 레벨들과 대략 매칭하게 할 수도 있다.

도 3 은 스피치 엔벨로프 보존 및/또는 복원을 위한 방법 (300) 의 하나의 구성을 예시하는 흐름도이다. 방법 (300) 은 전자 디바이스 (102) 에 의해 수행될 수도 있다. 일부 구성들에서, 전자 디바이스 (102) 는 마이크로폰간 이득 차이들이 평균적으로 작은지의 여부를 결정할 수도 있다 (302). 마이크로폰간 이득 차이들이 평균적으로 작다고 전자 디바이스 (102) 가 결정하면 (302), 전자 디바이스 (102) 는 단일 마이크로폰으로 스위칭할 수도 있다 (304). 예를 들어, 신호가 하나 이상의 기준들을 만족하면, 전자 디바이스 (102) 는 입으로부터 떨어져서 유지되고 단일 마이크로폰 (104) 으로 스위칭될 수도 있다 (304). 단일 마이크로폰으로의 스위칭 (304) 의 일 예가 다음과 같이 주어진다. 전자 디바이스 (102) 는 오디오 신호 (182) 가 하나 이상의 기준들을 만족하는지의 여부를 결정할 수도 있다. 일부 예들에서, 오디오 신호 (182) 는 관계 Mic1-bMic2 에 의해 정의된 이중 마이크로폰 (104) 신호일 수도 있으며, 여기서, b 는 스칼라 (scalar) 이다. 기준들의 예들은, 정의된 시간 기간에서 특정 임계치를 수 회 초과하는 오디오 신호 (182) 의 고조파도를 포함하며, 단일 채널 보이스 활성도 검출기는 활성이며 이중 마이크로폰 (104) 잡음 억제된 출력이 그 입력에 대해 감쇠된다. 일부 구성들에서, 각각의 프레임에서 차이 신호가 특정 고조파도 임계치를 초과하는지의 여부를 평가하는 것에 추가하여, 이 조건은, 잡음 억제 방식을 다수의 (예컨대, 이중) 마이크로폰들로부터 단일 마이크로폰으로 스위칭하는 충분한 증거가 되도록, 기간 (예컨대, 2 초) 내에 적어도 특정 개수의 프레임들에 대해 수행되야할 수도 있다. 오디오 신호 (182) 가 하나 이상의 기준들을 만족한다고 전자 디바이스 (102) 가 결정하면, 전자 디바이스 (102) 는 단일 마이크로폰 (104) 으로 스위칭할 수도 있다 (304). 일부 예들에서, 단일 마이크로폰 (104) 으로의 스위칭 (304) 은 수신된 입력에 기초할 수도 있다. 예를 들어, 사용자는 입으로부터 떨어져서 폰을 유지할 수도 있다.

마이크로폰간 이득들이 평균적으로 작지 않다고 전자 디바이스 (102) 가 결정하면 (302), 전자 디바이스 (102) 는 모든 주파수 빈에 대해 마이크로폰간 차이들을 측정할 수도 있다 (306). 일부 구현예들에서, 전자 디바이스 (102) 는 하나 이상의 기준들에 기초하여 주파수 빈들을 스피치 스펙트럼 빈들로서 라벨링할 수도 있다 (308). 예를 들어, 전자 디바이스 (102) 는, 차이들 (예컨대, 마이크로폰간 이득 차이들) 이 특정 임계치를 초과하고 근단 보이스 스피치 검출기가 보이스 활성도를 나타낼 때 (예컨대, 고조파 생성 스펙트럼 보이스 활성도 검출기가 1 과 같을 때) 주파수 빈들을 스피치 스펙트럼 빈들로서 라벨링할 수도 있다 (308). 전자 디바이스 (102) 는 검출된 피치를 이용하여 추가적인 스피치 스펙트럼 피크들을 예측할 수도 있다 (310). 전자 디바이스 (102) 는 제 1 마이크로폰 (104) (예컨대, Mic1) 신호에서 그 라벨링된 스피치 스펙트럼 이득들을 측정할 수도 있다 (312). 전자 디바이스 (102) 는 출력 스피치 스펙트럼 피크 빈들을 제 1 마이크로폰 (104) (예컨대, Mic1) 레벨로 복원하거나 및/또는 스피치 스펙트럼 골짜기 빈들을 감쇠시킬 수도 있다 (314).

도 4 는 신호 레벨 매칭을 위한 시스템들 및 방법들이 구현될 수도 있는 전자 디바이스 (402) 의 또 다른 구성을 예시하는 블록도이다. 전자 디바이스 (402) 는 도 1 과 관련하여 설명된 전자 디바이스 (102) 의 일 예일 수도 있다. 전자 디바이스 (402) 는 도 1 과 관련하여 설명된 마이크로폰간 감산 블록/모듈 (106) 의 일 예일 수도 있는 마이크로폰간 감산 블록/모듈 (406) 을 포함할 수도 있다. 구체적으로 설명하면, 마이크로폰간 감산 블록/모듈 (406) 은 복수의 마이크로폰들 (104) 에 의해 제공되는 하나 이상의 오디오 신호들 (482a-b) 을 감산할 수도 있다. 일부 구성들에서, 오디오 신호들 (482a-b) 은 도 1 과 관련하여 설명되는 오디오 신호들 (182) 의 예들일 수도 있다. 일부 구현예들에서, 마이크로폰간 감산 블록/모듈 (406) 은 입력 스펙트럼을 하나 이상의 대역들로 세그먼트화할 수도 있다. 마이크로폰간 감산 블록/모듈 (406) 은 오디오 신호들 (482a-b) 에서 잡음 레벨들을 줄일 수도 있으며, 마이크로폰간 감산 블록/모듈 (406) 에 의해 발생된 차이 신호 (408) 의 피크들을 향상시킬 수 있다. 일부 구성들에서, 차이 신호 (408) 는 도 1 과 관련하여 설명된 차이 신호 (108) 의 일 예일 수도 있다.

전자 디바이스 (402) 는 또한 피크 트랙커 (424), 피치 트랙커 (422), 에코 소거/잡음 억제 블록/모듈 (420), 잡음 피크 학습기 (438), 잔여 잡음 억제 블록/모듈 (436), 피크 로컬라이저 (426), 리파인먼트 블록/모듈 (428), 스피치 템플릿 스펙트럼 결정 블록/모듈 (440), 스피치 참조 스펙트럼 결정 블록/모듈 (442), 조합 스펙트럼 블록/모듈 (444) 및 이득 조정기 블록/모듈 (446) 중 하나 이상을 포함할 수도 있다.

차이 신호 (408) 는 피크 트랙커 (424) 및 피치 트랙커 (422) 중 하나 이상에 제공될 수도 있다. 이에 추가적으로 또는 대안적으로, 복수의 마이크로폰들 (104) 은 오디오 신호들 (482a-b) 을 피크 트랙커 (424) 및/또는 피치 트랙커 (422) 에 제공할 수도 있다. 피크 트랙커 (424) 는 차이 신호 (408) 및/또는 2 개 이상 오디오 신호들 (482a-b) 에서 피크들을 트랙킹할 수도 있다. 피치 트랙커 (422) 는 차이 신호 (408) 및/또는 2 개 이상 오디오 신호들 (482a-b) 의 피치 (예컨대, 보이스 신호의 기본 주파수 및/또는 고조파들) 를 트랙킹할 수도 있다. 피크 트랙커 (424) 및/또는 피치 트랙커 (422) 는 트래킹 정보를 피크 로컬라이저 (426) 에 제공할 수도 있다. 일부 구현예들에서, 피크 로컬라이저 (426) 는 오디오 신호들 (482a-b) 에서 피크들의 로케이션을 결정할 수도 있다. 예를 들어, 피크 로컬라이저 (426) 는 마이크로폰들 (104) 로부터 수신된 차이 신호 (408) 및 오디오 신호들 (482a-b) 의 피크들을 분석하여, 어느 피크들이 잡음에 의해 야기되는지 그리고 어느 피크들이 스피치에 의해 야기되는지를 결정할 수도 있다.

피크 로컬라이저 (426) 는 피크 정보를 리파인먼트 블록/모듈 (refinement block/module; 428) 에 제공할 수도 있다. 리파인먼트 블록/모듈 (428) 은 엔벨로프 (112) 를 결정하기 위한 피크 정보의 충분도를 결정할 수도 있다. 위에서 설명한 바와 같이, 엔벨로프 (112) 는 복수의 오디오 신호들 (482a-b) 의 피크들에 기초할 수도 있다. 피크들이 충분하지 않으면, 엔벨로프 (112) 는 신뢰성이 없을 수도 있다. 하나의 구성에서, 리파인먼트 블록/모듈 (428) 은 오디오 신호들 (482a-b) 의 신호-대-잡음비를 결정하고 그리고 신호-대-잡음비가 너무 낮은지를 결정함으로써, 피크들이 충분한지를 결정할 수도 있다. 예를 들어, 리파인먼트 블록/모듈 (428) 은 신호-대-잡음비들이 제 1 임계치 보다 낮은지를 결정할 수도 있다. 피크의 신호-대-잡음비가 너무 낮으면 (예컨대, 제 1 임계치보다 낮으면), 그 피크는 엔벨로프 (112) 의 형상을 결정하기에 충분한 정보를 제공하지 않을 수도 있다. 이 경우, 전자 디바이스 (402) 는 낮은 신호-대-잡음비를 가진 오디오 신호들 (482a-b) 의 부분에 대한 대체 대역 스펙트럼을 선택하기 위해 스피치 템플릿 스펙트럼 결정 블록/모듈 (440) 에 로케이트된 스피치 템플릿 스펙트럼 (484) 을 이용할 수도 있다. 일부 구성들에서, 스피치 템플릿 스펙트럼 (484) 은 코드북에 기초할 수도 있다. 다른 구성들에서, 스피치 템플릿 스펙트럼 (484) 은 신호-대-잡음비가 충분했던 입력 스펙트럼 (예컨대, 차이 신호 (408) 및 오디오 신호들 (482a-b)) 의 대역들의 내삽에 기초할 수도 있다.

그에 비해, 피크가 충분하면 (예컨대, 신호-대-잡음비가 너무 낮지 않으면), 전자 디바이스 (402) 는, 오디오 신호들 (482a-b) 의 그 부분에 대한 대역 스펙트럼을 선택하기 위해 스피치 참조 스펙트럼 (486) 을 이용할 수도 있다. 위에서 설명한 바와 같이, 복수의 마이크로폰들 (104) 은 스피치 참조 스펙트럼 결정 블록/모듈 (442) 에 커플링될 수도 있다. 일부의 경우, 스피치 참조 스펙트럼 결정 블록/모듈 (442) 은 복수의 오디오 신호들 (482a-b) 에 기초하는 스피치 참조 스펙트럼 (486) 을 포함할 수도 있다. 이 경우, 스피치 참조 스펙트럼 결정 블록/모듈 (442) 에 포함된 스피치 참조 스펙트럼 (486) 은, 신호-대-잡음비가 너무 낮지 않았던 입력 스펙트럼 (예컨대, 복수의 마이크로폰들 (104) 로부터의 오디오 신호들 (482a-b)) 의 부분들 포함할 수도 있다.

스피치 참조 스펙트럼 (486) 으로부터 및/또는 스피치 템플릿 스펙트럼 (484) 으로부터의 하나 이상의 신호 대역들은 조합 스펙트럼 블록/모듈 (444) 에 제공될 수도 있다. 예를 들어, 스피치 참조 스펙트럼 결정 블록/모듈 (442) 은 (예컨대, 피크 정보가 충분했던 오디오 신호 (482a-b) 의 대역들에 대응하는) 스피치 참조 스펙트럼 (486) 의 하나 이상의 대역들을 조합 스펙트럼 블록/모듈 (444) 로 전송할 수도 있다. 이와 유사하게, 스피치 템플릿 스펙트럼 결정 블록/모듈 (440) 은 (예컨대, 피크 정보가 충분하지 않았던 오디오 신호 (482a-b) 의 대역들에 대응하는) 스피치 템플릿 스펙트럼 (484) 의 하나 이상의 대역들을 조합 스펙트럼 블록/모듈 (444) 로 전송할 수도 있다. 조합 스펙트럼 블록/모듈 (444) 은 수신된 대역들에 기초하여 목표 스펙트럼 (488) 을 조합할 수도 있다. 일부 구성들에서, 도 1 과 관련하여 설명되는 엔벨로프 (112) 는 목표 스펙트럼 (488) 의 일 예일 수도 있다. 일부 구현예들에서, 목표 스펙트럼 (488) 은 이득 차이 및 피치 추정에 기초할 수도 있다. 목표 스펙트럼 (488) 은 그후 이득 조정기 블록/모듈 (446) 에 제공될 수도 있다. 아래에서 더욱더 자세하게 설명하는 바와 같이, 이득 조정기 블록/모듈 (446) 은 목표 스펙트럼 (488) 및/또는 잡음 억제 이득 (416) 에 기초하여 잡음-억제된 신호의 이득을 조정할 수도 있다.

에코 소거/잡음 억제 블록/모듈 (420) 은 하나 이상의 마이크로폰들 (104) 로부터 수신된 입력 오디오 신호들 (482a-b) 에 대해 에코 소거 및/또는 잡음 억제를 수행할 수도 있다. 일부 구현예들에서, 에코 소거/잡음 억제 블록/모듈 (420) 은 도 1 과 관련하여 설명되는 잡음 억제 블록/모듈 (114) 에 의해 수행되는 기능들 중 하나 이상을 구현할 수도 있다. 에코 소거/잡음 억제 블록/모듈 (420) 은 보이스 및 잡음 신호 (434) (V + N) 그리고 잡음 신호 (432) (N) 를 잔여 잡음 억제 블록/모듈 (436) 에 제공할 수도 있다.

피크 로컬라이저 (426) 로부터의 잡음 피크 정보 (430) 는 잔여 잡음 억제 블록/모듈 (436) 에 제공될 수도 있다. 이에 추가적으로 또는 대안적으로, 잡음 피크 학습기 (438) 는 정보를 잔여 잡음 억제 블록/모듈 (436) 에 제공할 수도 있다. 잡음 피크 학습기 (438) 는 비-고정 잡음 스펙트럼에서 피크들을 결정 (예컨대, 학습) 할 수도 있다. 일부 구성들에서, 이것은 피치 트래킹 및/또는 피크 트래킹에 이용되는 동일한 기법들에 기초하여 달성될 수도 있다. 그러나, 이것은 잡음 참조 신호 상에서 수행될 수도 있거나 또는 스피치 피크 트래킹의 부산물로서 결정 (예컨대, 학습) 될 수도 있다. 학습된 잡음 피크들은 간섭하는 스피커들 또는 음악의 음색 잔여 (tonal residual) 를 식별하는데 이용될 수도 있다. 음색 잔여(들) 이 그후 예를 들어, 잡음 억제 포스트-프로세싱 스테이지 (예컨대, 잔여 잡음 억제 블록/모듈 (436)) 에서 효과적으로 제거될 수도 있다. 잔여 잡음 억제 블록/모듈 (436) 은 보이스 및 잡음 신호 (434) 로부터 잔여 잡음을 제거하려는 시도로 추가적인 잡음 억제를 수행할 수도 있다. 예를 들어, 잔여 잡음 억제 블록/모듈 (436) 은 제 1 마이크로폰 (104) 신호의 고조파들을 결정할 수도 있다. 그들 고조파들에 기초하여, 잔여 잡음 억제 블록/모듈 (436) 은 잡음을 추가로 억제할 수도 있다. 또 다른 예에서, 잔여 잡음 억제 블록/모듈 (436) 은 차이 신호 (예컨대, 제 1 마이크로폰 (104) 마이너스 제 2 마이크로폰 (104) 신호) 의 고조파들을 결정할 수도 있다. 그들 고조파들에 기초하여, 잔여 잡음 억제 블록/모듈 (436) 은 잡음을 추가로 억제할 수도 있다. 예를 들어, 잔여 잡음 억제 블록/모듈 (436) 은 복수의 오디오 신호들에 기초하여 잔여 잡음을 억제할 수도 있다. 일부 구현예들에서, 잔여 잡음 억제 블록/모듈 (436) 은 도 1 과 관련하여 설명되는 잡음 억제 블록/모듈 (114) 에 의해 수행되는 기능들 중 하나 이상를 구현할 수도 있다.

잔여 잡음 억제 블록/모듈 (436) 은 잡음-억제 이득 (416) 을 이득 조정기 블록/모듈 (446) 에 제공할 수도 있다. 이득 조정기 블록/모듈 (446) 은 목표 스펙트럼 (488) 및/또는 잡음 억제 이득 (416) 에 기초하여 잡음-억제된 신호의 부분들 (예컨대, 주파수 대역들) 을 증폭하거나 및/또는 감쇠시킬 수도 있다. 이에 추가적으로 또는 대안적으로, 이득 조정기 블록/모듈 (446) 은 잡음-억제된 신호의 부분을 스케일링하여, 그것이 목표 스펙트럼 (488) 과 대략 매칭하게 할 수도 있다. 예를 들어, 이득 조정기 블록/모듈 (446) 은 잡음-억제된 신호의 하나 이상의 대역들을 곱하여, 그것이 목표 스펙트럼 (488) 과 대략 매칭하게 할 수도 있다. 일부 구성들에서, 이득 조정기 블록/모듈 (446) 은 목표 스펙트럼 (488) 을 잡음-억제된 신호에 인가하여, 잡음-억제된 신호가 복수의 마이크로폰들 (104) 의 복수의 오디오 신호들 (482a-b) 의 레벨과 대략 매칭하게 할 수도 있다. 일부 구성들에서, 이득 조정기 블록/모듈 (446) 은 잡음-억제된 신호의 하나 이상의 피크들 및 골짜기들을 클립하여, 잡음-억제된 신호가 목표 스펙트럼 (488) 의 레벨(들) 및/또는 복수의 오디오 신호들 (482a-b) 의 레벨(들) 과 대략 매칭하게 할 수도 있다. 이득 조정기 블록/모듈 (446) 은 출력 스펙트럼 (448) 을 제공할 수도 있다. 일부 구성들에서, 출력 스펙트럼 (448) 은 목표 스펙트럼 (488) 이 적용된 상태로 잡음-억제된 신호를 반영할 수도 있다. 출력 스펙트럼 (448) 신호의 레벨(들)은 입력 오디오 신호 (482a-b) (예컨대, 입력 보이스 신호) 의 레벨들과 대략 매칭할 수도 있다.

SNR 트랙커 (447) 는 일부 구성들에서 도 20 과 관련하여 설명되는 SNR 결정 블록/모듈 (2085) 과 유사하게 구현될 수도 있다. 또한, 피크 트랙커 (424) 는 도 20 과 관련하여 설명되는 피크 맵 블록/모듈 (2083) 과 유사하게 구현될 수도 있다. 더욱이, 피치 트랙커 (422) 는 고조파도 정보를 계산하기 위해 도 20 과 관련하여 설명되는 프레임-방식 프로세싱 블록/모듈 (2073) 을 포함할 수도 있다. 리파인먼트 블록/모듈 (428) 은 도 20 과 관련하여 설명되는 포스트-프로세싱 블록/모듈 (2093) 을 포함할 수도 있다.

일부 구성들에서, 피치 트랙커 (422) 는 에코 소거/잡음 억제 블록/모듈 (420) 에서 (및/또는 이전에서) 마이크로폰 스위칭 (예컨대, 이중 마이크로폰으로부터 단일 마이크로폰으로의 스위칭 및 단일 마이크로폰로부터 이중 마이크로폰으로의 스위칭 스탯 (stat) 변화) 를 수행하기 위해 고조파도 정보를 제공할 수도 있다.

도 5 는 신호 레벨 매칭 방법 (500) 의 또 다른 구성을 예시하는 흐름도이다. 방법 (500) 은 전자 디바이스 (102) 에 의해 수행될 수도 있다. 전자 디바이스 (102) 는 입력 스펙트럼을 다수의 주파수 대역들로 세그먼트화할 수도 있다 (502). 일부 구성들에서, 입력 스펙트럼은 복수의 오디오 신호들 (182) 을 포함할 수도 있다. 이 예에서, 전자 디바이스 (102) 는 입력 스펙트럼 (예컨대, 복수의 오디오 신호들 (182)) 을 다수의 주파수 범위들로 세그먼트화할 수도 있다 (502). 전자 디바이스 (102) 는 각각의 주파수 대역에서 신호-대-잡음비를 측정할 수도 있다 (504). 이 예에서, 하나 이상의 신호-대-잡음비들은 입력 스펙트럼에 대응할 수도 있다. 전자 디바이스 (102) 는 신호-대-잡음비들이 제 1 임계치 보다 낮은지를 결정할 수도 있다 (506).

전자 디바이스 (102) 는 목표 스펙트럼 (488) 을 조합할 수도 있다 (508). 예를 들어, 전자 디바이스 (102) 는 목표 스펙트럼 (488) 을 발생하기 위해 다수의 주파수 대역들을 조합할 수도 있다 (508). 일부 구현예들에서, 전자 디바이스 (102) 가 주파수 대역의 신호-대-잡음비가 제 1 임계치보다 낮았다고 결정하면 (506), 목표 스펙트럼 (488) 을 조합하는 것 (508) 은 스피치 참조 스펙트럼 (486) 의 부분을 스피치 템플릿 스펙트럼 (484) 의 부분으로 대체하는 것을 포함할 수도 있다. 목표 스펙트럼 (488) 은 스피치 참조 스펙트럼 (486) 의 부분 및 스피치 템플릿 스펙트럼 (484) 의 부분 중 하나 이상을 포함할 수도 있다. 일부 구성들에서, 전자 디바이스 (102) 는 스피치 참조 스펙트럼 (486) 의 부분들을 스피치 템플릿 스펙트럼 (484) 으로 대체할 수도 있다. 대체되는 스피치 참조 스펙트럼 (486) 의 부분은 신호-대-잡음비가 제 1 임계치보다 낮은 하나 이상의 대역들을 포함할 수도 있다. 예를 들어, 하나 이상의 대역들에 대한 신호-대-잡음비가 제 1 임계치보다 낮으면, 전자 디바이스 (102) 는 가장 가까운 매칭 윤곽 (contour) 에 대해 코드북 (예컨대, 스피치 템플릿 스펙트럼 (484)) 을 검색할 수도 있다. 전자 디바이스 (102) 는 그후 스피치 참조 스펙트럼 (486) 의 부분을 스피치 템플릿 스펙트럼 (484) 의 그 부분으로 대체할 수도 있다. 이러한 방법으로, 전자 디바이스 (102) 는 선택적으로, 신호-대-잡음비가 입력 보이스 (예컨대, 스피치) 윤곽을 신뢰성있게 결정하기에 너무 낮은 경우에 대해 스피치 템플릿 스펙트럼 (484) 을 이용할 수도 있다. 일부 구성들에서, 목표 스펙트럼 (488) 을 조합하는 것 (508) 은 고조파 합성 발생을 포함할 수도 있다.

주파수 대역의 신호-대-잡음비가 제 1 임계치보다 낮지 않았다고 전자 디바이스 (102) 가 결정하면 (506), 목표 스펙트럼 (488) 을 조합하는 것 (508) 은 스피치 참조 스펙트럼 (486) 의 부분을 조합하는 것을 포함할 수도 있다. 일부 예들에서, 스피치 참조 스펙트럼 (486) 은 입력 스펙트럼에 기초할 수도 있다. 일부 구성들에서, 포함되는 스피치 참조 스펙트럼 (486) 의 부분은 제 1 임계치보다 큰 신호-대-잡음비들을 나타낸 주파수 대역들에 대응할 수도 있다. 일부 구현예들에서, 방법 (500) 은 복수의 오디오 신호들에 기초하여 잔여 잡음을 억제하는 단계를 더 포함할 수도 있다.

전자 디바이스 (102) 는 목표 스펙트럼 (488) 에 기초하여 잡음-억제된 신호에서 하나 이상의 대역들의 이득을 조정할 수도 있다 (510). 예를 들어, 신호-대-잡음비들이 제 1 임계치보다 낮지 않다고 전자 디바이스 (102) 가 결정하거나 (506) 또는 목표 스펙트럼 (488) 의 조합 (508) 시에, 전자 디바이스 (102) 는 하나 이상의 출력 스펙트럼 (448) 레벨들을 하나 이상의 입력 신호 레벨들과 대략 매칭시키기 위해 각각의 대역에 대해 잡음-억제된 신호의 이득을 조정할 수도 있다 (510). 예를 들어, 전자 디바이스 (102) 는 잡음-억제된 신호의 부분을 스케일링하여, 그것이 목표 스펙트럼 (488) 과 대략 매칭하게 할 수도 있다. 예를 들어, 전자 디바이스 (102) 는 잡음-억제된 신호의 하나 이상의 대역들을 곱하여, 그것이 목표 스펙트럼 (488) 과 대략 매칭하게 할 수도 있다. 일부 구성들에서, 전자 디바이스 (102) 는 잡음-억제된 신호를 조정하여, 잡음-억제된 신호가 복수의 오디오 신호들 (182) 의 레벨(들) 과 대략 매칭하게 할 수도 있다 (510).

도 6 은 잡음 억제를 위한 방법 (600) 의 하나의 구성을 예시하는 흐름도이다. 일부 구현예들에서, 전자 디바이스 (102) 는 본원에서 설명되는 기능들 중 하나 이상을 수행하는 회로를 포함할 수도 있다. 일부 구성들에서, 전자 디바이스 (102) 는 이중 마이크로폰 (104) 잡음 억제 출력을 획득할 수도 있다 (602). 전자 디바이스 (102) 는 각각의 시간 프레임에 대해 제 2 마이크로폰 (104) 오디오 신호 (182) 또는 Mic2 - b*Mic1 오디오 신호 (182) 상에서 피치 및 고조파도 통계치를 계산할 수도 있다 (604). 전자 디바이스 (102) 는 이중 마이크로폰 (104) 잡음 억제 출력에서 잡음 피치 주파수의 배수들로 이동할 수도 있다 (606). 일부 구성들에서, 전자 디바이스 (102) 는 주 마이크로폰 신호 (예컨대, 오디오 신호들 (182) 중 하나) 에 기초한 잡음 피치 주파수의 배수들을 이용하여, 고조파 잡음 피크들을 예측하고 그들 잡음 피크 로케이션들에서만 선택적 잡음 감소를 제공할 수도 있다. 일부 구현예들에서, 전자 디바이스 (102) 는 마이크로폰간 이득이 작거나 또는 음인지의 여부를 결정할 수도 있다 (608). 마이크로폰간 이득이 작거나 또는 음이라고 전자 디바이스 (102) 가 결정하면 (608), 전자 디바이스 (102) 는 식별된 피크들을 약간 (mildly) 클립할 수도 있다 (612). 일부 구성들에서, 마이크로폰간 이득 차이가 작거나 또는 음이라고 전자 디바이스 (102) 가 결정하면 (608), 전자 디바이스 (102) 는 그 식별된 피크들을 전혀 클립하지 않을 수도 있다. 이에 추가적으로 또는 대안적으로, 마이크로폰간 이득 차이가 평균적으로 작으면 (또는 음이면), 전자 디바이스 (102) 는 하나 이상의 주파수 빈들을 스피치 스펙트럼 빈들로서 라벨링할 수도 있다. 마이크로폰간 이득 차이들이 작지 않거나 또는 음이 아니라고 전자 디바이스 (102) 가 결정하면 (608), 전자 디바이스 (102) 는 식별된 피크들을 적극적으로 클립할 수도 있다 (610).

도 7 는 신호 레벨 매칭을 위한 시스템들 및 방법들이 구현될 수도 있는 전자 디바이스 (702) 의 또 다른 구성을 예시하는 블록도이다. 일부 구성들에서, 전자 디바이스 (702) 는 도 1 과 관련하여 설명되는 전자 디바이스 (102) 의 예일 수도 있다. 전자 디바이스 (702) 는 제 1 필터 (754a), 제 1 합산기 (782a), 제 1 변환기 (756a), 피치 분석 블록/모듈 (762), 사인파 파라미터 추정 블록/모듈 (766), 사인파 합성 블록/모듈 (768), 스케일 블록/모듈 (774), 제 2 필터 (754b), 제 3 필터 (754c), 제 2 합산기 (782b) 및 제 2 변환기 (756b) 중 하나 이상을 포함할 수도 있다.

전자 디바이스 (702) 는 하나 이상의 잡음 신호들 (750) 을 수신할 수도 있다. 잡음 신호들 (750) 의 예들은 다중 누화 잡음 (babble noise), 환경 잡음 또는 임의의 다른 경합하는 스피치를 포함하지만, 이에 한정되지 않는다. 잡음 신호 (750) 는 필터링된 잡음 신호 (758) 을 발생하기 위해 제 1 필터 (754a) 에 제공될 (예컨대, 이에 의해 수신될) 수도 있다. 일부 구현예들에서, 제 1 필터 (754a) 는 저역 통과 필터 (예를 들어, 600 Hz 저역 통과 필터) 일 수도 있다. 제 1 필터 (754a) 는 제 1 합산기 (782a) 에 커플링될 수도 있다. 필터링된 잡음 신호 (758) 는 제 1 합산기 (782a) 에 제공될 수도 있다. 제 1 합산기 (782a) 는 필터링된 잡음 신호 (758) 를 스피치 신호 (752) 와 합산하거나 또는 결합하여 제 1 합산 신호 (790a) 를 발생할 수도 있다. 일부 구성들에서, 스피치 신호 (752) 는 "클린" 광대역 (WB) 스피치 신호 (752) 일 수도 있다. 일부 구성들에서, 잡음 신호 (750) (예컨대, 다중 누화 잡음 또는 경합하는 스피치 신호) 및 스피치 신호 (752) (예컨대, "클린" WB 스피치 신호) 가 에코 소거/잡음 억제 블록/모듈 (420) 에 제공될 수도 있다. 이 예에서, 스피치 신호 (752) (예컨대, "클린" WB 스피치 신호) 는 잡음-억제된 신호일 수도 있다.

제 1 변환기 (756a) 는 제 1 합산기 (782a) 에 커플링될 수도 있다. 이 예에서, 제 1 합산 신호 (790a) 는 제 1 변환기 (756a) 에 제공될 수도 있다. 제 1 변환기 (756a) 는 제 1 합산 신호 (790a) 를 변환된 신호 (760) 로 변환할 수도 있다. 일부 구현예들에서, 변환된 신호 (760) 는 주파수 영역에서 제 1 합산 신호 (790a) 와 유사할 수도 있다. 제 1 변환기 (756a) 는 고속 푸리에 변환 (FFT) 블록/모듈일 수도 있다.

제 1 변환기 (756a) 는 제 3 필터 (754c) 에 커플링될 수도 있다. 제 3 필터 (754c) 는 변환된 신호 (760) 를 수신해 곱하여, 아래에서 더 자세히 설명될 제 2 필터링된 신호 (780) 를 발생할 수도 있다.

제 1 변환기 (756a) 는 또한 피치 분석 블록/모듈 (762) 에 커플링될 수도 있다. 이 예에서, 피치 분석 블록/모듈 (762) 은 변환된 신호 (760) 를 수신할 수도 있다. 피치 분석 블록/모듈 (762) 은 변환된 신호 (760) 로부터 주파수 (예컨대, 기본 주파수 (764)) 를 추출하기 위해서 피치 분석을 수행할 수도 있다. 피치 분석 블록/모듈 (762) 은 또한 신뢰성 척도 또는 보이싱 파라미터 (770) 를, 피치 분석 블록/모듈 (762) 에 커플링된 스케일 블록/모듈 (774) 에 제공할 수도 있다.

기본 주파수 (764) 는, 피치 분석 블록/모듈 (762) 에 커플링된 사인파 파라미터 추정 블록/모듈 (766) 에 제공될 수도 있다. 아래에서 더욱 더 자세하게 설명하는 바와 같이, 사인파 파라미터 추정 블록/모듈 (766) 은 하나 이상의 사인파 파라미터들을 추정하는 하나 이상의 동작들을 수행할 수도 있다.

사인파 파라미터들은 사인파 신호 (772) 를 발생하기 위해 사인파 파라미터 추정 블록/모듈 (766) 에 커플링된 사인파 합성 블록/모듈 (768) 에 제공될 수도 있다. 일부 구현예들에서, 사인파 신호 (772) 는 주파수 영역으로, 예를 들어, 고속 푸리에 변환 (FFT) 을 통해서 변환될 수도 있다. 결과적인 주파수 영역 사인파 신호 (772) 는 사인파 합성 블록/모듈 (768) 에 커플링된 스케일 블록/모듈 (774) 에 제공될 수도 있다. 스케일 블록/모듈 (774) 은 주파수 영역 사인파 신호 (772) 를 신뢰성 척도 또는 보이싱 파라미터 (770) 와 곱하여, 스케일링된 사인파 신호 (776) 를 발생할 수도 있다.

스케일 블록/모듈 (774) 에 커플링될 수도 있는 제 2 필터 (754b) 는 스케일링된 사인파 신호 (776) 를 수신하여, 제 1 필터링된 신호 (778) 를 발생할 수도 있다. 제 2 필터 (754b) 및 제 3 필터 (754c) 에 커플링될 수도 있는 제 2 합산기 (782b) 는 제 1 필터링된 신호 (778) 및 제 2 필터링된 신호 (780) 를 수신할 수도 있다. 제 2 합산기 (782b) 는 제 1 필터링된 신호 (778) 와 제 2 필터링된 신호 (780) 를 합산하여, 제 2 합산 신호 (790b) 를 발생할 수도 있다. 제 2 합산기 (782b) 에 커플링될 수도 있는 제 2 변환기 (756b) 는 제 2 합산 신호 (790b) 를 수신할 수도 있다. 제 2 변환기 (756b) 는 제 2 합산 신호 (790b) 를 시간 영역으로 변환하여, 시간 영역 합산 신호 (784) 를 발생할 수도 있다. 예를 들어, 제 2 변환기 (756b) 는 제 2 합산 신호 (790b) 를 시간 영역으로 변환하여 시간 영역 합산 신호 (784) 를 발생하는 역 고속 푸리에 변환일 수도 있다.

도 8 는 신호 레벨 매칭 방법 (800) 의 또 다른 구성을 예시하는 흐름도이다. 방법 (800) 은 전자 디바이스 (102) 에 의해 수행될 수도 있다. 전자 디바이스 (102) 는 잡음 신호 (750) 를 수신할 수도 있다 (802). 잡음 신호 (750) 는 다중 누화 잡음, 환경의 잡음 및 스피치 신호 (752) 와 경합하는 임의의 다른 신호를 포함할 수도 있다. 일부 구성들에서, 스피치 신호 (752) 는

으로서 표기될 수도 있다. 제 1 필터 (754a) 는 잡음 신호 (750) 를 필터링하여, 필터링된 잡음 신호 (758) 를 발생할 수도 있다 (804). 일부 구현예들에서, 제 1 필터 (754a) 는 저역 통과 필터일 수도 있다. 제 1 필터 (754a) 에 커플링된 제 1 합산기 (782a) 는 필터링된 잡음 신호 (758) 및 스피치 신호 (752) 에 기초하여 제 1 합산 신호 (790a) 를 발생할 수도 있다 (806). 일부 구성들에서, 제 1 합산 신호 (790a) 는

으로서 표기될 수도 있다. 제 1 변환기 (756a) 는 필터링된 합산 신호 (790a) 에 기초하여 변환된 신호를 발생할 수도 있다 (808). 변환된 신호 (760) 는

로서 표기될 수도 있다. 일부 구성들에서, 변환된 신호 (760) 는 제 1 합산 신호 (790a) 에 기초할 수도 있다. 예를 들어, 변환된 신호 (760) 는 주파수 영역에서 제 1 합산 신호 (790a) 와 유사할 수도 있다. 제 1 변환기 (756a) 는 고속 푸리에 변환 (FFT) 을 이용하여, 변환된 신호 (760) 를 발생할 수도 있다 (808).

전자 디바이스 (102) 의 피치 분석 블록/모듈 (762) 은 변환된 신호 (760) 의 기본 주파수 (764) 를 발생할 수도 있다 (810). 예를 들어, 피치 분석 블록/모듈 (762) 은 변환된 신호 (760) 를 수신하고 피치 분석을 수행하여 기본 주파수 (764) 를 추출할 수도 있다. 기본 주파수 (764) 는

로서 표기될 수도 있다. 피치 분석 블록/모듈 (762) 은 또한 신뢰성 척도 또는 보이싱 파라미터 (770) 를 발생할 수도 있다 (812). 일부 구현예들에서, 신뢰성 척도 또는 보이싱 파라미터 (770) 는 변환된 신호 (760) 에 기초할 수도 있다.

사인파 파라미터 추정 블록/모듈 (766) 은 기본 주파수 (764) 에 기초하여 하나 이상의 사인파 파라미터들을 추정할 수도 있다 (814). 예를 들어, 사인파 파라미터 추정 블록/모듈 (766) 은 다음 수식들 중 하나 이상에 기초하여 하나 이상의 사인파 파라미터들을 추정할 수도 있다 (814).

위에서 설명된 수식들에서,

는 기본 주파수 (764) 또는 피치를 지칭할 수도 있으며,

는 피치 주파수의 배수들에서의 스피치 피크들의 진폭들을 지칭할 수도 있으며,

는 각각의 주파수 빈 i 및 프레임 m 에서의 위상 성분들을 지칭할 수도 있으며,

는 하나 이상의 사인파 파라미터들을 지칭할 수도 있다.

사인파 합성 블록/모듈 (768) 은 하나 이상의 사인파 파라미터들에 기초하여 사인파 신호 (772) 를 발생할 수도 있다 (816). 예를 들어, 사인파 합성 블록/모듈 (768) 은 하나 이상의 사인파 파라미터들의 고속 푸리에 변환을 수행하여, 사인파 신호 (772) 를 발생할 수도 있다. 일부 구현예들에서, 사인파 신호 (772) 는

로서 표시될 수도 있다. 이들 구현예들에서, 사인파 파라미터들

과 사인파 신호

(772) 사이의 관계는

로서 예시될 수도 있다.

전자 디바이스 (102) 의 스케일 블록/모듈 (774) 은 사인파 신호 (772) 및 신뢰성 척도 또는 보이싱 파라미터 (770) 에 기초하여 스케일링된 사인파 신호 (776) 를 발생할 수도 있다 (818). 예를 들어, 스케일 블록/모듈 (774) 은 주파수 영역 사인파 신호 (772) 를 신뢰성 척도 또는 보이싱 파라미터 (770) 와 곱하여, 스케일링된 사인파 신호 (776) 를 발생할 수도 있다 (818).

제 2 필터 (754b) 는 제 1 필터링된 신호 (778) 를 발생하기 위해 스케일링된 사인파 신호 (776) 를 필터링할 수도 있다 (820). 예를 들어, 스케일링된 사인파 신호 (776) 는

(예컨대, 저역 통과 필터 전달 함수) 로 곱해지거나 또는 필터링되어 제 1 필터링된 신호 (778) 를 발생할 수도 있다. 이와 유사하게, 제 3 필터 (754c) 는 변환된 신호 (760) 를 필터링하여 제 2 필터링된 신호 (780) 를 발생할 수도 있다 (822). 예를 들어, 변환된 신호 (760) 는

(예컨대, 고역 통과 필터 전달 함수) 로 곱해지거나 또는 필터링되어 제 2 필터링된 신호 (780) 를 발생할 수도 있다.

제 2 합산기 (782b) 는 제 1 필터링된 신호 (778) 와 제 2 필터링된 신호 (780) 를 합산하여 제 2 합산 신호 (790b) 를 발생할 수도 있다 (824). 예를 들어, 제 2 합산기 (782b) 는 제 1 필터링된 신호 (778) 및 제 2 필터링된 신호 (780) 를 수신하고 그들을 결합하여, 제 2 합산 신호 (790b) 를 발생할 수도 있다.

제 2 변환기 (756b) 는 제 2 합산 신호 (790b) 를 시간 영역으로 변환할 수도 있다 (826). 예를 들어, 제 2 변환기 (756b) 는 역 고속 푸리에 변환을 이용해 제 2 합산 신호 (790b) 를 시간 영역으로 변환하여 시간 영역 합산 신호 (784) 를 발생할 수도 있다 (826).

도 9 는 신호 레벨 매칭을 위한 시스템들 및 방법들이 구현될 수도 있는 전자 디바이스 (902) 의 또 다른 구성을 예시하는 블록도이다. 전자 디바이스 (902) 는 도 1 과 관련하여 설명된 전자 디바이스 (102) 의 예일 수도 있다. 전자 디바이스 (902) 는 앞에서 설명된 대응하는 엘리먼트들과 유사하게, 피치 트랙커 (922), 에코 소거/잡음 억제 블록/모듈 (920), 스피치 템플릿 스펙트럼 결정 블록/모듈 (940) 및 조합 스펙트럼 블록/모듈 (944) 을 포함할 수도 있다. 전자 디바이스 (902) 는 또한 신호-대-잡음 발생기/스펙트럼 평가기 (990), 시간 영역 블록/모듈 (992) 및 고조파 합성 발생기 (994) 중 하나 이상을 포함할 수도 있다.

일부 예들에서, 복수의 마이크로폰들 (104) (미도시) 은 피치 트랙커 (922) 에 및/또는 에코 소거/잡음 억제 블록/모듈 (920) 에 커플링될 수도 있다. 복수의 마이크로폰들 (104) 로부터의 입력 오디오 신호들 (982a-b) 은 피치 트랙커 (922) 에 제공될 수도 있다. 피치 트랙커 (922) 는 오디오 신호들 (982a-b) (예컨대, 보이스 신호의 기본 주파수 및/또는 고조파들) 의 피치를 트랙킹할 수도 있다. 피치 트랙커 (922) 는 트래킹 정보 (984) (예컨대, 주파수,

) 를 고조파 합성 발생기 (994) 에 제공할 수도 있다.

에코 소거/잡음 억제 블록/모듈 (920) 은 하나 이상의 마이크로폰들 (104) 로부터 수신된 입력 오디오 신호들 (982a-b) 에 대해 에코 소거 및/또는 잡음 억제를 수행할 수도 있다. 일부 구현예들에서, 에코 소거/잡음 억제 블록/모듈 (920) 는 도 1 과 관련하여 설명되는 잡음 억제 블록/모듈 (114) 에 의해 수행되는 기능들 중 하나 이상을 구현할 수도 있다. 에코 소거/잡음 억제 블록/모듈 (920) 은 잡음 신호 (932) (N) 뿐만 아니라 보이스 및 잡음 신호 (934) (V + N) 를 신호-대-잡음비 발생기/스펙트럼 평가기 (990) 에 제공할 수도 있다.

신호-대-잡음 발생기/스펙트럼 평가기 (990) 는 목표 대역 스펙트럼 (986) 을 결정할 수도 있다. 일부 구현예들에서, 목표 대역 스펙트럼 (986) 은 도 4 와 관련하여 설명되는 목표 스펙트럼 (488) 의 일 예일 수도 있다. 전자 디바이스 (902) 는 선택적으로, 대체 스펙트럼 이득 (988) (예컨대,

) 을 결정할 수도 있다. 일부 구현예들에서, 대체 스펙트럼 이득 (988) 은 도 4 와 관련하여 설명되는 바와 같은 스피치 참조 스펙트럼 (486) 및 스피치 템플릿 스펙트럼 (484) 중 하나 이상에 기초할 수도 있다. 일부 구현예들에서, 대체 스펙트럼 이득 (988) 은 목표 대역 스펙트럼 (986) 에 기초하여 스피치 템플릿 스펙트럼 결정 블록/모듈 (940) (예컨대, 코드북) 로부터 획득될 수도 있다. 대체 스펙트럼 이득 (988) 은 고조파 합성 발생기 (994) 에 제공될 수도 있다.

신호-대-잡음비 발생기/스펙트럼 평가기 (990) 는 또한 주파수 영역 신호를 시간 영역 블록/모듈 (992) 에 제공할 수도 있다. 시간 영역 블록/모듈 (992) 은 주파수 영역 신호를 시간 영역으로 변환할 수도 있다. 시간 영역 블록/모듈 (992) 은 또한 시간 영역 신호를 고조파 합성 발생기 (994) 에 제공할 수도 있다. 고조파 합성 발생기 (994) 는 대체 스펙트럼 이득 (988), 트래킹 정보 (984) 및 시간-영역 신호에 기초하여, 대체 대역 스펙트럼 (996) 을 발생할 수도 있다. 대체 대역 스펙트럼 (996) 은 조합 스펙트럼 블록/모듈 (944) 에 제공될 수도 있다. 조합 스펙트럼 블록/모듈 (944) 은 신호-대-잡음 발생기/스펙트럼 평가기 (990) 및/또는 대체 대역 스펙트럼 (996) 으로부터의 출력에 기초하여, 스펙트럼을 조합하여 출력 스펙트럼 (948) 을 발생할 수도 있다.

도 10 은 보이스 활성도를 검출하는 시스템들 및 방법들이 구현될 수도 있는 전자 디바이스 (1002) 의 하나의 구성을 예시하는 블록도이다. 일부 구성들에서, 전자 디바이스 (1002) 는 도 1 과 관련하여 설명된 전자 디바이스 (102) 의 일 예일 수도 있다. 전자 디바이스 (1002) 는 스피치 피치 히스토그램 결정 블록/모듈 (1098), 고조파 통계치 결정 블록/모듈 (1003), 근단 보이스 스피치 검출기 (1007), 적어도 하나의 단일 채널 보이스 활성도 검출기 (1009) 및 근단 스피치 검출기 (1011) 중 하나 이상을 포함할 수도 있다.

일부 구성들에서, 스피치 피치 히스토그램 결정 블록/모듈 (1098) 은, 보이스 스피치 오디오 신호들 (182) 를 검출하는데 사용될 수도 있는 스피치 피치 히스토그램 (1001) 을 결정할 수도 있다. 예를 들어, 스피치 피치 히스토그램 결정 블록/모듈 (1098) 은, 보이스 스피치 오디오 신호 (182) 에 대응하는 스피치 피치 히스토그램 (1001) 을 결정할 수도 있다. 일부 구성들에서, 보이스 스피치 오디오 신호 (182) 는 피치에 기초하여 검출될 수도 있다. 이 구성에서, 스피치 피치 히스토그램 (1001) 은 보이스 스피치에 대응하는 오디오 신호 (182) 를 다른 유형들의 오디오 신호들 (182) 과 구별할 수도 있다. 예를 들어, 보이스 스피치 오디오 신호 (182) 는 별개의 피치 범위에 대응할 수도 있다. 다른 유형들의 오디오 신호들 (182) 은 다른 피치 범위들에 대응할 수도 있다. 일부 구현예들에서, 스피치 피치 히스토그램 (1001) 은 보이스 스피치 오디오 신호들 (182) 에 대응하는 피치 범위를 식별할 수도 있다.

고조파 통계치 결정 블록/모듈 (1003) 은 스피치 피치 히스토그램 결정 블록/모듈 (1098) 에 커플링될 수도 있다. 보이스 스피치 오디오 신호 (182) 는 또한 고조파들에 기초하여 검출될 수도 있다. 위에서 설명한 바와 같이, 고조파들은 오디오 신호 (182) 의 기본 주파수의 배수들 (예컨대, 보이스의 공진 주파수) 이다. 본원에서 사용된, 용어 "고조파도" 은 고조파들의 성질을 지칭할 수도 있다. 예를 들어, 고조파도는 오디오 신호 (182) 의 고조파들의 개수 및 품질을 지칭할 수도 있다. 예를 들어, 우수한 고조파도를 가진 오디오 신호 (182) 는 기본 주파수의 많은 잘 정의된 배수들을 가질 수도 있다.

일부 구성들에서, 고조파 통계치 결정 블록/모듈 (1003) 은 고조파 통계치 (1005) 를 결정할 수도 있다. 본원에서 사용된, 통계치는 보이스 스피치를 식별하는 메트릭을 지칭할 수도 있다. 예를 들어, 보이스 스피치는 오디오 신호 (182) 에너지 레벨에 기초하여 검출될 수도 있다. 이 예에서, 오디오 신호 (182) 에너지 레벨은 통계치일 수도 있다. 통계치들의 다른 예들은 프레임 당 제로 교차점들의 수 (예컨대, 하나의 샘플에서 다음 샘플로 입력 오디오 신호 (182) 의 값의 부호가 변하는 횟수), 피치 추정 및 검출 알고리즘 결과들, 포먼트 (formant) 결정 결과들, 켑스트럴 계수 결정 결과들, 신호-대-잡음비들에 기초한 메트릭들, 우도 비, 스피치 온셋 및/또는 오프셋, 이중-마이크로폰 신호 차이 (예컨대, 크기 차이, 이득 차이, 레벨 차이, 근접성 차이 및/또는 위상 차이) 에 기초한 메트릭들을 포함할 수도 있다. 일부 구성들에서, 통계치는 2 개 이상 메트릭들의 임의의 적합한 조합을 포함할 수도 있다. 이들 예들에서, 보이스 스피치 오디오 신호 (182) 는 임계값을 통계치 값 (스코어로도 지칭됨) 에 적용함으로써 검출될 수도 있다. 이러한 스코어는 보이스 활성도를 결정하기 위해 임계값과 비교될 수도 있다. 예를 들어, 보이스 스피치 오디오 신호 (182) 는 임계치보다 높은 에너지 레벨, 또는 임계치보다 높은 제로 교차점들의 수에 의해 표시될 수도 있다.

따라서, 고조파 통계치 (1005) 는 오디오 신호 (182) 의 고조파도에 기초하여 보이스 스피치를 식별하는 메트릭을 지칭할 수도 있다. 예를 들어, 고조파 통계치 (1005) 는, 오디오 신호 (182) 가 양호한 고조파도 (예컨대, 기본 주파수의 많은 잘 정의된 배수들) 를 가지면, 오디오 신호 (182) 를 보이스 스피치로서 식별할 수도 있다. 이 예에서, 보이스 스피치 오디오 신호 (182) 는 임계값을 고조파 통계치 (1005) 값 (예컨대, 스코어) 에 적용함으로써 검출될 수도 있다. 이러한 스코어는 보이스 활성도를 결정하기 위해 임계값과 비교될 수도 있다. 예를 들어, 보이스 활성도는 임계치보다 높은 고조파 통계치 (1005) 에 의해 표시될 수도 있다.

일부 구현예들에서, 고조파 통계치 (1005) 는 스피치 피치 히스토그램 (1001) 에 기초할 수도 있다. 예를 들어, 고조파 통계치 결정 블록/모듈 (1003) 은, 스피치 피치 히스토그램 결정 블록/모듈 (1098) 로부터 스피치 피치 히스토그램 (1001) 을 수신할 수도 있다. 고조파 통계치 결정 블록/모듈 (1003) 은 그후 고조파 통계치 (1005) 를 결정될 수도 있다. 일부 구성들에서, 스피치 피치 히스토그램 (1001) 에 기초한 고조파 통계치 (1005) 는, 양호한 고조파도를 가지며 스피치 피치 히스토그램 (1001) 에 의해 정의된 피치 범위 내에 속하는 오디오 신호 (182) 를 식별할 수도 있다. 스피치 피치 히스토그램 (1001) 에 기초할 수도 있는 고조파 통계치 (1005) 의 일 예는 다음과 같이 주어진다. 위에서 설명한 바와 같이, 보이스 스피치 오디오 신호 (182) 는 하나 이상의 고조파들을 포함할 수도 있다. 이와 유사하게, 일부 비-보이스 오디오 신호들 (182) 은 또한 하나 이상의 고조파들, 예를 들어, 음악을 포함할 수도 있다. 그러나, 비-보이스 오디오 신호들 (182) 은 상이한 피치 범위에 대응할 수도 있다. 이 예에서, 스피치 피치 히스토그램 (1001) 에 기초한 고조파 통계치 (1005) 는, 보이스 스피치 오디오 신호 (182) (예컨대, 양호한 고조파도를 가지며 피치 범위 내에 속하는 오디오 신호 (182)) 를, 비-보이스 오디오 신호 (182) (예컨대, 양호한 고조파도를 가지며 피치 범위 밖에 있는 오디오 신호 (182)) 와 식별할 수도 있다.

근단 보이스 스피치 검출기 (1007) 는 근단 보이스 스피치를 검출할 수도 있다. 예를 들어, 전자 디바이스 (102) (예컨대, 무선 통신 디바이스) 상에서 복수의 마이크로폰들 (104) 로 말하는 사용자는 근단 보이스 스피치를 발생할 수도 있다. 근단 보이스 스피치 검출기 (1007) 는 고조파 통계치 결정 블록/모듈 (1003) 에 커플링될 수도 있다. 이 예에서, 근단 보이스 스피치 검출기 (1007) 는 고조파 통계치 결정 블록/모듈 (1003) 로부터 고조파 통계치 (1005) 를 수신할 수도 있다. 고조파 통계치 (1005) 에 기초하여, 근단 보이스 스피치 검출기 (1007) 는 근단 보이스 스피치를 검출할 수도 있다. 예를 들어, 근단 보이스 스피치 검출기 (1007) 는 오디오 신호 (182) 가 고조파 통계치 (1005) 를 만족할 때 (예컨대, 오디오 신호 (182) 의 고조파도가 고조파 통계치 (1005) 에 의해 정의된 임계치보다 클 때) 근단 보이스 스피치를 검출할 수도 있다. 위에서 설명한 바와 같이, 일부 구성들에서, 고조파 통계치 (1005) 는 스피치 피치 히스토그램 (1001) 에 기초할 수도 있다.

근단 보이스 스피치 검출기 (1007) 는 또한 스피치 피치 히스토그램 (1001) 에 기초하여 근단 보이스 스피치를 검출할 수도 있다. 예를 들어, 근단 보이스 스피치 검출기 (1007) 는 오디오 신호 (182) 가 스피치 피치 히스토그램 (1001) 에 의해 정의된 피치 범위 내에 들어갈 때 근단 보이스 스피치를 검출할 수도 있다.

일부 구성들에서, 근단 보이스 스피치 검출기 (1007) 는 고조파 통계치 (1005) 와 스피치 피치 히스토그램 (1001) 의 조합에 기초하여 근단 보이스 스피치를 검출할 수도 있다. 예를 들어, 근단 보이스 스피치 검출기 (1007) 는 오디오 신호 (182) 의 피치가 스피치 피치 히스토그램 (1001) 에 의해 정의된 피치 범위 내에 속하면 그리고 오디오 신호 (182) 가 고조파 통계치 (1005) 를 만족할 때 (예컨대, 오디오 신호 (182) 의 고조파도가 고조파 통계치 (1005) 에 의해 정의된 임계치보다 클 때) 근단 보이스 스피치를 검출할 수도 있다. 일부 구현예들에서, 근단 보이스 스피치 검출기 (1007) 는 고조파 통계치 (1005) 및 스피치 피치 히스토그램 (1001) 의 상이한 가중치들에 기초하여 근단 스피치를 검출할 수도 있다. 예를 들어, 근단 보이스 스피치 검출기 (1007) 는, 스피치 피치 히스토그램 (1001) 에 의해 정의된 피치 범위 내에 전체적으로 속하지 않을 수도 있는 피치에도 불구하고, 고조파도가 높을 때, 근단 보이스 스피치를 검출할 수도 있다. 이와 유사하게, 근단 보이스 스피치 검출기 (1007) 는 낮은 고조파도에도 불구하고, 피치 범위가 스피치 피치 히스토그램 (1001) 에 의해 정의된 피치 범위 내에 전체적으로 속할 때, 근단 보이스 스피치를 검출할 수도 있다.

이에 추가적으로 또는 대안적으로, 근단 보이스 스피치 검출기 (1007) 는 이득 통계치와 연관될 수도 있다. 이 예에서, 이득 통계치는 복수의 오디오 신호들 (182) 사이의 이득 차이에 기초하여 보이스 스피치를 식별할 수도 있다. 일부 구현예들에서, 근단 보이스 스피치 검출기 (1007) 는 고조파 통계치 (1005), 이득 통계치 및 스피치 피치 히스토그램 (1001) 의 상이한 가중치들에 기초하여, 근단 스피치를 검출할 수도 있다. 예를 들어, 근단 보이스 스피치 검출기 (1007) 는 작을 수도 있는 이득 차이에도 불구하고, 고조파도가 높을 때, 근단 보이스 스피치를 검출할 수도 있다. 이와 유사하게, 근단 보이스 스피치 검출기 (1007) 는 낮은 고조파도에도 불구하고, 이득 차이가 클 때, 근단 보이스 스피치를 검출할 수도 있다.

적어도 하나의 단일 채널 보이스 활성도 검출기 (1009) 는 스피치 오디오 신호 (182) 를 검출할 수도 있다. 일부 구성들에서, 적어도 하나의 단일 채널 보이스 활성도 검출기 (1009) 는 에너지 레벨들에 기초하여 스피치 오디오 신호 (182) 를 검출할 수도 있다. 예를 들어, 적어도 하나의 단일 채널 보이스 활성도 검출기 (1009) 는 스피치를 검출하기 위해 어느 정도의 에너지 레벨 증가를 검출할 수도 있다. 일부 구성들에서, 단일 채널 보이스 활성도 검출기 (1009) 는 스피치 오디오 신호 (182) 를 검출하기 위해 위에서 설명한 바와 같은 하나 이상의 통계치들을 포함할 수도 있다. 일부 구성들에서, 근단 보이스 스피치 검출기 (1007) 및 적어도 하나의 단일 채널 보이스 활성도 검출기 (1009) 가 통합될 수도 있다. 예를 들어, 근단 보이스 스피치 검출기 (1007) 및 적어도 하나의 단일 채널 보이스 활성도 검출기 (1009) 는 단일 블록/모듈 (미도시) 에 결합될 수도 있다.

근단 스피치 검출기 (1011) 는 근단 스피치를 검출하기 위해 근단 보이스 스피치 검출기 (1007) 및/또는 적어도 하나의 단일 채널 보이스 활성도 검출기 (1009) 에 커플링될 수도 있다. 예를 들어, 근단 스피치 검출기 (1011) 는 근단 보이스 스피치 검출기 (1007) 로부터의 결과들 (예컨대, 근단 보이스 스피치 검출기 (1007) 가 근단 보이스 스피치를 검출하였는지) 그리고 단일 채널 보이스 활성도 검출기 (1009) 로부터의 결과들 (예컨대, 단일 채널 보이스 활성도 검출기 (1009) 가 스피치 오디오 신호 (182) 를 검출하였는지) 를 수신할 수도 있다. 근단 스피치 검출기 (1011) 는 그후 근단 스피치를 검출할 수도 있다. 근단 스피치 검출기 (1011) 는 그후 근단 스피치가 검출되었는지를 식별하는 근단 스피치 검출 표시자 (1013) 를 제공할 수도 있다. 아래에서 더욱 더 자세하게 설명하는 바와 같이, 근단 스피치 검출 표시자 (1013) 는 전자 디바이스 (102) 의 하나 이상의 기능들 (예컨대, 이중 마이크로폰 (104) 시스템으로부터 단일 마이크로폰 (104) 시스템으로의 스위칭) 을 개시할 수도 있다.

도 11 은 보이스 활성도를 검출하는 방법 (1100) 의 하나의 구성을 예시하는 흐름도이다. 방법 (1100) 은 전자 디바이스 (102) 에 의해 수행될 수도 있다. 전자 디바이스 (102) 는 고조파 통계치 (1005) 를 획득할 수도 있다 (1102). 위에서 설명한 바와 같이, 고조파 통계치 (1005) 는 오디오 신호 (182) 의 고조파들에 기초하여 보이스 스피치를 식별하는 메트릭을 지칭할 수도 있다. 예를 들어, 고조파 통계치 (1005) 는 오디오 신호 (182) 가 기본 주파수의 많은 잘-정의된 배수들을 가지면, 보이스 스피치를 식별할 수도 있다. 일부 구현예들에서, 전자 디바이스 (102) 는 스피치 피치 히스토그램 (1001) 에 기초하는 고조파 통계치 (1005) 를 획득할 수도 있다 (1102). 예를 들어, 고조파 통계치 (1005) 는 스피치 피치 히스토그램 (1001) 에 의해 식별된 피치 범위 내에 속하고 고조파 통계치 (1005) 를 만족하는 오디오 신호 (182) 를 식별할 수도 있다.

전자 디바이스 (102) 는 스피치 피치 히스토그램 (1001) 을 획득할 수도 있다 (1104). 위에서 설명한 바와 같이, 스피치 피치 히스토그램 (1001) 은 보이스 스피치에 대응하는 피치 범위를 식별할 수도 있다. 예를 들어, 스피치 피치 히스토그램 (1001) 은 보이스 스피치와 연관되는 피치들에 대응하는 특정 피치 범위를 식별할 수도 있다.

전자 디바이스 (102) 의 근단 스피치 검출기 (1011) 는 근단 보이스 스피치 검출기 (1007) 및 적어도 하나의 단일 채널 보이스 활성도 검출기 (1009) 에 기초하여 근단 스피치를 검출할 수도 있다 (1106). 일부 구현예들에서, 근단 보이스 스피치 검출기 (1007) 는 고조파 통계치 (1005) 및 스피치 피치 히스토그램 (1001) 중 하나 이상에 기초하여 근단 보이스 스피치를 검출할 수도 있다. 예를 들어, 근단 보이스 스피치 검출기 (1007) 는 위에서 설명한 바와 같은 스피치 피치 히스토그램 (1001) 에 기초하여 고조파 통계치 (1005) 와 연관될 수도 있다. 이에 추가적으로 또는 대안적으로, 근단 보이스 스피치 검출기 (1007) 는 이득 통계치에 기초하여 근단 보이스 스피치를 검출할 수도 있다.

근단 보이스 스피치 검출기 (1007) 는 고조파 통계치 (1005), 스피치 피치 히스토그램 (1001) 및 이득 통계치의 상이한 가중치들에 기초하여 근단 스피치를 검출할 수도 있다. 예를 들어, 근단 보이스 스피치 검출기 (1007) 는 스피치 피치 히스토그램 (1001) 에 의해 정의된 피치 범위 내에 전체적으로 속하지 않을 수도 있는 피치에도 불구하고, 고조파도가 높을 때, 근단 보이스 스피치를 검출할 수도 있다. 이와 유사하게, 근단 보이스 스피치 검출기 (1007) 는 낮은 고조파도에도 불구하고, 피치 범위가 스피치 피치 히스토그램 (1001) 에 의해 정의된 피치 범위 내에 전체적으로 속할 때, 근단 보이스 스피치를 검출할 수도 있다. 또 다른 예에서, 근단 보이스 스피치 검출기 (1007) 는 작을 수도 있는 이득 차이에도 불구하고, 고조파도가 높을 때, 근단 보이스 스피치를 검출할 수도 있다. 이와 유사하게, 근단 보이스 스피치 검출기 (1007) 는 낮은 고조파도에도 불구하고, 이득 차이가 클 때, 근단 보이스 스피치를 검출할 수도 있다.

전자 디바이스 (102) 의 적어도 하나의 단일 채널 보이스 활성도 검출기 (1009) 는 스피치 오디오 신호 (182) 를 검출할 수도 있다. 근단 스피치 검출기 (1011) 는 근단 보이스 스피치 검출기 (1007) 및 적어도 하나의 단일 채널 보이스 활성도 검출기 (1009) 로부터의 정보를 이용하여, 근단 스피치를 검출할 수도 있다 (1106).

일부 구성들에서, 근단 보이스 스피치 검출기 (1007) 는 고조파 통계치 (1005) 와 스피치 피치 히스토그램 (1001) 의 조합에 기초하여 근단 보이스 스피치를 검출할 수도 있다. 예를 들어, 근단 보이스 스피치 검출기 (1007) 는, 오디오 신호 (182) 의 피치가 스피치 피치 히스토그램 (1001) 에 의해 정의된 피치 범위 내에 속하고 오디오 신호 (182) 가 고조파 통계치 (1005) 를 만족하면 (예컨대, 오디오 신호 (182) 의 고조파도가 고조파 통계치 (1005) 에 의해 정의된 임계치보다 크면) 근단 보이스 스피치를 검출할 수도 있다. 일부 구현예들에서, 근단 보이스 스피치 검출기 (1007) 는 고조파 통계치 (1005) 및 스피치 피치 히스토그램 (1001) 의 상이한 가중치들에 기초하여 근단 스피치를 검출할 수도 있다. 예를 들어, 근단 보이스 스피치 검출기 (1007) 는 스피치 피치 히스토그램 (1001) 에 의해 정의된 피치 범위 내에 전체적으로 속하지 않을 수도 있는 피치에도 불구하고, 고조파도가 높을 때, 근단 보이스 스피치를 검출할 수도 있다. 이와 유사하게, 근단 보이스 스피치 검출기 (1007) 는 낮은 고조파도에도 불구하고, 피치 범위가 스피치 피치 히스토그램 (1001) 에 의해 정의된 피치 범위 내에 전체적으로 속할 때, 근단 보이스 스피치를 검출할 수도 있다.

도 12 는 보이스 활성도를 검출하는 시스템들 및 방법들이 구현될 수도 있는 무선 통신 디바이스 (1202) 의 하나의 구성을 예시하는 블록도이다. 무선 통신 디바이스 (1202) 는 도 1 과 관련하여 설명되는 전자 디바이스 (102) 의 일 예일 수도 있다. 무선 통신 디바이스 (1202) 는 앞에서 설명된 대응하는 엘리먼트들의 예들일 수도 있는, 스피치 피치 히스토그램 결정 블록/모듈 (1298), 고조파 통계치 결정 블록/모듈 (1203), 근단 보이스 스피치 검출기 (1207), 적어도 하나의 단일 채널 보이스 활성도 검출기 (1209) 및 근단 스피치 검출기 (1211) 중 하나 이상을 포함할 수도 있다. 일부 구성들에서, 스피치 피치 히스토그램 결정 블록/모듈 (1298) 은 도 10 과 관련하여 설명되는 스피치 피치 히스토그램 (1001) 의 일 예일 수도 있는 스피치 피치 히스토그램 (1201) 을 제공할 수도 있다. 고조파 통계치 결정 블록/모듈 (1203) 은 도 10 과 관련하여 설명되는 고조파 통계치 (1005) 의 일 예일 수도 있는 고조파 통계치 (1205) 를 제공할 수도 있다. 근단 스피치 검출기 (1211) 는 도 10 과 관련하여 설명되는 근단 스피치 검출 표시자 (1013) 의 일 예일 수도 있는 근단 스피치 검출 표시자 (1213) 를 제공할 수도 있다.

일부 구성들에서, 무선 통신 디바이스 (1202) 는 도 1 과 관련하여 설명되는 복수의 마이크로폰들 (104) 과 유사한 복수의 마이크로폰들 (1204) 을 포함할 수도 있다. 예를 들어, 복수의 마이크로폰들 (1204) 은 복수의 오디오 신호들 (182) 을 캡쳐할 수도 있다.

무선 통신 디바이스 (1202) 는 또한 복수의 마이크로폰들 (1204) 에 커플링될 수도 있는 스위치 (1217) 를 포함할 수도 있다. 스위치 (1217) 는 단일 마이크로폰 (1204) 으로 스위칭할 수도 있다. 예를 들어, 스위치 (1217) 는 이중 마이크로폰 (1204) 시스템으로부터 단일 마이크로폰 (1204) 시스템으로 스위칭할 수도 있다. 일부 구성들에서, 스위치 (1217) 는 하나 이상의 기준들에 기초하여 단일 마이크로폰 (1204) 으로 스위칭할 수도 있다. 예를 들어, 스위치 (1217) 는 신호-대-잡음비가 임계치를 초과할 때 단일 마이크로폰 (1204) 으로 스위칭할 수도 있다. 예를 들어, 일부의 경우, 이중 마이크로폰 (1204) (예컨대, 신호-대-잡음비가 0-5 데시벨 (dB) 범위 내에 있을 때) 시스템은 신뢰성있는 오디오 신호 (182) 를 발생하지 않을 수도 있다. 이 경우, 스위치 (1217) 는 이중 마이크로폰 (1204) 시스템으로부터 단일 마이크로폰 (1204) 시스템으로 스위칭할 수도 있다. 스위치 (1217) 는 또한 엔벨로프 (112) 가 유지되지 않을 때 단일 마이크로폰 (1204) 으로 스위칭할 수도 있다. 스위치 (1217) 는 근단 스피치가 감쇠될 때 단일 마이크로폰 (1204) 으로 스위칭할 수도 있다. 예를 들어, 근단 스피치 검출기 (1211) 는 감쇠된 근단 스피치를 검출할 수도 있다. 이 정보에 기초하여, 스위치 (1217) 는 단일 마이크로폰 (1204) 으로 스위칭할 수도 있다. 일부 구성들에서, 스위치 (1217) 는 근단 스피치가 특정 시간 간격, 예를 들어, 1.5 초 동안 감쇠될 때, 감쇠된 근단 스피치에 기초하여 단일 마이크로폰 (1204) 으로 스위칭할 수도 있다.

도 13 은 보이스 활성도를 검출하는 방법 (1300) 의 또 다른 구성을 예시하는 흐름도이다. 방법 (1300) 은 전자 디바이스 (102) 에 의해 수행될 수도 있다. 전자 디바이스 (102) 는 스피치 피치 히스토그램 (1001) 을 획득할 수도 있다 (1302). 일부 구현예들에서, 이것은 도 11 과 관련하여 설명되는 바와 같이 이루어질 수도 있다.

전자 디바이스 (102) 는 고조파 콘텐츠에 민감한 통계치를 계산할 수도 있다 (1304). 일부 구성들에서, 고조파 통계치 결정 블록 모듈 (1003) 은 고조파 콘텐츠에 민감한 통계치를 계산할 수도 있다 (1304). 위에서 설명한 바와 같이, 통계치는 보이스 스피치를 식별하는 메트릭을 지칭할 수도 있다. 이 예에서, 전자 디바이스 (102) 는 오디오 신호 (182) 의 고조파들에 기초하여 보이스 스피치를 식별하는 통계치를 계산할 수도 있다 (1304). 예를 들어, 고조파 통계치 (1005) 는 오디오 신호 (182) 가 우수한 고조파도 (예컨대, 많은 잘 정의된 기본 주파수의 배수들) 를 가지면, 오디오 신호 (182) 를 보이스 스피치로서 식별할 수도 있다. 일부 구현예들에서, 고조파 콘텐츠에 민감한 통계치를 계산하는 것 (1304) 은 향상된 신호 (예컨대, 제 1 마이크로폰 마이너스 스케일링된 제 2 마이크로폰) 상에서 피치를 평가하는 것을 포함할 수도 있다. 피치를 평가하는 것은 자기 상관, 켑스트럼 코딩, 고조파 생성 스펙트럼 코딩 및 선형 예측 코딩 중 하나 이상을 포함할 수도 있다. 일부 구현예들에서, 향상된 신호는 도 1 과 관련하여 설명되는 차이 신호 (108) 의 일 예일 수도 있다. 고조파 통계치 결정 블록/모듈 (1003) 은 스피치 피치 히스토그램 (1001) 에 기초하여 고조파 통계치 (1005) 를 생성할 수도 있다 (1306). 앞에서 설명한 바와 같이, 고조파 통계치 (1005) 는 스피치 피치 히스토그램 (1001) 에 기초할 수도 있다. 일부 구성들에서, 스피치 피치 히스토그램 (1001) 에 기초한 고조파 통계치 (1005) 는 우수한 고조파도를 가지며 스피치 피치 히스토그램 (1001) 에 의해 정의된 피치 범위 내에 들어가는 오디오 신호 (182) 를 식별할 수도 있다. 즉, 고조파 통계치 (1005) 는 스피치 피치 히스토그램 (1001) 에 의해 정의된 피치 범위 내에 속하는 보이스 스피치 (예컨대, 그의 고조파도에 기초하여) 를 식별할 수도 있다. 전자 디바이스 (102) 는 근단 보이스 스피치를 검출할 수도 있다 (1308).

전자 디바이스 (102) 는 신호-대-잡음비가 임계치보다 큰 지를 결정할 수도 있다 (1310). 일부 구현예들에서, 임계치는 또 다른 전자 디바이스 (102) 에 의해 획득될 수도 있다. 임계치는 신호-대-잡음비로서, 그 위에서 신뢰성있는 스피치 오디오 신호 (182) 가 위에서 획득될 수 없는, 그러한 신호-대-잡음비를 반영할 수도 있다. 신호-대-잡음비가 임계치보다 크면, 스위치 (1217) 는 하나 이상의 마이크로폰들 (104) 로부터 단일 마이크로폰 (104) 으로 스위칭할 수도 있다 (1312). 예를 들어, 스위치 (1217) 는 이중 마이크로폰 (104) 시스템으로부터 단일 마이크로폰 (104) 시스템으로 스위칭할 수도 있다. 더 자세하게 설명되는 바와 같이, 근단 스피치 검출기 (1011) 는 그후 근단 보이스 스피치 검출기 (1007) 및 적어도 하나의 단일 채널 보이스 활성도 검출기 (1009) 에 기초하여 근단 스피치를 검출할 수도 있다 (1318).

신호-대-잡음비가 임계치보다 크지 않다고 전자 디바이스 (102) 가 결정하면 (1310), 전자 디바이스 (102) 는 엔벨로프 (112) 가 유지될 수 있는지를 결정할 수도 있다 (1314). 엔벨로프 (112) 가 유지될 수 없다고 (예컨대, 유지되지 않는다고) 전자 디바이스 (102) 가 결정하면 (1314), 스위치 (1217) 는 하나 이상의 마이크로폰들 (104) 로부터 단일 마이크로폰 (104) 으로 스위칭할 수도 있다 (1312).

엔벨로프 (112) 가 유지될 수 있다고 전자 디바이스 (102) 가 결정하면 (1314), 전자 디바이스 (102) 는 근단 스피치가 감쇠되는지를 결정할 수도 있다 (1316). 근단 스피치가 감쇠된다고 전자 디바이스 (102) 가 결정하면 (예컨대, 감쇠된 근단 스피치를 검출하면) (1314), 스위치 (1217) 는 하나 이상의 마이크로폰들 (104) 로부터 단일 마이크로폰 (104) 으로 스위칭할 수도 있다 (1312).

근단 스피치가 감쇠되지 않는다고 전자 디바이스 (102) 가 결정하면 (1316), 전자 디바이스 (102) 는 근단 보이스 스피치 검출기 (1007) 및 적어도 하나의 단일 채널 보이스 활성도 검출기 (1009) 에 기초하여 근단 스피치를 검출할 수도 있다 (1318). 일부 구현예들에서, 이것은 도 11 과 관련하여 설명되는 바와 같이 이루어질 수도 있다.

도 13a 는 마이크로폰 스위칭을 위한 방법 (1300a) 의 하나의 구성을 예시하는 흐름도이다. 특히, 도 13a 는 보우팅 (voting) 방식 기반의 지능적 스위치 (IS) 의 일 예를 예시한다. 전자 디바이스는, 고조파도가 특정 임계치를 초과하는지, 근단 보이스 검출기가 보이스 스피치를 검출하는지 (예컨대, (1420)) 그리고, 단일-채널 보이스 활성도 검출기 (예컨대, 단일 채널 VAD (1209)) 가 온인지 (예컨대, 보이스 활성도를 나타내는지) 를 결정할 수도 있다 (1302a). 이들 기준들 중 임의의 기준이 만족되지 않으면, 전자 디바이스는 결정 로직을 다음과 같이 이용할 수도 있다. 두문자어 "VAD" 가 본원에서 "보이스 활성도 검출" 및/또는 "보이스 활성도 검출기" 를 축약하기 위해 사용될 수도 있다는 점에 유의해야 한다.

전자 디바이스는 또 다른 마이크로폰 상태로 스위칭할지 또는 마이크로폰 상태를 유지할지의 여부를 결정할 수도 있다 (1312a). 더 구체적으로는, 전자 디바이스는 스피치 비-활성 프레임들의 카운트 및 스위칭 마진과의 각 상태의 보우트들 (votes) 의 비교에 기초하여 다수의 프레임들 내에서 단일-mic 상태 또는 이중-mic 상태로 스위칭할지 또는 유지할지를 결정할 수도 있다 (1312a). 특히, 전자 디바이스는 특정 양의 시간 동안 각 상태에 대한 보우팅을 수집할 수도 있다. 충분한 스피치-활성 프레임들이 있지 않으면, 전자 디바이스는 (단일-mic 상태와 멀티-mic (예컨대, 이중 mic) 상태간에) 상태들을 스위칭하지 않을 수도 있다. 이중-상태가 어떤 마진으로 단일-상태를 이기면, 전자 디바이스는 이중-mic 상태를 이용 (그 상태로 스위칭하거나 또는 그 상태를 유지) 할 수도 있다. 단일-mic 상태가 어떤 마진으로 이중-mic 상태를 이기면, 전자 디바이스는 단일-mic 상태를 이용 (그 상태로 스위칭하거나 또는 그 상태를 유지) 할 수도 있다. 각각의 상태에 대한 마진은 상이할 수 있다. 상태를 업데이트하는 것은 모든 프레임에 대해 행해질 수 있거나 그렇지 않을 수도 있다. 예를 들어, 모든 "보우팅을 위한 프레임들의 수" 까지 행해질 수 있다. 일부 구성들에서, 단일-mic 상태 또는 이중-mic 상태로 스위칭할지 (또는, 유지할지) 를 결정하는 것 (1312a) 은 또한, 이전 상태 (예컨대, 이전 상태가 단일-mic 상태 또는 이중-mic 상태였는지) 에 기초할 수도 있다.

명료성을 위해, 전체 프로세싱 블록들이 스피치 복원 (스피치 레벨 매칭) 에 얼마나 기여하는지에 대해 추가적인 설명이 주어진다. 이중-mic 프로세싱이 (예를 들어, 이중-mic 상태로) 항상 수행되면, 향상된 또는 최상의 성능이, 사용자의 정상적인 폰 유지의 경우에 대해 달성될 수도 있다. 그러나, 아래로 유지하거나 또는 밖으로 유지하는 것 (holding down or outward) 과 같은 차선의 유지하는 위치에 대해, 이중-mic 프로세싱은 원치않는 잡음뿐만 아니라, 유익하게 보존되는 목표 스피치를 억제할 수도 있다.

목표 스피치 억제를 피하기 위해, (지능적 스위칭 방식을 이용한) 단일-mic 상태에 의한 단일-mic 프로세싱으로의 스위칭이 요구될 수도 있다. 그러나, 동시에, 이중-mic 잡음 억제 성능이 더 우수할 수도 있으므로, 불필요한 스위칭이 유익하게 방지될 수도 있다.

강건한 스위칭 방식을 갖기 위해, 전자 디바이스는 특히 이중으로부터 단일로의 상태 스위칭에 대해, 결정을 행하기 위해, 특정 양 시간 동안 정보를 수집할 수도 있다. 그러나, 이중으로부터 단일로 결정하기 전에, 사용자가 폰을 차선의 유지 위치로 갑자기 움직이면, 스위칭이 실제로 일어날 때까지, 목표 스피치 억제는 불가피할 수도 있다.

사용자가 고조파도 기반의 VAD 가 작동하지 않도록 폰을 어떤 극단적인 방식으로 유지하면, 지능적 스위칭이 일어나지 않을 것이다. 이 경우, 도 20 내지 도 24 와 관련하여 설명되는 스피치 복원 방식은, 게이트 키퍼 (keeper) 역할을 하기 때문에, 중요한 역할을 할 수도 있다. 이것은 상태에 상관없이, 실수로 억제되었으면, 목표 스피치를 복원한다는 것을 의미한다.

고조파도가 특정 임계치를 초과하면, 근단 보이스 검출기가 보이스 스피치를 초과하면, 그리고 단일-채널 VAD 가 온이면, 전자 디바이스는 근단 스피치가 임계치 아래에서 감쇠되는지를 결정할 수도 있다 (1304a). 근단 스피치가 임계치 아래에서 감쇠되면, 전자 디바이스는 단일-mic 상태 카운트를 증분할 수도 있다 (1310a). 전자 디바이스는 위에서 설명한 바와 같이 다수의 프레임들 내에서 단일-mic 상태 또는 이중 mic 상태로 스위칭할지를 결정할 수도 있다 (1312a).

근단 스피치가 임계치 아래에서 감쇠되지 않으면, 전자 디바이스는 도달의 방향이 목표 방향을 향하는지를 결정할 수도 있다 (1306a). 예를 들어, 전자 디바이스는 도달의 방향이 목표 방향에 (예를 들어, 일부 각도 범위 내에서) 대응하는지를 결정할 수도 있다. 도달의 방향이 목표 방향을 향하지 않으면, 전자 디바이스는 단일-mic 상태 카운트를 증분할 수도 있으며 (1310a), 위에서 설명한 바와 같이 다수의 프레임들 내에서 단일-mic 상태 또는 이중 mic 상태로 스위칭할지를 결정할 수도 있다 (1312a). 도달의 방향이 목표 방향을 향하면, 전자 디바이스는 위에서 설명한 바와 같이 다수의 프레임들 내에서 단일-mic 상태 또는 이중 mic 상태로 스위칭할지를 결정할 수도 있다 (1312a).

일부 구성들에서, 전자 디바이스는 추가적으로 도달의 방향이 목표 방향을 향할 때 근단 스피치가 어떤 임계치 위에서 감쇠되지 않는지를 결정할 수도 있다. 근단 스피치가 어떤 임계치 위에서 감쇠되면, 전자 디바이스는 이중-mic 상태 카운트를 증분할 수도 있으며 위에서 설명한 바와 같이 스위칭할지의 여부를 결정할 수도 있다 (1312a). 일부 구성들에서, 전자 디바이스는 근단 스피치가 어떤 임계치 위에서 감쇠되지 않는 경우에 스위칭할지의 결정 (1312a) 의 근거를 둘 수도 있다. 예를 들어, 전자 디바이스는 근단 스피치가 어떤 임계치 위에서 감쇠되지 않으면 이중-mic 상태로 스위칭할 수도 있다.

도 14 은 보이스 활성도를 검출하는 방법 (1400) 의 또 다른 구성을 예시하는 흐름도이다. 일 구현예에서, 전자 디바이스 (102) 는 클린 스피치가 검출되는지의 여부를 결정할 수도 있다 (1402). 일부 구현예들에서, 클린 스피치는 오디오 신호 (182) 가 (예를 들어, 특정의 임계치를 만족하거나 또는 초과하는) 높은 신호-대-잡음비를 포함하면 검출될 수도 있다. 클린 스피치가 검출된다고 전자 디바이스 (102) 가 결정하면 (1402), 전자 디바이스 (102) 는 제 1 마이크로폰 (104) 의 오디오 신호 (182) (예컨대, Mic1 신호) 를 이용할 수도 있다 (1404). 클린 스피치가 검출되지 않는다고 전자 디바이스 (102) 가 결정하면 (1402), 전자 디바이스 (102) 는 사전-향상된 오디오 신호 (182) (예컨대, Mic1 - a*Mic2) 를 계산할 수도 있다 (1406).

어느 경우에나, 전자 디바이스 (102) 는 각각의 시간 프레임에 대해 피치 및 고조파도 통계치를 계산할 수도 있다 (1408). 일부 구현예들에서, 전자 디바이스 (102) 는 하나 이상의 기준들이 충족되면, 스피치 피치 히스토그램 (1001) 을 업데이트할 수도 있다 (1410). 기준들의 예들은, 고조파도가 높은 임계치를 충족하는지 그리고 마이크로폰간 이득 차이가 높은지 (예컨대, 임계값을 만족하거나 또는 초과하는지) 를 포함한다. 일부 구현예들에서, 업데이트들이 기존 스피치 피치 히스토그램 (1001) 에 추가될 수도 있다. 게다가, 일부 구현예들에서, 전자 디바이스 (102) 는 제 2 마이크로폰 (104) (예컨대, Mic2) 신호 상에서 잡음 고조파들을 계산할 수도 있다 (1412). 추가적으로, 또는 대안적으로, 전자 디바이스 (102) 는 Mic2-b*Mic1 오디오 신호 (182) 상에서 잡음 고조파들을 계산할 수도 있다 (1412). 일부 구현예들에서, 스피치 피치 히스토그램 (1001) 은 제 2 마이크로폰 (104) (예컨대, Mic2) 오디오 신호 (182) 또는 향상된 신호 (예컨대, Mic2-b*Mic1) 의 잡음 고조파들에 기초하여 정제 (refine) 될 수도 있다. 이 구현예에서, 제 1 마이크로폰 (104) 의 오디오 신호 (182) 는 제 2 마이크로폰 (104) 의 오디오 신호 (182) 로부터 감산될 수도 있으며 (예컨대, 팩터 "b" 만큼) 스케일링될 수도 있다.

전자 디바이스 (102) 는 또한 시간 경과에 따른 고조파도 통계치의 최소치를 계산할 수도 있다 (1414). 예를 들어, 전자 디바이스 (102) 는 시간 t 에 걸쳐서 고조파도 통계치의 최소 값을 계산할 수도 있다. 전자 디바이스 (102) 는 고조파도 통계치의 최소치 (예컨대, 트랙킹된 최소치) 및 고정된 최대치에 의해 고조파도 통계치를 정규화할 수도 있다 (1416). 최대 값은 (어쩌면 잡음 오염된) 소프트한 스피치 프레임들을 인에이블하지만, 잡음-단독 프레임들을 인에이블하지 않도록 설정될 수도 있다.

프레임의 정규화된 고조파도가 특정 임계치를 초과하면, 이 프레임은 보이스 스피치 프레임으로 라벨링될 수도 있거나, 또는 적어도 프레임이 보이스 스피치를 포함할 가능성이 매우 높다. 정규화된 고조파도 임계치에 대해, 통계치들의 최소치 및/또는 최대치를 트랙킹하는 기법이 (예를 들어, 이중-mic 구성에 대해) 이용될 수도 있다. 본원에서 사용될 때, 용어 "고조파도" 는 원시 (raw) 고조파도가 명시적으로 표현되지 않는 한, 고조파도 및/또는 정규화된 고조파도를 지칭하기 위해 사용될 수도 있다.

업데이트된 스피치 피치 히스토그램 (1001) 에 의해, 전자 디바이스 (102) 는 그후 고조파도 통계치를 스피치 피치 히스토그램에서의 검출된 피치의 스코어로 가중할 수도 있다 (1418). 고조파도가 특정 임계치를 초과하면, 근단 보이스 스피치 검출기는 보이스 스피치를 검출할 수도 있다 (1420). 예를 들어, 근단 보이스 스피치 검출기는 보이스 활성도를 나타내기 위해 "1" 을 발생할 수도 있다.

도 15 는 핑크 잡음에서 보이스 스피치의 레코딩된 스펙트럼들 (1519a-b) 을 예시하는 그래프이다. 일부 구현예들에서, 하나 이상의 마이크로폰들 (104) 은 보이스 스피치를 레코딩할 수도 있다. 하나 이상의 마이크로폰들 (104) 은 전자 디바이스 (102) 에 포함될 수도 있다. 그래프는 제 1 마이크로폰 (104) 에 의해 레코딩될 수도 있는 제 1 스펙트럼들 (1519a) 을 예시한다. 그래프 (1500) 는 또한 제 2 마이크로폰 (104) 에 의해 레코딩될 수도 있는 제 2 스펙트럼들 (1519b) 을 예시한다. 일부 구현예들에서, 전자 디바이스 (102) 는 출력 스펙트럼 (448) 에서 엔벨로프 (112) 를 유지하기 위해 잡음 신호에서 스피치 고조파들을 식별할 수도 있다. 일부의 경우, 출력 스펙트럼 (448) 은 잡음-억제된 신호를 포함할 수도 있다. 잡음에서 스피치 고조파들의 식별은 또한 스펙트럼의 널들 (널들) 에서 잡음을 감소시킬 수도 있다. 일부 구현예들에서, 엔벨로프 (112) 가 유지될 수 없으면, 전자 디바이스 (102) 는 잡음 억제를 감소시킬 수도 있다. 이에 추가적으로 또는 대안적으로, 엔벨로프 (112) 가 유지될 수 없으면, 전자 디바이스 (102) 는 복수의 마이크로폰들 (104) 로부터 단일 마이크로폰 (104) 으로 스위칭할 수도 있다 (예컨대, 활성 마이크로폰들의 수를 단일 마이크로폰 (104) 까지 감소시킬 수도 있다). 개념적인 명료성을 위해, 엔벨로프 (1512) 의 일 예는 또한 도 15 에서 파선으로서 도시된다. 엔벨로프 (1512) 는 파 형태 또는 신호로부터 추출될 수도 있다. 이 예에서, 도시된 엔벨로프 (1512) 는 제 1 스펙트럼들 (1519a) 에 관련된다. 신호 또는 파형의 엔벨로프 (1512) 는 신호 또는 파형의 피크들 및/또는 골짜기들에 의해 경계지워질 수도 있다. 본원에서 개시된 시스템들 및 방법들의 일부 구성들은 잡음-억제된 신호에 인가될 수도 있는 엔벨로프 (1512) 를 결정하기 위해, 고조파들을 보존할 수도 있다. 도 15 에 도시된 엔벨로프 (1512) 는 구현예에 따라서, 도 1 과 관련하여 설명되는 엔벨로프 (112) 의 일 예이거나 또는 아닐 수도 있다는 점에 유의해야 한다.

도 16a 내지 도 16b 는 음악 잡음에서 고조파 통계치 (1005) 를 예시하는 여러 그래프들 (1621a-f) 을 포함한다. 도 16a 의 제 1 그래프 (1621a) 는 음악 잡음에서 근단 보이스 스피치 (예컨대, 고조파 생성 스펙트럼) 통계치의 스펙트로그램이다. 이 예에서, X-축은 오디오 신호 (182) 의 프레임을 나타낼 수도 있으며, Y-축은 오디오 신호 (182) 의 주파수 빈들을 나타낼 수도 있다. 도 16a 의 제 2 그래프 (1621b) 는 근단 보이스 스피치 (예컨대, 고조파 생성 스펙트럼) 통계치의 피치 트래킹을 예시한다. 이 예에서, X-축은 오디오 신호 (182) 의 프레임을 나타낼 수도 있으며, Y-축은 오디오 신호 (182) 의 주파수 빈들을 나타낼 수도 있다. 도 16a 의 제 3 그래프 (1621c) 는 근단 보이스 스피치 (예컨대, 고조파 생성 스펙트럼) 통계치의 고조파도 (1623a) 를 예시한다. 이 예에서, X-축은 오디오 신호 (182) 의 프레임을 나타낼 수도 있으며, Y-축은 오디오 신호 (182) 의 고조파도 (dB 단위) 를 나타낼 수도 있다. 도 16a 의 제 4 그래프 (1621d) 는 근단 보이스 스피치 (예컨대, 고조파 생성 스펙트럼) 통계치의 최소 통계치 (1625) 를 예시한다. 이 예에서, X-축은 오디오 신호 (182) 의 프레임을 나타낼 수도 있으며, Y-축은 오디오 신호 (182) 의 최소 고조파도 통계치 (dB 단위) 를 나타낼 수도 있다. 도 16b 의 제 1 그래프 (1621e) 는 음악 잡음과 구별되는 근단 스피치를 도시한다. 도 16b 의 제 1 그래프 (1621e) 는 정규화된 고조파도 (1623b) 를 도시할 수도 있다. 이 예에서, X-축은 오디오 신호 (182) 의 프레임을 나타낼 수도 있으며, Y-축은 오디오 신호 (182) 의 정규화된 고조파도 (dB 단위) 를 나타낼 수도 있다. 도 16b 의 제 2 그래프 (1621f) 는 음악 잡음과 구별되는 근단 스피치를 도시한다. 도 16b 의 제 2 그래프 (1621f) 는 히스토그램 억제된 고조파도 (1623c) 를 도시할 수도 있다. 히스토그램 억제된 고조파도 (1623c) 은 음악 잡음과 구별되는 근단 스피치를 나타낼 수도 있다. 이 예에서, X-축은 오디오 신호 (182) 의 프레임을 나타낼 수도 있으며, Y-축은 오디오 신호 (182) 의 정규화된 히스토그램 억제된 고조파도 (dB 단위) 를 나타낼 수도 있다.

도 17a 는 이중-마이크로폰 잡음 억제 시스템 (1774) 의 하나의 구성의 부분을 예시하는 블록도이다. 일부 구현예들에서, 이중-마이크로폰 잡음 억제 시스템 (1774) 은 본원에서 설명되는 기능들 및/또는 구조들 중 하나 이상에 따라서 구현될 수도 있다. 예를 들어, 이중-마이크로폰 잡음 억제 시스템 (1774) 은 전자 디바이스들 (102, 402, 702, 902, (1002)) 및 무선 통신 디바이스 (1202) 중 하나 이상 상에 포함될 수도 있다 더 구체적으로는, 이중-마이크로폰 잡음 억제 시스템 (1774) 은 도 1 과 관련하여 설명된 바와 같은 잡음 억제 블록/모듈 (116) 의 일 예일 수도 있다. 일 예에서, 이중-마이크로폰 잡음 억제 시스템 (1774) 은 하나 이상의 입력 마이크로폰 채널들 (1778) (예컨대, 복수의 오디오 신호들 (182)) 을 수신할 수도 있다. 이중-마이크로폰 잡음 억제 시스템 (1774) 은 하나 이상의 중간 신호들 (1776a-f) 을 출력하도록 입력 마이크로폰 채널들 (1778) 을 프로세싱할 수도 있는 하나 이상의 블록/모듈들을 포함할 수도 있다.

예를 들어, 이중-마이크로폰 잡음 억제 시스템 (1774) 은 입력 마이크로폰 채널들 (1778) 을 하나 이상의 대역들로 분할할 수도 있는 고속 푸리에 변환 블록/모듈 (1729) 을 포함할 수도 있다. 스위칭 블록/모듈 (1731) 은 이중-마이크로폰 모드와 단일-마이크로폰 모드 사이에 스위칭할 수도 있다. 일부 구성들에서, 이것은 도달의 방향 (DOA) 추정에 기초할 수도 있다. 보이스 활성도 검출 블록/모듈 (1733) 은 입력 마이크로폰 채널들 (1778) 에서 보이스 스피치를 검출하는 하나 이상의 보이스 활성도 검출기들을 포함할 수도 있다. 보이스 활성도 검출기들의 예들은 단일-채널 보이스 활성도 검출기, 근접성 보이스 활성도 검출기, 위상 보이스 활성도 검출기 및 온셋/오프셋 보이스 활성도 검출기를 포함한다.

이중-마이크로폰 잡음 억제 시스템 (1774) 은 또한 입력 마이크로폰 채널들 (1778) 을 프로세싱하여 하나 이상의 중간 신호들 (1776a-f) 을 출력하기 위해 적응적 빔형성기 (1735), 저-주파수 마이크로폰간 감산 블록/모듈 (1737), 마스킹 블록/모듈 (1739) 및 시간-주파수 보이스 활성도 검출 블록/모듈 (1741) 중 하나 이상을 포함할 수도 있다.

도 17b 는 이중-마이크로폰 잡음 억제 시스템 (1774) 의 하나의 구성의 또 다른 부분을 예시하는 블록도이다. 이 예에서, 이중-마이크로폰 잡음 억제 시스템 (1774) 은 잡음 참조 블록/모듈 (1743) 을 더 포함할 수도 있다. 잡음 참조 블록/모듈 (1743) 은 하나 이상의 잡음 참조 (noise reference) 들을 포함할 수도 있다. 잡음 참조들의 예들은 비-고정 잡음 참조들, 최소 통계치들 잡음 참조들, 장기 잡음 참조들, 이상적인 비 (ratio) 마스크 잡음 참조들, TF 마스크 잡음 참조들 및 잡음 편차 잡음 참조들을 포함한다. 이중-마이크로폰 잡음 억제 시스템 (1774) 은 또한 하나 이상의 중간 신호들 (1776a-f) 을 출력 신호 (1780) 로 프로세싱하는, 이득 인가 블록/모듈 (1753), 포스트-프로세싱 이득 계산 블록/모듈 (1745), 잡음 통계치 (예컨대, 스펙트럼의 평탄도) 추정 블록/모듈 (1747), TF 위상 보이스 활성도 검출/이득 차이 기반 억제 블록/모듈 (1749), 보이스 활성도 검출-기반 잔여 잡음 억제 블록/모듈 (1751), 콤 (comb) 필터링 블록/모듈 (1755) 및 역 고속 푸리에 변환 블록 모듈 (1757) 중 하나 이상을 포함할 수도 있다. 도 17a 내지 도 17b 에 나타낸 블록/모듈들 중 임의의 하나 이상이 시스템의 나머지와는 관계 없이 (예컨대, 또 다른 오디오 신호 프로세싱 시스템의 부분으로서) 구현될 수도 있다는 점이 분명히 언급된다.

도 18 및 도 19 는 자동차 잡음에서 스테레오 스피치 레코딩을 예시하는 그래프들 (1859, 1961) 이다. 더 구체적으로는, 도 18 은 시간-영역 신호의 그래프 (1859) 를 나타내며, 도 19 는 주파수 스펙트럼의 그래프 (1961) 를 나타낸다. 각 경우에, 상부 트레이스들 (1859a, 1961a) 은 제 1 마이크로폰 (104) (예컨대, 사용자의 입으로 향해지거나 또는 아니면 사용자의 보이스 대부분을 직접 수신하는 마이크로폰 (104)) 으로부터의 오디오 신호 (182) 에 대응하며, 하부 트레이스들 (1859b, 1961b) 은 제 2 마이크로폰 (104) 으로부터의 오디오 신호 (182) 에 대응한다. 주파수 스펙트럼 그래프 (1961) 는 신호-대-잡음비가 제 1 마이크로폰 (104) 오디오 신호 (182) 에 더 좋다는 것을 나타낸다. 예를 들어, 보이스 스피치 (예컨대, 피크들) 가 제 1 마이크로폰 (104) 오디오 신호 (182) 에서 더 강하지만, 백그라운드 잡음 (예컨대, 골짜기들) 이 채널들 사이에서 대략 동일하게 크다는 것을 알 수도 있다. 일부 구성들에서, 마이크로폰간 채널 감산은, 많은 엘리먼트들을 가진 큰 마이크로폰 어레이들을 이용하여 공간 프로세싱에 의해 획득될 수도 있는 잡음 감소 결과들과 유사한, 아주 작은 보이스 왜곡을 갖는 [0-500 Hz] 대역에서의 8-12 dB 잡음 감소를 초래할 것으로 일반적으로 예상될 수도 있다.

저-주파수 잡음 억제는 마이크로폰간 감산 및/또는 공간 프로세싱을 포함할 수도 있다. 복수의 오디오 신호들에서 잡음을 감소시키는 방법의 일 예는 500 Hz 미만인 주파수들에 대한 마이크로폰간 차이 m (예컨대, 위상 차이 및/또는 레벨 차이) 를 이용하는 것, 및, 500 Hz 보다 큰 주파수들에 대한 공간적으로 선택적 필터링 동작 (예컨대, 방향 선택적 동작, 예컨대 빔형성기) 을 이용하는 것을 포함한다.

2 개의 마이크로폰들 (104) 사이에 이득 부정합을 피하기 위해 적응적 이득 보정 필터를 이용하는 것이 바람직할 수도 있다. 이러한 필터는 제 1 마이크로폰 (104) 로부터의 신호와 하나 이상의 2차 마이크로폰들 (104) 로부터의 신호 사이의 저-주파수 이득 차이에 따라서 계산될 수도 있다. 예를 들어, 이득 보정 필터 M 은

와 같은 식에 따라서 스피치-비활성 간격에 걸쳐서 획득될 수도 있고,

식중, ω 는 주파수를 표기하며, Y₁ 는 제 1 마이크로폰 (104) 채널을 표기하고, Y₂ 는 2차 마이크로폰 (104) 채널을 표기하고, 그리고

는 벡터 놈 동작 (vector norm operation) (예컨대, L2-놈) 을 표기한다.

대부분의 애플리케이션들에서, 2차 마이크로폰 (104) 채널은, 전체 보이스 채널이 단순한 감산 프로세스에 의해 감쇠될 수도 있도록, 일부 보이스 에너지를 포함할 것으로 예상될 수도 있다. 그 결과, 보이스 이득을 그의 원래 레벨로 축소하기 위해 구성 이득 (make-up gain) 을 도입하는 것이 바람직할 수도 있다. 이러한 프로세스의 일 예는

과 같은 식으로 요약될 수도 있고,

식중, Y_n 은 최종 출력 채널을 표기하며, G 는 적응적 보이스 구성 이득 팩터를 표시한다. 위상은 제 1 마이크로폰 (104) 오디오 신호로부터 획득될 수도 있다.

적응적 보이스 구성 이득 팩터 G 는 반향 도입을 회피하기 위해 [0-500Hz] 에 대해 저-주파수 보이스 교정 (calibration) 에 의해 결정될 수도 있다. 보이스 구성 이득 G 는

와 같은 식에 따라서 스피치-활성 간격에 대해 획득될 수 있다.

[0-500Hz] 대역에서, 이러한 마이크로폰간 감산이 적응적 필터링 방식보다 선호될 수도 있다. 핸드셋 폼 팩터들 상에서 채용되는 전형적인 마이크로폰 (104) 간격에 있어, 저-주파수 콘텐츠 (예컨대, [0-500Hz] 범위에서) 는 보통 채널들간에 크게 상관되며, 이것은 실제로, 저-주파수 콘텐츠의 증폭 또는 반향에 이를 수도 있다. 제안된 방식에서, 적응적 빔형성 출력 Y_n 은 500 Hz 아래에서 마이크로폰간 감산 모듈로 오버라이트 (overwrite) 된다. 그러나, 적응적 널 빔형성 방식은 또한 포스트-프로세싱 스테이지에서 사용되는 잡음 참조를 발생한다.

본원에서 개시된 시스템들 및 방법들의 일부 구성들은 다수 (예컨대, 이중) 마이크로폰 잡음 감소를 위한 스피치 복원을 기술한다. 이중 마이크로폰 계산적 청각 장면 분석- (CASA-) 기반의 잡음 억제는 폰이 비-최적 유지 위치로 갑자기 변경될 때 일시적인 스피치 묵음 (muting) 및 감쇠의 문제들을 갖고 있다. 예를 들어, 이들 문제들은, 이중 마이크로폰 모드와 단일 마이크로폰 모드 사이의 지능적 스위칭 (IS) 이 지연되는 동안에 일어날 수도 있다. 본원에 개시된 시스템들 및 방법들은 이들 문제들에 대한 솔루션을 제공한다.

본원에서 개시된 시스템들 및 방법들은, 스피치를 포함하고 잡음-억제된 보이스가 묵음되거나 또는 감쇠될 때, 출력 신호를 입력 신호 레벨로 복원하기 위해 복원 블록/모듈을 이용할 수도 있다. 복원 블록/모듈은 스피치 신호들에 대해 "게이트 키퍼" 로서 기능할 수도 있다. 본원에서 개시된 시스템들 및 방법들은 모든 스피치를 복원하고 잡음 (예컨대, 핑크 잡음, 다중 누화 잡음, 거리 잡음, 음악 등) 은 복원하지 않으려 시도할 수도 있다. 잡음이 존재하는데 스피치가 있을 때, 본원에서 개시된 시스템들 및 방법들은 스피치만을 복원하려고 시도하지만, 이는 강력히 요구되지 않는다.

알고리즘 개관이 다음과 같이 제공된다. 프레임-방식 (frame-wise) 조건들은 고조파도-기반의 조건들을 포함할 수도 있다. 특히, 전자 디바이스는 고조파도 (예컨대, HPS (Harmonic Product Sum)) 에 기초하여 스피치-우세 프레임들을 검출할 수도 있다. 빈-방식 (bin-wise) 조건들은 입력 신호 SNR 및/또는 피크 트래킹 (예컨대, 피크 맵) 을 포함할 수도 있다. 구체적으로 설명하면, 전자 디바이스는 최소 통계치 (MinStat) 잡음 추정에 기초하여 클린 스피치를 검출할 수도 있다. 이에 추가적으로 또는 대안적으로, 전자 디바이스는 피크 맵을 이용하여 스피치와 연관되는 스펙트럼 피크들을 검출할 수도 있다.

포스트-프로세싱은 일부 경우들에서 (예를 들어, 프레임-방식에 대해) 복원을 실행취소하는 것을 포함할 수도 있다. 이 포스트-프로세싱은 복원 비, 비정상 피크 제거, 고정된 낮은 SNR 및 복원 연속성 중 하나 이상에 기초할 수도 있다. 복원 연속성은 복원된 신호가 각각의 빈에 대해 연속적이도록 보장할 수도 있다.

도 20 은 프로세싱된 스피치 신호를 복원하는 시스템들 및 방법들이 구현될 수도 있는 전자 디바이스 (2002) 의 하나의 구성을 예시하는 블록도이다. 전자 디바이스 (2002) 는 도 1 과 관련하여 위에서 설명된 전자 디바이스 (102) 의 일 예일 수도 있다. 전자 디바이스 (2002) 에 포함되는 엘리먼트들 중 하나 이상은 하드웨어 (예컨대, 회로), 소프트웨어 또는 양자 모두에서 구현될 수도 있다. 다수의 마이크로폰들 (2063) 이 다수의 오디오 신호 채널들 (2065, 2067) 을 캡쳐하는데 이용될 수도 있다. 예를 들어, 다수의 마이크로폰들 (2063) 은 위에서 설명한 바와 같이 다수의 오디오 신호들을 제공할 수도 있다.

2 개 이상의 오디오 신호 채널들 (2067) 이 잡음 억제 블록/모듈 (2014) (예컨대, 이중-mic 잡음 억제 블록/모듈 (2014)) 에 제공될 수도 있다. 잡음 억제 블록/모듈 (2014) 은 잡음-억제된 출력 프레임 (2001) (및/또는 잡음-억제 이득) 을 발생할 수도 있다.

오디오 신호 채널 (2065) (예컨대, 1 차 채널) 이 고속 푸리에 변환 (FFT) 블록/모듈 (2069) 에 제공될 수도 있다. 일부 구성들에서, 1 차 채널 (2065) 은 마이크로폰들 (2063) 중 하나에 대응할 수도 있다. 다른 구성들에서, 1 차 채널 (2065) 은 마이크로폰들 (2063) 에 대응하는 다수의 채널들로부터 선택되는 단일 채널일 수도 있다. 예를 들어, 전자 디바이스 (2002) 는 마이크로폰들 (2063) 에 대응하는 여러 채널들 중에서 최고 고조파도 값을 가진 채널을 1 차 채널 (2065) 로서 선택할 수도 있다. 또한 다른 구성들에서, 1 차 채널은 (예를 들어, 스케일링 값(들) 이 있거나 또는 없이) 마이크로폰간 감산으로부터 기인하는 채널일 수도 있다.

FFT 블록/모듈 (2069) 은 1 차 채널 오디오 신호 (2065) 를 시간 영역으로부터 주파수 영역으로 변환할 수도 있다. 변환된 오디오 신호 (2071) 가 프레임-방식 프로세싱 블록/모듈 (2073) 에, 그리고, 빈-방식 프로세싱 블록/모듈 (2081) 에 제공될 수도 있다.

프레임-방식 프로세싱 블록/모듈 (2073) 은 프레임-방식 조건들을 결정할 수도 있다. 일부 구성들에서, 프레임-방식 프로세싱 블록/모듈 (2073) 은 동작(들)을 프레임 단위로 수행할 수도 있으며, 고조파도 블록/모듈 (2075) 및 프레임-방식 보이스 활성도 검출기 (VAD) (2077) 를 포함할 수도 있다. 프레임-방식 프로세싱 블록/모듈 (2073) 은 FFT 블록/모듈 (2069) 로부터 입력 프레임 (예컨대, 변환된 오디오 신호 (2071) 의 프레임) 을 수신할 수도 있다. 프레임-방식 프로세싱 블록/모듈 (2073) 은 프레임-방식 조건들에 기초하여 다음과 같이 동작할 수도 있다.

고조파도 블록/모듈 (2075) 은 고조파도를 측정하기 위해 1 차 채널 (2065) (예컨대, 변환된 오디오 신호 (2071)) 에 기초하여 고조파 생성 스펙트럼 (HPS) 을 결정할 수도 있다. HPS 는 피치를 결정하는 알려진 접근법일 수도 있다. 예를 들어, 고조파도 블록/모듈 (2075) 은 피치 및 고조파도 레벨을 반환한다. 프레임-방식 프로세싱 블록/모듈 (2073) 은 최소 통계 (예컨대, MinStat) 를 이용하여 원시 고조파도를 정규화할 수도 있다. 일부 구성들에서, 예를 들어, 프레임-방식 프로세싱 블록/모듈 (2073) 은 원시 고조파도를 정규화하기 위해 빈-방식 프로세싱 블록/모듈 (2081) 에 포함된 SNR 결정 블록/모듈 (2085) 로부터 최소 통계치 (예컨대, MinStat) 를 획득할 수도 있다. 이의 대안으로, 프레임-방식 프로세싱 블록/모듈 (2073) 은 원래 고조파도를 정규화하기 위한 최소 통계치 (예컨대, MinStat) 를 결정할 수도 있다. 정규화된 고조파도의 예들은 아래에서 도 25 와 관련하여 제공된다. 고조파도 결과(들) (예컨대, 고조파도 및/또는 피치) 이 프레임-방식 VAD (2077) 에 제공될 수도 있다. 즉, 프레임-방식 VAD (2077) 는 고조파도-기반의 VAD 일 수도 있다.

프레임-방식 VAD (2077) 는 고조파도 블록/모듈 (2075) 에 의해 제공되는 고조파도 및/또는 피치뿐만 아니라, 변환된 신호 (2071) 에 기초하여, 보이스 활성도를 검출할 수도 있다. 예를 들어, 프레임-방식 VAD (2077) 는 고조파도가 하나 이상의 임계치들을 충족하면 (여기서, 예를 들어, 임계치(들) 은 일부 구성들에서 피치에 기초할 수도 있다) 보이스 활성도를 나타낼 수도 있다. 프레임-방식 VAD (2077) 는 프레임-방식 보이스 표시자 (2079) 를 빈-방식 프로세싱 블록/모듈 (2081) 에 (예컨대, 빈-방식 VAD (2087) 에) 제공할 수도 있다. 프레임-방식 보이스 표시자 (2079) 는 프레임-방식 VAD (2077) 가 프레임에서 보이스 활성도를 검출했는지 여부를 나타낼 수도 있다.

행-오버 방식이 본원에서 개시된 시스템들 및 방법들의 일부 구성들에 이용될 수도 있다. 예를 들어, 프레임이 강한 고조파도 레벨을 가지면, 전자 디바이스 (2002) 는 고조파도가 아주 낮지 않는 한 여러 프레임들에 대한 상태를 유지할 수도 있다. 예를 들어, 이 상태는 보이스 스피치 검출을 지칭하며, 여기서, 행오버 (hangover) 는 스피치 테일들을 잘라내는 것을 피할 수도 있다.

고정된 잡음들 (stationary noises) 은 프레임-방식 조건에 기초하여 잘 필터링될 수도 있다. 음악 잡음은 빈-방식 조건들 및 포스트-프로세싱에 의해 필터링될 수도 있다. 예를 들어, 고정된 잡음에서, (프레임-방식 프로세싱 블록/모듈 (2073) 에 의해 이용된) 프레임-방식 조건이 스피치를 잡음과 구별하는데 충분할 수도 있다. 그러나, 음악 잡음에서는, 고조파도 추정들의 포스트-프로세싱이 변환된 오디오 신호 (2071) 가 스피치 또는 고조파 잡음을 포함하는지를 추가로 결정하는 것이 요구될 수도 있다. 로테이션 동안의 깨끗한 스피치, 스피치 및 음악 / 음악만 / 스피치만 그리고 스피치 및 공중 잡음 / 공중 잡음만 / 스피치만의 동안 클린 스피치의 고조파도를 예시하는 그래프들이 도 25 에서 제공된다.

빈-방식 프로세싱 블록/모듈 (2081) 은 빈-방식 조건들을 결정할 수도 있다. 일부 구성들에서, 빈-방식 프로세싱 블록/모듈 (2081) 은 빈-방식으로 동작들을 수행할 수도 있으며, 피크 맵 블록/모듈 (2083), SNR 결정 블록/모듈 (2085), 빈-방식 VAD (2087) 및/또는 피크 제거 블록/모듈 (2090) 을 포함할 수도 있다. 일부 구성들에서, 피크 제거 블록/모듈 (2090) 은 대안적으로, 빈-방식 프로세싱 블록/모듈 (2081) 과는 관계 없을 수도 있거나 및/또는 포스트-프로세싱 블록/모듈 (2093) 에 포함될 수도 있다. 각각의 "빈" 은 특정의 주파수 대역 또는 주파수들의 범위를 포함할 수도 있다.

피크 맵 블록/모듈 (2083) 은 피크 트래킹을 수행할 수도 있다. 특히, 피크 맵 블록/모듈 (2083) 은 (예를 들어, 최대치들 및/또는 최소치들에 기초하여) 변환된 오디오 신호 (2071) 에서 임의의 피크들의 로케이션을 식별할 수도 있다. 피크 맵 블록/모듈 (2083) 은 (예를 들어, 주파수에서) 이들 피크 로케이션들의 신호 또는 표시자를 빈-방식 VAD (2087) 에 제공할 수도 있다.

빈-방식 VAD (2087) 는 피크 정보, 빈-방식 SNR 및 프레임-방식 보이스 표시자 (2079) 에 기초하여 보이스 활성도를 결정할 수도 있다. 예를 들어, 빈-방식 VAD (2087) 는 보이스 활성도를 빈-방식으로 검출할 수도 있다. 더 구체적으로는, 빈-방식 VAD (2087) 는 피크 맵 블록/모듈 (2083) 에 의해 표시되는 피크들 중 어느 피크들이 스피치 피크들인지의 여부를 결정할 수도 있다. 빈-방식 VAD (2087) 는 보이스 활성도가 검출되는 임의의 빈들을 나타낼 수도 있는 빈-방식 보이스 표시자 (2089) 를 발생할 수도 있다. 특히, 빈-방식 보이스 표시자 (2089) 는 변환된 오디오 신호 (2071) 에서 스피치 피크들 및/또는 비-스피치 피크들을 나타낼 수도 있다. 피크 제거 블록/모듈 (2090) 은 비-스피치 피크들을 제거할 수도 있다.

빈-방식 VAD (2087) 는 인접한 피크들 사이의 거리들 및 시간 연속성에 기초하여 스피치와 연관되는 피크들을 나타낼 수도 있다. 예를 들어, 빈-방식 VAD (2087) 는 작은 피크들 (예컨대, 최대 피크 아래에서 임계치 양 (예컨대, 30 dB) 보다 많은 피크들) 을 나타낼 수도 있다. 빈-방식 보이스 표시자 (2089) 는 이들 작은 피크들을 피크 제거 블록/모듈 (2090) 에 표시할 수도 있으며, 그 피크 제거 블록/모듈은 변환된 오디오 신호 (2071) 로부터 작은 피크들을 제거할 수도 있다. 예를 들어, 피크들이 최대 피크보다 현저하게 낮은 (예컨대, 30 dB 인) 것으로 결정되면, 그들은 스피치 엔벨로프에 관련되지 않을 수도 있으며 따라서 제거된다.

게다가, 2 개의 피크들이 특정 주파수 범위 (예컨대, 90 Hz) 내이고 그들의 크기들이 많이 상이하지 않으면 (예컨대, 12 dB 미만이면), 낮은 피크는 비-스피치 피크로서 빈-방식 VAD (2087) 에 의해 표시될 수도 있으며, 피크 제거 블록/모듈 (2090) 에 의해 제거될 수도 있다. 주파수 범위는 스피커들에 따라서 조정될 수도 있다. 예를 들어, 상대적으로 더 높은 피치를 가지는 여자들 또는 아이들에 대해서는 주파수 범위가 증가될 수도 있다.

빈-방식 VAD (2087) 는 또한 시간적으로 분리된 피크들을 (예를 들어, 피크 맵 블록/모듈 (2083) 에 의해 표시되는 피크들에 기초하여) 검출할 수도 있다. 예를 들어, 빈-방식 VAD (2087) 는 하나 이상의 다른 프레임들 (예컨대, 이전 프레임(들) 및/또는 후속 프레임(들)) 로부터의 피크들을 현재의 프레임에서의 피크들과 비교할 수도 있다. 예를 들어, 빈-방식 VAD (2087) 는 특정의 범위 내에서 이전 프레임에서 대응하는 피크를 갖지 않는 프레임에서 피크들을 검출할 수도 있다. 범위는 피크의 로케이션에 기초하여 변할 수도 있다. 예를 들어, 빈-방식 VAD 는, 이전 프레임에서 저-주파수 피크들에 대해서는 ±1 빈 내에서 그리고, 고-주파수 피크들에 대해서는 ±3 빈들 내에서 대응하는 피크가 발견되면, 피크가 이전 프레임에서 대응하는 피크를 갖는다고 (예컨대, 피크가 시간적으로 연속적이라고) 결정할 수도 있다. 빈-방식 VAD (2087) 는 시간적으로 분리된 피크들 (예컨대, 이전 프레임에서의 대응하는 피크들 없이 현재의 프레임에서 피크들) 을 피크 제거 블록/모듈 (2090) 에 표시할 수도 있으며, 이 피크 제거 블록/모듈은 변환된 오디오 신호 (2071) 로부터 시간적으로 분리된 피크들을 제거할 수도 있다.

빈-방식 조건들 중 하나는 입력 신호 SNR 에 기초할 수도 있다. 특히, SNR 결정 블록/모듈 (2085) 은 다음과 같이 동작할 수도 있다. 빈-방식 입력 신호 SNR 은 그의 최소 통계 (MinStat) 잡음 추정치로 나눈 마이크로폰 입력 신호의 크기로서 정의될 수도 있다. 이의 대안으로, SNR 은 고조파도 (예컨대, 평균 고조파도로 나눈 고조파도) 에 기초하여 결정될 수도 있다. 빈-방식 입력 신호 SNR 을 이용하는 하나의 이점은, 잡음 스피치 세그먼트에 대해, 더 높은 잡음 레벨로 인해 SNR 이 상대적으로 낮을 수도 있다는 점이다. 반대로, 클린 스피치 세그먼트에 대해, 유지 패턴들에 상관없이, 낮은 잡음 레벨로 인해 SNR 이 더 높을 것이다.

SNR 결정 블록/모듈 (2085) 은 변환된 오디오 신호 (2071) 에 기초하여 빈-방식 SNR 을 결정할 수도 있다. 예를 들어, SNR 결정 블록/모듈 (2085) 은 변환된 오디오 신호 (2071) 의 크기를 빈-방식으로 추정된 잡음 최소 통계치로 나누어서 빈-방식 SNR 을 산출할 수도 있다. 빈-방식 SNR 은 빈-방식 VAD (2087) 에 제공될 수도 있다.

빈-방식 VAD (2087) 는 임계치를 만족하지 않는 SNR 을 가진 피크를 결정할 수도 있다. 예를 들어, 빈-방식 VAD 는 하나 이상의 임계치들보다 낮은 SNR 들을 가진 피크들을 피크 제거 블록/모듈 (2090) 에 표시할 수도 있다. 피크 제거 블록/모듈 (2090) 은 임계치(들)을 충족하지 않는 피크들을 변환된 오디오 신호 (2071) 에서 제거할 수도 있다.

일부 구성들에서, 빈-방식 VAD (2087) 는 주파수-의존적인 임계화를 이용할 수도 있다. 예를 들어, 비선형 임계치들이 더 지각적으로 우세한 보이스 주파수 대역(들)을 복원하는데 이용될 수도 있다. 일부 구성들에서, 임계치는 (예를 들어, 고-주파수 콘텐츠를 이용하는) 음악 사운드들의 온셋들 (onsets) 에서 증가될 수도 있다. 이에 추가적으로 또는 대안적으로, 임계치는 입력 신호 레벨이 너무 낮을 때 (예컨대, 소프트 스피치에 있을 때) 감소될 수도 있다. 주파수-의존적인 임계화 (thresholding) 의 예들 (예컨대, 하나의 클린 스피치 묵음 프레임에서의 SNR 및 하나의 음악 잡음 프레임에서의 SNR) 을 예시하는 그래프들이 도 26 에 제공된다. 예를 들어, 주파수-의존적인 임계치를 충족하지 않거나 초과하지 않는 피크들은 피크 제거 블록/모듈 (2090) 에 의해 제거될 수도 있다.

빈-방식 프로세싱 블록/모듈 (2081) 에 의해 제공되는 접근법은 고조파 구조를 자연스럽게 구축하는 것을 허용할 수도 있다. 게다가, 비-스피치 피크들의 개수가 보이스 활성도의 표시자로서 이용될 수도 있다. (피크 맵핑 블록/모듈 (2083) 에 의해 발생된) 피크 맵의 예시적인 그래프들이 도 27 에 제공된다. 특히, (핑크 잡음에서) 잡음 스피치 및 클린 스피치에 관련된 그래프들이 제공된다.

피크 제거 블록/모듈 (2090) 은 빈-방식 보이스 표시자 (2089) 에 기초하여 복원된 프레임 (2091) 을 발생할 수도 있다. 예를 들어, 전자 디바이스 (2002) 는 복원된 프레임 (2091) 을 발생하기 위해 빈-방식 보이스 표시자 (2089) 에 기초하여 변환된 오디오 신호 (2071) 로부터 잡음 피크들을 제거할 수도 있다. 복원된 프레임 (2091) 또는 대체 신호가 포스트-프로세싱 블록/모듈 (2093) 에 제공될 수도 있다.

포스트-프로세싱 블록/모듈 (2093) 은 복원 결정 블록/모듈 (2095) 및/또는 복원 평가 블록/모듈 (2097) 을 포함할 수도 있다. 포스트-프로세싱 블록/모듈 (2093) 은 다음 조건들 중 하나 이상에 기초하여, 복원된 프레임 (2091) 이 폐기될지 여부를 결정할 수도 있다. 특히, 복원 평가 블록/모듈 (2097) 은 복원 비, 연속성 메트릭 또는 스코어, 비정상 피크 검출 표시자 및/또는 고정된 낮은 SNR 검출 표시자와 같은, 파라미터들을 계산할 수도 있다. 파라미터들 중 하나 이상은 입력 프레임 (예컨대, 변환된 오디오 신호 (2071)) 및/또는 복원된 프레임 (2091) 에 기초할 수도 있다. 복원 결정 블록/모듈 (2095) 은 복원된 프레임 (2091) 을 유지하거나 또는 폐기할지를 결정할 수도 있다.

복원 비는 각각의 프레임에서 (예를 들어, 복원된 프레임 (2091) 의) 복원된 FFT 크기들의 총합과 (예를 들어, 변환된 오디오 신호 (2071) 의) 원래 FFT 크기들의 총합 사이의 비로서 정의될 수도 있다. 복원 비는 포스트-프로세싱 블록/모듈 (2093) 에 의해 결정될 수도 있다. 복원 비가 임계치 미만이면, 포스트-프로세싱 블록/모듈 (2093) 은 복원을 실행취소할 수도 있다.

포스트-프로세싱 블록/모듈 (2093) 은 또한 연속성 메트릭 (예컨대, 복원 연속성) 을 결정할 수도 있다. 연속성 메트릭은 프레임-방식 스코어일 수도 있다. 포스트-프로세싱 블록/모듈 (2093) 은 각각의 빈에 대해 복원 결정의 연속성을 체크할 수도 있다. 일 예에서, 포스트-프로세싱 블록/모듈 (2093) 은, 그 빈이 현재 및 이전 프레임들 양쪽에 대해 복원되면, 값 (예컨대, 2) 을 빈 스코어에 추가할 수도 있다. 더욱이, 포스트-프로세싱 블록/모듈 (2093) 은, 현재의 프레임 빈이 복원되지만 (예를 들어, 시작 지점으로서 발생하는) 대응하는 이전 프레임 빈이 복원되지 않으면, 값 (예컨대, 1) 을 빈 스코어에 추가할 수도 있다. 값 (예컨대, 1) 은, 이전 프레임 빈이 복원되지만 (예를 들어, 종료 지점에서 발생하는) 대응하는 현재의 프레임 빈이 복원되지 않으면, 빈 스코어로부터 감산될 수도 있다. 빈 스코어들의 모두는 각각의 프레임에 대해 연속성 메트릭을 획득하기 위해 합산될 수도 있다. 프레임-방식 연속성 메트릭 (예컨대, 스코어) 은 프레임이 복원되지 않을 때 제로로 재설정될 수도 있다. 포스트-프로세싱 블록/모듈 (2093) 은, 연속성 스코어가 임계치 미만이면, 프레임-방식 복원을 실행취소할 수도 있다.

일부 구성들에서, 추가적인 포스트-프로세싱이 (예를 들어, 일부 마이너한 경우들에 대해) 수행될 수도 있다. 즉, 일부 마이너한 경우들에 대해서 일부 미세-튜닝 (fine-tuning) 이 수행될 수도 있다. 일부 구성들에서, 포스트-프로세싱 블록/모듈 (2093) 은 하나 이상의 비정상 피크들을 검출할 수도 있다. 특히, 오직 하나 또는 2 개의 피크들이 복원되는 경우들이 발견될 수도 있다. 잔존 피크들 (surviving peaks) 이 높은 주파수들에 위치되거나 또는 서로로부터 너무 멀면 (예컨대, 적어도 임계치 거리이면), 프레임에 대한 복원이 실행취소될 수도 있다.

이에 추가적으로 또는 대안적으로, 포스트-프로세싱 블록/모듈 (2093) 은 고정되는 낮은 SNR (예컨대, 큰 (loud) 핑크 잡음) 이 적어도 하나의 임계치를 충족하는지를 결정할 수도 있다. 최소 통계 (예컨대, MinStat) 합의 평균이 높고 (예컨대, 임계치 양보다 높고) 분산이 낮으면 (예컨대, 임계치 양보다 아래이면), 복원된 프레임 (2091) 은 보존될 수도 있다.

포스트-프로세싱의 예들이 도 28a, 도 28b 및 도 28c 에서 제공된다. 특히, 클린 스피치의 일 예가 도 28a 에서 제공되며, 여기서, 대부분의 검출된 프레임들이 보존된다. 음악 잡음의 일 예가 또한 도 28b에서 제공되며, 여기서, 대부분의 검출된 프레임들이 폐기된다. 더욱이, 공중 잡음의 일 예가 도 28c 에서 제공되며, 여기서, 모든 검출된 프레임들이 폐기된다.

포스트-프로세싱 블록/모듈 (2093) (예컨대, 복원 결정 블록/모듈 (2095)) 은 복원 정보 (2099) 를 최대치 블록/모듈 (2003) 에 제공할 수도 있다. 예를 들어, 복원 결정 블록/모듈 (2095) 이 복원된 프레임 (2091) 을 보존하기로 결정하는 경우, 복원 정보 (2099) 는 복원된 프레임 (2091) 및/또는 복원된 프레임 (2091) 에 대응하는 진폭들, 크기들 또는 이득들을 포함할 수도 있다. 복원이 실행취소될 때 (예컨대, 복원된 프레임이 폐기될 때), 복원 정보 (2099) 는 최대치 블록/모듈 (2003) 에게 잡음-억제된 출력 프레임 (2001) 을 스케일링 없이 보내도록 지시할 수도 있다.

도 20 에 예시된 바와 같이, 전자 디바이스 (2002) 는 또한 잡음 억제 (예를 들어, 2개 이상 마이크로폰들로부터의 오디오 신호 채널들 (2067) 에 기초하여) 수행할 수도 있다. 잡음 억제 블록/모듈 (2014) 은 잡음 억제 이득 및/또는 잡음-억제된 출력 프레임 (2001) 을 발생할 수도 있으며, 이 프레임은 최대치 블록/모듈 (2003) 에 제공될 수도 있다.

최대치 블록/모듈 (2003) 은 잡음 억제 이득/잡음-억제된 출력 프레임 (2001) 및 복원 정보 (2099) 에 기초하여 최대치를 결정할 수도 있다. 예를 들어, 최대치 블록/모듈 (2003) 은 복원된 프레임 (2091) 과 잡음-억제된 출력 프레임 (2001) 사이에서 빈-방식 최대치를 결정할 수도 있다. 복원된 프레임 (2091) 빈이 대응하는 잡음-억제된 출력 프레임 (2001) 빈보다 크면 (예컨대, 더 큰 크기를 가지면), 최대치 블록/모듈 (2003) 은 잡음-억제된 출력 프레임 (2001) 빈의 이득을 조정할 (예컨대, 증대할) 수도 있다. 예를 들어, 최대치 블록/모듈 (2003) 은 이득 값을, 작은 잡음 억제 이득을 더 큰 이득 (예컨대, 1 의 이득) 으로 오버라이드 (override) 하는 잡음-억제된 출력 프레임 (2001) 빈에 인가할 수도 있다. 예를 들어, 잡음 억제 이득 (2001) 은 일반적으로 1 미만이다. 복원이 발생할 때, 잡음 감소 이득은 스피치 고조파 피크 빈들에서 1 로 설정될 수도 있다. 따라서, 최대치 블록/모듈 (2003) 은 (예를 들어, 각각의 빈에 대해) 2 개의 이득들 사이에 최대치 동작을 수행할 수도 있다.

최대치 블록/모듈 (2003) 은 출력 프레임 (2005) 을 발생할 수도 있다. 예를 들어, 복원된 프레임 (2091) 이 포스트-프로세싱 블록/모듈 (2093) 에 의해 보존되고, 잡음-억제된 출력 프레임 (2001) 의 하나 이상의 빈들이 복원된 프레임 (2091) 에 기초하여 조정되는 경우, 출력 프레임 (2005) 은 잡음-억제된 출력 프레임 (2001) 의 이득-조정된 버전일 수도 있다. 예를 들어, 출력 프레임 (2005) 은 일부 경우들에서 최종 복원된 프레임으로 간주될 수도 있으며, 이 최종 복원된 프레임은, 이들 빈들이 고조파 스피치 피크들이라고 결정하였기 때문에, 하나 이상의 빈들에서 잡음 억제 이득들 (2001) (예컨대, 잡음 감소 이득들) 이 피크 복원 결정에 의해 오버라이트된 프레임이다. 그러나, 복원된 프레임 (2091) 이 폐기되는 (예컨대, 복원이 "실행취소되는") 경우, 출력 프레임 (2005) 은 이득 조정들 없는 잡음-억제된 출력 프레임 (2001) 일 수도 있다. 포스트-프로세싱 블록/모듈 (2093) 및 최대치 블록/모듈 (2003) (및/또는 그의 구성요소들) 중 하나 이상은 빈-방식 보이스 활성도 검출에 기초하여 프로세싱된 스피치 신호를 복원하는 회로일 수도 있다.

도 21 은 전자 디바이스 (2002) 에 의해 프로세싱된 스피치 신호를 복원하는 방법 (2100) 의 하나의 구성을 예시하는 흐름도이다. 전자 디바이스 (2002) 는 적어도 하나의 오디오 신호를 획득할 수도 있다 (2102). 예를 들어, 전자 디바이스 (2002) 는 적어도 하나의 마이크로폰으로부터 오디오 신호를 캡쳐할 수도 있다.

전자 디바이스 (2002) 는 적어도 하나의 오디오 신호에 기초하여 프레임-방식 (예컨대, 프레임 단위 또는 프레임-기반의) 보이스 활성도 검출을 수행할 수도 있다 (2104). 예를 들어, 전자 디바이스 (2002) 는 고조파도를 결정할 수도 있다. 프레임-방식 보이스 활성도 검출을 수행하는 것 (2104) 은 위에서 설명한 바와 같이 고조파도에 기초할 수도 있다.

전자 디바이스 (2002) 는 적어도 하나의 오디오 신호에 기초하여 빈-방식 (예컨대, 빈 단위 또는 빈-기반) 보이스 활성도 검출을 수행할 수도 있다 (2106). 예를 들어, 전자 디바이스 (2002) 는 적어도 하나의 오디오 신호에 기초하여 피크 트래킹을 수행할 (예컨대, 피크 맵을 결정할) 수도 있으며, 적어도 하나의 오디오 신호에 기초하여 신호-대-잡음비 (SNR) (예컨대, 최소 통계 또는 MinStat) 를 결정할 수도 있다. 빈-방식 보이스 활성도 검출을 수행하는 것 (2106) (예컨대, 보이스 활성도가 검출되는지의 여부를 결정하는 것) 은 위에서 설명한 바와 같이 피크 맵 및 SNR 에 기초할 수도 있다. 일부 구성들에서, 빈-방식 활동 검출은 오직 프레임-방식 보이스 활성도 검출에 의해 표현되는 프레임들에 대해서 수행될 수도 있다 (2106). 즉, 전자 디바이스 (2002) 는 프레임-방식 보이스 활성도 검출이 보이스 또는 스피치를 나타내면, 적어도 하나의 오디오 신호에 기초하여 빈-방식 보이스 활성도 검출을 수행할 수도 있다 (2106). 다른 구성들에서, 빈-방식 보이스 활성도 검출은 모든 프레임들에 대해 수행될 수도 있다 (2106).

전자 디바이스 (2002) 는 빈-방식 보이스 활성도 검출에 기초하여 프로세싱된 스피치 신호를 복원할 수도 있다 (2108). 예를 들어, 프로세싱된 스피치 신호를 복원하는 것 (2108) 은 오디오 신호에서 스피치 콘텐츠 (예컨대, 고조파 콘텐츠) 를 복원하는 것을 의미할 수도 있다. 특히, 본원에서 개시된 시스템들 및 방법들의 하나의 목적은 잡음 감소에 의해 억제될 때 고조파 스피치 콘텐츠를 복원하지만 다른 고조파 신호들 (예컨대, 음악 등) 을 복원하지 않는 것이다. 위에서 설명한 바와 같이, 프로세싱된 스피치 신호를 복원하는 것 (2108) 은 빈-방식 보이스 활성도 검출에 기초하는 (예컨대, 복원된 프레임으로부터 결정된 하나 이상의 파라미터들에 기초하는) 조건부일 수도 있다. 일부 구성들에서, 프로세싱된 스피치 신호를 빈-방식 보이스 활성도 검출에 기초하여 복원하는 것 (2108) 은 위에서 설명한 바와 같이, 복원된 프레임을 발생하기 위해, 빈-방식 보이스 활성도 검출에 기초하여 변환된 오디오 신호로부터 하나 이상의 피크들 (예컨대, 검출된 잡음 피크들) 을 제거하는 것을 포함할 수도 있다.

이에 추가적으로 또는 대안적으로, 프로세싱된 스피치 신호를 복원하는 것 (2108) 은 위에서 설명한 바와 같이 하나 이상의 파라미터들 (예컨대, 복원 비 및/또는 연속성 메트릭) 을 결정하는 것을 포함할 수도 있다. 더욱이, 프로세싱된 스피치 신호를 복원할지를 결정하는 것은 위에서 설명한 바와 같이 파라미터들 (예컨대, 복원 비 및/또는 연속성 메트릭) 에 기초할 수도 있다. 일부 구성들에서, 전자 디바이스 (2002) 는 추가적으로, 하나 이상의 비정상 피크들이 검출되는지 및/또는 고정된 낮은 SNR 이 위에서 설명한 바와 같이 적어도 하나의 임계치를 충족하는지를 결정할 수도 있다. 프로세싱된 스피치 신호를 복원할지를 결정하는 것은 추가적으로 또는 대안적으로, 비정상 피크(들) 이 검출되는지 및/또는 고정된 낮은 SNR 이 적어도 하나의 임계치를 충족하는지에 기초할 수도 있다.

일부 구성들에서, 프로세싱된 스피치 신호를 다음과 같이 복원하기로 결정될 수도 있다. 복원 비가 임계치를 충족하고 (예컨대, 복원 비가 적어도 복원 비 임계치와 같고) 비정상 피크가 검출되지 않으면, 전자 디바이스 (2002) 는 프로세싱된 스피치 신호를 복원할 수도 있다. 연속성 메트릭이 임계치를 만족하면 (예컨대, 연속성 메트릭이 적어도 연속성 메트릭 임계치와 동일하면), 전자 디바이스 (2002) 는 프로세싱된 스피치 신호를 복원할 수도 있다. 고정된 낮은 SNR 이 적어도 하나의 임계치를 만족하면 (예컨대, 최소 통계 합의 평균이 적어도 최소 통계 임계치와 같고 분산 (variation) 이 분산 임계치 아래이면), 전자 디바이스 (2002) 는 프로세싱된 스피치 신호를 복원할 수도 있다. 임의의 다른 경우에, 전자 디바이스 (2002) 는 (예컨대, 복원된 프레임을 실행취소하기 위해) 프로세싱된 스피치 신호를 복원하는 것을 피할 (예컨대, 복원하지 않을) 수도 있다. 따라서, 프로세싱된 스피치 신호를 복원할지를 결정하는 것은 복원 비, 연속성 메트릭, 비정상 피크 검출 및 고정된 낮은 SNR 조건 중 하나 이상에 기초할 수도 있다.

일부 구성들에서, 프로세싱된 스피치 신호는 잡음-억제된 출력 프레임 (2001) 일 수도 있다. 예를 들어, 프로세싱된 스피치 신호를 복원하기로 결정되는 경우, 전자 디바이스 (2002) 는 복원된 프레임 (2091) 에 기초하여 잡음-억제된 출력 프레임 (2001) 의 하나 이상의 빈들의 이득을 조정함으로써 프로세싱된 스피치 신호를 복원할 수도 있다 (2108). 예를 들어, 전자 디바이스 (2002) 는 잡음-억제된 출력 프레임 (2001) 과 복원된 프레임 (2091) 의 각각의 빈 사이에서 최대치 (예를 들어, 크기, 진폭, 이득 등) 를 결정할 수도 있다. 전자 디바이스 (2002) 는 그후 예를 들어, 복원된 프레임 (2091) 빈들이 더 큰 빈들의 이득을 조정할 수도 있다. 이것은 잡음 억제에 의해 억제된 잡음-억제 출력 프레임 (2001) 에서 스피치 콘텐츠를 복원하는 것을 도울 수도 있다. 하지만, 다른 경우, 전자 디바이스 (2002) 는 빈-방식 VAD (예컨대, 복원된 프레임 (2091)) 에 기초한 파라미터(들) 에 기초하여 결정되는 바와 같이 복원된 프레임 (2091) 을 폐기할 수도 있다.

도 22 는 본원에서 개시된 시스템들 및 방법들에 따른, 포스트-프로세싱의 더 구체적인 예를 예시하는 블록도이다. 특히, 도 22 는 포스트-프로세싱 블록/모듈 (2293) 의 일 예를 예시한다. 포스트-프로세싱 블록/모듈 (2293) 은 입력 프레임 (2207) 및 복원된 프레임 (2291) 을 획득할 수도 있다. 포스트-프로세싱 블록/모듈 (2293) 은 복원 평가 블록/모듈 (2297) 및/또는 복원 결정 블록/모듈 (2295) 을 포함할 수도 있다.

복원 평가 블록/모듈 (2297) 은 복원 비 (2211) 를 결정하거나, 연속성 메트릭 (예컨대, 스코어) (2213) 을 결정하거나, 임의의 비정상 피크(들) (2215) 을 검출하거나 및/또는 고정된 낮은 SNR (2217) 이 적어도 하나의 임계치를 만족하는지를 위에서 설명한 바와 같이 입력 프레임 (2207) 및 복원된 프레임 (2291) 에 기초하여 결정할 수도 있다. 포스트-프로세싱 블록/모듈 (2293) 은, 복원 비가 임계치를 만족하면 (그리고, 예를 들어, 비정상 프레임이 검출되지 않으면), 또는 연속성 메트릭이 임계치를 만족하면, 또는 고정된 낮은 SNR 이 적어도 하나의 임계치를 만족하면, 복원된 프레임 (2291) 을 보존하기로 결정할 수도 있다. 그렇지 않으면, 포스트-프로세싱 블록/모듈 (2293) 은 프로세싱된 스피치 신호를 복원하지 않기로 (예컨대, 복원을 실행취소하거나 또는 복원된 프레임을 폐기하기로) 결정할 수도 있다.

복원 정보 (2299) (예컨대, 프로세싱된 스피치 신호를 복원하기로 결정된 경우 복원된 프레임 (2291)) 는 최대치 블록/모듈 (2203) 에 의해 잡음-억제된 출력 프레임 (2201) 과 비교될 수도 있다. 이들 프레임들의 최대치는 출력 프레임 (2205) 으로서 제공될 수도 있다. 예를 들어, 복원된 프레임 (2291) 과 잡음-억제된 출력 프레임 사이의 각각의 빈의 최대치가 잡음 억제 이득에 인가될 수도 있다. 더 구체적으로는, 복원이 발생하면, 작은 잡음 억제 이득이 복원된 프레임 (2291) 에서 더 큰 각각의 빈에 대해 1 의 이득으로 오버라이드될 수도 있다. 최대치 블록/모듈 (2203) 은 따라서 "최대치 (max)" 동작을 수행한다.

도 23 은 프로세싱된 스피치 신호를 복원하는 시스템들 및 방법들이 구현될 수도 있는 전자 디바이스 (2302) 의 더 구체적인 구성을 예시하는 블록도이다. 전자 디바이스 (2302) 는 피크 트랙커 (2349), 피치 트랙커 (2345), 잡음 피크 학습기 (2335), 에코 소거/잡음 억제 블록/모듈 및 잔여 잡음 억제기 (2333) 및/또는 이득 조정기 (2341) 중 하나 이상을 포함할 수도 있다. 일부 구성들에서, 이들 엘리먼트들 중 하나 이상은 도 4 와 관련하여 위에서 설명되는 대응하는 엘리먼트들과 유사하게 구성될 수도 있거나 및/또는 그와 유사하게 동작할 수도 있다.

전자 디바이스 (2302) 는 또한 (NES 제어 로직 (2329) 을 가진) 근단 스피치 (NES) 검출기 (2327), (일부 구성들에서 피크 제거 블록/모듈 (2390) 을 포함할 수도 있는) 리파이너 (2353), SNR 트랙커 (2347), 프레임-방식 VAD (2377), 빈-방식 VAD (2387) 를 포함한다. SNR 트랙커 (2347) 는 도 20 과 관련하여 위에서 설명되는 SNR (MinStat) 블록/모듈 (2085) 에 따라서 동작할 수도 있다. 피크 트랙커 (2349) 는 도 20 과 관련하여 위에서 설명되는 피크 맵 블록/모듈 (2083) 에 따라서 동작할 수도 있다. 이 예에서, 피치 트랙커 (2345) 는 도 20 과 관련하여 위에서 설명되는 프레임-방식 프로세싱을 수행하여, 고조파도 정보를 계산할 수도 있다. 피치 트랙커 (2345), SNR 트랙커 (2347) 및 피크 트랙커 (2349) 는 제 1 오디오 신호 (2321a) 에 기초하여 동작할 수도 있다. 일부 구성들에서, 제 1 오디오 신호 (2321a) 는 정적으로 구성될 수도 있거나 (예컨대, 하나의 마이크로폰으로부터 나올 수도 있거나) 또는 도 20 과 관련하여 위에서 설명되는 1 차 채널 (2065) 과 유사하게 (예를 들어, 제 2 오디오 신호 (2321b) 를 포함하는) 오디오 신호들의 그룹으로부터 선택될 수도 있다. 리파이너 블록/모듈 (2353) 은 도 20 과 관련하여 위에서 설명되는 포스트-프로세싱 블록/모듈 (2093) 을 포함할 수도 있다. 예를 들어, 리파이너 블록/모듈 (2353) 은 위에서 설명된 도 20 및/또는 도 22 에서의 포스트-프로세싱 블록/모듈 (2093) 과 관련하여 설명된 동작들 중 하나 이상을 수행할 수도 있다.

도 23 에 예시된 바와 같이, 근단 스피치 검출기 (2327) 는 하나 이상의 오디오 신호들 (2321a-b) 에 기초하여 근단 스피치를 검출할 수도 있다. 게다가, 근단 스피치 (NES) 제어 로직 (2329) 은 고조파 통계 (2323) 및 프레임-방식 VAD (2325) 에 기초하여 제어를 제공할 수도 있다 (예를 들어, 단일 채널). 근단 스피치 검출기 (2327) 는 오디오 신호들 (2321a-b) 중 하나 이상 및/또는 NES 상태 (2331) 를 잡음 억제 블록/모듈 및 잔여 잡음 억제기 (2333) 에 제공할 수도 있다. 일부 구성들에서, NES 상태 (2331) 는 단일-mic 상태 또는 멀티-mic (예컨대, 이중-mic) 상태를 나타낼 수도 있다.

잡음 억제 블록/모듈 및 잔여 잡음 억제기 (2333) 는 잡음-억제된 신호 (2337) 및 잡음 억제 이득 (2339) 을 이득 조정기 (2341) 에 제공할 수도 있다. 일부 구성들에서, 잡음 억제 및 잔여 잡음 억제기 (2333) 는 적응적 빔형성기 (ABF) 기능을 포함할 수도 있다. 예를 들어, 잡음 억제 및 잔여 잡음 억제기 (2333) 는 오디오 신호(들) (2321a-b) 에서 잡음을 억제하기 위해 빔형성 동작들을 수행할 수도 있다. 즉, 잡음 억제된 신호 (2337) 는 일부 구성들에서 적응적 빔형성에 기초할 수도 있다. 이득 조정기 (2341) 는 도 20 및 도 22 중 하나 이상과 관련하여 설명되는 "최대치 " 기능을 제공할 수도 있다. 예를 들어, 이득 조정기 (2341) 는 출력 프레임 (2343) 을 발생하기 위해 잡음 억제 이득 (2339) 을 복원 정보 (2351) (예컨대, 복원된 프레임에 대응하는 이득들) 와 비교할 수도 있다.

빈-방식 VAD (2387) 는 빈-방식 보이스 표시자 (2389) (예컨대, 빈-방식 VAD 신호) 를 리파이너 (2353) (예컨대, 피크 제거 블록/모듈 (2390)) 에 제공할 수도 있다. 빈-방식 보이스 표시자 (2389) 는 스피치를 포함하지 않는 특정의 빈들 (예컨대, 피크들) 을 나타낼 수도 있다. 빈-방식 보이스 표시자 (2389) (예컨대, 빈-방식 VAD 신호) 는 주파수 빈에서의 에너지에 기초할 수도 있다. 피크 제거 블록/모듈 (2390) 은 도 20 과 관련하여 위에서 설명되는 피크 제거 블록/모듈 (2090) 의 일 예일 수도 있다. 피크 제거 블록/모듈 (2090) 은 비-스피치 피크들을 제거할 수도 있다.

리파인먼트는 리파이너 (2353) 에서 발생할 수도 있다. 제 1 오디오 신호 (2321a) 는 (특히 음악과 같은 고조파 잡음에 대해 다소 난잡할 수도 있는) 리파인먼트 이전 스펙트럼 피크들을 가진 이득을 포함할 수도 있다. 리파이너 (2353) 는 고조파도 메트릭 (예컨대, 피치 트랙커 (2345) 에 의해 제공되는 고조파도 정보) 에 기초하여 스피치 신호 (예컨대, 제 1 오디오 신호 (2321a)) 를 정제하는 회로일 수도 있다. 리파이너 (2353) 는 대체 신호 (예컨대, 복원된 프레임) 를 발생할 수도 있다. 일부 구성들에서, 예를 들어, 리파인먼트는 제 1 오디오 신호 (2321a) 로부터 비-스피치 피크들을 제거하는 것을 포함할 수도 있다. 위에서 설명한 바와 같이, 대체 신호 (예컨대, 복원된 프레임) 는 빈-방식 VAD 신호 (2389) 에 기초할 수도 있다. 리파이너 (2353) 는 복원 정보 (2351) (예컨대, 대체 신호, 복원된 프레임 및/또는 대체 신호 또는 복원된 프레임에 대응하는 정보 (예컨대, 하나 이상의 이득들)) 를 발생할 수도 있다. 리파이너 (2353) 는 복원 정보 (2351) 를 이득 조정기에 제공할 수도 있다. 일부 구성들에서, 복원 정보 (2351) 는 복원된 프레임의 잘못 복원된 부분들에 대해 복원을 "실행취소" 함으로써 리파인먼트 이후 스펙트럼의 피크들을 가진 이득을 포함할 수도 있다. 예를 들어, 하나 이상의 프레임들이 프레임 고조파도 및 빈-방식 조건들에 기초하여 복원될 수도 있다. 프레임들은 프레임 고조파도 및 빈-방식 조건들에 기초하여 일반적으로 복원될 수도 있다. 그러나, 이것이 잘못된 결정이었다고 고조파도 조건들의 포스트-프로세싱이 추가로 결정하면, 기본적인 복원 결정은 실행취소된다. 리파이너가 도 20 및 도 22 중 하나 이상에서 포스트-프로세싱 블록에 대응할 수도 있다는 점에 유의해야 한다.

이중 또는 단일 마이크로폰 상태 스위칭은 전체 잡음 억제 프로세싱 전에 발생할 수도 있으며, 스피치 복원은 그 상태에 의존하지 않을 수도 있다. 리파이너 (2353) 는 예를 들어, 원하는 스피치가 일부 주파수 빈들에서 억제되면 복원된 스피치를 제공하거나 또는 복원을 실행취소할 수도 있다.

일부 구성들에서, 이득 조정기 (2341) 는 대체 신호에 기초하여 잡음 억제된 스피치 프레임 (예컨대, 잡음 억제된 신호 (2337)) 을 대체하는 회로일 수도 있다. 예를 들어, 이득 조정기 (2341) 는 출력 프레임 (2343) 을 발생하기 위해 잡음 억제된 신호 (2337) 의 잡음 억제 이득(들) (2339) 을 조정할 수도 있다. 일부 구성들에서, 전자 디바이스 (2302) 는 따라서, 고조파도 메트릭에 기초하여 스피치 신호를 정제하여 대체 신호를 발생할 수도 있으며, 대체 신호에 기초하여 잡음-억제된 스피치 프레임을 대체할 수도 있다. 대체 신호는 주파수 빈에서 에너지에 기초할 수도 있는 빈-방식 VAD 신호에 기초할 수도 있다.

도 24 는 리파이너 (2453) 의 하나의 구성을 예시하는 블록도이다. 리파이너 (2453) 는 도 20, 도 22 및 도 23 중 하나 이상과 관련하여 설명되는 포스트-프로세싱 블록들/모듈들 및 리파이너 (2453) 중 하나 이상의 일 예일 수도 있다. 리파이너 (2453) 는 입력 프레임 (2455) 및 복원된 프레임 (2491) 을 획득할 수도 있다. 예를 들어, 리파이너 (2453) 는 복원된 프레임 (2491) 을 획득하여 분석할 수도 있다. 일부 구성들에서, 리파이너 (2453) 는 선택적으로 빈-방식 VAD 신호 (2489) 를 획득할 수도 있다. 리파이너 (2453) 는 복원 평가 블록/모듈 (2497) 및 복원 결정 블록/모듈 (2495) 을 포함할 수도 있다.

복원 평가 블록/모듈 (2497) 은 복원 비 결정 블록/모듈 (2411), 연속성 스코어 결정 블록/모듈 (2413), 비정상 피크 검출 블록/모듈 (2415) 및 고정되는 낮은 SNR 검출 블록/모듈 (2417) 을 포함할 수도 있다. 복원 비 결정 블록/모듈 (2411) 은 복원된 프레임 (2491) 및 입력 프레임 (2455) 에 기초하여 복원 비를 결정할 수도 있다. 예를 들어, 복원 비는 각각의 프레임에서 복원된 FFT 크기들의 총합과 원래 FFT 크기의 총합 사이의 비일 수도 있다.

연속성 스코어 결정 블록/모듈 (2413) 은 현재 및 과거 프레임 복원들에 기초하여 연속성 메트릭 또는 스코어를 결정할 수도 있다. 예를 들어, 연속성 스코어 결정은 현재 및 이전 프레임들 양자 모두가 복원되면 제 1 양의 값 (예컨대, +2) 을, 현재의 프레임이 복원되지만 이전 프레임이 복원되지 않으면 제 2 양의 값 (예컨대, +1) 을, 그리고, 이전 프레임이 복원되지만 현재의 프레임이 복원되지 않으면 음의 값 (예컨대, -1) 을 추가할 수도 있다. 상이한 가중치들이 구현예에 기초하여 양 및 음의 값들에 할당될 수도 있다. 예를 들어, 현재 및 이전 프레임들 양자 모두가 복원되면, 제 1 양의 값은 +2.4 일 수 있다. 연속성 스코어 결정 블록/모듈은 모든 빈들의 스코어들을 합산하여, 각각의 프레임에 대해 연속성 스코어를 획득할 수도 있다. 프레임-방식 연속성 스코어는 프레임이 복원되지 않을 때 제로로 재설정될 수도 있다.

비정상 피크 검출 블록/모듈 (2415) 은 임의의 비정상 피크(들)을 검출할 수도 있다. 예를 들어, 비정상 피크 검출 블록/모듈은 임계치 아래 수의 (예컨대, 단지 하나 또는 2 개의) 피크들이 복원되는 경우들을 검출할 수도 있다.

고정된 낮은 SNR 검출 블록/모듈 (2417) 은 고정된 낮은 SNR 조건을 검출할 수도 있다. 이것은, 최소 통계치 (예컨대, MinStat) 합의 평균이 높고 분산이 낮으면, 발생할 수도 있다.

복원 결정 블록/모듈 (2495) 은, 복원 비가 임계치를 만족하면 (그리고, 예를 들어, 비정상 프레임이 검출되지 않으면) 또는 연속성 메트릭이 임계치를 만족하면 또는 고정된 낮은 SNR 이 적어도 하나의 임계치를 만족하면, 복원된 프레임 (2491) 을 보존하기로 결정할 수도 있다. 그렇지 않으면, 복원 결정 블록/모듈 (2495) 은 프로세싱된 스피치 신호를 복원하지 않기로 (예컨대, 복원을 실행취소하거나 또는 복원된 프레임 (2491) 을 폐기하기로) 결정할 수도 있다. 이 경우, 복원 결정 블록/모듈 (2495) 은 복원된 프레임 (2491) 을 폐기할 수도 있다. 일부 구성들에서, 리파이너 (2453) 는 복원된 프레임 (2491) 이 사용될지 또는 아닐지의 여부를 결정할 수도 있다. 따라서, 리파이너 (2453) 가 복원된 프레임 (2491) 을 보존하기로 결정하는 경우, 최종 복원된 프레임 (2499) 을 제공할 수도 있다. 복원된 프레임 (2491) 이 대체되거나 또는 복원된 하나 이상의 주파수 빈들을 포함할 수도 있다는 점에 유의해야 한다. 예를 들어, 프레임은 일부 구성들에서 복원된 프레임 (2491) 을 발생하기 위해 빈-방식으로 복원될 수도 있다.

도 25 는 본원에서 개시된 시스템들 및 방법들에 따른, 정규화된 고조파도의 예들을 예시한다. 특히, 예 A (2557a) 는 로테이션 동안 클린 스피치의 정규화된 고조파도를 예시한다. 예 B (2557b) 는 스피치+음악/음악만/스피치만의 정규화된 고조파도를 예시한다. 더욱이, 예 C (2557c) 는 스피치+공중 잡음/공중 잡음만/스피치만의 정규화된 고조파도를 예시한다. 예들 A-C (2557a-c) 에 예시된 그래프들의 수평축들은 주파수로 주어진다. 예들 A-C (2557a-c) 에 예시된 그래프들의 수직축들이 정규화된 고조파도들의 척도 (measure) 를 제공하지만, 고조파도는 (예시된 바와 같은 주파수 방향으로) 주기성의 정도를 측정하는 무차원의 메트릭이다.

도 26 은 본원에서 개시된 시스템들 및 방법들에 따른, 주파수-의존적인 임계화의 예들을 예시한다. 특히, 예 A (2659a) 는 하나의 클린 스피치 묵음 프레임에서의 SNR 을 예시한다. 예 A (2659a) 는 또한 주파수 의존적인 임계치를 예시한다. 예 B (2659b) 는 하나의 음악 잡음 프레임에서의 SNR 을 예시한다. 예 B (2659b) 는 또한 주파수 의존적인 임계치를 예시한다.

도 26 에 예시된 비선형 임계치들은 더 지각적으로 우세한 보이스 주파수 대역들을 복원하는데 이용될 수도 있다. 더욱이, 임계치는 음악 사운드들의 시작에서 (예를 들어, 고-주파수 콘텐츠를 이용하여) 증가될 수도 있다. 게다가, 임계치는 입력 신호 레벨이 너무 낮을 때 (예컨대, 소프트한 스피치에서) 감소될 수도 있다.

도 27 은 본원에서 개시된 시스템들 및 방법들에 따른, 피크 맵들의 예들을 예시한다. 특히, 예 A (2761a) 는 클린 스피치 신호에서 스펙트로그램, 원시 피크들 및 정제된 피크들을 예시한다. 예 B (2761b) 는 (예를 들어, 핑크 잡음을 가진) 잡음 스피치 신호에서 스펙트로그램, 원시 피크들 및 정제된 피크들을 예시한다. 도 27 에서의 그래프들은 수직축들 상에 킬로헤르츠 (kHz) 의 단위로, 그리고, 수평축들 상에 초의 시간으로 예시된다.

도 28a 는 본원에서 개시된 시스템들 및 방법들에 따른, 포스트-프로세싱의 일 예를 예시한다. 특히, 이 예는 클린 스피치 신호에 대한, 스펙트로그램 그래프 (2801a), 프레임 VAD 상태 그래프 (2803a), (임계치를 가진) 복원 비 그래프 (2805a), 연속성 스코어 그래프 (2807a) 및 포스트-프로세싱 이후 프레임 VAD 상태 그래프 (2809a) 를 예시한다. 이 예에서, 대부분의 검출된 프레임들이 보존된다.

도 28a 에서의 그래프들의 수평축들은 시간으로 예시된다. 스펙트로그램 그래프 (2801a) 의 수직축은 주파수 (kHz) 로 예시된다. 프레임 VAD 상태 그래프 (2803a) 및 포스트-프로세싱 이후 프레임 VAD 상태 그래프 (2809a) 에서, 수직축들 상의 1 의 값은 검출된 보이스를 가진 프레임을 표시하는 반면, 수직축들 상의 0 의 값은 검출된 보이스를 갖지 않은 프레임을 표시한다. 도 28a 에 예시된 바와 같이, 본원에서 설명하는 시스템들 및 방법들은 VAD 상태를 포스트-프로세싱을 통해서 정제하는 것을 (예컨대, 잘못된 보이스 검출들을 제거하는 것) 을 도울 수도 있다. 복원 비 그래프 (2805a) 의 수직축은 원래 프레임 FFT 크기 합으로 나눈 복원된 프레임 FFT 크기 합의 비를 나타내는 무차원 값을 표시한다. 이 예에서, 복원 비 임계치는 40% 로 예시된다. 연속성 스코어 그래프 (2807a) 의 수직축은 위에서 설명한 바와 같이 복원 연속성의 정도를 나타내는 무차원 값을 표시한다.

도 28b 는 본원에서 개시된 시스템들 및 방법들에 따른, 포스트-프로세싱의 또 다른 예를 예시한다. 특히, 이 예는 음악 잡음에 대한, 스펙트로그램 그래프 (2801b), 프레임 VAD 상태 그래프 (2803b), (임계치를 가진) 복원 비 그래프 (2805b), 연속성 스코어 그래프 (2807b) 및 포스트-프로세싱 이후 프레임 VAD 상태 그래프 (2809b) 를 예시한다. 이 예에서, 대부분의 검출된 프레임들이 폐기된다.

도 28b 에서의 그래프들의 수평축은 시간으로 예시된다. 스펙트로그램 그래프 (2801b) 의 수직축은 주파수 (kHz) 로 예시된다. 프레임 VAD 상태 그래프 (2803b) 및 포스트-프로세싱 이후 프레임 VAD 상태 그래프 (2809b) 에서, 수직축들 상의 1 의 값은 검출된 보이스를 가진 프레임을 표시하는 반면, 수직축들 상의 0 의 값은 검출된 보이스를 갖지 않은 프레임을 표시한다. 도 28b 에 예시된 바와 같이, 본원에서 설명하는 시스템들 및 방법들은 VAD 상태를 포스트-프로세싱을 통해서 정제하는 것 (예컨대, 잘못된 보이스 검출들을 제거하는 것) 을 도울 수도 있다. 복원 비 그래프 (2805b) 의 수직축은 원래 프레임 FFT 크기 합으로 나눈 복원된 프레임 FFT 크기 합의 비를 나타내는 무차원 값을 표시한다. 이 예에서, 복원 비 임계치는 40% 로 예시된다. 연속성 스코어 그래프 (2807b) 의 수직축은 위에서 설명한 바와 같이 복원 연속성의 정도를 나타내는 무차원 값을 표시한다.

도 28c 는 본원에서 개시된 시스템들 및 방법들에 따른, 포스트-프로세싱의 또 다른 예를 예시한다. 특히, 이 예는 공중 잡음에 대한, 스펙트로그램 그래프 (2801c), 프레임 VAD 상태 그래프 (2803c), (임계치를 가진) 복원 비 그래프 (2805c), 연속성 스코어 그래프 (2807c) 및 포스트-프로세싱 이후 프레임 VAD 상태 그래프 (2809c) 를 예시한다. 이 예에서, 모든 검출된 프레임들이 폐기된다.

도 28c 에서의 그래프들의 수평축들은 시간으로 예시된다. 스펙트로그램 그래프 (2801c) 의 수직축은 주파수 (kHz) 로 예시된다. 프레임 VAD 상태 그래프 (2803c) 및 포스트-프로세싱 이후 프레임 VAD 상태 그래프 (2809c) 에서, 수직축들 상의 1 의 값은 검출된 보이스를 가진 프레임을 표시하는 반면, 수직축들 상의 0 의 값은 검출된 보이스를 갖지 않은 프레임을 표시한다. 도 28c 에 예시된 바와 같이, 본원에서 설명하는 시스템들 및 방법들은 VAD 상태를 포스트-프로세싱을 통해서 정제하는 것 (예컨대, 잘못된 보이스 검출들을 제거하는 것) 을 도울 수도 있다. 복원 비 그래프 (2805c) 의 수직축은 원래 프레임 FFT 크기 합으로 나눈 복원된 프레임 FFT 크기 합의 비를 나타내는 무차원 값을 표시한다. 이 예에서, 복원 비 임계치는 40% 로 예시된다. 연속성 스코어 그래프 (2807c) 의 수직축은 위에서 설명한 바와 같이 복원 연속성의 정도를 나타내는 무차원 값을 표시한다.

도 29 는 신호 레벨 매칭 및 보이스 활성도를 검출하는 시스템들 및 방법들이 구현될 수도 있는 전자 디바이스 (2902) 에서 여러 구성요소들의 하나의 구성을 예시하는 블록도이다. 위에서 설명한 바와 같이, 전자 디바이스 (2902) 의 일 예는 무선 통신 디바이스일 수도 있다. 무선 통신 디바이스들의 예들은 셀룰러폰들, 스마트폰들, 랩탑 컴퓨터들, 개인 휴대정보 단말기들 (PDAs), 디지털 뮤직 플레이어들, 디지털 카메라들, 디지털 캠코더들, 게임 콘솔들 등을 포함한다. 전자 디바이스 (2902) 는 하나 이상의 다른 디바이스들과 무선으로 통신하는 것이 가능할 수도 있다. 전자 디바이스 (2902) 는 애플리케이션 프로세서 (2963) 를 포함할 수도 있다. 애플리케이션 프로세서 (2963) 는 일반적으로 전자 디바이스 (2902) 상에서 기능들을 수행하는 명령들을 프로세싱한다 (예컨대, 프로그램들을 실행한다). 애플리케이션 프로세서 (2963) 는 오디오 블록/모듈 (2965) 에 커플링될 수도 있다.

오디오 블록/모듈 (2965) 은 오디오 신호들을 프로세싱하는데 사용되는 전자 디바이스 (예컨대, 집적 회로) 일 수도 있다. 예를 들어, 오디오 블록/모듈 (2965) 은 오디오 신호들을 코딩하거나 및/또는 디코딩하는 오디오 코덱을 포함할 수도 있다. 오디오 블록/모듈 (2965) 은 하나 이상의 스피커들 (2967), 하나 이상의 이어피스 스피커들 (2969), 출력 잭 (2971) 및/또는 하나 이상의 마이크로폰들 (2904) 에 커플링될 수도 있다. 스피커들 (2967) 은 전기 또는 전자 신호들을 음향 신호들로 변환하는 하나 이상의 전기-음향 트랜스듀서들을 포함할 수도 있다. 예를 들어, 스피커들 (2967) 은 음악을 연주하거나 또는 스피커폰 대화를 출력하는 등에 이용될 수도 있다. 하나 이상의 이어피스 스피커들 (2969) 은 음향 신호들 (예컨대, 스피치 신호들, 초음파 신호들, 잡음 제어 신호들 등) 을 사용자에게 출력하는데 이용될 수 있는 하나 이상의 스피커들 또는 전기-음향 트랜스듀서들을 포함할 수도 있다. 예를 들어, 하나 이상의 이어피스 스피커들 (2969) 은 오직 사용자가 이어피스 스피커들 (2969) 에 의해 발생된 음향 신호를 신뢰성 있게 들을 수 있도록 사용될 수도 있다. 출력 잭 (2971) 이 다른 디바이스들을 헤드폰들과 같은, 오디오를 출력하는 전자 디바이스 (2902) 에 커플링하는데 이용될 수도 있다. 스피커들 (2967), 하나 이상의 이어피스 스피커들 (2969) 및/또는 출력 잭 (2971) 이 일반적으로 오디오 블록/모듈 (2965) 로부터 오디오 신호를 출력하는데 이용될 수도 있다. 하나 이상의 마이크로폰들 (2904) 은 (사용자의 보이스와 같은) 음향 신호를 오디오 블록/모듈 (2965) 에 제공되는 전기 또는 전자 신호들로 변환하는 음향-전기 트랜스듀서들일 수도 있다.

오디오 프로세싱 블록/모듈 (2975a) 은 선택적으로, 오디오 블록/모듈 (2965) 의 부분으로서 구현될 수도 있다. 예를 들어, 오디오 프로세싱 블록/모듈 (2975a) 은 본원에서 설명되는 기능들 및/또는 구조들 중 하나 이상에 따라서 구현될 수도 있다.

이에 추가적으로 또는 대안적으로, 오디오 프로세싱 블록/모듈 (2975b) 은 애플리케이션 프로세서 (2963) 에서 구현될 수도 있다. 예를 들어, 오디오 프로세싱 블록/모듈 (2975b) 은 본원에서 설명되는 기능들 및/또는 구조들 중 하나 이상에 따라서 구현될 수도 있다.

애플리케이션 프로세서 (2963) 는 전력 관리 회로 (2977) 에 커플링될 수도 있다. 전력 관리 회로 (2977) 의 일 예는 전자 디바이스 (2902) 의 전기 전력 소비를 관리하는데 사용될 수도 있는 전력 관리 집적 회로 (PMIC) 이다. 전력 관리 회로 (2977) 는 배터리 (2979) 에 커플링될 수도 있다. 배터리 (2979) 는 일반적으로 전기 전력을 전자 디바이스 (2902) 에 제공할 수도 있다. 전력 관리 회로 (2977) 및/또는 배터리 (2979) 가 전자 디바이스 (2902) 에 포함된 엘리먼트들의 하나 이상 (예컨대, 전부) 에 커플링될 수도 있다는 점에 유의해야 한다.

애플리케이션 프로세서 (2963) 는 입력을 수신하는 하나 이상의 입력 디바이스들 (2981) 에 커플링될 수도 있다. 입력 디바이스들 (2981) 의 예들은 적외선 센서들, 이미지 센서들, 가속도계들, 터치 센서들, 힘 (예컨대, 압력) 센서들, 키패드들, 마이크로폰들, 입력 포트들/잭들 등을 포함한다. 입력 디바이스들 (2981) 은 전자 디바이스 (2902) 와의 사용자 상호작용을 가능하게 할 수도 있다. 애플리케이션 프로세서 (2963) 는 또한 하나 이상의 출력 디바이스들 (2983) 에 커플링될 수도 있다. 출력 디바이스들 (2983) 의 예들은 프린터들, 프로젝터들, 스크린들, 햅틱 디바이스들, 스피커들 등을 포함한다. 출력 디바이스들 (2983) 은 전자 디바이스 (2902) 로 하여금, 사용자에 의해 경험될 수도 있는 출력을 발생가능하게 할 수도 있다.

애플리케이션 프로세서 (2963) 는 애플리케이션 메모리 (2985) 에 커플링될 수도 있다. 애플리케이션 메모리 (2985) 는 전자 정보를 저장하는 것이 가능한 임의의 전자 디바이스일 수도 있다. 애플리케이션 메모리 (2985) 의 예들은 이중 데이터 레이트 동기식 동적 랜덤 액세스 메모리 (DDRAM), 동기식 동적 랜덤 액세스 메모리 (SDRAM), 플래시 메모리 등을 포함한다. 애플리케이션 메모리 (2985) 는 애플리케이션 프로세서 (2963) 에 대해 스토리지를 제공할 수도 있다. 예를 들어, 애플리케이션 메모리 (2985) 는 애플리케이션 프로세서 (2963) 상에서 실행하는 프로그램들의 기능을 위한 명령들 및/또는 데이터를 저장할 수도 있다. 하나의 구성에서, 애플리케이션 메모리 (2985) 는 본원에서 설명되는 방법들 중 하나 이상을 수행하는 데이터 및/또는 명령들을 저장하거나 및/또는 제공할 수도 있다.

애플리케이션 프로세서 (2963) 는 디스플레이 제어기 (2987) 에 커플링될 수도 있으며, 다음으로, 디스플레이 (2989) 에 커플링될 수도 있다. 디스플레이 제어기 (2987) 는 디스플레이 (2989) 상에 이미지를 발생하는데 이용되는 하드웨어 블록일 수도 있다. 예를 들어, 디스플레이 제어기 (2987) 는 애플리케이션 프로세서 (2963) 로부터의 명령들 및/또는 데이터를 디스플레이 (2989) 상에 제시될 수 있는 이미지들로 전환 (translate) 할 수도 있다. 디스플레이 (2989) 의 예들은 액정 디스플레이 (LCD) 패널들, 발광 다이오드 (LED) 패널들, 음극선관 (CRT) 디스플레이들, 플라즈마 디스플레이들 등을 포함한다.

애플리케이션 프로세서 (2963) 는 기저대역 프로세서 (2991) 에 커플링될 수도 있다. 기저대역 프로세서 (2991) 는 일반적으로 통신 신호들을 프로세싱한다. 예를 들어, 기저대역 프로세서 (2991) 는 수신된 신호들을 복조하거나 및/또는 디코딩할 수도 있다. 이에 추가적으로 또는 대안적으로, 기저대역 프로세서 (2991) 는 송신을 위한 준비로 신호들을 인코딩하거나 및/또는 변조할 수도 있다.

기저대역 프로세서 (2991) 는 기저대역 메모리 (2993) 에 커플링될 수도 있다. 기저대역 메모리 (2993) 는 SDRAM, DDRAM, 플래시 메모리 등과 같은, 전자 정보를 저장하는 것이 가능한 임의의 전자 디바이스일 수도 있다. 기저대역 프로세서 (2991) 는 기저대역 메모리 (2993) 로부터 정보 (예컨대, 명령들 및/또는 데이터) 를 판독하거나 및/또는 그에 정보를 기록할 수도 있다. 이에 추가적으로 또는 대안적으로, 기저대역 프로세서 (2991) 는 기저대역 메모리 (2993) 에 저장된 명령들 및/또는 데이터를 이용하여 통신 동작들을 수행할 수도 있다.

기저대역 프로세서 (2991) 는 무선 주파수 (RF) 송수신기 (2995) 에 커플링될 수도 있다. RF 송수신기 (2995) 는 하나 이상의 전력 증폭기들 (2997) 및 하나 이상의 안테나들 (2999) 에 커플링될 수도 있다. RF 송수신기 (2995) 는 무선 주파수 신호들을 송신 및/또는 수신할 수도 있다. 예를 들어, RF 송수신기 (2995) 는 전력 증폭기 (2997) 및 하나 이상의 안테나들 (2999) 을 이용하여 RF 신호를 송신할 수도 있다. RF 송수신기 (2995) 는 또한 하나 이상의 안테나들 (2999) 을 이용하여 RF 신호들을 수신할 수도 있다.

도 30 은 전자 디바이스 (3002) 에서 이용될 수도 있는 여러 구성요소들을 예시한다. 예시된 구성요소들은 동일한 물리적인 구조 내에 또는 별개의 하우징들 또는 구조들에 로케이트될 수도 있다. 일부 구성들에서, 본원에서 설명되는 디바이스들 또는 전자 디바이스들 중 하나 이상은 도 30 에 예시된 전자 디바이스 (3002) 에 따라서 구현될 수도 있다. 전자 디바이스 (3002) 는 프로세서 (3007) 를 포함한다. 프로세서 (3007) 는 범용 단일- 또는 멀티 칩 마이크로프로세서 (예컨대, ARM), 전용 마이크로프로세서 (예컨대, 디지털 신호 프로세서 (DSP)), 마이크로제어기, 프로그래밍가능 게이트 어레이 등일 수도 있다. 프로세서 (3007) 는 중앙 처리 유닛 (CPU) 로서 지칭될 수도 있다. 단지 단일 프로세서 (3007) 가 도 30 의 전자 디바이스 (3002) 에 도시되어 있지만, 대안 구성으로, 프로세서들 (3007) (예컨대, ARM 및 DSP) 의 조합이 이용될 수 있다.

전자 디바이스 (3002) 는 또한 프로세서 (3007) 와 전자 통신하는 메모리 (3001) 를 포함한다. 즉, 프로세서 (3007) 는 메모리 (3001) 로부터 정보를 판독하거나 및/또는 그에 정보를 기록할 수 있다. 메모리 (3001) 는 전자 정보를 저장하는 것이 가능한 임의의 전자 구성요소일 수도 있다. 메모리 (3001) 는 랜덤 액세스 메모리 (RAM), 판독 전용 메모리 (ROM), 자기디스크 저장 매체들, 광학 저장 매체들, RAM 에서의 플래시 메모리 디바이스들, 프로세서 (3007) 와 포함된 온-보드 메모리, 프로그래밍가능 판독 전용 메모리 (PROM), 소거가능한 프로그래밍가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능한 PROM (EEPROM), 레지스터들, 및 기타 등등일 수도 있으며, 이들의 조합들을 포함할 수도 있다.

데이터 (3005a) 및 명령들 (3003a) 은 메모리 (3001) 에 저장될 수도 있다. 명령들 (3003a) 은 하나 이상의 프로그램들, 루틴들, 서브-루틴들, 기능들, 프로시저들 등을 포함할 수도 있다. 명령들 (3003a) 은 단일 컴퓨터-판독가능 스테이트먼트 또는 많은 컴퓨터-판독가능 스테이트먼트들을 포함할 수도 있다. 명령들 (3003a) 은 본원에서 설명되는 방법들 또는 기능들 중 하나 이상을 구현하기 위해 프로세서 (3007) 에 의해 실행가능할 수도 있다. 명령들 (3003a) 을 실행하는 것은 메모리 (3001) 에 저장된 데이터 (3005a) 의 사용을 수반할 수도 있다. 도 30 은 (명령들 (3003a) 및 데이터 (3005a) 로부터 유래할 수도 있는) 프로세서 (3007) 에 로드되는 일부 명령들 (3003b) 및 데이터 (3005b) 를 도시한다.

전자 디바이스 (3002) 는 또한 다른 전자 디바이스들과 통신하는 하나 이상의 통신 인터페이스들 (3011) 을 포함할 수도 있다. 통신 인터페이스 (3011) 는 유선 통신 기술, 무선 통신 기술, 또는 양자 모두에 기초할 수도 있다. 상이한 유형들의 통신 인터페이스들 (3011) 의 예들은 직렬 포트, 병렬 포트, 범용 시리얼 버스 (USB), 이더넷 어댑터, IEEE (1394) 버스 인터페이스, 소형 컴퓨터 시스템 인터페이스 (SCSI) 버스 인터페이스, 적외선 (IR) 통신 포트, Bluetooth 무선 통신 어댑터, 및 기타 등등을 포함한다.

전자 디바이스 (3002) 는 또한 하나 이상의 입력 디바이스들 (3013) 및 하나 이상의 출력 디바이스들 (3017) 을 포함할 수도 있다. 상이한 종류들의 입력 디바이스들 (3013) 의 예들은 키보드, 마우스, 마이크로폰, 원격 제어 디바이스, 버튼, 조이스틱, 트랙볼, 터치패드, 라이트펜 등을 포함한다. 예를 들어, 전자 디바이스 (3002) 는 음향 신호들을 캡쳐하는 하나 이상의 마이크로폰들 (3015) 을 포함할 수도 있다. 하나의 구성에서, 마이크로폰 (3015) 은 음향 신호들 (예컨대, 보이스, 스피치, 잡음 등) 을 전기 또는 전자 신호들로 변환하는 트랜스듀서일 수도 있다. 상이한 종류들의 출력 디바이스들 (3017) 의 예들은 스피커, 프린터 등을 포함한다. 예를 들어, 전자 디바이스 (3002) 는 하나 이상의 스피커들 (3019) 을 포함할 수도 있다. 하나의 구성에서, 스피커 (3019) 는 전기 또는 전자 신호들을 음향 신호들로 변환하는 트랜스듀서일 수도 있다.

전자 디바이스 (3002) 에 포함될 수도 있는 하나의 특정 유형의 출력 디바이스 (3017) 는 디스플레이 디바이스 (3021) 이다. 본원에서 개시된 구성들과 함께 사용되는 디스플레이 디바이스들 (3021) 은 음극선관 (CRT), 액정 디스플레이 (LCD), 발광 다이오드 (LED), 가스 플라즈마, 전계발광, 또는 기타 등등과 같은, 임의의 적합한 이미지 투영 기술을 활용할 수도 있다. 디스플레이 제어기 (3023) 는 또한 메모리 (3001) 에 저장된 데이터 (3005a) 를 디스플레이 디바이스 (3021) 상에 보여지는 텍스트, 그래픽스, 및/또는 동영상들로 (적절히) 변환하기 위해, 제공될 수도 있다.

전자 디바이스 (3002) 의 여러 구성요소들이 하나 이상의 버스들에 의해 함께 커플링될 수도 있으며, 버스는 전력 버스, 제어 신호 버스, 상태 신호 버스, 데이터 버스 등을 포함할 수도 있다. 간결성을 위해, 여러 버스들이 버스 시스템 (3009) 으로서 도 30 에 예시되어 있다. 도 30 은 전자 디바이스 (3002) 의 하나의 가능한 구성만을 예시한다는 점에 유의해야 한다. 여러 다른 아키텍쳐들 및 구성요소들이 이용될 수도 있다.

도 31 은 무선 통신 디바이스 (3102) 내에 포함될 수도 있는 특정 구성요소들을 예시한다. 일부 구성들에서, 본원에서 설명되는 디바이스들 또는 전자 디바이스들 중 하나 이상은 도 31 에 무선 통신 디바이스 (3102) 에 따라서 구현될 수도 있다.

무선 통신 디바이스 (3102) 는 프로세서 (3141) 를 포함한다. 프로세서 (3141) 는 범용 단일- 또는 멀티 칩 마이크로프로세서 (예컨대, ARM), 전용 마이크로프로세서 (예컨대, 디지털 신호 프로세서 (DSP)), 마이크로제어기, 프로그래밍가능 게이트 어레이 등일 수도 있다. 프로세서 (3141) 는 중앙 처리 유닛 (CPU) 으로서 지칭될 수도 있다. 단지 단일 프로세서 (3141) 가 도 31 의 무선 통신 디바이스 (3102) 에 나타냈지만, 대안 구성에서, 프로세서들 (3141) (예컨대, ARM 와 DSP) 의 조합이 사용될 수 있다.

무선 통신 디바이스 (3102) 는 또한 프로세서 (3141) 와 전자 통신하고 있는 메모리 (3125) (예컨대, 프로세서 (3141) 는 메모리 (3125) 로부터 정보를 판독하거나 및/또는 그에 정보를 기록할 수 있다) 를 포함한다. 메모리 (3125) 는 전자 정보를 저장하는 것이 가능한 임의의 전자 컴포넌트일 수도 있다. 메모리 (3125) 는 랜덤 액세스 메모리 (RAM), 판독 전용 메모리 (ROM), 자기디스크 저장 매체들, 광학 저장 매체들, RAM 에서의 플래시 메모리 디바이스들, 프로세서 (3141) 와 포함된 온-보드 메모리, 프로그래밍가능 판독 전용 메모리 (PROM), 소거가능한 프로그래밍가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능한 PROM (EEPROM), 레지스터들, 및 기타 등등일 수도 있으며, 이들의 조합들을 포함할 수도 있다.

데이터 (3127a) 및 명령들 (3129a) 은 메모리 (3125) 에 저장될 수도 있다. 명령들 (3129a) 은 하나 이상의 프로그램들, 루틴들, 서브-루틴들, 기능들, 프로시저들, 코드 등을 포함할 수도 있다. 명령들 (3129a) 은 단일 컴퓨터-판독가능 스테이트먼트 또는 많은 컴퓨터-판독가능 스테이트먼트들을 포함할 수도 있다. 명령들 (3129a) 은 본원에서 설명되는 방법들 또는 기능들 중 하나 이상을 구현하기 위해 프로세서 (3141) 에 의해 실행가능할 수도 있다. 명령들 (3129a) 을 실행하는 것은 메모리 (3125) 에 저장된 데이터 (3127a) 의 사용을 수반할 수도 있다. 도 31 은 (메모리 (3125) 에서의 명령들 (3129a) 및 데이터 (3127a) 로부터 나올 수도 있는) 프로세서 (3141) 에 로드되는 일부 명령들 (3129b) 및 데이터 (3127b) 를 도시한다.

무선 통신 디바이스 (3102) 는 또한 무선 통신 디바이스 (3102) 와 원격 로케이션 (예컨대, 또 다른 무선 통신 디바이스 등) 사이에 신호들의 송신 및 수신을 가능하게 하는 송신기 (3137) 및 수신기 (3139) 를 포함할 수도 있다. 송신기 (3137) 및 수신기 (3139) 는 송수신기 (3135) 로서 일괄하여 지칭될 수도 있다. 안테나 (3145) 는 송수신기 (3135) 에 전기적으로 커플링될 수도 있다. 무선 통신 디바이스 (3102) 는 또한 (미도시) 다수의 송신기들 (3137), 다수의 수신기들 (3139), 다수의 송수신기들 (3135) 및/또는 다수의 안테나들 (3145) 을 포함할 수도 있다.

일부 구성들에서, 무선 통신 디바이스 (3102) 는 음향 신호들을 캡쳐하는 하나 이상의 마이크로폰들 (3131) 을 포함할 수도 있다. 하나의 구성에서, 마이크로폰 (3131) 은 음향 신호들 (예컨대, 보이스, 스피치, 잡음 등) 을 전기 또는 전자 신호들로 변환하는 트랜스듀서일 수도 있다. 이에 추가적으로 또는 대안적으로, 무선 통신 디바이스 (3102) 는 하나 이상의 스피커들 (3133) 을 포함할 수도 있다. 하나의 구성에서, 스피커 (3133) 는 전기 또는 전자 신호들을 음향 신호들로 변환하는 트랜스듀서일 수도 있다.

무선 통신 디바이스 (3102) 의 여러 구성요소들은 하나 이상의 버스들에 의해 함께 커플링될 수도 있으며, 버스는 전력 버스, 제어 신호 버스, 상태 신호 버스, 데이터 버스 등을 포함할 수도 있다. 간결성을 위해, 여러 버스들이 버스 시스템 (3143) 으로서 도 31 에 예시되어 있다.

상기 설명에서, 참조 번호들은 종종 여러 용어들과 관련하여 사용되었다. 용어가 참조 번호와 관련하여 사용되는 경우, 이것은 도면들 중 하나 이상에 나타낸 특정의 엘리먼트를 지칭하도록 의도될 수도 있다. 용어가 참조 번호 없이 사용되는 경우, 이것은 일반적으로 어느 특정 도면에 한정됨이 없이 용어를 지칭하도록 의도될 수도 있다.

본원에서 개시된 방법들 및 장치는 일반적으로 임의의 송수신 및/또는 오디오 감지 애플리케이션에 적용될 수도 있으며, 이러한 애플리케이션들의 모바일 또는 아니면 휴대형 예들 및/또는 원거리장 소스들로부터 신호 성분들의 감지를 포함한다. 예를 들어, 본원에서 개시된 구성들의 범위는 코드-분할 다중-접속 (CDMA) 오버-디-에어 인터페이스를 채용하도록 구성된 무선 전화 통신 통신 시스템에 상주하는 통신 디바이스들을 포함한다. 그럼에도 불구하고, 본원에서 설명되는 바와 같은 특징들을 가지는 방법 및 장치는 유선 및/또는 무선 (예컨대, CDMA, TDMA, FDMA, 및/또는 TD-SCDMA) 송신 채널들을 통한 VoIP (Voice over IP) 를 채용하는 시스템들과 같은, 당업자들에게 알려진 광범위한 기술들을 채용하는 여러 통신 시스템들 중 임의의 통신 시스템에 상주할 수도 있는 것으로 당업자들에 의해 이해될 것이다.

본원에서 설명되는 기법들은 직교 멀티플렉싱 방식에 기초하는 통신 시스템들을 포함하여, 여러 통신 시스템들에 이용될 수도 있다. 이러한 통신 시스템들의 예들은 직교 주파수분할 다중접속 (OFDMA) 시스템들, 단일-캐리어 주파수분할 다중접속 (SC-FDMA) 시스템들, 및 기타 등등을 포함한다. OFDMA 시스템은 전체 시스템 대역폭을 다수의 직교의 서브-캐리어들로 파티셔닝하는 변조 기법인 직교 주파수 분할 멀티플렉싱 (OFDM) 을 이용한다. 이들 서브-캐리어들은 또한 톤들 (tones), 빈들 등으로 지칭될 수도 있다. OFDM 에 의해, 각각의 서브-캐리어는 데이터로 독립적으로 변조될 수도 있다. SC-FDMA 시스템은 시스템 대역폭을 가로질러서 분산된 서브-캐리어들 상에서 송신하기 위해 인터리브된 FDMA (IFDMA) 를, 인접한 서브-캐리어들의 블록 상에서 송신하기 위해 LFDMA (localized FDMA) 를, 또는 인접한 서브-캐리어들의 다수의 블록들 상에서 송신하기 위해 향상된 FDMA (EFDMA) 를 이용할 수도 있다. 일반적으로, 변조 심볼들은 주파수 영역에서 OFDM 으로, 그리고 시간 영역에서 SC-FDMA 로, 전송된다.

용어 "결정하는 것" 은 매우 다양한 액션들을 포괄하며, 따라서, "결정하는 것" 은 계산하는 것, 컴퓨팅하는 것, 프로세싱하는 것, 유도하는 것, 조사하는 것, 탐색하는 것 (예컨대, 테이블, 데이터베이스 또는 또 다른 데이터 구조에서 탐색하는 것), 확인하는 것 및 기타 등등을 포함할 수 있다. 또한, "결정하는 것" 은 수신하는 것 (예컨대, 정보를 수신하는 것), 액세스하는 것 (예컨대, 메모리 내 데이터에 액세스하는 것) 및 기타 등등을 포함할 수 있다. 또한, "결정하는 것" 은 결의하는 것, 선택하는 것, 선정하는 것, 확립하는 것 및 기타 등등을 포함할 수 있다.

어구 "에 기초하여" 는 명확하게 달리 규정되지 않는 한, "에 오직 기초하여" 를 의미하지 않는다. 즉, 어구 "에 기초하여" 는 "에 오직 기초하여" 및 "에 적어도 기초하여" 양쪽을 기술한다. 예를 들어, 용어 "에 기초하여" 는 경우들 (i) "로부터 유도된" (예컨대, "B 는 A" 의 전구체이다), (ii) "에 적어도 기초하는" (예컨대, "A 는 적어도 B" 에 기초한다), 및, 특정의 문맥에서 적절한 경우, (iii) "과 같은" (예컨대, "A 는 B" 와 같다) 를 포함하여, 그의 통상의 의미들 중 임의의 의미를 나타낼 수도 있다. 이와 유사하게, 용어 "에 응답하여" 는 "에 적어도 응답하여" 를 포함하여, 그의 통상의 의미들 중 임의의 의미를 나타내기 위해 사용된다.

용어 "커플링하다 (couple)" 및 임의의 이의 변형들은 엘리먼트들 사이의 직접 또는 간접 접속을 나타낼 수도 있다. 예를 들어, 제 2 엘리먼트에 커플링된 제 1 엘리먼트는 제 2 엘리먼트에 직접 접속되거나, 또는 제 2 엘리먼트에 또 다른 엘리먼트를 통해서 간접적으로 접속될 수도 있다.

용어 "프로세서" 는 범용 프로세서, 중앙 처리 유닛 (CPU), 마이크로프로세서, 디지털 신호 프로세서 (DSP), 제어기, 마이크로제어기, 상태 머신, 및 기타 등등을 포괄하도록 넓게 해석되어야 한다. 어떤 상황들 하에서, "프로세서" 는 주문형 집적회로 (ASIC), 프로그래밍가능 로직 디바이스 (PLD), 필드 프로그래밍가능 게이트 어레이 (FPGA) 등을 지칭할 수도 있다. 용어 "프로세서" 는 프로세싱 디바이스들의 조합, 예컨대, 디지털 신호 프로세서 (DSP) 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, 디지털 신호 프로세서 (DSP) 코어와 함께 하나 이상의 마이크로프로세서들, 또는 임의의 다른 이러한 구성을 지칭할 수도 있다.

용어 "메모리" 는 전자 정보를 저장하는 것이 가능한 임의의 전자 구성요소를 포괄하도록 넓게 해석되어야 한다. 용어 메모리는 랜덤 액세스 메모리 (RAM), 판독 전용 메모리 (ROM), 비-휘발성 랜덤 액세스 메모리 (NVRAM), 프로그래밍가능 판독 전용 메모리 (PROM), 소거가능한 프로그래밍가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능한 PROM (EEPROM), 플래시 메모리, 자기 또는 광학적 데이터 스토리지, 레지스터들 등과 같은, 여러 유형들의 프로세서-판독가능 매체들을 지칭할 수도 있다. 메모리는 프로세서가 메모리로부터 정보를 판독하거나 및/또는 그에 정보를 기록할 수 있으면 프로세서와 전자 통신하고 있는 것으로 지칭된다. 프로세서에 통합되는 메모리는 프로세서와 전자 통신한다.

용어들 "명령들" 및 "코드" 는 임의 종류의 컴퓨터-판독가능 스테이트먼트(들)을 포함하도록 넓게 해석되어야 한다. 예를 들어, 용어들 "명령들" 및 "코드" 는 하나 이상의 프로그램들, 루틴들, 서브-루틴들, 기능들, 프로시저들 등을 지칭할 수도 있다. "명령들" 및 "코드" 는 단일 컴퓨터-판독가능 스테이트먼트 또는 많은 컴퓨터-판독가능 스테이트먼트들을 포함할 수도 있다.

그의 문맥에 의해 명확하게 한정되지 않는 한, 용어 "신호 (signal) " 는 본원에서 그의 통상의 의미들 중 임의의 의미를 나타내기 위해 사용되며, 와이어, 버스, 또는 다른 전송 매체 상에 표현되는 메모리 로케이션 (또는 메모리 로케이션들의 세트) 의 상태를 포함한다. 그의 문맥에 의해 명확하게 한정되지 않는 한, 용어 "발생하는 것" 은 본원에서 컴퓨팅하는 것 또는 아니면 생성하는 것과 같은, 그의 통상의 의미들 중 임의의 의미를 나타내기 위해 사용된다. 그의 문맥에 의해 명확하게 한정되지 않는 한, 용어 "계산하는 것" 은 본원에서 컴퓨팅하는 것, 평가하는 것, 평활화하는 것 및/또는 복수의 값들로부터 선택하는 것과 같은, 그의 통상의 의미들 중 임의의 의미를 나타내기 위해 사용된다. 그의 문맥에 의해 명확하게 한정되지 않는 한, 용어 "획득하는 것" 은 계산하는 것, 유도하는 것, (예컨대, 외부 디바이스로부터) 수신하는 것, 및/또는 (예컨대, 스토리지 엘리먼트들의 어레이로부터) 취출하는 것과 같은, 그의 통상의 의미들 중 임의의 의미를 나타내기 위해 사용된다. 그의 문맥에 의해 명확하게 한정되지 않는 한, 용어 "선택하는 것" 은 2 개 이상으로 된 세트 중 적어도 하나, 및 전체 수보다 적은 개수를 식별하는 것, 나타내는 것, 인가하는 것, 및/또는 이용하는 것과 같은, 그의 통상의 의미들 중 임의의 의미를 나타내기 위해 사용된다. 용어 "포함하는 것" 은, 본 설명 및 청구범위에 사용되는 경우, 다른 엘리먼트들 또는 동작들을 배제하지 않는다.

멀티-마이크로폰 오디오 감지 디바이스의 마이크로폰의 "로케이션" 에 대한 언급들은, 문맥에 의해 달리 언급하지 않는 한, 마이크로폰의 음향적으로 민감한 페이스의 중심의 로케이션을 나타낸다. 용어 "채널" 은 특정의 문맥에 따라서, 때로는 신호 경로를 나타내기 위해, 그리고 다른 때에는 이러한 경로에 의해 반송되는 신호를 나타내기 위해, 사용된다. 달리 지시하지 않는 한, 용어 "시리즈" 는 2 개 이상 아이템들의 시퀀스를 나타내기 위해 사용된다. 용어 "로그" 는 기수-10 로그를 나타내는데 사용되지만, 다른 기수들로의 이러한 연산의 확장들도 본 개시물의 범위 내이다. 용어 "주파수 성분" 은 (예컨대, 고속 푸리에 변환에 의해 발생될 때) 신호의 주파수 영역 표현의 샘플, 또는 그 신호의 서브밴드 (예컨대, Bark 스케일 또는 mel 스케일 서브밴드) 와 같은, 신호의 주파수들의 세트 또는 주파수 대역들 중 하나를 나타내기 위해 사용된다. 그 문맥이 달리 지시하지 않는 한, 용어 "오프셋" 은 본원에서 용어 "온셋 (onset)" 의 반의어로서 사용된다.

본원에서 개시된 통신 디바이스들은 패킷-스위칭되는 네트워크들 (예를 들어, VoIP 과 같은 프로토콜들에 따라서 오디오 송신들을 반송하도록 배열된 유선 및/또는 무선 네트워크들) 및/또는 회선-교환되는 네트워크들에 사용을 위해 적응될 수도 있는 것으로 명시적으로 고려되고 이로써 개시된다. 또한, 본원에서 개시된 통신 디바이스들은 협대역 코딩 시스템들 (예컨대, 약 4 또는 5 킬로헤르츠의 오디오 주파수 범위를 인코딩하는 시스템들) 에 사용을 위해, 및/또는 전체-대역 광대역 코딩 시스템들 및 분할 (split)-대역 광대역 코딩 시스템들을 포함한, 광대역 코딩 시스템들 (예컨대, 5 킬로헤르츠보다 큰 오디오 주파수들을 인코딩하는 시스템들) 에 사용을 위해 적응될 수도 있는 것으로 명시적으로 고려되고 이로써 개시된다.

설명되는 구성들의 전술한 제시는 임의의 당업자로 하여금, 본원에서 개시된 방법들 및 다른 구조들을 실시하거나 또는 이용가능하도록 하기 위해서 제공된다. 본원에서 도시되고 설명되는 플로우차트들, 흐름도들, 블록도들, 및 다른 구조들은 단지 예들이며, 이들 구조들의 다른 변종들도 또한 본 개시물의 범위 이내이다. 이들 구성들에 대한 여러 변경들이 가능하며, 본원에서 제시된 일반적인 원리들은 다른 구성들에도 또한 적용될 수도 있다. 따라서, 본 개시물은 위에서 나타낸 구성들에 한정하려는 것이 아니라, 원래 개시물의 일부를 이루는, 출원된 첨부 청구범위를 포함한, 본원에서 개시된 임의의 방식에서 개시된 원리들 및 신규한 특성들과 부합하는 최광의의 범위가 부여되도록 의도된다.

당업자들은, 정보 및 신호들이 다양한 상이한 기술들 및 기법들 중 어느 것을 이용하여서도 표현될 수도 있다는 점을 이해할 수 있을 것이다. 예를 들어, 상기 설명들 전반에 걸쳐서 참조될 수도 있는 데이터, 명령들, 지령들, 정보, 신호들, 비트들 및 심볼들은 전압들, 전류들, 전자기파들, 자기장들 또는 자기 입자들, 광학장들 또는 광학 입자들, 또는 이들의 임의의 조합으로 표현될 수도 있다.

본원에서 개시된 바와 같은 구성의 구현예에 대한 중요한 설계 요구사항들은, 특히, 압축된 오디오 또는 오디오 시각 정보 (예컨대, 본원에서 식별되는 예들 중 하나와 같은 압축 포맷에 따라서 인코딩된 파일 또는 스트림) 의 플레이백과 같은, 계산-집약적인 애플리케이션들, 또는 광대역 통신들 (예컨대, 8 킬로헤르츠보다 더 높은 샘플링 레이트들, 예컨대 12, 16, 44.1, 48, 또는 192 kHz 에서의 보이스 통신들) 을 위한 애플리케이션들에 대해, (일반적으로 초 또는 MIPS 당 수백만의 명령들로 측정되는) 프로세싱 지연 및/또는 계산 복잡성을 최소화하는 것을 포함할 수도 있다.

멀티-마이크로폰 프로세싱 시스템의 목표들은, 전체 잡음 감소에서 10 내지 12 dB 을 달성하는 것, 원하는 스피커의 이동 동안 보이스 레벨 및 컬러를 보존하는 것, 적극적인 잡음 제거 대신 잡음이 백그라운드로 이동되었다는 지각을 획득하는 것, 스피치의 탈반향, 및/또는 더 적극적인 잡음 감소를 위해 포스트-프로세싱의 옵션을 사용가능하게 하는 것을 포함할 수도 있다.

본원에서 개시된 바와 같은 장치는 의도되는 애플리케이션에 적합한 것으로 여겨지는, 소프트웨어와, 및/또는 펌웨어와, 하드웨어의 임의의 조합으로 구현될 수도 있다. 예를 들어, 이러한 장치의 엘리먼트들은 예를 들어, 동일한 칩 상에 또는 칩셋 내 2 개 이상 칩들 사이에 상주하는 전자 및/또는 광학적 디바이스들로서 제조될 수도 있다. 이러한 디바이스의 일 예는 로직 엘리먼트들의 고정된 또는 프로그래밍가능 어레이, 예컨대 트랜지스터들 또는 로직 게이트들, 및 이들 엘리먼트들 중 임의의 엘리먼트는 하나 이상의 이러한 어레이들로서 구현될 수도 있다. 본 장치의 엘리먼트들 중 임의의 2 개 이상, 또는 심지어 모두는 동일한 어레이 또는 어레이들 내에 구현될 수도 있다. 이러한 어레이 또는 어레이들은 하나 이상의 칩들 내에 (예를 들어, 2 개 이상 칩들을 포함하는 칩셋 내에) 구현될 수도 있다.

본원에서 개시된 장치의 여러 구현예들의 하나 이상의 엘리먼트들은, 또한 마이크로프로세서들, 내장 프로세서들, 지적 재산 (IP) 코어들, 디지털 신호 프로세서들, FPGA들 (field-programmable gate arrays), ASSPs (application-specific standard products), 및 ASIC들 (application-specific integrated circuits) 과 같은, 하나 이상의 고정된 또는 프로그래밍가능한 로직 엘리먼트들의 어레이들 상에 실행하도록 배열된 하나 이상의 명령들의 세트들로서 전체적으로 또는 부분적으로 구현될 수도 있다. 본원에서 개시된 바와 같은 장치의 구현예의 여러 엘리먼트들 중 임의의 엘리먼트는 또한 하나 이상의 컴퓨터들 (예컨대, 또한 "프로세서들" 로 지칭되는, 명령들의 하나 이상의 세트들 또는 시퀀스들을 실행하도록 프로그래밍된 하나 이상의 어레이들을 포함하는 머신들) 로서 구현될 수도 있으며, 이들 엘리먼트들 중 임의의 2 개 이상, 또는 심지어 모두가 동일한 이러한 컴퓨터 또는 컴퓨터들 내에 구현될 수도 있다.

본원에서 개시된 바와 같은 프로세싱을 위한 프로세서 또는 다른 수단은 예를 들어, 동일한 칩 상에 또는 칩내 2 개 이상 칩들 사이에 상주하는 하나 이상의 전자 및/또는 광학 디바이스들로서 제조될 수도 있다. 이러한 디바이스의 일 예는 로직 엘리먼트들의 고정된 또는 프로그래밍가능 어레이, 예컨대 트랜지스터들 또는 로직 게이트들, 및 이들 엘리먼트들 중 임의의 엘리먼트는 하나 이상의 이러한 어레이들로서 구현될 수도 있다. 이러한 어레이 또는 어레이들은 하나 이상의 칩들 내에 (예를 들어, 2 개 이상 칩들을 포함하는 칩셋 내에) 구현될 수도 있다. 이러한 어레이들의 예들은 로직 엘리먼트들의 고정된 또는 프로그래밍가능 어레이들, 예컨대 마이크로프로세서들, 내장 프로세서들, IP 코어들, DSP들, FPGA들, ASSPs 및 ASIC들을 포함한다. 본원에서 개시된 바와 같은 프로세싱을 위한 프로세서 또는 다른 수단은 또한 하나 이상의 컴퓨터들 (예컨대, 명령들의 하나 이상의 세트들 또는 시퀀스들을 실행하도록 프로그래밍된 하나 이상이 어레이들을 포함하는 머신들) 또는 다른 프로세서들로서 구현될 수도 있다. 본원에서 설명되는 바와 같은 프로세서는 작업들을 수행하거나 또는 본원에서 설명되는 바와 같은 보이스 활성도 검출 절차와 직접 관련되지 않는 명령들의 다른 세트들, 예컨대 프로세서가 내장되는 디바이스 또는 시스템 (예컨대, 오디오 감지 디바이스) 의 또 다른 동작과 관련된 작업을 실행하는데 이용되는 것이 가능하다. 또한, 본원에서 개시된 바와 같은 방법의 부분이 오디오 감지 디바이스의 프로세서에 의해 수행되고, 그리고, 방법의 또 다른 부분이 하나 이상의 다른 프로세서들의 제어 하에서 수행되는 것이 가능하다.

당업자들은, 본원에서 개시된 구성과 관련하여 설명되는 여러가지 예시적인 모듈들, 로직 블록들, 회로들, 및 테스트들 및 다른 동작들이 전자적 하드웨어, 컴퓨터 소프트웨어 또는 양자의 조합들로서 구현될 수도 있음을 알 수 있을 것이다. 이러한 모듈들, 로직 블록들, 회로들, 및 동작들은 범용 프로세서, 디지털 신호 프로세서 (DSP), ASIC 또는 ASSP, FPGA 또는 다른 프로그래밍가능 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 구성요소들, 또는 본원에서 개시된 바와 같은 구성을 발생하도록 설계된 이들의 임의의 조합을 구현되거나 또는 수행될 수도 있다. 예를 들어, 이러한 구성은 하드-와이어 (hard-wire) 회로로서, 주문형 집적 회로 내에 제조되는 회로 구성으로서, 또는 비-휘발성 스토리지에 로드되는 펌웨어 프로그램 또는 머신-판독가능 코드로서 데이터 저장 매체로부터 로드되거나 또는 그에 로드되는 소프트웨어 프로그램으로서 적어도 부분적으로 구현될 수도 있으며, 이러한 코드는 범용 프로세서 또는 다른 디지털 신호 프로세싱 유닛과 같은 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들이다. 범용 프로세서는 마이크로프로세서일 수도 있으며, 그러나 대안적으로는, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기 또는 상태 머신일 수도 있다. 프로세서는 또한 컴퓨팅 디바이스들의 조합, 예컨대, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 결합된 하나 이상의 마이크로프로세서들, 또는 임의의 다른 이러한 구성으로서 구현될 수도 있다. 소프트웨어 모듈은 RAM (랜덤-액세스 메모리), ROM (판독 전용 메모리), 비휘발성 RAM (NVRAM), 예컨대 플래시 RAM, 소거가능한 프로그래밍가능 ROM (EPROM), 전기적 소거가능 프로그래밍가능 ROM (EEPROM), 레지스터들, 하드 디스크, 착탈식 디스크, CD-ROM 또는 당업계에 알려져 있는 임의의 다른 유형의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서가 저장 매체로부터 정보를 판독하고 그에 정보를 기록할 수 있도록 프로세서에 커플링된다. 대안적으로는, 저장 매체는 프로세서에 통합될 수도 있다. 프로세서 및 저장 매체는 ASIC 에 상주할 수도 있다. ASIC 는 사용자 단말에 상주할 수도 있다. 대안적으로는, 프로세서 및 저장 매체는 사용자 단말에 별개의 구성요소들로서 상주할 수도 있다.

본원에서 개시된 여러 방법들 (예컨대, 본원에서 설명되는 여러 장치의 동작의 설명에 의해 개시된 방법들 및 다른 방법들) 이 프로세서와 같은 로직 엘리먼트들의 어레이에 의해 수행될 수도 있고, 본원에서 설명되는 바와 같은 장치의 여러 엘리먼트들이 이러한 어레이 상에서 실행하도록 설계된 모듈들로서 구현될 수도 있다는 점에 유의한다. 본원에서 사용될 때, 용어 "모듈" 또는 "서브-모듈" 은 컴퓨터 명령들 (예컨대, 논리식들) 을 소프트웨어, 하드웨어 또는 펌웨어 형태로 포함하는 임의의 방법, 장치, 디바이스, 유닛 또는 컴퓨터-판독가능 데이터 저장 매체를 지칭할 수 있다. 다수의 모듈들 또는 시스템들은 하나의 모듈 또는 시스템에 결합될 수 있으며 하나의 모듈 또는 시스템이 동일한 기능들을 수행하기 위해 다수의 모듈들 또는 시스템들로 분리될 수 있는 것으로 이해되어야 한다. 소프트웨어 또는 다른 컴퓨터-실행가능한 명령들로 구현될 때, 프로세스의 엘리먼트들은 본질적으로 예컨대, 루틴들, 프로그램들, 오브젝트들, 구성요소들, 데이터 구조들, 및 기타 등등을 가진 관련된 작업들을 수행하는 코드 세그먼트들이다. 용어 "소프트웨어" 는 소스 코드, 어셈블리어 코드, 머신 코드, 2 진 코드, 펌웨어, 매크로코드, 마이크로코드, 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들의 임의의 하나 이상의 세트들 또는 시퀀스들, 및 이러한 예들의 임의의 조합을 포함하는 것으로 이해되어야 한다. 프로그램 또는 코드 세그먼트들은 프로세서-판독가능 저장 매체에 저장되거나 또는 전송 매체 또는 통신 링크를 통해서 반송파로 구현되는 컴퓨터 데이터 신호에 의해 송신될 수 있다.

본원에서 개시된 방법들, 방식들, 및 기법들의 구현예들은 또한 (예를 들어, 본원에서 리스트된 바와 같은 하나 이상의 컴퓨터-판독가능 매체들에서) 로직 엘리먼트들 (예컨대, 프로세서, 마이크로프로세서, 마이크로제어기, 또는 다른 유한 상태 머신) 의 어레이를 포함하는 머신에 의해 판독가능하거나 및/또는 실행가능한 명령들의 하나 이상의 세트들로서 유형으로 구현될 수도 있다. 용어 "컴퓨터-판독가능 매체" 는 휘발성, 비휘발성, 착탈식 및 비-착탈식 매체들을 포함하는, 정보를 저장하고 전송할 수 있는 임의의 매체를 포함할 수도 있다. 컴퓨터-판독가능 매체의 예들은 전자 회로, 반도체 메모리 디바이스, ROM, 플래시 메모리, 소거가능한 ROM (EROM), 플로피 디스켓 또는 다른 자기 스토리지, CD-ROM/DVD 또는 다른 광학적 스토리지, 하드 디스크, 광섬유 매체, 무선 주파수 (RF) 링크, 또는 원하는 정보를 저장하는데 사용될 수 있고 액세스될 수 있는 임의의 다른 매체를 포함한다. 컴퓨터 데이터 신호는 전자 네트워크 채널들, 광 섬유들, 공기, 전자기, RF 링크들 등과 같은 전송 매체를 통해서 전파할 수 있는 임의의 신호를 포함할 수도 있다. 코드 세그먼트들은 인터넷 또는 인트라넷과 같은 컴퓨터 네트워크들을 경유하여 다운될 수도 있다. 어느 경우든, 본 개시물의 범위는 이러한 실시형태들에 의해 한정되는 것으로 해석되어서는 안된다.

본원에서 설명하는 방법들의 작업들의 각각은 하드웨어로 직접, 프로세서에 의해 실행되는 소프트웨어 모듈로, 또는 이 둘의 조합으로 구현될 수도 있다. 본원에서 개시된 바와 같은 방법의 구현예의 전형적인 애플리케이션에서, 로직 엘리먼트들 (예컨대, 로직 게이트들) 의 어레이는 방법의 여러 작업들 중 하나, 하나 보다 많거나 또는 심지어 모두를 수행하도록 구성된다. 작업들 중 하나 이상 (가능한 한 모두) 는 또한 컴퓨터 프로그램 제품 (예컨대, 디스크들, 플래시 또는 다른 비휘발성 메모리 카드들, 반도체 메모리 칩들 등과 같은 하나 이상의 데이터 저장 매체들) 에 내장된, 로직 엘리먼트들 (예컨대, 프로세서, 마이크로프로세서, 마이크로제어기, 또는 다른 유한 상태 머신) 의 어레이를 포함하는 머신 (예컨대, 컴퓨터) 에 의해 판독가능하거나 및/또는 실행가능한 코드 (예컨대, 하나 이상의 명령들의 세트) 로서 구현될 수도 있다. 본원에서 개시된 바와 같은 방법의 구현예의 작업들은 또한 하나 보다 많은 이러한 어레이 또는 머신에 의해 수행될 수도 있다. 이들 또는 다른 구현예들에서, 작업들은 셀룰러 전화기와 같은 무선 통신용 디바이스 또는 이러한 통신 능력을 가지는 다른 디바이스 내에서 수행될 수도 있다. 이러한 디바이스는 회선-교환 및/또는 패킷-스위칭 네트워크들과 (예컨대, VoIP 와 같은 하나 이상의 프로토콜들을 이용하여) 통신하도록 구성될 수도 있다. 예를 들어, 이러한 디바이스는 인코딩된 프레임들을 수신하거나 및/또는 송신하도록 구성된 RF 회로를 포함할 수도 있다.

본원에서 개시된 여러 방법들은 핸드셋, 헤드셋, 또는 휴대형 정보단말기 (PDA) 와 같은 휴대형 통신 디바이스에 의해 수행될 수도 있으며 본원에서 설명되는 여러 장치가 이러한 디바이스 내에 포함될 수도 있는 것으로 명시적으로 개시된다. 전형적인 실시간 (예컨대, 온라인) 애플리케이션이 이러한 모바일 디바이스를 이용하여 처리되는 전화기 대화이다.

하나 이상의 예시적인 실시형태들에서, 본원에서 설명되는 동작들은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현되는 경우, 이러한 동작들은 컴퓨터-판독가능 매체 상에 저장되거나, 또는 컴퓨터-판독가능 매체를 통해서 하나 이상의 명령들 또는 코드로서 송신될 수도 있다. 용어 "컴퓨터-판독가능 매체들" 은 컴퓨터-판독가능 저장 매체들 및 통신 (예컨대, 송신) 매체들 양쪽을 포함한다. 비제한적인 예로서, 컴퓨터-판독가능 저장 매체들은 (동적 또는 정적 RAM, ROM, EEPROM, 및/또는 플래시 RAM 을 제한 없이 포함할 수도 있는) 반도체 메모리, 또는 강유전체, 자기저항, 오보닉, 고분자, 또는 상-변화 메모리와 같은 스토리지 엘리먼트들의 어레이; CD-ROM 또는 다른 광디스크 저장; 및/또는 자기디스크 저장 또는 다른 자기 저장 디바이스들을 포함할 수 있다. 이러한 저장 매체들은 정보를 컴퓨터에 의해 액세스될 수도 있는 명령들 또는 데이터 구조들의 형태로 저장할 수도 있다. 통신 매체들은 원하는 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 반송하는데 이용될 수 있고 그리고 컴퓨터에 의해 액세스될 수 있는, 한 장소로부터 또 다른 장소로 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함한, 임의의 매체를 포함할 수 있다. 또한, 임의의 접속이 컴퓨터-판독가능 매체로 적절히 지칭된다. 예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선 (DSL), 또는 무선 기술, 예컨대 적외선, 라디오, 및/또는 마이크로파를 이용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 송신되면, 동축 케이블, 광섬유 케이블, 연선, DSL, 또는 무선 기술, 예컨대, 적외선, 라디오, 및/또는 마이크로파가 매체의 정의에 포함된다. 디스크 (disk) 및 디스크 (disc) 는, 본원에서 사용될 때, 컴팩트 디스크 (CD), 레이저 디스크, 광 디스크, 디지털 다기능 디스크 (DVD), 플로피 디스크 및 Blu-ray Disc^TM (캘리포니아주, 유니버셜 시티, Blu-ray 디스크 협회) 를 포함하며, 디스크들 (disks) 은 데이터를 자기적으로 보통 재생하지만, 디스크들 (discs) 은 레이저로 데이터를 광학적으로 재생한다. 앞에서 언급한 것들의 조합들이 또한 컴퓨터-판독가능 매체들의 범위 내에 포함되어야 한다.

본원에서 설명되는 바와 같은 음향 신호 프로세싱 장치는 어떤 동작들을 제어하기 위해서 스피치 입력을 수신하는 전자 디바이스에 포함될 수도 있거나, 또는 아니면 통신 디바이스들과 같은, 백그라운드 잡음들로부터의 원하는 잡음들의 분리로부터 이점을 취할 수도 있다. 많은 애플리케이션들은 다수의 방향들로부터 유래하는 백그라운드 사운드들로부터 깨끗한 희망 사운드를 향상시키거나 또는 분리하는 것으로부터 이점을 취할 수도 있다. 이러한 애플리케이션들은 보이스 인식 및 검출, 스피치 강화 및 분리, 보이스-활성화된 제어, 및 기타 등등과 같은 능력들을 포함하는 전자 또는 컴퓨팅 디바이스들에서의 인간-머신 인터페이스들을 포함할 수도 있다. 이러한 음향 신호 프로세싱 장치가 제한된 프로세싱 능력들을 단지 제공하는 디바이스들에 적합하도록 구현하는 것이 바람직할 수도 있다.

본원에서 설명되는 모듈들, 엘리먼트들 및 디바이스들의 여러 구현예들의 엘리먼트들은 예를 들어, 동일한 칩 상에 또는 칩셋 내 2 개 이상 칩들 사이에 상주하는 전자 및/또는 광학적 디바이스들로서 제조될 수도 있다. 이러한 디바이스의 일 예는 로직 엘리먼트들의 고정된 또는 프로그래밍가능 어레이, 예컨대 트랜지스터들 또는 게이트들이다. 본원에서 설명되는 장치의 여러 구현예들의 하나 이상의 엘리먼트들은 또한 마이크로프로세서들, 내장 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA들, ASSP들 및 ASIC들과 같은 로직 엘리먼트들의 하나 이상의 고정 또는 프로그래밍가능 어레이들 상에서 실행하도록 배열된 명령들의 하나 이상의 세트들로서 전체적으로 또는 부분적으로 구현될 수도 있다.

본원에서 설명되는 바와 같은 장치의 구현예의 하나 이상의 엘리먼트들은, 작업들을 수행하거나, 또는 장치가 내장되는 디바이스 또는 시스템의 또 다른 동작에 관련된 작업과 같은, 장치의 동작에 직접 관련되지 않는 명령들의 다른 세트들을 실행하는데 이용되는 것이 가능하다. 또한, 이러한 장치의 구현예의 하나 이상의 엘리먼트들은, 공통적인 구조 (예컨대, 상이한 시간들에서 상이한 엘리먼트들에 대응하는 코드의 부분들을 실행하는데 사용되는 프로세서, 상이한 시간들에서 상이한 엘리먼트들에 대응하는 작업들을 수행하도록 실행되는 명령들의 세트, 또는 상이한 시간들에서 상이한 엘리먼트들에 대한 동작들을 수행하는 전자 및/또는 광학적 디바이스들의 배열) 갖는 것이 가능하다.

본원에서 설명한 방법들은 설명한 방법을 달성하기 위한 하나 이상의 단계들 또는 액션들을 포함한다. 방법 단계들 및/또는 액션들은 청구의 범위로부터 일탈함이 없이 서로 상호 교환될 수도 있다. 즉, 설명되고 있는 방법의 적합한 동작을 위해 특정의 단계들 또는 액션들의 순서가 요구되지 않는 한, 특정의 단계들 및/또는 액션들의 순서 및/또는 사용은 청구의 범위로부터 일탈함이 없이 수정될 수도 있다.

달리 지시되지 않는 한, 특정의 특성을 가지는 장치의 동작의 임의의 개시물은 또한 유사한 특성을 갖는 방법을 개시하도록 명시적으로 의도되며 (그리고 반대의 경우일 수도 있으며), 그리고, 특정의 구성에 따른 장치의 동작의 임의의 개시물은 또한 유사한 구성에 따라서 방법을 개시하도록 명시적으로 의도된다 (그리고, 반대의 경우일 수도 있다). 용어 "구성" 은 그의 특정의 문맥에 의해 나타내어지는 바와 같은 방법, 장치 및/또는 시스템과 관련하여 사용될 수도 있다. 용어들 "방법", "프로세스", "절차", 및 "기법" 은 특정의 문맥에 의해 달리 언급하지 않는 한, 포괄적으로 그리고 상호교환가능하게 사용된다. 용어들 "장치" 및 "디바이스" 는 또한 특정의 문맥에 의해 달리 언급하지 않는 한, 포괄적으로 그리고 상호교환가능하게 사용된다. 용어들 "엘리먼트" 및 "모듈" 은 더 큰 구성의 부분을 나타내기 위해 일반적으로 사용된다. 그의 문맥에 의해 명확하게 한정되지 않는 한, 용어 "시스템" 은 본원에서 "공통 목적을 제공하기 위해 상호작용하는 엘리먼트들의 그룹" 을 포함하여, 그의 통상의 의미들 중 임의의 의미를 나타내기 위해서 사용된다.

청구항들은 위에서 예시한 엄밀한 구성 및 구성요소들에 한정되지 않는 것으로 이해되어야 한다. 청구의 범위로부터 일탈함이 없이, 여러 변경들, 본원에서 설명되는 시스템들, 방법들, 및 장치의 배열, 동작 및 세부 사항들에서, 변화들 및 변형들이 이루어질 수도 있다.

Claims

전자 디바이스에 의한 신호 레벨 매칭 방법으로서,
복수의 마이크로폰들로부터 복수의 오디오 신호들을 캡쳐하는 단계;
마이크로폰간 감산에 기초하여, 다수의 고조파들을 포함하는 차이 신호를 결정하는 단계;
상기 차이 신호의 고조파도 (harmonicity) 가 고조파도 임계치를 초과하는지의 여부를 결정하는 단계;
엔벨로프를 결정하기 위해 상기 고조파들을 보존하는 단계; 및
상기 엔벨로프를 잡음-억제된 신호에 인가하는 단계를 포함하는, 전자 디바이스에 의한 신호 레벨 매칭 방법.
제 1 항에 있어서,
입력 스펙트럼을 하나 이상의 대역들로 세그먼트화하는 단계;
각각의 대역에 대해 신호-대-잡음비를 측정하는 단계;
상기 신호-대-잡음비들이 제 1 임계치 보다 낮은지의 여부를 결정하는 단계;
목표 스펙트럼을 조합하는 단계; 및
상기 목표 스펙트럼에 기초하여 상기 잡음-억제된 신호에서 하나 이상의 대역들의 이득을 조정하는 단계를 더 포함하는, 전자 디바이스에 의한 신호 레벨 매칭 방법.
제 2 항에 있어서,
상기 목표 스펙트럼을 조합하는 단계는, 스피치 참조 스펙트럼의 부분을 스피치 템플릿 스펙트럼의 부분으로 대체하는 단계를 포함하는, 전자 디바이스에 의한 신호 레벨 매칭 방법.
제 3 항에 있어서,
대체되는 상기 스피치 참조 스펙트럼의 상기 부분은, 상기 신호-대-잡음비가 상기 제 1 임계치 미만인 하나 이상의 대역들을 포함하는, 전자 디바이스에 의한 신호 레벨 매칭 방법.
제 3 항에 있어서,
상기 스피치 템플릿 스펙트럼은, 코드북에 기초하는, 전자 디바이스에 의한 신호 레벨 매칭 방법.
제 3 항에 있어서,
상기 스피치 템플릿 스펙트럼은, 상기 신호-대-잡음비가 상기 제 1 임계치보다 큰 상기 입력 스펙트럼의 상기 대역들의 내삽에 기초하는, 전자 디바이스에 의한 신호 레벨 매칭 방법.
제 3 항에 있어서,
상기 스피치 참조 스펙트럼은, 상기 입력 스펙트럼에 기초하는, 전자 디바이스에 의한 신호 레벨 매칭 방법.
제 2 항에 있어서,
상기 목표 스펙트럼을 조합하는 단계는, 고조파 합성 발생을 포함하는, 전자 디바이스에 의한 신호 레벨 매칭 방법.
제 1 항에 있어서,
상기 복수의 오디오 신호들에 기초하여 잔여 잡음을 억제하는 단계를 더 포함하는, 전자 디바이스에 의한 신호 레벨 매칭 방법.
제 1 항에 있어서,
상기 엔벨로프를 상기 잡음-억제된 신호에 인가하는 단계는, 잡음-억제된 신호 레벨이 대략 오디오 신호 레벨과 매칭하도록 상기 잡음-억제된 신호의 이득을 조정하는 단계를 포함하는, 전자 디바이스에 의한 신호 레벨 매칭 방법.
제 2 항에 있어서,
상기 차이 신호를 결정하는 단계는, 스피치 신호에 대응하는 상기 입력 스펙트럼의 부분들을 결정하는 단계를 포함하는, 전자 디바이스에 의한 신호 레벨 매칭 방법.
제 2 항에 있어서,
상기 목표 스펙트럼은, 이득 차이들 및 피치 추정에 기초하는, 전자 디바이스에 의한 신호 레벨 매칭 방법.
제 2 항에 있어서,
잡음 신호를 수신하는 단계;
필터링된 잡음 신호를 발생하기 위해 상기 잡음 신호를 필터링하는 단계;
상기 필터링된 잡음 신호 및 스피치 신호에 기초하여 제 1 합산 신호를 발생하는 단계;
상기 제 1 합산 신호에 기초하여 변환된 신호를 발생하는 단계;
상기 변환된 신호의 기본 주파수를 발생하는 단계;
신뢰성 척도 또는 보이싱 파라미터를 발생하는 발생하는 단계;
상기 기본 주파수에 기초하여 하나 이상의 사인파 파라미터들을 추정하는 단계;
상기 하나 이상의 사인파 파라미터들에 기초하여 사인파 신호를 발생하는 단계;
스케일링된 사인파 신호를 발생하기 위해 상기 사인파 신호를 상기 신뢰성 척도 또는 상기 보이싱 파라미터로 곱하는 단계;
제 1 필터링된 신호를 발생하기 위해 상기 스케일링된 사인파 신호를 필터링하는 단계;
제 2 필터링된 신호를 발생하기 위해 상기 변환된 신호를 필터링하는 단계;
제 2 합산 신호를 발생하기 위해 상기 제 1 필터링된 신호와 상기 제 2 필터링된 신호를 합산하는 단계; 및
상기 제 2 합산 신호를 시간 영역으로 변환하는 단계를 더 포함하는, 전자 디바이스에 의한 신호 레벨 매칭 방법.
신호 레벨 매칭을 위한 전자 디바이스로서,
복수의 오디오 신호들을 캡쳐하는 복수의 마이크로폰들;
상기 복수의 마이크로폰들에 커플링되어, 마이크로폰간 감산에 기초하여, 다수의 고조파들을 포함하는 차이 신호를 결정하는 마이크로폰간 감산 회로;
상기 마이크로폰간 감산 회로에 커플링되어, 상기 차이 신호의 고조파도가 고조파도 임계치를 초과하는지의 여부를 결정하고, 엔벨로프를 결정하기 위해 상기 고조파들을 보존하는 엔벨로프 결정 회로; 및
상기 엔벨로프 결정 회로에 커플링되어, 상기 엔벨로프를 잡음-억제된 신호에 인가하는 엔벨로프 인가 회로를 포함하는, 신호 레벨 매칭을 위한 전자 디바이스.
제 14 항에 있어서,
상기 마이크로폰간 감산 회로는 입력 스펙트럼을 하나 이상의 대역들로 세그먼트화하며,
상기 전자 디바이스는,
상기 마이크로폰간 감산 회로에 커플링되어, 각각의 대역에 대해 신호-대-잡음비를 측정하고 상기 신호-대-잡음비들이 제 1 임계치 보다 낮은지의 여부를 결정하는 피크 충분도 결정 회로;
상기 피크 충분도 결정 회로에 커플링되어, 목표 스펙트럼을 조합하는 조합 스펙트럼 회로; 및
상기 조합 스펙트럼 회로에 커플링되어, 상기 목표 스펙트럼에 기초하여 상기 잡음-억제된 신호에서 하나 이상의 대역들의 이득을 조정하는 이득 조정기를 포함하는, 신호 레벨 매칭을 위한 전자 디바이스.
제 15 항에 있어서,
상기 목표 스펙트럼을 조합하는 것은, 스피치 참조 스펙트럼의 부분을 스피치 템플릿 스펙트럼의 부분으로 대체하는 것을 포함하는, 신호 레벨 매칭을 위한 전자 디바이스.
제 16 항에 있어서,
대체되는 상기 스피치 참조 스펙트럼의 상기 부분은, 상기 신호-대-잡음비가 상기 제 1 임계치 미만인 하나 이상의 대역들을 포함하는, 신호 레벨 매칭을 위한 전자 디바이스.
제 16 항에 있어서,
상기 스피치 템플릿 스펙트럼은, 코드북에 기초하는, 신호 레벨 매칭을 위한 전자 디바이스.
제 16 항에 있어서,
상기 스피치 템플릿 스펙트럼은, 상기 신호-대-잡음비가 상기 제 1 임계치보다 큰 상기 입력 스펙트럼의 상기 대역들의 내삽에 기초하는, 신호 레벨 매칭을 위한 전자 디바이스.
제 16 항에 있어서,
상기 스피치 참조 스펙트럼은, 상기 입력 스펙트럼에 기초하는, 신호 레벨 매칭을 위한 전자 디바이스.
제 15 항에 있어서,
목표 스펙트럼을 조합하는 것은, 고조파 합성 발생을 포함하는, 신호 레벨 매칭을 위한 전자 디바이스.
제 14 항에 있어서,
상기 마이크로폰간 감산 회로에 커플링된 잔여 잡음 억제 회로를 더 포함하며,
상기 잔여 잡음 억제 회로는 상기 복수의 오디오 신호들에 기초하여 잔여 잡음을 억제하는, 신호 레벨 매칭을 위한 전자 디바이스.
제 14 항에 있어서,
상기 엔벨로프를 상기 잡음-억제된 신호에 인가하는 것은, 잡음-억제된 신호 레벨이 대략 오디오 신호 레벨과 매칭하도록, 상기 잡음-억제된 신호의 이득을 조정하는 것을 포함하는, 신호 레벨 매칭을 위한 전자 디바이스.
제 15 항에 있어서,
상기 차이 신호를 결정하는 것은, 스피치 신호에 대응하는 상기 입력 스펙트럼의 부분들을 결정하는 것을 포함하는, 신호 레벨 매칭을 위한 전자 디바이스.
제 15 항에 있어서,
상기 목표 스펙트럼은, 이득 차이들 및 피치 추정에 기초하는, 신호 레벨 매칭을 위한 전자 디바이스.
제 15 항에 있어서,
필터링된 잡음 신호를 발생하기 위해 잡음 신호를 수신하여 상기 잡음 신호를 필터링하는 제 1 필터;
상기 제 1 필터에 커플링되어, 상기 필터링된 잡음 신호 및 스피치 신호에 기초하여 제 1 합산 신호를 발생하는 제 1 합산기;
상기 제 1 합산기에 커플링되어, 상기 제 1 합산 신호에 기초하여 변환된 신호를 발생하는 제 1 변환기;
상기 제 1 변환기에 커플링되어, 상기 변환된 신호의 기본 주파수를 발생하고 신뢰성 척도 또는 보이싱 파라미터를 발생하는 피치 분석 회로;
상기 피치 분석 회로에 커플링되어, 하나 이상의 사인파 파라미터들을 상기 기본 주파수에 기초하여 추정하는 사인파 파라미터 추정 회로;
상기 사인파 파라미터 추정 회로에 커플링되어, 상기 하나 이상의 사인파 파라미터들에 기초하여 사인파 신호를 발생하는 사인파 합성 회로;
상기 사인파 합성 회로에 커플링되어, 스케일링된 사인파 신호를 발생하기 위해 상기 사인파 신호를 상기 신뢰성 척도 또는 상기 보이싱 파라미터와 곱하는 제 1 승산기;
상기 사인파 합성 회로에 커플링되어, 제 1 필터링된 신호를 발생하기 위해 상기 스케일링된 사인파 신호를 필터링하는 제 2 필터;
상기 제 1 변환기에 커플링되어, 제 2 필터링된 신호를 발생하기 위해 상기 변환된 신호를 필터링하는 제 3 필터;
상기 제 2 필터 및 상기 제 3 필터에 커플링되어, 제 2 합산 신호를 발생하기 위해 상기 제 1 필터링된 신호와 상기 제 2 필터링된 신호를 합산하는 제 2 합산기; 및
상기 합산기에 커플링되어, 상기 제 2 합산 신호를 시간 영역으로 변환하는 제 2 변환기를 더 포함하는, 신호 레벨 매칭을 위한 전자 디바이스.
명령들을 갖는 비일시적인 유형의 컴퓨터-판독가능 매체를 포함하는 신호 레벨 매칭을 위한 컴퓨터-프로그램 제품으로서, 상기 명령들은,
전자 디바이스로 하여금 복수의 마이크로폰들로부터 복수의 오디오 신호들을 캡쳐하도록 하는 코드;
상기 전자 디바이스로 하여금, 마이크로폰간 감산에 기초하여, 다수의 고조파들을 포함하는 차이 신호를 결정하도록 하는 코드;
상기 전자 디바이스로 하여금, 상기 차이 신호의 고조파도가 고조파도 임계치를 초과하는지의 여부를 결정하도록 하는 코드;
상기 전자 디바이스로 하여금, 엔벨로프를 결정하기 위해 상기 고조파들을 보존하도록 하는 코드; 및
상기 전자 디바이스로 하여금, 상기 엔벨로프를 잡음-억제된 신호에 인가하도록 하는 코드를 포함하는, 신호 레벨 매칭을 위한 컴퓨터-프로그램 제품.
제 27 항에 있어서,
상기 명령들은,
상기 전자 디바이스로 하여금, 입력 스펙트럼을 하나 이상의 대역들로 세그먼트화하도록 하는 코드;
상기 전자 디바이스로 하여금, 각각의 대역에 대해 신호-대-잡음비를 측정하도록 하는 코드;
상기 전자 디바이스로 하여금, 상기 신호-대-잡음비들이 제 1 임계치 보다 낮은지의 여부를 결정하도록 하는 코드;
상기 전자 디바이스로 하여금, 목표 스펙트럼을 조합하도록 하는 코드; 및
상기 전자 디바이스로 하여금, 상기 목표 스펙트럼에 기초하여 상기 잡음-억제된 신호에서 하나 이상의 대역들의 이득을 조정하도록 하는 코드를 더 포함하는, 신호 레벨 매칭을 위한 컴퓨터-프로그램 제품.
제 28 항에 있어서,
상기 전자 디바이스로 하여금, 목표 스펙트럼을 조합하도록 하는 코드는, 상기 전자 디바이스로 하여금, 스피치 참조 스펙트럼의 부분을 스피치 템플릿 스펙트럼의 부분으로 대체하도록 하는 코드를 포함하는, 신호 레벨 매칭을 위한 컴퓨터-프로그램 제품.
제 29 항에 있어서,
상기 대체되는 상기 스피치 참조 스펙트럼의 상기 부분은, 상기 신호-대-잡음비가 상기 제 1 임계치 미만인 하나 이상의 대역들을 포함하는, 신호 레벨 매칭을 위한 컴퓨터-프로그램 제품.
제 29 항에 있어서,
상기 스피치 템플릿 스펙트럼은, 코드북에 기초하는, 신호 레벨 매칭을 위한 컴퓨터-프로그램 제품.
제 29 항에 있어서,
상기 스피치 템플릿 스펙트럼은, 상기 신호-대-잡음비가 상기 제 1 임계치보다 큰 상기 입력 스펙트럼의 상기 대역들의 내삽에 기초하는, 신호 레벨 매칭을 위한 컴퓨터-프로그램 제품.
제 29 항에 있어서,
상기 스피치 참조 스펙트럼은, 상기 입력 스펙트럼에 기초하는, 신호 레벨 매칭을 위한 컴퓨터-프로그램 제품.
제 28 항에 있어서,
상기 목표 스펙트럼을 조합하는 것은, 고조파 합성 발생을 포함하는, 신호 레벨 매칭을 위한 컴퓨터-프로그램 제품.
제 27 항에 있어서,
상기 전자 디바이스로 하여금, 상기 엔벨로프를 상기 잡음-억제된 신호에 인가하도록 하는 코드는, 상기 전자 디바이스로 하여금, 잡음-억제된 신호 레벨이 대략 오디오 신호 레벨과 매칭하도록, 상기 잡음-억제된 신호의 이득을 조정하도록 하는 코드를 포함하는, 신호 레벨 매칭을 위한 컴퓨터-프로그램 제품.
제 28 항에 있어서,
상기 전자 디바이스로 하여금, 차이 신호를 결정하도록 하는 코드는, 상기 전자 디바이스로 하여금, 스피치 신호에 대응하는 상기 입력 스펙트럼의 부분들을 결정하도록 하는 코드를 포함하는, 신호 레벨 매칭을 위한 컴퓨터-프로그램 제품.
제 28 항에 있어서,
상기 목표 스펙트럼은 이득 차이들 및 피치 추정에 기초하는, 신호 레벨 매칭을 위한 컴퓨터-프로그램 제품.
제 28 항에 있어서,
상기 명령들은,
상기 전자 디바이스로 하여금, 잡음 신호를 수신하도록 하는 코드;
상기 전자 디바이스로 하여금, 필터링된 잡음 신호를 발생하기 위해 상기 잡음 신호를 필터링하도록 하는 코드;
상기 전자 디바이스로 하여금, 상기 필터링된 잡음 신호 및 스피치 신호에 기초하여 제 1 합산 신호를 발생하도록 하는 코드;
상기 전자 디바이스로 하여금, 상기 제 1 합산 신호에 기초하여 변환된 신호를 발생하도록 하는 코드;
상기 전자 디바이스로 하여금, 상기 변환된 신호의 기본 주파수를 발생하도록 하는 코드;
상기 전자 디바이스로 하여금, 보이싱 파라미터 또는 신뢰성 척도를 발생하도록 하는 코드;
상기 전자 디바이스로 하여금, 상기 기본 주파수에 기초하여 하나 이상의 사인파 파라미터들을 추정하도록 하는 코드;
상기 전자 디바이스로 하여금, 상기 하나 이상의 사인파 파라미터들에 기초하여 사인파 신호를 발생하도록 하는 코드;
상기 전자 디바이스로 하여금, 스케일링된 사인파 신호를 발생하기 위해 상기 사인파 신호를 상기 신뢰성 척도 또는 상기 보이싱 파라미터로 곱하도록 하는 코드;
상기 전자 디바이스로 하여금, 제 1 필터링된 신호를 발생하기 위해 상기 스케일링된 사인파 신호를 필터링하도록 하는 코드;
상기 전자 디바이스로 하여금, 제 2 필터링된 신호를 발생하기 위해 상기 변환된 신호를 필터링하도록 하는 코드;
상기 전자 디바이스로 하여금, 제 2 합산 신호를 발생하기 위해 상기 제 1 필터링된 신호와 상기 제 2 필터링된 신호를 합산하도록 하는 코드; 및
상기 전자 디바이스로 하여금, 상기 제 2 합산 신호를 시간 영역으로 변환하도록 하는 코드를 더 포함하는, 신호 레벨 매칭을 위한 컴퓨터-프로그램 제품.
신호 레벨 매칭을 위한 장치로서,
복수의 오디오 신호들을 캡쳐하는 수단;
마이크로폰간 감산에 기초하여, 다수의 고조파들을 포함하는 차이 신호를 결정하는 수단;
상기 차이 신호의 고조파도가 고조파도 임계치를 초과하는지의 여부를 결정하는 수단;
엔벨로프를 결정하기 위해 상기 고조파들을 보존하는 수단; 및
상기 엔벨로프를 잡음-억제된 신호에 인가하는 수단을 포함하는, 신호 레벨 매칭을 위한 장치.
제 39 항에 있어서,
입력 스펙트럼을 하나 이상의 대역들로 세그먼트화하는 수단;
각각의 대역에 대해 신호-대-잡음비를 측정하는 수단;
상기 신호-대-잡음비들이 제 1 임계치 보다 낮은지의 여부를 결정하는 수단;
목표 스펙트럼을 조합하는 수단; 및
상기 목표 스펙트럼에 기초하여 상기 잡음-억제된 신호에서 하나 이상의 대역들의 이득을 조정하는 수단을 더 포함하는, 신호 레벨 매칭을 위한 장치.
제 40 항에 있어서,
상기 목표 스펙트럼을 조합하는 수단은, 스피치 참조 스펙트럼의 부분을 스피치 템플릿 스펙트럼의 부분으로 대체하는 수단을 포함하는, 신호 레벨 매칭을 위한 장치.
제 41 항에 있어서,
상기 대체되는 상기 스피치 참조 스펙트럼의 상기 부분은, 상기 신호-대-잡음비가 상기 제 1 임계치 미만인 하나 이상의 대역들을 포함하는, 신호 레벨 매칭을 위한 장치.
제 41 항에 있어서,
상기 스피치 템플릿 스펙트럼은 코드북에 기초하는, 신호 레벨 매칭을 위한 장치.
제 41 항에 있어서,
상기 스피치 템플릿 스펙트럼은, 상기 신호-대-잡음비가 상기 제 1 임계치보다 큰 상기 입력 스펙트럼의 상기 대역들의 내삽에 기초하는, 신호 레벨 매칭을 위한 장치.
제 41 항에 있어서,
상기 스피치 참조 스펙트럼은 상기 입력 스펙트럼에 기초하는, 신호 레벨 매칭을 위한 장치.
제 40 항에 있어서,
상기 목표 스펙트럼을 조합하는 것은 고조파 합성 발생을 포함하는, 신호 레벨 매칭을 위한 장치.
제 39 항에 있어서,
상기 엔벨로프를 상기 잡음-억제된 신호에 인가하는 수단은, 잡음-억제된 신호 레벨이 대략 오디오 신호 레벨과 매칭하도록 상기 잡음-억제된 신호의 이득을 조정하는 수단을 포함하는, 신호 레벨 매칭을 위한 장치.
제 40 항에 있어서,
상기 차이 신호를 결정하는 것은, 스피치 신호에 대응하는 상기 입력 스펙트럼의 부분들을 결정하는 것을 포함하는, 신호 레벨 매칭을 위한 장치.
제 40 항에 있어서,
상기 목표 스펙트럼은, 이득 차이들 및 피치 추정에 기초하는, 신호 레벨 매칭을 위한 장치.
제 40 항에 있어서,
잡음 신호를 수신하고, 필터링된 잡음 신호를 발생하기 위해 상기 잡음 신호를 필터링하는 수단;
상기 필터링된 잡음 신호 및 스피치 신호에 기초하여 제 1 합산 신호를 발생하는 수단;
상기 제 1 합산 신호에 기초하여 변환된 신호를 발생하는 수단;
상기 변환된 신호의 기본 주파수를 발생하는 수단;
보이싱 파라미터 또는 신뢰성 척도를 발생하는 수단;
상기 기본 주파수에 기초하여 하나 이상의 사인파 파라미터들을 추정하는 수단;
상기 하나 이상의 사인파 파라미터들에 기초하여 사인파 신호를 발생하는 수단;
스케일링된 사인파 신호를 발생하기 위해 상기 사인파 신호를 상기 신뢰성 척도 또는 상기 보이싱 파라미터로 곱하는 수단;
제 1 필터링된 신호를 발생하기 위해 상기 스케일링된 사인파 신호를 필터링하는 수단;
제 2 필터링된 신호를 발생하기 위해 상기 변환된 신호를 필터링하는 수단;
제 2 합산 신호를 발생하기 위해 상기 제 1 필터링된 신호와 상기 제 2 필터링된 신호를 합산하는 수단; 및
상기 제 2 합산 신호를 시간 영역으로 변환하는 수단을 더 포함하는, 신호 레벨 매칭을 위한 장치.
전자 디바이스에 의한 신호 레벨 매칭의 방법으로서,
입력 스펙트럼을 다수의 대역들로 세그먼트화하는 단계;
각각의 대역에서 신호-대-잡음비를 측정하는 단계;
상기 신호-대-잡음비가 제 1 임계치보다 낮은지의 여부를 결정하는 단계;
목표 스펙트럼을 조합하는 단계; 및
상기 목표 스펙트럼에 기초하여 잡음-억제된 신호에서 하나 이상의 대역들의 이득을 조정하는 단계를 포함하는, 전자 디바이스에 의한 신호 레벨 매칭의 방법.
신호 레벨 매칭을 위한 전자 디바이스로서,
입력 스펙트럼을 다수의 대역들로 세그먼트화하는 세그먼트화 회로;
상기 세그먼트화 회로에 커플링되어, 각각의 대역에서 신호-대-잡음비를 측정하는 측정 회로;
상기 측정 회로에 커플링되어, 상기 신호-대-잡음비가 제 1 임계치보다 낮은지의 여부를 결정하는 임계치 회로;
상기 임계치 회로에 커플링되어, 목표 스펙트럼을 조합하는 어셈블리 회로; 및
상기 어셈블리 회로에 커플링되어, 상기 목표 스펙트럼에 기초하여 잡음-억제된 신호에서 각각의 대역의 이득을 조정하는 조정 회로를 포함하는, 신호 레벨 매칭을 위한 전자 디바이스.
명령들을 가지는 비일시적인 유형의 컴퓨터-판독가능 매체를 포함하는 신호 레벨 매칭을 위한 컴퓨터-프로그램 제품으로서, 상기 명령들은,
전자 디바이스로 하여금 입력 스펙트럼을 다수의 대역들로 세그먼트화하도록 하는 코드;
상기 전자 디바이스로 하여금, 각각의 대역에서 신호-대-잡음비를 측정하도록 하는 코드;
상기 전자 디바이스로 하여금, 상기 신호-대-잡음비가 제 1 임계치보다 낮은지의 여부를 결정하도록 하는 코드;
상기 전자 디바이스로 하여금, 목표 스펙트럼을 조합하도록 하는 코드; 및
상기 전자 디바이스로 하여금, 상기 목표 스펙트럼에 기초하여 잡음-억제된 신호에서 각각의 대역의 이득을 조정하도록 하는 코드를 포함하는, 신호 레벨 매칭을 위한 컴퓨터-프로그램 제품.
신호 레벨 매칭을 위한 장치로서,
입력 스펙트럼을 다수의 대역들로 세그먼트화하는 수단;
각각의 대역에서 신호-대-잡음비를 측정하는 수단;
상기 신호-대-잡음비가 제 1 임계치보다 낮은지의 여부를 결정하는 수단;
목표 스펙트럼을 조합하는 수단; 및
상기 목표 스펙트럼에 기초하여 잡음-억제된 신호에서 각각의 대역의 이득을 조정하는 수단을 포함하는, 신호 레벨 매칭을 위한 장치.