KR102272453B1

KR102272453B1 - 음성 신호 전처리 방법 및 장치

Info

Publication number: KR102272453B1
Application number: KR1020140129479A
Authority: KR
Inventors: 이호동
Original assignee: 삼성전자주식회사
Priority date: 2014-09-26
Filing date: 2014-09-26
Publication date: 2021-07-02
Anticipated expiration: 2034-09-26
Also published as: US20160093293A1; KR20160036995A; US9626956B2

Abstract

음성 신호 전처리 방법 및 장치가 개시된다. 일실시예에 따른 음성 신호 전처리 방법은 음성 신호를 구성하는 복수의 프레임들 중에서 음성 인식 범위에 대응하는 적어도 하나는 프레임을 추출하고, 적어도 하나의 프레임에 기초하여 음성 인식 범위에 대한 음성 인식을 보완하는 보완 프레임을 생성하여 복수의 프레임들과 함께 음성 신호로 출력할 수 있다.

Description

음성 신호 전처리 방법 및 장치{METHOD AND DEVICE OF SPEECH SIGNAL PREPROCESSING}

아래 실시예들은 음성 인식을 위한 음성 신호 전처리 방법 및 장치에 관한 것이다.

최근 스마트폰, 테블릿 등과 같은 고사양 장치의 대중화로 음성 인식 기술의 활용도가 점차 증가하고 있다. 이러한 음성 인식 기술은 사용자 등으로부터 입력된 음성 신호를 소정 언어에 대응되는 신호로 인식하는 기술이다. 사용자는 음성 인식 기술을 활용하여 말로 편리하게 사용자 단말을 조작할 수 있다.

하지만, 음성 인식 기술은 아직 그 정확도가 현저히 낮은 상태이다. 음성 인식 기술은 입력된 음성 신호를 일정한 프레임 단위로 나누어 처리한다. 음성 인식 기술은 연속되는 프레임들 중 하나를 경계로 선택하고, 경계로 선택된 프레임을 기준으로 이전 음소와 다음 음소를 구분하여 음성 인식을 수행한다. 여기서, 특정한 프레임은 하나의 음소만을 음성 인식하는데 사용되므로, 해당 프레임에 포함된 다른 음소에 대한 정보는 다음 음소를 음성 인식하는데 사용하지 못하게 되어, 높은 음성 인식의 정확도를 기대하기 어렵다.

본 발명의 일실시예에 따른 음성 신호 전처리 방법은 음성 신호를 구성하는 복수의 프레임들 중에서 음성 인식 범위에 대응하는 적어도 하나의 프레임을 추출하는 단계; 상기 적어도 하나의 프레임에 기초하여, 상기 음성 인식 범위에 대한 음성 인식을 보완하는 보완 프레임을 생성하는 단계; 및 상기 보완 프레임 및 상기 복수의 프레임들로 구성된 음성 신호를 출력하는 단계를 포함할 수 있다.

본 발명의 일실시예에 따른 음성 신호 전처리 방법에서 상기 복수의 프레임들은, 상기 음성 신호를 프레임의 길이보다 짧은 간격으로 나누어 생성되고, 연속되는 프레임들 간에 서로 중복되는 범위를 포함하고, 상기 적어도 하나의 프레임을 추출하는 단계는, 상기 복수의 프레임들 중에서 상기 음성 인식 범위를 나누는 경계 정보를 포함하는 적어도 하나의 프레임을 추출할 수 있다.

본 발명의 일실시예에 따른 음성 신호 전처리 방법에서 상기 보완 프레임을 생성하는 단계는, 상기 적어도 하나의 프레임을 복사함으로써 상기 보완 프레임을 생성할 수 있다.

본 발명의 일실시예에 따른 음성 신호 전처리 방법에서 상기 보완 프레임을 생성하는 단계는, 상기 적어도 하나의 프레임이 재구성된 상기 보완 프레임을 생성할 수 있다.

본 발명의 일실시예에 따른 음성 신호 전처리 방법에서 상기 보완 프레임을 생성하는 단계는, 상기 적어도 하나의 프레임 중에서 상기 음성 인식 범위에 해당하는 부분에 기초하여 재구성된 상기 보완 프레임을 생성할 수 있다.

본 발명의 일실시예에 따른 음성 신호 전처리 방법에서 상기 보완 프레임을 생성하는 단계는, 상기 적어도 하나의 프레임의 시간 정보에 기초한 가중치를 상기 적어도 하나의 프레임에 적용하여 상기 보완 프레임을 생성할 수 있다.

본 발명의 일실시예에 따른 음성 신호 전처리 방법에서 상기 보완 프레임을 생성하는 단계는, 상기 적어도 하나의 프레임의 손실 범위에 기초하여, 상기 추출된 적어도 하나의 프레임을 복사함으로써 상기 보완 프레임을 생성하거나 또는 상기 추출된 적어도 하나의 프레임이 재구성된 상기 보완 프레임을 생성할 수 있다.

본 발명의 일실시예에 따른 음성 신호 전처리 방법에서 상기 적어도 하나의 프레임의 손실 범위는, 상기 적어도 하나의 프레임에서 상기 음성 인식 범위를 제외한 나머지 범위에 해당할 수 있다.

본 발명의 일실시예에 따른 음성 신호 전처리 방법에서 상기 음성 신호를 출력하는 단계는, 상기 보완 프레임의 시간 정보에 기초하여 상기 보완 프레임이 상기 복수의 프레임들 사이에 배치된 음성 신호를 출력할 수 있다.

본 발명의 일실시예에 따른 음성 신호 전처리 방법에서 상기 음성 인식 범위는, 상기 음성 신호에 포함된 음소, 음절 및 어휘 중 어느 하나의 단위에 기초하여 결정될 수 있다.

본 발명의 일실시예에 따른 음성 신호 전처리 장치는 음성 신호를 입력받는 입력부; 상기 음성 신호를 전처리하는 프로세서; 및 전처리된 음성 신호를 출력하는 출력부를 포함하고, 상기 프로세서는, 음성 신호를 구성하는 복수의 프레임들 중에서 음성 인식 범위에 대응하는 적어도 하나의 프레임을 추출하는 단계, 상기 적어도 하나의 프레임에 기초하여, 상기 음성 인식 범위에 대한 음성 인식을 보완하는 보완 프레임을 생성하는 단계, 상기 출력부를 통해 상기 보완 프레임 및 상기 복수의 프레임들로 구성된 음성 신호를 출력하는 단계를 수행할 수 있다.

도 1은 일실시예에 따른 음성 신호 전처리 장치의 세부 구성을 나타낸 도면이다.
도 2는 일실시예에 따라 음성 신호를 구성하는 복수의 프레임들 중에서 음성 인식 범위에 대응하는 적어도 하나의 프레임을 추출하는 예시를 나타낸 도면이다.
도 3 및 도 4는 일실시예에 따라 적어도 하나의 프레임을 복사하여 보완 프레임을 생성하는 예시를 나타낸 도면이다.
도 5 및 도 6은 일실시예에 따라 적어도 하나의 프레임이 재구성된 보완 프레임을 생성하는 예시를 나타낸 도면이다.
도 7은 일실시예에 따라 적어도 하나의 프레임의 손실 범위에 기초하여 보완 프레임을 생성하는 예시를 나타낸 도면이다.
도 8은 일실시예에 따른 음성 신호 전처리 방법을 나타낸 도면이다.
도 9는 다른 일실시예에 따른 음성 신호 전처리 장치의 세부 구성을 나타낸 도면이다.
도 10은 다른 일실시예에 따른 음성 신호 전처리 방법을 나타낸 도면이다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 하기에서 설명될 실시예들은 음성 신호를 처리하는 기법과 연속된 입력 신호의 인식 또는 분류를 위한 다양한 기계 학습 기법에 적용될 수 있다.

도 1은 일실시예에 따른 음성 신호 전처리 장치의 세부 구성을 나타낸 도면이다.

일실시예에 따른 음성 신호 전처리 장치(100)는 입력부(110), 프로세서(120), 출력부(130)를 포함한다.

입력부(110)는 음성 신호를 입력 받는다. 여기서, 음성 신호는 오디오 신호를 포함하는 것으로서, 예를 들어, 사람의 목소리를 포함할 수 있다. 음성 신호는 복수의 프레임들로 구성될 수 있다. 복수의 프레임들은 음성 신호를 프레임의 길이보다 짧은 간격으로 나눔으로써 생성될 수 있다. 그래서, 복수의 프레임들은 연속되는 프레임들 간에 서로 중복되는 범위를 포함할 수 있다. 복수의 프레임들은 시간 순서대로 배열될 수 있다.

프로세서(120)는 음성 신호를 전처리한다. 프로세서(120)는 입력된 음성 신호를 구성하는 복수의 프레임들 중에서 음성 인식 범위에 대응하는 적어도 하나의 프레임을 추출한다. 프로세서(120)는 추출된 적어도 하나의 프레임에 기초하여 음성 인식 범위에 대한 음성 인식을 보완하는 보완 프레임을 생성한다. 프로세서(120)는 생성된 보완 프레임 및 복수의 프레임들을 이용하여 음성 신호를 구성한다. 프로세서(120)는 출력부(130)를 통해 음성 신호를 출력한다.

음성 인식은 입력된 음성 신호를 일정한 범위들로 나누어 수행될 수 있다. 여기서, 일정한 범위들은 음성 신호에 포함된 음소, 음절 및 어휘 중 어느 하나의 단위에 기초하여 결정될 수 있다. 예를 들어, 음성 인식을 음소 단위에 기초하여 수행하는 경우, 프로세서(120)는 입력된 음성 신호를 음소 단위로 나누고, 나누어진 일정한 범위들마다 음성 인식을 수행할 수 있다. 이하, 설명의 편의를 위하여 일정한 범위들을 음성 인식 범위라고 지칭하고, 음성 인식은 음소 단위로 수행되는 것으로 가정한다.

음성 인식 범위는 시작 경계 정보와 끝 경계 정보에 기초하여 구분된다. 예를 들어, 경계 정보는 가우시안 혼합 모델(Gaussian mixture Model)과 같은 정렬 알고리즘(alignment algorithm)에 기초하여 예측될 수 있다. 경계 정보는 음성 인식 범위를 나누는 시간 정보를 포함할 수 있다.

프로세서(120)는 복수의 프레임들 중에서 음성 인식 범위를 나누는 경계 정보를 포함하는 적어도 하나의 프레임을 추출할 수 있다. 다시 말해, 프로세서(120)는 경계 정보의 시간 정보에 해당되는 적어도 하나의 프레임을 추출할 수 있다.

보완 프레임은 음성 인식 범위에 대한 음성 인식을 보완하는 프레임이다. 보완 프레임은 추출된 적어도 하나의 프레임에 기초하여 생성될 수 있다. 일례로, 프로세서(120)는 적어도 하나의 프레임을 복사함으로써 보완 프레임을 생성할 수 있다. 다른 일례로, 프로세서(120)는 적어도 하나의 프레임이 재구성된 보완 프레임을 생성할 수 있다. 또 다른 일례로, 프로세서(120)는 적어도 하나의 프레임의 손실 범위에 기초하여 적어도 하나의 프레임을 복사함으로써 보완 프레임을 생성하거나 적어도 하나의 프레임이 재구성된 보완 프레임을 생성할 수 있다.

프로세서(120)는 보완 프레임의 시간 정보에 기초하여 보완 프레임이 복수의 프레임들 사이에 배치된 음성 신호를 구성할 수 있다. 프로세서(120)는 보완 프레임을 복수의 프레임들 사이에 시간 순서대로 배치하여 음성 신호를 구성할 수 있다.

출력부(130)는 전처리된 음성 신호를 출력한다. 출력부(130)는 보완 프레임 및 복수의 프레임들로 구성된 음성 신호를 출력한다. 출력된 음성 신호는 인식되어 텍스트로 변환될 수 있다.

도 2는 일실시예에 따라 음성 신호를 구성하는 복수의 프레임들 중에서 음성 인식 범위에 대응하는 적어도 하나의 프레임을 추출하는 예시를 나타낸 도면이다.

도 2를 참고하면, 음성 신호는 복수의 음소들을 포함할 수 있다. 예를 들어, 음성 신호는 음소 a, 음소 b 및 음소 c를 포함할 수 있다. 경계 정보(210)는 음소 a와 음소 b를 나누는 정보이고, 경계 정보(220)는 음소 b와 음소 c를 나누는 정보일 수 있다. 여기서, 경계 정보(210) 및 경계 정보(220)는 음성 신호에서의 특정한 시간을 나타내는 정보를 의미한다. 이하, 설명의 편의를 위해 음소 a와 음소 b를 나누는 경계 정보(210)를 기준으로 설명하기로 한다.

도 2를 참고하면, 음성 신호는 복수의 프레임들(프레임 1~프레임 6)로 구성될 수 있다. 복수의 프레임들은 프레임의 길이보다 짧은 간격으로 나누어질 수 있다. 그래서, 복수의 프레임들은 연속되는 프레임들 간에 서로 중복되는 범위를 포함할 수 있다. 이에 따라, 도 2에 도시된 바와 같이, 복수의 프레임들은 서로 겹쳐지는 부분들을 포함할 수 있다.

도 2에서, 음성 신호 전처리 장치는 경계 정보(210)를 포함하는 적어도 하나의 프레임으로서 프레임 2~프레임 4를 추출할 수 있다. 음성 신호 전처리 장치는 추출된 프레임 2~프레임 4에 기초하여 보완 프레임을 생성할 수 있다.

여기서, 음성 신호 전처리 장치는 추출된 프레임 2~프레임 4의 전부 또는 일부에 기초하여 보완 프레임을 생성할 수 있다. 일례로, 음성 신호 전처리 장치는 프레임 2~프레임 4 전체를 기초로 보완 프레임을 생성할 수 있다. 다른 일례로, 음성 신호 전처리 장치는 프레임 3 및 프레임 4을 기초로 보완 프레임을 생성할 수 있다. 또 다른 일례로, 음성 신호 전처리 장치는 프레임 4만을 기초로 보완 프레임을 생성할 수 있다.

도 2는 보완 프레임이 생성되기 전의 음성 신호를 나타낸다. 따라서, 음소 a는 프레임 1~프레임 4을 이용하여 음성 인식되고, 음소 b는 프레임 5와 프레임 6을 이용하여 음성 인식될 수 있다.

도 3 및 도 4는 일실시예에 따라 적어도 하나의 프레임을 복사하여 보완 프레임을 생성하는 예시를 나타낸 도면이다.

도 3을 참고하면, 음성 신호 전처리 장치는 적어도 하나의 프레임인 프레임 2~프레임 4 중에서 마지막 프레임인 프레임 4만을 복사함으로써 보완 프레임 4'를 생성할 수 있다. 생성된 보완 프레임 4'는 프레임 4을 복사함으로써 생성되었으므로, 프레임 4에 포함된 특징 벡터를 동일하게 포함할 수 있다. 음성 신호 전처리 장치는 생성된 보완 프레임 4'를 복수의 프레임들 사이에 시간 순서대로 배치할 수 있다. 따라서, 보완 프레임 4'는 프레임 4와 프레임 5 사이에 배치될 수 있다. 음성 신호 전처리 장치는 보완 프레임 4' 및 복수의 프레임들(프레임 1~프레임 6)로 구성된 음성 신호를 출력할 수 있다.

따라서, 음소 a는 프레임 1~프레임 4을 이용하여 음성 인식되고, 음소 b는 보완 프레임 4'와 프레임 5~프레임 6을 이용하여 음성 인식될 수 있다.

도 4를 참고하면, 음성 신호 전처리 장치는 적어도 하나의 프레임인 프레임 2~프레임 4 전부를 복사함으로써 보완 프레임 2'~보완 프레임 4'를 생성할 수 있다. 음성 신호 전처리 장치는 보완 프레임 2'~보완 프레임 4'를 복수의 프레임들 사이에 시간 순서대로 배치할 수 있다. 따라서, 프레임들의 배치 순서는 프레임 1~프레임 4, 보완 프레임 2'~보완 프레임 4', 프레임 5~프레임 6이 될 수 있다. 음성 신호 전처리 장치는 보완 프레임 2'~보완 프레임 4' 및 복수의 프레임들(프레임 1~프레임 6)로 구성된 음성 신호를 출력할 수 있다.

따라서, 음소 a는 프레임 1~프레임 4을 이용하여 음성 인식되고, 음소 b는 보완 프레임 2'~보완 프레임 4' 및 프레임 5~프레임 6을 이용하여 음성 인식될 수 있다.

도 5 및 도 6은 일실시예에 따라 적어도 하나의 프레임이 재구성된 보완 프레임을 생성하는 예시를 나타낸 도면이다.

도 5를 참고하면, 음성 신호 장치는 적어도 하나의 프레임인 프레임 2~프레임 4 중에서 마지막 프레임인 프레임 4만이 재구성된 보완 프레임 4'를 생성할 수 있다. 음성 신호 장치는 프레임 4 중에서도 음성 인식 범위에 해당하는 부분에 기초하여 재구성된 보완 프레임 4'을 생성할 수 있다. 다시 말해, 보완 프레임 4'는 프레임 4 중에서 음소 a에 해당하는 부분을 제외하고 음소 b에 해당하는 부분에 기초하여 생성될 수 있다. 그래서, 보완 프레임 4'는 음소 b에 해당하는 특징 벡터만을 포함하며, 기존에 존재하던 프레임들과 다른 새로운 프레임일 수 있다.

음성 신호 전처리 장치는 생성된 보완 프레임 4'를 복수의 프레임들 사이에 시간 순서대로 배치할 수 있다. 이 때, 음성 신호 전처리 장치는 각 프레임의 시작 시간 정보에 기초하여 보완 프레임 4'을 복수의 프레임들(프레임 1~프레임 6) 사이에 배치할 수 있다. 따라서, 보완 프레임 4'는 프레임 4와 프레임 5 사이에 배치될 수 있다. 음성 신호 전처리 장치는 보완 프레임 4' 및 복수의 프레임들(프레임 1~프레임 6)로 구성된 음성 신호를 출력할 수 있다.

따라서, 음소 a는 프레임 1~프레임 4을 이용하여 음성 인식되고, 음소 b는 보완 프레임 4' 및 프레임 5~프레임 6을 이용하여 음성 인식될 수 있다.

도 6을 참고하면, 음성 신호 장치는 적어도 하나의 프레임인 프레임 2~프레임 4 전부가 재구성된 보완 프레임 4'를 생성할 수 있다. 그래서, 보완 프레임 4'는 다른 프레임들보다 프레임의 길이가 긴 프레임일 수 있다. 보완 프레임 4'는 프레임 2~프레임 4의 특징 벡터를 포함할 수 있다.

음성 신호 전처리 장치는 생성된 보완 프레임 4'를 복수의 프레임들 사이에 시간 순서대로 배치할 수 있다. 이 때, 음성 신호 전처리 장치는 각 프레임의 끝 시간 정보에 기초하여 보완 프레임 4'을 복수의 프레임들(프레임 1~프레임 6) 사이에 배치할 수 있다. 따라서, 보완 프레임 4'는 프레임 4와 프레임 5 사이에 배치될 수 있다. 음성 신호 전처리 장치는 보완 프레임 4' 및 복수의 프레임들(프레임 1~프레임 6)로 구성된 음성 신호를 출력할 수 있다.

음성 신호 전처리 장치는 적어도 하나의 프레임에 가중치를 적용하여 보완 프레임을 생성할 수 있다. 음성 신호 전처리 장치는 적어도 하나의 프레임의 시간 정보에 기초한 가중치를 적어도 하나의 프레임에 적용하여 보완 프레임을 생성할 수 있다. 예를 들어, 도 4를 참고하여 프레임 2와 프레임 3을 비교하면, 프레임 2의 시작 시간 정보와 경계 정보 간의 차이는 프레임 3의 시작 시간 정보와 경계 정보 간의 차이보다 크다. 이에 따라, 음성 신호 전처리 장치는 프레임 3보다 작은 가중치를 프레임 2에 적용하여 보완 프레임 4'를 생성할 수 있다. 동일한 원리로, 음성 신호 전처리 장치는 프레임 3보다 큰 가중치를 프레임 4에 적용하여 보완 프레임 4'를 생성할 수 있다.

예를 들어, 음성 신호 전처리 장치는 적어도 하나의 프레임의 시간 정보와 경계 정보 간의 간격에 반비례하는 가중치를 적어도 하나의 프레임에 적용할 수 있다. 적어도 하나의 프레임의 시간 정보와 경계 정보 간의 간격이 증가하면 손실 정보가 그만큼 크다는 것을 의미한다. 음성 신호 전처리 장치는 적어도 하나의 프레임의 시간 정보와 경계 정보 간의 간격이 증가할수록 더 작은 가중치를 적어도 하나의 프레임에 적용할 수 있다.

음성 신호 전처리 장치는 적어도 하나의 프레임의 손실 범위에 기초한 가중치를 적어도 하나의 프레임에 적용하여 보완 프레임을 생성할 수 있다. 이에 따라, 음성 신호 전처리 장치는 프레임 2, 프레임 3, 프레임 4의 순서대로 증가하는 가중치를 적용하여 보완 프레임을 생성할 수 있다. 적어도 하나의 프레임의 손실 범위에 관해서는 도 7을 참조하여 후술한다.

도 7은 일실시예에 따라 적어도 하나의 프레임의 손실 범위에 기초하여 보완 프레임을 생성하는 예시를 나타낸 도면이다.

손실 범위는 음성 인식 범위에 대해 음성 인식을 수행 시 활용하지 못하는 범위를 의미한다. 손실 범위는 적어도 하나의 프레임에서 음성 인식 범위를 제외한 나머지 범위에 해당할 수 있다. 손실 범위는 프레임의 시작 시간 정보와 음성 인식 범위를 나누는 경계 정보에 기초하여 정의된다.

도 7에서, 프레임 1은 손실 범위(710)를 포함하고, 프레임 2는 손실 범위(720)를 포함한다. 음성 신호 전처리 장치는 적어도 하나의 프레임의 손실 범위에 기초하여 적응적으로 보완 프레임을 생성할 수 있다. 음성 신호 전처리 장치는 적어도 하나의 프레임의 손실 범위에 기초하여, 적어도 하나의 프레임을 복사함으로써 보완 프레임을 생성하거나 적어도 하나의 프레임이 재구성된 보완 프레임을 생성할 수 있다.

적어도 하나의 프레임의 손실 범위가 프레임의 절반을 넘는 경우, 음성 신호 전처리 장치는 적어도 하나의 프레임이 재구성된 보완 프레임을 생성할 수 있다. 예를 들어, 도 7의 프레임 1은 손실 범위가 프레임의 절반을 넘는다. 이 때, 음성 신호 전처리 장치는 프레임 1이 재구성된 보완 프레임 1'을 생성할 수 있다. 음성 신호 전처리 장치는 적어도 하나의 프레임 중에서 음성 인식 범위에 해당하는 부분에 기초하여 보완 프레임을 생성할 수 있다.

적어도 하나의 프레임의 손실 범위가 프레임의 절반을 넘지 않는 경우, 음성 신호 전처리 장치는 적어도 하나의 프레임을 복사함으로써 보완 프레임을 생성할 수 있다. 예를 들어, 도 7의 프레임 2는 손실 범위가 프레임의 절반을 넘지 않는다. 이 때, 음성 신호 전처리 장치는 프레임 2를 복사함으로써 보완 프레임 2'를 생성할 수 있다.

도 3 내지 도 7에서 보완 프레임은 빗금이 있는 프레임으로 표시될 수 있다.

도 8은 일실시예에 따른 음성 신호 전처리 방법을 나타낸 도면이다.

일실시예에 따른 음성 신호 전처리 방법은 음성 신호 전처리 장치에 구비된 프로세서에 의해 수행될 수 있다.

단계(810)에서, 음성 신호 전처리 장치는 음성 신호를 구성하는 복수의 프레임들 중에서 음성 인식 범위에 대응하는 적어도 하나의 프레임을 추출한다. 여기서, 복수의 프레임들은 음성 신호를 프레임의 길이보다 짧은 간격으로 나누어 생성되고, 연속되는 프레임들 간에 서로 중복되는 범위를 포함할 수 있다. 음성 신호 전처리 장치는 복수의 프레임들 중에서 음성 인식 범위를 나누는 경계 정보를 포함하는 적어도 하나의 프레임을 추출할 수 있다.

경계 정보는 가우시안 혼합 모델과 같은 정렬 알고리즘에 기초하여 예측될 수 있다. 경계 정보는 음성 인식 범위를 나누는 시간 정보를 포함할 수 있다.

단계(820)에서, 음성 신호 전처리 장치는 적어도 하나의 프레임에 기초하여, 음성 인식 범위에 대한 음성 인식을 보완하는 보완 프레임을 생성한다. 음성 신호 전처리 장치는 적어도 하나의 프레임을 복사함으로써 보완 프레임을 생성할 수 있다.

음성 신호 전처리 장치는 적어도 하나의 프레임이 재구성된 보완 프레임을 생성할 수 있다. 일례로, 음성 신호 전처리 장치는 적어도 하나의 프레임 중에서 음성 인식 범위에 해당하는 부분이 재구성된 보완 프레임을 생성할 수 있다. 다른 일례로, 음성 신호 전처리 장치는 적어도 하나의 프레임의 시간 정보에 기초한 가중치를 적어도 하나의 프레임에 적용하여 보완 프레임을 생성할 수 있다.

음성 신호 전처리 장치는 적어도 하나의 프레임의 손실 범위에 기초하여 적응적으로 보완 프레임을 생성할 수 있다. 음성 신호 전처리 장치는 적어도 하나의 프레임의 손실 범위에 기초하여 결정된 방법에 따라 보완 프레임을 생성할 수 있다. 예를 들어, 적어도 하나의 프레임의 손실 범위가 프레임의 절반을 넘는 경우, 음성 신호 전처리 장치는 적어도 하나의 프레임이 재구성된 보완 프레임을 생성할 수 있다. 적어도 하나의 프레임의 손실 범위가 프레임의 절반을 넘지 않는 경우, 음성 신호 전처리 장치는 적어도 하나의 프레임을 복사함으로써 보완 프레임을 생성할 수 있다.

단계(130)에서, 음성 신호 전처리 장치는 보완 프레임 및 복수의 프레임들로 구성된 음성 신호를 출력한다. 음성 신호 전처리 장치는 보완 프레임의 시간 정보에 기초하여 보완 프레임이 복수의 프레임들 사이에 배치된 음성 신호를 출력할 수 있다.

도 9는 다른 일실시예에 따른 음성 신호 전처리 장치의 세부 구성을 나타낸 도면이다.

다른 일실시예에 따른 음성 신호 전처리 장치(900)는 특징 벡터 추출부(910), 프레임 추출부(920), 타겟 프레임 결정부(930) 및 보완 프레임 생성부(940)를 포함할 수 있다.

특징 벡터 추출부(910)는 입력된 음성 신호로부터 특징 벡터를 추출하여 복수의 프레임들을 생성한다. 특징 벡터 추출부(910)는 음성 신호로부터 MFCC(Mel Frequency Cepstral Coefficient) 또는 Filterbank와 같은 형태의 특징 벡터를 추출할 수 있다. 특징 벡터 추출부(910)는 특징 벡터를 추출하여 음성 신호를 복수의 프레임들로 나눌 수 있다. 여기서, 복수의 프레임들은 프레임의 길이보다 짧은 간격으로 음성 신호를 나누어 생성되고, 연속되는 프레임들 간에 서로 중복되는 범위를 포함할 수 있다.

프레임 추출부(920)는 음성 신호를 구성하는 복수의 프레임들 중에서 음성 인식 범위에 대응하는 적어도 하나의 프레임을 추출한다. 프레임 추출부(920)는 복수의 프레임들 중에서 음성 인식 범위를 나누는 경계 정보를 포함하는 적어도 하나의 프레임을 추출할 수 있다.

일례로, 프레임 추출부(920)는 음소 단위로 결정된 음성 인식 범위에 대응하는 적어도 하나의 프레임을 추출할 수 있다. 다른 일례로, 프레임 추출부(920)는 음절 단위로 결정된 음성 인식 범위에 대응하는 적어도 하나의 프레임을 추출할 수 있다. 또 다른 일례로, 프레임 추출부(920)는 어휘 단위로 결정된 음성 인식 범위에 대응하는 적어도 하나의 프레임을 추출할 수 있다.

타겟 프레임 결정부(930)는 적어도 하나의 프레임 중에서 타겟 프레임을 결정한다. 타겟 프레임은 보완 프레임을 생성함에 있어 기초가 되는 프레임으로서, 예를 들어 도 2 내지 도 7에서 흑색 프레임으로 표시할 수 있다.

일례로, 타겟 프레임 결정부(930)는 적어도 하나의 프레임 중에서 마지막 프레임을 타겟 프레임으로 결정할 수 있다. 또는, 타겟 프레임 결정부(930)는 적어도 하나의 프레임 중에서 첫 번째 프레임을 타겟 프레임으로 결정할 수 있다. 다른 일례로, 타겟 프레임 결정부(930)는 적어도 하나의 프레임의 전부 또는 일부를 타겟 프레임으로 결정할 수 있다.

보완 프레임 생성부(940)는 결정된 타겟 프레임에 기초하여 음성 인식 범위에 대한 음성 인식을 보완하는 보완 프레임을 생성한다. 보완 프레임 생성부(940)는 타겟 프레임을 복사함으로써 보완 프레임을 생성할 수 있다.

보완 프레임 생성부(940)는 타겟 프레임이 재구성된 보완 프레임을 생성할 수 있다. 예를 들어, 보완 프레임 생성부(940)는 타겟 프레임 중에서 음성 인식 범위에 해당하는 부분에 기초하여 재구성된 보완 프레임을 생성할 수 있다. 보완 프레임 생성부(940)는 타겟 프레임의 시간 정보에 기초한 가중치를 타겟 프레임에 적용하여 보완 프레임을 생성할 수 있다.

보완 프레임 생성부(940)는 타겟 프레임의 손실 범위에 기초하여 결정된 방법을 통해 적응적으로 보완 프레임을 생성할 수 있다. 보완 프레임 생성부(940)는 타겟 프레임의 손실 범위에 기초하여, 타겟 프레임을 복사함으로써 보완 프레임을 생성하거나 또는 타겟 프레임이 재구성된 보완 프레임을 생성할 수 있다.

예를 들어, 타겟 프레임의 손실 범위가 프레임의 절반을 넘는 경우, 보완 프레임 생성부(940)는 타겟 프레임이 재구성된 보완 프레임을 생성할 수 있다. 타겟 프레임의 손실 범위가 프레임의 절반을 넘지 않는 경우, 보완 프레임 생성부(940)는 타겟 프레임을 복사함으로써 보완 프레임을 생성할 수 있다.

손실 범위는 적어도 하나의 프레임에서 음성 인식 범위를 제외한 나머지 범위에 해당할 수 있다. 다시 말해, 손실 범위는 음성 인식 범위에 대해 음성 인식을 수행 시 이용되지 못하는 범위를 의미한다.

보완 프레임 생성부(940)는 생성된 보완 프레임 및 복수의 프레임들로 구성된 음성 신호를 출력한다. 보완 프레임 생성부(940)는 보완 프레임을 복수의 프레임들 사이에 시간 순서대로 배치하여 음성 신호를 출력할 수 있다.

도 10은 다른 일실시예에 따른 음성 신호 전처리 방법을 나타낸 도면이다.

다른 일실시예에 따른 음성 신호 전처리 방법은 음성 신호 전처리 장치에 구비된 프로세서에 의해 수행될 수 있다.

단계(1000)에서, 음성 신호 전처리 장치는 입력된 음성 신호로부터 특징 벡터를 추출할 수 있다. 음성 신호 전처리 장치는 음성 신호로부터 MFCC 또는 Filterbank와 같은 형태의 특징 벡터를 추출할 수 있다. 음성 신호 전처리 장치는 특징 벡터를 추출하여 음성 신호를 복수의 프레임들로 나눌 수 있다. 여기서, 복수의 프레임들은 프레임의 길이보다 짧은 간격으로 음성 신호를 나누어 생성되고, 연속되는 프레임들 간에 서로 중복되는 범위를 포함할 수 있다.

단계(1010)에서, 음성 신호 전처리 장치는 음성 신호를 구성하는 복수의 프레임들 중에서 음성 인식 범위에 대응하는 적어도 하나의 프레임을 추출할 수 있다. 음성 신호 전처리 장치는 복수의 프레임들 중에서 음성 인식 범위를 나누는 경계 정보를 포함하는 적어도 하나의 프레임을 추출할 수 있다.

예를 들어, 음성 신호 전처리 장치는 음성 신호에 포함된 음소, 음절 및 어휘 중 어느 하나의 단위에 기초하여 음성 인식 범위를 결정할 수 있다. 음성 신호 전처리 장치는 결정된 음성 인식 범위를 나누는 경계 정보에 기초하여 적어도 하나의 프레임을 추출할 수 있다.

단계(1020)에서, 음성 신호 전처리 장치는 음성 인식 범위에 대응하는 적어도 하나의 프레임이 존재하는지 여부를 판단할 수 있다. 예를 들어, 음성 신호 전처리 장치는 시간 순서대로 복수의 프레임들을 로딩하면서 음성 인식 범위에 대응하는 적어도 하나의 프레임이 존재하는지 여부를 판단할 수 있다. 만약 음성 인식 범위에 대응하는 적어도 하나의 프레임이 존재하지 않는 경우, 음성 신호 전처리 장치는 다시 음성 신호로부터 특징 벡터를 추출할 수 있다.

단계(1030)에서, 음성 인식 범위에 대응하는 적어도 하나의 프레임이 존재하는 경우, 음성 신호 전처리 장치는 적어도 하나의 프레임 중에서 타겟 프레임을 결정할 수 있다. 타겟 프레임은 보완 프레임을 생성함에 있어 기초가 되는 프레임이다.

일례로, 음성 신호 전처리 장치는 적어도 하나의 프레임 중에서 마지막 프레임 또는 첫 번째 프레임을 타겟 프레임으로 결정할 수 있다. 또는, 음성 신호 전처리 장치는 적어도 하나의 프레임의 전부 또는 일부를 타겟 프레임으로 결정할 수 있다.

단계(1040)에서, 음성 신호 전처리 장치는 타겟 프레임을 복사할지 여부를 결정할 수 있다. 음성 신호 전처리 장치는 타겟 프레임을 이용하여 보완 프레임을 생성하는 방법을 결정할 수 있다.

음성 신호 전처리 장치는 타겟 프레임의 손실 범위에 기초하여 보완 프레임을 생성하는 방법을 결정할 수 있다. 예를 들어, 타겟 프레임의 손실 범위가 프레임의 절반을 넘는 경우, 음성 신호 전처리 장치는 타겟 프레임을 재구성하는 방법을 보완 프레임을 생성하는 방법으로 결정할 수 있다. 타겟 프레임의 손실 범위가 프레임의 절반을 넘지 않는 경우, 음성 신호 전처리 장치는 타겟 프레임을 복사하는 방법을 보완 프레임을 생성하는 방법으로 결정할 수 있다.

단계(1050)에서, 음성 신호 전처리 장치는 타겟 프레임을 복사하여 보완 프레임을 생성할 수 있다.

단계(1051)에서, 음성 신호 전처리 장치는 타겟 프레임이 재구성된 보완 프레임을 생성할 수 있다. 일례로, 음성 신호 전처리 장치는 타겟 프레임 중에서 음성 인식 범위에 해당하는 부분에 기초하여 재구성된 보완 프레임을 생성할 수 있다. 다른 일례로, 음성 신호 전처리 장치는 타겟 프레임의 시간 정보에 기초한 가중치를 타겟 프레임에 적용하여 보완 프레임을 생성할 수 있다.

단계(1060)에서, 음성 신호 전처리 장치는 보완 프레임의 시간 정보에 기초하여 보완 프레임을 복수의 프레임들 사이에 배치할 수 있다. 음성 신호 전처리 장치는 보완 프레임을 복수의 프레임들 사이에 시간 순서대로 배치할 수 있다.

단계(1070)에서, 음성 신호 전처리 장치는 보완 프레임 및 복수의 프레임들로 구성된 음성 신호를 출력할 수 있다. 음성 신호 전처리 장치는 보완 프레임이 복수의 프레임들 사이에 시간 순서대로 배치된 음성 신호를 출력할 수 있다.

실시예들은 음성 인식 범위에 대한 음성 인식을 보완하는 보완 프레임을 생성하여 복수의 프레임들 사이에 추가함으로써, 해당 음성 인식 범위에 대한 음성 인식이 정확하게 수행될 수 있다.

실시예들은 음성 인식 범위를 나누는 경계 정보를 포함하는 적어도 하나의 프레임을 추출하고, 추출된 적어도 하나의 프레임에 기초하여 보완 프레임을 생성함으로써, 불필요한 프레임들이 추가되는 것을 방지하고 효과적으로 음성 인식의 정확도를 높일 수 있다.

실시예들은 추출된 적어도 하나의 프레임의 손실 범위에 기초하여 적응적으로 결정된 방법을 통해 보완 프레임을 생성함으로써, 전처리된 음성 신호의 크기가 불필요하게 증가하는 것을 방지할 수 있다.

실시예들은 추출된 적어도 하나의 프레임의 시간 정보에 기초한 가중치를 적어도 하나의 프레임에 적용하여 보완 프레임을 생성함으로써, 효과적으로 음성 인식의 정확도를 높일 수 있다.

실시예들은 음소뿐만 아니라 음절, 어휘 중 어느 하나의 단위에 기초하여 음성 인식 범위를 결정함으로써, 다양한 음성 신호에 대해 전처리를 수행할 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

음성 신호를 구성하는 복수의 프레임들 중에서 음성 인식 범위에 대응하는 적어도 하나의 프레임을 추출하는 단계;
상기 적어도 하나의 프레임에 기초하여, 상기 음성 인식 범위에 대한 음성 인식을 보완하는 보완 프레임을 생성하는 단계; 및
상기 보완 프레임 및 상기 복수의 프레임들로 구성된 음성 신호를 출력하는 단계
를 포함하는 음성 신호 전처리 방법.
제1항에 있어서,
상기 복수의 프레임들은,
상기 음성 신호를 프레임의 길이보다 짧은 간격으로 나누어 생성되고, 연속되는 프레임들 간에 서로 중복되는 범위를 포함하고,
상기 적어도 하나의 프레임을 추출하는 단계는,
상기 복수의 프레임들 중에서 상기 음성 인식 범위를 나누는 경계 정보를 포함하는 적어도 하나의 프레임을 추출하는, 음성 신호 전처리 방법.
제1항에 있어서,
상기 보완 프레임을 생성하는 단계는,
상기 적어도 하나의 프레임을 복사함으로써 상기 보완 프레임을 생성하는, 음성 신호 전처리 방법.
제1항에 있어서,
상기 보완 프레임을 생성하는 단계는,
상기 적어도 하나의 프레임이 재구성된 상기 보완 프레임을 생성하는, 음성 신호 전처리 방법.
제4항에 있어서,
상기 보완 프레임을 생성하는 단계는,
상기 적어도 하나의 프레임 중에서 상기 음성 인식 범위에 해당하는 부분에 기초하여 재구성된 상기 보완 프레임을 생성하는, 음성 신호 전처리 방법.
제4항에 있어서,
상기 보완 프레임을 생성하는 단계는,
상기 적어도 하나의 프레임의 시간 정보에 기초한 가중치를 상기 적어도 하나의 프레임에 적용하여 상기 보완 프레임을 생성하는, 음성 신호 전처리 방법.
제1항에 있어서,
상기 보완 프레임을 생성하는 단계는,
상기 적어도 하나의 프레임의 손실 범위에 기초하여, 상기 추출된 적어도 하나의 프레임을 복사함으로써 상기 보완 프레임을 생성하거나 또는 상기 추출된 적어도 하나의 프레임이 재구성된 상기 보완 프레임을 생성하는, 음성 신호 전처리 방법.
제7항에 있어서,
상기 적어도 하나의 프레임의 손실 범위는,
상기 적어도 하나의 프레임에서 상기 음성 인식 범위를 제외한 나머지 범위에 해당하는, 음성 신호 전처리 방법.
제1항에 있어서,
상기 음성 신호를 출력하는 단계는,
상기 보완 프레임의 시간 정보에 기초하여 상기 보완 프레임이 상기 복수의 프레임들 사이에 배치된 음성 신호를 출력하는, 음성 신호 전처리 방법.
제1항에 있어서,
상기 음성 인식 범위는,
상기 음성 신호에 포함된 음소, 음절 및 어휘 중 어느 하나의 단위에 기초하여 결정되는, 음성 신호 전처리 방법.
제1항 내지 제10항 중에서 어느 하나의 항의 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
음성 신호를 입력받는 입력부;
상기 음성 신호를 전처리하는 프로세서; 및
전처리된 음성 신호를 출력하는 출력부
를 포함하고,
상기 프로세서는,
음성 신호를 구성하는 복수의 프레임들 중에서 음성 인식 범위에 대응하는 적어도 하나의 프레임을 추출하는 단계,
상기 적어도 하나의 프레임에 기초하여, 상기 음성 인식 범위에 대한 음성 인식을 보완하는 보완 프레임을 생성하는 단계,
상기 출력부를 통해 상기 보완 프레임 및 상기 복수의 프레임들로 구성된 음성 신호를 출력하는 단계
를 수행하는 음성 신호 전처리 장치.
제12항에 있어서,
상기 복수의 프레임들은,
상기 음성 신호를 프레임의 길이보다 짧은 간격으로 나누어 생성되고, 연속되는 프레임들 간에 서로 중복되는 범위를 포함하고,
상기 프로세서는,
상기 복수의 프레임들 중에서 상기 음성 인식 범위를 나누는 경계 정보를 포함하는 적어도 하나의 프레임을 추출하는, 음성 신호 전처리 장치.
제12항에 있어서,
상기 프로세서는,
상기 적어도 하나의 프레임을 복사함으로써 상기 보완 프레임을 생성하는, 음성 신호 전처리 장치.
제12항에 있어서,
상기 프로세서는,
상기 적어도 하나의 프레임이 재구성된 상기 보완 프레임을 생성하는, 음성 신호 전처리 장치.
제15항에 있어서,
상기 프로세서는,
상기 적어도 하나의 프레임 중에서 상기 음성 인식 범위에 해당하는 부분에 기초하여 재구성된 상기 보완 프레임을 생성하는, 음성 신호 전처리 장치.
제15항에 있어서,
상기 프로세서는,
상기 적어도 하나의 프레임의 시간 정보에 기초한 가중치를 상기 적어도 하나의 프레임에 적용하여 상기 보완 프레임을 생성하는, 음성 신호 전처리 장치.
제12항에 있어서,
상기 프로세서는,
상기 적어도 하나의 프레임의 손실 범위에 기초하여, 상기 추출된 적어도 하나의 프레임을 복사함으로써 상기 보완 프레임을 생성하거나 또는 상기 추출된 적어도 하나의 프레임이 재구성된 상기 보완 프레임을 생성하는, 음성 신호 전처리 장치.
제18항에 있어서,
상기 적어도 하나의 프레임의 손실 범위는,
상기 적어도 하나의 프레임에서 상기 음성 인식 범위를 제외한 나머지 범위에 해당하는, 음성 신호 전처리 장치.
제12항에 있어서,
상기 프로세서는,
상기 보완 프레임의 시간 정보에 기초하여 상기 보완 프레임이 상기 복수의 프레임들 사이에 배치된 음성 신호를 출력하는, 음성 신호 전처리 장치.