KR20090123396A - 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 - Google Patents
실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 Download PDFInfo
- Publication number
- KR20090123396A KR20090123396A KR1020080049455A KR20080049455A KR20090123396A KR 20090123396 A KR20090123396 A KR 20090123396A KR 1020080049455 A KR1020080049455 A KR 1020080049455A KR 20080049455 A KR20080049455 A KR 20080049455A KR 20090123396 A KR20090123396 A KR 20090123396A
- Authority
- KR
- South Korea
- Prior art keywords
- recognition
- voice
- speech recognition
- continuous speech
- real
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 230000000694 effects Effects 0.000 title abstract description 5
- 230000003044 adaptive effect Effects 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 26
- 230000001186 cumulative effect Effects 0.000 claims description 7
- 238000005259 measurement Methods 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 abstract 3
- 238000006243 chemical reaction Methods 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000007704 transition Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000012805 post-processing Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 241000287107 Passer Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Sub-Exchange Stations And Push- Button Telephones (AREA)
Abstract
본 발명은 잡음환경에서 원활한 연속음성인식을 수행하기 위하여 호출명령어를 선정하고 잡음을 포함한 묵음구간과 호출명령어로 구성된 최소의 인식네트워크를 토큰으로 구성하여 입력된 음성에 대해 실시간 음성인식을 계속적으로 수행하고 이에 대한 신뢰도를 연속적으로 분석하여 연이어 들어오는 발화자의 음성을 인식하는 잡음환경에 매우 강인한 연속음성인식 시스템에 관한 것이다.
본 발명에 따른 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템은, 발화자가 호출명령어를 발화하면, 호출명령어를 인식한 후 신뢰도를 측정하여 상기 호출명령어를 인식하는 순간 상기 호출명령어에 연이어 발화되는 음성구간을 연속음성인식엔진에 인가함으로써 발화자의 음성을 인식하는 것을 특징으로 하여 이루어진다.
호출명령어, 토큰, 연속 음성 인식, 호출명령어 검색 루틴, 신뢰도 검사 루틴
Description
본 발명은 연속음성인식 시스템에 관한 것으로서, 보다 상세하게는 잡음환경에서 원활한 연속음성인식을 수행하기 위하여 호출명령어를 선정하고 잡음을 포함한 묵음구간과 호출명령어로 구성된 최소의 인식네트워크를 토큰으로 구성하여 입력된 음성에 대해 실시간 음성인식을 계속적으로 수행하고 이에 대한 신뢰도를 연속적으로 분석하여 연이어 들어오는 발화자의 음성을 인식하는 잡음환경에 매우 강인한 연속음성인식 시스템에 관한 것이다.
인간이 자신의 생각을 다른 사람에게 표현할 수 있는 수단은 여러가지의 형태가 있지만 그 중에서도 음성은 인간이 사용하는 가장 기본적인 의사소통을 위한 수단이다.
인간에 의한 음성 처리는 크게 음성 생성(Speech Production)과, 음성 인지(Speech Perception)의 두 가지 측면으로 나누어 볼 수 있다. 해당 음성 생성은 발화자(Speaker)가 의도한 바를 전달하기 위한 일련의 과정이고, 해당 음성 인지는 상대 발화자에 의해서 발성된 음성으로부터 발화 내용을 인식하는 과정을 말한다. 이러한 음성의 두 가지 측면과 관련된 연구들이 각기 개별적으로 이루어져 왔으며, 언어학, 음성학, 음운학, 생리학, 해부학 등의 다양한 학문적인 배경 하에 진행되어 왔다.
음성 처리의 음성 인지의 측면에서 음성 인식을 수행하기 위한 접근 방법은, 크게 가청 음성학(Acoustic-Phonetic) 방법과, 통계적인 패턴 인식(Statistical Pattern Recognition) 방법과, 인공 지능(Artificial Intelligence) 방법과, 신경망(Neural Network) 방법의 4가지로 분류할 수 있다.
상술한 바와 같은 다양한 접근 방법을 통한 음성 인식 시스템은, 발성 형태에 따라 고립 단어를 인식하는 고립 단어 음성 인식(Isolated Word Speech Recognition)과, 단어를 연속하여 발성한 음성을 인식하는 연속 음성 인식(Continuous Speech Recognition)으로 분류할 수 있다.
이러한 음성 인식 시스템 중 고립 단어 인식은 VAD(Voice Activity Detection) → 특징추출 → 패턴비교 → 인식의 순으로 인식하는 방식이며, 적은 계산량 또는 소규모 음성인식에 적합한 방식이나, 신뢰도 검사만으로 미등록어 거절을 수행하여 잡음환경에 따라 신뢰도 검사 오류 발생이 자주 발생되고, 음성인식을 위한 녹음 버튼 등의 특별한 이벤트가 필요하게 되어 상용화하기엔 부적합한 기 술이다.
도 1은 종래의 연속 음성 인식 네트워크의 구성을 간략히 도시한 것이다. 도 1에 도시된 연속 음성 인식 네트워크는 인식된 단어열을 언어모델을 통한 후처리 과정을 수행하여 인식하는 방식이다. 이 방식은 1만 단어이상 대용량 음성인식 시스템 등에서 주로 사용되어진다.
연속 음석 인식은 특징추출 → 패턴비교(음향모델비교) → 언어모델비교 → 후처리과정 → 인식의 순으로 인식하는 방식이며, 고사양의 서버급 PC등에서 대규모 음성인식 시스템에 적합하며, 저장매체와 연산처리 능력이 날로 발전함에 따라 실시간 대규모 음성인식 시스템의 구현이 가능하게 되고 있다. 하지만, 그와 더불어 날로 경량화 되어 가는 단말기에 탑재되기 위해서는 여전히 부족한 저장용량과 복잡한 floating 연산이 문제가 되며, 많은 계산량과 대규모 데이터 저장용량 필요하다는 단점을 안고 있다.
도 2는 동일한 명령어를 시동을 켜지않은 차량내에서 발성한 음성파형이며, 도 3은 동일한 명령어를 창문을 열고 주행시 발성한 음성파형이다. 도 2 및 도 3를 비교하면 실제 차량 환경에서는 차량 엔진 진동음, 멀티미디어 기기의 출력음 및 자동차 창문 개방시 발생하는 바람의 영향으로 인하여 기존의 에너지나 ZCR(Zero Crossing Rate)을 이용한 VAD(Voice Activity Detection)은 그 성능이 현저히 떨어지게 된다. 따라서, 기존의 차량내 음성인식 장치에서는 차량의 운전자가 핫키(Hot-Key)를 누름으로써 음성인식 이벤트를 발생하고 음성인식을 수행하였다. 이러한 기능은 차량의 전장제어나 기본 탑재되는 네비게이션의 메뉴 제어 등 비교적 우수한 성능을 가지는 소규모 음성인식 시스템임에도 불구하고 사용자로 하여금 불편함을 야기하여 상용화되는데 큰 걸림돌이 되고 있다.
상술한 종래의 문제점을 해결하기 위한 본 발명의 목적은, 음성 인식 네트워크의 변경과 신뢰도 검사를 통한 음성 호출 명령어를 이용한 잡음환경에서의 음성 구간 검출 시스템을 제안하고자 한다.
또한, 기존의 핵심어 검출 방식의 연속 음성 인식 기법이 방대한 계산량과 적용분야에 따라 변결되어야 하는 언어모델이나 후처리 과정을 이용해 실시간 처리가 불가능한 단점을 해결하여 특별한 이벤트를 필요로 하는 고립단어 인식 시스템의 단점을 해결하여 음성인식 상시 대기 상태를 가능한 호출 명령어를 이용한 잡음환경에서의 음성 구간 검출 시스템을 제안하고자 한다.
또한, 방대한 계산량뿐만 아니라 언어모델이나 후처리 과정이 변경되어야 하는 기존 핵심어 검출 방식의 연속 음성 인식 기법의 단점을 해결하는 동시에, 반드시 음성인식을 위한 특별한 이벤트를 필요로 하는 고립단어 인식 시스템의 단점을 해결하여 음성인식 상시 대기 상태가 가능한 호출명령어를 이용한 잡음환경에서의 음성 구간 검출 시스템을 제안하고자 한다.
상술한 과제를 해결하기 위한 본 발명에 따른 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템은, 발화자가 호출명령어를 발화하면, 호출명령어를 인식한 후 신뢰도를 측정하여 상기 호출명령어를 인식하는 순간 상기 호출명령어에 연이어 발화되는 음성구간을 연속음성인식엔진에 인가함으로써 발화자의 음성을 인식하는 것을 특징으로 하여 이루어진다.
여기서, 상기 호출명령어 인식은, 호출명령어 인식 네트워크를 통해 수행되며, 상기 인식 네트워크는 LTR(Left-to-Right) 모델로 구성되어지고, 상기 인식 네트워크에 입력되는 음성 프레임은 소정의 토큰으로 구성되어 상기 인식 네트워크와 실시간 확률 비교가 이루어지는 것을 특징으로 한다.
여기서, 상기 소정의 토큰은 상기 음성 프레임과 잡음을 포함한 묵음구간을 더 포함하여 구성되는 것을 특징으로 한다.
여기서, 상기 인식 네트워크는, 상기 인식 네트워크를 통과해 실시간 계산되는 상기 소정의 토큰의 누적확률이 기설정된 상위 백분율 이내이면 상기 호출명령어를 발화한 것으로 추정하여 상기 음성 프레임을 신뢰도 측정단계로 전달하는 것을 특징으로 한다.
여기서, 상기 음성 프레임의 빔폭은 20 내지 30개의 토큰으로 제한하여 구성되는 것을 특징으로 한다.
여기서, 상기 상위 백분율은 10%인 것이 바람직하다.
여기서, 상기 신뢰도는 다음 수학식에 의하여 결정되는,
또한, 호출명령어를 실시간으로 검색하는 호출명령어 검색 루틴과 상기 호출명령어 검색 루틴에서 검색된 호출명령어의 신뢰도를 검사하는 신뢰도 검사 루틴을 포함하는 호출명령어 인식 네트워크와; 상기 호출명령어 인식 네트워크에서 상기 호출명령어가 인식되는 순간 상기 호출명령어에 연이어 들어오는 발화자의 음성을 인식하는 연속 음성 인식 네트워크;을 포함하여 이루어진다.
여기서, 상기 호출명령어 인식 네트워크는 적응형 필터(Adaptive Filter), 특징추출부(Feature Extration) 및 탐색부(Keyword Searching)를 포함하여 이루어지는 것이 바람직하다.
여기서, 상기 연속 음성 인식 네트워크는 토큰 패싱부(Token passing), 키워드 탐지부(Keyword spotting), 신뢰도 검사부(Confidence Detection) 및 룰 체크부(Rule check)를 포함하여 이루어지는 것이 바람직하다.
상술한 본 발명의 구성에 따르면, 잡음환경에서 원활한 연속음성인식을 수행하기 위하여 '나래야', '네비야' 등과 같은 호출명령어를 선정하고 잡음을 포함한 묵음구간과 호출명령어로 구성된 최소의 인식네트워크를 토큰으로 구성하여 입력된 음성에 대해 실시간 음성인식을 계속적으로 수행하고 이에 대한 신뢰도를 연속적으로 분석하여 발화자의 호출명령어가 인식된 순간 버퍼링되어 있는 음성구간을 포함하여 연이어 들어오는 발화자의 음성구간을 연속음성인식엔진에 인가하므로써 잡음환경에 매우 강인한 연속 음성인식을 가능하게 하는 잡음환경에서의 음성 구간 검 출 시스템을 제공할 수 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시간 호출명령어 인식을 이용한 잡음환경에서의 음성구간검출과 연속음성인식 시스템(이하 '호출명령어/연속 음성 인식 시스템' 이라 함)의 기법, 구조 및 동작 특성을 살펴보기로 한다.
본 발명에 따른 호출명령어/연속 음성 인식 시스템은 잡음환경에서 원활한 연속음성인식을 수행하기 위하여 '나래야', '네비야' 등과 같은 호출명령어를 선정하고 잡음을 포함한 묵음구간과 호출명령어로 구성된 최소의 인식네트워크를 토큰으로 구성하여 입력된 음성에 대해 실시간 음성인식을 계속적으로 수행하고 이에 대한 신뢰도를 연속적으로 분석하여 발화자의 호출명령어가 인식된 순간 버퍼링되어 있는 음성구간을 포함하여 연이어 들어오는 발화자의 음성구간을 연속음성인식엔진에 인가하므로써 잡음환경에 매우 강인한 연속 음성인식을 수행하게 된다.
도 4는 본 발명에 따른 호출명령어 검색 루틴이 포함된 잡음환경하에서의 연속 음성 인식 시스템의 블록도이다.
도 4에 도시된 바와 같이 본 발명의 실시간 호출명령어 인식을 이용한 잡음환경에서의 음성구간검출과 연속음성인식 시스템은 연속 인식 네트워크(430)를 진행하기 전에 크게 호출명령어를 검색하는 호출명령어 검색 루틴과 검색된 호출명령어의 신뢰도를 검사하는 신뢰도 검사 루틴(421, 422, 423)을 포함하는 호출명령어 인식 네트워크를 수행한다.
호출명령어 인식 네트워크(420)는 적응형 필터(Adaptive Filter, 421), 특징추출부(Feature Extration, 422) 및 탐색부(Keyword Searching, 423)를 포함하며, 연속 음성 인식 네트워크(430)는 토큰 패싱부(Token passing, 431), 키워드 탐지부(Keyword spotting, 432), 신뢰도 검사부(Confidence Detection, 433) 및 룰 체크부(Rule check, 444)를 포함한다.
호출명령어 인식 네트워크(420)에서는 잡음을 포함한 묵음구간과 발화자의 호출명령어로 구성된 최소의 인식네트워크를 토큰으로 구성하여 입력된 음성에 대해 실시간 음성인식을 계속적으로 수행한다. 호출명령어 검색 루틴을 통해 발화자의 호출명령어로 인식되면 다음 단계인 신뢰도 검사 루틴에서 신뢰도를 검사하여 검색된 호출명령어가 발화자가 의도하는 진의 호출명령어인지 거짓 호출명령어인지를 판단하여 호출명령어 다음에 연이어 발화되는 명령어의 연속 음성 인식을 수행하도록 한다.
호출명령어 인식 네트워크(420)의 구성과 그 역할은 다음과 같다.
적응형 필터(Adaptive Filter, 421)는 입력된 잡음이 포함된 음성(호출명령어를 포함하여 발화되는 모든 음성)에 대하여 주변 잡음의 스펙트럼(Spectrum) 특성을 자동으로 추적하여 주변 잡음을 제거하는 FIR(Finite Impulse Response) 필터이다.
특징추출부(Feature Extration, 422)는 적응형 필터(421)를 통과한 입력 음성에 대하여 프레임별로 음성의 스펙트럼 특성을 청각 모델링하여 강인한 파라미터로 변환하는 부분이다.
탐색부(Keyword Searching, 423)는 음향모델 DB, 발음사전 DB 및 언어모델 DB를 사용하여 호출명령어 인지 아닌지를 판단하여 연속 음성 인식 루틴을 수행할 지 수행하지 않을 지를 판단한다. 탐색부(423)에는 잡음을 포함한 묵음구간과 발화자의 호출명령어를 포함한 음성 프레임을 최소한의 토큰으로 구성하여 호출명령어를 검색하는 토큰 패싱부와 인식된 호출명령어가 진짜인지 아닌지의 신뢰도를 검사하는 신뢰도 검사부를 포함한다.
호출명령어 인식 네트워크(420)에 의해 발화자의 음성이 호출명령어로 인식되면 다음 단계인 연속 음성 인식 네트워크(430)로 이행되며, 연속 음성 인식 네트워크(430)의 구성 및 그 역할은 다음과 같다.
먼저, 토큰 패싱부(Token passing, 431)는 구성된 연속 음성 인식 네트워크에서 입력된 음성을 검색하는 부분이다.
키워드 탐지부(Keyword spotting, 432)는, 핵심어와 필러모델을 이용하여 빔 서치된 토큰에서 핵심어를 검출하는 부분이다.
신뢰도 검사부(Confidence Detection, 433)는, 인식된 핵심어가 진짜인지 아닌지 신뢰도를 검사하여 판단하는 부분이다.
룰 체크부(Rule check, 444)는, 인식된 결과가 인식 대상 문장인지 아닌지 판단하는 후처리 부분이다.
도 4와 같이, 호출명령어 인식 네트워크(420)는 호출명령어에 대한 검색 루틴 및 신뢰도 검사 루틴을 포함함으로써 입력되는 모든 연속 음성에 대하여 인식 네트워크를 진행해야만 하는 기존 연속 음성인식에 비하여 계산량이 급격히 감소하 게 된다.
따라서, 포터블 기기나 임베디드 시스템과 같이 계산처리능력과 저장용량이 적은 응용분야에서도 연속 음성인식의 장점을 적용할 수 있게 된다.
호출명령어 인식 네트워크(420)는 입력음성에 대한 특징 파라미터 추출 부분과 변형된 호출 명령어 인식 네트워크 및 신뢰도 검사 부분이 포함된다(호출명령어 검색 루틴 및 신뢰도 검사 루틴).
도 5는 본 발명의 실시간 호출명령어 인식을 이용한 잡음환경에서의 음성구간검출과 연속음성인식 시스템의 구성을 간략하게 도시한 것이다.
도 5에 도시된 바와 같이, 호출명령어/연속 음성 인식 시스템은 호출명령어 인식 및 신뢰도를 측정하는 호출명령어 인식 네트워크와 실제 명령어인 음성을 인식하는 연속 음성 인식 네트워크로 구성된다. 호출명령어/연속 음성 인식 시스템은 호출명령어('나래야', '네비야' 등)에 대한 인식 네트워크를 구성하고 입력 되어지는 음성에 대해 호출 명령어 1개에 대한 인식 네트워크에 대해 진행하고 신뢰도를 측정함으로써 실제 연속 음성 인식 네트워크를 시작할 지 안할 지를 결정해준다.
이러한 본 발명에 따른 방식은 기존의 인식 네트워크를 사용하는 연속 음성인식 시스템에서 필요한 메모리와 연산 처리 능력을 현격히 감소시켜 주는 효과를 가진다.
문제해결을 위해, 핵심어 검출 방식의 연속 음성인식 시스템을 수행함에 있어서 소량의 연산만으로 보다 높은 미등록어 거절율 및 음성 인식율 향상을 위하여 본 발명에서는 다음과 같은 기법을 제안한다.
도 6은 본 발명에 따른 실시간 호출명령어 인식을 이용한 잡음환경에서의 음성구간검출과 연속음성인식 시스템에서의 호출명령어 인식 네트워크를 설명하기 위해 도시한 구성도이다.
도 6에 도시된 바와 같이, 호출 명령어에 대한 인식 네트워크는 Left-to-Right 모델로 구성되어지며 묵음모델에서 묵음모델로의 천이만 가능하며, 매 입력 음성 프레임은 단지 1 단어의 인식 네트워크와 실시간 확률 비교가 이루어지게 된다. 여기서, 빔폭은 20 내지 30개의 토큰만으로 제한하여 계산량을 최소화 시킬 수 있다.
단지 1 단어에 대한 인식 네트워크이므로 극소량(20개 내지 30개)의 토큰만이 필요하며, 연속적으로 입력되는 프레임에 대해 실시간 계산이 이루어지면서, 호출명령어 인식 네트워크에서 묵음 모델로 천이하는 순간의 토큰 누적 확률이 20 내지 30개의 토큰 중에 상위 10%에 해당하면 실제 호출명령어를 발성하였다고 가정하고 프레임 정보를 신뢰도 검사 루틴(신뢰도 검사 루틴, 430)으로 전달한다.
즉, 호출명령어 인식 네트워크의 시계열적 작동순서를 살펴보면, 먼저 호출 명령어 인식 네트워크를 구성한다(Step 1). 녹음된 음성 입력 프레임의 실시간 인식 네트워크를 디코딩 후 토큰에 저장한다(Step 2). 이때 저장되는 각각의 비트값은 다음식의 로그 가능성 비율값에 따라 소팅(Sorting) 된다.
여기서, LLRκ는 Log Likelihood Ratio(로그 확률 비율), λκ는 k번째 모델 파라미터, p(0|λκ)는 입력 음성 프레임의 λκ 모델에 대한 확률을 나타낸다.
Step 2에 따라 누적확률이 정렬된 후 N(20 내지 30)개로 토큰 빔 프루닝(Token Beam pruning)을 행한다(Step 3). 이어서, 호출 명령어 인식 네트워크의 마지막 상태로서 Step 3 상태에서 묵음구간으로 천이하는 순간의 토큰 누적확률값이 상위 10%(2 내지 3)에 해당하면 호출명령어로 가정하고 신뢰도 검사 루틴으로 이동, 그렇지 않으면 Step 2로 이동한다(Step 4).
일반적으로 음성인식 네트워크 구성시 필요한 토큰의 수는 단어수 * 단어수 정도가 필요하며, 즉, 1,000단어 정도의 연속 음성 인식을 위해 필요한 안정적인 토큰의 수는 1,000,000개 정도가 필요합니다. 하지만, 본 발명의 호출명령어 인식 네트워크에서는 단지 20 내지 30개의 토큰에 대한 누적확률 및 모델 천이 상태가 저장된다. 이 20개 내지 30개 중에서 최상위 확률값을 저장하는 토큰만이 필요하며, 도 5에서 a33에서 silence(묵음구간)로 천이하는 순간의 누적확률이 최상위 확률값을 저장하는 토큰이면 호출명령어가 발화된 것으로 간주하고 신뢰도 검사를 실시한다. 이때, 최상위 확률값의 범위는 상위 10%의 범위로 정할 수 있다.
이러한 호출 명령어 인식 네트워크의 계산량은 실시간 MFCC(Mel Frequency Cepstrum Cofficient) 파라미터 추출 및 20 내지 30개의 토큰 디코딩에 필요한 계산으로 한정되어 연속 음성 인식 네트워크에 따른 계산량에 비해 극소량에 불과하 여, 기존의 에너지와 ZCR을 이용한 VAD 검출 기법의 계산량보다도 오히려 감소하게 된다. 하지만, 잡음환경하에서의 VAD 검출율은 현격히 향상될 수 있다.
호출명령어 인식 네트워크에 의해 호출명령어가 발화된 것으로 결정되면, 호출명령어에 대한 신뢰도 검사를 행한다.
마이크로부터 입력되는 모든 음성은 1번의 호출명령어 인식 네트워크에 따라 음성 인식이 수행되어 지며, 20 내지 30개의 토큰 중 누적확률 값이 우수한 토큰은 신뢰도 검사 루틴(신뢰도 검사 루틴, 도4에서는 430)으로 전달되어 진다. 이때, 토큰에는 이미 입력된 음성이 호출명령서 인식 네트워크에서 천이된 정보(자동 분할(auto segmentation) 정보)가 보유된다.
이와 같이 인식된 자동 분할된 분할 정보에 따라 호출명령어인 '나래야' 또는 '네비야' 라고 가정된 입력 음성(호출명령어)은 호출명령어 인식 네트워크의 음소모델에 대한 확률 과 가정된 음소가 아닌 반음소 모델(anti-phone model)에 대한 확률 과의 비율을 계산하여 신뢰도(Confidence rate)를 계산하게 된다. 그 수학식은 다음과 같다.
위 수학식 2에 따라 LLR값이 결정되어 'LLR > 임계값'이면 연속 음성 인식 네트워크를 수행하고, 그렇지 않으면 초기상태를 유지한다. 여기서, 연속 음성 인식은 호출명령어에 연이어 발화되는 실제명령어를 의미한다.
도 7은 본 발명에 따른 호출명령어 인식 네트워크에서 묵음으로 천이하는 순간의 확률값이 그 프레임의 토큰들 중 최상위에 해당할 때 신뢰도 검사를 수행한 결과를 나타낸 것이다.
도 7에 도시된 바와 같이, 호출명령어 인식 네트워크에서 묵음으로 천이하는 순간의 확률값이 그 프레임의 토큰들 중 최상위에 해당할 때(호출명령어를 '네비야'라고 가정할 때) 신뢰도 검사를 수행한 결과이다. 즉, 신뢰도 검사루틴으로 전달된 음성 입력 프레임들은 저장된 토큰을 따라 백트랙킹(backtracking)하면 도 7과 같이 “ㄴ”, “ㅔ”, “ㅂ”, “ㅣ”, “야” 부분으로 자동 분할되며, 각 부분은 자신모델과의 확률값 와 반음소모델과의 확률값 의 차에 의해 0보다 크면 호출명령어 “네비야”를 인식하고 호출명령어에 연이어 발화되는 음성을 연속 음성 인식 엔진으로 전달하여 연속 음성 인식을 수행하고, 0보다 작으면 호출명령어가 발화되지 않은 것으로 판단하여 초기상태로 복귀한다.
기존의 연속 음성인식 네트워크를 통한 음성인식 방식이 끝점 추출 없이 묵음 모델(silence model)을 통해 음성의 휴지(pause) 구간을 찾는 반면, 제안한 본 발명에 따른 호출명령어 인식 방식에서는 호출명령어 이후에 일정 구간에 대해서만 인식 네트워크를 진행함으로써 대량의 메모리나 고성능의 연산 처리 능력이 요구되 어 지지 않는 장점을 가지게 된다.
이상 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 설명하였지만, 상술한 본 발명의 기술적 구성은 본 발명이 속하는 기술 분야의 당업자가 본 발명의 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해되어야 하고, 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
본 발명은 음성 인식 시스템에 관한 것으로서, 홈네트워크시스템이나 지능형로봇, 차량용 내비게이션 및 Car-PC용 음성 인식 시스템 분야에 널리 산업적으로 이용될 수 있는 발명이다.
도 1은 종래의 연속 음성 인식 네트워크의 구성을 간략히 도시한 것이다.
도 2는 동일한 명령어를 시동을 켜지않은 차량내에서 발성한 음성파형이다.
도 3은 동일한 명령어를 창문을 열고 주행시 발성한 음성파형이다.
도 4는 본 발명에 따른 호출명령어 검색 루틴이 포함된 잡음환경하에서의 연속 음성 인식 시스템의 블록도이다.
도 5는 본 발명의 실시간 호출명령어 인식을 이용한 잡음환경에서의 음성구간검출과 연속음성인식 시스템의 구성을 간략하게 도시한 것이다.
도 6은 본 발명에 따른 실시간 호출명령어 인식을 이용한 잡음환경에서의 음성구간검출과 연속음성인식 시스템에서의 호출명령어 인식 네트워크를 설명하기 위해 도시한 구성도이다.
도 7은 본 발명에 따른 호출명령어 인식 네트워크에서 묵음으로 천이하는 순간의 확률값이 그 프레임의 토큰들 중 최상위에 해당할 때 신뢰도 검사를 수행한 결과를 나타낸 것이다.
Claims (10)
- 발화자가 호출명령어를 발화하면, 호출명령어를 인식한 후 신뢰도를 측정하여 상기 호출명령어를 인식하는 순간 상기 호출명령어에 연이어 발화되는 음성구간을 연속음성인식엔진에 인가함으로써 발화자의 음성을 인식하는, 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템.
- 제1항에 있어서,상기 호출명령어 인식은,호출명령어 인식 네트워크를 통해 수행되며, 상기 인식 네트워크는 LTR(Left-to-Right) 모델로 구성되어지고,상기 인식 네트워크에 입력되는 음성 프레임은 소정의 토큰으로 구성되어 상기 인식 네트워크와 실시간 확률 비교가 이루어지는, 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템.
- 제2항에 있어서,상기 소정의 토큰은 상기 음성 프레임과 잡음을 포함한 묵음구간을 더 포함하여 구성되는, 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템.
- 제3항에 있어서,상기 호출명령어 인식 네트워크는,상기 호출명령어 인식 네트워크를 통과해 실시간 계산되는 상기 소정의 토큰의 누적확률이 기설정된 상위 백분율 이내이면 상기 호출명령어를 발화한 것으로 추정하여 상기 음성 프레임을 신뢰도 측정단계로 전달하는, 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템.
- 제4항에 있어서,상기 음성 프레임의 빔폭은 20 내지 30개의 토큰으로 제한하여 구성하는, 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템.
- 제4항에 있어서,상기 상위 백분율은 10%인, 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템.
- 호출명령어를 실시간으로 검색하는 호출명령어 검색 루틴과 상기 호출명령어 검색 루틴에서 검색된 호출명령어의 신뢰도를 검사하는 신뢰도 검사 루틴을 포함하는 호출명령어 인식 네트워크와;상기 호출명령어 인식 네트워크에서 상기 호출명령어가 인식되는 순간 상기 호출명령어에 연이어 들어오는 발화자의 음성을 인식하는 연속 음성 인식 네트워크;를 포함하는, 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템.
- 제8항에 있어서,상기 호출명령어 인식 네트워크는 적응형 필터(Adaptive Filter), 특징추출부(Feature Extration) 및 탐색부(Keyword Searching)를 포함하여 이루어지는, 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템.
- 제9항에 있어서,상기 연속 음성 인식 네트워크는 토큰 패싱부(Token passing), 키워드 탐지부(Keyword spotting), 신뢰도 검사부(Confidence Detection) 및 룰 체크부(Rule check)를 포함하여 이루어지는, 실시간 호출명령어인식을 이용한 음성구간검출 및 연속음성인식 시스템.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080049455A KR101056511B1 (ko) | 2008-05-28 | 2008-05-28 | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 |
PCT/KR2009/002118 WO2009145508A2 (ko) | 2008-05-28 | 2009-04-22 | 실시간 호출명령어 인식을 이용한 잡음환경에서의 음성구간검출과 연속음성인식 시스템 |
US12/863,437 US8275616B2 (en) | 2008-05-28 | 2009-04-22 | System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands |
US13/591,479 US8930196B2 (en) | 2008-05-28 | 2012-08-22 | System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080049455A KR101056511B1 (ko) | 2008-05-28 | 2008-05-28 | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090123396A true KR20090123396A (ko) | 2009-12-02 |
KR101056511B1 KR101056511B1 (ko) | 2011-08-11 |
Family
ID=41377742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080049455A KR101056511B1 (ko) | 2008-05-28 | 2008-05-28 | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 |
Country Status (3)
Country | Link |
---|---|
US (2) | US8275616B2 (ko) |
KR (1) | KR101056511B1 (ko) |
WO (1) | WO2009145508A2 (ko) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102999161A (zh) * | 2012-11-13 | 2013-03-27 | 安徽科大讯飞信息科技股份有限公司 | 一种语音唤醒模块的实现方法及应用 |
US9619200B2 (en) | 2012-05-29 | 2017-04-11 | Samsung Electronics Co., Ltd. | Method and apparatus for executing voice command in electronic device |
KR20170087390A (ko) * | 2016-01-20 | 2017-07-28 | 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 | 음성 웨이크업 방법 및 장치 |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
KR20190065200A (ko) | 2019-05-21 | 2019-06-11 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
KR20190065201A (ko) | 2019-05-21 | 2019-06-11 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
KR20200047853A (ko) * | 2018-10-25 | 2020-05-08 | 현대오토에버 주식회사 | 연속 음성 명령에 기반하여 서비스를 제공하는 인공지능 음성단말장치 및 음성서비스시스템 |
US10733978B2 (en) | 2015-02-11 | 2020-08-04 | Samsung Electronics Co., Ltd. | Operating method for voice function and electronic device supporting the same |
WO2021101017A1 (ko) * | 2019-11-18 | 2021-05-27 | 삼성전자 주식회사 | 비정상 잡음을 판단하는 전자 장치 및 방법 |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010019831A1 (en) * | 2008-08-14 | 2010-02-18 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
US8725506B2 (en) * | 2010-06-30 | 2014-05-13 | Intel Corporation | Speech audio processing |
US9536523B2 (en) | 2011-06-22 | 2017-01-03 | Vocalzoom Systems Ltd. | Method and system for identification of speech segments |
TWI557722B (zh) * | 2012-11-15 | 2016-11-11 | 緯創資通股份有限公司 | 語音干擾的濾除方法、系統,與電腦可讀記錄媒體 |
US9110889B2 (en) | 2013-04-23 | 2015-08-18 | Facebook, Inc. | Methods and systems for generation of flexible sentences in a social networking system |
US9606987B2 (en) | 2013-05-06 | 2017-03-28 | Facebook, Inc. | Methods and systems for generation of a translatable sentence syntax in a social networking system |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
US9508345B1 (en) | 2013-09-24 | 2016-11-29 | Knowles Electronics, Llc | Continuous voice sensing |
US9953634B1 (en) | 2013-12-17 | 2018-04-24 | Knowles Electronics, Llc | Passive training for automatic speech recognition |
US9589564B2 (en) | 2014-02-05 | 2017-03-07 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
US9437188B1 (en) | 2014-03-28 | 2016-09-06 | Knowles Electronics, Llc | Buffered reprocessing for multi-microphone automatic speech recognition assist |
KR102216048B1 (ko) | 2014-05-20 | 2021-02-15 | 삼성전자주식회사 | 음성 명령 인식 장치 및 방법 |
US9697828B1 (en) * | 2014-06-20 | 2017-07-04 | Amazon Technologies, Inc. | Keyword detection modeling using contextual and environmental information |
US11942095B2 (en) | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
US9257120B1 (en) | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
US9812128B2 (en) | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
US9318107B1 (en) * | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
RU2606566C2 (ru) * | 2014-12-29 | 2017-01-10 | Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России) | Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа |
KR102323393B1 (ko) | 2015-01-12 | 2021-11-09 | 삼성전자주식회사 | 디바이스 및 상기 디바이스의 제어 방법 |
CN105869640B (zh) * | 2015-01-21 | 2019-12-31 | 上海墨百意信息科技有限公司 | 识别针对当前页面中的实体的语音控制指令的方法和装置 |
KR101988222B1 (ko) | 2015-02-12 | 2019-06-13 | 한국전자통신연구원 | 대어휘 연속 음성 인식 장치 및 방법 |
US9779735B2 (en) | 2016-02-24 | 2017-10-03 | Google Inc. | Methods and systems for detecting and processing speech signals |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
CN106448663B (zh) * | 2016-10-17 | 2020-10-23 | 海信集团有限公司 | 语音唤醒方法及语音交互装置 |
EP3430617B1 (en) | 2016-11-07 | 2019-10-23 | Google LLC | Recorded media hotword trigger suppression |
KR20180062127A (ko) | 2016-11-30 | 2018-06-08 | 영남대학교 산학협력단 | 음성인식을 통한 다자간 무선 통신 장치 및 그 방법 |
US10559309B2 (en) | 2016-12-22 | 2020-02-11 | Google Llc | Collaborative voice controlled devices |
KR102321396B1 (ko) | 2017-04-20 | 2021-11-03 | 구글 엘엘씨 | 장치에 대한 다중 사용자 인증 |
US10395650B2 (en) | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
US10692496B2 (en) | 2018-05-22 | 2020-06-23 | Google Llc | Hotword suppression |
CN110738990B (zh) * | 2018-07-19 | 2022-03-25 | 南京地平线机器人技术有限公司 | 识别语音的方法和装置 |
IT201900015506A1 (it) | 2019-09-03 | 2021-03-03 | St Microelectronics Srl | Procedimento di elaborazione di un segnale elettrico trasdotto da un segnale vocale, dispositivo elettronico, rete connessa di dispositivi elettronici e prodotto informatico corrispondenti |
CN113516967B (zh) * | 2021-08-04 | 2024-06-25 | 青岛信芯微电子科技股份有限公司 | 一种语音识别方法及装置 |
CN113707135B (zh) * | 2021-10-27 | 2021-12-31 | 成都启英泰伦科技有限公司 | 一种高精度连续语音识别的声学模型训练方法 |
US11782877B1 (en) | 2022-05-17 | 2023-10-10 | Bank Of America Corporation | Search technique for noisy logs and resulting user interfaces displaying log entries in ranked order of importance |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5832430A (en) * | 1994-12-29 | 1998-11-03 | Lucent Technologies, Inc. | Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification |
JP3697748B2 (ja) * | 1995-08-21 | 2005-09-21 | セイコーエプソン株式会社 | 端末、音声認識装置 |
EP1092514A4 (en) * | 1999-01-07 | 2007-05-23 | Sony Corp | MACHINE, ITS CONTROL METHOD AND RECORDING MEDIUM |
US6463415B2 (en) * | 1999-08-31 | 2002-10-08 | Accenture Llp | 69voice authentication system and method for regulating border crossing |
US20030023437A1 (en) * | 2001-01-27 | 2003-01-30 | Pascale Fung | System and method for context-based spontaneous speech recognition |
US7016315B2 (en) * | 2001-03-26 | 2006-03-21 | Motorola, Inc. | Token passing arrangement for a conference call bridge arrangement |
US6985859B2 (en) * | 2001-03-28 | 2006-01-10 | Matsushita Electric Industrial Co., Ltd. | Robust word-spotting system using an intelligibility criterion for reliable keyword detection under adverse and unknown noisy environments |
US7203652B1 (en) * | 2002-02-21 | 2007-04-10 | Nuance Communications | Method and system for improving robustness in a speech system |
GB2409750B (en) * | 2004-01-05 | 2006-03-15 | Toshiba Res Europ Ltd | Speech recognition system and technique |
US7756709B2 (en) * | 2004-02-02 | 2010-07-13 | Applied Voice & Speech Technologies, Inc. | Detection of voice inactivity within a sound stream |
US8005668B2 (en) * | 2004-09-22 | 2011-08-23 | General Motors Llc | Adaptive confidence thresholds in telematics system speech recognition |
JP4904691B2 (ja) | 2004-12-28 | 2012-03-28 | カシオ計算機株式会社 | カメラ装置、及び撮影方法 |
KR100679044B1 (ko) * | 2005-03-07 | 2007-02-06 | 삼성전자주식회사 | 사용자 적응형 음성 인식 방법 및 장치 |
US20070088552A1 (en) | 2005-10-17 | 2007-04-19 | Nokia Corporation | Method and a device for speech recognition |
US20070179784A1 (en) * | 2006-02-02 | 2007-08-02 | Queensland University Of Technology | Dynamic match lattice spotting for indexing speech content |
US7966183B1 (en) * | 2006-05-04 | 2011-06-21 | Texas Instruments Incorporated | Multiplying confidence scores for utterance verification in a mobile telephone |
KR101450188B1 (ko) * | 2006-08-09 | 2014-10-14 | 삼성전자주식회사 | 휴대용 단말기의 음성 제어 장치 및 방법 |
US20080154870A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Collection and use of side information in voice-mediated mobile search |
KR101393023B1 (ko) * | 2007-03-29 | 2014-05-12 | 엘지전자 주식회사 | 이동통신단말기 및 그 음성인식 사용자 인터페이스 방법 |
US8620658B2 (en) * | 2007-04-16 | 2013-12-31 | Sony Corporation | Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition |
-
2008
- 2008-05-28 KR KR1020080049455A patent/KR101056511B1/ko active IP Right Grant
-
2009
- 2009-04-22 US US12/863,437 patent/US8275616B2/en active Active
- 2009-04-22 WO PCT/KR2009/002118 patent/WO2009145508A2/ko active Application Filing
-
2012
- 2012-08-22 US US13/591,479 patent/US8930196B2/en active Active
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9619200B2 (en) | 2012-05-29 | 2017-04-11 | Samsung Electronics Co., Ltd. | Method and apparatus for executing voice command in electronic device |
US11393472B2 (en) | 2012-05-29 | 2022-07-19 | Samsung Electronics Co., Ltd. | Method and apparatus for executing voice command in electronic device |
US10657967B2 (en) | 2012-05-29 | 2020-05-19 | Samsung Electronics Co., Ltd. | Method and apparatus for executing voice command in electronic device |
CN102999161A (zh) * | 2012-11-13 | 2013-03-27 | 安徽科大讯飞信息科技股份有限公司 | 一种语音唤醒模块的实现方法及应用 |
US10733978B2 (en) | 2015-02-11 | 2020-08-04 | Samsung Electronics Co., Ltd. | Operating method for voice function and electronic device supporting the same |
US10482879B2 (en) | 2016-01-20 | 2019-11-19 | Baidu Online Network Technology (Beijing) Co., Ltd. | Wake-on-voice method and device |
KR20170087390A (ko) * | 2016-01-20 | 2017-07-28 | 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 | 음성 웨이크업 방법 및 장치 |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
KR20200047853A (ko) * | 2018-10-25 | 2020-05-08 | 현대오토에버 주식회사 | 연속 음성 명령에 기반하여 서비스를 제공하는 인공지능 음성단말장치 및 음성서비스시스템 |
KR20190065201A (ko) | 2019-05-21 | 2019-06-11 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
KR20190065200A (ko) | 2019-05-21 | 2019-06-11 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US11183190B2 (en) | 2019-05-21 | 2021-11-23 | Lg Electronics Inc. | Method and apparatus for recognizing a voice |
US11508356B2 (en) | 2019-05-21 | 2022-11-22 | Lg Electronics Inc. | Method and apparatus for recognizing a voice |
WO2021101017A1 (ko) * | 2019-11-18 | 2021-05-27 | 삼성전자 주식회사 | 비정상 잡음을 판단하는 전자 장치 및 방법 |
US11942105B2 (en) | 2019-11-18 | 2024-03-26 | Samsung Electronics Co., Ltd. | Electronic device and method for determining abnormal noise |
Also Published As
Publication number | Publication date |
---|---|
US20110054892A1 (en) | 2011-03-03 |
WO2009145508A2 (ko) | 2009-12-03 |
US8275616B2 (en) | 2012-09-25 |
US8930196B2 (en) | 2015-01-06 |
KR101056511B1 (ko) | 2011-08-11 |
US20120316879A1 (en) | 2012-12-13 |
WO2009145508A3 (ko) | 2010-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101056511B1 (ko) | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 | |
US11996097B2 (en) | Multilingual wakeword detection | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
US10923111B1 (en) | Speech detection and speech recognition | |
Li et al. | Robust endpoint detection and energy normalization for real-time speech and speaker recognition | |
Juang et al. | Automatic speech recognition–a brief history of the technology development | |
KR100755677B1 (ko) | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 | |
Huang et al. | Microsoft Windows highly intelligent speech recognizer: Whisper | |
US6845357B2 (en) | Pattern recognition using an observable operator model | |
Mistry et al. | Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann) | |
Hasnat et al. | Isolated and continuous bangla speech recognition: implementation, performance and application perspective | |
CN112542170A (zh) | 对话系统、对话处理方法和电子装置 | |
KR101065188B1 (ko) | 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템 | |
Nakagawa | A survey on automatic speech recognition | |
Boite et al. | A new approach towards keyword spotting. | |
Kim et al. | Robust DTW-based recognition algorithm for hand-held consumer devices | |
Loh et al. | Speech recognition interactive system for vehicle | |
KR20210081166A (ko) | 다국어 음성 환경에서의 언어 식별 장치 및 방법 | |
Khaing et al. | Myanmar continuous speech recognition system based on DTW and HMM | |
KR101229108B1 (ko) | 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법 | |
Dubagunta et al. | Using Speech Production Knowledge for Raw Waveform Modelling Based Styrian Dialect Identification. | |
CN114155882A (zh) | 一种基于语音识别的“路怒”情绪判断方法和装置 | |
Trivedi | A survey on English digit speech recognition using HMM | |
Santoso et al. | Categorizing error causes related to utterance characteristics in speech recognition | |
Chen et al. | End-to-end speaker-dependent voice activity detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20150528 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20160805 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20170918 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20190731 Year of fee payment: 9 |