KR102392992B1 - 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법 - Google Patents
음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법 Download PDFInfo
- Publication number
- KR102392992B1 KR102392992B1 KR1020200067730A KR20200067730A KR102392992B1 KR 102392992 B1 KR102392992 B1 KR 102392992B1 KR 1020200067730 A KR1020200067730 A KR 1020200067730A KR 20200067730 A KR20200067730 A KR 20200067730A KR 102392992 B1 KR102392992 B1 KR 102392992B1
- Authority
- KR
- South Korea
- Prior art keywords
- text data
- call command
- word
- recognition
- fitness
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 230000003213 activating effect Effects 0.000 title claims abstract description 10
- 238000011156 evaluation Methods 0.000 claims abstract description 126
- 230000006870 function Effects 0.000 claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 2
- 230000003203 everyday effect Effects 0.000 claims 2
- 230000004044 response Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 21
- 238000012937 correction Methods 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 방법 및 장치에 관한 발명이다. 실시예는 미리 정의된 규칙 기반 모델에 포함된 복수의 평가 항목들에 기초하여, 호출 명령어를 설정하기 위하여 수신된 텍스트 데이터로부터 복수의 성분들(attributes)을 추출하는 단계, 복수의 성분들에 기초하여 복수의 평가 항목들 별로 적합도를 평가함으로써, 텍스트 데이터의 제1 적합도를 획득하는 단계, 복수의 성분들에 기초한 특징 벡터(feature vector)를 미리 생성된 학습 기반 모델에 인가함으로써, 텍스트 데이터의 제2 적합도를 획득하는 단계, 제1 적합도 및 제2 적합도 중 적어도 하나에 기초하여, 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하는 단계 및 판단 결과에 따라 텍스트 데이터를 호출 명령어로 설정하는 단계를 포함한다.
Description
음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법에 관한 것이다.
음성 인식(Speech Recognition) 기술은 발화에 의하여 발생한 음성 신호를 텍스트 데이터로 전환하여 처리하는 기술로, STT(Speech-to-Text)라고도 한다. 음성 인식 기술은 신규한 입력 방식으로, 기기 제어 및 정보 검색 등에 응용될 수 있다.
인공 지능 스피커(AI speaker) 또는 스마트 스피커(smart speaker)는 음성 인식 기술을 접목시킨 무선 스피커로, 사용자의 음성 명령을 입력 받아 음악 재생, 정보 검색 등의 서비스를 제공할 수 있다. 인공 지능 스피커는 기존의 스피커와 달리 음성 명령을 통해 기기를 제어하는 핸즈 프리의 편의성을 제공할 뿐만 아니라, 음원 스트리밍 사이트와 연동하여 다양한 음악 재생 기능을 제공하고, 이 외에도 알람 설정, 뉴스 및 날씨 제공, 일정 관리 등 사용자 맞춤 기능을 제공할 수 있어, 최근 각광받고 있다.
실시예는 사용자가 호출 명령어로 설정하기 위하여 입력한 텍스트 데이터의 적합도를 평가하여, 사용자 정의의 호출 명령어 설정 기능을 제공할 수 있다.
실시예는 규칙 기반 모델 및 학습 기반 모델 등에 기초하여, 입력된 텍스트 데이터가 호출 명령어로 적합한지 여부를 자동으로 평가할 수 있다.
실시예는 미리 정의된 규칙에 따른 평가 항목들 별 적합도를 평가함으로써, 호출 명령어로 부적합한 것으로 판단되는 경우, 인터페이스를 통해 사용자에게 부적합 메시지를 제공할 수 있다.
일 측에 따른 호출 명령어 설정에 관한 사용자 인터페이싱 방법은 음성 인식 기능을 활성화시키는 호출 명령어를 설정하기 위한 텍스트 데이터를 수신하는 단계; 미리 정의된 규칙 기반 모델에 포함된 복수의 평가 항목들에 기초하여, 상기 텍스트 데이터로부터 복수의 성분들(attributes)을 추출하는 단계; 상기 복수의 성분들에 기초하여 상기 복수의 평가 항목들 별로 적합도를 평가함으로써, 상기 텍스트 데이터의 제1 적합도를 획득하는 단계; 상기 복수의 성분들에 기초하여 특징 벡터(feature vector)를 생성하는 단계; 상기 특징 벡터를 미리 생성된 학습 기반 모델에 인가함으로써, 상기 텍스트 데이터의 제2 적합도를 획득하는 단계; 상기 제1 적합도 및 상기 제2 적합도 중 적어도 하나에 기초하여, 상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하는 단계; 및 상기 판단 결과에 따라 상기 텍스트 데이터를 호출 명령어로 설정하는 단계를 포함한다.
상기 학습 기반 모델은 단어에서 추출된 상기 특징 벡터 및 상기 단어가 호출 명령어로 적합한지 여부의 판정 값을 학습 데이터로 하여 학습된 모델을 포함할 수 있다.
상기 단어가 호출 명령어로 적합한지 여부의 판정 값은 상기 단어에 대응하는 음성 데이터에 기초한, 상기 단어에 대응하는 음성 인식 기반 모델에 따른 호출 명령어의 인식률; 및 복수의 단어들에 대응하는 음성 데이터를 포함하는 방송 데이터베이스 에 기초한, 상기 음성 인식 기반 모델에 따른 호출 명령어의 오인식률 중 적어도 하나에 기초하여 결정되고, 상기 단어에 대응하는 음성 인식 기반 모델은 상기 단어에 대응하는 음성 데이터를 호출 명령어로 인식하는 음성 인식 기반 모델을 포함할 수 있다.
상기 제1 적합도를 획득하는 단계는 미리 정의된 발음 규칙에 기초하여, 상기 복수의 평가 항목들 별 상기 텍스트 데이터의 점수를 획득하는 단계; 및 상기 텍스트 데이터의 점수에 기초하여, 상기 제1 적합도를 획득하는 단계를 포함할 수 있다.
일 측에 따른 사용자 인터페이싱 방법은 일정 기준에 따라 복수의 단어들이 저장된 불용어 사전에 기초하여, 상기 텍스트 데이터의 제3 적합도를 획득하는 단계; 상기 제3 적합도에 기초하여, 상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하는 단계; 및 상기 제3 적합도에 기초한 판단 결과에 따라 상기 텍스트 데이터를 호출 명령어로 설정하는 단계를 더 포함할 수 있다.
일 측에 따른 사용자 인터페이싱 방법은 복수의 단어들에 대응하는 텍스트를 포함하는 텍스트 데이터베이스에 기초하여, 일정 기준 이상의 빈도를 갖는 고빈도 단어를 추출하는 단계; 상기 고빈도 단어에 대응하는 음성 인식 기반 모델을 생성하는 단계; 복수의 단어들에 대응하는 음성 데이터를 포함하는 방송 데이터베이스에 기초하여, 상기 음성 인식 기반 모델에 따른 상기 고빈도 단어의 오인식률을 획득하는 단계; 및 상기 오인식률에 기초하여, 상기 고빈도 단어를 상기 불용어 사전에 저장하는 단계를 더 포함할 수 있다.
일 측에 따른 사용자 인터페이싱 방법은 적어도 하나의 분석 단위를 포함하는 단어에 대응하는 음성 인식 기반 모델에 따른 호출 명령어의 인식률에 기초하여, 분석 단위 별 인식 점수를 획득하는 단계; 상기 텍스트 데이터에 포함된 적어도 하나의 분석 단위 별 상기 인식 점수에 기초하여, 상기 텍스트 데이터의 제4 적합도를 획득하는 단계; 상기 제4 적합도에 기초하여, 상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하는 단계; 및 상기 제4 적합도에 기초한 판단 결과에 따라 상기 텍스트 데이터를 호출 명령어로 설정하는 단계를 더 포함할 수 있다.
상기 분석 단위는 하나의 음소 또는 복수의 음소들의 시퀀스를 포함할 수 있다.
상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하는 단계는 상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 표시하는 단계를 더 포함할 수 있다.
상기 텍스트 데이터가 호출 명령어로 부적합한 것으로 판단된 경우, 상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 표시하는 단계는 상기 복수의 평가 항목들 별 적합도 평가에 기초하여, 상기 복수의 평가 항목들 중 적어도 하나를 부적합 원인으로 선택하는 단계; 및 상기 부적합 원인으로 선택된 적어도 하나의 평가 항목에 관한 정보를 출력하는 단계를 더 포함할 수 있다.
상기 텍스트 데이터가 호출 명령어로 부적합한 것으로 판단된 경우, 상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 표시하는 단계는 상기 부적합 원인으로 선택된 적어도 하나의 평가 항목에 기초하여, 상기 텍스트 데이터를 보정하는 단계; 및 상기 보정된 텍스트 데이터를 출력하는 단계를 더 포함할 수 있다.
일 측에 따른 사용자 인터페이싱 자치는 음성 인식 기능을 활성화시키는 호출 명령어를 설정하기 위한 텍스트 데이터를 수신하고, 미리 정의된 규칙 기반 모델에 포함된 복수의 평가 항목들에 기초하여, 상기 텍스트 데이터로부터 복수의 성분들(attributes)을 추출하고, 상기 복수의 성분들에 기초하여 상기 복수의 평가 항목들 별로 적합도를 평가함으로써, 상기 텍스트 데이터의 제1 적합도를 획득하고, 상기 복수의 성분들에 기초하여 특징 벡터(feature vector)를 생성하고, 상기 특징 벡터를 미리 생성된 학습 기반 모델에 인가함으로써, 상기 텍스트 데이터의 제2 적합도를 획득하고, 상기 제1 적합도 및 상기 제2 적합도 중 적어도 하나에 기초하여, 상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하며, 상기 판단 결과에 따라 상기 텍스트 데이터를 호출 명령어로 설정하는 적어도 하나의 프로세서; 및 상기 학습 기반 모델 및 상기 학습 기반 모델을 저장하는 메모리를 포함한다.
상기 학습 기반 모델은 단어에서 추출된 상기 특징 벡터 및 상기 단어가 호출 명령어로 적합한지 여부의 판정 값을 학습 데이터로 하여 학습된 모델을 포함할 수 있다.
상기 단어가 호출 명령어로 적합한지 여부의 판정 값은 상기 단어에 대응하는 음성 데이터에 기초한, 상기 단어에 대응하는 음성 인식 기반 모델에 따른 호출 명령어의 인식률; 및 복수의 단어들에 대응하는 음성 데이터를 포함하는 방송 데이터베이스 에 기초한, 상기 음성 인식 기반 모델에 따른 호출 명령어의 오인식률 중 적어도 하나에 기초하여 결정되고, 상기 단어에 대응하는 상기 음성 인식 기반 모델은 상기 단어에 대응하는 음성 데이터를 호출 명령어로 인식하는 음성 인식 기반 모델을 포함할 수 있다.
상기 프로세서는 일정 기준에 따라 복수의 단어들이 저장된 불용어 사전에 기초하여, 상기 텍스트 데이터의 제3 적합도를 획득하고, 상기 제3 적합도에 기초하여, 상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하며, 상기 제3 적합도에 기초한 판단 결과에 따라 상기 텍스트 데이터를 호출 명령어로 설정할 수 있다.
상기 메모리는 적어도 하나의 분석 단위를 포함하는 단어에 대응하는 음성 인식 기반 모델에 따른 호출 명령어의 인식률에 기초한 분석 단위 별 인식 점수를 저장할 수 있다.
상기 프로세서는 상기 텍스트 데이터에 포함된 적어도 하나의 분석 단위 별 상기 인식 점수에 기초하여, 상기 텍스트 데이터의 제4 적합도를 획득하고, 상기 제4 적합도에 기초하여, 상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하며, 상기 제4 적합도에 기초한 판단 결과에 따라 상기 텍스트 데이터를 호출 명령어로 설정할 수 있다.
상기 프로세서는 상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 표시할 수 있다.
상기 텍스트 데이터가 호출 명령어로 부적합한 것으로 판단된 경우, 상기 프로세서는 상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 표시함에 있어서, 상기 복수의 평가 항목들 별 적합도 평가에 기초하여, 상기 복수의 평가 항목들 중 적어도 하나를 부적합 원인으로 선택하고, 상기 부적합 원인으로 선택된 적어도 하나의 평가 항목에 관한 정보를 출력할 수 있다.
상기 프로세서는 상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 표시함에 있어서, 상기 부적합 원인으로 선택된 적어도 하나의 평가 항목에 기초하여, 상기 텍스트 데이터를 보정하고, 상기 보정된 텍스트 데이터를 출력할 수 있다.
도 1은 일실시예에 따른 호출 명령어 설정에 관한 사용자 인터페이싱 방법의 동작 흐름도를 도시한 도면.
도 2는 일실시예에 따른 규칙 기반 모델에 포함된 복수의 평가 항목들의 예시를 도시한 도면.
도 3은 일실시예에 따른 학습 기반 모델의 학습 방법을 설명하기 위한 도면.
도 4는 일실시예에 따른 불용어 사전 구축 방법의 동작 흐름도를 도시한 도면.
도 5는 일실시예에 따른 분석 단위가 하나의 음소인 경우, 텍스트 데이터의 제4 적합도를 획득하는 방법을 설명하기 위한 도면.
도 6은 일실시예에 따른 호출 명령어에 대한 적합도 판단에 따른 호출 명령어 설정의 동작 흐름도를 도시한 도면.
도 7은 부적합한 호출 명령어로 판단된 경우, 사용자에게 제공되는 거절 메시지의 인터페이스의 예시를 도시한 도면.
도 8은 일실시예에 따른 규칙 기반 모델 내 평가 항목들에 기초한 보정 방안 제시에 관한 호출 명령어 설정 시나리오를 설명하기 위한 도면.
도 9는 일실시예에 따른 호출 명령어 설정 기능을 포함하는 음성 인식 시스템의 구조를 도시한 도면.
도 10은 일실시예에 따른 호출 명령어 설정 기능을 포함하는 음성 인식 시스템의 상세한 구조를 도시한 도면.
도 11은 일실시예에 따른 호출 명령어 설정 인터페이스를 도시한 도면.
도 12는 일실시예에 따른 인기 호출 명령어 순위가 제공되는 호출 명령어 설정 인터페이스를 도시한 도면.
도 2는 일실시예에 따른 규칙 기반 모델에 포함된 복수의 평가 항목들의 예시를 도시한 도면.
도 3은 일실시예에 따른 학습 기반 모델의 학습 방법을 설명하기 위한 도면.
도 4는 일실시예에 따른 불용어 사전 구축 방법의 동작 흐름도를 도시한 도면.
도 5는 일실시예에 따른 분석 단위가 하나의 음소인 경우, 텍스트 데이터의 제4 적합도를 획득하는 방법을 설명하기 위한 도면.
도 6은 일실시예에 따른 호출 명령어에 대한 적합도 판단에 따른 호출 명령어 설정의 동작 흐름도를 도시한 도면.
도 7은 부적합한 호출 명령어로 판단된 경우, 사용자에게 제공되는 거절 메시지의 인터페이스의 예시를 도시한 도면.
도 8은 일실시예에 따른 규칙 기반 모델 내 평가 항목들에 기초한 보정 방안 제시에 관한 호출 명령어 설정 시나리오를 설명하기 위한 도면.
도 9는 일실시예에 따른 호출 명령어 설정 기능을 포함하는 음성 인식 시스템의 구조를 도시한 도면.
도 10은 일실시예에 따른 호출 명령어 설정 기능을 포함하는 음성 인식 시스템의 상세한 구조를 도시한 도면.
도 11은 일실시예에 따른 호출 명령어 설정 인터페이스를 도시한 도면.
도 12는 일실시예에 따른 인기 호출 명령어 순위가 제공되는 호출 명령어 설정 인터페이스를 도시한 도면.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
또한, 실시 예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
어느 하나의 실시 예에 포함된 구성요소와, 공통적인 기능을 포함하는 구성요소는, 다른 실시 예에서 동일한 명칭을 사용하여 설명하기로 한다. 반대되는 기재가 없는 이상, 어느 하나의 실시 예에 기재한 설명은 다른 실시 예에도 적용될 수 있으며, 중복되는 범위에서 구체적인 설명은 생략하기로 한다.
도 1은 일실시예에 따른 호출 명령어 설정에 관한 사용자 인터페이싱 방법의 동작 흐름도를 도시한 도면이다.
도 1을 참조하면, 일실시예에 따른 사용자 인터페이싱 방법은 음성 인식 기능을 활성화시키는 호출 명령어를 설정하기 위한 텍스트 데이터(101)를 수신하는 단계, 미리 정의된 규칙 기반 모델(11)에 포함된 복수의 평가 항목들에 기초하여, 텍스트 데이터로부터 복수의 성분들(attributes)을 추출하는 단계(110), 복수의 성분들에 기초하여 복수의 평가 항목들 별로 적합도를 평가함으로써, 텍스트 데이터의 제1 적합도(102)를 획득하는 단계, 복수의 성분들에 기초하여 특징 벡터(feature vector)를 생성하는 단계(120), 특징 벡터를 미리 생성된 학습 기반 모델(12)에 인가함으로써, 텍스트 데이터의 제2 적합도(103)를 획득하는 단계, 제1 적합도 및 제2 적합도 중 적어도 하나에 기초하여, 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하는 단계(130) 및 판단 결과에 따라 텍스트 데이터를 호출 명령어로 설정하는 단계(140)를 포함한다.
호출 명령어(wake-up word)는 음성 인식 기능을 활성화시키는 명령어로, 예를 들어 음성 인식 기능이 탑재된 장치에서 음성 인식 기능을 활성화시키기 위하여 미리 정해진 명령어에 해당할 수 있다. 호출 명령어가 설정된 장치는 해당 호출 명령어에 대응하는 음성 신호가 수신된 경우, 음성 인식 기능이 활성화될 수 있다.
일실시예에 따른 텍스트 데이터는 사용자로부터 수신되며, 사용자가 호출 명령어 설정을 위한 설정 어플리케이션 등 사용자 인터페이스를 통하여 호출 명령어 설정을 위하여 입력한 텍스트 데이터에 해당할 수 있다. 일실시예에 따를 때, 사용자로부터 수신된 텍스트 데이터가 호출 명령어로 설정되는 경우, 해당 텍스트 데이터에 대응하는 음성 신호에 의해 음성 인식 기능이 활성화될 수 있다. 예를 들어, 사용자가 음성 인식 기능이 탑재된 인공 지능 스피커의 호출 명령어로 "철수야"를 설정하고자 하는 경우, 인공 지능 스피커를 위한 호출 명령어 설정 어플리케이션 등 사용자 인터페이스를 통하여 "철수야"의 텍스트 데이터를 입력할 수 있다. 이 경우, 사용자가 입력한 "철수야"의 텍스트 데이터가 일실시예에 따른 호출 명령어를 설정하기 위하여 수신된 텍스트 데이터에 해당한다.
일실시예에 따른 사용자 인터페이싱 방법은 수신된 텍스트 데이터에 대하여 호출 명령어로써 적합한지 여부를 판단하는 단계를 포함한다. 일실시예에 따를 때, 미리 정의된 규칙 기반 모델(11) 및 미리 생성된 학습 기반 모델(12)에 기초하여, 수신된 텍스트 데이터가 호출 명령어로 적합한지 여부가 판단(130)될 수 있다. 즉, 일실시예에 따른 인터페이싱 방법은 규칙 기반 모델(11)에 따른 제1 적합도(102) 및 학습 기반 모델(12)에 따른 제2 적합도(103)에 기초하여, 입력된 텍스트 데이터(101)가 호출 명령어로 적합한지 여부를 판단(130)하고, 호출 명령어로 적합한 것으로 판단된 경우, 입력된 텍스트 데이터(101)를 호출 명령어로 설정하는 단계(140)를 포함할 수 있다.
일실시예에 따를 때, 복수의 평가 항목들을 포함하는 규칙 기반 모델(11)이 미리 정의될 수 있다. 일실시예에 따른 복수의 평가 항목들은 텍스트 데이터의 적합도를 평가하기 위한 복수의 항목들에 해당할 수 있다. 예를 들어, 도 2를 참조하면, 규칙 기반 모델에 평가 항목들로 글자 수에 관한 평가 항목(201), 자소 수에 관한 평가 항목(202) 등이 포함될 수 있다. 도 2에 도시된 평가 항목들(201 내지 207)은 일실시예에 따른 복수의 평가 항목들의 예시에 불과하며, 일실시예에 따른 평가 항목들은 텍스트 데이터에서 추출 가능한 성분들에 기초하여 평가될 수 있는 항목을 제한없이 포함할 수 있다.
다시 도1 을 참조하면, 일실시예에 따른 텍스트 데이터는 해당 텍스트 데이터에서 추출될 수 있는 성분들(attributes)에 기초하여, 규칙 기반 모델(11)에 포함된 복수의 평가 항목들 별로 적합도가 평가될 수 있다. 일실시예에 따를 때, 규칙 기반 모델(11)에 포함된 복수의 평가 항목들에 기초하여, 텍스트 데이터로부터 복수의 성분들이 추출될 수 있다. 즉, 복수의 평가 항목들에 기초하여, 텍스트 데이터에서 추출 가능한 성분들 중 적어도 일부가 추출될 수 있다. 예를 들어, 규칙 기반 모델에 글자 수에 관한 평가 항목 및 종성 자음의 종류에 관한 평가 항목이 포함되어 있는 경우, 텍스트 데이터에서 글자 수에 관한 성분 및 종성 자음의 종류에 관한 성분이 추출될 수 있다. "자기야"의 텍스트 데이터를 예로 들면, "자기야"의 텍스트 데이터에서 글자 수에 관한 평가 항목에 기초하여 추출되는 성분은 "자기야"의 텍스트 데이터의 글자 수인 3에 해당할 수 있고, 종성 자음의 종류에 관한 평가 항목에 기초하여 추출되는 성분은 종성 자음 "야"의 종류인 "ㅇ"에 해당할 수 있다. 일실시예에 따를 때, 평가 항목에 따라 추출되는 성분은 다양한 유형의 정보를 포함할 수 있다. 예를 들어, "자기야"의 텍스트 데이터에서 종성 자음의 종류에 관한 평가 항목에 기초하여 추출되는 성분은 "ㅇ"의 자음 유형의 정보를 포함할 수도 있고, "ㅇ"에 대응되는 숫자 유형의 정보를 포함할 수도 있으며, "ㅇ"에 대응되는 벡터 유형의 정보를 포함할 수도 있다.
일실시예에 따른 제1 적합도(102)는 규칙 기반 모델(11)에 기반한 적합도로, 텍스트 데이터로부터 추출된 복수의 성분들에 기초하여 복수의 평가 항목들 별로 적합도를 평가함으로써 획득될 수 있다. 일실시예에 따를 때, 평가 항목들 별 적합도는 텍스트 데이터로부터 추출된 복수의 성분들에 기초하여, 평가 항목들 별 미리 정해진 기준에 따라 평가될 수 있다. 예를 들어, 도 2를 참조하면, 개수 별 미리 설정된 점수에 따라, 글자 수에 관한 평가 항목 등 개수와 관련된 평가 항목들에 대한 텍스트 데이터의 적합도를 점수로 산출할 수 있고, 종류 별 미리 설정된 점수에 따라, 종성 자음 종류에 관한 평가 항목 등 종류와 관련된 평가 항목들에 대한 텍스트 데이터의 적합도를 점수로 산출할 수 있다. "자기야"의 텍스트 데이터를 예로 들면, "자기야"의 글자 수는 3이므로, 글자 수에 관한 평가 항목의 점수는 8, 종성 자음은 "ㅇ"이므로, 종성 자음 종류에 관한 평가 항목의 점수는 3으로 산출될 수 있다. 일실시예에 따를 때, 규칙 기반 모델에 포함된 복수의 평가 항목들은 발음 규칙에 관한 평가 항목들을 포함할 수 있고, 복수의 평가 항목들 별로 적합도를 평가함으로써 획득된 제1 적합도는 발음 상 적합한지 여부에 관한 적합도를 포함할 수 있다.
다시 도1을 참조하면, 일실시예에 따른 제1 적합도(102)는 복수의 평가 항목들 별 적합도 평가에 기초하여 획득될 수 있다. 예를 들어, 제1 적합도(102)는 복수의 평가 항목들 별 적합도들을 연산함으로써 획득될 수도 있고, 복수의 평가 항목들 별 적합도들을 나열함으로써 획득될 수도 있다. 도 2와 같이, 복수의 평가 항목들 별 적합도가 수치로 산출된 경우를 예로 들면, 제1 적합도는 복수의 평가 항목들에 대하여 산출된 수치들을 더하거나, 평균을 내는 등의 연산을 통하여 획득될 수도 있고, 복수의 평가 항목들에 대하여 산출된 수치들을 성분으로 하는 벡터를 구성함으로써, 제1 적합도가 획득될 수도 있다. 또한, 규칙 기반 모델에 포함된 복수의 평가 항목들 별로 적합도 평가 결과를 획득할 수 있다. 예를 들어, 평가 항목들 별로 미리 정해진 기준에 따라 적합 여부를 판단하여, 적합한 것으로 판단된 평가 항목의 개수로 제1 적합도가 획득될 수도 있고, 평가 항목들 별 적합 여부를 1 또는 0으로 표시한 벡터로 제1 적합도가 획득될 수도 있다.
일실시예에 따를 때, 텍스트 데이터가 제1 적합도에 의해 호출 명령어로 적합하지 않은 것으로 판단되는 경우, 규칙 기반 모델에 포함된 복수의 평가 항목들 별 적합도 평가에 따라, 복수의 평가 항목들 중 적어도 하나가 부적합 원인에 해당될 수 있다. 일실시예에 따른 사용자 인터페이싱 방법은 부적합 원인으로 선택된 적어도 하나의 평가 항목에 관한 정보를 출력하는 단계를 더 포함할 수 있다. 다시 말해, 사용자 인터페이스를 통해 특정 평가 항목에 의해 입력된 텍스트 데이터가 호출 명령어로 적합하지 않음이 출력될 수 있다.
또한, 일실시예에 따른 사용자 인터페이싱 방법은 부적합 원인에 해당하는 평가 항목에 기초하여, 텍스트 데이터를 보정하는 단계를 더 포함할 수 있다. 즉, 부적합 원인에 해당하는 평가 항목에 기초하여, 미리 정해진 규칙에 따라 텍스트 데이터의 보정 방안이 제시될 수 있다. 예를 들어, 글자 수에 관한 평가 항목이 부적합 원인에 해당하는 경우, 텍스트 데이터에 글자를 추가하거나 텍스트 데이터에서 글자를 삭제하는 보정 방안이 제시될 수 있고, 마지막 모음의 종류에 관한 평가 항목이 부적합 원인에 해당하는 경우, 텍스트 데이터의 마지막 모음을 변환하는 보정 방안이 제시될 수 있다. 규칙 기반 모델 내 평가 항목들에 기초한 보정 방안 제시에 관한 호출 명령어 설정 시나리오는 이하의 도 8에서 상술한다.
즉, 입력된 텍스트 데이터에 대하여 규칙 기반 모델에 포함된 복수의 평가 항목들 별로 적합도를 평가함에 따라, 입력된 텍스트가 호출 명령어로 부적합한 것으로 판단되는 경우 부적합 원인이 획득될 수 있고, 부적합 원인에 기초하여 호출 명령어로 적합하도록 입력된 텍스트 데이터를 보정하는 방안이 획득될 수 있다.
일실시예에 따른 학습 기반 모델(12)은 텍스트 데이터의 특징 벡터를 입력 받아 텍스트 데이터의 제2 적합도를 출력하는 인공 신경망 모델을 포함할 수 있다. 여기서, 텍스트 데이터의 특징 벡터는 텍스트 데이터로부터 추출된 복수의 성분들에 기초하여 생성된 특징 벡터에 해당할 수 있다. 일실시예에 따른 특징 벡터를 학습 기반 모델에 인가함으로써, 텍스트 데이터의 제2 적합도(103)가 획득될 수 있다. 일실시예에 따른 학습 기반 모델(12)은 텍스트 데이터가 호출 명령어로 적합한지 여부의 판정 값 및 텍스트 데이터에서 추출된 특징 벡터를 학습 데이터로 하여 학습된 인공 신경망 모델로, 인공 신경망 모델은 DNN, CNN 등 다양한 인공 신경망 모델을 포함할 수 있다. 즉, 일실시예에 따른 학습 기반 모델은 대용량의 학습 데이터로 학습된 인공 신경망에 기반하여 입력된 텍스트 데이터가 호출 명령어로 적합한지 여부를 출력하는 모델로, 학습 기반 모델에 의해 획득되는 제2 적합도는 통계적으로 획득된 적합도에 해당할 수 있다. 일실시예에 따른 학습 기반 모델(12)의 학습 방법은 이하의 도 3에서 상술한다.
일실시예에 따를 때, 학습 기반 모델(12)은 규칙 기반 모델(11)에 포함된 복수의 평가 항목들에 기초하여 텍스트 데이터로부터 추출된 복수의 성분들을 입력 받아, 텍스트 데이터의 특징 벡터를 생성하고, 생성된 특징 벡터를 인공 신경망에 인가함으로써, 제2 적합도(103)를 출력하는 모델을 포함할 수 있다.
도 1에 도시되지는 않았으나, 일실시예에 따를 때, 호출 명령어의 적합 여부는 불용어 사전에 기초하여 판단될 수 있다. 일실시예에 따른 불용어 사전은 호출 명령어로 적합하지 않은 단어들이 저장된 데이터베이스로, 예를 들어, 비속어에 해당하는 단어, 일상 생활에서 많이 사용하는 단어 등 미리 정해진 기준에 따라 호출 명령어로 적합하지 않은 단어들이 포함될 수 있다.
일실시예에 따른 수신된 텍스트 데이터에 대하여 호출 명령어로써 적합한지 여부를 판단하는 사용자 인터페이싱 방법은 불용어 사전에 기초하여 호출 명령어로 적합한지 여부를 판단하는 단계를 포함할 수 있다. 다시 말해, 일실시예에 따른 사용자 인터페이싱 방법은 일정 기준에 따라 복수의 단어들이 저장된 불용어 사전에 기초하여, 텍스트 데이터의 제3 적합도를 판단하는 단계, 제3 적합도에 기초하여, 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하는 단계, 및 제3 적합도에 기초한 판다 결과에 따라 텍스트 데이터를 호출 명령어로 설정하는 단계를 더 포함할 수 있다. 즉, 불용어 사전에 기초한 제3 적합도는 규칙 모델에 기반한 제1 적합도 및 학습 기반 모델에 기반한 제2 적합도와 함께 호출 명령어로 적합한지 여부의 판단에 이용될 수 있다.
예를 들어, 제3 적합도는 사용자가 입력한 텍스트가 불용어 사전에 포함된 단어에 대응되는지 여부를 판단함으로써 획득되는 것으로, 불용어 사전에 포함된 단어에 대응되는 경우 부적합을 지시하고, 불용어 사전에 포함된 단어에 대응되지 않는 경우 적합을 지시하는 정보를 포함할 수 있다.
일실시예에 따른 불용어 사전의 구축 방법은 이하의 도 4에서 상술한다.
도 1에 도시되지는 않았으나, 일실시예에 따를 때, 호출 명령어의 적합 여부는 호출 명령어 인식 점수에 기초하여 판단될 수 있다. 일실시예에 따른 수신된 텍스트 데이터에 대하여 호출 명령어로써 적합한지 여부를 판단하는 사용자 인터페이싱 방법은 입력된 텍스트 데이터에 대한 호출 명령어 인식 점수에 기초하여 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하는 단계를 포함할 수 있다. 다시 말해, 적어도 하나의 분석 단위를 포함하는 단어에 대한 음성 인식 기반 모델에 따른 단어의 인식률에 기초하여, 분석 단위 별 인식 점수를 획득하는 단계, 호출 명령어를 설정하기 위한 텍스트 데이터에 포함된 적어도 하나의 분석 단위 별 인식 점수에 기초하여, 텍스트 데이터의 전체 인식 점수를 계산하는 단계, 텍스트 데이터의 전체 인식 점수에 기초하여, 텍스트 데이터의 제4 적합도를 판단하는 단계를 더 포함할 수 있다. 일실시예에 따른 제4 적합도는 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하기 위해 이용될 수 있으며, 제4 적합도에 기초한 적합 여부 판단 결과에 따라 텍스트 데이터가 호출 명령어로 설정될 수 있다. 일실시예에 따를 때, 인식 점수 획득을 위한 분석 단위는 하나의 음소 또는 복수의 음소들의 시퀀스(예를 들어, 트라이폰)를 포함할 수 있다. 일실시예에 따른 제4 적합도를 획득하는 방법은 이하의 도 5에서 상술한다.
도 3은 일실시예에 따른 학습 기반 모델의 학습 방법을 설명하기 위한 도면이다.
도 3을 참조하면, 일실시예에 따른 학습 기반 모델(12)은 임의의 단어에서 추출된 특징 벡터 및 해당 단어가 호출 명령어로 적합한지 여부의 판정 값을 학습 데이터로 하여 학습된 모델에 해당할 수 있다. 일실시예에 따를 때, 특정 단어가 호출 명령어로 적합한지 여부의 판정 값은 해당 단어에 대응하는 음성 데이터에 기초한, 해당 단어에 대응하는 음성 인식 기반 모델에 따른 호출 명령어의 인식률 및 복수의 단어들에 대응하는 음성 데이터를 포함하는 방송 데이터베이스에 기초한, 해당 단어에 대응하는 음성 인식 기반 모델에 따른 호출 명령어의 오인식률 중 적어도 하나에 기초하여 결정될 수 있다. 이하에서, 음성 인식 기반 모델에 따른 호출 명령어의 인식률은 인식률로 간략하게 지칭될 수 있고, 음성 인식 기반 모델에 따른 호출 명령어의 오인식률은 오인식률로 간략하게 지칭될 수 있다.
일실시예에 따를 때, 음성 인식 기반 모델은 음성 데이터에서 설정된 호출 명령어를 인식하기 위한 모델로, 기계 학습에 의해 구축된 음향 모델(acoustic model)을 이용한 핵심어 검출 모델, DNN을 이용한 핵심어 검출 모델 등 다양한 모델을 포함할 수 있다. 일실시예에 따를 때, 음성 인식 기반 모델은 호출 명령어에 대응하는 복수의 음성 데이터를 이용하여 학습될 수 있다. 일실시예에 따른 특정 단어에 대응하는 음성 인식 기반 모델은 해당 단어에 대응하는 음성 데이터를 호출 명령어로 인식하는 음성 인식 기반 모델을 포함할 수 있다. 이하에서, 특정 단어를 호출 명령어로 인식하는 음성 인식 기반 모델은 호출 명령어 인식 모델로 지칭될 수 있다.
일실시예에 따를 때, 특정 단어가 호출 명령어로 적합한지 여부의 판정 값은 해당 단어에 대응하는 음성 인식 모델에 따른 호출 명령어의 인식률에 대한 평가(330) 및 오인식률에 대한 평가(340) 중 적어도 하나에 기초하여, 해당 단어가 호출 명령어로 적합한지 여부를 판단(350)함으로써 결정된 값에 해당할 수 있다. 예를 들어, 인식률이 미리 정해진 임계치 이상이고, 오인식률이 미리 정해진 임계치 미만인 경우, 해당 단어는 호출 명령어로 적합한 것으로 판단되어 판정 값은 1로 결정될 수 있고, 인식률이 미리 정해진 임계치 미만이고, 오인식률이 미리 정해진 임계치 이상인 경우, 해당 단어는 호출 명령어로 부적합한 것으로 판단되어 판정 값은 0으로 결정될 수 있다.
일실시예에 따른 학습 기반 모델(12)의 학습 데이터는 특정 단어의 특징 정보 및 특정 단어가 호출 명령어로 적합한지 여부의 판정 값을 포함할 수 있다. 여기서, 특정 단어의 특징 정보는 단어 정보에 기초하여 추출된 특징 정보로, 특징 벡터를 포함할 수 있다. 즉, 특징 정보를 추출(360)하는 것은 단어의 텍스트 데이터에서 추출된 복수의 성분들에 기초하여 특징 벡터를 생성하는 것을 포함할 수 있다.
특정 단어가 호출 명령어로 적합한지 여부의 판정 값은 단어 인식용 음성 데이터(301)에서 단어 정보를 추출(310)하고, 추출된 단어 정보에 기초하여 해당 단어에 대응하는 호출 명령어 인식 모델을 구축(320)하고, 호출 명령어 인식 모델에 따른 인식률 평가(330) 및/또는 오인식률 평가(340)에 기초하여 호출 명령어로 적합한지 여부를 판단(340)함으로써, 획득될 수 있다. 여기서, 단어 인식용 음성 데이터(301)는 복수의 단어 별 복수의 샘플 음성 데이터를 포함할 수 있고, 단어 정보는 샘플 음성 데이터에 대응되는 텍스트 데이터를 포함할 수 있다.
일실시예에 따를 때, 음성 인식 기반 모델에 따른 인식률은 호출 명령어에 대응되는 음성 데이터를 음성 인식 기반 모델에 입력하였을 때, 호출 명령어로 인식될 확률에 해당할 수 있다. 일실시예에 따를 때, 음성 인식 기반 모델에 따른 호출 명령어의 인식률이 미리 정해진 임계치 이상인 경우, 인식률 평가(330)에서 해당 호출 명령어는 적합한 것으로 판단될 수 있다.
음성 인식 기반 모델에 따른 호출 명령어의 오인식률은 음성 인식 기반 모델에 방송 데이터베이스에 포함된 대용량의 음성 데이터를 입력하였을 때, 호출 명령어로 인식될 확률에 해당할 수 있다. 대용량의 방송 데이터베이스를 음성 인식 기반 모델에 입력하였을 때, 호출 명령어로 인식될 확률이 높은 경우, 설정된 호출 명령어는 일상 대화나 방송 등 일상 생활에 자주 등장하는 단어에 해당할 확률이 높다는 것을 의미할 수 있다. 일상 생활에 자주 등장하는 단어를 호출 명령어로 설정하는 경우, 대화에 포함된 음성 데이터를 호출 명령어로 오인식할 확률이 높으므로, 호출 명령어로 적합하지 않은 단어에 해당할 수 있다. 따라서, 특정 단어에 대응하는 음성 인식 기반 모델에 따른 호출 명령어의 오인식률에 기초하여 특정 단어가 호출 명령어로 적합한지 여부가 결정될 수 있다. 일실시예에 따를 때, 특정 단어에 대응하는 음성 인식 기반 모델에 따른 호출 명령어의 오인식률이 미리 정해진 임계치 이상인 경우, 오인식률 평가(340)에서 해당 단어는 호출 명령어로 부적합한 것으로 판단될 수 있다.
도 4는 일실시예에 따른 불용어 사전 구축 방법의 동작 흐름도를 도시한 도면이다.
도 4를 참조하면, 일실시예에 따른 불용어 사전 구축 방법은 복수의 단어들의 텍스트를 포함하는 텍스트 데이터베이스에 기초하여, 일정 기준 이상의 빈도를 갖는 고빈도 단어를 추출하는 단계(410), 고빈도 단어에 대한 호출 명령어 인식 모델을 생성하는 단계(420), 복수의 단어들에 대응하는 음성 데이터를 포함하는 방송 데이터베이스에 기초하여, 호출 명령어 인식 모델에 따른 고빈도 단어의 오인식률을 획득하는 단계(430) 및 오인식률에 기초하여, 고빈도 단어를 불용어 사전에 저장하는 단계(450)를 포함할 수 있다.
일실시예에 따른 텍스트 데이터베이스는 복수의 단어들에 대응되는 텍스트가 포함된 데이터베이스로, 예를 들어 신문, 블로그, 대화, 채팅, 책 등의 대용량 텍스트 코퍼스를 포함할 수 있다. 일실시예에 따를 때, 대용량의 텍스트 데이터베이스에 자주 등장하는 단어가 불용어 사전에 저장될 단어의 후보로 추출될 수 있다. 다시 말해, 대용량의 텍스트 데이터베이스에 자주 등장하는 단어는 일상 생활에서 자주 언급되는 단어로 판단될 수 있고, 일상 생활에서 자주 언급되는 단어는 호출 명령어로 적합하지 않으므로, 대용량의 텍스트 데이터베이스에 자주 등장하는 고빈도 단어가 불용어 사전에 저장될 후보로 추출될 수 있다.
일실시예에 따를 때, 고빈도 단어로 판단하는 기준은 다양할 수 있다. 예를 들어, 텍스트 데이터에서 빈도가 높은 상위 100개의 단어 또는 상위 10%의 단어가 고빈도 단어로 추출될 수도 있고, 텍스트 데이터에서 등장하는 횟수가 임계치 이상인 단어가 고빈도 단어로 추출될 수도 있다.
일실시예에 따른 단계(420)는 추출된 고빈도 단어에 대하여, 음성 인식 기반 모델인 호출 명령어 인식 모델을 생성하는 단계에 해당할 수 있다. 상술한 바와 같이, 고빈도 단어에 대한 호출 명령어 인식 모델은 음성 데이터에서 고빈도 단어를 호출 명령어로 인식하는 음성 인식 기반 모델에 해당할 수 있다.
일실시예에 따른 단계(430)는 대용량의 음성 데이터를 포함하는 방송 데이터베이스를 고빈도 단어에 대한 호출 명령어 인식 모델에 입력하는 경우, 호출 명령어로 인식될 확률을 획득하는 단계에 해당할 수 있다. 즉, 방송 데이터베이스를 고빈도 단어에 대한 호출 명령어 인식 모델에 입력하였을 때, 호출 명령어로 인식될 확률은 해당 호출 명령어가 방송 데이터베이스에 얼마나 많이 포함되었는지에 따라 높게 나타날 수 있다. 즉, 고빈도 단어에 대한 오인식률이 높다는 것은 대화 등 일상 생활에서 발생하는 음성 데이터가 호출 명령어로 오인식될 확률이 높다는 것을 의미하므로, 고빈도 단어에 대한 오인식률에 기초하여, 해당 고빈도 단어가 불용어 사전에 저장될지 여부가 결정될 수 있다.
도 4를 참조하면, 고빈도 단어에 대한 오인식률이 임계치 이상인지 여부를 판단(440)하여, 오인식률이 임계치 이상인 경우 해당 고빈도 단어를 불용어 사전에 저장(450)하고, 오인식률이 임계치 미만인 경우 불용어 사전에 저장하지 않고, 불용어 사전 구축 과정이 종료될 수 있다. 도 4에서 고빈도 단어에 대한 오인식률이 임계치 이상인지 여부를 판단(440)하는 것은 고빈도 단어에 대한 오인식률에 기초하여, 불용어 사전에 저장 여부를 결정하는 기준의 예시에 불과한 것으로, 이에 한정되는 것은 아니다.
도 5는 일실시예에 따른 분석 단위가 하나의 음소인 경우, 텍스트 데이터의 제4 적합도를 획득하는 방법을 설명하기 위한 도면이다.
도 5를 참조하면, 복수의 단어들 각각에 대한 호출 명령어 인식 모델에 따른 각 단어의 인식률을 획득(510)하고, 복수의 단어들 각각에 대하여 획득된 인식률을 반영하여 분석 단위 별로 인식 점수를 계산(520)함으로써, 분석 단위 별 인식 점수(501)가 획득될 수 있다. 예를 들어, 단어 A에 대한 호출 명령어 인식 모델에 따른 인식률이 50(%)이고, 단어 B에 대한 호출 명령어 인식 모델에 따른 인식률이 70(%)인 경우, 단어 A에 포함된 분석 단위들 각각에 50을 반영하여 분석 단위 별 인식 점수를 계산하고, 단어 B에 포함된 분석 단위들 각각에 70을 반영하여 분석 단위 별 인식 점수를 계산할 수 있다. 보다 구체적으로, 분석 단위 별 인식 점수는 분석 단위를 포함하는 단어들에 대한 호출 명령어 인식 모델에 따른 인식률들의 평균으로 계산될 수 있다. 예를 들어, 분석 단위가 음소이고, 음소 a, b, c를 포함하는 단어 A의 호출 명령어 인식 모델에 따른 인식률이 50(%)이고, 음소 c, d, e를 포함하는 단어 B의 호출 명령어 인식 모델에 따른 인식률이 70%인 경우, 음소 a, b의 인식 점수는 50, 음소 d, e의 인식 점수는 70이고, 단어 A 및 단어 B 모두에 포함된 음소 c의 인식 점수는 단어 A의 인식률과 단어 B의 인식률의 평균인 60이다.
일실시예에 따른 전체 분석 단위 별 인식 점수(501)는 호출 명령어로 설정되기 위하여 입력된 텍스트 데이터의 인식 점수에 따른 제4 적합도 획득에 이용될 수 있다. 일실시예에 따를 때, 획득된 전체 분석 단위 별 인식 점수에 기초하여, 텍스트 데이터에 포함된 분석 단위 별 인식 점수를 획득(530)하고, 텍스트 데이터에 포함된 분석 단위 별 인식 점수에 기초하여, 텍스트 데이터의 제4 적합도를 획득(540)할 수 있다. 예를 들어, 제4 적합도는 텍스트 데이터에 포함된 분석 단위 별 인식 점수를 합함으로써 획득되거나, 텍스트 데이터에 포함된 분석 단위 별 인식 점수의 평균을 계산함으로써 획득될 수 있다.
도 5를 참조하면, 호출 명령어 설정을 위한 텍스트 데이터(502)가 "자기야"이고, 분석 단위가 음소인 경우, 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하는 단계는 제4 적합도는 음소 "ㅈ", 음소 "ㅏ", 음소 "ㄱ" 등 텍스트 데이터에 포함된 음소들에 대하여 음소 별 인식 점수를 획득(530)하고, 텍스트 데이터에 포함된 음소들에 대한 인식 점수들의 평균을 계산함으로써, 제4 적합도를 획득(540)하며, 제4 적합도를 미리 정해진 임계치와 비교하여 적합 여부를 판단(550)하는 단계를 포함할 수 있다.
도 6은 일실시예에 따른 호출 명령어에 대한 적합도 판단에 따른 호출 명령어 설정의 동작 흐름도를 도시한 도면이다.
도 6을 참조하면, 호출 명령어에 대한 적합도는 불용어 사전에 있는 단어인지 여부(610), 발음상 적합한 단어인지 여부(620) 및 통계적으로 적합한 단어인지 여부(630)에 기초하여 판단될 수 있다. 도 6에 따른 판단 순서는 일실시예에 따른 적합도 판단 과정의 예시에 불과하며, 판단 과정을 제한하는 것은 아니다.
도 6을 참조하면, 불용어 사전에 있는 단어인지 여부(610)는 사용자에 의해 입력된 호출 명령어 텍스트가 불용어 사전에 포함된 단어에 대응되는지 여부로 판단될 수 있다. 즉, 불용어 사전에 있는 단어인지 여부를 판단하는 단계(610)는 텍스트 데이터에 대한 제3 적합도에 기초하여 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하는 단계에 해당할 수 있다. 발음상 적합한 단어인지 여부를 판단하는 단계(620)는 규칙 기반 모델에 의해 획득된 제1 적합도에 기초하여 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하는 단계에 해당할 수 있다. 통계적으로 적합한 단어인지 여부를 판단하는 단계(630)는 학습 기반 모델에 의해 획득된 제2 적합도에 기초하여 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하는 단계에 해당할 수 있다.
일실시예에 따를 때, 불용어 사전에 있는 단어인지 여부(610), 발음상 적합한 단어인지 여부(620) 및 통계적으로 적합한 단어인지 여부(630)에 의해 호출 명령어가 적합한 것으로 판단된 경우, 사용자가 입력한 텍스트 데이터를 호출 명령어로 설정(640)함으로써, 호출 명령어 설정 동작이 완료될 수 있다.
일실시예에 따를 때, 불용어 사전에 있는 단어인지 여부(610), 발음상 적합한 단어인지 여부(620) 또는 통계적으로 적합한 단어인지 여부(630)에 의해 호출 명령어가 부적합한 것으로 판단된 경우, 인터페이스를 통해 거절 메시지가 사용자에게 표시(650)됨으로써, 호출 명령어 설정 동작이 완료될 수 있다.
일실시예에 따른 거절 메시지에는 해당 텍스트 데이터의 호출 명령어 설정이 거절된 원인, 해당 텍스트 데이터의 적합도, 해당 텍스트 데이터가 호출 명령어로 설정되기 위한 보정 방안 등이 포함될 수 있다. 일실시예에 따른 거절 메시지에 포함되는 내용은 제1 적합도, 제2 적합도, 제3 적합도 및 제4 적합도에 기초하여 결정될 수 있다. 예를 들어, 제1 적합도에 기초하여 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단한 결과, 부적합한 것으로 판단된 경우, 규칙 기반 모델에 포함된 평가 항목들 중 적어도 하나가 부적합 원인으로 선택될 수 있으며, 부적합 원인에 대응되는 거절 메시지가 출력될 수 있다.
도 7은 부적합한 호출 명령어로 판단된 경우, 사용자에게 제공되는 거절 메시지의 인터페이스를 예시한 도면이다.
도 7을 참조하면, 입력된 텍스트 데이터에 대한 거절 메시지로, 해당 텍스트 데이터의 호출 명령어 설정이 거절된 원인, 해당 텍스트 데이터의 적합도, 해당 텍스트 데이터가 호출 명령어로 설정되기 위한 보정 방안 등을 포함할 수 있다. 일실시예에 따른 텍스트 데이터가 "아모르"를 도 에 도시된 평가 항목들을 포함하는 규칙 기반 모델에 따른 제1 적합도에 기초하여, 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하는 경우를 가정하여 설명한다. 도 를 참조하면, "아모르"의 글자 수는 3이므로 평가 항목(201)의 적합도 점수는 8점, "자소 수는 5이므로 평가 항목(202)의 적합도 점수는 6점, 자음의 수는 2이므로 평가 항목(203)의 적합도 점수는 2점, 자음이 없는 음절 수는 2이므로 평가 항목(204)의 적합도 점수는 8점, 이중 모음의 수는 0이므로 평가 항목(205)의 적합도 점수는 10점, 종성 자음의 종류는 "ㄹ"이므로 평가 항목(206)의 적합도 점수는 3점, 마지막 모음의 종류는 "ㅡ"이므로 평가 항목(207)의 적합도 점수는 3점으로, 제2 적합도는 이를 합산한 8+6+2+8+10+3+3=40으로 획득될 수 있다. 예를 들어, 제2 적합도가 40을 초과해야 적합한 것으로 판단되는 경우, "아모르"는 규칙 기반 모델에 따른 2 적합도 평가 결과 부적합한 것으로 판단되므로, 거절 메시지가 출력될 수 있다. 이 때, 복수의 평가 항목들 별 적합도 평가에 기초하여, 복수의 평가 항목들 중 적어도 하나가 부적합 원인으로 선택될 수 있다. 예를 들어, 마지막 모음 종류에 관한 평가 항목에서 3점 이하인 경우, 부적합한 것으로 평가되는 경우, 마지막 모음 종류에 관한 평가 항목이 부적합 원인으로 선택될 수 있다. 일실시예에 따른 거절 메시지에는 부적합 원인을 지시하는 정보가 포함될 수 있으며, 도 7을 참조하면, 마지막 모음의 종류에 관한 평가 항목에 따라 "마지막 모음이 적합하지 않습니다"의 텍스트와 규칙 기반 모델에 따른 제2 적합도 점수가 표시될 수 있다. 또한, 마지막 모음의 종류에 관한 평가 항목에서 적합한 것으로 평가될 수 있는 마지막 모음을 가진 "초롱아", "친구야", "해리포터" 등의 보정 방안이 거절 메시지에 포함되어 사용자 인터페이스를 통해 출력될 수 있다. 도 7에 도시된 거절 메시지는 사용자에게 표시되는 거절 메시지의 일 예에 불과하며, 인터페이스를 통해 사용자에게 표시되는 거절 메시지가 이에 한정되는 것은 아니다.
도 8은 일실시예에 따른 규칙 기반 모델 내 평가 항목들에 기초한 보정 방안 제시에 관한 호출 명령어 설정 시나리오를 설명하기 위한 도면이다.
도 8을 참조하면, 보정 방안 제시에 관한 호출 명령어 설정 시나리오는 사용자로부터 호출 명령어로 설정될 텍스트 데이터를 수신하는 단계(810), 수신된 텍스트 데이터에 대하여, 규칙 기반 모델 내 평가 항목들 별로 적합도를 평가하는 단계(820), 평가 항목들 별 적합도 평가에 기초하여 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하는 단계(830), 부적합한 것으로 판단된 경우 부적합 원인에 해당하는 평가 항목에 따라 텍스트 데이터를 변환하는 단계(840), 및 변환된 텍스트 데이터에 대하여 규칙 기반 모델에 따라 호출 명령어로 적합한지 여부를 판단하는 단계를 포함할 수 있다.
일실시예에 따른 평가 항목들 별 적합도 평가에 기초하여 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하는 단계(830)는 수신된 텍스트 데이터에 대하여 규칙 기반 모델에 따른 제1 적합도를 획득하고, 획득된 제1 적합도에 기초하여 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하는 단계에 해당할 수 있다.
일실시예에 따른 단계(840)는 제1 적합도에 의해 텍스트 데이터가 호출 명령어로 부적합한 것으로 판단된 경우, 규칙 기반 모델에 포함된 평가 항목들 별 적합도 평가 결과에 기초하여, 부적합 원인에 해당하는 평가 항목을 추출하고, 부적합 원인에 해당하는 것으로 추출된 평가 항목에 기초하여 미리 정해진 규칙에 따라 텍스트 데이터를 변환하는 단계를 포함할 수 있다. 여기서, 미리 정해진 규칙은 평가 항목에 의해 적합한 것으로 평가되도록 텍스트 데이터를 변환하는 규칙으로, 평가 항목에 따라 글자를 추가하거나, 글자를 삭제하거나, 자소를 변환하는 규칙 등을 포함할 수 있다.
일실시예에 따를 때, 부적합 원인에 해당하는 평가 항목에 따라 텍스트 데이터를 변환하고, 변환된 텍스트 데이터에 대하여 다시 호출 명령어로 적합한지 여부를 판단하는 단계가 무한정 반복되는 것을 방지하기 위하여, 변환 횟수가 임계치 이상인지 여부를 판단(850)하여, 임계치 이상인 경우 호출 명령어 등록 실패로 호출 명령어 설정 과정이 종료되도록 호출 명령어 설정 시나리오가 설정될 수 있다.
도 9는 일실시예에 따른 호출 명령어 설정 기능을 포함하는 음성 인식 시스템의 구조를 도시한 도면이다.
도 9를 참조하면, 일실시예에 따른 음성 인식 시스템은 단말 시스템 및 서버 시스템을 포함하며, 단말 시스템은 인터페이스를 통해 사용자와 상호작용할 수 있는 시스템에 해당하고, 서버 시스템은 단말 시스템을 통하여 입력된 명령을 처리하는 시스템에 해당할 수 있다. 서버 시스템은 일실시예에 따른 호출 명령어에 대한 적합도를 판별하는 사용자 인터페이싱 장치인 호출 명령어 적합도 판별기 및 입력된 음성 데이터로부터 호출 명령어를 인식하는 음성 인식 엔진 등을 포함할 수 있다. 일실시예에 따를 때, 사용자가 단말 시스템을 통하여 호출 명령어로 설정하고자 하는 텍스트 데이터를 입력할 수 있고, 서버 시스템의 호출 명령어 적합도 판별기는 단말 시스템으로부터 호출 명령어 설정에 관한 명령을 입력 받아, 호출 명령어 설정에 관한 오퍼레이션을 수행할 수 있다. 일실시예에 따른 호출 명령어 적합도 판별기는 상술한 호출 명령어 설정에 관한 사용자 인터페이싱 방법에 따라 호출 명령어 설정에 관한 오퍼레이션을 수행할 수 있다. 일실시예에 따른 서버 시스템은 불용어 사전을 포함할 수 있고, 호출 명령어 적합도 판별기는 불용어 사전에 접근하여, 호출 명령어 설정을 위해 입력된 텍스트 데이터가 불용어 사전에 포함된 단어에 대응하는지 여부를 판단함으로써, 적합도를 판단할 수 있다. 입력된 텍스트 데이터가 호출 명령어 판별기에서 적합한 것으로 판단된 경우, 해당 텍스트 데이터에 대응하는 호출 명령어가 설정될 수 있다. 입력된 텍스트 데이터가 호출 명령어로 설정된 경우, 해당 텍스트 데이터에 대응하는 음성 모델에 기초하여, 해당 텍스트 데이터에 대응하는 음성 데이터를 호출 명령어로 인식하는 음성 인식 엔진이 구축될 수 있다. 구축된 음성 인식 엔진은 단말 시스템을 통해 음성 데이터가 입력되는 경우, 입력된 음성 데이터에 호출 명령어가 포함되었는지 여부를 판단하여, 음성 인식 기능이 활성화될 수 있다. 즉, 음성 인식 엔진에 입력된 음성 데이터에서 호출 명령어가 인식된 경우, 음성 인식 엔진의 음성 인식 기능이 활성화되어, 음성 인식 엔진은 이후 입력되는 음성 데이터를 인식하여, 음성 인식에 따른 동작을 수행할 수 있다.
도 10은 일실시예에 따른 호출 명령어 설정 기능을 포함하는 음성 인식 시스템의 상세한 구조를 도시한 도면이다.
도 10을 참조하면, 일실시예에 따른 호출 명령어 적합도 판별기 및 음성 인식 엔진은 단말 시스템 및 서버 시스템 모두에 포함될 수 있다. 일실시예에 따를 때, 단말 시스템에 포함된 1차 호출 명령어 적합도 판별기 및 1차 음성 인식 엔진은 서버 시스템에 포함된 2차 호출 명령어 적합도 판별기 및 2차 음성 인식 엔진보다 적은 연산을 처리하는 모듈에 해당할 수 있다. 즉, 서버 시스템에서 상대적으로 정교하고 복잡한 연산을 처리하고, 단말 시스템에서 상대적으로 간단한 연산을 처리하도록 기능이 분리될 수 있다. 일실시예에 따를 때, 호출 명령어 설정 인터페이스는 음성 인식 기기(예를 들어, 인공 지능 스피커)에서 제공되는 사용자 인터페이스에 포함될 수도 있고, 별도의 기기에 설치된 설정 어플리케이션을 통해 제공될 수도 있다. 예를 들어, 음성 인식 기능이 탑재된 인공 지능 스피커에 대한 호출 명령어 설정 사용자 인터페이스는 인공 지능 스피커에서 제공될 수도 있으나, 인공 지능 스피커와 연동된 휴대폰에 설치된 설정 어플리케이션을 통하여, 제공될 수 있다.
도 11은 일실시예에 따른 호출 명령어 설정 인터페이스를 도시한 도면이다.
도 11을 참조하면, 미리 정의된 호출 명령어들 중 하나를 음성 인식 기기의 호출 명령어로 선택할 수도 있고, "사용자 설정" 버튼(1110)을 통해 사용자가 호출 명령어로 설정하고자 하는 텍스트 데이터(1120)를 입력함으로써, 사용자 정의 호출 명령어를 설정할 수 있다. 사용자가 호출 명령어로 설정하고자 하는 텍스트 데이터가 입력된 경우, 호출 명령어 적합도 판별기에서 입력된 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하여, 적합한 경우 도 11에 도시된 바와 같이 사용자가 입력한 텍스트 데이터가 호출 명령어로 설정될 수 있다.
도 12를 참조하면, 사용자가 호출 명령어로 설정하고자 하는 텍스트 데이터를 입력하는 인터페이스에서 인기 호출 명령어 순위가 제공될 수 있다. 일실시예에 따른 서버 시스템은 호출 명령어 적합도 판별기에서 적합한 것으로 판단된 호출 명령어를 수집하여, 호출 명령어로 설정된 단어들의 순위를 호출 명령어 설정 인터페이스를 통해 사용자에게 제공할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.
Claims (19)
- 음성 인식 기능을 활성화시키는 호출 명령어를 설정하기 위한 텍스트 데이터를 수신하는 단계;
미리 정의된 규칙 기반 모델에 포함된 복수의 평가 항목들에 기초하여, 상기 텍스트 데이터로부터 복수의 성분들(attributes)을 추출하는 단계;
상기 복수의 성분들에 기초하여 상기 복수의 평가 항목들 별로 적합도를 평가함으로써, 상기 텍스트 데이터의 제1 적합도를 획득하는 단계;
상기 복수의 성분들에 기초하여 특징 벡터(feature vector)를 생성하는 단계;
상기 특징 벡터를 미리 생성된 학습 기반 모델에 인가함으로써, 상기 텍스트 데이터의 제2 적합도를 획득하는 단계;
상기 제1 적합도 및 상기 제2 적합도 중 적어도 하나에 기초하여, 상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하는 단계; 및
상기 판단 결과에 따라 상기 텍스트 데이터를 호출 명령어로 설정하는 단계
를 포함하고,
상기 학습 기반 모델은
학습 데이터에 포함된 임의의 단어에 대응하는 음성 데이터가 음성 인식 기반 모델에 의하여 호출 명령어로 인식될 확률에 관한 인식률 및 일상 발화가 상기 단어로 설정된 호출 명령어로 잘못 인식될 확률에 관한 오인식률에 기초하여, 상기 단어가 호출 명령어로 적합한지 여부의 판정 값을 출력하도록 학습된,
사용자 인터페이싱 방법.
- 제1항에 있어서,
상기 학습 기반 모델은
학습 데이터에 포함된 제1 단어를 발화한 음성 데이터를 호출 명령어로 인식하는 제1 음성 인식 기반 모델을 획득하는 단계;
상기 제1 음성 인식 기반 모델에 상기 제1 단어를 발화한 음성 데이터를 입력하여, 상기 인식률을 획득하는 단계;
상기 제1 음성 인식 기반 모델에 방송 데이터베이스에 포함된 대용량 음성 데이터를 입력하여, 상기 오인식률을 획득하는 단계;
상기 인식률을 미리 정해진 제1 임계치와 비교한 결과 및 상기 오인식률을 미리 정해진 제2 임계치와 비교한 결과에 기초하여, 상기 제1 단어가 호출 명령어로 적합한지 여부의 판정 값을 결정하는 단계;
상기 학습 데이터에 포함된 제1 단어에 대응하는 텍스트 데이터에서 특징 벡터를 추출하는 단계; 및
상기 특징 벡터에 대응하여, 상기 제1 단어에 대응하는 판정 값을 출력하도록 상기 학습 기반 모델에 포함된 레이어의 파라미터를 결정하는 단계
를 포함하는 학습 방법에 의해 학습되는,
사용자 인터페이싱 방법.
- 제2항에 있어서,
상기 제1 단어가 호출 명령어로 적합한지 여부의 판정 값을 결정하는 단계는
상기 인식률이 미리 정해진 제1 임계치 이상인 경우, 상기 제1 단어가 호출 명령어로 적합함을 지시하는 값으로 상기 판정 값을 결정하는 단계; 및
상기 오인식률이 미리 정해진 제2 임계치 이상인 경우, 상기 제1 단어가 호출 명령어로 적합하지 않음을 지시하는 값으로 상기 판정 값을 결정하는 단계
를 포함하는,
사용자 인터페이싱 방법.
- 제1항에 있어서,
상기 제1 적합도를 획득하는 단계는
미리 정의된 발음 규칙에 기초하여, 상기 복수의 평가 항목들 별 상기 텍스트 데이터의 점수를 획득하는 단계; 및
상기 텍스트 데이터의 점수에 기초하여, 상기 제1 적합도를 획득하는 단계
를 포함하는
사용자 인터페이싱 방법.
- 제1항에 있어서,
복수의 단어들이 저장된 불용어 사전에 기초하여, 상기 텍스트 데이터의 제3 적합도를 획득하는 단계;
상기 제3 적합도에 기초하여, 상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하는 단계; 및
상기 제3 적합도에 기초한 판단 결과에 따라 상기 텍스트 데이터를 호출 명령어로 설정하는 단계
를 더 포함하고,
상기 불용어 사전은
복수의 단어들의 텍스트를 포함하는 텍스트 데이터베이스에 기초하여, 일정 기준 이상의 빈도를 갖는 복수의 단어들을 포함하는,
사용자 인터페이싱 방법.
- 제5항에 있어서,
복수의 단어들에 대응하는 텍스트를 포함하는 텍스트 데이터베이스에 기초하여, 일정 기준 이상의 빈도를 갖는 고빈도 단어를 추출하는 단계;
상기 고빈도 단어에 대응하는 음성 인식 기반 모델을 생성하는 단계;
복수의 단어들에 대응하는 음성 데이터를 포함하는 방송 데이터베이스에 기초하여, 상기 음성 인식 기반 모델에 따른 상기 고빈도 단어의 오인식률을 획득하는 단계; 및
상기 오인식률에 기초하여, 상기 고빈도 단어를 상기 불용어 사전에 저장하는 단계
를 더 포함하는,
사용자 인터페이싱 방법.
- 제1항에 있어서,
적어도 하나의 분석 단위를 포함하는 단어에 대응하는 음성 인식 기반 모델에 따른 호출 명령어의 인식률에 기초하여, 분석 단위 별 인식 점수를 획득하는 단계;
상기 텍스트 데이터에 포함된 적어도 하나의 분석 단위 별 상기 인식 점수에 기초하여, 상기 텍스트 데이터의 제4 적합도를 획득하는 단계;
상기 제4 적합도에 기초하여, 상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하는 단계; 및
상기 제4 적합도에 기초한 판단 결과에 따라 상기 텍스트 데이터를 호출 명령어로 설정하는 단계
를 더 포함하는,
사용자 인터페이싱 방법.
- 제1항에 있어서,
상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하는 단계는
상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 표시하는 단계
를 더 포함하는,
사용자 인터페이싱 방법.
- 제8항에 있어서,
상기 텍스트 데이터가 호출 명령어로 부적합한 것으로 판단된 경우,
상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 표시하는 단계는
상기 복수의 평가 항목들 별 적합도 평가에 기초하여, 상기 복수의 평가 항목들 중 적어도 하나를 부적합 원인으로 선택하는 단계; 및
상기 부적합 원인으로 선택된 적어도 하나의 평가 항목에 관한 정보를 출력하는 단계
를 더 포함하는
사용자 인터페이싱 방법.
- 제9항에 있어서,
상기 텍스트 데이터가 호출 명령어로 부적합한 것으로 판단된 경우,
상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 표시하는 단계는
상기 부적합 원인으로 선택된 적어도 하나의 평가 항목에 기초하여, 상기 텍스트 데이터를 보정하는 단계; 및
상기 보정된 텍스트 데이터를 출력하는 단계
를 더 포함하는
사용자 인터페이싱 방법.
- 하드웨어와 결합되어 제1항 내지 제10항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
- 음성 인식 기능을 활성화시키는 호출 명령어를 설정하기 위한 텍스트 데이터를 수신하고, 미리 정의된 규칙 기반 모델에 포함된 복수의 평가 항목들에 기초하여, 상기 텍스트 데이터로부터 복수의 성분들(attributes)을 추출하고, 상기 복수의 성분들에 기초하여 상기 복수의 평가 항목들 별로 적합도를 평가함으로써, 상기 텍스트 데이터의 제1 적합도를 획득하고, 상기 복수의 성분들에 기초하여 특징 벡터(feature vector)를 생성하고, 상기 특징 벡터를 미리 생성된 학습 기반 모델에 인가함으로써, 상기 텍스트 데이터의 제2 적합도를 획득하고, 상기 제1 적합도 및 상기 제2 적합도 중 적어도 하나에 기초하여, 상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하며, 상기 판단 결과에 따라 상기 텍스트 데이터를 호출 명령어로 설정하는 적어도 하나의 프로세서; 및
상기 학습 기반 모델 및 상기 학습 기반 모델을 저장하는 메모리
를 포함하고,
상기 학습 기반 모델은
학습 데이터에 포함된 임의의 단어에 대응하는 음성 데이터가 음성 인식 기반 모델에 의하여 호출 명령어로 인식될 확률에 관한 인식률 및 일상 발화가 상기 단어로 설정된 호출 명령어로 잘못 인식될 확률에 관한 오인식률에 기초하여, 상기 단어가 호출 명령어로 적합한지 여부의 판정 값을 출력하도록 학습된,
사용자 인터페이싱 장치.
- 제12항에 있어서,
상기 학습 기반 모델은
학습 데이터에 포함된 제1 단어를 발화한 음성 데이터를 호출 명령어로 인식하는 제1 음성 인식 기반 모델을 획득하는 단계;
상기 제1 음성 인식 기반 모델에 상기 제1 단어를 발화한 음성 데이터를 입력하여, 상기 인식률을 획득하는 단계;
상기 제1 음성 인식 기반 모델에 방송 데이터베이스에 포함된 대용량 음성 데이터를 입력하여, 상기 오인식률을 획득하는 단계;
상기 인식률을 미리 정해진 제1 임계치와 비교한 결과 및 상기 오인식률을 미리 정해진 제2 임계치와 비교한 결과에 기초하여, 상기 제1 단어가 호출 명령어로 적합한지 여부의 판정 값을 결정하는 단계;
상기 학습 데이터에 포함된 제1 단어에 대응하는 텍스트 데이터에서 특징 벡터를 추출하는 단계; 및
상기 특징 벡터에 대응하여, 상기 제1 단어에 대응하는 판정 값을 출력하도록 상기 학습 기반 모델에 포함된 레이어의 파라미터를 결정하는 단계
를 포함하는 학습 방법에 의해 학습되는,
사용자 인터페이싱 장치.
- 제13항에 있어서,
상기 제1 단어가 호출 명령어로 적합한지 여부의 판정 값을 결정하는 단계는
상기 인식률이 미리 정해진 제1 임계치 이상인 경우, 상기 제1 단어가 호출 명령어로 적합함을 지시하는 값으로 상기 판정 값을 결정하는 단계; 및
상기 오인식률이 미리 정해진 제2 임계치 이상인 경우, 상기 제1 단어가 호출 명령어로 적합하지 않음을 지시하는 값으로 상기 판정 값을 결정하는 단계
를 포함하는,
사용자 인터페이싱 장치.
- 제12항에 있어서,
상기 프로세서는
복수의 단어들이 저장된 불용어 사전에 기초하여, 상기 텍스트 데이터의 제3 적합도를 획득하고, 상기 제3 적합도에 기초하여, 상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하며, 상기 제3 적합도에 기초한 판단 결과에 따라 상기 텍스트 데이터를 호출 명령어로 설정하고,
상기 불용어 사전은
복수의 단어들의 텍스트를 포함하는 텍스트 데이터베이스에 기초하여, 일정 기준 이상의 빈도를 갖는 복수의 단어들을 포함하는,
사용자 인터페이싱 장치.
- 제12항에 있어서,
상기 메모리는
적어도 하나의 분석 단위를 포함하는 단어에 대응하는 음성 인식 기반 모델에 따른 호출 명령어의 인식률에 기초한 분석 단위 별 인식 점수를 저장하고,
상기 프로세서는
상기 텍스트 데이터에 포함된 적어도 하나의 분석 단위 별 상기 인식 점수에 기초하여, 상기 텍스트 데이터의 제4 적합도를 획득하고, 상기 제4 적합도에 기초하여, 상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 판단하며, 상기 제4 적합도에 기초한 판단 결과에 따라 상기 텍스트 데이터를 호출 명령어로 설정하는,
사용자 인터페이싱 장치.
- 제12항에 있어서,
상기 프로세서는
상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 표시하는,
사용자 인터페이싱 장치.
- 제17항에 있어서,
상기 텍스트 데이터가 호출 명령어로 부적합한 것으로 판단된 경우,
상기 프로세서는
상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 표시함에 있어서,
상기 복수의 평가 항목들 별 적합도 평가에 기초하여, 상기 복수의 평가 항목들 중 적어도 하나를 부적합 원인으로 선택하고, 상기 부적합 원인으로 선택된 적어도 하나의 평가 항목에 관한 정보를 출력하는,
사용자 인터페이싱 장치.
- 제18항에 있어서,
상기 프로세서는
상기 텍스트 데이터가 호출 명령어로 적합한지 여부를 표시함에 있어서,
상기 부적합 원인으로 선택된 적어도 하나의 평가 항목에 기초하여, 상기 텍스트 데이터를 보정하고, 상기 보정된 텍스트 데이터를 출력하는,
사용자 인터페이싱 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200067730A KR102392992B1 (ko) | 2020-06-04 | 2020-06-04 | 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200067730A KR102392992B1 (ko) | 2020-06-04 | 2020-06-04 | 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210150833A KR20210150833A (ko) | 2021-12-13 |
KR102392992B1 true KR102392992B1 (ko) | 2022-05-02 |
Family
ID=78832064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200067730A KR102392992B1 (ko) | 2020-06-04 | 2020-06-04 | 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102392992B1 (ko) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9275637B1 (en) | 2012-11-06 | 2016-03-01 | Amazon Technologies, Inc. | Wake word evaluation |
US20200168223A1 (en) * | 2018-11-28 | 2020-05-28 | Samsung Electronics Co., Ltd. | Electronic device and control method thereof |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9536528B2 (en) * | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
KR20180046780A (ko) * | 2016-10-28 | 2018-05-09 | 에스케이텔레콤 주식회사 | 이중 웨이크업을 이용한 음성 인식 서비스 제공 방법 및 이를 위한 장치 |
KR20200023088A (ko) * | 2018-08-24 | 2020-03-04 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
-
2020
- 2020-06-04 KR KR1020200067730A patent/KR102392992B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9275637B1 (en) | 2012-11-06 | 2016-03-01 | Amazon Technologies, Inc. | Wake word evaluation |
US20200168223A1 (en) * | 2018-11-28 | 2020-05-28 | Samsung Electronics Co., Ltd. | Electronic device and control method thereof |
Also Published As
Publication number | Publication date |
---|---|
KR20210150833A (ko) | 2021-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230012984A1 (en) | Generation of automated message responses | |
US11887590B2 (en) | Voice enablement and disablement of speech processing functionality | |
US11823678B2 (en) | Proactive command framework | |
US10283111B1 (en) | Disambiguation in speech recognition | |
US10027662B1 (en) | Dynamic user authentication | |
US9484021B1 (en) | Disambiguation in speech recognition | |
US10878807B2 (en) | System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system | |
US10482885B1 (en) | Speaker based anaphora resolution | |
US10917758B1 (en) | Voice-based messaging | |
US20130090921A1 (en) | Pronunciation learning from user correction | |
US20050033575A1 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
US11081104B1 (en) | Contextual natural language processing | |
KR20170063037A (ko) | 음성 인식 장치 및 방법 | |
US11195522B1 (en) | False invocation rejection for speech processing systems | |
JP2016521383A (ja) | 少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体 | |
US10866948B2 (en) | Address book management apparatus using speech recognition, vehicle, system and method thereof | |
CN111145748B (zh) | 音频识别置信度确定方法、装置、设备及存储介质 | |
KR102217292B1 (ko) | 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
CN114120979A (zh) | 语音识别模型的优化方法、训练方法、设备及介质 | |
CN115104151A (zh) | 一种离线语音识别方法和装置、电子设备和可读存储介质 | |
KR102392992B1 (ko) | 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법 | |
WO2019113516A1 (en) | Voice control of computing devices | |
US11817090B1 (en) | Entity resolution using acoustic data | |
JP2011039468A (ja) | 電子辞書で音声認識を用いた単語探索装置及びその方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |