KR102332565B1

KR102332565B1 - 음성 인식 힌트 적용 장치 및 방법

Info

Publication number: KR102332565B1
Application number: KR1020200005347A
Authority: KR
Inventors: 안문학
Original assignee: 주식회사 소리자바
Priority date: 2019-12-13
Filing date: 2020-01-15
Publication date: 2021-11-29
Anticipated expiration: 2040-01-15
Also published as: KR20210075815A

Abstract

본 발명의 음성 인식 힌트 적용 장치는 소정의 목표치 이상의 학습이 완료된 언어 모델을 저장하는 저장부와, 텍스트가 입력되면, 텍스트에 포함된 복수의 명사를 추출하는 형태소처리부와, 추출된 복수의 명사 각각에 대해 상기 언어 모델에서의 펄플렉서티(perplexity) 수치를 도출하는 수치도출부와, 상기 펄플렉서티 수치가 기 설정된 수치 이상인 명사에 대해 음성 인식 힌트를 적용하는 힌트적용부를 포함한다.

Description

음성 인식 힌트 적용 장치 및 방법{device for applying speech recognition hints and method the same}

본 발명은 음성 인식 힌트 적용 장치 및 방법에 관한 것으로, 더욱 상세하게는 음성 인식에서 고유명사의 인식률을 높일 수 있는 음성 인식 힌트 적용 장치 및 방법에 관한 것이다.

종래의 음성인식은, 인명, 지명, 프로젝트명 등 고유명사의 인식률을 높이기 위해 음성인식 힌트를 적용하였다. 음성인식 힌트를 적용하면 고유명사의 인식률 향상에 큰 도움이 된다. 그러나 음성인식 힌트를 적용하는 과정에서 관련 전문가가 수동으로 텍스트를 직접 입력해야 하는 불편함이 있었다.

대한민국 공개특허공보 제10-2004-0055288호 (2004. 06. 26. 공개)

따라서 본 발명의 목적은, 단어의 혼동하는 정도 값인 펄플렉서티(PPL: perplexity) 수치를 측정한 후, 펄플렉서티(PPL)가 높은 단어를 힌트 리스트에 등록하여 힌트 단어를 자동으로 추출하는 음성 인식 힌트 적용 장치 및 방법을 제공하는 데 있다.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 음성 인식 힌트 적용 장치는 소정의 목표치 이상의 학습이 완료된 언어 모델을 저장하는 저장부와, 텍스트가 입력되면, 텍스트에 포함된 복수의 명사를 추출하는 형태소처리부와, 추출된 복수의 명사 각각에 대해 상기 언어 모델에서의 펄플렉서티(perplexity) 수치를 도출하는 수치도출부와, 상기 펄플렉서티 수치가 기 설정된 수치 이상인 명사에 대해 음성 인식 힌트를 적용하는 힌트적용부를 포함한다.

상기 수치도출부는 상기 언어 모델이 상기 복수의 명사 각각을 인식하는 성능을 수치화하여 상기 펄플렉서티(perplexity) 수치로 출력하는 것을 특징으로 한다.

상기 펄플렉서티(perplexity) 수치는 상기 언어 모델이 상기 복수의 명사 각각에 대한 인식을 위해 선택할 수 있는 경우의 수인 것을 특징으로 한다.

어느 하나의 명사에 대한 상기 펄플렉서티(perplexity) 수치는 상기 언어 모델이 상기 어느 하나의 명사에 대한 인식을 위해 선택할 수 있는 경우의 수가 많을수록 높은 것을 특징으로 한다.

어느 하나의 명사에 대한 상기 펄플렉서티(perplexity) 수치는 상기 언어 모델이 상기 어느 하나의 명사의 인식을 오류로 선택할 확률이 높을수록 높은 것을 특징으로 한다.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 음성 인식 힌트 적용 방법은 텍스트가 입력되면, 형태소처리부가 텍스트에 포함된 복수의 명사를 추출하는 단계와, 수치도출부가 소정의 목표치 이상의 학습이 완료된 언어 모델에서 상기 추출된 복수의 명사 각각에 대한 펄플렉서티(perplexity) 수치를 도출하는 단계와, 힌트적용부가 상기 펄플렉서티 수치가 기 설정된 수치 이상인 명사에 대해 음성 인식 힌트를 적용하는 단계를 포함한다.

상기 펄플렉서티(perplexity) 수치를 도출하는 단계는 상기 수치도출부가 상기 언어 모델이 상기 복수의 명사 각각을 인식하는 성능을 수치화하여 상기 펄플렉서티 수치로 도출하는 것을 특징으로 한다.

본 발명인 음성 인식 힌트 적용 장치 및 방법에 따르면, 언어 모델이 오인식 가능성이 높은 명사를 자동으로 추출할 수 있다.이에 따라, 해당 명사에 대해 음성 인식 힌트를 적용함으로써, 언어 모델의 인식 성능이 향상된다.

도 1은 본 발명의 실시예에 따른 음성 인식 힌트 적용 장치의 구성을 설명하기 위한 블록도이다.
도 2는 본 발명의 실시예에 따른 단어를 형태소에 따라 구분하는 예를 설명하기 위한 도면이다.
도 3은 본 발명의 실시예에 따른 음성 인식 힌트 적용 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 실시예에 따른 음성 인식 힌트 적용 방법을 실행시키는 컴퓨팅 환경을 도시한 도면이다.

하기의 설명에서는 본 발명의 실시예를 이해하는데 필요한 부분만이 설명되며, 그 이외 부분의 설명은 본 발명의 요지를 흩트리지 않는 범위에서 생략될 것이라는 점을 유의하여야 한다.

이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 바람직한 실시예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

먼저, 본 발명의 실시예에 따른 음성 인식 힌트 적용 장치의 구성에 대해서 설명하기로 한다. 도 1은 본 발명의 실시예에 따른 음성 인식 힌트 적용 장치의 구성을 설명하기 위한 블록도이다. 도 2는 본 발명의 실시예에 따른 단어를 형태소에 따라 구분하는 예를 설명하기 위한 도면이다. 도 1을 참조하면, 음성 인식 힌트 적용 장치는 형태소처리부(100), 수치도출부(200), 힌트적용부(300) 및 저장부(400)를 포함한다.

우선, 저장부(400)는 언어 모델(LM: Language Model)을 저장한다. 언어 모델은 언어라는 현상을 모델링하고자 단어 또는 문장에 확률을 할당하는 모델이다. 언어 모델을 만드는 방법은 통계 또는 확률을 이용한 방법 및 인공 신경망을 이용한 방법으로 구분될 수 있다. 언어 모델은 단어 시퀀스에 확률을 할당하는 일을 하는 모델이다. 언어 모델은 가장 자연스러운 단어 시퀀스를 찾아내는 모델이다. 단어 시퀀스에 확률을 할당하게 하기 위해서 가장 보편적으로 사용되는 방법은 언어 모델이 이전 단어 후 나올 수 있는 다음 단어를 예측하기 위한 것이다. 언어 모델은, 기계 번역, 오타 교정 및 음성 인식 등에서 활용된다. 예를 들어, 음성 인식의 경우, '소울테린은 매달 정례적으로 회의를 갖고 있으며'의 문장과, '소울테린은 내달 정례적으로 회의를 갖고 있으며'의 두 문장을 비교할 때 언어모델은 좌측의 문장의 확률이 더 높다고 판단할 수 있다. 따라서 음성 인식의 인식률을 더 높일 수 있다. 언어 모델에는 다양한 언어 모델이 개발되어 있으며, 공지된 모든 언어 모델이 이용될 수 있다.

언어 모델은 통계를 이용한 방법과 인공 신경망을 이용한 방법을 포함하며, 본 발명의 실시예에 따른 언어 모델은 소정의 목표치 이상의 학습이 완료된 모델을 의미한다.

형태소처리부(100)는 텍스트가 입력되면, 도 2에 도시된 바와 같이, 입력받은 텍스트에 포함된 복수의 단어 각각을 형태소 별로 구분하고, 구분된 형태소의 품사를 인식하여 구분된 형태소 중 명사를 선별하여 추출할 수 있다.

예컨대, '소울테린은 매달 정례적으로 회의를 갖고 있으며, 회의 내용은 일반인들에게도 자유롭게 공개됩니다. 올해 네 번째 회의는 4월 21일, 오후 2시부터 5시까지 안전가옥에서 이루어집니다. 소울테린의 행보와 사고를 알고 싶으신 분들은 자유롭게 참석 가능합니다.'와 같은 텍스트가 입력되었다고 가정한다. 이와 같이 입력된 텍스트 중 첫 단어에 대해 예시적으로 설명하면, 형태소처리부(100)는 '소울테린'은 일반명사, '은'은 보격조사로 그 형태소를 구분한다. 그런 다음, 일반명사인 '소울테린'을 추출할 수 있다. 형태소처리부(100)는 나머지 단어에 대해서도 동일한 프로세스를 적용하여 명사를 추출할 수 있다.

즉, 앞선 예의 텍스트가 입력되면, 형태소처리부(100)는 '소울테린, 정례, 회의, 회의, 내용, 일반, 자유, 공개, 올해, 월, 일, 오후, 안전가옥, 소울테린, 행보, 사고, 자유, 참석'와 같이 명사를 추출할 수 있다.

수치도출부(200)는 추출된 복수의 명사 각각에 대해 언어 모델에서의 펄플렉서티(PPL: perplexity) 수치를 도출한다.

이때, 수치도출부(200)는 언어 모델이 복수의 명사 각각을 인식하는 성능을 수치화하여 펄플렉서티(PPL) 수치로 출력한다. 펄플렉서티(PPL) 수치가 높을수록 해당 명사에 대한 인식 성능이 떨어짐을 의미한다.

펄플렉서티(PPL) 수치는 언어 모델이 복수의 명사 각각에 대한 인식을 위해 선택할 수 있는 경우의 수가 될 수 있다. 일 실시예에 따르면, 어느 하나의 명사에 대한 펄플렉서티(PPL) 수치는 언어 모델이 어느 하나의 명사에 대한 인식을 위해 선택할 수 있는 경우의 수가 많을수록 높다. 다른 실시예에 따르면, 어느 하나의 명사에 대한 펄플렉서티(PPL) 수치는 언어 모델이 어느 하나의 명사의 인식을 오류로 선택할 확률이 높을수록 높다.

수치도출부(200)는 펄플렉서티(PPL) 수치를 도출하기 위하여 n-gram을 이용할 수 있다. n-gram은, n개의 어절 혹은 음절을 연쇄적으로 분류해 그 빈도를 따지는 확률론적 모델이다. 자연어로 만들어지는 문장들은 정규화되지 않고 무한하며, 복잡한 문법을 따르기 때문에 컴퓨터 등이 처리하기 어렵다. 따라서 사람이 사용하는 문장들을 다양한 언어모델링을 통해 분석하는 것이 필요하다. 예를 들어, '악기를' 이라는 어절 이후에는 '연주하다' 라는 단어가 올 것이 확률적으로 기대된다. 이러한 확률을 이용하여 언어문장을 모델링하는 확률론적 모델 중 하나가 n-gram이다. n-gram은 카운트를 기초로 통계적 접근을 사용한다. n-gram은 n개 어절/음절을 연쇄적으로 분류하여 그 빈도를 따진다. n=1 이면, unigram, n=2이면, bigram, n=3이면 trigram 식으로 불린다. n-gram은 n을 점차 늘려가면서 문장을 분석한다. n-gram으로 문장을 분석하여, 앞의 단어의 바로 뒤에 나오는 단어들을 분석하여, 앞단어의 다음에 나오는 뒷단어가 나오는 빈도 또는 확률을 구한다. 따라서 인간이 사용하는 자연어 문장과 같이 컴퓨터 등 시스템이 자연스러운 문장을 구사할 수 있도록 한다. 이때, 펄플렉서티(PPL) 수치는 해당 명사가 아니는 다른 명사로 인식할 확률이 높을수록 높은 수치를 가진다.

힌트적용부(300)는 펄플렉서티 수치가 기 설정된 기준 수치 이상인 명사에 대해 음성 인식 힌트를 적용한다. 예컨대, 입력된 텍스트가 '소울테린은 매달 정례적으로 회의를 갖고 있으며, 회의 내용은 일반인들에게도 자유롭게 공개됩니다. 올해 네 번째 회의는 4월 21일, 오후 2시부터 5시까지 안전가옥에서 이루어집니다. 소울테린의 행보와 사고를 알고 싶으신 분들은 자유롭게 참석 가능합니다.'이고, 입력된 텍스트에서 수치도출부(200)에 의해 도출된 각 명사의 펄플렉서티(PPL: perplexity) 수치는 '소울테린 : 348, 정례 : 130, 회의 : 20'와 같다고 가정한다. 또한, 기 설정된 기준 수치는 100이라고 가정한다. 펄플렉서티(PPL: perplexity) 수치가 100 이상인 명사는 {소울테린, 정례}만이 존재한다. 이에 따라, 힌트적용부(300)는 복수의 명사 각각의 펄플렉서티(PPL: perplexity) 수치 중 기 설정된 수치 이상인 '소울테린' 및 '정례'라는 단어에 대해 언어 모델이 해당 명사를 인식하지 못할 가능성이 높거나, 오인식 가능성이 높은 것으로 확인할 수 있다. 이에 따라, 힌트적용부(300)는 {소울테린, 정례}에 대해서만 음성 인식 힌트를 적용한다. 즉, 힌트적용부(300)는 PPL 수치가 기 설정된 수치 이상인 {소울테린, 정례}는 힌트 단어가 필요한 명사로서, 힌트 리스트에 등록한다. 그리고 힌트적용부(300)는 힌트 리스트에 포함된 명사에 대해 음성인식 힌트를 적용한다. 힌트 리스트에 등록된 단어는, 음성인식에서의 인식률을 높이기 위해 선별된 것으로, 시스템 상에서 자동적으로 힌트 리스트에 등록될 수 있어 종래의 전문가가 직접 수동으로 오인식할 수 있는 단어를 선별하는 것에 비해 더 높은 효율을 제공한다.

다음으로, 본 발명의 실시예에 따른 음성 인식 힌트 적용 장치의 구성에 대해서 설명하기로 한다. 도 3은 본 발명의 실시예에 따른 음성 인식 힌트 적용 방법을 설명하기 위한 흐름도이다.

도 3을 참조하면, 형태소처리부(100)는 S110 단계에서 텍스트를 입력받을 수 있다. 예컨대, '소울테린은 매달 정례적으로 회의를 갖고 있으며, 회의 내용은 일반인들에게도 자유롭게 공개됩니다. 올해 네 번째 회의는 4월 21일, 오후 2시부터 5시까지 안전가옥에서 이루어집니다. 소울테린의 행보와 사고를 알고 싶으신 분들은 자유롭게 참석 가능합니다.'와 같은 텍스트가 입력되었다고 가정한다.

그러면, 형태소처리부(100)는 S120 단계에서 도 2에 도시된 바와 같이, 입력받은 텍스트에 포함된 복수의 단어 각각을 형태소 별로 구분하고, 구분된 형태소의 품사를 인식하여 구분된 형태소 중 명사를 선별하여 추출할 수 있다. 예컨대, 형태소처리부(100)는 단어 ‘소울테린은’이 존재하는 경우, '소울테린'과 '은'으로 그 형태소를 구분하고, '소울테린'을 일반명사로 인식하고, '은'을 보격조사로 인식한다. 이에 따라, 형태소처리부(100)는 일반명사인 '소울테린'을 명사로 추출할 수 있다. 형태소처리부(100)는 나머지 단어에 대해서도 동일한 프로세스를 적용하여 명사를 추출할 수 있다. 즉, S110 단계와 같은 텍스트가 입력되면, 형태소처리부(100)는 명사로 '소울테린, 정례, 회의, 회의, 내용, 일반, 자유, 공개, 올해, 월, 일, 오후, 안전가옥, 소울테린, 행보, 사고, 자유, 참석'을 추출할 수 있다.

수치도출부(200)는 S130 단계에서 추출된 복수의 명사 각각에 대해 언어 모델에서의 펄플렉서티(PPL: perplexity) 수치를 도출한다. 여기서, 언어 모델은 소정의 목표치 이상의 학습이 완료된 모델을 의미한다. 이때, 수치도출부(200)는 언어 모델이 복수의 명사 각각을 인식하는 성능을 수치화하여 펄플렉서티(PPL) 수치로 출력한다. 펄플렉서티(PPL) 수치가 높을수록 해당 명사에 대한 인식 성능이 떨어짐을 의미한다. 펄플렉서티(PPL) 수치는 언어 모델이 복수의 명사 각각에 대한 인식을 위해 선택할 수 있는 경우의 수가 될 수 있다. 일 실시예에 따르면, 어느 하나의 명사에 대한 펄플렉서티(PPL) 수치는 언어 모델이 어느 하나의 명사에 대한 인식을 위해 선택할 수 있는 경우의 수가 많을수록 높다. 다른 실시예에 따르면, 어느 하나의 명사에 대한 펄플렉서티(PPL) 수치는 언어 모델이 어느 하나의 명사의 인식을 오류로 선택할 확률이 높을수록 높다. 즉, 언어 모델이 펄플렉서티(PPL) 수치는 해당 명사가 아닌 다른 명사로 인식할 확률이 높을수록 높은 수치를 가진다.

예컨대, 수치도출부(200)에 의해 도출된 각 명사의 펄플렉서티(PPL) 수치는 '소울테린 : 348, 정례 : 130, 회의 : 20'와 같다고 가정한다. 또한, 기 설정된 기준 수치는 100이라고 가정한다. 힌트적용부(300)는 S140 단계에서 기 설정된 펄플렉서티(PPL) 수치 이상의 명사를 힌트 리스트에 등록한다. 예컨대, 펄플렉서티(PPL) 수치가 100 이상인 명사는 {소울테린, 정례}만이 존재한다. 이에 따라, 힌트적용부(300)는 복수의 명사 각각의 펄플렉서티(PPL) 수치 중 기 설정된 수치 이상인 '소울테린' 및 '정례'라는 단어에 대해 언어 모델이 해당 명사를 인식하지 못할 가능성이 높거나, 오인식 가능성이 높은 것으로 확인할 수 있다. 따라서 힌트적용부(300)는 '소울테린' 및 '정례'를 힌트 리스트에 등록한다.

그런 다음, 힌트적용부(300)는 S150 단계에서 힌트 리스트에 포함된 명사에 대해 음성인식 힌트를 적용한다. 예컨대, 힌트 리스트에 포함된 {소울테린, 정례}에 대해서만 음성 인식 힌트를 적용한다. 즉, 힌트적용부(300)는 펄플렉서티(PPL) 수치가 기 설정된 수치 이상인 {소울테린, 정례}는 힌트 단어가 필요한 명사로서, 힌트 리스트에 등록되어 있기 때문에 힌트적용부(300)는 힌트 리스트에 포함된 명사 {소울테린, 정례}에 대해 음성인식 힌트를 적용한다. 힌트 리스트에 등록된 단어는, 음성인식에서의 인식률을 높이기 위해 선별된 것으로, 시스템 상에서 자동적으로 힌트 리스트에 등록될 수 있어 종래의 전문가가 직접 수동으로 오인식할 수 있는 단어를 선별하는 것에 비해 더 높은 효율을 제공할 수 있다.

정리하면, 본 발명에 따른 음성 인식 힌트 적용 장치 및 방법은 음성인식에서 인명, 지명, 프로젝트명 등의 고유명사의 인식률을 높이기 위한 방법으로 음성인식 힌트를 적용하면 인식률 향상에 큰 도움이 되나, 현재는 수동으로 텍스트를 사람이 직접 입력해야 하는 불편함이 있었다.

시스템을 잘 아는 전문가가 직접 오인식이 발생할 확률이 높은 단어를 선별하여 입력하지 않고, 시스템 상에 텍스트 문장을 그대로 입력하게 되면, 오인식률이 크게 증가된다.

예를 들어, '서울'을 넣게 되면, '서울로'의 발성이 '서울'로 인식된다.

또한 음성인식에 사용하는 언어모델에 대한 고려 없이 고유명사 등의 어휘만으로 추출하면 단어의 오인식률이 높아진다.

따라서 본 발명에서 제안하는 바는, 펄플렉서티(PPL) 측정을 통해 단어의 혼동하는 정도 값을 연산하고, 펄플렉서티(PPL)가 높으면 해당 단어는 인식하지 못할 가능성이 높은 것으로 판단하여, 힌트 리스트에 자동적으로 등록되게 된다. 종래의 전문가가 직접 오인식할 단어를 선별하는 것에 비해, 본 발명은 시스템이 자동적으로 오인식할 가능성이 높은 단어를 힌트 리스트에 등록할 수 있는 효과가 있다.

도 4는 본 발명의 실시예에 따른 음성 인식 힌트 적용 방법을 실행시키는 컴퓨팅 환경을 도시한 도면이다.

도 4 및 이하의 설명은 본 발명이 구현될 수 있는 적절한 컴퓨팅 환경의 간단하고, 일반적인 설명을 제공하고자 한다. 요구사항은 아니지만, 본 발명에 따른 정보 제공 방법은 컴퓨터 시스템에 의해 실행되고 있는 프로그램 모듈과 같은 컴퓨터 실행가능 명령어와 관련하여 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포함한다. 컴퓨터 실행가능 명령어, 관련 데이터 구조, 및 프로그램 모듈은 본 명세서에 개시된 발명의 행위를 실행하는 프로그램 코드 수단의 예를 나타낸다.

도 4를 참조하면, 본 발명에 따른 음성 인식 힌트 적용 방법을 실행시키는 컴퓨팅 시스템은 프로세싱 유닛(11), 시스템 메모리(12), 및 상기 시스템 메모리(12)를 포함하는 다양한 시스템 컴포넌트를 상기 프로세싱 유닛(11)에 연결시키는 시스템 버스(10)를 포함하는 형태로 된 컴퓨팅 장치를 포함한다.

프로세싱 유닛(11)은 본 발명의 특징을 구현하도록 설계된 컴퓨터-실행가능 명령어를 실행시킬 수 있다.

시스템 버스(10)는 다양한 버스 아키텍처 중의 임의의 것을 사용하는 로컬 버스, 주변 버스, 및 메모리 버스 또는 메모리 컨트롤러를 포함하는 몇 가지 유형의 버스 구조 중의 임의의 것일 수 있다. 시스템 메모리(12)는ROM(Read Only Memory)(12a) 및 RAM(Random Access Memory)(12b)을 포함한다. 시동중과 같은 때에 컴퓨팅 시스템 내의 구성요소들 간에 정보를 전송하는 것을 돕는 기본 루틴을 포함하는 기본 입출력 시스템(BIOS)(13a)은 일반적으로ROM(12a)에 저장될 수 있다.

컴퓨팅 시스템은 저장 수단을 포함할 수 있는데, 예를 들어, 하드 디스크로부터 정보를 판독하거나 그 하드 디스크에 정보를 기록하는 하드 디스크 드라이브(15), 자기 디스크로부터 정보를 판독하거나 그 자기 디스크에 정보를 기록하는 자기 디스크 드라이브(16), 및 예를 들면, CD-ROM 또는 기타 광 매체 등의 광디스크로부터 정보를 판독하거나 그 광디스크에 정보를 기록하는 광디스크 드라이브(17)를 포함할 수 있다. 하드 디스크 드라이브(15), 자기 디스크 드라이브(16), 및 광디스크 드라이브(17)는 각각 하드 디스크 드라이브 인터페이스(18), 자기 디스크 드라이브-인터페이스(19), 및 광 드라이브 인터페이스(20)에 의해 시스템 버스(10)에 접속된다.

또한, 컴퓨팅 시스템은, 저장 수단으로서 외장 메모리(21)를 더 구비할 수 있다. 상기 외장 메모리(21)는 입출력 인터페이스(24)를 통해서 시스템 버스(10)에 접속될 수 있다.

상술한 드라이브 및 그 드라이브에 의해 판독 및 기록되는 관련 컴퓨터 판독가능 매체는 컴퓨터 실행가능 명령어, 데이터 구조, 프로그램 모듈 및 기타 데이터의 비휘발성 저장을 제공한다. 본 명세서에서 기술된 예시적인 환경은 하드 디스크(15), 자기 디스크(16) 및 광디스크(17)를 예시하고 있으나, 이외에 자기 카세트, 플래시 메모리 카드, DVD, 베르누이 카트리지(Bernoulli cartridge), RAM, ROM, 등을 포함하는, 데이터를 저장하는 다른 유형의 컴퓨터 판독가능 매체가 이용될 수 있다.

상기 프로세싱 유닛(11)에 의해 로딩되어 실행되는, 오퍼레이팅 시스템(13b), 하나 이상의 애플리케이션 프로그램(13c), 기타 프로그램 모듈(13d), 및 프로그램 데이터(13c)를 포함하는 하나 이상의 프로그램 모듈을 포함하는 프로그램 코드 수단은 하드 디스크(15), 자기 디스크(16), 광디스크(17), ROM(12a) 또는RAM(12b)에 저장될 수 있다.

아울러, 상기 컴퓨팅 시스템은, 키보드, 포인팅 장치, 마이크로폰, 조이 스틱, 게임 패드, 스캐너, 등과 같은 기타 입력 장치(22)를 통해 사용자로부터 복수의 단어를 포함하는 텍스트 자체 혹은 그 텍스트를 포함하는 파일을 입력 받을 수 있다. 또한 카메라 모듈과 같은 이미지 입력 센서를 통해 촬영된 그 텍스트를 포함하는 이미지를 입력 받을 수 있다. 이들 입력 장치(22)는 시스템 버스(10)에 연결된 입출력 인터페이스(24)를 통해 프로세싱 유닛(11)에 접속될 수 있다. 입출력 인터페이스(24)는 예를 들면, 직렬 포트 인터페이스, PS/2 인터페이스, 병렬 포트 인터페이스, USB 인터페이스, IEEE(Institute of Electrical and Electronics Engineers) 1394 인터페이스(즉, 파이어와이어(FireWire) 인터페이스)와 같은 매우 다양한 서로 다른 인터페이스 중 임의의 것을 논리적으로 나타내거나, 다른 인터페이스의 조합까지도 논리적으로 나타낼 수 있다.

더하여, 본 발명이 적용되는 컴퓨팅 시스템은, 모니터 혹은 LCD와 같은 디스플레이 장치(26) 또는 스피커나 마이크로폰과 같은 오디오 장치(27)를 더 포함할 수 있으며, 이들은, 비디오/오디오 인터페이스(25)를 통해서 시스템 버스(10)에 접속된다. 예를 들면, 스피커 및 프린터 등의(도시되지 않은) 기타 주변 출력 장치가 컴퓨터 시스템(420)에 또한 접속될 수 있다. 상기 비디오/오디오 인터페이스부(25)는HDMI(High Definition Multimedia Interface), GDI(Graphics Device Interface) 등을 포함할 수 있다.

또한, 본 발명을 실행하는 컴퓨팅 시스템은, 예를 들면, 사무실-광역 또는 기업-광역 컴퓨터 네트워크, 홈 네트워크, 인트라넷, 및/또는 인터넷과 같은 네트워크에 접속 가능하다. 컴퓨터 시스템은 이러한 네트워크를 통해, 예를 들면, 원격 컴퓨터 시스템, 원격 애플리케이션, 및/또는 원격 데이터베이스와 같은 외부 소스들과의 데이터를 교환할 수 있다.

이를 위해 본 발명이 적용되는 컴퓨팅 시스템은 외부 소스로부터 데이터를 수신하고/거나 외부 소스로 데이터를 전송하는 네트워크 인터페이스(27)를 포함한다.

본 발명에 있어서, 이러한 컴퓨팅 시스템은, 네트워크 인터페이스(27)를 통해서 원격지에 위치한 장치와 정보를 송수신할 수 있다.

네트워크 인터페이스(27)는, 예를 들면, 네트워크 인터페이스 카드 및 대응하는 네트워크 드라이버 인터페이스 사양(Network Driver Interface Specification: "NDIS") 스택과 같은 하나 이상의 소프트웨어 및/또는 하드웨어 모듈의 논리적 조합으로 나타낼 수 있다.

마찬가지로, 컴퓨터 시스템은 입출력 인터페이스(24)를 통해 외부 소스로부터 텍스트를 포함하는 데이터를 수신하거나 외부 소스로 데이터를 전송한다. 입출력 인터페이스(24)는 모뎀(23)(예를 들면, 표준 모뎀, 케이블 모뎀, 또는 디지털 가입자선(digital subscriber line: “DSL”) 모뎀)에 연결될 수 있으며, 이러한 모뎀(23)을 통해 외부 소스로부터 데이터를 수신하고/거나 외부 소스로 데이터를 전송할 수 있다.

도 4는 본 발명에 적절한 오퍼레이팅 환경을 나타내지만, 본 발명의 원리는, 필요하다면 적절한 수정으로, 본 발명의 원리를 구현할 수 있는 임의의 시스템에 채용될 수 있다. 도 4에 도시된 환경은 단지 예시적이며 본 발명의 원리가 구현될 수 있는 매우 다양한 환경의 작은 일부도 나타내지 못한다.

아울러, 본 발명의 음성 인식 힌트 적용 장치에서 발생되는 다양한 정보는 컴퓨팅 시스템에 관련된 임의의 컴퓨터 판독가능 매체에 저장되고 액세스될 수 있다. 예를 들면, 이러한 프로그램 모듈들의 일부 및 관련 프로그램 데이터의 일부는, 시스템 메모리(12)에 저장하기 위해, 오퍼레이팅 시스템(13b), 애플리케이션 프로그램(13c), 프로그램 모듈(13d), 및/또는 프로그램 데이터(13e)에 포함될 수 있다.

또한, 하드 디스크와 같은 대용량(mass) 저장 장치가 컴퓨팅 시스템에 연결되면, 이러한 프로그램 모듈 및 관련 프로그램 데이터는 대용량 저장 장치에 저장될 수 있다. 네트워크 환경에서, 본 발명과 관련된 프로그램 모듈 또는 그 일부는 입출력 인터페이스(24)의 모뎀(23) 또는 네트워크 인터페이스(25)를 통해 연결된 원격 컴퓨터 시스템, 예를 들어, 사용자 장치(UE: User Equipment) 및 사용자 장치(UE)의 매칭되는 애플리케이션 서버(Application Server)의 컴퓨팅 시스템에 관련된 시스템 메모리 및/또는 대용량 저장 장치와 같은 원격 메모리 저장 장치에 저장될 수 있다. 이러한 모듈의 실행은 전술한 바와 같이 분산형 환경에서 수행될 수 있다.

이상에서 설명한 바와 같이, 본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.

마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.

본 명세서에서 설명한 주제의 특정한 실시형태를 설명하였다. 기타의 실시형태들은 이하의 청구항의 범위 내에 속한다. 예컨대, 청구항에서 인용된 동작들은 상이한 순서로 수행되면서도 여전히 바람직한 결과를 성취할 수 있다. 일 예로서, 첨부도면에 도시한 프로세스는 바람직한 결과를 얻기 위하여 반드시 그 특정한 도시된 순서나 순차적인 순서를 요구하지 않는다. 특정한 구현예에서, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다.

본 기술한 설명은 본 발명의 최상의 모드를 제시하고 있으며, 본 발명을 설명하기 위하여, 그리고 당업자가 본 발명을 제작 및 이용할 수 있도록 하기 위한 예를 제공하고 있다. 이렇게 작성된 명세서는 그 제시된 구체적인 용어에 본 발명을 제한하는 것이 아니다. 따라서 상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 당업자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다.

상술한 바와 같이 본 발명에 따른 음성 인식 힌트 적용 방법은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.

또한, 본 발명에 따른 음성 인식 힌트 적용 방법은 다양한 컴퓨터 수단을 통하여 판독 가능한 소프트웨어 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

따라서 본 발명에 기재된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상이 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의해서 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 형태소 처리부
200: 수치 도출부
300: 힌트 적용부
400: 저장부

Claims

음성 인식 힌트 적용 장치에 있어서,
소정의 목표치 이상의 학습이 완료된 언어 모델을 저장하는 저장부;
텍스트가 입력되면, 텍스트에 포함된 복수의 명사를 추출하는 형태소처리부;
추출된 복수의 명사 각각에 대해 상기 언어 모델에서의 펄플렉서티(perplexity) 수치를 도출하는 수치도출부; 및
상기 펄플렉서티 수치가 기 설정된 수치 이상인 명사를 힌트 리스트에 자동 등록하고, 상기 등록된 명사에 대해 음성 인식 힌트를 적용하는 힌트적용부;를 포함하되,
상기 힌트적용부는
상기 자동 등록된 명사가 고유명사와 동일하더라도 상기 언어 모델을 고려하여 음성 인식 힌트를 적용하는 것을 특징으로 하는
음성 인식 힌트 적용 장치.
제1항에 있어서,
상기 수치도출부는
상기 언어 모델이 상기 복수의 명사 각각을
인식하는 성능을 수치화하여
상기 펄플렉서티(perplexity) 수치로 출력하는 것을 특징으로 하는
음성 인식 힌트 적용 장치.
제2항에 있어서,
상기 펄플렉서티(perplexity) 수치는
상기 언어 모델이 상기 복수의 명사 각각에 대한 인식을 위해 선택할 수 있는 경우의 수인 것을 특징으로 하는
음성 인식 힌트 적용 장치.
제3항에 있어서,
어느 하나의 명사에 대한 상기 펄플렉서티(perplexity) 수치는
상기 언어 모델이 상기 어느 하나의 명사에 대한 인식을 위해 선택할 수 있는 경우의 수가 많을수록 높은 것을 특징으로 하는
음성 인식 힌트 적용 장치.
제3항에 있어서,
어느 하나의 명사에 대한 상기 펄플렉서티(perplexity) 수치는
상기 언어 모델이 상기 어느 하나의 명사의 인식을 오류로 선택할 확률이 높을수록 높은 것을 특징으로 하는
음성 인식 힌트 적용 장치.
음성 인식 힌트 적용 방법에 있어서,
텍스트가 입력되면, 형태소처리부가 텍스트에 포함된 복수의 명사를 추출하는 단계;
수치도출부가 소정의 목표치 이상의 학습이 완료된 언어 모델에서 상기 추출된 복수의 명사 각각에 대한 펄플렉서티(perplexity) 수치를 도출하는 단계; 및
힌트적용부가 상기 펄플렉서티 수치가 기 설정된 수치 이상인 명사를 힌트 리스트에 자동 등록하고, 상기 등록된 명사에 대해 음성 인식 힌트를 적용하는 단계;를 포함하되,
상기 음성 인식 힌트를 적용하는 단계는
상기 자동 등록된 명사가 고유명사와 동일하더라도 상기 언어 모델을 고려하여 음성 인식 힌트를 적용하는 것을 특징으로 하는
음성 인식 힌트 적용 방법.
제6항에 있어서,
상기 펄플렉서티(perplexity) 수치를 도출하는 단계는
상기 수치도출부가 상기 언어 모델이 상기 복수의 명사 각각을 인식하는 성능을 수치화하여 상기 펄플렉서티 수치로 도출하는 것을 특징으로 하는
음성 인식 힌트 적용 방법.
제7항에 있어서,
상기 펄플렉서티(perplexity) 수치는
상기 언어 모델이 상기 복수의 명사 각각에 대한 인식을 위해 선택할 수 있는 경우의 수인 것을 특징으로 하는
음성 인식 힌트 적용 방법.
제8항에 있어서,
어느 하나의 명사에 대한 상기 펄플렉서티(perplexity) 수치는
상기 언어 모델이 상기 어느 하나의 명사에 대한 인식을 위해 선택할 수 있는 경우의 수가 많을수록 높은 것을 특징으로 하는
음성 인식 힌트 적용 방법.
제8항에 있어서,
어느 하나의 명사에 대한 상기 펄플렉서티(perplexity) 수치는
상기 언어 모델이 상기 어느 하나의 명사의 인식을 오류로 선택할 확률이 높을수록 높은 것을 특징으로 하는
음성 인식 힌트 적용 방법.