KR20110087742A - 청각 장애인을 위한 수화 통역 시스템, 그 장치 및 방법 - Google Patents
청각 장애인을 위한 수화 통역 시스템, 그 장치 및 방법 Download PDFInfo
- Publication number
- KR20110087742A KR20110087742A KR1020100007312A KR20100007312A KR20110087742A KR 20110087742 A KR20110087742 A KR 20110087742A KR 1020100007312 A KR1020100007312 A KR 1020100007312A KR 20100007312 A KR20100007312 A KR 20100007312A KR 20110087742 A KR20110087742 A KR 20110087742A
- Authority
- KR
- South Korea
- Prior art keywords
- language model
- sign language
- sign
- storage unit
- model
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 230000008569 process Effects 0.000 claims abstract description 46
- 208000032041 Hearing impaired Diseases 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000003780 insertion Methods 0.000 claims abstract description 5
- 230000037431 insertion Effects 0.000 claims abstract description 5
- 230000008921 facial expression Effects 0.000 claims description 46
- 230000014509 gene expression Effects 0.000 claims description 29
- 206010011878 Deafness Diseases 0.000 claims description 13
- 238000012546 transfer Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000005540 biological transmission Effects 0.000 abstract description 4
- 238000013519 translation Methods 0.000 abstract description 3
- 239000013598 vector Substances 0.000 description 11
- 230000008859 change Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 241000282994 Cervidae Species 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002546 agglutinic effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
- G09B21/009—Teaching or communicating with deaf persons
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/02—Electrically-operated educational appliances with visual presentation of the material to be studied, e.g. using film strip
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
청각 장애인을 위한 수화 통역 시스템, 그 장치 및 방법이 개시된다. 본 발명에 따른 청각 장애인을 위한 수화 통역 시스템은, 사용자 단말기와 네트워크를 통해 접속되며, 사용자 단말기에 의해 선택된 방송채널로부터 방송신호를 수신하여 사용자 단말기에 전달하는 방송채널 전달부; 서브워드 및 발음사전에 기초하여 표준화된 언어모델 및 훈련과정을 통해 획득한 언어모델을 데이터베이스로 저장하는 언어모델 저장부; 입체영상으로 구현된 수화모델을 언어모델 저장부에 저장된 각각의 언어모델과 매칭하여 데이터베이스로 저장하는 수화모델 저장부; 방송채널 전달부를 통해 방송채널로부터 수신되는 방송신호 중 음성신호를 서브워드로 분석하며, 분석된 서브워드에 기초하여 언어모델 저장부로부터 대응하는 언어모델을 선택하는 음성인식부; 및 음성인식부에 의해 선택된 언어모델에 대응하여 수화모델 저장부로부터 수화모델을 선택하며, 선택된 수화모델을 상기 방송신호에 삽입하는 수화모델 삽입부를 포함하는 것을 특징으로 한다.
Description
본 발명은 청각 장애인을 위한 수화 통역 시스템, 그 장치 및 방법에 관한 것으로서, 음성인식 기술 및 입체영상 기술을 이용하여 음성을 수화로 통역하여 제공할 수 있는 청각 장애인을 위한 수화 통역 시스템, 그 장치 및 방법에 관한 것이다.
정보통신의 발달로 삶의 질이 높아지고 있지만 장애인을 위한 장치는 부족한 실정이다. 특히, 일상생활이나 공공시설에서 청각장애인을 위한 의사소통 장치가 부족하여 정보통신에 대한 청각장애인의 접근을 어렵게 하고 있다.
최근, 몇몇 TV 방송에서는 수화 전문가가 방송중인 음성을 수화로 통역하여 그 내용을 TV 방송화면의 오른쪽 하단에 함께 표시하고 있으며, 몇몇 공공시설에서도 청각장애인을 위하여 수화 전문가가 수화로 안내방송을 하는 화면을 표시하고 있다.
그런데, 이와 같은 수화 표시 방법은 수화 전문가 수가 턱없이 부족하여 모든 방송국, 모든 방송채널 및 모든 공공시설에서 실시하기는 어려우며,방송국의 결정에 따라 특정 채널의 특정 방송 프로그램에 한정하여 제공하거나, 공공시설의 특정 상황에 한정하여 실행하는 정도에 불과하다.
따라서, 청각 장애인은 여전히, 정보통신의 발달에 따른 이익을 누리는데 많은 어려움이 있다는 문제점이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 창안된 것으로서, 음성인식 기술 및 입체영상 기술을 이용하여 음성을 수화로 통역하여 제공할 수 있는 청각 장애인을 위한 수화 통역 시스템, 그 장치 및 방법을 제공하는 것을 목적으로 한다.
상기의 목적을 달성하기 위한 본 발명의 실시예에 따른 청각 장애인을 위한 수화 통역 시스템은, 사용자 단말기와 네트워크를 통해 접속되며, 상기 사용자 단말기에 의해 선택된 방송채널로부터 방송신호를 수신하여 상기 사용자 단말기에 전달하는 방송채널 전달부; 서브워드 및 발음사전에 기초하여 표준화된 언어모델 및 훈련과정을 통해 획득한 언어모델을 데이터베이스로 저장하는 언어모델 저장부; 입체영상으로 구현된 수화모델을 상기 언어모델 저장부에 저장된 각각의 언어모델과 매칭하여 데이터베이스로 저장하는 수화모델 저장부; 상기 방송채널 전달부를 통해 상기 방송채널로부터 수신되는 방송신호 중 음성신호를 서브워드로 분석하며, 분석된 상기 서브워드에 기초하여 상기 언어모델 저장부로부터 대응하는 언어모델을 선택하는 음성인식부; 및 상기 음성인식부에 의해 선택된 상기 언어모델에 대응하여 상기 수화모델 저장부로부터 수화모델을 선택하며, 선택된 상기 수화모델을 상기 방송신호에 삽입하는 수화모델 삽입부를 포함하는 것을 특징으로 한다.
여기서, 상기 방송채널 전달부는 상기 수화모델 삽입부에 의해 상기 수화모델이 삽입된 상기 방송신호를 상기 사용자 단말기로 전달하는 것이 바람직하다.
또한, 상기의 청각 장애인을 위한 수화 통역 시스템은, 다양한 종류의 아바타를 저장하는 아바타 저장부; 및 상기 아바타 저장부에 저장된 아바타 중 상기 사용자 단말기에 의해 선택된 아바타에 선택된 상기 수화모델을 조합하는 수화모델 조합부를 더 포함할 수 있다.
또한, 상기의 청각 장애인을 위한 수화 통역 시스템은, 상기 언어모델 저장부에 저장된 각각의 언어모델과 매칭하여 각각의 상기 아바타의 표정모델을 데이터베이스로 저장하는 표정모델 저장부; 및 상기 음성인식부에 의해 선택된 상기 언어모델에 대응하여 상기 표정모델 저장부로부터 표정모델을 선택하며, 선택된 상기 표정모델을 선택된 상기 아바타에 조합하는 표정모델 조합부를 더 포함할 수도 있다.
한편, 상기의 청각 장애인을 위한 수화 통역 시스템은, 서브워드 및 발음사전에 기초하여 표준화된 언어모델 및 훈련과정을 통해 획득한 언어모델을 데이터베이스로 저장하는 단계; 입체영상으로 구현된 수화모델을 각각의 상기 언어모델과 매칭하여 데이터베이스로 저장하는 단계; 네트워크를 통해 접속된 사용자 단말기로부터 방송채널 선택신호를 수신하며, 수신한 상기 방송채널 선택신호에 대응하는 방송채널로부터 방송신호를 수신하는 단계; 상기 방송채널로부터 수신되는 방송신호 중 음성신호를 서브워드로 분석하며, 분석된 상기 서브워드에 기초하여 저장된 상기 언어모델 중 대응하는 언어모델을 선택하는 단계; 선택된 상기 언어모델에 대응하여 수화모델을 선택하며, 선택된 상기 수화모델을 상기 방송신호에 삽입하는 단계; 및 선택된 상기 수화모델이 삽입된 상기 방송신호를 상기 사용자 단말기에 전달하는 단계를 포함하는 수화 통역 방법을 제공한다.
또한, 상기의 수화 통역 방법은, 다양한 종류의 아바타를 저장하는 단계; 및
저장된 상기 아바타 중 상기 사용자 단말기에 의해 선택된 아바타에 선택된 상기 수화모델을 조합하는 단계를 더 포함할 수 있다.
또한, 상기의 수화 통역 방법은, 저장된 각각의 상기 언어모델과 매칭하여 각각의 상기 아바타의 표정모델을 데이터베이스로 저장하는 단계; 및 저장된 상기 표정모델 중 선택된 상기 언어모델에 대응하는 표정모델을 선택하며, 선택된 상기 표정모델을 선택된 상기 아바타에 조합하는 단계를 더 포함할 수도 있다.
상기의 목적을 달성하기 위한 본 발명의 실시예에 따른 청각 장애인을 위한 수화 통역 장치는, 음성신호를 수신하는 음성신호 수신부; 서브워드 및 발음사전에 기초하여 표준화된 언어모델 및 훈련과정을 통해 획득한 언어모델을 데이터베이스로 저장하는 언어모델 저장부; 입체영상으로 구현된 수화모델을 상기 언어모델 저장부에 저장된 각각의 언어모델과 매칭하여 데이터베이스로 저장하는 수화모델 저장부; 상기 음성신호 수신부를 통해 수신한 음성신호를 서브워드로 분석하며, 분석된 상기 서브워드에 기초하여 상기 언어모델 저장부로부터 대응하는 언어모델을 선택하는 음성인식부; 및 상기 음성인식부에 의해 선택된 상기 언어모델에 대응하여 상기 수화모델 저장부로부터 수화모델을 선택하며, 선택된 상기 수화모델을 화면으로 출력하는 수화표시부를 포함하는 것을 특징으로 한다.
여기서, 상기의 청각 장애인을 위한 수화 통역 장치는, 다양한 종류의 아바타를 저장하는 아바타 저장부; 상기 아바타 저장부에 저장된 상기 아바타 중 사용자에 의해 선택된 아바타에 상기 수화모델을 조합하는 수화모델 조합부를 더 포함할 수 있다.
또한, 상기의 청각 장애인을 위한 수화 통역 장치는, 상기 언어모델 저장부에 저장된 각각의 언어모델과 매칭하여 각각의 상기 아바타의 표정모델을 데이터베이스로 저장하는 표정모델 저장부; 및 상기 음성인식부에 의해 선택된 상기 언어모델에 대응하여 상기 표정모델 저장부로부터 표정모델을 선택하며, 선택된 상기 표정모델을 선택된 상기 아바타에 조합하는 표정모델 조합부를 더 포함할 수도 있다.
한편, 상기의 청각 장애인을 위한 수화 통역 장치는, 서브워드 및 발음사전에 기초하여 표준화된 언어모델 및 훈련과정을 통해 획득한 언어모델을 데이터베이스로 저장하는 단계; 입체영상으로 구현된 수화모델을 상기 각각의 언어모델과 매칭하여 데이터베이스로 저장하는 단계; 음성신호를 수신하는 단계; 수신한 상기 음성신호를 서브워드로 분석하며, 분석된 상기 서브워드에 기초하여 상기 각각의 언어모델로부터 대응하는 언어모델을 선택하는 단계; 및 선택된 상기 언어모델에 대응하여 저장된 상기 수화모델로부터 수화모델을 선택하며, 선택된 상기 수화모델을 화면으로 출력하는 수화표시부를 포함하는 수화 통역 방법을 제공한다.
여기서, 상기의 수화 통역 방법은, 다양한 종류의 아바타를 저장하는 단계; 저장된 상기 아바타 중 사용자에 의해 선택된 상기 아바타에 선택된 상기 수화모델을 조합하는 단계를 더 포함할 수 있다.
또한, 상기의 수화 통역 방법은, 저장된 각각의 상기 언어모델과 매칭하여 각각의 상기 아바타의 표정모델을 데이터베이스로 저장하는 단계; 및 저장된 상기 표정모델 중 선택된 상기 언어모델에 대응하는 표정모델을 선택하며, 선택된 상기 표정모델을 선택된 상기 아바타에 조합하는 단계를 더 포함할 수도 있다.
본 발명에 따르면, 음성인식 기술 및 입체영상 기술을 이용하여 음성을 수화로 통역하여 제공할 수 있게 됨으로써, 청각 장애인은 네트워크를 통하여 수화 통역 시스템에 접속하여 방송신호에 대한 통역 서비스를 받을 수 있게 된다.
또한, 청각 장애인은 수화 통역 장치를 이용하여 주변의 음성신호에 대한 수화 통역 서비스를 받을 수 있게 됨으로써, 공공시설 이용 및 일상생활에서의 불편을 해소할 수 있게 된다.
도 1은 본 발명의 실시예에 따른 청각 장애인을 위한 수화 통역 시스템을 개략적으로 도시한 도면이다.
도 2는 도 1의 수화 통역 시스템에 의한 수화 통역 방법을 나타낸 흐름도이다.
도 3은 수화모델 그룹의 예를 나타낸 도면이다.
도 4는 표정모델의 예를 나타낸 도면이다.
도 5는 방송신호에 수화모델을 삽입한 예를 나타낸 도면이다.
도 6은 본 발명의 실시예에 따른 청각 장애인을 위한 수화 통역 장치를 개략적으로 도시한 도면이다.
도 7은 도 6의 수화 통역 장치에 의한 수화 통역 방법을 나타낸 흐름도이다.
도 2는 도 1의 수화 통역 시스템에 의한 수화 통역 방법을 나타낸 흐름도이다.
도 3은 수화모델 그룹의 예를 나타낸 도면이다.
도 4는 표정모델의 예를 나타낸 도면이다.
도 5는 방송신호에 수화모델을 삽입한 예를 나타낸 도면이다.
도 6은 본 발명의 실시예에 따른 청각 장애인을 위한 수화 통역 장치를 개략적으로 도시한 도면이다.
도 7은 도 6의 수화 통역 장치에 의한 수화 통역 방법을 나타낸 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 따른 청각 장애인을 위한 수화 통역 시스템, 수화 통역 장치 및 그 방법을 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른 청각 장애인을 위한 수화 통역 시스템을 개략적으로 도시한 도면이다.
도면을 참조하면, 사용자 단말기(100)는 네트워크(110)를 통하여 청각 장애인을 위한 수화 통역 시스템(이하, '수화 통역 시스템'이라고 한다)(200)에 접속이 가능하다. 또한, 방송서버(120)는 네트워크(110)를 통하여 수화 통역 시스템(200)에 접속되거나, 유선을 통하여 수화 통역 시스템(200)과 직접 접속이 가능하다.
여기서, 사용자 단말기(100)는 동영상의 표시가 가능하며, 컴퓨터(Personal Computer: PC), PDA(Personal Digital Assistant), 휴대폰, 노트북 등과 같이 유무선을 통해 데이터의 송수신이 가능한 단말기를 말한다.
또한, 네트워크(110)는 일반적인 유선망뿐만 아니라, CDMA(Code Division Multiple Access), WCDMA(Wideband CDMA) 등과 같은 이동통신망, LTE(Long Term Evolution), Wibro 등과 같은 무선망을 포함한다.
또한, 방송서버(120)는 전파를 통하거나 네트워크(110)를 통하여 동영상 및 음성신호를 포함하는 방송신호를 전송하는 장치를 말한다.
또한, 수화 통역 시스템(200)은 본 발명의 실시예에 따라 네트워크(110)를 통해 접속한 사용자 단말기(100)에 수화모델이 삽입된 방송신호를 전송한다. 이를 위하여, 수화 통역 시스템(200)은 언어모델 저장부(210), 수화모델 저장부(220), 방송채널 전달부(230), 음성 인식부(240) 및 수화모델 삽입부(250)를 포함한다. 바람직하게는, 수화 통역 시스템(200)은 아바타 저장부(260), 수화모델 조합부(270), 표정모델 저장부(280) 및 표정모델 조합부(290)를 더 포함할 수 있다.
도 2는 도 1의 수화 통역 시스템에 의한 수화 통역 방법을 나타낸 흐름도이다. 도면을 참조하여 도 1의 수화 통역 시스템의 구성 및 동작을 보다 상세하게 설명한다.
언어모델 저장부(210)는 음성인식을 위하여, 서브워드 및 발음사전에 기초하여 표준화된 언어모델 및 훈련과정을 통해 획득한 언어모델을 데이터베이스로 저장한다(S201).
음성인식은 공기 중에서 전달되어 온 음성신호를 마이크를 통하여 받아들인 후 이를 처리하여 그 신호 내에 포함된 음성언어를 문자의 형태로 변환하는 과정까지를 의미한다. 물론 사람은 그 말 속에 내포된 의미를 파악하는 과정을 포함하는 넓은 의미의 음성이해 과정을 수행하지만, 여기에서는 단지 좁은 의미의 음성인식 과정에 대해서만 설명한다.
컴퓨터가 사람의 말을 인식하는 과정은 일종의 패턴인식 과정으로 볼 수 있다. 즉, 사람이 발성하는 특정 단어의 신호를 패턴화하여 컴퓨터 메모리 안에 기억시킨 다음 새로운 음성이 입력되면 입력된 음성이 저장되어 있는 패턴들 중 어느 것과 가장 유사한지를 판단해 내면 되는 것이다. 이러한 과정은 사람이 태어나서 말을 배울 때 여러 가지 단어나 문법을 수많은 반복훈련 과정을 통해 두뇌 속에 패턴화하는 훈련과정과 훈련된 패턴을 새로 입력된 음성과 비교하여 입력 음성이 무엇인지를 알아내는 인식과정으로 크게 나눌 수 있다. 훈련과정과 인식과정은 서로 유기적인 관련성을 가지므로, 그 방법상의 일관성이 유지되어야 한다.
음성인식 과정의 이해를 돕기 위하여, 우선 미리 결정된 소규모 어휘에 대해서만 고립단어의 형태로 컴퓨터에 입력할 때 이를 인식하는 비교적 간단한 음성인식 과정을 살펴본다.
음성인식 과정은 일반적으로 음성분석 과정, 음성인식 전처리 과정 및 음성인식 후처리 과정으로 구분된다.
우선, 음성분석 과정에서는 마이크를 통해 입력된 아날로그 음성신호를 디지털 신호로 변환하는 디지털 변환과정과 입력된 신호 내에 음성이 존재하는 구간을 검출하는 음성 검출과정을 수행한다. 이 음성 검출과정은 다음 단계인 패턴 비교 과정에서의 연산량을 감축하고 더불어 패턴비교의 정확도를 향상시키기 위하여 사용한다.
다음으로 매우 중요한 과정이 음성신호가 가지는 특성을 계수화하는 특징벡터 추출과정이다. 이 과정은 보통 20 ~ 30 msec 단위로 음성신호를 블록화하여 각 프레임(frame) 별로 특징벡터를 게산해 내는데, 여기서 중요한 것은 이 프레임별 특징벡터가 등록되어 있는 어휘를 구별하는데 도움이 되는 특성을 충분히 포함하고 있어야 한다는 것이다. 특징벡터 추출방법으로 LPC(Linear Predictive Coding)에 기반을 둔 cepstral 계수나 사람의 청각특성을 주파수 영역에서 고려한 MFCC(Mel-Frequency Cepstral Coefficients) 등을 이용할 수 있다.
이렇게 얻어진 특징벡터 열(sequence)을 가지고 각 어휘의 표준패턴을 미리 컴퓨터에 저장해 두는 훈련과정을 수행한다. 먼저 다양한 화자로 하여금 인식대상 어휘를 수회 반복 발성케 하여 훈련용 음성 DB를 구축하고 이로부터 각 고립단어 별로 특징벡터 열을 추출해 놓는다. 다음으로 각 어휘별로 모아진 수십 개 혹은 수백 개의 음성 특징벡터를 벡터 양자화하여 각 어휘별로 코드북(codebook)을 만들어 이를 인식기 전처리 과정의 표준패턴으로 저장한다. 특기할 점은 이 표준패턴에는 특징벡터의 시간축 상에서의 변화정보를 가지고 있지 않아서 정확한 패턴비교에는 사용할 수 없고, 다만 수많은 인식대상 어휘들 중에서 가능성이 높은 몇 개 혹은 몇십 개 정도의 어휘를 추출해 내는데 이용한다는 것이다.
다음으로 보다 정밀한 패턴비교에 사용될 각 어휘별 표준패턴을 결정하기 위하여 시간축 상에서의 프레임 수의 불일치를 극복하고 시간축 상에서의 변화정보를 효과적으로 이용하기 위하여 동적 프로그램의 일종인 DTW(Dynamic Time Warping) 기법을 각 어휘별 표준패턴 훈련과정에 적용한다. 이 방법도 기본적으로는 벡터양자화 과정의 일종으로 볼 수 있으며, 단지 전처리 과정과의 차이는 패턴간의 유사도(similarity)를 계산할 때 시간축 상에서의 효과적인 매핑(mapping)을 위하여 DTW 기법을 추가로 사용한다는 점이다.
각 어휘별로 훈련과정을 통하여 얻은 전처리과정에서의 표준패턴인 VQ 코드북과 후처리과정에서의 표준패턴인 DTW 참조패턴들을 가지고 새로 입력된 미지의 음성패턴과 패턴비교 과정을 수행하는 것이 음성인식의 핵심과정이다.
우선, 전차리과정에서는 입력된 음성의 시간축 상에서의 변화정보를 무시하고 단지 각 어휘별 코드북과의 총 왜곡(distortion)의 합이 최소가 되는 순서대로 정해진 개수만큼의 후보 어휘들을 결정한다. 다음으로, 후처리과정에서는 선택된 후보 어휘들의 DTW 참조패턴과 입력음성 패턴을 DTW 방식을 사용하여 정밀한 왜곡을 구해서 이들 중 가장 왜곡이 작은 값을 가지는 어휘를 최종적으로 인식된 어휘로 결정한다.
여기에서 예시한 방법보다 더욱 간단한 인식과정을 구현하는 것도 가능한데, 그것은 음성인식 전처리과정 및 후처리과정 중 한가지만을 사용하여 인식 결과를 결정해 버리는 방법이다. 이러한 방법도 인식대상 어휘 수가 매우 적은 경우에는 비교적 높은 정확도를 가질 수 있다.
그런데, 상술한 바와 같은 소어휘 고립단어 인식기의 구조는 인식대상 어휘 수를 크게 확대하거나 입력음성으로 다양한 문법적 구조를 가질 수 있는 연속음성을 처리하고자 할 때 인식기의 정확도가 크게 저하되는 단점을 가지고 있다.
이와 같은 문제점을 개선하기 위하여 각 인식대상 어휘의 표준패턴을 표현하기 위하여 단어보다 작은 단위인 서브워드(sub-word)를 기본 패턴단위로 사용하고 어휘를 표현하기 위하여 발음사전(lexicon)을 사용할 수 있다. 이러한 서브워드 단위의 예로는 음소나 음절 등과 같이 발음사전과 유기적으로 연관될 수 있는 단어 이하의 단위이면 어느 것이나 가능하다. 따라서 이제는 각 어휘의 표준패턴이 서브워드 모델과 발음사전으로 대표되며, 서브워드 모델들은 훈련과정을 통하여 결정하고, 발음사전은 발음규칙이나 별도의 작업으로 생성하여 저장해 놓는다.
또한, 문법적 제약을 가지는 연속음성을 인식해 내기 위하여 언어모델(language model)을 채용할 수 있다. 이 언어모델에서는 각 어휘들이 주어진 인식대상 영역에서 어떤 문법 및 의미적 제약을 가져야 하는지를 각종 언어모델링 기법(예를 들면, Finite State Grammar, Context-Free Grammar, Stochastic Grammar 등)을 사용하여 훈련과정 혹은 수작업으로 정의하여 사용할 수 있다.
또한, 입력된 미지 음성의 특징벡터와 인식 대상인 연속 어휘 패턴들을 효율적으로 비교하는 검색과정(search)이 필요하다. 이 과정에서는 단어 레벨과 문장 레벨의 패턴 정보가 서로 결합하여 최종적인 인식 문장을 찾아낼 수 있도록 검색공간(search space)을 구성하고 검색한다. 가장 간단한 검색방법으로 Viterbi beam search 기법이 있으며 이외에도 N-best 결과나 word lattice 결과를 얻기 위한 다양한 방법들이 이용될 수 있다.
특히, 서브워드 단위를 모델링 하는데 사용하는 기법으로 HMM(Hidden Markov Model) 기법이 사용될 수 있다. 이것은 각 단위 음성을 몇 개의 상태열(state sequence)로 정의하고 각 상태는 각 음성 세그먼트(segment)의 특징벡터가 발생하는 확률적 분포로 정의하는 방법이다. 이러한 모델링을 가능케 하는 훈련방법의 대표적인 것으로 maximum likelihood에 기반을 둔 forward-backward estimation 알고리즘과 segmental k-means 알고리즘이 있다. 이외에도 각종 노이즈가 개입되어 있는 음성신호에서 음성인식기의 성능 향상을 위하여 마이크로폰 어레이(microphone array)를 이용한다든지 적응신호 처리기법을 이용하여 잡음을 제거할 수 있다.
수화모델 저장부(220)는 입체영상으로 구현된 수화모델을 언어모델 저장부(210)에 저장된 각각의 언어모델과 매칭하여 데이터베이스로 저장한다(S203).
수화의 유형은 수화 언어의 구성 요소 및 표현 방법에 따라 표 1에 나타낸 바와 같이 자연 수화와 문법 수화로 나눌 수 있다. 문법 수화는 문자 언어의 어순에 따라 필요한 문법적 기호나 단어의 변화를 수반하는 수화이며, 자연 수화는 청각장애인의 마음에서 생긴 관념에 따라 형성된 자연 발생적 수화이다.
한국 수화는 한국어와 기본적인 유사성을 지니지만, 한국어가 의미 형태소에 조사, 어미와 같은 형식 형태소가 붙음으로써 문법적 기능을 하게 되는 교착어(agglutinative language)인 반면, 한국 수화는 문법적인 관계를 나타내는 형태소의 발달을 거의 찾아보기 힘들고 각각의 말이 독립되어 일반적으로 어순에 따라 문접적인 기능을 하는 고립어(isolated language)와 유사하다. 또한, 수화는 청각으로 이해되고 음성으로 표현되는 청각-음성 체계의 음성 언어와 달리 시각으로 이해되고 손 운동으로 표현되는 시각-운동 체계로서 그 형태와 의미는 가지고 있되 태생적 특성상 문자언어 체계를 갖고 있지 않은 독특한 언어이다. 따라서, 고립어의 형태를 띠면서 시각적으로 표현하는 언어인 수화의 근본적인 속성으로 인한 의미, 표현상의 특징을 고려하지 않고서는 제대로 된 번역을 기대하기 어렵다.
언어모델의 문장과 수화모델의 매칭을 위하여, 국문법 체계의 수화 문장을 수화 문법체계의 문장으로 변환하기 위하여, 수화 단어의 종류를 8가지로 정의하고 품사별로 5가지의 수화 사전을 구성할 수 있다. 이 경우, 언어모델 저장부(210)에 저장된 언어모델의 문장을 우선 어절별로 분리한 후, 체언과 조사, 용언의 기본형과 어미, 접두사와 접미사, 문장 기호, 숫자의 단위별 구문분석을 거친 다음 분석된 단어 및 음소별로 종류별 수화 사전을 참조하여 문법식 또는 혼합식 수화 체계로 변환할 수 있다.
또한, 한국어의 각 품사별로 형태소 해석 규칙에 대응하는 수화 형태소 규칙을 정의하며, 자연수화의 특징을 이용하여 언어모델과 수화모델을 매칭시킬 수도 있다.
한국어 문장을 수화로 변환할 때 일어나는 수화 표현의 재현, 생략, 변형, 이동 현상과 그 특징을 바탕으로 분석하면, 한국어 문장에서 독립적 어휘로 나타나 있지 않은 표현이 수화에서 하나의 독립 어휘로 재현되는 경우는 크게 형식 형태소가 독립 어휘로 재현되는 경우, 수화 어휘가 능동적으로 삽입되는 경우 및 설명적 표현을 위한 경우의 세 가지로 나뉠 수 있다.
형식 형태소가 독립 어휘로 재현되는 경우를 살펴보면, 시제 표현의 경우 한국어 문장에서는 시제어미나 관형화된 어미의 굴곡적 방법에 의해 실현되지만 어미의 사용이 거의 없는 한국 수화에서는 다른 방법으로 시제를 실현하게 되는데, 이를 위해서 여러 가지 실현 방법이 있으나 가장 간단하게는 용언의 선어말 어미 또는 시제와 관련된 관형사형 어미를 통해 문장의 시제를 파악하여 내용어 뒤에 해당 시제를 나타내는 적절한 수화 어휘를 별도로 표현해 줄 수 있다.
또한, 수화 문자의 의미 관계를 보다 명확하게 표현하기 위해서 기능어를 독립적 어휘로 표현할 뿐만 아니라 한국어 문장상에는 나타나 있지 않은 어휘를 상황에 따라 능동적으로 수화 표현에 삽입해 줄 필요가 있다.
또한, 어휘가 발달한 언어일수록 함축적 단어가 많이 존재한다. 한국 수화의 어휘는 한국어에 비해 매우 부족하기 때문에 한국어 문장에 나타나는 함축적 어휘를 수화로 나타내기 위해서는 가능한 한 해당 어휘를 풀어서 설명하여야 한다. 특히 일부 한자성어와 신조어처럼 별도의 수화 어휘가 없는 개념을 풀어서 설명하는 형식의 표현이 절실하게 요구된다.
이와 같은 점들을 고려하여, 언어모델 저장부(210)는 표준화된 언어모델 및 그 표준화된 언어모델과 유사하며 훈련과정을 통해 획득한 언어모델을 묶어 언어모델 유사군을 형성할 수 있다. 또한, 수화모델 저장부(220)는 형성된 언어모델 유사군과 수화모델을 매칭시키고, 언어모델 유사군 내의 각각의 언어모델에 따라 개별적 수화모델을 추가하거나 변경하여 매칭시켜 저장할 수 있다. 이때, 수화모델은 손 모양 데이터 사전으로 구성될 수 있으며, 손 모양 데이터 사전을 만들기 위해 손 모양이 서로 유사한 손 모양 그룹을 구성하여 저장될 수 있다. 예를 들어, 도 3에 도시한 바와 같이, 손 모양이 유사한 '돈'과 일련번호 '2' 등을 하나의 수화모델로 그룹화하여 함께 저장될 수도 있다.
아바타 저장부(260)는 다양한 종류의 아바타를 저장한다. 아바타 저장부(260)에 저장되는 아바타는 남자, 여자, 소년, 소녀, 노인, 개, 고양이, 사슴 등과 같이 다양하게 분류될 수 있으며, 분류된 종류는 네트워크(110)를 통해 접속한 사용자 단말기(100)에 선택메뉴로 제공될 수 있다(S205).
표정모델 저장부(280)는 언어모델 저장부(210)에 저장된 각각의 언어모델과 매칭하여 각각의 아바타의 표정모델을 데이터베이스로 저장한다. 예를 들어, 표정모델 저장부(280)은 도 4에 도시한 바와 같이 중립(무표정), 화남, 폭소/웃음, 공포, 미소, 눈물 흘림, 놀람, 역겨움, 슬픔, 눈감음 등과 같이 감정상태를 나타내는 다양한 표정모델을 데이터베이스로 저장할 수 있으며, 이와 같은 표정모델들은 언어모델의 감정상태에 따라 그룹화되어 매칭될 수 있다(S207).
방송채널 전달부(230)는 네트워크(110)를 통해 접속된 사용자 단말기(100)로부터 방송채널 선택신호를 수신하며, 수신한 방송채널 선택신호에 대응하는 방송서버(120)에 접속하고, 방송채널 선택신호에 대응하는 방송채널을 통해 방송신호를 수신한다(S209).
음성 인식부(240)는 방송채널 전달부(230)를 통해 방송서버(120)의 방송채널로부터 수신되는 방송신호 중 음성신호를 서브워드로 분석하며, 분석된 서브워드에 기초하여 언어모델 저장부(210)로부터 대응하는 언어모델을 선택한다(S211). 또한, 언어모델 저장부(210)로부터 선택된 언어모델에 대응하여 수화모델 저장부(220)로부터 수화모델을 선택한다.
수화모델 조합부(270)는 아바타 저장부(260)에 저장된 아바타 중 네트워크(110)를 통해 접속한 사용자 단말기(100)에 의해 선택된 아바타에, 선택된 수화모델을 조합한다(S213).
표정모델 삽입부(290)는 음성 인식부(240)에 의해 선택된 언어모델에 대응하여 표정모델 저장부(280)로부터 표정모델을 선택하며, 선택된 표정모델을 선택된 아바타에 조합하여 합성할 수 있다(S215). 예를 들어, 음성 인식부(240)에 의해 선택된 언어모델이 슬픔을 나타내는 그룹에 속하는 경우, 표정모델 저장부(280)에 저장된 표정모델 중 슬픔에 해당하는 표정모델을 선택하여 아바타에 조합할 수 있다. 도 4의 경우, 소녀의 아바타에 표정모델이 조합된 경우를 나타낸다.
수화모델 삽입부(250)는 음성 인식부(240)에 의해 선택된 언어모델에 대응하여 수화모델 저장부(220)로부터 수화모델을 선택하며, 선택된 수화모델을 방송신호에 삽입한다. 이때, 수화모델 삽입부(250)는 도 5(a)와 같은 방송신호의 원본에 도 5(b)와 같이 선택된 언어모델에 대응하는 문자 및 수화모델을 함께 삽입할 수도 있다. 이때, 수화모델 삽입부(250)는 수화모델 조합부(270)에 의해 아바타에 수화모델이 조합되며, 표정모델 조합부(290)에 의해 아바타에 표정모델이 조합된 수화모델을 방송신호에 삽입하는 것이 바람직하다(S217).
방송채널 전달부(230)는 상기와 같은 방식으로 수화모델이 삽입된 방송신호를 사용자 단말기(100)에 전달한다(S219).
이로써, 청각 장애인은 동영상의 실행이 가능한 사용자 단말기를 이용하여 네트워크를 통해 수화 통역 시스템에 접속함으로써, 원하는 방송채널로부터 수화로 통역된 방송신호를 수신하여 시청할 수 있게 된다.
도 6은 본 발명의 실시예에 따른 수화 통역 장치를 개략적으로 도시한 도면이다. 도면을 참조하면, 수화 통역 장치(600)는, 언어모델 저장부(610), 수화모델 저장부(620), 음성신호 수신부(630), 음성 인식부(640) 및 수화 표시부(650)를 포함한다. 바람직하게는, 수화 통역 장치(600)은 아바타 저장부(660), 수화모델 조합부(670), 표정모델 저장부(680) 및 표정모델 조합부(690)를 더 포함할 수 있다. 이와 같은 수화 통역 장치(600)는 PDA, PMP(Portable Multimedia Player), 휴대폰 등과 같은 이동통신 단말기에 하드웨어 또는 소프트웨어로 구현될 수 있다.
도 7은 도 6의 수화 통역 장치(600)에 의한 수화 통역 방법을 나타낸 흐름도이다. 도면을 참조하여 도 6의 수화 통역 장치(600)의 구성 및 동작을 보다 상세하게 설명한다.
언어모델 저장부(610)는 음성인식을 위하여, 서브워드 및 발음사전에 기초하여 표준화된 언어모델 및 훈련과정을 통해 획득한 언어모델을 데이터베이스로 저장한다(S701).
또한, 수화모델 저장부(620)는 입체영상으로 구현된 수화모델을 언어모델 저장부(610)에 저장된 각각의 언어모델과 매칭하여 데이터베이스로 저장한다(S703).
또한, 아바타 저장부(660)는 다양한 종류의 아바타를 저장한다(S705). 아바타 저장부(660)에 저장되는 아바타는 남자, 여자, 소년, 소녀, 노인, 개, 고양이, 사슴 등과 같이 다양하게 분류될 수 있다. 또한, 분류된 종류에 대해 사용자의 선택이 가능하도록 화면상에 선택메뉴가 제공될 수도 있다.
표정모델 저장부(680)는 언어모델 저장부(610)에 저장된 각각의 언어모델과 매칭하여 각각의 아바타의 표정모델을 데이터베이스로 저장한다. 예를 들어, 표정모델 저장부(680)은 도 4에 도시한 바와 같이 중립(무표정), 화남, 폭소/웃음, 공포, 미소, 눈물 흘림, 놀람, 역겨움, 슬픔, 눈감음 등과 같이 감정상태를 나타내는 다양한 표정모델을 데이터베이스로 저장할 수 있으며, 이와 같은 표정모델들은 언어모델의 감정상태에 따라 그룹화되어 매칭될 수 있다(S707).
언어모델 저장부(610), 수화모델 저장부(620), 아바타 저장부(660) 표정모델 저장부(680)의 구성 및 기능은 도 1의 언어모델 저장부(210), 수화모델 저장부(220), 아바타 저장부(260) 표정모델 저장부(280)의 구성 및 기능과 동일하므로, 이에 대해서는 상술한 설명을 참조한다.
음성신호 수신부(630)는 유무선을 통해 수신한 방송신호로부터 음성신호를 분리하거나, 마이크를 통해 주변의 음성신호를 수신할 수 있다(S709).
음성 인식부(640)는 음성신호 수신부(630)를 통해 수신되는 음성신호를 서브워드로 분석하며, 분석된 서브워드에 기초하여 언어모델 저장부(610)로부터 대응하는 언어모델을 선택한다(S711). 또한, 음성 인식부(640)는 선택된 언어모델에 대응하여 수화모델 저장부(620)로부터 수화모델을 선택한다.
수화모델 조합부(670)는 아바타 저장부(660)에 저장된 아바타 중 사용자에 의해 선택된 아바타에, 상기와 같이 선택된 수화모델을 조합한다(S713).
표정모델 삽입부(690)는 음성 인식부(640)에 의해 선택된 언어모델에 대응하여 표정모델 저장부(680)로부터 표정모델을 선택하며, 선택된 표정모델을 선택된 아바타에 조합하여 합성할 수 있다(S715). 예를 들어, 음성 인식부(640)에 의해 선택된 언어모델이 슬픔을 나타내는 그룹에 속하는 경우, 표정모델 저장부(680)에 저장된 표정모델 중 슬픔에 해당하는 표정모델을 선택하여 아바타에 조합할 수 있다.
수화 표시부(650)는 음성 인식부(640)에 의해 선택된 언어모델 및 수화모델을 아바타 및 표정모델과 조합하여 아바타 조합 영상을 생성하며, 생성된 아바타 조합 영상을 화면에 표시한다(S717). 이때, 수화 표시부(650)는 아바타 및 표정모델의 조합을 생략하고 수화모델만을 화면에 표시할 수 있으며, 표정모델의 조합을 생략하고 아바타 및 수화모델을 조합한 조합 영상을 화면에 표시할 수도 있다.
이로써, 청각 장애인은 동영상의 실행이 가능한 사용자 단말기를 이용하여 방송신호 또는 주변의 음성신호를 수화 통역 장치를 통해 번역하여 시청할 수 있게 됨으로써, 일상생활 및 공공시설의 이용에 대한 불편을 해소할 수 있게 된다.
이상에서는 본 발명의 바람직한 실시 예에 대해서 도시하고 설명하였으나, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.
100: 사용자 단말기 110: 네트워크
120: 방송서버 200: 수화 통역 시스템
210: 언어모델 저장부 220: 수화모델 저장부
230: 방송채널 전달부 240: 음성 인식부
250: 수화모델 삽입부 260: 아바타 저장부
270: 수화모델 조합부 280: 표정모델 저장부
290: 표정모델 조합부
120: 방송서버 200: 수화 통역 시스템
210: 언어모델 저장부 220: 수화모델 저장부
230: 방송채널 전달부 240: 음성 인식부
250: 수화모델 삽입부 260: 아바타 저장부
270: 수화모델 조합부 280: 표정모델 저장부
290: 표정모델 조합부
Claims (10)
- 사용자 단말기와 네트워크를 통해 접속되며, 상기 사용자 단말기에 의해 선택된 방송채널로부터 방송신호를 수신하여 상기 사용자 단말기에 전달하는 방송채널 전달부;
서브워드 및 발음사전에 기초하여 표준화된 언어모델 및 훈련과정을 통해 획득한 언어모델을 데이터베이스로 저장하는 언어모델 저장부;
입체영상으로 구현된 수화모델을 상기 언어모델 저장부에 저장된 각각의 언어모델과 매칭하여 데이터베이스로 저장하는 수화모델 저장부;
상기 방송채널 전달부를 통해 상기 방송채널로부터 수신되는 방송신호 중 음성신호를 서브워드로 분석하며, 분석된 상기 서브워드에 기초하여 상기 언어모델 저장부로부터 대응하는 언어모델을 선택하는 음성인식부; 및
상기 음성인식부에 의해 선택된 상기 언어모델에 대응하여 상기 수화모델 저장부로부터 수화모델을 선택하며, 선택된 상기 수화모델을 상기 방송신호에 삽입하는 수화모델 삽입부
를 포함하는 것을 특징으로 하는 청각 장애인을 위한 수화 통역 시스템.
- 제 1항에 있어서,
상기 방송채널 전달부는 상기 수화모델 삽입부에 의해 상기 수화모델이 삽입된 상기 방송신호를 상기 사용자 단말기로 전달하는 것을 특징으로 하는 청각 장애인을 위한 수화 통역 시스템.
- 제 1항 또는 제 2항에 있어서,
다양한 종류의 아바타를 저장하는 아바타 저장부; 및
상기 아바타 저장부에 저장된 아바타 중 상기 사용자 단말기에 의해 선택된 아바타에 선택된 상기 수화모델을 조합하는 수화모델 조합부
를 더 포함하는 것을 특징으로 하는 청각 장애인을 위한 수화 통역 시스템.
- 제 3항에 있어서,
상기 언어모델 저장부에 저장된 각각의 언어모델과 매칭하여 각각의 상기 아바타의 표정모델을 데이터베이스로 저장하는 표정모델 저장부; 및
상기 음성인식부에 의해 선택된 상기 언어모델에 대응하여 상기 표정모델 저장부로부터 표정모델을 선택하며, 선택된 상기 표정모델을 선택된 상기 아바타에 조합하는 표정모델 조합부
를 더 포함하는 것을 특징으로 하는 청각 장애인을 위한 수화 통역 시스템.
- 음성신호를 수신하는 음성신호 수신부;
서브워드 및 발음사전에 기초하여 표준화된 언어모델 및 훈련과정을 통해 획득한 언어모델을 데이터베이스로 저장하는 언어모델 저장부;
입체영상으로 구현된 수화모델을 상기 언어모델 저장부에 저장된 각각의 언어모델과 매칭하여 데이터베이스로 저장하는 수화모델 저장부;
상기 음성신호 수신부를 통해 수신한 음성신호를 서브워드로 분석하며, 분석된 상기 서브워드에 기초하여 상기 언어모델 저장부로부터 대응하는 언어모델을 선택하는 음성인식부; 및
상기 음성인식부에 의해 선택된 상기 언어모델에 대응하여 상기 수화모델 저장부로부터 수화모델을 선택하며, 선택된 상기 수화모델을 화면으로 출력하는 수화표시부
를 포함하는 것을 특징으로 하는 청각 장애인을 위한 수화 통역 장치.
- 제 5항에 있어서,
다양한 종류의 아바타를 저장하는 아바타 저장부;
상기 아바타 저장부에 저장된 아바타 중 사용자에 의해 선택된 아바타에 상기 수화모델을 조합하는 수화모델 조합부
를 더 포함하는 것을 특징으로 하는 청각 장애인을 위한 수화 통역 장치.
- 서브워드 및 발음사전에 기초하여 표준화된 언어모델 및 훈련과정을 통해 획득한 언어모델을 데이터베이스로 저장하는 단계;
입체영상으로 구현된 수화모델을 각각의 상기 언어모델과 매칭하여 데이터베이스로 저장하는 단계;
네트워크를 통해 접속된 사용자 단말기로부터 방송채널 선택신호를 수신하며, 수신한 상기 방송채널 선택신호에 대응하는 방송채널로부터 방송신호를 수신하는 단계;
상기 방송채널로부터 수신되는 방송신호 중 음성신호를 서브워드로 분석하며, 분석된 상기 서브워드에 기초하여 저장된 상기 언어모델 중 대응하는 언어모델을 선택하는 단계;
선택된 상기 언어모델에 대응하여 수화모델을 선택하며, 선택된 상기 수화모델을 상기 방송신호에 삽입하는 단계; 및
선택된 상기 수화모델이 삽입된 상기 방송신호를 상기 사용자 단말기에 전달하는 단계
를 포함하는 것을 특징으로 하는 청각 장애인을 위한 수화 통역 방법.
- 제 7항에 있어서,
다양한 종류의 아바타를 저장하는 단계; 및
저장된 상기 아바타 중 상기 사용자 단말기에 의해 선택된 아바타에 선택된 상기 수화모델을 조합하는 단계
를 더 포함하는 것을 특징으로 하는 청각 장애인을 위한 수화 통역 방법.
- 서브워드 및 발음사전에 기초하여 표준화된 언어모델 및 훈련과정을 통해 획득한 언어모델을 데이터베이스로 저장하는 단계;
입체영상으로 구현된 수화모델을 상기 각각의 언어모델과 매칭하여 데이터베이스로 저장하는 단계;
음성신호를 수신하는 단계;
수신한 상기 음성신호를 서브워드로 분석하며, 분석된 상기 서브워드에 기초하여 상기 각각의 언어모델로부터 대응하는 언어모델을 선택하는 단계; 및
선택된 상기 언어모델에 대응하여 저장된 상기 수화모델로부터 수화모델을 선택하며, 선택된 상기 수화모델을 화면으로 출력하는 수화표시부
를 포함하는 것을 특징으로 하는 청각 장애인을 위한 수화 통역 방법.
- 제 9항에 있어서,
다양한 종류의 아바타를 저장하는 단계; 및
저장된 상기 아바타 중 사용자에 의해 선택된 아바타에 선택된 상기 수화모델을 조합하는 단계
를 더 포함하는 것을 특징으로 하는 청각 장애인을 위한 수화 통역 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100007312A KR20110087742A (ko) | 2010-01-27 | 2010-01-27 | 청각 장애인을 위한 수화 통역 시스템, 그 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100007312A KR20110087742A (ko) | 2010-01-27 | 2010-01-27 | 청각 장애인을 위한 수화 통역 시스템, 그 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20110087742A true KR20110087742A (ko) | 2011-08-03 |
Family
ID=44926451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020100007312A KR20110087742A (ko) | 2010-01-27 | 2010-01-27 | 청각 장애인을 위한 수화 통역 시스템, 그 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20110087742A (ko) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210068790A (ko) * | 2019-12-02 | 2021-06-10 | (주)이투엘네트웍 | 수화통역 시스템 |
KR20210085938A (ko) * | 2019-12-31 | 2021-07-08 | 조용구 | 영상의 음성을 2d 및 3d 아바타, 애니메이션으로 번역해주는 수화번역 시스템 및 그 제어방법 |
CN113379879A (zh) * | 2021-06-24 | 2021-09-10 | 北京百度网讯科技有限公司 | 交互方法、装置、设备、存储介质以及计算机程序产品 |
CN115457981A (zh) * | 2022-09-05 | 2022-12-09 | 安徽康佳电子有限公司 | 一种便于听障人士观看视频的方法和基于该方法的电视 |
US11610356B2 (en) | 2020-07-28 | 2023-03-21 | Samsung Electronics Co., Ltd. | Method and electronic device for providing sign language |
KR102587471B1 (ko) * | 2023-02-15 | 2023-10-12 | 주식회사 코트라스 | 인공지능형 언어장애 통역 시스템 |
-
2010
- 2010-01-27 KR KR1020100007312A patent/KR20110087742A/ko not_active Application Discontinuation
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210068790A (ko) * | 2019-12-02 | 2021-06-10 | (주)이투엘네트웍 | 수화통역 시스템 |
KR20210085938A (ko) * | 2019-12-31 | 2021-07-08 | 조용구 | 영상의 음성을 2d 및 3d 아바타, 애니메이션으로 번역해주는 수화번역 시스템 및 그 제어방법 |
US11610356B2 (en) | 2020-07-28 | 2023-03-21 | Samsung Electronics Co., Ltd. | Method and electronic device for providing sign language |
CN113379879A (zh) * | 2021-06-24 | 2021-09-10 | 北京百度网讯科技有限公司 | 交互方法、装置、设备、存储介质以及计算机程序产品 |
CN115457981A (zh) * | 2022-09-05 | 2022-12-09 | 安徽康佳电子有限公司 | 一种便于听障人士观看视频的方法和基于该方法的电视 |
KR102587471B1 (ko) * | 2023-02-15 | 2023-10-12 | 주식회사 코트라스 | 인공지능형 언어장애 통역 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491382B (zh) | 基于人工智能的语音识别方法、装置及语音交互设备 | |
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
CN107195296B (zh) | 一种语音识别方法、装置、终端及系统 | |
US10902216B2 (en) | Parallel processing-based translation method and apparatus | |
KR102410914B1 (ko) | 음성 인식을 위한 모델 구축 장치 및 음성 인식 장치 및 방법 | |
CN113439301A (zh) | 使用序列到序列映射在模拟数据与语音识别输出之间进行协调 | |
CN109741732A (zh) | 命名实体识别方法、命名实体识别装置、设备及介质 | |
KR20170034227A (ko) | 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법 | |
CN112002308A (zh) | 一种语音识别方法及装置 | |
CN111243599B (zh) | 语音识别模型构建方法、装置、介质及电子设备 | |
CN109508402A (zh) | 违规用语检测方法及装置 | |
CN113012686A (zh) | 神经语音到意思 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
CN113327574B (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN112349289A (zh) | 一种语音识别方法、装置、设备以及存储介质 | |
KR20110087742A (ko) | 청각 장애인을 위한 수화 통역 시스템, 그 장치 및 방법 | |
Liu et al. | AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning | |
Hassan et al. | Improvement in automatic speech recognition of south asian accent using transfer learning of deepspeech2 | |
Lee | Speech translation | |
Qian et al. | A survey of technologies for automatic Dysarthric speech recognition | |
CN116343747A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
Labied et al. | Moroccan dialect “Darija” automatic speech recognition: a survey | |
CN117711398A (zh) | 一种语音交互教学方法、装置及眼镜 | |
KR20110092622A (ko) | 음성인식 기술을 이용한 외국어 말하기 평가 방법 및 시스템 | |
CN112131343B (zh) | 一种中文小说对话人物识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Withdrawal due to no request for examination |