[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR101208166B1 - 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법 - Google Patents

온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법 Download PDF

Info

Publication number
KR101208166B1
KR101208166B1 KR1020100129217A KR20100129217A KR101208166B1 KR 101208166 B1 KR101208166 B1 KR 101208166B1 KR 1020100129217 A KR1020100129217 A KR 1020100129217A KR 20100129217 A KR20100129217 A KR 20100129217A KR 101208166 B1 KR101208166 B1 KR 101208166B1
Authority
KR
South Korea
Prior art keywords
voice recognition
unit
sound signal
time
client system
Prior art date
Application number
KR1020100129217A
Other languages
English (en)
Other versions
KR20120067680A (ko
Inventor
이상호
김훈
구동욱
김준석
김상경
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=46244864&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR101208166(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020100129217A priority Critical patent/KR101208166B1/ko
Priority to PCT/KR2011/005394 priority patent/WO2012081788A1/ko
Priority to JP2013544373A priority patent/JP2014505270A/ja
Priority to US13/995,085 priority patent/US9318111B2/en
Publication of KR20120067680A publication Critical patent/KR20120067680A/ko
Application granted granted Critical
Publication of KR101208166B1 publication Critical patent/KR101208166B1/ko
Priority to JP2015117281A priority patent/JP6139598B2/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법이 개시된다. 음성인식의 시작시점부터 종료시점까지 입력되는 소리신호에 대한 음성인식 결과를 표시하는 음성인식 클라이언트 시스템은, 시작시점부터 종료시점까지 기선정된 단위시간마다 입력되는 단위소리신호를 단위시간마다 음성인식 서버 시스템으로 전송하고, 음성인식 서버 시스템으로부터 음성인식 중간 결과를 수신하는 통신부 및 수신된 음성인식 중간 결과를 시작시점과 종료시점 사이에 표시하는 표시부를 포함한다.

Description

온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법{SPEECH RECOGNITION CLIENT SYSTEM, SPEECH RECOGNITION SERVER SYSTEM AND SPEECH RECOGNITION METHOD FOR PROCESSING SPEECH RECOGNITION IN ONLINE}
본 발명의 실시예들은 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법에 관한 것이다.
음성인식(speech recognition)은 자동적 수단에 의하여 음성으로부터 언어적 의미 내용을 식별하는 것으로, 구체적으로 음성파형을 입력하여 단어나 단어열을 식별하고 의미를 추출하는 처리 과정을 의미할 수 있다.
이러한 음성인식을 이용한 종래기술에서는 사용자 발화가 모두 끝난 경우, 입력된 전체 소리신호를 이용하여 음성인식 결과가 생성된다. 예를 들어, 음성인식을 이용한 음성 검색에서는 사용자 발화가 모두 끝난 후 생성되는 음성인식 결과를 이용하여 검색이 수행되고, 검색 결과가 제공된다.
그러나, 이러한 종래기술에서 사용자는 의도하는 단어나 문장이 입력될 수 있도록 단어나 문장에 대한 전체 소리신호를 입력하고, 전체 소리신호에 대한 음성인식 결과가 생성되기를 기다려야 하기 때문에, 음성인식의 과정 중간에는 음성인식이 제대로 맞게 수행되고 있는 것인지 궁금한 상태로 기다려야만 하는 문제점이 있다.
본 명세서에서는 보다 효과적으로 음성인식을 수행할 수 있는 시스템 및 방법이 제공된다.
사용자가 발성을 시작한 후 음성인식이 종료하기 전 음성인식 중간 결과를 사용자에게 제공함으로써, 사용자가 음성인식이 정확히 수행되고 있는가에 대한 걱정을 줄이고, 보다 정확한 음성인식을 수행할 수 있는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법이 제공된다.
사용자가 발성을 시작한 후 기선정된 단위시간마다 입력되는 적어도 하나의 단위소리신호를 누적하여 부분소리신호를 생성하고, 부분소리신호에 기초하여 음성인식 중간 결과를 생성하여 사용자에게 제공함으로써, 사용자에게 안정감을 주고 음성인식의 처리 과정을 보여줄 수 있는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법이 제공된다.
음성인식의 시작시점부터 종료시점까지 입력되는 소리신호에 대한 음성인식 결과를 표시하는 음성인식 클라이언트 시스템에 있어서, 시작시점부터 종료시점까지 기선정된 단위시간마다 입력되는 단위소리신호를 단위시간마다 음성인식 서버 시스템으로 전송하고, 음성인식 서버 시스템으로부터 음성인식 중간 결과를 수신하는 통신부 및 수신된 음성인식 중간 결과를 시작시점과 종료시점 사이에 표시하는 표시부를 포함하는 음성인식 클라이언트 시스템이 제공된다.
일측에 따르면, 음성인식 중간 결과는 음성인식 서버 시스템에서 적어도 하나의 단위소리신호가 입력 시간에 따라 누적된 부분소리신호를 통해 생성될 수 있다.
다른 측면에 따르면, 표시부는 음성인식 서버 시스템으로부터 복수의 음성인식 중간 결과가 수신되는 경우, 복수의 음성인식 중간 결과를 시작시점과 종료시점 사이에 순차적으로 표시할 수 있다.
또 다른 측면에 따르면, 표시부는 하나의 음성인식 중간 결과가 둘 이상의 결과를 포함하는 경우, 둘 이상의 결과를 모두 표시할 수 있다.
또 다른 측면에 따르면, 음성인식 클라이언트 시스템은 사용자로부터 이벤트를 입력받는 사용자 인터페이스부를 더 포함할 수 있고, 표시된 둘 이상의 결과 중 하나의 결과가 이벤트를 통해 선택되는 경우, 선택된 결과가 음성인식 서버 시스템으로 피드백되어 음성인식 과정에 반영될 수 있다.
또 다른 측면에 따르면, 음성인식 클라이언트 시스템은 음성인식 중간 결과가 둘 이상의 결과를 포함하는 경우, 둘 이상의 결과 각각의 정확도를 결정하는 정확도 결정부를 더 포함할 수 있다. 이 경우, 표시부는 정확도의 순서로 둘 이상의 결과를 정렬하여 표시하거나 또는 정확도가 가장 높은 결과를 표시할 수 있다.
또 다른 측면에 따르면, 음성인식 클라이언트 시스템은 입력된 단위소리신호에서 특징정보를 추출하는 특징정보 추출부 및 입력된 단위소리신호를 부호화하는 부호화부를 더 포함할 수 있다. 이 경우, 통신부는 특징정보 및 부호화된 단위소리신호를 입력된 단위소리신호로서 음성인식 서버 시스템으로 전송할 수 있다.
음성인식 클라이언트 시스템으로부터 수신된 소리신호를 이용하여 음성인식 결과를 생성하는 음성인식 서버 시스템에 있어서, 음성인식의 시작시점부터 종료시점까지 단위시간마다 음성인식 클라이언트 시스템으로 입력되는 단위소리신호를 수신하는 수신부, 적어도 하나의 단위소리신호가 입력 시간에 따라 누적된 부분소리신호를 이용하여 음성인식 중간 결과를 생성하는 음성인식 결과 생성부 및 음성인식 중간 결과를 음성인식 클라이언트 시스템으로 전송하는 전송부를 포함하는 음성인식 서버 시스템이 제공된다. 이 경우, 음성인식 중간 결과는 시작시점과 종료시점 사이에 음성인식 클라이언트 시스템의 표시부를 통해 표시된다.
음성인식의 시작시점부터 종료시점까지 입력되는 소리신호에 대한 음성인식 결과를 표시하는 음성인식 클라이언트 시스템에 있어서, 시작시점부터 시작시점과 종료시점 사이의 복수의 시점들 중 적어도 하나의 시점까지 입력되는 부분소리신호에 대한 음성인식 중간 결과가 시작시점과 종료시점 사이에 표시되도록 제어하는 제어부를 포함하는 음성인식 클라이언트 시스템이 제공된다.
음성인식 클라이언트 시스템으로부터 수신된 소리신호를 이용하여 음성인식 결과를 생성하는 음성인식 서버 시스템에 있어서, 음성인식의 시작시점부터 시작시점과 종료시점 사이의 복수의 시점들 중 적어도 하나의 시점까지 음성인식 클라이언트 시스템으로 입력된 부분소리신호를 이용하여 음성인식 중간 결과를 생성하는 음성인식 결과 생성부 및 음성인식 중간 결과를 음성인식 클라이언트 시스템으로 전송하는 전송부를 포함하는 음성인식 서버 시스템이 제공된다. 이 경우, 음성인식 중간 결과는 시작시점과 종료시점 사이에 음성인식 클라이언트 시스템의 표시부를 통해 표시된다.
음성인식의 시작시점부터 종료시점까지 입력되는 소리신호에 대한 음성인식 결과를 표시하는 음성인식 방법에 있어서, 시작시점부터 종료시점까지 기선정된 단위시간마다 입력되는 단위소리신호를 단위시간마다 음성인식 서버 시스템으로 전송하고, 음성인식 서버 시스템으로부터 음성인식 중간 결과를 수신하는 단계 및 수신된 음성인식 중간 결과를 시작시점과 종료시점 사이에 표시하는 단계를 포함하는 음성인식 방법이 제공된다.
음성인식 클라이언트 시스템으로부터 수신된 소리신호를 이용하여 음성인식 결과를 생성하는 음성인식 방법에 있어서, 음성인식의 시작시점부터 종료시점까지 단위시간마다 음성인식 클라이언트 시스템으로 입력되는 단위소리신호를 수신하는 단계, 적어도 하나의 단위소리신호가 입력 시간에 따라 누적된 부분소리신호를 이용하여 음성인식 중간 결과를 생성하는 단계 및 음성인식 중간 결과를 음성인식 클라이언트 시스템으로 전송하는 단계를 포함하는 음성인식 방법이 제공된다. 이 경우, 음성인식 중간 결과는 시작시점과 종료시점 사이에 음성인식 클라이언트 시스템의 표시부를 통해 표시된다.
음성인식의 시작시점부터 종료시점까지 입력되는 소리신호에 대한 음성인식 결과를 표시하는 음성인식 방법에 있어서, 시작시점부터 시작시점과 종료시점 사이의 복수의 시점들 중 적어도 하나의 시점까지 입력되는 부분소리신호에 대한 음성인식 중간 결과가 시작시점과 종료시점 사이에 표시되도록 제어하는 단계를 포함하는 음성인식 방법이 제공된다.
음성인식 클라이언트 시스템으로부터 수신된 소리신호를 이용하여 음성인식 결과를 생성하는 음성인식 방법에 있어서, 음성인식의 시작시점부터 시작시점과 종료시점 사이의 복수의 시점들 중 적어도 하나의 시점까지 음성인식 클라이언트 시스템으로 입력된 부분소리신호를 이용하여 음성인식 중간 결과를 생성하는 단계 및 음성인식 중간 결과를 음성인식 클라이언트 시스템으로 전송하는 단계를 포함하는 음성인식 방법이 제공된다. 이 경우, 음성인식 중간 결과는 시작시점과 종료시점 사이에 음성인식 클라이언트 시스템의 표시부를 통해 표시된다.
사용자가 발성을 시작한 후 음성인식이 종료하기 전 음성인식 중간 결과를 사용자에게 제공함으로써, 사용자가 음성인식이 정확히 수행되고 있는가에 대한 걱정을 줄이고, 보다 정확한 음성인식을 수행할 수 있다.
사용자가 발성을 시작한 후 기선정된 단위시간마다 입력되는 적어도 하나의 단위소리신호를 누적하여 부분소리신호를 생성하고, 부분소리신호에 기초하여 음성인식 중간 결과를 생성하여 사용자에게 제공함으로써, 사용자에게 안정감을 주고 음성인식의 처리 과정을 보여줄 수 있다.
도 1은 본 발명의 일실시예에 있어서, 온라인 음성인식을 위한 전반적인 시스템을 도시한 도면이다.
도 2는 본 발명의 일실시예에 있어서, 음성인식 클라이언트 시스템과 음성인식 서버 시스템의 기능별 구조를 나타낸 블록도이다.
도 3은 본 발명의 일실시예에 있어서, 음성 인식부의 내부 구성을 설명하기 위한 블록도이다.
도 4는 본 발명이 일실시예에 있어서, 음성인식의 과정을 나타낸 도면이다.
도 5는 본 발명의 일실시예에 있어서, 음성인식 과정에서 시간에 따른 음성인식 결과를 나타낸 도면이다.
도 6은 본 발명의 일실시예에 있어서, 음성인식 클라이언트 시스템 및 음성인식 서버 시스템의 내부 구성을 도시한 블록도이다.
도 7은 본 발명의 일실시예에 있어서, 음성인식 클라이언트 시스템이 수행하는 음성인식 방법을 도시한 흐름도이다.
도 8은 본 발명의 일실시예에 있어서, 음성인식 서버 시스템이 수행하는 음성인식 방법을 도시한 흐름도이다.
도 9는 본 발명의 다른 실시예에 있어서, 음성인식 클라이언트 시스템 및 음성인식 서버 시스템의 내부 구성을 도시한 블록도이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 있어서, 온라인 음성인식을 위한 전반적인 시스템을 도시한 도면이다. 도 1은 사용자(110), 음성인식 클라이언트 시스템(120) 및 음성인식 서버 시스템(130)을 도시하고 있다.
여기서, 음성인식 클라이언트 시스템(120)은 사용자(110)의 단말기이거나 또는 단말기에 포함된 하나의 모듈일 수 있다. 이때, 사용자(110)가 음성인식 클라이언트 시스템(120)을 통해 음성을 입력하면, 음성인식 클라이언트 시스템(120)은 입력된 음성의 특징으로 추출할 수 있다. 음성인식 클라이언트 시스템(120)은 추출된 특징을 음성인식 서버 시스템(130)으로 전달하고, 음성인식 서버 시스템(130)은 수신된 특징을 이용하여 음성인식을 수행하여 음성인식 결과를 생성할 수 있다. 음성인식 서버 시스템(130)은 생성된 음성인식 결과를 음성인식 클라이언트 시스템(120)으로 전달할 수 있고, 음성인식 클라이언트 시스템(120)은 음성인식 결과를 디스플레이 장치 등을 이용하여 표시함으로써, 사용자(110)는 자신이 입력한 음성에 대한 음성인식 결과를 확인할 수 있게 된다.
이때, 본 발명의 실시예들에서 음성인식 클라이언트 시스템(120)과 음성인식 서버 시스템(130)은 사용자(110)의 발화가 모두 끝난 후 입력된 전체 소리신호에 대한 음성인식 결과를 제공할 뿐만 아니라, 사용자(110)가 발성을 시작한 후 기선정된 단위시간마다 사용자(110)의 발화가 진행된 순간까지 입력되는 소리신호에 대해 음성인식 중간 결과를 더 제공할 수 있다. 예를 들어, 사용자(110)가 발성을 시작하고, 약 1초 후부터 매 1초마다 또는 매 0.5초마다 음성인식의 중간 결과를 사용자(110)에게 제공할 수 있다.
보다 자세한 예로, 음성인식 클라이언트 시스템(120)은 20 밀리초마다 입력되는 소리신호를 음성인식 서버 시스템(130)으로 전송할 수 있고, 음성인식 서버 시스템(130)은 음성 인식기를 이용하여 음성을 인식한 후 500 밀리초마다 음성인식 중간 결과를 음성인식 클라이언트 시스템(120)으로 반송할 수 있다. 이때, 음성인식 클라이언트 시스템(120)은 수신된 음성인식 중간 결과를 화면을 통해 표시함으로써, 사용자(110)에게 제공할 수 있다.
이상에서와 같이 음성인식을 위한 프로세스가 진행되는 과정을 사용자(110)에게 보여줌으로써 사용자(110)에게 안정감을 줄 수 있다. 여기서, 음성인식 중간 결과 후보들 중 하나를 사용자에게 제시해 주는 과정의 구체적인 예를 들면, "구스타프 클림트"를 음성인식 결과로 얻고자 하는 사용자(110)가 "구"까지 발성한 경우, "9", "구", "코" "g" 중 인식기가 그 때까지 가장 가능성이 높은 결과를 선택해서 해당 후보 (예를 들어 "9")를 클라이언트에 보낸다. 사용자(110)는 그 시점에서는 "9"를 보게 되지만, 이 후 발성되는 음성에 의해서 향후에 "구"로 바뀔 수 있게 되며, 이러한 과정은 최종 음성인식 결과를 보여주기 전까지 계속 반복될 수 있다.
또한, 음성인식 서버 시스템(130)은 음성인식이 완료된 것으로 판단되면, 전송된 전체 소리신호를 이용하여 최종 음성인식 결과를 음성인식 클라이언트 시스템(120)으로 전송할 수 있다. 이때, 음성인식 클라이언트 시스템(120)은 최종 음성인식 결과를 화면을 통해 표시함으로써, 사용자(110)에게 제공할 수 있다.
뿐만 아니라, 음성인식 중간 결과에 사용자(110)가 의도한 결과가 포함되는 경우, 사용자(110)가 음성인식 클라이언트 시스템(120)에서 이벤트를 발생시켜 음성인식의 종료 시점을 선택하도록 할 수 있다. 예를 들어, 사용자(110)가 발화를 완료하였으나, 주변 잡음에 의해 음성인식이 종료되지 않고, 계속 진행될 수 있다. 이 경우, 잘못된 음성인식 결과가 생성될 수도 있고, 음성인식의 시간이 길어지기 때문에, 음성인식 클라이언트 시스템(120)은 사용자(110)로부터 미리 설정된 이벤트가 발생되면, 음성인식이 종료되도록 제어할 수 있다. 이 경우, 음성인식 클라이언트 시스템(120)과 음성인식 서버 시스템(130)은 음성인식이 종료된 시점까지 입력된 소리신호를 이용하여 음성인식 최종 결과를 생성할 수 있다.
음성인식 최종 결과는 검색 쿼리와 같은 사용자의 입력으로서 이용될 수 있다.
도 2는 본 발명의 일실시예에 있어서, 음성인식 클라이언트 시스템과 음성인식 서버 시스템의 기능별 구조를 나타낸 블록도이다. 즉, 도 2의 실시예에서는 도 1을 통해 설명한 음성인식 클라이언트 시스템(120)과 음성인식 서버 시스템(130)의 내부 구성을 나타내고 있다. 이때, 음성인식 클라이언트 시스템(120)은 사용자 인터페이스부(210), 소리신호 압축부(220), 특징 추출부(230) 및 클라이언트 소켓(240)을 포함할 수 있고, 음성인식 서버 시스템(130)은 소리신호 압축 해제부(250), 음성인식부(260), 핸들러(270) 및 리스너 소켓(280)을 포함할 수 있다.
사용자 인터페이스부(210)는 음성인식 결과를 적어도 표시하기 위한 디스플레이 장치와 사용자로부터 이벤트를 입력받기 위한 입력 인터페이스를 포함할 수 있다. 즉, 사용자 인터페이스부(210)는 사용자로부터 이벤트를 입력받거나 사용자에게 음성인식 결과를 표시하기 위한 인터페이스를 포함할 수 있다.
이러한 사용자 인터페이스(210)를 이용하여 음성인식의 과정이 시작되면, 소리신호 압축부(220)는 마이크(290)를 통해 입력되는 소리신호를 입력받아 기록한다. 예를 들어, 소리신호 압축부(220)는 16 KHz, 모노로 소리신호를 입력받을 수 있다.
이때, 특징 추출부(230)는 소리신호에서 특징을 추출한다. 이때, 사용자의 음성과 같은 소리신호에서 특징을 추출하는 방법은 이미 널리 알려져 있기 때문에 자세한 설명은 생략한다. 즉, 본 실시예에서 특징을 추출하는 방법으로는 이미 알려진 다양한 방법들 중 하나가 이용될 수 있다.
또한, 소리신호 압축부(220)는 음성인식 서버 시스템(130)으로 전송하기 위한 데이터를 부호화한다. 즉, 특징 추출부(230)에서 추출된 특징과 소리신호 압축부(220)에서 기록된 소리신호가 부호화될 수 있다.
이때, 본 실시예에서는 음성인식 클라이언트 시스템(120)은 음성인식이 시작된 시점부터 또는 음성인식이 시작되고 기선정된 시간이 지난 후부터 단위시간마다 입력되는 소리신호로부터 특징을 추출하고, 추출된 특징과 소리신호를 부호화하여 음성인식 서버 시스템(130)으로 전송할 수 있다.
음성인식 서버 시스템(130)의 소리신호 압축 해제부(250)는 음성인식 클라이언트 시스템(120)으로부터 수신되는 패킷에서 압축된 소리신호의 압축을 해제한다.
음성 인식부(260)는 압축이 해제된 소리신호를 이용하여 언어자료를 획득한다.
핸들러(270)는 접속한 음성인식 클라이언트 시스템(120)에 대한 클라이언트 정보 및 음성인식 클라이언트 시스템(120)이 접속한 소켓인 서버 소켓을 포함할 수 있다. 이때, 핸들러(270)는 접속한 다수의 음성인식 클라이언트 시스템마다 하나씩 생성될 수 있다.
리스너 소켓(280)은 음성인식 클라이언트 시스템의 접속 요청을 대기하는 소켓을 포함할 수 있다.
이때, 음성인식 서버 시스템(130)은 다수의 음성인식 클라이언트 시스템이 효율적으로 자원을 사용하도록 하기 위해 멀티-스레드를 이용할 수 있다.
즉, 음성인식 클라이언트 시스템(120)과 음성인식 서버 시스템(130)은 상술한 바와 같이, 음성인식 중간 결과를 사용자에게 제공하기 위해, 음성인식 클라이언트 시스템(120)에서 단위시간마다 입력된 소리신호를 음성인식 서버 시스템(130)으로 전달하고, 음성인식 서버 시스템(130)에서 또 다른 단위시간마다 생성된 음성인식 중간 결과를 음성인식 클라이언트 시스템(120)으로 전달할 수 있다. 이때, 음성인식 클라이언트 시스템(120)은 전달된 음성인식 중간 결과를 사용자에게 표시함으로써, 사용자가 음성인식의 과정이 진행중임을 인식할 수 있고, 안정감을 느낄 수 있도록 할 수 있다.
또한, 음성인식 클라이언트 시스템(120)의 사용자 인터페이스부(210)는 사용자로부터 음성인식의 종료 시점을 결정하는 이벤트를 수신할 수 있다. 이 경우, 음성인식 클라이언트 시스템(120)은 음성인식을 종료하고, 음성인식이 종료된 시점까지 입력된 소리신호에 대한 음성인식 중간 결과를 음성인식 최종 결과로서 인식할 수 있다.
도 3은 본 발명의 일실시예에 있어서, 음성 인식부의 내부 구성을 설명하기 위한 블록도이다. 즉, 도 2를 통해 설명한 음성인식부(260)는 도 3에 도시된 바와 같이, 음향 모델부(310), 언어 모델부(330) 및 디코더(350)를 포함할 수 있다. 또한, 도 3에 나타난 음성 데이터베이스(320)와 쿼리 로그(340)는 음성 인식부(260)에 포함되거나 또는 음성 인식부(260)와 연계되어 음성 인식부(260)로 데이터를 제공할 수 있다.
음성 인식부(260)의 음향 모델부(310)는 수신된 특징과 인식 단위 단어와의 매칭값을 제시한다. 여기서, 음향 모델부(310)는 미리 구축된 음성 데이터베이스(320)로부터 단위 단어 모델을 만들어두고 단위 단어 모델과 수신된 특징을 매칭되는 정도를 계산하는 방법이 사용될 수 있는데, 이러한 단위 단어 모델 생성 방법 및 매칭 방법 역시 이미 알려진 다양한 방법들 중 하나를 이용하여 수행될 수 있다.
언어 모델부(330)는 언어 모델을 구축한다. 예를 들어, 바이그램(Bigram) 모델이나 트라이그램(Trigram) 모델이 언어 모델 구축에 이용될 수 있다. 이러한 언어 모델의 구축 방법에 대해서도 이미 널리 알려져 있기에 자세한 설명은 생략한다. 이때, 언어 모델의 구축을 위해서 사용될 텍스트 데이터베이스로는 상술한 쿼리 로그(340)가 텍스트 데이터베이스로서 이용될 수 있다. 여기서, 쿼리 로그(340)는 검색 서비스를 위해 입력되는 사용자 쿼리 로그를 포함할 수 있다.
디코더(290)는 음향 모델부(310)의 출력과 언어 모델부(330)의 출력을 이용하여 음성인식 결과를 생성한다. 이와 같이 생성된 음성인식 결과는 도 1 및 도 2를 통해 설명한 음성인식 클라이언트 시스템(120)으로 전송될 수 있다.
즉, 음성인식 클라이언트 시스템(120)이 단위시간마다 입력되는 소리신호와 특징을 전송하면, 음성인식 서버 시스템(130) 역시 또 다른 단위시간마다 수신된 소리신호와 특징들을 이용하여 음성인식 결과를 생성할 수 있다. 이때, 음성인식 서버 시스템(130)은 생성된 음성인식 결과를 음성인식 클라이언트 시스템(120)으로 전송할 수 있고, 음성인식 클라이언트 시스템(120)은 수신한 음성인식 결과를 음성인식의 과정 도중에 순차적으로 표시할 수 있다. 따라서, 사용자는 음성인식이 현재 진행중임을 인지할 수 있고, 안정감을 느낄 수 있게 된다.
아래 표 1은 사용자가 "정자역에서 강남역까지 가는 버스"를 입력하는데 제공되는 음성인식 중간 결과와 최종 음성인식 결과를 나타낸 일례이다. 표 1에서, 순서는 음성인식의 결과가 제공된 순서를 의미한다.
Figure 112010083100142-pat00001
도 4는 본 발명이 일실시예에 있어서, 음성인식의 과정을 나타낸 도면이다.
우선, 제1 점선(410)은 음성인식 클라이언트 시스템(120)이 음성인식 서버 시스템(130)과 접속되는 과정을 의미한다. 예를 들어, 상기 접속에는 TCP/IP가 이용될 수 있다. 제1 이점쇄선(420)은 음성인식 클라이언트 시스템(120)이 음성인식 서버 시스템(130)으로 프로토콜 버전 정보나 단말기 정보와 같은 제1 제어 패킷을 제공함을 의미할 수 있다. 제2 이점쇄선(430)은 제어 패킷에 대한 제1 응답 패킷을 음성인식 서버 시스템(130)이 음성인식 클라이언트 시스템(120)으로 제공함을 의미할 수 있다.
제1 범위(440) 내의 실선들은 음성인식 클라이언트 시스템(120)이 음성인식 서버 시스템(130)으로 단위시간마다 소리신호가 포함된 패킷을 제공함을 의미할 수 있다. 예를 들어, 음성인식 클라이언트 시스템(120)은 20 밀리초마다 그 동안 입력된 소리신호를 포함하는 패킷을 음성인식 서버 시스템(130)으로 전송할 수 있다.
제2 범위(450) 내의 일점쇄선들은 음성인식 서버 시스템(130)이 음성인식 클라이언트 시스템(120)으로 또 다른 단위시간마다 생성된 음성인식 중간 결과와 음성인식 최종 결과를 제공함을 의미할 수 있다. 예를 들어, 음성인식 서버 시스템(130)은 500 밀리초마다 그 동안 수신된 소리신호를 누적하여 생성된 부분소리신호를 이용하여 음성정보 중간 결과를 생성할 수 있고, 생성된 음성정보 중간 결과를 음성인식 클라이언트 시스템(130)으로 전송할 수 있다. 또한, 음성인식 서버 시스템(130)은 도 2를 통해 설명한 음성 인식부(260)로부터 최종 결과를 획득하면, 음성인식 최종 결과를 생성하여 음성인식 클라이언트 시스템(130)으로 전송할 수 있다. 이때, 음성인식의 과정이 종료되면, 음성인식 서버 시스템(130)은 그 동안 수신된 소리신호를 포함하는 패킷들을 폐기할 수 있다.
제3 이점쇄선(460)은 음성인식 클라이언트 시스템(120)이 제2 제어 패킷을 음성인식 서버 시스템(130)으로 전송함으로써, 접속 종료를 통지함을 의미할 수 있다. 또한, 제4 이점쇄선(470)은 음성인식 서버 시스템(130)이 제2 제어 패킷에 대한 제2 응답 패킷을 음성인식 클라이언트 시스템(120)으로 전송하여 접속 종료 통지 수신을 확인함을 의미할 수 있다.
제2 점선(480)은 음성인식 클라이언트 시스템(120)이 음성인식 서버 시스템(130)과의 접속을 해지함을 의미할 수 있다.
이때, 도 4에서 이용된 패킷들은 기본적으로 헤더(header)와 페이로드(payload)로 구성될 수 있다. 여기서, 헤더는 필수적으로 포함되고, 페이로드는 선택적으로 포함될 수 있다. 즉, 페이로드는 패킷의 타입에 따라 선택적으로 패킷에 포함될 수 있다.
도 5는 본 발명의 일실시예에 있어서, 음성인식 과정에서 시간에 따른 음성인식 결과를 나타낸 도면이다. 그래프(500)는 사용자가 "구스타프 클림트"라는 음성을 입력하고자 하는 경우, 시간(가로축)이 지남에 따라 생성되는 음성인식 중간 과정을 나타내고 있다. 본 실시예에서는 음성인식의 시작 시점(510)으로부터 매 단위시간마다 음성인식 중간 결과를 제공하는 일례를 나타내고 있는데, 편의상 하나의 단위시간 동안 소리신호가 하나의 음절만 입력된다고 가정하고, 각 단위시간의 시점에서 그 때까지 입력된 소리신호의 누적신호에 대한 음성인식 중간 결과 후보들을 보여주고 있다. 여기서, 세로축은 중간결과후보들의 음성 매칭 가능성을 나타내는 축으로서 가장 상위에 표시된 (X 표시된 후보는 제외) 후보가 각 단위시간의 시점에서 가장 높은 가능성을 보여주고 있음을 나타낸다. 이와 같이 가장 높은 가능성을 보여주는 후보가 해당 시점에서의 음성인식 중간 결과로 사용자에게 표시된다. 이 때 가장 높은 가능성을 보여주는 후보 이외에도 차상위 N개의 후보를 사용자에게 함께 노출시켜 줄 수도 있다.
즉, 그래프(500)에서는 첫 번째 단위시간에 대해 음성인식 중간 결과로서 '9', '코', '구' 및 'g'가 가능성이 높은 단어들이라는 것을 의미한다. 이 중 "9"가 가장 높은 가능성을 가지고 있기 때문에 사용자에게 "9"가 표시된다. 두 번째 단위시간에는 "9" 다음에 '스' 음절이 붙여졌을 때 적절한 한국어라고 판단되지 않으므로 "9"로 시작된 단어는 후보에서 제외되고, '코스', '구스', 'goose'가 상위 후보들이 되고, 이 중 "코스"가 가장 높은 가능성을 가지므로 사용자에게 표시된다. 세 번째 단위시간에는 '코스닥', '구스타' 및 'gooster'가 후보가 되는데 "코스닥"이 가장 높은 가능성을 가지므로 사용자에게 표시되고, 네 번째 단위시간에는 "코스닥" 다음에 "프로" 혹은 "프로야구"와 같이 "프"로 시작하는 단어가 바로 다음에 나올 수 있어서 "코스닥프"가 후보가 되고 "구스타프"가 하나의 단어로서 의미가 있어서 후보가 될 수 있다. 이때까지는 "프"를 제외하고 "코스닥" 자체의 매칭값이 높아서 "코스닥프"가 사용자에게 보여지게 된다. 마지막 단위시간에는 사용자가 의도한 '구스타프 클림트'가 음성인식 최종 결과로서 사용자에게 표시되었음을 나타내고 있다. 이때, 이전 단위시간에서 예측되었던 "코스닥 프로" "코스닥 프로야구"는 "구스타프 클림트"와의 음성 매칭 정도가 낮으므로 후보에서 탈락되게 된다.
이때, 도 5에서는 마치 단위시간마다 하나의 음절을 입력받는 것처럼 표현되었으나, 이는 설명의 편의를 위한 것으로, 하나의 단위시간에는 아무런 음성도 포함되지 않을 수도 있고, 하나의 음절 중 일부에 대한 음성이 포함될 수도 있다. 또한, 하나의 단위시간에 복수의 음절에 대한 음성이 포함될 수도 있다. 또한, 소리신호가 전송되는 기준의 단위시간과, 음성인식 중간 결과가 생성되어 제공되는 단위시간은 서로 다를 수도 있다. 일례로, 상술한 바와 같이, 20 밀리초마다 그 사이에 입력된 단위소리신호가 음성인식 클라이언트 시스템에서 음성인식 서버 시스템으로 전송될 수 있다. 또한, 음성인식 중간 결과가 500 밀리초마다 생성되어 음성인식 서버 시스템에서 음성인식 클라이언트 시스템으로 전송될 수도 있다. 이 경우, 최초 음성인식 중간 결과는 25개의 단위소리신호에 대한 음성인식 결과를 포함할 수 있고, 두 번째 음성인식 중간 결과는 50개의 단위소리신호에 대한 음성인식 결과를 포함할 수 있다.
도 6은 본 발명의 일실시예에 있어서, 음성인식 클라이언트 시스템 및 음성인식 서버 시스템의 내부 구성을 도시한 블록도이다.
본 실시예에 따른 음성인식 클라이언트 시스템(610)은 도 6에 도시된 바와 같이, 사용자 인터페이스부(611), 특징정보 추출부(612), 부호화부(613), 통신부(614) 및 표시부(615)를 포함할 수 있다. 이때, 사용자 인터페이스부(611), 특징정보 추출부(612) 및 부호화부(613)는 필요에 따라 선택적으로 음성인식 클라이언트 시스템(610)에 포함될 수 있다.
본 실시예에 따른 음성인식 서버 시스템(620)은 도 6에 도시된 바와 같이 수신부(621), 부분소리신호 생성부(622), 음성인식 결과 생성부(623) 및 전송부(624)를 포함할 수 있다. 이 경우에도 수신부(621) 및 부분소리신호 생성부(622)는 필요에 따라 선택적으로 음성인식 서버 시스템(620)에 포함될 수 있다.
우선, 음성인식 클라이언트 시스템(610)에서, 사용자 인터페이스부(611)는 사용자로부터 이벤트를 입력받는다. 이러한 이벤트는 음성인식을 시작하기 위한 이벤트나 둘 이상의 결과를 포함하는 음성인식 중간 결과에서 하나의 결과를 선택하는데 이용되는 이벤트를 포함할 수 있다.
특징정보 추출부(612)는 입력된 단위소리신호에서 특징정보를 추출한다.
부호화부(613)는 입력된 단위소리신호를 부호화한다.
이때, 단위소리신호는 음성인식의 시작시점부터 종료시점까지 기선정된 단위시간마다 입력되는 소리신호를 포함할 수 있다.
통신부(614)는 단위소리신호를 단위시간마다 음성인식 서버 시스템(620)으로 전송하고, 음성인식 서버 시스템(620)으로부터 음성인식 중간 결과를 수신한다. 이때, 통신부(614)는 특징정보 추출부(612)에서 추출된 특징정보와 부호화부(613)에서 부호화된 단위소리신호를 매 단위시간마다 음성인식 서버 시스템(620)으로 전송할 수 있다.
또한, 음성인식 중간 결과는 음성인식 서버 시스템(620)에서 적어도 하나의 단위소리신호가 입력 시간에 따라 누적된 부분소리신호를 통해 생성될 수 있다. 예를 들어, 음성인식 클라이언트 시스템(610)이 20 밀리초마다 단위소리신호를 전송하고, 음성인식 서버 시스템(620)에서 500 밀리초마다 음성인식 중간 결과를 생성하여 전송하는 경우, 음성인식 서버 시스템(620)은 최초 25개의 단위소리신호가 누적된 부분소리신호를 이용하여 음성인식 중간 결과를 생성할 수 있다. 두 번째 음성인식 중간 결과의 생성을 위해서는 최초 25개와 그 이후 수신된 25개인 총 50개의 단위소리신호가 누적된 부분소리신호가 이용될 수 있다.
표시부(615)는 수신된 음성인식 중간 결과를 음성인식의 시작시점과 종료시점 사이에 표시한다. 이때, 일실시예로, 표시부(615)는 음성인식 서버 시스템(620)으로부터 복수의 음성인식 중간 결과가 수신되는 경우, 복수의 음성인식 중간 결과를 시작시점과 종료시점 사이에 순차적으로 표시할 수 있다. 예를 들어, 첫 번째 음성인식 중간 결과로 '자', 두 번째 음성인식 중간 결과로 '자동', 세 번째 음성인식 중간 결과로 '자동차'가 수신되는 경우, 표시부(615)는 시작시점과 종료시점 사이에 '자', '자동' 및 '자동차'를 순차적으로 표시할 수 있다.
이때, 음성인식 클라이언트 시스템(610)은 사용자로부터 음성인식의 종료 시점을 결정하기 위한 이벤트를 입력받는 사용자 인터페이스부(미도시)를 더 포함할 수 있다. 이 경우, 상기 이벤트가 입력되기 이전까지 입력된 단위소리신호들을 이용하여 음성인식 최종 결과가 생성될 수 있다. 즉, 음성인식 클라이언트 시스템(610)은 음성인식이 종료되었음을 음성인식 서버 시스템(620)에 알리고, 마지막으로 수신된 음성인식 중간 결과를 음성인식 최종 결과로서 생성하거나 또는 음성인식이 종료된 시점까지 입력된 단위소리신호들을 통해 음성인식 최종 결과가 생성되도록 제어할 수 있다.
음성인식 서버 시스템(620)에서, 수신부(621)는 음성인식의 시작시점부터 종료시점까지 단위시간마다 음성인식 클라이언트 시스템(610)으로 입력되는 단위소리신호를 수신한다.
부분소리신호 생성부(622)는 단위시간마다 음성인식 클라이언트 시스템(610)으로부터 전송되는 단위소리신호를 기선정된 수만큼 누적하여 부분소리신호를 생성한다.
음성인식 결과 생성부(623)는 부분소리신호 생성부(622)에서 생성된 부분소리신호를 이용하여 음성인식 중간 결과를 생성한다. 즉, 음성인식 결과 생성부(623)는 사용자가 음성인식 클라이언트 시스템(610)을 통해 발성중인 동안에도 중간까지 입력된 적어도 하나의 단위소리신호를 통해 음성인식 중간 결과를 생성할 수 있다. 기본적으로 음성인식 결과 생성부(623)는 부분소리신호가 생성될 때마다 생성된 부분소리신호에 대한 음성인식 중간 결과를 생성할 수 있다.
전송부(624)는 음성인식 중간 결과를 음성인식 클라이언트 시스템(610)으로 전송한다. 이때, 전송부(624)는 가장 가능성이 높은 중간 결과 하나만을 클라이언트 시스템(610)으로 전송한다. 이 경우 음성인식 서버 시스템(620)에는 중간 결과 후보들을 모두 관리하게 되는데, 이는 향후에 좀 더 음성이 들어왔을 때 가장 적절한 결과가 달라질 수 있기 때문이다. 예를 들어 "9", "코", "구", "g"가 후보일 때 "9"만을 클라이언트 시스템(610)에 전송하지만, 나머지 후보들을 음성인식 서버 시스템(620)에서는 버리지 않고 가지고 있다가 향후에 들어오는 음성을 이용해서 계속 후보들의 매칭 정도를 계산하게 된다.
또한, 음성인식 서버 시스템(620)은 음성인식 중간 결과로서 하나가 아닌 복수개의 결과를 클라이언트 시스템(610)에 전송할 수도 있다. 이 경우 둘 이상의 결과 각각의 정확도를 결정하는 정확도 결정부(미도시)를 더 포함할 수 있다. 이 경우, 전송부(624)는 정확도의 순서로 둘 이상의 결과를 정렬하여 포함하는 음성인식 중간 결과, 둘 이상의 결과 및 둘 이상의 결과 각각의 정확도를 포함하는 음성인식 중간 결과 및 정확도가 가장 높은 결과를 포함하는 음성인식 중간 결과 중 하나를 음성인식 클라이언트 시스템(610)으로 전송할 수 있다. 예를 들어, 두 개의 결과인 '코스닥'과 '구스타'에 대해 '구스타'의 정확도가 5로 '코스닥'의 정확도 3보다 높다고 가정하자. 이때, 전송부(624)는 '구스타', '코스닥' 순서로 정렬된 음성인식 중간 결과를 전송하거나 '구스타-5', '코스닥-3'과 같이 정확도를 포함하는 음성인식 중간 결과를 전송하거나 또는 정확도가 가장 높은 '구스타'만을 포함하는 음성인식 중간 결과를 전송할 수 있다. '-'는 뒤의 숫자가 정확도임을 나타내는 기호로 본 일례에서 임의로 가정한 것일 뿐, 보다 다양한 방법을 통해 정확도가 음성인식 클라이언트 시스템(610)으로 전송될 수 있다.
도 7은 본 발명의 일실시예에 있어서, 음성인식 클라이언트 시스템이 수행하는 음성인식 방법을 도시한 흐름도이다. 본 실시예에 따른 음성인식 방법은 도 6을 통해 설명한 음성인식 클라이언트 시스템(610)에 의해 수행될 수 있다. 도 7에서는 음성인식 클라이언트 시스템(610)에 의해 각각의 단계가 수행되는 과정을 설명함으로써, 음성인식 방법을 설명한다.
단계(710)에서 음성인식 클라이언트 시스템(610)은 음성인식의 시작시점부터 종료시점까지 기선정된 단위시간마다 입력되는 단위소리신호를 단위시간마다 음성인식 서버 시스템으로 전송한다. 우선, 음성인식 클라이언트 시스템(610)은 마이크와 같은 인터페이스를 통해 입력되는 소리신호에 대해 단위시간동안 입력되는 단위소리신호에서 특징정보를 추출하고, 입력된 단위소리신호를 부호화한다. 이때, 음성인식 클라이언트 시스템(610)은 추출된 특징정보와 부호화된 단위소리신호를 매 단위시간마다 음성인식 서버 시스템으로 전송할 수 있다. 여기서, 음성인식 서버 시스템은 도 6을 통해 설명한 음성인식 서버 시스템(620)에 대응될 수 있다.
단계(720)에서 음성인식 클라이언트 시스템(610)은 음성인식 서버 시스템으로부터 음성인식 중간 결과를 수신한다. 여기서, 음성인식 중간 결과는 음성인식 서버 시스템에서 적어도 하나의 단위소리신호가 입력 시간에 따라 누적된 부분소리신호를 통해 생성될 수 있다. 예를 들어, 음성인식 클라이언트 시스템(610)이 20 밀리초마다 단위소리신호를 전송하고, 음성인식 서버 시스템에서 500 밀리초마다 음성인식 중간 결과를 생성하여 전송하는 경우, 음성인식 서버 시스템은 최초 25개의 단위소리신호가 누적된 부분소리신호를 이용하여 음성인식 중간 결과를 생성할 수 있다. 두 번째 음성인식 중간 결과의 생성을 위해서는 최초 25개와 그 이후 수신된 25개인 총 50개의 단위소리신호가 누적된 부분소리신호가 이용될 수 있다.
단계(730)에서 음성인식 클라이언트 시스템(610)은 수신된 음성인식 중간 결과를 음성인식의 시작시점과 종료시점 사이에 표시한다. 이때, 일실시예로, 음성인식 클라이언트 시스템(610)은 음성인식 서버 시스템으로부터 복수의 음성인식 중간 결과가 수신되는 경우, 복수의 음성인식 중간 결과를 시작시점과 종료시점 사이에 순차적으로 표시할 수 있다. 예를 들어, 첫 번째 음성인식 중간 결과로 '자', 두 번째 음성인식 중간 결과로 '자동', 세 번째 음성인식 중간 결과로 '자동차'가 수신되는 경우, 음성인식 클라이언트 시스템(610)은 시작시점과 종료시점 사이에 '자', '자동' 및 '자동차'를 순차적으로 표시할 수 있다.
또한, 음성인식 중간 결과 각각은 하나의 결과를 포함할 수도 있으나, 둘 이상의 결과가 포함될 수도 있다. 예를 들어, "구스타프 클림트"를 음성인식 결과로 얻고자 하는 사용자가 "구"까지 발성한 경우, "구"에 대한 음성인식 중간 결과로 "9", "구", "코", "g" 등이 음성인식 클라이언트 시스템(610)에 제공되고 이 때 각 후보들의 매칭 정도를 함께 보냄으로써 음성인식 클라이언트 시스템(610)에서 매칭값으로 정렬하여 보여주거나 가장 높은 값을 가지는 후보만을 보여줄 수 있다.
이때, 음성인식 클라이언트 시스템(610)은 사용자로부터 음성인식의 종료 시점을 결정하기 위한 이벤트를 입력받는 단계(미도시)를 더 수행할 수 있다. 이 경우, 상기 이벤트가 입력되기 이전까지 입력된 단위소리신호들을 이용하여 음성인식 최종 결과가 생성될 수 있다. 즉, 음성인식 클라이언트 시스템(610)은 음성인식이 종료되었음을 음성인식 서버 시스템(620)에 알리고, 마지막으로 수신된 음성인식 중간 결과를 음성인식 최종 결과로서 생성하거나 또는 음성인식이 종료된 시점까지 입력된 단위소리신호들을 통해 음성인식 최종 결과가 생성되도록 제어할 수 있다.
도 8은 본 발명의 일실시예에 있어서, 음성인식 서버 시스템이 수행하는 음성인식 방법을 도시한 흐름도이다. 본 실시예에 따른 음성인식 방법은 도 6을 통해 설명한 음성인식 서버 시스템(620)에 의해 수행될 수 있다. 도 8에서는 음성인식 서버 시스템(620)에 의해 각각의 단계가 수행되는 과정을 설명함으로써, 음성인식 방법을 설명한다.
단계(810)에서 음성인식 서버 시스템(620)은 음성인식의 시작시점부터 종료시점까지 단위시간마다 음성인식 클라이언트 시스템으로 입력되는 단위소리신호를 수신한다. 여기서, 음성인식 클라이언트 시스템은 도 6을 통해 설명한 음성인식 클라이언트 시스템(610)에 대응될 수 있다.
단계(820)에서 음성인식 서버 시스템(620)은 적어도 하나의 단위소리신호가 입력 시간에 따라 누적된 부분소리신호를 이용하여 음성인식 중간 결과를 생성한다. 즉, 음성인식 서버 시스템(620)은 사용자가 음성인식 클라이언트 시스템(610)을 통해 발성중인 동안에도 중간까지 입력된 적어도 하나의 단위소리신호를 통해 음성인식 중간 결과를 생성할 수 있다. 기본적으로 음성인식 서버 시스템(620)은 부분소리신호가 생성될 때마다 생성된 부분소리신호에 대한 음성인식 중간 결과를 생성할 수 있다. 여기서, 부분소리신호는 단위시간마다 음성인식 클라이언트 시스템으로부터 전송되는 단위소리신호를 기선정된 수만큼 누적하여 생성될 수 있다.
단계(830)에서 음성인식 서버 시스템(620)은 음성인식 중간 결과를 음성인식 클라이언트 시스템으로 전송한다. 이때, 음성인식 서버 시스템(620)은 하나의 음성인식 중간 결과가 둘 이상의 결과를 포함하는 경우, 둘 이상의 결과를 모두 포함하는 하나의 음성인식 중간 결과를 음성인식 클라이언트 시스템으로 전송할 수 있다. 예를 들어, 하나의 음성인식 중간 결과가 '9', '코', '구', 'g'의 네 개의 결과를 포함한다 하더라도, 음성인식 서버 시스템(620)은 네 개의 결과를 하나의 음성인식 중간 결과로서 음성인식 클라이언트 시스템으로 전송할 수 있다.
또한, 음성인식 서버 시스템(620)은 하나의 음성인식 중간 결과가 둘 이상의 결과를 포함하는 경우, 둘 이상의 결과 각각의 정확도를 결정할 수 있다. 이 경우, 음성인식 서버 시스템(620)은 정확도의 순서로 둘 이상의 결과를 정렬하여 포함하는 음성인식 중간 결과, 둘 이상의 결과 및 둘 이상의 결과 각각의 정확도를 포함하는 음성인식 중간 결과 및 정확도가 가장 높은 결과를 포함하는 음성인식 중간 결과 중 하나를 음성인식 클라이언트 시스템으로 전송할 수 있다. 예를 들어, 두 개의 결과인 '코스닥'과 '구스타'에 대해 '구스타'의 정확도가 5로 '코스닥'의 정확도 3보다 높다고 가정하자. 이때, 음성인식 서버 시스템(620)은 '구스타', '코스닥' 순서로 정렬된 음성인식 중간 결과를 전송하거나 '구스타-5', '코스닥-3'과 같이 정확도를 포함하는 음성인식 중간 결과를 전송하거나 또는 정확도가 가장 높은 '구스타'만을 포함하는 음성인식 중간 결과를 전송할 수 있다. '-'는 뒤의 숫자가 정확도임을 나타내는 기호로 본 일례에서 임의로 가정한 것일 뿐, 보다 다양한 방법을 통해 정확도가 음성인식 클라이언트 시스템으로 전송될 수 있다.
도 9은 본 발명의 다른 실시예에 있어서, 음성인식 클라이언트 시스템 및 음성인식 서버 시스템의 내부 구성을 도시한 블록도이다.
본 실시예에 따른 음성인식 클라이언트 시스템(910)은 도 9에 도시된 바와 같이, 전송부(911), 수신부(912), 표시부(913) 및 제어부(914)를 포함할 수 있다. 이때, 전송부(911), 수신부(912) 및 표시부(913)는 필요에 따라 선택적으로 음성인식 클라이언트 시스템(910)에 포함될 수 있다. 예를 들어, 음성인식 클라이언트 시스템(910)은 사용자의 단말기에 포함된 하나의 모듈일 수 있다. 즉, 음성인식 클라이언트 시스템(910)은 제어부(914)만을 포함하여, 단말기의 전송부(911), 수신부(912) 및 표시부(913)를 제어하여 음성인식이 수행되도록 할 수 있다.
본 실시예에 따른 음성인식 서버 시스템(920)은 도 9에 도시된 바와 같이 수신부(921), 부분소리신호 생성부(922), 음성인식 결과 생성부(923) 및 전송부(924)를 포함할 수 있다.
일실시예로, 음성인식 클라이언트 시스템(910)에서 전송부(911)는 기선정된 단위시간마다 입력된 단위소리신호를 음성인식 서버 시스템(920)으로 전송하고, 수신부(912)는 음성인식 중간 결과를 음성인식 서버 시스템(920)으로부터 수신한다. 또한, 표시부(913)는 수신된 음성인식 중간 결과를 음성인식의 시작시점과 종료시점 사이에 표시한다. 여기서, 음성인식 중간 결과는 전송된 단위소리신호들 중 적어도 하나의 단위소리신호가 입력 시간에 따라 누적된 부분소리신호를 통해 생성될 수 있다. 부분소리신호는 적어도 하나의 단위소리신호가 입력 시간에 따라 누적된 신호를 포함할 수 있고, 단위소리신호는 시작시점부터 단위시간마다 입력된 소리신호를 포함할 수 있다.
다른 실시예로, 음성인식 클라이언트 시스템(910)에서 전송부(911)는 시작시점부터 단위시간마다 입력된 단위소리신호가 입력 시간에 따라 누적된 부분소리신호를 음성인식 서버 시스템(920)으로 전송하고, 수신부(912)는 부분소리신호를 통해 생성된 음성인식 중간 결과를 음성인식 서버 시스템(920)으로부터 수신한다. 또한, 표시부(913)는 수신된 음성인식 중간 결과를 음성인식의 시작시점과 종료시점 사이에 표시한다.
즉, 음성인식 클라이언트 시스템(910)은 단위시간마다 단위시간동안 입력된 단위소리신호를 음성인식 서버 시스템(920)으로 전송하거나 또는 일정 개수의 단위소리신호가 입력 시간에 따라 누적된 부분소리신호를 음성인식 서버 시스템(920)으로 전송할 수 있다.
전자의 경우에는, 음성인식 서버 시스템(920)에서 단위소리신호들을 통해 부분소리신호를 생성하고, 생성된 부분소리신호를 이용하여 음성인식 중간 결과를 생성할 수 있다. 예를 들어, 음성인식 클라이언트 시스템(910)은 네 개의 단위시간 동안 소리신호 '구', '스', '타', '프'가 입력된 경우, 각각의 단위시간마다 '구', '스', '타', '프'를 전송할 수 있다. 이 경우, 음성인식 클라이언트 시스템(920)은 '구', '구스', '구스타', '구스타프'와 같이 단위소리신호들이 누적된 부분소리신호를 생성하고, 각각의 부분소리신호에 대해 음성인식 중간 결과를 생성할 수 있다.
후자의 경우에는, 음성인식 클라이언트 시스템(910)에서 적어도 하나의 단위소리신호가 누적된 소리신호인 부분소리신호를 음성인식 서버 시스템(920)으로 전송할 수 있고, 음성인식 서버 시스템(920)은 단순히 수신된 부분소리신호를 통해 음성인식 중간 결과를 생성할 수 있다. 예를 들어, 음성인식 클라이언트 시스템(910)은 네 개의 단위시간 동안 소리신호 '구', '스', '타', '프'가 입력된 경우, 각각의 단위시간마다 '구', '구스', '구스타', '구스타프'와 같이 단위소리신호가 누적된 부분소리신호를 전송할 수 있다. 이 경우, 음성인식 클라이언트 시스템(920)은 '구', '구스', '구스타', '구스타프'와 같이 수신된 부분소리신호를 그대로 이용하여 음성인식 중간 결과를 생성할 수 있다.
제어부(914)는 음성인식의 시작시점부터 시작시점과 종료시점 사이의 복수의 시점들 중 적어도 하나의 시점까지 입력되는 부분소리신호에 대한 음성인식 중간 결과가 시작시점과 종료시점 사이에 표시되도록 제어한다. 이때, 제어부(914)는 음성인식 중간 결과가 시작시점과 종료시점 사이에 표시되도록 전송부(911), 수신부(912) 및 표시부(913)를 제어할 수 있다.
이때, 제어부(914)는 하나의 음성인식 중간 결과가 둘 이상의 결과를 포함하는 경우, 둘 이상의 결과가 모두 표시되도록 제어할 수 있다. 이 경우에도, 음성인식 클라이언트 시스템(910)은 상술한 바와 같이, 사용자로부터 입력되는 이벤트를 통해 선택되는 결과를 음성인식 서버 시스템(920)으로 전송하여 다음 음성인식 중간 결과나 음성인식 최종 결과의 생성에 반영되도록 할 수 있다.
다른 실시예로, 음성인식 클라이언트 시스템(910)은 하나의 음성인식 중간 결과가 둘 이상의 결과를 포함하는 경우, 둘 이상의 결과 각각의 정확도를 결정하는 정확도 결정부(미도시)를 더 포함할 수 있다. 이 경우, 제어부(914)는 둘 이상의 결과가 정확도의 순서로 정렬되어 표시되도록 제어하거나 또는 정확도가 가장 높은 결과가 표시되도록 제어할 수 있다.
또한, 제어부(914)는 음성인식 서버 시스템(920)으로부터 복수의 음성인식 중간 결과가 수신되는 경우, 복수의 음성인식 중간 결과가 시작시점과 종료시점 사이에 순차적으로 표시되도록 제어할 수 있다.
이때, 음성인식 클라이언트 시스템(910)은 사용자로부터 음성인식의 종료 시점을 결정하기 위한 이벤트를 입력받는 사용자 인터페이스부(미도시)를 더 포함할 수 있다. 이 경우, 상기 이벤트가 입력되기 이전까지 입력된 부분소리신호를 이용하여 음성인식 최종 결과가 생성될 수 있다. 즉, 음성인식 클라이언트 시스템(610)은 음성인식이 종료되었음을 음성인식 서버 시스템(620)에 알리고, 마지막으로 수신된 음성인식 중간 결과를 음성인식 최종 결과로서 생성하거나 또는 음성인식이 종료된 시점까지 입력된 부분소리신호를 통해 음성인식 최종 결과가 생성되도록 제어할 수 있다.
음성인식 서버 시스템(920)에서 수신부(921)는 기선정된 단위시간마다 음성인식 클라이언트 시스템(910)으로 입력된 단위소리신호들을 음성인식 클라이언트 시스템(910)으로부터 수신하거나 또는 기선정된 단위시간마다 음성인식 클라이언트 시스템(910)으로 입력된 단위소리신호들 중 적어도 하나의 단위소리신호가 입력 시간에 따라 누적된 부분소리신호를 음성인식 클라이언트 시스템(910)으로부터 수신할 수 있다.
음성인식 결과 생성부(922)는 음성인식의 시작시점부터 시작시점과 종료시점 사이의 복수의 시점들 중 적어도 하나의 시점까지 음성인식 클라이언트 시스템(910)으로 입력된 부분소리신호를 이용하여 음성인식 중간 결과를 생성한다. 즉, 음성인식 결과 생성부(922)는 수신부(921)에서 단위소리신호를 수신하는 경우에는 단위소리신호를 이용하여 부분소리신호를 직접 생성하고, 생성된 부분소리신호를 이용하여 음성인식 중간 결과를 생성할 수 있고, 수신부(921)에서 부분소리신호를 수신하는 경우에는 수신된 부분소리신호를 이용하여 음성인식 중간 결과를 생성할 수 있다.
전송부(923)는 음성인식 중간 결과를 음성인식 클라이언트 시스템(910)으로 전송한다. 이때, 음성인식 중간 결과는 시작시점과 종료시점 사이에 음성인식 클라이언트 시스템(910)의 표시부(913)를 통해 표시될 수 있다.
음성인식 클라이언트 시스템(910)에 의해 수행되는 음성인식 방법은 음성인식의 시작시점부터 시작시점과 종료시점 사이의 복수의 시점들 중 적어도 하나의 시점까지 입력되는 부분소리신호에 대한 음성인식 중간 결과가 시작시점과 종료시점 사이에 표시되도록 제어하는 제1 단계(미도시)를 포함할 수 있다. 이 경우, 음성인식 클라이언트 시스템(910)은 제1 단계에 기선정된 단위시간마다 입력된 단위소리신호를 음성인식 서버 시스템(920)으로 전송하도록 제어하는 제2 단계(미도시)와 음성인식 중간 결과를 음성인식 서버 시스템(920)으로부터 수신하도록 제어하는 제3 단계(미도시) 및 수신된 음성인식 중간 결과를 시작시점과 종료시점 사이에 표시하도록 제어하는 제4 단계(미도시)를 포함하여 수행할 수 있다.
다른 실시예로, 음성인식 클라이언트 시스템(910)은 제1 단계에 시작시점부터 단위시간마다 입력된 단위소리신호가 입력 시간에 따라 누적된 부분소리신호를 음성인식 서버 시스템(920)으로 전송하도록 제어하는 제2 단계, 부분소리신호를 통해 생성된 음성인식 중간 결과를 음성인식 서버 시스템(920)으로부터 수신하도록 제어하는 제3 단계 및 수신된 음성인식 중간 결과를 시작시점과 종료시점 사이에 표시하도록 제어하는 제4 단계를 포함하여 수행할 수 있다.
이때, 음성인식 클라이언트 시스템(910)은 사용자로부터 음성인식의 종료 시점을 결정하기 위한 이벤트를 입력받는 단계(미도시)를 더 수행할 수 있다. 이 경우, 상기 이벤트가 입력되기 이전까지 입력된 부분소리신호를 이용하여 음성인식 최종 결과가 생성될 수 있다. 즉, 음성인식 클라이언트 시스템(910)은 음성인식이 종료되었음을 음성인식 서버 시스템(920)에 알리고, 마지막으로 수신된 음성인식 중간 결과를 음성인식 최종 결과로서 생성하거나 또는 음성인식이 종료된 시점까지 입력된 부분소리신호를 통해 음성인식 최종 결과가 생성되도록 제어할 수 있다.
또한, 음성인식 서버 시스템(920)에 의해 수행되는 음성인식 방법은 기선정된 단위시간마다 음성인식 클라이언트 시스템(910)으로 입력된 단위소리신호들을 음성인식 클라이언트 시스템(910)으로부터 수신하거나 또는 기선정된 단위시간마다 음성인식 클라이언트 시스템(910)으로 입력된 단위소리신호들 중 적어도 하나의 단위소리신호가 입력 시간에 따라 누적된 부분소리신호를 음성인식 클라이언트 시스템(910)으로부터 수신하는 제1단계(미도시), 음성인식의 시작시점부터 시작시점과 종료시점 사이의 복수의 시점들 중 적어도 하나의 시점까지 음성인식 클라이언트 시스템(910)으로 입력된 부분소리신호를 이용하여 음성인식 중간 결과를 생성하는 제2 단계(미도시) 및 음성인식 중간 결과를 음성인식 클라이언트 시스템(910)으로 전송하는 제3 단계(미도시)를 포함한다. 즉, 음성인식 서버 시스템(920)은 단위소리신호를 수신하는 경우에는 단위소리신호를 이용하여 부분소리신호를 직접 생성하고, 생성된 부분소리신호를 이용하여 음성인식 중간 결과를 생성할 수 있고, 부분소리신호를 수신하는 경우에는 수신된 부분소리신호를 이용하여 음성인식 중간 결과를 생성할 수 있다. 이때, 음성인식 중간 결과는 시작시점과 종료시점 사이에 음성인식 클라이언트 시스템(910)의 표시부(913)를 통해 표시될 수 있다.
이와 같이, 본 발명의 실시예들에 따른 시스템 및 방법을 이용하면, 사용자가 발성을 시작한 후 음성인식이 종료하기 전 음성인식 중간 결과를 사용자에게 제공함으로써, 사용자가 음성인식이 정확히 수행되고 있는가에 대한 걱정을 줄일 수 있다. 또한, 사용자가 발성을 시작한 후 기선정된 단위시간마다 입력되는 적어도 하나의 단위소리신호를 누적하여 부분소리신호를 생성하고, 부분소리신호에 기초하여 음성인식 중간 결과를 생성하여 사용자에게 제공함으로써, 사용자에게 안정감을 주고 음성인식의 처리 과정을 보여줄 수 있다.
본 발명의 실시예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 또한, 상술한 파일 시스템은 컴퓨터 판독이 가능한 기록 매체에 기록될 수 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
110: 사용자
120: 음성인식 클라이언트 시스템
130: 음성인식 서버 시스템

Claims (30)

  1. 음성인식의 시작시점부터 종료시점까지 입력되는 소리신호에 대한 음성인식 결과를 표시하는 음성인식 클라이언트 시스템에 있어서,
    상기 시작시점부터 상기 종료시점까지 기선정된 단위시간마다 입력되는 단위소리신호를 상기 단위시간마다 음성인식 서버 시스템으로 전송하고, 상기 음성인식 서버 시스템으로부터 상기 단위시간마다 음성인식 중간 결과를 수신하는 통신부; 및
    상기 단위시간마다 수신되는 음성인식 중간 결과들 각각을 상기 시작시점과 상기 종료시점 사이의 시점 중 상응하는 단위시간의 시점에 표시하는 표시부
    를 포함하고,
    상기 음성인식 중간결과는, 상기 시작시점부터 누적된 단위소리신호를 통해 상기 음성인식 서버 시스템에서 생성되는 음성인식 클라이언트 시스템.
  2. 삭제
  3. 제1항에 있어서,
    상기 표시부는,
    상기 음성인식 서버 시스템으로부터 복수의 음성인식 중간 결과가 수신되는 경우, 상기 복수의 음성인식 중간 결과를 상기 시작시점과 상기 종료시점 사이에 순차적으로 표시하는, 음성인식 클라이언트 시스템.
  4. 제1항에 있어서,
    상기 표시부는,
    상기 단위시간마다의 음성인식 중간 결과가 둘 이상의 결과를 포함하는 경우, 상기 둘 이상의 결과를 모두 전송받아 표시하는 음성인식 클라이언트 시스템.
  5. 제1항에 있어서,
    상기 음성인식 중간 결과가 둘 이상의 결과를 포함하는 경우, 상기 둘 이상의 결과 각각의 정확도를 결정하는 정확도 결정부
    를 더 포함하고,
    상기 표시부는,
    상기 정확도의 순서로 상기 둘 이상의 결과를 정렬하여 표시하거나 또는 상기 정확도가 가장 높은 결과를 표시하는, 음성인식 클라이언트 시스템.
  6. 제1항에 있어서,
    상기 입력된 단위소리신호에서 특징정보를 추출하는 특징정보 추출부; 및
    상기 입력된 단위소리신호를 부호화하는 부호화부
    를 더 포함하고,
    상기 통신부는,
    상기 특징정보 및 상기 부호화된 단위소리신호를 상기 입력된 단위소리신호로서 상기 음성인식 서버 시스템으로 전송하는, 음성인식 클라이언트 시스템.
  7. 제1항에 있어서,
    사용자로부터 음성인식의 종료 시점을 결정하기 위한 이벤트를 입력받는 사용자 인터페이스부
    를 더 포함하고,
    상기 이벤트가 입력되기 이전까지 입력된 단위소리신호들을 이용하여 음성인식 최종 결과가 생성되는, 음성인식 클라이언트 시스템.
  8. 음성인식 클라이언트 시스템으로부터 수신된 소리신호를 이용하여 음성인식 결과를 생성하는 음성인식 서버 시스템에 있어서,
    음성인식의 시작시점부터 종료시점까지 단위시간마다 상기 음성인식 클라이언트 시스템으로 입력되는 단위소리신호를 수신하는 수신부;
    적어도 하나의 단위소리신호가 상기 시작시점부터 누적된 부분소리신호를 이용하여 상기 단위시간마다 음성인식 중간 결과를 생성하는 음성인식 결과 생성부; 및
    상기 단위시간마다 생성된 음성인식 중간 결과를 상기 단위시간마다 상기 음성인식 클라이언트 시스템으로 전송하는 전송부
    를 포함하고,
    상기 단위시간마다 생성된 음성인식 중간 결과 각각은, 상기 시작시점과 상기 종료시점 사이의 시점 중 상응하는 단위시간의 시점에 상기 음성인식 클라이언트 시스템의 표시부를 통해 표시되는, 음성인식 서버 시스템.
  9. 제8항에 있어서,
    상기 단위시간마다 상기 음성인식 클라이언트 시스템으로부터 전송되는 단위소리신호를 기선정된 수만큼 누적하여 부분소리신호를 생성하는 부분소리신호 생성부
    를 더 포함하는, 음성인식 서버 시스템.
  10. 제9항에 있어서,
    상기 음성인식 결과 생성부는,
    상기 부분소리신호가 생성될 때마다 상기 생성된 부분소리신호에 대한 음성인식 중간 결과를 생성하는, 음성인식 서버 시스템.
  11. 제8항에 있어서,
    상기 전송부는,
    하나의 음성인식 중간 결과가 둘 이상의 결과를 포함하는 경우, 상기 둘 이상의 결과를 모두 포함하는 상기 하나의 음성인식 중간 결과를 상기 음성인식 클라이언트 시스템으로 전송하는, 음성인식 서버 시스템.
  12. 제8항에 있어서,
    하나의 음성인식 중간 결과가 둘 이상의 결과를 포함하는 경우, 상기 둘 이상의 결과 각각의 정확도를 결정하는 정확도 결정부
    를 더 포함하고,
    상기 전송부는,
    상기 정확도의 순서로 상기 둘 이상의 결과를 정렬하여 포함하는 음성인식 중간 결과, 상기 둘 이상의 결과 및 상기 둘 이상의 결과 각각의 정확도를 포함하는 음성인식 중간 결과 및 상기 정확도가 가장 높은 결과를 포함하는 음성인식 중간 결과 중 하나를 상기 음성인식 클라이언트 시스템으로 전송하는, 음성인식 서버 시스템.
  13. 음성인식의 시작시점부터 종료시점까지 입력되는 소리신호에 대한 음성인식 결과를 표시하는 음성인식 클라이언트 시스템에 있어서,
    상기 시작시점부터 상기 종료시점까지 기선정된 단위시간마다 부분소리신호에 대한 음성인식 중간 결과가 상기 시작시점과 상기 종료시점 사이에 표시되도록 제어하는 제어부
    를 포함하고,
    상기 음성인식 중간 결과는, 상기 시작시점과 상기 종료시점 사이의 시점 중 상응하는 단위시간의 시점에 표시되고,
    상기 부분소리신호는, 상기 시작시간부터 누적된 단위소리신호를 포함하는 음성인식 클라이언트 시스템.
  14. 제13항에 있어서,
    상기 단위소리신호는 상기 시작시점부터 단위시간마다 입력된 소리신호를 포함하는, 음성인식 클라이언트 시스템.
  15. 제13항에 있어서,
    상기 제어부는,
    상기 음성인식 서버 시스템으로부터 복수의 음성인식 중간 결과가 수신되는 경우, 상기 복수의 음성인식 중간 결과가 상기 시작시점과 상기 종료시점 사이에 순차적으로 표시되도록 제어하는, 음성인식 클라이언트 시스템.
  16. 제13항에 있어서,
    기선정된 단위시간마다 입력된 단위소리신호를 음성인식 서버 시스템으로 전송하는 전송부;
    음성인식 중간 결과를 상기 음성인식 서버 시스템으로부터 수신하는 수신부; 및
    상기 수신된 음성인식 중간 결과를 상기 시작시점과 상기 종료시점 사이에 표시하는 표시부
    를 더 포함하고,
    상기 음성인식 중간 결과는 상기 전송된 단위소리신호들 중 적어도 하나의 단위소리신호가 입력 시간에 따라 누적된 부분소리신호를 통해 생성되는, 음성인식 클라이언트 시스템.
  17. 제13항에 있어서,
    상기 시작시점부터 단위시간마다 입력된 단위소리신호가 입력 시간에 따라 누적된 부분소리신호를 음성인식 서버 시스템으로 전송하는 전송부;
    상기 부분소리신호를 통해 생성된 음성인식 중간 결과를 상기 음성인식 서버 시스템으로부터 수신하는 수신부; 및
    상기 수신된 음성인식 중간 결과를 상기 시작시점과 상기 종료시점 사이에 표시하는 표시부
    를 더 포함하는 음성인식 클라이언트 시스템.
  18. 제16항 또는 제17항에 있어서,
    상기 제어부는,
    상기 음성인식 중간 결과가 상기 시작시점과 상기 종료시점 사이에 표시되도록 상기 전송부, 상기 수신부 및 상기 표시부를 제어하는, 음성인식 클라이언트 시스템.
  19. 제13항에 있어서,
    상기 제어부는,
    하나의 음성인식 중간 결과가 둘 이상의 결과를 포함하는 경우, 상기 둘 이상의 결과가 모두 표시되도록 제어하는, 음성인식 클라이언트 시스템.
  20. 제13항에 있어서,
    하나의 음성인식 중간 결과가 둘 이상의 결과를 포함하는 경우, 상기 둘 이상의 결과 각각의 정확도를 결정하는 정확도 결정부
    를 더 포함하고,
    상기 제어부는,
    상기 둘 이상의 결과가 상기 정확도의 순서로 정렬되어 표시되도록 제어하거나 또는 상기 정확도가 가장 높은 결과가 표시되도록 제어하는, 음성인식 클라이언트 시스템.
  21. 제13항에 있어서,
    사용자로부터 음성인식의 종료 시점을 결정하기 위한 이벤트를 입력받는 사용자 인터페이스부
    를 더 포함하고,
    상기 이벤트가 입력되기 이전까지 입력된 부분소리신호를 이용하여 음성인식 최종 결과가 생성되는, 음성인식 클라이언트 시스템.
  22. 음성인식 클라이언트 시스템으로부터 수신된 소리신호를 이용하여 음성인식 결과를 생성하는 음성인식 서버 시스템에 있어서,
    음성인식의 시작시점부터 종료시점까지 단위시간마다 상기 음성인식 클라이언트 시스템으로 입력된 부분소리신호를 상기 음성인식 클라이언트 시스템으로부터 수신하여 상기 단위시간마다 음성인식 중간 결과를 생성하는 음성인식 결과 생성부; 및
    상기 단위시간마다 생성된 음성인식 중간 결과를 상기 단위시간마다 상기 음성인식 클라이언트 시스템으로 전송하는 전송부
    를 포함하고,
    상기 음성인식 중간 결과는 상기 시작시점과 상기 종료시점 사이의 시점 중 상응하는 단위시간의 시점에 상기 음성인식 클라이언트 시스템의 표시부를 통해 표시되고,
    상기 부분소리신호는 상기 시작시점부터 상기 음성인식 클라이언트 시스템에서 누적된 단위소리신호를 포함하는, 음성인식 서버 시스템.
  23. 제22항에 있어서,
    상기 부분소리신호는 적어도 하나의 단위소리신호가 입력 시간에 따라 누적된 신호를 포함하고,
    상기 단위소리신호는 상기 시작시점부터 단위시간마다 입력된 소리신호를 포함하는, 음성인식 서버 시스템.
  24. 제22항에 있어서,
    기선정된 단위시간마다 상기 음성인식 클라이언트 시스템으로 입력된 단위소리신호들을 상기 음성인식 클라이언트 시스템으로부터 수신하는 수신부
    를 더 포함하고,
    상기 음성인식 결과 생성부는,
    상기 수신된 단위소리신호들 중 적어도 하나의 단위소리신호가 입력 시간에 따라 누적된 상기 부분소리신호를 이용하여 상기 음성인식 중간 결과를 생성하는, 음성인식 서버 시스템.
  25. 제22항에 있어서,
    기선정된 단위시간마다 상기 음성인식 클라이언트 시스템으로 입력된 단위소리신호들 중 적어도 하나의 단위소리신호가 입력 시간에 따라 누적된 부분소리신호를 상기 음성인식 클라이언트 시스템으로부터 수신하는 수신부
    를 더 포함하는, 음성인식 서버 시스템.
  26. 음성인식의 시작시점부터 종료시점까지 입력되는 소리신호에 대한 음성인식 결과를 표시하는 음성인식 방법에 있어서,
    상기 시작시점부터 상기 종료시점까지 기선정된 단위시간마다 입력되는 단위소리신호를 상기 단위시간마다 음성인식 서버 시스템으로 전송하고, 상기 음성인식 서버 시스템으로부터 음성인식 중간 결과를 수신하는 단계; 및
    상기 수신된 음성인식 중간 결과를 상기 시작시점과 상기 종료시점 사이에 표시하는 단계
    를 포함하고,
    상기 음성인식 중간 결과는, 상기 단위시간마다 전송된 상기 단위소리신호가 상기 시작시점부터 누적되어 상기 음성인식 서비 시스템에서 생성되는 음성인식 방법.
  27. 음성인식 클라이언트 시스템으로부터 수신된 소리신호를 이용하여 음성인식 결과를 생성하는 음성인식 방법에 있어서,
    음성인식의 시작시점부터 종료시점까지 단위시간마다 상기 음성인식 클라이언트 시스템으로 입력되는 단위소리신호를 수신하는 단계;
    적어도 하나의 단위소리신호가 상기 시작시점부터 누적된 부분소리신호를 이용하여 상기 단위시간마다 음성인식 중간 결과를 생성하는 단계; 및
    상기 단위시간마다 생성된 음성인식 중간 결과를 상기 단위시간마다 상기 음성인식 클라이언트 시스템으로 전송하는 단계
    를 포함하고,
    상기 단위시간마다 생성된 음성인식 중간 결과 각각은, 상기 시작시점과 상기 종료시점 사이의 시점 중 상응하는 단위시간의 시점에 상기 음성인식 클라이언트 시스템의 표시부를 통해 표시되는, 음성인식 방법.
  28. 음성인식의 시작시점부터 종료시점까지 입력되는 소리신호에 대한 음성인식 결과를 표시하는 음성인식 방법에 있어서,
    상기 시작시점부터 상기 종료시점까지 기선정된 단위시간마다 부분소리신호에 대한 음성인식 중간 결과가 상기 시작시점과 상기 종료시점 사이에 표시되도록 제어하는 단계
    를 포함하고,
    상기 음성인식 중간 결과는, 상기 시작시점과 상기 종료시점 사이의 시점 중 상응하는 단위시간의 시점에 표시되고,
    상기 부분소리신호는, 상기 시작시간부터 누적된 단위소리신호를 포함하는 음성인식 방법.
  29. 음성인식 클라이언트 시스템으로부터 수신된 소리신호를 이용하여 음성인식 결과를 생성하는 음성인식 방법에 있어서,
    음성인식의 시작시점부터 종료시점까지 단위시간마다 상기 음성인식 클라이언트 시스템으로 입력된 부분소리신호를 상기 음성인식 클라이언트 시스템으로부터 수신하여 상기 단위시간마다 음성인식 중간 결과를 생성하는 단계; 및
    상기 단위시간마다 생성된 음성인식 중간 결과를 상기 단위시간마다 상기 음성인식 클라이언트 시스템으로 전송하는 단계
    를 포함하고,
    상기 음성인식 중간 결과는 상기 시작시점과 상기 종료시점 사이의 시점 중 상응하는 단위시간의 시점에 상기 음성인식 클라이언트 시스템의 표시부를 통해 표시되고,
    상기 부분소리신호는 상기 시작시점부터 상기 음성인식 클라이언트 시스템에서 누적된 단위소리신호를 포함하는, 음성인식 방법.
  30. 제26항 내지 제29항 중 어느 한 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
KR1020100129217A 2010-12-16 2010-12-16 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법 KR101208166B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020100129217A KR101208166B1 (ko) 2010-12-16 2010-12-16 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법
PCT/KR2011/005394 WO2012081788A1 (ko) 2010-12-16 2011-07-21 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법
JP2013544373A JP2014505270A (ja) 2010-12-16 2011-07-21 オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法
US13/995,085 US9318111B2 (en) 2010-12-16 2011-07-21 Voice recognition client system for processing online voice recognition, voice recognition server system, and voice recognition method
JP2015117281A JP6139598B2 (ja) 2010-12-16 2015-06-10 オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100129217A KR101208166B1 (ko) 2010-12-16 2010-12-16 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법

Publications (2)

Publication Number Publication Date
KR20120067680A KR20120067680A (ko) 2012-06-26
KR101208166B1 true KR101208166B1 (ko) 2012-12-04

Family

ID=46244864

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100129217A KR101208166B1 (ko) 2010-12-16 2010-12-16 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법

Country Status (4)

Country Link
US (1) US9318111B2 (ko)
JP (2) JP2014505270A (ko)
KR (1) KR101208166B1 (ko)
WO (1) WO2012081788A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11341963B2 (en) 2017-12-06 2022-05-24 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling same
US11367434B2 (en) 2016-12-20 2022-06-21 Samsung Electronics Co., Ltd. Electronic device, method for determining utterance intention of user thereof, and non-transitory computer-readable recording medium

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130133629A (ko) 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
CN103076893B (zh) * 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
KR102301880B1 (ko) * 2014-10-14 2021-09-14 삼성전자 주식회사 전자 장치 및 이의 음성 대화 방법
CN106463114B (zh) * 2015-03-31 2020-10-27 索尼公司 信息处理设备、控制方法及程序存储单元
KR101595090B1 (ko) * 2015-04-30 2016-02-17 주식회사 아마다스 음성 인식을 이용한 정보 검색 방법 및 장치
KR102365757B1 (ko) * 2015-09-09 2022-02-18 삼성전자주식회사 인식 장치, 인식 방법 및 협업 처리 장치
US10339224B2 (en) 2016-07-13 2019-07-02 Fujitsu Social Science Laboratory Limited Speech recognition and translation terminal, method and non-transitory computer readable medium
JP6766991B2 (ja) * 2016-07-13 2020-10-14 株式会社富士通ソーシアルサイエンスラボラトリ 端末装置、翻訳方法、及び、翻訳プログラム
US10229682B2 (en) 2017-02-01 2019-03-12 International Business Machines Corporation Cognitive intervention for voice recognition failure
JP2019016206A (ja) * 2017-07-07 2019-01-31 株式会社富士通ソーシアルサイエンスラボラトリ 音声認識文字表示プログラム、情報処理装置、及び、音声認識文字表示方法
KR102412523B1 (ko) * 2017-07-18 2022-06-24 삼성전자주식회사 음성 인식 서비스 운용 방법, 이를 지원하는 전자 장치 및 서버
EP3888080A4 (en) * 2018-11-27 2022-07-13 LG Electronics Inc. MULTIMEDIA DEVICE FOR VOICE COMMAND PROCESSING
US11211063B2 (en) 2018-11-27 2021-12-28 Lg Electronics Inc. Multimedia device for processing voice command
US11538481B2 (en) * 2020-03-18 2022-12-27 Sas Institute Inc. Speech segmentation based on combination of pause detection and speaker diarization
JP7574029B2 (ja) 2020-09-29 2024-10-28 富士通株式会社 端末装置、音声認識方法、音声認識プログラム
CN115188368A (zh) * 2022-06-30 2022-10-14 北京百度网讯科技有限公司 语音测试方法、装置、电子设备及存储介质
KR20240068017A (ko) * 2022-11-08 2024-05-17 한국전자기술연구원 턴프리 대화 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175093A (ja) 1997-12-08 1999-07-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識確認応答方法
JP2005283972A (ja) * 2004-03-30 2005-10-13 Advanced Media Inc 音声認識方法及びこの音声認識方法を利用した情報提示方法と情報提示装置
JP2005331616A (ja) 2004-05-18 2005-12-02 Nippon Telegr & Teleph Corp <Ntt> クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030182113A1 (en) * 1999-11-22 2003-09-25 Xuedong Huang Distributed speech recognition for mobile communication devices
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
JP2004094077A (ja) 2002-09-03 2004-03-25 Nec Corp 音声認識装置及び制御方法並びにプログラム
US7774694B2 (en) * 2002-12-06 2010-08-10 3M Innovation Properties Company Method and system for server-based sequential insertion processing of speech recognition results
JP2005037615A (ja) 2003-07-18 2005-02-10 Omron Corp クライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体
US7729912B1 (en) * 2003-12-23 2010-06-01 At&T Intellectual Property Ii, L.P. System and method for latency reduction for automatic speech recognition using partial multi-pass results
JP4297349B2 (ja) * 2004-03-30 2009-07-15 Kddi株式会社 音声認識システム
TWI251754B (en) * 2004-12-16 2006-03-21 Delta Electronics Inc Method for optimizing loads of speech/user recognition system
US8117268B2 (en) * 2006-04-05 2012-02-14 Jablokov Victor R Hosted voice recognition system for wireless devices
US8352261B2 (en) * 2008-03-07 2013-01-08 Canyon IP Holdings, LLC Use of intermediate speech transcription results in editing final speech transcription results
US8352264B2 (en) * 2008-03-19 2013-01-08 Canyon IP Holdings, LLC Corrective feedback loop for automated speech recognition
US20090070109A1 (en) 2007-09-12 2009-03-12 Microsoft Corporation Speech-to-Text Transcription for Personal Communication Devices
JP5495612B2 (ja) * 2008-04-23 2014-05-21 キヤノン株式会社 カメラ制御装置及び方法
JP2010048890A (ja) 2008-08-19 2010-03-04 Ntt Docomo Inc クライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラム
US8019608B2 (en) * 2008-08-29 2011-09-13 Multimodal Technologies, Inc. Distributed speech recognition using one way communication
JP4902617B2 (ja) 2008-09-30 2012-03-21 株式会社フュートレック 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
US8965545B2 (en) * 2010-09-30 2015-02-24 Google Inc. Progressive encoding of audio

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175093A (ja) 1997-12-08 1999-07-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識確認応答方法
JP2005283972A (ja) * 2004-03-30 2005-10-13 Advanced Media Inc 音声認識方法及びこの音声認識方法を利用した情報提示方法と情報提示装置
JP2005331616A (ja) 2004-05-18 2005-12-02 Nippon Telegr & Teleph Corp <Ntt> クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11367434B2 (en) 2016-12-20 2022-06-21 Samsung Electronics Co., Ltd. Electronic device, method for determining utterance intention of user thereof, and non-transitory computer-readable recording medium
US11341963B2 (en) 2017-12-06 2022-05-24 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling same

Also Published As

Publication number Publication date
US20140316776A1 (en) 2014-10-23
JP2014505270A (ja) 2014-02-27
JP2015179287A (ja) 2015-10-08
WO2012081788A1 (ko) 2012-06-21
US9318111B2 (en) 2016-04-19
KR20120067680A (ko) 2012-06-26
JP6139598B2 (ja) 2017-05-31

Similar Documents

Publication Publication Date Title
KR101208166B1 (ko) 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법
US9691390B2 (en) System and method for performing dual mode speech recognition
US11817094B2 (en) Automatic speech recognition with filler model processing
KR102100389B1 (ko) 개인화된 엔티티 발음 학습
EP2411977B1 (en) Service oriented speech recognition for in-vehicle automated interaction
JP6024675B2 (ja) 音声認識端末装置、音声認識システム、音声認識方法
EP3210205B1 (en) Sound sample verification for generating sound detection model
WO2017071182A1 (zh) 一种语音唤醒方法、装置及系统
WO2014208231A1 (ja) ローカルな音声認識を行なう音声認識クライアント装置
JP2016095383A (ja) 音声認識クライアント装置及びサーバ型音声認識装置
WO2016194740A1 (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
WO2016013503A1 (ja) 音声認識装置及び音声認識方法
JP6614080B2 (ja) 音声対話システムおよび音声対話方法
CN114385800A (zh) 语音对话方法和装置
US20170270923A1 (en) Voice processing device and voice processing method
JPWO2009104332A1 (ja) 発話分割システム、発話分割方法および発話分割プログラム
US10866948B2 (en) Address book management apparatus using speech recognition, vehicle, system and method thereof
US10789946B2 (en) System and method for speech recognition with decoupling awakening phrase
CN109074809B (zh) 信息处理设备、信息处理方法和计算机可读存储介质
JP4845955B2 (ja) 音声認識結果訂正装置および音声認識結果訂正方法
KR102417899B1 (ko) 차량의 음성인식 시스템 및 방법
EP3833459A1 (en) Systems and devices for controlling network applications
KR101165906B1 (ko) 음성-텍스트 변환 중계 장치 및 그 제어방법
CN112420054A (zh) 一种基于说话人向量复用的语音识别系统及方法
KR100622019B1 (ko) 음성 인터페이스 시스템 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
J301 Trial decision

Free format text: TRIAL DECISION FOR INVALIDATION REQUESTED 20121231

Effective date: 20140409

FPAY Annual fee payment

Payment date: 20151102

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161024

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20171011

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20181105

Year of fee payment: 7