[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR20090013876A - Method and apparatus for distributed speech recognition using phonemic symbol - Google Patents

Method and apparatus for distributed speech recognition using phonemic symbol Download PDF

Info

Publication number
KR20090013876A
KR20090013876A KR1020070077980A KR20070077980A KR20090013876A KR 20090013876 A KR20090013876 A KR 20090013876A KR 1020070077980 A KR1020070077980 A KR 1020070077980A KR 20070077980 A KR20070077980 A KR 20070077980A KR 20090013876 A KR20090013876 A KR 20090013876A
Authority
KR
South Korea
Prior art keywords
speech recognition
phoneme
server
terminal
signal
Prior art date
Application number
KR1020070077980A
Other languages
Korean (ko)
Inventor
전형배
김승희
박준
황규웅
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020070077980A priority Critical patent/KR20090013876A/en
Priority to PCT/KR2008/002427 priority patent/WO2009020272A1/en
Publication of KR20090013876A publication Critical patent/KR20090013876A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

A method and an apparatus for recognizing a distributed speech by using a phoneme are provided to recognize a phoneme in a terminal and recognize a speech with regard to a phoneme recognition result, thereby realizing information search through speech recognition without realizing additional communication standards. When a natural language query is inputted to a terminal, a phoneme of the natural language query is recognized(401). The terminal sends the recognized phoneme signal to a speech recognition server(403). The speech recognition server performs the speech recognition by using the phoneme signal(405,407). The speech recognition server confirms a search identifier to be sent to the search sever(409). The speech recognition server sends a search query signal by using the confirmed search identifier(411). The search server sends a query response signal in response to the search query signal(413).

Description

음소를 이용한 분산형 음성 인식 방법 및 장치{Method and Apparatus for distributed Speech Recognition using phonemic symbol}Method and apparatus for distributed speech recognition using phonemes {Method and Apparatus for distributed Speech Recognition using phonemic symbol}

본 발명은 음소를 이용한 분산형 음성 인식 방법 및 장치에 관한 것이다.The present invention relates to a distributed speech recognition method and apparatus using phonemes.

상세하게는 본 발명은 소용량의 음소 인식을 단말기에서 따로하고 그 정보를 이용하여 대용량의 음성 인식을 처리하는 방법 및 장치에 관한 것이다.In detail, the present invention relates to a method and apparatus for processing a large volume of speech recognition by using a small amount of phoneme recognition in a terminal and using the information.

본 발명은 음소를 이용한 분산형 음성 인식 방법 및 장치에 관한 것이다.The present invention relates to a distributed speech recognition method and apparatus using phonemes.

음성 인식 방법의 발달과 휴대폰이나 PDA와 같은 휴대형 멀티미디어 단말기가 발전한 현대에서 휴대용 단말 장치에서 음성 인식을 하는 방법에 대한 연구가 계속되었다.With the development of the speech recognition method and the development of portable multimedia terminals such as mobile phones and PDAs, research on the method of speech recognition in portable terminal devices has continued.

계산량과 메모리가 제한되어 있는 휴대 단말기에서는 많은 어휘의 음성인식을 수행하기 어렵다. 이를 극복하기 위해 통신 채널을 통해 음성을 서버에 전달하고 대용량의 서버에서 음성인식을 수행하는 방법을 사용하게 되는데 이때, 수신 음성을 그대로 서버로 보내게 되면 전송되는 데이터 량이 많아 비용이 많이 들게 되 며 특히 휴대 전화의 음성통신망을 통해 보내게 되면 채널상의 오류가 반영되어 서버에서는 송신한 것에 비해 열화된 음성을 수신하게 되며 이는 음성 인식 성능의 저하로 이어진다. It is difficult to perform speech recognition of many vocabularies in a mobile terminal with limited computational amount and memory. In order to overcome this problem, a method of delivering voice to a server through a communication channel and performing voice recognition on a large-capacity server is used. In this case, when the received voice is sent to the server as it is, a large amount of data is transmitted. In particular, when the data is sent through the voice communication network of the mobile phone, the error on the channel is reflected, and the server receives the degraded voice as compared with the transmitted signal, which leads to a decrease in the voice recognition performance.

따라서 기존의 ETSI AURORA 표준은 이러한 문제점을 해결하기 위해 음성에서 인식에 필요한 특징을 뽑아내어 이 특징을 압축하여 전송하는 방법을 사용하였다. Therefore, the existing ETSI AURORA standard uses a method that extracts the features needed for speech recognition and compresses them to transmit these problems.

그런데 이 표준은 현재 제정 당시보다 휴대 단말기의 성능이 개선되어 특징 추출에 더하여 보다 많은 작업을 수행할 수 있다는 점을 활용하지 못하고 있고 이 표준에서 제시한 특정 통신 방식을 새로 구현해야 한다는 불편한 점이 존재하였다.However, this standard does not take advantage of the fact that the performance of the mobile terminal is improved compared to the time of enactment, so that it can perform more tasks in addition to feature extraction, and there is an inconvenience in that a specific communication method proposed in this standard must be newly implemented. .

본 발명은 음소를 이용한 분산형 음성 인식 방법 및 장치를 제공하는데 그 목적이 있다.An object of the present invention is to provide a distributed speech recognition method and apparatus using phonemes.

또한 본 발명은 단말기에서 음소 인식을 수행하고 이 결과를 서버로 전달하고 서버에서는 음소 인식 결과에 대해 음성 인식을 수행하는 구조를 사용하여 단말기의 계산 능력을 충분히 활용하고 별도의 통신 규약의 구현 없이 기존의 인터넷 검색 규약으로 음성인식을 통한 정보검색을 구현하는 방법 및 장치를 제공하는 것을 목적으로 한다.In addition, the present invention uses a structure that performs phoneme recognition in the terminal and delivers the result to the server, and the server performs speech recognition on the phoneme recognition result, thereby fully utilizing the computing power of the terminal and without implementing a separate communication protocol. An object of the present invention is to provide a method and apparatus for implementing information retrieval through voice recognition using the Internet search protocol.

상술한 목적들을 달성하기 위하여, 본 발명의 일 측면에 따르면, 음성 인식 서버와 결합하는 단말기가 음성을 인식하는 방법에 있어서, 외부로부터 음성 질의를 수신하는 단계, 상기 수신된 음성 질의에서 음성 특징을 추출하는 단계, 상기 추출된 음성 특징에 상응하는 음성 질의의 음소를 인식하는 단계 및 상기 인식된 음소를 상기 음성 인식 서버로 전송하는 단계를 포함하는 단말기의 분산형 음성 인식 방법을 제공할 수 있다.In order to achieve the above objects, according to an aspect of the present invention, in a method for recognizing a speech by a terminal coupled with a speech recognition server, receiving a voice query from the outside, the voice feature in the received voice query The method may include extracting, recognizing a phoneme of a voice query corresponding to the extracted voice feature, and transmitting the recognized phoneme to the voice recognition server.

바람직한 실시예에 있어서, 상기 외부로부터 수신되는 음성 질의는 자연어인 것을 특징으로 할 수 있다. 또한, 상기 인식된 음소를 URL 주소 형식으로 변환하여 변환된 URL 주소를 상기 음성 인식 서버로 전송하는 단계를 더 포함하는 것을 특징 으로 할 수 있다.In a preferred embodiment, the voice query received from the outside may be a natural language. The method may further include converting the recognized phoneme into a URL address format and transmitting the converted URL address to the voice recognition server.

본 발명의 다른 일 측면을 참조하면, 단말기와 결합하는 음성 인식 서버가 음성을 인식하는 방법에 있어서, 상기 단말기로부터 음소 신호를 수신하는 단계, 상기 수신된 음소 신호를 분석하여 음성 인식 데이터베이스에 포함된 단어 정보 및 문장 정보를 적용하여 상기 수신된 음소 신호를 해석하는 단계, 상기 해석된 음소 신호를 외부의 검색 서버로 발송하는 단계, 상기 해석된 음소 신호에 상응하는 응답 정보를 상기 외부의 검색 서버 수신하는 단계 및 상기 수신된 응답 정보를 외부 단말기로 전송하는 단계를 포함하는 음성 인식 서버의 분산형 음성 인식 방법을 제공할 수 있다.According to another aspect of the present invention, in a method of recognizing a voice by a voice recognition server coupled with a terminal, receiving a phoneme signal from the terminal, analyzing the received phoneme signal and included in a voice recognition database Interpreting the received phoneme signal by applying word information and sentence information, sending the interpreted phoneme signal to an external search server, and receiving response information corresponding to the interpreted phoneme signal from the external search server. And it may provide a distributed voice recognition method of the voice recognition server comprising the step of transmitting the received response information to the external terminal.

바람직한 실시예에 있어서, 상기 단말기로부터 수신되는 음소 신호는 URL 주소 형식으로 전송되는 것을 특징으로 할 수 있다. 또한, 상기 음성 인식 데이터베이스의 단어 및 문장 정보는 외부의 검색 서버부터 갱신 정보를 수신하여 저장하는 것을 특징으로 할 수 있다. 또한, 상기 외부의 검색 서버로부터 수신된 응답 정보는 상기 음성 인식 서버에서 해석된 음소 신호가 포함하는 질의 내용에 대한 응답 정보인 것을 특징으로 할 수 있다. In a preferred embodiment, the phoneme signal received from the terminal may be transmitted in the form of a URL address. In addition, the word and sentence information of the speech recognition database may be characterized by receiving and storing update information from an external search server. In addition, the response information received from the external search server may be characterized in that the response information to the query content included in the phoneme signal interpreted by the speech recognition server.

본 발명의 또 다른 일 측면을 참조하면, 음성 인식 서버와 결합하여 음성을 인식하는 단말기에 있어서, 외부로부터 음성 질의를 수신하는 마이크, 상기 수신된 음성 질의에서 음성 특징을 추출하는 음성 특징 추출부, 상기 추출된 음성 특징에 상응하는 음성 질의의 음소를 인식하는 음소 인식부, 상기 인식된 음소를 URL 주소 형식으로 변환하여 음성 인식 서버로 전송하는 송신부를 포함하는 분산형 음성 인식 단말기를 제공할 수 있다.According to another aspect of the present invention, in a terminal for recognizing a voice in combination with a voice recognition server, a microphone for receiving a voice query from the outside, a voice feature extraction unit for extracting a voice feature from the received voice query, A distributed voice recognition terminal may include a phoneme recognizer that recognizes a phoneme of a voice query corresponding to the extracted voice feature, and a transmitter that converts the recognized phoneme into a URL address format and transmits the converted phoneme to a voice recognition server. .

본 발명의 또 다른 일 측면을 참조하면, 단말기와 결합하여 음성을 인식하는 음성 인식 서버에 있어서, 상기 단말기로부터 음소 신호를 수신하는 수신부, 상기 수신된 음소 신호를 분석하여 음성 인식 데이터베이스에 포함된 단어 정보 및 문장 정보를 적용하여 수신된 음소 신호를 해석하는 언어 해석기, 상기 언어 해석기에서 음소 신호를 분석하기 위한 단어 정보 및 문장 정보를 저장하는 음성 인식 데이터베이스, 상기 음성 인식 데이터베이스에 새로운 검색 단어 정보 및 문장 정보를 저장시키는 지식 추출기, 상기 언어 해석기로부터 해석된 음성 신호를 검색 서버로 전송하고 검색 서버로부터 수신된 검색 신호를 상기 단말기에서 원하는 형식으로 변형하는 검색 관리자 및 외부의 검색 서버로 상기 해석된 음소 신호를 발송하는 송신부를 포함하는 분산형 음성 인식 서버를 제공할 수 있다.According to another aspect of the present invention, in a speech recognition server that recognizes a voice in combination with a terminal, a receiver for receiving a phoneme signal from the terminal, a word included in a voice recognition database by analyzing the received phoneme signal A language interpreter for interpreting the received phoneme signal by applying the information and sentence information, a speech recognition database storing word information and sentence information for analyzing the phoneme signal in the language interpreter, new search word information and sentences in the speech recognition database A knowledge extractor for storing information, a speech manager interpreted by the language interpreter to a search server and transforming the search signal received from the search server into a desired format in the terminal and the interpreted phoneme signal to an external search server Including a transmitting unit to send a A distributed speech recognition server can be provided.

본 발명에 의하여, 음소를 이용한 분산형 음성 인식 방법 및 장치를 제공할 수 있다.According to the present invention, it is possible to provide a distributed speech recognition method and apparatus using phonemes.

또한 본 발명에 의하여, 단말기에서 음소 인식을 수행하고 이 결과를 서버로 전달하고 서버에서는 음소 인식 결과에 대해 음성 인식을 수행하는 구조를 사용하여 단말기의 계산 능력을 충분히 활용하고 별도의 통신 규약의 구현 없이 기존의 인터넷 검색 규약으로 음성인식을 통한 정보검색을 구현하는 방법 및 장치를 제공 할 수 있다.In addition, according to the present invention, the terminal performs phoneme recognition and transfers the result to the server, and the server performs a speech recognition on the phoneme recognition result to fully utilize the computing power of the terminal and implement a separate communication protocol. It is possible to provide a method and apparatus for implementing information retrieval through voice recognition using the existing Internet search protocol.

이어서, 첨부한 도면들을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. Next, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명이 적용되는 음성 인식 시스템을 개략적으로 나타낸 도면이다.1 is a view schematically showing a speech recognition system to which the present invention is applied.

도 1을 참조하면, 본 발명에 따른 음성 인식 시스템은 단말기(101), 음성 인식 서버(103) 및 검색 서버(105)를 포함한다.Referring to FIG. 1, a speech recognition system according to the present invention includes a terminal 101, a speech recognition server 103, and a search server 105.

단말기(101)는 이동식 단말기를 포함하며, 음성 인식 서버(103)와 유선 및 무선을 통하여 연결될 수 있다. 본 도면에서 표현되지는 않았으나, 단말기(101)와 음성 인식 서버(103)사이에 무선 네트워크나 유선 네트워크가 존재할 수 있다.The terminal 101 includes a mobile terminal, and may be connected to the voice recognition server 103 through wires and wirelessly. Although not shown in the figure, a wireless network or a wired network may exist between the terminal 101 and the voice recognition server 103.

이러한 단말기(101)는 사용자로부터 자연어 음성 질의를 수신하여 그 음성을 분석하고, 음성 특징을 추출한 후 음소를 인식하여 음성 인식 서버(103)로 전송하는 역할을 담당한다.The terminal 101 receives a natural language speech query from a user, analyzes the speech, extracts a speech feature, recognizes a phoneme, and transmits the speech to the speech recognition server 103.

이 때, 단말기(101)에서 사용자의 자연어 음성 질의에 대한 음성 인식을 수행하지 않는 이유는 단말기(101)는 휴대가 가능하며, 이동 가능한 단말기(101)로서 음성 인식을 수행하기 위한 방대한 음성 인식 데이터베이스 및 음성 인식 알고리즘을 처리하기에는 너무 용량과 성능이 작기 때문이다.In this case, the reason why the terminal 101 does not perform voice recognition for the user's natural language voice query is that the terminal 101 is portable and has a large voice recognition database for performing voice recognition as the mobile terminal 101. And because the capacity and performance are too small to process the speech recognition algorithm.

다만, ETSI AURORA 표준에서 제시한 음성 인식을 위한 음성 특징만 뽑아내지 않고, 음소 인식까지 단말기(101)에서 수행하는 것은 상기 ETSI AURORA 표준이 지정될 때보다 단말기의 용량 및 성능이 충분히 상향되었고, 상기 ETSI AURORA 표준에 의하며 특정 통신 방식을 이용해야 하기 때문이다. 본 발명에 따른 단말기(101)는 음소를 인식한 결과를 URL 주소 형식으로 변환하여 전송함으로서 통신 방식이 기존의 ETSI AURORA 표준에 의할 때 보다 자유롭다.However, it is not necessary to extract only the speech features for speech recognition presented by the ETSI AURORA standard, and to perform the phoneme recognition on the terminal 101 than the ETSI AURORA standard is specified. This is because the ETSI AURORA standard requires the use of a specific communication method. The terminal 101 according to the present invention converts the phoneme-recognized result into a URL address format and transmits the same, thereby freeing the communication method according to the existing ETSI AURORA standard.

상기 음성 인식 서버(103)는 상기 단말기(101)에서 보내진 음소 신호를 수신하여 인식 대상 영역에 포함되는 여러 단어 및 문장 정보를 바탕으로 음소 신호에서 사용자가 발의한 자연어 질의 문장을 분석하고 그 질의 문장에 상응하는 응답을 찾기 위해 검색 서버(105)로 질의를 전송하는 역할을 담당한다.The voice recognition server 103 receives a phoneme signal sent from the terminal 101 and analyzes a natural language question sentence initiated by a user in a phoneme signal based on various words and sentence information included in a recognition target region. It is responsible for transmitting the query to the search server 105 to find a response corresponding to the.

이를 위해서 음성 인식 서버(103)는 대용량의 데이터베이스 및 높은 성능을 가지고 있어야한다. 본 도면에서 단말기(101)와 음성 인식 서버는 1 대 1로 결합한 것처럼 보이나 상황에 따라 복수개의 단말기(101)가 하나의 음성 인식 서버(103)에 접속할 수 있다.To this end, the speech recognition server 103 should have a large database and high performance. In this figure, the terminal 101 and the voice recognition server may appear to be combined in a one-to-one manner, but a plurality of terminals 101 may be connected to one voice recognition server 103 according to a situation.

음성 인식 서버(103)는 단말기(101)로부터 수신한 음소 신호로부터 사용자의 질의를 해석한 후, 검색 서버(105)로 그 질의에 대한 해답을 문의하는데, 이는 일반적인 인터넷의 검색 사이트에 검색어를 질의하는 것과 유사하다. 즉 상기 음성 인식 서버(103)에서 인식된 문장을 인터넷이나 다른 네트워크를 통하여 검색 서버로 전송하면 검색 서버(105)는 일반적인 검색 질의에 대한 응답과 동일한 반응을 가진다.The speech recognition server 103 interprets the user's query from the phoneme signal received from the terminal 101 and then inquires the search server 105 for an answer to the query, which queries a search site of a general Internet. It is similar to that. That is, when the sentence recognized by the speech recognition server 103 is transmitted to the search server through the Internet or another network, the search server 105 has the same response as the response to the general search query.

검색 서버(105)는 음성 인식 서버(103)와 인터넷을 통하여 결합되며, 음성 인식 서버(103)의 질의에 상기 검색 서버 및 다른 인터넷 정보를 이용하여 응답해주는 역할을 담당한다. 이러한 검색 서버(105)는 일반적인 인터넷 포탈 서비스 서버가 될 수 있다.The search server 105 is coupled to the speech recognition server 103 through the Internet, and serves to respond to the query of the speech recognition server 103 using the search server and other Internet information. The search server 105 may be a general internet portal service server.

도 2는 본 발명의 바람직한 일 실시예에 따른 음성 인식 시스템이 적용되는 과정을 나타낸 순서도이다.2 is a flowchart illustrating a process of applying a speech recognition system according to an exemplary embodiment of the present invention.

도 2를 참조하면, 우선 사용자가 단말기를 통해 자연어로 질의 문장을 음성으로 입력한다(단계 201). 그러면 단말기에서 상기 입력된 음성의 특징을 추출하고(단계203), 상기 추출된 특징에 상응하여 질의 문장의 각 음소를 인식한다(단계205). 그 후, 인식된 음소를 URL 주소로 변형하고(단계 209), 음성 인식 서버로 전송한다(단계209).Referring to FIG. 2, a user first inputs a query sentence in natural language by voice through a terminal (step 201). Then, the terminal extracts the feature of the input voice (step 203), and recognizes each phoneme of the query sentence corresponding to the extracted feature (step 205). Thereafter, the recognized phoneme is transformed into a URL address (step 209), and transmitted to the speech recognition server (step 209).

여기서, 인식된 음소를 URL로 변환하는 것은 예를 들어'음성 인식'이라는 음성을 인식하였을 경우 인식되는 음소는 'ㅡ ㅁ ㅅ ㅓ ㅇ ㅣ ㄴ ㅅ ㅣ ㄱ'이 된다. 이럴 경우 상기 각 음소에 해당하는 음소를 URL의 %숫자 나 %문자로 표현할 수 있다.예를 들어 포털 사이트 네이버를 통해 "음성인식"에 대해 검색할 때 다음과 같은 URL을 사용하게 된다. Here, when the recognized phoneme is converted into a URL, for example, when the voice of 'voice recognition' is recognized, the recognized phoneme is' ㅡ ㅁ ㅅ ㅓ ㅇ ㄴ ㅅ ㅣ ㄱ. In this case, the phoneme corresponding to each phoneme can be expressed as% number or% character of the URL. For example, when searching for "voice recognition" through the portal site Naver, the following URL is used.

'http://search.naver.com/search.naver?query=%C0%BD%BC%BA%C0%CE%BD%C4''http://search.naver.com/search.naver?query=%C0%BD%BC%BA%C0%CE%BD%C4'

여기에서 '%숫자숫자'의 반복 형태로 표현된 부분은 '음성인식'이라는 한글 을 표현한 부분이 된다. Here, the part expressed in the repetition form of '% number' becomes the part that expresses the Hangul 'voice recognition'.

이러한 방식으로 단말기는 인식된 음소를 음성 인식 서버로 전송할 경우 음성 인식 서버의 주소와 인식된 음소를 모두 URL 주소 형식으로 변형하여 보낼 수 있다.In this way, when the terminal transmits the recognized phoneme to the voice recognition server, the terminal may send both the address of the voice recognition server and the recognized phoneme into a URL address format.

이렇게 URL 주소로 변형된 음소 정보를 음성 인식 서버에서 수신하면(단계 213), 음성 인식 서버는 상기 수신된 음소 정보를 바탕으로 음소를 분석하고(단계215), 상기 음성 인식 서버와 결합된 음성 인식 데이터베이스(231)에 저장된 단어 정보 및 문장 정보를 상기 음소 정보에 적용하여(단계217) 사용자가 처음에 발의한 음성의 의미를 인식하게 된다(단계 219). 그런 다음 인식된 음성을 바탕으로 외부의 검색 데이터베이스(233)에 정보 검색을 요청한다. 그러면 검색 데이터베이스는 상기 정보 검색 요청에 응답하여 검색 결과를 음성 인식 서버로 제공하고 음성 인식 서버는 그 정보를 수신하여(단계 221) 단말기로 제공하면, 단말기는 그 결과를 표시한다(단계211).When the phoneme information transformed into the URL address is received by the voice recognition server (step 213), the voice recognition server analyzes the phoneme based on the received phoneme information (step 215), and the voice recognition combined with the voice recognition server. The word information and the sentence information stored in the database 231 are applied to the phoneme information (step 217) to recognize the meaning of the voice originally initiated by the user (step 219). Then, the information search is requested to the external search database 233 based on the recognized voice. The search database then provides a search result to the speech recognition server in response to the information search request, and the speech recognition server receives the information (step 221) and provides the information to the terminal, and the terminal displays the result (step 211).

도 3은 본 발명의 바람직한 일 실시예에 따른 음성 인식 서버의 내부 구조를 개략적으로 나타낸 도면이다.3 is a diagram schematically illustrating an internal structure of a voice recognition server according to an exemplary embodiment of the present invention.

도 3을 참조하면, 상기 음성 인식 서버(303)는 단말기(301) 및 검색 서버(305)와 결합한다. 이러한 음성 이식 서버(303)는 언어 해석기(311), 음성 인식 데이터베이스(313), 지식 추출기(315) 및 검색 관리자(317)를 포함한다.Referring to FIG. 3, the voice recognition server 303 is combined with a terminal 301 and a search server 305. This speech transplant server 303 includes a language interpreter 311, a speech recognition database 313, a knowledge extractor 315, and a search manager 317.

언어 해석기(311)는 단말기(301)로부터 수신한 음소 신호를 음성 인식 데이 터베이스(313)를 이용하여 완전한 음성 인식 결과를 도출하는 역할을 담당한다.The language interpreter 311 is responsible for deriving a complete speech recognition result from the phoneme signal received from the terminal 301 using the speech recognition database 313.

음성 인식 데이터베이스(313)는 언어 해석기(311)가 음성을 인식하기 위한 단어 정보 및 문장 정보를 포함하고 있는 데이터베이스이다. 이러한 음성 인식 데이터베이스(313)는 지식 추출기(315)로부터 추출된 정보를 갱신 받을 수 있다.The speech recognition database 313 is a database including word information and sentence information for the language interpreter 311 to recognize speech. The speech recognition database 313 may receive the information extracted from the knowledge extractor 315.

지식 추출기(315)는 음성 인식 데이터베이스(313)로 새로운 단어 정보 및 문장 정보를 제공하는 역할을 담당한다. 제공되는 단어 정보 및 문장 정보는 검색 서버(305)에서 검색되는 검색어의 실시간 검색 순위에 따라서 갱신되는 검색 단어 및 검색 문장을 수신하여 따로 추출하여 형성되며, 그렇게 형성된 정보를 음성 인식 데이터베이스(313)로 제공한다.The knowledge extractor 315 is responsible for providing new word information and sentence information to the speech recognition database 313. The provided word information and sentence information are formed by receiving and separately searching for a search word and a search sentence that are updated according to a real-time search rank of a search term searched by the search server 305, and converting the formed information to the voice recognition database 313. to provide.

검색 관리자(317)는 언어 해석기(311)로부터 수신된 질의 문장을 검색 서버(303)로 제공하고, 검색 서버(305)로부터 수신한 검색 결과를 단말기(301)로 전송하는 역할을 담당한다.The search manager 317 is responsible for providing the query sentence received from the language interpreter 311 to the search server 303 and transmitting the search result received from the search server 305 to the terminal 301.

이러한 검색 관리자(317)는 언어 해석기(311)로부터 수신된 질의 문장을 검색 서버(305)에서 수신할 수 있는 형식으로 변형하여 전송하며, 검색 서버(305)로부터 수신된 많은 검색 결과를 단말기(301)에서 표시하기에 적당하게 변형하여 전송하기도 한다.The search manager 317 transforms the query sentence received from the language interpreter 311 into a format that can be received by the search server 305, and transmits a plurality of search results received from the search server 305 to the terminal 301. In some cases, it is transformed to be suitable for display.

도 4는 본 발명의 바람직한 일 실시예에 따른 자연어 질의 처리과정을 나타낸 신호흐름도이다.4 is a signal flow diagram illustrating a natural language query processing process according to an exemplary embodiment of the present invention.

도 4를 참조하면, 우선 단말기에 자연어 질의가 입력되면 자연어 질의의 음 소를 인식하고(단계401), 상기 인식된 음소 신호를 음성 인식 서버로 발송한다(단계403). 그 후, 상기 음소 신호를 수신한 음성 인식 서버(단계 405)는 상기 음소 신호를 이용하여 음성 인식을 수행하고(단계407), 인식된 음성을 바탕으로 검색 서버로 전송할 검색자를 확정한다(단계409). 그런 다음 확정된 검색자를 이용하여 검색 서버로 검색 질의 신호를 발송하고(단계411), 검색 서버는 상기 검색 질의 신호에 응답하여 질의응답 신호를 발송한다(단계 413). 그러면 음성 인식 서버는 수신된 질의응답 신호를 분석하여 단말기에 표시하기에 적당한 형식을 응답을 정리하고(단계415), 단말기로 응답 신호를 전송한다(단계 417). 그러면 단말기에서 응답 신호를 수신하여 응답을 표시한다(단계 419).Referring to FIG. 4, when a natural language query is input to a terminal, a phoneme of a natural language query is recognized (step 401), and the recognized phoneme signal is sent to a voice recognition server (step 403). Thereafter, the voice recognition server (step 405) receiving the phoneme signal performs voice recognition using the phoneme signal (step 407), and determines a searcher to be transmitted to the search server based on the recognized voice (step 409). ). The search query signal is then sent to the search server using the confirmed searcher (step 411), and the search server sends a query response signal in response to the search query signal (step 413). The voice recognition server then analyzes the received Q & A signal, organizes the response into a format suitable for display on the terminal (step 415), and transmits the response signal to the terminal (step 417). The terminal then receives the response signal and displays the response (step 419).

도 5는 본 발명의 바람직한 일 실시예에 따른 음성 인식 서버에서 단어 정보 및 문장 정보를 갱신하는 과정을 나타내는 신호흐름도이다.5 is a signal flow diagram illustrating a process of updating word information and sentence information in a speech recognition server according to an exemplary embodiment of the present invention.

도 5를 참조하면, 우선 검색 서버에서 검색 데이터베이스의 정보가 갱신된다(단계 501). 이러한 정보의 갱신은 검색 서버를 이용하는 사용자들이 많이 사용되는 검색어나 문장이 될 수 있으며, 따라서 실시간으로 계속 변동되는 값일 수 있다.Referring to Fig. 5, first, information of a search database is updated at the search server (step 501). The update of the information may be a search word or a sentence that is frequently used by users using the search server, and thus may be a value constantly changing in real time.

이러한 데이터베이스의 정보가 갱신되면, 갱신된 정보를 포함하는 갱신 정보 신호를 음성 인식 서버로 발송한다(단계 503). 그러면 상기 갱신 정보 신호를 수신한 음성 인식 서버는 상기 갱신 정보 신호에서 갱신 정보를 추출하고(단계505), 그 신호를 음성 인식 데이터베이스에 저장한다(단계 507).When the information in this database is updated, an update information signal including the updated information is sent to the speech recognition server (step 503). The voice recognition server having received the update information signal then extracts update information from the update information signal (step 505) and stores the signal in a voice recognition database (step 507).

이러한 음성 인식 데이터베이스의 정보 갱신은, 음성 인식 서버의 데이터 용량이 크다고 할지라도, 음성 인식을 위하여 음성 인식을 위한 범위를 지정하지 않는 경우에 음성 인식의 효율이 매우 떨어지게 됨으로, 검색서버에서 자주 검색되는 검색어나 검색 문장을 갱신하여 사용자가 검색하고자 하는 바에 따라서 음성 인식의 정확도를 높이기 위함이다.The information update of the speech recognition database is frequently searched on the search server because the efficiency of speech recognition is very low when the data capacity of the speech recognition server is large, but the range for speech recognition is not specified for speech recognition. This is to improve the accuracy of speech recognition according to the user's search by updating the search word or the search sentence.

본 발명은 상기 실시예에 한정되지 않으며, 많은 변형이 본 발명의 사상 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 가능함은 물론이다. The present invention is not limited to the above embodiments, and many variations are possible by those skilled in the art within the spirit of the present invention.

도 1은 본 발명이 적용되는 음성 인식 시스템을 개략적으로 나타낸 도면.1 is a view schematically showing a speech recognition system to which the present invention is applied.

도 2는 본 발명의 바람직한 일 실시예에 따른 음성 인식 시스템이 적용되는 과정을 나타낸 순서도.2 is a flowchart illustrating a process of applying a voice recognition system according to an embodiment of the present invention.

도 3은 본 발명의 바람직한 일 실시예에 따른 음성 인식 서버의 내부 구조를 개략적으로 나타낸 도면.Figure 3 is a schematic diagram showing the internal structure of a speech recognition server according to an embodiment of the present invention.

도 4는 본 발명의 바람직한 일 실시예에 따른 자연어 질의 처리과정을 나타낸 신호흐름도.4 is a signal flow diagram illustrating a natural language query processing procedure according to an embodiment of the present invention.

도 5는 본 발명의 바람직한 일 실시예에 따른 음성 인식 서버에서 단어 정보 및 문장 정보를 갱신하는 과정을 나타내는 신호흐름도.5 is a signal flow diagram illustrating a process of updating word information and sentence information in a speech recognition server according to an exemplary embodiment of the present invention.

<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>

301 : 단말기301: terminal

303 : 음성 인식 서버303: Speech Recognition Server

305 : 검색 서버305: search server

311 : 언어 해석기311: language interpreter

313 : 음성 인식 데이터베이스313: Speech Recognition Database

315 : 지식 추출기315: Knowledge Extractor

317 : 검색 관리자317: search manager

Claims (9)

음성 인식 서버와 결합하는 단말기가 음성을 인식하는 방법에 있어서,In a method for recognizing speech by a terminal coupled with a speech recognition server 외부로부터 음성 질의를 수신하는 단계;Receiving a voice query from the outside; 상기 수신된 음성 질의에서 음성 특징을 추출하는 단계;Extracting a speech feature from the received speech query; 상기 추출된 음성 특징에 상응하는 음성 질의의 음소를 인식하는 단계 및Recognizing a phoneme of a voice query corresponding to the extracted voice feature; and 상기 인식된 음소를 상기 음성 인식 서버로 전송하는 단계Transmitting the recognized phoneme to the speech recognition server. 를 포함하는 단말기의 분산형 음성 인식 방법.Distributed speech recognition method of the terminal comprising a. 제1항에 있어서,The method of claim 1, 상기 외부로부터 수신되는 음성 질의는 자연어인 것The voice query received from the outside is a natural language 을 특징으로 하는 단말기의 분산형 음성 인식 방법.Distributed speech recognition method of the terminal characterized in that. 제1항에 있어서,The method of claim 1, 상기 인식된 음소를 URL 주소 형식으로 변환하여 변환된 URL 주소를 상기 음성 인식 서버로 전송하는 단계Converting the recognized phoneme into a URL address format and transmitting the converted URL address to the speech recognition server 를 더 포함하는 것을 특징으로 하는 단말기의 분산형 음성 인식 방법.Distributed speech recognition method of the terminal further comprising. 단말기와 결합하는 음성 인식 서버가 음성을 인식하는 방법에 있어서,In the speech recognition server coupled with the terminal to recognize the voice, 상기 단말기로부터 음소 신호를 수신하는 단계;Receiving a phoneme signal from the terminal; 상기 수신된 음소 신호를 분석하여 음성 인식 데이터베이스에 포함된 단어 정보 및 문장 정보를 적용하여 상기 수신된 음소 신호를 해석하는 단계;Analyzing the received phoneme signal and applying word information and sentence information included in a speech recognition database to interpret the received phoneme signal; 상기 해석된 음소 신호를 외부의 검색 서버로 발송하는 단계;Sending the interpreted phoneme signal to an external search server; 상기 해석된 음소 신호에 상응하는 응답 정보를 상기 외부의 검색 서버부터 수신하는 단계 및Receiving response information corresponding to the interpreted phoneme signal from the external search server; and 상기 수신된 응답 정보를 외부 단말기로 전송하는 단계Transmitting the received response information to an external terminal. 를 포함하는 음성 인식 서버의 분산형 음성 인식 방법.Distributed speech recognition method of the speech recognition server comprising a. 제4항에 있어서,The method of claim 4, wherein 상기 단말기로부터 수신되는 음소 신호는 URL 주소 형식으로 전송되는 것Phoneme signal received from the terminal is transmitted in the form of a URL address 을 특징으로 하는 음성 인식 서버의 분산형 음성 인식 방법.Distributed speech recognition method of a speech recognition server, characterized in that. 제4항에 있어서,The method of claim 4, wherein 상기 음성 인식 데이터베이스의 단어 및 문장 정보는 외부의 검색 서버부터 갱신 정보를 수신하여 저장하는 것The word and sentence information of the speech recognition database receives and stores update information from an external search server. 을 특징으로 하는 음성 인식 서버의 분산형 음성 인식 방법.Distributed speech recognition method of a speech recognition server, characterized in that. 제4항에 있어서,The method of claim 4, wherein 상기 외부의 검색 서버로부터 수신된 응답 정보는 상기 음성 인식 서버에서 해석된 음소 신호가 포함하는 질의 내용에 대한 응답 정보인 것The response information received from the external search server is response information about a query content included in a phoneme signal interpreted by the speech recognition server. 을 특징으로 하는 음성 인식 서버의 분산형 음성 인식 방법.Distributed speech recognition method of a speech recognition server, characterized in that. 음성 인식 서버와 결합하여 음성을 인식하는 단말기에 있어서,In the terminal to recognize the voice in combination with the speech recognition server, 외부로부터 음성 질의를 수신하는 마이크;A microphone for receiving a voice query from the outside; 상기 수신된 음성 질의에서 음성 특징을 추출하는 음성 특징 추출부;A voice feature extraction unit for extracting a voice feature from the received voice query; 상기 추출된 음성 특징에 상응하는 음성 질의의 음소를 인식하는 음소 인식부 및A phoneme recognition unit for recognizing a phoneme of a voice query corresponding to the extracted voice feature; 상기 인식된 음소를 URL 주소 형식으로 변환하여 음성 인식 서버로 전송하는 송신부Transmitter for converting the recognized phoneme into a URL address format and transmitting to the speech recognition server 를 포함하는 분산형 음성 인식 단말기.Distributed speech recognition terminal comprising a. 단말기와 결합하여 음성을 인식하는 음성 인식 서버에 있어서,In the speech recognition server to recognize the voice in combination with the terminal, 상기 단말기로부터 음소 신호를 수신하는 수신부;A receiver which receives a phoneme signal from the terminal; 상기 수신된 음소 신호를 분석하여 음성 인식 데이터베이스에 포함된 단어 정보 및 문장 정보를 적용하여 수신된 음소 신호를 해석하는 언어 해석기;A language analyzer configured to analyze the received phoneme signal and interpret the received phoneme signal by applying word information and sentence information included in a speech recognition database; 상기 언어 해석기에서 음소 신호를 분석하기 위한 단어 정보 및 문장 정보를 저장하는 음성 인식 데이터베이스;A speech recognition database storing word information and sentence information for analyzing a phoneme signal in the language interpreter; 상기 음성 인식 데이터베이스에 새로운 검색 단어 정보 및 문장 정보를 저장시키는 지식 추출기;A knowledge extractor for storing new search word information and sentence information in the speech recognition database; 상기 언어 해석기로부터 해석된 음성 신호를 검색 서버로 전송하고 검색 서 버로부터 수신된 검색 신호를 상기 단말기에서 원하는 형식으로 변형하는 검색 관리자 및A search manager for transmitting the speech signal interpreted from the language interpreter to a search server and transforming the search signal received from the search server into a desired format in the terminal; 외부의 검색 서버로 상기 해석된 음소 신호를 발송하는 송신부;A transmitter for transmitting the analyzed phoneme signal to an external search server; 를 포함하는 분산형 음성 인식 서버.Distributed speech recognition server comprising a.
KR1020070077980A 2007-08-03 2007-08-03 Method and apparatus for distributed speech recognition using phonemic symbol KR20090013876A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020070077980A KR20090013876A (en) 2007-08-03 2007-08-03 Method and apparatus for distributed speech recognition using phonemic symbol
PCT/KR2008/002427 WO2009020272A1 (en) 2007-08-03 2008-04-29 Method and apparatus for distributed speech recognition using phonemic symbol

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070077980A KR20090013876A (en) 2007-08-03 2007-08-03 Method and apparatus for distributed speech recognition using phonemic symbol

Publications (1)

Publication Number Publication Date
KR20090013876A true KR20090013876A (en) 2009-02-06

Family

ID=40341477

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070077980A KR20090013876A (en) 2007-08-03 2007-08-03 Method and apparatus for distributed speech recognition using phonemic symbol

Country Status (2)

Country Link
KR (1) KR20090013876A (en)
WO (1) WO2009020272A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018070668A1 (en) * 2016-10-11 2018-04-19 미디어젠 주식회사 System for automatically evaluating complex performance of hybrid speech recognition
CN108831463A (en) * 2018-06-28 2018-11-16 广州华多网络科技有限公司 Lip reading synthetic method, device, electronic equipment and storage medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645138B1 (en) 2012-12-20 2014-02-04 Google Inc. Two-pass decoding for speech recognition of search and action requests

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6463413B1 (en) * 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
JP2003044091A (en) * 2001-07-31 2003-02-14 Ntt Docomo Inc Voice recognition system, portable information terminal, device and method for processing audio information, and audio information processing program
US7089178B2 (en) * 2002-04-30 2006-08-08 Qualcomm Inc. Multistream network feature processing for a distributed speech recognition system
TWI276046B (en) * 2005-02-18 2007-03-11 Delta Electronics Inc Distributed language processing system and method of transmitting medium information therefore

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018070668A1 (en) * 2016-10-11 2018-04-19 미디어젠 주식회사 System for automatically evaluating complex performance of hybrid speech recognition
US10643605B2 (en) 2016-10-11 2020-05-05 Mediazen, Inc. Automatic multi-performance evaluation system for hybrid speech recognition
CN108831463A (en) * 2018-06-28 2018-11-16 广州华多网络科技有限公司 Lip reading synthetic method, device, electronic equipment and storage medium
CN108831463B (en) * 2018-06-28 2021-11-12 广州方硅信息技术有限公司 Lip language synthesis method and device, electronic equipment and storage medium

Also Published As

Publication number Publication date
WO2009020272A1 (en) 2009-02-12

Similar Documents

Publication Publication Date Title
US11990135B2 (en) Methods and apparatus for hybrid speech recognition processing
US8412532B2 (en) Integration of embedded and network speech recognizers
CN101576901B (en) Method for generating search request and mobile communication equipment
CN102740014A (en) Voice controlled television, television system and method for controlling television through voice
US10824664B2 (en) Method and apparatus for providing text push information responsive to a voice query request
KR101640024B1 (en) Portable interpretation apparatus and method based on uer&#39;s situation
KR20170033722A (en) Apparatus and method for processing user&#39;s locution, and dialog management apparatus
KR20090085673A (en) Content selection using speech recognition
CN101599270A (en) Voice server and voice control method
CN107104994B (en) Voice recognition method, electronic device and voice recognition system
CN103699530A (en) Method and equipment for inputting texts in target application according to voice input information
KR100814641B1 (en) User driven voice service system and method thereof
CN107844470B (en) Voice data processing method and equipment thereof
CN110992955A (en) Voice operation method, device, equipment and storage medium of intelligent equipment
US20130041666A1 (en) Voice recognition apparatus, voice recognition server, voice recognition system and voice recognition method
JP2014106523A (en) Voice input corresponding device and voice input corresponding program
KR20130108173A (en) Question answering system using speech recognition by radio wire communication and its application method thereof
CN110827826A (en) Method for converting words by voice and electronic equipment
CN112669842A (en) Man-machine conversation control method, device, computer equipment and storage medium
KR20140123369A (en) Question answering system using speech recognition and its application method thereof
JP2012088370A (en) Voice recognition system, voice recognition terminal and center
KR20090013876A (en) Method and apparatus for distributed speech recognition using phonemic symbol
US20020072916A1 (en) Distributed speech recognition for internet access
JP2010032865A (en) Speech recognizer, speech recognition system, and program
KR101207435B1 (en) Interactive speech recognition server, interactive speech recognition client and interactive speech recognition method thereof

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application