KR20160012233A - Interactive server, control method thereof and interactive system - Google Patents
Interactive server, control method thereof and interactive system Download PDFInfo
- Publication number
- KR20160012233A KR20160012233A KR1020160004252A KR20160004252A KR20160012233A KR 20160012233 A KR20160012233 A KR 20160012233A KR 1020160004252 A KR1020160004252 A KR 1020160004252A KR 20160004252 A KR20160004252 A KR 20160004252A KR 20160012233 A KR20160012233 A KR 20160012233A
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- utterance
- information
- voice
- utterance voice
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000002452 interceptive effect Effects 0.000 title abstract description 158
- 230000004044 response Effects 0.000 claims abstract description 164
- 238000004891 communication Methods 0.000 claims abstract description 35
- 238000000605 extraction Methods 0.000 abstract description 5
- 239000000284 extract Substances 0.000 description 23
- 230000006870 function Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 7
- 238000010295 mobile communication Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 108091027981 Response element Proteins 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/4227—Providing Remote input by a user located remotely from the client device, e.g. at work
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F16—ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
- F16M—FRAMES, CASINGS OR BEDS OF ENGINES, MACHINES OR APPARATUS, NOT SPECIFIC TO ENGINES, MACHINES OR APPARATUS PROVIDED FOR ELSEWHERE; STANDS; SUPPORTS
- F16M7/00—Details of attaching or adjusting engine beds, frames, or supporting-legs on foundation or base; Attaching non-moving engine parts, e.g. cylinder blocks
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F16—ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
- F16M—FRAMES, CASINGS OR BEDS OF ENGINES, MACHINES OR APPARATUS, NOT SPECIFIC TO ENGINES, MACHINES OR APPARATUS PROVIDED FOR ELSEWHERE; STANDS; SUPPORTS
- F16M11/00—Stands or trestles as supports for apparatus or articles placed thereon ; Stands for scientific apparatus such as gravitational force meters
- F16M11/02—Heads
- F16M11/04—Means for attachment of apparatus; Means allowing adjustment of the apparatus relatively to the stand
- F16M11/043—Allowing translations
- F16M11/046—Allowing translations adapted to upward-downward translation movement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/445—Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F16—ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
- F16M—FRAMES, CASINGS OR BEDS OF ENGINES, MACHINES OR APPARATUS, NOT SPECIFIC TO ENGINES, MACHINES OR APPARATUS PROVIDED FOR ELSEWHERE; STANDS; SUPPORTS
- F16M2200/00—Details of stands or supports
- F16M2200/02—Locking means
-
- H04N2005/4432—
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Mechanical Engineering (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
본 발명은 대화형 서버, 그 제어 방법 및 대화형 시스템에 관한 것으로써, 보다 상세하게는 사용자의 다양한 발화에 대응되는 응답 정보를 제공하기 위한 대화형 서버, 그 제어 방법 및 대화형 시스템에 관한 것이다.The present invention relates to an interactive server, a control method thereof, and an interactive system, and more particularly, to an interactive server, a control method thereof, and an interactive system for providing response information corresponding to various utterances of a user .
일반적으로, 대화형 시스템에서 음성 인식이 가능한 디스플레이 장치는 사용자의 발화 음성을 수집하고, 그 수집한 발화 음성을 네트워크를 통해 연결된 외부 서버로 전송한다. 발화 음성을 수신한 외부 서버는 발화 음성을 분석하여 사용자의 의도를 파악하고, 그에 따른 응답 정보를 생성하여 디스플레이 장치로 전송한다. 이에 따라, 디스플레이 장치는 외부 서버로부터 수신한 응답 정보에 기초하여 사용자의 발화 음성에 대응하는 기능을 실행하거나 정보를 제공할 수 있다.Generally, a display device capable of voice recognition in an interactive system collects a user's uttered voice and transmits the collected voice to an external server connected through a network. The external server receiving the uttered voice analyzes the uttered voice to grasp the intention of the user, generates response information corresponding to the user's intention, and transmits the generated response information to the display device. Thereby, the display device can execute the function corresponding to the user's uttered voice or provide the information based on the response information received from the external server.
그러나, 이 같은 종래의 대화형 시스템은 사용자의 발화 음성을 분석하고, 그 분석 결과에 기초하여 사용자의 의도를 파악하는데 한계가 있다. 예를 들어, "제1 컨텐츠 보여줘"와 같이 지칭하는 대상이 명확한 발화 음성의 경우, 외부 서버는 이 같은 발화 음성을 분석하여 사용자의 의도를 올바르게 파악하고, 그에 따른 응답 정보를 생성하여 디스플레이 장치로 전송할 수 있다. 따라서, 디스플레이 장치는 응답 정보에 기초하여 사용자가 요청한 제1 컨텐츠를 디스플레이할 수 있다.However, such a conventional interactive system has a limitation in analyzing a user's utterance voice and grasping the user's intention based on the analysis result. For example, in the case of a speech uttered with a clear object such as "show first content ", the external server analyzes the utterance voice to correctly understand the intention of the user, generates response information corresponding to the uttered voice, Lt; / RTI > Thus, the display device can display the first content requested by the user based on the response information.
그러나, "이거 보여줘"와 같이 사용자의 발화가 모호한 경우, 외부 서버는 이 같은 발화 음성으로부터 사용자의 의도를 명확하게 파악하지 못하는 문제가 있다. 다시 말해, 종래의 대화형 시스템은 기정의된 발화 음성에 대해서만 사용자의 의도를 파악하고 그에 따른 동작을 수행하거나 정보를 제공하기 때문에 사용자의 발화에 제약이 따르는 문제가 있다.However, when the user's utterance is ambiguous such as "Show me ", the external server can not clearly grasp the intention of the user from the uttered voice. In other words, the conventional interactive system grasps the intention of the user only for the predetermined utterance voice, performs the operation according to the user's intention, or provides the information, which has a problem that the utterance of the user is restricted.
본 발명은 상술한 필요성에 따라 안출된 것으로, 본 발명의 목적은, 대화형 시스템에서 다양한 사용자의 발화에 대응되는 동작을 수행하도록 함을 목적으로 한다.SUMMARY OF THE INVENTION The present invention has been made in view of the above-mentioned needs, and it is an object of the present invention to carry out an operation corresponding to the utterance of various users in an interactive system.
이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 대화형 서버는 디스플레이 장치와 통신을 수행하여 발화 음성 신호를 수신하는 통신부, 상기 디스플레이 장치로부터 수신된 발화 음성 신호에 대한 발화 이력 정보를 저장하는 저장부, 상기 수신된 발화 음성 신호로부터 발화 요소를 추출하는 추출부 및 상기 저장부에 저장된 발화 이력 정보 및 상기 추출된 발화 요소에 기초하여 응답 정보를 생성하고, 상기 생성된 응답 정보를 디스플레이 장치로 전송하는 제어부를 포함한다.According to an aspect of the present invention, there is provided an interactive server comprising a communication unit for communicating with a display device and receiving a speech sound signal, a communication unit for communicating speech history information on the speech signal received from the display device, An extraction unit for extracting a speech element from the received speech speech signal; response information generation unit for generating response information based on the speech history information stored in the storage unit and the extracted speech element, To the device.
그리고, 상기 제어부는, 상기 저장부에 상기 추출된 발화 요소에 대응되는 실행어 및 명령어가 존재하면, 상기 발화 요소에 대응되는 실행어 및 명령어를 조합하여 상기 응답 정보를 생성하고, 상기 저장부에 상기 추출된 발화 요소에 대응되는 실행어 및 명령어가 부존재하면, 상기 저장부에 저장된 발화 이력 정보에 기초하여 상기 추출된 발화 요소에 대응되는 실행어 및 명령어를 추정하고, 추정된 실행어 및 명령어를 조합하여 상기 응답 정보를 생성할 수 있다.The control unit may generate the response information by combining an executable word and an instruction word corresponding to the uttered element if the executable word and the command word corresponding to the extracted uttered element exist in the storage unit, Estimating an executable word and a command corresponding to the extracted utterance element based on the utterance history information stored in the storage unit when the executable word and the command corresponding to the extracted utterance element are not present, And generate the response information in combination.
또한, 상기 발화 음성 신호는 제1 발화 요소 및 제2 발화 요소를 포함하며, 상기 제어부는, 상기 저장부에 상기 추출된 발화 요소에 대응되는 실행어 및 명령어가 부존재하면, 상기 발화 이력 정보 중에서 상기 발화 음성 신호가 수신된 시점을 기준으로 기설정된 시간 범위 이내의 발화 이력 정보를 획득하고, 상기 획득된 발화 이력 정보 내에서 상기 제1 발화 요소에 대응되는 실행어 및 상기 제2 발화 요소에 대응되는 명령어를 상기 발화 음성 신호에 대응되는 실행어 및 명령어로 추정할 수 있다.If the executable word and the command word corresponding to the extracted utterance element are not present in the storage unit, the control unit may select one of the utterance history information from among the utterance history information, Acquiring the speech history information within a predetermined time range on the basis of a time point at which the speech speech signal is received and generating an execution word corresponding to the first speech element and a second speech element corresponding to the second speech element in the obtained speech history information Command can be estimated by an executable word and a command corresponding to the utterance voice signal.
그리고, 상기 제어부는, 상기 저장부에 저장된 발화 이력 정보 중 상기 발화 음성 신호가 수신된 시점을 기준으로 기설정된 시간 범위 이내의 발화 이력 정보가 저장되어 있지 않으면, 상기 응답 정보를 생성하지 않을 수 있다.The control unit may not generate the response information if the ignition history information within a predetermined time range is not stored based on a time point at which the speech voice signal is received from the speech history information stored in the storage unit .
또한, 상기 제어부는, 상기 발화 음성 신호 내에 제1 발화 요소 및 제2 발화 요소 중 적어도 하나가 포함되어 있지 않으면, 상기 발화 이력 정보 중에서 상기 발화 음성 신호가 수신된 시점을 기준으로 기설정된 시간 범위 이내의 발화 이력 정보에 기초하여 상기 발화 음성 신호에 대응되는 응답 정보를 생성할 수 있다.The control unit may be configured to determine whether or not at least one of the first speech element and the second speech element is included in the speech speech signal within a predetermined time range based on a time point at which the speech signal is received from the speech history information The response information corresponding to the speech voice signal can be generated based on the speech history information of the speech signal.
그리고, 상기 수신된 발화 음성 신호를 텍스트 정보로 변환하는 음성 처리부를 더 포함할 수 있다.The voice processing unit may further include a voice processing unit for converting the received voice signal into text information.
한편, 본 발명의 일 실시 예에 따르면, 대화형 서버의 제어 방법에 있어서, 상기 방법은 디스플레이 장치로부터 발화 음성 신호를 수신하는 단계, 상기 수신된 발화 음성 신호로부터 발화 요소를 추출하는 단계, 상기 디스플레이 장치로부터 수신된 발화 음성 신호와 관련하여 기저장된 발화 이력 정보 및 상기 추출된 발화 요소에 기초하여 응답 정보를 생성하는 단계 및 상기 생성된 응답 정보를 상기 디스플레이 장치로 전송하는 단계를 포함한다.According to an embodiment of the present invention, there is provided a method for controlling an interactive server, the method comprising: receiving a speech voice signal from a display device; extracting a speech element from the received speech voice signal; Generating response information based on the previously stored speech history information and the extracted speech element in association with the speech speech signal received from the apparatus, and transmitting the generated response information to the display device.
그리고, 상기 추출된 발화 요소에 대응되는 실행어 및 명령어가 존재하는지 여부를 판단하는 단계를 더 포함하며, 상기 생성하는 단계는, 상기 발화 요소에 대응되는 실행어 및 명령어가 존재하면, 상기 발화 요소에 대응되는 실행어 및 명령어를 조합하여 응답 정보를 생성하고, 상기 발화 요소에 대응되는 실행어 및 명령어가 부존재하면, 상기 기저장된 발화 이력 정보에 기초하여 상기 추출된 발화 요소에 대응되는 실행어 및 명령어를 추정하고, 상기 추정된 실행어 및 명령어를 조합하여 상기 응답 정보를 생성할 수 있다.The method may further include determining whether an executable word and a command corresponding to the extracted utterance element are present, and in the event that an executable word and a command corresponding to the uttered element exist, When the execution word and the instruction word corresponding to the utterance element are absent, an executor corresponding to the extracted utterance element and an executor corresponding to the extracted utterance element based on the previously stored utterance history information, Estimate the command, and combine the estimated executable word and the command word to generate the response information.
또한, 상기 발화 음성 신호는 제1 발화 요소 및 제2 발화 요소를 포함하며, 상기 생성하는 단계는, 상기 발화 요소에 대응되는 실행어 및 명령어가 부존재하면, 상기 발화 이력 정보 중에서 상기 발화 음성 신호가 수신된 시점을 기준으로 기설정된 시간 범위 이내의 발화 이력 정보를 획득하고, 상기 획득된 발화 이력 정보 내에서 상기 제1 발화 요소에 대응되는 실행어 및 상기 제2 발화 요소에 대응되는 명령어를 상기 발화 음성 신호에 대응되는 실행어 및 명령어로 추정할 수 있다.In addition, the speech voice signal may include a first speech element and a second speech element, and in the step of generating, if an executable word and a command corresponding to the speech element are not present, Acquiring the speech history information within a predetermined time range based on the received time point, and executing a command corresponding to the execution word corresponding to the first speech element and the second speech element in the obtained speech history information, It can be estimated by an executable word and a command corresponding to the voice signal.
그리고, 상기 생성하는 단계는, 상기 발화 이력 정보 중 상기 발화 음성 신호가 수신된 시점을 기준으로 기설정된 시간 범위 이내의 발화 이력 정보가 저장되어 있지 않으면, 상기 응답 정보를 생성하지 않을 수 있다.The generating step may not generate the response information if the ignition history information within the predetermined time range is not stored based on the time point at which the speech voice signal is received.
또한, 상기 생성하는 단계는, 상기 발화 음성 신호 내에 제1 발화 요소 및 제2 발화 요소 중 적어도 하나가 포함되어 있지 않으면, 상기 발화 이력 정보 중에서 상기 발화 음성 신호가 수신된 시점을 기준으로 기설정된 시간 범위 이내의 발화 이력 정보에 기초하여 상기 발화 음성 신호에 대응되는 응답 정보를 생성할 수 있다.The generation step may include a step of generating a speech signal based on a time point at which the speech signal is received from the speech history information when the speech signal includes at least one of the first speech element and the second speech element, Response information corresponding to the spoken voice signal can be generated based on the spoken history information within the range.
그리고, 상기 수신된 발화 음성 신호를 텍스트 정보로 변환하는 단계를 더 포함할 수 있다.The method may further include converting the received speech signal into text information.
한편, 본 발명의 일 실시 예에 따르면, 대화형 시스템은 사용자의 발화 음성이 입력되면, 입력된 발화 음성에 대응되는 기능을 수행하는 디스플레이 장치 및 상기 디스플레이 장치로부터 발화 음성 신호가 수신되면, 상기 발화 음성 신호로부터 발화 요소를 추출하고, 기저장된 발화 이력 정보 및 상기 추출된 발화 요소에 기초하여 응답 정보를 생성하여 상기 디스플레이 장치로 전송하는 대화형 서버;를 포함하며, 상기 디스플레이 장치는, 상기 대화형 서버로부터 수신한 응답 정보에 기초하여 상기 사용자 의도에 대응되는 기능을 수행할 수 있다.According to another aspect of the present invention, there is provided an interactive system comprising: a display device that performs a function corresponding to a speech uttered when a user's speech is input; And an interactive server for extracting a speech element from the speech signal and generating response information based on the previously stored speech history information and the extracted speech element and transmitting the generated response information to the display device, And can perform a function corresponding to the user's intention based on the response information received from the server.
그리고, 상기 대화형 서버는, 상기 추출된 발화 요소에 대응되는 실행어 및 명령어가 존재하면, 상기 발화 요소에 대응되는 실행어 및 명령어에 기초하여 상기 응답 정보를 생성하고, 상기 추출된 발화 요소에 대응되는 실행어 및 명령어가 부존재하면, 기저장된 발화 이력 정보에 기초하여 상기 추출된 발화요소에 대응되는 실행어 및 명령어를 추정하고, 추정된 실행어 및 명령어를 조합하여 상기 응답 정보를 생성할 수 있다.The interactive server may generate the response information based on an executable word and a command word corresponding to the uttered element when the executable word and the command word corresponding to the extracted uttered element exist, If the corresponding executable word and command do not exist, it is possible to estimate the executable word and command word corresponding to the extracted utterance element based on the previously stored utterance history information, and generate the response information by combining the estimated executable word and the command word have.
이상과 같이 본 발명의 다양한 실시 예에 따르면, 대화형 시스템에서 대화형 서버는 다양한 사용자의 발화 음성에 대해서 사용자의 의도를 파악하고, 그에 따른 응답 정보를 생성하여 디스플레이 장치로 제공할 수 있다.As described above, according to the various embodiments of the present invention, in the interactive system, the interactive server can grasp the intention of the user with respect to the speech utterances of various users, and generate response information according to the user's intention and provide the generated response information to the display device.
도 1은 본 발명의 일 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제1 예시도,
도 2는 본 발명의 또다른 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제2 예시도,
도 3은 본 발명의 일 실시예에 따른 대화형 서버의 블록도,
도 4는 본 발명의 일 실시예에 따른 디스플레이 장치에서 화면상에 표시된 객체의 표시 상태에 기초하여 발화 정보를 생성하는 예시도,
도 5는 본 발명의 일 실시예에 따른 디스플레이 장치의 블록도,
도 6은 본 발명의 일 실시예에 따른 대화형 서버의 제어 방법에 대한 흐름도,
도 7은 본 발명의 일 실시에에 따른 대화형 서버에서 응답 정보를 생성하는 방법의 흐름도이다.1 is a first example of an interactive system for providing response information suitable for a user uttered voice according to an embodiment of the present invention,
2 is a second example of an interactive system for providing response information suitable for a user uttered voice according to another embodiment of the present invention,
3 is a block diagram of an interactive server in accordance with an embodiment of the present invention.
FIG. 4 is a diagram illustrating an example of generating ignition information based on a display state of an object displayed on a screen in a display device according to an exemplary embodiment of the present invention; FIG.
5 is a block diagram of a display device according to an embodiment of the present invention;
FIG. 6 is a flowchart illustrating a method of controlling an interactive server according to an exemplary embodiment of the present invention;
7 is a flowchart of a method for generating response information in an interactive server according to one embodiment of the present invention.
이하 첨부된 도면들을 참조하여 본 발명의 일시 예를 보다 상세하게 설명한다. Hereinafter, a temporal example of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제1 예시도이다.1 is a first exemplary view of an interactive system for providing response information suitable for a user uttered voice according to an embodiment of the present invention.
도 1에 도시된 바와 같이, 본 발명의 일 실시 예에 따른 대화형 시스템은 디스플레이 장치(100) 및 대화형 서버(200)를 포함한다. 1, an interactive system according to an embodiment of the present invention includes a
디스플레이 장치(100)는 인터넷이 가능한 장치로써, 스마트 TV, 스마트폰과 같은 휴대폰, 데스크탑 PC, 노트북, 네비게이션 등과 같은 다양한 전자 장치로 구현될 수 있다. 이 같은 디스플레이 장치(100)는 사용자의 발화 음성이 입력되면, 입력된 사용자의 발화 음성에 대응되는 동작을 수행한다. 구체적으로, 디스플레이 장치(100)는 사용자의 발화 음성에 대응되는 응답 메시지를 출력하거나 또는 사용자의 발화 음성에 대응되는 기능을 수행할 수 있다. 즉, 디스플레이 장치(100)는 입력된 발화 음성을 분석하여 내부적으로 수행가능한지 여부를 판단하고, 그 판단 결과에 따라, 입력된 발화 음성에 대응되는 기능을 수행하거나 또는 대화형 서버(200)로부터 수신한 응답 정보에 기초하여 동작을 수행할 수 있다.The
예를 들어, "볼륨 올려"라는 발화 음성이 입력되면, 디스플레이 장치(100)는 기저장된 제어 정보 중 입력된 발화 음성에 대응되는 제어 정보에 기초하여 볼륨을 조정할 수 있다.For example, when a speech sound called "volume up" is input, the
또다른 예를 들어, "오늘 날씨 어때?"라는 발화 음성이 입력되면, 디스플레이 장치(100)는 입력된 발화 음성에 대한 발화 음성 신호를 대화형 서버(200)로 전송한다. 여기서, 발화 음성은 아날로그 신호가 될 수 있다. 따라서, 디스플레이 장치(100)는 아날로그 신호인 발화 음성을 디지털 신호(이하 발화 음성이라 함)로 변환하여 대화형 서버(200)로 전송한다. 이후, 디스플레이 장치(100)는 대화형 서버(200)로부터 수신한 응답 정보에 기초하여 오늘 날씨에 대한 결과를 음성 또는 텍스트 형태의 영상으로 출력할 수 있다.In another example, when a speech voice "What is today's weather?" Is input, the
또다른 예를 들어, "○○○(컨텐츠명) 보여줘"라는 발화 음성이 입력되면, 디스플레이 장치(100)는 입력된 발화 음성을 대화형 서버(200)로 전송한다. 이후, 대화형 서버(200)로부터 응답 정보가 수신되면, 디스플레이 장치(100)는 수신한 응답 정보에 기초하여 ○○○(컨텐츠명)에 대한 검색 리스트를 디스플레이할 수 있다. 여기서, 검색 리스트는 ○○○(컨텐츠명)에 대한 회차별 컨텐츠 정보를 포함할 수 있다. 따라서, 사용자는 검색 리스트 상에 표시된 회차별 컨텐츠 정보를 확인하여 자신이 시청하고자하는 회차의 ○○○(컨텐츠명)를 선택하기 위한 발화를 할 수 있다. 예를 들어, 사용자는 검색 리스트 상에 표시된 회차별 컨텐츠 정보 중 첫번째 컨텐츠 정보에 해당하는 ○○○(컨텐츠명)를 시청하기 위하여 "첫번째 거 보여줘"라는 발화를 할 수 있다. 따라서, 디스플레이 장치(100)는 "첫번째 거 보여줘"라는 발화 음성을 입력받아 이를 대화형 서버(200)로 전송한다. 이후, 대화형 서버(200)로부터 수신된 발화 음성에 대응되는 응답 정보가 수신되면, 디스플레이 장치(100)는 수신된 응답 정보에 기초하여 첫번째 컨텐츠 정보에 해당하는 ○○○(컨텐츠명)를 컨텐츠 제공 서버(300)로부터 수신하여 디스플레이할 수 있다.For example, when a voice uttered "ooooo (content name)" is input, the
대화형 서버(200)는 디스플레이 장치(100)로부터 수신한 사용자의 발화 음성에 기초하여 사용자의 의도에 적합한 응답 정보를 제공한다. 구체적으로, 대화형 서버(200)는 디스플레이 장치(100)로 사용자의 발화 음성이 수신되면, 수신된 발화 음성으로부터 발화 요소를 추출하고, 그 추출된 발화 요소에 기초하여 사용자의 발화 음성과 관련된 응답 정보를 생성하여 전송할 수 있다. 전술한 바와 같이, 디스플레이 장치(100)로부터 수신한 사용자의 발화 음성은 디지털 신호가 될 수 있다. 따라서, 대화형 서버(200)는 디지털 신호로 변환된 발화 음성이 수신되면, 이를 텍스트 정보로 생성한 후, 생성된 텍스트 정보를 분석하여 발화 요소를 추출하고, 추출된 발화 요소에 기초하여 사용자의 발화 음성에 대응되는 응답 정보를 생성할 수 있다. 디지털 신호로 변환된 발화 음성으로부터 텍스트 정보를 생성하는 것은 공지된 기술이기에 본 발명에서는 상세한 설명을 생략하도록 한다. The
한편, 발화 요소는 사용자의 발화 음성 내에서 사용자가 요청한 동작을 수행하기 위한 핵심 키워드로써, 목적 영역(domain), 목적 기능(user action) 및 주요 특징(feature) 별로 추출된 발화 요소를 분류할 수 있다. 전술한 예와 같이, "오늘 날씨 어때?"라는 사용자의 발화 음성에 대한 텍스트 정보가 생성되면, 대화형 서버(200)는 "오늘", "날씨", "어때?"라는 발화 요소를 추출할 수 있다. 이후, 대화형 서버(200)는 추출된 발화 요소 중 "오늘" 및 "날씨"를 주요 특징(이하 실행 대상이라 함)에 대한 발화 요소(이하 제1 발화 요소라 함)로 분류하고, "어때?"를 목적 기능(이하 실행 명령이라 함)에 대한 발화 요소(이하 제2 발화 요소라 함)로 분류할 수 있다. 또한, 대화형 서버(200)는 추출된 발화 요소에 기초하여 목적 영역에 대한 발화 요소(이하 제3 발화 요소라 함)가 웹 서치라는 도메인에 속하는 것으로 분류할 수 있다. 이 같이, 사용자의 발화 음성에 대한 텍스트 정보로부터 제1 내지 제3 발화 요소가 분류되면, 대화형 서버(200)는 다양한 컨텐츠를 제공하는 외부 서버(400)로부터 날씨 정보를 제공받아, 이를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 대화형 서버(200)로부터 수신한 응답 정보에 기초하여 오늘 날씨 정보를 음성 및 텍스트 중 적어도 하나를 통해 디스플레이할 수 있다.On the other hand, as a key keyword for performing an action requested by a user in a speech voice of a user, a speech element can classify a speech element extracted by a target domain, a user action, and a main feature have. As described above, when the text information about the user's utterance voice is generated, the
한편, 대화형 서버(200)는 "첫번째 거 선택해줘"라는 발화 음성에 대한 텍스트 정보가 생성되면, 생성된 텍스트 정보로부터 "첫번째"라는 제1 발화 요소 및 "선택해줘"라는 제2 발화 요소를 추출할 수 있다. 이 같은 제1 및 제2 발화 요소가 추출되면, 대화형 서버(200)는 추출된 제1 및 제2 발화 요소에 기초하여 사용자 의도에 적합한 응답 정보를 생성할 수 있는지 여부를 판단한다. 실시예에 따라, 대화형 서버(200)는 추출된 제1 및 제2 발화 요소에 대응되는 정보가 데이터베이스 내에 존재하는지 여부에 따라 사용자 의도에 적합한 응답 정보의 생성 여부를 판단할 수 있다. 여기서, 제1 및 제2 발화 요소에 대응되는 정보는 제1 발화 요소에 대응되는 실행어 및 제2 발화 요소에 대응되는 명령어가 될 수 있다. 따라서, 대화형 서버(200)는 추출된 제1 및 제2 발화 요소에 대응되는 실행어 및 명령어가 데이터베이스 내에 존재하는지 여부를 판단한다. 판단 결과, 추출된 제1 및 제2 발화 요소에 대응되는 정보가 데이터베이스 내에 존재하지 않으면, 대화형 서버(200)는 기저장된 발화 이력 정보 중 "첫번째 거 선택해줘"라는 발화 음성이 수신되기 직전의 발화 이력 정보와 추출된 제1 및 제2 발화 요소에 기초하여 응답 정보를 생성하고, 이를 디스플레이 장치(100)로 전송할 수 있다. 예를 들어, "첫번째 거 선택해줘"라는 발화 음성이 수신되기 직전에 "○○○(컨텐츠명) 찾아줘"라는 발화 음성이 수신될 수 있으며, 이 같은 발화 음성에 대한 발화 이력 정보가 저장될 수 있다. 따라서, 대화형 서버(200)는 이전 발화 이력 정보에 기초하여 "○○○(컨텐츠명)"에 대한 컨텐츠 실행 관련 응답 정보를 생성하여 디스플레이 장치(100)로 전송할 수 있다. 따라서, 디스플레이 장치(100)는 대화형 서버(200)로부터 수신한 응답 정보에 기초하여 "○○○(컨텐츠명)"에 대한 첫번째 컨텐츠를 디스플레이할 수 있다.On the other hand, when the textual information about the utterance voice "Create First" is generated, the
한편, 전술한 대화형 서버(200)는 디지털 신호로 변환된 사용자의 발화 음성을 텍스트 정보로 생성하는 제1 서버(10) 및 텍스트 정보로 생성된 발화 음성에 대응하는 응답 정보를 생성하는 제2 서버(20)를 포함할 수 있다. 이하에서는, 디스플레이 장치(100), 제1 및 제2 서버(10,20)를 통해 사용자의 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템에 대해서 상세히 설명하도록 한다.Meanwhile, the
도 2는 본 발명의 또다른 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제2 예시도이다.2 is a second exemplary diagram of an interactive system for providing response information suitable for a user utterance voice according to another embodiment of the present invention.
도 2에 도시된 바와 같이, 디스플레이 장치(100)는 사용자로부터 발화된 발화 음성이 입력되면, 입력된 발화 음성을 디지털 신호로 변환하여 제1 서버(10)로 전송한다. 디지털 신호로 변환된 발화 음성이 수신되면, 제1 서버(10)는 기저장된 다양한 발화 음성에 대한 특정 패턴에 따라, 사용자의 발화 음성에 대한 텍스트 정보를 생성하여 디스플레이 장치(100)로 전송한다. As shown in FIG. 2, the
제1 서버(10)로부터 사용자의 발화 음성에 대한 텍스트 정보를 수신한 디스플레이 장치(100)는 사용자의 발화 음성에 대한 텍스트 정보를 제2 서버(20)로 전송한다. 사용자의 발화 음성에 대한 텍스트 정보를 수신한 제2 서버(20)는 수신한 텍스트 정보를 분석하여 발화 요소를 추출하고, 그 추출된 발화 요소에 기초하여 사용자의 발화 음성에 대응되는 동작을 수행하기 위한 응답 정보를 생성하여 디스플레이 장치(100)로 전송할 수 있다.The
지금까지, 본 발명에 따른 디스플레이 장치(100)와 대화형 서버(200)로 이루어진 대화형 시스템에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 동작에 대해서 개략적으로 설명하였다. 이하에서는, 전술한 디스플레이 장치(100) 및 대화형 서버(200)의 각 구성에 대해서 상세히 설명하도록 한다.Up to now, an operation of providing response information corresponding to a user's uttered voice in an interactive system including the
도 3은 본 발명의 일 실시예에 따른 대화형 서버의 블록도이다.3 is a block diagram of an interactive server in accordance with an embodiment of the present invention.
도 3에 도시된 바와 같이, 대화형 서버(200)는 통신부(210), 음성 처리부(220), 저장부(230), 추출부(240) 및 제어부(250)를 포함한다.3, the
통신부(210)는 사용자의 발화 음성을 제공하는 디스플레이 장치(100)와 통신을 수행한다. 특히, 통신부(210)는 실행 대상을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 포함하는 발화 음성에 대한 디지털 신호(이하 발화 음성이라 함)를 수신할 수 있다. 여기서, 실행 명령을 나타내는 제1 발화 요소는 사용자의 발화 음성 내에서 주요 특징(feature)으로 분류되는 발화 요소이며, 실행 명령을 나타내는 제2 발화 요소는 사용자의 발화 음성에 내에서 목적 기능(user action)으로 분류되는 발화 요소이다. 예를 들어, "액션 영화 찾아줘"라는 발화 음성의 경우, "액션"은 주요 특징으로 분류되는 제1 발화 요소이며, "찾아줘"는 목적 기능으로 분류되는 제2 발화 요소가 될 수 있다.The
이 같은 제1 및 제2 발화 요소를 포함하는 발화 음성이 수신되면, 음성 처리부(220)는 수신된 발화 음성을 텍스트 정보로 변환한다. 실시예에 따라, 음성 처리부(220)는 STT(Speech to Text) 알고리즘을 이용하여 수신된 사용자의 발화 음성을 텍스트로 변환할 수 있다. 그러나, 본 발명은 이에 한정되지 않으며, 통신부(210)는 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 텍스트 정보를 수신할 수 있다. 이 경우, 디스플레이 장치(100)는 입력된 사용자의 발화 음성에 대한 텍스트 정보를 전술한 제1 서버(10)와 같은 음성 인식 장치(미도시)로부터 수신하여 대화형 서버(200)로 전송한다. 따라서, 통신부(210)는 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 텍스트 정보를 수신할 수 있다. 이 같이, 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 텍스트 정보를 수신할 경우, 전술한 음성 처리부(220)의 구성은 생략될 수 있다.When the utterance voice including the first and second utterance elements is received, the
한편, 사용자의 발화 음성이 텍스트 정보로 변환되거나 혹은 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 텍스트 정보가 수신되면, 추출부(240)는 텍스트 정보로 변환된 발화 음성으로부터 발화 요소를 추출한다. 전술한 바와 같이, 추출부(240)는 텍스트 정보로 변환된 발화 음성으로부터 주요 특징을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 추출할 수 있다. On the other hand, when the user's utterance voice is converted into text information or when the text information of the user's utterance voice is received from the
전술한 예와 같이, "액션 영화 찾아줘"라는 발화 음성의 경우, 추출부(240)는 "액션" 및 "영화"라는 제1 발화 요소와 "찾아줘"라는 제2 발화 요소를 추출할 수 있다. 또다른 예를 들어, "이거 실행해줘"라는 발화 음성의 경우, 추출부(240)는 "이거"라는 제1 발화 요소 및 "실행해줘"라는 제2 발화 요소를 추출할 수 있다.As in the above example, in the case of a utterance voice called "find an action movie ", the
이 같은 발화 요소가 추출되면, 제어부(250)는 저장부(230)에 저장된 발화 이력 정보 및 추출된 발화 요소에 기초하여 응답 정보를 생성하고, 생성된 응답 정보를 디스플레이 장치(100)로 전송한다. 여기서, 저장부(230)는 대화형 서버(200)를 동작시키기 위해 필요한 각종 프로그램 등이 저장되는 저장매체로써, 메모리, HDD(Hard Disk Drvie) 등으로 구현될 수 있다. 예를 들어, 저장부(230)는 제어부(250)의 동작을 수행하기 위한 프로그램을 저장하는 ROM, 제어부(250)의 동작 수행에 따른 데이터를 일시적으로 저장하는 RAM 등을 구비할 수 있다. 뿐만 아니라, 저장부(230)는 각종 참조 데이터를 저장하는 EEROM(Electrically Eraasable and Programmable ROM) 등을 더 구비할 수 있다. 특히, 저장부(230)는 디스플레이 장치(100)로부터 수신된 발화 음성에 대한 발화 이력 정보를 저장할 수 있다. 여기서, 발화 이력 정보는 디스플레이 장치(100)로부터 현재 발화 음성이 수신되기 이전에 수신된 발화 음성에 기초하여 생성된 정보이다. 구체적으로, 저장부(230)는 디스플레이 장치(100)로부터 수신된 발화 음성으로부터 생성된 텍스트 정보, 해당 발화 음성이 수신된 시간 정보, 해당 발화 음성에 기초하여 생성된 응답 정보 및 해당 응답 정보가 생성된 시간 정보 중 적어도 하나를 포함하는 발화 이력 정보를 저장할 수 있다. When the utterance element is extracted, the
따라서, 제어부(250)는 저장부(230)에 저장된 이전 발화 이력 정보 중 현재 발화 음성이 수신되기 이전의 발화 이력 정보와 수신된 발화 음성으로부터 추출된 발화 요소 중 적어도 하나에 기초하여 응답 정보를 생성하고, 이를 디스플레이 장치(100)로 전송할 수 있다. 구체적으로, 제어부(250)는 추출부(240)로부터 추출된 발화 요소에 대응되는 정보가 저장부(230)에 존재하는지 여부를 판단하여, 추출된 발화 요소에 대응되는 정보가 존재하면 추출된 발화 요소에 대응되는 정보에 기초하여 응답 정보를 생성한다. 여기서, 추출된 발화 요소에 대응되는 정보는 실행 대상을 나타내는 제1 발화 요소에 대응되는 실행어 및 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 중 적어도 하나를 포함할 수 있다. 이 같은 실행어 및 명령어는 저장부(230)에 저장될 수 있다. 즉, 저장부(230)는 제1 발화 요소별로 정의된 실행어 및 제2 발화 요소별로 정의된 명령어를 더 저장할 수 있다. 예를 들어, "이거"라는 실행 대상을 간접적으로 나타내는 제1 발화 요소는 "$this$"라는 실행어로 정의될 수 있으며, "다음"이라는 실행 대상을 간접적으로 나타내는 제1 발화 요소는 "$this$"라는 실행어로 정의될 수 있으며, "세번째"라는 실행 대상을 간접적으로 나타내는 제1 발화 요소는 "$3rd$"라는 실행어로 정의될 수 있다. 또한, "○○○(컨텐츠명)"와 같이 실행 대상을 직접적으로 나타내는 제1 발화 요소는 "$○○○(컨텐츠명)$"라는 실행어로 정의될 수 있다. 한편, 실행 명령을 나타내는 제2 발화 요소는 실행 대상을 직접적으로 나타내는 제1 발화 요소 및 발화 음성에 대응되는 응답 정보를 제공할 실행 영역에 기초하여 컨텐츠 검색, 컨텐츠 추천, 장치 기능 실행, 장치 UI 제어 및 웹 검색 등으로 분류될 수 있으며, 각각의 분류된 타입에 대응하여 명령어가 정의될 수 있다. 따라서, 제어부(250)는 사용자의 발화 음성으로부터 발화 요소가 추출되면, 추출된 발화 요소에 대응되는 실행어 및 명령어가 저장부(230)에 저장되어 있는지 여부를 판단한다. 판단 결과, 추출된 발화 요소에 대응되는 실행어 및 명령어가 저장되어 있으면, 제어부(250)는 추출된 발화 요소에 대응되는 실행어 및 명령어를 획득하고, 획득한 실행어 및 명령어를 조합하여 응답 정보를 생성할 수 있다.Therefore, the
예를 들어, "○○○(컨텐츠명) 찾아줘"라는 발화 음성의 경우, 추출부(240)는 "○○○(컨텐츠명)"에 대한 제1 발화 요소 및 "찾아줘"라는 제2 발화 요소를 추출할 수 있다. 이 같이, "○○○(컨텐츠명) 찾아줘"라는 발화 음성으로부터 제1 및 제2 발화 요소가 추출되면, 제어부(250)는 추출된 제1 발화 요소에 기초하여 실행 영역이 컨텐츠인 것으로 판단한다. 또한, 제어부(250)는 저장부(230)에 저장된 제1 발화 요소별 정의된 실행어를 참조하여 ""○○○(컨텐츠명)"에 대한 제1 발화 요소에 대응되는 실행어 "$○○○(컨텐츠명)$"를 획득할 수 있다. 또한, 제어부(250)는 컨텐츠로 판단된 실행 영역에 기초하여 "찾아줘"에 대한 제2 발화 요소의 타입이 컨텐츠 검색과 관련된 것으로 판단한다. 따라서, 제어부(250)는 저장부(230)에 저장된 제2 발화 요소별 정의된 명령어 중 컨텐츠 검색에 대응되는 명령어 "content_search"를 획득할 수 있다. 이후, 제어부(250)는 제1 및 제2 발화 요소에 대응되는 실행어 "$○○○(컨텐츠명)$" 및 명령어 "content_search"를 조합하여 "content_search($○○○(컨텐츠명)$)"라는 실행 명령 스크립트를 생성할 수 있다. 이 같은 실행 명령 스크립트가 생성되면, 제어부(250)는 생성된 실행 명령 스크립트를 포함하는 응답 정보를 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 대화형 서버(200)로부터 수신한 응답 정보에 포함된 실행 명령 스크립트에 기초하여 컨텐츠 제공 서버(300)로부터 "○○○(컨텐츠명)"에 대한 회차별 컨텐츠 정보를 수신하고, 수신된 회차별 컨텐츠 정보에 대한 컨텐츠 리스트를 화면상에 디스플레이할 수 있다.For example, in the case of a utterance voice of "find a (name of) content", the extracting
그러나, 본 발명은 이에 한정되지 않으며, 제어부(250)는 "content_search($○○○(컨텐츠명)$)"라는 실행 명령 스크립트에 기초하여 저장부(230)에 기저장된 EPG 정보로부터 "○○○(컨텐츠명)"에 대한 회차별 컨텐츠 정보를 획득하거나 혹은 외부 서버(400)로부터 수신하여 디스플레이 장치(100)로 전송할 수 있다. However, the present invention is not limited to this, and the
또다른 예를 들어, "취침예약 해줘"라는 발화 음성의 경우, 추출부(240)는 "취침예약"에 대한 제1 발화 요소 및 "해줘"라는 제2 발화 요소를 추출할 수 있다. 이 같이, "취침예약 해줘"라는 발화 음성으로부터 제1 및 제2 발화 요소가 추출되면, 제어부(250)는 추출된 제1 발화 요소에 기초하여 실행 영역이 장치 제어인 것으로 판단한다. 또한, 제어부(250)는 저장부(230)에 저장된 제1 발화 요소별 정의된 실행어를 참조하여 "취침예약"에 대한 제1 발화 요소에 대응되는 실행어 "$취침예약$"를 획득할 수 있다. 또한, 제어부(250)는 장치 제어로 판단된 실행 영역에 기초하여 "해줘"에 대한 제2 발화 요소의 타입이 장치 기능 실행에 해당하는 것으로 판단한다. 따라서, 제어부(250)는 저장부(230)에 저장된 제2 발화 요소별 정의된 명령어 중 장치 기능 실행에 대응되는 명령어 "device_execute"를 획득할 수 있다. 이후, 제어부(250)는 제1 및 제2 발화 요소에 대응되는 실행어 "$취침예약$" 및 명령어 "device_execute"를 조합하여 "device_execute($취침예약$)"라는 실행 명령 스크립트를 생성할 수 있다. 이 같은 실행 명령 스크립트가 생성되면, 제어부(250)는 생성된 실행 명령 스크립트를 포함하는 응답 정보를 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 대화형 서버(200)로부터 수신한 응답 정보에 포함된 실행 명령 스크립트에 기초하여 취침예약을 설정하고, 취침예약이 설정되었음을 안내하는 알림 메시지를 음성 및 텍스트 중 적어도 하나를 통해 출력할 수 있다.For another example, in the case of a utterance voice of "make a sleep reservation ", the extracting
또다른 예를 들어, "첫번째 거 선택해줘"라는 발화 음성과 실행 정보를 포함하는 발화 정보가 수신되면, 추출부(240)는 "첫번째 거 선택해줘"라는 발화 음성으로부터 "첫번째"라는 제1 발화 요소 및 "선택해줘"라는 제2 발화 요소를 추출할 수 있다. 이 같이, "첫번째 거 선택해줘"라는 발화 음성으로부터 제1 및 제2 발화 요소가 추출되면, 제어부(250)는 저장부(230)에 저장된 제1 발화 요소별 정의된 실행어를 참조하여 "첫번째"에 대한 제1 발화 요소에 대응되는 실행어 "$1st$"를 획득할 수 있다. 또한, 제어부(250)는 수신된 발화 정보에 포함된 실행 정보에 기초하여 실행 영역이 장치 UI 제어인 것으로 판단하고, 그 판단된 실행 영역에 기초하여 "선택해줘"에 대한 제2 발화 요소의 타입이 장치 UI 제어에 해당하는 것으로 판단한다. 따라서, 제어부(250)는 저장부(230)에 저장된 제2 발화 요소별 정의된 명령어 중 장치 UI 제어에 대응되는 명령어 "device_select"를 획득할 수 있다. 한편, 제어부(250)는 "첫번째"에 대한 제1 발화 요소에 대응되는 실행어 "$1st$"가 획득되면, 디스플레이 장치(100)로부터 수신한 발화 정보에 포함된 실행 정보에 기초하여 기획득한 실행어 "$1st$"에 대응되는 실행어로 변환한다. 이후, 제어부(250)는 기회득한 실행어 "$1st$"에서 변환된 실행어 및 명령어를 조합하여 실행 명령 스크립트를 생성할 수 있다. In another example, when the utterance information including the utterance voice "Select first" and the execution information is received, the extracting
이하에서는 전술한 예와 같이, 디스플레이 장치(100)에서 발화 음성과 실행 정보를 포함하는 발화 정보를 대화형 서버(200)로 전송하는 동작 및 대화형 서버(200)에서 디스플레이 장치(100)로부터 수신된 발화 정보에 기초하여 응답 정보를 생성하는 동작에 대해서 구체적으로 설명하도록 한다.Hereinafter, the operation of transmitting the speech information including the utterance voice and the execution information from the
도 4는 본 발명의 일 실시예에 따른 디스플레이 장치에서 화면상에 표시된 객체의 표시 상태에 기초하여 발화 정보를 생성하는 예시도이다.FIG. 4 is a diagram illustrating an example of generating spoken information based on a display state of an object displayed on a screen in a display device according to an embodiment of the present invention. FIG.
도 4에 도시된 바와 같이, 디스플레이 장치(100)는 사용자가 요청한 채널을 통해 제1 컨텐츠(30)를 수신하여 디스플레이할 수 있다. 또한, 디스플레이 장치(100)는 사용자 명령에 기초하여 사용자가 요청한 제2 컨텐츠에 대한 컨텐츠 리스트(40)를 화면상에 디스플레이할 수 있다. 도시된 바와 같이, 컨텐츠 리스트(40) 상에는 지금까지 방송된 제2 컨텐츠에 대한 회차별 컨텐츠 정보(41~45)가 표시될 수 있다. 한편, 디스플레이 장치(100)는 기설정된 우선 순위에 기초하여 컨텐츠 리스트(40) 상에 표시되는 회차별 컨텐츠 정보(41~45) 각각에 대한 식별 정보를 부여할 수 있다. 이 같이 제1 컨텐츠(30) 및 제2 컨텐츠에 대한 컨텐츠 리스트(40)가 화면상에 표시된 상태에서, 사용자는 컨텐츠 리스트(40) 상에 표시된 컨텐츠 정보(41~45)를 참조하여 특정 회차에 대응되는 제2 컨텐츠를 시청하기 위한 발화를 할 수 있다. 예를 들어, 사용자는 3회차 컨텐츠 정보(43)에 대응되는 제2 컨텐츠를 시청하기 위해 "세번째 거 선택해줘"라는 발화를 할 수 있다. 이 같은 발화 음성이 입력되면, 디스플레이 장치(100)는 이전 발화 음성이 입력된 입력 시간을 기준으로 현재 입력된 발화 음성이 기설정된 시간 내에 입력되었는지 여부를 판단한다. 판단 결과, 기설정된 시간 내에 입력된 것으로 판단되면, 디스플레이 장치(100)는 "세번째 거 선택해줘"라는 발화 음성을 대화형 서버(200)로 전송한다. 한편, 현재 입력된 발화 음성이 기설정된 시간 내에 입력되지 않은 것으로 판단되면, 디스플레이 장치(100)는 "세번째 거 선택해줘"라는 발화 음성과 컨텐츠 리스트(40) 상에 표시된 회차별 컨텐츠 정보(41~45)에 부여된 식별 정보(전술한 실행 정보)를 포함하는 발화 정보를 대화형 서버(200)로 전송한다.As shown in FIG. 4, the
이 같은 발화 정보가 수신되면, 추출부(240)는 수신된 발화 정보에 포함된 발화 음성으로부터 "세번째"라는 제1 발화 요소 및 "선택해줘"라는 제2 발화 요소를 추출할 수 있다. 제1 및 제2 발화 요소가 추출되면, 제어부(250)는 추출된 제1 및 제2 발화 요소에 대응되는 실행어 및 명령어가 저장부(230)에 저장되어 있는지 여부를 판단한다. 전술한 바와 같이, 저장부(230)는 제1 및 제2 발화 요소별 정의된 실행어 및 명령어를 저장할 수 있다. 따라서, 제어부(250)는 저장부(230)에 저장된 제1 발화 요소별 정의된 실행어를 참조하여 "세번째"에 대한 제1 발화 요소에 대응되는 실행어 "$3rd$"를 획득할 수 있다. 또한, 제어부(250)는 수신된 발화 정보에 포함된 식별 정보에 기초하여 실행 영역이 장치 UI 제어인 것으로 판단하고, 그 판단된 실행 영역에 기초하여 "선택해줘"에 대한 제2 발화 요소의 타입이 장치 UI 제어에 해당하는 것으로 판단한다. 따라서, 제어부(250)는 저장부(230)에 저장된 제2 발화 요소별 정의된 명령어 중 장치 UI 제어에 대응되는 명령어 "device_select"를 획득할 수 있다. 한편, 제어부(250)는 "첫번째"에 대한 제1 발화 요소에 대응되는 실행어 "$3rd$"가 획득되면, 디스플레이 장치(100)로부터 수신한 발화 정보에 포함된 식별 정보에 기초하여 기회득한 실행어 "$3rd$"에 대응되는 실행어로 변환한다. 예를 들어, 회차별 컨텐츠 정보(41~45) 중 "$3rd$"에 대응되는 컨텐츠 정보(43)의 식별 정보가 "#3"이면, 제어부(250)는 기회득한 실행어 "$3rd$"에서 변환된 실행어 "#3"으로 변환할 수 있다. 이후, 제어부(250)는 변환된 실행어 "#3"과 명령어 "device_select"를 조합하여 "device_select(#3)"이라는 실행 명령 스크립트를 생성하고, 이를 포함하는 응답 정보를 디스플레이 장치(100)로 전송할 수 있다. 이에 따라, 디스플레이 장치(100)는 대화형 서버(200)로부터 수신한 응답 정보에 포함된 실행 명령 스크립트에 기초하여 컨텐츠 정보(43)에 대응되는 회차의 제2 컨텐츠를 컨텐츠 제공 서버(300)로부터 수신하여 디스플레이할 수 있다.When such utterance information is received, the extracting
이와 같이, 본 발명에 따른 제어부(250)는 사용자의 발화 음성으로부터 추출된 발화 요소에 대응되는 실행어 및 명령어가 존재하면, 발화 요소에 대응되는 실행어 및 명령어에 기초하여 사용자의 의도에 대응되는 응답 정보를 생성할 수 있다.As described above, when there is an executable word and a command word corresponding to the uttered speech element extracted from the speech uttered by the user, the
한편, 제어부(250)는 사용자의 발화 음성으로부터 추출된 발화 요소에 대응되는 실행어 및 명령어가 부존재하면, 저장부(230)에 기저장된 발화 이력 정보에 기초하여 추출된 발화 요소에 대응되는 실행어 및 명령어를 추정한다. 이후, 제어부(250)는 추정된 지시어 및 명령어를 조합하여 사용자의 의도에 적합한 응답 정보를 생성할 수 있다. On the other hand, when an executable word and an instruction corresponding to the uttered element extracted from the uttered speech of the user are absent, the
실시예에 따라, 제어부(250)는 추출된 발화 요소 즉, 제1 및 제2 발화 요소에 대응되는 실행어 및 명령어가 부존재하면, 저장부(230)에 저장된 발화 이력 정보 중, 현재 발화 음성이 수신된 시점을 기준으로 기설정된 시간 범위 이내의 발화 이력 정보를 획득한다. 이후, 제어부(250)는 획득된 발화 이력 정보 내에서 제1 발화 요소에 대응되는 실행어 및 제2 발화 요소에 대응되는 명령어를 수신된 발화 음성에 대응되는 실행어 및 명령어로 추정할 수 있다. 한편, 제어부(250)는 저장부(230)에 저장된 발화 이력 정보 중, 현재 발화 음성이 수신된 시점을 기준으로 기설정된 시간 범위 이내의 발화 이력 정보가 저장되어 있지 않으면 응답 정보를 생성하지 않는다.According to the embodiment, when the extracted speech element, that is, the executable word corresponding to the first and second speech elements, and the instruction word are not present, the
전술한 바와 같이, 저장부(230)는 디스플레이 장치(100)로부터 수신된 발화 음성으로부터 생성된 텍스트 정보, 해당 발화 음성이 수신된 시간 정보, 해당 발화 음성에 기초하여 생성된 응답 정보 및 해당 응답 정보가 생성된 시간 정보 중 적어도 하나를 포함하는 발화 이력 정보를 저장할 수 있다. 따라서, 제어부(250)는 현재 수신된 발화 음성으로부터 추출된 제1 및 제2 발화 요소에 대응되는 실행어 및 명령어 중 적어도 하나가 저장부(230)에 저장되어 있지 않으면, 저장부(230)에 기저장된 발화 이력 정보에 기초하여 제1 및 제2 발화 요소에 대응되는 실행어 및 명령어를 추정할 수 있다.As described above, the
예를 들어, "첫번째 거 선택해줘"라는 발화 음성의 경우, 추출부(230)는 "첫번째"라는 제1 발화 요소와 "선택해줘"라는 제2 발화 요소를 추출할 수 있다. 이 같은 제1 및 제2 발화 요소가 추출되면, 제어부(250)는 제1 및 제2 발화 요소에 대응되는 실행어 및 명령어가 저장부(230)에 저장되어 있는지 여부를 판단한다. 구체적으로, 제어부(250)는 저장부(230)에 저장된 제1 발화 요소별 정의된 실행어를 참조하여 "첫번째"라는 제1 발화 요소에 대응되는 실행어 "$1st$"를 획득할 수 있다. 한편, 제어부(250)는 추출된 발화 요소 중 제1 발화 요소에 기초하여 실행 영역 판단이 가능한지 여부를 판단한다. 판단 결과, "첫번째"에 대한 제1 발화 요소로부터 실행 영역이 불가능한 것으로 판단되면, 제어부(250)는 제2 발화 요소별 정의된 명령어를 저장하는 저장부(230)로부터 "선택해줘"라는 제2 발화 요소에 대응되는 명령어를 획득하지 못한다. 따라서, 제어부(250)는 "첫번째 거 선택해줘"라는 발화 음성으로부터 발화 음성에 대한 서비스를 제공하기 위한 실행 영역 및 실행 명령이 불명확한 것으로 판단한다. 이 같은 판단 결과에 따라, 제어부(250)는 저장부(230)에 저장된 발화 이력 정보 중 "첫번째 거 선택해줘"라는 발화 음성이 수신된 시점을 기준으로 기설정된 시간 범위 이내에 저장된 발화 이력 정보가 있는지 여부를 판단한다. 즉, 제어부(250)는 저장부(230)에 저장된 발화 이력 정보 중 "첫번째 거 선택해줘"라는 발화 음성이 수신된 시간과 가장 최근에 저장된 이전 발화 이력 정보의 시간 차이가 기설정된 시간 범위 내에 속하는지 여부를 판단한다. 판단 결과, 이전 발화 이력 정보가 기설정된 시간 범위 내에 속하지 않은 것으로 판단되면, 제어부(250)는 "첫번째 거 선택해줘"라는 발화 음성에 대한 응답 정보를 생성하지 않는다. 한편, 이전 발화 이력 정보가 기설정된 시간 범위 내에 속하는 것으로 판단되면, 추출부(240)는 이전 발화 이력 정보에 포함된 발화 음성의 텍스트 정보로부터 제1 및 제2 발화 요소를 추출한다.For example, in the case of a utterance voice "select first", the
예를 들어, 이전 발화 이력 정보에 포함된 발화 음성이 "○○○(컨텐츠명) 찾아줘"이면, 추출부(240)는 "○○○(컨텐츠명)"에 대한 제1 발화 요소와 "찾아줘"라는 제2 발화 요소를 추출한다. 이후, 제어부(250)는 이전 발화 이력 정보에 포함된 발화 음성으로부터 추출된 제1 및 제2 발화 요소 중 "○○○(컨텐츠명)"에 대한 제1 발화 요소에 기초하여 "첫번째"에 대한 제1 발화 요소가 "○○○(컨텐츠명)"에 대한 제1 발화 요소인 것으로 추정한다. 이후, 제어부(250)는 추정된 제1 발화 요소에 기초하여 실행 영역이 장치 UI 제어인 것으로 판단하고, 저장부(230)에 저장된 제2 발화 요소별 정의된 명령어 중 장치 UI 제어에 대응되는 명령어 "device_select"를 획득할 수 있다. 이후, 제어부(250)는 기획득한 제1 발화 요소에 대응되는 실행어 "$1st$"와 제2 발화 요소에 대응되는 명령어 "device_select"를 조합하여 "device_select($1st$)"라는 실행 명령 스크립트를 생성할 수 있다. 이후, 제어부(250)는 생성된 실행 명령 스크립트를 포함하는 응답 정보를 디스플레이 장치(100)로 전송한다. 따라서, 디스플레이 장치(100)는 대화형 서버(200)로부터 수신한 응답 정보에 기초하여 "첫번째 컨텐츠를 선택하셨습니다."라는 응답 메시지를 음성 및 텍스트 중 적어도 하나를 출력할 수 있다. 이와 함께, 디스플레이 장치는 응답 정보에 포함된 실행 명령 스크립트에 기초하여 컨텐츠 제공 서버(300)로부터 첫번째 컨텐츠를 수신하여 디스플레이할 수 있다.For example, if the utterance voice included in the previous utterance history information is "OOo (content name) found ", the extracting
한편, 본 발명의 추가적인 양상에 따라 제어부(250)는 수신된 발화 음성 내에 제1 발화 요소 및 제2 발화 요소 중 적어도 하나가 포함되어 있지 않으면, 저장부(230)에 저장된 발화 이력 정보 중 발화 음성이 수신된 시점을 기준으로 기설정된 시간 범위 이내의 발화 이력 정보에 기초하여 응답 정보를 생성할 수 있다.According to a further aspect of the present invention, if at least one of the first and second utterance elements is not included in the received utterance speech, The response information can be generated based on the ignition history information within a predetermined time range based on the received time point.
예를 들어, "그래"와 같은 발화 음성의 경우, 추출부(240)는 "그래"라는 발화 음성으로부터 제1 및 제2 발화 요소를 추출하지 못한다. 이 경우, 제어부(250)는 "그래"라는 발화 음성이 불명확한 것으로 판단하고, 저장부(230)에 저장된 발화 이력 정보 중 "그래"라는 발화 음성이 수신된 시점을 기준으로 기설정된 시간 범위 이내에 저장된 이전 발화 이력 정보를 획득한다. 예를 들어, 획득한 이전 발화 이력 정보에 포함된 발화 음성이 "TV 꺼줘"이면, 제어부(250)는 "TV"에 대한 제1 발화 요소와 "꺼줘"라는 제2 발화 요소를 추출한다. 이후, 제어부(250)는 추출된 제1 및 제2 발화 요소에 기초하여 현재 수신된 "그래"라는 발화 음성이 컨펌(confirm)인 것으로 추정한다. 이에 따라, 제어부(250)는 이전 발화 이력 정보로부터 추출된 "TV"에 대한 제1 발화 요소에 기초하여 실행 영역이 장치 제어인 것으로 판단한다. 또한, 제어부(250)는 저장부(230)에 저장된 제1 발화 요소별 정의된 실행어를 참조하여 "TV"에 대한 제1 발화 요소에 대응되는 실행어 "$TV$"를 획득할 수 있다. 또한, 제어부(250)는 장치 제어로 판단된 실행 영역에 기초하여 "꺼줘"에 대한 제2 발화 요소의 타입이 장치 기능 실행과 관련된 것으로 판단한다. 따라서, 제어부(250)는 저장부(230)에 제2 발화 요소별 정의된 명령어 중 장치 기능 실행에 대응되는 명령어를 획득한다. 이후, 제어부(250)는 장치 기능 실행에 대응하여 획득한 명령어 중 전원 제어에 대응되는 명령어 "device_exectue_turn off"를 획득할 수 있다. 이후, 제어부(250)는 제1 발화 요소에 대응되는 실행어 "$TV$"와 제2 발화 요소에 대응되는 명령어 "device_exectue_turn off"를 조합하여 "device_exectue_turn off($TV$)"라는 실행 명령 스크립트를 생성한다. 이 같은 실행 명령 스크립트가 생성되면, 제어부(250)는 생성된 실행 명령 스크립트를 포함하는 응답 정보를 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 대화형 서버(200)로부터 수신한 응답 정보에 포함된 실행 명령 스크립트에 기초하여 TV 전원을 오프시킬 수 있다.For example, in the case of a speech utterance such as "yes ", the
지금까지, 본 발명에 따른 대화형 서버(200)에 각 구성에 대해서 상세히 설명하였다. 이하에서는, 사용자의 발화 음성을 입력받는 디스플레이 장치(100)의 각 구성에 대해서 상세히 설명하도록 한다.Up to now, each configuration has been described in detail in the
도 5는 본 발명의 일 실시예에 따른 디스플레이 장치의 블록도이다.5 is a block diagram of a display device according to an embodiment of the present invention.
도 5에 도시된 바와 같이, 디스플레이 장치(100)는 입력부(110), 통신부(120), 디스플레이부(130), 제어부(140) 및 저장부(150)를 포함한다.5, the
입력부(110)는 사용자로부터 발화된 발화 음성을 입력받는다. 구체적으로, 입력부(110)는 아날로그 형태의 사용자의 발화 음성이 입력되면, 입력된 사용자 발화 음성을 샘플링하여 디지털 신호로 변환한다. 이때, 입력부(110)는 입력된 사용자의 발화 음성에 노이즈(예를 들어, 에어컨 소리, 청소기 소리 등)가 있는 경우, 노이즈를 제거한 후, 노이즈가 제거된 사용자의 발화 음성을 디지털 신호로 변환함이 바람직하다. 뿐만 아니라, 입력부(110)는 다양한 사용자 조작을 입력받아 제어부(130)로 전달하는 기능을 수행할 수 있다. 이 경우, 입력부(110)는 터치패드(Touch Pad) 혹은 각종 기능키, 숫자키, 특수키, 문자키 등을 구비한 키패드(Key Pad) 또는 터치 스크린(Touch Screen)을 통해 사용자 조작 명령을 입력받을 수 있다.The
통신부(120)는 입력부(110)를 통해 입력된 사용자의 발화 음성을 서버 장치(이하 대화형 서버라 함)로 전송하고, 전성된 발화 음성에 대응되는 응답 정보를 수신한다. 여기서, 통신부(120)는 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다. 여기서, 근거리 무선 통신 모듈(미도시)은 근거리에 위치한 대화형 서버(200) 및 컨텐츠를 제공하는 외부 서버(미도시)와 무선 통신을 수행하는 통신 모듈로써, 예를 들어, 블루투스, 지그비 등이 될 수 있다. 무선 통신 모듈(미도시)은 와이파이(WiFi), IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신 망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.The
디스플레이부(130)는 액정 표시 장치(Liquid Crystal Display, LCD), 유기 전기 발광 다이오드(Organic Light Emitting Display, OLED) 또는 플라즈마 표시 패널(Plasma Display Panel, PDP) 등으로 구현되어, 디스플레이 장치(100)를 통해 제공 가능한 다양한 디스플레이 화면을 제공할 수 있다. 특히, 디스플레이부(161) 대화형 서버(200)로부터 수신한 응답 정보에 기초하여 사용자의 발화 음성에 대응되는 컨텐츠 혹은 컨텐츠 정보를 디스플레이한다.The
제어부(140)는 디스플레이 장치(100)의 구성을 전반적으로 제어한다. 특히, 제어부(140)는 대화형 서버(200)로부터 실행어 및 명령어의 조합으로 생성된 실행 명령 스크립트를 포함하는 응답 정보가 수신되면, 수신된 응답 정보에 포함된 실행 명령 스크립트에 기초하여 동작을 수행한다.The
전술한 예와 같이, "○○○(컨텐츠명) 찾아줘"라는 사용자의 발화 음성에 대한 응답 정보가 대화형 서버(200)로부터 수신되면, 제어부(140)는 수신된 응답 정보에 포함된 실행 명령 스크립트에 기초하여 통신부(120)를 통해 컨텐츠 제공 서버(300)로부터 "○○○(컨텐츠명)"에 대한 회차별 컨텐츠 정보를 수신하고, 수신된 회차별 컨텐츠 정보에 대한 컨텐츠 리스트를 디스플레이부(130)를 통해 화면상에 디스플레이할 수 있다. 구체적으로, 대화형 서버(200)로부터 수신되는 응답 정보에는 "content_search($○○○(컨텐츠명)$)"라는 실행 명령 스크립트가 포함될 수 있다. 따라서, 제어부(140)는 "content_search($○○○(컨텐츠명)$)"라는 실행 명령 스크립트를 해석하여, 실행어는 "$○○○(컨텐츠명)$"이며, 명령어는 "content_search"라고 구분할 수 있다. 이 같이, 실행 명령 스크립트로부터 지시자 및 명령어가 구분되면, 제어부(140)는 구분된 지시자에 기초하여 컨텐츠 제공 서버(300)로부터 "○○○(컨텐츠명)"에 대한 회차별 컨텐츠 정보를 수신하고, 수신된 회차별 컨텐츠 정보에 대한 컨텐츠 리스트가 화면상에 디스플레이되도록 디스플레이부(130)를 제어할 수 있다. 그러나, 본 발명은 이에 한정되지 않으며, 통신부(120)는 대화형 서버(200)로부터 "○○○(컨텐츠명)"에 대한 회차별 컨텐츠 정보를 포함하는 응답 정보를 수신할 수 있다. 이 경우, 제어부(140)는 대화형 서버(200)로부터 수신된 응답 정보에 포함된 "○○○(컨텐츠명)"에 대한 회차별 컨텐츠 정보를 디스플레이부(130)를 통해 화면상에 디스플레이할 수 있다.As described in the above example, when the response information of the user "Find XXXX (content name)" is spoken from the
전술한 또다른 예와 같이, "취침예약 해줘"라는 사용자의 발화 음성에 대한 응답 정보가 대화형 서버(200)로부터 수신되면, 제어부(140)는 수신된 응답 정보에 포함된 실행 명령 스크립트에 기초하여 기설정된 시간으로 취침예약을 자동 설정할 수 있다. 구체적으로, 대화형 서버(200)로부터 수신되는 응답 정보에는 "device_execute($취침예약$)"라는 실행 명령 스크립트가 포함될 수 있다. 따라서, 제어부(140)는 "device_execute($취침예약$)"라는 실행 명령 스크립트를 해석하여, 실행어는 "$$취침예약$$"이며, 명령어는 "device_execute"라고 구분할 수 있다. 이 같이, 실행 명령 스크립트로부터 지시자 및 명령어가 구분되면, 제어부(140)는 구분된 지시자에 기초하여 기설정된 시간으로 취침예약을 자동 설정할 수 있다. 이 같은 취침예약이 자동 설정되면, 제어부(140)는 수신된 응답 정보에 기초하여 "취침예약 설정이 완료되었습니다."라는 텍스트 형태의 알림 메시지를 디스플레이부(130)를 통해 화면상에 출력할 수 있다.As described in another example described above, when the response information for the user's utterance voice is received from the
한편, 도 4에서 설명한 바와 같이, 디스플레이부(130)는 제어부(140)의 제어 명령에 따라, 사용자가 요청한 채널을 통해 제1 컨텐츠(30)를 수신하여 디스플레이할 수 있다. 또한, 디스플레이부(130)는 사용자 명령에 기초하여 사용자가 요청한 제2 컨텐츠에 대한 컨텐츠 리스트(40)를 화면상에 디스플레이할 수 있다. 이 같이, 제2 컨텐츠에 대한 회차별 컨텐츠 정보(41~45)를 포함하는 컨텐츠 리스트(40)가 화면상에 디스플레이되면, 제어부(140)는 기설정된 우선 순위에 기초하여 회차별 컨텐츠 정보(41~45) 각각에 대한 식별 정보를 부여할 수 있다. 이 같이, 제1 컨텐츠(30) 및 제2 컨텐츠에 대한 컨텐츠 리스트(40)가 화면상에 디스플레이된 상태에서, 사용자로부터 특정 회차에 대응되는 제2 컨텐츠를 시청하기 위한 발화 음성이 입력될 수 있다. 예를 들어, 사용자는 3회차 컨텐츠 정보(43)에 대응되는 제2 컨텐츠를 시청하기 위해 "세번째 거 선택해줘"라는 발화를 할 수 있다. 이 같은 발화 음성이 입력되면, 제어부(140)는 "세번째 거 선택해줘"라는 발화 음성에 대한 발화 이력 정보가 저장부(150)에 저장되어 있는지 여부를 판단한다. 여기서, 발화 이력 정보는 이전 사용자로부터 입력된 발화 음성 및 해당 발화 음성이 입력된 시간 정보를 포함할 수 있다. 판단 결과, 발화 이력 정보가 저장되어 있지 않을 경우, 제어부(140)는 "세번째 거 선택해줘"라는 발화 음성과 회차별 컨텐츠 정보(41~45)에 부여된 식별 정보를 포함하는 발화 정보를 대화형 서버(200)로 전송할 수 있다.4, the
한편, 저장부(150)에 발화 이력 정보가 저장되어 있으면, 제어부(140)는 저장된 발화 이력 정보에 포함된 시간 정보에 기초하여 가장 최근의 발화 이력 정보를 획득한다. 이후, 제어부(140)는 기획득한 발화 이력 정보에 포함된 시간 정보를 기준으로 "세번째 거 선택해줘"라는 발화 음성이 기설정된 시간 내에 입력되었는지 여부를 판단한다. 판단 결과, 기설정된 시간 내에 입력된 것으로 판단되면, 제어부(140)는 통신부(120)를 통해 "세번째 거 선택해줘"라는 발화 음성을 대화형 서버(200)로 전송한다. 한편, 현재 입력된 발화 음성이 기설정된 시간 내에 입력되지 않은 것으로 판단되면, 제어부(140)는 "세번째 거 선택해줘"라는 발화 음성과 컨텐츠 리스트(40) 상에 표시된 회차별 컨텐츠 정보(41~45)에 부여된 식별 정보(전술한 실행 정보)를 포함하는 발화 정보를 대화형 서버(200)로 전송한다.On the other hand, if the ignition history information is stored in the
이후, 대화형 서버(200)로부터 "세번째 거 선택해줘"라는 발화 음성에 대한 응답 정보가 수신되면, 제어부(140)는 수신된 응답 정보에 포함된 실행 명령 스크립트에 기초하여 회차별 컨텐츠 정보(41~45) 중 3회차 컨텐츠 정보(43)에 대응되는 제2 컨텐츠를 컨텐츠 제공 서버(300)로부터 수신하여 디스플레이부(130)를 통해 디스플레이할 수 있다.Thereafter, when the response information for the utterance voice of "Choose the third choice" is received from the
지금까지, 본 발명에 따른 사용자의 발화 음성을 인식하고, 인식된 발화 음성에 대응되는 응답 정보에 기초하여 동작을 수행하는 디스플레이 장치(100)의 각 구성에 대해서 상세히 설명하였다. 이하에서는, 사용자의 발화 음성에 대응되는 응답 정보를 제공하는 대화형 서버(200) 및 응답 정보에 기초하여 동작을 수행하는 디스플레이 장치(100)의 제어 방법에 대해서 상세히 설명하도록 한다.Up to this point, each configuration of the
도 6은 본 발명의 일 실시예에 따른 대화형 서버의 제어 방법에 대한 흐름도이다.6 is a flowchart illustrating a method of controlling an interactive server according to an exemplary embodiment of the present invention.
도 6에 도시된 바와 같이, 대화형 서버(200)는 디스플레이 장치(100)로부터 발화 음성 신호(이하 발화 음성이라 함)를 수신한다(S610). 여기서, 사용자의 발화 음성은 아날로그 형태의 음성 신호에서 디지털 신호로 변환된 음성 신호이다. 이 같은 발화 음성이 수신되면, 대화형 서버(200)는 수신된 발화 음성을 텍스트 정보로 변환한다(S620). 실시예에 따라, 대화형 서버(200)는 STT(Speech to Text) 알고리즘을 이용하여 사용자의 발화 음성을 텍스트로 변환할 수 있다. 그러나, 본 발명은 이에 한정되지 않으며, 대화형 서버(200)는 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 텍스트 정보를 수신할 수 있다. 이 경우, 디스플레이 장치(100)는 입력된 사용자의 발화 음성에 대한 텍스트 정보를 전술한 제1 서버(10)와 같은 ASR 서버로부터 수신하여 대화형 서버(200)로 전송한다. 따라서, 대화형 서버(200)는 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 텍스트 정보를 수신할 수 있다.6, the
이 같은 사용자의 발화 음성이 텍스트 정보로 변환되거나 혹은 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 텍스트 정보가 수신되면, 대화형 서버(200)는 텍스트 정보로 변환된 발화 음성으로부터 발화 요소를 추출한다(S630). 즉, 대화형 서버(200)는 텍스트 정보로 변환된 발화 음성으로부터 주요 특징을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 추출한다. 이 같은 제1 및 제2 발화 요소 중 적어도 하나의 발화 요소가 추출되면, 대화형 서버(200)는 추출된 발화 요소에 기초하여 사용자의 의도에 적합한 응답 정보의 생성 여부를 판단한다(S640). 판단 결과, 추출된 발화 요소에 기초하여 응답 정보 생성이 불가능한 것으로 판단되면, 대화형 서버(200)는 사용자의 발화 음성으로부터 응답 정보를 생성하지 않는다. 한편, 판단 결과, 추출된 발화 요소에 기초하여 응답 정보 생성이 가능한 것으로 판단되면, 대화형 서버(200)는 사용자의 발화 음성으로부터 응답 정보를 생성한다. 이후, 대화형 서버(200)는 생성된 응답 정보를 디스플레이 장치(100)로 전송한다(S650).When the user's uttered voice is converted into text information or the textual information of the user's uttered voice is received from the
구체적으로, 대화형 서버(200)는 사용자의 발화 음성으로부터 제1 및 제2 발화 요소가 추출되면, 추출된 제1 및 제2 발화 요소에 대응되는 실행어 및 명령어가 기저장되어 있는지 여부를 판단한다. 여기서, 제1 발화 요소는 주요 특징을 나타내는 발화 요소이며, 제2 발화 요소는 실행 명령을 나타내는 발화 요소이다. 따라서, 대화형 서버(200)는 주요 특징을 나타내는 제1 발화 요소에 대응되는 실행어 및 실행 명령을 나태는 제2 발화 요소에 대응되는 명령어가 기저장되어 있는지 여부를 판단한다. 판단 결과, 추출된 제1 및 제2 발화 요소에 대응되는 실행어 및 명령어가 저장되어 있으면, 대화형 서버(200)는 추출된 제1 및 제2 발화 요소에 대응되는 실행어 및 명령어의 조합하여 실행 명령 스크립트를 생성한다. 한편, 추출된 제1 및 제2 발화 요소에 대응되는 실행어 및 명령어가 저장되어 있지 않으면, 대화형 서버(200)는 기저장된 발화 이력 정보에 기초하여 추출된 제1 및 제2 발화 요소에 대응되는 실행어 및 명령어 추정이 가능한지 여부를 판단한다. 판단 결과, 기저장된 발화 이력 정보에 기초하여 추출된 제1 및 제2 발화 요소에 대응되는 실행어 및 명령어 추정이 가능하면, 대화형 서버(200)는 추정된 실행어 및 명령어를 조합하여 실행 명령 스크립트를 생성한다. 한편, 기저장된 발화 이력 정보에 기초하여 추출된 제1 및 제2 발화 요소에 대응되는 실행어 및 명령어 추정이 불가능하면, 대화형 서버(200)는 사용자의 발화 음성에 대한 응답 정보를 생성하지 않는다. 이와 같이, 본 발명에 따른 대화형 서버(200)는 사용자의 발화 음성으로부터 추출된 발화 요소 및 기저장된 발화 이력 정보에 기초하여 사용자의 발화 음성에 대한 응답 정보 생성 여부를 판단하고, 그 판단 결과에 따라 생성된 응답 정보를 디스플레이 장치(100)로 전송할 수 있다.Specifically, when the first and second uttered elements are extracted from the uttered voice of the user, the
이하에서는, 도 7를 통해 대화형 서버(200)에서 사용자의 발화 음성으로부터 추출된 발화 요소 및 기저장된 발화 이력 정보에 기초하여 응답 정보를 생성하는 방법에 대해서 보다 구체적으로 설명하도록 한다.Hereinafter, a method for generating response information based on the speech element extracted from the speech uttered by the user in the
도 7은 본 발명의 일 실시에에 따른 대화형 서버에서 응답 정보를 생성하는 방법의 흐름도이다.7 is a flowchart of a method for generating response information in an interactive server according to one embodiment of the present invention.
도 7에 도시된 바와 같이, 전술한 단계 S620을 통해 사용자의 발화 음성이 텍스트 정보로 변환되거나, 혹은 디스플레이 장치(200)로부터 텍스트 정보로 변환된 발화 음성이 수신될 수 있다. 이 같이, 사용자의 발화 음성이 텍스트 정보로 변환되거나 혹은 수신되면, 대화형 서버(200)는 텍스트 정보로 변환된 발화 음성으로부터 발화 요소를 추출한다. 발화 요소가 추출되면, 대화형 서버(200)는 추출된 발화 요소를 분석하여 주요 특징을 나타내는 제1 발화 요소와 실행 명령을 나타내는 제2 발화 요소가 있는지 여부를 판단한다(S710). 판단 결과, 추출된 발화 요소가 제1 발화 요소 및 제2 발화 요소 중 적어도 하나의 발화 요소를 포함하지 않는 것으로 판단되면, 대화형 서버(200)는 후술할 단계 S740을 통해 이전 발화 이력 정보가 있는지 여부를 판단한다. As shown in FIG. 7, the speech voice of the user may be converted into text information or the speech voice converted into text information from the
한편, 사용자의 발화 음성으로부터 제1 및 제2 발화 요소가 추출되면, 대화형 서버(200)는 추출된 제1 및 제2 발화 요소에 대응되는 실행어 및 명령어가 존재하는지 여부를 판단한다(S720). 판단 결과, 추출된 제1 및 제2 발화 요소에 대응되는 실행어 및 명령어가 존재하면, 대화형 서버(200)는 추출된 제1 및 제2 발화 요소에 대응되는 실행어 및 명령어를 조합하여 응답 정보를 생성한다(S730). 한편, 추출된 제1 및 제2 발화 요소에 대응되는 실행어 및 명령어가 존재하지 않으면, 대화형 서버(200)는 사용자의 발화 음성이 수신되기 이전에 수신된 발화 음성에 대한 발화 이력 정보가 존재하는지 여부를 판단한다(S740). 판단 결과, 발화 이력 정보가 존재하지 않으면, 대화형 서버(200)는 사용자의 발화 음성에 대한 응답 정보를 생성하지 않는다. 한편, 발화 이력 정보가 존재하면, 대화형 서버(200)는 사용자의 발화 음성이 수신된 시점을 기준으로 기설정된 시간 범위 이내의 발화 이력 정보를 획득한다(S750). 이후, 대화형 서버(200)는 획득한 발화 이력 정보 내에서 사용자의 발화 음성으로부터 추출된 제1 발화 요소에 대응되는 실행어 및 제2 발화 요소에 대응되는 명령어를 사용자의 발화 음성에 대응되는 실행어 및 명령어로 추정한다(S760). 이 같이, 사용자의 발화 음성에 대응되는 실행어 및 명령어가 추정되면, 대화형 서버(200)는 추정된 실행어 및 명령어를 조합하여 응답 정보를 생성한다(S770).On the other hand, if the first and second uttered speech elements are extracted from the speech uttered by the user, the
먼저, 사용자의 발화 음성으로부터 추출된 발화 요소가 제1 및 제2 발화 요소 중 적어도 하나를 포함하지 않는 경우, 대화형 서버(200)에서 사용자의 발화 음성에 대한 응답 정보를 생성하는 방법에 대해서 설명하도록 한다.First, a description will be given of a method of generating response information for a user's utterance voice in the
예를 들어, "그래"와 같은 발화 음성의 경우, 대화형 서버(200)는 "그래"라는 발화 음성으로부터 제1 및 제2 발화 요소를 추출하지 못한다. 이 경우, 대화형 서버(200)는 "그래"라는 발화 음성이 불명확한 것으로 판단하고, 기저장된 발화 이력 정보 중 "그래"라는 발화 음성이 수신된 시점을 기준으로 기설정된 시간 범위 이내에 저장된 이전 발화 이력 정보를 획득한다. 예를 들어, 획득한 이전 발화 이력 정보에 포함된 발화 음성이 "TV 꺼줘"이면, 대화형 서버(200)는 "TV"에 대한 제1 발화 요소와 "꺼줘"라는 제2 발화 요소를 추출한다. 이후, 대화형 서버(200)는 추출된 제1 및 제2 발화 요소에 기초하여 현재 수신된 "그래"라는 발화 음성이 컨펌(confirm)인 것으로 추정한다. 이에 따라, 대화형 서버(200)는 이전 발화 이력 정보로부터 추출된 "TV"에 대한 제1 발화 요소에 기초하여 실행 영역이 장치 제어인 것으로 판단한다. 또한, 대화형 서버(200)는 기저장된 제1 발화 요소별 정의된 실행어를 참조하여 "TV"에 대한 제1 발화 요소에 대응되는 실행어 "$TV$"를 획득할 수 있다. 또한, 대화형 서버(200)는 장치 제어로 판단된 실행 영역에 기초하여 "꺼줘"에 대한 제2 발화 요소의 타입이 장치 기능 실행과 관련된 것으로 판단한다. 따라서, 대화형 서버(200)는 기저장된 제2 발화 요소별 정의된 명령어 중 장치 기능 실행에 대응되는 명령어를 획득한다. 이후, 대화형 서버(200)는 장치 기능 실행에 대응하여 획득한 명령어 중 전원 제어에 대응되는 명령어 "device_exectue_turn off"를 획득할 수 있다. 이후, 대화형 서버(200)는 제1 발화 요소에 대응되는 실행어 "$TV$"와 제2 발화 요소에 대응되는 명령어 "device_exectue_turn off"를 조합하여 "device_exectue_turn off($TV$)"라는 실행 명령 스크립트를 생성한다. 이 같은 실행 명령 스크립트가 생성되면, 대화형 서버(200)는 생성된 실행 명령 스크립트를 포함하는 응답 정보를 생성할 수 있다.For example, in the case of utterance utterances such as "yes ", the
이하에서는, 사용자의 발화 음성으로부터 추출된 제1 및 제2 발화 요소에 대응되는 실행어 및 명령어가 존재하는 경우, 대화형 서버(200)에서 사용자의 발화 음성에 대한 응답 정보를 생성하는 방법에 대해서 설명하도록 한다.Hereinafter, a method for generating response information for a user's utterance voice in the
한편, "○○○(컨텐츠명) 보여줘"라는 발화 음성이 입력되면, 대화형 서버(200)는 입력된 발화 음성으로부터 "○○○(컨텐츠명)"에 대한 제1 발화 요소 및 "찾아줘"라는 제2 발화 요소를 추출할 수 있다. 이 같은 제1 및 제2 발화 요소가 추출되면, 대화형 서버(200)는 추출된 제1 발화 요소에 기초하여 실행 영역이 컨텐츠인 것으로 판단한다. 또한, 대화형 서버(200)는 기저장된 제1 발화 요소별 정의된 실행어 중 "○○○(컨텐츠명)"에 대한 제1 발화 요소에 대응되는 실행어 "$○○○(컨텐츠명)$"를 획득할 수 있다. 또한, 대화형 서버(200)는 컨텐츠로 판단된 실행 영역에 기초하여 "찾아줘"에 대한 제2 발화 요소의 타입이 컨텐츠 검색과 관련된 것으로 판단한다. 따라서, 대화형 서버(200)는 기저장된 제2 발화 요소별 정의된 명령어 중 컨텐츠 검색에 대응되는 명령어 "content_search"를 획득할 수 있다.On the other hand, when the utterance voice of "Show " xxx (content name)" is inputted, the
이와 같이, 제1 및 제2 발화 요소에 대응되는 실행어 및 명령어가 획득되면, 대화형 서버는 획득한 실행어 "$○○○(컨텐츠명)$"와 명령어 "content_search"를 조합하여 "content_search($○○○(컨텐츠명)$)"라는 실행 명령 스크립트를 생성한다. 이 같은 실행 명령 스크립트가 생성되면, 대화형 서버(200)는 생성된 실행 명령 스크립트를 포함하는 응답 정보를 생성할 수 있다.As described above, when an executable word and a command corresponding to the first and second utterance elements are acquired, the interactive server combines the obtained executable word " $ 0 (content name) $ "and the command" content_search " ($ 0 (content name) $) ". When such an execution command script is generated, the
이하에서는, 사용자의 발화 음성으로부터 추출된 제1 및 제2 발화 요소에 대응되는 실행어 및 명령어가 부존재하는 경우, 대화형 서버(200)에서 사용자의 발화 음성에 대한 응답 정보를 생성하는 방법에 대해서 설명하도록 한다.Hereinafter, a method of generating response information for the user's utterance voice in the
예를 들어, "첫번째 거 선택해줘"라는 발화 음성의 경우, 대화형 서버(200)는 "첫번째"라는 제1 발화 요소와 "선택해줘"라는 제2 발화 요소를 추출할 수 있다. 이 같은 제1 및 제2 발화 요소가 추출되면, 대화형 서버(200)는 제1 및 제2 발화 요소에 대응되는 실행어 및 명령어가 기저장되어 있는지 여부를 판단한다. 구체적으로, 대화형 서버(200)는 기저장된 제1 발화 요소별 정의된 실행어를 참조하여 "첫번째"라는 제1 발화 요소에 대응되는 실행어 "$1st$"를 획득할 수 있다. 한편, 대화형 서버(200)는 추출된 제1 발화 요소에 기초하여 실행 영역 판단이 가능한지 여부를 판단한다. 판단 결과, "첫번째"에 대한 제1 발화 요소로부터 실행 영역이 불가능한 것으로 판단되면, 대화형 서버(200)는 기저장된 제2 발화 요소별 정의된 명령어로부터 "선택해줘"라는 제2 발화 요소에 대응되는 명령어를 획득하지 못한다. 따라서, 대화형 서버(200)는 "첫번째 거 선택해줘"라는 발화 음성으로부터 발화 음성에 대한 서비스를 제공하기 위한 실행 영역 및 실행 명령이 불명확한 것으로 판단한다. 이 같은 판단 결과에 따라, 대화형 서버(200)는 기저장된 발화 이력 정보 중 "첫번째 거 선택해줘"라는 발화 음성이 수신된 시점을 기준으로 기설정된 시간 범위 이내에 저장된 발화 이력 정보가 있는지 여부를 판단한다. 즉, 대화형 서버(200)는 기저장된 발화 이력 정보 중 "첫번째 거 선택해줘"라는 발화 음성이 수신된 시간과 가장 최근에 저장된 이전 발화 이력 정보의 시간 차이가 기설정된 시간 범위 내에 속하는지 여부를 판단한다. 판단 결과, 이전 발화 이력 정보가 기설정된 시간 범위 내에 속하지 않은 것으로 판단되면, 대화형 서버(200)는 "첫번째 거 선택해줘"라는 발화 음성에 대한 응답 정보를 생성하지 않는다. 한편, 이전 발화 이력 정보가 기설정된 시간 범위 내에 속하는 것으로 판단되면, 대화형 서버(200)는 이전 발화 이력 정보에 포함된 발화 음성의 텍스트 정보로부터 제1 및 제2 발화 요소를 추출한다.For example, in the case of a utterance voice "select first",
예를 들어, 이전 발화 이력 정보에 포함된 발화 음성이 "○○○(컨텐츠명) 찾아줘"이면, 대화형 서버(200)는 "○○○(컨텐츠명)"에 대한 제1 발화 요소와 "찾아줘"라는 제2 발화 요소를 추출한다. 이후, 대화형 서버(200)는 이전 발화 이력 정보에 포함된 발화 음성으로부터 추출된 제1 및 제2 발화 요소 중 "○○○(컨텐츠명)"에 대한 제1 발화 요소에 기초하여 "첫번째"에 대한 제1 발화 요소가 "○○○(컨텐츠명)"에 대한 제1 발화 요소인 것으로 추정한다. 이후, 대화형 서버(200)는 추정된 제1 발화 요소에 기초하여 실행 영역이 장치 UI 제어인 것으로 판단하고, 기저장된 제2 발화 요소별 정의된 명령어 중 장치 UI 제어에 대응되는 명령어 "device_select"를 획득할 수 있다. 이후, 대화형 서버(200)는 기획득한 제1 발화 요소에 대응되는 실행어 "$1st$"와 제2 발화 요소에 대응되는 명령어 "device_select"를 조합하여 "device_select($1st$)"라는 실행 명령 스크립트를 생성한다. 이 같은 실행 명령 스크립트가 생성되면, 대화형 서버(200)는 생성된 실행 명령 스크립트를 포함하는 응답 정보를 생성할 수 있다.For example, if the utterance voice included in the previous utterance history information is "ooooo (content name) found ", the
이와 같이, 본 발명에 따른 대화형 서버(200)는 사용자의 발화 음성을 분석하여 사용자의 발화 의도를 파악하고, 그 파악된 발화 의도에 기초하여 응답 정보 생성 여부를 판단한다. 판단 결과, 사용자의 발화 의도에 기초하여 응답 정보 생성이 불가능하면, 대화형 서버(200)는 사용자의 이전 발화 음성에 기초하여 현재 사용자의 발화 음성에 대한 응답 정보를 생성할 수 있다. 따라서, 사용자는 특정 발화에 국한되지 않고 자신이 표현하고자 하는 방식대로 발화하여 그에 따른 서비스를 제공받을 수 있다.In this way, the
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다.The present invention has been described with reference to the preferred embodiments.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is clearly understood that the same is by way of illustration and example only and is not to be construed as limiting the scope of the invention as defined by the appended claims. It will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention.
10 : 제1 서버
20 : 제2 서버
100 : 디스플레이 장치
110 : 입력부
120,210 : 통신부
130 : 디스플레이부
140,250 : 제어부
150,230 : 저장부
200 : 대화형 서버
220 : 음성 처리부
240 : 추출부
300 : 컨텐츠 제공 서버
400 : 외부 서버10: first server 20: second server
100: display device 110: input part
120, 210: communication unit 130:
140, 250:
200: interactive server 220: audio processing unit
240: Extracting unit 300: Content providing server
400: external server
Claims (41)
제1 발화 음성이 수신되면 상기 제1 발화 음성에 대응되는 제1 응답 정보에 기초하여 제1 응답 메시지를 출력하는 단계; 및
제2 발화 음성이 수신되면 상기 제2 발화 음성에 대응되는 제2 응답 정보에 기초하여 제2 응답 메시지를 출력하는 단계;를 포함하며,
상기 제2 응답 정보는 발화 이력 정보 및 화면상에 표시된 객체의 표시 상태에 기초하여 생성되고, 상기 발화 이력 정보는 상기 제1 응답 정보를 포함하는 것인, 디스플레이 장치의 제어 방법.A method of controlling a display device,
Outputting a first response message based on first response information corresponding to the first utterance voice when a first utterance voice is received; And
And outputting a second response message based on the second response information corresponding to the second utterance voice when the second utterance voice is received,
Wherein the second response information is generated based on ignition history information and a display state of an object displayed on the screen, and the ignition history information includes the first response information.
상기 발화 이력 정보는 상기 제1 발화 음성에 관한 정보를 더 포함하는 것을 특징으로 하는 디스플레이 장치의 제어 방법.The method according to claim 1,
Wherein the ignition history information further includes information on the first utterance voice.
상기 제1 발화 음성이 상기 디스플레이 장치의 기능을 제어하기 위한 제어 정보를 포함하는지 여부를 판단하는 단계; 및
상기 제1 발화 음성이 상기 제어 정보를 포함하면 상기 제1 발화 음성에 대응되는 기능을 수행하는 단계;를 더 포함하는 것을 특징으로 하는 디스플레이 장치의 제어 방법.The method according to claim 1,
Determining whether the first utterance voice includes control information for controlling the function of the display device; And
And performing a function corresponding to the first utterance voice if the first utterance voice includes the control information.
상기 제2 발화 음성이 상기 디스플레이 장치의 기능을 제어하기 위한 제어 정보를 포함하는지 여부를 판단하는 단계; 및
상기 제2 발화 음성이 상기 제어 정보를 포함하면 상기 제2 발화 음성에 대응되는 기능을 수행하는 단계;를 더 포함하는 것을 특징으로 하는 디스플레이 장치의 제어 방법.The method according to claim 1,
Determining whether the second utterance voice includes control information for controlling the function of the display device; And
And performing a function corresponding to the second utterance voice if the second utterance voice includes the control information.
상기 제어 정보는 상기 디스플레이 장치의 볼륨을 제어하기 위한 정보를 포함하고,
상기 기능은 볼륨 조정 기능인 것을 특징으로 하는 디스플레이 장치의 제어 방법.The method according to claim 3 or 4,
Wherein the control information includes information for controlling a volume of the display device,
Wherein the function is a volume adjustment function.
상기 제2 응답 정보는,
상기 제2 발화 음성 및 상기 제2 발화 음성이 수신되기 이전에 가장 최근에 획득된 발화 이력 정보에 기초하여 생성되는 것을 특징으로 하는 디스플레이 장치의 제어 방법.The method according to claim 1,
Wherein the second response information comprises:
Wherein the first and second utterances are generated based on the utterance history information most recently obtained before the second utterance voice and the second utterance voice are received.
상기 제1 응답 메시지를 출력하는 단계는,
컨텐츠 검색을 요청하는 발화 음성이 수신되면 컨텐츠 검색 정보에 기초하여 컨텐츠 검색 결과 메시지를 출력하는 단계를 포함하고,
상기 제2 응답 메시지를 출력하는 단계는,
상기 컨텐츠와 관련된 발화 음성이 수신되면 컨텐츠 실행 관련 응답 정보에 기초하여 상기 컨텐츠와 관련된 발화 음성에 대응되는 응답 메시지를 출력하는 단계를 포함하며,
상기 컨텐츠 실행 관련 응답 정보는 상기 컨텐츠와 관련된 발화 음성 및 상기 컨텐츠 검색 정보 중 적어도 하나에 기초하여 생성되는 것을 특징으로 하는 디스플레이 장치의 제어 방법.The method according to claim 1,
Wherein the outputting of the first response message comprises:
And outputting a content search result message based on the content search information when a speech sound requesting a content search is received,
Wherein the outputting of the second response message comprises:
And outputting a response message corresponding to a speech sound related to the content based on the response to the content execution when the speech sound associated with the content is received,
Wherein the content execution related response information is generated based on at least one of a speech sound related to the content and the content search information.
상기 제1 응답 정보는,
상기 제1 발화 음성에 대응되는 실행어 및 명령어를 포함하거나, 상기 실행어 및 명령어에 기초하여 획득된 정보를 포함하는 것을 특징으로 하는 디스플레이 장치의 제어 방법.The method according to claim 1,
Wherein the first response information comprises:
And an execution word and a command corresponding to the first utterance voice, or information obtained based on the executable word and the command word.
상기 제1 발화 음성은 실행 대상을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 포함하며,
상기 실행어는 상기 제1 발화 요소에 대응되고 상기 명령어는 상기 제2 발화 요소에 대응되는 것을 특징으로 하는 디스플레이 장치의 제어 방법.9. The method of claim 8,
Wherein the first utterance voice includes a first utterance element representing an execution object and a second utterance element representing an execution command,
Wherein the execution word corresponds to the first speech element and the instruction word corresponds to the second speech element.
상기 제2 응답 정보는,
상기 제2 발화 음성에 대응되는 실행어 및 명령어를 포함하거나, 상기 실행어 및 명령어에 기초하여 획득된 정보를 포함하는 것을 특징으로 하는 디스플레이 장치의 제어 방법.The method according to claim 1,
Wherein the second response information comprises:
And an execution word and a command corresponding to the second utterance voice, or information obtained based on the executable word and the command word.
상기 제2 발화 음성은 실행 대상을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 포함하며,
상기 실행어는 상기 제1 발화 요소에 대응되고 상기 명령어는 상기 제2 발화 요소에 대응되는 것을 특징으로 하는 디스플레이 장치의 제어 방법.11. The method of claim 10,
Wherein the second utterance voice includes a first utterance element representing an execution object and a second utterance element representing an execution command,
Wherein the execution word corresponds to the first speech element and the instruction word corresponds to the second speech element.
상기 발화 이력 정보는,
상기 제1 발화 음성이 수신되기 이전에 수신된 적어도 하나의 발화 음성 및 상기 적어도 하나의 발화 음성에 대응되는 응답정보를 포함하는 것을 특징으로 하는 디스플레이 장치의 제어 방법.The method according to claim 1,
Wherein the ignition history information
And at least one speech sound received before the first speech sound is received and response information corresponding to the at least one speech sound.
상기 실행어 및 명령어는 조합되어 실행 명령 스크립트로 생성되는 것을 특징으로 하는 디스플레이 장치의 제어 방법.10. The method of claim 9,
Wherein the execution word and the command are combined to generate an execution command script.
상기 제2 응답 메시지를 출력하는 단계는,
상기 제2 발화 음성이 상기 디스플레이 장치의 기능을 제어하기 위한 제어 정보를 포함하면 상기 제2 발화 음성에 대응되는 기능을 수행하고,
상기 제2 발화 음성이 상기 제어 정보를 포함하지 않으면 상기 제2 응답 메시지를 출력하는 것을 특징으로 하는 디스플레이 장치의 제어 방법.The method according to claim 1,
Wherein the outputting of the second response message comprises:
Performing a function corresponding to the second utterance voice if the second utterance voice includes control information for controlling the function of the display device,
And outputs the second response message if the second speech voice does not include the control information.
제1 발화 음성이 수신되면 상기 제1 발화 음성에 대응되는 제1 응답 정보에 기초하여 제1 응답 메시지를 출력하는 단계; 및
제2 발화 음성이 수신되면 상기 제2 발화 음성에 대응되는 제2 응답 정보에 기초하여 제2 응답 메시지를 출력하는 단계;를 포함하며,
상기 제2 응답 정보는 발화 이력 정보 및 화면상에 표시된 객체의 표시 상태에 기초하여 생성되고, 상기 발화 이력 정보는 상기 제1 발화 음성에 관한 정보를 포함하는 것인, 디스플레이 장치의 제어 방법.A method of controlling a display device,
Outputting a first response message based on first response information corresponding to the first utterance voice when a first utterance voice is received; And
And outputting a second response message based on the second response information corresponding to the second utterance voice when the second utterance voice is received,
Wherein the second response information is generated based on ignition history information and a display state of an object displayed on the screen, and the ignition history information includes information on the first speech voice.
상기 발화 이력 정보는 상기 제1 응답 정보를 더 포함하는 것을 특징으로 하는 디스플레이 장치의 제어 방법.16. The method of claim 15,
Wherein the ignition history information further includes the first response information.
상기 제1 발화 음성이 상기 디스플레이 장치의 기능을 제어하기 위한 제어 정보를 포함하는지 여부를 판단하는 단계; 및
상기 제1 발화 음성이 상기 제어 정보를 포함하면 상기 제1 발화 음성에 대응되는 기능을 수행하는 단계;를 더 포함하는 것을 특징으로 하는 디스플레이 장치의 제어 방법.16. The method of claim 15,
Determining whether the first utterance voice includes control information for controlling the function of the display device; And
And performing a function corresponding to the first utterance voice if the first utterance voice includes the control information.
상기 제2 발화 음성이 상기 디스플레이 장치의 기능을 제어하기 위한 제어 정보를 포함하는지 여부를 판단하는 단계; 및
상기 제2 발화 음성이 상기 제어 정보를 포함하면 상기 제2 발화 음성에 대응되는 기능을 수행하는 단계;를 더 포함하는 것을 특징으로 하는 디스플레이 장치의 제어 방법.16. The method of claim 15,
Determining whether the second utterance voice includes control information for controlling the function of the display device; And
And performing a function corresponding to the second utterance voice if the second utterance voice includes the control information.
상기 제어 정보는 상기 디스플레이 장치의 볼륨을 제어하기 위한 정보를 포함하고,
상기 기능은 볼륨 조정 기능인 것을 특징으로 하는 디스플레이 장치의 제어 방법.The method according to claim 17 or 18,
Wherein the control information includes information for controlling a volume of the display device,
Wherein the function is a volume adjustment function.
상기 제2 응답 메시지를 출력하는 단계는,
상기 제2 발화 음성이 상기 디스플레이 장치의 기능을 제어하기 위한 제어 정보를 포함하면 상기 제2 발화 음성에 대응되는 기능을 수행하고,
상기 제2 발화 음성이 상기 제어 정보를 포함하지 않으면 상기 제2 응답 메시지를 출력하는 것을 특징으로 하는 디스플레이 장치의 제어 방법.16. The method of claim 15,
Wherein the outputting of the second response message comprises:
Performing a function corresponding to the second utterance voice if the second utterance voice includes control information for controlling the function of the display device,
And outputs the second response message if the second speech voice does not include the control information.
디스플레이;
서버 장치와 통신을 수행하는 통신부; 및
수신된 제1 발화 음성에 대한 발화 음성 신호를 상기 서버 장치로 전송하여 상기 제1 발화 음성에 대응되는 제1 응답 정보를 수신하도록 상기 통신부를 제어하고 상기 수신된 제1 응답 정보에 기초하여 제1 응답 메시지를 상기 디스플레이를 통해 출력하도록 제어하며,
수신된 제2 발화 음성에 대한 발화 음성 신호를 상기 서버 장치로 전송하여 상기 제2 발화 음성에 대응되는 제2 응답 정보를 수신하도록 상기 통신부를 제어하고 상기 수신된 제2 응답 정보에 기초하여 제2 응답 메시지를 상기 디스플레이를 통해 출력하도록 제어하는 제어부;를 포함하며,
상기 제2 응답 정보는 발화 이력 정보 및 화면상에 표시된 객체의 표시 상태에 기초하여 생성되고, 상기 발화 이력 정보는 상기 제1 응답 정보를 포함하는 것인, 디스플레이 장치.In the display device,
display;
A communication unit for performing communication with the server device; And
Controls the communication unit to receive the first response information corresponding to the first speech voice by transmitting a speech voice signal for the received first speech voice to the server apparatus, To output a response message through the display,
Controls the communication unit to receive the second response information corresponding to the second speech voice by transmitting a speech voice signal for the received second speech voice to the server apparatus, And a control unit for controlling to output a response message through the display,
Wherein the second response information is generated based on ignition history information and a display state of an object displayed on the screen, and the ignition history information includes the first response information.
상기 발화 이력 정보는 상기 제1 발화 음성에 관한 정보를 더 포함하는 것을 특징으로 하는 디스플레이 장치.22. The method of claim 21,
And the ignition history information further includes information on the first utterance voice.
상기 제어부는,
상기 제1 발화 음성이 상기 디스플레이 장치의 기능을 제어하기 위한 제어 정보를 포함하는지 여부를 판단하고, 상기 제1 발화 음성이 상기 제어 정보를 포함하면 상기 제1 발화 음성에 대응되는 기능을 수행하는 것을 특징으로 하는 디스플레이 장치.22. The method of claim 21,
Wherein,
Determining whether or not the first utterance voice includes control information for controlling the function of the display device and performing a function corresponding to the first utterance voice if the first utterance voice includes the control information .
상기 제어부는,
상기 제2 발화 음성이 상기 디스플레이 장치의 기능을 제어하기 위한 제어 정보를 포함하는지 여부를 판단하고, 상기 제2 발화 음성이 상기 제어 정보를 포함하면 상기 제2 발화 음성에 대응되는 기능을 수행하는 것을 특징으로 하는 디스플레이 장치.22. The method of claim 21,
Wherein,
Determining whether the second utterance voice includes control information for controlling the function of the display device and performing a function corresponding to the second utterance voice if the second utterance voice includes the control information .
상기 제어 정보는 상기 디스플레이 장치의 볼륨을 제어하기 위한 정보를 포함하고,
상기 기능은 볼륨 조정 기능인 것을 특징으로 하는 디스플레이 장치.25. The method according to claim 23 or 24,
Wherein the control information includes information for controlling a volume of the display device,
Wherein the function is a volume adjustment function.
저장부;를 더 포함하며,
상기 제어부는,
상기 발화 이력 정보를 상기 저장부에 저장하는 것을 특징으로 하는 디스플레이 장치.22. The method of claim 21,
And a storage unit,
Wherein,
And stores the ignition history information in the storage unit.
상기 제2 응답 정보는,
상기 제2 발화 음성 및 상기 제2 발화 음성이 수신되기 이전에 가장 최근에 획득된 발화 이력 정보에 기초하여 생성되는 것을 특징으로 하는 디스플레이 장치.22. The method of claim 21,
Wherein the second response information comprises:
Is generated based on the speech history information most recently obtained before the second speech speech and the second speech speech are received.
상기 제어부는,
컨텐츠 검색을 요청하는 발화 음성이 수신되면 컨텐츠 검색 정보에 기초하여 컨텐츠 검색 결과 메시지를 출력하고,
상기 컨텐츠와 관련된 발화 음성이 수신되면 컨텐츠 실행 관련 응답 정보에 기초하여 상기 컨텐츠와 관련된 발화 음성에 대응되는 응답 메시지를 출력하며,
상기 컨텐츠 실행 관련 응답 정보는 상기 컨텐츠와 관련된 발화 음성 및 상기 컨텐츠 검색 정보 중 적어도 하나에 기초하여 생성되는 것을 특징으로 하는 디스플레이 장치.22. The method of claim 21,
Wherein,
A content search result message is output based on the content search information when a spoken voice requesting the content search is received,
A response message corresponding to a speech sound associated with the content is output based on response information related to the execution of the content when the speech sound associated with the content is received,
Wherein the content execution related response information is generated based on at least one of a speech sound associated with the content and the content search information.
상기 제1 응답 정보는,
상기 제1 발화 음성에 대응되는 실행어 및 명령어를 포함하거나, 상기 실행어 및 명령어에 기초하여 획득된 정보를 포함하는 것을 특징으로 하는 디스플레이 장치.22. The method of claim 21,
Wherein the first response information comprises:
An executable word and an instruction corresponding to the first utterance voice, or information obtained based on the executable word and the instruction word.
상기 제1 발화 음성은 실행 대상을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 포함하며,
상기 실행어는 상기 제1 발화 요소에 대응되고 상기 명령어는 상기 제2 발화 요소에 대응되는 것을 특징으로 하는 디스플레이 장치.30. The method of claim 29,
Wherein the first utterance voice includes a first utterance element representing an execution object and a second utterance element representing an execution command,
Wherein the execution word corresponds to the first speech element and the instruction word corresponds to the second speech element.
상기 제2 응답 정보는,
상기 제2 발화 음성에 대응되는 실행어 및 명령어를 포함하거나, 상기 실행어 및 명령어에 기초하여 획득된 정보를 포함하는 것을 특징으로 하는 디스플레이 장치.22. The method of claim 21,
Wherein the second response information comprises:
And an execution word and an instruction corresponding to the second utterance voice, or information obtained based on the executable word and the instruction word.
상기 제2 발화 음성은 실행 대상을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 포함하며,
상기 실행어는 상기 제1 발화 요소에 대응되고 상기 명령어는 상기 제2 발화 요소에 대응되는 것을 특징으로 하는 디스플레이 장치.32. The method of claim 31,
Wherein the second utterance voice includes a first utterance element representing an execution object and a second utterance element representing an execution command,
Wherein the execution word corresponds to the first speech element and the instruction word corresponds to the second speech element.
상기 발화 이력 정보는,
상기 제1 발화 음성이 수신되기 이전에 수신된 적어도 하나의 발화 음성 및 상기 적어도 하나의 발화 음성에 대응되는 응답 정보를 포함하는 것을 특징으로 하는 디스플레이 장치.22. The method of claim 21,
Wherein the ignition history information
And at least one speech sound received before the first speech sound is received and response information corresponding to the at least one speech sound.
상기 실행어 및 명령어는 조합되어 실행 명령 스크립트로 생성되는 것을 특징으로 하는 디스플레이 장치.31. The method of claim 30,
Wherein the execution word and the command are combined to be generated as an execution command script.
상기 제어부는,
상기 제2 발화 음성이 상기 디스플레이 장치의 기능을 제어하기 위한 제어 정보를 포함하면 상기 제2 발화 음성에 대응되는 기능을 수행하고,
상기 제2 발화 음성이 상기 제어 정보를 포함하지 않으면 상기 제2 응답 메시지를 출력하는 것을 특징으로 하는 디스플레이 장치.22. The method of claim 21,
Wherein,
Performing a function corresponding to the second utterance voice if the second utterance voice includes control information for controlling the function of the display device,
And outputs the second response message if the second speech voice does not include the control information.
디스플레이;
서버 장치와 통신을 수행하는 통신부; 및
수신된 제1 발화 음성에 대한 발화 음성 신호를 상기 서버 장치로 전송하여 상기 제1 발화 음성에 대응되는 제1 응답 정보를 수신하도록 상기 통신부를 제어하고 상기 수신된 제1 응답 정보에 기초하여 제1 응답 메시지를 상기 디스플레이를 통해 출력하도록 제어하며,
수신된 제2 발화 음성에 대한 발화 음성 신호를 상기 서버 장치로 전송하여 상기 제2 발화 음성에 대응되는 제2 응답 정보를 수신하도록 상기 통신부를 제어하고 상기 수신된 제2 응답 정보에 기초하여 제2 응답 메시지를 상기 디스플레이를 통해 출력하도록 제어하는 제어부;를 포함하며,
상기 제2 응답 정보는 발화 이력 정보 및 화면상에 표시된 객체의 표시 상태에 기초하여 생성되고, 상기 발화 이력 정보는 상기 제1 발화 음성에 관한 정보를 포함하는 것인, 디스플레이 장치.In the display device,
display;
A communication unit for performing communication with the server device; And
Controls the communication unit to receive the first response information corresponding to the first speech voice by transmitting a speech voice signal for the received first speech voice to the server apparatus, To output a response message through the display,
Controls the communication unit to receive the second response information corresponding to the second speech voice by transmitting a speech voice signal for the received second speech voice to the server apparatus, And a control unit for controlling to output a response message through the display,
Wherein the second response information is generated on the basis of the speech history information and the display state of the object displayed on the screen, and the speech history information includes information on the first speech speech.
상기 발화 이력 정보는 상기 제1 응답 정보를 더 포함하는 것을 특징으로 하는 디스플레이 장치.37. The method of claim 36,
Wherein the ignition history information further includes the first response information.
상기 제어부는,
상기 제1 발화 음성이 상기 디스플레이 장치의 기능을 제어하기 위한 제어 정보를 포함하는지 여부를 판단하고, 상기 제1 발화 음성이 상기 제어 정보를 포함하면 상기 제1 발화 음성에 대응되는 기능을 수행하는 것을 특징으로 하는 디스플레이 장치.37. The method of claim 36,
Wherein,
Determining whether or not the first utterance voice includes control information for controlling the function of the display device and performing a function corresponding to the first utterance voice if the first utterance voice includes the control information .
상기 제어부는,
상기 제2 발화 음성이 상기 디스플레이 장치의 기능을 제어하기 위한 제어 정보를 포함하는지 여부를 판단하고, 상기 제2 발화 음성이 상기 제어 정보를 포함하면 상기 제2 발화 음성에 대응되는 기능을 수행하는 것을 특징으로 하는 디스플레이 장치.37. The method of claim 36,
Wherein,
Determining whether the second utterance voice includes control information for controlling the function of the display device and performing a function corresponding to the second utterance voice if the second utterance voice includes the control information .
상기 제어 정보는 상기 디스플레이 장치의 볼륨을 제어하기 위한 정보를 포함하고,
상기 기능은 볼륨 조정 기능인 것을 특징으로 하는 디스플레이 장치.40. The method of claim 38 or 39,
Wherein the control information includes information for controlling a volume of the display device,
Wherein the function is a volume adjustment function.
상기 제어부는,
상기 제2 발화 음성이 상기 디스플레이 장치의 기능을 제어하기 위한 제어 정보를 포함하면 상기 제2 발화 음성에 대응되는 기능을 수행하고,
상기 제2 발화 음성이 상기 제어 정보를 포함하지 않으면 상기 제2 응답 메시지를 출력하는 것을 특징으로 하는 디스플레이 장치.37. The method of claim 36,
Wherein,
Performing a function corresponding to the second utterance voice if the second utterance voice includes control information for controlling the function of the display device,
And outputs the second response message if the second speech voice does not include the control information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160004252A KR101660269B1 (en) | 2016-01-13 | 2016-01-13 | Interactive server, control method thereof and interactive system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160004252A KR101660269B1 (en) | 2016-01-13 | 2016-01-13 | Interactive server, control method thereof and interactive system |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130001829A Division KR20140089871A (en) | 2013-01-07 | 2013-01-07 | Interactive server, control method thereof and interactive system |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160012233A true KR20160012233A (en) | 2016-02-02 |
KR101660269B1 KR101660269B1 (en) | 2016-09-27 |
Family
ID=55354570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160004252A KR101660269B1 (en) | 2016-01-13 | 2016-01-13 | Interactive server, control method thereof and interactive system |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101660269B1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200042627A (en) | 2018-10-16 | 2020-04-24 | 삼성전자주식회사 | Electronic apparatus and controlling method thereof |
-
2016
- 2016-01-13 KR KR1020160004252A patent/KR101660269B1/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR101660269B1 (en) | 2016-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11854570B2 (en) | Electronic device providing response to voice input, and method and computer readable medium thereof | |
JP6802305B2 (en) | Interactive server, display device and its control method | |
US9721572B2 (en) | Device control method and electric device | |
KR102056461B1 (en) | Display apparatus and method for controlling the display apparatus | |
KR102215579B1 (en) | Interactive system, display apparatus and controlling method thereof | |
US20140122075A1 (en) | Voice recognition apparatus and voice recognition method thereof | |
KR102084739B1 (en) | Interactive sever, display apparatus and control method thereof | |
KR101914708B1 (en) | Server and method for controlling the same | |
KR20140074229A (en) | Speech recognition apparatus and control method thereof | |
US20130041666A1 (en) | Voice recognition apparatus, voice recognition server, voice recognition system and voice recognition method | |
US10535337B2 (en) | Method for correcting false recognition contained in recognition result of speech of user | |
US20140123185A1 (en) | Broadcast receiving apparatus, server and control methods thereof | |
KR20140087717A (en) | Display apparatus and controlling method thereof | |
KR20150054490A (en) | Voice recognition system, voice recognition server and control method of display apparatus | |
KR101660269B1 (en) | Interactive server, control method thereof and interactive system | |
KR102049833B1 (en) | Interactive server, display apparatus and controlling method thereof | |
KR102160756B1 (en) | Display apparatus and method for controlling the display apparatus | |
KR20140137263A (en) | Interactive sever, display apparatus and control method thereof | |
KR20140115844A (en) | Interactive sever, display apparatus and control method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20190829 Year of fee payment: 4 |