[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR20210014625A - 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템 - Google Patents

정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템 Download PDF

Info

Publication number
KR20210014625A
KR20210014625A KR1020207032537A KR20207032537A KR20210014625A KR 20210014625 A KR20210014625 A KR 20210014625A KR 1020207032537 A KR1020207032537 A KR 1020207032537A KR 20207032537 A KR20207032537 A KR 20207032537A KR 20210014625 A KR20210014625 A KR 20210014625A
Authority
KR
South Korea
Prior art keywords
user
agent
information
external agent
information processing
Prior art date
Application number
KR1020207032537A
Other languages
English (en)
Inventor
마사히로 하라
신페이 가메오카
Original Assignee
소니 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 주식회사 filed Critical 소니 주식회사
Publication of KR20210014625A publication Critical patent/KR20210014625A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/654Transmission by server directed to the client
    • H04N21/6543Transmission by server directed to the client for forcing some client operations, e.g. recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6582Data stored in the client, e.g. viewing habits, hardware capabilities, credit card number
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

음성을 베이스로 하는 에이전트의 대화를 처리하는 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템을 제공한다. 정보 처리 장치는, 제1 기기에 상주하는 에이전트를 통한 유저와의 대화에 관한 정보를 수신하는 통신부와, 외부 에이전트 서비스를 제어하는 제어부를 구비한다. 상기 제어부는, 유저의 화상 또는 음성, 유저에 의한 상기 제1 기기의 조작에 관한 정보, 상기 제1 기기가 장비하는 센서가 검출한 센서 정보 중 적어도 하나를 포함하는 상기 정보를 수집한다. 상기 제어부는, 외부 에이전트 서비스의 호출을 제어한다.

Description

정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템
본 명세서에서 개시하는 기술은, 음성을 베이스로 하는 에이전트의 대화를 처리하는 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템에 관한 것이다.
최근, 음성 등을 사용하여 유저와 대화를 행하면서 용도나 상황에 따라서 다양한 정보를 유저에게 제시하는 에이전트가 보급되기 시작하였다. 예를 들어, 조명이나 에어컨 등의 가전 기기의 온/오프나 조정 조작을 대행하는 것 외에, 일기예보나 주식·환율 정보, 뉴스에 대해 물어보면 음성으로 회답하거나, 상품의 주문을 접수하거나, 구입한 서적의 내용을 낭독하거나 하는 에이전트가 알려져 있다.
에이전트 기능은 일반적으로, 가정 내 등에서 유저의 주위에 설치되는 에이전트 디바이스와, 클라우드상에 구축되는 에이전트 서비스의 연계에 의해 제공된다(예를 들어, 특허문헌 1을 참조). 예를 들어, 에이전트 디바이스는, 유저가 발화하는 음성을 접수하는 음성 입력, 그리고 유저로부터의 문의에 대해 음성으로 회답하는 음성 출력과 같은 유저 인터페이스를 주로 제공한다. 한편, 에이전트 서비스측에서는, 에이전트 디바이스에 입력된 음성의 인식이나 의미 해석, 유저의 문의에 따른 정보 검색 등의 처리, 처리 결과에 기초하는 음성 합성 등, 부하가 높은 처리를 실행한다.
또한, 유저와 직접 대화를 행하는 에이전트 디바이스는, 전용의 장치인 것 외에, 옥내에 설치된 텔레비전 수상기, 에어컨, 녹화기, 세탁기 등의 각종 CE 기기나 IoT(Internet of Thing) 디바이스, 스마트폰이나 태블릿 등의 운반이 가능한 정보 단말기, 대화형 로봇, 차내에 설치된 카 내비게이션 등, 에이전트용 애플리케이션이 상주하는 각종 정보 기기여도 된다(예를 들어, 특허문헌 1을 참조).
일본 특허 공표 제2017-527844호 공보 WO2014/203495 일본 특허 공개 제2007-143010호 공보 일본 특허 공개 제2016-100613호 공보
본 명세서에서 개시하는 기술의 목적은, 음성을 베이스로 하는 에이전트의 대화를 처리하는 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템을 제공하는 데 있다.
본 명세서에서 개시하는 기술의 제1 측면은,
제1 기기에 상주하는 에이전트를 통한 유저와의 대화에 관한 정보를 수신하는 통신부와,
외부 에이전트 서비스를 제어하는 제어부
를 구비하는 정보 처리 장치이다.
상기 제어부는, 유저의 화상 또는 음성, 유저에 의한 상기 제1 기기의 조작에 관한 정보, 상기 제1 기기가 장비하는 센서가 검출한 센서 정보 중 적어도 하나를 포함하는 상기 정보를 수집한다.
또한 상기 제어부는, 각 외부 에이전트 서비스의 호출 사양에 적합하도록 형식 변환하고 나서 호출을 실행한다. 구체적으로는, 상기 제어부는, 제1 외부 에이전트 서비스로의 호출 내용을 음성 합성하여, 상기 제1 외부 에이전트 서비스의 호출을 행하거나, 또는 제2 외부 에이전트 서비스로의 호출 내용을 음성 합성하고, 상기 제1 기기로부터 상기 제2 외부 에이전트 서비스의 제어하의 외부 에이전트 디바이스에 대해 음성에 의한 호출을 행한다.
또한, 본 명세서에서 개시하는 기술의 제2 측면은, 유저와의 대화에 관한 정보가 처리되어 생성된, 상기 유저에 대한 회답을 수신하는 통신부와,
상기 회답을 출력하는 출력부
를 구비하는 정보 처리 장치이다.
또한, 본 명세서에서 개시하는 기술의 제3 측면은,
제1 기기에 상주하는 에이전트를 통한 유저와의 대화에 관한 정보를 수신하는 통신 스텝과,
외부 에이전트 서비스를 제어하는 제어 스텝
을 갖는 정보 처리 방법이다.
또한, 본 명세서에서 개시하는 기술의 제4 측면은,
유저와의 대화에 관한 정보가 처리되어 생성된, 상기 유저에 대한 회답을 수신하는 통신 스텝과,
상기 회답을 출력하는 출력 스텝
을 갖는 정보 처리 방법이다.
또한, 본 명세서에서 개시하는 기술의 제5 측면은,
유저와 대화하는 에이전트가 상주하는 제1 기기와,
상기 에이전트를 통한 유저와의 대화에 관한 정보를 수신하는 통신부와,
외부 에이전트 서비스를 제어하는 제어부
를 구비하는 정보 처리 시스템이다.
단, 여기서 말하는 「시스템」이란, 복수의 장치(또는 특정 기능을 실현하는 기능 모듈)가 논리적으로 집합된 것을 의미하며, 각 장치나 기능 모듈이 단일의 하우징 내에 있는지 여부는 특별히 따지지 않는다.
본 명세서에서 개시하는 기술에 따르면, 음성을 베이스로 하는 에이전트의 대화를 처리하는 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템을 제공할 수 있다.
또한, 본 명세서에 기재된 효과는 어디까지나 예시이며, 본 발명의 효과는 이것에 한정되는 것은 아니다. 또한 본 발명이, 상기한 효과 이외에, 추가로 부가적인 효과를 발휘하는 경우도 있다.
본 명세서에서 개시하는 기술의 또 다른 목적, 특징이나 이점은, 후술하는 실시 형태나 첨부하는 도면에 기초하는 보다 상세한 설명에 의해 명백해질 것이다.
도 1은 본 명세서에서 개시하는 기술의 적용 환경의 일례를 도시한 도면이다.
도 2는 에이전트 디바이스로서 동작하는 것이 가능한 정보 기기(100)의 구성예를 모식적으로 도시한 도면이다.
도 3은 클라우드를 이용한 에이전트 클라우드 플랫폼의 구성예를 모식적으로 도시한 도면이다.
도 4는 에이전트 시스템(330)이 TV 에이전트(310)를 통해 로컬측의 정보를 수집하는 모습을 도시한 도면이다.
도 5는 에이전트 시스템(330)이 외부 에이전트 서비스(340A, 340B, 340C)를 호출하는 모습을 도시한 도면이다.
도 6은 에이전트 시스템(330)이 외부 에이전트 서비스(340)를 호출하는 모습을 예시한 도면이다.
도 7은 에이전트 시스템(330)이 유저의 프로파일 정보를 이용하여 외부 에이전트 서비스(340)를 구분하여 호출할 때의 처리 수순을 나타낸 흐름도이다.
도 8은 에이전트 시스템(330)이 유저의 민감 정보를 보호하면서 외부 에이전트 서비스(340)를 구분하여 호출할 때의 처리 수순을 나타낸 흐름도이다.
도 9는 에이전트 클라우드 플랫폼(300)에 있어서의 어카운트 관리의 일례를 도시한 도면이다.
도 10은 에이전트 시스템(330)이 유저의 상태에 따라서 외부 에이전트 서비스(340A, 340B, 340C)를 제어하는 모습을 도시한 도면이다.
이하, 도면을 참조하면서 본 명세서에서 개시하는 기술의 실시 형태에 대해 상세하게 설명한다.
도 1에는, 본 명세서에서 개시하는 기술의 적용 환경의 일례로서 거실(1)을 도시하고 있다. 사이드보드(13) 상에는, 텔레비전 수상기(11)와, 에이전트 디바이스(12)가 설치되어 있다. 후술하는 바와 같이, 텔레비전 수상기(11)는, 에이전트용 애플리케이션이 상주하며, 에이전트 디바이스로서도 동작할 수 있다.
또한, 거실(1) 내에는 텔레비전 수상기(11)와 대면하도록 소파(14)가 설치되고, 소파(14)의 전방에는 소파 테이블(15)이 구비되어 있다.
도 1에 도시하는 예에서는, 부모 자식 관계인 세 명이 소파(14)에 앉아 있다. 세 명은, 텔레비전 수상기(11)에 표시되고 있는 텔레비전 프로그램의 시청자인 동시에, 텔레비전 수상기(11) 상에서 동작하는 에이전트 혹은 에이전트 디바이스(12)의 유저이며, 에이전트에 대해 문의하고 회답을 기다린다. 또한, 각 유저는, 리모컨(도시 생략)을 사용하여 텔레비전 수상기(11)의 선국, 음량 조정, 입출력 기기의 전환 등 다양한 리모컨 조작을 행할 수 있는 것으로 한다. 혹은, 각 유저는, 텔레비전 수상기(11)에 상주하는 에이전트에 대해, 텔레비전 수상기(11)의 선국, 음량 조정, 입출력 기기의 전환 등 다양한 조작을 음성에 의해 지시할 수도 있다.
텔레비전 수상기(11)로부터 발해지는 음성의 음파는, 소파(14)에 앉아 있는 세 명에게 직접파로서 도달하는 것 외에, 벽면이나 천장, 바닥면으로부터의 반사파로서도 도달한다. 텔레비전 수상기(11)로부터 발해지는 음성에는, 선국 수신 중인 텔레비전 프로그램의 음성과 에이전트로부터 회신된 합성 음성이 포함된다. 에이전트 디바이스(12)로부터 발해지는 음성도 마찬가지로, 소파(14)에 앉아 있는 세 명에게 직접파로서 도달하는 것 외에, 벽면이나 천장, 바닥면으로부터의 반사파로서도 도달한다.
또한, 본 명세서에서 개시하는 기술의 적용 환경은, 도 1에 도시한 일반 가정 내에서 가족이 공유하는 거실에 한정되는 것은 아니다. 서재 등의 특정 유저의 개인실이나 침실 등, 에이전트 기능을 제공하는 텔레비전 수상기가 설치되는 다양한 방에도 본 명세서에서 개시하는 기술을 적용 가능하다. 또한, 가정 내뿐만 아니라 기업의 사무실에도 본 명세서에서 개시하는 기술을 적용할 수 있다.
도 2에는, 에이전트 디바이스로서 동작하는 것이 가능한 정보 기기(100)의 구성예를 모식적으로 도시하고 있다. 여기서는 정보 기기(100)로서, 도 1 중의 텔레비전 수상기(11)를 상정하고 있다. 정보 기기(100)는, 처리부(101)와, 튜너(102)와, 통신부(103)와, 표시부(104)와, 음성 입력부(105)와, 음성 출력부(106)와, 촬상부(107)와, 센서부(108)와, 리모컨 수신부(109)와, 기록부(110)를 구비하고 있다.
튜너(102)는, 지상파 방송 그리고 위성 방송의 방송 신호를 선국 수신한다. 또한, 통신부(103)는, 이더넷(등록상표) 등의 유선 통신 또는 Wi-Fi(등록상표) 등의 무선 통신을 이용하여 인터넷 등의 외부 네트워크에 접속하고 있다. 또한, 통신부(103)는, 예를 들어 DLNA(등록상표)(Digital Living Network Alliance) 등의 규격에 준하여, 홈 네트워크를 통해 가정 내의 각 CE 기기와 상호 접속하고 있어도 되고, IoT 디바이스와의 인터페이스 기능을 더 구비하고 있어도 된다.
표시부(104)는, 예를 들어 액정이나 유기 EL 소자 등으로 구성되고, 16:9의 종횡비로 이루어지는 화면을 구비하고, 튜너(102)에 의해 선국 수신한 프로그램 콘텐츠의 영상이나 EPG(Electronic Program Guide), 데이터 방송 콘텐츠를 표시하거나, OSD(On Screen Display)를 표시하거나 하는 데 사용된다. 또한, 표시부(104)의 화면의 일부 또는 전부의 영역에 터치 센서가 중첩되어 있어도 된다.
음성 입력부(105)는, 마이크 등의 수음 소자로 구성되고, 정보 기기(100)가 설치된 실내에서 발생하는 음성의 입력에 사용된다. 실내에서 발생하는 음성으로서, 텔레비전 프로그램의 시청자 혹은 음성 에이전트를 이용하는 유저에 의한 발화를 들 수 있다. 음성 입력부(105)는, 복수의 마이크를 조합한 마이크로폰 어레이를 구비하고 있어도 된다(일부 또는 전부의 마이크로폰이 정보 기기(100)에 외장형으로 접속되어 있어도 된다. 혹은, 음성 입력부(105)는, 텔레비전 수상기(11)용의 리모컨에 탑재된 마이크를 포함하고 있어도 되고, 스마트폰이나 웨어러블 기기 등 텔레비전 수상기(11)의 외부 기기에 탑재된 마이크를 포함하고 있어도 된다). 음성 입력부(105)가 복수의 마이크로폰을 구비하는 경우, 빔폼 처리에 의해 원하는 음원의 위치로부터 음성(예를 들어, 음성 에이전트에게 말을 거는 유저의 음성)을 높이거나, 반대로 불필요한 음원의 위치로부터의 음성(예를 들어, 다른 유저의 음성이나, 실내의 다른 AV 기기로부터 출력되는 음향 등)을 억압하거나 할 수 있다.
음성 출력부(106)는, 스피커 등의 음향 발생 소자로 구성된다. 음향 출력부(106)는, 튜너(102)에 의해 선국 수신한 프로그램 콘텐츠나 데이터 방송 콘텐츠의 음성 출력, 그리고 음성 에이전트로부터 회신된 합성 음성의 출력 등에 사용된다. 콘형 스피커 외에, 플랫 패널형 스피커(예를 들어, 특허문헌 3을 참조)를 음성 출력부(106)에 사용할 수 있다. 또한, 음성 출력부(106)는, 복수의 스피커를 조합한 스피커 어레이(다채널 스피커 혹은 초다채널 스피커)를 구비하고 있어도 된다(일부 또는 전부의 스피커가 정보 기기(100)에 외장형으로 접속되어 있어도 된다). 음성 출력부(106)가 복수의 스피커를 구비하는 경우, 원하는 위치에 음상을 정위시키거나(예를 들어, 음성 에이전트의 음성의 음상을, 문의한 유저에 대해 소정의 상대 위치가 되는 장소에 정위시키거나, 혹은 텔레비전 프로그램의 음성과는 섞이지 않는 장소에 정위시킴), 원하는 위치 이외의 장소로부터는 음성을 들리기 어렵게 하거나 할 수 있다. 또한, 음장에 있어서의 음성의 파면을 복수의 마이크로폰으로 수음하고, 얻어진 수음 신호에 기초하여 음장을 재현하는 「파면 합성」(예를 들어, 특허문헌 4를 참조) 등의 음장 재현 방법을 이용할 수도 있다.
촬상부(107)는, 예를 들어 CMOS(Complementary Metal Oxyde Semiconductor)나 CCD(Charge Couopled Device) 등의 이미지 센서로 이루어지는 카메라로 구성되고, 주로 정보 기기(100)의 정면 방향(예를 들어, 표시부(104)의 화면 전방)에 있는 유저를 촬상한다. 촬상부(107)는, 예를 들어 2대의 카메라를 사용한 스테레오 카메라나, 3대 이상의 카메라를 사용한 다안 카메라여도 된다. 또한, 일부 또는 전부의 카메라가 정보 기기(100)에 외장형으로 접속되어 있어도 된다.
센서부(108)는 주로, 정보 기기(100)가 설치되어 있는 실내의 환경 정보를 센싱한다. 센서부(108)의 구성(즉, 어떠한 센서 소자를 포함할지)은 임의이다. 예를 들어, 센서부(108)는 물체 검출 센서나 심도 센서를 포함하고 있어도 된다. 물체 검출 센서나 심도 센서의 검출 결과에 기초하여(필요에 따라서, 촬상부(107)에 의해 촬영한 화상에 화상 인식 결과와 함께), 실내에 설치된 가구의 레이아웃을 검출할 수 있다. 또한 센서부(108)는, 조도 센서나 온도 센서, 습도 센서 등의 환경 정보를 검출하는 환경 센서를 구비하고 있어도 된다. 또한 센서부(108)는, 적외선 센서나 인체 감지 센서를 구비하고 있어도 된다. 또한 센서부(108)는, 유저의 맥박이나 발한, 뇌파, 근전위, 호기 등을 검출하는 생체 센서를 구비하고 있어도 된다. 센서부(108)를 구성하는 센서부의 일부 또는 전부가 정보 기기(100)에 외장형으로 접속되어 있어도 된다.
리모컨 수신부(109)는, 리모컨(도시 생략)으로부터 적외선 통신이나 근거리 무선 통신 등을 이용하여 송신되는 리모컨 커맨드를 수신 처리한다. 리모컨의 조작자는, 예를 들어 도 1에 도시한 거실에 있는 텔레비전 수상기(11)의 시청 유저 등이다.
기록부(110)는, 예를 들어 HDD(Hard Disc Drive) 등의 대용량 기록 장치로 구성되고, 주로 튜너(102)에 의해 수신한 프로그램 콘텐츠의 녹화에 사용된다. 기록부(110)는, 정보 기기(100) 내에 배치되는 것 외에, HDMI(등록상표)(High Definition Multimedia Interface)나 USB(Universal Serial Bus) 등의 인터페이스를 통해 정보 기기(100)에 외장형으로 접속되는 경우도 있다.
처리부(101)는, 프로세서 및 메모리를 포함하고, 메모리에 로드한 프로그램을 실행하여 각종 처리를 실시하고, 정보 기기(100) 내의 동작을 통괄적으로 컨트롤한다. 처리부(101) 내에서는, 기본적으로는 오퍼레이팅 시스템(OS)이 제공하는 실행 환경하에서 다양한 애플리케이션이 실행된다. 예를 들어 멀티프로세서를 이용 가능한 경우, 혹은 OS에 의해 멀티스레드 실행이 가능한 경우에 있어서는, 병렬 실행 가능한 처리 단위는 모두 메모리에 판독되어 병렬 실행시킬 수 있다.
처리부(101)에 있어서 실행되는 처리로서, 리모컨 수신부(109)에 의해 수신한 리모컨 커맨드에 따른 선국, 음량 조정, 녹화, 그리고 화질 조정 등의 기기(100) 내의 조작이나, 튜너(102)에 의해 선국 수신된 프로그램 콘텐츠의 영상 및 음성 출력 처리, 기록부(110)에 녹화한 프로그램 콘텐츠의 재생 출력 처리, 튜너(102) 또는 통신부(103)를 통해 수신한 데이터 방송 애플리케이션의 실행, 음성 에이전트 등 각종 애플리케이션의 실행을 들 수 있다. 또한, 처리부(101)가 복수의 에이전트용 애플리케이션을 병렬 실행함으로써, 정보 기기(100)가 복수의 에이전트 디바이스로서 기능하는 것도 가능하다.
에이전트 기능은 일반적으로 유저의 주위에 설치되는 에이전트 디바이스와, 클라우드상에 구축되는 에이전트 서비스의 연계에 의해 제공된다. 도 3에는, 클라우드를 이용한 에이전트 클라우드 플랫폼(300)의 구성예를 모식적으로 도시하고 있다. 에이전트 클라우드 플랫폼(300)은 로컬측과 클라우드측으로 구분된다.
에이전트 클라우드 플랫폼(300)의 로컬측은 도 1에 도시한 거실(1) 등에 상당하며, TV 에이전트(310)와, 외부 에이전트 디바이스(320)를 포함하고 있다.
TV 에이전트(310)는, 정보 기기(100)(도 1 중의 텔레비전 수상기(11)에 대응)에 상주하는 에이전트이며, 정보 기기(100)가 장비하는 음성 입력부(105), 음성 출력부(106), 촬상부(107), 및 센서부(108) 등의 각 기능 모듈을 활용할 수 있다.
외부 에이전트 디바이스(320)는, 도 1 중의 에이전트 디바이스(12)에 대응한다. 외부 에이전트 디바이스(320)는, 음성 에이전트 전용 디바이스이며, 유저와 대화하기 위한 음성 입력부(321) 및 음성 출력부(322)를 구비하고 있다. 단, 외부 에이전트 디바이스(320)는 「스마트 스피커」, 「AI 스피커」, 「AI 어시스턴트」 등이라고도 불리는 음성 에이전트 전용 디바이스가 아닌, 텔레비전 수상기(11) 이외의 CE 기기나, IoT 디바이스, 정보 단말기 등에 상주하는 음성 에이전트여도 된다.
TV 에이전트(310)도, 외부 에이전트 디바이스(320)도, 유저로부터 보면, 음성 베이스로 대화를 행하는 에이전트로서 다르지 않다. 단, 전자는 텔레비전 수상기(11)를 통해 유저와 대화한다(혹은, TV와 친화성이 높은 에이전트 서비스를 제공한다)는 점에서 「TV 에이전트」라고 칭하고, 후자는 텔레비전 수상기(11)의 외부에서 유저와 대화한다(혹은, TV 방송 서비스와는 결부가 적은 에이전트 서비스를 제공한다)는 점에서 「외부 에이전트 디바이스」라고 칭하여, 편의상 양자를 구별한다.
한편, 에이전트 클라우드 플랫폼(300)의 클라우드측은, 에이전트 시스템(330)과, 복수의 외부 에이전트 서비스(340A, 340B, 340C, …)를 포함하고 있다. 에이전트 시스템(330) 그리고 외부 에이전트 서비스(340A, 340B, 340C, …)는 모두, 로컬측의 유저로부터의 문의에 회답하는 에이전트 서비스를 제공한다는 관점에서는 유저로부터 보면 다르지 않다. 단, 전자는 TV 에이전트(310)와 직접 연계하여 에이전트 서비스를 제공한다는 점에서 「에이전트 시스템」이라고 칭하고, 후자는 TV 에이전트(310)와는 직접적으로는 연계하지 않고, 텔레비전 수상기(11)의 외부로부터 에이전트 서비스를 제공한다는 점에서 「외부 에이전트 서비스」라고 칭하여, 편의상 양자를 구별한다. 에이전트 시스템(330)은, 예를 들어 텔레비전 수상기(11)의 제품 제조원 또는 판매원이 운영하는 서버 장치 상에 구축되는 경우도 있지만, 특정 운영 형태에 한정되는 것은 아니다. 또한, 외부 에이전트 서비스(340A, 340B, 340C, …) 중 적어도 일부(도 3에 도시하는 예에서는, 외부 에이전트 서비스(340C))는, 로컬측에 설치된 외부 에이전트 디바이스(320)와 직접 연계하고 있다.
에이전트 시스템(330)은, 음성 인식부(331)와, 의미 해석부(332)와, 음성 합성부(333)와, 제어부(334)를 구비하고 있다.
음성 인식부(331)는, TV 에이전트(310)측의 음성 입력부(105)에 의해 수음된 유저의 발화를 음성 인식하여 텍스트 정보로 변환한다. 의미 해석부(332)는, 음성 인식된 텍스트 정보에 기초하여 유저의 발화 데이터의 의미 해석을 행한다. 또한, 음성 합성부(333)는, 유저에 대한 회답이 되는 텍스트 정보를 음성 데이터로 변환한다. 음성 데이터는, TV 에이전트(310)로 보내지고, 음성 출력부(106)로부터 문의원인 유저에 대해 음성 출력된다. 또한, TV 에이전트(310)는 음성 출력 이외에, 표시부(104)의 화면의 영상 출력을 함께 사용하여, 유저로부터의 문의에 대한 회답을 출력하도록 해도 된다. 또한, TV 에이전트(310)는, 텔레비전 수상기(11)와 홈 네트워크 경유로 접속되는 다른 CE 기기나 IoT 디바이스의 출력 기능 등을 함께 사용하여, 유저로부터의 문의에 대한 회답을 출력하도록 해도 된다.
제어부(334)는, TV 에이전트(310)의 유저로부터의 문의에 회답하기 위한 처리를 실행한다. 예를 들어, 제어부(334)는 유저가 문의한 정보를 검색하거나, 유저가 요구한 콘텐츠를 취득하거나, 상품의 주문을 행하거나 하는 유저로부터의 문의에 회답하기 위해, 제어부(334)는 학습 기능이나 AI(Artificial Intelligence) 기능을 탑재하고 있어도 된다.
또한, 제어부(334)는, 유저로부터의 문의에 회답하기 위해, 외부 에이전트 서비스(340A, 340B, 340C, …)를 추가로 호출할 수 있다. 제어부(334)는, 요청하는 것이 가능한 모든 외부 에이전트 서비스(340A, 340B, 340C, …)를 호출해도 되고, 어느 일부의 외부 에이전트 디바이스를 선택하여 호출하도록 해도 된다. 예를 들어, 각 외부 에이전트 서비스(340A, 340B, 340C, …)가 각각 고유의 전문 분야를 갖는 경우에는, 제어부(334)는, 유저로부터의 문의 내용이나 문의한 유저의 프로파일 정보 등에 따라서 요청 대상 외부 에이전트 서비스를 취사 선택하도록 해도 된다. 또한, 유저로부터 특정 외부 에이전트 서비스를 지정하는 「기동 단어」가 음성 입력되었을 때에는, 제어부(334)는 입력된 기동 단어에 대응하는 외부 에이전트 서비스에 그대로 요청해도 되고, 기동 단어를 고려하면서 요청 대상 외부 에이전트 서비스를 취사 선택하도록 해도 된다.
또한, 에이전트 시스템(330)으로부터 외부 에이전트 서비스(340A, 340B, 340C, …)를 호출하는 방법은 몇 가지 고려된다. 예를 들어, 유저로부터의 문의를 의미 해석부(332)에서 의미 해석하여 얻은 텍스트 정보를 외부 에이전트 서비스(340B)로 송신해도 되고, 그 텍스트 정보를 음성 합성부(333)에서 음성 합성한 음성 데이터를 외부 에이전트 서비스(340A)로 송신하여, 유저로부터의 음성 입력과 같은 형태로 문의해도 된다. 혹은, 에이전트 시스템(330)이 외부 에이전트 서비스(340C)에 요청하는 경우에는, 음성 합성부(333)에서 음성 합성한 음성 데이터를 TV 에이전트(310)로 송신하여, TV 에이전트(310)의 음성 출력부(106)로부터 마치 실내의 유저가 문의하는 것과 같은 음성을 출력하여, 외부 에이전트 디바이스(320)를 통해 문의하도록 할 수도 있다.
또한, 요청 대상 외부 에이전트 서비스(340A, 340B, 340C, …)로부터 에이전트 시스템(100)에 대해 회답하는 방법도 몇 가지 고려된다. 예를 들어, 외부 에이전트 서비스(340B)와 같이, 텍스트 정보 등으로 이루어지는(혹은, 음성 합성 전의) 처리 결과가 에이전트 서비스(330)로 보내져 오는 경우가 있다. 또한, 외부 에이전트 서비스(340A, 340C)와 같이, 처리 결과를 음성 합성한 음성 데이터가 에이전트 서비스(330)로 보내져 오는 경우도 있다. 에이전트 서비스(330)는, 외부 에이전트 서비스(340A, 340C) 등으로부터 보내져 온 음성 데이터를 음성 인식하기 위한 음성 인식부(335)와, 그 음성 인식 결과를 의미 해석하는 의미 해석부(336)를 더 구비하고 있다.
그리고 제어부(334)는, 각 외부 에이전트 서비스(340A, 340B, 340C)로부터의 회답을 의미 해석 결과의 레벨로 집계하여 유저로부터의 문의에 대한 회답 문장을 생성한다. 복수의 회답을 집계하는 방법은 임의이다. 에이전트 시스템(330) 자신이 얻은 회답과 대조하여 특정 외부 에이전트 서비스로부터의 회답을 선택해도 되고, 다수결 등 소정의 선택 기준에 기초하여 특정 외부 에이전트 서비스로부터의 회답을 선택해도 되고, 복수의 외부 에이전트 서비스로부터의 회답을 합성하여 하나의 회답 문장을 생성하도록 해도 된다. 어느 경우든, 음성 합성부(333)는 제어부(334)에서 생성한 회답 문장을 음성 데이터로 변환하여 TV 에이전트(310)로 보낸다. 그리고 TV 에이전트(310)에서는, 문의원인 유저에 대한 회답의 음성이, 음성 출력부(106)로부터 유저에 대해 음성 출력된다.
또한, 에이전트 시스템(330)이 장비하는 음성 인식부(331)와, 의미 해석부(332)와, 음성 합성부(333)와, 제어부(334), 음성 인식부(335), 의미 해석부(336) 중 일부 또는 전부의 기능 모듈이 TV 에이전트(310)에 도입되어 있어도 된다. 혹은, 이들 기능 모듈(331 내지 336)이 1대의 서버 장치 상에 구축되어 있어도 되고, 복수 대의 서버 장치에 분산되어 배치되어도 된다.
각 외부 에이전트 서비스(340A, 340B, 340C, …)의 기능적 구성은 거의 마찬가지이다. 이하에서는, 대표로 외부 에이전트 서비스(340C)의 기능적 구성에 대해 설명한다.
외부 에이전트 서비스(340C)는, 음성 인식부(341C)와, 의미 해석부(342C)와, 처리부(343C)와, 음성 합성부(344C)를 구비하고 있다.
음성 인식부(341C)는, 외부 에이전트 디바이스(320)의 음성 입력부(321)에 의해 수음된 발화를 음성 인식하여 텍스트 정보로 변환한다. 또한, 음성 입력부(321)에 의해 수음하는 음성은 유저의 발화 외에, TV 에이전트(310)의 음성 출력부(106)로부터 출력하는 음성인 경우도 상정된다.
의미 해석부(342C)는, 음성 인식된 텍스트 정보에 기초하여 유저의 발화 데이터의 의미 해석을 행한다. 처리부(343C)는, 유저로부터의 문의에 회답하기 위한 처리를 실행한다. 예를 들어, 외부 에이전트 서비스(340C)를 지정하는 「기동 단어」가 유저로부터 음성 입력되었음을 의미 해석 결과에 의해 알 수 있으면, 처리부(343C)는 처리 실행을 개시한다.
음성 합성부(344C)는, 유저에 대한 회답이 되는 텍스트 정보를 음성 데이터로 변환한다. 음성 데이터는, 외부 에이전트 디바이스(320)에 보내져, 음성 출력부(322)로부터 문의원인 유저에 대해 음성 출력된다. 또한, 음성 합성부(322)에서 생성된 음성 데이터는, 외부 에이전트 디바이스(320)로 송신하여 음성 출력되는 것 외에, 에이전트 시스템(330)으로 송신되어 음성 인식부(335)에 입력되는 경우도 상정된다.
또한, 도 3에서는, 도면의 간소화를 위해, 클라우드측의 하나의 에이전트 시스템(330)이 1대의 TV 에이전트(310)에 대해 에이전트 서비스를 제공하도록 도시하였지만, 하나의 에이전트 시스템(330)이 복수 대의 텔레비전 수상기 상에서 동작하고 있는 복수의 TV 에이전트에 대해 동시에 에이전트 서비스를 제공하는 것이 상정된다. 즉, 현실적으로는 하나의 에이전트 시스템(330)이 각 가정에 설치된 다수의 텔레비전 수상기의 TV 에이전트에 대해, 동시에 에이전트 서비스를 제공한다.
또한, 도 3에서는, 지면의 사정상, 3개의 외부 에이전트 서비스(340A, 340B, 340C)를 도시하였지만, 에이전트 시스템(330)과 연계하는 외부 에이전트 서비스의 수는 3개에 한정되지 않고, 2 이하 또는 4 이상의 외부 에이전트 서비스와 연계하는 것이 상정된다.
또한, 도 3에서는, 1대의 외부 에이전트 디바이스(320)를 도시하였지만, 본 명세서에서 개시하는 기술을 실장하는 데 있어서, 외부 에이전트 디바이스는 반드시 필수적인 구성 요소는 아니다. 혹은, 로컬측에 2대 이상의 외부 에이전트 디바이스가 병존하고 있어도 마찬가지로, 본 명세서에서 개시하는 기술을 실현 가능한 점을 이해해야 한다.
도 3 중에 도시한 복수의 에이전트 서비스 중, 외부 에이전트 서비스(340A, 340B, 340C)는, 예를 들어 「AI 에이전트」나 「AI 스피커」라고도 불리며, 본원의 출원 시점에 있어서 이미 널리 이용되고 있는 서비스이다. 이러한 종류의 외부 에이전트 서비스는, 인터넷 등의 광역 네트워크 경유로 접속 가능한 무수한 외부 에이전트 디바이스(도 3 중의, 외부 에이전트 디바이스(320)에 상당)를 관리하에 두는 것이 상정되어 있다. 각 유저는, 자신이 소유하는 외부 에이전트 디바이스를 통해 외부 에이전트 서비스에 로그인할 수 있다. 각 외부 에이전트 서비스는, 로그인한 유저별로 어카운트를 설정하고, 각 유저의 프로파일 정보나 이력 정보를 어카운트에 대응지어 관리한다(이하, 「어카운트 전환」 기능이라고도 칭함). 그리고 외부 에이전트 서비스는, 예를 들어 유저로부터 문의를 받을 때마다 프로파일 정보나 이력 정보를 축차적으로 갱신하거나 또는 학습 기능을 채택함으로써, 개개의 유저에게 맞춤화되거나 또는 개인화된 섬세한 서비스를 제공할 수 있다.
또한, 도 3 중에 도시한 복수의 에이전트 서비스 중, 에이전트 시스템(330)은, 예를 들어 텔레비전 수상기(11)의 제품 제조원 또는 판매원이 운영하는 것이 상정되고, TV 에이전트(310)와 직접 연계하여 에이전트 서비스를 제공한다. 에이전트 시스템(330)도 AI 에이전트임에는 틀림없지만, TV 에이전트(310)의 유저는, 기본적으로는 텔레비전 수상기(11)를 시청하는 유저에 한정되는 것으로 한다. 에이전트 시스템(330)은, 텔레비전 수상기(11)(즉, 로컬측)의 촬상부(107)나 음성 입력부(105)에서 포착한 화상이나 음성을 인식하여 개인 식별한 결과에 기초하여 유저를 특정하여 유저별 어카운트를 관리한다. 그리고 에이전트 시스템(330)은, 유저로부터 문의를 받을 때마다, 혹은 센서부(108)(촬상부(107)나 음성 입력부(105)를 포함해도 됨)에 의한 검출 결과에 기초하여 각 유저의 프로파일 정보나 이력 정보를 갱신하거나 또는 학습 기능을 채택함으로써, 개개의 유저에게 맞춤화되거나 또는 개인화된 섬세한 서비스를 제공할 수 있다.
또한, 도 3에 도시한 에이전트 클라우드 플랫폼(300)에서는, 에이전트 시스템(330)이 텔레비전 수상기(11)에 상주하는 TV 에이전트와 직접 연계하는 구성으로 되어 있지만, 에이전트 시스템(330)이 직접 연계하는 것이 가능한 기기의 종별은 텔레비전 수상기에 한정되는 것은 아니다. 예를 들어, 스마트폰이나 태블릿 등의 유저가 운반 가능한 정보 단말기, 유저가 착용하는 웨어러블 기기, 혹은 에어컨, 녹화기, 세탁기 등의 각종 CE 기기나 IoT 디바이스, 대화형 로봇, 차내에 설치된 카 내비게이션 등 각종 정보 기기에 상주하는 에이전트가 에이전트 시스템(330)과 직접 연계한다고 하는 변형예도 상정된다. 또한, 에이전트 시스템(330)이 텔레비전 수상기 이외의 기기와 연계하는 경우에는, 외부 에이전트 디바이스(320)는 텔레비전 수상기에 상주하는 음성 에이전트여도 된다.
계속해서, 에이전트 클라우드 플랫폼(300)의 동작예에 대해 설명한다.
도 4에는, 에이전트 시스템(330)이 TV 에이전트(310)를 통해 로컬측의 정보를 수집하는 모습을 도시하고 있다.
TV 에이전트(310)는, 텔레비전 프로그램의 시청 이력이나, 현재의 시청 상황, 텔레비전 수상기(11) 자체의 상태(온/오프, 음량, 화질 설정 등) 녹화 이력, 텔레비전 수상기(11)에 대한 리모컨의 조작 이력 등을 상시 모니터하고 있고, 이들 정보를 에이전트 시스템(330)으로 송신한다. 에이전트 시스템(330)측에서는, TV 에이전트(310)로부터 텔레비전 수상기(11)에 있어서의 유저의 텔레비전 프로그램 시청 이력 등에 관한 이들 정보를 상시 수집하여, 예를 들어 유저의 프로파일 정보나 어카운트 정보와 결부시켜 관리한다. 또한, TV 에이전트(310)는 DLNA(등록상표) 등의 규격에 따라서 홈 네트워크 경유로 텔레비전 수상기(11)와 상호 접속하고 있는 각 CE 기기나 동일한 실내에 설치되어 있는 IoT 디바이스로부터 취득한 정보를 에이전트 시스템(330)으로 송신하도록 해도 된다.
또한 TV 에이전트(310)는, 텔레비전 수상기(11)가 구비하는 촬상부(107)에 의해 촬상한 유저의 얼굴 화상이나, 음성 입력부(105)에 입력된 유저의 음성 데이터를 에이전트 시스템(330)으로 송신한다. 에이전트 시스템(330)측에서는, TV 에이전트(310)로부터 수신한 화상을 얼굴 인식하거나, 음성 데이터를 음성 인식하거나 하여 개인 식별 처리를 행한다. 혹은, TV 에이전트(310)는 촬상부(107)에 의한 촬상 화상을 화상 인식하거나, 혹은 음성 입력부(105)의 입력 음성을 음성 인식하여 개인 식별 처리한 결과를 에이전트 시스템(330)으로 송신하도록 해도 된다. 에이전트 시스템(330)은 새롭게 인물을 식별할 때마다 신규의 유저 어카운트를 설정하도록 해도 된다. 또한 에이전트 시스템(330)은, TV 에이전트(310)를 통해 로컬측으로부터 수집한 정보를 유저별로 배분하여, 유저 어카운트에 결부시켜 관리하도록 해도 된다. 또한 에이전트 시스템(330)은, TV 에이전트(310)로부터 수신한 화상 데이터나 음성 데이터에 기초하여, 유저의 상태(예를 들어, 텔레비전 수상기(11)에서 선국 수신하고 있는 텔레비전 프로그램을 시청 중인지 여부)에 관한 정보를 수집하도록 해도 된다.
또한 TV 에이전트(310)는, 정보 기기(100)가 구비하는 센서부(108)에 의해 검출된 검출 데이터를, 에이전트 시스템(330)으로 송신한다. 센서부(108)가, 물체 검출 센서나 심도 센서, 환경 정보를 검출하는 환경 센서(조도 센서나 온도 센서, 습도 센서 등)를 포함하는 경우에는, 에이전트 시스템(330)은 이들 센서 정보를 수집하여 유저의 환경 정보를 관리하도록 해도 된다. 또한, 센서부(108)가 유저의 맥박이나 발한, 뇌파, 근전위, 호기 등을 검출하는 생체 센서를 구비하고 있는 경우에는, 에이전트 시스템(330)은 이들 센서 정보를 TV 에이전트(310)로부터 수집하여 유저마다의 생체 정보를 관리하도록 해도 된다.
또한, TV 에이전트(310)가 텔레비전 수상기(11)를 통해 취득한 정보 중에는, 유저의 민감 정보를 포함하는 경우도 있다. 이 때문에, TV 에이전트(310)가 유저의 민감 정보를 마스킹하여 로컬측의 정보를 에이전트 시스템(330)에 제공하도록 해도 된다. 민감 정보의 마스킹의 상세에 관해서는 후술한다.
TV 에이전트(310)나 에이전트 시스템(330)은, 개인 식별에 의해 유저의 프로파일을 분할하여 개인 단위로 어카운트 관리를 행하도록 해도 된다. 예를 들어, 촬상부(107)에 의해 촬상한 유저의 얼굴 화상을 얼굴 인식하거나, 음성 입력부(105)로부터 입력된 유저의 발화를 음성 인식하거나 하여 개인 식별을 행할 수 있다. 또한, TV 에이전트(310)나 에이전트 시스템(330)은 텔레비전 프로그램의 시청 이력이나 리모컨의 조작 이력 등에 기초하여 개인 식별하도록 해도 된다. 예를 들어, 텔레비전 프로그램을 시청하는 요일이나 시간대 등의 습관성으로부터, 유저마다의 시청 취향의 경향을 분리할 수 있고, 리모컨이나 각종 기기의 유저마다의 조작 습관을 분리하여 개인 식별에 이용할 수 있다.
도 9에는, 에이전트 클라우드 플랫폼(300)에 있어서의 어카운트 관리의 일례를 나타내고 있다.
TV 에이전트(310)는 촬상부(107)에 의해 촬상한 유저의 화상을 얼굴 인식한 결과 등에 기초하여, 「아버지」, 「어머니」 및 「자식」으로 이루어지는 가족 구성을 파악하여, 「아버지」, 「어머니」 및 「자식」의 각각의 어카운트를 설정하여 각 가족 구성원의 프로파일을 관리한다.
또한 에이전트 시스템(330)은, TV 에이전트(310)와는 유저의 어카운트 정보를 공유한다. 즉, 도 9에 도시하는 예에서는, 에이전트 시스템(330)은 「아버지」, 「어머니」 및 「자식」으로 이루어지는 가족 구성을 파악함과 함께, 「아버지」, 「어머니」 및 「자식」의 각각의 어카운트를 설정한다. 단, 에이전트 시스템(330)은 유저를 개인 식별할 필요는 없고, 예를 들어 가족의 관계 등으로 어카운트를 관리하도록 해도 된다.
한편, 외부 에이전트 서비스(340C)는, 예를 들어 에이전트 시스템(330)으로부터의 호출을 받았을 때 유저의 프로파일을 분할하여 외부 에이전트 디바이스(320)로부터 호출을 받았을 때 프로파일을 분할하여 어카운트를 설정해도 된다. 또한, 외부 에이전트 디바이스(320)는 유저로부터 호출되었을 때의 음성을 식별하여 어카운트를 설정하도록 해도 된다. 도 9에 도시하는 예에서는, 외부 에이전트 서비스(340C)와 외부 에이전트 디바이스(320)는 「아버지」라고 하는 어카운트 정보를 공유하고 있다.
또한, 본원의 출원 시점에 있어서, 에이전트에 의한 유저의 어카운트 관리 방법에 관하여 특별한 조치는 존재하지 않는다. 본 실시 형태에서는, 에이전트 시스템(330)은 하나의 TV 에이전트(310)에 있어서, 개인 식별에 기초하여 복수 유저의 어카운트를 설정할 수 있는 것으로 한다(도 9에 나타낸 예에서는, 「아버지」, 「어머니」 및 「자식」의 각각의 어카운트를 설정한다).
또한, 각 외부 에이전트 서비스(340A, 340B, 340C)는, 각각 임의의 어카운트 관리를 행할 수 있는 것으로 한다. 예를 들어, 1대의 외부 에이전트 디바이스(320)에 대해 대표 유저의 하나의 어카운트밖에 설정하지 않는 경우나, 1대의 외부 에이전트 디바이스(320)를 하나의 유저로 하여 어카운트를 할당하면서, 그 유저 어카운트하에 복수 유저의 프로파일을 등록할 수 있도록 하거나, 하나의 유저의 어카운트하에 복수의 서브 유저를 등록할 수 있도록 하거나 해도 된다. 또한, 각 외부 에이전트 서비스(340A, 340B, 340C)는, 에이전트 시스템(330)으로부터 호출된 경우에도, 에이전트 시스템(330)에 대해 대표 유저의 하나의 어카운트만을 설정하고, 하나의 유저 어카운트하에 복수 유저의 프로파일을 할당하고, 하나의 유저 어카운트하에 복수의 서브 유저를 등록하는 것과 같은, 마찬가지의 어카운트 관리를 적용할 수 있다.
도 5에는, 에이전트 시스템(330)이 외부 에이전트 서비스(340A, 340B, 340C)를 호출하는 모습을 도시하고 있다. 예를 들어, 유저가 TV 에이전트(310)에 대해 문의를 행하였을 때, 에이전트 시스템(330)은 외부 에이전트 서비스(340A, 340B, 340C)의 호출을 실시한다.
유저가 음성에 의해 TV 에이전트(310)에 대해 문의하면(S501), 음성 입력부(105)는 유저의 음성을 수음하여 에이전트 시스템(330)으로 송신한다. 그리고 에이전트 시스템(330) 내에서는, 음성 인식부(331)가 유저의 음성을 음성 인식하고, 의미 해석부(332)가 의미 해석을 행한다(S502). 그리고 제어부(334)는, 유저로부터의 문의에 회답하기 위해, 외부 에이전트 서비스(340A, 340B, 340C)를 호출한다.
이때 제어부(334)는, 호출 가능한 모든 외부 에이전트 서비스(340A, 340B, 340C)를 호출하도록 해도 되고, 어느 외부 에이전트 서비스를 선택적으로 호출하도록 해도 된다. 예를 들어, 제어부(334)는 유저로부터의 문의 내용이나 문의한 유저의 프로파일 정보 등에 따라서 외부 에이전트 서비스를 취사 선택하여 호출하도록 해도 된다. 또한, 유저로부터 특정 외부 에이전트 서비스를 지정하는 「기동 단어」가 음성 입력되었을 때에는, 제어부(334)는 입력된 기동 단어에 대응하는 외부 에이전트 서비스를 그대로 호출해도 되고, 기동 단어를 고려하면서 외부 에이전트 서비스를 취사 선택하여 호출하도록 해도 된다.
에이전트 시스템(330)은, 어느 외부 에이전트 서비스를 호출하는 경우에도, 유저로부터의 입력 음성을 음성 인식 및 의미 해석을 행한 후, 제어부(334)가 각 외부 에이전트 서비스의 호출 사양에 적합하도록 형식 변환하고 나서 호출을 실행한다.
에이전트 시스템(330)이 외부 에이전트 서비스(340A)를 호출하는 경우, 외부 에이전트 서비스(340A)는 음성에 의한 호출에 대응하고 있으므로, 제어부(334)가 생성한 외부 에이전트 서비스(340A)에 대한 문의 내용을, 음성 합성부(333)에서 음성 데이터로 변환하고 나서 외부 에이전트 서비스(340A)로 송신한다(S503). 음성 합성부(333)에서 변환된 음성 데이터는, TV 에이전트(310)로부터 보내진 음성 데이터와 실질적으로 동일한 것이어도 되고, 제어부(334)에 의해 내용 등이 가공된 것이어도 된다.
이 경우, 외부 에이전트 서비스(340A) 내에서는, 에이전트 시스템(330)으로부터 보내져 온 음성 데이터를 음성 인식부(341A)에서 음성 인식하고, 추가로 의미 해석부(342A)에서 의미 해석하여 처리부(343A)가 에이전트 시스템(330)으로부터의 문의에 회답하기 위한 처리를 실행한다. 그리고 에이전트 시스템(330)으로부터의 문의에 대한 처리 결과가 되는 텍스트 정보를 음성 합성부(344A)에서 음성 데이터로 변환하고 나서 에이전트 시스템(330)으로 회신된다(S506).
또한, 에이전트 시스템(330)이 외부 에이전트 서비스(340B)를 호출하는 경우, 외부 에이전트 서비스(340B)는 음성 인식 결과에 의한 호출에 대응하고 있으므로, 제어부(334)가 생성한 외부 에이전트 서비스에 대한 문의 내용을, 그대로(즉, 음성 합성하지 않고) 외부 에이전트 서비스(340B)로 송신한다(S504). 제어부(334)가 생성한 외부 에이전트 서비스에 대한 문의 내용은, TV 에이전트(310)로부터 보내진 음성 데이터의 음성 인식 결과와 실질적으로 동일한 것이어도 되고, 제어부(334)에 의해 내용 등이 가공된 것이어도 된다.
이 경우, 외부 에이전트 서비스(340B) 내에서는, 에이전트 시스템(330)으로부터의 문의는 의미 해석부(342B)에서 의미 해석하고, 처리부(343B)가 에이전트 시스템(330)으로부터의 문의에 회답하기 위한 처리를 실행하고, 그 처리 결과를 그대로(즉, 음성 합성하지 않고) 에이전트 시스템(330)으로 회신한다(S507). 에이전트 시스템(330)측의 제어부(334)는, 외부 에이전트 디바이스(320)로부터의 회답을 수취하기 위한 API(Application Programming Interface)를 준비해 둔다.
또한, 에이전트 시스템(330)이 외부 에이전트 서비스(340C)를 호출하는 경우, 연계하는 외부 에이전트 디바이스(320)로부터의 호출에 대응하고 있으므로, 제어부(334)가 생성한 외부 에이전트 서비스에 대한 문의 내용을 음성 합성부(333)에서 음성 데이터로 변환하고 나서 TV 에이전트(310)로 송신하고, TV 에이전트(310)로부터 외부 에이전트 디바이스(320)를 음성에 의해 호출한다(S505). TV 에이전트(310)로부터 외부 에이전트 디바이스(320)를 호출하는 음성은, S501에 있어서 유저가 TV 에이전트(310)에 문의하였을 때와 실질적으로 동일한 것이어도 되고, 제어부(334)에 의해 내용 등이 가공된 것이어도 된다. 또한, 외부 에이전트 디바이스(320)를 기동하기 위한 「기동 단어」를 포함시켜도 된다.
이 경우, 외부 에이전트 디바이스(320)의 음성 입력부(321)에 의해 수음된 음성이 외부 에이전트 서비스(340C)로 송신된다(S508). 그리고 외부 에이전트 서비스(340C) 내에서는, 외부 에이전트 디바이스(320)로부터 보내져 온 음성 데이터를 음성 인식부(341C)에서 음성 인식하고, 추가로 의미 해석부(342C)에서 의미 해석하고, 처리부(343C)가 에이전트 시스템(330)으로부터의 문의에 회답하기 위한 처리를 실행한다. 그리고 에이전트 시스템(330)으로부터의 문의에 대한 처리 결과가 되는 텍스트 정보를 음성 합성부(344C)에서 음성 데이터로 변환하고 나서 에이전트 시스템(330)으로 회신한다(S509).
에이전트 시스템(330) 내에서는, 외부 에이전트 서비스(340A) 및 외부 에이전트 서비스(340C) 각각으로부터 회신된 음성 데이터의 처리 결과를 음성 인식부(335)에서 음성 인식하고, 추가로 의미 해석부(336)에서 그 음성 인식 결과를 의미 해석하고 나서 제어부(334)에 공급된다. 또한 제어부(334)는, 외부 에이전트 서비스(340B)로부터의 API 호출에 의한 회답을 수취한다.
제어부(334)는, 각 외부 에이전트 서비스(340A, 340B, 340C)로부터의 회답을 의미 해석 결과의 레벨로 집계하여 유저로부터의 문의에 대한 회답 문장을 생성한다. 복수의 회답을 집계하는 방법은 임의이다. 에이전트 시스템(330) 자신이 얻은 회답과 대조하여 특정 외부 에이전트 서비스로부터의 회답을 선택해도 되고, 다수결 등 소정의 선택 기준에 기초하여 특정 외부 에이전트 서비스로부터의 회답을 선택해도 된다. 혹은, 복수의 외부 에이전트 서비스로부터의 회답을 합성하여 하나의 회답 문장을 생성하도록 해도 된다.
음성 합성부(333)는, 제어부(334)에서 생성한 회답 문장을 음성 데이터로 변환하여 TV 에이전트(310)로 보낸다(S511). 그리고 TV 에이전트(310)에서는, 문의원인 유저에 대한 회답의 음성이, 음성 출력부(106)로부터 유저에 대해 음성 출력된다(S512).
요컨대, 에이전트 시스템(330)은, 유저가 있는 실내에 설치된 텔레비전 수상기(11) 상에 상주하고 있는 TV 에이전트(310)를 사용하여, 주로 음성에 의한 대화를 이용하여 에이전트 서비스를 제공한다. 또한, 에이전트 시스템(330)은, 유저로부터의 문의를 스스로 처리한 결과를 유저에게 회신하는 것 이외에, 외부 에이전트 서비스(340A, 340B, 340C)를 호출하고 외부의 리소스도 활용하여 유저에게 회답할 수 있다. 에이전트 시스템(330)은, 각 외부 에이전트 서비스(340A, 340B, 340C)에 대한 호출 사양에 적합한 형식으로 변환하여 각 외부 에이전트 서비스(340A, 340B, 340C)를 호출할 수 있다. 에이전트 시스템(330)은, 외부 에이전트 서비스(340A, 340B, 340C)의 호출을 이용하여, 보다 고품질의 회답을 유저에게 회신하는 것이 기대된다.
여기서, 에이전트 시스템(330)이 외부 에이전트 서비스(340A, 340B, 340C)를 호출할 때의 하나의 과제로서, 복수의 유저 정보가 혼재되어 버리는 것을 들 수 있다.
도 6에 예시하는 바와 같이 거실에서 가족이 텔레비전 수상기(11)에 의해 선국 수신하고 있는 텔레비전 프로그램을 시청하고 있을 때, 한사람이 TV 에이전트(310)에 문의를 행하였다고 하자. 에이전트 시스템(330)이 외부 에이전트 서비스(340)를 호출할 때, 가족 중 누가 문의한 경우라도 「에이전트 시스템(330)」이라고 하는 동일 유저의 어카운트로 문의하게 되어, 가족 전원의 정보(프로파일 정보나 이력 정보 등)가 섞여 버린다. 예를 들어, 가족 중 누가 TV 에이전트(310)에 문의해도, 에이전트 시스템(330)이 항상 동일한 음성을 합성하여 외부 에이전트 서비스(340A)를 호출하면, 외부 에이전트 서비스(340A)는 누구로부터의 문의인지를 파악할 수 없다. 이 결과, 외부 에이전트 서비스(340)는 어카운트 전환 기능을 장비하고 있었다고 해도, 문의원인 유저마다에 대응한 섬세한 서비스를 제공하는 것이 어려워진다.
에이전트 시스템(330)은, 촬상부(107)에 의해 촬상한 유저의 화상을 얼굴 인식하거나, 음성 입력부(105)에 의해 입력한 음성을 음성 인식하거나, 텔레비전 수상기(11)를 통해 수집한 시청 이력이나 리모컨 조작 이력, 혹은 센서부(108)의 검출 결과 등에 기초하여 문의원인 유저의 프로파일을 식별할 수 있다.
그래서 에이전트 시스템(330)은, 음성으로 문의한 유저의 프로파일을 식별하여 유저의 프로파일을 외부 에이전트 서비스(340)의 어카운트 전환 기능에 맞추어 매핑하여 프로파일을 이용한 구분 호출을 행하도록 한다.
예를 들어, 에이전트 시스템(330)이 외부 에이전트 서비스(340A 또는 340C)를 호출하는 경우에는, 아버지로부터의 문의라면 성인 남성의 어조 및 음색을 합성하여 호출하고, 어머니로부터의 문의라면 성인 여성의 어조 및 음색을 합성하여 호출하고, 자식으로부터의 문의라면 어린이의 어조 및 음색을 합성하여 호출을 행한다. 또한, 에이전트 시스템(330)이 외부 에이전트 서비스(340B)를 호출하는 경우에는, 아버지로부터의 문의라면 성인 남성같은 어조의 호출 문장으로 호출하고, 자식으로부터의 문의라면 어린이같은 어조의 호출 문장으로 호출을 행한다. 물론, 에이전트 시스템(330)은 유저의 프로파일 정보를 메타데이터로서 부가하여, 외부 에이전트 서비스(340)의 호출을 행하도록 해도 된다.
각 외부 에이전트 서비스(340A, 340B, 340C)는, 에이전트 시스템(330)의 호출 방식에 기초하여 유저의 프로파일을 식별하여 어카운트 전환을 적절하게 행함과 함께, 문의에 대한 회답을 에이전트 시스템(330)에 회신한다.
각 외부 에이전트 서비스(340A, 340B, 340C)에 있어서의 어카운트 전환 방법은 다양하다. 예를 들어, 에이전트 시스템(330)으로부터 문의를 받았을 때의 프로파일이 전환될 때마다 개별의 유저 어카운트를 할당해도 된다. 또한, 에이전트 시스템(330)을 하나의 유저로서 어카운트를 할당하면서, 그 유저 어카운트하에 가족의 구성원마다의 복수의 프로파일을 등록하도록 해도 된다. 혹은, 에이전트 시스템(330)을 하나의 유저로서 어카운트를 할당하면서, 그 유저 어카운트하에 가족의 구성원마다를 서브 유저로서 등록하도록 해도 된다.
도 7에는, 에이전트 시스템(330)이 유저의 프로파일 정보를 이용하여 외부 에이전트 서비스(340)를 구분하여 호출할 때의 처리 수순을 흐름도의 형식으로 나타내고 있다.
에이전트 시스템(330)은, TV 에이전트(310)를 통해 유저로부터의 음성을 입력하면(스텝 S701), 촬상부(107)에 의해 촬상한 유저의 화상 얼굴 인식 결과나, 입력 음성의 음성 인식 결과, 나아가 센서부(108)에 의한 검출 결과에 기초하여 그 유저의 프로파일을 식별한다(스텝 S702).
이어서, 에이전트 시스템(330)은, 스텝 S701에서 입력한 음성을 의미 해석하여, 호출할 외부 에이전트 서비스를 선택한다(스텝 S703).
이어서, 에이전트 시스템(330)은, 선택한 외부 에이전트 서비스에 어카운트 전환 기능이 있는지를 체크한다(스텝 S704).
여기서, 호출 대상 외부 에이전트 서비스에 어카운트 전환 기능이 있는 경우에는(스텝 S704의 "예"), 에이전트 시스템(330)은, 스텝 S702에서 식별한 유저의 프로파일을 이용하여 그 외부 에이전트 서비스에 적합한 호출을 생성하여 호출을 실행한다(스텝 S705). 예를 들어, 에이전트 시스템(330)은, 외부 에이전트 서비스에 대해, 유저의 연령이나 성별 등의 프로파일에 적합한 어조나 음색으로 호출을 행한다.
한편, 호출 대상 외부 에이전트 서비스에 어카운트 전환 기능이 없는 경우에는(스텝 S704의 "아니오"), 에이전트 시스템(330)은, 스텝 S702에서 식별한 유저의 프로파일을 이용하는 일 없이 대표 유저에 의한 외부 에이전트 서비스의 호출을 실행한다(스텝 S706).
또한, 에이전트 시스템(330)이 외부 에이전트 서비스(340A, 340B, 340C)를 호출할 때의 다른 과제로서, 유저의 민감 정보가 외부로 누설되어 버리는 것을 들 수 있다.
거실에 설치된 텔레비전 수상기(11)에 음성 입력부(105)가 음성 입력하는 것과 같은 사용 형태에서는, 가족은 무의식 중에 민감 정보에 관계되는 단어를 포함한 대화를 행하는 경향이 있어, 유저로부터 에이전트 시스템(330)에 대한 문의에 민감 정보를 포함해 버리는 경우가 있다. 혹은, 유저는 문의한 것이 아니지만, 에이전트 시스템(330)측에서 문의라고 자동적으로 판단하여 서비스를 개시할 가능성도 있다.
개인 정보의 보호 관리에 관한 규격 JIS Q 15001:2006에서는, 「사상, 신념 또는 종교에 관한 사항」, 「인종, 민족, 문벌, 본적지(소재지인 도도부현에 관한 정보를 제외함.), 신체·정신장애, 범죄 이력 기타 사회적 차별의 원인이 되는 사항」, 「근로자의 단결권, 단체 교섭 기타 단체 행동의 행위에 관한 사항」, 「집단시위 행위에의 참가, 청원권의 행사 기타 정치적 권리의 행사에 관한 사항」, 「보건 의료 또는 성생활에 관한 사항」이 민감 정보로서 예시되어 있다. 또한, 상기와 같은 규격에 규정된 사항 외에도, 패스워드나 계좌 번호 등 비즈니스적, 금융적 또는 개인적인 성질을 갖는 다양한 정보도 민감한 개인 정보이다. 이러한 민감 정보가 불법인에 의해 인출되거나, 사용되거나, 확산되거나 해 버리면, 개인의 인격이나 재산이 침해되는 등 다양한 위험에 노출된다. 부언하면, 촬상부(107)가 거실 등 가정 내의 모습을 촬상한 영상은 얼굴 화상을 비롯하여, 보호해야 할 다양한 민감한 정보를 포함하는 경우가 많다.
예를 들어, 민감 정보를 저장하는 디바이스를 시큐리티 레벨이 높은 모드에서 동작시키는 등, 민감 정보를 보호하는 몇 가지의 기술이 알려져 있다. 그러나 거실에 설치된 텔레비전 수상기(11)에 내장된(혹은 외장형으로 접속된) 음성 입력부(105)나 촬상부(107), 센서부(108) 등을 사용하여 정보 수집을 행하는 경우, 민감 정보가 섞여 버리는 것은 피할 수 없다.
에이전트 시스템(330)이, 민감 정보를 포함한 채로 외부 에이전트 서비스(340A, 340B, 340C)를 호출하면, 어느 외부 에이전트 서비스를 기점으로 하여 민감 정보가 확산되어 부정하게 이용되어 버릴 우려가 있다. 또한, 에이전트 시스템(330)이 TV 에이전트(310)로부터 수집한 정보 중 민감 정보의 부분을 단순히 검게 칠하여 가린다고 하는 방법으로는 문의의 내용을 판독할 수 없게 되어, 외부 에이전트 서비스(340A, 340B, 340C)가 정상적인 에이전트 서비스를 제공할 수 없게 되어 버린다.
그래서 에이전트 시스템(330)은, 유저로부터의 문의에 포함되는 민감 정보를 다른 정보로 치환하여, 내용 자체는 판독 가능한 상태를 유지하면서 외부 에이전트 서비스(340A, 340B, 340C)를 호출하도록 한다.
예를 들어, 유저로부터의 문의에 병명이 포함되는 경우에는 「질환」이라고 하는 단어로 치환하고, 개인명이 포함되는 경우에는 「사람」, 「아버지」, 「그」(대명사), 「○○한 사람」과 같이 개인을 특정할 수 없는 단어로 치환하고, 「주소」를 포함하는 경우에는 번지나 마을명을 제거하여, 완전하게 특정할 수는 없지만 문의의 의도는 판독 가능한 상태를 유지하도록 한다. 또한, 유저의 영상이나 음성을 포함하는 문의인 경우에는, 유저의 얼굴 화상이나 음성을, 유저와 동일한 연령이나 성별의 평균적인 얼굴 화상이나 음성으로 치환하여, 유저의 프로파일을 유지하면서 개인을 특정할 수 없도록 한다.
또한, 에이전트 시스템(330)은, 상기한 바와 같이 민감 정보를 포함하는 문언이나 화상, 음성을 치환하기 위한 데이터베이스를 구비해 두어도 되고, 이러한 종류의 외부 데이터베이스를 이용 가능해도 된다.
도 8에는, 유저의 민감 정보를 보호하면서 외부 에이전트 서비스(340)를 구분하여 호출할 때의 처리 수순을 흐름도의 형식으로 나타내고 있다.
에이전트 시스템(330)은, TV 에이전트(310)를 통해 유저로부터의 문의를 입력하면(스텝 S801), 그 문의에 포함되는 영상이나 음성을 인식 처리함과 함께, 문의의 의도를 해석한다(스텝 S802).
이어서 에이전트 시스템(330)은, 스텝 S802에 있어서의 인식 결과나 해석 결과에 기초하여 영상이나 음성, 문의 중에 유저의 민감 정보가 포함되어 있는지 여부를 체크한다(스텝 S803).
그리고 TV 에이전트(310)를 통해 입력한 정보 중에 유저의 민감 정보가 포함되어 있는 경우에는(스텝 S803의 "예"), 문의의 의도는 판독 가능한 상태를 유지하면서 민감 정보를 다른 정보로 치환한다(스텝 S804).
스텝 S804에서는, 예를 들어 유저로부터의 문의에 병명이 포함되는 경우에는 「질환」이라고 하는 단어로 치환하고, 개인명이 포함되는 경우에는 「사람」, 「아버지」, 「그」(대명사), 「○○한 사람」과 같이 개인을 특정할 수 없는 단어로 치환하고, 「주소」를 포함하는 경우에는 번지나 마을명을 제거한다. 또한, 유저의 얼굴 화상이나 음성을, 유저와 동일한 연령이나 성별의 평균적인 얼굴 화상이나 평균적인 음성으로 치환한다.
요컨대 에이전트 시스템(330)은, 외부 에이전트 서비스(340A, 340B, 340C)를 호출하여 유저로부터의 문의에 회답할 때, 말하자면 게이트웨이가 되어, 외부 에이전트 서비스(340A, 340B, 340C)에 민감 정보가 유출되지 않도록 마스크 처리할 수 있다.
또한, 도 8에는 에이전트 시스템(330)이 외부 에이전트 서비스(340A, 340B, 340C)를 호출할 때에 민감 정보를 마스킹하는 예를 나타냈지만, 에이전트 시스템(330)이 로컬측의 정보를 수집할 때, TV 에이전트(310)가 유저의 민감 정보를 마스킹하도록 해도 된다.
여기까지의 설명에서는, 에이전트 시스템(330)이나 외부 에이전트 서비스(340A, 340B, 340C)가 유저로부터의 문의에 대해 응답하는 동작을 중심으로 설명해 왔다. 에이전트 시스템(330)이나 외부 에이전트 서비스(340A, 340B, 340C)는 자발적으로 유저에게 말을 거는 것도 가능하다. 그러나 유저가 텔레비전 프로그램을 시청 중에, TV 에이전트(310)나 외부 에이전트 디바이스(320)가 말을 걸면 방해가 된다. 또한, 유저가 녹화 프로그램을 시청하고 있는 경우나, 텔레비전 수상기(11) 이외의 기기를 이용하고 있을 때(음악을 간섭하고 있을 때나, 통화하고 있을 때, 게임을 하고 있을 때 등)에도 마찬가지의 것이 적용된다.
에이전트 시스템(330)은, 텔레비전 수상기(11)에 상주하고 있는 TV 에이전트(310)를 통해 유저의 시청 상태를 판정하는 것이 가능하고, 그 판정 결과에 기초하여 유저에게 말을 거는 타이밍을 적절하게 제어할 수 있다. 한편, 외부 에이전트 서비스(340C)는, 외부 에이전트 디바이스(320)의 음성 입력부(321)로의 입력 음성을 통해서만 유저의 상태를 파악할 수 있다. 유저가 발화하지 않는 무음 상태라도, 말을 걸어도 되는 상태인지, 텔레비전 프로그램을 조용히 시청하고 있는 것인지를 판정할 수 없다.
그래서 에이전트 시스템(330)은, TV 에이전트(310)를 통해 수집한 로컬측의 정보에 기초하여 유저의 상태를 판정함과 함께, 유저의 상태에 따라서 외부 에이전트의 동작을 제어하도록 한다.
구체적으로는, 에이전트 시스템(330)은, 유저가 텔레비전 프로그램을 시청 중에는, 외부 에이전트 서비스(340A, 340B, 340C)를 무효화한다. 한편, 유저가 텔레비전 프로그램의 시청을 종료하면, 에이전트 시스템(330)은 외부 에이전트 서비스(340A, 340B, 340C)를 유효화한다.
또한, 외부 에이전트 서비스(340A, 340B, 340C)로부터 에이전트 시스템(330)에 대해 문의가 가능한 경우에는, 외부 에이전트 서비스(340A, 340B, 340C)는, 주체적인 액션을 실행하기 전에, 에이전트 시스템(330)에 대해 유저의 상태 혹은 주체적인 액션의 실시의 가부를 문의하도록 해도 된다. 에이전트 시스템(330)은, 유저가 텔레비전 프로그램을 시청 중에는, 주체적인 액션의 실시가 불가능하다는 취지를 응답하여, TV 에이전트(310) 또는 외부 에이전트 디바이스(320)로부터의 유저의 호출을 억제한다. 한편, 유저가 텔레비전 프로그램의 시청을 종료하면, 주체적인 액션이 가능하다는 취지를 응답한다. 또한, 외부 에이전트 서비스(340A, 340B, 340C)는, 에이전트 시스템(330)에 대해 예를 들어 음성 또는 API 호출에 의해 문의가 가능하다.
도 10에는, 에이전트 시스템(330)이 유저의 상태에 따라서 외부 에이전트 서비스(340A, 340B, 340C)를 제어하는 모습을 도시하고 있다.
에이전트 시스템(330)은, TV 에이전트(310)를 통해 로컬측의 상황, 즉 텔레비전 프로그램의 시청 이력이나, 현재의 시청 상황, 텔레비전 수상기(11) 자체의 상태(온/오프, 음량, 화질 설정 등) 녹화 이력, 텔레비전 수상기(11)에 대한 리모컨의 조작 이력 등을 취득하여(S1001), 제어부(334)에 있어서 유저가 텔레비전 프로그램을 시청 중인지 여부를 판정한다.
제어부(334)는, 유저가 텔레비전 프로그램을 시청 중에는, 외부 에이전트 서비스(340A, 340B, 340C)를 무효화한다. 무효화 처리는, 제어부(334)가 각 외부 에이전트 서비스의 호출 사양에 적합한 형식으로 실시한다. 구체적으로는, 제어부(334)가 외부 에이전트 서비스(340A)를 무효화하기 위한 지시를 생성하면, 음성 합성부(333)에 의해 음성 데이터로 변환하고 나서 외부 에이전트 서비스(340A)로 송신한다(S1002). 또한 제어부(334)는, 외부 에이전트 서비스(340B)를 무효화하기 위한 지시를, 그대로(즉, 음성 합성하지 않고) 외부 에이전트 서비스(340B)로 송신한다(S1003). 또한, 제어부(334)가 외부 에이전트 서비스(340C)를 무효화하기 위한 지시를 생성하면, 음성 합성부(333)에 의해 음성 데이터로 변환하고 나서 TV 에이전트(310)로 송신하고, TV 에이전트(310)로부터 외부 에이전트 디바이스(320)에 대해 음성에 의해 외부 에이전트 서비스(340C)의 무효화를 지시한다(S1004). 외부 에이전트 서비스(340A, 340B, 340C)는, 상기한 바와 같이 하여 에이전트 시스템(330)에 의해 무효화되어 있는 기간에는 주체적인 유저의 호출을 억제한다.
또한, 에이전트 시스템(330)이 모든 외부 에이전트 서비스(340A, 340B, 340C)를 일제히 무효화하는 것 이외에, 어느 일부의 외부 에이전트 서비스만을 무효화하는 경우도 있다.
한편, 유저가 텔레비전 프로그램의 시청을 종료하면, 제어부(334)는, 외부 에이전트 서비스(340A, 340B, 340C)를 유효화한다. 유효화 처리는, 제어부(334)가 각 외부 에이전트 서비스의 호출 사양에 적합한 형식으로 실시한다. 구체적으로는, 제어부(334)가 외부 에이전트 서비스(340A)를 유효화하기 위한 지시를 생성하면, 음성 합성부(333)에 의해 음성 데이터로 변환하고 나서 외부 에이전트 서비스(340A)로 송신한다(S1002). 또한 제어부(334)는, 외부 에이전트 서비스(340B)를 유효화하기 위한 지시를, 그대로(즉, 음성 합성하지 않고) 외부 에이전트 서비스(340B)로 송신한다(S1003). 또한, 제어부(334)가 외부 에이전트 서비스(340C)를 유효화하기 위한 지시를 생성하면, 음성 합성부(333)에 의해 음성 데이터로 변환하고 나서 TV 에이전트(310)로 송신하고, TV 에이전트(310)로부터 외부 에이전트 디바이스(320)에 대해 음성에 의해 외부 에이전트 서비스(340C)의 유효화를 지시한다(S1004). 무효화된 상태의 외부 에이전트 서비스(340A, 340B, 340C)는, 상기한 바와 같이 하여 에이전트 시스템(330)에 의해 유효화되면, 주체적인 유저의 호출을 재개할 수 있다.
또한, 에이전트 시스템(330)이 모든 외부 에이전트 서비스(340A, 340B, 340C)를 일제히 유효화하는 것 이외에, 어느 일부의 외부 에이전트 서비스만을 유효화하는 경우도 있다.
또한, 각 외부 에이전트 서비스(340A, 340B, 340C)는, 주체적인 유저의 호출을 행하기 전에, 에이전트 시스템(330)에 대해 유저의 상태 혹은 주체적인 액션의 실시의 가부를 문의할 수 있다.
외부 에이전트 서비스(340A) 내에서는, 처리부(343A)가 에이전트 시스템(330)에 대한 문의를 생성하면, 텍스트 정보를 음성 합성부(344A)에 의해 음성 데이터로 변환하고 나서 에이전트 시스템(330)으로 송신한다(S1005). 유저가 텔레비전 프로그램을 시청하는 동안, 외부 에이전트 서비스(340A)에 의한 유저의 호출을 억제해야 할 때에는, 제어부(334)가 외부 에이전트 서비스(340A)를 무효화하기 위한 지시를 생성하면, 음성 합성부(333)에 의해 음성 데이터로 변환하고 나서 외부 에이전트 서비스(340A)로 송신한다(S1002). 한편, 유저가 텔레비전 프로그램의 시청을 종료하여 외부 에이전트 서비스(340A)에 의한 유저의 호출을 허가하는 경우에는, 제어부(334)가 외부 에이전트 서비스(340A)를 유효화하기 위한 지시를 생성하면, 음성 합성부(333)에 의해 음성 데이터로 변환하고 나서 외부 에이전트 서비스(340A)로 송신한다(S1002).
또한, 외부 에이전트 서비스(340B) 내에서는, 처리부(343B)는 에이전트 시스템(330)에 대한 문의를 생성하여 API 호출에 의해 에이전트 시스템(330)에 대해 문의를 행한다(S1006). 유저가 텔레비전 프로그램을 시청하는 동안, 외부 에이전트 서비스(340B)에 의한 유저의 호출을 억제해야 할 때에는, 제어부(334)는 외부 에이전트 서비스(340B)를 무효화하기 위한 지시를, 그대로(즉, 음성 합성하지 않고) 외부 에이전트 서비스(340B)로 송신한다(S1003). 한편, 유저가 텔레비전 프로그램의 시청을 종료하여 외부 에이전트 서비스(340B)에 의한 유저의 호출을 허가하는 경우에는, 제어부(334)는 외부 에이전트 서비스(340B)를 유효화하기 위한 지시를, 그대로(즉, 음성 합성하지 않고) 외부 에이전트 서비스(340B)로 송신한다(S1003).
또한, 외부 에이전트 서비스(340C) 내에서는, 처리부(343C)가 에이전트 시스템(330)에 대한 문의를 생성하면, 텍스트 정보를 음성 합성부(344C)에서 음성 데이터로 변환하고 나서 에이전트 시스템(330)으로 송신한다(S1007). 유저가 텔레비전 프로그램을 시청하는 동안, 외부 에이전트 서비스(340C)에 의한 유저의 호출을 억제해야 할 때에는, 제어부(334)가 외부 에이전트 서비스(340C)를 무효화하기 위한 지시를 생성하면, 음성 합성부(333)에서 음성 데이터로 변환하고 나서 TV 에이전트(310)로 송신하고, TV 에이전트(310)로부터 외부 에이전트 디바이스(320)에 대해 음성에 의해 외부 에이전트 서비스(340C)의 무효화를 지시한다(S1004). 한편, 유저가 텔레비전 프로그램의 시청을 종료하여 외부 에이전트 서비스(340C)에 의한 유저의 호출을 허가하는 경우에는, 제어부(334)가 외부 에이전트 서비스(340C)를 유효화하기 위한 지시를 생성하면, 음성 합성부(333)에서 음성 데이터로 변환하고 나서 TV 에이전트(310)로 송신하고, TV 에이전트(310)로부터 외부 에이전트 디바이스(320)에 대해 음성에 의해 외부 에이전트 서비스(340C)의 유효화를 지시한다(S1004).
또한, 각 외부 에이전트 서비스(340A, 340B, 340C)로부터 에이전트 시스템(330)으로의 문의는 각각 임의의 타이밍에 행할 수 있지만, 물론 2개 이상의 외부 에이전트 서비스가 동기화되어 에이전트 시스템(330)으로의 문의를 행하도록 해도 된다.
이상, 특정 실시 형태를 참조하면서, 본 명세서에서 개시하는 기술에 대해 상세하게 설명해 왔다. 그러나 본 명세서에서 개시하는 기술의 요지를 일탈하지 않는 범위에서 당업자가 당해 실시 형태의 수정이나 대용을 행할 수 있는 것은 자명하다.
본 명세서에서는, 본 명세서에서 개시하는 기술을 텔레비전 수상기에 상주하는 TV 에이전트에 적용한 실시 형태를 중심으로 설명해 왔지만, 본 명세서에서 개시하는 기술의 요지는 이것에 한정되는 것은 아니다. 에어컨, 녹화기, 세탁기 등의 각종 CE 기기나 IoT 디바이스, 스마트폰이나 태블릿 등의 유저가 운반 가능한 정보 단말기, 유저가 착용하는 웨어러블 기기, 대화형 로봇, 차내에 설치된 카 내비게이션 등 각종 정보 기기에 상주하는 에이전트를 이용한 다양한 에이전트 시스템에 대해서도, 마찬가지로 본 명세서에서 개시하는 기술을 적용하여, 필요에 따라서 외부 에이전트 서비스를 이용할 수 있도록 할 수 있다.
요컨대, 예시라고 하는 형태에 의해 본 명세서에서 개시하는 기술에 대해 설명해 온 것이며, 본 명세서의 기재 내용을 한정적으로 해석해서는 안된다. 본 명세서에서 개시하는 기술의 요지를 판단하기 위해서는, 청구범위를 참작해야 한다.
또한, 본 명세서의 개시의 기술은, 이하와 같은 구성을 채용하는 것도 가능하다.
(1) 제1 기기에 상주하는 에이전트를 통한 유저와의 대화에 관한 정보를 수신하는 통신부와,
외부 에이전트 서비스를 제어하는 제어부
를 구비하는 정보 처리 장치.
(1-1) 유저로부터 입력된 음성을 인식하는 음성 인식부와, 그 음성 인식 결과를 의미 해석하는 의미 해석부와, 유저에 대한 회답을 음성 합성하는 음성 합성부를 더 구비하고,
상기 음성 합성부에 의한 음성 합성 결과를 상기 제1 기기로부터 음성 출력시키는,
상기 (1)에 기재된 정보 처리 장치.
(2) 상기 제어부는, 유저의 화상 또는 음성, 유저에 의한 상기 제1 기기의 조작에 관한 정보, 상기 제1 기기가 장비하는 센서가 검출한 센서 정보 중 적어도 하나를 포함하는 상기 정보를 수집하는,
상기 (1)에 기재된 정보 처리 장치.
(3) 상기 제1 기기는 텔레비전 수상기이며,
상기 제어부는, 유저에 의한 텔레비전 프로그램의 시청 이력, 녹화 이력, 리모컨 조작 이력을 포함하는 상기 정보를 수집하는,
상기 (1) 또는 (2)에 기재된 정보 처리 장치.
(4) 상기 제어부는, 상기 제1 기기로부터 수집한 정보에 기초하여 유저의 어카운트를 관리하는,
상기 (2) 또는 (3)에 기재된 정보 처리 장치.
(5) 상기 제어부는, 외부 에이전트 서비스의 호출을 제어하는,
상기 (1) 내지 (4) 중 어느 하나에 기재된 정보 처리 장치.
(6) 상기 제어부는, 각 외부 에이전트 서비스의 호출 사양에 적합하도록 형식 변환하고 나서 호출을 실행하는,
상기 (5)에 기재된 정보 처리 장치.
(7) 상기 제어부는, 제1 외부 에이전트 서비스로의 호출 내용을 음성 합성하여, 상기 제1 외부 에이전트 서비스의 호출을 행하는,
상기 (6)에 기재된 정보 처리 장치.
(8) 상기 제어부는, 제2 외부 에이전트 서비스로의 호출 내용을 음성 합성하고, 상기 제1 기기로부터 상기 제2 외부 에이전트 서비스의 제어하의 외부 에이전트 디바이스에 대해 음성에 의한 호출을 행하는,
상기 (6)에 기재된 정보 처리 장치.
(9) 외부 에이전트 서비스로부터의 음성에 의한 회답을 인식하는 음성 인식부, 및 그 음성 인식 결과를 의미 해석하는 의미 해석부를 더 구비하는,
상기 (5) 내지 (8) 중 어느 하나에 기재된 정보 처리 장치.
(10) 외부 에이전트 서비스로부터 API 호출에 의해 회답을 수취하는,
상기 (5) 내지 (8) 중 어느 하나에 기재된 정보 처리 장치.
(11) 상기 제어부는, 복수의 외부 에이전트 서비스로부터의 회답을 선택 또는 합성하여, 유저로부터 상기 에이전트로의 문의에 대한 회답을 생성하는,
상기 (5)에 기재된 정보 처리 장치.
(12) 상기 제어부는, 상기 제1 기기를 호출한 유저의 프로파일 정보에 기초하여, 외부 에이전트 서비스의 호출을 제어하는,
상기 (1) 내지 (11) 중 어느 하나에 기재된 정보 처리 장치.
(13) 상기 제어부는, 프로파일 전환 기능을 갖는 외부 에이전트 서비스에 대해, 상기 제1 기기를 호출한 유저의 프로파일 식별 결과에 기초하는 호출을 행하는,
상기 (12)에 기재된 정보 처리 장치.
(14) 상기 제어부는, 상기 제1 기기를 호출한 유저의 민감 정보에 기초하여, 외부 에이전트 서비스의 호출을 제어하는,
상기 (1) 내지 (13) 중 어느 하나에 기재된 정보 처리 장치.
(15) 상기 제어부는, 유저의 호출에 포함되는 민감 정보를 다른 정보로 치환 처리하여, 외부 에이전트 서비스의 호출을 행하는,
상기 (14)에 기재된 정보 처리 장치.
(16) 상기 제어부는, 유저의 상태에 기초하여 외부 에이전트 서비스를 제어하는,
상기 (1) 내지 (15) 중 어느 하나에 기재된 정보 처리 장치.
(16-1) 상기 제어부는, 유저에 의한 상기 제1 기기의 사용 상태에 기초하여 외부 에이전트 서비스를 제어하는,
상기 (16)에 기재된 정보 처리 장치.
(16-2) 상기 제어부는, 유저의 상태에 기초하여, 외부 에이전트 서비스를 무효화 및 유효화하는,
상기 (16)에 기재된 정보 처리 장치.
(16-3) 상기 제어부는, 유저의 상태에 기초하여, 외부 에이전트 서비스로부터의 에이전트의 호출에 관한 문의에 응답하는,
상기 (16)에 기재된 정보 처리 장치.
(17) 유저와의 대화에 관한 정보가 처리되어 생성된, 상기 유저에 대한 회답을 수신하는 통신부와,
상기 회답을 출력하는 출력부
를 구비하는 정보 처리 장치.
(18) 제1 기기에 상주하는 에이전트를 통한 유저와의 대화에 관한 정보를 수신하는 통신 스텝과,
외부 에이전트 서비스를 제어하는 제어 스텝
을 갖는 정보 처리 방법.
(19) 유저와의 대화에 관한 정보가 처리되어 생성된, 상기 유저에 대한 회답을 수신하는 통신 스텝과,
상기 회답을 출력하는 출력 스텝
을 갖는 정보 처리 방법.
(20) 유저와 대화하는 에이전트가 상주하는 제1 기기와,
상기 에이전트를 통한 유저와의 대화에 관한 정보를 수신하는 통신부와,
외부 에이전트 서비스를 제어하는 제어부
를 구비하는 정보 처리 시스템.
(20-1) 상기 제1 기기는, 유저와의 대화에 관한 정보가 처리되어 생성된, 상기 유저에 대한 회답을 수신하여 출력하는,
상기 (20)에 기재된 정보 처리 시스템.
100: 정보 기기(텔레비전 수상기)
101: 처리부
102: 튜너
103: 통신부
104: 표시부
105: 음성 입력부
106: 음성 출력부
107: 촬상부
108: 센서부
109: 리모컨 수신부
110: 기록부
300: 에이전트 클라우드 플랫폼
310: TV 에이전트
320: 외부 에이전트 디바이스
321: 음성 입력부
322: 음성 출력부
330: 에이전트 시스템
331: 음성 인식부
332: 의미 해석부
333: 음성 합성부
334: 제어부
335: 음성 인식부
336: 의미 해석부

Claims (20)

  1. 제1 기기에 상주하는 에이전트를 통한 유저와의 대화에 관한 정보를 수신하는 통신부와,
    외부 에이전트 서비스를 제어하는 제어부
    를 구비하는 정보 처리 장치.
  2. 제1항에 있어서,
    상기 제어부는, 유저의 화상 또는 음성, 유저에 의한 상기 제1 기기의 조작에 관한 정보, 상기 제1 기기가 장비하는 센서가 검출한 센서 정보 중 적어도 하나를 포함하는 상기 정보를 수집하는,
    정보 처리 장치.
  3. 제1항에 있어서,
    상기 제1 기기는 텔레비전 수상기이며,
    상기 제어부는, 유저에 의한 텔레비전 프로그램의 시청 이력, 녹화 이력, 리모컨 조작 이력을 포함하는 상기 정보를 수집하는,
    정보 처리 장치.
  4. 제2항에 있어서,
    상기 제어부는, 상기 제1 기기로부터 수집한 정보에 기초하여 유저의 어카운트를 관리하는,
    정보 처리 장치.
  5. 제1항에 있어서,
    상기 제어부는, 외부 에이전트 서비스의 호출을 제어하는,
    정보 처리 장치.
  6. 제5항에 있어서,
    상기 제어부는, 각 외부 에이전트 서비스의 호출 사양에 적합하도록 형식 변환하고 나서 호출을 실행하는,
    정보 처리 장치.
  7. 제6항에 있어서,
    상기 제어부는, 제1 외부 에이전트 서비스로의 호출 내용을 음성 합성하여, 상기 제1 외부 에이전트 서비스의 호출을 행하는,
    정보 처리 장치.
  8. 제6항에 있어서,
    상기 제어부는, 제2 외부 에이전트 서비스로의 호출 내용을 음성 합성하고, 상기 제1 기기로부터 상기 제2 외부 에이전트 서비스의 제어하의 외부 에이전트 디바이스에 대해 음성에 의한 호출을 행하는,
    정보 처리 장치.
  9. 제5항에 있어서,
    외부 에이전트 서비스로부터의 음성에 의한 회답을 인식하는 음성 인식부, 및 그 음성 인식 결과를 의미 해석하는 의미 해석부를 더 구비하는,
    정보 처리 장치.
  10. 제5항에 있어서,
    외부 에이전트 서비스로부터 API 호출에 의해 회답을 수취하는,
    정보 처리 장치.
  11. 제5항에 있어서,
    상기 제어부는, 복수의 외부 에이전트 서비스로부터의 회답을 선택 또는 합성하여, 유저로부터 상기 에이전트로의 문의에 대한 회답을 생성하는,
    정보 처리 장치.
  12. 제1항에 있어서,
    상기 제어부는, 상기 제1 기기를 호출한 유저의 프로파일 정보에 기초하여, 외부 에이전트 서비스의 호출을 제어하는,
    정보 처리 장치.
  13. 제12항에 있어서,
    상기 제어부는, 프로파일 전환 기능을 갖는 외부 에이전트 서비스에 대해, 상기 제1 기기를 호출한 유저의 프로파일 식별 결과에 기초하는 호출을 행하는,
    정보 처리 장치.
  14. 제1항에 있어서,
    상기 제어부는, 상기 제1 기기를 호출한 유저의 민감 정보에 기초하여, 외부 에이전트 서비스의 호출을 제어하는,
    정보 처리 장치.
  15. 제14항에 있어서,
    상기 제어부는, 유저의 호출에 포함되는 민감 정보를 다른 정보로 치환 처리하여, 외부 에이전트 서비스의 호출을 행하는,
    정보 처리 장치.
  16. 제1항에 있어서,
    상기 제어부는, 유저의 상태에 기초하여 외부 에이전트 서비스를 제어하는,
    정보 처리 장치.
  17. 유저와의 대화에 관한 정보가 처리되어 생성된, 상기 유저에 대한 회답을 수신하는 통신부와,
    상기 회답을 출력하는 출력부
    를 구비하는 정보 처리 장치.
  18. 제1 기기에 상주하는 에이전트를 통한 유저와의 대화에 관한 정보를 수신하는 통신 스텝과,
    외부 에이전트 서비스를 제어하는 제어 스텝
    을 갖는 정보 처리 방법.
  19. 유저와의 대화에 관한 정보가 처리되어 생성된, 상기 유저에 대한 회답을 수신하는 통신 스텝과,
    상기 회답을 출력하는 출력 스텝
    을 갖는 정보 처리 방법.
  20. 유저와 대화하는 에이전트가 상주하는 제1 기기와,
    상기 에이전트를 통한 유저와의 대화에 관한 정보를 수신하는 통신부와,
    외부 에이전트 서비스를 제어하는 제어부
    를 구비하는 정보 처리 시스템.
KR1020207032537A 2018-05-25 2019-04-11 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템 KR20210014625A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2018-100418 2018-05-25
JP2018100418 2018-05-25
PCT/JP2019/015875 WO2019225201A1 (ja) 2018-05-25 2019-04-11 情報処理装置及び情報処理方法、並びに情報処理システム

Publications (1)

Publication Number Publication Date
KR20210014625A true KR20210014625A (ko) 2021-02-09

Family

ID=68615574

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207032537A KR20210014625A (ko) 2018-05-25 2019-04-11 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템

Country Status (6)

Country Link
US (1) US11869496B2 (ko)
EP (1) EP3805914A4 (ko)
JP (1) JP7342862B2 (ko)
KR (1) KR20210014625A (ko)
CN (1) CN112136102B (ko)
WO (1) WO2019225201A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102392300B1 (ko) * 2020-06-03 2022-04-29 주식회사 마인드웨어Ÿp스 개인정보 보호 기반 음성 정보 처리 서비스 제공 시스템
US11531821B2 (en) * 2020-08-13 2022-12-20 Salesforce, Inc. Intent resolution for chatbot conversations with negation and coreferences
US11915691B2 (en) 2021-01-19 2024-02-27 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
KR20220105036A (ko) * 2021-01-19 2022-07-26 삼성전자주식회사 전자 장치 및 그 제어 방법
JP7524807B2 (ja) * 2021-03-24 2024-07-30 トヨタ自動車株式会社 ロボット、コミュニケーションシステム、コミュニケーション方法及びプログラム
US11978453B2 (en) * 2021-06-14 2024-05-07 Amazon Technologies, Inc. Natural language processing routing
WO2023188806A1 (ja) * 2022-03-31 2023-10-05 ソニーグループ株式会社 センサ装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007143010A (ja) 2005-11-22 2007-06-07 Sony Corp テレビジョン装置
WO2014203495A1 (ja) 2013-06-19 2014-12-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声対話方法、及び機器
JP2016100613A (ja) 2014-11-18 2016-05-30 ソニー株式会社 信号処理装置、信号処理方法、およびプログラム
JP2017527844A (ja) 2014-08-11 2017-09-21 アマゾン テクノロジーズ インコーポレイテッド 音声アプリケーション・アーキテクチャ

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3732359B2 (ja) * 1999-07-16 2006-01-05 富士通株式会社 情報仲介・統合装置
JP2002082748A (ja) * 2000-09-06 2002-03-22 Sanyo Electric Co Ltd ユーザ支援装置
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
JP4124115B2 (ja) 2003-12-02 2008-07-23 ソニー株式会社 情報処理装置及び情報処理方法、並びにコンピュータ・プログラム
JP2008090545A (ja) * 2006-09-29 2008-04-17 Toshiba Corp 音声対話装置および音声対話方法
WO2012150602A1 (en) 2011-05-03 2012-11-08 Yogesh Chunilal Rathod A system and method for dynamically monitoring, recording, processing, attaching dynamic, contextual & accessible active links & presenting of physical or digital activities, actions, locations, logs, life stream, behavior & status
US9288421B2 (en) * 2012-07-12 2016-03-15 Samsung Electronics Co., Ltd. Method for controlling external input and broadcast receiving apparatus
CA2823835C (en) 2012-08-15 2018-04-24 Homer Tlc, Inc. Voice search and response based on relevancy
US9230560B2 (en) * 2012-10-08 2016-01-05 Nant Holdings Ip, Llc Smart home automation systems and methods
CN104050966B (zh) * 2013-03-12 2019-01-01 百度国际科技(深圳)有限公司 终端设备的语音交互方法和使用该方法的终端设备
EP3065103A4 (en) * 2013-10-30 2017-01-18 Panasonic Intellectual Property Management Co., Ltd. Information provision system, specific-information generation device, and specific-information generation method
US9338493B2 (en) * 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN105490890A (zh) * 2014-09-16 2016-04-13 中兴通讯股份有限公司 智能家庭终端及其控制方法
CN106469040B (zh) * 2015-08-19 2019-06-21 华为终端有限公司 通信方法、服务器及设备
CN105161106A (zh) * 2015-08-20 2015-12-16 深圳Tcl数字技术有限公司 智能终端的语音控制方法、装置及电视机系统
US10714081B1 (en) * 2016-03-07 2020-07-14 Amazon Technologies, Inc. Dynamic voice assistant interaction
US9848082B1 (en) * 2016-03-28 2017-12-19 Noble Systems Corporation Agent assisting system for processing customer enquiries in a contact center
US10049663B2 (en) * 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
JP2018055422A (ja) * 2016-09-29 2018-04-05 株式会社東芝 情報処理システム、情報処理装置、情報処理方法、及びプログラム
US10217453B2 (en) * 2016-10-14 2019-02-26 Soundhound, Inc. Virtual assistant configured by selection of wake-up phrase

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007143010A (ja) 2005-11-22 2007-06-07 Sony Corp テレビジョン装置
WO2014203495A1 (ja) 2013-06-19 2014-12-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声対話方法、及び機器
JP2017527844A (ja) 2014-08-11 2017-09-21 アマゾン テクノロジーズ インコーポレイテッド 音声アプリケーション・アーキテクチャ
JP2016100613A (ja) 2014-11-18 2016-05-30 ソニー株式会社 信号処理装置、信号処理方法、およびプログラム

Also Published As

Publication number Publication date
CN112136102B (zh) 2024-04-02
EP3805914A1 (en) 2021-04-14
EP3805914A4 (en) 2021-06-30
US11869496B2 (en) 2024-01-09
CN112136102A (zh) 2020-12-25
JPWO2019225201A1 (ja) 2021-07-08
JP7342862B2 (ja) 2023-09-12
WO2019225201A1 (ja) 2019-11-28
US20210217414A1 (en) 2021-07-15

Similar Documents

Publication Publication Date Title
JP7342862B2 (ja) 情報処理装置及び情報処理方法、並びに情報処理システム
JP6475386B2 (ja) 機器の制御方法、機器、及びプログラム
US10971144B2 (en) Communicating context to a device using an imperceptible audio identifier
CN107015781B (zh) 语音识别方法和系统
US9826329B2 (en) System and method for playing media
US11087768B2 (en) Personalized voice recognition service providing method using artificial intelligence automatic speaker identification method, and service providing server used therein
US20140314261A1 (en) Method for augmenting hearing
JP2004280824A (ja) ユビキタスサービス機能を備えたプライベートネットワークシステム、及び当該ネットワークシステムにおける情報処理方法
KR102638946B1 (ko) 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템
US20120242860A1 (en) Arrangement and method relating to audio recognition
JP6973380B2 (ja) 情報処理装置、および情報処理方法
CN112005554A (zh) 信息处理装置和信息处理方法
JP2019145944A (ja) 音響出力システム、音響出力方法及びプログラム
KR20220053795A (ko) 인공지능 비서 서비스 제공 시스템 및 방법
JPWO2018043115A1 (ja) 情報処理装置、情報処理方法、並びにプログラム
JP2004221736A (ja) ドアホン装置
JP7351642B2 (ja) 音声処理システム、会議システム、音声処理方法、及び音声処理プログラム
US10574708B2 (en) Method and system for remote communication
JP7151707B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20220021668A1 (en) User authentication based on confidence levels for identity predictions
US20120262534A1 (en) Video image information processing apparatus and video image information processing method
KR20210099472A (ko) 인공지능형 멀티미디어 컨텐츠 추천 및 도우미 방법과 시스템
CN114747196A (zh) 使用多个音频装置来输出多声道音频的终端和方法
JP2021092924A (ja) 音声操作システム、画像形成装置、音声操作方法、音声操作サーバ、および、音声操作プログラム

Legal Events

Date Code Title Description
E902 Notification of reason for refusal