CN108882032A - 用于输出信息的方法和装置 - Google Patents
用于输出信息的方法和装置 Download PDFInfo
- Publication number
- CN108882032A CN108882032A CN201810589033.2A CN201810589033A CN108882032A CN 108882032 A CN108882032 A CN 108882032A CN 201810589033 A CN201810589033 A CN 201810589033A CN 108882032 A CN108882032 A CN 108882032A
- Authority
- CN
- China
- Prior art keywords
- user
- identity information
- vocal print
- print feature
- option
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000001755 vocal effect Effects 0.000 claims description 108
- 239000013598 vector Substances 0.000 claims description 102
- 230000004044 response Effects 0.000 claims description 30
- 238000004519 manufacturing process Methods 0.000 claims description 19
- 238000003860 storage Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000006854 communication Effects 0.000 description 4
- 230000005611 electricity Effects 0.000 description 4
- 230000033764 rhythmic process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000556 factor analysis Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/441—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
- H04N21/4415—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/475—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
- H04N21/4753—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for user identification, e.g. by entering a PIN or password
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8126—Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
- H04N21/8133—Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本申请实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括:接收第一用户输入的请求进入目标用户模式的消息。确定第一用户的身份信息。确定目标用户模式与第一用户的身份信息是否匹配。若匹配,则从预设的操作选项页面集合中选择与目标用户模式匹配的操作选项页面进行输出。该实施方式能够针对不同类型的智能电视用户提供个性化地操作选项页面。
Description
技术领域
本申请实施例涉及智能电视技术领域,具体涉及用于输出信息的方法和装置。
背景技术
智能电视已经广泛出现在我们的生活中,智能电视不仅仅局限于传统的电视节目观看功能,目前热门的电视应用市场,为用户提供成百上千电视应用,覆盖电视直播、视频点播、股票金融、生活健康、系统优化工具等。
现有技术中,智能电视功能繁多,对于不同的用户群体呈现相同的复杂操作界面。
发明内容
本申请实施例提出了用于输出信息的方法和装置。
第一方面,本申请实施例提供了一种用于输出信息的方法,包括:接收第一用户输入的请求进入目标用户模式的消息;确定第一用户的身份信息;确定目标用户模式与第一用户的身份信息是否匹配;若匹配,则从预设的操作选项页面集合中选择与目标用户模式匹配的操作选项页面进行输出。
在一些实施例中,上述方法还包括:若不匹配,则从预设的操作选项页面集合中选择与第一用户的身份信息匹配的用户模式匹配的操作选项页面进行输出。
在一些实施例中,确定第一用户的身份信息,包括:响应于接收到第一用户的第一语音,基于第一语音生成第一声纹特征向量;将第一声纹特征向量输入预先训练的声纹识别模型,得到第一用户的身份信息,其中,声纹识别模型用于表征声纹特征向量和用户的身份信息之间的对应关系。
在一些实施例中,确定第一用户的身份信息,包括:输出用于验证用户身份信息的问题;响应于接收到第一用户输入的答复信息,从预定的答案集合中确定是否存在与答复信息匹配的答案,其中,答案与用户身份信息相对应;若存在,则将与答复信息匹配的答案对应的用户身份信息确定为第一用户的身份信息。
在一些实施例中,基于第一语音生成第一声纹特征向量,包括:将第一语音导入预先训练的全局背景模型中进行映射得到第一声纹特征超向量,其中,全局背景模型用于表征语音与声纹特征超向量之间的对应关系;将第一声纹特征超向量经过降维处理得到第一声纹特征向量。
在一些实施例中,上述方法还包括:响应于根据第一用户的身份信息确定出第一用户属于预定人群,记录确定出第一用户的身份信息的时间点作为第一用户的观看起始时间;响应于确定出当前时间与第一用户的观看起始时间之差大于预定人群的观看时长阈值和/或当前时间在预定时间区间内,输出时间提醒信息和/或执行关机操作。
在一些实施例中,身份信息包括以下至少一项:性别、年龄、家庭成员标识。
在一些实施例中,上述方法还包括:响应于接收到第二用户的第二语音,基于第二语音生成第二声纹特征向量;将第二声纹特征向量输入声纹识别模型,得到第二用户的身份信息,其中,声纹识别模型用于表征声纹特征向量和用户的身份信息之间的对应关系;从第一用户和第二用户中确定出年龄最小的用户,以及从预设的操作选项页面集合中选择与年龄最小的用户对应的用户模式匹配的操作选项页面进行输出。
第二方面,本申请实施例提供了一种用于输出信息的装置,包括:接收单元,被配置成接收第一用户输入的请求进入目标用户模式的消息;确定单元,被配置成确定第一用户的身份信息;匹配单元,被配置成确定目标用户模式与第一用户的身份信息是否匹配;输出单元,被配置成若匹配,则从预设的操作选项页面集合中选择与目标用户模式匹配的操作选项页面进行输出。
在一些实施例中,输出单元进一步被配置成:若不匹配,则从预设的操作选项页面集合中选择与第一用户的身份信息匹配的用户模式匹配的操作选项页面进行输出。
在一些实施例中,确定单元进一步被配置成:响应于接收到第一用户的第一语音,基于第一语音生成第一声纹特征向量;将第一声纹特征向量输入预先训练的声纹识别模型,得到第一用户的身份信息,其中,声纹识别模型用于表征声纹特征向量和用户的身份信息之间的对应关系。
在一些实施例中,确定第一用户的身份信息,包括:输出用于验证用户身份信息的问题;响应于接收到第一用户输入的答复信息,从预定的答案集合中确定是否存在与答复信息匹配的答案,其中,答案与用户身份信息相对应;若存在,则将与答复信息匹配的答案对应的用户身份信息确定为第一用户的身份信息。
在一些实施例中,基于第一语音生成第一声纹特征向量,包括:将第一语音导入预先训练的全局背景模型中进行映射得到第一声纹特征超向量,其中,全局背景模型用于表征语音与声纹特征超向量之间的对应关系;将第一声纹特征超向量经过降维处理得到第一声纹特征向量。
在一些实施例中,上述装置还包括提醒单元,被配置成:响应于根据第一用户的身份信息确定出第一用户属于预定人群,记录确定出第一用户的身份信息的时间点作为第一用户的观看起始时间;响应于确定出当前时间与第一用户的观看起始时间之差大于预定人群的观看时长阈值和/或当前时间在预定时间区间内,输出时间提醒信息和/或执行关机操作。
在一些实施例中,身份信息包括以下至少一项:性别、年龄、家庭成员标识。
在一些实施例中,上述装置还包括切换单元,被配置成:响应于接收到第二用户的第二语音,基于第二语音生成第二声纹特征向量;将第二声纹特征向量输入声纹识别模型,得到第二用户的身份信息,其中,声纹识别模型用于表征声纹特征向量和用户的身份信息之间的对应关系;从第一用户和第二用户中确定出年龄最小的用户,以及从预设的操作选项页面集合中选择与年龄最小的用户对应的用户模式匹配的操作选项页面进行输出。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一的方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如第一方面中任一所述的方法。
本申请实施例提供的用于输出信息的方法和装置,在接收到进入目标用户模式的消息之后,通过确定用户的身份信息确定该用户是否有进入目标用户模式的权限。如果有,则根据目标用户模式选择操作选项页面进行输出。从而能够针对不同类型的智能电视用户提供个性化地操作选项页面。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的用于输出信息的方法的一个实施例的流程图;
图3是根据本申请的用于输出信息的方法的一个应用场景的示意图;
图4是根据本申请的用于输出信息的方法的又一个实施例的流程图;
图5是根据本申请的用于输出信息的装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于播放电视节目的方法或用于播放电视节目的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括智能电视101和遥控器102。智能电视101上安装有麦克风103,用于采集观看者的声音。遥控器102用来远程控制智能电视101。可以实现对智能电视频道的转换、用于播放电视节目的等功能。智能电视101连接网络后,能提供网页浏览器、全高清3D体感游戏、视频通话以及教育在线等多种娱乐、资讯、学习资源,并可以无限拓展,还能分别支持组织与个人、专业和业余软件爱好者自主开发、共同分享数以万计的实用功能软件。它将实现网络搜索、网络电视、视频点播、数字音乐、网络新闻、网络视频电话等各种应用服务。用户可以搜索电视频道和网站,录制电视节目,能够播放卫星和有线电视节目以及网络视频。
智能电视101像智能手机一样,具有全开放式平台,搭载了操作系统,可以由用户自行安装和卸载软件、游戏等第三方服务商提供的程序,通过此类程序来不断对彩电的功能进行扩充,并可以通过网线、无线网络来实现上网冲浪。智能电视101可通过麦克风103采集观看者的声音,然后识别出观看者的身份。再针对不同的身份提供不同的操作界面和不同的节目内容。
需要说明的是,本申请实施例所提供的用于播放电视节目的方法一般由智能电视101执行,相应地,用于播放电视节目的装置一般设置于智能电视101中。
继续参考图2,示出了根据本申请的用于输出信息的方法的一个实施例的流程200。该用于输出信息的方法,包括以下步骤:
步骤201,接收第一用户输入的请求进入目标用户模式的消息。
在本实施例中,用于输出信息的成方法的执行主体(例如图1所示的智能电视)可以通过麦克风接收用户口头输入的进入目标用户模式语音,例如“进入儿童模式”。或者可以接收用户通过遥控器发送的请求进入目标用户模式的消息。用户模式可以是根据用户的年龄区分的操作选项页面的模式。例如,老人模式、儿童模式、成人模式。目标用户模式可以是用户请求进入的用户模式,如老人模式、儿童模式、成人模式中的一种。操作选项页面是智能电视主页上显示的用于进行智能电视操作的页面。其中,老人模式的操作选项页面可以省略一些选项,例如游戏选项。老人模式的操作选项页面还可以包括一些特定的选项,例如,戏曲频道、广场舞频道等。老人模式还可以加大操作选项页面的字体,方便老人观看。儿童模式则可过滤掉一些不适合儿童观看的节目,设置护眼模式,并对音量、观看时间进行控制。此外,儿童模式还可在操作选项页面的显示拼音,以方便不识字的儿童使用。还可以在页面中加一些卡通图像方便儿童识别操作选项。
步骤202,确定第一用户的身份信息。
在本实施例中,可通过语音识别方式或者用户通过遥控器输入身份标识的方式确定用户的身份信息。身份信息可以包括家庭成员标识,例如,爸爸、妈妈、爷爷、奶奶、女儿。也可以包括儿童、成人、老人等类别。本步骤用于确定请求进入目标用户模式的用户的身份信息。成人可以帮儿童请求进入儿童模式。儿童却不能自行选择进入成人模式。
在本实施例的一些可选的实现方式中,确定第一用户的身份信息,可以包括:
步骤202A1,响应于接收到第一用户的第一语音,基于第一语音生成第一声纹特征向量。
因为可能有多个用户使用智能电视,所以使用第一用户、第二用户进行区分。第一用户输入的语音称为第一语音。第二用户输入的语音称为第二语音。对第一语音和第二语音的处理过程相同,为了方便描述,下文统一采用语音表示第一语音和第二语音。可以通过麦克风接收用户口头输入的语音。语音中可包括遥控指令(例如,“开机”),也可包括不是遥控指令的语音。声纹是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明,声纹不仅具有特定性,而且有相对稳定性的特点。声纹特征向量可以是标识用户的声纹频谱特征的向量。如果一段音频中存在多个人的声音,则可以提取出多个声纹特征向量。需要说明的是,基于语音生成声纹特征向量是目前广泛研究和应用的公知技术,在此不再赘述。
例如,基于语音生成声纹特征向量可以通过提取语音中的典型特征来实现。具体地,由于声音的波长、频率、强度、节奏等特征能体现用户声音的特点,因此,在对语音进行声纹特征提取时,可以提取语音中的波长、频率、强度、节奏等特征,并确定语音中波长、频率、强度、节奏等特征的特征值,将语音中的波长、频率、强度、节奏等特征的特征值等作为声纹特征向量中的元素。
作为示例,基于语音生成声纹特征向量还可以通过提取语音中的声学特征,例如,梅尔倒谱系数。将梅尔倒谱系数作为声纹特征向量中的元素。其中,从语音中提取梅尔倒谱系数的过程可以包括预加重、分帧、加窗、快速傅里叶变换、梅尔滤波、对数变换以及离散余弦变换。
在用户输入语音之前,可通过遥控器让智能电视静音,以防止采集的用户输入的语音中包括电视节目的声音。可选地,还可通过预定的语音命令,让智能电视静音。例如,用户可以口头输入语音“静音”令智能电视静音。
在本实施例的一些可选的实现方式中,上述电子设备可以将上述语音导入预先训练的全局背景模型(Universal Background Model,UBM)中进行映射得到声纹特征超向量(即高斯超向量)。全局背景模型也被称为通用背景模型,用于表示通用的背景特性。全局背景模型是由大量的冒认者语音使用EM(Expectation-Maximum,期望最大化)算法训练得到的,UBM模型的训练来自大量不同的说话人。假如训练好的全局背景模型中有多个高斯分布,如果提取得到了某个人的多帧语音特征序列,就可以计算出这个人的声纹特征超向量。实际上反映的就是这个人的声学特征和全局背景模型的不同,即这个人发音中的独特个性。如此一来,最终可以将用户不定长语音最终映射到一个能反映用户发声特征的固定长度的声纹特征超向量上来。
这样的高维声纹特征超向量中,不仅包含了个人发音的差异,可能还包含信道所造成的差异。所以,还需要通过一些有监督降维算法进一步把这个超向量降维,映射到更低维度的向量上面去。可以通过联合因子分析方法(Joint Factor Analysis,JFA)对上述声纹特征超向量进行降维处理得到声纹特征向量,上述联合因子分析方法是声纹认证算法中针对信道补偿的有效算法,它通过假设说话人空间和信道空间是独立的,并可以分别用两个低维因子空间进行描述,从而估计信道因子;也可以通过概率线性判别分析算法(Probabilistic Linear Discriminant Analysis,PLDA)对上述声纹超向量进行降维处理得到声纹特征向量,上述概率线性判别分析算法也是一种信道补偿算法,是概率形式的线性判别分析算法(Linear Discriminant Analysis,LDA);还可以通过辨识矢量(Identifying Vector,I-Vector)对上述声纹特征超向量进行降维处理得到声纹特征向量。实际上,为了保证声纹的准确性,训练全局背景模型的时候通常需要提供多条语音,然后提取得到多个这样的声纹特征向量,然后可将用户的声纹特征向量存储起来,多个用户声纹特征向量构成声纹库。
然后,通过上述方法将声纹特征超向量进行降维处理得到声纹特征向量。使用许多人的大量声学特征向量,通过最大期望算法(Expectation Maximization)便可以训练得到一个高斯混合模型(Gaussian Mixture Model),这个模型描述了很多人的语音特征数据的一个概率分布,可以理解为所有说话人的共性,看作具体某一个说话人声纹模型的一个先验模型。因此,这个高斯混合模型还被称为UBM模型。还可通过深层神经网络构建全局背景模型。
可选的,可在生成声纹特征向量之前先对语音进行处理,过滤掉噪音。例如,通过奇异值分解算法或滤波算法过滤掉语音中的噪音。这里所指的噪音可以包括音高和音强变化混乱、听起来不谐和的声音。也可包括背景音乐等干扰识别出目标声音的声音。奇异值分解(SVD,Singular Value Decomposition)是线性代数中一种重要的矩阵分解,是矩阵分析中正规矩阵酉对角化的推广。在信号处理、统计学等领域有重要应用。基于SVD的去噪声技术属于子空间算法的一种。简单的来说将带噪信号向量空间分解为分别由纯净信号主导和噪声信号主导的两个子空间,然后通过简单地去除落在“噪声空间”中的带噪信号向量分量来估计纯净信号。还可通过自适应滤波法和卡尔曼滤波法过滤掉音频文件中的噪音。通常以20~50ms为间隔对语音进行分帧,然后通过一些特征提取算法(主要是进行时域到频域的转换),每一帧语音都可以映射到一个固定长度的声学特征序列。
步骤202A2,将第一声纹特征向量输入预先训练的声纹识别模型,得到第一用户的身份信息。
声纹识别模型用于表征声纹特征向量和用户的身份信息之间的对应关系。用户的身份信息可以包括以下至少一项:性别、年龄、家庭成员标识。年龄可以是一定的年龄区间,例如,4-8岁、20-30岁等。可将性别和年龄结合起来确定用户的具体身份。例如,可以识别出儿童、老人、成年女性、成年男性。家庭成员标识可用于标识预先注册了的家庭成员。例如,妈妈,爸爸,女儿,奶奶等。如果一个家庭中相近年龄,相同性别的成员只有一个,则可直接用用户的年龄和性别确定出家庭成员。例如,家庭成员包括妈妈,爸爸,女儿,奶奶,则确定出年龄在50-60之间的女性就是奶奶,年龄在4-8之间的女性是女儿。声纹识别模型可以包括分类器,能够把声纹特征向量库中的声纹特征向量映射到给定用户的类别中的某一个,从而可以应用于用户的类别的预测。可以按年龄分类,也可按性别分类,还可按年龄和性别的结合分类。例如女童、男性成年人、女性老人等。即,将声纹特征向量输入分类器,可输出用户的类别。本实施例采用的分类器,可包含决策树、逻辑回归、朴素贝叶斯、神经网络等。分类器在一个简单的概率模型的基础上,使用最大的概率值来对数据进行分类预测。分类器是提前训练好的。可从大量的声音样本中提取出声纹特征向量,训练分类器。分类器的构造和实施大体会经过以下几个步骤:1、选定样本(包含正样本和负样本),将所有样本分成训练样本和测试样本两部分。2、基于训练样本执行分类器算法,生成分类器。3、将测试样本输入分类器,生成预测结果。4、根据预测结果,计算必要的评估指标,评估分类器的性能。
例如,采集大量儿童的声音作为正样本,大量成人的声音作为负样本。基于正样本和负样本上执行分类器算法,生成分类器。再将正样本和负样本分别输入分类器,生成预测结果以验证预测结果是否为儿童。根据预测结果评估分类器的性能。
声纹识别模型还可以包括家庭成员映射表。上述家庭成员映射表记录了家庭成员标识、性别、年龄的对应关系。从家庭成员映射表中查找分类器分类的结果,可确定家庭成员标识。例如,分类器输出的结果是年龄在50-60之间的女性,则通过家庭成员映射表确定出该用户的家庭成员标识是奶奶。
可选地,声纹识别模型可以是声纹库。声纹库用于表征声纹特征向量和身份信息的对应关系。将声纹特征向量输入预定的声纹库进行匹配,并按照匹配度由高到低的顺序选取第一预定数目个身份信息并输出。可以通过多次采集同一用户的声音,通过步骤201构建出该用户的声纹特征向量,建立声纹特征向量和身份信息的对应关系,通过注册多个用户的声纹特征向量和身份信息的对应关系从而构建出声纹库。计算上述声纹特征向量与上述声纹库之间的匹配度时,可以采用曼哈顿距离(Manhattan Distance)进行计算,也可以采用闵可夫斯基距离(Minkowski Distance)进行计算,还可以采用余弦相似度(CosineSimilarity)进行计算。
在本实施例的一些可选的实现方式中,确定第一用户的身份信息,可以包括:
步骤202B1,输出用于验证用户身份信息的问题。该问题主要用于防止儿童伪装成大人。因此可以设置成儿童难以回答的问题,例如,在电视画面上显示“请输入模式切换密码”,或者语音提示“请输入模式切换密码”。为防止儿童记住密码,也可以随机生成问题,例如,出一道英文题、数学题、古诗词题等,让用户给出答案。用户可通过遥控器选择或者直接输入答案,也可以语音回答。
步骤202B2,响应于接收到第一用户输入的答复信息,从预定的答案集合中确定是否存在与答复信息匹配的答案。
其中,答案与用户身份信息相对应。如果是密码问题,每个密码都与一种用户身份信息相对应。用户可根据用户输入的答复信息判断出用户身份信息。例如。预先设置成人密码为“adult”,儿童密码为“child”。如果智能电视接收到了“adult”,则可判断出该用户是成人。如果是一些有固定答案的问题,则可将用户输入的答复信息与固定答案相比对。为了方便回答,可在提问时给出选择题,用户只需要选择A、B、C、D就可以了。
步骤202B3,若存在,则将与答复信息匹配的答案对应的用户身份信息确定为第一用户的身份信息。
答案与用户身份信息相对应。不同答案对应不同身份信息。如果是密码问题,每个密码都与一种用户身份信息相对应。可根据用户回答的密码查找对应的用户身份。如果不是密码问题,则可根据用户输入的答复信息判断回答是否正确。如果预定的答案集合中不存在与答复信息匹配的答案,说明回答错误,无法识别用户的身份信息。如果预定的答案集合中存在与答复信息匹配的答案,说明回答正确,根据答案与用户身份信息的对应关系确定出用户的身份信息。
步骤203,将目标用户模式与第一用户的身份信息进行匹配。
在本实施例中,每种身份信息与至少一种用户模式匹配。例如,成人可以与儿童模式、老人模式、成人模式匹配。老人可以与儿童模式、老人模式。儿童只与儿童模式匹配。如果确定出的身份信息是儿童,而用户请求进入的目标用户模式是成人模式,则不匹配。如果确定出的身份信息是儿童,而用户请求进入的目标用户模式是儿童模式,则匹配。成人可帮儿童或老人选择目标用户模式。儿童想要进入成人模式需要成人帮助才可以。从而使得儿童在成人的监管下进入成人模式。如果没有成人的监管,则只能进入儿童模式。
步骤204,若匹配,则从预设的操作选项页面集合中选择与目标用户模式匹配的操作选项页面进行输出。
在本实施例中,不同的用户模式对应不同的操作选项页面。若匹配,则可直接进入用户请求的目标用户模式。操作选项页面可以包括智能电视的主页。还可以包括菜单形式的操作选项。操作选项可包括频道选项、声音选项、图像选项等。预先设置好操作选项页面集合中的操作选项页面各不相同。例如,针对老人模式的操作选项页面的字体粗大,操作选项数量少,以避免操作太复杂影响老人使用。针对儿童模式的操作选项页面可去除一些频道选项(例如,戏曲频道、广告频道等),并且可以显示拼音方便低龄儿童识别。针对成人模式的操作选项页面可以展现智能电视所支持的全部功能。
步骤205,若不匹配,则从预设的操作选项页面集合中选择与第一用户的身份信息匹配的用户模式匹配的操作选项页面进行输出。
在本实施例中,若不匹配,则不进入用户请求的目标用户模式。而进入与用户的身份信息匹配的用户模式。例如,用户的身份信息为儿童,虽然他请求进入成人模式,但由于请求的用户模式与它实际身份不匹配,因此仍只允许进入儿童模式。
可选地,如果步骤202中未确定出用户的身份信息。则可进入预定的客人模式。为客人设置一定的权限,例如不可看付费节目等。或者默认针对客人采用儿童模式。
在本实施例的一些可选的实现方式中,上述方法还可以包括:
步骤2051,响应于根据第一用户的身份信息确定出第一用户属于预定人群,记录确定出第一用户的身份信息的时间点作为第一用户的观看起始时间。预定人群可以是老人或者儿童。为了老人或者儿童的健康着想,需要控制他们观看电视的时间。因此记录用户开始看电视的时间作为该用户的观看起始时间。可在步骤202确定出第一用户的身份信息之后记录观看起始时间。不仅包括时间长度,还可监控具体地时间。例如,夜里12点之后不许老人或者儿童观看电视。
步骤2052,响应于确定出当前时间与第一用户的观看起始时间之差大于预定人群的观看时长阈值和/或当前时间在预定时间区间内,输出时间提醒信息和/或执行关机操作。当前时间与用户的观看起始时间之差可作为该用户的观看时长。当观看时长超过预定人群的观看时长阈值时,不再播放电视节目或者关机。可以预先以文字或声音的形式提醒用户即将超时。还可设置预定人群禁看电视的预定时间区间,例如,夜里12点-早上6点钟。
继续参见图3,图3是根据本实施例的用于输出信息的方法的应用场景的一个示意图。在图3的应用场景中,儿童用户通过麦克风向智能电视输入进入目标用户模式的语音“进入儿童模式”。智能电视根据语音“进入儿童模式”提取出声纹特征向量,然后通过预先训练的声纹识别模型确定出用户的身份信息为儿童。然后确定出目标用户模式(儿童模式)与用户的身份信息“儿童”相匹配。则从预设的分别针对儿童、成人、老人的操作选项页面集合中选择儿童模式对应的操作选项页面进行输出。儿童模式下的操作选项页面针对儿童的使用习惯增加了拼音、卡通形象等信息。并且禁止使用其它不适合儿童使用的功能。
本申请的上述实施例提供的方法通过验证用户身份信息是否与用户所请求的用户模式匹配,可以在针对不同类型的智能电视用户提供个性化地操作选项页面的同时,保护特定人群的身心健康。
进一步参考图4,其示出了用于输出信息的方法的又一个实施例的流程400。该用于输出信息的方法的流程400,包括以下步骤:
步骤401,接收第一用户输入的请求进入目标用户模式的消息。
步骤402,确定第一用户的身份信息。
步骤403,将目标用户模式与第一用户的身份信息进行匹配。
步骤404,若匹配,则从预设的操作选项页面集合中选择与目标用户模式匹配的操作选项页面进行输出。
步骤405,若不匹配,则从预设的操作选项页面集合中选择与第一用户的身份信息匹配的用户模式匹配的操作选项页面进行输出。
步骤401-405与步骤201-205基本相同,因此不再赘述。
步骤406,响应于接收到第二用户的第二语音,基于第二语音生成第二声纹特征向量。
在本实施例中,智能电视的使用者可能有多个,当接收到第二用户的第二语音时,可验证第二用户的身份信息是否与当前的用户模式相匹配,如果不匹配则需要切换用户模式。可参考步骤202A1的方法基于第二语音生成第二声纹特征向量。具体过程与基于第一语音生成第一声纹特征向量基本相同,因此不再赘述。
步骤407,将第二声纹特征向量输入声纹识别模型,得到第二用户的身份信息。
在本实施例中,声纹识别模型用于表征声纹特征向量和用户的身份信息之间的对应关系。该步骤可参考步骤202A2。具体过程与将第一声纹特征向量输入声纹识别模型,得到第一用户的身份信息基本相同,因此不再赘述。
步骤408,从第一用户和第二用户中确定出年龄最小的用户,以及从预设的操作选项页面集合中选择与年龄最小的用户对应的用户模式匹配的操作选项页面进行输出。
在本实施例中,声纹识别模型可识别出用户的大致年龄。从而从预设的操作选项页面集合中选择与年龄最小的用户对应的用户模式匹配的操作选项页面进行输出。例如,如果第一用户是儿童,即使第二用户是成人也按照儿童模式对应的操作选项页面进行输出。保持原有的用户模式,不需要切换操作选项页面。如果第一用户是成人,当前是成人模式,当第二用户是儿童时需要切换到儿童模式。
从图4中可以看出,与图2对应的实施例相比,本实施例中的用于输出信息的方法的流程400突出了对用户模式进行切换的步骤。由此,本实施例描述的方案可以引入在不同用户同时观看电视时对年龄小的用户作保护。从而提高对儿童的保护的全面性。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于输出信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于输出信息的装置500包括:接收单元501、确定单元502、匹配单元503和输出单元504。接收单元501被配置成接收第一用户输入的请求进入目标用户模式的消息。确定单元502被配置成确定第一用户的身份信息。匹配单元503被配置成确定目标用户模式与第一用户的身份信息是否匹配。输出单元504被配置成若匹配,则从预设的操作选项页面集合中选择与目标用户模式匹配的操作选项页面进行输出。
在本实施例中,用于输出信息的装置500的接收单元501、确定单元502、匹配单元503和输出单元504的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204。
在本实施例的一些可选的实现方式中,输出单元504进一步被配置成:若不匹配,则从预设的操作选项页面集合中选择与第一用户的身份信息匹配的用户模式匹配的操作选项页面进行输出。
在本实施例的一些可选的实现方式中,确定单元502进一步被配置成:响应于接收到第一用户的第一语音,基于第一语音生成第一声纹特征向量;将第一声纹特征向量输入预先训练的声纹识别模型,得到第一用户的身份信息,其中,声纹识别模型用于表征声纹特征向量和用户的身份信息之间的对应关系。
在本实施例的一些可选的实现方式中,确定单元502进一步被配置成:输出用于验证用户身份信息的问题;响应于接收到第一用户输入的答复信息,从预定的答案集合中确定是否存在与答复信息匹配的答案,其中,答案与用户身份信息相对应;若存在,则将与答复信息匹配的答案对应的用户身份信息确定为第一用户的身份信息。
在本实施例的一些可选的实现方式中,确定单元502进一步被配置成:将第一语音导入预先训练的全局背景模型中进行映射得到第一声纹特征超向量。其中,全局背景模型用于表征语音与声纹特征超向量之间的对应关系;将第一声纹特征超向量经过降维处理得到第一声纹特征向量。
在本实施例的一些可选的实现方式中,装置500还包括提醒单元(未示出),被配置成:响应于根据第一用户的身份信息确定出第一用户属于预定人群,记录确定出第一用户的身份信息的时间点作为第一用户的观看起始时间。响应于确定出当前时间与第一用户的观看起始时间之差大于预定人群的观看时长阈值和/或当前时间在预定时间区间内,输出时间提醒信息和/或执行关机操作。
在本实施例的一些可选的实现方式中,身份信息包括以下至少一项:性别、年龄、家庭成员标识。
在本实施例的一些可选的实现方式中,装置500还包括切换单元,被配置成:响应于接收到第二用户的第二语音,基于第二语音生成第二声纹特征向量。将第二声纹特征向量输入声纹识别模型,得到第二用户的身份信息,其中,声纹识别模型用于表征声纹特征向量和用户的身份信息之间的对应关系。从第一用户和第二用户中确定出年龄最小的用户,以及从预设的操作选项页面集合中选择与年龄最小的用户对应的用户模式匹配的操作选项页面进行输出。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备(如图1所示的智能电视)的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括遥控器、麦克风等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括接收单元、确定单元、匹配单元和输出单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,接收单元还可以被描述为“接收第一用户输入的请求进入目标用户模式的消息的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:接收第一用户输入的请求进入目标用户模式的消息。确定第一用户的身份信息;确定目标用户模式与第一用户的身份信息是否匹配。若匹配,则从预设的操作选项页面集合中选择与目标用户模式匹配的操作选项页面进行输出。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (18)
1.一种用于输出信息的方法,包括:
接收第一用户输入的请求进入目标用户模式的消息;
确定所述第一用户的身份信息;
确定所述目标用户模式与所述第一用户的身份信息是否匹配;
若匹配,则从预设的操作选项页面集合中选择与所述目标用户模式匹配的操作选项页面进行输出。
2.根据权利要求1所述的方法,其中,所述方法还包括:
若不匹配,则从预设的操作选项页面集合中选择与所述第一用户的身份信息匹配的用户模式匹配的操作选项页面进行输出。
3.根据权利要求1所述的方法,其中,所述确定所述第一用户的身份信息,包括:
响应于接收到所述第一用户的第一语音,基于所述第一语音生成第一声纹特征向量;
将所述第一声纹特征向量输入预先训练的声纹识别模型,得到所述第一用户的身份信息,其中,所述声纹识别模型用于表征声纹特征向量和用户的身份信息之间的对应关系。
4.根据权利要求1所述的方法,其中,所述确定所述第一用户的身份信息,包括:
输出用于验证用户身份信息的问题;
响应于接收到所述第一用户输入的答复信息,从预定的答案集合中确定是否存在与所述答复信息匹配的答案,其中,答案与用户身份信息相对应;
若存在,则将所述与所述答复信息匹配的答案对应的用户身份信息确定为所述第一用户的身份信息。
5.根据权利要求3所述的方法,其中,所述基于所述第一语音生成第一声纹特征向量,包括:
将所述第一语音导入预先训练的全局背景模型中进行映射得到第一声纹特征超向量,其中,所述全局背景模型用于表征语音与声纹特征超向量之间的对应关系;
将所述第一声纹特征超向量经过降维处理得到第一声纹特征向量。
6.根据权利要求1所述的方法,其中,所述方法还包括:
响应于根据所述第一用户的身份信息确定出所述第一用户属于预定人群,记录确定出所述第一用户的身份信息的时间点作为所述第一用户的观看起始时间;
响应于确定出当前时间与所述第一用户的观看起始时间之差大于所述预定人群的观看时长阈值和/或当前时间在预定时间区间内,输出时间提醒信息和/或执行关机操作。
7.根据权利要求1-6之一所述的方法,其中,所述身份信息包括以下至少一项:性别、年龄、家庭成员标识。
8.根据权利要求7所述的方法,其中,所述方法还包括:
响应于接收到第二用户的第二语音,基于所述第二语音生成第二声纹特征向量;
将所述第二声纹特征向量输入声纹识别模型,得到所述第二用户的身份信息,其中,所述声纹识别模型用于表征声纹特征向量和用户的身份信息之间的对应关系;
从所述第一用户和所述第二用户中确定出年龄最小的用户,以及从预设的操作选项页面集合中选择与所述年龄最小的用户对应的用户模式匹配的操作选项页面进行输出。
9.一种用于输出信息的装置,包括:
接收单元,被配置成接收第一用户输入的请求进入目标用户模式的消息;
确定单元,被配置成确定所述第一用户的身份信息;
匹配单元,被配置成确定所述目标用户模式与所述第一用户的身份信息是否匹配;
输出单元,被配置成若匹配,则从预设的操作选项页面集合中选择与所述目标用户模式匹配的操作选项页面进行输出。
10.根据权利要求9所述的装置,其中,所述输出单元进一步被配置成:
若不匹配,则从预设的操作选项页面集合中选择与所述第一用户的身份信息匹配的用户模式匹配的操作选项页面进行输出。
11.根据权利要求9所述的装置,其中,所述确定单元进一步被配置成:
响应于接收到所述第一用户的第一语音,基于所述第一语音生成第一声纹特征向量;
将所述第一声纹特征向量输入预先训练的声纹识别模型,得到所述第一用户的身份信息,其中,所述声纹识别模型用于表征声纹特征向量和用户的身份信息之间的对应关系。
12.根据权利要求9所述的装置,其中,所述确定单元进一步被配置成:
输出用于验证用户身份信息的问题;
响应于接收到所述第一用户输入的答复信息,从预定的答案集合中确定是否存在与所述答复信息匹配的答案,其中,答案与用户身份信息相对应;
若存在,则将所述与所述答复信息匹配的答案对应的用户身份信息确定为所述第一用户的身份信息。
13.根据权利要求11所述的装置,其中,所述确定单元进一步被配置成:
将所述第一语音导入预先训练的全局背景模型中进行映射得到第一声纹特征超向量,其中,所述全局背景模型用于表征语音与声纹特征超向量之间的对应关系;
将所述第一声纹特征超向量经过降维处理得到第一声纹特征向量。
14.根据权利要求9所述的装置,其中,所述装置还包括提醒单元,被配置成:
响应于根据所述第一用户的身份信息确定出所述第一用户属于预定人群,记录确定出所述第一用户的身份信息的时间点作为所述第一用户的观看起始时间;
响应于确定出当前时间与所述第一用户的观看起始时间之差大于所述预定人群的观看时长阈值和/或当前时间在预定时间区间内,输出时间提醒信息和/或执行关机操作。
15.根据权利要求9-14之一所述的装置,其中,所述身份信息包括以下至少一项:性别、年龄、家庭成员标识。
16.根据权利要求15所述的装置,其中,所述装置还包括切换单元,被配置成:
响应于接收到第二用户的第二语音,基于所述第二语音生成第二声纹特征向量;
将所述第二声纹特征向量输入声纹识别模型,得到所述第二用户的身份信息,其中,所述声纹识别模型用于表征声纹特征向量和用户的身份信息之间的对应关系;
从所述第一用户和所述第二用户中确定出年龄最小的用户,以及从预设的操作选项页面集合中选择与所述年龄最小的用户对应的用户模式匹配的操作选项页面进行输出。
17.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
18.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810589033.2A CN108882032A (zh) | 2018-06-08 | 2018-06-08 | 用于输出信息的方法和装置 |
US16/298,714 US20190378494A1 (en) | 2018-06-08 | 2019-03-11 | Method and apparatus for outputting information |
JP2019047123A JP2019212288A (ja) | 2018-06-08 | 2019-03-14 | 情報を出力するための方法、及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810589033.2A CN108882032A (zh) | 2018-06-08 | 2018-06-08 | 用于输出信息的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108882032A true CN108882032A (zh) | 2018-11-23 |
Family
ID=64337534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810589033.2A Pending CN108882032A (zh) | 2018-06-08 | 2018-06-08 | 用于输出信息的方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20190378494A1 (zh) |
JP (1) | JP2019212288A (zh) |
CN (1) | CN108882032A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109671438A (zh) * | 2019-01-28 | 2019-04-23 | 武汉恩特拉信息技术有限公司 | 一种利用语音提供辅助服务的装置及方法 |
CN110689886A (zh) * | 2019-09-18 | 2020-01-14 | 云知声智能科技股份有限公司 | 设备控制方法及装置 |
CN111081249A (zh) * | 2019-12-30 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 一种模式选择方法、装置及计算机可读存储介质 |
CN111787387A (zh) * | 2020-06-30 | 2020-10-16 | 百度在线网络技术(北京)有限公司 | 内容显示方法、装置、设备以及存储介质 |
WO2020228280A1 (zh) * | 2019-05-10 | 2020-11-19 | 平安科技(深圳)有限公司 | 智能家居设备的声音控制方法、装置、及电子装置 |
CN112000726A (zh) * | 2020-09-03 | 2020-11-27 | 未来穿戴技术有限公司 | 按摩操作模式的存储方法及电子设备、存储介质 |
CN112423069A (zh) * | 2020-11-20 | 2021-02-26 | 广州欢网科技有限责任公司 | 模式切换方法、装置及设备、智能播放系统 |
CN113553105A (zh) * | 2020-04-23 | 2021-10-26 | 百度在线网络技术(北京)有限公司 | 引导页面的生成方法和装置 |
CN114079806A (zh) * | 2020-08-06 | 2022-02-22 | 深圳Tcl新技术有限公司 | 一种个性化页面显示方法及相关设备 |
CN114121014A (zh) * | 2021-10-26 | 2022-03-01 | 云知声智能科技股份有限公司 | 多媒体数据的控制方法及设备 |
CN114885218A (zh) * | 2022-06-16 | 2022-08-09 | 深圳创维-Rgb电子有限公司 | 自动选择观看模式的方法、电视机、设备及存储介质 |
CN114999472A (zh) * | 2022-04-27 | 2022-09-02 | 青岛海尔空调器有限总公司 | 一种空调控制方法、装置及一种空调 |
CN116055818A (zh) * | 2022-12-22 | 2023-05-02 | 北京奇艺世纪科技有限公司 | 视频播放方法、装置、电子设备及存储介质 |
CN118447849A (zh) * | 2024-07-08 | 2024-08-06 | 无锡威达智能电子股份有限公司 | 一种基于语音识别的遥控交互方法、电子设备及存储介质 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111010481B (zh) * | 2019-12-16 | 2022-06-24 | 北京小米移动软件有限公司 | 来电监听方法、来电监听装置及计算机存储介质 |
CN111600782B (zh) * | 2020-04-28 | 2021-05-18 | 百度在线网络技术(北京)有限公司 | 智能语音设备的控制方法、装置、电子设备和存储介质 |
CN112333550B (zh) * | 2020-06-19 | 2024-01-19 | 深圳Tcl新技术有限公司 | 节目查询方法、装置、设备及计算机存储介质 |
CN111899717A (zh) * | 2020-07-29 | 2020-11-06 | 北京如影智能科技有限公司 | 一种语音回复方法及装置 |
CN115248867A (zh) * | 2021-04-26 | 2022-10-28 | 北京有竹居网络技术有限公司 | 一种多媒体内容展示方法、装置、设备及存储介质 |
CN113676394B (zh) * | 2021-08-19 | 2023-04-07 | 维沃移动通信(杭州)有限公司 | 信息处理方法和信息处理装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110135114A1 (en) * | 2008-08-22 | 2011-06-09 | Sony Corporation | Image display device, control method and computer program |
CN103914127A (zh) * | 2012-12-31 | 2014-07-09 | 联想(北京)有限公司 | 一种电子设备的控制方法及电子设备 |
CN104008320A (zh) * | 2014-05-19 | 2014-08-27 | 惠州Tcl移动通信有限公司 | 基于人脸识别的使用权限和用户模式控制方法及系统 |
CN104065989A (zh) * | 2013-03-21 | 2014-09-24 | 国民技术股份有限公司 | 播放终端及其语音控制方法 |
US9100694B1 (en) * | 2013-03-14 | 2015-08-04 | Google Inc. | TV mode change in accordance with number of viewers present |
CN105791935A (zh) * | 2016-05-03 | 2016-07-20 | 乐视控股(北京)有限公司 | 一种电视的控制方法及装置 |
CN105959806A (zh) * | 2016-05-25 | 2016-09-21 | 乐视控股(北京)有限公司 | 节目推荐方法及装置 |
CN106128467A (zh) * | 2016-06-06 | 2016-11-16 | 北京云知声信息技术有限公司 | 语音处理方法及装置 |
CN106156575A (zh) * | 2015-04-16 | 2016-11-23 | 中兴通讯股份有限公司 | 一种用户界面控制方法及终端 |
CN107623614A (zh) * | 2017-09-19 | 2018-01-23 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1079615A3 (en) * | 1999-08-26 | 2002-09-25 | Matsushita Electric Industrial Co., Ltd. | System for identifying and adapting a TV-user profile by means of speech technology |
JP4292646B2 (ja) * | 1999-09-16 | 2009-07-08 | 株式会社デンソー | ユーザインタフェース装置、ナビゲーションシステム、情報処理装置及び記録媒体 |
US7046139B2 (en) * | 2004-04-26 | 2006-05-16 | Matsushita Electric Industrial Co., Ltd. | Method and parental control and monitoring of usage of devices connected to home network |
JP2006238391A (ja) * | 2005-02-28 | 2006-09-07 | Funai Electric Co Ltd | リモコン装置 |
KR100664943B1 (ko) * | 2005-08-10 | 2007-01-04 | 삼성전자주식회사 | 모드 기반 접근 제어 방법 및 장치 |
JP2009139390A (ja) * | 2007-12-03 | 2009-06-25 | Nec Corp | 情報処理システム、処理方法及びプログラム |
US10460085B2 (en) * | 2008-03-13 | 2019-10-29 | Mattel, Inc. | Tablet computer |
KR101289081B1 (ko) * | 2009-09-10 | 2013-07-22 | 한국전자통신연구원 | 음성 인터페이스를 이용한 iptv 시스템 및 서비스 방법 |
JP5510069B2 (ja) * | 2010-05-25 | 2014-06-04 | 富士通モバイルコミュニケーションズ株式会社 | 翻訳装置 |
JP2013152610A (ja) * | 2012-01-25 | 2013-08-08 | Mitsubishi Motors Corp | 車両情報提示装置 |
JP5784245B2 (ja) * | 2012-11-30 | 2015-09-24 | 日立マクセル株式会社 | 映像表示装置、及びその設定変更方法、設定変更プログラム |
JP6534926B2 (ja) * | 2013-06-10 | 2019-06-26 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 話者識別方法、話者識別装置及び話者識別システム |
JP6693111B2 (ja) * | 2015-12-14 | 2020-05-13 | カシオ計算機株式会社 | 対話装置、ロボット、対話方法及びプログラム |
JP6600561B2 (ja) * | 2016-01-06 | 2019-10-30 | マクセル株式会社 | 表示装置 |
JP6738150B2 (ja) * | 2016-01-14 | 2020-08-12 | 株式会社ナビタイムジャパン | ナビゲーションアプリケーション・プログラム、情報処理装置、及び情報処理方法 |
CN106454515A (zh) * | 2016-10-31 | 2017-02-22 | 四川长虹电器股份有限公司 | 智能电视播放控制系统及方法 |
-
2018
- 2018-06-08 CN CN201810589033.2A patent/CN108882032A/zh active Pending
-
2019
- 2019-03-11 US US16/298,714 patent/US20190378494A1/en not_active Abandoned
- 2019-03-14 JP JP2019047123A patent/JP2019212288A/ja active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110135114A1 (en) * | 2008-08-22 | 2011-06-09 | Sony Corporation | Image display device, control method and computer program |
CN103914127A (zh) * | 2012-12-31 | 2014-07-09 | 联想(北京)有限公司 | 一种电子设备的控制方法及电子设备 |
US9100694B1 (en) * | 2013-03-14 | 2015-08-04 | Google Inc. | TV mode change in accordance with number of viewers present |
CN104065989A (zh) * | 2013-03-21 | 2014-09-24 | 国民技术股份有限公司 | 播放终端及其语音控制方法 |
CN104008320A (zh) * | 2014-05-19 | 2014-08-27 | 惠州Tcl移动通信有限公司 | 基于人脸识别的使用权限和用户模式控制方法及系统 |
CN106156575A (zh) * | 2015-04-16 | 2016-11-23 | 中兴通讯股份有限公司 | 一种用户界面控制方法及终端 |
CN105791935A (zh) * | 2016-05-03 | 2016-07-20 | 乐视控股(北京)有限公司 | 一种电视的控制方法及装置 |
CN105959806A (zh) * | 2016-05-25 | 2016-09-21 | 乐视控股(北京)有限公司 | 节目推荐方法及装置 |
CN106128467A (zh) * | 2016-06-06 | 2016-11-16 | 北京云知声信息技术有限公司 | 语音处理方法及装置 |
CN107623614A (zh) * | 2017-09-19 | 2018-01-23 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109671438A (zh) * | 2019-01-28 | 2019-04-23 | 武汉恩特拉信息技术有限公司 | 一种利用语音提供辅助服务的装置及方法 |
WO2020228280A1 (zh) * | 2019-05-10 | 2020-11-19 | 平安科技(深圳)有限公司 | 智能家居设备的声音控制方法、装置、及电子装置 |
CN110689886B (zh) * | 2019-09-18 | 2021-11-23 | 深圳云知声信息技术有限公司 | 设备控制方法及装置 |
CN110689886A (zh) * | 2019-09-18 | 2020-01-14 | 云知声智能科技股份有限公司 | 设备控制方法及装置 |
CN111081249A (zh) * | 2019-12-30 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 一种模式选择方法、装置及计算机可读存储介质 |
CN113553105A (zh) * | 2020-04-23 | 2021-10-26 | 百度在线网络技术(北京)有限公司 | 引导页面的生成方法和装置 |
CN111787387A (zh) * | 2020-06-30 | 2020-10-16 | 百度在线网络技术(北京)有限公司 | 内容显示方法、装置、设备以及存储介质 |
CN114079806B (zh) * | 2020-08-06 | 2024-06-04 | 深圳Tcl新技术有限公司 | 一种个性化页面显示方法及相关设备 |
CN114079806A (zh) * | 2020-08-06 | 2022-02-22 | 深圳Tcl新技术有限公司 | 一种个性化页面显示方法及相关设备 |
CN112000726A (zh) * | 2020-09-03 | 2020-11-27 | 未来穿戴技术有限公司 | 按摩操作模式的存储方法及电子设备、存储介质 |
CN112423069A (zh) * | 2020-11-20 | 2021-02-26 | 广州欢网科技有限责任公司 | 模式切换方法、装置及设备、智能播放系统 |
CN114121014A (zh) * | 2021-10-26 | 2022-03-01 | 云知声智能科技股份有限公司 | 多媒体数据的控制方法及设备 |
CN114999472A (zh) * | 2022-04-27 | 2022-09-02 | 青岛海尔空调器有限总公司 | 一种空调控制方法、装置及一种空调 |
CN114885218A (zh) * | 2022-06-16 | 2022-08-09 | 深圳创维-Rgb电子有限公司 | 自动选择观看模式的方法、电视机、设备及存储介质 |
CN116055818A (zh) * | 2022-12-22 | 2023-05-02 | 北京奇艺世纪科技有限公司 | 视频播放方法、装置、电子设备及存储介质 |
CN118447849A (zh) * | 2024-07-08 | 2024-08-06 | 无锡威达智能电子股份有限公司 | 一种基于语音识别的遥控交互方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20190378494A1 (en) | 2019-12-12 |
JP2019212288A (ja) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108882032A (zh) | 用于输出信息的方法和装置 | |
CN108737872A (zh) | 用于输出信息的方法和装置 | |
US11475897B2 (en) | Method and apparatus for response using voice matching user category | |
CN107481720B (zh) | 一种显式声纹识别方法及装置 | |
US20200126566A1 (en) | Method and apparatus for voice interaction | |
CN109086719A (zh) | 用于输出数据的方法和装置 | |
CN108416310A (zh) | 用于生成信息的方法和装置 | |
CN109145148A (zh) | 信息处理方法和装置 | |
CN108933730A (zh) | 信息推送方法和装置 | |
CN110415041A (zh) | 推荐方法、推荐装置、设备及存储介质 | |
CN109979439A (zh) | 基于区块链的语音识别方法、装置、介质及电子设备 | |
CN109189544A (zh) | 用于生成表盘的方法和装置 | |
CN108900612A (zh) | 用于推送信息的方法和装置 | |
CN109934191A (zh) | 信息处理方法和装置 | |
CN114143479B (zh) | 视频摘要的生成方法、装置、设备以及存储介质 | |
CN108881649A (zh) | 用于提供语音服务的方法和装置 | |
CN109087627A (zh) | 用于生成信息的方法和装置 | |
CN109726536A (zh) | 鉴权方法、电子设备和计算机可读程序介质 | |
CN113407778A (zh) | 标签识别方法及装置 | |
CN105701686A (zh) | 一种声纹广告实现方法和装置 | |
US10681402B2 (en) | Providing relevant and authentic channel content to users based on user persona and interest | |
CN110008926A (zh) | 用于识别年龄的方法和装置 | |
CN110298150B (zh) | 一种基于语音识别的身份验证方法及系统 | |
CN116567351B (zh) | 一种视频处理方法、装置、设备及介质 | |
CN111654752A (zh) | 多媒体信息播放方法、装置及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210507 Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. Applicant after: Shanghai Xiaodu Technology Co.,Ltd. Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181123 |
|
RJ01 | Rejection of invention patent application after publication |