[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111841007A - 游戏的控制方法、装置、设备和存储介质 - Google Patents

游戏的控制方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN111841007A
CN111841007A CN202010741948.8A CN202010741948A CN111841007A CN 111841007 A CN111841007 A CN 111841007A CN 202010741948 A CN202010741948 A CN 202010741948A CN 111841007 A CN111841007 A CN 111841007A
Authority
CN
China
Prior art keywords
audio
voice
characteristic information
game
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010741948.8A
Other languages
English (en)
Inventor
陈堆盛
陈柱欣
丁涵宇
张星
林悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202010741948.8A priority Critical patent/CN111841007A/zh
Publication of CN111841007A publication Critical patent/CN111841007A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/40Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
    • A63F13/42Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle
    • A63F13/424Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle involving acoustic input signals, e.g. by using the results of pitch or rhythm extraction or voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6063Methods for processing data by generating or executing the game program for sound processing
    • A63F2300/6072Methods for processing data by generating or executing the game program for sound processing of an input signal, e.g. pitch and rhythm extraction, voice recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提供一种游戏的控制方法、装置、设备和存储介质。该方法包括:获取用于游戏控制的语音片段以及用户标识;将语音片段输入特征提取模型进行处理,获取语音片段的第一音频特征信息;将第一音频特征信息与多个第二音频特征信息分别进行匹配,获取目标音频特征信息;第二音频特征信息为预先存储的用户标识对应的音频特征信息;根据目标音频特征信息,以及音频特征信息与控制命令的对应关系确定目标控制命令;根据目标控制命令控制在游戏中执行对应的操作。该方法实现了玩家在游戏过程中使用语音快速实现对游戏的控制,而且不受玩家区域语言或语种的限制,简化游戏操作的复杂度,提升了交互效率。

Description

游戏的控制方法、装置、设备和存储介质
技术领域
本申请涉及游戏技术领域,尤其涉及一种游戏的控制方法、装置、设备和存储介质。
背景技术
在游戏中,玩家经常要与虚拟世界进行交互,交互的方式多种多样,但在进行游戏设计时,通常需要考虑交互效率的问题。高效的交互方式能够为游戏带来流畅的用户体验,提升游戏竞争价值。而目前绝大多数游戏交互均采用按键触控的形式进行,玩家进行游戏交互时,需要肉眼定位到按键的位置,再驱动手指点击。随着游戏玩法规模的逐渐扩大,游戏按键的种类会越来越多,交互效率将显著下降。
随着机器学习尤其是深度学习领域相关技术的发展,人机交互方式发生了极大转变,游戏中引入了语音操纵交互方式,相关技术中,一般通过通用语音识别系统识别玩家的语音内容,将结果转换为计算机可处理的文本字符,再利用自然语言处理系统对文本字符进行提取,获得玩家的操控意图。上述方案中通常要经过两个层次以上的处理,而在此环节中每个层次均会引入错误,并且一级系统发生的一些错误除了会影响二级系统以外,部分错误还可能在二级系统中被放大从而导致更严重的错误,因此无法准确的识别玩家的操控意图。
发明内容
本申请提供一种游戏的控制方法、装置、设备和存储介质,以提高识别玩家操控意图的准确性。
第一方面,本申请提供一种游戏的控制方法,包括:
获取用于游戏控制的语音片段以及用户标识;
将所述语音片段输入特征提取模型进行处理,获取所述语音片段的第一音频特征信息;
将所述第一音频特征信息与多个第二音频特征信息分别进行匹配,获取目标音频特征信息;所述第二音频特征信息为预先存储的所述用户标识对应的音频特征信息;
根据所述目标音频特征信息,以及音频特征信息与控制命令的对应关系确定目标控制命令;
根据所述目标控制命令控制在游戏中执行对应的操作。
第二方面,本申请提供一种游戏的控制装置,包括:
获取模块,用于获取用于游戏控制的语音片段以及用户标识;
特征提取模块,用于将所述语音片段输入特征提取模型进行处理,获取所述语音片段的第一音频特征信息;
匹配模块,用于将所述第一音频特征信息与多个第二音频特征信息分别进行匹配,获取目标音频特征信息;所述第二音频特征信息为预先存储的所述用户标识对应的音频特征信息;
处理模块,用于根据所述目标音频特征信息,以及音频特征信息与控制命令的对应关系确定目标控制命令;
根据所述目标控制命令控制在游戏中执行对应的操作。
第三方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中任一项所述的方法。
第四方面,本申请实施例提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行第一方面中任一项所述的方法。
第五方面,本申请实施例提供一种程序,当该程序被处理器执行时,用于执行如上第一方面任一项所述的方法。
第六方面,本申请实施例提供一种计算机程序产品,包括程序指令,程序指令用于实现第一方面任一项所述的方法。
本申请实施例提供的游戏的控制方法、装置、设备和存储介质,获取用于游戏控制的语音片段,提取该语音片段的第一音频特征信息;将第一音频特征信息与该用户的多个第二音频特征信息分别进行匹配,获取目标音频特征信息,进一步确定该目标音频特征信息对应的控制命令,执行该控制命令对应的操作,实现了在游戏过程中使用语音对游戏的快速控制,游戏操作复杂度较低,无需识别用户语音的内容,不受玩家区域语言或语种的限制,能够准确的识别玩家的操控意图,提升了游戏的响应速度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本申请实施例提供的系统架构示意图;
图2是本申请提供的游戏的控制方法一实施例的流程示意图;
图3是本申请提供的游戏的控制方法一实施例的原理示意图;
图4是本申请提供的方法一实施例的设置界面示意图;
图5是本申请提供的方法一实施例的音频控制设置示意图;
图6是本申请提供的游戏的控制装置一实施例的结构示意图;
图7是本申请提供的电子设备实施例的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本申请的说明书和权利要求书及所述附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,对本申请实施例涉及的部分词汇和应用场景进行介绍。
自动语音识别(Automatic Speech Recognition,ASR)系统,一套自动将语音转换成计算机可理解的字符/文字形式的系统。
SRE:说话人识别系统,用于检索一段语音是已注册的数据集中哪个说话人所说的技术,用于说话人检索。
ASV:说话人确认系统,确定一段语音是已注册的候选集中哪个说话人所说的,用于确定说话人身份的系统。
DTW算法:动态时间规整,一种基于动态规划思想的算法,解决了发音长短不一的序列模板匹配问题,是语音识别中出现较早、较为经典的一种算法。
GMM:混合高斯模型,用高斯概率密度函数(正态分布曲线)对一个概率分布进行量化,将分布分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。
UBM:通用背景模型,大型GMM模型,使用大量数据进行非监督训练所得,用于表示数据在特征空间中统计学上关键的分布形式。
AE:自编码器,是一类在半监督学习和非监督学习中使用的神经网络,其功能是通过将输入信息作为学习目标,对输入信息进行表征学习。
图1为本申请实施例提供的系统架构示意图。如图1所示,本申请实施例的系统架构中可以包括但不限于:终端设备11和服务器12。终端设备11例如包括:手机、平板电脑、个人计算机等用户设备。
其中,终端设备11和服务器12之间可以通过网络连接。
该系统架构中可以包括一个或多个终端设备,图1中以一个终端设备为例进行说明。其中,服务器可以是游戏的服务器,终端设备可以运行游戏应用。
本申请实施例提供的方法可以在服务器端实现,或者也可以在终端设备实现,例如可以将本申请实施例方法的可以将获取的用户语音发送至服务器上进行处理,或者可以将该方法的功能实现在游戏应用中并运行在终端设备上,进一步,该终端设备在运行游戏应用时,还可以通过和服务器进行数据交互来实现该方法。
相关技术中,一种方式:通过通用语音识别系统识别玩家的语音内容,将结果转换为计算机可处理的文本字符,再利用自然语言处理系统对文本字符进行提取,获得玩家的操控意图。上述方案中通常要经过两个层次以上的处理,而在此环节中每个层次均会引入错误,并且一级系统发生的一些错误除了会影响二级系统以外,部分错误还可能在二级系统中被放大从而导致更严重的错误,因此无法准确的识别玩家的操控意图。
另一种交互方式是针对游戏采用定制化的语音交互命令,玩家仅在完全发出与系统原先固化的相同指令时,系统才给予反馈,实际上这种交互方式是在第一种方式的基础上,通过简化第二层次的自然语言处理系统,防止其引入错误从而提高操纵的准确率,但是这种方式由于指令必须由游戏开发者在开发环节便固化,玩家无法根据自己的需求进行个性化定制,同时可用指令数量也较少。
同时,以上两种交互方式存在的严重缺陷是,它们均需要经过第一层的语音转文本过程,而现有的语音识别系统解决方案均需要针对说话人的语言(例如:中文,英文,日文…)进行构建,因此上述方案均需要根据玩家的国籍构建不同语言的版本,这会增加系统设计者的工作量;此外,对于一些小众化语言或者方言等,如果目前没有针对此语言的语音识别系统,这些方法都不能实现对这些区域玩家的覆盖。
本申请实施例的方法,通过对录制的用户语音,提取音频特征,并与预存的该用户的音频特征进行匹配,得到目标音频特征,并确定出该目标音频特征对应的控制命令,进而执行对应的操作。
其中,预存的该用户的音频特征与控制命令对应,一个控制命令可以对应一个或多个音频特征。
本申请实施例的方法利用语音实现对游戏操控,操作复杂度较小,而且不受与玩家区域语言以及语种的约束,提高了游戏交互效率。
在本公开其中一种实施例中的游戏的控制方法可以运行于终端设备或者是服务器。其中,终端设备可以为本地终端设备。当游戏的控制方法运行于服务器时,该方法则可以基于云交互系统来实现与执行,其中,云交互系统包括服务器和客户端设备。
在一可选的实施方式中,云交互系统下可以运行各种云应用,例如:云游戏。以云游戏为例,云游戏是指以云计算为基础的游戏方式。在云游戏的运行模式下,游戏程序的运行主体和游戏画面呈现主体是分离的,游戏的控制方法的储存与运行是在云游戏服务器上完成的,客户端设备的作用用于数据的接收、发送以及游戏画面的呈现,举例而言,客户端设备可以是靠近用户侧的具有数据传输功能的显示设备,如,移动终端、电视机、计算机、掌上电脑等;但是进行信息处理的终端设备为云端的云游戏服务器。在进行游戏时,玩家操作客户端设备向云游戏服务器发送操作指令,云游戏服务器根据操作指令运行游戏,将游戏画面等数据进行编码压缩,通过网络返回客户端设备,最后,通过客户端设备进行解码并输出游戏画面。
在一可选的实施方式中,终端设备可以为本地终端设备。以游戏为例,本地终端设备存储有游戏程序并用于呈现游戏画面。本地终端设备用于通过图形用户界面与玩家进行交互,即,常规的通过电子设备下载安装游戏程序并运行。该本地终端设备将图形用户界面提供给玩家的方式可以包括多种,例如,可以渲染显示在终端的显示屏上,或者,通过全息投影提供给玩家。举例而言,本地终端设备可以包括显示屏和处理器,该显示屏用于呈现图形用户界面,该图形用户界面包括游戏画面,该处理器用于运行该游戏、生成图形用户界面以及控制图形用户界面在显示屏上的显示。
下面以具体的实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2是本申请提供的游戏的控制方法一实施例的流程示意图。如图2、图3所示,本实施例提供的方法,包括:
步骤101、获取用于游戏控制的语音片段以及用户标识。
具体的,用户的终端设备运行游戏应用,获取用于游戏控制的语音片段,例如游戏过程中开启录音功能,录制用户语音,从录制的用户语音中获取用于游戏控制的语音片段,例如在发出用于游戏控制的语音片段之前用户操作触发开启录音功能,例如通过唤醒词、按键等操作,或者在游戏运行过程中一直开启录音功能,从录制的用户语音中截取用于游戏控制的语音片段,例如该语音片段之前有特殊的提示音,表明用户开始发出用于游戏控制的语音片段等。
其中,用户标识例如从用户的登录信息中获取,例如用户名、用户账号等。
步骤102、将语音片段输入特征提取模型进行处理,获取语音片段的第一音频特征信息。
具体的,将语音片段输入特征提取模型进行处理,获取语音片段的第一音频特征信息。其中,特征提取模型可以是对预先建立的机器学习模型进行训练得到的。
一般提取的音频特征信息可以区分不同发音的音频,如具有较强的可区分性:对于相同发音的音频,音频特征信息在空间上的距离应该尽可能近,而对于不同发音的音频,音频特征信息在空间上的距离应该尽可能远;特征提取模型具有强鲁棒性:玩家可能处于多种多样复杂的环境下,要求特征提取模型具有抗环境干扰的能力,对于相同内容的发音,提取的音频特征信息在空间上的距离应该尽可能近。
可选的,为了提高后续处理的准确性,例如特征匹配的准确性,如图3所示的注册环节和验证环节,可以对获取到的语音片段进行合格性检测,检测是否满足预设的语音合格条件,例如有效语音时长是否大于预设时长,和/或,有效语音占比是否大于预设值等。若合格性检测不通过,则重新获取语音片段。若语音片段合格性检测通过后,执行该步骤102。
步骤103、将第一音频特征信息与多个第二音频特征信息分别进行匹配,获取目标音频特征信息;第二音频特征信息为预先存储的用户标识对应的音频特征信息;
在一实施例中,步骤103之前获取预先存储的与用户标识对应多个第二音频特征信息。
具体的,玩家需预先注册不同的控制命令对应的语音片段,例如一个控制命令对应多个语音片段,一个控制命令对应游戏中的一个操作,例如控制游戏中虚拟角色的跑、跳、攻击等操作。
通过特征提取模型提取每个控制命令对应的各个语音片段的音频特征信息,并将该玩家对应的多个语音片段的音频特征信息进行存储,例如存储在数据库中,如图3所示的注册环节。进一步还可以存储控制命令与音频特征信息的对应关系。
玩家注册的语音片段,对语音的文本内容以及所使用的语言不做要求,即玩家可使用任意语种及方言,甚至任何与语言学无关的声音,例如动物叫声等进行注册。因此,本申请实施例的方法不受玩家所在地区、语言和语种限制,玩家可高度自定义控制命令。
如图3所示的验证环节,获取预先存储的多个第二音频特征信息,将第一音频特征信息与多个第二音频特征信息分别进行匹配,从多个第二音频特征信息中获取目标音频特征信息,例如选择一个第二音频特征信息作为目标音频特征信息,例如第一音频特征信息为向量A,第二音频特征信息包括向量B-K,向量A与向量F最匹配,如相似度最高,则目标音频特征信息为向量F。
步骤104、根据目标音频特征信息,以及音频特征信息与控制命令的对应关系确定目标控制命令。
具体的,在玩家注册不同的控制命令对应的语音片段时,可以将不同控制命令对应的语音片段提取的音频特征信息进行存储,如将音频特征信息与控制命令的对应关系进行存储。该对应关系可以存储在终端设备,也可以存储在服务器中。
根据目标音频特征信息,从对应关系中查找该目标音频特征信息对应的目标控制命令。在一实施例中,对应关系包括用户标识对应的多个控制命令和每个控制命令对应的至少一个音频特征信息。
其中,每个控制命令可以对应一个或多个语音片段,因此每个控制命令可以对应至少一个音频特征信息。
步骤105、根据目标控制命令控制在游戏中执行对应的操作。
具体的,确定目标控制命令后,根据该目标控制命令控制在游戏中执行对应的操作,例如控制游戏中虚拟角色进行跑、跳等操作。
本实施例的方法,获取用于游戏控制的语音片段,提取该语音片段的第一音频特征信息;将第一音频特征信息与该用户的多个第二音频特征信息分别进行匹配,获取目标音频特征信息,进一步确定该目标音频特征信息对应的控制命令,执行该控制命令对应的操作,实现了在游戏过程中使用语音对游戏的快速控制,游戏操作复杂度较低,无需识别用户语音的内容,不受玩家区域语言或语种的限制,能够准确的识别玩家的操控意图,提升了游戏的响应速度。
在上述实施例的基础上,步骤101中“获取用于游戏控制的语音片段”具体可以通过如下方式实现:
在检测到录制的用户语音中出现预设的唤醒词时开始截取语音,在满足预设条件时停止截取语音得到所述语音片段;
其中,预设条件包括:截取时长达到第一预设时长,或者,检测到第二预设时长没有有效语音。
具体的,在游戏运行的过程中,为了提高交互的效率,可以保持录音功能开启,持续录制用户的语音,为了避免误操作等情况的发生,可以预先设置唤醒词,在检测到出现唤醒词时开始截取语音,在满足预设条件时停止截取语音,从而得到用于游戏控制的语音片段。
其中,唤醒词例如与玩家经常说的用于游戏控制的语音不同,提高辨识度。
例如在截取时长达到第一预设时长时停止截取语音,或,检测到第二预设时长没有有效语音时停止截取语音。
其中,第一预设时长和第二预设时长可以相同或不同。
上述实施方式中,通过唤醒词获取有效的用于游戏控制的语音片段,避免误操作,提高控制的准确性。
在一实施例中,在匹配之前需要提前对游戏中各个操作(即控制命令)对应的语音片段进行设置,本实施例的方法包括:
通过终端设备提供图形用户界面,图形用户界面中至少包括音频控制设置控件;
响应于用户对音频控制设置控件的操作,获取用户的语音片段,并进行音频控制设置;其中,所述用户在游戏中的每个操作可通过一个或者多个语音片段进行控制。
具体的,对于每个想要自定义的操作,玩家可通过注册1个或多个发音相同或相似的语音片段,用于标识该操作,例如注册1-3个语音片段,后续玩家在进行交互的过程中,如发出相同或者相似的语音片段,就能够感知玩家对应的操作意图并给予反馈。
如图4所示,用户终端设备运行游戏应用,终端设备的显示器上渲染得到图形用户界面,图形用户界面中至少包括音频控制设置控件,该图形用户界面中例如显示游戏场景的操作界面,该音频控制设置控件用于进行音频控制设置,即获取不同操作对应的音频片段,进而提取不同音频片段的音频特征信息。
玩家对音频控制设置控件进行操作,例如点击操作、滑动操作等,开启录音功能,获取用户的语音片段,并进行音频控制设置,即在游戏中的每个操作可通过一个或者多个语音片段进行控制。
该方式中,玩家可自定义多个游戏中操作对应的语音片段,为了提高匹配的准确率,不同操作对应的语音片段不同,即音频特征信息的差异较大。
在一实施例中,如图3所示的注册环节,步骤“响应于用户对音频控制设置控件的操作,获取用户的语音片段,并进行音频控制设置”可通过如下方式实现:
响应于用户对音频控制设置控件的操作,在图形用户界面上显示游戏的至少一个操作;
根据用户选择的操作启动录音功能,获取用户的语音片段;
将语音片段输入特征提取模型中进行处理,获取语音片段的音频特征信息;
将音频特征信息与操作对应的控制命令进行存储,得到对应关系。
具体的,响应于用户对音频控制设置控件的操作,如用户点击音频控制设置控件,在图形用户界面上显示游戏的至少一个操作;显示的操作可以是该操作在游戏中的画面,和/或,显示操作名称,本申请实施例对此并不限定。
如图5所示,界面上显示虚拟角色奔跑、蹲下、起身、跳跃等操作,用户选择其中的操作,例如选择奔跑,则启动录音功能,获取用户的语音片段;将语音片段输入特征提取模型中进行处理,获取语音片段的音频特征信息;并将音频特征信息与操作对应的控制命令进行存储,得到对应关系。
上述实施方式中,对游戏中操作的控制命令进行预先注册,存储不同的控制命令对应的音频特征信息,实现了玩家自定义多种控制指令对应的语音,提高了游戏操作过程中控制的准确性和效率。
在一实施例中,为了提高后续特征匹配的准确率,而且过滤无效的语音片段,将所述语音片段输入特征提取模型中进行处理之前,还包括:
确定所述语音片段是否满足预设的语音合格条件,语音合格条件包括时长大于预设时长和/或有效语音占比大于预设值;
若所述语音片段满足所述语音合格条件,则执行将所述语音片段输入特征提取模型中进行处理的步骤。
在一实施例中,为了保证后级特征匹配的准确率,音频特征的长度必须满足最小长度约束,即有效语音时长大于预设有效时长。
在一实施例中,在特征提取之前对语音片段中部分无效的语音片段进行剔除,为了保证后级特征匹配的准确率,有效语音占比需大于预设值。
若满足上述至少一个条件,则确定合格性检测通过,将语音片段传递到特征提取模型,若合格性检测不通过,则要求重新录制。
本实施例中可以采用语音活动检测算法(VAD)检测有效语音,语音活动检测算法能够根据目标语音(即有效语音)与非目标语音(即无效语音)之间在特征分布上的不同点对语音片段进行分帧检测,进而滤除无效语音。
该语音活动检测算法可以经过训练数据进行训练得到,例如可以选择能量、过零率、语谱图频带分布等作为区分目标语音和非目标语音的特征,根据标注好的语音片段分别对目标语音和非目标语音单独构建GMM模型,并对两个GMM模型进行训练。当需要对某段语音片段进行检测时,分别计算该语音片段在两个GMM模型的概率,例如该语音片段在目标语音对应的GMM模型的输出概率较大,则确定该语音片段为目标语音,即有效语音。
上述实施方式中,在特征提取之前对语音合格性进行检测,提高了后续特征匹配的准确率,而且能够过滤无效的语音片段。
在一实施例中,提取的特征能否达到完全与说话人的区域语言语种无关决定了系统的最终效果。本实施例中特征提取模型可以通过如下几种方式实现:一种实现方式:
特征提取模型是利用无标签数据集训练通用背景模型UBM得到的模型,特征提取模型用于获取输入的语音片段在UBM模型中的每个高斯分布上的概率作为音频特征信息;
具体的,该方式中可使用非监督数据进行训练,成本相对较低,但对训练数据量的要求较高。模型的输入可以选择检测合格的语音片段进行音频特征提取。
训练阶段,使用无标签数据集训练一个通用背景模型UBM模型,构建整个数据集在特征空间中的高斯分布。应用阶段,对输入语音片段的每一帧,计算其在UBM模型中,每个高斯分布上的概率,此概率作为特征提取模型的输出,即作为该语音片段的音频特征信息。
另一种实现方式:
所述特征提取模型是利用无标签数据集训练自编码器AE模型得到的模型,所述特征提取模型用于获取输入的语音片段在所述AE模型的中间编码层的输出作为音频特征信息;
具体的,该方式中可使用非监督数据进行训练,成本相对较低,但对训练数据量的要求较高。
训练阶段,使用无标签数据集训练一个自编码器模型AE模型,可选的,自编码器中间隐藏层(即中间编码层)设计为压缩模式(即编码层维度<编码器输入层维度)以获得稀疏特性,使得编码层能够提取表征输入语音片段的关键特性。应用阶段,对输入语音片段的每一帧,经过自编码器后,提取中间编码层的输出,作为特征提取模型的输出。
又一种实现方式:
所述特征提取模块是利用有标签数据集训练神经网络模型得到的模型,所述特征提取模型用于获取输入的语音片段在不同深度时的分类信息作为所述音频特征信息。
具体的,该方式中使用有监督数据进行训练,对数据进行标注,成本相对较高,但用于训练的数据量可以较少。
训练阶段,使用带标签数据集训练一个或者多个深度神经网络模型,使得网络具有对输入语音片段的特征进行分类的能力。此处,分类能力包括音素分类(可以通过构建ASR系统实现)、音频类别分类(可以通过构建音频事件检测系统实现)、说话人分类(可以通过构建SRE或者ASV系统实现),其中,音频类别例如包括动物叫声、人声、动作声音(如拍手等)等,说话人分类例如按性别分类、按年龄区间分类等,从而使得神经网络具有提取表征语音的关键属性的能力(关键属性包括内容信息,音频类别信息以及说话人信息对应的分类),并且通过选择深度神经网络中不同深度的隐藏层输出作为特征提取模型的输出,可以控制相关属性能力的表征能力的强弱。在应用阶段,将语音片段输入经过已训练完成的神经网络模型,提取该神经网络模型的输出层或隐藏层的输出,作为特征提取模型的输出。
上述实施方式中,通过训练得到的特征提取模型,提取语音的音频特征,提取的音频特征与说话人的区域、语言、语种等无关,能够准确的识别玩家的操控意图,提高游戏的响应速度,提升用户体验。
在一实施例中,具体可以通过如下方式进行匹配:
一种实现方式:
通过特征匹配算法将所述第一音频特征信息与多个所述第二音频特征信息分别进行匹配处理,得到多个特征匹配分数;
将所述多个特征匹配分数中分数最高的第二音频特征信息作为所述目标音频特征信息。
具体的,利用特征匹配算法对第一音频特征信息与多个第二音频特征信息分别进行匹配处理,得到多个特征匹配分数,该特征匹配分数例如是两个音频特征信息的相似度,例如通过欧式距离、余弦距离等表示;
从多个特征匹配分数对应的第二音频特征信息中选择分数最高的第二音频特征信息作为目标音频特征信息。
另一种实现方式:
通过特征匹配算法将第一音频特征信息与多个第二音频特征信息分别进行匹配处理,得到多个特征匹配分数;
将多个特征匹配分数中分数最高,且分数高于预设阈值的第二音频特征信息作为目标音频特征信息。
具体的,利用特征匹配算法对第一音频特征信息与多个第二音频特征信息分别进行匹配处理,得到多个特征匹配分数,该特征匹配分数例如是两个音频特征信息的相似度,例如通过欧式距离、余弦距离等表示;
从多个特征匹配分数对应的第二音频特征信息中选择分数最高的第二音频特征信息,作为目标音频特征信息,为了避免误操作,提高准确度,该最高的分数高于预设阈值,若低于预设阈值,则重新录制用于游戏控制的语音片段。
可选的,特征匹配算法例如对两个不等长的待匹配的音频特征信息进行对齐,然后根据对齐结果计算两个音频特征信息之间的最短距离,再经过归一化后将结果作为两个音频特征信息之间的相似度。
在一实施例中,特征匹配算法包括动态时间归整(Dynamic Time Warping,DTW)算法。
具体的,DTW算法可以实现对两个不等长的特征进行时序对齐并获得最优匹配路径。在一实施例中,为了保证最终匹配分数处于0-1之间,在DTW算法匹配过程中,计算两个特征之间的相似度时,选用余弦距离而非欧式距离进行计算,而且在对最优匹配路径进行后处理时,会根据匹配路径的总匹配次数进行平滑。为了提升DTW算法的速度,根据语音的发音特性以及相似语音在匹配路径应大致上满足对角线规则的特点,在进行DTW算法搜索的过程中,使用窗口限制DTW算法的搜索空间,从而获得更加快速且稳定的结果。
在一实施例中,可选的,音频特征信息中可加入说话人的特征信息,通过以下方式得到说话人的特征信息对应的特征匹配分数:为了使得特征提取模型输出的不同长度特征进行匹配,应用卷积神经网络结构进一步提取更深层的特征表示,应用池化层将特征表示变为固定维度的特征向量,选用(Probabilistic Linear Discriminant Analysis,PLDA)算法计算待匹配的两个最终特征向量之间的对数似然分数作为特征匹配分数。
通过说话人的特征信息可以验证该语音片段是否为与用户标识对应的同一玩家发出的语音片段,该验证能够有效防止玩家在进行游戏的过程中,环境中有其他人发出近似某控制命令的语音而导致误触发操作。
在一实施例中,音频特征信息中说话人的特征信息与语音片段内容的特征信息之间一般具有可分离性,若不需要进行说话人验证,可屏蔽说话人相关的特征信息。
在一实施例中,可以将将DTW算法得到的特征匹配分数以及说话人信息匹配的特征匹配分数作为最终的特征匹配分数。
上述实施方式中,通过特征匹配算法,实现对用于游戏控制的音频特征信息,以及该用户对应的音频特征信息的匹配,确定该音频特征信息对应的控制命令,提高了匹配的准确性,从而能够准确的识别玩家的操控意图,提升游戏的响应速度以及玩家用户体验。
综上所述,本申请实施例的方法,能够使得玩家在游戏过程中使用语音实现对游戏的快速控制,无需通过对按键的检索和点击等操作,而且不受玩家区域语言或语种的限制,简化游戏操作的复杂度,提升了游戏的响应速度,从而提升了游戏交互效率,而且支持玩家自定义控制命令对应的语音,灵活性较大,提升了用户体验。
图6为本申请提供的游戏的控制装置一实施例的结构图,如图6所示,本实施例的游戏的控制装置,包括:
获取模块601,用于获取用于游戏控制的语音片段以及用户标识;
特征提取模块602,用于将所述语音片段输入特征提取模型进行处理,获取所述语音片段的第一音频特征信息;
匹配模块603,用于将所述第一音频特征信息与多个第二音频特征信息分别进行匹配,获取目标音频特征信息;所述第二音频特征信息为预先存储的所述用户标识对应的音频特征信息;
处理模块604,用于根据所述目标音频特征信息,以及音频特征信息与控制命令的对应关系确定目标控制命令;
根据所述目标控制命令控制在游戏中执行对应的操作。
在一种可能的实现方式中,所述对应关系包括所述用户标识对应的多个控制命令和每个控制命令对应的至少一个音频特征信息。
在一种可能的实现方式中,所述获取模块601,具体用于:
在检测到录制的用户语音中出现预设的唤醒词时开始截取语音,在满足预设条件时停止截取语音得到所述语音片段;
其中,所述预设条件包括:截取时长达到第一预设时长,或者,检测到第二预设时长没有有效语音。
在一种可能的实现方式中,所述匹配模块603,具体用于:
通过特征匹配算法将所述第一音频特征信息与多个所述第二音频特征信息分别进行匹配处理,得到多个特征匹配分数;
将所述多个特征匹配分数中分数最高的第二音频特征信息作为所述目标音频特征信息。
在一种可能的实现方式中,所述匹配模块603,具体用于:
通过特征匹配算法将所述第一音频特征信息与多个所述第二音频特征信息分别进行匹配处理,得到多个特征匹配分数;
将所述多个特征匹配分数中分数最高,且分数高于预设阈值的第二音频特征信息作为所述目标音频特征信息。
在一种可能的实现方式中,所述处理模块604,还用于:
通过终端设备提供图形用户界面,所述图形用户界面中至少包括音频控制设置控件;
响应于用户对所述音频控制设置控件的操作,获取用户的语音片段,并进行音频控制设置;其中,所述用户在游戏中的每个操作可通过一个或者多个语音片段进行控制。
在一种可能的实现方式中,所述处理模块604,具体用于:
响应于用户对所述音频控制设置控件的操作,在所述图形用户界面上显示所述游戏的至少一个操作;
根据用户的操作启动录音功能,获取所述用户的语音片段;
将所述语音片段输入特征提取模型中进行处理,获取所述语音片段的音频特征信息;
将所述音频特征信息与所述操作对应的控制命令进行存储,得到所述对应关系。
在一种可能的实现方式中,所述特征提取模块602,具体用于:
确定所述语音片段是否满足预设的语音合格条件,所述语音合格条件包括有效语音时长大于预设有效时长和/或有效语音占比大于预设值;
若所述语音片段满足所述语音合格条件,则执行将所述语音片段输入特征提取模型中进行处理的步骤。
在一种可能的实现方式中,所述特征提取模型是利用无标签数据集训练通用背景模型UBM模型得到的模型,所述特征提取模型用于获取输入的语音片段在UBM模型中的每个高斯分布上的概率作为音频特征信息;
或者,
所述特征提取模型是利用无标签数据集训练自编码器AE模型得到的模型,所述特征提取模型用于获取输入的语音片段在所述AE模型的中间编码层的输出作为音频特征信息;
或者,
所述特征提取模块是利用有标签数据集训练神经网络模型得到的模型,所述特征提取模型用于获取输入的语音片段在不同深度时的分类信息作为所述音频特征信息。
在一种可能的实现方式中,所述特征匹配算法包括动态时间归整DTW算法。
本实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图7为本申请提供的电子设备实施例的结构图,如图7所示,该电子设备包括:
处理器701,以及,用于存储处理器701的可执行指令的存储器702。
上述部件可以通过一条或多条总线进行通信。
其中,处理器701配置为经由执行所述可执行指令来执行前述方法实施例中对应的方法,其具体实施过程可以参见前述方法实施例,此处不再赘述。
该电子设备可以是终端设备或服务器。可选的,该电子设备还可以包括:显示器703,用于显示图形用户界面。
本申请实施例中还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述方法实施例中对应的方法,其具体实施过程可以参见前述方法实施例,其实现原理和技术效果类似,此处不再赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims (13)

1.一种游戏的控制方法,其特征在于,所述方法包括:
获取用于游戏控制的语音片段以及用户标识;
将所述语音片段输入特征提取模型进行处理,获取所述语音片段的第一音频特征信息;
将所述第一音频特征信息与多个第二音频特征信息分别进行匹配,获取目标音频特征信息;所述第二音频特征信息为预先存储的所述用户标识对应的音频特征信息;
根据所述目标音频特征信息,以及音频特征信息与控制命令的对应关系确定目标控制命令;
根据所述目标控制命令控制在游戏中执行对应的操作。
2.根据权利要求1所述的方法,其特征在于,所述对应关系包括所述用户标识对应的多个控制命令和每个控制命令对应的至少一个音频特征信息。
3.根据权利要求1所述的方法,其特征在于,所述获取用于游戏控制的语音片段,包括:
在检测到录制的用户语音中出现预设的唤醒词时开始截取语音,在满足预设条件时停止截取语音得到所述语音片段;
其中,所述预设条件包括:截取时长达到第一预设时长,或者,检测到第二预设时长没有有效语音。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述将所述第一音频特征信息与多个第二音频特征信息分别进行匹配,获取目标音频特征信息,包括:
通过特征匹配算法将所述第一音频特征信息与多个所述第二音频特征信息分别进行匹配处理,得到多个特征匹配分数;
将所述多个特征匹配分数中分数最高的第二音频特征信息作为所述目标音频特征信息。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述将所述第一音频特征信息与多个第二音频特征信息分别进行匹配,获取目标音频特征信息,包括:
通过特征匹配算法将所述第一音频特征信息与多个所述第二音频特征信息分别进行匹配处理,得到多个特征匹配分数;
将所述多个特征匹配分数中分数最高,且分数高于预设阈值的第二音频特征信息作为所述目标音频特征信息。
6.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
通过终端设备提供图形用户界面,所述图形用户界面中至少包括音频控制设置控件;
响应于用户对所述音频控制设置控件的操作,获取用户的语音片段,并进行音频控制设置;其中,所述用户在游戏中的每个操作可通过一个或者多个语音片段进行控制。
7.根据权利要求6所述的方法,其特征在于,所述响应于用户对所述音频控制设置控件的操作,获取用户的语音片段,并进行音频控制设置,包括:
响应于用户对所述音频控制设置控件的操作,在所述图形用户界面上显示所述游戏的至少一个操作;
根据用户的操作启动录音功能,获取所述用户的语音片段;
将所述语音片段输入特征提取模型中进行处理,获取所述语音片段的音频特征信息;
将所述音频特征信息与所述操作对应的控制命令进行存储,得到所述对应关系。
8.根据权利要求1-3或7中的任一项所述的方法,其特征在于,所述将所述语音片段输入特征提取模型进行处理之前,还包括:
确定所述语音片段是否满足预设的语音合格条件,所述语音合格条件包括有效语音时长大于预设有效时长和/或有效语音占比大于预设值;
若所述语音片段满足所述语音合格条件,则执行将所述语音片段输入特征提取模型中进行处理的步骤。
9.根据权利要求1-3或7中的任一项所述的方法,其特征在于,
所述特征提取模型是利用无标签数据集训练通用背景模型UBM模型得到的模型,所述特征提取模型用于获取输入的语音片段在UBM模型中的每个高斯分布上的概率作为音频特征信息;
或者,
所述特征提取模型是利用无标签数据集训练自编码器AE模型得到的模型,所述特征提取模型用于获取输入的语音片段在所述AE模型的中间编码层的输出作为音频特征信息;
或者,
所述特征提取模块是利用有标签数据集训练神经网络模型得到的模型,所述特征提取模型用于获取输入的语音片段在不同深度时的分类信息作为所述音频特征信息。
10.根据权利要求4所述的方法,其特征在于,所述特征匹配算法包括动态时间归整DTW算法。
11.一种游戏的控制装置,其特征在于,包括:
获取模块,用于获取用于游戏控制的语音片段以及用户标识;
特征提取模块,用于将所述语音片段输入特征提取模型进行处理,获取所述语音片段的第一音频特征信息;
匹配模块,用于将所述第一音频特征信息与多个第二音频特征信息分别进行匹配,获取目标音频特征信息;所述第二音频特征信息为预先存储的所述用户标识对应的音频特征信息;
处理模块,用于根据所述目标音频特征信息,以及音频特征信息与控制命令的对应关系确定目标控制命令;
根据所述目标控制命令控制在游戏中执行对应的操作。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。
13.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的方法。
CN202010741948.8A 2020-07-29 2020-07-29 游戏的控制方法、装置、设备和存储介质 Pending CN111841007A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010741948.8A CN111841007A (zh) 2020-07-29 2020-07-29 游戏的控制方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010741948.8A CN111841007A (zh) 2020-07-29 2020-07-29 游戏的控制方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN111841007A true CN111841007A (zh) 2020-10-30

Family

ID=72947981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010741948.8A Pending CN111841007A (zh) 2020-07-29 2020-07-29 游戏的控制方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN111841007A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632329A (zh) * 2020-12-18 2021-04-09 咪咕互动娱乐有限公司 视频提取方法、装置、电子设备及存储介质
CN112717377A (zh) * 2020-12-31 2021-04-30 贵阳动视云科技有限公司 一种云游戏辅助控制方法及装置
WO2023065854A1 (zh) * 2021-10-22 2023-04-27 华为技术有限公司 分布式语音控制方法及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105122279A (zh) * 2013-03-06 2015-12-02 微软技术许可有限责任公司 在识别系统中保守地适配深度神经网络
CN106938141A (zh) * 2017-04-25 2017-07-11 合肥泽诺信息科技有限公司 一种基于语音识别和体感识别的室内网络游戏系统
CN107680600A (zh) * 2017-09-11 2018-02-09 平安科技(深圳)有限公司 声纹模型训练方法、语音识别方法、装置、设备及介质
CN109724215A (zh) * 2018-06-27 2019-05-07 平安科技(深圳)有限公司 空调控制方法、空调控制装置、空调设备及存储介质
CN109783049A (zh) * 2019-02-15 2019-05-21 广州视源电子科技股份有限公司 操作控制方法、装置、设备及存储介质
KR20190074011A (ko) * 2017-12-19 2019-06-27 삼성전자주식회사 음성 인식 장치 및 방법
CN210052520U (zh) * 2018-12-20 2020-02-11 深圳市朗强科技有限公司 一种红外发射装置及电器控制系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105122279A (zh) * 2013-03-06 2015-12-02 微软技术许可有限责任公司 在识别系统中保守地适配深度神经网络
CN106938141A (zh) * 2017-04-25 2017-07-11 合肥泽诺信息科技有限公司 一种基于语音识别和体感识别的室内网络游戏系统
CN107680600A (zh) * 2017-09-11 2018-02-09 平安科技(深圳)有限公司 声纹模型训练方法、语音识别方法、装置、设备及介质
KR20190074011A (ko) * 2017-12-19 2019-06-27 삼성전자주식회사 음성 인식 장치 및 방법
CN109724215A (zh) * 2018-06-27 2019-05-07 平安科技(深圳)有限公司 空调控制方法、空调控制装置、空调设备及存储介质
CN210052520U (zh) * 2018-12-20 2020-02-11 深圳市朗强科技有限公司 一种红外发射装置及电器控制系统
CN109783049A (zh) * 2019-02-15 2019-05-21 广州视源电子科技股份有限公司 操作控制方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHIN-CHENG HSU ET AL.: "Voice conversion from non-parallel corpora using variational auto-encoder", 《2016 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA)》, 31 December 2016 (2016-12-31), pages 1, XP033044757, DOI: 10.1109/APSIPA.2016.7820786 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632329A (zh) * 2020-12-18 2021-04-09 咪咕互动娱乐有限公司 视频提取方法、装置、电子设备及存储介质
CN112717377A (zh) * 2020-12-31 2021-04-30 贵阳动视云科技有限公司 一种云游戏辅助控制方法及装置
WO2023065854A1 (zh) * 2021-10-22 2023-04-27 华为技术有限公司 分布式语音控制方法及电子设备

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
US11062699B2 (en) Speech recognition with trained GMM-HMM and LSTM models
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
CN102568478B (zh) 一种基于语音识别的视频播放控制方法和系统
CN111833853B (zh) 语音处理方法及装置、电子设备、计算机可读存储介质
US8719019B2 (en) Speaker identification
CN108428446A (zh) 语音识别方法和装置
CN112837401B (zh) 一种信息处理方法、装置、计算机设备及存储介质
CN109741734B (zh) 一种语音评测方法、装置和可读介质
CN112309365A (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN111841007A (zh) 游戏的控制方法、装置、设备和存储介质
CN112487139A (zh) 基于文本的自动出题方法、装置及计算机设备
CN112735371B (zh) 一种基于文本信息生成说话人视频的方法及装置
CN103943111A (zh) 一种身份识别的方法及装置
CN110223678A (zh) 语音识别方法及系统
Yu et al. {SMACK}: Semantically Meaningful Adversarial Audio Attack
US11263852B2 (en) Method, electronic device, and computer readable storage medium for creating a vote
CN114708869A (zh) 语音交互方法、装置及电器
CN110853669B (zh) 音频识别方法、装置及设备
CN117253493A (zh) 用于语音生成任务的音频编码方法、电子设备和存储介质
CN110580897B (zh) 音频校验方法、装置、存储介质及电子设备
JP2003210833A (ja) 対話ゲームシステム、対話ゲーム方法及びプログラム
CN112885338B (zh) 语音识别方法、设备、计算机可读存储介质及程序产品
Toyama et al. Use of Global and Acoustic Features Associated with Contextual Factors to Adapt Language Models for Spontaneous Speech Recognition.
CN114125506B (zh) 语音审核方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination