CN103021403A - 基于语音识别的选择方法及其移动终端装置及信息系统 - Google Patents
基于语音识别的选择方法及其移动终端装置及信息系统 Download PDFInfo
- Publication number
- CN103021403A CN103021403A CN2012105930794A CN201210593079A CN103021403A CN 103021403 A CN103021403 A CN 103021403A CN 2012105930794 A CN2012105930794 A CN 2012105930794A CN 201210593079 A CN201210593079 A CN 201210593079A CN 103021403 A CN103021403 A CN 103021403A
- Authority
- CN
- China
- Prior art keywords
- data
- voice
- natural language
- user
- processing unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title abstract description 50
- 238000004458 analytical method Methods 0.000 claims abstract description 94
- 238000003058 natural language processing Methods 0.000 claims abstract description 65
- 238000012545 processing Methods 0.000 claims description 100
- 230000006870 function Effects 0.000 claims description 13
- 230000000875 corresponding effect Effects 0.000 description 124
- 238000005070 sampling Methods 0.000 description 50
- 230000004044 response Effects 0.000 description 32
- 238000010586 diagram Methods 0.000 description 19
- 238000004891 communication Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 16
- 241001269238 Data Species 0.000 description 15
- 230000008054 signal transmission Effects 0.000 description 14
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 14
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000009434 installation Methods 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 7
- 238000012937 correction Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 238000010295 mobile communication Methods 0.000 description 5
- 238000012913 prioritisation Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000001960 triggered effect Effects 0.000 description 5
- 230000002596 correlated effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- NHDHVHZZCFYRSB-UHFFFAOYSA-N pyriproxyfen Chemical compound C=1C=CC=NC=1OC(C)COC(C=C1)=CC=C1OC1=CC=CC=C1 NHDHVHZZCFYRSB-UHFFFAOYSA-N 0.000 description 3
- 241001342895 Chorus Species 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000012467 final product Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 239000007799 cork Substances 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/34—Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/081—Search algorithms, e.g. Baum-Welch or Viterbi
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于语音识别的选择方法及其移动终端装置及信息系统。选择方法包括:接收第一输入语音;对第一输入语音进行语音识别及自然语言处理以产生对应的第一语义分析;依据第一输入语音的语义分析从多个数据中选择对应的部分;当选择的数据的数量为1时,依据所选择的数据的类型进行对应的操作;当选择的数据的数量大于1时,依据选择的数据显示数据列表且接收第二输入语音;对第二输入语音进行语音识别及自然语言处理以产生对应的第二语义分析;依据第二语音的语义分析从数据列表中的这些数据中选择对应的部分。
Description
技术领域
本发明是有关于一种选择方法及其移动终端装置及信息系统,且特别是有关于一种基于语音识别的选择方法及其移动终端装置及信息系统。
背景技术
在计算器的自然语言理解(Nature Language Understanding)中,通常会使用特定的语法来抓取用户的输入语句的意图或信息。因此,若数据库中储存有足够多的用户输入语句的数据,便能做到合理的判断。
在已知的作法中,有一种是利用内置的固定词列表来抓取用户的输入语句,而固定词列表中包含了特定的意图或信息所使用的特定用语,而用户需依照此特定用语来表达其意图或信息,其意图或信息才能被系统正确识别。然而,迫使用户去记住固定词列表的每个特定用语是相当不人性化的作法。例如:现有技术使用固定词列表的实施方式,要求用户在询问天气的时候必须说:“上海(或北京)明天(或后天)天气如何?”,而若用户使用其它比较自然的口语化表达也想询问天气状况时,比如是“上海明天怎么样啊?”,因为语句中未出现“天气”,所以现有技术就会理解成”上海有个叫明天的地方”,这样显然没有抓到用户的真正意图。另外,用户所使用的语句种类是十分复杂的,并且又时常有所变化,甚至有时用户可能会输入错误的语句,在此情况下必须要通过模糊匹配的方式来抓取用户的输入语句。因此,仅提供僵化输入规则的固定词列表所能达到的效果就更差了。
此外,当利用自然语言理解来处理多种类型的用户意图时,有些相异的意图的语法结构却是相同的,例如当用户的输入语句为“我要看三国演义”,其用户意图有可能是想看三国演义的电影,或是想看三国演义的书,因此通常在此情况中,便会匹配到两种可能意图来让用户做选择。然而,在很多情况下,提供不必要的可能意图来让用户做选择是十分多余且没效率的。例如,当用户的输入语句为“我想看超级星光大道”时,将使用者的意图匹配为看 超级星光大道的书或者画作是十分没必要的(因为超级星光大道是电视节目)。
再者,一般而言,在全文检索中所获得的搜寻结果是非结构化的数据。非结构化数据内的信息是分散且不具关联的,例如,在google或百度等搜寻引擎输入关键词后,所获得的网页搜寻结果就是非结构化数据,因为搜寻结果必须通过人为的逐项阅读才能找到当中的有用信息,而这样的作法不仅浪费用户的时间,而且可能漏失想要的信息,所以在实用性上会受到很大的限制。
发明内容
本发明提供一种基于语音识别的选择方法及其移动终端装置及信息系统,可提升使用者操作的便利性。
本发明提出一种基于语音识别的选择方法,包括:接收第一输入语音;对第一输入语音进行语音识别以产生第一字串;对第一字串进行自然语言处理以产生对应第一输入语音的第一语义分析;依据第一语义分析从多个数据中选择对应的部分;当选择的数据的数量为1时,依据所选择的数据的类型进行对应的操作;当选择的数据的数量大于1时,依据选择的数据显示数据列表且接收第二输入语音;对第二输入语音进行语音识别以产生第二字串;对第二字串进行自然语言处理以产生对应第二输入语音的第二语义分析;依据第二语义分析从数据列表中的这些数据中选择对应的部分。
本发明提出一种移动终端装置,包括语音接收单元、显示单元、存储单元及数据处理单元。语音接收单元接收第一输入语音及第二输入语音。显示单元用以显示数据列表。存储单元用以储存多个数据。数据处理单元耦接语音接收单元、显示单元及存储单元。数据处理单元对第一输入语音进行语音识别以产生第一字串,对第一字串进行自然语言处理以产生对应第一输入语音的第一语义分析,并且依据第一语义分析从这些数据中选择对应的部分。当选择的数据的数量为1时,数据处理单元依据所选择的数据的类型进行对应的操作。当选择的数据的数量大于1时,数据处理单元依据选择的数据控制显示单元显示数据列表。数据处理单元对第二输入语音进行语音识别以产生第二字串,对第二字串进行自然语言处理以产生对应第二输入语音的第二语义分析,并且依据第二语义分析从数据列表中的这些数据中选择对应的部分。
本发明提出一种信息系统,包括服务器及移动终端装置。服务器用以储存多个数据且具有语音识别功能。移动终端装置包括语音接收单元、显示单元及数据处理单元。语音接收单元接收第一输入语音及第二输入语音。显示单元用以显示数据列表。数据处理单元耦接语音接收单元、显示单元及服务器。数据处理单元通过服务器对第一输入语音进行语音识别以产生第一字串,对第一字串进行自然语言处理以产生对应第一输入语音的第一语义分析,并且服务器依据第一语义分析从这些数据中选择对应的部分并传送至数据处理单元。当选择的数据的数量为1时,数据处理单元依据所选择的数据的类型进行对应的操作。当选择的数据的数量大于1时,数据处理单元依据选择的数据控制显示单元显示数据列表,以及数据处理单元通过服务器对第二输入语音进行语音识别以产生第二字串,对第二字串进行自然语言处理以产生对应第二输入语音的第二语义分析,并且服务器依据第二语义分析从数据列表中的数据中选择对应的部分并传送至数据处理单元。
基于上述,本发明实施例的基于语音识别的选择方法及其移动终端装置及信息系统,其对第一输入语音及第二输入语音进行语音识别及自然语言处理以确认第一输入语音及第二输入语音对应的语义分析,并且依据第一输入语音及第二输入语音对应的语义分析对数据进行选择。藉此,可提升使用者操作的便利性。
为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图式作详细说明如下。
附图说明
图1为根据本发明的一实施例的自然语言理解系统的方块图。
图2为根据本发明的一实施例的自然语言处理器对用户的各种请求信息的分析结果的示意图。
图3A是根据本发明的一实施例的结构化数据库所储存的具有特定数据结构的多个记录的示意图。
图3B是根据本发明的另一实施例的结构化数据库所储存的具有特定数据结构的多个记录的示意图。
图3C是根据本发明的另一实施例的指引数据储存表格所储存的指引数据的示意图。
图4A为根据本发明的一实施例的检索方法的流程图。
图4B为根据本发明的另一实施例的自然语言理解系统工作过程的流程图。
图5A是依照本发明一实施例所绘示的自然语言对话系统的方块图。
图5B是依照本发明一实施例所绘示的自然语言理解模块的方块图。
图5C是依照本发明另一实施例所绘示的自然语言对话系统的方块图。
图6是依照本发明一实施例所绘示的修正语音应答的方法流程图。
图7A是依照本发明一实施例所绘示的自然语言对话系统的方块图。
图7B是依照本发明另一实施例所绘示的自然语言对话系统的方块图。
图8是依照本发明一实施例所绘示的自然语言对话方法流程图。
图9为依据本发明一实施例的移动终端装置的系统示意图。
图10为依据本发明一实施例的信息系统的系统示意图。
图11为依据本发明一实施例的基于语音识别的选择方法的流程图。
图12是依照本发明一实施例所绘示的语音操控系统的方块图。
图13是依照本发明一实施例所绘示的语音操控系统的方块图。
图14是依照本发明一实施例所绘示的语音操控方法的流程图。
[主要元件标号说明]
100:自然语言理解系统 102、505、705:请求信息
104:分析结果 106:可能意图语法数据
108:关键词 110:回应结果
112:意图数据 114:确定意图语法数据
116:分析结果输出模块 200:检索系统
220:结构化数据库 240:搜寻引擎
260:检索接口单元 280:指引数据储存表格
300:自然语言处理器 302:记录
304:标题栏 306:内容栏
308:分栏 310:指引栏
312:数值栏 314:来源栏
316:热度栏400:知识辅助理解模块
S410~S450:根据本发明一实施例的检索方法的步骤
S510~S570:根据本发明一实施例的自然语言理解系统工作过程的步骤
500、500’、700、700’:自然语言对话系统
501、701:语音输入 503、703:解析结果
507、707:语音应答 509、709:特征语义
510、710:语音取样模块 511、711:候选列表
520、520’、720、720’:自然语言理解模块
522、722:语音识别模块 524、724:自然语言处理模块
526、726:语音合成模块
S602、S604、S606、S608、S610、S612:修正语音应答的方法各步骤
702:语音综合处理模块 730:特性数据库
740:自然语言数据库
S802~S890:根据本发明一实施例的自然语言对话方法各步骤
900、1010:移动终端装置 910、1011:语音接收单元
920、1013:数据处理单元 930、1015:显示单元
940:存储单元 1000:信息系统
1020:服务器 SP1:第一语音
SP2:第二语音
S1100~S1190:依据本发明一实施例的基于语音识别的选择方法的流程图
1200、1300:语音操控系统 1210:辅助启动装置
1212、1222:无线传输模块 1214:触发模块
1216:无线充电电池 12162:电池单元
12164:无线充电模块 1220、1320:移动终端装置
1221:语音系统 1224:语音取样模块
1226:语音合成模块 1227:语音输出接口
1228:通讯模块 1230:(云端)服务器
1232:语音理解模块 12322:语音识别模块
12324:语音处理模块
具体实施方式
由于已知运用固定词列表的实施方式只能提供僵化的输入规则,对于用户多变的输入语句的判断能力十分不足,所以常导致对用户的意图判断错误而找不到所需的信息、或是因为判断力不足而输出不必要的信息给用户等问 题。此外,已知的搜寻引擎只能对用户提供分散、且相关不强的搜寻结果,于是用户还要花时间逐条检视才能过滤出所需信息,不仅浪费时间而且可能漏失所需信息。本发明即针对已知技术的前述问题提出一结构化数据的检索方法与系统,在结构化数据提供特定的字段来储存不同类型的数据元素,俾提供用户使用自然语音输入信息进行检索时,能快速且正确地判断用户的意图,进而提供所需信息予用户、或提供更精确消息供其选取。
图1为根据本发明的一实施例的自然语言理解系统的方块图。如图1所示,自然语言理解系统100包括检索系统200、自然语言处理器300以及知识辅助理解模块400,知识辅助理解模块400耦接自然语言处理器300以及检索系统200,检索系统200还包括结构化数据库220、搜寻引擎240以及检索接口单元260,其中搜寻引擎240耦接结构化数据库220以及检索接口单元260。在本实施例中,检索系统200包括有检索接口单元260,但非以限定本发明,某些实施例中可能没有检索接口单元260,而以其它方式使搜寻引擎240对结构化数据库220进行全文检索。
当用户对自然语言理解系统100发出请求信息102时,自然语言处理器300可分析请求信息102,并在将所分析的可能意图语法数据106送往知识辅助理解模块400,其中可能意图语法数据106包含关键词108与意图数据112。随后,知识辅助理解模块400取出可能意图语法数据106中的关键词108并送往检索系统200并将意图数据112储存在知识辅助理解模块400内部,而检索系统200中的搜寻引擎240将依据关键词108对结构化数据库220进行全文检索之后,再将全文检索的响应结果110回传至知识辅助理解模块400。接着,知识辅助理解模块400依据响应结果110对所储存的意图数据112进行比对,并将所求得的确定意图语法数据114送往分析结果输出模块106,而分析结果输出模块116再依据确定意图语法数据114,传送分析结果104至服务器,随后在查询到用户所需的数据后将其送给用户。
上述的分析结果输出模块116可视情况与其它模块相结合,例如在一实施例中可并入知识辅助理解模块400中、或是在另一实施例中分离于自然语言理解系统100而位于服务器(包含自然语言理解系统100者)中,于是服务器将直接接收意图语法数据114再进行处理。此外,知识辅助理解模块400可将意图数据112储存在模块内部的储存装置中、在自然语言理解系统100中、服务器中(包含自然语言理解系统100者)、或是在任何可供知识辅助理解模块 400可以撷取到的储存器中,本发明对此并不加以限定。再者,自然语言理解系统100包括检索系统200、自然语言处理器300以及知识辅助理解模块400可以用硬件、软件、固件、或是上述方式的各种结合方式来构筑,本发明亦未对此进行限制。
前述自然语言理解系统100可以位于云端服务器中,也可以位于局域网络中的服务器,甚或是位于个人计算机、移动计算器装置(如笔记本型计算机)或移动通讯装置(如手机)等。自然语言理解系统100或检索系统200中的各构件也不一定需设置在同一机器中,而可视实际需要分散在不同装置或系统通过各种不同的通讯协议来连结。例如,自然语言理解处理器300及知识辅助理解模块400可配置于同一智能型手机内,而检索系统200可配置在另一云端服务器中;或者是,检索接口单元260、自然语言理解处理器300及知识辅助理解模块400可配置于同一笔记本型计算机内,而搜寻引擎240及结构化数据库220可配置于局域网络中的另一服务器中。此外,当自然语言理解系统100皆位于服务器时(不论是云端服务器或局域网络服务器),可以将检索系统200、自然语言理解处理器300、以及知识辅助理解模块400配置不同的计算机主机中,并由服务器主系统来统筹其相互间的消息与数据的传送。当然,检索系统200、自然语言理解处理器300、以及知识辅助理解模块400亦可视实际需求而将其中两者或全部合并在一计算机主机中,本发明并不对这部分的配置进行限制。
在本发明的实施例中,用户可以用各种方式来向自然语言处理器300发出请求信息,例如用说话的语音输入或是文字描述等方式来发出请求信息。举例来说,若自然语言理解系统100是位于云端或局域网络中的服务器(未显示)内,则用户可先通过移动装置(例如手机、PDA、平板计算机或类似系统)来输入请求信息102,接着再通过电信系统业者来将请求信息102传送至服务器中的自然语言理解系统100,来让自然语言处理器300进行请求信息102的分析,最后服务器于确认用户意图后,再通过分析结果输出模块116将对应的分析结果104通过服务器的处理后,将用户所请求的信息传回用户的移动装置。举例来说,请求信息102可以是用户希望通过自然语言理解系统100来求得答案的问题(例如"明天上海的天气怎么样啊"),而自然语言理解系统100在分析出用户的意图是查询上海明天的天气时,将通过分析结果输出模块116将所查询的天气数据作为输出结果104送给用户。此外,若用户对自 然语言理解系统100所下的指令为"我要看让子弹飞"、"我想听一起走过的日子"时,因为“让子弹飞”或“一起走过的日子”可能包含不同的领域,所以自然语言处理器300会将用户的请求信息102分析成一个或一个以上的可能意图语法数据106,此可能意图语法数据106包括有关键词108及意图数据112,然后再经由对检索系统220中的结构化数据240进行全文检索后,进而确认用户的意图。
进一步来说,当用户的请求信息102为"明天上海怎么样啊时,自然语言处理器300经过分析后,可产生一个可能意图语法数据106:
"<queryweather>,<city>=上海,<时间>=明天"。
在一实施例中,如果自然语言理解系统100认为用户的意图已相当明确,便可以直接将用户的意图(亦即查询明天上海的天气)通过分析结果输出模块116输出分析结果104至服务器,而服务器可在查询到用户所指定的天气候传送给用户。又例如,当用户的请求信息102为"我要看三国演义"时,自然语言处理器300经过分析后,可产生出三个可能意图语法数据106:
"<readbook>,<bookname>=三国演义";
"<watchTV>,<TVname>=三国演义";以及
"<watchfilm>,<filmname>=三国演义"。
这是因为可能意图语法数据106中的关键词108(亦即”三国演义”)可能属于不同的领域,亦即书籍(<readbook>)、电视剧(<watchTV>)、以及电影(<readfilm>)三个领域,所以一个请求信息102可分析成多个可能意图语法数据106,因此需要通过知识辅助理解模块400做进一步分析,来确认用户的意图。再举另一个例子来说,若用户输入"我要看让子弹飞"时,因其中的"让子弹飞"有可能是电影名称或是书名称,所以也可能出现至少以下两个可能意图语法数据106:
"<readbook>,<bookname>=让子弹飞";以及
"<watchfilm>,<filmname>=让子弹飞";
其分别属于书籍与电影两个领域。上述的可能意图语法数据106随后需通过知识辅助理解模块400做进一步分析,并从中求得确定意图语法数据114,来表达用户的请求信息的明确意图。当知识辅助理解模块400分析可能意图语法数据106时,知识辅助理解模块400可通过检索接口206传送关键词108(例如上述的“三国演义”或”让子弹飞”)给检索系统200。检索系统200 中的结构化数据库220储存了具有特定数据结构的多个记录,而搜寻引擎240能通过检索接口单元260所接收的关键词108来对结构化数据库220进行全文检索,并将全文检索所获得的响应结果回传给知识辅助理解模块400,随后知识辅助理解模块400便能通过此响应结果110来求得确定意图语法数据114。至于对结构化数据库220进行全文检索以确定意图语法数据114的细节,将在后面通过图3A、图3B与相关段落做更详细的描述。
在本发明的概念中,自然语言理解系统100能先撷取用户的请求信息102中的关键词108,并通过结构化数据库220的全文检索结果来判别关键词108的领域属性,例如上述输入“我要看三国演义”时,会产生分别属于书籍、电视剧、电影三个领域的可能意图语法数据106,随后再进一步分析并确认用户的明确意图。因此用户能够很轻松地以口语化方式来表达出其意图或信息,而不需要特别熟记特定用语,例如已知作法中关于固定词列表的特定用语。
图2为根据本发明的一实施例的自然语言处理器300对用户的各种请求信息的分析结果的示意图。
如图2所示,当用户的请求信息102为"明天上海的天气怎么样啊"时,自然语言处理器300经过分析后,可产生出可能意图语法数据106为:
"<queryweather>,<city>=上海,<时间>=明天"
其中意图数据112为"<queryweather>"、而关键词108为"上海"与"明天"。由于经自然语言处理器300的分析后只取得一组意图语法数据106(查询天气<queryweather>),因此在一实施例中,知识辅助理解模块400可直接取出关键词108"上海"与"明天"作为分析结果104送往服务器来查询天气的信息(例如查询明天上海天气概况、包含气象、气温…等信息),而不需要对结构化数据库220进行全文检索来判定用户意图。当然,在一实施例中,仍可对结构化数据库220进行全文检索做更精确的用户意图判定,熟习本发明技艺者可依据实际需求进行变更。
此外,当用户的请求信息102为"我要看让子弹飞"时,因为可产生出两个可能意图语法数据106:
"<readbook>,<bookname>=让子弹飞";以及
"<watchfilm>,<filmname>=让子弹飞";
与两个对应的意图数据112"<readbook>"与"<watchfilm>"、以及两个相同的关键词108"让子弹飞",来表示其意图可能是看"让子弹飞"的书籍或是看" 让子弹飞"的电影。为进一步确认用户的意图,将通过知识辅助理解模块400传送关键词108"让子弹飞"给检索接口单元260,接着搜寻引擎240便通过此关键词108"让子弹飞"来对结构化数据库220进行全文检索,以确认"让子弹飞"应该是书名称或是电影名称,藉以确认用户的意图。
再者,当用户的请求信息102为"我想听一起走过的日子"时,可产生出两个可能意图语法数据106:
"<playmusic>,<singer>=一起走过,<songname>=日子";"<playmusic>,<songname>=一起走过的日子"
两个对应的相同的意图数据112"<playmusic>"、以及两组对应的关键词108"一起走过"与"日子"及"一起走过的日子",来分别表示其意图可能是听歌手"一起走过"所唱的歌曲"日子"、或是听歌曲"一起走过的日子",此时知识辅助理解模块400可传送第一组关键词108"一起走过"与"日子"以及第二组关键词"一起走过的日子"给检索接口单元260,来确认是否有"一起走过"这位歌手来唱的"日子"这首歌(第一组关键词所隐含的用户意图)、或是否有"一起走过的日子"这首歌(第二组关键词所隐含的用户意图),藉以确认用户的意图。然而,本发明并不限于在此所表示的各可能意图语法数据与意图数据所对应的格式与名称。
图3A是根据本发明的一实施例的结构化数据库220所储存的具有特定数据结构的多个记录的示意图。
一般而言,在一些已知的全文检索作法中,所获得的搜寻结果是非结构化的数据(例如通过google或百度所搜寻的结果),因其搜寻结果的各项信息是分散且不具关联的,所以用户必须再对各项信息逐一检视,因此造成实用性的限制。然而,在本发明的概念中,能通过结构化数据库来有效增进检索的效率与正确性。因为本发明所揭露的结构化数据库中的每个记录内部所包含的数值数据相互间具有关联性,且这些数值数据共同用以表达来自用户的请求信息对该记录的意图。于是在搜寻引擎对结构化数据库进行一全文检索时,可在记录的数值数据被匹配时,输出对应于该数值数据的指引数据以确认该请求信息的意图。这部分的实施细节将通过下列实例作更进一步的描述。
在本发明的实施例中,结构化数据库220所储存的每个记录302包括标题栏304及内容栏306,标题栏304内包括多个分栏308,各分栏包括指引栏310以及数值栏312,所述多个记录302的指引栏310用以储存指引数据,而 所述多个记录302的数值栏用312以储存数值数据。在此以图3A所示的记录1来举例说明,记录1的标题栏304中的各分栏308分别储存了:
"singerguid:刘德华"、
"songnameguid:一起走过的日子";及"songtypeguid:港台,粤语,流行";
各分栏308的指引栏310分别储存了指引数据"singerguid"、"songnameguid"及"songtypeguid"、而其对应分栏308的数值栏312则分别储存了数值数据"刘德华"、"一起走过的日子"及"港台,粤语,流行"。指引数据"singerguid"代表数值数据"刘德华"的领域种类为歌手名称(singer),指引数据"songnameguid"代表数值数据"一起走过的日子"的领域种类为歌曲名称(song),指引数据"songtypeguid"代表数值数据"港台,粤语,流行"的领域种类为歌曲类型(song type)。在此的各指引数据实际上可分别用不同的特定一串数字或字符来表示,在本发明中不以此为限。记录1的内容栏306则是储存了"一起走过的日子"这首歌的歌词内容或储存其它的数据(例如作曲/词者…等),然而各记录的内容栏306中的真实数据并非本发明所强调的重点,因此在图3A中仅示意性地来描述之。
前述的实施例中,每个记录包括标题栏304及内容栏306,且标题栏304内的分栏308包括指引栏310以及数值栏312,但非以限定本发明,某些实施例中也可以没有内容栏306,甚或是有些实施例中可以没有指引栏310。
除此之外,在本发明的实施例中,于各分栏308的数据间储存有第一特殊字符来分隔各分栏308的数据,于指引栏310与该数值栏312的数据间储存有第二特殊字符来分隔指引栏与数值栏的数据。举例来说,如图3A所示,"singerguid"与"刘德华"之间、"songnameguid"与"一起走过的日子"之间、以及"songtypeguid"与"港台,粤语,流行"之间是利用第二特殊字符":"来做分隔,而记录1的各分栏308间是利用第一特殊字符"|″来做分隔,然而本发明并不限于以":"或"|″来做为用以分隔的特殊字符。
另一方面,在本发明的实施例中,标题栏304中的各分栏308可具有固定位数,例如各分栏308的固定位数可以是32个字符,而其中的指引栏310的固定位数可以是7或8个位(最多用来指引128或256种不同的指引数据),此外,因第一特殊字符与第二特殊字符所需要的位数可以是固定的,所以分栏308的固定位数在扣除指引栏310、第一特殊字符、第二特殊字符所占去 的位数后,剩下的位数便可悉数用来储存数值栏312的数值数据。再者,由于分栏308的位数固定,加上分栏308储存数据的内容可如图3A所示依序为指引栏310(指引数据的指针)、第一特殊字符、数值栏312的数值数据、第二特殊字符,而且如前所述,这四个数据的位数量也是固定的,于是在实作上可跳过指引栏310的位(例如跳过前7或8个位)、以及第二特殊字符的位数(例如再跳过1个字符,亦即8个位)后,再扣掉第一特殊字符所占的位数(例如最后1个字符、8个位)之后,最后便可直接取得数值栏312的数值数据(例如在记录1的第一个分栏308中直接取出数值数据”刘德华”),接着再进行所需的领域种类判断即可。于是,在目前所取出的数值数据比对完毕后(不论是否比对成功与否),可以再依据上述取出数值数据的方式取出下一个分栏308的数值数据(例如在记录1的第二个分栏308中直接取出数值数据”一起走过的日子”),来进行比对领域种类的比对。上述取出数值数据的方式可以从记录1开始进行比对,并在比对完记录1所有的数值数据后,再取出记录2的标题栏308中第一个分栏308的数值数据(例如”冯小刚”)进行比对。上述比对程序将持续进行,直到所有记录的数值数据都被比对过为止。
应注意的是,上述的分栏308的位数、以及指引栏310、第一特殊字符、第二特殊字符个使用的位数可依实际应用改变,本发明对此并未加以限制。前述利用比对来取出数值数据的方式只是一种实施例,但非用以限定本发明,另一实施例可以使用全文检索的方式来进行。此外,上述跳过指引栏310、第二特殊字符、第一特殊字符的实作方式,可以使用位平移(例如除法)来达成,此部分的实施可以用硬件、软件、或两者搭配的方式进行,熟习本发明技艺者可依计实际需求而变更。在本发明的另一实施例中,标题栏304中的各分栏308可具有固定位数,分栏308中的指引栏310可具有另一固定位数,并且标题栏304中可不包括第一特殊字符以及第二特殊字符,由于各分栏308以及各指引栏310的位数为固定,所以可利用跳过特定位数的方式或是使用位平移(例如除法)的方式来直接取出各分栏308中的指引数据或数值数据。
应注意的是,由于前面已提到分栏308具有一定的位数,所以可以在自然语言理解系统100中(或是包含自然语言理解系统100的服务器中)使用计数器来记录目前所比对的是某一记录的某分栏308。此外,比对的记录亦可使用另一计数器来储存其顺序。举例来说,当分别使用一第一计数器记录来表示目前所比对的记录顺序、并使用一第二计数器来表示目前所比对的分栏顺 序时,若目前比对的是图3A的记录2的第3个分栏308(亦即比对“filenameguid:华谊兄”)时,第一计数器所储存的数值将是2(表示目前比对的是记录2),第二计数器所储存的数值则为3(表示目前比对的是第3个分栏308)。再者,上述仅以7或8个位储存指引栏310的指引数据的方式,系希望将分栏308的大多数位都用来储存数值数据,而实际的指引数据则可通过这7、8个位当作指针,再据以从检索系统220所储存的指引数据表格280中读取实际的指引数据。于是,在实际操作时,除了可直接取出数值数据进行比对之外,亦可在产生匹配结果时,直接依据上述两个计数器的数值,直接取出指引数据作为响应结果110送给知识辅助理解模块400。举例来说,当记录6的第2个分栏308(亦即“songnameguid:背叛”)匹配成功时,将得知目前的第一计数器/第二计数器的数值分别为6与2,因此可以依据这两个数值前往储存图3C所示的指引数据储存表格280,由记录6的分栏2查询出指引数据为”songnameguid”。在一实施例中,可以将分栏308的位树固定后,再将分栏308的所有位都用来储存数值数据,于是可以完全除去指引栏、第一特殊字符、第二特殊字符,而搜寻引擎240只要知道每越过固定位数就是另一个分栏308,并在第二计数器中加一即可(当然,每换下一个记录进行检索时亦需将第一计数器的储存值加一),这样可以提供更多的位数来储存数值数据。
再举一个实例来说明比对产生匹配结果时,回传匹配记录110至知识辅助理解模块400做进一步处理的过程。对应于上述记录302的数据结构,在本发明的实施例中,当用户的请求信息102为"我要看让子弹飞"时,可产生出两个可能意图语法数据106:
"<readbook>,<bookname>=让子弹飞";与
"<watchfilm>,<filmname>=让子弹飞";
搜寻引擎240便通过检索接口单元260所接收的关键词108"让子弹飞"来对图3A的结构化数据库220所储存的记录的标题栏304进行全文检索。全文检索中,在标题栏304中找到了储存有数值数据"让子弹飞"的记录5,因此产生了匹配结果。接下来,检索系统200将回传记录5标题栏304中,对应于关键词108”让子弹飞”的指引数据”filmnameguid”作为匹配记录110并回传至知识辅助理解模块400。由于在记录5的标题栏中,包含对应数值数据"让子弹飞"的指引数据"filmnameguid",所以知识辅助理解模块400通过比对记录5的指引数据"filmnameguid"与上述可能意图语法数据106先前已储存的 意图数据112"<watchfilm>"或"<readbook>",便能判断出此次请求信息的确定意图语法数据114为"<watchfilm>,<filmname>=让子弹飞"(因为都包含“film”在其中)。换句话说,此次用户的请求信息102中所描述数据"让子弹飞"是电影名称,而数据用户的请求信息102的意图为看电影"让子弹飞",而非阅读书籍。
再举一个实例作更进一步的说明。当用户的请求信息102为"我想听一起走过的日子"时,可产生出两个可能意图语法数据106:
"<playmusic>,<singer>=一起走过,<songname>=日子";与
"<playmusic>,<songname>=一起走过的日子";
搜寻引擎240便通过检索接口单元260所接收的两组关键词108:
"一起走过"与"日子";以及
"一起走过的日子"
来对图3A的结构化数据库220所储存的记录的标题栏304进行全文检索。由于全文检索中,并未在所有记录的标题栏304中找到对应于第一组关键词108"一起走过"与"日子"的匹配结果,而是找到了对应于第二组关键词108"一起走过的日子"的记录1,于是检索系统200将记录1标题栏304中对应于第二组关键词108的指引数据"songnameguid",作为匹配记录110且回传至知识辅助理解模块400。接下来,知识辅助理解模块400在接收对应数值数据"一起走过的日子"的指引数据"songnameguid"后,便与可能意图语法数据106(亦即"<playmusic>,<singer>=一起走过,<songname>=日子"与"<playmusic>,<songname>=一起走过的日子")中的意图数据112(亦即<singer>、<songname>等)进行比对,于是便发现此次用户的请求信息102中并未描述有歌手名称的数据,而是描述有歌曲名称为"一起走过的日子"的数据(因为只有<songname>比对成功)。所以,知识辅助理解模块400可通过上述比对而判断出此次请求信息102的确定意图语法数据114为"<playmusic>,<songname>=一起走过的日子",而用户的请求信息102的意图为听歌曲"一起走过的日子"。
在本发明的另一实施例中,检索而得的匹配记录110可以是与关键词108完全匹配的全匹配记录、或是与关键词108部分匹配的部分匹配记录。举例来说,如果用户的请求信息102为"我想听萧敬腾的背叛",同样地,自然语言处理器300经过分析后,产生出两个可能意图语法数据106:
"<playmusic>,<singer>=萧敬腾,<songname>=背叛";及"<playmusic>,<songname>=萧敬腾的背叛";
并传送两组关键词108:
"萧敬腾"与"背叛";以及
"萧敬腾的背叛";
给检索接口单元260,搜寻引擎240接着通过检索接口单元260所接收的关键词108来对图3A的结构化数据库220所储存的记录302的标题栏304进行全文检索。由于在全文检索中,对应第二组关键词108"萧敬腾的背叛"并未匹配到任何记录,但是对应第一组关键词108"萧敬腾"与"背叛"找到了记录6与记录7的匹配结果。由于第二组关键词108"萧敬腾"与"背叛"仅与记录6中的数值数据"萧敬腾相匹配,而未匹配到其它数值数据"杨宗纬"及"曹格",因此记录6为部分匹配记录(请注意上述对应请求信息102"我要看让子弹飞"的记录5以及对应请求信息"我想听一起走过的日子"的记录1皆为部分匹配记录),而关键词"萧敬腾"与"背叛"完全匹配了记录7的数值数据(因为第二组关键词108"萧敬腾"与"背叛"皆匹配成功),所以记录7为完全匹配记录。在本发明的实施例中,当该检索接口单元260输出多个匹配记录110至知识辅助理解模块400时,可依序输出全匹配记录(亦即全部的数值数据都被匹配)及部分匹配记录(亦即仅有部分的数值数据被匹配)的匹配记录110,其中全匹配记录的优先级大于部分匹配记录的优先级。因此,在检索接口单元260输出记录6与记录7的匹配记录110时,记录7的输出优先级会大于记录6的输出优先级,因为记录7全部的数值数据"萧敬腾"与"背叛"都产生匹配结果,但记录6还包含"杨宗纬"与"曹格"未产生匹结果。也就是说,结构化数据库220中所储存的记录对其请求信息102中的关键词108的匹配程度越高,越容易优先被输出,以便用户进行查阅或挑选对应的确定意图语法数据114。在另一实施例中,可直接输出优先级最高的记录所对应的匹配记录110,做为确定意图语法数据114之用。前述非以限定本发明,因为在另一实施例中可能采取只要搜寻到有匹配记录即输出的方式(例如,以"我想听萧敬腾的背叛"为请求信息102而言,当检索到记录6即产生匹配结果时,即输出记录6对应的指引数据做匹配记录110),而没有包含优先级的排序,以加快检索的速度。在另一实施例中,可对优先级最高的记录,直接执行其对应的处理方式并提供予用户。例如当优先级最高的为播放三国演义的电影时,可直接播 放电影与用户。此外,若优先级最高的为萧敬腾演唱的背叛时,可直接将此歌曲播放与用户。应注意的是,本发明在此仅作说明,并非对此加以限定。
在本发明的再一实施例中,如果用户的请求信息102为"我要听刘德华的背叛",则其可能意图语法数据106的其中之一为:
"<playmusic>,<singer>=刘德华,<songname>=背叛”;
若检索接口单元260将关键词108"刘德华"与"背叛"输入搜寻引擎240,并不会在图3的数据库中找到任何的匹配结果。在本发明的又一实施例中,检索接口单元260可分别将关键词108"刘德华"以及"背叛"输入搜寻引擎240,并且分别对应求得"刘德华"是歌手名称(指引数据singerguid)以及"背叛"是歌曲名称(指引数据songnameguid,且歌手可能是曹格或是萧敬腾、杨宗纬与曹格合唱)。此时,自然语言理解系统100可进一步提醒用户:”背叛这首歌曲是否为萧敬腾所唱(依据记录7的匹配结果)?”,或者,”是否为萧敬腾、杨宗纬与曹格所合唱(依据记录6的匹配结果)?”。
在本发明的再一实施例中,结构化数据库220所储存记录可还包括有来源栏314及热度栏316。如图3B所示的数据库,其除了图3A的各项字段之外,还包含来源栏314及热度栏316。各记录的来源栏314用以储存此记录是出自哪一个结构化数据库(在此图式中仅显示结构化数据库220,而实际上可存在更多不同的结构化数据库)、或是哪一个用户、服务器所提供的来源值。并且,自然语言理解系统100可根据用户在之前的请求消息102中所透漏的喜好,来检索特定来源的结构化数据库(例如以请求信息102中的关键词进行全文检索产生匹配时,便对该记录的热度值加一)。而各记录302的热度栏316用以储存此记录302的搜寻热度值或是热门程度值(例如该记录在特定时间里被单一用户、特定用户群组、所有用户的匹配次数或机率),以供知识辅助理解模块400判断用户意图时的参考。详细而论,当用户的请求信息102为"我要看三国演义"时,自然语言处理器300经过分析后,可产生出多个可能意图语法数据106:
"<readbook>,<bookname>=三国演义";
"<watchTV>,<TVname>=三国演义";以及
"<watchfilm>,<filmname>=三国演义"。
若自然语言理解系统100在用户的请求信息102的历史记录中(例如利用通过热度栏316储存该笔记录302被某用户所点选的次数),统计出其大部份 的请求为看电影,则自然语言理解系统100可针对储存电影记录的结构化数据库来做检索(此时来源栏314中的来源值,是记录储存电影记录的结构化数据库的代码),从而可优先判定"<watchfilm>,<filmname>=三国演义"为确定意图语法数据114。举例来说,在一实施例中亦可在每个记录302被匹配一次,就可在后面的热度栏316加一,作为用户的历史记录。于是在依据关键词108”三国演义”做全文检索时,可以从所有匹配结果中挑选热度栏316中数值最高的记录302,作为判断用户意图之用。在一实施例中,若自然语言理解系统100在关键词108"三国演义"的检索结果中,判定对应"三国演义"这出电视节目的记录的热度栏316所储存的搜寻热度值最高,则便可优先判定"<watchTV>,<TVname>=三国演义"为确定意图语法数据114。此外,上述对热度栏316所储存数值的变更方式,可通过自然语言理解系统100所在的计算机系统进行变更,本发明对此并不加以限制。此外、热度栏316的数值亦可随时间递减,以表示用户对某项记录302的热度已逐渐降低,本发明对这部分亦不加以限制。
再举另一个实例来说,在另一实施例中,由于用户可能在某段时间中特别喜欢看三国演义的电视剧,由于电视剧的长度可能很长而用户无法短时间看完,因此在短时间中可能重复点选(假设每匹配一次就将热度栏316内的数值加一的话),因此造成某个记录302被重复匹配,这部分都可通过分析热度栏316的数据而得知。再者,在另一实施例中,电信业者也可以利用热度栏316来表示某一来源所提供数据被取用的热度,而此数据供应者的编码可以用来源栏314进行储存。举例来说,若某位供应”三国演义电视剧”的供应者的被点选的机率最高,所以当某用户输入”我要看三国演义”的请求信息102时,虽然在对图3B的数据库进行全文检索时会找到阅读三国演义的书籍(记录8)、观看三国演义电视剧(记录9)、观看三国演义电影(记录10)三个匹配结果,但由于热度栏316中的数据显示观看三国演义电视剧是现在最热门的选项(亦即记录8、9、10的热度栏的数值分别为2、5、8),所以将先提供记录10的指引数据做匹配记录110输出至知识辅助理解系统400,作为判定用户意图的最优先选项。在一实施例中,可同时将来源栏314的数据显示给用户,让用户判断他所想要观看的电视剧是否为某位供应者所提供。应注意的是,上述对来源栏314所储存数据以及其变更方式,亦可通过自然语言理解系统100所在的计算机系统进行变更,本发明对此并不加以限制。
明显的,本发明所揭露的结构化数据库中的每个记录内部所包含的数值数据相互间具有关联性(例如记录1中的数值数据“刘德华”、”一起走过的日子”、“港台,粤语,流行”都是用来描述记录1的特征),且这些数值数据共同用以表达来自用户的请求信息对该记录的意图(例如对”一起走过的日子”产生匹配结果时,表示用户的意图可能是对记录1的数据存取),于是在搜寻引擎对结构化数据库进行全文检索时,可在记录的数值数据被匹配时,输出对应于该数值数据的指引数据(例如输出”songnameguid”作为响应结果110),进而确认该请求信息的意图(例如在知识辅助理解模块中进行比对)。
基于上述示范性实施例所揭示或教示的内容,图4A为根据本发明的一实施例的检索方法的流程图。请参阅图4,本发明的实施例的检索方法包括以下步骤:
提供结构化数据库,且结构化数据库储存多个记录(步骤S410);
接收至少一关键词(步骤S420);
通过关键词来对多个记录的标题栏进行全文检索(步骤S430)。举例来说,将关键词108输入检索接口单元260来让搜寻引擎240对结构化数据库220所储存的多个记录302的标题栏304进行全文检索,至于检索方式可如对图3A或图3B所进行的检索方式、或是不变更其精神的方式来进行;
判断全文检索是否有匹配结果(步骤S440)。举例来说,通过搜寻引擎240来判断此关键词108所对应的全文检索是否有匹配结果;以及
若有匹配结果,依序输出全匹配记录及部分匹配记录(步骤S450)。举例来说,若结构化数据库220中有记录匹配此关键词108,则检索接口单元260依序输出匹配此关键词108的全匹配记录及部分匹配记录中的指引数据(可通过对图3C的指引数据储存表格280而取得)作为匹配记录110送往知识辅助理解系统400,
其中全匹配记录的优先级大于部分匹配记录的优先级。
前述的流程步骤非以限定本发明,有些步骤是可以忽略或移除,例如,在本发明的另一实施例中,可通过位于检索系统200外的匹配判断模块(未绘示于图中)来执行步骤S440;或是在本发明的另一实施例中,可忽略上述步骤S450,其依序输出全匹配记录及部分匹配记录的动作可以通过位于检索系统200外的匹配结果输出模块(未绘示于图中),来执行步骤S450中依序输出全匹配记录及部分匹配记录的动作。
基于上述示范性实施例所揭示或教示的内容,图4B为根据本发明的另一实施例的自然语言理解系统100工作过程的流程图。请参阅图4B,本发明的另一实施例的自然语言理解系统100工作过程包括以下步骤:
接收请求信息(步骤S510)。举例来说,用户将具有语音内容或文字内容的请求信息102传送至自然语言理解系统100;
提供结构化数据库,且结构化数据库储存多个记录(步骤S520);
将请求信息语法化(步骤S530)。举例来说,自然语言处理器300分析用户的请求信息102后,进而转为对应的可能意图语法数据106;
辨别关键词的可能属性(步骤S540)。举例来说,知识辅助理解模块400辨别出可能意图语法数据106中的至少一关键词108的可能属性,例如,关键词108"三国演义"可能是书、电影及电视节目;
通过关键词108来对多个记录的标题栏304进行全文检索(步骤S550)。举例来说,将关键词108输入检索接口单元260来让搜寻引擎240对结构化数据库220所储存的多个记录的标题栏304进行全文检索;
判断全文检索是否有匹配结果(步骤S560)。举例来说,通过搜寻引擎240来判断此关键词108所对应的全文检索是否有匹配结果;
若有匹配结果,依序输出全匹配记录及部分匹配记录(步骤S570)所对应的指引数据为匹配记录110。举例来说,若结构化数据库220中有记录匹配此关键词108,则检索接口单元260依序输出匹配此关键词108的全匹配记录及部分匹配记录所对应的指引数据为匹配记录110,
其中全匹配记录的优先级大于部分匹配记录的优先级;以及
依序输出对应的确定意图语法数据(步骤S580)。举例来说,知识辅助理解模块400通过依序输出的全匹配记录及部分匹配记录,藉以输出对应的确定意图语法数据114。
前述的流程步骤非以限定本发明,有些步骤是可以忽略或移除。
综上所述,本发明通过取出用户的请求信息所包括的关键词,并且针对结构化数据库中的具有数据结构的记录的标题栏来进行全文检索,若产生匹配结果,便可判断出关键词所属的领域种类,藉以确定用户在请求信息所表示的意图。
接下来针对以上结构化数据库在语音识别上的应用做更多的说明。首先针对在自然语言对话系统中,根据用户的语音输入来修正错误的语音应答, 并进一步找出其它可能的答案来回报给用户的应用做说明。
虽然现今的移动通讯装置已可提供自然语言对话功能,以让用户发出语音来和移动通讯装置沟通。然而在目前的语音对话系统,当用户的语音输入不明确时,由于同一句语音输入可能意指多个不同的意图或目的,故系统容易会输出不符合语音输入的语音应答。因此在很多对话情境中,用户难以得到符合其意图的语音应答。为此,本发明提出一种修正语音应答的方法以及自然语言对话系统,其中自然语言对话系统可根据用户的语音输入来修至错误的语音应答,并进一步找出其它可能的答案来回报给用户。为了使本发明的内容更为明了,以下特举实施例作为本发明确实能够据以实施的范例。
图5A是依照本发明一实施例所绘示的自然语言对话系统的方块图。请参照图5A,自然语言对话系统500包括语音取样模块510、自然语言理解模块520、以及语音合成数据库530。在一实施例中,语音取样模块510用以接收语音输入501(例如来自用户的语音),随后对其进行解析而产生解析结果503,而自然语言理解模块520会对解析结果503进行解析而取得其中的请求信息505,并在找到符合请求信息505的答案后,依据此答案通过对语音合成数据库130进行对应的语音查询,再输出所查询的语音作为对应于语音输入501的语音应答507予用户。其中,倘若自然语言理解模块520所作出的语音应答505不符合语音输入501中的请求信息505时(例如用户输入另一个语音输入指示此事),自然语言理解模块520会修正原本的答案,并输出另一个语音应答507予用户。
前述自然语言对话系统500中的各构件可配置在同一机器中。举例而言,语音取样模块510与自然语言理解模块520例如是配置于同一电子装置。其中,电子装置可以是移动电话(Cell phone)、个人数字助理(Personal Digital Assistant,PDA)手机、智能型手机(Smart phone)等移动通讯装置、掌上型计算机(Pocket PC)、平板型计算机(Tablet PC)、笔记本型计算机、个人计算机、或是其它具备通讯功能或安装有通讯软件的电子装置,在此并不限制其范围。此外,上述电子装置可使用Android操作系统、Microsoft操作系统、Android操作系统、Linux操作系统等等,不限于此。当然,前述自然语言对话系统500中的各构件也不一定需设置在同一机器中,而可分散在不同装置或系统并通过各种不同的通讯协议来连结。举例而言,自然语言理解模块520可以位于云端服务器中,也可以位于局域网络中的服务器。此外,自然语言理解 模块520中的各构件也可分散在不同的机器,例如自然语言理解模块520中的各构件可位于与语音取样模块510相同或不同的机器。
在本实施例中,语音取样模块510用以接收语音输入,此语音取样模块510可以为麦克风(Microphone)等接收音讯的装置,而语音输入501可以是来自用户的语音。
自然语言理解模块520会接收从语音取样模块510传来的语音输入501,以对语音输入501进行解析而产生解析结果503。并且,自然语言理解模块120会根据解析结果503中的一个或多个特征语义505(例如图1A中所提到的关键词108等)来产生至少一个包含至少一个候选答案的候选列表111,然后再从这些候选答案中找出较符合特征语义109的答案,进而输出语音应答107予用户。由于语音应答105输出与用户后,他/她可能认为目前所新的答案的不符合他的需求、或者需要再输入更多的选择(例如语音应答105输出的是多个选项要求用户驵进一步选择)…等,所以用户会再输入另一个语音。是以,如果用户输入另一个语音的话,自然语言理解模块520会接着依据用户所输入的另一个语音输入501判断先前所输出的语音应答507是否正确;若为否,则自然语言理解模块520还会从上述候选列表511中找出另一个候选答案,并据以产生新的语音应答507提供予用户。这部分的细节将通过图5B做更进一步的描述。
此外,本实施例的自然语言理解模块520可由一个或数个逻辑闸组合而成的硬件电路来实作。或者,在本发明另一实施例中,自然语言理解模块520可以通过计算机程序码来实作。举例来说,自然语言理解模块520例如是由程序语言所撰写的程序代码片段来实作于应用程序、操作系统或驱动程序等,而这些程序代码片段储存在储存单元中,并通过处理单元来执行之。为了使本领域的技术人员进一步了解本实施例的自然语言理解模块520,底下举实例来进行说明。然,本发明在此仅为举例说明,并不以此为限,例如运用硬件、软件、固件、或是此三种实施方式的混合搭配等方式,皆可运用来实施本发明。
图5B是依照本发明一实施例所绘示的自然语言理解模块520的方块图。请参照图5B,本实施例的自然语言理解模块520可包括语音识别模块522、自然语言处理模块524以及语音合成模块526。其中,语音识别模块522会接收从语音取样模块510传来的对语音输入501进行解析的解析结果503, 并转换成一个或多个特征语义509(例如图1A的关键词108或字句等)。自然语言处理模块524则可再对这些特征语义509进行解析,而获得至少一个候选列表511(例如通过图1A的检索系统200对结构化数据库220进行全文检索,并在取得响应110且对意图数据112比对后产生确定意图语法数据114,最后由分析结果输出模块116所送出的分析结果104),并且会从候选列表511中选出一个较符合语音输入501的答案以做为回报答案(例如挑选全匹配记录…等)。由于此回报答案是自然语言理解模块520在内部分析而得的答案,所以还必须将转换成语音输出才能输出予用户,于是语音合成模块526会依据回报答案来查询语音合成数据库530,而此语音合成数据库530例如是记录有文字以及其对应的语音信息,可使得语音合成模块526能够找出对应于回报答案的语音,藉以合成出第一语音应答507。之后,语音合成模块126可将合成的语音通过语音输出接口(未绘示),其中语音输出接口例如为喇叭、扬声器、或耳机等装置输出,藉以输出语音予用户。
举例来说,若用户输入的是”我要看三国演义”的语音输入501话,语音识别模块522会接收从语音取样模块510传来的对语音输入501进行解析的解析结果503,然后转换成例如是包含关键词108”三国演义”的特征语义509。自然语言处理模块524则可再对这个特征语义509“三国演义”进行解析,例如通过图1A的检索系统200对结构化数据库220进行全文检索,并在取得响应110且对意图数据112比对后产生确定意图语法数据114,最后由分析结果输出模块116所送出的分析结果104,而产生包含“三国演义”的三个意图选项的候选答案,并将其整合成一候选列表511(亦即包含“看书”、“看电视剧”、以及“看电影”三个选项),接着再从候选列表511的这三个意图选项中选出一个热度栏最高的答案(例如挑选图1A的记录10)做为回报答案。在一实施例中,可以直接执行热度栏最高者的所对应的方式,例如直接播放萧敬腾所演唱的“背叛”予用户,本发明并不对此加以限制。
此外,自然语言处理模块524还可通过解析后续所接收的另一个语音输入501(因为与先前的语音输入501运用同样的方式馈入语音取样模块510),而判断前次的回报答案是否正确,此语音系用户针对先前提供予用户的语音应答507所做的响应,其包含用户认为先前的语音应答507正确与否的信息。倘若上述回报答案表示用户认为回报答案(亦即先前通过语音应答507传达给用户者)不正确,自然语言处理模块524还会选择上述候选列表511中的其它 答案,并依据所选择的结果,通过语音合成模块526产生第二语音应答507(因为也同样通过先前传送语音应答507的方式播放予用户)。接着,语音合成模块526可将合成的第二语音应答507亦通过语音输出接口输出予用户。
延续先前用户输入“我要看三国演义”的例子来说,若用户想要看三国演义的电视剧,所以先前输出与用户的图1A记录10的选项(因为是看“三国演义”的电影)就不是用户想要的,所以用户可能输入“我要看三国演义电视剧”、或是“我不要看三国演义电影”…等作为第二语音输入501。于是第二语音输入501将在解析而取得其请求信息505(或是特征语义509)后,输出“我现在为您播放三国演义电视剧”的第二语音应答507(如果用户想观看三国演义电视剧)、或是输出”您想要的是哪个选项”(如果用户只否定目前选项)的第二语音应答507,并搭配候选列表511其它的选项供用户选取。此外,在一实施例中,先前的语音应答507所输出的是候选列表111的某个选项给用户供其判定是否其所想要的信息时,此时用户将输入此判定的”肯定”或”否定”的请求信息505。例如”请播放电影”、”这不是我要的东西”…等消息。于是第二语音输入501将在解析而取得其请求信息505后,输出”我现在为您播放三国演义电影”的第二语音应答507(如果用户想观看三国演义电影)、或是输出”您想要的是哪个选项”(如果用户只否定目前选项)的第二语音应答507,并搭配输出候选列表511其它的选项供用户选取。再者,在另一实施例中,若是依照优先级(例如全匹配、部分匹配…)显示候选列表511与用户时,用户所输入的第二语音输入501可能包含”选择”的消息。例如显示”观看三国演义书籍”、”观看三国演义电视剧”、以及”观看三国演义电影”三个选项给用户做选择时,用户可能输入”我要看电影””、或是”我要第三个选项”…等第二语音输入时,将在分析第二语音输入501的请求信息505并发现用户的意图后(例如选择观看电影),于是第二语音输入501将在解析而取得其请求信息505后,输出”我现在为您播放三国演义电影”的第二语音应答507(如果用户想观看三国演义电影)然后直接播放电影予用户、或是输出”您想要的是阅读三国演义书籍”(如果所选择的是看书)的第二语音应答507,并搭配显示三国演义的电子书予用户的动作。
在本实施例中,前述自然语言理解模块520中的语音识别模块522、自然语言处理模块524以及语音合成模块526可与语音取样模块510配置在同一机器中。在其它实施例中,语音识别模块522、自然语言处理模块524以 及语音合成模块526亦可分散在不同的机器(例如计算机系统、服务器或类似装置/系统)中。例如图5C所示的自然语言理解模块520’,语音合成模块526可与语音取样模块510配置在同一机器502,而语音识别模块522、自然语言处理模块524可配置在另一机器。
以下即搭配上述搭配图5A的自然语言对话系统500来说明修正语音应答507的方法。图6是依照本发明一实施例所绘示的修正语音应答507的方法流程图。在本实施例中的修正语音应答507的方法中,当用户认为目前所播放的语音应答507不符合其先前所输入的请求信息505时,会再输入另一个语音输入501并馈入语音取样模块510,随后再由自然语言理解模块520分析而得知先前播放予用户的语音应答507并不符合用户的意图时,自然语言理解模块520可再次输出另一个语音应答507,藉以修正原本的语音应答507。为了方便说明,在此仅举图5A的自然语言对话系统500为例,但本实施例的修正语音应答507的方法亦可适用于上述图5C的自然语言对话系统500’。
请同时参照图5A及图6,于步骤S602中,语音取样模块510会接收第一语音输入(亦同样通过语音输入501的方向馈入语音取样模块510)。其中,第一语音输入501例如是来自用户的语音,且第一语音输入501还可具有用户的请求信息105。具体而言,来自用户的第一语音输入501可以是询问句、命令句或其它请求信息505等,例如「我要看三国演义」、「我要听忘情水的音乐」或「今天温度几度」等等。
于步骤S604中,自然语言理解模块520会解析第一语音输入501中所包括的至少一个特征语义509,而获得候选列表511,其中候选列表511具有一个或多个候选答案。详细而言,自然语言理解模块520会解析第一语音输入501,而获得第一语音输入501的一个或多个特征语义509。在此,特征语义509例如是自然语言理解模块520解析第一语音输入501后,所得到的关键词或请求信息等。举例来说,当用户的第一语音输入501为「我要看三国演义」时,自然语言理解模块520经过分析后所获得的特征语义509例如是「『三国演义』、『看』」。又例如,当用户的第一语音输入501为「我要听忘情水的歌」时,自然语言理解模块520经过分析后所获得的特征语义509例如是「『忘情水』、『听』、『歌』」。
接后,自然语言理解模块520可依据上述特征语义509自搜寻数据库(例 如搜寻引擎等)进行查询,而获得至少一笔搜寻结果,据以做为候选列表511中的各个候选答案。至于选择候选答案的方式可如图1A所述,在此不予以赘述。由于一个特征语义509(例如图1A的关键词108)可能属于不同的知识领域或属性(例如电影类、书籍类、音乐类或游戏类等等),且同一知识领域或属性中亦可进一步分成多种类别(例如同一电影或书籍名称的不同作者、同一歌曲名称的不同演唱者、同一游戏名称的不同版本等等),故针对一个特征语义509而言,自然语言理解模块520可在搜寻数据库中查询到一笔或多笔相关于此特征语义509的搜寻结果,其中每一笔搜寻结果中可包括相关于此特征语义509的各类指引信息(例如以”萧敬腾”、背叛”为关键词108在图3A、3B的结构化数据库220进行全文检索时,将得到两组匹配结果)。其中,指引信息例如是在搜寻结果中,除了特征语义509以外的其它关键词等等。因此从另一观点来看,当用户所输入的第一语音输入501具有多个特征语义509时(例如可解析出的关键词108越多),则表示用户的请求信息505较明确,使得自然语言理解模块520较能查询到与请求信息505接近的搜寻结果。
举例来说,当特征语义509为「三国演义」时,自然语言理解模块520所查讯到的搜寻结果例如是关于「...『三国演义』...『电视剧』」的数据、「...『三国演义』...『小说』」的数据、「...『三国演义』...『罗贯中』...『小说』」的数据,其中『电视剧』、『罗贯中』及『小说』为所列举的指引信息。又例如,当特征语义509为「『忘情水』『音乐』」时,自然语言理解模块520所查讯到的搜寻结果例如关于「...『忘情水』...『音乐』...『刘德华』」的数据、「...『忘情水』...『音乐』...『李翊君』」的数据、「...『忘情水』...『音乐』...『歌词』」的数据,其中『刘德华』、『李翊君』及『歌词』为所列举的指引信息。换言之,每一笔搜寻结果可包括特征语义509以及相关于特征语义的指引信息,而自然语言理解模块520会依据所查询到的搜寻结果,将搜寻结果中所包括的数据转换成候选答案,并将候选答案记录于候选列表511中,以供后续步骤使用。
于步骤S606中,自然语言理解模块520会自候选列表511中选择至少一候选答案中作为回报答案,并依据回报答案,输出对应的第一语音应答507。在本实施例中,自然语言理解模块520可按照优先级排列候选列表中的候选答案,并依据此优先级自候选列表中选出回报答案,据以输出第一语音应答507。
举例来说,当特征语义509为「三国演义」时,假设自然语言理解模块520查询到很多笔关于「...『三国演义』...『书籍』」的数据,其次为「...『三国演义』...『音乐』」的数据,而关于「...『三国演义』...『电视剧』」的数据最少,则自然语言理解模块520会将「三国演义的书籍」做为第一优先候选答案,「三国演义的音乐」做为第二优先候选答案,「三国演义的电视剧」做为第三优先候选答案。其它细节前面已提过,在此不予赘述。
接着,于步骤S608,语音取样模块510会接收第二语音输入501,而自然语言理解模块520会解析此第二语音输入501,并判断先前所选出的回报答案是否正确。在此,语音取样模块510会对第二语音输入501进行解析,以解析出第二语音输入501所包括的特征语义509(因为将经由标号509的方向由语音取样模块522输出至自然语言处理模块524),其中此特征语义509例如是用户进一步提供的关键词(例如时间、意图、知识领域或属性等等)。并且,当第二语音输入501中的特征语义509不符合回报答案中所相关的指引信息时,自然语言理解模块520则会判断先前所选出的回报答案为不正确。至于判断第二语音输入501的请求信息505包含的是”正确”或”否定”第一语音应答507的方式前面已提过,在此不予赘述。
进一步而言,自然语言理解模块520所解析的第二语音输入501可包括或不包括明确的特征语义509。举例来说,语音取样模块510例如是接收到来自用户所说的「我不是指三国演义的书籍」(情况A)、「我不是指三国演义的书籍,我是指三国演义的电视剧」(情况B)、「我是指三国演义的电视剧」(情况C)等等。上述情况A中的特征语义509例如为「『不是』『三国演义』『书籍』」,情况B中的特征语义509例如为「『不是』『三国演义』『书籍』,『是』『三国演义』『电视剧』」,而情况C中的特征语义509例如为「『是』『三国演义』『电视剧』」。为了方便说明,上述仅列举情况A、B及C为例,但本实施例并不限于此。
接着,自然语言理解模块520会依据上述第二语音输入501所包括的特征语义509,来判断回报答案中相关的指引信息是否正确。也就是说,倘若断回报答案为「三国演义的书籍」,而上述特征语义509为「『三国演义』『电视剧』」,则自然语言理解模块520会判断回报答案中相关的指引信息(即『书籍』)不符合来自用户第二语音输入501的特征语义509(即『电视剧』),藉以判断回报答案不正确。类似地,倘若断回报答案为「三国演义的书籍」,而 上述特征语义509为『不是』『三国演义』『书籍』」,则自然语言理解模块520亦会判断出回报答案不正确。
当自然语言理解模块520解析第二语音输入501之后,判断之前输出的第一语音应答501为正确时,则如步骤S610所示,自然语言理解模块120会做出对应于第二语音输入501的响应。举例来说,假设来自用户的第二语音输入501为「是的,是三国演义的书籍」,则自然语言理解模块520可以是输出「正在帮您开启三国演义的书籍」的第二语音应答507。或者,自然语言理解模块520可在播放第二语音应答507的同时,直接通过处理单元(未绘示)来加载三国演义的书籍内容。
然而,当自然语言理解模块520解析第二语音输入501之后,判断之前输出的第一语音应答507不正确时,则如步骤S612所示,自然语言理解模块520会自候选列表511中选择候选答案中的另一者,并依据所选择的结果输出第二语音应答507。在此,倘若用户所提供的第二语音输入501中不具有明确的特征语义509(如上述情况A的第二语音输入501),则自然语言理解模块520可从候选列表511中选出另一个候选答案。或者,倘若用户所提供的第二语音输入501中具有明确的特征语义509(如上述情况B及C的第二语音输入501),则自然语言理解模块520可直接依据用户所指引的特征语义509,在从候选列表511中选出另一个候选答案。
另一方面,倘若用户所提供的第二语音输入501中具有明确的特征语义509(如上述情况B及C的第二语音输入),但自然语言理解模块520在候选列表511中查无符合此特征语义509的指引信息的候选答案,则自然语言理解模块520会输出第三语音应答507,例如「查无此书」或「我不知道」等。
为了使本领域的技术人员进一步了解本实施例的修正语音应答的方法以及自然语言对话系统,以下再举一实施例进行详细的说明。
首先,假设语音取样模块510接收的第一语音输入501为「我要看三国演义」(步骤S602),接着,自然语言理解模块520可解析出为「『看』『三国演义』」的特征语义509,并获得具有多个候选答案的候选列表511,其中每一个候选答案具有相关的指引信息(步骤S604),如表一所示。
表一
接着,自然语言理解模块520会在候选列表511中选出回报答案。假设自然语言理解模块520依序选取候选列表中的候选答案a以做为回报答案,则自然语言理解模块520例如是输出「是否播放三国演义的书籍」,即第一语音应答507(步骤S606)。
此时,若语音取样模块510接收的第二语音输入501为「是的」(步骤S608),则自然语言理解模块520会判断出上述的回报答案为正确,且自然语言理解模块520会输出另一语音应答507「请稍候」,并通过处理单元来加载三国演义的书籍内容(步骤S610)。
然而,若语音取样模块510接收的第二语音输入501为「我不是指三国演义的书籍」(步骤S208),则自然语言理解模块520会判断出上述的回报答案为不正确,且自然语言理解模块520会再从候选列表511的候选答案b~e中,选出另一回报答案,其例如是候选答案b的「是否要播放三国演义的电视剧」。倘若用户继续回答「不是电视剧」,则自然语言理解模块520会选择候选答案c~e的其中之一来回报。此外,倘若候选列表511中的候选答案a~e皆被自然语言理解模块520回报予用户过,且这些候选答案a~e中没有符合用户的语音输入501时,则自然语言理解模块520输出「查无任何数据」的语音应答507(步骤S612)。
在一实施例中,于上述的步骤S608,若语音取样模块510接收用户的第二语音输入501为「我不是指三国演义的电视剧」,则自然语言理解模块520会选择其它的候选答案,例如为候选答案c,并输出「是否要播放三国演义的电视剧」的语音应答507。相同地,自然语言理解模块520也会再次根据语音取样模块510所接收的语音输入501,来选取其它的候选答案来做为回报答案,直到候选答案a~e中没有符合用户的语音输入501为止。
在另一实施例中,于上述的步骤S608,若语音取样模块510接收用户的第二语音输入501为「我是指三国演义的漫画」,在此,由于候选列表511中并无关于漫画的候选答案,故自然语言理解模块520会直接输出「查无任何数据」的语音应答507。
基于上述,自然语言理解模块520可依据来自用户的第一语音输入501而输出对应的语音应答507。其中,当自然语言理解模块520所输出的语音应答507不符合用户的第一语音输入501的请求信息505时,自然语言理解模块520可修正原本输出的语音应答507,并依据用户后续所提供的第二语音输入501,进一步输出较符合用户的请求信息505的语音应答507。如此一来,倘若用户不满意自然语言理解模块520所提供的答案时,自然语言理解模块520可自动地进行修正,并回报新的语音应答507予用户,藉以增进用户与自然语言对话系统500进行对话时的便利性。
值得一提的是,在图6的步骤S606与步骤S612中,自然语言理解模块520还可依照不同评估优先级的方法,来排序候选列表中的候选答案,据以按照此优先级自候选列表511中选出回报答案,再输出对应于回报答案的语音应答507。
举例来说,自然语言理解模块520可依据众人使用习惯,来排序候选列表511中的候选答案的优先级,其中越是关于众人经常使用的答案则优先排列。例如,当特征语义509为「三国演义」时,假设自然语言理解模块520找到的候选答案例如为三国演义的电视剧、三国演义的书籍与三国演义的音乐。其中,若众人提到「三国演义」时通常是指「三国演义」的书籍,较少人会指「三国演义」的电视剧,而更少人会指「三国演义」的音乐(例如当图3C中的热度栏316所储存的数值系全部用户的匹配情形时,可以热度栏的数值进行判断),则自然语言理解模块520会按照优先级排序关于「书籍」、「电视剧」、「音乐」的候选答案。也就是说,自然语言理解模块520会优先选择「三国演义的书籍」来做为回报答案,并依据此回报答案输出语音应答507。
此外,自然语言理解模块520可依据用户习惯,以决定候选答案的优先级。具体来说,自然语言理解模块520可将曾经接收到来自用户的语音输入501记录在用户对话数据库,其中用户对话数据库例如是储存在储存装置。用户对话数据库可记录自然语言理解模块520解析用户的语音输入501时,所获得的特征语义509以及自然语言理解模块520所产生的应答记录等应答 信息。此外,亦可在图3C中的热度栏316所储存的数值系与用户的习惯(例如匹配次数)相关时,可用热度栏的数值判断用户的使用习惯或优先级。因此,自然语言理解模块520在选择回报答案时,可根据用户对话数据库中所记录的应答信息,按照优先排序较具有与应答信息符合的指引信息的候选答案为回报答案,藉以输出较符合用户的语音输入的语音应答507。
举例来说,假设用户与自然语言理解模块520进行对话时,经常提起到「三国演义的书籍」,而较少提起「三国演义的电视剧」,且更少提到「三国演义的音乐」(例如用户对话数据库中纪录有20笔关于「三国演义的书籍」的记录,8笔关于「三国演义的电视剧」的记录,以及1笔关于「三国演义的音乐」的记录),则候选列表中的候选答案的优先级将会依序为「三国演义的书籍」、「三国演义的电视剧」以及「三国演义的音乐」。也就是说,当特征语义为「三国演义」时,自然语言理解模块520会选择「三国演义的书籍」来做为回报答案,并依据此回报答案输出语音应答507。
值得一提的是,自然语言理解模块520还可依据用户喜好,以决定候选答案的优先级。具体来说,用户对话数据库还可记录有用户所表达过的关键词,例如:「喜欢」、「偶像」、「厌恶」或「讨厌」等等。因此,自然语言理解模块520可自候选列表511中,依据上述关键词被记录的次数来对候选答案进行排序。举例来说,假设候选答案中相关于「喜欢」的指引信息次数较多,则此候选答案会优先被选取。或者,假设选答案中相关于「厌恶」的指引信息次数较多,则较后被选取。
举例来说,假设用户与自然语言理解模块520进行对话时,经常提到「我讨厌看三国演义的电视剧」,而较少提到「我讨厌听三国演义的音乐」,且更少提到「我讨厌听三国演义的书籍」(例如用户对话数据库中记录有20笔关于「我讨厌看三国演义的电视剧」的记录,8笔关于「我讨厌听三国演义的音乐」的记录,以及1笔关于「我讨厌听三国演义的书籍」),则候选列表511中的候选答案的优先级依序是「三国演义的书籍」、「三国演义的电视剧」以及「三国演义的音乐」。也就是说,当特征语义509为「三国演义」时,自然语言理解模块120会选择「三国演义」的书籍来做为回报答案,并依据此回报答案输出语音应答507。在一实施例中,可以在图3B的热度栏316外另外加一个”厌恶栏”(未显示),用以记录用户的”厌恶程度”。在另一个实施例中,可以在解析到用户对某一记录的”厌恶”信息时,直接在对应记录的热度栏上 减一(或其它数值),这样可以在不增加字段时记录用户的喜好。各种记录用户喜好的实施方式都可应用在本发明实施例中,本发明并不对此加以限制。
另一方面,自然语言理解模块520还可依据用户更早输入的语音输入501,以决定至少一候选答案的优先级。也就是说,假设有语音输入501(即第四语音输入)被与语音取样模块510所接收的时间提前于第一语音输入501时,则自然语言理解模块520亦可通过解析第四语音输入中的关键词108(或是特征语义509),并在候选列表511中,优先选取具有与此关键词108符合的指引信息的候选答案以做为回报答案,并依据此回报答案输出语音应答507。
举例来说,假设自然语言理解模块520先接收到「我想看电视剧」的语音输入501,且隔了几秒之后,假设自然语言理解模块520又接收到「帮我放三国演义好了」的语音输入501。此时,自然语言理解模块520可在第一次的语音输入501中识别到「电视剧」的关键词108,因此,自然语言理解模块520会从候选列表511,选取候选答案所相关的指引信息是关于「电视剧」的候选答案,并以此候选答案做为回报答案而据以输出用语音应答507予用户。
基于上述,自然语言理解模块520可依据来自用户的语音输入501,并参酌众人使用习惯、用户喜好、用户习惯或用户所说的前后对话等等信息,而输出较能符合语音输入的请求信息505的语音应答507予用户。其中,自然语言理解模块520可依据不同的排序方式,例如众人使用习惯、用户喜好、用户习惯或用户所说的前后对话等等方式,来优先排序候选列表511中的候选答案。藉此,若来自用户的语音输入较不明确时,自然语言理解模块520可参酌众人使用习惯、用户喜好、用户习惯或用户所说的前后对话,来判断出用户的语音输入501中所意指的意图(例如语音输入501中的特征语义509的属性、知识领域等等)。换言之,若候选答案与用户曾表达过/众人所指的意图接近时,自然语言理解模块520则会优先考虑此候选答案为回报答案。如此一来,自然语言对话系统500所输出的语音应答507,可较符合用户的请求信息。
综上所述,在本实施例的修正语音应答的方法与自然语言对话系统中,自然语言对话系统可依据来自用户的第一语音输入501而输出对应的语音应答507。其中,当自然语言对话系统所输出的语音应答507不符合用户的第 一语音输入501的请求信息507或特征语义509时,自然语言对话系统可修正原本输出的语音应答507,并依据用户后续所提供的第二语音输入501,进一步选出较符合用户的请求信息505的第二语音应答507。此外,自然语言对话系统还可依据众人使用习惯、用户喜好、用户习惯或用户所说的前后对话等等方式,来优先选出较适当的回报答案,据以输出语音应答507予用户。如此一来,倘若用户不满意自然语言对话系统所提供的答案时,自然语言对话系统可依照用户每一次所说出的请求信息505自动地进行修正,并回报新的语音应答507予用户,藉以增进用户与自然语言对话系统进行对话时的便利性。
接着再以自然语言理解系统100与结构化数据库220等架构与构件,应用于依据与用户的对话场景及上下文、用户使用习惯、众人使用习惯及用户喜好来提供应答及候选答案的实例做的说明。
图7A是依照本发明一实施例所绘示的自然语言对话系统的方块图。请参照图7A,自然语言对话系统100包括语音取样模块710、自然语言理解模块720、特性数据库730及自然语言数据库740。事实上,图7A中的语音取样模块710与图5A的语音取样模块510相同、而且自然语言理解模块520与自然语言理解模块720亦相同,所以其执行的功能是相同的。在本实施例中,语音取样模块710用以接收语音输入701(亦即语音输入501,例如来自用户的语音),而自然语言理解模块720会解析语音输入中的请求信息705(亦即请求信息505),并输出对应的语音应答707(亦即语音应答507)。前述自然语言对话系统700中的各构件可配置在同一机器中,本发明对此并不加以限定。
自然语言理解模块720会接收从语音取样模块710传来的对语音输入进行解析后的解析结果703,以对语音输入701的内容进行解析。并且,自然语言理解模块120会根据语音输入中的一个或多个特征语义709(例如关键词108等)来产生包含至少一个候选答案的候选列表711,再从这些候选答案中找出较符合特征语义709的答案,以输出语音应答707。此外,本实施例的自然语言理解模块720可由一个或数个逻辑闸组合而成的硬件电路来实作,或以计算机程序码来实作,在此仅为举例说明,并不以此为限。
图7B是依照本发明另一实施例所绘示的自然语言对话系统700’的方块图。图7B的自然语言理解模块720’可包括语音识别模块722与自然语言处 理模块724,而语音取样模块710可与语音合成模块726合并在一语音综合处理模块702中。其中,语音识别模块722会接收从语音取样模块710传来对语音输入701进行解析的解析结果703,并转换成一个或多个特征语义709(例如关键词或字句等)。自然语言处理模块124则可再对这些特征语义709进行解析,而获得至少一个候选列表711,并且从候选列表711中选出一个较符合语音输入701的答案,以做为回报答案。由于此回报答案是自然语言理解模块720在内部分析而得的答案,所以还必须将转换成语音输出才能输出予用户,于是语音合成模块726会依据回报答案来查询语音合成数据库730,而此语音合成数据库730例如是记录有文字以及其对应的语音信息,可使得语音合成模块726能够找出对应于回报答案的语音,藉以合成出第一语音应答707。之后,语音合成模块726可将合成的语音通过语音输出接口(未绘示),其中语音输出接口例如为喇叭、扬声器、或耳机等装置)输出,藉以输出语音予用户。
在本实施例中,前述自然语言理解模块720中的语音识别模块722、自然语言处理模块724以及语音合成模块726可与语音取样模块710配置在同一机器中。在其它实施例中,语音识别模块722、自然语言处理模块724以及语音合成模块726亦可分散在不同的机器中(例如计算机系统、服务器或类似装置/系统)。例如图7C所示的自然语言理解模块720’,语音合成模块726可与语音取样模块710配置在同一机器702,而语音识别模块722、自然语言处理模块724可配置在另一机器。
以下即搭配上述搭配图7A的自然语言对话系统700来说明自然语言对话方法。图8是依照本发明一实施例所绘示的自然语言对话方法的流程图。为了方便说明,在此仅举图7A的自然语言对话系统800为例,但本实施例的自然语言对话方法亦可适用于上述图7C的自然语言对话系统700’。与图5/6相较下,图5/6所处理的依据用户的语音输入而自动进行修正所输出的信息,但图7A/7B/8所处理的是依据特性数据库来记录用户的喜好特性,并据以从候选列表中选择候选答案予用户。事实上,图5/6与图7A/7B/8的实施方式可择一或并存,发明并不对此加以限制。
请同时参照图7A及图8,于步骤S810中,语音取样模块710会接收第一语音输入701。其中,第一语音输入701例如是来自用户的语音,且第一语音输入701还可具有用户的请求信息705。具体而言,来自用户的第一语 音输入701可以是询问句、命令句或其它请求信息705等,例如「我要看三国演义」、「我要听忘情水的音乐」或「今天温度几度」等等。
于步骤S820中,自然语言理解模块720会解析第一语音输入701中所包括的至少一个特征语义709,进而获得候选列表711,其中候选列表711具有一个或多个候选答案。详细而言,自然语言理解模块720会解析第一语音输入701,而获得第一语音输入701的一个或多个特征语义709。在此,特征语义709例如是自然语言理解模块720解析第一语音输入701后,所得到的关键词或请求信息等。举例来说,当用户的第一语音输入701为「我要看三国演义」时,自然语言理解模块720经过分析后所获得的特征语义709例如是「『三国演义』、『看』」。又例如,当用户的第一语音输入701为「我要听忘情水的歌」时,自然语言理解模块720经过分析后所获得的特征语义109例如是「『忘情水』、『听』、『歌』」。
接后,自然语言理解模块720可依据上述特征语义709自搜寻数据库(例如搜寻引擎等)进行查询,而获得至少一笔搜寻结果,据以做为候选列表711中的各个候选答案。由于一个特征语义709可能属于不同的知识领域或属性(例如电影类、书籍类、音乐类或游戏类等等),且同一知识领域或属性中亦可进一步分成多种类别(例如同一电影或书籍名称的不同作者、同一歌曲名称的不同演唱者、同一游戏名称的不同版本等等),故针对一个特征语义709而言,自然语言理解模块720可在搜寻自然语言数据库740中,查询到一笔或多笔相关于此特征语义709的搜寻结果,其中每一笔搜寻结果中可包括相关于此特征语义709的各类指引信息。其中,指引信息例如是在搜寻结果中,除了特征语义709以外的其它关键词等等。因此从另一观点来看,当用户所输入的第一语音输入具有多个特征语义709时,则表示用户的请求信息705较明确,使得自然语言理解模块720较能查询到与请求信息705接近的搜寻结果。
举例来说,当特征语义709为「三国演义」时,自然语言理解模块720所查讯到的搜寻结果例如是关于「...『三国演义』...『电视剧』」的数据、「...『三国演义』...『小说』」的数据、「...『三国演义』...『罗贯中』...『小说』」的数据,其中『电视剧』、『罗贯中』及『小说』为所列举的指引信息。又例如,当特征语义709为「『忘情水』『音乐』」时,自然语言理解模块720所查讯到的搜寻结果例如关于「...『忘情水』...『音乐』...『刘德华』」的数据、「...『忘情水』...『音乐』...『李翊君』」的数据、「...『忘情水』...『音乐』...『歌 词』」的数据,其中『刘德华』、『李翊君』及『歌词』为所列举的指引信息。换言之,每一笔搜寻结果可包括特征语义709以及相关于特征语义709的指引信息,而自然语言理解模块720会依据所查询到的搜寻结果,将搜寻结果中所包括的数据转换成候选答案,并将候选答案记录于候选列表711中,以供后续步骤使用。
于步骤S830中,自然语言理解模块720根据特性数据库730,自候选列表711中选择至少一候选答案中的其中之一为回报答案,并依据回报答案,输出第一语音应答707。在本实施例中,自然语言理解模块720可按照优先级排列候选列表711中的候选答案,并依据此优先级自候选列表711中选出回报答案。而在步骤S840中,依据回报答案,输出第一语音应答707。
举例来说,当特征语义709为「三国演义」时,假设自然语言理解模块720查询到很多笔关于「...『三国演义』...『书籍』」的数据,其次为「...『三国演义』...『音乐』」的数据,而关于「...『三国演义』...『电视剧』」的数据最少,则自然语言理解模块720会将「三国演义的书籍」做为第一优先候选答案,「三国演义的音乐」做为第二优先候选答案,「三国演义的电视剧」做为第三优先候选答案。
为了使本领域的技术人员进一步了解本实施例的自然语言对话方法以及自然语言对话系统,以下再举一实施例进行详细的说明。
首先,假设语音取样模块710接收的第一语音输入701为「我要看三国演义」(步骤S810),接着,自然语言理解模块720可解析出为「『看』『三国演义』」的特征语义709,并获得具有多个候选答案的候选列表711,其中每一个候选答案具有相关的指引信息(步骤S820)亦如上述的表一所示。
接着,自然语言理解模块720会在候选列表711中选出回报答案。假设自然语言理解模块720依序选取候选列表711中的候选答案a(请参考表一)以做为回报答案,则自然语言理解模块720例如是输出「是否播放三国演义的书籍」,即第一语音应答707(步骤S830~S840)。
值得一提的是,自然语言理解模块720还可依照不同评估优先级的方法,来排序候选列表711中的候选答案,据以按照此优先级自候选列表711中选出回报答案,再输出对应于回报答案的语音应答707。再者,自然语言理解模块720可依据与使用者的多个对话记录判断用户喜好,利用该用户喜好决定候选答案的优先级。在一实施例中,可以利用图3B的热度栏316来记录用 户的喜好,至于热度栏316的记录方式前面已提过,在此不予赘述。当然,用户的喜好也可以使用特性数据库730,其实施方式将在下列段落进行详述。至于特性数据库730记录用户喜好的方式,可以用关键词(例如”三国演义”)为基础,搭配用户喜好(例如”喜欢”等正向用语以及”厌恶”等负面用语分成两栏),然后计算喜好的数量(例如统计正向用语与等负面用语的数量),于是在查询用户喜好时,可以直接查询喜好的相关字段(例如查询正向用语与等负面用语各有多少数量),再据以判断用户的喜好。
而在步骤S810接收第一语音输入之前,在步骤S802中接收多个语音输入,也就是先前的历史对话记录,根据先前的多个语音输入701,撷取用户喜好属性(步骤S804)。
基于多个语音输入701的对话内容,假设用户与自然语言理解模块720进行对话时,经常提到「我讨厌看三国演义的电视剧」,而较少提到「我讨厌听三国演义的音乐」,且更少提到「我讨厌听三国演义的书籍」(例如特性数据库730中记录有20笔关于「我讨厌看三国演义的电视剧」的记录(亦即“三国演义”加“电视剧”的负面用语的数量就是20),8笔关于「我讨厌听三国演义的音乐」的记录(亦即“三国演义”加“音乐”的负面用语的数量是8),以及1笔关于「我讨厌听三国演义的书籍」)(亦即”三国演义”加”书籍”的负面用语的数量是1),则候选列表711中的候选答案的优先级依序是「三国演义的书籍」、「三国演义的音乐」、以及「三国演义的电视剧」。也就是说,当特征语义709为「三国演义」时,自然语言理解模块720会选择「三国演义」的书籍来做为回报答案,并依据此回报答案输出语音应答707。
值得一提的是,自然语言理解模块720还可依据用户喜好,以决定候选答案的优先级。具体来说,特性数据库730还可记录有用户所表达过的关键词,例如:「喜欢」、「偶像」(以上为正面用语)、「厌恶」或「讨厌」(以上为负面用语)等等。因此,自然语言理解模块720可自候选列表711中,依据上述关键词被记录的次数来对候选答案进行排序(亦即比较正面用语或负面用语哪者的引用次数较多)。举例来说,假设候选答案中相关于「喜欢」的指引信息次数较多(亦即正面用语的引用次数较多),则此候选答案会优先被选取。或者,假设选答案中相关于「厌恶」的指引信息次数较多(亦即负面用语的引用次数较多),则较后被选取。
此外,自然语言理解模块720可依据众人使用习惯,来排序候选列表711 中的候选答案的优先级,其中越是关于众人经常使用的答案则优先排列(例如使用图3C的热度栏316做记录)。例如,当特征语义709为「三国演义」时,假设自然语言理解模块720找到的候选答案例如为三国演义的电视剧、三国演义的书籍与三国演义的音乐。其中,若众人提到「三国演义」时通常是指「三国演义」的书籍,较少人会指「三国演义」的电视剧,而更少人会指「三国演义」的音乐,则自然语言理解模块720会按照优先级排序关于「书籍」、「电视剧」、「音乐」的候选答案。也就是说,自然语言理解模块720会优先选择「三国演义的书籍」来做为回报答案,并依据此回报答案输出语音应答707。至于上述的”众人经常使用的答案优先排列”的方式,可以使用图3C的热度栏316做记录,而记录方式已在上述图3C的相关段落揭露,在此不予赘述。
此外,自然语言理解模块720也可依据用户习惯,以决定候选答案的优先级。具体来说,自然语言理解模块720可将曾经接收到来自用户的语音输入701记录在特性数据库730,特性数据库730可记录自然语言理解模块720解析用户的语音输入701时,所获得的特征语义709以及自然语言理解模块720所产生的应答记录等应答信息。因此,自然语言理解模块720在选择回报答案时,可根据特性数据库730中所记录的应答信息,按照优先排序较具有与应答信息符合的指引信息的候选答案为回报答案,藉以输出较符合用户的语音输入的语音应答。至于上述”依据用户习惯决定候选答案的优先级”的方式,亦可使用图3C的热度栏316做记录,而记录方式已在上述图3C的相关段落揭露,在此不予赘述。
举例来说,假设用户与自然语言理解模块720进行对话时,经常提起到「三国演义的书籍」,而较少提起「三国演义的电视剧」,且更少提到「三国演义的音乐」(例如特性数据库730中记录有20笔关于「三国演义的书籍」的记录,8笔关于「三国演义的电视剧」的记录,以及1笔关于「三国演义的音乐」的记录),则候选列表111中的候选答案的优先级将会依序为「三国演义的书籍」、「三国演义的电视剧」以及「三国演义的音乐」。也就是说,当特征语义709为「三国演义」时,自然语言理解模块720会选择「三国演义的书籍」来做为回报答案,并依据此回报答案输出语音应答707。
综合上述,自然语言理解模块720将上述的用户喜好属性、用户习惯及众人使用习惯储存至特性数据库730中(步骤S806)。也就是说,在步骤S802、 步骤S804及步骤S806中,从用户的先前的历史对话记录获知用户喜好属性,并将所搜集到的用户喜好属性加入特性数据库730中,此外,也将用户习惯与众人使用习惯储存至特性数据库730,让自然语言理解模块720能利用特性数据库730中丰富信息,提供用户更正确的应答。
在步骤S806之后,在步骤S810接收第一语音输入,并在S820解析第一语音输入的特征语义709,获得候选列表711。接着,自然语言理解模块720依据将用户喜好属性、用户习惯或众人使用习惯,决定至少一候选答案的优先级(步骤S880)。接着,依据优先级自候选列表711中选择回报答案(步骤S890)。之后,依据回报答案,输出第一语音应答707(步骤S840)。
另一方面,自然语言理解模块120还可依据用户更早输入的语音输入701,以决定至少一候选答案的优先级。也就是说,假设有语音输入701(即第二语音输入)被与语音取样模块710所接收的时间提前于第一语音输入701时,则自然语言理解模块720亦可通过解析第二语音输入701中的关键词,并在候选列表711中,优先选取具有与此关键词符合的指引信息的候选答案以做为回报答案,并依据此回报答案输出语音应答707。
举例来说,假设自然语言理解模块720先接收到「我想看电视剧」的语音输入701,且隔了几秒之后,假设自然语言理解模块720又接收到「帮我放三国演义好了」的语音输入701。此时,自然语言理解模块720可在第一次的语音输入701中识别到「电视剧」的关键词,因此,自然语言理解模块720会从候选列表711中,选取候选答案所相关的指引信息是关于「电视剧」的候选答案,并以此候选答案做为回报答案而据以输出用语音应答707予用户。
基于上述,自然语言理解模块720可依据来自用户的语音输入,并参酌众人使用习惯、用户喜好、用户习惯或用户所说的前后对话等等信息,而输出较能符合语音输入701的请求信息705的语音应答707予用户。其中,自然语言理解模块720可依据不同的排序方式,例如众人使用习惯、用户喜好、用户习惯或用户所说的前后对话等等方式,来优先排序候选列表711中的候选答案。藉此,若来自用户的语音输入701较不明确时,自然语言理解模块720可参酌众人使用习惯、用户喜好、用户习惯或用户所说的前后对话,来判断出用户的语音输入701中所意指的意图(例如语音输入中的特征语义709的属性、知识领域等等)。换言之,若候选答案与用户曾表达过/众人所指的意 图接近时,自然语言理解模块720则会优先考虑此候选答案为回报答案。如此一来,自然语言对话系统700所输出的语音应答707,可较符合用户的请求信息705。
综上所述,本发明提供一种自然语言对话方法及其系统,自然语言对话系统可依据来自用户的第一语音输入而输出对应的语音应答。本发明的自然语言对话系统还可依据依据众人使用习惯、用户喜好、用户习惯或用户所说的前后对话等等方式,来优先选出较适当的回报答案,据以输出语音应答予用户,藉以增进用户与自然语言对话系统进行对话时的便利性。
接着再以自然语言理解系统100与结构化数据库220等架构与构件,应用于依据用户语音输入的请求信息分析而得的候选答案的数量,决定直接依据数据类型进行操作、或是要求用户提供进一步指示,随后在候选答案只剩一者时,亦直接依据数据类型进行操作的实例做的说明。
图9为依据本发明一实施例的移动终端装置的系统示意图。请参照图9,在本实施例中,移动终端装置900包括语音接收单元910、数据处理单元920、显示单元930及存储单元940。数据处理单元920耦接语音接收单元910、显示单元930及存储单元940。语音接收单元910用以接收第一输入语音SP1及第二输入语音SP2且传送至数据处理单元920。上述的第一语音输入SP1与第二语音输入SP2可以是语音输入501、701、或是包含请求信息的语音输入。显示单元930用以受控于数据处理单元920以显示数据列表。存储单元940用以储存多个数据,这些数据可如前述的结构化数据,在此不再赘述。此外,存储单元940可以是服务器或计算机系统内的任何类型的内存,例如动态随机内存(DRAM),静态随机内存(SRAM)、闪存(Flash memory)、只读存储器(ROM)…等,本发明对此并不加以限制,熟习本发明技艺者可以依据实际需求进行选用。
在本实施例中,数据处理单元920会对第一输入语音SP1进行语音识别以产生包含请求信息102、505、或705的第一字串(例如是可能意图语法数据106),再对第一字串进行自然语言处理以产生对应第一输入语音SP1的第一语意信息(例如是关键词108、特征语义507/509等),并且依据第一输入语音SP1对应的第一语意信息从存储单元940的数据(例如搜寻引擎240依据关键词108对结构化数据库220进行全文检索)中选择对应的部分(例如输出回应结果110或候选列表511/711)。当选择的数据的数量为1时,数据处理单元120 会依据所选择的数据的类型进行对应的操作;当选择的数据的数量大于1时,数据处理单元920依据选择的数据控制显示单元940显示数据列表(例如显示候选列表511/711)。在显示数据列表供用户驵进一步选取的状况下,数据处理单元120会收到第二输入语音SP2,并对其进行语音识别以产生第二字串,再对第二字串进行自然语言处理以产生对应第二输入语音SP2的第二语意信息,并且依据第二输入语音SP2对应的第二语意信息从数据列表中的数据中选择对应的部分。其中,第一语意信息及第二语意信息可以由多个关键词108所构成。上述对第二语音输入SP2进行分析而产生第二字串与第二语意信息的方式,可以运用图5A与7A对第二语音输入进行分析的方式,因此不再赘述。
类似地,当选择的数据的数量为1时,数据处理单元920会依据所选择的数据的类型进行对应的操作;当选择的数据的数量大于1时,数据处理单元920会再依据选择的数据控制显示单元940显示数据列表。接着,再依据下一个第二输入语音SP2选择对应的部分,再依据选择的数据的数量进行对应的操作,此可参照上述说明类推得知,在此则不再赘述。
进一步来说,数据处理单元920会将各个数据的多个相关条目(例如将记录302标题栏304中的各分栏308的数值数据)与第一输入语音SP1对应的第一语意信息进行比对(例如与关键词108进行比对)。当各个数据的这些相关条目与第一输入语音SP1的第一语意信息为至少部分对应时(例如部分匹配),则将数据视为第一输入语音SP1所对应的数据(例如图3A/3B的产生匹配结果)。其中,若数据的类型为音乐文件,则相关条目可包括歌曲名称、歌手、专辑名称、出版时间、播放次序、…等;若数据的类型为影像文件,则相关条目可包括影片名称、出版时间、工作人员(包含演出人员)、…等;若数据的类型为网页文件,则相关条目可包括网站名称、网页类型、对应的使用者账户、…等;若数据的类型为图片文件,则相关条目可包括图片名称、图片信息、…等;若数据的类型为名片文件,则相关条目可包括连络人名称、连络人电话、连络人地址、…等。上述数据类型为举例以说明,且数据类型可依据实际应用而定,本发明实施例不以此为限。
接着,数据处理单元920可判断第二输入语音SP2对应的第二语意信息是否包含指示顺序的一顺序词汇(例如”我要第三个选项”或”我选第三个”)。当第二输入语音SP2对应的第二语意信息包含指示顺序的顺序词汇时,则数据 处理单元920依据顺序词汇自数据列表中选择位于对应位置的数据。当第二输入语音SP2对应的第二语意信息未包含指示顺序的顺序词汇时,则数据处理单元920将数据列表中各个数据的这些相关条目与第二输入语音SP2对应的语意信息进行比对以决定这些数据与第二输入语音SP2的多个对应程度,并可依据这些对应程度决定数据列表中这些数据的是否对应第二输入语音SP2。在本发明的一实施例中,数据处理单元920可依据对应程度,决定数据列表中数据的其中之一对应第二输入语音SP2以简化选择的流程。其中,数据处理单元920可选择数据中对应程度为最高者为对应第二输入语音SP2。
举例来说,若第一输入语音SP1为“今天天气怎样”,在进行语音识别及自然语言处理后,第一输入语音SP1对应的第一语意信息会包括“今天”及“天气”,因此数据处理单元920会读取对应今天天气的数据,并且通过显示单元930显示这些天气数据的数据列表。接着,若第二输入语音SP2为“我要看第3笔数据”或“我选择第3笔”,在进行语音识别及自然语言处理后,第二输入语音SP2对应的第二语意信息会包括“第3笔”,在此“第3笔”会被解读为指示顺序的顺序词汇,因此数据处理单元920会读取数据列表中第3笔数据,并且再通过显示单元930显示对应的天气信息。或者,若第二输入语音SP2为“我要看北京的天气”或“我选择北京的天气”,在进行语音识别及自然语言处理后,第二输入语音SP2对应的第二语意信息会包括“北京”及“天气”,因此数据处理单元920会读取位置数据列表中对应北京的数据。当所选择的数据数为1时通过显示单元930显示对应的天气信息;当所选择的数据数大于1,则再显示进一步的数据列表供使用者选择。
若第一输入语音SP1为“我要打电话给老张”,在进行语音识别及自然语言处理后,第一输入语音SP1对应的第一语意信息会包括“电话”及“张”,因此数据处理单元920会读取对应姓“张”的连络人数据,并且通过显示单元930显示这些连络人数据的数据列表。接着,若第二输入语音SP2为“第3个老张”或“我选择第3个”,在进行语音识别及自然语言处理后,第二输入语音SP2对应的第二语意信息会包括“第3个”,在此“第3个”会被解读为指示顺序的顺序词汇,因此数据处理单元920会读取数据列表中第3笔数据,并且依据所选择的数据进行拨接。或者,若第二输入语音SP2为“我选139开头的”,在进行语音识别及自然语言处理后,第二输入语音SP2对应的第二语意信息会包括“139”及“开头”,在此“139”不会被解读为指示顺序的顺序词汇,因此数 据处理单元920会读取数据列表中电话号码为139开头的连络人数据;若第二输入语音SP2为“我要北京的老张”,在进行语音识别及自然语言处理后,第二输入语音SP2对应的第二语意信息会包括“北京”及“张”,数据处理单元920会读取数据列表中地址为北京的连络人数据。当所选择的数据数为1时,则依据所选择的数据进行拨接;当所选择的数据数大于1,则再显示进一步的数据列表供使用者选择。
若第一输入语音SP1为“我要找餐厅”,在进行语音识别及自然语言处理后,第一输入语音SP1的第一语意信息会包括“餐厅”,数据处理单元920会读取所有餐厅的数据,由于这样的指示并不是很明确,所以将通过显示单元930显示这些餐厅数据的数据列表予用户,并等用户进一步的指示。接着,若用户通过第二输入语音SP2输入“第3个餐厅”或“我选择第3个”时,在进行语音识别及自然语言处理后,第二输入语音SP2对应的第二语意信息会包括“第3个”,在此“第3个”会被解读为指示顺序的顺序词汇,因此数据处理单元920会读取数据列表中第3笔数据,并且依据所选择的数据进行显示。或者,若第二输入语音SP2为“我选最近的”,在进行语音识别及自然语言处理后,第二输入语音SP2对应的第二语意信息会包括“最近的”,因此数据处理单元920会读取数据列表中地址与使用者最近的餐厅数据;若第二输入语音SP2为“我要北京的餐厅”,在进行语音识别及自然语言处理后,第二输入语音SP2对应的第二语意信息会包括“北京”及“餐厅”,因此数据处理单元920会读取数据列表中地址为北京的餐厅数据。当所选择的数据数为1时,则依据所选择的数据进行显示;当所选择的数据数大于1,则再显示进一步的数据列表供使用者选择。
依据上述,数据处理单元920依据所选择的数据的类型进行对应的操作。举例来说,当所选择的数据的类型为一音乐文件,则数据处理单元920依据所选择的数据进行音乐播放;当所选择的数据的类型为一影像文件,则数据处理920单元依据所选择的数据进行影像播放;当所选择的数据的类型为一网页文件,则数据处理单元920依据所选择的数据进行显示;当所选择的数据的类型为一图片文件,则数据处理单元920依据所选择的数据进行图片显示;当所选择的数据的类型为一名片文件,则数据处理单元920依据所选择的数据进行拨接。
图10为依据本发明一实施例的信息系统的系统示意图。请参照图9及图 10,在本实施例中,信息系统1000包括移动终端装置1010及服务器1020,其中服务器1020可以是云端服务器、局域网络服务器、或其它类似装置,但本发明实施例不以此为限。移动终端装置1010包括语音接收单元1011、数据处理单元1013及显示单元1015。数据处理单元1013耦接语音接收单元1011、显示单元1015及服务器1020。移动终端装置1010可以是移动电话(Cell phone)、个人数字助理(Personal Digital Assistant,PDA)手机、智能型手机(Smart phone)等移动通讯装置,本发明亦不对此加以限制。语音接收单元1011的功能相似于语音接收单元910,显示单元1015的功能相似于显示单元930。服务器1020用以储存多个数据且具有语音识别功能。
在本实施例中,数据处理单元1013会通过服务器1020对第一输入语音SP1进行语音识别以产生第一字串,再对第一字串进行自然语言处理以产生对应第一输入语音SP1的第一语意信息,并且服务器1020会依据第一输入语音SP1对应的第一语意信息从所储存的这些数据中选择对应的部分并传送至数据处理单元1013。当选择的数据的数量为1时,数据处理单元1013会依据所选择的数据类型进行对应的操作;当选择的数据的数量大于1时,数据处理单元1013依据选择的数据控制显示单元1015显示数据列表予用户,并等候用户进一步的指示。当用户又输入指示后,接着,数据处理单元1013会通过服务器1020对第二输入语音PS2进行语音识别以产生第二字串,再对第二字串进行自然语言处理以产生对应第二输入语音SP2的第二语意信息,并且服务器1020依据第二输入语音SP2对应的第二语意信息从数据列表中的这些数据中选择对应的部分并传送至数据处理单元1013。类似地,当选择的数据的数量为1时,数据处理单元920会依据所选择的数据的类型进行对应的操作;当选择的数据的数量大于1时,数据处理单元1013会再依据选择的数据控制显示单元1015显示数据列表。接着,服务器1020会再依据后续第二输入语音SP2选择对应的部分,并且数据处理单元1013会再依据选择的数据的数量进行对应的操作,此可参照上述说明类推得知,在此则不再赘述。
应注意的是,在一实施例中,若依据第一输入语音SP1对应的第一语意信息所选择的数据数量为1时,可以直接进行该数据对应的操作。此外,在另一实施例中,可以先输出一个提示予用户,以通知用户所选择的数据的对应操作将被执行。再者,在又一实施例中,亦可在依据第二输入语音SP2对应的第二语意信息所选择的数据数量为1时,直接进行该数据对应的操作。 当然,在另一实施例中,亦可以先输出一个提示予用户,以通知用户所选择的数据的对应操作将被执行,本发明对此都不加以限制。
进一步来说,服务器1020会将各个数据的多个相关条目与第一输入语音SP1对应的第一语意信息进行比对。当各个数据的这些相关条目与第一输入语音SP1对应的第一语意信息为至少部分对应时,则将数据视为第一输入语音SP1所对应的数据。若依据第一输入语音SP1对应的第一语意信息所选择的数据数量为1时,用户可能再通过第二输入语音SP2输入指示。由于用户此时通过第二输入语音SP2所输入的指示可能包含顺序(用以指示选择显示信息中的第几项等顺序)、直接选定显示信息中的某一者(例如直接指示某项信息的内容)、或是依据指示判定用户的意图(例如选取最近的餐厅,就会用显示”最近”的餐厅给用户)。于是,服务器1020接着将判断第二输入语音SP2对应的第二语意信息是否包含指示顺序的一顺序词汇。当第二输入语音SP2对应的第二语意信息包含指示顺序的顺序词汇时,则服务器1020依据顺序词汇自数据列表中选择位于对应位置的数据。当第二输入语音SP2对应的第二语意信息未包含指示顺序的顺序词汇时,则服务器1020将数据列表中各个数据的这些相关条目与第二输入语音SP2对应的第二语意信息进行比对以决定这些数据与第二输入语音SP2的对应程度,并可依据这些对应程度决定数据列表中这些数据的是否对应第二输入语音SP2。在本发明的一实施例中,服务器1020可依据这些对应程度决定数据列表中这些数据的其中之一对应第二输入语音SP2,以简化选择的流程。其中,服务器1020可选择这些数据中对应程度为最高者为对应第二输入语音SP2。
图11为依据本发明一实施例的基于语音识别的选择方法的流程图。请参照图11,在本实施例中,会接收第一输入语音(步骤S1100),并且对第一输入语音901进行语音识别以产生第一字串(步骤S1110),再对第一字串进行自然语言处理以产生对应第一输入语音的第一语意信息(步骤S1120)。接着,会依据第一语意信息从多个数据中选择对应的部分(步骤S1130),并且判断选择的数据的数量是否为1(步骤S1140)。当选择的数据的数量为1时,亦即步骤S1140的判断结果为“是”,则依据所选择的数据的类型进行对应的操作(步骤S1150)。当选择的数据的数量大于1时,亦即步骤S1140的判断结果为“否”,依据选择的数据显示数据列表且接收第二输入语音(步骤S1160),并且对第二输入语音进行语音识别以产生第二字串(步骤S1170),再对第二字串进行自然 语言处理以产生对应第二输入语音的第二语意信息(步骤S1180)。接着,依据第二语意信息从数据列表中的这些数据中选择对应的部分,再回到步骤S1140判断判断选择的数据的数量是否为1。其中,上述步骤的顺序为用以说明,本发明实施例不以此为限。并且,上述步骤的细节可参照图9及图10实施例,在此则不再赘述。
综上所述,本发明实施例的基于语音识别的选择方法及其移动终端装置及信息系统,其对第一输入语音及第二输入语音进行语音识别及自然语言处理以确认第一输入语音及第二输入语音对应的语意信息,再依据第一输入语音及第二输入语音对应的语意信息对数据进行选择。藉此,可提升使用者操作的便利性。
接下来针对本发明所揭露的自然语言理解系统100与结构化数据库220等架构与构件,与辅助启动装置相搭配的操作实例做说明。
图12是依照本发明一实施例所绘示的语音操控系统的方块图。请参照图12,语音操控系统1200包括辅助启动装置1210、移动终端装置1220以及服务器1230。在本实施例中,辅助启动装置1210会通过无线传输信号,来启动移动终端装置1220的语音系统,使得移动终端装置1220根据语音信号与服务器1230进行沟通。
详细而言,辅助启动装置1210包括第一无线传输模块1212以及触发模块1214,其中触发模块1214耦接于第一无线传输模块1212。第一无线传输模块1212例如是支持无线兼容认证(Wireless fidelity,Wi-Fi)、全球互通微波存取(Worldwide Interoperability for Microwave Access,WiMAX)、蓝芽(Bluetooth)、超宽带(ultra-wideband,UWB)或射频识别(Radio-frequency identification,RFID)等通讯协议的装置,其可发出无线传输信号,以和另一无线传输模块彼此对应而建立无线连结。触发模块1214例如为按钮、按键等。在本实施例中,当使用者按压此触发模块1214产生一触发信号后,第一无线传输模块1212接收此触发信号而启动,此时第一无线传输模块1212会发出无线传输信号,并通过第一无线传输模块1212传送此无线传输信号至移动终端装置1220。在一实施例中,上述的辅助启动装置1210可为一蓝牙耳机。
值得注意的是,虽然目前有些免持的耳机/麦克风亦具有启动移动终端装置1220某些功能的设计,但本发明的另一实施例中,辅助启动装置1210可以不同于上述的耳机/麦克风。上述的耳机/麦克风通过与移动终端装置的联 机,以取代移动终端装置1220上的耳机/麦克风而进行听/通话,启动功能为附加设计,但本案的辅助启动装置1210”仅”用于开启移动终端装置1220中的语音系统,并不具有听/通话的功能,故内部的电路设计可简化,成本也较低。换言之,相对于上述的免持耳机/麦克风而言,辅助启动装置1210是另外装置,即使用者可能同时具备免持的耳机/麦克风以及本案的辅助启动装置1210。
此外,上述的辅助启动装置1210的形体可以是使用者随手可及的用品,例如戒指、手表、耳环、项链、眼镜等装饰品,即各种随身可携式物品,或者是安装构件,例如为配置于方向盘上的行车配件,不限于上述。也就是说,辅助启动装置1210为”生活化”的装置,通过内部系统的设置,让使用者能够轻易地触碰到触发模块1214,以开启语音系统。举例来说,当辅助启动装置1210的形体为戒指时,使用者可轻易地移动手指来按压戒指的触发模块1214使其被触发。另一方面,当辅助启动装置1210的形体为配置于行车配件的装置时,使用者亦能够在行车期间轻易地触发行车配件装置的触发模块1214。此外,相较于配戴耳机/麦克风进行听/通话的不舒适感,使用本案的辅助启动装置1210可以将移动终端装置1220中的语音系统开启,甚至进而开启扩音功能(后将详述),使得使用者在不需配戴耳机/麦克风,仍可直接通过移动终端装置1220进行听/通话。另外,对于使用者而言,这些”生活化”的辅助启动装置1210为原本就会配戴或使用的物品,故在使用上不会有不习惯或是不舒适感的问题,即不需要花时间适应。举例来说,当使用者在厨房做菜时,需要拨打放置于客厅的移动电话时,假设其配戴具有戒指、项链或手表形体的本发明的辅助启动装置1210,就可以轻触戒指、项链或手表以开启语音系统以询问友人食谱细节。虽然目前部份具有启动功能的耳机/麦克风亦可以达到上述的目的,但是在每次做菜的过程中,并非每次都需要拨打电话请教友人,故对于使用者来说,随时配戴耳机/麦克风做菜,以备随时操控移动终端装置可说是相当的不方便。
在其它实施例中,辅助启动装置1210还可配置有无线充电电池1216,用以驱动第一无线传输模块1212。进一步而言,无线充电电池1216包括电池单元12162以及无线充电模块12164,其中无线充电模块12164耦接于电池单元12162。在此,无线充电模块12164可接收来自一无线供电装置(未绘示)所供应的能量,并将此能量转换为电力来对电池单元12162充电。如此一 来,辅助启动装置1210的第一无线传输模块1212可便利地通过无线充电电池1216来进行充电。
另一方面,移动终端装置1220例如为移动电话(Cell phone)、个人数字助理(Personal Digital Assistant,PDA)手机、智能型手机(Smart phone),或是安装有通讯软件的掌上型计算机(Pocket PC)、平板型计算机(Tablet PC)或笔记本型计算机等等。移动终端装置1220可以是任何具备通讯功能的可携式(Portable)移动装置,在此并不限制其范围。此外,移动终端装置1220可使用Android操作系统、Microsoft操作系统、Android操作系统、Linux操作系统等等,不限于上述。
移动终端装置1220包括第二无线传输模块1222,第二无线传输模块1222能与辅助启动装置1210的第一无线传输模块1212相匹配,并采用相对应的无线通讯协议(例如无线兼容认证、全球互通微波存取、蓝芽、超宽带通讯协议或射频识别等通讯协议),藉以与第一无线传输模块1212建立无线连结。值得注意的是,在此所述的”第一”无线传输模块1212、”第二”无线传输模块1222系用以说明无线传输模块配置于不同的装置,并非用以限定本发明。
在其它实施例中,移动终端装置1220还包括语音系统1221,此语音系统1221耦接于第二无线传输模块1222,故使用者触发辅助启动装置1210的触发模块1214后,能通过第一无线传输模块1212与第二无线传输模块1222无线地启动语音系统1221。在一实施例中,此语音系统1221可包括语音取样模块1224、语音合成模块1226以及语音输出接口1227。语音取样模块1224用以接收来自使用者的语音信号,此语音取样模块1224例如为麦克风(Microphone)等接收音讯的装置。语音合成模块1226可查询一语音合成数据库,而此语音合成数据库例如是记录有文字以及其对应的语音的信息,使得语音合成模块1226能够找出对应于特定文字消息的语音,以将文字消息进行语音合成。之后,语音合成模块1226可将合成的语音通过语音输出接口1227输出,藉以播放予使用者。上述的语音输出接口1227例如为喇叭或耳机等。
另外,移动终端装置1220还可配置有通讯模块128。通讯模块1228例如是能传递与接收无线讯号的元件,如射频收发器。进一步而言,通讯模块1228能够让使用者通过移动终端装置1220接听或拨打电话或使用电信业者所提供的其它服务。在本实施例中,通讯模块1228可通过因特网接收来自服务器1230的应答信息,并依据此应答信息建立移动终端装置1220与至少一 电子装置之间的通话联机,其中所述电子装置例如为另一移动终端装置(未绘示)。
服务器1230例如为网络服务器或云端服务器等,其具有语音理解模块1232。在本实施例中,语音理解模块1232包括语音识别模块12322以及语音处理模块12324,其中语音处理模块12324耦接于语音识别模块12322。在此,语音识别模块12322会接收从语音取样模块1224传来的语音信号,以将语音信号转换成多个分段语义(例如关键词或字句等)。语音处理模块12324则可依据这些分段语义而解析出这些分段语义所代表的意指(例如意图、时间、地点等),进而判断出上述语音信号中所表示的意思。此外,语音处理模块12324还会根据所解析的结果产生对应的应答信息。在本实施例中,语音理解模块1232可由一个或数个逻辑闸组合而成的硬件电路来实作,亦可以是以计算机程序码来实作。值得一提的是,在另一实施例中,语音理解模块1232可配置于移动终端装置1320中,如图13所示的语音操控系统1300。上述服务器1230的语音理解模块1232的操作,可如图1A的自然语言理解系统100、图5A/7A/7B的自然语言对话系统500/700/700’。
以下即搭配上述语音操控系统1200来说明语音操控的方法。图14是依照本发明一实施例所绘示的语音操控方法的流程图。请同时参照图12及图14,于步骤1402中,辅助启动装置1210发送无线传输信号至移动终端装置1220。详细的说明是,当辅助启动装置1210的第一无线传输模块1212因接收到一触发信号被触发时,此辅助启动装置1210会发送无线传输信号至移动终端装置1220。具体而言,当辅助启动装置1210中的触发模块1214被使用者按压时,此时触发模块1214会因触发信号被触发,而使第一无线传输模块1212发送无线传输信号至移动终端装置1220的第二无线传输模块1222,藉以使得第一无线传输模块1212通过无线通讯协议与第二无线传输模块1222连结。上述的辅助启动装置1210仅用于开启移动终端装置1220中的语音系统,并不具有听/通话的功能,故内部的电路设计可简化,成本也较低。换言之,相对于一般移动终端装置1220所附加的免持耳机/麦克风而言,辅助启动装置1210是另一装置,即使用者可能同时具备免持的耳机/麦克风以及本案的辅助启动装置1210。
值得一提的是,上述的辅助启动装置1210的形体可以是使用者随手可及的用品,例如戒指、手表、耳环、项链、眼镜等各种随身可携式物品,或者 是安装构件,例如为配置于方向盘上的行车配件,不限于上述。也就是说,辅助启动装置1210为”生活化”的装置,通过内部系统的设置,让使用者能够轻易地触碰到触发模块1214,以开启语音系统1221。因此,使用本案的辅助启动装置1210可以将移动终端装置1220中的语音系统1221开启,甚至进而开启扩音功能(后将详述),使得使用者在不需配戴耳机/麦克风,仍可直接通过移动终端装置1220进行听/通话。此外,对于使用者而言,这些”生活化”的辅助启动装置1210为原本就会配戴或使用的物品,故在使用上不会有不习惯或是不舒适感的问题。
此外,第一无线传输模块1212与第二无线传输模块1222皆可处于睡眠模式或工作模式。其中,睡眠模式指的是无线传输模块为关闭状态,亦即无线传输模块不会接收/侦测无线传输信号,而无法与其它无线传输模块连结。工作模式指的是无线传输模块为开启状态,亦即无线传输模块可不断地侦测无线传输信号,或随时发送无线传输信号,而能够与其它无线传输模块连结。在此,当触发模块1214被触发时,倘若第一无线传输模块1212处于睡眠模式,则触发模块1214会唤醒第一无线传输模块1212,使第一无线传输模块1212进入工作模式,并使第一无线传输模块1212发送无线传输信号至第二无线传输模块1222,而让第一无线传输模块1212通过无线通讯协议与移动终端装置1220的第二无线传输模块1222连结。
另一方面,为了避免第一无线传输模块1212持续维持在工作模式而消耗过多的电力,在第一无线传输模块1212进入工作模式后的预设时间(例如为5分钟)内,倘若触发模块1214未再被触发,则第一无线传输模块1212会自工作模式进入睡眠模式,并停止与移动终端装置1220的第二无线传输模块1220连结。
之后,于步骤1404中,移动终端装置1220的第二无线传输模块1222会接收无线传输信号,以启动语音系统1221。接着,于步骤S1406,当第二无线传输模块1222侦测到无线传输信号时,移动终端装置1220可启动语音系统1221,而语音系统的1221取样模块1224可开始接收语音信号,例如「今天温度几度」、「打电话给老王。」、「请查询电话号码。」等等。
于步骤S1408,语音取样模块1224会将上述语音信号传送至服务器1230中的语音理解模块1232,以通过语音理解模块1232解析语音信号以及产生应答信息。进一步而言,语音理解模块1232中的语音识别模块12322会接收 来自语音取样模块1224的语音信号,并将语音信号分割成多个分段语义,而语音处理模块12324则会对上述分段语义进行语音理解,以产生用以响应语音信号的应答信息。
在本发明的另一实施例中,移动终端装置1220更可接收语音处理模块12324所产生的应答信息,据以通过语音输出接口1227输出应答信息中的内容或执行应答信息所下达的操作。于步骤S1410,移动终端装置1220的语音合成模块1226会接收语音理解模块1232所产生的应答信息,并依据应答信息中的内容(例如词汇或字句等)进行语音合成,而产生语音应答。并且,于步骤S1412,语音输出接口1227会接收并输出此语音应答。
举例而言,当使用者按压辅助启动装置1210中的触发模块1214时,第一无线传输模块1212则会发送无线传输信号至第二无线传输模块1222,使得移动终端装置1220启动语音系统1221的语音取样模块1224。在此,假设来自使用者的语音信号为一询问句,例如「今天温度几度」,则语音取样模块1224便会接收并将此语音信号传送至服务器1230中的语音理解模块1232进行解析,且语音理解模块1232可将解析所产生的应答信息传送回移动终端装置1220。假设语音理解模块1232所产生的应答信息中的内容为「30℃」,则语音合成模块1226会将此「30℃」的消息合成为语音应答,且语音输出接口1227能将此语音应播报给使用者。
在另一实施例中,假设来自使用者的语音信号为一命令句,例如「打电话给老王。」,则语音理解模块1232中可识别出此命令句为「拨电话给老王的请求」。此外,语音理解模块1232会再产生新的应答信息,例如「请确认是否拨给老王」,并将此新的应答信息传送至移动终端装置1220。在此,语音合成模块1226会将此新的应答信息合成为语音应答,并通过语音输出接口1227播报于使用者。更进一步地说,当使用者的应答为「是」之类的肯定答案时,类似地,语音取样模块1224可接收并传送此语音信号至服务器1230,以让语音理解模块1232进行解析。语音理解模块1232解析结束后,便会在应答信息记录有一拨号指令信息,并传送至移动终端装置1220。此时,通讯模块1228则会依据电话数据库所记录的联络人信息,查询出「老王」的电话号码,以建立移动终端装置1220与另一电子装置之间的通话联机,亦即拨号给「老王」。
在其它实施例中,除上述的语音操控系统1200外,亦可利用语音操控系 统1300或其它类似的系统,进行上述的操作方法,并不以上述的实施例为限。
综上所述,在本实施例的语音操控系统与方法中,辅助启动装置能够无线地开启移动终端装置的语音功能。而且,此辅助启动装置的形体可以是使用者随手可及的”生活化”的用品,例如戒指、手表、耳环、项链、眼镜等装饰品,即各种随身可携式物品,或者是安装构件,例如为配置于方向盘上的行车配件,不限于上述。如此一来,相较于目前另外配戴免持耳机/麦克风的不舒适感,使用本案的辅助启动装置1210来开启移动终端装置1220中的语音系统将更为便利。
值得注意的是,上述具有语音理解模块的服务器1230可能为网络服务器或云端服务器,而云端服务器可能会涉及到使用者的隐私权的问题。例如,使用者需上传完整的通讯簿至云端服务器,才能完成如拨打电话、发简讯等与通讯簿相关的操作。即使云端服务器采用加密联机,并且即用即传不保存,还是难以消除使用者的担优。据此,以下提供另一种语音操控的方法及其对应的语音交互系统,移动终端装置可在不上传完整通讯簿的情况下,与云端服务器来执行语音交互服务。为了使本发明的内容更为明了,以下特举实施例作为本发明确实能够据以实施的范例。
虽然本发明已以实施例揭露如上,然其并非用以限定本发明,任何所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作些许的更动与润饰,故本发明的保护范围当视所附的权利要求范围所界定者为准。
Claims (15)
1.一种基于语音识别的选择方法,包括:
接收一第一输入语音;
对该第一输入语音进行语音识别以产生一第一字串;
对该第一字串进行自然语言处理以产生对应该第一输入语音的一第一语义分析;
依据该第一语义分析从多个数据中选择对应的部分;
当选择的数据的数量为1时,依据所选择的数据的类型进行对应的操作;
当选择的数据的数量大于1时,依据选择的数据显示一数据列表且接收一第二输入语音;
对该第二输入语音进行语音识别以产生一第二字串;
对该第二字串进行自然语言处理以产生对应该第二输入语音一第二语义分析;以及
依据该第二语义分析从数据列表中的该多个数据中选择对应的部分。
2.根据权利要求1所述的基于语音识别的选择方法,其中依据该第一语义分析从多个数据中选择对应的部分的步骤包括:
将各该多个数据的多个相关条目与该第一语义分析进行比对;以及
当各该多个数据的该多个相关条目与该第一语义分析为至少部分对应时,则将该数据视为该第一输入语音所对应的数据。
3.根据权利要求1所述的基于语音识别的选择方法,其中依据该第二语义分析从数据列表中的该多个数据中选择对应的部分的步骤包括:
判断该第二语义分析是否包含指示顺序的一顺序词汇;
当该第二语义分析包含指示顺序的该顺序词汇时,则依据该顺序词汇自该数据列表中选择位于对应位置的数据;
当该第二语义分析未包含指示顺序的该顺序词汇时,则将该数据列表中各该多个数据的该多个相关条目与该第二语义分析进行比对以决定该多个数据与该第二输入语音的多个对应程度;以及
依据该多个对应程度决定该数据列表中该多个数据的其中之一对应该第二输入语音。
4.根据权利要求3所述的基于语音识别的选择方法,其中依据该多个对应程度决定该数据列表中该些数据的其中之一对应该第二输入语音的步骤包括:
选择该多个数据中该对应程度为最高者为对应该第二输入语音。
5.根据权利要求1所述的基于语音识别的选择方法,其中依据所选择的数据的类型进行对应的操作的步骤包括:
当所选择的数据的类型为一音乐文件,则对所选择的数据进行音乐播放;
当所选择的数据的类型为一影像文件,则对所选择的数据进行影像播放;
当所选择的数据的类型为一网页文件,则对所选择的数据进行显示;
当所选择的数据的类型为一图片文件,则对所选择的数据进行图片显示;以及
当所选择的数据的类型为一名片文件,则对所选择的数据进行拨接。
6.一种移动终端装置,包括:
一语音接收单元,接收一第一输入语音及一第二输入语音;
一显示单元,用以显示一数据列表;
一存储单元,用以储存多个数据;以及
一数据处理单元,耦接该语音接收单元、该显示单元及该存储单元,该数据处理单元对该第一输入语音进行语音识别以产生一第一字串,对该第一字串进行自然语言处理以产生对应该第一语音的一第一语义分析,并且依据该第一语义分析从该多个数据中选择对应的部分,当选择的数据的数量为1时,该数据处理单元依据所选择的数据的类型进行对应的操作,当选择的数据的数量大于1时,该数据处理单元依据选择的数据控制该显示单元显示该数据列表,以及该数据处理单元对该第二语音进行语音识别以产生一第二字串,对该第二字串进行自然语言处理以产生对应该第二输入语音的一第二语义分析,并且依据该第二语义分析从该数据列表中的该多个数据中选择对应的部分。
7.根据权利要求6所述的移动终端装置,其中该数据处理单元将各该多个数据的多个相关条目与该第一语义分析进行比对,当各该多个数据的该多个相关条目与该第一语义分析为至少部分对应时,则将该数据视为该第一输入语音所对应的数据。
8.根据权利要求6所述的移动终端装置,其中该数据处理单元判断该第二语义分析是否包含指示顺序的一顺序词汇,当该第二语义分析包含指示顺序的该顺序词汇时,则该数据处理单元依据该顺序词汇自该数据列表中选择位于对应位置的数据,当该第二语义分析未包含指示顺序的该顺序词汇时,则该数据处理单元将该数据列表中各该多个数据的该多个相关条目与该第二语义分析进行比对以决定该多个数据与该第二输入语音的多个对应程度,并依据该多个对应程度决定该数据列表中该多个数据的其中之一对应该第二输入语音。
9.根据权利要求8所述的移动终端装置,其中该数据处理单元选择该多个数据中该对应程度为最高者为对应该第二输入语音。
10.根据权利要求6所述的移动终端装置,其中当所选择的数据的类型为一音乐文件,则该数据处理单元依据所选择的数据进行音乐播放,当所选择的数据的类型为一影像文件,则该数据处理单元依据所选择的数据进行影像播放,当所选择的数据的类型为一网页文件,则该数据处理单元依据所选择的数据进行显示,当所选择的数据的类型为一图片文件,则该数据处理单元依据所选择的数据进行图片显示,以及当所选择的数据的类型为一名片文件,则数据处理单元依据所选择的数据进行拨接。
11.一种信息系统,包括:
一服务器,用以储存多个数据且具有语音识别功能;以及
一种移动终端装置,包括:
一语音接收单元,接收一第一输入语音及一第二输入语音;
一显示单元,用以显示一数据列表;
一数据处理单元,耦接该语音接收单元、该显示单元及该服务器,该数据处理单元通过该服务器对该第一输入语音进行语音识别以产生一第一字串,对第一字串进行自然语言处理以产生对应该第一输入语音的一第一语义分析,并且该服务器依据该第一语义分析从该多个数据中选择对应的部分并传送至该数据处理单元,当选择的数据的数量为1时,该数据处理单元依据所选择的数据的类型进行对应的操作,当选择的数据的数量大于1时,该数据处理单元依据选择的数据控制该显示单元显示该数据列表,以及该数据处理单元通过该服务器对该第二输入语音进行语音识别以产生一第二字串,对第二字串进行自然语言处理以产生对应该第二输入语音的一第二义分析,并且该服务器依据该第二语义分析从该数据列表中的该多个数据中选择对应的部分并传送至该数据处理单元。
12.根据权利要求11所述的信息系统,其中该服务器将各该多个数据的多个相关条目与该第一语义分析进行比对,当各该多个数据的该多个相关条目与该第一语义分析为至少部分对应时,则将该数据视为该第一输入语音所对应的数据。
13.根据权利要求11所述的信息系统,其中该服务器判断该第二语义分析是否包含指示顺序的一顺序词汇,当该第二语义分析包含指示顺序的该顺序词汇时,则该服务器依据该顺序词汇自该数据列表中选择位于对应位置的数据,当该第二语义分析未包含指示顺序的该顺序词汇时,则该服务器将该数据列表中各该多个数据的该多个相关条目与该第二语义分析进行比对以决定该多个数据与该第二输入语音的多个对应程度,并依据该多个对应程度决定该数据列表中该多个数据的其中之一对应该第二输入语音。
14.根据权利要求13所述的信息系统,其中该该服务器选择该多个数据中该对应程度为最高者为对应该第二输入语音。
15.根据权利要求11所述的信息系统,其中当所选择的数据的类型为一音乐文件,则该数据处理单元依据所选择的数据进行音乐播放,当所选择的数据的类型为一影像文件,则该数据处理单元依据所选择的数据进行影像播放,当所选择的数据的类型为一网页文件,则该数据处理单元依据所选择的数据进行显示,当所选择的数据的类型为一图片文件,则该数据处理单元依据所选择的数据进行图片显示,以及当所选择的数据的类型为一名片文件,则数据处理单元依据所选择的数据进行拨接。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012105930794A CN103021403A (zh) | 2012-12-31 | 2012-12-31 | 基于语音识别的选择方法及其移动终端装置及信息系统 |
CN2013101828630A CN103280218A (zh) | 2012-12-31 | 2013-05-17 | 基于语音识别的选择方法及其移动终端装置及信息系统 |
CN201710007339.8A CN106847278A (zh) | 2012-12-31 | 2013-05-17 | 基于语音识别的选择方法及其移动终端装置及信息系统 |
TW102121404A TWI511124B (zh) | 2012-12-31 | 2013-06-17 | 基於語音辨識的選擇方法及其行動終端裝置及資訊系統 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012105930794A CN103021403A (zh) | 2012-12-31 | 2012-12-31 | 基于语音识别的选择方法及其移动终端装置及信息系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103021403A true CN103021403A (zh) | 2013-04-03 |
Family
ID=47969935
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012105930794A Pending CN103021403A (zh) | 2012-12-31 | 2012-12-31 | 基于语音识别的选择方法及其移动终端装置及信息系统 |
CN2013101828630A Pending CN103280218A (zh) | 2012-12-31 | 2013-05-17 | 基于语音识别的选择方法及其移动终端装置及信息系统 |
CN201710007339.8A Pending CN106847278A (zh) | 2012-12-31 | 2013-05-17 | 基于语音识别的选择方法及其移动终端装置及信息系统 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013101828630A Pending CN103280218A (zh) | 2012-12-31 | 2013-05-17 | 基于语音识别的选择方法及其移动终端装置及信息系统 |
CN201710007339.8A Pending CN106847278A (zh) | 2012-12-31 | 2013-05-17 | 基于语音识别的选择方法及其移动终端装置及信息系统 |
Country Status (2)
Country | Link |
---|---|
CN (3) | CN103021403A (zh) |
TW (1) | TWI511124B (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103677566A (zh) * | 2013-11-27 | 2014-03-26 | 北京百纳威尔科技有限公司 | 图片编辑方法和装置 |
CN104243666A (zh) * | 2013-06-13 | 2014-12-24 | 腾讯科技(深圳)有限公司 | 语言处理方法及装置 |
CN104424944A (zh) * | 2013-08-19 | 2015-03-18 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104636323A (zh) * | 2013-11-07 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 处理语音文本的方法及装置 |
CN104681025A (zh) * | 2013-11-26 | 2015-06-03 | 现代摩比斯株式会社 | 利用语音识别的命令执行系统及其工作方法 |
CN105335498A (zh) * | 2015-10-23 | 2016-02-17 | 广东小天才科技有限公司 | 一种基于语音信息进行信息推荐的方法和系统 |
CN105592067A (zh) * | 2014-11-07 | 2016-05-18 | 三星电子株式会社 | 语音信号处理方法及实现此的终端和服务器 |
CN106408200A (zh) * | 2016-09-28 | 2017-02-15 | 孙腾 | 一种互助管控系统及方法 |
CN106816149A (zh) * | 2015-12-02 | 2017-06-09 | 通用汽车环球科技运作有限责任公司 | 车辆自动语音识别系统的优先化内容加载 |
CN106952646A (zh) * | 2017-02-27 | 2017-07-14 | 深圳市朗空亿科科技有限公司 | 一种基于自然语言的机器人交互方法和系统 |
CN107452378A (zh) * | 2017-08-15 | 2017-12-08 | 北京百度网讯科技有限公司 | 基于人工智能的语音交互方法和装置 |
WO2018133307A1 (zh) * | 2017-01-20 | 2018-07-26 | 华为技术有限公司 | 一种实现语音控制的方法和终端 |
CN108521858A (zh) * | 2016-12-30 | 2018-09-11 | 谷歌有限责任公司 | 基于分组的数据通信的设备标识符相关操作处理 |
CN109955270A (zh) * | 2017-12-22 | 2019-07-02 | 威刚科技股份有限公司 | 语音选项选择系统与方法以及使用其的智能机器人 |
CN110111788A (zh) * | 2019-05-06 | 2019-08-09 | 百度在线网络技术(北京)有限公司 | 语音交互的方法和装置、终端、计算机可读介质 |
CN110581772A (zh) * | 2019-09-06 | 2019-12-17 | 腾讯科技(深圳)有限公司 | 即时通讯消息的交互方法、装置以及计算机可读存储介质 |
CN110827815A (zh) * | 2019-11-07 | 2020-02-21 | 深圳传音控股股份有限公司 | 一种语音识别方法、终端、系统以及计算机存储介质 |
CN110942769A (zh) * | 2018-09-20 | 2020-03-31 | 九阳股份有限公司 | 一种基于有向图的多轮对话应答系统 |
CN110990598A (zh) * | 2019-11-18 | 2020-04-10 | 北京声智科技有限公司 | 资源检索方法、装置、电子设备及计算机可读存储介质 |
CN111295708A (zh) * | 2017-12-07 | 2020-06-16 | 三星电子株式会社 | 语音识别设备及其操作方法 |
CN111479196A (zh) * | 2016-02-22 | 2020-07-31 | 搜诺思公司 | 媒体回放系统的语音控制 |
CN112002321A (zh) * | 2020-08-11 | 2020-11-27 | 海信电子科技(武汉)有限公司 | 显示设备、服务器及语音交互方法 |
CN112562651A (zh) * | 2020-11-26 | 2021-03-26 | 杭州讯酷科技有限公司 | 一种基于自然语言关键字智能识别关键字生成页面的方法 |
US11308936B2 (en) | 2014-11-07 | 2022-04-19 | Samsung Electronics Co., Ltd. | Speech signal processing method and speech signal processing apparatus |
Families Citing this family (82)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
CN103139378A (zh) * | 2012-12-31 | 2013-06-05 | 威盛电子股份有限公司 | 移动终端装置及自动开启该装置的声音输出接口的方法 |
KR102380145B1 (ko) | 2013-02-07 | 2022-03-29 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
WO2015151157A1 (ja) * | 2014-03-31 | 2015-10-08 | 三菱電機株式会社 | 意図理解装置および方法 |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
CN104601202B (zh) * | 2014-12-23 | 2019-04-23 | 惠州Tcl移动通信有限公司 | 基于蓝牙技术实现文件搜索的方法、终端及蓝牙设备 |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
CN105161098A (zh) * | 2015-07-31 | 2015-12-16 | 北京奇虎科技有限公司 | 一种交互系统的语音识别方法和装置 |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10018977B2 (en) * | 2015-10-05 | 2018-07-10 | Savant Systems, Llc | History-based key phrase suggestions for voice control of a home automation system |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
CN106897155B (zh) * | 2016-08-29 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 一种界面展示方法及装置 |
TWI601071B (zh) * | 2016-09-30 | 2017-10-01 | 亞旭電腦股份有限公司 | 將電話機的語音訊號輸入到智慧裝置的方法、電子裝置及具有非揮發性儲存裝置之電腦 |
CN108228637B (zh) * | 2016-12-21 | 2020-09-04 | 中国电信股份有限公司 | 自然语言客户自动应答方法和系统 |
EP3593350B1 (en) * | 2017-05-09 | 2022-08-24 | Apple Inc. | User interface for correcting recognition errors |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
TW201921336A (zh) | 2017-06-15 | 2019-06-01 | 大陸商北京嘀嘀無限科技發展有限公司 | 用於語音辨識的系統和方法 |
TWI678672B (zh) * | 2018-01-18 | 2019-12-01 | 中國信託金融控股股份有限公司 | 帳務資料查詢方法及帳務系統 |
CN110111793B (zh) * | 2018-02-01 | 2023-07-14 | 腾讯科技(深圳)有限公司 | 音频信息的处理方法、装置、存储介质及电子装置 |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
CN110459211B (zh) * | 2018-05-07 | 2023-06-23 | 阿里巴巴集团控股有限公司 | 人机对话方法、客户端、电子设备及存储介质 |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
CN108806685A (zh) * | 2018-07-02 | 2018-11-13 | 英业达科技有限公司 | 语音控制系统及其方法 |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
CN109712619B (zh) * | 2018-12-24 | 2020-12-11 | 出门问问信息科技有限公司 | 一种解耦对话假设并执行的方法、装置及语音交互系统 |
CN109947911B (zh) * | 2019-01-14 | 2023-06-16 | 达闼机器人股份有限公司 | 一种人机交互方法、装置、计算设备及计算机存储介质 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN110136705B (zh) * | 2019-04-10 | 2022-06-14 | 华为技术有限公司 | 一种人机交互的方法和电子设备 |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
TWI751560B (zh) * | 2019-05-20 | 2022-01-01 | 仁寶電腦工業股份有限公司 | 語音轉文字裝置以及語音轉文字方法 |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11935521B2 (en) * | 2019-09-12 | 2024-03-19 | Oracle International Corporation | Real-time feedback for efficient dialog processing |
CN110706704A (zh) * | 2019-10-17 | 2020-01-17 | 四川长虹电器股份有限公司 | 用于生成语音交互原型的方法、装置和计算机设备 |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN112331185B (zh) * | 2020-11-10 | 2023-08-11 | 珠海格力电器股份有限公司 | 一种语音交互方法、系统、存储介质及电子设备 |
CN113470649B (zh) * | 2021-08-18 | 2024-08-23 | 三星电子(中国)研发中心 | 语音交互方法及装置 |
TWI808038B (zh) * | 2022-11-14 | 2023-07-01 | 犀動智能科技股份有限公司 | 媒體檔案選擇方法及服務系統與電腦程式產品 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4542974B2 (ja) * | 2005-09-27 | 2010-09-15 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
JP4878477B2 (ja) * | 2006-01-18 | 2012-02-15 | 富士通株式会社 | 情報検索適切度判定処理プログラムおよびオペレータスキル判定処理プログラム |
TWI312945B (en) * | 2006-06-07 | 2009-08-01 | Ind Tech Res Inst | Method and apparatus for multimedia data management |
TW200943277A (en) * | 2008-04-07 | 2009-10-16 | Mitac Int Corp | Search methods and systems, and machine readable medium thereof |
CN101577115A (zh) * | 2008-05-09 | 2009-11-11 | 台达电子工业股份有限公司 | 语音输入系统及其方法 |
CN101599062B (zh) * | 2008-06-06 | 2011-06-15 | 佛山市顺德区顺达电脑厂有限公司 | 检索方法及系统 |
WO2009158581A2 (en) * | 2008-06-27 | 2009-12-30 | Adpassage, Inc. | System and method for spoken topic or criterion recognition in digital media and contextual advertising |
CN102221985A (zh) * | 2010-04-16 | 2011-10-19 | 韦宏伟 | 一种中文及控制命令语音识别输入方法、装置 |
-
2012
- 2012-12-31 CN CN2012105930794A patent/CN103021403A/zh active Pending
-
2013
- 2013-05-17 CN CN2013101828630A patent/CN103280218A/zh active Pending
- 2013-05-17 CN CN201710007339.8A patent/CN106847278A/zh active Pending
- 2013-06-17 TW TW102121404A patent/TWI511124B/zh active
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104243666B (zh) * | 2013-06-13 | 2017-10-31 | 腾讯科技(深圳)有限公司 | 语言处理方法及装置 |
CN104243666A (zh) * | 2013-06-13 | 2014-12-24 | 腾讯科技(深圳)有限公司 | 语言处理方法及装置 |
CN104424944A (zh) * | 2013-08-19 | 2015-03-18 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104424944B (zh) * | 2013-08-19 | 2018-01-23 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104636323A (zh) * | 2013-11-07 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 处理语音文本的方法及装置 |
CN104636323B (zh) * | 2013-11-07 | 2018-04-03 | 腾讯科技(深圳)有限公司 | 处理语音文本的方法及装置 |
CN104681025A (zh) * | 2013-11-26 | 2015-06-03 | 现代摩比斯株式会社 | 利用语音识别的命令执行系统及其工作方法 |
CN103677566A (zh) * | 2013-11-27 | 2014-03-26 | 北京百纳威尔科技有限公司 | 图片编辑方法和装置 |
CN105592067A (zh) * | 2014-11-07 | 2016-05-18 | 三星电子株式会社 | 语音信号处理方法及实现此的终端和服务器 |
US10600405B2 (en) | 2014-11-07 | 2020-03-24 | Samsung Electronics Co., Ltd. | Speech signal processing method and speech signal processing apparatus |
CN105592067B (zh) * | 2014-11-07 | 2020-07-28 | 三星电子株式会社 | 语音信号处理方法及实现此的终端和服务器 |
US11308936B2 (en) | 2014-11-07 | 2022-04-19 | Samsung Electronics Co., Ltd. | Speech signal processing method and speech signal processing apparatus |
CN105335498A (zh) * | 2015-10-23 | 2016-02-17 | 广东小天才科技有限公司 | 一种基于语音信息进行信息推荐的方法和系统 |
CN106816149A (zh) * | 2015-12-02 | 2017-06-09 | 通用汽车环球科技运作有限责任公司 | 车辆自动语音识别系统的优先化内容加载 |
CN111479196B (zh) * | 2016-02-22 | 2022-03-29 | 搜诺思公司 | 媒体回放系统的语音控制方法 |
CN111479196A (zh) * | 2016-02-22 | 2020-07-31 | 搜诺思公司 | 媒体回放系统的语音控制 |
CN106408200A (zh) * | 2016-09-28 | 2017-02-15 | 孙腾 | 一种互助管控系统及方法 |
CN108521858B (zh) * | 2016-12-30 | 2021-02-05 | 谷歌有限责任公司 | 基于分组的数据通信的设备标识符相关操作处理 |
CN108521858A (zh) * | 2016-12-30 | 2018-09-11 | 谷歌有限责任公司 | 基于分组的数据通信的设备标识符相关操作处理 |
WO2018133307A1 (zh) * | 2017-01-20 | 2018-07-26 | 华为技术有限公司 | 一种实现语音控制的方法和终端 |
US11238860B2 (en) | 2017-01-20 | 2022-02-01 | Huawei Technologies Co., Ltd. | Method and terminal for implementing speech control |
CN106952646A (zh) * | 2017-02-27 | 2017-07-14 | 深圳市朗空亿科科技有限公司 | 一种基于自然语言的机器人交互方法和系统 |
CN107452378A (zh) * | 2017-08-15 | 2017-12-08 | 北京百度网讯科技有限公司 | 基于人工智能的语音交互方法和装置 |
CN111295708A (zh) * | 2017-12-07 | 2020-06-16 | 三星电子株式会社 | 语音识别设备及其操作方法 |
CN109955270B (zh) * | 2017-12-22 | 2022-04-26 | 威刚科技股份有限公司 | 语音选项选择系统与方法以及使用其的智能机器人 |
CN109955270A (zh) * | 2017-12-22 | 2019-07-02 | 威刚科技股份有限公司 | 语音选项选择系统与方法以及使用其的智能机器人 |
CN110942769A (zh) * | 2018-09-20 | 2020-03-31 | 九阳股份有限公司 | 一种基于有向图的多轮对话应答系统 |
CN110111788A (zh) * | 2019-05-06 | 2019-08-09 | 百度在线网络技术(北京)有限公司 | 语音交互的方法和装置、终端、计算机可读介质 |
CN110111788B (zh) * | 2019-05-06 | 2022-02-08 | 阿波罗智联(北京)科技有限公司 | 语音交互的方法和装置、终端、计算机可读介质 |
CN110581772A (zh) * | 2019-09-06 | 2019-12-17 | 腾讯科技(深圳)有限公司 | 即时通讯消息的交互方法、装置以及计算机可读存储介质 |
CN110581772B (zh) * | 2019-09-06 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 即时通讯消息的交互方法、装置以及计算机可读存储介质 |
CN110827815A (zh) * | 2019-11-07 | 2020-02-21 | 深圳传音控股股份有限公司 | 一种语音识别方法、终端、系统以及计算机存储介质 |
CN110827815B (zh) * | 2019-11-07 | 2022-07-15 | 深圳传音控股股份有限公司 | 一种语音识别方法、终端、系统以及计算机存储介质 |
CN110990598A (zh) * | 2019-11-18 | 2020-04-10 | 北京声智科技有限公司 | 资源检索方法、装置、电子设备及计算机可读存储介质 |
CN112002321A (zh) * | 2020-08-11 | 2020-11-27 | 海信电子科技(武汉)有限公司 | 显示设备、服务器及语音交互方法 |
CN112002321B (zh) * | 2020-08-11 | 2023-09-19 | 海信电子科技(武汉)有限公司 | 显示设备、服务器及语音交互方法 |
CN112562651A (zh) * | 2020-11-26 | 2021-03-26 | 杭州讯酷科技有限公司 | 一种基于自然语言关键字智能识别关键字生成页面的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103280218A (zh) | 2013-09-04 |
TW201426736A (zh) | 2014-07-01 |
CN106847278A (zh) | 2017-06-13 |
TWI511124B (zh) | 2015-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103021403A (zh) | 基于语音识别的选择方法及其移动终端装置及信息系统 | |
CN103020047A (zh) | 修正语音应答的方法及自然语言对话系统 | |
CN103049567A (zh) | 检索方法、检索系统以及自然语言理解系统 | |
CN103077165A (zh) | 自然语言对话方法及其系统 | |
US10896184B2 (en) | Method and system for capturing and exploiting user intent in a conversational interaction based information retrieval system | |
US20170249309A1 (en) | Interpreting and Resolving Conditional Natural Language Queries | |
US20100100371A1 (en) | Method, System, and Apparatus for Message Generation | |
CN110020010A (zh) | 数据处理方法、装置及电子设备 | |
CN103442130A (zh) | 语音操控方法、移动终端装置及语音操控系统 | |
CN102215233A (zh) | 信息系统客户端及信息发布与获取方法 | |
KR20190114051A (ko) | 대화형 상호작용 시스템에서 서치 입력에서의 사용자 의도를 추론하는 방법 및 이를 위한 시스템 | |
CN111563151B (zh) | 一种信息采集的方法、会话配置的方法、装置及存储介质 | |
CN107368548A (zh) | 智能政务服务交互方法和系统 | |
WO2017032084A1 (zh) | 一种信息输出方法及装置 | |
CN109582869B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
WO2024036616A1 (zh) | 一种基于终端的问答方法及装置 | |
CN114186016A (zh) | 人机对话方法、装置、设备及存储介质 | |
CN101763211A (zh) | 语意实时分析联想操控系统及方法 | |
Tsujino et al. | Speech Recognition and Spoken Language Understanding for Mobile Personal Assistants: A Case Study of" Shabette Concier" | |
CN115730047A (zh) | 一种智能问答方法、设备、装置及存储介质 | |
CN113076397A (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN117332062A (zh) | 一种数据处理方法和相关装置 | |
US12118985B2 (en) | Electronic device and method for providing on-device artificial intelligence service | |
TW201428517A (zh) | 檢索方法、檢索系統以及自然語言理解系統 | |
CN117194620A (zh) | 信息处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130403 |