CN101520780A

CN101520780A - 语音翻译设备

Info

Publication number: CN101520780A
Application number: CN200910126615A
Authority: CN
Inventors: 住田一男; 知野哲朗; 釜谷聪史; 上野晃嗣
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-02-29
Filing date: 2009-02-27
Publication date: 2009-09-02
Also published as: JP2009205579A; US20090222257A1

Abstract

本发明涉及语音翻译设备。翻译方向指定单元指定第一语言和第二语言。语音识别单元识别所述第一语言的语音信号并输出第一语言字符串。第一翻译单元将第一语言字符串翻译成将在显示装置上显示的第二语言字符串。关键字提取单元从所述第一语言字符串或所述第二语言字符串提取用于资料检索的关键字，资料检索单元利用该关键字进行资料检索。第二翻译单元将检索到的资料翻译成其相对的将在显示装置上显示的语言。

Description

语音翻译设备

技术领域

本发明涉及一种语音翻译设备。

背景技术

近年来，对于实际应用语音翻译设备的期待一直在增长，这种语音翻译设备支持使用不同语言作为其母语(从孩童时期自然获知的语言：第一语言)的人之间进行交流。这种语音翻译设备基本上利用识别语音的语音识别单元、翻译语音识别获取的第一字符串的翻译单元以及根据翻译第一字符串获得的第二字符串来合成语音的语音合成单元，从而依次执行语音识别过程、翻译过程和语音合成过程。

识别语音并输出文本信息的语音识别系统已经以软件包程序形式投入实用，以书面单词(文本)作为输入的机器翻译系统也以软件包程序形式类似地投入了实用，语音合成系统也已经投入实用。可以通过相应使用的上述软件程序实现语音翻译设备。

除了语音之外，母语相同的人之间面对面的交流还可以利用彼此可见的物品、文档、图画等来进行。具体而言，当某人问及地图上的方向时，另一个人可以指出地图上所示的建筑物和街道来给出方向。

然而，在母语不同的人之间进行面对面交流时，难以利用单张地图共享信息。地图上所写的地名常常是单种语言的形式。无法理解该语言的人就难以理解地图的内容。因此，为了让母语不同的两人都理解地名，优选将地图上以一种语言写出的地名翻译成另一种语言并给出翻译的地名。

在JP-A 2005-222316(特开)中披露的会话支持装置中，翻译从一个用户输入的语音的语音识别结果，并向会话另一方提供图示，给出对应于语音识别结果的响应。结果，会话的另一方能够利用会话支持装置上给出的图示对该用户做出响应。

然而，在JP-A 2005-222316(特开)中披露的会话支持装置中，仅可以支持单向会话。

在进行基于语音的交流时，并不优选涉及到多个操作，例如搜索相关资料(document)和附图并指示该装置翻译已找到的资料和附图。优选应当自动检索与会话内容有关的适当资料和附图而不干扰语音交流。应当为具有不同母语的说话者提供所检索资料和附图的翻译结果，使得所给出的资料和附图支持信息的共享。

发明内容

根据本发明的一个方面，提供了一种语音翻译设备，其包括：翻译方向指定单元，其指定两种语言之一作为要被翻译的第一语言，而另一种语言作为通过翻译所述第一语言获得的第二语言；语音识别单元，其识别所述第一语言的语音信号并输出第一语言字符串；第一翻译单元，其将所述第一语言字符串翻译成第二语言字符串；字符串显示单元，其在显示装置上显示所述第二语言字符串；关键字提取单元，其从所述第一语言字符串或所述第二语言字符串提取用于资料检索的关键字；资料检索单元，其利用所述关键字进行资料检索；第二翻译单元，在检索到的资料的语言为所述第一语言时，所述第二翻译单元将所述检索到的资料翻译成所述第二语言，在所述检索到的资料的语言为所述第二语言时，所述第二翻译单元将所述检索到的资料翻译成所述第一语言，从而获得经翻译的资料；以及检索资料显示单元，其在所述显示装置上显示所述检索到的资料和所述经翻译的资料。

附图说明

图1是根据本发明第一实施例的语音翻译设备配置外观的示意透视图；

图2是语音翻译设备硬件配置的方框图；

图3是语音翻译设备总体配置的功能框图；

图4是显示范例的正视图；

图5是显示范例的正视图；

图6是按下翻译切换按钮时执行的过程的流程图；

图7是按下讲话输入按钮时执行的过程的流程图；

图8是针对语音输入开始事件执行的过程的流程图；

图9是针对语音识别结果输出事件执行的过程的流程图；

图10是对英文文本执行的关键字提取过程的流程图；

图11是对日文文本执行的关键字提取过程的流程图；

图12是词性表范例的示意图；

图13是话题更改提取过程的流程图；

图14是按下讲话输出按钮时执行的过程的流程图；

图15是针对指向事件执行的过程的流程图；

图16是针对指向事件执行的过程的流程图；

图17是按下检索切换按钮时执行的过程的流程图；

图18是显示范例的正视图；

图19是根据本发明第二实施例的机器翻译设备的硬件配置的方框图；

图20是语音翻译设备总体配置的功能框图；

图21是对日文文本执行的关键字提取过程的流程图；

图22是RFID对应表范例的示意图；

图23是含义类别表范例的示意图；以及

图24是位置-地名对应表范例的示意图。

具体实施方式

下面参考附图详细描述本发明的示范性实施例。在该实施例中，以英文为第一语言(以英文输入语音)、日文为第二语言(输出日文作为翻译结果)来描述用于英文和日文间语音翻译的语音翻译设备。第一语言和第二语言是可以酌情互换的。本发明的细节不随着语言类型而不同。可以在任意语言之间，例如日文和中文之间以及英文和法文之间采用该语音翻译。

将参考图1到图18描述本发明的第一实施例。图1是根据本发明第一实施例的语音翻译设备1的配置外观的示意透视图。如图1所示，语音翻译设备1包括主体外壳2，其是薄而平的外壳。因为主体外壳2薄而平，所以语音翻译设备1便于携带。此外，因为主体外壳2薄而平，便于携带，所以无论语音翻译设备1放在哪里都容易使用语音翻译设备1。

显示装置3安装在主体外壳2上，使显示表面向外暴露。显示装置3由能够将预定信息显示为彩色图像的液晶显示器(LCD)、有机场致发光(EL)显示器等形成。在显示装置3的显示表面上例如层压电阻膜型触摸面板4。由于使显示装置3上显示的按键等和触摸面板4的位置关系同步，因此显示装置3和触摸面板4能够提供类似于键盘上按键的功能。换言之，显示装置3和触摸面板4构成信息输入单元。结果，可以使语音翻译设备1紧凑小巧。如图1所示，在语音翻译设备1的主体外壳2的侧表面上提供内置的麦克风13和扬声器14。内置麦克风13将第一用户所讲的第一语言转换成语音信号。在语音翻译设备1的主体外壳2的侧表面上提供插槽17。将作为半导体存储器的存储介质9(参见图1)插入该插槽17。

将参考图2描述诸如上述的语音翻译设备1的硬件配置。如图2所示，该语音翻译设备1包括中央处理单元(CPU)5、只读存储器(ROM)6、随机存取存储器(RAM)7、硬盘驱动器(HDD)8、介质驱动装置10、通信控制装置12、显示装置3、触摸面板4、语音输入输出CODEC 15等。CPU 5处理信息。ROM6是只读存储器，其中存储着基本输入/输出系统(BIOS)等。RAM 7中以允许重写各条数据的方式存储各条数据。HDD8充当各种数据库并在其中存储各种程序。介质驱动装置10使用插入插槽17中的存储介质9来存储信息、向外分布信息并从外部获取信息。通信控制装置12经由诸如因特网之类的网络11与另一外部计算机通过通信来传输信息。操作员使用触摸面板4向CPU 5中输入命令、信息等。语音翻译设备1利用控制各单元间数据互换的总线控制器16而工作。CODEC 15将从内置麦克风13输入的模拟语音数据转换成数字语音数据，并向CPU 5输出转换后的数字语音数据。CODEC 15还将来自CPU 5的数字语音数据转换成模拟语音数据，并将转换后的模拟语音数据输出到扬声器14。

在诸如上述的语音翻译设备1中，当用户打开电源时，CPU 5启动ROM6中称为加载器的程序。CPU 5从HDD 8向RAM7读取操作系统(OS)并启动OS。OS是管理计算机的硬件和软件的程序。诸如上述的OS根据用户操作启动程序、读取信息并存储信息。代表性的OS例如为Windows(注册商标)。运行于OS上的操作程序被称为应用程序。应用程序不限于运行于预定OS上的那些。如下文所述，应用程序可以将一些过程的执行委托给OS。还可以将该应用程序作为一部分，包括在形成预定应用软件程序、OS等的一组程序文件中。

这里，语音翻译设备1在HDD 8中将语音翻译过程程序作为应用程序加以存储。通过这种方式，HDD 8充当着存储语音翻译过程程序的存储介质。

通常，安装于语音翻译设备1的HDD 8中的应用程序被存储于存储介质9中。存储于存储介质9中的操作程序被安装在HDD 8中。因此，存储介质9也可以是存储应用程序的存储介质。此外，例如，可以通过通信控制装置12从网络11下载应用程序并安装在HDD8中。

当语音翻译设备1根据语音翻译过程程序启动运行于OS上的语音翻译过程程序时，CPU 5执行各种计算过程并集中管理每个单元。在重视实时性能时，需要进行高速处理。因此，优选提供执行各种计算过程的独立逻辑电路(未示出)。

在语音翻译设备1的CPU 5执行的各种计算过程中，将描述根据第一实施例的过程。图3是语音翻译设备1总体配置的功能框图。如图3所示，根据语音翻译处理程序，语音翻译设备1包括语音识别单元101、第一翻译单元102、语音合成单元103、关键字提取单元104、资料检索单元105、第二翻译单元106、充当字符串显示单元和检索资料显示单元的显示控制单元107、输入控制单元108、话题更改检测单元109、检索对象选择单元110和控制单元111。

语音识别单元101利用从内置麦克风13和CODEC 15输入的语音信号作为输入产生与语音对应的字符和单词串。

在为语音翻译执行的语音识别中，需要使用被称为大词汇量连续语音识别的技术。在大词汇量连续语音识别中，通常将把未知语音输入X译解成单词串W的问题表示成检索使p(W|X)最大化的W的检索问题的概率过程。在表示期间，基于贝叶斯法则，公式是针对使p(W|X)最大化的W的检索问题，将该检索问题重新定义为针对使p(X|W)p(W)最大化的检索问题。在通过这种统计语音识别进行公式表示时，p(X|W)被称为声音模型，p(W)被称为语言模型。p(X|W)为条件概率，是对应于单词串W的一类声音信号的模型。p(W)是表示单词串W出现的频繁程度的概率。使用了单字组(unigram)(某一单词出现的概率)、双字组(bigram)(某两个单词连续出现的概率)、三字组(trigram)(某三个单词连续出现的概率)以及更一般的N字组(N-gram)(某N个单词连续出现的概率)。基于上述公式，大词汇量连续语音识别技术已经商用于听写软件。

第一翻译单元102利用从语音识别单元101输出的识别结果作为输入，将其翻译成第二语言。第一翻译单元102对识别用户所说语音获得的语音文本进行机器翻译。因此，第一翻译单元102优选执行适于处理口头语言的机器翻译。

在机器翻译中，将源语言(例如日文)语句转换成目标语言(例如英文)。根据翻译方法，可以将机器翻译大致分为基于规则的机器翻译、统计学机器翻译和基于范例的机器翻译。

基于规则的机器翻译包括语形学分析部分和语法分析部分。基于规则的机器翻译是一种根据源语言语句分析句子结构并基于所分析的结构将源语言语句转换(变换)成目标语言语法结构的方法。事先登记进行语法分析和变换所需的处理知识作为规则。翻译设备在解释规则的同时执行翻译过程。在大多数情况下，被商品化为软件包程序等的机器翻译软件使用的是以基于规则的方法为基础的系统。在诸如这样的基于规则的机器翻译中，需要提供大量的规则来实现精确到足够实际应用的机器翻译。然而，要人工创建这些规则会产生很大成本。为了解决这个问题，提出了统计学机器翻译。其后，在研究和发展中积极做出了进步。

在统计学机器翻译中，从源语言到目标语言进行公式化表达以作为概率模型，将问题公式化为检索使概率最大化的目标语言语句的过程。大规模地准备对应的译文语句(称为双语文集(bilingual corpus))。基于该文集确定翻译的转换规则和转换规则的概率。检索出采用最高概率的转换规则的翻译结果。目前，正在构建利用基于统计的机器翻译的原型语音翻译系统。

基于范例的机器翻译以类似于统计学机器翻译的方式使用源语言和目标语言的双语文集。基于范例的机器翻译是这样的方法，从文集中检索出类似于输入语句的源语句并给出对应于所检索源语句的目标语言语句作为翻译结果。在基于规则的机器翻译和统计学机器翻译中，通过对被翻译单词对的语法分析和统计组合产生翻译结果。因此，不清楚是否可以获得源语言用户期望的翻译结果。然而，在基于范例的机器翻译中，事先提供关于对应译文的信息。因此，用户可以通过选择源语句来获得正确的翻译结果。然而，另一方面，例如，并非可以将所有语句作为范例来提供。因为针对输入语句搜索的语句数量随着范例数量增加而增加，所以用户从大量语句选择适当的语句是不方便的。

语音合成单元103将从第一翻译单元102输出的翻译结果转换成语音信号并将语音信号输出到CODEC 15。用于语音合成的技术已经成熟，用于语音合成的软件已经投入市场。由语音合成单元103执行的语音合成过程可以使用这些已经实现的技术。省略对它们的解释。

关键字提取单元104从语音识别单元101输出的语音识别结果或从第一翻译单元102输出的翻译结果提取用于资料检索的关键字。

资料检索单元105进行文件检索，从事先存储于作为存储单元的HDD 8上、网络11上的计算机等上的一组资料中检索出包括从关键字提取单元104输出的关键字的资料。作为资料检索单元105检索对象的资料是没有例如超文本标示语言(HTML)和可扩展标示语言(XML)标记的简单资料、或以HTML或XML写成的资料。例如，这些资料存储在HDD8中或网络11上的计算机上存储的资料数据库中或存储在因特网上。

第二翻译单元106在资料检索单元105获得的多个资料中翻译作为排序靠前的检索结果的至少一个资料。第二翻译单元106对该资料进行机器翻译。第二翻译单元106对应于要翻译资料的语言执行从日语到英语的翻译和从英语到日语的翻译(尽管下文描述了详情，因为检索对象选择单元110设置检索对象设置，所以语言对应于为检索对象设置的语言)。

作为资料检索单元105检索对象的资料是没有例如HTML和XML标记的简单资料，连贯翻译作为翻译对象的资料中的每个语句。翻译语句取代原语句，产生翻译资料。因为是逐句连贯进行翻译的，所以原资料和翻译资料之间的对应关系很清楚。可以通过机器翻译过程提取要将原语句中的每个单词翻译成翻译语句中的哪个单词。因此，可以以单词为单位使原资料和翻译资料相关联。

另一方面，当资料是以HTML和XML写成时，仅对资料内除标签之外的文本语句进行机器翻译。作为结果获得的翻译结果取代对应于原文本语句的部分并产生翻译资料。因此，取代原文本语句的翻译结果是清楚的。此外，可以通过机器翻译过程提取要将原语句中的每个单词翻译成翻译语句中的哪个单词。因此，可以以单词为单位使原资料和翻译资料之间的相关性相关联。

显示控制单元107在显示装置3上显示从语音识别单元101输出的识别结果、从第一翻译单元102输出的翻译结果、从第二翻译单元106获得的翻译资料以及作为翻译对象的原资料。

输入控制单元108控制触摸面板4。在触摸面板4中输入信息，例如以表示显示装置3上显示的翻译资料和作为翻译对象的原资料中进行了绘制或高亮显示的任意部分。

话题更改检测单元109基于从语音识别单元101输出的语音识别结果或显示装置3上显示的内容检测会话主题的改变。

检索对象选择单元110设置关键字提取单元104的提取对象。更具体而言，检索对象选择单元110将关键字提取单元104的提取对象设置到从语音识别单元101输出的语音识别结果或从第一翻译单元102输出的翻译结果。

控制单元111控制着由每个上述单元执行的过程。

在此，为了便于理解，参考图4和图5解释由显示控制单元107控制的显示装置3的显示范例。图4和图5示出了不同时间点的显示装置3的显示范例。

在图4和图5中，讲话输入按钮201指示通过内置麦克风13和CODEC 15执行的语音输入进程的开始和结束。在按下讲话输入按钮201时，开始语音加载。当再次按下讲话输入按钮201时，结束语音加载。

显示区A 205显示从语音识别单元101输出的语音识别结果。显示区B206显示从第一翻译单元102输出的翻译结果。显示区C 207显示从资料检索单元105输出的一个资料。显示区D 208显示由第二翻译单元106对显示区C 207中显示的资料进行机器翻译得到的结果。

讲话输出按钮202实现由语音合成单元103将显示区B 206中显示的翻译结果转换成语音信号并指示向CODEC 15输出语音信号的功能。

翻译切换按钮203充当翻译方向指定单元，实现切换第一翻译单元102执行的翻译的翻译方向的功能(在从英语到日语翻译和从日语到英语翻译之间切换)。翻译切换按钮203还实现切换由语音识别单元101识别的识别语言的功能。

检索切换按钮204实现启动检索对象选择单元110并在从日文文本提取关键字和从英文文本提取关键字之间切换的功能。这是基于以下假设的。例如，当在日本使用语音翻译设备1时，假设在对日文文本进行关键字提取并检索日文资料时更可能检索到较多的信息。另一方面，当在美国使用语音翻译设备1时，假设在对英文文本进行关键字提取并检索英文资料时更可能检索到较多的信息。用户可以利用检索切换按钮204选择检索对象的语言。

根据第一实施例，给出检索切换按钮204以作为设置检索对象选择单元220的方法。然而，该方法不限于此。例如，可以给出全球定位系统(GPS)作为除检索切换按钮204之外的变化范例。换言之，由GPS获取在地球上的当前位置。当确定当前位置为日本时，切换检索对象，使得对日文文本进行关键字提取。

在图4中所示的显示范例中，示出了在第一用户所讲的语言为英语时执行的操作的图像。示出了在按下讲话输入按钮201并讲道“Where shouldI go for sightseeing in Tokyo？”之后、第一用户再次按下讲话输入按钮201之后，语音翻译设备1立即执行的操作结果。换言之，在显示区A205中，显示从语音识别单元101输出的语音识别结果“Where should I go forsightseeing in Tokyo？”。在显示区B 206中，显示从第一翻译单元102输出的对显示区A205中显示的语音识别结果进行翻译的翻译结果“東京では観光はどこに行けばいいですか？”。在这种情况下，使用翻译切换按钮203将翻译方向切换到“从英语到日语进行翻译”。此外，在显示区C 207中，显示一个资料，即基于关键字提取单元104从语音识别单元101输出的语音识别结果或第一翻译单元102输出的翻译结果提取的资料检索关键字的来自资料检索单元105的资料检索结果。在显示区D 208中，显示从第二翻译单元106输出的翻译结果，即显示区C 207中显示的资料译文。在这种情况下，由检索切换按钮204将检索对象语言切换到“日文”。

在图5中所示的显示范例中，示出了一个方面，其中第二用户用笔210在图4中的显示状态下在显示区C 207中所示的检索到的资料上做出标识并绘示点211。在根据第一实施例的语音翻译设备1中，如图5所示，当第二用户用笔210在显示区C 207中显示的检索资料上做出标识并绘示点211，即强调图像(emphasizing image)时，在对应的显示区D 208中显示的翻译结果上绘示出作为类似强调图像的点212。

此外，在图5中所示的显示范例中，示出了在第二用户所讲的语言为日语时执行的操作的图示。示出了在按下翻译切换按钮203将翻译方向切换到“从日语到英语进行翻译”并按下讲话输入按钮201并讲道“浅草の浅草寺をお勧めします。”之后、第二用户再次按下讲话输入按钮201之后，语音翻译设备1立即执行的操作结果。换言之，在显示区A 205中，显示从语音识别单元101输出的语音识别结果“浅草の浅草寺をお勧めします。”。在显示区B 206中，显示从第一翻译单元102输出的对显示区A 205中显示的语音识别结果进行翻译的翻译结果“I recommend Sensoji templein Asakusa”。

接下来，参考流程图描述由控制单元111执行的各种过程，例如上述那些过程。

首先，将参考图6中的流程图描述按下翻译切换按钮203时执行的过程。如图6所示，在按下翻译切换按钮203时，发出翻译切换按钮按下事件并执行该过程。具体而言，如图6所示，在英文和日文之间切换由语音识别单元101识别的语言，并切换第一翻译单元102的翻译方向(步骤S1)。例如，在执行步骤S1时，语音识别单元101的识别语言为英文，第一翻译单元102处于“从英语到日语进行翻译”的模式，将第一翻译单元102切换到输入日文语音并从日语到英语进行翻译的模式。或者，在第一翻译单元102处于“从日语到英语进行翻译”的模式时，第一翻译单元102被切换到输入英文语音并从英语到日语进行翻译的模式。在步骤S1还针对输入语言是英文还是日文对关键字提取单元104和第二翻译单元106的初始设置进行切换。

接下来，将参考图7中的流程图描述按下讲话输入按钮201时执行的过程。如图7所示，在按下讲话输入按钮201时，发出讲话输入按钮按下事件并执行该过程。具体而言，如图7所示，检查是从内置麦克风13还是从CODEC 15加载语音信号(步骤S11)。当语音信号处于加载状态时，假设完成了语音并发出语音输入停止事件(步骤S12)。另一方面，在未加载语音信号时，假设要说出新的语音并发出语音输入开始事件(步骤S13)。

接下来，将参考图8中的流程图描述针对语音输入开始事件执行的过程。如图8所示，发出语音输入开始事件(参考图7中的步骤313)并执行该过程。具体而言，如图8所示，在复位(reset)RAM 7中形成的语音输入缓冲区(步骤S21)之后，由CODEC 15将从内置麦克风13输入的模拟语音信号转换成数字语音信号，并将数字语音信号输出到语音输入缓冲区(步骤S22)，直到接收到语音输入停止事件为止(步骤S23处的是)。在完成语音输入时(步骤S23处的是)，操作语音识别单元101并利用语音输入缓冲区作为输入执行语音识别过程(步骤S24)。在显示区A205中显示步骤在S24处获得的语音识别结果(步骤S25)，并发出语音识别结果输出事件(步骤S26)。

接下来，将参考图9中的流程图描述针对语音识别结果输出事件执行的过程。如图9所示，发出语音识别结果输出事件(参考图8中的步骤S26)并执行该过程。具体而言，如图9所示，利用显示区A 205中显示的字符串作为输入来操作第一翻译单元102(步骤S31)。当显示区A 205中显示的字符串为英文时，从英语到日语进行翻译。另一方面，当字符串为日文时，进行从日语到英语的翻译。接下来，在显示区B 206中显示在步骤S31处获得的翻译结果(步骤S32)，并发出语音输出开始事件(步骤S33)。接下来，在步骤S34到步骤S36，根据检索对象语言是日文还是英文，利用显示区A205中显示的字符串或显示区B 206中显示的字符串作为输入来执行关键字提取单元104。

这里，图10是关键字提取单元104对英文文本执行的过程的流程图。图11是关键字提取单元104对日文文本执行的过程的流程图。如图10和图11所示，不论字符串是英文文本还是日文文本，关键字提取单元104都对输入字符串进行语形学分析。结果，提取出形成输入字符串的每个单词的词性。然后，提取出词性表中登记的单词作为关键字。换言之，图10中步骤S51和图11中步骤S61之间的差异为执行的英文语形学分析还是执行的日文语形学分析。因为可以通过语形学分析获得形成输入文本的每个单词的词性信息，所以在图10中的步骤S52和图11中的步骤S53，基于词性信息参考词性表提取关键字。图12是在关键字提取单元104执行的过程中参考的词性表范例。关键字提取单元104提取词性表中注册到该词性的单词作为关键字。例如，如图10所示，在输入“Where should I go forsightseeing in Tokyo？”时，将“sightseeing”和“Tokyo”提取出来作为关键字。如图11所示，在输入“浅草の浅草寺をお勧めします。”时，提取出“浅草”和“浅草寺”作为关键字。

在接下来的步骤S37中，基于关键字提取单元104提取的关键字，话题更改检测单元109检测在会话期间是否改变了话题。

图13是话题更改检测单元109执行的过程的流程图。如图13所示，在确定在显示区C 207或显示区D 208中显示由关键字提取单元104提取的关键字时(步骤S71处的否)，话题更改检测单元109判定话题未改变(步骤S72)。同时，在确定未在显示区C 207或显示区D 208中显示由关键字提取单元104提取的所有关键字时(步骤S71处的是)，话题更改检测单元109判定话题已改变(步骤S73)。

根据第一实施例，通过由关键字提取单元104提取的关键字来检测话题的改变。不过，也可能不利用关键字检测话题的改变。例如，尽管未在图4和图5中示出这一点，但可以提供清除按钮，以删除显示区C 207和显示区D 208中的点旁边所做的绘示。可以通过检测到清除按钮的按下来复位显示区C 207和显示区D 208上的点旁边所做的绘示。然后，话题更改检测单元109可以确定话题已经从复位绘示的状态发生变化。话题更改检测单元109可以确定话题未从进行绘示的状态发生变化。结果，在指出并绘示显示区C 207或显示区D 208的任意部分时，即使在用户输入语音时也不会执行资料检索，直到随后按下清除按钮为止。保持显示区C 207和显示区D 208中所示的资料和翻译资料、以及绘示信息。可以基于所显示的信息条目执行语音交流。

当话题更改检测单元109如上所述确定话题未改变时(步骤S37处的否)，完成该过程，不在显示区C 207和显示区D 208中做出改变。

另一方面，当话题更改检测单元109确定话题已经改变时(步骤S37处的是)，利用关键字提取单元104的输出作为输入来执行资料检索单元105(步骤S38)并在显示区C 207中显示作为结果获得的资料(步骤S39)。第二翻译单元106翻译显示区C 207中显示的资料(步骤S40)，并在显示区D 208中显示翻译结果(步骤S41)。

接下来，将参考图14中的流程图描述按下讲话输出按钮202时(或发出语音输出开始事件时)执行的过程。如图14所示，在按下讲话输出按钮202时，发出讲话输出按钮按下事件并执行该过程。具体而言，如图14所示，利用显示区B 206中显示的字符串(来自语音识别单元101的识别结果的翻译结果)作为输入来操作语音合成单元103。产生数字语音信号(步骤S81)。将通过这种方式产生的数字语音信号输出到CODEC 15(步骤S82)。CODEC 15将数字语音信号转换成模拟语音信号并将模拟语音信号作为声音从扬声器14输出。

接下来，参考图15中的流程图描述用户用笔210在触摸面板4做标识时执行的过程。如图15所示，从输入控制单元108发出指向事件并执行该过程。具体而言，如图15所示，在用户用笔210在触摸面板4上做标识时，确定笔210是否指出了触摸面板4上显示区D 208和显示区C 207的任何部分(步骤S91和步骤S92)。当在除显示区D 208和显示区C 207之外的区域做出标识时(步骤S91处的否或步骤S92处的否)，不采取任何动作完成该过程。

在标识了显示区D 208的一部分时(步骤S91处的是)，在显示区D 208的被标识部分上做出绘示(步骤S93)，并类似地在显示区C 207的对应部分上做出绘示(步骤S94)。

另一方面，在标识了显示区C 207的一部分时(步骤S92处的是)，在显示区C 207的被标识部分上做出绘示(步骤S95)，并类似地在显示区D 208的对应部分上做出绘示(步骤S96)。

作为上述过程的结果，在由笔210标识出触摸面板4上显示区D 208和显示区C 207的任何部分时，分别在显示区C 207中显示的资料检索获得的原资料和显示区D 208中显示的翻译结果上绘示出类似的部分212(参见图5)，即强调图像。

为了在显示区C 207和显示区D 208的对应部分上绘示强调图像，需要做出每个显示区中每个位置之间的对应关系。可以通过第二翻译单元106执行的过程做出原资料和翻译资料之间以单词为单位的对应关系。因此，可以使用关于单词的对应信息。换言之，当在一个显示区一侧标识出单词或语句周围的区域且绘示出强调图像时，因为另一显示区一侧上的对应单词或语句是已知的，所以可以在对应单词或语句周围的区域中绘示出强调图像。当显示区C 207和显示区D 208中显示的资料为Web资料时，相应的文本(flat)语句是不同的，一个是原语句，另一个是翻译语句。然而，Web资料中包括的标签、图像等，包括外观顺序都是相同的。因此，可以通过使用在图像、类型、序列和图像的文件名之前提供的若干标签来使原资料中的任意图像和翻译资料中的图像一致地相关联。利用这种对应关系，当标识出一个显示区一侧中图像周围的区域并做出绘示时，可以在另一显示区一侧上的对应图像周围区域中做出绘示。

当要检索的资料为Web资料时，该资料是由HTML表达的超级文本。在HTML资料中，在该资料中嵌入了到另一资料的链接信息。用户依次遵循链接并使用链接来显示相关的资料。这里，图16是对HTML资料执行的过程的流程图。如图16所示，当用户用笔210在触摸面板4上做出标识且被指区域是链接(超级文本)时(步骤S101处的是)，在显示区C 207中显示该链接处的资料并操作第二翻译单元106。在显示区D 208中显示翻译结果(步骤S102)。

将参考图17中的流程图描述按下检索切换按钮204时执行的过程。如图17所示，在按下检索切换按钮204时，发出检索切换按钮按下事件并执行该过程。具体而言，如图17所示，操作检索对象选择单元110并设置关键字提取单元104的提取对象(步骤S111)。更具体而言，将关键字提取单元104的提取对象设置为语音识别单元101输出的语音识别结果或第一翻译单元102输出的翻译结果。

根据第一实施例，将语音识别获取的源语言字符串翻译成目标语言字符串并在显示装置中显示目标语言字符串。从源语言字符串或目标语言字符串提取用于资料检索的关键字。在利用所检索的关键字检索的资料语言为源语言时，将该资料翻译成目标语言。在所检索的资料语言为目标语言时，将该资料翻译成源语言。在显示装置上显示检索到的资料和从检索资料翻译的资料。结果，在母语不同的用户之间通过语音交流时，适当地检索与会话内容相关的资料并显示翻译结果。结果，所提供的资料能够支持信息共享。通过指定两种语言，改变翻译对象语言和翻译语言，可以支持双向会话。结果，可以实现流畅的交流。

根据第一实施例，在显示区C 207中显示资料检索单元105检索的资料并在显示区D 208中显示翻译资料。然而，显示方法不限于此。例如，如图18中操作图像的显示区301中所示，可以使翻译信息与原资料中的语句和单词相关联并嵌入到原资料中。

接下来将参考图19到图24描述本发明的第二实施例。为与根据上述第一实施例相同的单元赋予相同的附图标记。省略对它们的解释。

根据第二实施例，可以将本发明应用于与在诸如“この料理はどんな材料を使っていますか？”之类的场景下出现的对象相关的会话，或涉及地方的会话，诸如“近くの地下鉄の駅はどこですか？”等，其中不能仅通过从语句提取的关键字确定该地方。

图19是根据本发明第二实施例的语音翻译设备50的硬件配置的方框图。如图19所示，除了根据第一实施例所述的语音翻译设备1的配置之外，该语音翻译设备50包括射频标识(RFID)读取单元51(即无线标记读取器)和位置检测单元52。通过总线控制器16将RFID读取单元51和位置检测单元52连接到CPU 5。

RFID读取单元51读取RFID标记，即附着于餐馆提供的盘子、商店销售的产品等上的无线标记。

位置检测单元52一般是检测当前位置的GPS。

图20是语音翻译设备50总体配置的功能框图。如图20所示，除了语音识别单元101之外，该语音翻译设备50包括第一翻译单元102、语音合成单元103、关键字提取单元104、资料检索单元105、第二翻译单元106、显示控制单元107、输入控制单元108、话题更改检测单元109、检索对象选择单元110、控制单元111、RFID读取控制单元112和位置检测控制单元113。

RFID读取控制单元将RFID读取单元51读取的RFID标记上存储的信息输出到控制单元111。

位置检测控制单元113将位置检测单元52检测的位置信息输出到控制单元111。

在语音翻译设备50中，关键字提取过程与根据第一实施例的语音翻译设备1的过程不同。因此将介绍该过程。图21是对日文文本执行的关键字提取过程的流程图。这里，将描述对日文文本进行的关键字提取过程。然而，也可以对英文文本等执行关键字提取过程。如图21所示，关键字提取单元104首先对输入字符串进行日文语形学分析(步骤S121)。结果，提取出输入字符串中的每个单词的词性。接下来，确定在所提取的单词之间是否有表示说话者附近对象的标识词(邻近性标识词)，例如“これ”和“この”(步骤S122)。

当确定包括“これ”或“この”时(步骤S122处的是)，RFID读取控制单元112控制RFID读取单元51并读取RFID标记(步骤S123)。RFID读取控制单元112参照RFID对应表。如果找到了对应于所读RFID标记上存储的信息的产品名称，就增加该产品名称作为关键字输出(步骤S124)。例如，如图22所示，RFID标记上存储的信息(这里为产品ID)和产品名称被关联，并将该关联存储在RFID对应表中。

接下来，关键字提取单元104提取词性表中登记的单词(参见图12)作为关键字(步骤S125)。

另一方面，确定不包括“これ”或“この”(步骤S122处的否)，执行步骤S125的过程，而不读取RFID标记上的信息。然后执行关键字提取。

在接下来的步骤S126到步骤S130执行的过程为重复过程，处理在步骤S125提取的所有关键字。具体而言，确定关键字是否为专有名词(步骤S126)。当该关键字不是专有名词时(步骤S126处的否)，参考含义类别表并将含义类别添加到关键字(步骤S127)。例如，如图23所示，单词和表示该单词含义或类别的含义类别被关联起来并将该关联存储在含义类别表中。

这里，当含义类别为“

”时，或者换言之，当该单词是表示地方的普通名词时(步骤S128处的是)，位置检测控制单元113控制位置检测单元52并获取经度和纬度(步骤S129)。位置检测控制单元113参照位置-地名对应表并确定最接近的地名(步骤S130)。例如，如图24所示，地名与经纬度相关联，且该关联被存储在位置-地名对应表中。

作为关键字提取过程的结果，在利用邻近性标识词，即“この”的语音中，例如在“この料理はどんな材料を使っていますか？”中，因为RFID标记附着于餐馆提供的盘子等且RFID标记附着于商店销售的产品上，所以在进行与盘子或产品相关的会话时，可以基于RFID标记上存储的信息利用关键字进行相关资料的更优选的检索。此外，当会话涉及一个地方时，例如“近くの地下鉄の駅はどこですか？”，仅使用关键字“subway”和“station”无法检索到适当的资料。然而，通过检测用户位置并使用该位置附近的地名，可以检索到更适当的资料。

如上所述，根据每一实施例的语音翻译设备都适于流畅的交流，这是因为，在以不同语言为其母语的人之间会话时，可以用每种母语显示适当的相关资料并将其用作基于语音的会话的补充信息。

Claims

1、一种语音翻译设备，其包括：

翻译方向指定单元，其指定两种语言之一作为要被翻译的第一语言，而另一种语言作为通过翻译所述第一语言获得的第二语言；

语音识别单元，其识别所述第一语言的语音信号并输出第一语言字符串；

第一翻译单元，其将所述第一语言字符串翻译成第二语言字符串；

字符串显示单元，其在显示装置上显示所述第二语言字符串；

关键字提取单元，其从所述第一语言字符串或所述第二语言字符串提取用于资料检索的关键字；

资料检索单元，其利用所述关键字进行资料检索；

第二翻译单元，在检索到的资料的语言为所述第一语言时，所述第二翻译单元将所检索到的资料翻译成所述第二语言，在所检索到的资料的语言为所述第二语言时，所述第二翻译单元将所检索到的资料翻译成所述第一语言，从而获得经翻译的资料；以及

检索资料显示单元，其在所述显示装置上显示所检索到的资料和所述经翻译的资料。

2、根据权利要求1所述的语音翻译设备，还包括：

检索选择单元，其选择所述第一语言字符串或所述第二语言字符串作为用于所述资料检索的对象，其中

所述关键字提取单元从由所述检索选择单元选择的作为用于所述资料检索的对象的所述第一语言字符串或所述第二语言字符串提取所述关键字。

3、根据权利要求1所述的语音翻译设备，其中

所述关键字是预定词性的单词。

4、根据权利要求1所述的语音翻译设备，其中

所述检索资料显示单元将所述经翻译的资料嵌入到所检索到的资料中。

5、根据权利要求1所述的语音翻译设备，还包括：

输入控制单元，其接收所述显示装置上显示的所检索到的资料和所述经翻译的资料中任一个的位置的输入，其中

所述检索资料显示单元在所检索到的资料和所述经翻译的资料两者上对应于所述位置显示强调图像。

6、根据权利要求1所述的语音翻译设备，还包括：

当在所述位置设置有链接时，所述检索资料显示单元显示所述链接的资料。

7、根据权利要求1所述的语音翻译设备，还包括：

话题更改检测单元，其检测会话话题的改变，其中

在所述话题更改检测单元检测到所述话题的改变时，所述资料检索单元检索包括由所述关键字提取单元提取的关键字的资料。

8、根据权利要求7所述的语音翻译设备，其中

所述检索资料显示单元还在所述显示装置上显示由所述关键字提取单元提取的关键字，以及

在未显示由所述关键字提取单元提取的关键字时，所述话题更改检测单元确定所述话题已经改变。

9、根据权利要求7所述的语音翻译设备，还包括：

所述检索资料显示单元在所检索到的资料和所述经翻译的资料两者上对应于所述位置显示强调图像，以及

在复位所述强调图像时，所述话题更改检测单元确定所述话题已经改变。

10、根据权利要求1所述的语音翻译设备，还包括：

位置检测单元，其检测用户的当前位置，其中

当所提取的关键字是表示地方的普通名词时，所述关键字提取单元从所述位置检测单元获取所述当前位置并提取所述当前位置的地名作为所述关键字。

11、根据权利要求1所述的语音翻译设备，还包括：

无线标记读取单元，其读取无线标记，其中

当所提取的关键字是指示邻近对象的指示词时，所述关键字提取单元从所述无线标记读取单元获取所述无线标记中存储的信息并提取对应于所获取的信息的名词作为所述关键字。