[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN110688840B - 一种文本转换方法及装置 - Google Patents

一种文本转换方法及装置 Download PDF

Info

Publication number
CN110688840B
CN110688840B CN201910917697.1A CN201910917697A CN110688840B CN 110688840 B CN110688840 B CN 110688840B CN 201910917697 A CN201910917697 A CN 201910917697A CN 110688840 B CN110688840 B CN 110688840B
Authority
CN
China
Prior art keywords
symbol
language
text
identification
target language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910917697.1A
Other languages
English (en)
Other versions
CN110688840A (zh
Inventor
邢运
胡长建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201910917697.1A priority Critical patent/CN110688840B/zh
Publication of CN110688840A publication Critical patent/CN110688840A/zh
Application granted granted Critical
Publication of CN110688840B publication Critical patent/CN110688840B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种文本转换方法及装置,其中方法包括:获取待转换的第一语言文本;利用目标语言对所述第一语言文本中的各分词进行转换,以获得第二语言文本;利用与所述目标语言对应的符号标识规则表,为所述第二语言文本中的各分词设置标识符号;根据各所述分词的标识符号,对各所述分词执行与所述标识符号对应的操作,获得目标语言文本。本发明通过为各个分词添加标识符号,就可以根据标识符号对各分词执行与标识符号相对应的操作,实现快速高效的将源语言文本转换为目标语言文本,并且不仅仅局限于一种语言的转换,能够实现将源语言文本转换成多种目标语言文本。

Description

一种文本转换方法及装置
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种文本转换方法及装置。
背景技术
文本转换是指将一种自然语言的原始文本转换成另一种自然语言(目标语言)的目标文本的过程,其可以被应用于自然语言理解中,以此来实现人机交互、智能问答。
然而现有的文本转换方法中,通常只是将语料文本从一种自然语言转换成另一种自然语言,即每种转换方法只能对应一种语言的转换(例如:将汉语转换成英语需要一种转换方法,而将汉语转换成法语需要另外一种转换方法),因而无法实现将语料文本从一种自然语言转换成多种自然语言,因而造成转换效率较低的问题。
发明内容
本发明实施例的目的在于提供一种文本转换方法及装置,用于解决现有技术中文本转换效率较低的问题。
为了解决上述技术问题,本发明的实施例采用了如下技术方案:一种文本转换方法,包括:
获取待转换的第一语言文本;
利用目标语言对所述第一语言文本中的各分词进行转换,以获得第二语言文本;
利用与所述目标语言对应的符号标识规则表,为所述第二语言文本中的各分词设置标识符号;
根据各所述分词的标识符号,对各所述分词执行与所述标识符号对应的操作,获得目标语言文本。
可选的,所述获取第一语言文本,具体包括:
对待转换的第一语言的语料文本进行关键词提取,获得若干第一分词;
按照词性对各所述第一分词进行分组,获得若干分词组;
将各所述分词组按照预定的顺序进行排列,获得所述第一语言文本。
可选的,所述利用与所述目标语言对应的符号标识规则表,为所述第二语言文本模板中的各分词设置标识符号,具体包括:
根据目标语言的语法确定所述第二语言文本中的各分词的位置编号;
查找与目标语言对应的符号标识规则表,以确定位置迁移符号;
将各所述位置编号与所述位置迁移符号相关联,根据关联结果为各所述分词设置第一标识符号。
可选的,所述利用与所述目标语言对应的符号标识规则表,为所述第二语言文本中的各分词设置标识符号,具体包括:
确定所述第二语言文本中的各分词的词性;
依据目标语言的语法以及各分词的词性确定需要进行变换的分词;
查找与目标语言对应的符号标识规则表,以确定分词变换符号;
将所述分词变换符号与分词对应关联,以为分词设置第二标识符号。
可选的,所述目标语言对应的符号标识规则表中包含至少一种类型的标识符号;所述符号规则表中的各种类型的标识符号分别对应一种操作,不同种类型的标识符号所对应的操作的执行顺序不同。
可选的,所述根据各所述分词的标识符号,对各所述分词执行与所述标识符号对应的操作,具体包括:
确定各所述分词的标识符号的类型;
根据标识符号的类型确定与各种类型标识符号对应的操作的执行顺序;
按照所述执行顺序,执行与所述标识符号对应的操作。
为解决上述问题,本发明实施提供一种文本转换装置,包括:
获取模块,用于获取待转换的第一语言文本;
转换模块,利用目标语言对所述第一语言文本中的各分词进行转换,以获得第二语言文本;
关联模块,用于利用与所述目标语言对应的符号标识规则表,为所述第二语言文本中的各分词设置标识符号;
获得模块,用于根据各所述分词的标识符号,对各所述分词执行与所述标识符号对应的操作,获得目标语言文本。
可选的,所述获取模块具体用于:
对待转换的第一语言的语料文本进行关键词提取,获得若干第一分词;
按照词性对各所述第一分词进行分组,获得若干分词组;
将各所述分词组按照预定的顺序进行排列,获得所述第一语言文本。
可选的,所述关联模块具体用于:
根据目标语言的语法确定所述第二语言文本模板中的各分词的位置编号;
查找与目标语言对应的符号标识规则表,以确定位置迁移符号;
将各所述位置编号与所述位置迁移符号相关联,根据关联结果为各所述分词设置第一标识符号。
为解决上述问题,本发明实施提供一种智能答复方法,包括:接收用户输入的第一语言的语料,利用如上任意一项所述的文本转换方法对所述第一语言的语料进行转换,获得目标语言的语料,利用自然语言理解技术为所述目标语言语料匹配答复信息,并以预定的方式输出所述答复信息。
本发明实施例的有益效果在于:通过为各个分词添加标识符号,就可以根据标识符号对各分词执行与标识符号相对应的操作,实现快速高效的将源语言文本转换为目标语言文本,并且不仅仅局限于一种语言的转换,能够实现将源语言文本转换成多种目标语言文本。
附图说明
图1为本发明实施例文本转换方法的流程图;
图2为另一本发明实施例文本转换方法的流程图;
图3为又一本发明实施例文本转换方法的流程图
图4为本发明实施例文本转换装置的结构框图。
具体实施方式
此处参考附图描述本申请的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本申请的具体实施例;然而,应当理解,所申请的实施例仅仅是本申请的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本申请的相同或不同实施例中的一个或多个。
本发明实施例提供一种文本转换方法,包括如下步骤:获取待转换的第一语言文本;利用目标语言对所述第一语言文本中的各分词进行转换,以获得第二语言文本;利用与所述目标语言对应的符号标识规则表,为所述第二语言文本中的各分词设置标识符号;根据各所述分词的标识符号,对各所述分词执行与所述标识符号对应的操作,获得目标语言文本。本实施例中通过为各个分词添加标识符号,就可以根据标识符号对各分词执行与标识符号相对应的操作,实现快速高效的将源语言文本转换为目标语言文本,并且不仅仅局限于一种语言的转换,能够实现将源语言文本转换成多种目标语言文本。
本发明实施例提供一种文本转换方法,具体包括:
步骤S101,获取待转换的第一语言文本;
本步骤中第一语言文本为由若干分词构成的文本;分词则表示一个单词或一个字等等。本步骤中第一语言可以是任意一种自然语言,第一语言文本则表示由该语言的若干分词所构成的文本。
步骤S102,利用目标语言对所述第一语言文本中的各分词进行转换,以获得第二语言文本;
本步骤中第二语言是与第一语言不同的任意一种自然语言。第二语言文本则是由若干分词构成的文本。其中目标语言即表示第二语言。
步骤S103,利用与所述目标语言对应的符号标识规则表,为所述第二语言文本中的各分词设置标识符号;
本步骤中符号标识规则表是预先构建好的。符号标识规则表是由熟悉目标语言语法的语言学专家来建立的。每种自然语言都对应一个符号标识规则表。每个符号标识规则表中记录有不同种类型的标识符号,每种标识符号均对应一种操作,不同类型的标识符号对应的操作也不相同。由于各种自然语言的语法不同,因此每个符号标识规则表中的符号有若干种。具体的标识符号规则表可以包含有位置迁移符号、动词变换符号等等。
步骤S104,根据各所述分词的标识符号,对各所述分词执行与所述标识符号对应的操作,获得目标语言文本。
本步骤中在执行了相应的操作之后,比如执行了位置迁移操作之后(对各分词的位置进行了调整),就会获得符合目标语言语法的文本,以便于从获得的文本中得到该目标语言的完整意思表达。比如多个分词为:“什么你的名字”,然后进行位置迁移操作获得:“你的名字什么”,最后根据“你的名字什么”获得“你的名字是什么”这样的完整含义表达。
本步骤中目标语言文本即表示最终要获得的语言文本。
本实施例中通过为各个分词添加标识符号,就可以根据标识符号对各分词执行与标识符号相对应的操作,实现快速高效的将源语言文本转换为目标语言文本,并且不仅仅局限于一种语言的转换,能够实现将源语言文本转换成多种目标语言文本。
本发明另一实施例提供一种文本转换方法,包括如下步骤:
步骤S201,对待转换的第一语言的语料文本进行关键词提取,获得若干第一分词;
本步骤中第一分词表示构成语料的关键词,例如一个语料“那个戴眼镜的同事叫什么名字”,在关键词提取时,就会获得“戴眼镜”、“同事”、“什么”、“名字”这几个关键词,即获得了第一分词。
步骤S202,按照词性对各所述第一分词进行分组,获得若干分词组;
本步骤中,比如进行关键词提取后获得了第一分词有:“我”、“你”、“他”、“她”、“你们”、“我们”、“他们”、“爱”、“来自”、“中国”,那么就会按照词性对这些第一分词进行分组,将“我”、“你”、“他”、“她”、“你们”、“我们”、“他们”,将“爱”分为一组,将“来自”分为一组,将“中国”分为一组,即获得了四组分词。
步骤S203,将各所述分词组按照预定的顺序进行排列,获得所述第一语言文本;
本步骤在获得若干组分词后,就可以将各组分词以此列出来,比如对于步骤S202中获得的三组分词,就可以按照如下顺序排列出来:“我,你,他,她,你们,我们,他们;爱;来自;中国;”。其中,可以将一组中的各分词用顿号“、”或逗号“,”分隔开,而不同组之间可以用分号“;”或句号“。”进行区分,具体可以根据实际需要进行选择。
步骤S204,利用目标语言对所述第一语言文本中的各分词进行转换,以获得第二语言文本;
本步骤中例如第一语言文本为英语的“what;your;name;”需要将该语言转换成汉语,那么汉语就是目标语言,然后利用汉语对该第一语言文本进行点对点的转换,即获得了第二语言文本“什么;你的;名字;”
步骤S205,根据目标语言的语法确定所述第二语言文本中的各分词的位置编号;
本步骤中由于第一语言和第二语言(目标语言)的语法的不同,各个分词的位置有时会有不同,具体根据目标语言的语法来确定第二语言文本中各分词的位置顺序,比如步骤S204中的第二语言文本“什么;你的;名字;”,确定分词“什么”的位置编号为3,确定分词“你的”的位置编号为1,确定“名字”的位置编号为2。
步骤S206,查找与目标语言对应的符号标识规则表,以确定位置迁移符号;
本步骤中,在确定了各分词的位置编号后,就可以查找预先构建好的与目标语言对应的符号标识规则表,找到位置迁移符号,比如位置迁移符号为“[]”,具体的位置迁移符号也可以根据需要设置成其他符号,即在构建符号标识规则表时就将位置迁移符号设置成其他符号。
步骤S207,将各所述位置编号与所述位置迁移符号相关联,根据关联结果为各所述分词设置第一标识符号。
本步骤中,在确定位置编号以及位置迁移符号后,就可以将位置编号与位置迁移符号关联获得关联结果,比如确定位置编号为“1”,位置迁移符号为“[]”,则关联结果可以为“[1]”(“[1]”即为第一标识符号),然后将该关联结果匹配到相应的分词。比如设置了第一标识符号后的第二语言文本为“什么[3];你的[1];名字[2];”。
步骤S208,根据各所述分词的标识符号,对各所述分词执行与所述标识符号对应的操作,获得目标语言文本。
本步骤中在获得第二语言文本“什么[3];你的[1];名字[2];”后,即确定该第二语言文本中包含位置迁移符号“[]”后,就会执行相应的位置迁移操作,即最后获得目标语言文本“你的名字什么”。
本步骤中,在获得了目标语言文本后,还可以利用自然语言理解技术对目标语言进行处理,来获得“你的名字是什么”这样含义清楚、完整的语料。
本发明实施例通过查找目标语言对应的符号标识规则表来确定位置迁移符号,并结合各分词位置编号,来为第二语言文本中的各分词设置第一标识符号,这样就可以根据第一标识符号来对各分词进行位置迁移操作,获得目标语言文本。由于每种自然语言都会对应一个符号标识规则表,因此通过查找符号标识规则表将第一语言文本转换目标语言文本后,同时也可以将第一语言文本再转换成其他目标语言文本,不仅仅局限于一种语言的转换,能够实现将第一语言文本转换成多种目标语言文本提高了转换效率。
本发明又一实施例提供一种文本转换方法,包括如下步骤:
步骤S301,对待转换的第一语言的语料文本进行关键词提取,获得若干第一分词;
步骤S302,按照词性对各所述第一分词进行分组,获得若干分词组;
步骤S303,将各所述分词组按照预定的顺序进行排列,获得所述第一语言文本;
比如第一语言为汉语,获得第一语言文本为:“你;在;哪里;”
步骤S304,利用目标语言对所述第一语言文本中的各分词进行转换,以获得第二语言文本;
本步骤中比如目标语言(第二语言)为法语,则第二语言文本表示为:“Tu;es;où”。
步骤S305,根据目标语言的语法确定所述第二语言文本中的各分词的位置编号;
即本步骤中确定“Tu”的位置编号为3,“es”的位置编号为2,“où”的位置编号为1。
步骤S306,查找与目标语言对应的符号标识规则表,以确定位置迁移符号;
例如确定位置迁移符号为“[]”。
步骤S307,将各所述位置编号与所述位置迁移符号相关联,根据关联结果为各所述分词设置第一标识符号。
例如为各分词设置第一标识符号后的文本为“Tu[3];es[2];où[1]”
步骤S308,确定所述第二语言文本中的各分词的词性;
本步骤中所述词性包括:名词、动词、形容词、数词、量词、代词、区别词、副词、介词、连词、助词、叹词、语气词、拟声词等。
本步骤中,比如确定步骤S307中第二语言文本中的分词“Tu”为名称,“es”为动词,“où”为疑问词。
步骤S309依据目标语言的语法以及各分词的词性确定需要进行变换的分词;
本步骤中可以通过法语的语法来确定动词“es”需要进行变换(即,将该分词和位于该分词后的字符用“-”连接)。
步骤S310,查找与目标语言对应的符号标识规则表,以确定分词变换符号;
本步骤通过查找符号标识规则表来确定动词变换符号为“(3)”。
步骤S311,将所述分词变换符号与分词对应关联,以为分词设置第二标识符号。
本步骤中在确定了动词变换符号为[verb]后,即可将[verb]与动词“es”关联,即获得如下文本:Tu[3];[verb]es[2](3);où[1];
步骤S312,确定各所述分词的标识符号的类型;
本步骤中确定步骤S311的中获得文本“Tu[3];[verb]es[2](3);où[1]”中的标识符号的类型为“[verb](3)”和“[]”。
步骤S313,根据标识符号的类型确定与各种类型标识符号对应的操作的执行顺序;
确定了标识符号的类型为“[verb](3)”和“[]”之后,就可以确定“[]”对应的位置迁移的操作的优先级高于“[verb](3)”对应的动词变换操作;
步骤S314,按照所述执行顺序,执行与所述标识符号对应的操作,获得目标语言文本;
根据步骤S313中确定的执行顺序,先执行位置迁移操作,然后在执行动词变换操作,获得目标语言文本
即对文本“Tu[3];[verb]es[2](3);où[1]”执行位置迁移操作后获得文本“où;[verb]es(3);Tu;”,然后在执行“[verb](3)”所对应的动词变换操作获得“oùes-Tu”,即获得了目标语言文本“Oùes-tu”。
本发明实施例,在对文本进行转换之前,还可以由语言学专家来构建目标语言的符号标识规则表,所述目标语言对应的符号标识规则表中包含至少一种类型的标识符号;所述符号规则表中的各种类型的标识符号分别对应一种操作,不同种类型的标识符号所对应的操作的执行顺序不同。
本发明实施例利用标识符号对多语言的特定属性进行描述,打破了传统方式的单一性和局限性。在不重写语言文本的模板的情况下,只需对源语言文本进行点对点的槽位翻译,而后在目标语言的语言学专家的指导下进行符号指代操作,即可快速高效的将源语言文本迁移到一个全新的目标语言上。既解决了许多传统方式无法解决的规则生成、多语言迁移问题,也避免了覆写规则带来的大量重复性工作,同时使得规则系统变得更加易于维护。
本实施例中,当(源语言)第一语言文本的某个分词为多个单词,而目标语言为单个单词时,可以在构建目标语言对比的符号标识规则表时,设置标识符号“[noun]”,而“[noun]”表示此关键词的词类为名词,“(2)”表示对于设置有该标识符号的名词,将该名称和其后的字符拼接成新的名称。;例如:设置标识符号后的第二语言文本为“[noun]moto(2);boy”。那么在执行“[noun](2)”对应的操作后就会获得目标文本“motoboy”。
本实施例中,由于有些语言中存在动词变位情况(例如英语,葡语,法语等),是一种根据主语人称而改变动词词尾的后缀的语法。下面以中文和法语举例,表1中标识中文的主语以及主语对应的动词;表2表示法语中的主语以及各主语对应的动词。
Figure BDA0002216668620000101
由上述表1和表2可知,在汉语中动词“爱”不会随着主语不同而变化。而在法语中,对于不同的主语,动词“aime”的形式也是不同的,因此在转换时就需要根据主语来对动词进行变换。而本发明实施例中,可以在构建法语符号标识规则表时,设置标识符号“{}”,并配合单一的数字标识符号“1”、“2”、“3”、“4”、“5”、“6”,以键值对的形式构建人称与动词变为的对应关系,来对不同主语以及各主语对应的动词进行标识。
例如第一语言文本为“我,你,他,你们,我们,他们;爱;中国”。
那么第二语言文本为“Je,Tu,Il,Vous,Nous,Ils;aimer;la chine;”。
那么在为第二语言文本中的各分词设置标识符号时,就可以为各主语分别设置数字“1”、“2”、“3”、“4”、“5”、“6”,同时为动词aimer设置1“1”、“2”、“3”、“4”、“5”、“6”,获得如下文本:{1:Je,2:Tu,3:Il,4:Vous,5:Nous,6:Ils};{1:2:3:4:5:6:aimer};vla chine;。再根据标识符号执行动词变换操作,获得如下文本:{1:Je,2:Tu,3:Il,4:Vous,5:Nous,6:Ils};{1:aime,2:aimes,3:aime,4:aimez,5:aimons,6:aiment};vla chine。最后根据主语和动词的数字符号相同为一对的原则,将相同数字的主语和人称提取出来获得目标语言文本,即获得如下6个目标语言文本:
Je aime la chine;
Tu aimes la chine;
Il aime la chine;
Vous aimez la chine;
Nous aimons la chine;
Ils aiment la chine。
本发明实施例提供一种文本转换装置,其特征在于,包括:
获取模块1,用于获取待转换的第一语言文本;
转换模块2,利用目标语言对所述第一语言文本中的各分词进行转换,以获得第二语言文本;
关联模块3,用于利用与所述目标语言对应的符号标识规则表,为所述第二语言文本中的各分词设置标识符号;
获得模块4,用于根据各所述分词的标识符号,对各所述分词执行与所述标识符号对应的操作,获得目标语言文本。
本实施例在具体实施例过程中,获取模块具体用于:对待转换的第一语言的语料文本进行关键词提取,获得若干第一分词;按照词性对各所述第一分词进行分组,获得若干分词组;将各所述分词组按照预定的顺序进行排列,获得所述第一语言文本。
具体的,关联模块具体用于:根据目标语言的语法确定所述第二语言文本模板中的各分词的位置编号;查找与目标语言对应的符号标识规则表,以确定位置迁移符号;将各所述位置编号与所述位置迁移符号相关联,根据关联结果为各所述分词设置第一标识符号。
较佳的,关联模块还具体用于:确定所述第二语言文本中的各分词的词性;依据目标语言的语法以及各分词的词性确定需要进行变换的分词;查找与目标语言对应的符号标识规则表,以确定分词变换符号;将所述分词变换符号与分词对应关联,以为分词设置第二标识符号。
本实施例中,所述目标语言对应的符号标识规则表中包含至少一种类型的标识符号;所述符号规则表中的各种类型的标识符号分别对应一种操作,不同种类型的标识符号所对应的操作的执行顺序不同。
本实施例中,获得模块具体用于:确定各所述分词的标识符号的类型;根据标识符号的类型确定与各种类型标识符号对应的操作的执行顺序;按照所述执行顺序,执行与所述标识符号对应的操作,获得目标语言文本。
本发明实施例提供一种智能答复方法,包括:接收用户输入的第一语言的语料,利用上述实施例中任意文本转换方法对所述第一语言的语料进行转换,获得目标语言的语料,利用自然语言理解技术为所述目标语言语料匹配答复信息,并以预定的方式输出所述答复信息。
具体的本实施例中的智能答复方法可以应用在智能客服或智能人机交互领域中。例如当接收到的第一语言的语料为英文,那么就可以利用本发明中的文本转换方法对英文的语料进行转换,获得目标语言为中文的语料,然后利用自然语言理解技术为中文的语料匹配中文的答复信息,获得中文的答复信息后,可以将该中文的答复信息直接以语音/文字的形式输出,也可以将该答复信息利用本申请中的转换方法再转换为英文的答复信息,然后将英文的答复信息以语音/文字的形式输出。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

Claims (10)

1.一种文本转换方法,其特征在于,包括如下步骤:
获取待转换的第一语言文本;
利用目标语言对所述第一语言文本中的各分词进行转换,以获得第二语言文本;
利用与所述目标语言对应的符号标识规则表,为所述第二语言文本中的各分词设置标识符号;其中,所述符号标识规则表包括位置迁移符号和分词变换符号,所述标识符号包括将各所述分词的位置编号和所述位置迁移符号关联为各所述分词设置的第一标识符号,以及将所述分词变换符号和各所述分词关联为分词设置的第二标识符号;
根据各所述分词的标识符号,对各所述分词执行与所述标识符号对应的操作,获得目标语言文本;
其中,所述根据各所述分词的标识符号,对各所述分词执行与所述标识符号对应的操作,获得目标语言文本,包括:
基于优先级,根据所述第一标识符号对各所述分词执行位置迁移操作;
根据所述第二标识符号对执行位置迁移操作后获得的文本中设置有第二标识符号的分词执行分词变换操作,以获得目标语言文本。
2.如权利要求1所述的方法,其特征在于,所述获取第一语言文本,具体包括:
对待转换的第一语言的语料文本进行关键词提取,获得若干第一分词;
按照词性对各所述第一分词进行分组,获得若干分词组;
将各所述分词组按照预定的顺序进行排列,获得所述第一语言文本。
3.如权利要求1所述的方法,其特征在于,所述利用与所述目标语言对应的符号标识规则表,为所述第二语言文本中的各分词设置标识符号,具体包括:
根据目标语言的语法确定所述第二语言文本中的各分词的位置编号;
查找与目标语言对应的符号标识规则表,以确定位置迁移符号;
将各所述位置编号与所述位置迁移符号相关联,根据关联结果为各所述分词设置第一标识符号。
4.如权利要求1所述的方法,其特征在于,所述利用与所述目标语言对应的符号标识规则表,为所述第二语言文本中的各分词设置标识符号,具体包括:
确定所述第二语言文本中的各分词的词性;
依据目标语言的语法以及各分词的词性确定需要进行变换的分词;
查找与目标语言对应的符号标识规则表,以确定分词变换符号;
将所述分词变换符号与分词对应关联,以为分词设置第二标识符号。
5.如权利要求1所述的方法,其特征在于,所述目标语言对应的符号标识规则表中包含至少一种类型的标识符号;所述符号规则表中的各种类型的标识符号分别对应一种操作,不同种类型的标识符号所对应的操作的执行顺序不同。
6.如权利要求5所述的方法,其特征在于,所述根据各所述分词的标识符号,对各所述分词执行与所述标识符号对应的操作,具体包括:
确定各所述分词的标识符号的类型;
根据标识符号的类型确定与各种类型标识符号对应的操作的执行顺序;
按照所述执行顺序,执行与所述标识符号对应的操作。
7.一种文本转换装置,其特征在于,包括:
获取模块,用于获取待转换的第一语言文本;
转换模块,利用目标语言对所述第一语言文本中的各分词进行转换,以获得第二语言文本;
关联模块,用于利用与所述目标语言对应的符号标识规则表,为所述第二语言文本中的各分词设置标识符号;其中,所述符号标识规则表包括位置迁移符号和分词变换符号,所述标识符号包括将各所述分词的位置编号和所述位置迁移符号关联为各所述分词设置的第一标识符号,以及将所述分词变换符号和各所述分词关联为分词设置的第二标识符号;
获得模块,用于根据各所述分词的标识符号,对各所述分词执行与所述标识符号对应的操作,获得目标语言文本;
所述获得模块具体用于:
基于优先级,根据所述第一标识符号对各所述分词执行位置迁移操作;
根据所述第二标识符号对执行位置迁移操作后获得的文本中设置有第二标识符号的分词执行分词变换操作,以获得目标语言文本。
8.如权利要求7所述的装置,其特征在于,所述获取模块具体用于:
对待转换的第一语言的语料文本进行关键词提取,获得若干第一分词;
按照词性对各所述第一分词进行分组,获得若干分词组;
将各所述分词组按照预定的顺序进行排列,获得所述第一语言文本。
9.如权利要求7所述的装置,其特征在于,所述关联模块具体用于:
根据目标语言的语法确定所述第二语言文本模板中的各分词的位置编号;
查找与目标语言对应的符号标识规则表,以确定位置迁移符号;
将各所述位置编号与所述位置迁移符号相关联,根据关联结果为各所述分词设置第一标识符号。
10.一种智能答复方法,其特征在于,包括:接收用户输入的第一语言的语料,利用如权利要求1-6任意一项所述的文本转换方法对所述第一语言的语料进行转换,获得目标语言的语料,利用自然语言理解技术为所述目标语言语料匹配答复信息,并以预定的方式输出所述答复信息。
CN201910917697.1A 2019-09-26 2019-09-26 一种文本转换方法及装置 Active CN110688840B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910917697.1A CN110688840B (zh) 2019-09-26 2019-09-26 一种文本转换方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910917697.1A CN110688840B (zh) 2019-09-26 2019-09-26 一种文本转换方法及装置

Publications (2)

Publication Number Publication Date
CN110688840A CN110688840A (zh) 2020-01-14
CN110688840B true CN110688840B (zh) 2022-07-26

Family

ID=69110322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910917697.1A Active CN110688840B (zh) 2019-09-26 2019-09-26 一种文本转换方法及装置

Country Status (1)

Country Link
CN (1) CN110688840B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114691266A (zh) * 2022-03-11 2022-07-01 浙江中控技术股份有限公司 语言切换方法、装置及文本保存方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6754668B2 (en) * 2000-10-24 2004-06-22 Raytheon Company Multilingual system having dynamic language selection
CN101777043A (zh) * 2009-01-14 2010-07-14 北京思在信息技术有限责任公司 一种文字转换方法及装置
CN101739395A (zh) * 2009-12-31 2010-06-16 程光远 机器翻译方法和系统
US8775156B2 (en) * 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
CN103631772A (zh) * 2012-08-29 2014-03-12 阿里巴巴集团控股有限公司 机器翻译方法及装置
CN103793364B (zh) * 2014-01-23 2018-09-07 北京百度网讯科技有限公司 对文本进行自动注音处理及显示的方法和装置
CN104699675B (zh) * 2015-03-18 2018-01-30 北京交通大学 翻译信息的方法和装置
US9753915B2 (en) * 2015-08-06 2017-09-05 Disney Enterprises, Inc. Linguistic analysis and correction
CN107783968B (zh) * 2017-11-23 2021-04-02 浪潮金融信息技术有限公司 一种语言转换方法、装置、可读介质及存储控制器

Also Published As

Publication number Publication date
CN110688840A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
KR101762866B1 (ko) 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
JP3189186B2 (ja) パターンに基づく翻訳装置
WO2016010245A1 (en) Method and system for robust tagging of named entities in the presence of source or translation errors
Garg et al. Rule based Hindi part of speech tagger
CN112948543A (zh) 基于加权TextRank的多语言多文档摘要抽取方法
KR20050045822A (ko) 기계번역기법을 이용한 유사문장 식별 시스템
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
CN106569993A (zh) 一种挖掘领域术语间上下位关系的方法及装置
TWI553491B (zh) 問句處理系統及其方法
CN103314369B (zh) 机器翻译装置和方法
Shawar A Chatbot as a natural web Interface to Arabic web QA
Kübler et al. Part of speech tagging for Arabic
Sibarani et al. A study of parsing process on natural language processing in bahasa Indonesia
CN102609410B (zh) 规范文档辅助写作系统及规范文档生成方法
CN110688840B (zh) 一种文本转换方法及装置
Ganji et al. Novel textual features for language modeling of intra-sentential code-switching data
CN107168950B (zh) 一种基于双语语义映射的事件短语学习方法及装置
Anik et al. An approach towards multilingual translation by semantic-based verb identification and root word analysis
van Schooten et al. Handling speech input in the Ritel QA dialogue system
Misu et al. Dialogue strategy to clarify user’s queries for document retrieval system with speech interface
CN111814433B (zh) 一种维吾尔语实体识别的方法、装置和电子设备
Li et al. Intelligent braille conversion system of Chinese characters based on Markov model
KR100911619B1 (ko) 자동번역 시스템에서의 영어 어휘 패턴 구축 방법 및 장치
Doermann et al. Translation lexicon acquisition from bilingual dictionaries
Sarkar et al. Bengali noun phrase chunking based on conditional random fields

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant