[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111401000B - 一种在线辅助翻译的译文实时预览方法 - Google Patents

一种在线辅助翻译的译文实时预览方法 Download PDF

Info

Publication number
CN111401000B
CN111401000B CN202010260294.7A CN202010260294A CN111401000B CN 111401000 B CN111401000 B CN 111401000B CN 202010260294 A CN202010260294 A CN 202010260294A CN 111401000 B CN111401000 B CN 111401000B
Authority
CN
China
Prior art keywords
translation
atom
html
segment
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010260294.7A
Other languages
English (en)
Other versions
CN111401000A (zh
Inventor
陈件
张井
成延
刘旻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yizhe Information Technology Co ltd
Original Assignee
Shanghai Yizhe Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yizhe Information Technology Co ltd filed Critical Shanghai Yizhe Information Technology Co ltd
Priority to CN202010260294.7A priority Critical patent/CN111401000B/zh
Publication of CN111401000A publication Critical patent/CN111401000A/zh
Application granted granted Critical
Publication of CN111401000B publication Critical patent/CN111401000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种在线辅助翻译的译文实时预览方法,涉及计算机辅助翻译领域,包括如下步骤:将原文文件通过文件格式转换器转换成HTML,将原文解析并分句成按句划分的句段Segment数组,利用循环递归算法,将句段Segment的中元素id埋到转换后的HTML子标签中,形成一一对应的关系,前端通过HTML的dom节点来实现句段Segment和HTML之间的联动,达到实时预览译文的效果;本发明提供了一种算法,可以将辅助翻译中的译文实时的渲染到浏览器中,供译员查看和参考,极大的节省了翻译的时间,有着非常明显的效率提升。

Description

一种在线辅助翻译的译文实时预览方法
技术领域
本发明涉及计算机辅助翻译领域,特别涉及一种在线辅助翻译的译文实时预览方法。
背景技术
当代计算机辅助翻译,需要将文字提取出来,给译者翻译成指定目标语言以后,再将译文填充回去。通常情况下,译者在翻译过程中无法在编辑器里查看翻译文件的原文和译文。传统的做法是通过文件转换的方法,将原文转换成html格式并通过浏览器渲染给翻译人员查看。但是,翻译人员在编辑过程中形成的译文是无法实时查看的。
发明内容
本发明实例提供了一种在线辅助翻译的译文实时预览方法。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本发明实施例的第一方面,提供了
一种在线辅助翻译的译文实时预览方法,包括如下步骤:
将原文文件转换成HTML格式;
将原文解析并分句成按句划分的句段Segment数组;
利用循环递归算法,将所述句段Segment的中元素id埋到所述HTML格式文件中的子标签中,形成一一对应的关系;
通过HTML的dom节点来实现句段Segment和HTML之间的联动,达到实时预览译文的效果。
优选地,所述原文文件格式是doc、docx、rtf、xls、xlsx、ppt、pptx、pdf、sxw、stw、sxc、stc。
优选地,所述将原文文件转换成HTML格式,具体方法为利用word自身的转换功能或者其他第三方工具进行转换。
优选地,所述将原文解析并分句成按句划分的句段Segment数组,具体为将所述分句成按句划分的句段Segment为单词、短语或句子。
优选地,所述句段Segment数组为句段列表,记录句段Segment的文本内容和对应的文本标号。
优选地,所述循环递归算法包括如下步骤:
定义Atom类型的类,这个类有两个类型定义为标签Tag和文本;
将句段列表中的句段Segment内容定义为Atom的文本,句段Segment的标号定义为Atom的标签Tag;
算法会循环读取每个Atom,根据Atom的类型来判断是否放入文本池;
将文本池中的每个Atom与Atom的标签Tag对应,最终形成一个新的带id映射的HTML子标签的集合。
优选地,所述类Atom为自定义类。
优选地,所述每个句段Segment是由一个或者多个Atom组成。
优选地,所述HTML的子标签是由一个Atom的标签Tag构成。
优选地,所述句段Segment和HTML之间的联动的方法为:将Atom的标签Tag嵌入到HTML子标签中。
本发明实例提供的技术方案可以包括以下有益效果:
本发明提供了一种算法,可以将辅助翻译中的译文实时的渲染到浏览器中,供译员查看和参考,极大的节省了翻译的时间,有着非常明显的效率提升。如图7所示,译员在翻译第181句时,能实时看到翻译后的句子在译文中的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的在线辅助翻译的译文实时预览方法示意图;
图2是根据一示例性实施例示出的递归和循环算法的逻辑图;
图3是根据一示例性实施例示出的原文件示例图;
图4是根据一示例性实施例示出的按句划分的句段示意图;
图5是根据一示例性实施例示出的将原文文件通过文件格式转换成HTML示意图;
图6是根据一示例性实施例示出的标签中将transUnitId嵌入示意图;
图7是根据一示例性实施例示出的译文实时预览效果图。
实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,各实施方案可以被单独地或总地用术语“发明”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的发明,不是要自动地限制该应用的范围为任何单个发明或发明构思。本文中,诸如第一和第二等之类的关系术语仅仅用于将一个实体或者操作与另一个实体或操作区分开来,而不要求或者暗示这些实体或操作之间存在任何实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。本文中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的结构、产品等而言,由于其与实施例公开的部分相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
需要说明的是,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
下面结合附图及实施例对本发明做进一步描述:
如图1所示的,一种在线辅助翻译的译文实时预览方法,包括如下步骤:
S1:将原文文件转换成HTML格式;
S2:将原文解析并分句成按句划分的句段Segment数组;
S3:利用循环递归算法,将所述句段Segment的中元素id埋到HTML子标签中,形成一一对应的关系;
S4:通过HTML的dom节点来实现句段Segment和HTML之间的联动,达到实时预览译文的效果。
根据上述方案,进一步,所述原文文件格式可以是word、excel、ppt、pdf,如图3所示,原文件为word。
在具体的实施例中,如图5所示所述文件格式转换可以利用word自身的转换功能或者其他第三方的开源工具。
根据上述方案,进一步,所述分句成按句划分的句段Segment为单词或短语,如图3所示,word中有test.fast文字,被在计算机辅助翻译中会被切成两个句子,句子1:test,句子2:fast。
根据上述方案,进一步,所述句段Segment数组为句段列表,记录着句段Segment的文本内容和对应的文本标号,如图4所示,在代码实现的时候,我们会将两个句子定义成两个对象,segment1和segment2,transUnitId:为句子标号;srcAtom:为句子内容。
根据上述方案,进一步,如图2所示,在具体实施例中示出的递归和循环算法的逻辑图的示意图,具体所述循环递归算法包括如下步骤:
S31:定义Atom类型的类,这个类有两个类型定义为标签Tag和文本;
S32:将句段列表中的句段Segment内容定义为Atom的文本,句段Segment的标号定义为Atom的标签Tag;
S33:算法会循环读取每个Atom,根据Atom的类型来判断是否放入文本池;
S34:将文本池中的每个Atom与Atom的标签Tag对应,最终形成一个新的带id映射的HTML子标签的集合。
具体实施例中,所述类Atom为自定义类,并非原有类型。
根据上述方案,进一步,所述每个句段Segment是由一个或者多个Atom组成。
具体实施例中,所述HTML的子标签是由一个Atom的标签Tag构成。
根据上述方案,进一步,所述句段Segment和HTML之间的联动的实现方案为,将Atom的标签Tag嵌入到HTML子标签中,如图6所示,为了实现将句子1翻译后的内容能实时的展示在html网页中,我们需要定位到上图p标签下的第一个span标签。最简单的做法就是在标签中讲transUnitId嵌入。
本发明提供的一种在线辅助翻译的译文实时预览方法,可以将辅助翻译中的译文实时的渲染到浏览器中,供译员查看和参考,极大的节省了翻译的时间,有着非常明显的效率提升。如图7所示,译员在翻译第181句时,能实时看到翻译后的句子在译文中的效果。
本发明提供了一种算法,可以将辅助翻译中的译文实时的渲染到浏览器中,供译员查看和参考,极大的节省了翻译的时间,有着非常明显的效率提升。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的流程及结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (3)

1.一种在线辅助翻译的译文实时预览方法,其特征在于,包括如下步骤:
将原文文件转换成HTML格式;
将原文解析并分句成按句划分的句段Segment数组;具体为:将所述分句成按句划分的句段Segment为单词、短语或句子;所述句段Segment数组为句段列表,记录句段Segment的文本内容和对应的文本标号;
利用循环递归算法,将所述句段Segment的中元素id埋到所述HTML格式文件中的子标签中,形成一一对应的关系;
通过HTML的dom节点来实现句段Segment和HTML之间的联动,达到实时预览译文的效果;
所述循环递归算法包括如下步骤:
定义Atom类型的类,这个类有两个类型定义为标签Tag和文本;类Atom为自定义类;
将句段列表中的句段Segment内容定义为Atom的文本,句段Segment的标号定义为Atom的标签Tag;
算法会循环读取每个Atom,根据Atom的类型来判断是否放入文本池;
将文本池中的每个Atom与Atom的标签Tag对应,最终形成一个新的带id映射的HTML子标签的集合;
其中,每个句段Segment是由一个或者多个Atom组成;HTML的子标签是由一个Atom的标签Tag构成;
所述句段Segment和HTML之间的联动的方法为:将Atom的标签Tag嵌入到HTML子标签中。
2.根据权利要求1所述的在线辅助翻译的译文实时预览方法,其特征在于,所述原文文件格式是doc、docx、rtf、xls、xlsx、ppt、pptx、pdf、sxw、stw、sxc、stc。
3.根据权利要求2所述的在线辅助翻译的译文实时预览方法,其特征在于,所述将原文文件转换成HTML格式,具体方法为利用word自身的转换功能或者其他第三方工具进行转换。
CN202010260294.7A 2020-04-03 2020-04-03 一种在线辅助翻译的译文实时预览方法 Active CN111401000B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010260294.7A CN111401000B (zh) 2020-04-03 2020-04-03 一种在线辅助翻译的译文实时预览方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010260294.7A CN111401000B (zh) 2020-04-03 2020-04-03 一种在线辅助翻译的译文实时预览方法

Publications (2)

Publication Number Publication Date
CN111401000A CN111401000A (zh) 2020-07-10
CN111401000B true CN111401000B (zh) 2023-06-20

Family

ID=71434942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010260294.7A Active CN111401000B (zh) 2020-04-03 2020-04-03 一种在线辅助翻译的译文实时预览方法

Country Status (1)

Country Link
CN (1) CN111401000B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985255A (zh) * 2020-09-01 2020-11-24 北京中科凡语科技有限公司 翻译方法、翻译装置、电子设备及存储介质
CN113705158B (zh) * 2021-09-26 2024-05-24 上海一者信息科技有限公司 一种文档翻译中智能还原原文样式的方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102388383A (zh) * 2006-12-08 2012-03-21 帕特里克·J·霍尔 在线计算机辅助翻译
CN102567384A (zh) * 2010-12-29 2012-07-11 盛乐信息技术(上海)有限公司 基于网页浏览器引擎的网页多语言动态切换方法及系统
CN102929867A (zh) * 2011-11-03 2013-02-13 微软公司 用于自动化的文档翻译的技术
CN104965866A (zh) * 2015-06-05 2015-10-07 小米科技有限责任公司 一种建立标签与样式规则绑定关系的方法和装置
CN105069000A (zh) * 2015-08-24 2015-11-18 中译语通科技(北京)有限公司 一种交互式预测输入法
CN105468697A (zh) * 2015-11-18 2016-04-06 成都优译信息技术有限公司 用于翻译教学系统的自动定位方法
CN105573969A (zh) * 2006-10-02 2016-05-11 谷歌公司 在带有翻译后的文本的用户界面中显示原始文本
CN105760542A (zh) * 2016-03-15 2016-07-13 腾讯科技(深圳)有限公司 一种显示控制方法、终端及服务器
CN106649271A (zh) * 2016-12-19 2017-05-10 成都优译信息技术股份有限公司 一种基于翻译的word文档解析方法
CN107885735A (zh) * 2017-11-21 2018-04-06 语联网(武汉)信息技术有限公司 一种格式无关的文档翻译方法及系统
CN109145260A (zh) * 2018-08-24 2019-01-04 北京科技大学 一种文本信息自动提取方法
CN110263351A (zh) * 2019-06-17 2019-09-20 深圳前海微众银行股份有限公司 一种网页的多语言翻译方法、装置及设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105573969A (zh) * 2006-10-02 2016-05-11 谷歌公司 在带有翻译后的文本的用户界面中显示原始文本
CN102388383A (zh) * 2006-12-08 2012-03-21 帕特里克·J·霍尔 在线计算机辅助翻译
CN102567384A (zh) * 2010-12-29 2012-07-11 盛乐信息技术(上海)有限公司 基于网页浏览器引擎的网页多语言动态切换方法及系统
CN102929867A (zh) * 2011-11-03 2013-02-13 微软公司 用于自动化的文档翻译的技术
CN104965866A (zh) * 2015-06-05 2015-10-07 小米科技有限责任公司 一种建立标签与样式规则绑定关系的方法和装置
CN105069000A (zh) * 2015-08-24 2015-11-18 中译语通科技(北京)有限公司 一种交互式预测输入法
CN105468697A (zh) * 2015-11-18 2016-04-06 成都优译信息技术有限公司 用于翻译教学系统的自动定位方法
CN105760542A (zh) * 2016-03-15 2016-07-13 腾讯科技(深圳)有限公司 一种显示控制方法、终端及服务器
CN106649271A (zh) * 2016-12-19 2017-05-10 成都优译信息技术股份有限公司 一种基于翻译的word文档解析方法
CN107885735A (zh) * 2017-11-21 2018-04-06 语联网(武汉)信息技术有限公司 一种格式无关的文档翻译方法及系统
CN109145260A (zh) * 2018-08-24 2019-01-04 北京科技大学 一种文本信息自动提取方法
CN110263351A (zh) * 2019-06-17 2019-09-20 深圳前海微众银行股份有限公司 一种网页的多语言翻译方法、装置及设备

Also Published As

Publication number Publication date
CN111401000A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
US7472343B2 (en) Systems, methods and computer programs for analysis, clarification, reporting on and generation of master documents for use in automated document generation
JP2004334791A (ja) 機械翻訳装置、データ処理方法及びプログラム
CN111401000B (zh) 一种在线辅助翻译的译文实时预览方法
CN110413574A (zh) 一种自动生成代码国际化资源的方法
Lewis et al. Developing ODIN: A multilingual repository of annotated language data for hundreds of the world's languages
Goodman et al. Xigt: extensible interlinear glossed text for natural language processing
US20150199422A1 (en) Universal text representation with import/export support for various document formats
JP4304268B2 (ja) 複数言語対訳テキスト入力による第3言語テキスト生成アルゴリズム及び装置、プログラム
Sautter et al. Semi-automated XML markup of biosystematic legacy literature with the GoldenGATE editor
CN101866331A (zh) 不同语种xml文档的转换方法及装置
Jacobson et al. Linguistic documents synchronizing sound and text
Durrani et al. Improving Egyptian-to-English SMT by mapping Egyptian into MSA
CN113033177A (zh) 一种电子病历数据的解析方法及装置
JP5994150B2 (ja) 文書作成方法、文書作成装置及び文書作成プログラム
Haverinen et al. Accurate conversion of dependency parses: targeting the Stanford scheme
WO2008075087A1 (en) Code translator and method of automatically translating modelling language code to hardware language code
Kumar et al. A machine assisted human translation system for technical documents
Komen Cesax: Coreference editor for syntactically annotated XML corpora
Senellart et al. SYSTRAN translation stylesheets: machine translation driven by XSLT
Filip et al. Internationalization Tag Set (ITS) Version 2.0
Hung Reuse of free online MT engines to develop a meta-system of multilingual machine translation
Huang et al. Quality Assurance of Automatic Annotation of Very Large Corpora: a Study based on heterogeneous Tagging System.
Boitet et al. Towards Higher Quality Internal and Outside Multilingualization of Web Sites
Choumane et al. Integrating translation services within a structured editor
Korkiakangas A digital diplomatic edition of the 10th-century charters of Lucca for Latin corpus linguistics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant