[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN106649294B - 一种分类模型的训练及其从句识别方法和装置 - Google Patents

一种分类模型的训练及其从句识别方法和装置 Download PDF

Info

Publication number
CN106649294B
CN106649294B CN201611250331.6A CN201611250331A CN106649294B CN 106649294 B CN106649294 B CN 106649294B CN 201611250331 A CN201611250331 A CN 201611250331A CN 106649294 B CN106649294 B CN 106649294B
Authority
CN
China
Prior art keywords
english
sentence
classification model
training
identifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611250331.6A
Other languages
English (en)
Other versions
CN106649294A (zh
Inventor
郭祥
杨君
赵博洋
田东东
王思月
柴静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
3600 Technology Group Co ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201611250331.6A priority Critical patent/CN106649294B/zh
Publication of CN106649294A publication Critical patent/CN106649294A/zh
Application granted granted Critical
Publication of CN106649294B publication Critical patent/CN106649294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明实施例提供了一种分类模型的训练及其从句识别方法和装置,该训练方法包括:将具有英文从句的英文句子设置为训练样本;将所述训练样本转换为特征文本序列;采用所述特征文本序列训练用于识别英文从句的分类模型。使得可以自动识别英文句子所包含的从句的类型,提高了英文句子的信息多样性,减少用户人工通过查询其他资料对英文语句进行对比,不仅可以减少花费的时间,提高效率,而且,在对知识掌握较少的情况下减少出错的几率。

Description

一种分类模型的训练及其从句识别方法和装置
技术领域
本发明涉及计算机处理的技术领域,特别是涉及一种英文从句的分类模型的训练方法、一种基于分类模型识别英文从句的方法和相应的一种英文从句的分类模型的训练装置、一种基于分类模型识别英文从句的装置。
背景技术
随着全球化的发展,英语作为国际通用语言之一,已成为人们学习的基础学科之一。
人们在阅读英文文章、观看英文电影时,遇到不懂的英文句子,大多数人都会借助翻译应用进行翻译。
目前的翻译应用往往是对英文句子进行翻译,获得相应的含义,但是,对于具有学习目的的人们而言,尤其是学生,会对该英文语句具有其他需求,此时,需要人们人工通过查询其他资料对英文语句进行对比,不仅花费较多时间,导致效率较低,而且在对知识掌握较少的情况下容易出错。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种英文从句的分类模型的训练方法、一种基于分类模型识别英文从句的方法和相应的一种英文从句的分类模型的训练装置、一种基于分类模型识别英文从句的装置。
依据本发明的一个方面,提供了一种英文从句的分类模型的训练方法,包括:
将具有英文从句的英文句子设置为训练样本;
将所述训练样本转换为特征文本序列;
采用所述特征文本序列训练用于识别英文从句的分类模型。
可选地,所述将所述训练样本转换为特征文本序列的步骤包括:
识别所述训练样本的组成结构;
采用所述组成结构形成特征序列文本。
可选地,所述采用所述特征文本序列训练用于识别英文从句的分类模型的步骤包括:
将所述特征文本序列输入卷积神经网络中;
在所述卷积神经网络中基于所述训练样本中单词的顺序、采用所述特征文本序列训练用于识别英文从句的分类模型。
根据本发明的另一方面,提供了一种基于分类模型识别英文从句的方法,包括:
确定待识别的英文句子;
将所述英文句子转换为特征文本序列;
将所述特征文本序列输入预置的分类模型,以识别所述英文句子所包含的从句类型。
可选地,所述从将所述英文句子转换为特征文本序列的步骤包括:
识别所述英文句子的组成结构;
采用所述组成结构形成特征序列文本。
可选地,所述将所述特征文本序列输入预置的分类模型,以识别所述英文句子所包含的从句类型的步骤包括:
将所述特征文本序列输入通过卷积神经网络训练的分类模型中;
在所述分类模型中基于所述英文句子中单词的顺序、采用所述特征文本序列识别所述英文句子所包含的从句类型。
根据本发明的另一方面,提供了一种英文从句的分类模型的训练装置,包括:
训练样本设置模块,适于将具有英文从句的英文句子设置为训练样本;
训练样本转换模块,适于将所述训练样本转换为特征文本序列;
分类模型训练模块,适于采用所述特征文本序列训练用于识别英文从句的分类模型。
可选地,所述训练样本转换模块包括:
样本结构识别子模块,适于识别所述训练样本的组成结构;
样本特征形成子模块,适于采用所述组成结构形成特征序列文本。
可选地,所述分类模型训练模块包括:
卷积神经网络输入子模块,适于将所述特征文本序列输入卷积神经网络中;
卷积神经网络训练子模块,适于在所述卷积神经网络中基于所述训练样本中单词的顺序、采用所述特征文本序列训练用于识别英文从句的分类模型。
根据本发明的另一方面,提供了一种基于分类模型识别英文从句的装置,包括:
英文句子确定模块,适于确定待识别的英文句子;
英文句子转换模块,适于将所述英文句子转换为特征文本序列;
从句类型识别模块,适于将所述特征文本序列输入预置的分类模型,以识别所述英文句子所包含的从句类型。
可选地,所述英文句子转换模块包括:
句子结构识别子模块,适于识别所述英文句子的组成结构;
句子特征形成子模块,适于采用所述组成结构形成特征序列文本。
可选地,所述从句类型识别模块包括:
分类模型输入子模块,适于将所述特征文本序列输入通过卷积神经网络训练的分类模型中;
分类模型识别子模块,适于在所述分类模型中基于所述英文句子中单词的顺序、采用所述特征文本序列识别所述英文句子所包含的从句类型。
本发明实施例将具有英文从句的英文句子设置为训练样本并转换为特征文本序列,采用该特征文本序列训练用于识别英文从句的分类模型,使得可以自动识别英文句子所包含的从句的类型,提高了英文句子的信息多样性,减少用户人工通过查询其他资料对英文语句进行对比,不仅可以减少花费的时间,提高效率,而且,在对知识掌握较少的情况下减少出错的几率。
本发明实施例将英文句子转换为特征文本序列并输入预置的分类模型,以识别英文句子所包含的从句类型,实现自动识别英文句子所包含的从句的类型,提高了英文句子的信息多样性,减少用户人工通过查询其他资料对英文语句进行对比,不仅可以减少花费的时间,提高效率,而且,在对知识掌握较少的情况下减少出错的几率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种英文信息的识别方法的步骤流程图;
图2A-图2E示出了根据本发明一个实施例的一种英文句子的识别操作示例图;
图3示出了根据本发明一个实施例的另一种英文信息的识别方法的步骤流程图;
图4示出了根据本发明一个实施例的一种英文从句的分类模型的训练方法的步骤流程图;
图5示出了根据本发明一个实施例的一种组成结构的识别示例图;
图6示出了根据本发明一个实施例的一种基于分类模型识别英文从句的方法的步骤流程图;
图7示出了根据本发明一个实施例的一种英文信息的识别装置的结构框图;
图8示出了根据本发明一个实施例的另一种英文信息的识别装置的结构框图;
图9示出了根据本发明一个实施例的一种英文从句的分类模型的训练装置的结构框图;以及
图10示出了根据本发明一个实施例的一种基于分类模型识别英文从句的装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1,示出了根据本发明一个实施例的一种英文信息的识别方法的步骤流程图,具体可以包括如下步骤:
步骤101,选择目标图像数据。
在具体实现中,本发明实施例可以应用于移动终端中,例如,手机、PDA(PersonalDigital Assistant,个人数字助理)、膝上型计算机、掌上电脑等等,本发明实施例对此不加以限制。
这些移动终端可以安装Windows、Android(安卓)、IOS、WindowsPhone等操作系统,在这些操作系统中,可以安装英文识别应用,以进行英文信息的识别,该英文识别应用可以为操作系统中的系统应用,也可以为第三方应用。
在本发明实施例中,英文识别应用可以依据用户的操作指令,选择记载有英文信息的目标图像数据,以待进行识别。
在具体实现中,英文识别应用可以通过如下方式选择目标图像数据:
一、拍摄。
在此方式中,移动终端配置有摄像头(camera),如图2A所示,用户启动英文识别应用之后,在英文识别应用的界面点击“拍照识句”的控件,弹出如图2B所示的菜单栏,用户可以点击“拍照”的控件。
英文识别应用可以依据该“拍照”控件,调用摄像头采集预览图像数据。
以Android系统为例,英文识别应用在先在manifest(应用程序的Java包)文件中声明对摄像头及其他相关的feature(功能,如自动对焦等)的使用。
在英文识别应用的主activity(活动组件)中使用intent(意图,如MediaStore.ACTION_IMAGE_CAPTURE)通知操作系统内置的摄像机应用,摄像机应用通过startActivityForResult()方法执行摄像头的intent,用户在使用摄像进行拍照过后将预览图像数据返回主activity,在主activity中加入接收预览图像数据的方法(如onActivityResult()方法),对返回的预览图像数据操作。
由于英文信息可能较少,为了减少其他事物的干扰、提高识别的精确度,可以在预览图像数据中加载预览框,例如,如图2C所示的四个角为白点的矩形,用户可以通过调节该预览框的形状、位置、大小,使得英文信息纳入该预览框的位置,而排除其他事物。
当然,用户也可以直接选取整帧预览图像数据作为目标图像数据,本发明实施例对此不加以限制。
若用户点击如图2C所示的“√”控件,则可以提取预览框中的预览图像数据,作为目标图像数据。
二、本地上传。
在此方式中,如图2A所示,用户启动英文识别应用之后,在英文识别应用的界面点击“拍照识句”的控件,弹出如图2B所示的菜单栏,用户可以点击“从手机相册中选择”的控件,从而选择本地的图像数据。
英文识别应用可以依据用户的选择,导入本地存储的图像数据,作为目标图像数据。
需要说明的是,移动终端本地存储的图像数据,可以是在先拍照获得的图像数据,也可以是截图获得的图像数据,还可以是其他方式获得的图像数据,本发明实施例对此不加以限制。
当然,上述选择目标图像数据的方式只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他选择目标图像数据的方式,本发明实施例对此不加以限制。另外,除了上述选择目标图像数据的方式外,本领域技术人员还可以根据实际需要采用其它选择目标图像数据的方式,本发明实施例对此也不加以限制。
步骤102,从所述目标图像数据中识别英文信息,并拆分出一个或多个英文句子。
对于目标图像数据,可以通过OCR(Optical Character Recognition,光学字符识别)从目标图像数据中识别英文信息。
在此种方式中,可以对目标图像数据进行预处理,包括二值化、噪声去除、倾斜较正等等,以提高识别的精度。
对于预处理之后的目标图像数据,可以抽取文字特征,通常包括如下两种:
1、统计的特征。例如,文字区域内的黑/白点数比,当文字区分成好几个区域时,这一个个区域黑/白点数比之联合,就成了空间的一个数值向量。
2、为结构的特征。例如,文字影像细线化后,取得字的笔划端点、交叉点之数量及位置,或以笔划段为特征。
将提取的特征与数据库中存储的所有欲识别的英文字母比对,选用欧式空间的比对方法、松弛比对法(Relaxation)、动态程序比对法(Dynamic Programming,DP)等方式,别出该特征对应的英文字母。
此后,可以利用比对后的英文字母与其可能的相似候选字群中,根据前后识别出的英文字母找出最合乎逻辑的英文字母,进行更正。
在本发明实施例中,目标图像数据中可能包含一个或多个英文句子,则可以基于句号等方式识别拆分出每一个句子。
在实际应用中,为了节省移动终端的资源消耗,英文信息的识别、英文句子的拆分可以由服务器执行。
则在此方式中,英文识别应用可以将目标图像数据发送至服务器,服务器通过光学字符识别方式从目标图像数据识别英文信息,从英文信息中拆分出一个或多个英文句子,并返回英文识别应用。
英文识别应用接收服务器返回的,通过光学字符识别方式从目标图像数据识别的英文信息,及从英文信息中拆分出的一个或多个英文句子。
如图2D所示,由于服务器进行英文信息的识别、英文句子的拆分需要耗费一些时间,则在英文识别应用的界面中显示“正在识别…”等信息,提示用户等待。
当然,英文信息的识别、英文句子的拆分也可以由英文识别应用执行,本发明实施例对此不加以限制。
步骤103,将所述英文句子拆为各个单词可点选的交互元素,以及,识别所述英文句子的句式因子。
在本发明实施例中,可以将组成英文句子的各个单词进行拆分,之后生成可点选的交互元素,如JSON(JavaScript Object Notatio,种轻量级的数据交换格式)数据等。
每一个单词可以生成一个独立的交互元素,即该交互元素中通过记载单词等形式代表该单词,这些交互元素按照单词的分布而分布,可以组成完整的英文句子。
用户可以通过点击等方式选择一个或多个交互元素进而选择一个或多个单词,以便对选择的单词进行翻译等操作。
例如,如图2E所示,对于英文句子“The question whether it is right orwrong depends on the result”,可以分别对“The”、“question”、“whether”、“it”、“is”、“right”、“or”、“wrong”、“depends”、“on”、“the”、“result”各生成一个可点选的交互元素。
此外,还可以识别英文句子的句式因子,即该英文句子中的英文属性,以方便用户进行查询。
在本发明实施例中,句式因子可以包括如下的一种或多种:
1、句子结构
英语句子的结构可以包括如下的一种或多种:
1.1、主谓结构,在此结构中,谓语是不及物动词,例如,He runs quickly.(他跑得快。)
1.2、主系表结构,在此结构中,谓语是系动词,例如,He is older than helooks.(他比看上去要老。)
1.3、主谓宾结构,在此结构中,谓语是及物动词,因此有宾语,例如,I saw a filmyesterday.(我昨天看了一部电影。)
1.4、主谓双宾结构,在此结构中,谓语是带有双宾语的及物动词,例如,He gaveme a book/a book to me.(他给我一本书。)
1.5、主谓宾补结构,在此结构中,谓语是有宾语补足语的及物动词,例如,Theymade the girl angry.(他们使这个女孩生气了。)
2、从句类型
从句(Subordinate Clause)是相对于主句而言的,即在复合句中,从句从属于某一个主句,而不能单独作一个句子,但具有主语部分和谓语部分,由that、who、when等引导词(Connective)引导。
在英语中,主要有三种从句,即名词性从句(包括主语从句,宾语从句,表语从句,同位语从句)、形容词性从句(即定语从句)、副词性从句(即状语从句,包括时间、条件、结果、目的、原因、让步、地点、方式等)。
具体而言:
2.1、主语从句,在复合句中用作主语的句子叫做主语从句。
例如,That he finished writing the composition in such a short timesurprised us all.(他在这么短的时间就写完了这篇作文让我们吃惊。)
2.2、宾语从句,在复合句中用作宾语的句子叫做主语从句。
例如,Tell him which class you are in.(告诉他你在哪个阶级。)
2.3、表语从句,在复合句中用作表语的句子叫做主语从句。
例如,China is no longer what she used to be.(今日的中国不再是过去的中国了。)
2.4、同位语从句,在复合句中用作同位语的句子叫同位语从句。
例如,I heard the news that our team had won.(我听到了我们队获胜的消息。)
2.5、定语从句,在复合句中用作定语的句子叫同位语从句。
例如,The dog that/which was lost has been found.(失踪的狗已经找到了。)
2.6、状语从句,在复合句中用作状语的句子叫同位语从句。
例如,I will not go to her party if she doesn’t invite me.(我不会去参加她的聚会,如果她不邀请我。)
在本发明的一个实施例中,可以通过如下方式识别从句类型:
子步骤S1031,确定待识别的英文句子;
子步骤S1032,将所述英文句子转换为特征文本序列;
子步骤S1033,将所述特征文本序列输入预置的分类模型,以识别所述英文句子所包含的从句类型。
在本发明实施例中,由于子步骤S1031、子步骤S1032和子步骤S1033与步骤501、步骤502、步骤503的应用基本相似,所以描述的比较简单,相关之处参见步骤501、步骤502、步骤503的部分说明即可,本发明实施例在此不加以详述。
3、句子时态
英语句子的时态可以包括如下的一种或多种:
3.1、一般现在时,表示经常性的事情、经常性的动作或一般性事实。
例如,She doesn't often write to her family,only once a month.(她不常给家里写信,仅一月一封而已。)
3.2、一般过去时,可以用来描述在过去某个时候发生的动作或存在的状态,也可以用来表示在过去某段时间里经常发生的习惯性动作。
例如,He got his driving license last month.(他上个月拿到了驾照。)
3.3、一般将来时,可以用来描述将要发生的动作或存在于未来的情况。
例如,He will arrive here this evening.(他今晚抵达这里。)
3.4、现在进行时,可以用来描述“说话、写文章的当刻”正在发生的动作,或是“现阶段”一直在进行的动作。
例如,They are having a football match.(他们正在赛足球。)
3.5、过去进行时,可以表示在过去的某个时间点上正在发生、进行的动作。
例如,At this moment yesterday,I was packing for camp.(昨天这个时候,我正在收拾东西去露营。)
3.6、过去完成时,表示过去完成时表示在过去某一时间或动作之前已经发生或完成了的动作。
例如,When I woke up,it had stopped raining.(我醒来时,雨已经停了。)
4、词性
词性又叫词类,英语单词根据其在句子中的功用,可以包括如下的一种或多种:
4.1、名词(noun,n.),例如,student(学生)。
4.2、代词(pronoun,pron.),例如,you(你)。
4.3、形容词(adjective,adj.),例如,happy(高兴的)。
4.4、副词(adverb,adv.),例如,quickly(迅速地)。
4.5、动词(verb,v.),例如,cut(砍、割)。
4.6、数词(numeral,num.),例如,three(三)。
4.7、冠词(article,art.),例如,a(一个)。
4.8、介词(preposition,prep.),例如,at(在)。
4.9、连词(conjunction,conj.),例如,and(和)。
4.10、感叹词(interjection,interj.),例如,oh(哦)。
需要说明的是,一个英文单词可能会有多个词性,本发明实施例中的词性,可以指英文单词在待识别的英文句子中的词性,可以通过上下文信息辅助识别英文单词在待识别的英文句子中的词性。
当然,上述句式因子只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他句式因子,本发明实施例对此不加以限制。另外,除了上述句式因子外,本领域技术人员还可以根据实际需要采用其它句式因子,本发明实施例对此也不加以限制。
由于句式因子的数据量可能较多,因此,可以分批识别、展示句式因子,也可以一起识别、分批展示句式因子,本发明实施例对此不加以限制。
例如,如图2E所示的界面,若用户点击“句式分析”的控件,则可以展示句子结构、从句类型,若用户点击“时态分析”的控件,则可以展示句子时态,若用户点击“词性分析”的控件,则可以展示词性。
在实际应用中,为了节省移动终端的资源消耗,英文单词的拆分、句式因子的识别可以由服务器执行。
则在此方式中,英文识别应用可以将英文句子发送至服务器,服务器从英文句子拆分出各个单词,以及,从英文句子识别的句子结构、从句类型、句子时态、单词在英文句子中的词性中的一个或多个信息,并返回英文识别应用。
英文识别应用接收服务器返回的,从英文句子拆分出的各个单词,以及,从英文句子识别的句子结构、从句信息、句子时态、单词在英文句子中的词性中的一个或多个信息。
此后,英文识别应用在界面中,以各个单词生成可点选的交互元素。
当然,英文单词的拆分、句式因子的识别也可以由英文识别应用执行,本发明实施例对此不加以限制。
本发明实施例从选择的目标图像数据中识别英文信息,并拆分出一个或多个英文句子,将英文句子拆为各个单词可点选的交互元素,以及,识别英文句子的句式因子,一方面,用户可以通过交互元素中选择所需的一个或多个单词进行后续的翻译等操作,另一方面,自动识别英文句子的句式因子,提高了英文句子的信息多样性,减少用户人工通过查询其他资料对英文语句进行对比,不仅可以减少花费的时间,提高效率,而且,在对知识掌握较少的情况下减少出错的几率。
参照图3,示出了根据本发明一个实施例的另一种英文信息的识别方法的步骤流程图,具体可以包括如下步骤:
步骤301,选择目标图像数据。
步骤302,从所述目标图像数据中识别英文信息,并拆分出一个或多个英文句子。
步骤303,将所述英文句子拆为各个单词可点选的交互元素,以及,识别所述英文句子的句式因子。
步骤304,从所述一个或多个英文句子中选择一个或多个目标英文句子。
步骤305,对所述一个或多个目标英文句子进行翻译,获得目标语言信息。
在本发明实施例中,用户可以从识别出的英语句子中选择目标英文句子进行翻译,获得所需的目标语言信息,如中文译文、韩语译文、葡语译文等等。
例如,如图2E所示,对于英文句子“The question whether it is right orwrong depends on the result”,可以翻译成“问题是对还是错,取决于结果”。
需要说明的是,对于英语句子,可以是单句翻译,也可以是多句翻译。
在实际应用中,为了节省移动终端的资源消耗,目标英文句子的翻译可以由服务器执行。
则在此方式中,英文识别应用可以将一个或多个目标英文句子发送至服务器,服务器将该一个或多个目标英文句子进行翻译,获得目标语言信息,并返回英文识别应用。
英文识别应用接收所述服务器返回的,翻译所述一个或多个目标英文句子获得的目标语言信息。
当然,目标英文句子的翻译也可以由英文识别应用执行,本发明实施例对此不加以限制。
步骤306,基于所述交互元素从所述英文句子中的单词选择目标单词。
步骤307,对所述目标单词进行翻译,获得目标语言信息。
在本发明实施例中,用户可以从某个英语句子中选择目标单词进行翻译,获得所需的目标语言信息,如中文译文、韩语译文、葡语译文等等。
例如,如图2E所示,对于英文句子“The question whether it is right orwrong depends on the result”,用户可以点击选择“question”、“depends”、“on”作为目标单词,点击“翻”控件进行翻译。
在实际应用中,为了节省移动终端的资源消耗,目标单词的翻译可以由服务器执行。
则在此方式中,英文识别应用可以将目标单词发送至服务器,服务器对该目标单词进行翻译,获得目标语言信息,并返回英文识别应用。
英文识别应用接收服务器返回的,翻译目标单词获得的目标语言信息。
当然,目标单词的翻译也可以由英文识别应用执行,本发明实施例对此不加以限制。
参照图4,示出了根据本发明一个实施例的一种英文从句的分类模型的训练方法的步骤流程图,具体可以包括如下步骤:
步骤401,将具有英文从句的英文句子设置为训练样本。
在本发明实施例中,可以收集英文从句(Subordinate Clause)作为分类模型的训练样本。
所谓从句,是相对于主句而言的,即在复合句中,从句从属于某一个主句,而不能单独作一个句子,但具有主语部分和谓语部分,由that、who、when等引导词(Connective)引导。
在英语中,主要有三种从句,即名词性从句(包括主语从句,宾语从句,表语从句,同位语从句)、形容词性从句(即定语从句)、副词性从句(即状语从句,包括时间、条件、结果、目的、原因、让步、地点、方式等)。
具体而言:
主语从句,在复合句中用作主语的句子叫做主语从句。
例如,That he finished writing the composition in such a short timesurprised us all.(他在这么短的时间就写完了这篇作文让我们吃惊。)
宾语从句,在复合句中用作宾语的句子叫做主语从句。
例如,Tell him which class you are in.(告诉他你在哪个阶级。)
表语从句,在复合句中用作表语的句子叫做主语从句。
例如,China is no longer what she used to be.(今日的中国不再是过去的中国了。)
同位语从句,在复合句中用作同位语的句子叫同位语从句。
例如,I heard the news that our team had won.(我听到了我们队获胜的消息。)
定语从句,在复合句中用作定语的句子叫同位语从句。
例如,The dog that/which was lost has been found.(失踪的狗已经找到了。)
状语从句,在复合句中用作状语的句子叫同位语从句。
例如,I will not go to her party if she doesn’t invite me.(我不会去参加她的聚会,如果她不邀请我。)
步骤402,将所述训练样本转换为特征文本序列。
在具体实现中,可以识别训练样本(即英文从句)的特征,以特征替换该训练样本(即英文从句),形成特征文本序列。
在本发明的一个实施例中,步骤402可以包括如下子步骤:
子步骤S4021,识别所述训练样本的组成结构;
子步骤S4022,采用所述组成结构形成特征序列文本。
在本发明实施例中,可以预先配置斯坦福句法分析器(stanford parser),其中,斯坦福句法分析器是一个词汇化的概率上下文无关语法分析器,同时也使用了依存分析。
通过斯坦福句法分析器(stanford parser),可以对训练样本(即英文从句)进行做依存句法分析,输出英文句子的依存关系。
斯坦福句法分析器(stanford parser)被用于自然语言处理,主要实现以下几个功能:
1)识别并标记句中单词的词性;
2)创建一个句子中两两单词间的语法关系Stanford Dependencies;
3)得到一个句子的语法结构。
进一步而言,该斯坦福句法分析器(stanford parser)可以给出一个句子的句法解析树,以及每个单词的词性和组成成分。
对于英文从句,英文单词本身并没有太多的意义,英文句子的组成结构是强特征,因此,本发明实施例可以抽取强特征,去除无用特征。
在一个示例中,如图5所示,通过斯坦福句法分析器(stanford parser)对英文句子“The boy who is presenting the powerpoint is the most handsome man.”进行依存句法分析,可以转换为特征文本序列“ROOT S NP DT NN SBAR WHNP WP S VP VBZ VPVBG NP DT JJ VP VBZ NP DT RBS JJ NN.”其中,ROOT表示要处理文本的语句、NP表示名词短语、DT(determiner)表示限定词、NN表示常用名词,等等。
除了斯坦福句法分析器之外,还可以采用其他方式识别训练样本的组成结构,本发明实施例对此不加以限制。
步骤403,采用所述特征文本序列训练用于识别英文从句的分类模型。
在实际应用中,可以通过机器学习的方法,采用特征文本序列进行训练,以获得用于识别英文从句的分类模型。
在本发明的一个实施例中,步骤403可以包括如下子步骤:
子步骤S4031,将所述特征文本序列输入卷积神经网络中;
子步骤S4032,在所述卷积神经网络中基于所述训练样本中单词的顺序、采用所述特征文本序列训练用于识别英文从句的分类模型。
卷积神经网络(Convolutional Neural Network,CNN)是一个前溃式神经网络,能从一个二维图像中提取其拓扑结构,采用反向传播算法来优化网络结构,求解网络中的未知参数。
对于自然语言处理(Natural Language Processing,NLP),输入卷积神经网络的不再是像素点了,而是以矩阵等形式表示的特征文本序列,这个矩阵相当于是一幅“图像”。
卷积神经网络在分类时,可以考虑到英文句子中单词中词的顺序,从而学习到英语从句的句式结构。
在具体实现中,卷积神经网络结构包括:卷积层,降采样层,全链接层。每一层有多个特征图,每个特征图通过一种卷积滤波器提取输入的一种特征,每个特征图有多个神经元。
卷积层:使用卷积层的原因是卷积运算的一个重要特点是,通过卷积运算,可以使原信号特征增强,并且降低噪音。
降采样层:使用降采样的原因是,根据图像局部相关性的原理,对图像进行子采样可以减少计算量,同时保持图像旋转不变性。
采样的目的主要是混淆特征的具体位置,因为某个特征找出来后,它的具体位置已经不重要了,我们只需要这个特征与其他的相对位置,比如一个“8”,当我们得到了上面一个"o"时,我们不需要知道它在图像的具体位置,只需要知道它下面又是一个“o”我们就可以知道是一个'8'了,因为图片中"8"在图片中偏左或者偏右都不影响我们认识它,这种混淆具体位置的策略能对变形和扭曲的图片进行识别。
全连接层:采用softmax全连接,得到的激活值即卷积神经网络提取到的图片特征。
构造好卷积神经网络之后,对卷积神经进行求解,训练主要包括四步,这四步被分为两个阶段:
第一阶段,向前传播阶段:
1)、从样本集中取一个样本,输入卷积神经;
2)、计算相应的实际输出;在此阶段,信息从输入层经过逐级的变换,传送到输出层。
第二阶段,向后传播阶段:
1)、计算实际输出与相应的理想输出的差;
2)、按极小化误差的方法调整权矩阵。
进一步而言,网络的训练过程如下:
(1)、选定训练组,从样本集中分别随机地寻求N个样本作为训练组;
(2)、将各权值、阈值,置成小的接近于0的随机值,并初始化精度控制参数和学习率;
(3)、从训练组中取一个输入模式加到网络,并给出它的目标输出向量;
(4)、计算出中间层输出向量,计算出网络的实际输出向量;
(5)、将输出向量中的元素与目标向量中的元素进行比较,计算出输出误差;对于中间层的隐单元也需要计算出误差;
(6)、依次计算出各权值的调整量和阈值的调整量;
(7)、调整权值和调整阈值;
(8)、当经历M后,判断指标是否满足精度要求,如果不满足,则返回(3),继续迭代;如果满足就进入下一步;
(9)、训练结束,将权值和阈值保存在文件中。这时可以认为各个权值已经达到稳定,分类器已经形成。再一次进行训练,直接从文件导出权值和阈值进行训练,不需要进行初始化。
除了卷积神经网络之外,还可以采用其他机器学习的方法训练用于识别英文从句的分类模型,例如,SVM(Support Vector Machine,支持向量机)、adaboost等等,本发明实施例对此不加以限制。
本发明实施例将具有英文从句的英文句子设置为训练样本并转换为特征文本序列,采用该特征文本序列训练用于识别英文从句的分类模型,使得可以自动识别英文句子所包含的从句的类型,提高了英文句子的信息多样性,减少用户人工通过查询其他资料对英文语句进行对比,不仅可以减少花费的时间,提高效率,而且,在对知识掌握较少的情况下减少出错的几率。
参照图6,示出了根据本发明一个实施例的一种基于分类模型识别英文从句的方法的步骤流程图,具体可以包括如下步骤:
步骤601,确定待识别的英文句子。
在具体实现中,如图2E所示的界面,针对某一个英文句子,若用户点击“句式分析”的控件,则可以以该英文句子作为待识别的英文句子,以识别句子结构、从句类型。
此时,如果句式因子(包括从句类型)的识别可以由服务器执行,则服务器可以接收英文识别应用上传的英文句子作为待识别的英文句子。
当然,如果句式因子(包括从句类型)的识别可以由英文识别应用执行,则英文识别应用可以直接提取该英文句子作为待识别的英文句子。
此外,除了上述方式之外,还可以采用其他方式确定待识别的英文句子,例如,用户直接输入待识别的英文句子,等等,本发明实施例对此不加以限制。
步骤602,将所述英文句子转换为特征文本序列。
在具体实现中,可以识别英文句子的特征,以特征替换该英文句子,形成特征文本序列。
在本发明的一个实施例中,步骤602可以包括如下子步骤:
子步骤S6021,识别所述英文句子的组成结构;
子步骤S6022,采用所述组成结构形成特征序列文本。
在本发明实施例中,可以预先配置斯坦福句法分析器(stanford parser),其中,斯坦福句法分析器是一个词汇化的概率上下文无关语法分析器,同时也使用了依存分析。
通过斯坦福句法分析器(stanford parser),可以对训练样本(即英文从句)进行做依存句法分析,输出英文句子的依存关系。
斯坦福句法分析器(stanford parser)被用于自然语言处理,主要实现以下几个功能:
1)识别并标记句中单词的词性;
2)创建一个句子中两两单词间的语法关系Stanford Dependencies;
3)得到一个句子的语法结构。
进一步而言,该斯坦福句法分析器(stanford parser)可以给出一个句子的句法解析树,以及每个单词的词性和组成成分。
对于英文从句,英文单词本身并没有太多的意义,英文句子的组成结构是强特征,因此,本发明实施例可以抽取强特征,去除无用特征。
在一个示例中,如图5所示,通过斯坦福句法分析器(stanford parser)对英文句子“The boy who is presenting the powerpoint is the most handsome man.”进行依存句法分析,可以转换为特征文本序列“ROOT S NP DT NN SBAR WHNP WP S VP VBZ VPVBG NP DT JJ VP VBZ NP DT RBS JJ NN.”其中,ROOT表示要处理文本的语句、NP表示名词短语、DT(determiner)表示限定词、NN表示常用名词,等等。
除了斯坦福句法分析器之外,还可以采用其他方式识别英文句子的组成结构,本发明实施例对此不加以限制。
步骤603,将所述特征文本序列输入预置的分类模型,以识别所述英文句子所包含的从句类型。
应用本发明实施例,可以通过机器学习的方法,采用训练样本转换成的特征文本序列进行训练,以获得用于识别英文从句的分类模型。
在本发明的一个实施例中,可以通过如下方式训练该分类模型:
子步骤S6031,将具有英文从句的英文句子设置为训练样本;
子步骤S6032,将所述训练样本转换为特征文本序列;
子步骤S6033,采用所述特征文本序列训练用于识别英文从句的分类模型。
在本发明实施例中,由于子步骤S6031、子步骤S6032和子步骤S6033与步骤401、步骤402、步骤403的应用基本相似,所以描述的比较简单,相关之处参见步骤401、步骤402、步骤403的部分说明即可,本发明实施例在此不加以详述。
在具体实现中,可以将特征文本序列输入该分类模型,以识别出该英文句子所包含的从句类型。
在本发明的一个实施例中,步骤603可以包括如下子步骤:
子步骤S6034,将所述特征文本序列输入通过卷积神经网络训练的分类模型中;
子步骤S6035,在所述分类模型中基于所述英文句子中单词的顺序、采用所述特征文本序列识别所述英文句子所包含的从句类型。
在本发明实施例中,分类模型基于卷积神经网络进行训练。
卷积神经网络在分类时,可以考虑到英文句子中单词中词的顺序,从而学习到英语从句的句式结构,从而识别英文句子所包含的从句类型。
本发明实施例将英文句子转换为特征文本序列并输入预置的分类模型,以识别英文句子所包含的从句类型,实现自动识别英文句子所包含的从句的类型,提高了英文句子的信息多样性,减少用户人工通过查询其他资料对英文语句进行对比,不仅可以减少花费的时间,提高效率,而且,在对知识掌握较少的情况下减少出错的几率。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图7,示出了根据本发明一个实施例的一种英文信息的识别装置的结构框图,具体可以包括如下模块:
目标图像数据选择模块701,适于选择目标图像数据;
句子拆分模块702,适于从所述目标图像数据中识别英文信息,并拆分出一个或多个英文句子;
句子属性识别模块703,适于将所述英文句子拆为各个单词可点选的交互元素,以及,识别所述英文句子的句式因子。
在本发明的一个实施例中,所述目标图像数据选择模块701包括:
预览图像数据采集子模块,适于调用摄像头采集预览图像数据;
预览框加载子模块,适于在所述预览图像数据中加载预览框;
预览图像数据提取子模块,适于提取所述预览框中的预览图像数据,作为目标图像数据;
和/或,
图像数据导入子模块,适于导入本地存储的图像数据,作为目标图像数据。
在本发明的一个实施例中,所述句子拆分模块702包括:
目标图像数据发送子模块,适于将所述目标图像数据发送至服务器;
拆分信息接收子模块,适于接收所述服务器返回的,通过光学字符识别方式从所述目标图像数据识别的英文信息,及从所述英文信息中拆分出的一个或多个英文句子。
在本发明的一个实施例中,所述句子属性识别模块703包括:
英文句子发送子模块,适于将所述英文句子发送至服务器;
句子属性接收子模块,适于接收所述服务器返回的,从所述英文句子拆分出的各个单词,以及,从所述英文句子识别的句子结构、从句类型、句子时态、单词在所述英文句子中的词性中的一个或多个信息;
以各个单词生成可点选的交互元素。
参照图8,示出了根据本发明一个实施例的另一种英文信息的识别装置的结构框图,具体可以包括如下模块:
目标图像数据选择模块801,适于选择目标图像数据;
句子拆分模块802,适于从所述目标图像数据中识别英文信息,并拆分出一个或多个英文句子;
句子属性识别模块803,适于将所述英文句子拆为各个单词可点选的交互元素,以及,识别所述英文句子的句式因子。
目标英文句子选择模块804,适于从所述一个或多个英文句子中选择一个或多个目标英文句子;
目标英文句子翻译模块805,适于对所述一个或多个目标英文句子进行翻译,获得目标语言信息。
目标单词选择模块806,适于基于所述交互元素从所述英文句子中的单词选择目标单词;
目标单词翻译模块807,适于对所述目标单词进行翻译,获得目标语言信息。
在本发明的一个实施例中,所述目标英文句子翻译模块805包括:
目标英文句子发送子模块,适于将所述一个或多个目标英文句子发送至服务器;
目标英文句子翻译信息接收子模块,适于接收所述服务器返回的,翻译所述一个或多个目标英文句子获得的目标语言信息。
在本发明的一个实施例中,所述目标单词翻译模块707包括:
目标单词发送子模块,适于将所述目标单词发送至服务器;
目标单词翻译信息接收子模块,适于接收所述服务器返回的,翻译所述目标单词获得的目标语言信息。
参照图9,示出了根据本发明一个实施例的一种英文从句的分类模型的训练装置的结构框图,具体可以包括如下模块:
训练样本设置模块901,适于将具有英文从句的英文句子设置为训练样本;
训练样本转换模块902,适于将所述训练样本转换为特征文本序列;
分类模型训练模块903,适于采用所述特征文本序列训练用于识别英文从句的分类模型。
在本发明的一个实施例中,所述训练样本转换模块902包括:
样本结构识别子模块,适于识别所述训练样本的组成结构;
样本特征形成子模块,适于采用所述组成结构形成特征序列文本。
在本发明的一个实施例中,所述分类模型训练模块903包括:
卷积神经网络输入子模块,适于将所述特征文本序列输入卷积神经网络中;
卷积神经网络训练子模块,适于在所述卷积神经网络中基于所述训练样本中单词的顺序、采用所述特征文本序列训练用于识别英文从句的分类模型。
参照图10,示出了根据本发明一个实施例的一种基于分类模型识别英文从句的装置的结构框图,具体可以包括如下模块:
英文句子确定模块1001,适于确定待识别的英文句子;
英文句子转换模块1002,适于将所述英文句子转换为特征文本序列;
从句类型识别模块1003,适于将所述特征文本序列输入预置的分类模型,以识别所述英文句子所包含的从句类型。
在本发明的一个实施例中,所述英文句子转换模块1002包括:
句子结构识别子模块,适于识别所述英文句子的组成结构;
句子特征形成子模块,适于采用所述组成结构形成特征序列文本。
在本发明的一个实施例中,所述从句类型识别模块1003包括:
分类模型输入子模块,适于将所述特征文本序列输入通过卷积神经网络训练的分类模型中;
分类模型识别子模块,适于在所述分类模型中基于所述英文句子中单词的顺序、采用所述特征文本序列识别所述英文句子所包含的从句类型。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的英文从句的分类模型的训练设备、基于分类模型识别英文从句的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (12)

1.一种英文从句的分类模型的训练方法,包括:
将具有英文从句的英文句子设置为训练样本;
将所述训练样本转换为特征文本序列;
采用所述特征文本序列训练用于识别英文从句的分类模型;
该方法还包括:
从目标图像数据中识别英文信息,并拆分出一个或多个英文句子;
将所述英文句子拆分为各个单词可点选的交互元素,以及,识别所述英文句子的句式因子;
将被点选的交互元素进行翻译;或者
从所述一个或多个英文句子中选择一个或多个目标英文句子;
对所述一个或多个目标英文句子进行翻译,获得目标语言信息;
所述将所述训练样本转换为特征文本序列,包括:
根据所述训练样本中每个单词的词性,和所述训练样本中两两单词之间的语法关系,将所述训练样本转换为特征文本序列。
2.如权利要求1所述的方法,其特征在于,所述将所述训练样本转换为特征文本序列的步骤包括:
识别所述训练样本的组成结构;
采用所述组成结构形成特征序列文本。
3.如权利要求1或2所述的方法,其特征在于,所述采用所述特征文本序列训练用于识别英文从句的分类模型的步骤包括:
将所述特征文本序列输入卷积神经网络中;
在所述卷积神经网络中基于所述训练样本中单词的顺序、采用所述特征文本序列训练用于识别英文从句的分类模型。
4.一种基于分类模型识别英文从句的方法,包括:
确定待识别的英文句子;
将所述英文句子转换为特征文本序列;
将所述特征文本序列输入预置的分类模型,以识别所述英文句子所包含的从句类型;
该方法还包括:
从目标图像数据中识别英文信息,并拆分出一个或多个英文句子;
将所述英文句子拆分为各个单词可点选的交互元素,以及,识别所述英文句子的句式因子;
将被点选的交互元素进行翻译;或者
从所述一个或多个英文句子中选择一个或多个目标英文句子;
对所述一个或多个目标英文句子进行翻译,获得目标语言信息;
所述将所述英文句子转换为特征文本序列,包括:
根据所述英文句子中每个单词的词性,和所述英文句子中两两单词之间的语法关系,将所述英文句子转换为特征文本序列。
5.如权利要求4所述的方法,其特征在于,所述将所述英文句子转换为特征文本序列的步骤包括:
识别所述英文句子的组成结构;
采用所述组成结构形成特征序列文本。
6.如权利要求5所述的方法,其特征在于,所述将所述特征文本序列输入预置的分类模型,以识别所述英文句子所包含的从句类型的步骤包括:
将所述特征文本序列输入通过卷积神经网络训练的分类模型中;
在所述分类模型中基于所述英文句子中单词的顺序、采用所述特征文本序列识别所述英文句子所包含的从句类型。
7.一种英文从句的分类模型的训练装置,包括:
训练样本设置模块,适于将具有英文从句的英文句子设置为训练样本;
训练样本转换模块,适于将所述训练样本转换为特征文本序列;
分类模型训练模块,适于采用所述特征文本序列训练用于识别英文从句的分类模型;
该装置还包括:
第一识别模块,适于从目标图像数据中识别英文信息,并拆分出一个或多个英文句子;将所述英文句子拆分为各个单词可点选的交互元素,以及,识别所述英文句子的句式因子;
训练样本设置模块,适于将被点选的交互元素进行翻译;
目标英文句子选择模块,适于从所述一个或多个英文句子中选择一个或多个目标英文句子;
目标英文句子翻译模块,适于对所述一个或多个目标英文句子进行翻译,获得目标语言信息;
所述训练样本转换模块,用于根据所述训练样本中每个单词的词性,和所述训练样本中两两单词之间的语法关系,将所述训练样本转换为特征文本序列。
8.如权利要求7所述的装置,其特征在于,所述训练样本转换模块包括:
样本结构识别子模块,适于识别所述训练样本的组成结构;
样本特征形成子模块,适于采用所述组成结构形成特征序列文本。
9.如权利要求7或8所述的装置,其特征在于,所述分类模型训练模块包括:
卷积神经网络输入子模块,适于将所述特征文本序列输入卷积神经网络中;
卷积神经网络训练子模块,适于在所述卷积神经网络中基于所述训练样本中单词的顺序、采用所述特征文本序列训练用于识别英文从句的分类模型。
10.一种基于分类模型识别英文从句的装置,包括:
英文句子确定模块,适于确定待识别的英文句子;
英文句子转换模块,适于将所述英文句子转换为特征文本序列;
从句类型识别模块,适于将所述特征文本序列输入预置的分类模型,以识别所述英文句子所包含的从句类型;
该装置还包括:
第二识别模块,用于从目标图像数据中识别英文信息,并拆分出一个或多个英文句子;将所述英文句子拆分为各个单词可点选的交互元素,以及,识别所述英文句子的句式因子;
英文句子确定模块,适于将被点选的交互元素进行翻译;
目标英文句子选择模块,适于从所述一个或多个英文句子中选择一个或多个目标英文句子;
目标英文句子翻译模块,适于对所述一个或多个目标英文句子进行翻译,获得目标语言信息;
所述英文句子转换模块,用于根据所述英文句子中每个单词的词性,和所述英文句子中两两单词之间的语法关系,将所述英文句子转换为特征文本序列。
11.如权利要求10所述的装置,其特征在于,所述英文句子转换模块包括:
句子结构识别子模块,适于识别所述英文句子的组成结构;
句子特征形成子模块,适于采用所述组成结构形成特征序列文本。
12.如权利要求10或11所述的装置,其特征在于,所述从句类型识别模块包括:
分类模型输入子模块,适于将所述特征文本序列输入通过卷积神经网络训练的分类模型中;
分类模型识别子模块,适于在所述分类模型中基于所述英文句子中单词的顺序、采用所述特征文本序列识别所述英文句子所包含的从句类型。
CN201611250331.6A 2016-12-29 2016-12-29 一种分类模型的训练及其从句识别方法和装置 Active CN106649294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611250331.6A CN106649294B (zh) 2016-12-29 2016-12-29 一种分类模型的训练及其从句识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611250331.6A CN106649294B (zh) 2016-12-29 2016-12-29 一种分类模型的训练及其从句识别方法和装置

Publications (2)

Publication Number Publication Date
CN106649294A CN106649294A (zh) 2017-05-10
CN106649294B true CN106649294B (zh) 2020-11-06

Family

ID=58836645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611250331.6A Active CN106649294B (zh) 2016-12-29 2016-12-29 一种分类模型的训练及其从句识别方法和装置

Country Status (1)

Country Link
CN (1) CN106649294B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086272B (zh) * 2018-08-01 2023-02-17 浙江蓝鸽科技有限公司 句型识别方法及其系统
CN109799977B (zh) * 2019-01-25 2021-07-27 西安电子科技大学 指令程序开发调度数据的方法及系统
CN115039105A (zh) * 2020-04-14 2022-09-09 深圳市欢太数字科技有限公司 句式挖掘方法、装置、电子设备以及存储介质
CN112559552B (zh) * 2020-12-03 2023-07-25 北京百度网讯科技有限公司 数据对生成方法、装置、电子设备及存储介质
CN114627482B (zh) * 2022-05-16 2022-08-12 四川升拓检测技术股份有限公司 基于图像处理与文字识别实现表格数字化处理方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6295529B1 (en) * 1998-12-24 2001-09-25 Microsoft Corporation Method and apparatus for indentifying clauses having predetermined characteristics indicative of usefulness in determining relationships between different texts
CN101339617A (zh) * 2007-07-06 2009-01-07 上海思必得通讯技术有限公司 手机拍照翻译装置
US8706476B2 (en) * 2007-09-18 2014-04-22 Ariadne Genomics, Inc. Natural language processing method by analyzing primitive sentences, logical clauses, clause types and verbal blocks
US8666977B2 (en) * 2009-05-18 2014-03-04 Strategyn Holdings, Llc Needs-based mapping and processing engine
US20110213610A1 (en) * 2010-03-01 2011-09-01 Lei Chen Processor Implemented Systems and Methods for Measuring Syntactic Complexity on Spontaneous Non-Native Speech Data by Using Structural Event Detection
WO2014071330A2 (en) * 2012-11-02 2014-05-08 Fido Labs Inc. Natural language processing system and method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于谓词及句义类型块的汉语句义类型识别;王倩 等;《中文信息学报》;20140331;第28卷(第2期);第10-11页,图2-3 *

Also Published As

Publication number Publication date
CN106649294A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
EP4078426B1 (en) Analyzing graphical user interfaces to facilitate automatic interaction
WO2019200923A1 (zh) 基于拼音的语义识别方法、装置以及人机对话系统
CN112771530B (zh) 用于交互式web文档的自动导航的方法和系统
US11704501B2 (en) Providing a response in a session
CN106649294B (zh) 一种分类模型的训练及其从句识别方法和装置
Erdem et al. Neural natural language generation: A survey on multilinguality, multimodality, controllability and learning
CN109271518B (zh) 用于对微博信息进行分类显示的方法和设备
CN111985243B (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN113095072B (zh) 文本处理方法及装置
CN113569112A (zh) 基于题目的辅导策略提供方法、系统、装置及介质
CN111126084A (zh) 数据处理方法、装置、电子设备和存储介质
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
Dittakan et al. Image caption generation using transformer learning methods: a case study on instagram image
CN113705207A (zh) 语法错误识别方法及装置
WO2023169301A1 (zh) 一种文本处理方法、装置及电子设备
CN114048319B (zh) 基于注意力机制的幽默文本分类方法、装置、设备、介质
KR102559849B1 (ko) 악플 필터 장치 및 방법
CN106855854A (zh) 一种英文信息的识别方法和装置
CN116186219A (zh) 一种人机对话交互方法方法、系统及存储介质
CN116129210A (zh) 特征提取模型的训练方法、特征提取方法及装置
CN111241845A (zh) 一种基于语义匹配方法的财务科目自动识别方法及装置
Hattimare et al. Maruna Bot: An extensible retrieval-focused framework for task-oriented dialogues
CN118643307B (zh) 模型指令的质量检测方法、装置、设备及存储介质
US12147732B2 (en) Analyzing graphical user interfaces to facilitate automatic interaction
Whittaker et al. Factoid question answering with web, mobile and speech interfaces

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240827

Address after: No. 9-3-401, No. 39 Gaoxin 6th Road, Binhai Science and Technology Park, Binhai High tech Zone, Binhai New Area, Tianjin, 300450

Patentee after: 3600 Technology Group Co.,Ltd.

Country or region after: China

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Country or region before: China