[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111492364A - 数据标注方法、装置及存储介质 - Google Patents

数据标注方法、装置及存储介质 Download PDF

Info

Publication number
CN111492364A
CN111492364A CN201780097681.XA CN201780097681A CN111492364A CN 111492364 A CN111492364 A CN 111492364A CN 201780097681 A CN201780097681 A CN 201780097681A CN 111492364 A CN111492364 A CN 111492364A
Authority
CN
China
Prior art keywords
word
new
new words
words
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780097681.XA
Other languages
English (en)
Other versions
CN111492364B (zh
Inventor
吴斌
蒋欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN111492364A publication Critical patent/CN111492364A/zh
Application granted granted Critical
Publication of CN111492364B publication Critical patent/CN111492364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种数据标注方法、装置及存储介质,涉及中文信息处理领域,所述数据标注方法包括:从样本语料中确定M个第一备选新词;基于每个第一备选新词的统计信息,或者统计信息和内部属性,通过指定新词打分算法对M个第一备选新词进行打分;基于M个第一备选新词的得分,从M个第一备选新词中确定N个第一种子新词;基于N个第一种子新词对样本语料进行词语标注,得到样本语料中每个字的第一样本标签。本申请通过直接从样本语料中准确地识别出新词,然后基于准确识别的新词对样本语料进行标注,可以避免使用分词工具分词带来的错误,提高词语标注的准确性。

Description

PCT国内申请,说明书已公开。

Claims (20)

  1. PCT国内申请,权利要求书已公开。
CN201780097681.XA 2017-12-15 2017-12-15 数据标注方法、装置及存储介质 Active CN111492364B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2017/116452 WO2019113938A1 (zh) 2017-12-15 2017-12-15 数据标注方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111492364A true CN111492364A (zh) 2020-08-04
CN111492364B CN111492364B (zh) 2022-09-23

Family

ID=66819787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780097681.XA Active CN111492364B (zh) 2017-12-15 2017-12-15 数据标注方法、装置及存储介质

Country Status (2)

Country Link
CN (1) CN111492364B (zh)
WO (1) WO2019113938A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780007A (zh) * 2021-10-22 2021-12-10 平安科技(深圳)有限公司 语料筛选方法、意图识别模型优化方法、设备及存储介质
CN114676775A (zh) * 2022-03-24 2022-06-28 腾讯科技(深圳)有限公司 样本信息标注方法、装置、设备、程序以及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502750B (zh) * 2019-08-06 2023-08-11 山东师范大学 中医文本分词过程中的消歧方法、系统、设备及介质
CN113268978B (zh) * 2020-02-17 2024-08-27 北京搜狗科技发展有限公司 一种信息生成方法、装置和电子设备
CN111914554B (zh) * 2020-08-19 2024-08-09 网易(杭州)网络有限公司 领域新词识别模型的训练方法、领域新词识别方法及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090157384A1 (en) * 2007-12-12 2009-06-18 Microsoft Corporation Semi-supervised part-of-speech tagging
CN102681981A (zh) * 2011-03-11 2012-09-19 富士通株式会社 自然语言词法分析方法、装置及分析器训练方法
CN106033462A (zh) * 2015-03-19 2016-10-19 科大讯飞股份有限公司 一种新词发现方法及系统
CN106970904A (zh) * 2016-01-14 2017-07-21 北京国双科技有限公司 新词发现的方法及装置
CN107391486A (zh) * 2017-07-20 2017-11-24 南京云问网络技术有限公司 一种基于统计信息和序列标注的领域新词识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662930B (zh) * 2012-04-16 2015-04-22 乐山师范学院 一种语料标注方法及装置
US20170039183A1 (en) * 2015-08-07 2017-02-09 Nec Laboratories America, Inc. Metric Labeling for Natural Language Processing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090157384A1 (en) * 2007-12-12 2009-06-18 Microsoft Corporation Semi-supervised part-of-speech tagging
CN102681981A (zh) * 2011-03-11 2012-09-19 富士通株式会社 自然语言词法分析方法、装置及分析器训练方法
CN106033462A (zh) * 2015-03-19 2016-10-19 科大讯飞股份有限公司 一种新词发现方法及系统
CN106970904A (zh) * 2016-01-14 2017-07-21 北京国双科技有限公司 新词发现的方法及装置
CN107391486A (zh) * 2017-07-20 2017-11-24 南京云问网络技术有限公司 一种基于统计信息和序列标注的领域新词识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张海军等: "中文新词识别技术综述", 《计算机科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780007A (zh) * 2021-10-22 2021-12-10 平安科技(深圳)有限公司 语料筛选方法、意图识别模型优化方法、设备及存储介质
CN114676775A (zh) * 2022-03-24 2022-06-28 腾讯科技(深圳)有限公司 样本信息标注方法、装置、设备、程序以及存储介质

Also Published As

Publication number Publication date
WO2019113938A1 (zh) 2019-06-20
CN111492364B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN110717039B (zh) 文本分类方法和装置、电子设备、计算机可读存储介质
CN111492364B (zh) 数据标注方法、装置及存储介质
US20190287142A1 (en) Method, apparatus for evaluating review, device and storage medium
CN112163424B (zh) 数据的标注方法、装置、设备和介质
CN107301170B (zh) 基于人工智能的切分语句的方法和装置
CN108304375A (zh) 一种信息识别方法及其设备、存储介质、终端
CN110555205B (zh) 否定语义识别方法及装置、电子设备、存储介质
CN108027814B (zh) 停用词识别方法与装置
US20220414463A1 (en) Automated troubleshooter
CN111930792A (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
US11594054B2 (en) Document lineage management system
CN111199151A (zh) 数据处理方法、及数据处理装置
CN110263345B (zh) 关键词提取方法、装置及存储介质
CN113836316B (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
WO2019163642A1 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
CN109300550B (zh) 医学数据关系挖掘方法及装置
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN116719950A (zh) 基于知识图谱子图检索的智能问答方法及系统
CN107656627B (zh) 信息输入方法和装置
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备
CN112257416A (zh) 一种稽查新词发现方法及系统
CN113505889B (zh) 图谱化知识库的处理方法、装置、计算机设备和存储介质
CN114492419B (zh) 基于标注中新增关键词语的文本标注方法、系统及装置
CN114661917B (zh) 文本扩增方法、系统、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant