CN111492364A - 数据标注方法、装置及存储介质 - Google Patents
数据标注方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111492364A CN111492364A CN201780097681.XA CN201780097681A CN111492364A CN 111492364 A CN111492364 A CN 111492364A CN 201780097681 A CN201780097681 A CN 201780097681A CN 111492364 A CN111492364 A CN 111492364A
- Authority
- CN
- China
- Prior art keywords
- word
- new
- new words
- words
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 claims abstract description 90
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims description 67
- 230000015654 memory Effects 0.000 claims description 17
- 239000000203 mixture Substances 0.000 claims description 10
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 abstract description 45
- 230000010365 information processing Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 29
- 238000012545 processing Methods 0.000 description 20
- 238000012216 screening Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 16
- 230000003287 optical effect Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000012163 sequencing technique Methods 0.000 description 8
- 238000010606 normalization Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 206010028916 Neologism Diseases 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种数据标注方法、装置及存储介质,涉及中文信息处理领域,所述数据标注方法包括:从样本语料中确定M个第一备选新词;基于每个第一备选新词的统计信息,或者统计信息和内部属性,通过指定新词打分算法对M个第一备选新词进行打分;基于M个第一备选新词的得分,从M个第一备选新词中确定N个第一种子新词;基于N个第一种子新词对样本语料进行词语标注,得到样本语料中每个字的第一样本标签。本申请通过直接从样本语料中准确地识别出新词,然后基于准确识别的新词对样本语料进行标注,可以避免使用分词工具分词带来的错误,提高词语标注的准确性。
Description
PCT国内申请,说明书已公开。
Claims (20)
- PCT国内申请,权利要求书已公开。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2017/116452 WO2019113938A1 (zh) | 2017-12-15 | 2017-12-15 | 数据标注方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111492364A true CN111492364A (zh) | 2020-08-04 |
CN111492364B CN111492364B (zh) | 2022-09-23 |
Family
ID=66819787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780097681.XA Active CN111492364B (zh) | 2017-12-15 | 2017-12-15 | 数据标注方法、装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111492364B (zh) |
WO (1) | WO2019113938A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780007A (zh) * | 2021-10-22 | 2021-12-10 | 平安科技(深圳)有限公司 | 语料筛选方法、意图识别模型优化方法、设备及存储介质 |
CN114676775A (zh) * | 2022-03-24 | 2022-06-28 | 腾讯科技(深圳)有限公司 | 样本信息标注方法、装置、设备、程序以及存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502750B (zh) * | 2019-08-06 | 2023-08-11 | 山东师范大学 | 中医文本分词过程中的消歧方法、系统、设备及介质 |
CN113268978B (zh) * | 2020-02-17 | 2024-08-27 | 北京搜狗科技发展有限公司 | 一种信息生成方法、装置和电子设备 |
CN111914554B (zh) * | 2020-08-19 | 2024-08-09 | 网易(杭州)网络有限公司 | 领域新词识别模型的训练方法、领域新词识别方法及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090157384A1 (en) * | 2007-12-12 | 2009-06-18 | Microsoft Corporation | Semi-supervised part-of-speech tagging |
CN102681981A (zh) * | 2011-03-11 | 2012-09-19 | 富士通株式会社 | 自然语言词法分析方法、装置及分析器训练方法 |
CN106033462A (zh) * | 2015-03-19 | 2016-10-19 | 科大讯飞股份有限公司 | 一种新词发现方法及系统 |
CN106970904A (zh) * | 2016-01-14 | 2017-07-21 | 北京国双科技有限公司 | 新词发现的方法及装置 |
CN107391486A (zh) * | 2017-07-20 | 2017-11-24 | 南京云问网络技术有限公司 | 一种基于统计信息和序列标注的领域新词识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662930B (zh) * | 2012-04-16 | 2015-04-22 | 乐山师范学院 | 一种语料标注方法及装置 |
US20170039183A1 (en) * | 2015-08-07 | 2017-02-09 | Nec Laboratories America, Inc. | Metric Labeling for Natural Language Processing |
-
2017
- 2017-12-15 CN CN201780097681.XA patent/CN111492364B/zh active Active
- 2017-12-15 WO PCT/CN2017/116452 patent/WO2019113938A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090157384A1 (en) * | 2007-12-12 | 2009-06-18 | Microsoft Corporation | Semi-supervised part-of-speech tagging |
CN102681981A (zh) * | 2011-03-11 | 2012-09-19 | 富士通株式会社 | 自然语言词法分析方法、装置及分析器训练方法 |
CN106033462A (zh) * | 2015-03-19 | 2016-10-19 | 科大讯飞股份有限公司 | 一种新词发现方法及系统 |
CN106970904A (zh) * | 2016-01-14 | 2017-07-21 | 北京国双科技有限公司 | 新词发现的方法及装置 |
CN107391486A (zh) * | 2017-07-20 | 2017-11-24 | 南京云问网络技术有限公司 | 一种基于统计信息和序列标注的领域新词识别方法 |
Non-Patent Citations (1)
Title |
---|
张海军等: "中文新词识别技术综述", 《计算机科学》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780007A (zh) * | 2021-10-22 | 2021-12-10 | 平安科技(深圳)有限公司 | 语料筛选方法、意图识别模型优化方法、设备及存储介质 |
CN114676775A (zh) * | 2022-03-24 | 2022-06-28 | 腾讯科技(深圳)有限公司 | 样本信息标注方法、装置、设备、程序以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019113938A1 (zh) | 2019-06-20 |
CN111492364B (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717039B (zh) | 文本分类方法和装置、电子设备、计算机可读存储介质 | |
CN111492364B (zh) | 数据标注方法、装置及存储介质 | |
US20190287142A1 (en) | Method, apparatus for evaluating review, device and storage medium | |
CN112163424B (zh) | 数据的标注方法、装置、设备和介质 | |
CN107301170B (zh) | 基于人工智能的切分语句的方法和装置 | |
CN108304375A (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN110555205B (zh) | 否定语义识别方法及装置、电子设备、存储介质 | |
CN108027814B (zh) | 停用词识别方法与装置 | |
US20220414463A1 (en) | Automated troubleshooter | |
CN111930792A (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
US11594054B2 (en) | Document lineage management system | |
CN111199151A (zh) | 数据处理方法、及数据处理装置 | |
CN110263345B (zh) | 关键词提取方法、装置及存储介质 | |
CN113836316B (zh) | 三元组数据的处理方法、训练方法、装置、设备及介质 | |
WO2019163642A1 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
CN109300550B (zh) | 医学数据关系挖掘方法及装置 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN116719950A (zh) | 基于知识图谱子图检索的智能问答方法及系统 | |
CN107656627B (zh) | 信息输入方法和装置 | |
CN112087473A (zh) | 文档下载方法、装置、计算机可读存储介质和计算机设备 | |
CN112257416A (zh) | 一种稽查新词发现方法及系统 | |
CN113505889B (zh) | 图谱化知识库的处理方法、装置、计算机设备和存储介质 | |
CN114492419B (zh) | 基于标注中新增关键词语的文本标注方法、系统及装置 | |
CN114661917B (zh) | 文本扩增方法、系统、计算机设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |