CN110647712A - 一种人工智能学习库的标记数据生成方法 - Google Patents
一种人工智能学习库的标记数据生成方法 Download PDFInfo
- Publication number
- CN110647712A CN110647712A CN201910902629.8A CN201910902629A CN110647712A CN 110647712 A CN110647712 A CN 110647712A CN 201910902629 A CN201910902629 A CN 201910902629A CN 110647712 A CN110647712 A CN 110647712A
- Authority
- CN
- China
- Prior art keywords
- user
- verification information
- keyword
- information
- marking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 12
- 238000012795 verification Methods 0.000 claims abstract description 78
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种人工智能学习库的标记数据生成方法,属于人工智能技术领域。一种人工智能学习库的标记数据生成方法,包括以下步骤:步骤S1、随机发给多个用户验证信息让用户标记;步骤S2、用户标记验证信息后得到多个反馈信息a,反馈信息a出现的次数k与用户个数n的比值为P(t),即P(a)=k/n,并将得到的P(a)值从大到小排列;步骤S3、判断n与N,若n>N,则将max P(a)对应的反馈信息a标记为关键词t,否则,返回步骤S1,N为自定义阈值。将未标记的数据(图片,语音,文本等)作为网站或平台的登陆验证信息,用户在登陆网站等操作是通过输入验证信息完成数据标记。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种人工智能学习库的标记数据生成方法。
背景技术
在人工智能领域中,通常使用的学习方法是监督学习,监督学习是将大量训练数据打上标记,机器通过学习后能够捕捉到这些具有相同标注的数据的共同特征,从而可以识别机器没有见过的测试数据,这些用于训练和测试的数据都是某种或多种属性的标记数据。数据的标记是机器学习中非常重要的一环,目前标记数据主要通过数据标记从业人员为数据打上标签的方式生成,标记工作重复枯燥。
发明内容
本发明的目的是提供一种人工智能学习库的标记数据生成方法,将未标记的数据(图片,语音,文本等)作为网站或平台的登陆验证信息,用户在登陆网站等操作是通过输入验证信息完成数据标记。
本发明的上述技术目的是通过以下技术方案实现的:一种人工智能学习库的标记数据生成方法,包括以下步骤:
步骤S1、随机发给多个用户验证信息让用户标记;
步骤S2、用户标记验证信息后得到多个反馈信息a,反馈信息a出现的次数k与用户个数n的比值为P(a),即P(a)=k/n,并将得到的P(a)值从大到小排列;
步骤S3、判断n与N,若n>N,则将max P(a)对应的反馈信息a标记为关键词t,否则,返回步骤S1,N为自定义阈值。
验证信息是用来区别用户是人还是程序的一种方法,是用户在网站进行登陆、注册或支付等操作之前的一种安全措施。在本发明中,验证信息的形式可以是给定一张图片,一段语音或一段文字,让用户进行场景或者语境描述,给出主要的关键字。所述验证信息的标记是指用户描述所述验证信息的内容,所述验证信息设有关键词t,所述验证信息中至少含有一个关键词t,所述关键词t用于判断用户描述的是否正确。N为自设定阈值,保证样本数量足够大,当超过N个人对该验证信息进行关键词描述时,选择P(a)最高的反馈信息a,将其标记为关键词t并作为验证信息的标记,P(a)表示n个候选人在对某一验证信息进行描述时,验证信息标记得到反馈信息a(a为a1,a2,a3…),反馈信息a出现的次数k(k为k1,k2,k3…)与用户个数n的比值为P(a),即P(a)=k/n。
作为本发明的优选,用户在注册,登陆,支付时,发送验证信息。
作为本发明的优选,验证信息为图片,语音或文字。
作为本发明的优选,对用户进行置信度评估,所述置信度评估是通过用户历史输入验证信息的情况来找出适合进行数据标注的用户,验证信息是有标记的,用户在网站输入验证信息的次数达到一定阈值且用户输入验证信息的正确率达到一定阈值,用户置信度高,列为候选人。
作为本发明的优选,用户成为候选人后,发送给候选人标记的验证信息是随机的。
用户置信度评估是通过用户历史输入验证信息的情况来找出适合进行数据标记的用户,这些验证信息是有标记的。用户在网站做验证信息的次数需要达到一定阈值(即输入验证信息的次数足够多),用户输入验证信息的正确率需要达到一定阈值(即用户输入验证信息的正确率要高),那么该用户在对未标记的验证信息进行描述时,他的置信度就较高,可列为候选人。用户成为候选人后,给用户的验证信息可以是有标记的也可以是没有标记的。当网站给未标记的验证信息时,无论用户输入什么关键词都可以通过。网站发送给候选人的验证信息是否标记具有随机性,候选人输入的验证信息可能是标记过的也可能是没有标记过的。
作为本发明的优选,验证信息标记为关键词t时,关键词t为输入该验证信息的正确答案,对用户进行评估,若输入验证信息为关键词t,则置信度上升,若输入关键词不为t,则置信度下降。
验证信息标记以后,该关键词t就成为了输入验证信息的正确答案,对历史做过该验证信息的用户进行评估,若用户给出的关键词为t,那么用户置信度上升,若用户给出的关键词不为t,则用户置信度下降。
附图说明
图1为本发明系统流程图。
具体实施例
以下结合附图对本发明做进一步详细说明。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
如图1所示,一种人工智能学习库的标记数据生成方法,包括以下步骤:
步骤S1、随机发给多个用户验证信息让用户标记;
步骤S2、用户标记验证信息后得到多个反馈信息a,反馈信息a出现的次数k与用户个数n的比值为P(a),即P(a)=k/n,并将得到的P(a)值从大到小排列;
步骤S3、判断n与N,若n>N,则将max P(a)对应的反馈信息a标记为关键词t,否则,返回步骤S1,N为自定义阈值。
验证信息是用来区别用户是人还是程序的一种方法,是用户在网站进行登陆、注册或支付等操作之前的一种安全措施。在本发明中,用户在注册,登陆,支付时,发送验证信息,验证信息的形式可以是给定一张图片,一段语音或一段文字,验证信息的标记是指用户描述验证信息的内容,验证信息设有关键词t,验证信息中至少含有一个关键词t, 让用户进行场景或者语境描述,给出主要的关键词t,关键词t用于判断用户描述的是否正确。N为自设定阈值,保证样本数量足够大,当超过N个人对该验证信息进行关键词描述时,选择P(a)最高的反馈信息a,将其标记为关键词t并作为验证信息的标记,P(a)表示n个候选人在对某一验证信息进行描述时,验证信息标记得到反馈信息a(a为a1,a2,a3…),反馈信息a出现的次数k(k为k1,k2,k3…)与用户个数n的比值为P(a),即P(a)=k/n。
在本发明中先对用户进行置信度评估,用户置信度评估是通过用户历史输入验证信息的情况来找出适合进行数据标记的用户,这些验证信息是有标记的,用户在网站做验证信息的次数需要达到一定阈值(即输入验证信息的次数足够多),用户输入验证信息的正确率需要达到一定阈值(即用户输入验证信息的正确率要高),那么该用户在对未标记的验证信息进行描述时,他的置信度就较高,可列为候选人。用户成为候选人后,当用户需要进行注册,登陆,支付时,随机发送验证信息给该用户,给用户的验证信息可以是有标记的也可以是没有标记的,若验证信息未标记,则让候选人对验证信息进行关键词描述。当网站给未标记的验证信息时,无论用户输入什么关键词都可以通过,网站的验证信息是否标记具有随机性,用户输入的验证信息可能是标记过的也可能是没有标记过的。将该验证信息发给需要输入验证信息的其他候选人,让他们对该验证信息进行标记,用户对该验证信息标记之后得到反馈信息a(a为a1,a2,a3…),反馈信息a出现的次数k(k为k1,k2,k3…)与用户个数n的比值为P(a),即P(a)=k/n。当对该验证信息标记的人数大于N,N为自定义阈值,则将max P(a)对应的反馈信息a标记为关键词t,否则继续将该验证信息发给候选人进行标记,重复上述操作。验证信息标记以后,该关键词t就成为了输入验证信息的正确答案,对历史做过该验证信息的用户进行评估,若用户给出的关键词为t,那么用户置信度上升,若用户给出的关键词不为t,则用户置信度下降。
Claims (6)
1.一种人工智能学习库的标记数据生成方法,其特征在于,包括如下步骤:
步骤S1、随机发给多个用户验证信息让用户标记;
步骤S2、用户标记验证信息后得到多个反馈信息a,反馈信息a出现的次数k与用户个数n的比值为P(a),即P(a)=k/n,并将得到的P(a)值从大到小排列;
步骤S3、判断n与N,若n>N,则将max P(a)对应的反馈信息a标记为关键词t,否则,返回步骤S1,N为自定义阈值。
2.根据权利要求1所述的一种人工智能学习库的标记数据生成方法,其特征在于,用户在注册,登陆,支付时,发送验证信息。
3.根据权利要求1所述的一种人工智能学习库的标记数据生成方法,其特征在于,验证信息为图片,语音或文字。
4.根据权利要求1所述的一种人工智能学习库的标记数据生成方法,其特征在于,对用户进行置信度评估,所述置信度评估是通过用户历史输入验证信息的情况来找出适合进行数据标注的用户,验证信息是有标记的,用户在网站输入验证信息的次数达到一定阈值,用户输入验证信息的正确率达到一定阈值,用户置信度高,列为候选人。
5.根据权利要求4所述的一种人工智能学习库的标记数据生成方法,其特征在于,用户成为候选人后,发送给候选人标记的验证信息是随机的。
6.根据权利要求1所述的一种人工智能学习库的标记数据生成方法,其特征在于,验证信息标记为关键词t时,关键词t为输入该验证信息的正确答案,对用户进行评估,若输入验证信息为关键词t,则置信度上升,若输入关键词不为t,则置信度下降。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910902629.8A CN110647712A (zh) | 2019-09-24 | 2019-09-24 | 一种人工智能学习库的标记数据生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910902629.8A CN110647712A (zh) | 2019-09-24 | 2019-09-24 | 一种人工智能学习库的标记数据生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110647712A true CN110647712A (zh) | 2020-01-03 |
Family
ID=69011140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910902629.8A Pending CN110647712A (zh) | 2019-09-24 | 2019-09-24 | 一种人工智能学习库的标记数据生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110647712A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180032900A1 (en) * | 2016-07-27 | 2018-02-01 | International Business Machines Corporation | Greedy Active Learning for Reducing Labeled Data Imbalances |
CN109961154A (zh) * | 2019-04-09 | 2019-07-02 | 福建工程学院 | 一种人工智能学习库的标记数据生成方法 |
CN110097870A (zh) * | 2018-01-30 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 语音处理方法、装置、设备和存储介质 |
-
2019
- 2019-09-24 CN CN201910902629.8A patent/CN110647712A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180032900A1 (en) * | 2016-07-27 | 2018-02-01 | International Business Machines Corporation | Greedy Active Learning for Reducing Labeled Data Imbalances |
CN110097870A (zh) * | 2018-01-30 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 语音处理方法、装置、设备和存储介质 |
CN109961154A (zh) * | 2019-04-09 | 2019-07-02 | 福建工程学院 | 一种人工智能学习库的标记数据生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2676395C (en) | Controlling access to computer systems and for annotating media files | |
CN107169063B (zh) | 一种基于社交信息的用户属性预测方法与系统 | |
CN106934275B (zh) | 一种基于个人信息的口令强度评测方法 | |
Saini et al. | A review of bot protection using CAPTCHA for web security | |
CN110781460A (zh) | 版权认证方法、装置、设备、系统及计算机可读存储介质 | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
CN104766001A (zh) | 检测和破坏captcha自动化脚本以及防止图像刮削 | |
CN113132368B (zh) | 聊天数据的审核方法、装置及计算机设备 | |
CN103164698A (zh) | 指纹库生成方法及装置、待测文本指纹匹配方法及装置 | |
CN111866004B (zh) | 安全评估方法、装置、计算机系统和介质 | |
Vasilatos et al. | Howkgpt: Investigating the detection of chatgpt-generated university student homework through context-aware perplexity analysis | |
Khan et al. | Cyber security using arabic captcha scheme. | |
CN104852916A (zh) | 一种基于社会工程学的网页验证码识别方法及系统 | |
CN107872323B (zh) | 一种基于用户信息检测的口令安全性评估方法及系统 | |
Manasrah et al. | DGA-based botnets detection using DNS traffic mining | |
CN106910135A (zh) | 用户推荐方法及装置 | |
CN111079433B (zh) | 一种事件抽取方法、装置及电子设备 | |
US20210117552A1 (en) | Detection of common patterns in user generated content with applications in fraud detection | |
CN117332411B (zh) | 一种基于Transformer模型的异常登录检测方法 | |
CN110647712A (zh) | 一种人工智能学习库的标记数据生成方法 | |
CN107451247A (zh) | 用户识别方法及装置 | |
Kumar et al. | Design and comparison of advanced color based image CAPTCHAs | |
CN117371049A (zh) | 基于区块链与生成式对抗网络的机器生成文本检测方法及系统 | |
Dong et al. | TADW: Traceable and Anti‐detection Dynamic Watermarking of Deep Neural Networks | |
CN109961154A (zh) | 一种人工智能学习库的标记数据生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200103 |
|
RJ01 | Rejection of invention patent application after publication |