[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN109299260B - 数据分类方法、装置以及计算机可读存储介质 - Google Patents

数据分类方法、装置以及计算机可读存储介质 Download PDF

Info

Publication number
CN109299260B
CN109299260B CN201811147293.0A CN201811147293A CN109299260B CN 109299260 B CN109299260 B CN 109299260B CN 201811147293 A CN201811147293 A CN 201811147293A CN 109299260 B CN109299260 B CN 109299260B
Authority
CN
China
Prior art keywords
data
natural language
code data
field value
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811147293.0A
Other languages
English (en)
Other versions
CN109299260A (zh
Inventor
汤奇峰
冷如冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jingzan Rongxuan Technology Co ltd
Original Assignee
Shanghai Jingzan Rongxuan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jingzan Rongxuan Technology Co ltd filed Critical Shanghai Jingzan Rongxuan Technology Co ltd
Priority to CN201811147293.0A priority Critical patent/CN109299260B/zh
Publication of CN109299260A publication Critical patent/CN109299260A/zh
Application granted granted Critical
Publication of CN109299260B publication Critical patent/CN109299260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种数据分类方法、装置以及计算机可读存储介质,所述方法包括:获取自然语言数据;对所述自然语言数据进行预处理,获取每一条自然语言数据对应的代码数据;将每一条代码数据分别划分为n份标签数据;n≥2;根据所述n份标签数据对应的位次顺序,将存在相同的标签数据且所述相同的标签数据的位次顺序相同的代码数据划分为一个全量集合。采用上述方案,在计算代码数据之间的相似度时,减少了运算时间,降低了运算成本。

Description

数据分类方法、装置以及计算机可读存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种数据分类方法、装置以及计算机可读存储介质。
背景技术
如今,互联网技术飞速发展,各行业数字化信息飞速增长,数据占用的存储空间变得越来越大,对海量数据进行处理、挖掘以及运用成为当下科技型企业竞争中至关重要的能力。
科技型企业在收集到的海量数据后,通常需要对数据进行处理,将自然语言变为计算机能够识别的数据,并排除大量相似的数据,避免因重复运算而浪费时间与成本。
现有技术中计算相似度的方案是,将获取的自然语言数据处理为二进制数据,并将所有的二进制数据作为一个集合,通过计算机计算这个集合里每条二进制数据与其他二进制数据之间的相似度。然而采用上述方案时,如果一共有x条二进制数据,那么需要进行计算的次数为x(x+1)/2,当集合中的数据量十分庞大时,上述方法需要的运算时间过长,成本较高。
发明内容
本发明解决的技术问题是数据分类不合理导致对集合内数据进行计算时所需的运算时间过长,成本较高。
为解决上述技术问题,本发明实施例提供一种数据分类方法,包括:获取自然语言数据;对所述自然语言数据进行预处理,获取每一条自然语言数据对应的代码数据;将每一条代码数据分别划分为n份标签数据;n≥2;根据所述n份标签数据对应的位次顺序,将存在相同的标签数据且所述相同的标签数据的位次顺序相同的代码数据划分为一个全量集合。
可选的,获取每一条自然语言数据对应的自然语言字段值;对每一条自然语言字段值进行分词处理,并提取相应的关键词;获取每一条自然语言字段值对应的关键词的哈希值;对每一条自然语言字段值对应的关键词的哈希值进行相似度计算,获取每一条自然语言对应的代码数据。
可选的,所述相似度计算包括以下至少一种:加权计算、合并计算和降维计算。
可选的,所述代码数据为SimHash签名。
可选的,对每一条自然语言字段值对应的关键词的哈希值进行相似度计算,获取每一条自然语言对应的预设位数的代码数据。
可选的,将具有m份相同标签数据且所述m份相同标签数据处于相同位次顺序的代码数据作为一个全量集合;m<n。
本发明还提供一种数据分类装置,其特征在于,包括:获取单元,用于获取自然语言数据;处理单元,用于对所述自然语言数据进行预处理,获取每一条自然语言数据对应的代码数据;划分单元,用于将每一条代码数据分别划分为n份标签数据;n≥2;分类单元,用于根据所述n份标签数据对应的位次顺序,将存在相同的标签数据且所述相同的标签数据的位次顺序相同的代码数据划分为一个全量集合。
可选的,所述处理单元,用于获取每一条自然语言数据对应的自然语言字段值;对每一条自然语言字段值进行分词处理,并提取相应的关键词;获取每一条自然语言字段值对应的关键词的哈希值;对每一条自然语言字段值对应的关键词的哈希值进行相似度计算,获取每一条自然语言对应的代码数据。
可选的,所述相似度计算包括以下至少一种:加权计算、合并计算和降维计算。
可选的,所述代码数据为SimHash签名。
可选的,所述处理单元,用于对每一条自然语言字段值对应的关键词的哈希值进行相似度计算,获取每一条自然语言对应的预设位数的代码数据。
可选的,所述分类单元,用于将具有m份相同标签数据且所述m份相同标签数据处于相同位次顺序的代码数据作为一个全量集合;m<n。
本发明还提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行上述任一种的数据分类方法的步骤。
本发明还提供一种数据分类装置,包括存储器和处理器,所述存储器上存储有计算机指令,其特征在于,所述计算机指令运行时所述处理器执行上述任一种的数据分类方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
将获取的自然语言数据进行预处理,获取各条自然语言对应的代码数据,将代码数据划分为n份标签数据,将相同标签数据处于相同位次的代码数据作为一个全量集合,最终将代码数据分类为多个全量集合。在进行相似度计算时,只需要分别计算每个全量集合内代码数据之间的相似度,因此可以大大减少运算时间,降低运算成本。
附图说明
图1是本发明实施例提供的一种数据分类方法的流程示意图;
图2是本发明实施例提供的一种数据分类装置的结构示意图。
具体实施方式
科技型企业在收集到的海量数据后,通常需要对数据进行处理,将自然语言变为计算机能够识别的数据,并排除大量相似的数据,避免因重复运算而浪费时间与成本。
现有技术中计算相似度的方案是,将获取的自然语言数据处理为二进制数据,并将所有的二进制数据作为一个集合,通过计算机计算这个集合里每条二进制数据与其他二进制数据之间的相似度。然而采用上述方案时,如果一共有x条二进制数据,那么需要进行计算的次数为x(x+1)/2,当集合中的数据量十分庞大时,上述方法需要的运算时间过长,成本较高。
本发明实施例中,将获取的自然语言数据进行预处理,获取各条自然语言对应的代码数据,将代码数据划分为n份标签数据,将相同标签数据处于相同位次的代码数据作为一个全量集合,最终将代码数据分类为多个全量集合。在进行相似度计算时,只需要分别计算每个全量集合内代码数据之间的相似度,大大减少了运算时间,降低了运算成本。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
参阅图1,本发明实施例提供的一种数据分类方法,具体步骤如下,其中;
步骤S101,获取自然语言数据。
在具体实施中,可以从互联网平台获取自然语言数据,也可以从数据库获取自然语言数据。在实际应用中,用户可以根据实际需求确定自然语言数据的来源,本发明并不对自然语言数据的获取来源做限定。
步骤S102,对所述自然语言数据进行预处理,获取每一条自然语言数据对应的代码数据。
在具体实施中,由于计算机无法直接对自然语言数据进行处理,因此可以先对自然语言数据进行预处理,将自然语言数据转换为计算机可读的代码数据。
在具体实施中,计算机可读的代码数据通常表现为二进制数据,用户也可以根据实际需求确定代码数据的格式。
步骤S103,将每一条代码数据分别划分为n份标签数据。
在具体实施中,n的取值通常大于等于2。
在具体实施中,n的取值由用户根据实际需求确定。
在具体实施中,代码数据的划分方式由用户根据实际需求确定。
例如,代码数据10011100,n=4,对应的标签数据可以分别是10,01,11和00,也可以是100,111,0和0。
在具体实施中,通常每一条代码数据的划分方式均是相同的。例如,第一条代码数据为10011100,对应的标签数据分别是10,01,11和00;第二条代码数据为11100011,对应的标签数据分别是11,10,00,11。
步骤S104,将存在相同的标签数据且所述相同的标签数据的位次顺序相同的代码数据划分为一个全量集合。
在具体实施中,根据所述n份标签数据对应的位次顺序。
例如,代码数据A按照自身的数据排列顺序被划分为11,00,11和00四个标签数据,代码数据B按照自身的数据排列顺序被划分为11,11,00和11四个标签数据,由于代码数据A和代码数据B中的第一位次的标签数据是相同的,因此可以将代码数据A与代码数据B划分于同一全量集合。
在具体实施中,在计算代码数据之间的相似度时,是根据代码数据间相同位次的数据计算,因此,不同全量集合内不同的代码数据之间不具有相似度,或相似度过低不具备参考性。
采用上述方案划分全量集合,计算机在计算代码间的相似度时,可以计算全量集合内的代码数据间的相似度。若总共X条代码数据被划分为4个全量集合,每个全量集合内的代码数据条数分别为X1,X2,X3和X4,那么相似度计算次数为X1(X1+1)/2+X2(X2+1)/2+X3(X3+1)/2+X4(X4+1)/2,相比直接将所有的代码数据两两间计算相似度而言,降低了运算量。
在具体实施中,通常X1+X2+X3+X4=X,然而可能存在同一条代码数据被划分入不止一个全量集合中,因此X1+X2+X3+X4的值可能稍大于X。
本发明实施例中,将自然语言数据转换为代码数据可以从自然语言数据中提取出自然语言字段值。
本发明实施例中,将自然语言字段值进行分词处理,所述分词处理包括先对自然语言字段值进行去除括号以及括号内的内容、删除空格、英文同一转换成小写的处理,然后去除自然语言字段值中的一些停用词,提取出自然语言字段值中的关键词,并确定每个关键词的重要程度。
本发明实施例中,在获取自然语言字段值中的关键词后,可以将关键词作为特征向量,计算每一个特征向量的哈希值(Hash),然后对关键词对应的哈希值进行相似度计算,获取每一条自然语言对应的代码数据。
本发明实施例中,所述相似度计算包括以下至少一种:加权计算、合并计算和降维计算。
例如,自然语言字段值“美国51区雇员称内部有9架飞碟,曾看见灰色外星人”,对上述自然语言字段值进行分词,获得“美国(4)51区(5)雇员(3)称(1)内部(2)有(1)9架(3)飞碟(5)曾(1)看见(3)灰色(4)外星人(5)”,括号里是代表单词在整个句子里重要程度,数字越大越重要。
计算各个关键词的哈希值,比如“美国”通过hash算法计算为100101,“51区”通过hash算法计算为101011。这样字符串就变成了一串串数字。
加权计算:根据各个关键词的哈希值,以及关键词的权重形成加权数字串,比如“美国”的hash值为“100101”,通过加权计算为“4 -4 -4 4 -4 4”;“51区”的hash值为“101011”,通过加权计算为“5 -5 5 -5 5 5”。
合并计算:将上述各个关键词经加权计算得到的序列值累加,变成只有一个序列串。比如“美国”的“4 -4 -4 4 -4 4”,“51区”的“5 -5 5 -5 5 5”,把每一位进行累加,“4+5-4+-5 -4+5 4+-5 -4+5 4+5”==》“9 -9 1 -1 1 9”。这里作为示例只算了两个关键词,实际计算需要把所有单词的序列串累加。
降维计算:将由合并计算得到的“9 -9 1 -1 1 9”转换为01串,形成代码数据。计算方案为,如果每一位大于0记为1,小于0记为0,计算结果为:“1 0 1 0 1 1”。
本发明实施例中,所述代码数据为SimHash签名。
本发明实施例中,在对自然语言对应的关键词的哈希值进行相似度计算时,可以设定获得的代码数据的位数,以便于后续的运算以及标签数据的划分,具体位数可以由用户根据实际情况确定。
本发明实施例中,在将代码数据划分为n份后,具有m份相同标签数据且所述m份相同标签数据处于相同位次顺序的代码数据作为一个全量集合;m<n。
例如,代码数据C划分为11,00,11三个标签数据,代码数据D划分为11,00,10,代码数据E划分为11,11,01。当设定m=1时,代码数据C、D和E的第一位次的标签数据均相同,为11,因此可以将代码数据C、D、E划分入同一个全量集合。当设定m=2时,代码数据C、D的第一位次和第二位次的标签数据相同,因此可以将代码数据C、D划分入同一个全量集合。
在具体实施中,m的值可以由用户根据实际情况确定。
在具体实施中,采用上述方案对代码数据进行分类后,相同位次上的标签数据均不相同,或相同的较少的代码数据被划分入不同的全量集合,不同全量集合内的代码数据的相似较低。因此,若对数据库进行精简,排除相似度较高的代码数据时,只需计算单个全量集合内的代码数据之间的相似度,相比现有技术中的方案,大大减小了运算量,降低了成本。
参阅图2,本发明还提供一种数据分类装置20,包括:
获取单元201,用于获取自然语言数据;
处理单元202,用于对所述自然语言数据进行预处理,获取每一条自然语言数据对应的代码数据;
划分单元203,用于将每一条代码数据分别划分为n份标签数据;n≥2;
分类单元204,用于根据所述n份标签数据对应的位次顺序,将存在相同的标签数据且所述相同的标签数据的位次顺序相同的代码数据划分为一个全量集合。
本发明实施例中,所述处理单元202,用于获取每一条自然语言数据对应的自然语言字段值;对每一条自然语言字段值进行分词处理,并提取相应的关键词;获取每一条自然语言字段值对应的关键词的哈希值;对每一条自然语言字段值对应的关键词的哈希值进行相似度计算,获取每一条自然语言对应的代码数据。
本发明实施例中,所述相似度计算包括以下至少一种:加权计算、合并计算和降维计算。
本发明实施例中,所述代码数据为SimHash签名。
本发明实施例中,所述处理单元202,用于对每一条自然语言字段值对应的关键词的哈希值进行相似度计算,获取每一条自然语言对应的预设位数的代码数据。
本发明实施例中,所述分类单元204,用于将具有m份相同标签数据且所述m份相同标签数据处于相同位次顺序的代码数据作为一个全量集合;m<n。
本发明还提供一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一种的数据分类方法的步骤。
本发明还提供一种数据分类装置,包括存储器和处理器,所述存储器上存储有计算机指令,所述计算机指令运行时所述处理器执行上述任一种的数据分类方法的步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指示相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (14)

1.一种数据分类方法,其特征在于,包括:
获取自然语言数据;
对所述自然语言数据进行预处理,获取每一条自然语言数据对应的代码数据;
将每一条代码数据分别划分为n份标签数据;n≥2;
根据所述n份标签数据对应的位次顺序,将存在相同的标签数据且所述相同的标签数据的位次顺序相同的代码数据划分为一个全量集合;
分别计算每个全量集合内代码数据之间的相似度。
2.根据权利要求1所述的数据分类方法,其特征在于,所述对所述自然语言数据进行预处理,获取每一条自然语言数据对应的代码数据,包括:
获取每一条自然语言数据对应的自然语言字段值;
对每一条自然语言字段值进行分词处理,并提取相应的关键词;
获取每一条自然语言字段值对应的关键词的哈希值;
对每一条自然语言字段值对应的关键词的哈希值进行相似度计算,获取每一条自然语言对应的代码数据。
3.根据权利要求2所述的数据分类方法,其特征在于,所述相似度计算包括以下至少一种:加权计算、合并计算和降维计算。
4.根据权利要求2所述的数据分类方法,其特征在于,所述代码数据为SimHash签名。
5.根据权利要求2所述的数据分类方法,其特征在于,所述对每一条自然语言字段值对应的关键词的哈希值进行相似度计算,获取每一条自然语言对应的代码数据,包括:
对每一条自然语言字段值对应的关键词的哈希值进行相似度计算,获取每一条自然语言对应的预设位数的代码数据。
6.根据权利要求1所述的数据分类方法,其特征在于,所述将存在相同的标签数据且所述相同的标签数据的位次顺序相同的代码数据划分为一个全量集合,包括:
将具有m份相同标签数据且所述m份相同标签数据处于相同位次顺序的代码数据作为一个全量集合;m<n。
7.一种数据分类装置,其特征在于,包括:
获取单元,用于获取自然语言数据;
处理单元,用于对所述自然语言数据进行预处理,获取每一条自然语言数据对应的代码数据;
划分单元,用于将每一条代码数据分别划分为n份标签数据;n≥2;
分类单元,用于根据所述n份标签数据对应的位次顺序,将存在相同的标签数据且所述相同的标签数据的位次顺序相同的代码数据划分为一个全量集合;
计算单元,用于分别计算每个全量集合内代码数据之间的相似度。
8.根据权利要求7所述的数据分类装置,其特征在于,所述处理单元,用于获取每一条自然语言数据对应的自然语言字段值;对每一条自然语言字段值进行分词处理,并提取相应的关键词;获取每一条自然语言字段值对应的关键词的哈希值;对每一条自然语言字段值对应的关键词的哈希值进行相似度计算,获取每一条自然语言对应的代码数据。
9.根据权利要求8所述的数据分类装置,其特征在于,所述相似度计算包括以下至少一种:加权计算、合并计算和降维计算。
10.根据权利要求8所述的数据分类装置,其特征在于,所述代码数据为SimHash签名。
11.根据权利要求8所述的数据分类装置,其特征在于,所述处理单元,用于对每一条自然语言字段值对应的关键词的哈希值进行相似度计算,获取每一条自然语言对应的预设位数的代码数据。
12.根据权利要求7所述的数据分类装置,其特征在于,所述分类单元,用于将具有m份相同标签数据且所述m份相同标签数据处于相同位次顺序的代码数据作为一个全量集合;m<n。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1~6任一项所述的数据分类方法的步骤。
14.一种数据分类装置,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述计算机程序运行时所述处理器执行权利要求1~6任一项所述的数据分类方法的步骤。
CN201811147293.0A 2018-09-29 2018-09-29 数据分类方法、装置以及计算机可读存储介质 Active CN109299260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811147293.0A CN109299260B (zh) 2018-09-29 2018-09-29 数据分类方法、装置以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811147293.0A CN109299260B (zh) 2018-09-29 2018-09-29 数据分类方法、装置以及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109299260A CN109299260A (zh) 2019-02-01
CN109299260B true CN109299260B (zh) 2021-01-19

Family

ID=65161121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811147293.0A Active CN109299260B (zh) 2018-09-29 2018-09-29 数据分类方法、装置以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109299260B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111724187A (zh) * 2019-03-21 2020-09-29 上海晶赞融宣科技有限公司 Dmp受众数据实时处理方法及装置、计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120011395A (ko) * 2010-07-29 2012-02-08 에스케이커뮤니케이션즈 주식회사 용어/불용어 배열 구조를 이용한 문서 분석 방법 및 시스템과 이를 위한 프로그램 기록매체
CN103123618A (zh) * 2011-11-21 2013-05-29 北京新媒传信科技有限公司 文本相似度获取方法和装置
CN105279272A (zh) * 2015-10-30 2016-01-27 南京未来网络产业创新有限公司 一种基于分布式网络爬虫的内容聚合方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9244937B2 (en) * 2013-03-15 2016-01-26 International Business Machines Corporation Efficient calculation of similarity search values and digest block boundaries for data deduplication
CN105095162A (zh) * 2014-05-19 2015-11-25 腾讯科技(深圳)有限公司 文本相似度确定方法、装置、电子设备及系统
CN106294350B (zh) * 2015-05-13 2019-10-11 阿里巴巴集团控股有限公司 一种文本聚合方法及装置
CN107644010B (zh) * 2016-07-20 2021-05-25 阿里巴巴集团控股有限公司 一种文本相似度计算方法及装置
CN106873964A (zh) * 2016-12-23 2017-06-20 浙江工业大学 一种改进的SimHash代码相似度检测方法
CN108573045B (zh) * 2018-04-18 2021-12-24 同方知网数字出版技术股份有限公司 一种基于多阶指纹的比对矩阵相似度检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120011395A (ko) * 2010-07-29 2012-02-08 에스케이커뮤니케이션즈 주식회사 용어/불용어 배열 구조를 이용한 문서 분석 방법 및 시스템과 이를 위한 프로그램 기록매체
CN103123618A (zh) * 2011-11-21 2013-05-29 北京新媒传信科技有限公司 文本相似度获取方法和装置
CN105279272A (zh) * 2015-10-30 2016-01-27 南京未来网络产业创新有限公司 一种基于分布式网络爬虫的内容聚合方法

Also Published As

Publication number Publication date
CN109299260A (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
CN106570128A (zh) 一种基于关联规则分析的挖掘算法
US11874866B2 (en) Multiscale quantization for fast similarity search
CN109994215A (zh) 疾病自动编码系统、方法、设备和存储介质
CN111597297A (zh) 物品召回方法、系统、电子设备及可读存储介质
CN112417028A (zh) 一种风速时序特征挖掘方法及短期风电功率预测方法
CN113505583B (zh) 基于语义决策图神经网络的情感原因子句对提取方法
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN110674865A (zh) 面向软件缺陷类分布不平衡的规则学习分类器集成方法
CN110413998B (zh) 一种面向电力行业的自适应中文分词方法及其系统、介质
WO2016157275A1 (ja) 計算機及びグラフデータ生成方法
CN113780418B (zh) 一种数据的筛选方法、系统、设备和存储介质
CN109299260B (zh) 数据分类方法、装置以及计算机可读存储介质
CN109902162B (zh) 基于数字指纹的文本相似性的识别方法、存储介质及装置
CN109815475B (zh) 文本匹配方法、装置、计算设备及系统
CN117234029A (zh) 一种opc版图预处理方法及其修正方法和装置
CN116503608A (zh) 基于人工智能的数据蒸馏方法及相关设备
CN116257601A (zh) 一种基于深度学习的违法词库构建方法及系统
JP5824429B2 (ja) スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム
CN114372579A (zh) 训练机器学习模型的方法、预测方法、计算设备和介质
CN107016073A (zh) 一种文本分类特征选择方法
Desai et al. Analysis of Health Care Data Using Natural Language Processing
JP7559842B2 (ja) 情報処理装置、変換パターンの決定方法、および変換パターン決定プログラム
CN117251574B (zh) 一种基于多特征数据融合的文本分类提取方法及系统
CN113705873B (zh) 影视作品评分预测模型的构建方法及评分预测方法
CN113392124B (zh) 一种基于结构化语言的数据查询方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant