CN116383390A - 一种用于经营管理信息的非结构化数据存储方法及云平台 - Google Patents
一种用于经营管理信息的非结构化数据存储方法及云平台 Download PDFInfo
- Publication number
- CN116383390A CN116383390A CN202310653223.7A CN202310653223A CN116383390A CN 116383390 A CN116383390 A CN 116383390A CN 202310653223 A CN202310653223 A CN 202310653223A CN 116383390 A CN116383390 A CN 116383390A
- Authority
- CN
- China
- Prior art keywords
- text
- management
- text vector
- structures
- bucket
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007726 management method Methods 0.000 title claims abstract description 427
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000013500 data storage Methods 0.000 title claims abstract description 30
- 239000000470 constituent Substances 0.000 claims description 104
- 238000001914 filtration Methods 0.000 claims description 50
- 238000005065 mining Methods 0.000 claims description 42
- 239000011159 matrix material Substances 0.000 claims description 41
- 230000009466 transformation Effects 0.000 claims description 17
- 230000002787 reinforcement Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 12
- 230000010354 integration Effects 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 12
- 238000005728 strengthening Methods 0.000 claims description 10
- 238000005259 measurement Methods 0.000 claims description 8
- 230000001131 transforming effect Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 42
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 241000283690 Bos taurus Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供的用于经营管理信息的非结构化数据存储方法及云平台,通过获取经营管理文本分类网络,其包括具有若干个组成结构的第一文本向量调整算子,然后对第一文本向量调整算子的若干个组成结构进行改造,获得第二文本向量调整算子,其组成结构数量小于第一文本向量调整算子的组成结构数量,基于第二文本向量调整算子调换经营管理文本分类网络中的第一文本向量调整算子,得到更新后的经营管理文本分类网络。基于此,减少了文本向量调整算子的组成结构数量,进而使得经营管理文本分类网络的配置变量的数量减少,这样可以提升经营管理文本分类网络进行经营信息分类时的速度,从而加快数据存储的速度。
Description
技术领域
本公开涉及人工智能、数据处理领域,并且更具体地,涉及一种用于经营管理信息的非结构化数据存储方法及云平台。
背景技术
随着互联网技术的发展,各大平台每时每刻产生大量的数据。例如,在互联网经营(例如电商)管理中,需要定期对经营管理信息进行存储,以便定期进行经营情况的分析和运营决策,例如将同一类信息中涉及的经营情况作为参考进行统一调配。其中,经营管理信息的存储涉及的数据包含非结构化数据,例如经营描述文本,在进行非结构化数据的存储过程中,存储的效率和存储分类准确性是影响平台运营时效性和准确性的前提条件。现有的数据存储方式中,可以借助人工智能算法辅助数据分类,完成数据的前置区分,以便针对性地完成存储。其中,为了满足数据分类的准确性,数据分类的过程往往较为低效,不符合经营管理高时效的要求,因此,亟待一种可以高效准确对经营管理非结构化数据进行分类存储的方法。
发明内容
有鉴于此,本公开实施例至少提供一种用于经营管理信息的非结构化数据存储方法。
根据本公开实施例的一个方面,提供了一种用于经营管理信息的非结构化数据存储方法,所述方法包括:
获取经营管理文本分类网络,所述经营管理文本分类网络包括第一文本向量调整算子,所述第一文本向量调整算子用于抽取经营管理文本样本的文本向量表示,所述第一文本向量调整算子包括若干个组成结构;
对所述第一文本向量调整算子的若干个组成结构进行改造,得到第二文本向量调整算子;所述第二文本向量调整算子包括的组成结构数量小于所述第一文本向量调整算子包括的组成结构数量;所述第二文本向量调整算子用以抽取拟存储的经营管理文本的文本向量表示;
基于所述第二文本向量调整算子调换所述经营管理文本分类网络中的第一文本向量调整算子,得到更新后的经营管理文本分类网络;所述更新后的经营管理文本分类网络用于对拟存储的经营管理文本进行经营信息分类;
获取拟存储的经营管理文本,将所述拟存储的经营管理文本加载到所述更新后的经营管理文本分类网络,通过所述更新后的经营管理文本分类网络对所述拟存储的经营管理文本进行经营信息分类,得到经营信息分类结果;
将所述拟存储的经营管理文本按照所述经营信息分类结果进行存储。
根据本公开实施例的一个示例,其中,所述第一文本向量调整算子包括的组成结构数量为v个,v≥1,所述对所述第一文本向量调整算子的若干个组成结构进行改造,得到第二文本向量调整算子,包括:
依据组成结构选取策略从所述第一文本向量调整算子的v个组成结构中选取出u个目标组成结构,u≤v;
对所述u个目标组成结构进行改造,得到第二文本向量调整算子;
其中,所述u个目标组成结构为第一分类的组成结构,所述第一分类的组成结构用于对所述第一文本向量调整算子的执行文本进行文本向量挖掘操作,所述第一分类的组成结构包括一个或多个滤波矩阵;
所述对所述u个目标组成结构进行改造,得到第二文本向量调整算子,包括:
对所述u个目标组成结构中的滤波矩阵进行第一调整操作,得到u个包括第一滤波模块的组成结构;
将所述u个包括第一滤波模块的组成结构进行整合,得到第二文本向量调整算子;
所述对所述u个目标组成结构中的滤波矩阵进行第一调整操作,得到u个包括第一滤波模块的组成结构,包括:
如果第m个目标组成结构中的滤波矩阵为一个,则将所述第m个目标组成结构中的滤波矩阵变换成第一滤波模块,m≤u;
如果第m个目标组成结构中的滤波矩阵多于一个,则对所述第m个目标组成结构中的滤波矩阵进行整合,并将整合后的滤波矩阵变换成第一滤波模块。
根据本公开实施例的一个示例,其中,所述u个目标组成结构包括第一分类的组成结构和第二分类的组成结构;所述第一分类的组成结构用于对所述第一文本向量调整算子的执行文本进行文本向量挖掘操作,所述第一分类的组成结构包括一个或多个滤波矩阵;所述第二分类的组成结构用于对所述第一文本向量调整算子的执行文本进行不动变换;所述第一分类的组成结构数量为g个,g≤u;
所述对所述u个目标组成结构进行改造,得到第二文本向量调整算子,包括:
对所述g个第一分类的组成结构进行第一调整操作,得到g个包括第一滤波模块的组成结构;
对s个第二分类的组成结构进行第二调整操作,得到s个包括第二滤波模块的组成结构,其中,s=u-g;
将所述g个包括第一滤波模块的组成结构和所述s个包括第二滤波模块的组成结构进行整合,得到第二文本向量调整算子。
根据本公开实施例的一个示例,其中,所述第一分类的组成结构还包括归一化模块,所述归一化模块用于对所述第一分类的组成结构中滤波矩阵输出的文本向量表示进行归一化操作;
所述v个组成结构中包括第一分类的组成结构,所述第一分类的组成结构包括一个或多个滤波矩阵;所述依据组成结构选取策略从所述第一文本向量调整算子的v个组成结构中选取出u个目标组成结构,包括:
任意地在所述第一文本向量调整算子的v个组成结构中选取出u个目标组成结构;
或者,依据事先确定的尺寸从所述第一分类的组成结构中选取出u个目标组成结构,所述u个目标组成结构中的滤波矩阵的尺寸与所述事先确定的尺寸对应;
或者,依据事先确定的数量从所述第一分类的组成结构中选取出u个目标组成结构,所述u个目标组成结构中的滤波矩阵的数量和所述事先确定的数量对应。
根据本公开实施例的一个示例,其中,所述更新后的经营管理文本分类网络包括的第二文本向量调整算子的数量为x,x≥1;
所述更新后的经营管理文本分类网络还包括向量表示融合模块;
所述更新后的经营管理文本分类网络对拟存储的经营管理文本进行经营信息分类包括:
通过所述向量表示融合模块将拟存储的经营管理文本的原始文本向量表示与第n个第二文本向量调整算子输出的文本向量表示整合,得到所述拟存储的经营管理文本的整合文本向量表示,n≤x;
基于第n+1个第二文本向量调整算子对所述拟存储的经营管理文本的整合文本向量表示进行文本向量挖掘,得到所述拟存储的经营管理文本的文本向量挖掘结果;
基于所述拟存储的经营管理文本的文本向量挖掘结果,得到所述拟存储的经营管理文本的经营信息分类。
根据本公开实施例的一个示例,其中,所述方法还包括:
依据包括所述第一文本向量调整算子的经营管理文本分类网络对经营管理文本样本进行经营信息分类,得到所述经营管理文本样本对应的经营信息分类结果;
基于所述经营管理文本样本对应的经营信息分类结果和所述经营管理文本样本对应的标签指示信息间的损失,对所述第一文本向量调整算子中的配置变量进行优化,获得优化好的经营管理文本分类网络;
其中,所述第一文本向量调整算子包括的组成结构数量为v个,v≥1,所述依据包括所述第一文本向量调整算子的经营管理文本分类网络对经营管理文本样本进行经营信息分类,得到所述经营管理文本样本对应的经营信息分类结果,包括:
通过所述v个组成结构分别对经营管理文本样本进行文本向量挖掘,得到所述经营管理文本样本对应的v个子文本向量表示;
对所述v个子文本向量表示进行整合,得到所述经营管理文本样本的整合文本向量表示;
基于所述经营管理文本样本的整合文本向量表示,获取所述经营管理文本样本对应的经营信息分类结果。
根据本公开实施例的一个示例,其中,所述经营管理文本分类网络包括一个或多个第一文本向量调整算子,每个第一文本向量调整算子与一非线性函数匹配;所述经营管理文本分类网络还包括一个或多个维度滤波模块,所述一个或多个维度滤波模块用于调节所述拟存储的经营管理文本在经营信息分类时的维度数。
根据本公开实施例的一个示例,其中,所述对所述拟存储的经营管理文本进行经营信息分类,得到经营信息分类结果,包括:
获取拟存储的经营管理文本;
对所述拟存储的经营管理文本进行文本向量挖掘得到文本向量表示;
通过所述文本向量表示与分桶质心集合中分桶质心的共性度量值,从所述分桶质心集合中确定与所述文本向量表示对应的目标分桶质心,所述分桶质心集合中包括不同分类的分桶质心,所述分桶质心是不同分类的经营类型所对应的象征性向量表示;
基于所述目标分桶质心对所述文本向量表示进行强化得到强化向量表示;
通过所述强化向量表示确定所述拟存储的经营管理文本对应的目标文本向量表示;
通过所述目标文本向量表示对所述拟存储的经营管理文本进行经营类型识别,得到经营信息分类结果;
其中,所述经营管理文本分类网络包括第二文本向量调整算子、分桶质心算子、向量整合算子和分类算子,所述分桶质心算子包括所述分桶质心集合中的分桶质心;
所述对所述拟存储的经营管理文本进行文本向量挖掘得到文本向量表示,包括:
基于所述第二文本向量调整算子对所述拟存储的经营管理文本进行文本向量挖掘得到所述文本向量表示;
所述通过所述文本向量表示与分桶质心集合中分桶质心的共性度量值,从所述分桶质心集合中确定与所述文本向量表示对应的目标分桶质心,包括:
基于所述分桶质心算子确定与所述文本向量表示对应的所述目标分桶质心;
所述基于所述目标分桶质心对所述文本向量表示进行强化得到强化向量表示,包括:
基于所述向量整合算子将所述目标分桶质心与所述文本向量表示进行整合得到所述强化向量表示;
所述通过所述强化向量表示确定所述拟存储的经营管理文本对应的目标文本向量表示,包括:
基于所述向量整合算子通过所述强化向量表示确定所述拟存储的经营管理文本对应的所述目标文本向量表示;
所述通过所述目标文本向量表示对所述拟存储的经营管理文本进行经营类型识别,得到经营信息分类结果,包括:
基于所述分类算子通过所述目标文本向量表示对所述拟存储的经营管理文本进行经营类型识别,得到所述经营信息分类结果。
根据本公开实施例的一个示例,其中,所述方法还包括所述分桶质心算子的生成步骤,包括:
在调试得到所述经营管理文本分类网络时,基于所述第二文本向量调整算子对经营管理文本样本进行文本向量挖掘,得到分类指示信息指示的经营类型的调试文本向量表示,所述分类指示信息用以指示所述经营管理文本样本中包括的经营类型;
通过所述经营类型的调试文本向量表示优化所述分桶质心算子中所述经营类型的分桶质心;
所述通过所述经营类型的调试文本向量表示优化所述分桶质心算子中所述经营类型的分桶质心,包括:
如果所述经营类型分桶质心不存在,则将所述经营类型的调试文本向量表示作为所述经营类型分桶质心;
如果所述经营类型分桶质心存在,则获取所述经营类型的调试文本向量表示与所述经营类型分桶质心之间的共性度量值;
通过所述共性度量值优化所述分桶质心算子中所述经营类型分桶质心;
所述通过所述共性度量值优化所述分桶质心算子中所述经营类型分桶质心,包括:如果所述共性度量值小于预设共性度量值,将所述经营类型的调试文本向量表示添加到所述经营类型分桶质心。
根据本公开实施例的另一方面,提供了一种云平台,包括:
一个或多个处理器;
以及一个或多个存储器,其中所述存储器中存储有计算机可读代码,所述计算机可读代码在由所述一个或多个处理器运行时,使得所述一个或多个处理器执行以上所述的方法。
本公开至少包含以下有益效果:
本公开实施例提供的用于经营管理信息的非结构化数据存储方法及云平台,通过获取经营管理文本分类网络,该经营管理文本分类网络包括第一文本向量调整算子,第一文本向量调整算子包括若干个组成结构,然后对第一文本向量调整算子的若干个组成结构进行改造,以获得第二文本向量调整算子,第二文本向量调整算子包括的组成结构数量小于第一文本向量调整算子包括的组成结构数量,基于第二文本向量调整算子调换经营管理文本分类网络中的第一文本向量调整算子,得到更新后的经营管理文本分类网络,更新后的经营管理文本分类网络用于对拟存储的经营管理文本进行经营信息分类。基于此,将经营管理文本分类网络的第一文本向量调整算子调换为第二文本向量调整算子,减少了文本向量调整算子的组成结构数量,进而使得经营管理文本分类网络的配置变量的数量减少,这样可以提升经营管理文本分类网络进行经营信息分类时的速度,从而加快数据存储的速度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开的技术方案。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开实施例的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为本公开实施例提供的应用场景的示意图。
图2为本公开实施例提供的一种用于经营管理信息的非结构化数据存储方法的实现流程示意图。
图3为本公开实施例提供的一种非结构化数据存储装置的组成结构示意图。
图4为本公开实施例提供的一种云平台的硬件实体示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
为了使本公开的目的、技术方案和优点更加清楚,下面结合附图和实施例对本公开的技术方案进一步详细阐述,所描述的实施例不应视为对本公开的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。所涉及的术语“第一/第二/第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开的目的,不是旨在限制本公开。
图1示出了根据本公开实施例的应用场景100的示意图,其中示意性地示出了云平台110和多个客户端120。这里的云平台110可以是用于进行数据存储的独立的服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、定位服务以及大数据和人工智能平台等基础云计算服务的云服务器,本公开实施例对此不作具体限制。多个客户端120可以是诸如台式计算机等的固定终端,诸如智能手机、平板电脑、便携式计算机、手持设备、个人数字助理、智能可穿戴设备等的移动终端,或者它们的任意组合,本公开实施例对此不作具体限制。客户端120可用以产生拟存储的经营管理文本。
本公开实施例提供一种用于经营管理信息的非结构化数据存储方法,该方法可以由云平台110的处理器执行。
本公开实施例提供的用于经营管理信息的非结构化数据存储方法,通过对经营管理文本分类网络进行处理,使得网络结构产生变化,提升数据处理的效率,进而加快数据存储的速度,在对经营管理文本分类网络进行处理时,主要从以下几个操作流程进行:
操作10:获取经营管理文本分类网络,该经营管理文本分类网络包括第一文本向量调整算子,其用以抽取经营管理文本样本的文本向量表示,第一文本向量调整算子包括若干个组成结构。第一文本向量调整算子用于抽取文本的文本向量表示,例如文本的长度向量表示、标点符号向量表示、词汇属性向量表示、词频向量表示、TF-IDF向量表示等等。经营管理文本分类网络用于对经营管理文本的经营信息分类结果进行识别,其中,经营管理文本例如是电商平台获取的大量入驻商家的商品经营情况描述信息,例如记录的商品功能描述、商品销售描述、商品评价描述、商品异常描述等经营信息,在一个实施方式中,一个商品可以对应一个经营管理文本,通过对经营管理文本进行识别,得到经营信息分类结果,经营信息分类结果例如是评价商品的市场反馈度、转化度、热销度、好评度等多个维度分类,具体的分类标准不做限定。此外,在每一个维度中,可以根据程度进行等级划分,例如一级、二级、三级等,可根据实际需要进行设定。在本公开中提及的各个算子,可认为是神经网络中构建的实现不同功能的各个网络层。
操作20:得到经营管理文本分类网络后,依据经营管理文本样本对包括第一文本向量调整算子的经营管理文本分类网络进行调试,获得优化好的经营管理文本分类网络。流入,可以依据包括第一文本向量调整算子的经营管理文本分类网络对经营管理文本样本进行经营信息分类,得到经营管理文本样本对应的经营信息分类结果,然后依据经营管理文本样本对应的经营信息分类结果和经营管理文本样本对应的标签指示信息间的损失,对第一文本向量调整算子中的配置变量(譬如滤波矩阵)进行优化调节,获得优化好的经营管理文本分类网络。
操作30:对优化后的经营管理文本分类网络中的第一文本向量调整算子的若干个组成结构进行改造,获得第二文本向量调整算子。该第二文本向量调整算子用于抽取拟存储的经营管理文本的文本向量表示,第二文本向量调整算子包括的组成结构数量小于第一文本向量调整算子包括的组成结构数量,第一文本向量调整算子包括的组成结构数量为v个,v≥1,第二文本向量调整算子包括的组成结构数量为y,1≤y≤v。
可选地,第一文本向量调整算子包括第一分类的组成结构和第二分类的组成结构,第一分类的组成结构用于对第一文本向量调整算子的执行文本进行文本向量挖掘操作,第一分类的组成结构包括一个或多个滤波矩阵;第二分类的组成结构用于对第一文本向量调整算子的执行文本进行不动变换。如果第一文本向量调整算子包括的第一分类的组成结构数量为g个,g<v,那么对优化后的经营管理文本分类网络中的第一文本向量调整算子的若干个组成结构进行改造,获得第二文本向量调整算子的过程为:对g个第一分类的组成结构进行第一调整操作,得到g个包括第一滤波模块的组成结构,对v-g个第二分类的组成结构进行第二调整操作,获得v-g个包括第二滤波模块的组成结构,第一滤波模块与第二滤波模块的尺寸可以是一致的或不一致的。对g个包括第一滤波模块的组成结构和v-g个包括第二滤波模块的组成结构进行整合,得到第二文本向量调整算子。或者,依据组成结构选取策略(譬如随意选取、依据预设的滤波矩阵尺度选取、依据各成结构包括的滤波矩阵的数目进行选取)在第一文本向量调整算子的v个组成结构中选取出u个目标组成结构,u≤v。对u个目标组成结构进行改造,获得改造好的组成结构,将第一文本向量调整算子中的u个目标组成结构调换为改造好的组成结构,得到第二文本向量调整算子。
操作40:基于第二文本向量调整算子调换经营管理文本分类网络中的第一文本向量调整算子,得到更新后的经营管理文本分类网络。更新后的经营管理文本分类网络用于对拟存储的经营管理文本进行经营信息分类。经营信息分类的过程在后续详细介绍。更新后的经营管理文本分类网络(包括第二文本向量调整算子)比更新前的经营管理文本分类网络(包括第一文本向量调整算子)的组成结构数量减少,因在经营管理文本分类网络的调试时,对第一文本向量调整算子进行调试(也牛市在调试时采用保证经营管理文本分类网络中组成结构的个数来确保经营管理文本分类网络的调试后网络性能,从而确保经营管理文本分类网络的分类性能),调试好后对调试好的第一文本向量调整算子进行改造获得第二文本向量调整算子,将第一文本向量调整算子调换为第二文本向量调整算子,如此精简经营管理文本分类网络中组成结构数目,不影响文本分类的前提下提升经营信息分类的速度。
本公开实施例通过获取经营管理文本分类网络,经营管理文本分类网络包括第一文本向量调整算子,该第一文本向量调整算子包括若干个组成结构,通过经营管理文本样本对包括第一文本向量调整算子的经营管理文本分类网络进行调试,获得优化好的经营管理文本分类网络,对第一文本向量调整算子的若干个组成结构进行改造,得到第二文本向量调整算子,第二文本向量调整算子包括的组成结构数量小于第一文本向量调整算子包括的组成结构数量,基于第二文本向量调整算子调换经营管理文本分类网络中的第一文本向量调整算子,得到更新后的经营管理文本分类网络,更新后的经营管理文本分类网络用于对拟存储的经营管理文本进行经营信息分类。可以理解,在调试时依据经营管理文本样本对第一文本向量调整算子进行调试能确保经营管理文本分类网络的特征表示性能,在实际执行时,采取将经营管理文本分类网络的第一文本向量调整算子调换为第二文本向量调整算子,精简了文本向量调整算子的组成结构数量,减少经营管理文本分类网络的配置变量,让经营管理文本分类网络进行经营信息分类的速度得到提升。
下面对本公开实施例提供的用于经营管理信息的非结构化数据存储方法的具体过程进行详细介绍,该方法应用于云平台,图2为本公开实施例提供的一种用于经营管理信息的非结构化数据存储方法的实现流程示意图,如图2所示,该方法包括如下步骤110至步骤150:
步骤110:获取经营管理文本分类网络。
经营管理文本分类网络包括第一文本向量调整算子,第一文本向量调整算子包括若干个组成结构。第一文本向量调整算子用以抽取经营管理文本样本的文本向量表示。第一文本向量调整算子包括v个组成结构,v≥1。第一文本向量调整算子包括的v个组成结构包括第一分类的组成结构和第二分类的组成结构,第一分类的组成结构包括一个或多个滤波矩阵,第一分类的组成结构通过一个或多个滤波矩阵对第一文本向量调整算子的执行文本进行文本向量挖掘操作。如果第一分类的组成结构包括的滤波矩阵的个数为多个,各滤波矩阵的尺寸可以一致或不一致,如果第一分类的组成结构的个数为多个,每个组成结构包括的滤波矩阵的个数可一致或不一致;第二分类的组成结构用于对第一文本向量调整算子的执行文本进行不动变换。其中,第一文本向量调整算子可以仅包括第一分类的组成结构。
步骤120:对第一文本向量调整算子的若干个组成结构进行改造,得到第二文本向量调整算子。
第二文本向量调整算子用以抽取拟存储的经营管理文本的文本向量表示,第二文本向量调整算子包括的组成结构数量小于第一文本向量调整算子包括的组成结构数量。可选地,第一文本向量调整算子包括第一分类的组成结构和第二分类的组成结构。若第一文本向量调整算子包括的第一分类的组成结构数量为g个,g<v,那么对经营管理文本分类网络中的第一文本向量调整算子的若干个组成结构进行改造,得到第二文本向量调整算子的过程包括:对g个第一分类的组成结构进行第一调整操作,得到g个包括第一滤波模块的组成结构。例如,如果第一分类的组成结构中的滤波矩阵的数量为多个,将组成结构中的滤波矩阵整合为一个滤波矩阵;在将第一分类的组成结构中的滤波矩阵整合为一个滤波矩阵后,将整合后的滤波矩阵变换成第一滤波模块,得到包括第一滤波模块的组成结构。如果第一分类的组成结构中的滤波矩阵为一个,就将该滤波矩阵变换成第一滤波模块,得到包括第一滤波模块的组成结构。对第二分类的组成结构进行第二调整操作,得到v-g个包括第二滤波模块的组成结构,第二分类的组成结构用于对第一文本向量调整算子的执行文本进行不动变换,换言之,输入第一分类的组成结构的文本向量表示和第一分类的组成结构输出的文本向量表示相同。例如,在第二分类的组成结构中加入第二滤波模块,让加载到第二滤波模块的文本向量表示和第二滤波模块输出的文本向量表示相同。进而,对g个包括第一滤波模块的组成结构和v-g个包括第二滤波模块的组成结构进行整合,得到第二文本向量调整算子。
作为一种实施方式,将第一文本向量调整算子中第一分类的组成结构和第二分类的组成结构变换成包括一个滤波模块的组成结构,然后对v个组成结构进行整合得到第二文本向量调整算子。其中,因第二文本向量调整算子的组成结构数量小于第一文本向量调整算子的组成结构数量(第二文本向量调整算子的配置变量数量小于第一文本向量调整算子的配置变量数量),第二文本向量调整算子提取文本向量表示的速度比第一文本向量调整算子提取文本向量表示的速度更快。
作为其他实施方式,依据组成结构选取策略,譬如任意选取、依据预设滤波矩阵尺度选取、依据各组成结构包括的滤波矩阵数目选取等,在第一文本向量调整算子的v个组成结构中选取出u个目标组成结构,u≤v,对u个目标组成结构进行改造,以获得第二文本向量调整算子。
可选地,u个目标组成结构均为第一分类的组成结构,对u个目标组成结构中的滤波矩阵进行第一调整操作,得到u个包括第一滤波模块的组成结构,然后将u个包括第一滤波模块的组成结构进行整合,得到整合后的组成结构,之后将第一文本向量调整算子中的u个目标组成结构调换为整合后的组成结构,获得第二文本向量调整算子,例如,如果目标组成结构包括一个滤波矩阵,则将目标组成结构中的滤波矩阵变换成第一滤波模块,获得包括第一滤波模块的组成结构。其他方案实现中,如果目标组成结构包括多个滤波矩阵,则将多个滤波矩阵整合为一滤波矩阵,将整合后的滤波矩阵变换成第一滤波模块,得到包括第一滤波模块的组成结构。
其他实施方式中,u个目标组成结构包括g个第一分类的组成结构和s个第二分类的组成结构,其中,s=u-g。对g个第一分类的组成结构进行第一调整操作,得到g个包括第一滤波模块的组成结构,对s个第二分类的组成结构进行第二调整操作,得到s个包括第二滤波模块的组成结构,然后将g个包括第一滤波模块的组成结构和s个包括第二滤波模块的组成结构进行整合,得到整合后的组成结构,之后将第一文本向量调整算子中的u个目标组成结构调换为整合后的组成结构,得到第二文本向量调整算子。可选地,如果目标组成结构包括一个滤波矩阵,则将目标组成结构中的滤波矩阵变换成第一滤波模块,得到包括第一滤波模块的组成结构。或者,如果目标组成结构包括多个(若干个)滤波矩阵,则将多个滤波矩阵整合为一个滤波矩阵,再将整合后的滤波矩阵变换成第一滤波模块,得到包括第一滤波模块的组成结构。又或者,如果目标组成结构为第二分类的组成结构,则在目标组成结构中添加第二滤波模块,令加载到第二滤波模块的文本向量表示和第二滤波模块输出的文本向量表示相同。其中,u个包括滤波模块的组成结构可以整合为一个组成结构,还可整合为多个组成结构,譬如每n个组成结构整合为一个组成结构,n<u,或者基于各组成结构的滤波模块尺度进行整合,又或者将包括第一滤波模块的第一分类的组成结构整合为一个组成结构,将包括第二滤波模块的第二分类的组成结构整合为另一个组成结构。进一步来说,经营管理文本分类网络包括x个第一文本向量调整算子,x>1,x个第一文本向量调整算子的改造方式可以一致或不一致。举例来说,x个第一文本向量调整算子在改造时整合的组成结构数量相同,或x个第一文本向量调整算子在经营管理文本分类网络中依次排布,第一文本向量调整算子在改造时整合的组成结构数量与顺序正相关,又或者每个第一文本向量调整算子在改造时整合的组成结构数量取决于该第一文本向量调整算子包括的目标滤波矩阵的组成结构个数,还或者每个第一文本向量调整算子在改造时整合的组成结构数量取决于该第一文本向量调整算子的组成结构包括的滤波矩阵个数。
步骤130:基于第二文本向量调整算子调换经营管理文本分类网络中的第一文本向量调整算子,得到更新后的经营管理文本分类网络。
更新后的经营管理文本分类网络用于对拟存储的经营管理文本进行经营信息分类,其过程在后续详细介绍。其中,更新后的经营管理文本分类网络(包括第二文本向量调整算子)比更新前的经营管理文本分类网络(包括第一文本向量调整算子)的组成结构数量减少,因在经营管理文本分类网络的调试时,对第一文本向量调整算子进行调试(也牛市在调试时采用保证经营管理文本分类网络中组成结构的个数来确保经营管理文本分类网络的调试后网络性能,从而确保经营管理文本分类网络的分类性能),调试好后对调试好的第一文本向量调整算子进行改造获得第二文本向量调整算子,将第一文本向量调整算子调换为第二文本向量调整算子,如此精简经营管理文本分类网络中组成结构数目,不影响文本分类的前提下提升经营信息分类的速度。
步骤140:获取拟存储的经营管理文本,将拟存储的经营管理文本加载到更新后的经营管理文本分类网络,通过更新后的经营管理文本分类网络对拟存储的经营管理文本进行经营信息分类,得到经营信息分类结果。
步骤150:将拟存储的经营管理文本按照经营信息分类结果进行存储。
例如,不同的经营信息分类结果对应不同的存储分区,按照对应的经营信息分类结果将拟存储的经营管理文本存储到相应分区中。
本公开实施例通过获取经营管理文本分类网络,经营管理文本分类网络包括第一文本向量调整算子,该第一文本向量调整算子包括若干个组成结构,通过经营管理文本样本对包括第一文本向量调整算子的经营管理文本分类网络进行调试,获得优化好的经营管理文本分类网络,对第一文本向量调整算子的若干个组成结构进行改造,得到第二文本向量调整算子,第二文本向量调整算子包括的组成结构数量小于第一文本向量调整算子包括的组成结构数量,基于第二文本向量调整算子调换经营管理文本分类网络中的第一文本向量调整算子,得到更新后的经营管理文本分类网络,更新后的经营管理文本分类网络用于对拟存储的经营管理文本进行经营信息分类。可以理解,在调试时依据经营管理文本样本对第一文本向量调整算子进行调试能确保经营管理文本分类网络的特征表示性能,在实际执行时,采取将经营管理文本分类网络的第一文本向量调整算子调换为第二文本向量调整算子,精简了文本向量调整算子的组成结构数量,减少经营管理文本分类网络的配置变量,让经营管理文本分类网络进行经营信息分类的速度得到提升。
在其他实施例中,本公开提供的用于经营管理信息的非结构化数据存储方法包括如下步骤:
步骤210:获取经营管理文本分类网络。
可选地,经营管理文本分类网络包括一个或多个第一文本向量调整算子,每个第一文本向量调整算子与一非线性函数匹配,非线性函数即激活函数,如ReLU。经营管理文本分类网络还包括一个或多个维度滤波模块,一个或多个维度滤波模块用于调节拟存储的经营管理文本在经营信息分类时的维度数。
步骤220:通过经营管理文本样本对包括第一文本向量调整算子的经营管理文本分类网络进行调试,获得优化好的经营管理文本分类网络。
依据包括第一文本向量调整算子的经营管理文本分类网络对经营管理文本样本进行经营信息分类,得到经营管理文本样本对应的经营信息分类结果。可选地,第一文本向量调整算子包括的组成结构数量为v个,v≥1。基于v个组成结构分别对经营管理文本样本进行文本向量挖掘,得到经营管理文本样本对应的v个子文本向量表示;对v个子文本向量表示进行整合,得到经营管理文本样本的整合文本向量表示;通过经营管理文本样本的整合文本向量表示,获取经营管理文本样本对应的经营信息分类结果。基于经营管理文本样本对应的经营信息分类结果和经营管理文本样本对应的标签指示信息间的损失,对第一文本向量调整算子中的配置变量进行优化,获得优化好的经营管理文本分类网络。
在经营管理文本分类网络的调试时,网络的组成结构数量和文本向量挖掘结果正相关,通过经营管理文本样本对第一文本向量调整算子进行调试可以确保经营管理文本分类网络的特征表示效果。
步骤230:依据组成结构选取策略从第一文本向量调整算子的v个组成结构中选取出u个目标组成结构。
v个组成结构中包括第一分类的组成结构,第一分类的组成结构包括一个或多个滤波矩阵。可选地,任意地在第一文本向量调整算子的v个组成结构中选取出u个目标组成结构。其他实施方式中,依据事先确定的尺寸从第一分类的组成结构中选取出u个目标组成结构,u个目标组成结构中的滤波矩阵的尺寸与事先确定的尺寸对应。又一实施方式中,依据事先确定的数量从第一分类的组成结构中选取出u个目标组成结构,u个目标组成结构中的滤波矩阵的数量和事先确定的数量对应。
步骤240:对u个目标组成结构进行改造,得到第二文本向量调整算子。
第二文本向量调整算子用以抽取拟存储的经营管理文本的文本向量表示,第二文本向量调整算子包括的组成结构数量小于第一文本向量调整算子包括的组成结构数量。可选地,u个目标组成结构为第一分类的组成结构,第一分类的组成结构用于对第一文本向量调整算子的执行文本进行文本向量挖掘操作,第一分类的组成结构包括一个或多个滤波矩阵。对u个目标组成结构中的滤波矩阵进行第一调整操作,得到u个包括第一滤波模块的组成结构。例如,如果第m个目标组成结构中的滤波矩阵为一个,则将第m个目标组成结构中的滤波矩阵变换成第一滤波模块,m≤u。如果第m个目标组成结构中的滤波矩阵多于一个,则对第m个目标组成结构中的滤波矩阵进行整合,并将整合后的滤波矩阵变换成第一滤波模块。进而,获得u个包括第一滤波模块的组成结构后,将u个包括第一滤波模块的组成结构进行整合,得到整合后的组成结构,将第一文本向量调整算子中的u个目标组成结构调换为整合后的组成结构,得到第二文本向量调整算子。
其他实施方式中,u个目标组成结构包括第一分类的组成结构和第二分类的组成结构。第一分类的组成结构用于对第一文本向量调整算子的执行文本进行文本向量挖掘操作,第一分类的组成结构包括一个或多个滤波矩阵。第二分类的组成结构用于对第一文本向量调整算子的执行文本进行不动变换。设第一分类的组成结构数量为g个,g≤u。对g个第一分类的组成结构进行第一调整操作,得到g个包括第一滤波模块的组成结构。对s个第二分类的组成结构进行第二调整操作,得到s个包括第二滤波模块的组成结构,其中s=u-g;例如,在第二分类的组成结构中加入第二滤波模块,令加载到第二滤波模块的文本向量表示和第二滤波模块输出的文本向量表示相同。在获得g个包括第一滤波模块的组成结构和s个包括第二滤波模块的组成结构后,将g个包括第一滤波模块的组成结构和s个包括第二滤波模块的组成结构进行整合,得到整合后的组成结构,将第一文本向量调整算子中的u个目标组成结构调换为整合后的组成结构,得到第二文本向量调整算子。作为一种实施方式,第一分类的组成结构还包括归一化模块(例如BN/LN),归一化模块用于对第一分类的组成结构中滤波矩阵输出的文本向量表示进行归一化操作。
步骤250:基于第二文本向量调整算子调换经营管理文本分类网络中的第一文本向量调整算子,得到更新后的经营管理文本分类网络。
更新后的经营管理文本分类网络用于对拟存储的经营管理文本进行经营信息分类。可选地,更新后的经营管理文本分类网络包括的第二文本向量调整算子的数量为x,x≥1。换言之,更新前的经营管理文本分类网络包括x个第一文本向量调整算子。x个第一文本向量调整算子在改造时,各第一文本向量调整算子的改造方式可以一致或不一致(前述已说明)。
可选地,更新后的经营管理文本分类网络还包括向量表示融合模块;更新后的经营管理文本分类网络对拟存储的经营管理文本进行经营信息分类包括:通过向量表示融合模块将拟存储的经营管理文本的原始文本向量表示与第n个第二文本向量调整算子输出的文本向量表示整合,得到拟存储的经营管理文本的整合文本向量表示,n≤x。基于第n+1个第二文本向量调整算子对拟存储的经营管理文本的整合文本向量表示进行文本向量挖掘,得到拟存储的经营管理文本的文本向量挖掘结果。在得到拟存储的经营管理文本的文本向量挖掘结果后,基于拟存储的经营管理文本的文本向量挖掘结果,得到拟存储的经营管理文本的经营信息分类。其中,经营管理文本分类网络可以包括至少一个向量表示融合模块,通过向量表示融合模块将拟存储的经营管理文本的原始文本向量表示与第n个第二文本向量调整算子输出的文本向量表示整合,提高了分类性能,防止过拟合,加强了经营管理文本分类网络的效果。
下面介绍上述内容中提及的对经营管理文本进行经营信息分类的过程,其具体可以包括如下步骤:
步骤(1)获取拟存储的经营管理文本。
步骤(2)对拟存储的经营管理文本进行文本向量挖掘得到文本向量表示。
其中,经营管理文本分类网络包括第二文本向量调整算子、分桶质心算子、向量整合算子和分类算子,分桶质心算子由分桶质心集合中的分桶质心构成,分桶质心为一个经营信息分类的特征中心。通过经营管理文本分类网络对拟存储的经营管理文本进行经营类型识别,实质上包括两个过程,首先是基于经营管理文本分类网络进行文本向量挖掘,例如基于第二文本向量调整算子对拟存储的经营管理文本进行文本向量挖掘得到文本向量表示,然后是基于经营管理文本分类网络通过提取的文本向量表示进行分类,该过程涉及分桶质心算子、向量整合算子和分类算子。
步骤(3)通过文本向量表示与分桶质心集合中分桶质心的共性度量值,从分桶质心集合中确定与文本向量表示对应的目标分桶质心。
其中,可事先生成分桶质心集合,分桶质心集合包括不同分类的分桶质心,分桶质心是不同分类的经营类型对应的象征性向量表示。分桶质心集合中的分桶质心可以是在经营管理文本分类网络调试时获取的,在调试经营管理文本分类网络时,持续获取各个分类的经营类型的象征性向量表示,并确定成该分类的分桶质心,分桶质心在配合调试的前提下还被存储以便经营类型识别。因拟存储的经营管理文本可能表达模糊,可识别能力弱,本公开中,可通过文本向量表示与分桶质心集合中分桶质心的共性度量值(即相似性度量结果),在分桶质心集合中筛选和文本向量表示对应的目标分桶质心,例如获取文本向量表示与分桶质心集合中每个分桶质心的共性度量值,共性度量值越高,代表分桶质心对应的经营类型与文本向量表示对应的经营类型为同类经营类型,此时将共性度量值高于预设值的分桶质心确定为目标分桶质心。因分桶质心集合中包括不同分类的分桶质心,分桶质心是不同分类的经营类型所对应的象征性向量表示,而确定得到的目标分桶质心可能是文本向量表示所对应经营类型的象征性向量表示,则可依据目标分桶质心对文本向量表示进行强化得到强化向量表示,获得信息量充足的经营类型特征。基于经营管理文本分类网络进行经营类型识别时,可基于经营管理文本分类网络中的分桶质心算子确定和文本向量表示对应的目标分桶质心。
步骤(4)基于目标分桶质心对文本向量表示进行强化得到强化向量表示。
对应相同分类的分桶质心,即目标分桶质心,其拥有的教示能力更强,本公开中,向量整合算子可以依据注意力机制执行特征的融合,实现对文本向量表示进行强化。例如,通过目标分桶质心和文本向量表示获取共性度量值评估数组,共性度量值评估数组中的组元用以指示每个目标分桶质心对于文本向量表示的偏心变量(即偏向的重要性,可理解为权值),然后通过共性度量值评估数组对目标分桶质心和文本向量表示进行偏心计算后相加(即将对应的偏心变量乘以目标分桶质心,然后和文本向量表示进行相加),得到文本向量表示对应的强化向量表示。其中,共性度量值评估数组Q的获取过程为:
Q=f(V·U/c)
其中,V为文本向量表示,维度是m×c,m为V中向量元素的数量,也即拟存储的经营管理文本中经营类型的数量,c是维数;U为目标分桶质心;f为归一化指数函数。
步骤(5)通过强化向量表示确定拟存储的经营管理文本对应的目标文本向量表示。
经营管理文本分类网络进行经营类型识别时,可基于向量整合算子通过整合向量表示确定拟存储的经营管理文本对应的目标文本向量表示。通过强化向量表示确定拟存储的经营管理文本对应的目标文本向量表示的方式可以是直接将强化向量表示作为目标文本向量表示,或者将强化向量表示与文本向量表示进行组合以获得目标文本向量表示,如基于组合拼接将强化向量表示与文本向量表示进行组合以获得目标文本向量表示,防止拟存储的经营管理文本中的已有信息损失。
步骤(6)通过目标文本向量表示对拟存储的经营管理文本进行经营类型识别,得到经营信息分类结果。
经营管理文本分类网络进行经营类型识别时,可基于分类算子通过目标文本向量表示对拟存储的经营管理文本进行经营类型识别,得到经营信息分类结果。其中,经营信息分类结果可以包括拟存储的经营管理文本对应的经营类型。
上述过程中,通过事先获取整理不同分类的分桶质心,分桶质心是不同分类的经营类型所对应的象征性向量表示,可体现一经营分类。对拟存储的经营管理文本进行经营类型识别时,对拟存储的经营管理文本进行文本向量挖掘得到文本向量表示,再通过文本向量表示与分桶质心集合中分桶质心的共性度量值,在分桶质心集合中确定与文本向量表示对应的目标分桶质心。分桶质心集合中包括不同分类的分桶质心,分桶质心是不同分类的经营类型所对应的象征性向量表示,则可基于目标分桶质心对文本向量表示进行强化得到强化向量表示,通过强化向量表示确定拟存储的经营管理文本对应的目标文本向量表示,获得信息充足,指代效果更佳的经营类型的特征。特别是在原始文本表达信息模糊不利于评估分析时,基于目标分桶质心对文本向量表示进行强化来帮助经营类型识别,让获得的目标文本向量表示的识别能力更强。通过目标文本向量表示对拟存储的经营管理文本进行经营类型识别,得到的经营信息分类结果更精准,进一步提升经营类型识别的速度,时效性高。
在调试得到经营管理文本分类网络时,可以生成分桶质心算子。生成分桶质心算子的方式可以是在调试得到经营管理文本分类网络时,基于第二文本向量调整算子对经营管理文本样本进行文本向量挖掘,得到分类指示信息指示的经营类型的调试文本向量表示,分类指示信息用以指示经营管理文本样本中包括的经营类型;通过经营类型的调试文本向量表示优化分桶质心算子中经营类型分桶质心。在对经营管理文本分类网络进行调试时加入生成分桶质心算子,以基于分桶质心算子中的象征性向量表示优化模糊经营类型的识别表征,帮助获取高泛化能力的经营管理文本分类网络。生成分桶质心算子时,通过分类指示信息(指示实际分类的信息)和得到的调试强化向量表示之间的误差生成目标误差算法;通过目标误差算法优化分桶质心算子中的分桶质心,生成分桶质心算子。
通过经营类型的调试文本向量表示优化分桶质心算子中经营类型分桶质心的过程可以是将经营类型的调试文本向量表示作为分桶质心算子中经营类型分桶质心。但是分桶质心算子中分桶质心使用了存储资源,分桶质心过多会影响经营类型识别的效率。则可选地,可通过分桶质心算子中经营类型分桶质心的数量进行优化。如果经营类型分桶质心不存在,则将经营类型的调试文本向量表示作为经营类型分桶质心;如果经营类型分桶质心存在,则获取经营类型的调试文本向量表示与经营类型分桶质心之间的共性度量值,通过共性度量值优化分桶质心算子中经营类型分桶质心。其中,经营类型的调试文本向量表示与经营类型分桶质心之间的共性度量值可以是欧式距离相似度。
可选地,如果共性度量值小于预设共性度量值,则将经营类型的调试文本向量表示添加到经营类型分桶质心。为防止因文本向量表示的引入引起分桶质心算子中分桶质心过载,通过共性度量值优化分桶质心算子中经营类型分桶质心的过程可以为:如果共性度量值小于预设共性度量值,确定经营类型分桶质心的数目和预设数目之间的比较结果,通过比较结果优化分桶质心算子中经营类型分桶质心。基于此,在获得经营类型的象征性向量表示的基础上,减少分桶质心,缓和存储资源,提高经营类型识别效率。
回到基于更新后的经营管理文本分类网络对拟存储的经营管理文本进行文本向量挖掘的内容,可选地,第一文本向量调整算子包括的组成结构数量为v个,第二文本向量调整算子包括的组成结构数量为y,v≥1,1≤y≤v。以上基于更新后的经营管理文本分类网络对拟存储的经营管理文本进行文本向量挖掘操作,得到拟存储的经营管理文本的文本向量表示的过程例如包括:如果y数量为一个,则基于第二文本向量调整算子的一个组成结构对拟存储的经营管理文本进行文本向量挖掘操作,得到拟存储的经营管理文本的文本向量表示。如果y数量为多个,则基于第二文本向量调整算子的y个组成结构对拟存储的经营管理文本进行文本向量挖掘操作,对y个组成结构提取到的文本向量表示进行整合,得到拟存储的经营管理文本的文本向量表示。
本公开实施例通过获取经营管理文本分类网络,经营管理文本分类网络包括第一文本向量调整算子,该第一文本向量调整算子包括若干个组成结构,通过经营管理文本样本对包括第一文本向量调整算子的经营管理文本分类网络进行调试,获得优化好的经营管理文本分类网络,对第一文本向量调整算子的若干个组成结构进行改造,得到第二文本向量调整算子,第二文本向量调整算子包括的组成结构数量小于第一文本向量调整算子包括的组成结构数量,基于第二文本向量调整算子调换经营管理文本分类网络中的第一文本向量调整算子,得到更新后的经营管理文本分类网络,更新后的经营管理文本分类网络用于对拟存储的经营管理文本进行经营信息分类。可以理解,在调试时依据经营管理文本样本对第一文本向量调整算子进行调试能确保经营管理文本分类网络的特征表示性能,在实际执行时,采取将经营管理文本分类网络的第一文本向量调整算子调换为第二文本向量调整算子,精简了文本向量调整算子的组成结构数量,减少经营管理文本分类网络的配置变量,让经营管理文本分类网络进行经营信息分类的速度得到提升。
在又一实施例中,本公开实施例提供的用于经营管理信息的非结构化数据存储方法包括以下步骤,对于前述已经详细解释的内容不再赘述,作同样理解即可,该实施例具体包括:
步骤310:获取经营管理文本分类网络。
步骤320:对第一文本向量调整算子的若干个组成结构进行改造,得到第二文本向量调整算子。
步骤330:基于第二文本向量调整算子调换经营管理文本分类网络中的第一文本向量调整算子,得到更新后的经营管理文本分类网络。
步骤340:将拟存储的经营管理文本输入更新后的经营管理文本分类网络,并进行经营信息分类。
其中,如果第二文本向量调整算子为多个,更新后的经营管理文本分类网络还可以包括至少一个向量表示融合模块,每个向量表示融合模块用于整合拟存储的经营管理文本的原始文本向量表示和第m个第二文本向量调整算子输出的拟存储的经营管理文本的文本向量表示,将整合后的拟存储的经营管理文本的文本向量表示输入第m+1个第二文本向量调整算子,m<u。或者,向量表示融合模块用于整合第m个第二文本向量调整算子输出的拟存储的经营管理文本的文本向量表示和第n个第二文本向量调整算子输出的拟存储的经营管理文本的文本向量表示,将整合后的拟存储的经营管理文本的文本向量表示输入第n+1个第二文本向量调整算子,m<n<u。
作为一种实施方式,第一文本向量调整算子包括的组成结构数量为v个,第二文本向量调整算子包括的组成结构数量为y,v≥1,1≤y≤v。以上通过第二文本向量调整算子和每个第二文本向量调整算子对应的非线性函数对拟存储的经营管理文本的原始文本向量表示进行文本向量挖掘,得到拟存储的经营管理文本的文本向量表示可以包括:如果y数量为一个,则基于第二文本向量调整算子的一个组成结构对拟存储的经营管理文本进行文本向量挖掘操作,以及依据非线性函数对拟存储的经营管理文本的文本向量挖掘结果进行非线性变换,得到拟存储的经营管理文本的文本向量表示。如果y数量为多个,则基于第二文本向量调整算子的y个组成结构对拟存储的经营管理文本进行文本向量挖掘操作,对y个组成结构提取到的文本向量表示进行整合,以及依据非线性函数对整合后的文本向量表示进行非线性变换,得到拟存储的经营管理文本的文本向量表示。
本公开实施例通过获取经营管理文本分类网络,经营管理文本分类网络包括第一文本向量调整算子,该第一文本向量调整算子包括若干个组成结构,通过经营管理文本样本对包括第一文本向量调整算子的经营管理文本分类网络进行调试,获得优化好的经营管理文本分类网络,对第一文本向量调整算子的若干个组成结构进行改造,得到第二文本向量调整算子,第二文本向量调整算子包括的组成结构数量小于第一文本向量调整算子包括的组成结构数量,基于第二文本向量调整算子调换经营管理文本分类网络中的第一文本向量调整算子,得到更新后的经营管理文本分类网络,更新后的经营管理文本分类网络用于对拟存储的经营管理文本进行经营信息分类。可以理解,在调试时依据经营管理文本样本对第一文本向量调整算子进行调试能确保经营管理文本分类网络的特征表示性能,在实际执行时,采取将经营管理文本分类网络的第一文本向量调整算子调换为第二文本向量调整算子,精简了文本向量调整算子的组成结构数量,减少经营管理文本分类网络的配置变量,让经营管理文本分类网络进行经营信息分类的速度得到提升。
下面参照图3描述根据本公开实施例的非结构化数据存储装置。图3示出了根据本公开实施例的非结构化数据存储装置300的结构示意图。如图3所示,非结构化数据存储装置300可以包括:
网络调取模块310,用于获取经营管理文本分类网络,所述经营管理文本分类网络包括第一文本向量调整算子,所述第一文本向量调整算子用于抽取经营管理文本样本的文本向量表示,所述第一文本向量调整算子包括若干个组成结构;
网络改造模块320,用于对所述第一文本向量调整算子的若干个组成结构进行改造,得到第二文本向量调整算子;所述第二文本向量调整算子包括的组成结构数量小于所述第一文本向量调整算子包括的组成结构数量;所述第二文本向量调整算子用以抽取拟存储的经营管理文本的文本向量表示;
网络更新模块330,用于基于所述第二文本向量调整算子调换所述经营管理文本分类网络中的第一文本向量调整算子,得到更新后的经营管理文本分类网络;所述更新后的经营管理文本分类网络用于对拟存储的经营管理文本进行经营信息分类;
网络使用模块340,用于获取拟存储的经营管理文本,将所述拟存储的经营管理文本加载到所述更新后的经营管理文本分类网络,通过所述更新后的经营管理文本分类网络对所述拟存储的经营管理文本进行经营信息分类,得到经营信息分类结果;
数据存储模块350,用于将所述拟存储的经营管理文本按照所述经营信息分类结果进行存储。
由于非结构化数据存储装置300的功能与上文参照图2描述的用于经营管理信息的非结构化数据存储方法的步骤的细节类似,因此为了简单起见,这里省略对部分内容的重复描述。
此外,根据本公开实施例的设备(例如,云平台)也可以借助于图4所示的示例性云平台的架构来实现。图4示出了根据本公开实施例的示例性云平台的架构的示意图。如图4所示,云平台400可以包括总线410、一个或多个CPU 420、只读存储器(ROM)430、随机存取存储器(RAM)440、连接到网络的通信端口450、输入/输出组件460、硬盘470等。云平台400中的存储设备,例如ROM 430或硬盘470可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。当然,图4所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图4示出的云平台中的一个或多个组件。根据本公开实施例的设备可以被配置为执行根据本公开上述各个实施例的用于经营管理信息的非结构化数据存储方法,或者用于实现根据本公开上述各个实施例的非结构化数据存储装置。
本公开的实施例也可以被实现为计算机可读存储介质。根据本公开实施例的计算机可读存储介质上存储有计算机可读指令。当计算机可读指令由处理器运行时,可以执行参照以上附图描述的根据本公开实施例的用于经营管理信息的非结构化数据存储方法。计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
根据本公开的实施例,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序包括计算机可读指令,该计算机可读指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机可读指令,处理器执行该计算机可读指令,使得该计算机设备执行上述各个实施例中描述的用于经营管理信息的非结构化数据存储方法。
本领域技术人员能够理解,本公开所披露的内容可以出现多种变型和改进。例如,以上所描述的各种设备或组件可以通过硬件实现,也可以通过软件、固件、或者三者中的一些或全部的组合实现。
此外,如本公开和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
此外,本公开中使用了流程图用来说明根据本公开实施例的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作叠加到这些过程中,或从这些过程移除某一步或数步操作。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
以上对本公开进行了详细说明,但对于本领域技术人员而言,显然,本公开并非限定于本说明书中说明的实施方式。本公开在不脱离由权利要求书的记载所确定的本公开的宗旨和范围的前提下,可以作为修改和变更方式来实施。因此,本说明书的记载是以示例说明为目的,对本公开而言并非具有任何限制性的意义。
Claims (10)
1.一种用于经营管理信息的非结构化数据存储方法,其特征在于,所述方法包括:
获取经营管理文本分类网络,所述经营管理文本分类网络包括第一文本向量调整算子,所述第一文本向量调整算子用于抽取经营管理文本样本的文本向量表示,所述第一文本向量调整算子包括若干个组成结构;
对所述第一文本向量调整算子的若干个组成结构进行改造,得到第二文本向量调整算子;所述第二文本向量调整算子包括的组成结构数量小于所述第一文本向量调整算子包括的组成结构数量;所述第二文本向量调整算子用以抽取拟存储的经营管理文本的文本向量表示;
基于所述第二文本向量调整算子调换所述经营管理文本分类网络中的第一文本向量调整算子,得到更新后的经营管理文本分类网络;所述更新后的经营管理文本分类网络用于对拟存储的经营管理文本进行经营信息分类;
获取拟存储的经营管理文本,将所述拟存储的经营管理文本加载到所述更新后的经营管理文本分类网络,通过所述更新后的经营管理文本分类网络对所述拟存储的经营管理文本进行经营信息分类,得到经营信息分类结果;
将所述拟存储的经营管理文本按照所述经营信息分类结果进行存储。
2.根据权利要求1所述的方法,其特征在于,所述第一文本向量调整算子包括的组成结构数量为v个,v≥1,所述对所述第一文本向量调整算子的若干个组成结构进行改造,得到第二文本向量调整算子,包括:
依据组成结构选取策略从所述第一文本向量调整算子的v个组成结构中选取出u个目标组成结构,u≤v;
对所述u个目标组成结构进行改造,得到第二文本向量调整算子;
其中,所述u个目标组成结构为第一分类的组成结构,所述第一分类的组成结构用于对所述第一文本向量调整算子的执行文本进行文本向量挖掘操作,所述第一分类的组成结构包括一个或多个滤波矩阵;
所述对所述u个目标组成结构进行改造,得到第二文本向量调整算子,包括:
对所述u个目标组成结构中的滤波矩阵进行第一调整操作,得到u个包括第一滤波模块的组成结构;
将所述u个包括第一滤波模块的组成结构进行整合,得到第二文本向量调整算子;
所述对所述u个目标组成结构中的滤波矩阵进行第一调整操作,得到u个包括第一滤波模块的组成结构,包括:
如果第m个目标组成结构中的滤波矩阵为一个,则将所述第m个目标组成结构中的滤波矩阵变换成第一滤波模块,m≤u;
如果第m个目标组成结构中的滤波矩阵多于一个,则对所述第m个目标组成结构中的滤波矩阵进行整合,并将整合后的滤波矩阵变换成第一滤波模块。
3.根据权利要求2所述的方法,其特征在于,所述u个目标组成结构包括第一分类的组成结构和第二分类的组成结构;所述第一分类的组成结构用于对所述第一文本向量调整算子的执行文本进行文本向量挖掘操作,所述第一分类的组成结构包括一个或多个滤波矩阵;所述第二分类的组成结构用于对所述第一文本向量调整算子的执行文本进行不动变换;所述第一分类的组成结构数量为g个,g≤u;
所述对所述u个目标组成结构进行改造,得到第二文本向量调整算子,包括:
对所述g个第一分类的组成结构进行第一调整操作,得到g个包括第一滤波模块的组成结构;
对s个第二分类的组成结构进行第二调整操作,得到s个包括第二滤波模块的组成结构,其中,s=u-g;
将所述g个包括第一滤波模块的组成结构和所述s个包括第二滤波模块的组成结构进行整合,得到第二文本向量调整算子。
4.根据权利要求2所述的方法,其特征在于,所述第一分类的组成结构还包括归一化模块,所述归一化模块用于对所述第一分类的组成结构中滤波矩阵输出的文本向量表示进行归一化操作;
所述v个组成结构中包括第一分类的组成结构,所述第一分类的组成结构包括一个或多个滤波矩阵;所述依据组成结构选取策略从所述第一文本向量调整算子的v个组成结构中选取出u个目标组成结构,包括:
任意地在所述第一文本向量调整算子的v个组成结构中选取出u个目标组成结构;
或者,依据事先确定的尺寸从所述第一分类的组成结构中选取出u个目标组成结构,所述u个目标组成结构中的滤波矩阵的尺寸与所述事先确定的尺寸对应;
或者,依据事先确定的数量从所述第一分类的组成结构中选取出u个目标组成结构,所述u个目标组成结构中的滤波矩阵的数量和所述事先确定的数量对应。
5.根据权利要求1所述的方法,其特征在于,所述更新后的经营管理文本分类网络包括的第二文本向量调整算子的数量为x,x≥1;
所述更新后的经营管理文本分类网络还包括向量表示融合模块;
所述更新后的经营管理文本分类网络对拟存储的经营管理文本进行经营信息分类包括:
通过所述向量表示融合模块将拟存储的经营管理文本的原始文本向量表示与第n个第二文本向量调整算子输出的文本向量表示整合,得到所述拟存储的经营管理文本的整合文本向量表示,n≤x;
基于第n+1个第二文本向量调整算子对所述拟存储的经营管理文本的整合文本向量表示进行文本向量挖掘,得到所述拟存储的经营管理文本的文本向量挖掘结果;
基于所述拟存储的经营管理文本的文本向量挖掘结果,得到所述拟存储的经营管理文本的经营信息分类。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
依据包括所述第一文本向量调整算子的经营管理文本分类网络对经营管理文本样本进行经营信息分类,得到所述经营管理文本样本对应的经营信息分类结果;
基于所述经营管理文本样本对应的经营信息分类结果和所述经营管理文本样本对应的标签指示信息间的损失,对所述第一文本向量调整算子中的配置变量进行优化,获得优化好的经营管理文本分类网络;
其中,所述第一文本向量调整算子包括的组成结构数量为v个,v≥1,所述依据包括所述第一文本向量调整算子的经营管理文本分类网络对经营管理文本样本进行经营信息分类,得到所述经营管理文本样本对应的经营信息分类结果,包括:
通过所述v个组成结构分别对经营管理文本样本进行文本向量挖掘,得到所述经营管理文本样本对应的v个子文本向量表示;
对所述v个子文本向量表示进行整合,得到所述经营管理文本样本的整合文本向量表示;
基于所述经营管理文本样本的整合文本向量表示,获取所述经营管理文本样本对应的经营信息分类结果。
7.根据权利要求1所述的方法,其特征在于,所述经营管理文本分类网络包括一个或多个第一文本向量调整算子,每个第一文本向量调整算子与一非线性函数匹配;所述经营管理文本分类网络还包括一个或多个维度滤波模块,所述一个或多个维度滤波模块用于调节所述拟存储的经营管理文本在经营信息分类时的维度数。
8.根据权利要求1所述的方法,其特征在于,所述对所述拟存储的经营管理文本进行经营信息分类,得到经营信息分类结果,包括:
获取所述拟存储的经营管理文本;
对所述拟存储的经营管理文本进行文本向量挖掘得到文本向量表示;
通过所述文本向量表示与分桶质心集合中分桶质心的共性度量值,从所述分桶质心集合中确定与所述文本向量表示对应的目标分桶质心,所述分桶质心集合中包括不同分类的分桶质心,所述分桶质心是不同分类的经营类型所对应的象征性向量表示;
基于所述目标分桶质心对所述文本向量表示进行强化得到强化向量表示;
通过所述强化向量表示确定所述拟存储的经营管理文本对应的目标文本向量表示;
通过所述目标文本向量表示对所述拟存储的经营管理文本进行经营类型识别,得到经营信息分类结果;
其中,所述经营管理文本分类网络包括第二文本向量调整算子、分桶质心算子、向量整合算子和分类算子,所述分桶质心算子包括所述分桶质心集合中的分桶质心;
所述对所述拟存储的经营管理文本进行文本向量挖掘得到文本向量表示,包括:
基于所述第二文本向量调整算子对所述拟存储的经营管理文本进行文本向量挖掘得到所述文本向量表示;
所述通过所述文本向量表示与分桶质心集合中分桶质心的共性度量值,从所述分桶质心集合中确定与所述文本向量表示对应的目标分桶质心,包括:
基于所述分桶质心算子确定与所述文本向量表示对应的所述目标分桶质心;
所述基于所述目标分桶质心对所述文本向量表示进行强化得到强化向量表示,包括:
基于所述向量整合算子将所述目标分桶质心与所述文本向量表示进行整合得到所述强化向量表示;
所述通过所述强化向量表示确定所述拟存储的经营管理文本对应的目标文本向量表示,包括:
基于所述向量整合算子通过所述强化向量表示确定所述拟存储的经营管理文本对应的所述目标文本向量表示;
所述通过所述目标文本向量表示对所述拟存储的经营管理文本进行经营类型识别,得到经营信息分类结果,包括:
基于所述分类算子通过所述目标文本向量表示对所述拟存储的经营管理文本进行经营类型识别,得到所述经营信息分类结果。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括所述分桶质心算子的生成步骤,包括:
在调试得到所述经营管理文本分类网络时,基于所述第二文本向量调整算子对经营管理文本样本进行文本向量挖掘,得到分类指示信息指示的经营类型的调试文本向量表示,所述分类指示信息用以指示所述经营管理文本样本中包括的经营类型;
通过所述经营类型的调试文本向量表示优化所述分桶质心算子中所述经营类型的分桶质心;
所述通过所述经营类型的调试文本向量表示优化所述分桶质心算子中所述经营类型的分桶质心,包括:
如果所述经营类型分桶质心不存在,则将所述经营类型的调试文本向量表示作为所述经营类型分桶质心;
如果所述经营类型分桶质心存在,则获取所述经营类型的调试文本向量表示与所述经营类型分桶质心之间的共性度量值;
通过所述共性度量值优化所述分桶质心算子中所述经营类型分桶质心;
所述通过所述共性度量值优化所述分桶质心算子中所述经营类型分桶质心,包括:如果所述共性度量值小于预设共性度量值,将所述经营类型的调试文本向量表示添加到所述经营类型分桶质心。
10.一种云平台,其特征在于,包括:
一个或多个处理器;
以及一个或多个存储器,其中所述存储器中存储有计算机可读代码,所述计算机可读代码在由所述一个或多个处理器运行时,使得所述一个或多个处理器执行如权利要求1~9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310653223.7A CN116383390B (zh) | 2023-06-05 | 2023-06-05 | 一种用于经营管理信息的非结构化数据存储方法及云平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310653223.7A CN116383390B (zh) | 2023-06-05 | 2023-06-05 | 一种用于经营管理信息的非结构化数据存储方法及云平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116383390A true CN116383390A (zh) | 2023-07-04 |
CN116383390B CN116383390B (zh) | 2023-08-08 |
Family
ID=86980970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310653223.7A Active CN116383390B (zh) | 2023-06-05 | 2023-06-05 | 一种用于经营管理信息的非结构化数据存储方法及云平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116383390B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004006124A2 (en) * | 2002-07-03 | 2004-01-15 | Word Data Corp. | Text-representation, text-matching and text-classification code, system and method |
CN105653548A (zh) * | 2014-11-12 | 2016-06-08 | 北大方正集团有限公司 | 一种电子文档页面类型识别方法和系统 |
CN106897371A (zh) * | 2017-01-18 | 2017-06-27 | 南京云思创智信息科技有限公司 | 中文文本分类系统及方法 |
CN107491554A (zh) * | 2017-09-01 | 2017-12-19 | 北京神州泰岳软件股份有限公司 | 文本分类器的构建方法、构建装置及文本分类方法 |
CN108021679A (zh) * | 2017-12-07 | 2018-05-11 | 国网山东省电力公司电力科学研究院 | 一种并行化的电力设备缺陷文本分类方法 |
WO2019001071A1 (zh) * | 2017-06-28 | 2019-01-03 | 浙江大学 | 一种基于邻接矩阵的图特征提取系统、图分类系统和方法 |
CN112070126A (zh) * | 2020-08-21 | 2020-12-11 | 江西国云科技有限公司 | 一种物联网数据挖掘方法 |
CN113268597A (zh) * | 2021-05-25 | 2021-08-17 | 平安科技(深圳)有限公司 | 文本分类方法、装置、设备及存储介质 |
CN115830298A (zh) * | 2023-02-17 | 2023-03-21 | 江苏羲辕健康科技有限公司 | 一种基于神经网络的药品监管码识别方法及系统 |
CN116089367A (zh) * | 2023-03-29 | 2023-05-09 | 中国工商银行股份有限公司 | 动态分桶方法、装置、电子设备和介质 |
CN116151840A (zh) * | 2023-04-20 | 2023-05-23 | 南京数策信息科技有限公司 | 一种基于大数据的用户服务数据智能管理系统及方法 |
CN116167336A (zh) * | 2023-04-22 | 2023-05-26 | 拓普思传感器(太仓)有限公司 | 基于云计算的传感器数据加工方法、云服务器及介质 |
-
2023
- 2023-06-05 CN CN202310653223.7A patent/CN116383390B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004006124A2 (en) * | 2002-07-03 | 2004-01-15 | Word Data Corp. | Text-representation, text-matching and text-classification code, system and method |
CN105653548A (zh) * | 2014-11-12 | 2016-06-08 | 北大方正集团有限公司 | 一种电子文档页面类型识别方法和系统 |
CN106897371A (zh) * | 2017-01-18 | 2017-06-27 | 南京云思创智信息科技有限公司 | 中文文本分类系统及方法 |
WO2019001071A1 (zh) * | 2017-06-28 | 2019-01-03 | 浙江大学 | 一种基于邻接矩阵的图特征提取系统、图分类系统和方法 |
CN107491554A (zh) * | 2017-09-01 | 2017-12-19 | 北京神州泰岳软件股份有限公司 | 文本分类器的构建方法、构建装置及文本分类方法 |
CN108021679A (zh) * | 2017-12-07 | 2018-05-11 | 国网山东省电力公司电力科学研究院 | 一种并行化的电力设备缺陷文本分类方法 |
CN112070126A (zh) * | 2020-08-21 | 2020-12-11 | 江西国云科技有限公司 | 一种物联网数据挖掘方法 |
CN113268597A (zh) * | 2021-05-25 | 2021-08-17 | 平安科技(深圳)有限公司 | 文本分类方法、装置、设备及存储介质 |
CN115830298A (zh) * | 2023-02-17 | 2023-03-21 | 江苏羲辕健康科技有限公司 | 一种基于神经网络的药品监管码识别方法及系统 |
CN116089367A (zh) * | 2023-03-29 | 2023-05-09 | 中国工商银行股份有限公司 | 动态分桶方法、装置、电子设备和介质 |
CN116151840A (zh) * | 2023-04-20 | 2023-05-23 | 南京数策信息科技有限公司 | 一种基于大数据的用户服务数据智能管理系统及方法 |
CN116167336A (zh) * | 2023-04-22 | 2023-05-26 | 拓普思传感器(太仓)有限公司 | 基于云计算的传感器数据加工方法、云服务器及介质 |
Non-Patent Citations (2)
Title |
---|
LIU LAN等: "Classification of Medical Text Data Using Convolution Neural Network-Support Vector Machine Method", 《JOURNAL OF NEDICAL IMAGING AND HEALTH INFORMATICS》, vol. 10, no. 7, pages 1746 - 1753 * |
吕龙: "基于深度学习的突发事件新闻文本分类研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 08, pages 138 - 763 * |
Also Published As
Publication number | Publication date |
---|---|
CN116383390B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11631029B2 (en) | Generating combined feature embedding for minority class upsampling in training machine learning models with imbalanced samples | |
US11526799B2 (en) | Identification and application of hyperparameters for machine learning | |
WO2021169111A1 (zh) | 简历筛选方法、装置、计算机设备和存储介质 | |
CN111859986B (zh) | 基于多任务孪生网络的语义匹配方法、装置、设备和介质 | |
EP3855324A1 (en) | Associative recommendation method and apparatus, computer device, and storage medium | |
CN109471944B (zh) | 文本分类模型的训练方法、装置及可读存储介质 | |
CN109063217B (zh) | 电力营销系统中的工单分类方法、装置及其相关设备 | |
US11416531B2 (en) | Systems and methods for parsing log files using classification and a plurality of neural networks | |
US11373117B1 (en) | Artificial intelligence service for scalable classification using features of unlabeled data and class descriptors | |
US20230096647A1 (en) | Management of indexed data to improve content retrieval processing | |
Hadi et al. | Aobtm: Adaptive online biterm topic modeling for version sensitive short-texts analysis | |
CN114327374A (zh) | 业务流程的生成方法、装置及计算机设备 | |
US12061872B2 (en) | Non-lexicalized features for language identity classification using subword tokenization | |
US8918406B2 (en) | Intelligent analysis queue construction | |
CN116383390B (zh) | 一种用于经营管理信息的非结构化数据存储方法及云平台 | |
CN117251777A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN111552812A (zh) | 确定实体之间关系类别的方法、装置和计算机设备 | |
CN117035416A (zh) | 企业风险评估方法、企业风险评估装置、设备及存储介质 | |
CN115203339A (zh) | 多数据源整合方法、装置、计算机设备及存储介质 | |
CN108920492A (zh) | 一种网页分类方法、系统、终端及存储介质 | |
CN113760407A (zh) | 信息处理方法、装置、设备及存储介质 | |
CN111309572B (zh) | 测试分析方法、装置、计算机设备及存储介质 | |
CN109558584B (zh) | 企业关系预测方法、装置、计算机设备和存储介质 | |
Liu et al. | Deep hashing based on triplet labels and quantitative regularization term with exponential convergence | |
CN117435727A (zh) | 基于业务文本的安全测试方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: An Unstructured Data Storage Method and Cloud Platform for Business Management Information Effective date of registration: 20230907 Granted publication date: 20230808 Pledgee: Chengdong Branch of Nanjing Bank Co.,Ltd. Pledgor: Nanjing Shuce Information Technology Co.,Ltd. Registration number: Y2023980055726 |