CN117633202A - 一种非结构化数据的处理方法、装置、设备及存储介质 - Google Patents
一种非结构化数据的处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117633202A CN117633202A CN202311576043.XA CN202311576043A CN117633202A CN 117633202 A CN117633202 A CN 117633202A CN 202311576043 A CN202311576043 A CN 202311576043A CN 117633202 A CN117633202 A CN 117633202A
- Authority
- CN
- China
- Prior art keywords
- data
- unstructured data
- index table
- unstructured
- feature index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 238000003672 processing method Methods 0.000 title description 5
- 238000000034 method Methods 0.000 claims abstract description 59
- 238000001914 filtration Methods 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 43
- 238000004590 computer program Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 description 19
- 239000013598 vector Substances 0.000 description 15
- 238000007726 management method Methods 0.000 description 12
- 238000000605 extraction Methods 0.000 description 11
- 239000008186 active pharmaceutical agent Substances 0.000 description 9
- 238000013523 data management Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 229910052711 selenium Inorganic materials 0.000 description 1
- 239000011669 selenium Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种非结构化数据的处理方法、装置、设备及存储介质,其中,非结构化数据的处理方法包括:根据数据需求文档的主题,得到过滤表,其中,所述数据需求文档包括用户查询、关键字和描述,所述主题表征用户对非结构化数据的需求和兴趣;将所述非结构化数据的初始特征索引表与所述过滤表进行匹配,得到最终特征索引表;通过所述最终特征索引表对所述非结构化数据进行管理以及相似性搜索。本申请能够减少非数据需求的特征和削减与日俱增的数据特征,提高非结构化数据的检索效率,用户能够更加直观地选择所需数据,检索和使用非结构化数据更加方便,易于管理。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种非结构化数据的处理方法、装置、设备及存储介质。
背景技术
非结构化数据的语义信息指的是数据中包含的有关含义、关系、主题和实体的信息,这些信息在非结构化数据中通常以文本、图像、音频等形式存在。已有的非结构化数据的处理方法绝大多数通过人工智能算法将存储在分布式文件系统中的非结构化数据进行特征提取,再将提取的特征形成特征索引表,用以对非结构化数据进行相似性搜索。然而,随着企业的业务不断增多,所产生的文本、图像、音频等形式的非结构化数据呈指数增长,与非结构化数据量的增长对应的特征索引表中的内容也会与之增加,这将会极大降低索引效率,并且用户在面对大量特征的选项时,难以做出明智的选择,对非结构化数据的检索和使用极其不方便,导致难以管理和有效地利用非结构化数据。
因此,发明人提供了一种非结构化数据的处理方法、装置、设备及存储介质。
发明内容
(1)要解决的技术问题
本申请实施例提供了一种非结构化数据的处理方法、装置、设备及存储介质,要解决的技术问题是:随着非结构化数据量不断增多,特征索引表也会不断膨胀,从而降低检索非结构数据的效率,增大非结构化数据检索的复杂度,用户在面对大量特征的选项时,难以做出准确的选择,增大管理和使用非结构化数据的难度。
(2)技术方案
第一方面,本申请实施例提供了一种非结构化数据的处理方法,包括:
根据数据需求文档的主题,得到过滤表,其中,所述数据需求文档包括用户查询、关键字和描述,所述主题表征用户对非结构化数据的需求和兴趣;
将所述非结构化数据的初始特征索引表与所述过滤表进行匹配,得到最终特征索引表;
通过所述最终特征索引表对所述非结构化数据进行管理以及相似性搜索。
在其中一个实施例中,所述根据数据需求文档的主题,得到过滤表之前,还包括:
根据多种数据源采集非结构化数据,其中,所述数据源包括文本、图像、音频以及视频;
对所述非结构化数据进行预处理,其中,所述预处理包括数据清洗、纠错以及格式标准化;
将预处理后的所述非结构化数据存储至数据库。
在其中一个实施例中,所述根据数据需求文档的主题,得到过滤表之前,还包括:
根据所述非结构化数据的关键特征,得到初始特征索引表。
在其中一个实施例中,所述根据所述非结构化数据的关键特征,得到初始特征索引表,包括:
提取所述非结构化数据的关键特征,将所述关键特征存储至初始特征索引表。
在其中一个实施例中,所述根据数据需求文档的主题,得到过滤表,包括:
提取数据需求文档的主题,将所述主题存储至过滤表。
在其中一个实施例中,所述将所述非结构化数据的初始特征索引表与所述过滤表进行匹配,得到最终特征索引表,包括:
将所述初始特征索引表中的关键特征与所述过滤表中的主题进行匹配;
根据匹配结果,将匹配成功的所述关键特征和所述主题存储至最终特征索引表。
在其中一个实施例中,所述通过所述最终特征索引表对所述非结构化数据进行管理以及相似性搜索,包括:
检索所述最终特征索引表,实现对所述非结构化数据的管理以及相似性搜索。
第二方面,本申请实施例提供了一种非结构化数据的处理装置,包括:
过滤模块,用于根据数据需求文档的主题,得到过滤表,其中,所述数据需求文档包括用户查询、关键字和描述,所述主题表征用户对非结构化数据的需求和兴趣;
匹配模块,用于将所述非结构化数据的初始特征索引表与所述过滤表进行匹配,得到最终特征索引表;
检索模块,用于通过所述最终特征索引表对所述非结构化数据进行管理以及相似性搜索。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上所述的非结构化数据的处理方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上所述的非结构化数据的处理方法。
(3)有益效果
本申请的上述技术方案具有如下优点:
本申请实施例第一方面提供的非结构化数据的处理方法,通过根据数据需求文档的主题得到过滤表,将非结构化数据的初始特征索引表与过滤表进行匹配得到最终特征索引表,通过最终特征索引表对非结构化数据进行管理以及相似性搜索,能够减少非数据需求的特征和削减与日俱增的数据特征,提高非结构化数据的检索效率,用户能够更加直观地选择所需数据,检索和使用非结构化数据更加方便,易于管理。
可以理解的是,上述第二方面、第三方面和第四方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的非结构化数据的处理方法的流程示意图;
图2为本申请提供的非结构化数据的处理装置的结构示意图;
图3为本申请提供的电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、设备、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。“多个”表示“两个或两个以上”。
非结构化数据的语义信息指的是数据中包含的有关含义、关系、主题和实体的信息,这些信息在非结构化数据中通常以文本、图像、音频等形式存在。为了更加方便地使用和管理非结构化数据,常使用的方法为:首先使用分布式文件系统存储大规模非结构化数据,然后使用人工智能算法提取非结构化数据的数据特征,并将数据特征存储在特征表中,最后使用SQL检索非结构化数据的特征表,对非结构化数据进行相似性搜索。该方法一定程度上提高了非结构化数据的查询效率和扩展性,使得更加方便地管理非结构化数据。
然而,已有的非结构化、分布式的数据管理方法绝大多数通过人工智能算法将存储在分布式文件系统中的非结构化数据进行特征提取,将提取的特征形成特征索引表,用以对非结构化数据进行相似性搜索,随着企业的业务不断增多,所产生的文本、图像、音频等形式的非结构化数据呈指数增长,与非结构化数据量的增长对应的特征索引表中的内容也会与之增加,会极大降低索引效率,并且用户在面对大量特征的选项时,难以做出明智的选择,对非结构化数据的检索和使用极其不方便,导致难以管理和有效地利用非结构化数据。
针对上述问题,本申请实施例提供了一种非结构化数据的处理方法,该方法通过根据数据需求文档的主题,得到过滤表,其中,所述数据需求文档包括用户查询、关键字和描述,所述主题表征用户对非结构化数据的需求和兴趣,将所述非结构化数据的初始特征索引表与所述过滤表进行匹配,得到最终特征索引表,通过所述最终特征索引表对所述非结构化数据进行管理以及相似性搜索,能够减少非数据需求的特征和削减与日俱增的数据特征,提高非结构化数据的检索效率,用户能够更加直观地选择所需数据,检索和使用非结构化数据更加方便,易于管理。
下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
如图1所示,本实施例提供的非结构化数据的处理方法,包括:
S100、根据数据需求文档的主题,得到过滤表。其中,所述数据需求文档包括用户查询、关键字和描述,所述主题表征用户对非结构化数据的需求和兴趣。
在一个实施例中,所述根据数据需求文档的主题,得到过滤表之前,还包括:根据多种数据源采集非结构化数据,其中,所述数据源包括文本、图像、音频以及视频;对所述非结构化数据进行预处理,其中,所述预处理包括数据清洗、纠错以及格式标准化;将预处理后的所述非结构化数据存储至数据库。
在一个实施例中,所述根据数据需求文档的主题,得到过滤表之前,还包括:根据所述非结构化数据的关键特征,得到初始特征索引表。
在一个实施例中,所述根据所述非结构化数据的关键特征,得到初始特征索引表,包括:提取所述非结构化数据的关键特征,将所述关键特征存储至初始特征索引表。
在一个实施例中,所述根据数据需求文档的主题,得到过滤表,包括:提取数据需求文档的主题,将所述主题存储至过滤表。
在应用中,可从多种数据源采集非结构化数据,包括但不限于文本、图像、音频、视频等。数据采集可以通过自动化抓取工具、API接口、传感器、网络爬虫等方式实施,这些数据源可以是公开可用的,也可以是企业内部生成的数据,从而覆盖了多个数据来源和类型。通过多源数据采集,能够捕获多样化的非结构化数据,为后续预处理和管理提供了丰富的素材。从多种数据源采集数据的方式包括自动化抓取工具、API接口、传感器和网络爬虫,它们都是用于数据采集的工具和方法,可以用于从各种数据源中获取非结构化数据。
具体地,Selenium、Scrapy、Beautiful Soup等工具可以编写脚本以模拟用户在网页上的操作,自动抓取网页上的数据,Apache Tika工具可以用于自动解析和抓取文档(如PDF、Word文档)中的文本和元数据,ELK Stack(Elasticsearch、Logstash、Kibana)可用于从服务器和应用程序日志文件中提取信息,Hootsuite、Buffer等可用于从社交媒体平台获取数据。还可以使用适当的API密钥或令牌,通过HTTP请求访问数据提供商的API端点,以获取特定数据,例如,使用Twitter API来获取社交媒体数据,解析API响应,通常以JSON格式返回,以提取所需的数据字段。可设置定时任务,以定期从API获取更新的数据。还可以使用各种IoT传感器(如温度传感器、湿度传感器、运动传感器等)来采集实时环境数据,这些传感器通常通过无线或有线网络将数据传输到中央存储。将传感器生成的原始数据解析为可理解的格式,通常使用微控制器或嵌入式系统。还可使用Python中的Scrapy或Node.js中的Puppeteer等爬虫框架,编写爬虫程序以自动抓取特定网站的数据,爬虫程序可以分析网页结构,提取文本、图像、链接等内容,以构建结构化数据。具体的方式取决于数据源的类型和采集工具的需求,无论使用何种方法,都需要遵循法律法规和数据隐私原则,确保数据采集的合法性和隐私保护。此外,数据采集也可以定期维护,以适应数据源的变化和确保数据的质量。
在应用中,可将采集的非结构化数据经过预处理后存储在分布式文件系统中,包括数据清洗、纠错、格式标准化等操作,这些数据预处理操作旨在提高数据的质量、一致性和可用性。最终将预处理之后的非结构化数据放入分布式文件系统中存储,分布式文件系统的使用有助于确保数据的可扩展性和可管理性,同时为后续的数据检索提供了坚实的基础。
具体地,可去除重复数据,对于文本数据可使用文本处理工具和算法,例如Levenshtein距离或文本相似性比较,检测和删除近似重复的文本数据,对于图像数据可计算图像的哈希值或特征向量,以识别重复的图像,对于音频数据可对音频文件进行哈希处理,以检测相同的音频片段。还可以处理缺失数据,对于文本数据而言,可使用自然语言处理技术填充缺失文本数据,例如文本生成模型,或使用上下文信息进行插值,对于图像数据,可对图像进行图像修复,使用图像处理技术填充缺失部分,或者使用近邻像素值进行插值,对于音频数据,可使用音频信号处理技术进行插值或使用类似声音的片段进行填充。还可以对数据一致性进行检查,对于文本数据而言,可使用文本分析技术进行一致性检查,确保文本中的日期、时间、地点等信息一致,或者使用规则引擎进行一致性验证,对于图像数据,可检查图像的元数据,例如拍摄日期、分辨率,以确保一致性,对于音频数据,可检查音频文件的标签和元数据,确保一致性。还可以处理异常值数据,对于文本数据而言,可使用文本分类算法或情感分析,识别异常文本数据,如垃圾文本或异常内容,对于图像数据,可使用计算机视觉技术,如图像识别或异常检测,来检测图像中的异常情况,例如瑕疵或错误,对于音频数据,可使用音频处理技术,如异常音频检测,来检测异常音频片段。这些方法的具体方式可能需要依赖特定的工具、算法和编程语言。在处理非结构化数据时,通常需要结合不同的技术和领域知识来解决各种数据质量问题。处理缺失数据时,需要谨慎考虑数据插值和填充方法,以确保不引入错误信息。处理异常值时,可以使用机器学习模型或规则引擎来帮助自动检测异常情况。
将预处理后的非结构化数据存储在HDFS(Hadoop分布式文件系统)中的方式通常涉及以下步骤。设置Hadoop集群,首先,需要设置一个Hadoop分布式计算集群,包括HDFS。确保Hadoop集群正常运行,包括NameNode和DataNode节点的配置,将预处理后的非结构化数据格式化为适合HDFS存储的数据格式。这通常包括将数据切分为块以便并行处理,为数据创建适当的HDFS目录结构,以便组织和管理数据。目录结构应根据数据类型、源和用途进行设计,以提高数据检索效率,使用Hadoop命令或Hadoop API,将格式化的数据上传到HDFS。可以使用hadoop fs-put命令或Hadoop的Java API来完成这一步。根据HDFS的配置,数据将自动进行多次复制以提高数据的容错性。可以设置数据的副本数量,以确保数据的可靠性,根据需要设置HDFS数据的权限和访问控制。HDFS支持基于用户和组的权限管理,以确保数据安全性,考虑数据备份和恢复策略,以应对数据丢失或损坏的情况。这可以包括定期数据快照、数据镜像或其他备份方法。确保适当的元数据管理,以便能够快速查找和访问数据。Hadoop提供了Hive、HBase等工具来管理元数据。定期清理不再需要的数据,以释放存储空间并维护HDFS的性能。设置监控系统来跟踪HDFS的状态,包括存储容量、节点健康状况等。定期维护Hadoop集群以确保其正常运行。需要注意的是,上述步骤具体的方式可能因Hadoop集群的配置和需求而有所不同。确保在实施存储前进行充分的规划和测试,以满足数据管理和分析的需求。
在应用中,可使用人工智能算法从非结构化数据中提取关键特征,包括针对不同类型的非结构化数据,应用适当的人工智能算法从数据中提取关键特征,将其存储在初始特征索引表中,特征提取和特征索引表的使用有助于将非结构化数据转化为结构化数据,使其更容易进行后续的数据检索。
具体地,对于图像,可使用卷积神经网络(CNN)特征提取方法,将图像数据加载到适当的图像处理库中,如OpenCV或Pillow。确保图像大小和颜色通道一致,选择适合任务的CNN模型,如VGG、ResNet、Inception等。可以使用已经训练好的模型(迁移学习)或自行训练,通过将图像数据传递到CNN模型中,提取卷积层的特征图或使用全连接层之前的特征向量。这些特征可以表示图像中的各种抽象信息,对提取的特征进行归一化处理,以确保特征向量的数值范围一致,将所有图像的特征向量组成特征表,每行代表一幅图像的特征。对于声音,可使用梅尔频率倒谱系数(MFCC)特征提取方法,将音频信号分割为小的时间窗口,通常使用汉明窗函数进行加窗。然后计算每个窗口的快速傅里叶变换(FFT)以获得频谱信息,对每个窗口的频谱信息计算MFCC系数,这包括计算梅尔频率滤波器组的能量和离散余弦变换(DCT)来提取MFCC系数。对MFCC系数进行归一化处理,以确保它们在一致的范围内,将所有音频片段的MFCC系数组成特征表,每行代表一个音频片段的特征。对于文档,可使用TF-IDF(词频-逆文档频率)特征提取方法,对文档进行分词、去除停用词、词干提取等文本预处理步骤,以减少文本噪音,计算每个词在文档中的词频(TF)以及逆文档频率(IDF)。TF表示词在文档中的重要性,而IDF表示词在整个文本集合中的重要性,使用TF-IDF值构建每个文档的特征向量,其中每个词对应一个特征。这将为文档创建一个高维的特征空间,将所有文档的特征向量组成特征表,每行代表一个文档的特征。这些特征提取方法可以用于不同类型的数据,从而将原始数据转化为适用于机器学习或数据分析的初始特征索引表。这些特征表可以用作训练模型、数据分析或信息检索的输入。具体方式可能需要使用相关库和工具,如深度学习框架(用于CNN)、音频处理库(用于MFCC)和文本处理库(用于TF-IDF)。
在应用中,可通过主题发现算法提取数据需求文档的主题存储在过滤表中,包括通过主题发现算法从数据需求文档中提取主题信息,将这些主题存储在过滤表中,以支持后续的数据管理和检索。这一过程包括以下关键步骤:主题发现算法选择,如基于自然语言处理的主题建模(如Latent Dirichlet Allocation,LDA)或机器学习方法,用于从数据需求文档中识别和提取主题;数据需求文档处理,将数据需求文档传递给主题发现算法,该算法会分析文档内容并确定文档中的主题,这些数据需求文档可能包括用户查询、关键字、描述等;主题提取,主题发现算法将识别和提取文档中的主题,这些主题通常代表用户对非结构化数据的需求和兴趣;将主题提取结果存储在过滤表,过滤表及其关联数据存储在分布式文件系统或数据库中,以确保高效的数据管理和检索。通过主题发现和过滤表的使用,能够将用户的数据需求映射到实际的非结构化数据,从而支持用户需求的数据管理和检索。
具体地,可对数据需求文档中的文本进行预处理,包括分词、去除停用词、词干提取等,这将有助于减少噪音和提取关键词汇。对于每个文档,可计算每个词汇的TF-IDF值,TF-IDF是词频-逆文档频率,用于衡量一个词汇在文档中的重要性。词频(TF)表示词汇在文档中的出现次数,逆文档频率(IDF)表示词汇在整个文档集合中的重要性。IDF值高的词汇在整个集合中较为罕见,因此在特定文档中更有权重。对于每个文档,可根据计算的TF-IDF值,选择词汇,使得TF-IDF值高于某个阈值(阈值可以根据需求调整),这些被选择的词汇将构成过滤表的一部分。将从每个文档中选择的高TF-IDF值词汇组合成一个过滤表,这个表可以是一个列表、数组或者关联数组(键-值对),其中键是词汇,值是对应的TF-IDF值。过滤表可以存储在数据库中,也可以保存为文本文件或其他格式,以便后续的使用。这样创建的过滤表将包含对于特定文档集合的重要词汇,它通常用于信息检索、主题建模、文本分类等任务,以帮助识别文档的关键主题或内容。过滤表的构建过程可以根据具体的数据需求文档和任务而有所不同,因此可能需要进行调整和优化。
S200、将所述非结构化数据的初始特征索引表与所述过滤表进行匹配,得到最终特征索引表。
在一个实施例中,所述将所述非结构化数据的初始特征索引表与所述过滤表进行匹配,得到最终特征索引表,包括:将所述初始特征索引表中的关键特征与所述过滤表中的主题进行匹配;根据匹配结果,将匹配成功的所述关键特征和所述主题存储至最终特征索引表。
在应用中,可通过模糊匹配将初始特征索引表和过滤表进行匹配得到最终特征索引表,在这一步骤中,使用模糊匹配技术将特征索引表和过滤表进行匹配,以获得最终特征索引表。这一过程包括以下关键步骤:模糊匹配算法选择,选择适当的模糊匹配算法,该算法能够在特征索引表和过滤表之间建立联系,即将提取的主题与关键特征进行匹配;特征索引表和过滤表的匹配,应用选定的模糊匹配算法,对特征索引表中的关键特征和过滤表中的主题进行匹配,这可能涉及到对文本数据的关键词、图像数据的颜色、形状特征、音频数据的声音特征与提取的主题进行比对;匹配结果存储,将匹配结果存储在最终特征索引表中。这个最终特征索引表包含了关键特征、主题以及它们之间的关联,为后续的数据检索提供了重要的信息。通过模糊匹配和最终特征索引表的创建,将数据需求主题与具体的特征关联,使用户能够更轻松地检索和分析与其需求相关的非结构化数据。这一步骤强化了数据管理的效率,为用户提供了更多的洞见发现和数据利用的机会,最终特征索引表成为连接主题需求和实际数据特征的重要桥梁。
具体地,可通过SQL进行模糊匹配初始特征索引表和过滤表,匹配得到最终特征索引表的具体方式通常涉及以下步骤:首先,确保已经建立了数据库表,包括特征索引表和过滤表,这些表应包括用于存储特征和过滤词的字段;使用SQL客户端或编程语言中的数据库连接工具,连接到数据库;创建一个SQL查询,以执行模糊匹配操作,具体的查询语法可能因使用的数据库管理系统而有所不同,以下是一般的SQL查询示例,如果特征中包含过滤词,就将它们选中;在SQL客户端或通过编程语言的数据库连接执行SQL查询。从数据库中获取匹配的结果,通常是一个包含匹配特征的结果集。存储最终特征索引表。定期清理过滤表和初始特征索引表,以确保数据的一致性和准确性。这种方法可以用于从初始特征索引表中检索与过滤表中的词汇相关的特征。SQL查询中使用的函数和语法可能因数据库管理系统的不同而有所不同,需要根据具体的数据库和数据结构来调整查询。此外,执行效率和查询性能也应该得到关注,特别是在处理大规模数据时。
S300、通过所述最终特征索引表对所述非结构化数据进行管理以及相似性搜索。
在一个实施例中,所述通过所述最终特征索引表对所述非结构化数据进行管理以及相似性搜索,包括:检索所述最终特征索引表,实现对所述非结构化数据的管理以及相似性搜索。
在应用中,可通过SQL检索最终特征索引表,实现对非结构化数据的管理和对非结构化数据的相似性搜索。通过使用SQL查询,允许用户轻松地管理非结构化数据,执行相似性搜索以满足特定需求。这一步骤强调了数据管理的灵活性和可操作性,允许用户以结构化的方式与非结构化数据交互。同时,SQL的使用也有助于数据检索和管理的效率和准确性。
具体地,通过SQL检索最终特征索引表,以实现对非结构化数据的管理和对非结构化数据的相似性搜索,通常需要采取以下步骤:确保已经创建了适当的数据库表,包括最终特征索引表,以存储非结构化数据的特征。这些表应包括必要的字段,例如数据ID、特征向量等。连接到的数据库,使用SQL客户端或编程语言中的数据库连接库。构建SQL查询,以根据需要检索非结构化数据或进行相似性搜索。查询语法可能会因数据库管理系统和数据结构而异,以下是一个一般的示例:
SELECT data_id,feature_vector
FROM feature_index
WHERE SIMILARITY_FUNCTION(feature_vector,query_vector)>SIMILARITY_THRESHOLD;
在查询中,SIMILARITY_FUNCTION是用于计算相似性的函数,feature_vector表示特征向量,query_vector是搜索查询的特征向量,SIMILARITY_THRESHOLD是相似性阈值,用于确定何时认为两个特征是相似的。可在SQL客户端或通过编程语言的数据库连接执行SQL查询。从查询结果中获取匹配的非结构化数据,这些数据与查询特征向量具有相似性。对于获取的匹配数据,根据需要进行进一步的数据处理、分析或展示,这可能包括文档检索、图像显示、音频播放等。针对大规模数据集,可能需要优化数据库性能,例如使用索引、分区和数据库缓存,以加速查询。可定期维护数据库,包括清理不再需要的数据、更新特征索引表和确保数据库的一致性。实施方式中的具体SQL语法和函数可能因使用的数据库管理系统而有所不同。此外,相似性函数的选择取决于任务需求,可以使用余弦相似度、欧几里得距离、Jaccard相似性等不同的度量。确保查询性能和结果的准确性至关重要,因此可能需要根据具体的应用场景进行调整和优化。
本申请实施例提供的非结构化数据的处理方法,通过使用主题提取算法提取需求文档的主题与非结构化数据的特征进行模糊匹配,得到最终特征索引表,用最终索引表进行检索,从而减少非数据需求的特征和削减与日俱增的数据特征,提高非结构化数据的检索效率。通过主题发现算法,能够理解数据需求文档的主题,并将其映射到实际数据,这有助于满足用户提取非结构化数据有效价值的需求,用户能够更加直观地选择数据特征得到所需数据,实现有效地提取非结构数据的价值,使得检索和使用非结构化数据更加方便,易于管理。
对应于上文实施例所述的非结构化数据的处理方法,如图2所示,本实施例提供了一种非结构化数据的处理装置,该非结构化数据的处理装置200包括:
过滤模块201,用于根据数据需求文档的主题,得到过滤表,其中,所述数据需求文档包括用户查询、关键字和描述,所述主题表征用户对非结构化数据的需求和兴趣;
匹配模块202,用于将所述非结构化数据的初始特征索引表与所述过滤表进行匹配,得到最终特征索引表;
检索模块203,用于通过所述最终特征索引表对所述非结构化数据进行管理以及相似性搜索。
需要说明的是,上述模块/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种电子设备300,如图3所示,包括存储器301、处理器302以及存储在存储器301中并可在处理器302上运行的计算机程序303,处理器302执行计算机程序303时实现第一方面提供的非结构化数据的处理方法的步骤。
在应用中,电子设备可包括,但不仅限于,处理器以及存储器,图3仅仅是电子设备的举例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如,输入输出设备、网络接入设备等。输入输出设备可以包括摄像头、音频采集/播放器件、显示屏等。网络接入设备可以包括网络模块,用于与外部设备进行无线网络。
在应用中,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在应用中,存储器在一些实施例中可以是电子设备的内部存储单元,例如电子设备的硬盘或内存。存储器在另一些实施例中也可以是电子设备的外部存储设备,例如,电子设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。存储器还可以既包括电子设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如计算机程序的程序代码等。存储器还可以用于暂时存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到电子设备的任何实体或设备、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的设备及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,设备间接耦合或通讯连接,可以是电性,机械或其它的形式。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种非结构化数据的处理方法,其特征在于,包括:
根据数据需求文档的主题,得到过滤表,其中,所述数据需求文档包括用户查询、关键字和描述,所述主题表征用户对非结构化数据的需求和兴趣;
将所述非结构化数据的初始特征索引表与所述过滤表进行匹配,得到最终特征索引表;
通过所述最终特征索引表对所述非结构化数据进行管理以及相似性搜索。
2.如权利要求1所述的非结构化数据的处理方法,其特征在于,所述根据数据需求文档的主题,得到过滤表之前,还包括:
根据多种数据源采集非结构化数据,其中,所述数据源包括文本、图像、音频以及视频;
对所述非结构化数据进行预处理,其中,所述预处理包括数据清洗、纠错以及格式标准化;
将预处理后的所述非结构化数据存储至数据库。
3.如权利要求1所述的非结构化数据的处理方法,其特征在于,所述根据数据需求文档的主题,得到过滤表之前,还包括:
根据所述非结构化数据的关键特征,得到初始特征索引表。
4.如权利要求3所述的非结构化数据的处理方法,其特征在于,所述根据所述非结构化数据的关键特征,得到初始特征索引表,包括:
提取所述非结构化数据的关键特征,将所述关键特征存储至初始特征索引表。
5.如权利要求1所述的非结构化数据的处理方法,其特征在于,所述根据数据需求文档的主题,得到过滤表,包括:
提取数据需求文档的主题,将所述主题存储至过滤表。
6.如权利要求1所述的非结构化数据的处理方法,其特征在于,所述将所述非结构化数据的初始特征索引表与所述过滤表进行匹配,得到最终特征索引表,包括:
将所述初始特征索引表中的关键特征与所述过滤表中的主题进行匹配;
根据匹配结果,将匹配成功的所述关键特征和所述主题存储至最终特征索引表。
7.如权利要求1所述的非结构化数据的处理方法,其特征在于,所述通过所述最终特征索引表对所述非结构化数据进行管理以及相似性搜索,包括:
检索所述最终特征索引表,实现对所述非结构化数据的管理以及相似性搜索。
8.一种非结构化数据的处理装置,其特征在于,包括:
过滤模块,用于根据数据需求文档的主题,得到过滤表,其中,所述数据需求文档包括用户查询、关键字和描述,所述主题表征用户对非结构化数据的需求和兴趣;
匹配模块,用于将所述非结构化数据的初始特征索引表与所述过滤表进行匹配,得到最终特征索引表;
检索模块,用于通过所述最终特征索引表对所述非结构化数据进行管理以及相似性搜索。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的非结构化数据的处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的非结构化数据的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311576043.XA CN117633202A (zh) | 2023-11-23 | 2023-11-23 | 一种非结构化数据的处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311576043.XA CN117633202A (zh) | 2023-11-23 | 2023-11-23 | 一种非结构化数据的处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117633202A true CN117633202A (zh) | 2024-03-01 |
Family
ID=90033149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311576043.XA Pending CN117633202A (zh) | 2023-11-23 | 2023-11-23 | 一种非结构化数据的处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117633202A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118673101A (zh) * | 2024-08-23 | 2024-09-20 | 山东浪潮科学研究院有限公司 | 数据检索方法、装置、电子设备及存储介质 |
-
2023
- 2023-11-23 CN CN202311576043.XA patent/CN117633202A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118673101A (zh) * | 2024-08-23 | 2024-09-20 | 山东浪潮科学研究院有限公司 | 数据检索方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11573996B2 (en) | System and method for hierarchically organizing documents based on document portions | |
US11182433B1 (en) | Neural network-based semantic information retrieval | |
US10891321B2 (en) | Systems and methods for performing a computer-implemented prior art search | |
US9026518B2 (en) | System and method for clustering content according to similarity | |
JP2021108183A (ja) | 意図推薦方法、装置、機器及び記憶媒体 | |
KR20210040891A (ko) | 정보 추천 방법과 장치, 전자 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램 | |
US9292797B2 (en) | Semi-supervised data integration model for named entity classification | |
US20210019665A1 (en) | Machine Learning Model Repository Management and Search Engine | |
US20190213407A1 (en) | Automated Analysis System and Method for Analyzing at Least One of Scientific, Technological and Business Information | |
US20200184272A1 (en) | Framework for building and sharing machine learning components | |
WO2017097231A1 (zh) | 话题处理方法及装置 | |
US20150331859A1 (en) | Method and system for providing multimedia content to users based on textual phrases | |
CN111125460A (zh) | 信息推荐方法及装置 | |
US9940355B2 (en) | Providing answers to questions having both rankable and probabilistic components | |
JP7539200B2 (ja) | データ・マッチングのための能動学習 | |
De Boom et al. | Semantics-driven event clustering in Twitter feeds | |
WO2022133178A1 (en) | Systems and methods for knowledge distillation using artificial intelligence | |
CN117633202A (zh) | 一种非结构化数据的处理方法、装置、设备及存储介质 | |
Li et al. | TPFN: Applying outer product along time to multimodal sentiment analysis fusion on incomplete data | |
US20230067285A1 (en) | Linkage data generator | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
WO2024139703A1 (zh) | 对象识别模型的更新方法、装置、电子设备、存储介质及计算机程序产品 | |
Xia et al. | Content-irrelevant tag cleansing via bi-layer clustering and peer cooperation | |
CN118245568A (zh) | 一种基于大模型的问答方法、装置、电子设备及存储介质 | |
Dash et al. | Neural networks training based on differential evolution in radial basis function networks for classification of web logs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |