CN115858322A - 日志数据处理方法、装置和计算机设备 - Google Patents
日志数据处理方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN115858322A CN115858322A CN202211683655.4A CN202211683655A CN115858322A CN 115858322 A CN115858322 A CN 115858322A CN 202211683655 A CN202211683655 A CN 202211683655A CN 115858322 A CN115858322 A CN 115858322A
- Authority
- CN
- China
- Prior art keywords
- log
- structured
- logs
- generate
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 69
- 238000012545 processing Methods 0.000 claims abstract description 55
- 230000008569 process Effects 0.000 claims abstract description 50
- 238000004590 computer program Methods 0.000 claims description 39
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 7
- 230000008521 reorganization Effects 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 description 44
- 238000004458 analytical method Methods 0.000 description 20
- 238000007405 data analysis Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 5
- 238000013480 data collection Methods 0.000 description 4
- 238000013075 data extraction Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000006798 recombination Effects 0.000 description 4
- 238000005215 recombination Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本申请涉及一种日志数据处理方法、装置和计算机设备。所述方法包括:对多个待处理日志进行结构化处理,以获取对应的结构化日志;按照预设规则对各所述结构化日志进行重组生成关联日志和非关联日志;根据具有关键字段的预设模板动态匹配所述关联日志和所述非关联日志以获取目标日志数据,其中,所述目标日志数据包括所述关键字段。采用本方法能够在日志采集、汇聚和分析过程中分别减少时间和简化过程,以提高日志数据的处理和分析效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种日志数据处理方法、装置和计算机设备。
背景技术
APIX开放交换平台是各金融机构为了更好的服务客户,推出的一个依赖于应用程序编程接口(Application Programming Interface,API)实现数据交互的开放平台。
随着APIX业务场景的不断丰富,API开放场景下的日志分析应用存在很大的挑战。现有离线数据分析过程中,依赖外部技术组件集群进行分散化存储,并采用先汇聚再加工模式进行数据采集、汇聚、分析,既增加了技术复杂度和成本,也难以满足数据分析应用的时效性和灵活性需求。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高日志处理效率的日志数据处理方法、装置和计算机设备。
第一方面,本申请提供了一种日志数据处理方法。所述方法包括:
对多个待处理日志进行结构化处理,以获取对应的结构化日志;
按照预设规则对各所述结构化日志进行重组生成关联日志和非关联日志;
根据具有关键字段的预设模板动态匹配所述关联日志和所述非关联日志以获取目标日志数据,其中,所述目标日志数据包括所述关键字段。
在其中一个实施例中,所述对多个待处理日志进行结构化处理,以获取对应的结构化日志,包括:
按照预设格式对各所述待处理日志进行结构化转换处理,生成所述结构化日志;
通过日志采集工具syslog-ng获取各所述结构化日志。
在其中一个实施例中,所述方法还包括:
将获取到的所述结构化日志存储至云服务器;
从所述云服务器获取各所述结构化日志。
在其中一个实施例中,所述从所述云服务器获取各所述结构化日志包括:
根据目标指令获取对应的所述结构化日志;其中,所述目标指令包括用于标识所述结构化日志身份信息的时间戳、日志体积和目标标签中的至少一种。
在其中一个实施例中,所述预设格式中包括多个结构化字段;其中,所述结构化字段包括当前时间、网关设置的进程号、流水号、返回代码描述、请求次数、API路由、请求唯一标识、日志主机地址、API调用地址、APP的唯一标识、日志所属服务器IP、日志生成时间、请求响应状态中至少一种。
在其中一个实施例中,所述待处理日志的日志类型包括服务网关日志、应用服务日志和计费服务日志中至少一种;所述按照预设规则对各所述结构化日志进行重组生成关联日志和非关联日志包括:
读取各所述结构化日志的结构化字段,所述结构化字段包括网关设置的进程号和流水号;
根据所述网关设置的进程号获取各所述结构化日志的日志类型;
判断不同日志类型的所述结构化日志的所述流水号是否相同;
若相同,则将多个不同日志类型的所述结构化日志重组生成所述关联日志;
若不相同,则将所述结构化日志作为所述非关联日志。
在其中一个实施例中,所述将多个不同日志类型的所述结构化日志重组生成所述关联日志包括:
将所述流水号相同的多个不同日志类型的所述结构化日志中的重复字段删除;
将删除重复字段后的所述结构化日志进行合并生成所述关联日志。
在其中一个实施例中,所述将删除重复字段后的所述结构化日志进行合并生成所述关联日志包括:
将删除重复字段后的所述结构化日志进行合并生成待富化日志;
在所述待富化日志中增加标志字段生成所述关联日志;其中,所述标志字段包括敏感标记字段和特邀标记字段中至少一种。
第二方面,本申请还提供了一种日志数据处理装置。所述装置包括:
日志处理模块,用于对多个待处理日志进行结构化处理,以获取对应的结构化日志;
日志重组模块,用于按照预设规则对各所述结构化日志进行重组生成关联日志和非关联日志;
日志匹配模块,用于根据具有关键字段的预设模板动态匹配所述关联日志和所述非关联日志以获取目标日志数据,其中,所述目标日志数据包括所述关键字段。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请实施例中任一项所述的方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实现本申请实施例中任一项所述的方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现实现本申请实施例中任一项所述的方法的步骤。
上述日志数据处理方法、装置、计算机设备、存储介质和计算机程序产品,通过将待处理日志结构化处理,可以减少日志采集过程中的采集时间并简化后续日志处理、分析过程中的工作量,通过结构化字段快速识别和筛选特征数据;然后通过预设规则对各所述结构化日志进行重组,将相关联的结构化日志合并为关联日志以缩小数据体积;最后通过预设模板动态匹配目标日志数据,通过目标日志数据中关键字段匹配对应的应用场景,当预设场景需要提取对应的日志数据时可以通过关键字段提取对应的目标日志数据,以提高日志数据分析的效率。
附图说明
图1为一个实施例中日志数据处理方法的应用环境图;
图2为一个实施例中日志数据处理方法的流程示意图;
图3为一个实施例中获取结构化日志步骤的流程示意图;
图4为另一个实施例中日志数据处理方法的流程示意图;
图5为一个实施例中日志重组步骤的流程示意图;
图6为一个实施例中日志合并步骤的流程示意图;
图7为一个实施例中日志富化步骤的流程示意图;
图8为一个实施例中日志数据处理装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的日志数据处理方法,可以应用于如图1所示的应用环境中。当APIX开放交换平台发起API调用后,会先经服务网关进行流控、权限控制等处理,负载均衡到对应的应用服务,门户、后管及应用服务的计费数据汇集到计费服务,服务网关、应用服务和计费服务的API调用数据统一汇聚到日志轻应用服务进行分析处理,日志轻应用服务包括将离线日志数据根据本申请的日志数据处理方法进行处理从而生成的目标日志数据,当发起API调用时,通过调用对应的目标日志数据从而实现数据分析。API日志数据主要应用场景和获取场景如下表1所示:
表1
在一个实施例中,如图2所示,提供了一种日志数据处理方法,包括步骤S201至步骤S203。
步骤S201:对多个待处理日志进行结构化处理,以获取对应的结构化日志。
待处理日志可以为离线日志,例如,待处理日志可以为图1中服务网关、应用服务和计费服务当前时间以前产生的历史日志。结构化日志为通过将待处理日志中的特征参数按照一定的格式进行变化生成的日志。
步骤S202:按照预设规则对各所述结构化日志进行重组生成关联日志和非关联日志。
由于APIX开放交换平台中的功能和服务关系是相关且交错的,故同一个应用场景下可能存在多个相关联的日志数据,故通过重组将一个场景下关联的多个结构化日志合并为一条关联日志;而没有相关性的结构化日志不进行重组,作为非关联日志。
可选的,可以按照预设规则分批对各所述结构化日志进行重组,即将结构化日志按照预设排列组合规则将结构化日志进行划分成多个批次,按照批次对结构化日志进行重组,例如可以按照日志大小或者日志生成时间来进行分批次,以便于避免文件数据过多造成数据处理紊乱的情况发生,提高数据流程处理时效,进一步的,可以根据处理时间和处理资源动态调整微批间隔。
步骤S203:根据具有关键字段的预设模板动态匹配所述关联日志和所述非关联日志以获取目标日志数据,其中,所述目标日志数据包括所述关键字段。
关键字段为可以表征匹配需求的字段,例如,匹配需求为需要与消费明细相关的数据,则关键字段为与消费明细相关的字段,而包括关键字段的目标日志数据为与消费明细相关的日志数据。
上述日志数据处理方法中,通过将待处理日志结构化处理,可以减少日志采集过程中的采集时间并简化后续日志处理、分析过程中的工作量,通过结构化字段快速识别和筛选特征数据;然后通过预设规则对各所述结构化日志进行重组,将相关联的结构化日志合并为关联日志以缩小数据体积;最后通过预设模板动态匹配目标日志数据,通过目标日志数据中关键字段匹配对应的应用场景,当预设场景需要提取对应的日志数据时可以通过关键字段提取对应的目标日志数据,以提高日志数据分析的效率。
在其中一个实施例中,如图3,所述对多个待处理日志进行结构化处理,以获取对应的结构化日志,包括步骤S301至步骤S302。
步骤S301:按照预设格式对各所述待处理日志进行结构化转换处理,生成所述结构化日志。
结构化处理为将待处理日志中的特征参数转换为结构化字段,将各结构化字段进行整合生成结构化日志看。所述预设格式中包括多个结构化字段;其中,所述结构化字段包括当前时间、网关设置的进程号、流水号、返回代码描述、请求次数、API路由、请求唯一标识、日志主机地址、API调用地址、APP的唯一标识、日志所属服务器IP、日志生成时间、请求响应状态中至少一种。可以通过结构化日志中的结构化字段直观获取结构化日志的特征参数,例如,需要某一预设时间段内的日志数据,则筛选日志生成时间在预设时间段范围内的结构化日志。以下表2为例进行说明,例如,有一待处理日志,将待处理日志中的所有参数进行结构化转换生成结构化字段,再将各结构化字段进行整合生成结构化日志:
表2
步骤S302:通过日志采集工具syslog-ng获取各所述结构化日志。
syslog-ng为Linux系统内置的日志采集工具,通过syslog-ng采集结构化日志可以避免引入额外的数据采集组件。
可选的,可以通过日志采集工具syslog-ng微批获取结构化日志,即将结构化日志按照预设排列组合规则将结构化日志进行划分成多个批次,在获取日志时按照批次进行获取和处理,例如可以按照日志大小或者日志生成时间来进行分批次,以便于避免文件数据过多造成数据获取紊乱的情况发生。
上述日志数据处理方法中,通过将待处理日志结构化处理,可以减少日志采集过程中的采集时间并简化后续日志处理、分析过程中的工作量,通过结构化字段快速识别和筛选特征数据;通过日志采集工具syslog-ng采集结构化日志可以避免引入额外的数据采集组件,技术轻量化同时可保证日志的快速传输;然后通过预设规则对各所述结构化日志进行重组,将相关联的结构化日志合并为关联日志以缩小数据体积;最后通过预设模板动态匹配目标日志数据,通过目标日志数据中关键字段匹配对应的应用场景,当预设场景需要提取对应的日志数据时可以通过关键字段提取对应的目标日志数据,以提高日志数据分析的效率。
在其中一个实施例中,如图4,还提供了一种日志数据处理方法包括步骤S401至步骤S405。
步骤S401:对多个待处理日志进行结构化处理,以获取对应的结构化日志。
步骤S402:将获取到的所述结构化日志存储至云服务器。
可以采用对象存储等云端方式将所有的结构化日志存储至云服务器,以便于数据集中化存储,避免日志分散存储带来的整合、解析等复杂度。结构化日志包括多种日志类型,存储时可以将所有类型的结构化日志存储在一个存储空间,也可以按照日志类型分开存储。
步骤S403:从所述云服务器获取各所述结构化日志。
根据目标指令获取对应的所述结构化日志;其中,所述目标指令包括用于标识所述结构化日志身份信息的时间戳、日志体积和目标标签中的至少一种。由于日志数据的数据量过大,故通过目标指令将结构化日志进行拆分,简化后续处理过程。例如,生成目标日志数据需要预设时间段内的日志数据,则从云服务器获取时,仅需要获取预设时间段内的日志数据。
可选的,可以从所述云服务器按照批次获取各所述结构化日志,即将结构化日志按照预设排列组合规则将结构化日志进行划分成多个批次,在从云服务器获取日志时按照批次进行获取和处理,例如可以按照日志大小或者日志生成时间来进行分批次,以便于避免文件数据过多造成数据获取紊乱的情况发生。批次和拆分互相不冲突,每一批次里的数据量若还是过大,则可按照目标指令进一步拆分。
步骤S404:按照预设规则对各所述结构化日志进行重组生成关联日志和非关联日志。
步骤S405:根据具有关键字段的预设模板动态匹配所述关联日志和所述非关联日志以获取目标日志数据,其中,所述目标日志数据包括所述关键字段。
上述日志数据处理方法中,通过将待处理日志结构化处理,可以减少日志采集过程中的采集时间并简化后续日志处理、分析过程中的工作量,通过结构化字段快速识别和筛选特征数据;通过日志采集工具syslog-ng采集结构化日志可以避免引入额外的数据采集组件,技术轻量化同时可保证日志的快速传输;通过将采集到的结构化日志的存储在云服务器上以便于集中化存储数据,可以避免本地日志数据分散化存储带来的整合、解析等复杂度;然后按照批次从云服务器上获取结构化日志以通过预设规则对各所述结构化日志进行重组,将相关联的结构化日志合并为关联日志以缩小数据体积;最后通过预设模板动态匹配目标日志数据,通过目标日志数据中关键字段匹配对应的应用场景,当预设场景需要提取对应的日志数据时可以通过关键字段提取对应的目标日志数据,以提高日志数据分析的效率。
在其中一个实施例中,所述待处理日志的日志类型包括服务网关日志、应用服务日志和计费服务日志中至少一种;如图5,所述按照预设规则对各所述结构化日志进行重组生成关联日志和非关联日志包括步骤S501至步骤S505。
步骤S501:读取各所述结构化日志的结构化字段,所述结构化字段包括网关设置的进程号和流水号。
网关设置的进程号为可以表征结构化日志的日志类型的结构化字段,流水号为可以表征结构化日志应用场景或应用功能的结构化字段。
步骤S502:根据所述网关设置的进程号获取各所述结构化日志的日志类型。
API日志来源相对固定,而网关设置的进程号用于区分结构化日志的日志路径,即产生的结构化日志通过网关设置的进程号可以判断来自服务网关、应用服务、计费服务中哪一个。每一日志类型对应的网关设置的进程号一致,三种日志类型对应网关设置的进程号不同。
步骤S503:判断不同日志类型的所述结构化日志的所述流水号是否相同。
相同日志类型的结构化日志间不用比较流水号,仅需比较不同日志类型的结构化日志的流水号是否相同。通过流水号的比较可以判断不同类型的结构化日志是否存在相关性。
步骤S504:若相同,则将多个不同日志类型的所述结构化日志重组生成所述关联日志。
若不同类型的结构化日志的流水号相同,则说明多个结构化日志具有相关性,可以合并重组,此时多个结构化日志中包括服务网关日志、应用服务日志和计费服务日志中的至少两种。
步骤S505:若不相同,则将所述结构化日志作为所述非关联日志。
若某一结构化日志没有相关性的日志,则不进行任何处理作为非关联日志。例如,某一服务网关日志不存在流水号相同的应用服务日志,计费服务日志,则该服务网关日志作为非关联日志。
上述日志数据处理方法中,通过读取到的结构化字段,将结构化日志按照日志类型进行分类,并将不同类型的结构化日志根据流水号进行关联重组,去除重复字段形成关联日志,以便于减少重复数据,且在数据分析过程中减少数据提取量,降低提取复杂度,提高分析效率。
在其中一个实施例中,如图6,所述将多个不同日志类型的所述结构化日志重组生成所述关联日志包括步骤S601至步骤S602。
步骤S601:将所述流水号相同的多个不同日志类型的所述结构化日志中的重复字段删除。
重复字段为结构化日志中存在的与其他日志相同的结构化字段。将重复的结构化字段删除可以减少日志的数据体积。
步骤S602:将删除重复字段后的所述结构化日志进行合并生成所述关联日志。
将流水号相同的结构化日志中的重复字段删除后,将剩余的结构化字段进行组合排列生成一关联日志。
上述日志数据处理方法中,通过去除重复字段形成关联日志,以便于减少重复数据,且在数据分析过程中减少数据提取量,降低提取复杂度,提高分析效率。
在其中一个实施例中,如图7,所述将删除重复字段后的所述结构化日志进行合并生成所述关联日志包括步骤S701至步骤S702。
步骤S701:将删除重复字段后的所述结构化日志进行合并生成待富化日志。
将流水号相同的结构化日志中的重复字段删除后,将剩余的结构化字段进行组合排列生成一待富华日志。
步骤S702:在所述待富化日志中增加标志字段生成所述关联日志;其中,所述标志字段包括敏感标记字段和特邀标记字段中至少一种。
标志字段为可以表征特定分析场景的字段,特定分析场景包括是否敏感数据、是否特邀用户调用等。关联日志包括标志字段。
上述日志数据处理方法中,将待富华日志中添加标志字段生成关联日志,以便于在特殊场景分析时,通过标志字段获取对应的关联日志。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的日志数据处理方法的日志数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个日志数据处理装置实施例中的具体限定可以参见上文中对于日志数据处理方法的限定,在此不再赘述。
在一个实施例中,如图8所示,提供了一种日志数据处理装置80,包括:日志处理模块81、日志重组模块82和日志匹配模块83,其中:
日志处理模块81,用于对多个待处理日志进行结构化处理,以获取对应的结构化日志;
日志重组模块82,用于按照预设规则对各所述结构化日志进行重组生成关联日志和非关联日志;
日志匹配模块83,用于根据具有关键字段的预设模板动态匹配所述关联日志和所述非关联日志以获取目标日志数据,其中,所述目标日志数据包括所述关键字段。
上述日志数据处理装置中,通过将待处理日志结构化处理,可以减少日志采集过程中的采集时间并简化后续日志处理、分析过程中的工作量,通过结构化字段快速识别和筛选特征数据;然后通过预设规则对各所述结构化日志进行重组,将相关联的结构化日志合并为关联日志以缩小数据体积;最后通过预设模板动态匹配目标日志数据,通过目标日志数据中关键字段匹配对应的应用场景,当预设场景需要提取对应的日志数据时可以通过关键字段提取对应的目标日志数据,以提高日志数据分析的效率。
在一个实施例中,日志处理模块81还用于按照预设格式对各所述待处理日志进行结构化转换处理,生成所述结构化日志;通过日志采集工具syslog-ng获取各所述结构化日志。
上述日志数据处理方法中,通过将待处理日志结构化处理,可以减少日志采集过程中的采集时间并简化后续日志处理、分析过程中的工作量,通过结构化字段快速识别和筛选特征数据;通过日志采集工具syslog-ng采集结构化日志可以避免引入额外的数据采集组件,技术轻量化同时可保证日志的快速传输;然后通过预设规则对各所述结构化日志进行重组,将相关联的结构化日志合并为关联日志以缩小数据体积;最后通过预设模板动态匹配目标日志数据,通过目标日志数据中关键字段匹配对应的应用场景,当预设场景需要提取对应的日志数据时可以通过关键字段提取对应的目标日志数据,以提高日志数据分析的效率。
在一个实施例中,日志处理模块81还用于将获取到的所述结构化日志存储至云服务器;日志重组模块82还用于从所述云服务器获取各所述结构化日志。
在一个实施例中,日志重组模块82还用于根据目标指令获取对应的所述结构化日志;其中,所述目标指令包括用于标识所述结构化日志身份信息的时间戳、日志体积和目标标签中的至少一种。
上述日志数据处理装置中,通过将待处理日志结构化处理,可以减少日志采集过程中的采集时间并简化后续日志处理、分析过程中的工作量,通过结构化字段快速识别和筛选特征数据;通过日志采集工具syslog-ng采集结构化日志可以避免引入额外的数据采集组件,技术轻量化同时可保证日志的快速传输;通过将采集到的结构化日志的存储在云服务器上以便于集中化存储数据,可以避免本地日志数据分散化存储带来的整合、解析等复杂度;然后按照批次从云服务器上获取结构化日志以通过预设规则对各所述结构化日志进行重组,将相关联的结构化日志合并为关联日志以缩小数据体积;最后通过预设模板动态匹配目标日志数据,通过目标日志数据中关键字段匹配对应的应用场景,当预设场景需要提取对应的日志数据时可以通过关键字段提取对应的目标日志数据,以提高日志数据分析的效率。
在一个实施例中,所述预设格式中包括多个结构化字段;其中,所述结构化字段包括当前时间、网关设置的进程号、流水号、返回代码描述、请求次数、API路由、请求唯一标识、日志主机地址、API调用地址、APP的唯一标识、日志所属服务器IP、日志生成时间、请求响应状态中至少一种。
在一个实施例中,所述待处理日志的日志类型包括服务网关日志、应用服务日志和计费服务日志中至少一种;日志重组模块82还用于读取各所述结构化日志的结构化字段,所述结构化字段包括网关设置的进程号和流水号;根据所述网关设置的进程号获取各所述结构化日志的日志类型;判断不同日志类型的所述结构化日志的所述流水号是否相同;若相同,则将多个不同日志类型的所述结构化日志重组生成所述关联日志;若不相同,则将所述结构化日志作为所述非关联日志。
上述日志数据处理方法中,通过读取到的结构化字段,将结构化日志按照日志类型进行分类,并将不同类型的结构化日志根据流水号进行关联重组,去除重复字段形成关联日志,以便于减少重复数据,且在数据分析过程中减少数据提取量,降低提取复杂度,提高分析效率。
在一个实施例中,日志重组模块82还用于将所述流水号相同的多个不同日志类型的所述结构化日志中的重复字段删除;将删除重复字段后的所述结构化日志进行合并生成所述关联日志。
上述日志数据处理方法中,通过去除重复字段形成关联日志,以便于减少重复数据,且在数据分析过程中减少数据提取量,降低提取复杂度,提高分析效率。
在一个实施例中,日志重组模块82还用于将删除重复字段后的所述结构化日志进行合并生成待富化日志;在所述待富化日志中增加标志字段生成所述关联日志;其中,所述标志字段包括敏感标记字段和特邀标记字段中至少一种。
上述日志数据处理方法中,将待富华日志中添加标志字段生成关联日志,以便于在特殊场景分析时,通过标志字段获取对应的关联日志。
上述日志数据处理装置80中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标日志数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种日志数据处理方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
对多个待处理日志进行结构化处理,以获取对应的结构化日志;
按照预设规则对各所述结构化日志进行重组生成关联日志和非关联日志;
根据具有关键字段的预设模板动态匹配所述关联日志和所述非关联日志以获取目标日志数据,其中,所述目标日志数据包括所述关键字段。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
按照预设格式对各所述待处理日志进行结构化转换处理,生成所述结构化日志;
通过日志采集工具syslog-ng获取各所述结构化日志。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将获取到的所述结构化日志存储至云服务器;
从所述云服务器获取各所述结构化日志。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据目标指令获取对应的所述结构化日志;其中,所述目标指令包括用于标识所述结构化日志身份信息的时间戳、日志体积和目标标签中的至少一种。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:所述预设格式中包括多个结构化字段;其中,所述结构化字段包括当前时间、网关设置的进程号、流水号、返回代码描述、请求次数、API路由、请求唯一标识、日志主机地址、API调用地址、APP的唯一标识、日志所属服务器IP、日志生成时间、请求响应状态中至少一种。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
读取各所述结构化日志的结构化字段,所述结构化字段包括网关设置的进程号和流水号;
根据所述网关设置的进程号获取各所述结构化日志的日志类型;
判断不同日志类型的所述结构化日志的所述流水号是否相同;
若相同,则将多个不同日志类型的所述结构化日志重组生成所述关联日志;
若不相同,则将所述结构化日志作为所述非关联日志。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将所述流水号相同的多个不同日志类型的所述结构化日志中的重复字段删除;
将删除重复字段后的所述结构化日志进行合并生成所述关联日志。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将删除重复字段后的所述结构化日志进行合并生成待富化日志;
在所述待富化日志中增加标志字段生成所述关联日志;其中,所述标志字段包括敏感标记字段和特邀标记字段中至少一种。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
对多个待处理日志进行结构化处理,以获取对应的结构化日志;
按照预设规则对各所述结构化日志进行重组生成关联日志和非关联日志;
根据具有关键字段的预设模板动态匹配所述关联日志和所述非关联日志以获取目标日志数据,其中,所述目标日志数据包括所述关键字段。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
按照预设格式对各所述待处理日志进行结构化转换处理,生成所述结构化日志;
通过日志采集工具syslog-ng获取各所述结构化日志。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将获取到的所述结构化日志存储至云服务器;
从所述云服务器获取各所述结构化日志。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据目标指令获取对应的所述结构化日志;其中,所述目标指令包括用于标识所述结构化日志身份信息的时间戳、日志体积和目标标签中的至少一种。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:所述预设格式中包括多个结构化字段;其中,所述结构化字段包括当前时间、网关设置的进程号、流水号、返回代码描述、请求次数、API路由、请求唯一标识、日志主机地址、API调用地址、APP的唯一标识、日志所属服务器IP、日志生成时间、请求响应状态中至少一种。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
读取各所述结构化日志的结构化字段,所述结构化字段包括网关设置的进程号和流水号;
根据所述网关设置的进程号获取各所述结构化日志的日志类型;
判断不同日志类型的所述结构化日志的所述流水号是否相同;
若相同,则将多个不同日志类型的所述结构化日志重组生成所述关联日志;
若不相同,则将所述结构化日志作为所述非关联日志。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将所述流水号相同的多个不同日志类型的所述结构化日志中的重复字段删除;
将删除重复字段后的所述结构化日志进行合并生成所述关联日志。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将删除重复字段后的所述结构化日志进行合并生成待富化日志;
在所述待富化日志中增加标志字段生成所述关联日志;其中,所述标志字段包括敏感标记字段和特邀标记字段中至少一种。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
对多个待处理日志进行结构化处理,以获取对应的结构化日志;
按照预设规则对各所述结构化日志进行重组生成关联日志和非关联日志;
根据具有关键字段的预设模板动态匹配所述关联日志和所述非关联日志以获取目标日志数据,其中,所述目标日志数据包括所述关键字段。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
按照预设格式对各所述待处理日志进行结构化转换处理,生成所述结构化日志;
通过日志采集工具syslog-ng获取各所述结构化日志。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将获取到的所述结构化日志存储至云服务器;
从所述云服务器获取各所述结构化日志。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据目标指令获取对应的所述结构化日志;其中,所述目标指令包括用于标识所述结构化日志身份信息的时间戳、日志体积和目标标签中的至少一种。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:所述预设格式中包括多个结构化字段;其中,所述结构化字段包括当前时间、网关设置的进程号、流水号、返回代码描述、请求次数、API路由、请求唯一标识、日志主机地址、API调用地址、APP的唯一标识、日志所属服务器IP、日志生成时间、请求响应状态中至少一种。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
读取各所述结构化日志的结构化字段,所述结构化字段包括网关设置的进程号和流水号;
根据所述网关设置的进程号获取各所述结构化日志的日志类型;
判断不同日志类型的所述结构化日志的所述流水号是否相同;
若相同,则将多个不同日志类型的所述结构化日志重组生成所述关联日志;
若不相同,则将所述结构化日志作为所述非关联日志。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将所述流水号相同的多个不同日志类型的所述结构化日志中的重复字段删除;
将删除重复字段后的所述结构化日志进行合并生成所述关联日志。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将删除重复字段后的所述结构化日志进行合并生成待富化日志;
在所述待富化日志中增加标志字段生成所述关联日志;其中,所述标志字段包括敏感标记字段和特邀标记字段中至少一种。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种日志数据处理方法,其特征在于,包括:
对多个待处理日志进行结构化处理,以获取对应的结构化日志;
按照预设规则对各所述结构化日志进行重组生成关联日志和非关联日志;
根据具有关键字段的预设模板动态匹配所述关联日志和所述非关联日志以获取目标日志数据,其中,所述目标日志数据包括所述关键字段。
2.根据权利要求1所述的方法,其特征在于,所述对多个待处理日志进行结构化处理,以获取对应的结构化日志,包括:
按照预设格式对各所述待处理日志进行结构化转换处理,生成所述结构化日志;
通过日志采集工具syslog-ng获取各所述结构化日志。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将获取到的所述结构化日志存储至云服务器;
从所述云服务器获取各所述结构化日志。
4.根据权利要求3所述的方法,其特征在于,所述从所述云服务器获取各所述结构化日志包括:
根据目标指令获取对应的所述结构化日志;其中,所述目标指令包括用于标识所述结构化日志身份信息的时间戳、日志体积和目标标签中的至少一种。
5.根据权利要求2所述的方法,其特征在于,所述预设格式中包括多个结构化字段;其中,所述结构化字段包括当前时间、网关设置的进程号、流水号、返回代码描述、请求次数、API路由、请求唯一标识、日志主机地址、API调用地址、APP的唯一标识、日志所属服务器IP、日志生成时间、请求响应状态中至少一种。
6.根据权利要求3所述的方法,其特征在于,所述待处理日志的日志类型包括服务网关日志、应用服务日志和计费服务日志中至少一种;所述按照预设规则对各所述结构化日志进行重组生成关联日志和非关联日志包括:
读取各所述结构化日志的结构化字段,所述结构化字段包括网关设置的进程号和流水号;
根据所述网关设置的进程号获取各所述结构化日志的日志类型;
判断不同日志类型的所述结构化日志的所述流水号是否相同;
若相同,则将多个不同日志类型的所述结构化日志重组生成所述关联日志;
若不相同,则将所述结构化日志作为所述非关联日志。
7.根据权利要求6所述的方法,其特征在于,所述将多个不同日志类型的所述结构化日志重组生成所述关联日志包括:
将所述流水号相同的多个不同日志类型的所述结构化日志中的重复字段删除;
将删除重复字段后的所述结构化日志进行合并生成所述关联日志。
8.根据权利要求7所述的方法,其特征在于,所述将删除重复字段后的所述结构化日志进行合并生成所述关联日志包括:
将删除重复字段后的所述结构化日志进行合并生成待富化日志;
在所述待富化日志中增加标志字段生成所述关联日志;其中,所述标志字段包括敏感标记字段和特邀标记字段中至少一种。
9.一种日志数据处理装置,其特征在于,所述装置包括:
日志处理模块,用于对多个待处理日志进行结构化处理,以获取对应的结构化日志;
日志重组模块,用于按照预设规则对各所述结构化日志进行重组生成关联日志和非关联日志;
日志匹配模块,用于根据具有关键字段的预设模板动态匹配所述关联日志和所述非关联日志以获取目标日志数据,其中,所述目标日志数据包括所述关键字段。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211683655.4A CN115858322A (zh) | 2022-12-27 | 2022-12-27 | 日志数据处理方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211683655.4A CN115858322A (zh) | 2022-12-27 | 2022-12-27 | 日志数据处理方法、装置和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115858322A true CN115858322A (zh) | 2023-03-28 |
Family
ID=85655065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211683655.4A Pending CN115858322A (zh) | 2022-12-27 | 2022-12-27 | 日志数据处理方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115858322A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117667906A (zh) * | 2023-08-29 | 2024-03-08 | 浪潮智慧科技有限公司 | 一种原始结构化数据智能处理方法、设备及存储介质 |
CN118689857A (zh) * | 2024-08-23 | 2024-09-24 | 中国人民解放军海军大连舰艇学院 | 一种包含大量已知重复字段的格式化数据采集方法及装置 |
-
2022
- 2022-12-27 CN CN202211683655.4A patent/CN115858322A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117667906A (zh) * | 2023-08-29 | 2024-03-08 | 浪潮智慧科技有限公司 | 一种原始结构化数据智能处理方法、设备及存储介质 |
CN118689857A (zh) * | 2024-08-23 | 2024-09-24 | 中国人民解放军海军大连舰艇学院 | 一种包含大量已知重复字段的格式化数据采集方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115858322A (zh) | 日志数据处理方法、装置和计算机设备 | |
CN110781230A (zh) | 一种数据接入方法、装置及设备 | |
Elagib et al. | Big data analysis solutions using MapReduce framework | |
US20150120697A1 (en) | System and method for analysis of a database proxy | |
CN112035471A (zh) | 一种事务处理方法及计算机设备 | |
CN113051303A (zh) | 业务数据处理方法、装置、电子设备以及存储介质 | |
CN110609924A (zh) | 基于图数据的全量关系计算方法、装置、设备及存储介质 | |
CN112860412A (zh) | 业务数据处理方法、装置、电子设备及存储介质 | |
CN116910820A (zh) | 数据报表处理方法、装置、计算机设备以及存储介质 | |
CN115858471A (zh) | 业务数据变更记录方法、装置、计算机设备及介质 | |
CN109063201B (zh) | 一种基于混合存储方案的impala在线交互式查询方法 | |
Chen et al. | Electronic evidence service research in cloud computing environment | |
CN112364007B (zh) | 基于数据库的海量数据交换方法、装置、设备和存储介质 | |
CN117708117A (zh) | 批量数据处理方法、装置、电子装置和存储介质 | |
CN111367966B (zh) | 对数据进行多维度统计的方法、装置和集群系统 | |
CN116069991A (zh) | 服务器数据获取方法、装置、计算机设备和存储介质 | |
CN117407156A (zh) | 目标数据提取方法、装置、计算机设备和存储介质 | |
CN116955350A (zh) | 基于区块链的数据处理方法、装置、设备、介质及产品 | |
CN117170844A (zh) | 分布式锁的离线传播方法、装置、计算机设备及存储介质 | |
CN117216171A (zh) | 基于kimball维度建模的数据仓库及数据处理方法 | |
CN115630196A (zh) | 数据查询方法、装置、计算机设备、存储介质和程序产品 | |
CN117082076A (zh) | 批量消息处理方法、装置、计算机设备和存储介质 | |
CN118152504A (zh) | 非结构化数据的索引方法、装置、设备、介质和程序产品 | |
CN117076567A (zh) | 数据同步方法、装置、计算机设备和存储介质 | |
CN116028448A (zh) | 电子文件的识别码确定方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |