CN117668499B - 一种基于机器学习的海洋公益诉讼线索研判方法、系统、设备及介质 - Google Patents
一种基于机器学习的海洋公益诉讼线索研判方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN117668499B CN117668499B CN202410132893.9A CN202410132893A CN117668499B CN 117668499 B CN117668499 B CN 117668499B CN 202410132893 A CN202410132893 A CN 202410132893A CN 117668499 B CN117668499 B CN 117668499B
- Authority
- CN
- China
- Prior art keywords
- important
- elements
- clues
- classification
- litigation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000010801 machine learning Methods 0.000 title claims abstract description 37
- 238000011160 research Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 28
- 238000013145 classification model Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 239000000463 material Substances 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 10
- 238000007405 data analysis Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于机器学习的海洋公益诉讼线索研判方法,包括以下步骤:获取目标海洋公益诉讼的内容数据和与其相关联的多组输入线索;基于内容数据和各组输入线索识别目标海洋公益诉讼包含的相关元素放入元素集中,每一相关元素均与目标海洋公益诉讼的时间相对应;在元素集中根据优先级规则将预先设置的一组权重值分配给各相关元素;基于权重的排序从元素集中识别若干重要元素;基于一组标签分析各重要元素以生成一组分类特征;基于机器学习算法以及分类特征分类各重要元素,并对每一重要元素的输入线索相关性进行研判。
Description
技术领域
本发明涉及一种基于机器学习的海洋公益诉讼线索研判方法,属于诉讼数据分析技术领域。
背景技术
海洋公益诉讼作为强化海洋自然资源与生态环境治理的重要措施,在维护海洋自然资源与生态环境权益方面发挥重要作用,有助于通过适当途径实现维护海洋环境公共利益的功能价值。
但是海洋公益诉讼的线索来源广泛,对于相关人员,如何快速收集线索,并研判线索对案件的相关性是急需解决的问题。
发明内容
为了解决上述现有技术中存在的问题,本发明提出了一种基于机器学习的海洋公益诉讼线索研判方法。
本发明的技术方案如下:
一方面,本发明提出一种基于机器学习的海洋公益诉讼线索研判方法,包括以下步骤:
获取目标海洋公益诉讼的内容数据和与其相关联的多组输入线索;
基于内容数据和各组输入线索识别目标海洋公益诉讼包含的相关元素,并放入元素集中,每一相关元素均与目标海洋公益诉讼的时间相对应;
在元素集中根据优先级规则将预先设置的一组权重值分配给各相关元素;
基于权重的排序从元素集中识别若干重要元素;
基于一组标签分析各重要元素以生成一组分类特征;基于机器学习算法以及分类特征分类各重要元素,并对每一重要元素的输入线索相关性进行研判。
作为优选实施方式,所述输入线索包括目标海洋公益诉讼的元数据、线索来源信息、关键描述字段以及线索日期;
所述相关元素包括物证元素、书证元素、证人证言元素、相关人员供述元素、鉴定元素中的至少一个。
作为优选实施方式,所述基于一组标签分析各重要元素以生成一组分类特征的方法具体为:
获取重要元素的若干关键描述字段,将各关键描述字段与标签组中的标签进行匹配,将匹配到的标签及对应的关键描述字段进行组合,并将标签与关键描述字段进行词向量转化,形成特征词向量作为分类特征。
作为优选实施方式,所述基于机器学习算法以及分类特征分类各重要元素,并对每一重要元素的输入线索相关性进行研判的方法具体为:
建立基于神经网络的分类模型;
收集或生成元素相关描述字段及对应的描述标签的词向量形式,作为原始数据,基于原始数据进行对分类模型进行预训练;
将各重要元素的特征词向量输入至完成预训练后的分类模型中,得到各重要元素的分类;
基于各重要元素的分类结果;使用机器学习算法将线索中的关键描述字段与元素的类别进行初步匹配,基于初步匹配的结果,确定第一相关性权重;
基于各重要元素的关键描述字段及线索中的关键描述字段确定每一重要元素与每一线索之间的重叠程度,基于重叠程度确定第二相关性权重;
通过第一相关性权重和第二相关性权重计算每一重要元素与输入线索的相关性。
另一方面,本发明还提出一种基于机器学习的海洋公益诉讼线索研判系统,包括:
数据获取模块,用于获取目标海洋公益诉讼的内容数据和与其相关联的多组输入线索;
元素识别模块,基于内容数据和各组输入线索识别目标海洋公益诉讼包含的相关元素,并放入元素集中,每一相关元素均与目标海洋公益诉讼的时间相对应;
重要元素识别模块,在元素集中根据优先级规则将预先设置的一组权重值分配给各相关元素;基于权重的排序从元素集中识别若干重要元素;
线索研判模块,基于一组标签分析各重要元素以生成一组分类特征;基于机器学习算法以及分类特征分类各重要元素,并对每一重要元素的输入线索相关性进行研判。
作为优选实施方式,所述输入线索包括目标海洋公益诉讼的元数据、线索来源信息、关键描述字段以及线索日期;
所述相关元素包括物证元素、书证元素、证人证言元素、相关人员供述元素、鉴定元素中的至少一个。
作为优选实施方式,所述基于一组标签分析各重要元素以生成一组分类特征的方法具体为:
获取重要元素的若干关键描述字段,将各关键描述字段与标签组中的标签进行匹配,将匹配到的标签及对应的关键描述字段进行组合,并将标签与关键描述字段进行词向量转化,形成特征词向量作为分类特征。
作为优选实施方式,所述基于机器学习算法以及分类特征分类各重要元素,并对每一重要元素的输入线索相关性进行研判的方法具体为:
建立基于神经网络的分类模型;
收集或生成元素相关描述字段及对应的描述标签的词向量形式,作为原始数据,基于原始数据进行对分类模型进行预训练;
将各重要元素的特征词向量输入至完成预训练后的分类模型中,得到各重要元素的分类;
基于各重要元素的分类结果;使用机器学习算法将线索中的关键描述字段与元素的类别进行初步匹配,基于初步匹配的结果,确定第一相关性权重;
基于各重要元素的关键描述字段及线索中的关键描述字段确定每一重要元素与每一线索之间的重叠程度,基于重叠程度确定第二相关性权重;
通过第一相关性权重和第二相关性权重计算每一重要元素与输入线索的相关性。
再一方面,本发明还提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明任一实施例所述的方法。
再一方面,本发明还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例所述的方法。
本发明具有如下有益效果:
本发明一种基于机器学习的海洋公益诉讼线索研判方法,根据目标诉讼内容和输入线索提取与公益诉讼相关的重要元素,基于机器学习算法对重要元素进行分类并对线索相关性进行研判,从而快速获取有效的线索,确保公益诉讼的针对性和有效性,并排除一些不相关或虚假的线索,从而确保公益诉讼的正确方向。
附图说明
图1为本发明实施例一的方法流程示意图;
图2为本发明实施例五的方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
实施例一:
参见图1,本实施例提供一种基于机器学习的海洋公益诉讼线索研判方法,包括以下步骤:
S100、获取目标海洋公益诉讼的内容数据和与其相关联的多组输入线索;
为了获取目标海洋公益诉讼的内容数据和与其相关联的多组输入线索,我们首先需要对目标海洋公益诉讼进行深入的研究和分析。我们需要了解该诉讼的背景、涉及的主题、涉及的利益相关者、涉及的法律问题等等。同时,我们还需要通过多种渠道收集与该诉讼相关的信息,例如新闻报道、社交媒体上的评论、相关研究报告等等。
通过对这些信息进行分析和整理,我们可以得到一些与目标海洋公益诉讼相关的输入线索。这些线索可能包括该诉讼的起因、涉及的主要问题、涉及的主要利益相关者、涉及的法律条款和判例等等。同时,我们还可以通过分析和整理这些线索,进一步推断出该诉讼的未来发展趋势、可能的结果等等。
在获取目标海洋公益诉讼的内容数据和与其相关联的多组输入线索之后,我们还需要进行数据清洗和整理,以确保数据的准确性和完整性。这可能需要对数据进行筛选、比对、验证等等。同时,我们还需要对数据进行分类和标注,以便后续的数据分析和处理。
通过以上步骤,我们可以获取到目标海洋公益诉讼的内容数据和与其相关联的多组输入线索,为后续的数据分析和处理提供了重要的基础。
S200、基于内容数据和各组输入线索识别目标海洋公益诉讼包含的相关元素,并放入元素集中,每一相关元素均与目标海洋公益诉讼的时间相对应;
在处理大量的内容数据后,我们能够识别出与目标海洋公益诉讼相关的元素,并将其一一对应到特定的时间线索中。这些元素集中在一起,为我们提供了详尽而全面的海洋公益诉讼信息。
通过深入分析和精细操作,我们可以将这些信息划分为不同的类别,以便于后续的处理和推理。这些类别可能包括但不限于诉讼的发起者、被告、涉及的法律法规、诉讼的背景和目的、诉讼过程中的关键事件以及诉讼的结果和影响等。
在识别和分类这些元素时,我们还会利用各种线索和证据,以确保所得到的结论是准确而可靠的。这些线索可能来自于各种不同的来源,如政府部门发布的公告、新闻报道、社交媒体上的言论、专家意见等。
S300、在元素集中根据优先级规则将预先设置的一组权重值分配给各相关元素,这一过程称为权重分配。这个分配是基于每个元素的特定属性或特征,以及它们的相对重要性和优先级。这种分配是通过一种算法或策略来实现的,这种算法或策略可以根据元素的特性来决定它们的权重值。
例如,假设我们有一个包含多个项目的元素集,我们希望根据每个项目的优先级来分配权重值。在这种情况下,我们可以根据项目的紧急程度、重要性、成本等因素来决定它们的权重值。对于紧急且重要的项目,我们可能会给予更高的权重值,而对于那些不太紧急或不太重要的项目,我们可能会给予较低的权重值。
S400、基于权重的排序从元素集中识别若干重要元素;基于权重的排序是一种数据分析方法,用于从元素集中识别出若干重要的元素。通过赋予每个元素一定的权重,并根据权重对元素进行排序,这种方法能够有效地帮助我们找出那些在集合中更具重要性的元素。权重可以是根据历史数据、专家意见、或者其他可用信息确定的,然后利用这些权重对元素进行排序。排序的顺序通常与权重的数值成正比,也就是说权重越大的元素在排序结果中越靠前。通过这种方式,我们可以快速有效地识别出那些具有较大权重的元素,也就是较为重要的元素。
S500、基于一组标签分析各重要元素以生成一组分类特征;基于机器学习算法以及分类特征分类各重要元素,并对每一重要元素的输入线索相关性进行研判。
作为本实施例的优选实施方式,所述输入的线索包含了目标海洋公益诉讼的详细元数据,包括案件的名称、编号、涉及的法律法规等。此外,线索来源信息也一并收录,例如提供线索的机构或个人名称,以及线索的提供方式。关键描述字段为该公益诉讼提供了关键的描述信息,可能涉及案件的起因、涉及的主要问题以及可能的影响。此外,线索日期则记录了线索的提交或接收日期,帮助使用者了解线索的新鲜程度和时效性。
所述相关元素包括物证元素、书证元素、证人证言元素、相关人员供述元素、鉴定元素中的至少一个,这些元素可以作为证据链中的重要环节,对于案件的破解有着至关重要的作用。物证元素可以包括指纹、DNA样本、物品的痕迹等;书证元素可以包括合同、文件、邮件等书面证据;证人证言元素可以包括目击者、知情人的陈述;相关人员供述元素可以包括可疑人员的陈述;鉴定元素可以包括指纹鉴定、DNA鉴定等。
作为本实施例的优选实施方式,所述基于一组标签分析各重要元素以生成一组分类特征的方法具体为:
获取重要元素的若干关键描述字段,这些关键描述字段能够精确实地描述元素的关键属性。将这些关键描述字段与标签组中的标签进行匹配,确保每个标签都与至少一个关键描述字段相匹配。将匹配到的标签及对应的关键描述字段进行组合,形成一个完整的特征向量。这个特征向量能够准确地反映元素的重要属性,并将标签与关键描述字段进行词向量转化,形成特征词向量作为分类特征。这些分类特征可以用于训练分类模型,对元素进行分类。这种方法能够提高分类的准确性和效率,为后续的任务提供可靠的分类结果。
作为本实施例的优选实施方式,所述基于机器学习算法以及分类特征分类各重要元素,并对每一重要元素的输入线索相关性进行研判的方法具体为:
建立基于神经网络的分类模型,该模型能够根据输入的数据自动学习并进行分类。首先需要收集或生成与元素相关的描述字段及对应的描述标签的词向量形式作为原始数据。这些数据可以是文本、图片、音频等多种形式。通过对这些数据进行预训练,使分类模型能够识别和理解各种形式的输入数据,并根据其特征进行分类。
将各重要元素的特征词向量输入至完成预训练后的分类模型中,得到各重要元素的分类。这一步骤中,分类模型会根据输入的特征词向量判断其所属的类别,并将结果输出。
基于各重要元素的分类结果,我们可以使用机器学习算法将线索中的关键描述字段与元素的类别进行初步匹配。通过比较线索中的描述字段与元素类别的相似度,初步确定第一相关性权重。这个权重可以表示线索与元素之间的关联程度。
基于各重要元素的关键描述字段及线索中的关键描述字段确定每一重要元素与每一线索之间的重叠程度。通过比较两个描述字段中的词汇、语义等相似度来计算重叠程度。基于重叠程度确定第二相关性权重。这个权重可以进一步量化元素与线索之间的关联程度。
通过第一相关性权重和第二相关性权重计算每一重要元素与输入线索的相关性。这个相关性可以作为元素与线索之间的匹配度,从而帮助用户快速找到与线索相关的关键元素。
实施例二:
本实施例提出一种基于机器学习的海洋公益诉讼线索研判系统,包括:
数据获取模块,用于获取目标海洋公益诉讼的内容数据和与其相关联的多组输入线索;该模块用于实现实施例一中步骤S100的功能,在此不再赘述;
元素识别模块,基于内容数据和各组输入线索识别目标海洋公益诉讼包含的相关元素,并放入元素集中,每一相关元素均与目标海洋公益诉讼的时间相对应;该模块用于实现实施例一中步骤S200的功能,在此不再赘述;
重要元素识别模块,在元素集中根据优先级规则将预先设置的一组权重值分配给各相关元素;基于权重的排序从元素集中识别若干重要元素;该模块用于实现实施例一中步骤S300和S400的功能,在此不再赘述;
线索研判模块,基于一组标签分析各重要元素以生成一组分类特征;基于机器学习算法以及分类特征分类各重要元素,并对每一重要元素的输入线索相关性进行研判;该模块用于实现实施例一中步骤S500的功能,在此不再赘述。
作为本实施例的优选实施方式,所述输入线索包括目标海洋公益诉讼的元数据、线索来源信息、关键描述字段以及线索日期;
所述相关元素包括物证元素、书证元素、证人证言元素、相关人员供述元素、鉴定元素中的至少一个。
作为本实施例的优选实施方式,所述基于一组标签分析各重要元素以生成一组分类特征的方法具体为:
获取重要元素的若干关键描述字段,将各关键描述字段与标签组中的标签进行匹配,将匹配到的标签及对应的关键描述字段进行组合,并将标签与关键描述字段进行词向量转化,形成特征词向量作为分类特征。
作为本实施例的优选实施方式,所述基于机器学习算法以及分类特征分类各重要元素,并对每一重要元素的输入线索相关性进行研判的方法具体为:
建立基于神经网络的分类模型;
收集或生成元素相关描述字段及对应的描述标签的词向量形式,作为原始数据,基于原始数据进行对分类模型进行预训练;
将各重要元素的特征词向量输入至完成预训练后的分类模型中,得到各重要元素的分类;
基于各重要元素的分类结果;使用机器学习算法将线索中的关键描述字段与元素的类别进行初步匹配,基于初步匹配的结果,确定第一相关性权重;
基于各重要元素的关键描述字段及线索中的关键描述字段确定每一重要元素与每一线索之间的重叠程度,基于重叠程度确定第二相关性权重;
通过第一相关性权重和第二相关性权重计算每一重要元素与输入线索的相关性。
实施例三:
本实施例提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明任一实施例所述的方法。
实施例四:
本实施例提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例所述的方法。
实施例五:
参见图2,本实施例提供一种基于机器学习的海洋公益诉讼线索研判方法,包括以下步骤:
A100、获取目标海洋公益诉讼的内容数据和与其相关联的多组输入线索;
为了获取目标海洋公益诉讼的内容数据和与其相关联的多组输入线索,我们首先需要对目标海洋公益诉讼进行深入的研究和分析。我们需要了解该诉讼的背景、涉及的主题、涉及的利益相关者、涉及的法律问题等等。同时,我们还需要通过多种渠道收集与该诉讼相关的信息,例如新闻报道、社交媒体上的评论、相关研究报告等等。
通过对这些信息进行分析和整理,我们可以得到一些与目标海洋公益诉讼相关的输入线索。这些线索可能包括该诉讼的起因、涉及的主要问题、涉及的主要利益相关者、涉及的法律条款和判例等等。同时,我们还可以通过分析和整理这些线索,进一步推断出该诉讼的未来发展趋势、可能的结果等等。
在获取目标海洋公益诉讼的内容数据和与其相关联的多组输入线索之后,我们还需要进行数据清洗和整理,以确保数据的准确性和完整性。这可能需要对数据进行筛选、比对、验证等等。同时,我们还需要对数据进行分类和标注,以便后续的数据分析和处理。
通过以上步骤,我们可以获取到目标海洋公益诉讼的内容数据和与其相关联的多组输入线索,为后续的数据分析和处理提供了重要的基础。
A200、利用机器学习和数据挖掘技术,分析案件相关数据,初步筛查潜在的违法线索。
A300、对线索五大特征根据特征重要性预先设置各特征比重,这一过程称为权重分配,基于机器学习算法以及NLP技术提取线索五大特征,针对线索五大特征对线索相关性进行研判,进一步确定非法占用海岸线线索。
A400、利用遥感影像和地理信息系统技术,对线索所涉及的海域进行图斑比对,进一步验证线索的准确性和可信度。具体方法为:
利用NLP技术处理线索信息内容,提取地点方位或经纬度信息。如果提取到地点方位,通过高德地图服务获取相应的经纬度信息,并将其转换为WGS84标准。经过计算获得瓦片图编号,再结合天地图服务,获取相对应的卫星遥感地图瓦片图。
首先,将图像转换为灰度图像,然后进行平滑处理和高斯模糊算法以降低噪声。接下来,计算图像在x轴和y轴上的Sobel梯度值,获取梯度幅值、平均值和标准差等指标,用于区分海洋和陆地。
使用Canny边缘检测算法和膨胀腐蚀操作增强海岸线变化的对比度。对结果进行二值化处理,并应用形态学处理来填充小的空洞、连接断开的边界等。
与其他年份的卫星遥感图像进行对比,找出具有一定差异的图像区域。使用这些区域进行算法处理和比较排序,最终选择出三个最优的区域。
A500、将线索所涉及的海域与相应的海域使用权信息进行匹配。通过海域使用权匹配,可以了解相关主体是否具备合法的海域使用权,从而评估其是否存在违法行为。
本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
本领域普通技术人员可以意识到,本文中公开的实施例中描述的各单元及算法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (6)
1.一种基于机器学习的海洋公益诉讼线索研判方法,其特征在于,包括以下步骤:
获取目标海洋公益诉讼的内容数据和与其相关联的多组输入线索;
基于内容数据和各组输入线索识别目标海洋公益诉讼包含的相关元素,并放入元素集中,每一相关元素均与目标海洋公益诉讼的时间相对应;
在元素集中根据优先级规则将预先设置的一组权重值分配给各相关元素;
基于权重的排序从元素集中识别若干重要元素;
基于一组标签分析各重要元素以生成一组分类特征;基于机器学习算法以及分类特征分类各重要元素,并对每一重要元素的输入线索相关性进行研判;
其中,所述基于一组标签分析各重要元素以生成一组分类特征的方法具体为:
获取重要元素的若干关键描述字段,将各关键描述字段与标签组中的标签进行匹配,将匹配到的标签及对应的关键描述字段进行组合,并将标签与关键描述字段进行词向量转化,形成特征词向量作为分类特征;
其中,所述基于机器学习算法以及分类特征分类各重要元素,并对每一重要元素的输入线索相关性进行研判的方法具体为:
建立基于神经网络的分类模型;
收集或生成元素相关描述字段及对应的描述标签的词向量形式,作为原始数据,基于原始数据对分类模型进行预训练;
将各重要元素的特征词向量输入至完成预训练后的分类模型中,得到各重要元素的分类;
基于各重要元素的分类结果;使用机器学习算法将线索中的关键描述字段与元素的类别进行初步匹配,具体为通过比较线索中的描述字段与元素类别的相似度,基于初步匹配的结果,确定第一相关性权重;
基于各重要元素的关键描述字段及线索中的关键描述字段确定每一重要元素与每一线索之间的重叠程度,具体为通过比较两个描述字段中的词汇、语义相似度来计算重叠程度,基于重叠程度确定第二相关性权重;
通过第一相关性权重和第二相关性权重计算每一重要元素与输入线索的相关性。
2.根据权利要求1所述的一种基于机器学习的海洋公益诉讼线索研判方法,其特征在于:
所述输入线索包括目标海洋公益诉讼的元数据、线索来源信息、关键描述字段以及线索日期;
所述相关元素包括物证元素、书证元素、证人证言元素、相关人员供述元素、鉴定元素中的至少一个。
3.一种基于机器学习的海洋公益诉讼线索研判系统,其特征在于,包括:
数据获取模块,用于获取目标海洋公益诉讼的内容数据和与其相关联的多组输入线索;
元素识别模块,基于内容数据和各组输入线索识别目标海洋公益诉讼包含的相关元素,并放入元素集中,每一相关元素均与目标海洋公益诉讼的时间相对应;
重要元素识别模块,在元素集中根据优先级规则将预先设置的一组权重值分配给各相关元素;基于权重的排序从元素集中识别若干重要元素;
线索研判模块,基于一组标签分析各重要元素以生成一组分类特征;基于机器学习算法以及分类特征分类各重要元素,并对每一重要元素的输入线索相关性进行研判;
其中,所述基于一组标签分析各重要元素以生成一组分类特征的方法具体为:
获取重要元素的若干关键描述字段,将各关键描述字段与标签组中的标签进行匹配,将匹配到的标签及对应的关键描述字段进行组合,并将标签与关键描述字段进行词向量转化,形成特征词向量作为分类特征;
其中,所述基于机器学习算法以及分类特征分类各重要元素,并对每一重要元素的输入线索相关性进行研判的方法具体为:
建立基于神经网络的分类模型;
收集或生成元素相关描述字段及对应的描述标签的词向量形式,作为原始数据,基于原始数据对分类模型进行预训练;
将各重要元素的特征词向量输入至完成预训练后的分类模型中,得到各重要元素的分类;
基于各重要元素的分类结果;使用机器学习算法将线索中的关键描述字段与元素的类别进行初步匹配,具体为通过比较线索中的描述字段与元素类别的相似度,基于初步匹配的结果,确定第一相关性权重;
基于各重要元素的关键描述字段及线索中的关键描述字段确定每一重要元素与每一线索之间的重叠程度,具体为通过比较两个描述字段中的词汇、语义相似度来计算重叠程度,基于重叠程度确定第二相关性权重;
通过第一相关性权重和第二相关性权重计算每一重要元素与输入线索的相关性。
4.根据权利要求3所述的一种基于机器学习的海洋公益诉讼线索研判系统,其特征在于:
所述输入线索包括目标海洋公益诉讼的元数据、线索来源信息、关键描述字段以及线索日期;
所述相关元素包括物证元素、书证元素、证人证言元素、相关人员供述元素、鉴定元素中的至少一个。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至2任一项所述的方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至2任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410132893.9A CN117668499B (zh) | 2024-01-31 | 2024-01-31 | 一种基于机器学习的海洋公益诉讼线索研判方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410132893.9A CN117668499B (zh) | 2024-01-31 | 2024-01-31 | 一种基于机器学习的海洋公益诉讼线索研判方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117668499A CN117668499A (zh) | 2024-03-08 |
CN117668499B true CN117668499B (zh) | 2024-05-14 |
Family
ID=90064514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410132893.9A Active CN117668499B (zh) | 2024-01-31 | 2024-01-31 | 一种基于机器学习的海洋公益诉讼线索研判方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117668499B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111104500A (zh) * | 2019-12-21 | 2020-05-05 | 江西省天轴通讯有限公司 | 一种线索匹配方法、系统、可读存储介质及计算机设备 |
CN111192680A (zh) * | 2019-12-25 | 2020-05-22 | 山东众阳健康科技集团有限公司 | 一种基于深度学习和集成分类的智能辅助诊断方法 |
CN111984408A (zh) * | 2020-08-14 | 2020-11-24 | 薛亮 | 基于大数据和边缘计算的数据协同处理方法及边缘云平台 |
CN112270633A (zh) * | 2020-10-26 | 2021-01-26 | 河南金明源信息技术有限公司 | 一种基于大数据驱动的公益诉讼线索研判系统和方法 |
CN112711650A (zh) * | 2019-10-24 | 2021-04-27 | 富驰律法(北京)科技有限公司 | 一种公益诉讼线索挖掘方法及系统 |
CN113220888A (zh) * | 2021-06-01 | 2021-08-06 | 上海交通大学 | 基于Ernie模型的案件线索要素抽取方法及系统 |
CN113361585A (zh) * | 2021-06-02 | 2021-09-07 | 浪潮软件科技有限公司 | 一种基于有监督学习算法优化筛选线索的方法 |
CN113795881A (zh) * | 2019-03-10 | 2021-12-14 | 卡多姆科技有限公司 | 使用线索的聚类的语音增强 |
CN114095274A (zh) * | 2021-12-10 | 2022-02-25 | 北京天融信网络安全技术有限公司 | 一种攻击研判方法及装置 |
-
2024
- 2024-01-31 CN CN202410132893.9A patent/CN117668499B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113795881A (zh) * | 2019-03-10 | 2021-12-14 | 卡多姆科技有限公司 | 使用线索的聚类的语音增强 |
CN112711650A (zh) * | 2019-10-24 | 2021-04-27 | 富驰律法(北京)科技有限公司 | 一种公益诉讼线索挖掘方法及系统 |
CN111104500A (zh) * | 2019-12-21 | 2020-05-05 | 江西省天轴通讯有限公司 | 一种线索匹配方法、系统、可读存储介质及计算机设备 |
CN111192680A (zh) * | 2019-12-25 | 2020-05-22 | 山东众阳健康科技集团有限公司 | 一种基于深度学习和集成分类的智能辅助诊断方法 |
CN111984408A (zh) * | 2020-08-14 | 2020-11-24 | 薛亮 | 基于大数据和边缘计算的数据协同处理方法及边缘云平台 |
CN112270633A (zh) * | 2020-10-26 | 2021-01-26 | 河南金明源信息技术有限公司 | 一种基于大数据驱动的公益诉讼线索研判系统和方法 |
CN113220888A (zh) * | 2021-06-01 | 2021-08-06 | 上海交通大学 | 基于Ernie模型的案件线索要素抽取方法及系统 |
CN113361585A (zh) * | 2021-06-02 | 2021-09-07 | 浪潮软件科技有限公司 | 一种基于有监督学习算法优化筛选线索的方法 |
CN114095274A (zh) * | 2021-12-10 | 2022-02-25 | 北京天融信网络安全技术有限公司 | 一种攻击研判方法及装置 |
Non-Patent Citations (1)
Title |
---|
人像智能检索在公交交通中的研究与应用;胡竹平;;软件产业与工程;20150910(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117668499A (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zohair et al. | Prediction of Student’s performance by modelling small dataset size | |
Lauría et al. | Mining academic data to improve college student retention: An open source perspective | |
CN110569356B (zh) | 基于智能面试交互系统的面试方法、装置和计算机设备 | |
CN113377936A (zh) | 智能问答方法、装置及设备 | |
CN117520503A (zh) | 基于llm模型的金融客服对话生成方法、装置、设备及介质 | |
CN114372532A (zh) | 标签标注质量的确定方法、装置、设备、介质及产品 | |
Pepe et al. | How do Hugging Face Models Document Datasets, Bias, and Licenses? An Empirical Study | |
CN115222443A (zh) | 客户群体划分方法、装置、设备及存储介质 | |
CN117668499B (zh) | 一种基于机器学习的海洋公益诉讼线索研判方法、系统、设备及介质 | |
CN114064893A (zh) | 一种异常数据审核方法、装置、设备及存储介质 | |
Mohamad et al. | Identifying security-related requirements in regulatory documents based on cross-project classification | |
Kyriazos et al. | Association of modern sexism with demographic and socioeconomic factors: a machine learning approach | |
Chaitra et al. | Bug triaging: right developer recommendation for bug resolution using data mining technique | |
CN112036312A (zh) | 质检场景识别方法、装置、计算机设备及可读存储介质 | |
CN111898528A (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN111581439A (zh) | 一种用于机器学习分析的大数据信息处理方法及系统 | |
Obaid et al. | Data-mining based novel neural-networks-hierarchical attention structures for obtaining an optimal efficiency | |
CN112506930B (zh) | 一种基于机器学习技术的数据洞察系统 | |
CN116362534A (zh) | 铁路领域在线客服内容违规和风险的应急管理方法及系统 | |
CN116402334A (zh) | 一种多模态数据合规分析与智能评估方法及装置 | |
CN114443835A (zh) | 一种基于多模型融合的分类方法及装置 | |
CN116092094A (zh) | 图像文本识别方法、装置、计算机可读介质及电子设备 | |
Ellis et al. | Categorization of technologies: Insights from the technology acceptance literature | |
Park et al. | Design of the required tasks of industrial security experts based on job openings | |
CN115080864B (zh) | 基于人工智能的产品推荐方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |