CN108614860A - 一种律师信息处理方法和系统 - Google Patents
一种律师信息处理方法和系统 Download PDFInfo
- Publication number
- CN108614860A CN108614860A CN201810259365.4A CN201810259365A CN108614860A CN 108614860 A CN108614860 A CN 108614860A CN 201810259365 A CN201810259365 A CN 201810259365A CN 108614860 A CN108614860 A CN 108614860A
- Authority
- CN
- China
- Prior art keywords
- information
- text
- lawyer
- processing
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title abstract description 7
- 238000003672 processing method Methods 0.000 title abstract description 6
- 238000004458 analytical method Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims description 73
- 238000012545 processing Methods 0.000 claims description 25
- 238000001914 filtration Methods 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000007635 classification algorithm Methods 0.000 claims description 6
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 65
- 238000000605 extraction Methods 0.000 description 35
- 238000011156 evaluation Methods 0.000 description 24
- 230000009193 crawling Effects 0.000 description 9
- 239000003795 chemical substances by application Substances 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000011068 loading method Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000000306 component Substances 0.000 description 2
- 239000008358 core component Substances 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000002904 solvent Substances 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Technology Law (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种律师信息处理方法和系统,特别是一种针对案情描述的文本信息分析和处理方法及系统,包括:对文本预处理以获取特征单词和词组;根据获取的特征单词和词组对文本中存在的问句和非问句分类;根据获取的各文本信息得到文本类别和关键词。
Description
技术领域
本发明涉及一种律师信息处理方法及系统,特别是针对用户案情的律师推荐方法和系统。
背景技术
随着法制化国家建设的不断推进,越来越多的法律案件文书都公布在中国裁判文书网上,使得个人和各类团体组织越来越重视使用法律武器来保障自身的权益。然而由于法律法规的规范性和严密性,非法律专业人士很难真正应用法律法规来维护自己的权利,因而希望能够通过法律从业人员,特别是最佳律师团队或个人提供专业的法律服务,从而真正实现使用法律维护和保障自身的合法权利。
为了更好地为需要寻求法律服务的用户提供具有针对性的服务,应当依据实际案情和用户需求选择适任的律师,即根据用户的案情描述查找匹配的律师并向用户推荐。现有的一般律师匹配推荐系统的设计大体流程为:针对用户提出的案情进行分析与处理,得到这一案情的所属类别以及其关键词,结合律师事务所的每位律师的相关信息,向用户推荐适合的律师。
然而,现有的律师推荐系统所依据的律师信息较为单一,无法全面反映出律师所擅长的法律领域、实务综合能力以及服务评价等用户关心且对代理案件起到重要影响的信息,导致无法有效地为用户推荐最为适合的律师,从而影响案件的结果,降低用户的满意度甚至造成不必要的损失。
因此,有必要对现有的律师推荐系统进行改进,更加综合地评价每一位候选律师,并通过有效的匹配推荐策略,为用户推荐最为适合的律师。
发明内容
针对现有的律师推荐系统的不足,本发明提出一种律师信息处理方法和系统,并进一步提供一种律师推荐方法和系统。
具体的,所述方法涉及一种根据案情匹配律师的方法,包括根据所述案情获取案件分类和关键词;获取裁判文书并分类,根据每一分类的裁判文书提取预设所需获取的信息并进而获取对应的第一律师信息;获取第二律师信息,所述第二律师信息可以是律师注册信息、律师问答信息和/或律师评价信息;根据第一律师信息和第二律师信息获取第三律师信息,所述第三律师信息可以是律师综合评价信息;根据所述第三律师信息、所述案件分类和/或所述关键词匹配相应的律师。
进一步的,所述根据所述案情获取案件分类和关键词包括对文本进行预处理,获取特征单词和/或词组;根据所述特征单词和/或词组,对所述文本中的非问句和/或问句进行分类;获取所述文本信息的类别,其中,所述文本为案情描述和/或与案情相关的问题,所述文本信息的类别为案情类别。
进一步的,获取裁判文书信息还包括建立所述裁判文书的全文索引;对所述裁判文书分类;根据所述裁判文书的类型,预设所需获取的信息;通过基于规则的方法提取所述预设的所需获取的信息。
进一步的,所述方法还涉及一种律师推荐方法,包括获取候选律师集合;获取用户-律师信息,所述用户律师信息包括:用户偏好信息、律师偏好信息、用户评分、用户间相似度信息和/或律师间相似度信息;选择律师推荐算法;根据所述用户-律师信息以及所述律师推荐算法,获得推荐的律师或者推荐的律师列表;其中,所述获取候选律师集合包括根据案件类别和律师信息,获取候选律师集合,所述律师信息包括与律师相关联的裁判文书中所包含的信息、律师注册信息和/或律师问答信息。
进一步的,上述方法还包括与之相对应的系统。
综上所述,本发明的方法和系统首先针对用户提出的案情进行分析与处理,得到这一案情的所属类别以及其关键词,然后对于需要匹配的律师板块,先从中国裁判文书网上获取以往案件的详细信息并进行文书分类,进而针对每个类别的文书集进行信息抽取,最后结合每位律师的综合信息设计相应的推荐算法,针对用户给出的案情推荐适合的律师,有效地保障了用户的合法权益,提高了用户的满意度。
附图说明
图1 本发明一实施例所述的律师匹配方法;
图2 本发明另一实施例所述的获取案件分类和关键词的方法;
图3 本发明另一实施例所述的问题预处理的方法;
图4 本发明另一实施例所述的获取裁判文书及相关律师评价的方法;
图5 本发明另一实施例所述的爬取网络裁判文书的方法;
图6 本发明另一实施例所述的基于模板的网页信息抽取的方法;
图7 本发明另一实施例所述的基于规则的判决书的信息抽取方法;
图8 本发明另一实施例所述的判决书信息抽取算法流程;
图9 本发明另一实施例所述的律师推荐评价逻辑的基本概念拓扑图;
图10 本发明另一实施例所述的基于律师匹配方法的律师匹配系统;
图11 本发明另一实施例所述的问题预处理模块框图;
图12 本发明另一实施例所述的网络爬虫模块框图;
图13 本发明另一实施例所述的裁判文书信息抽取模块框图。
具体实施方式
为使所属领域的技术人员能够更好地理解本发明的技术方案,以下结合随说明书所附的说明书附图,对本发明的技术方案进行完整的描述。显然,以下具体实施方式仅仅只是本发明的部分实施方式,所属领域的技术人员在理解以下实施方式的基础上不付出创造性劳动所获得的其它实施方式或其组合,均属于本发明的技术构思和保护范围。
如图1所示,本发明的一实施例提供一种律师匹配方法,用于根据案情匹配律师,包括以下步骤:
S1. 根据所述案情获取案件分类和关键词。
根据所述案情获取案件分类和关键词的步骤主要涉及对案情的分析与处理,其中,案情分析是指对用户输入的案情描述或者相应的问句文本进行问题理解。由于在实务中用户输入的案件信息多为较简短的文本,因而对用户输入的文本分析主要为短文本分析或者问句分析。同时,案情文本的分析是服务于为用户匹配所需的律师,可以在基于知识库的问答系统上采用较为简单的问答系统,对用户的输入进行理解,完成对问句的语义理解,将问句从模糊的自然语言转化成清晰的逻辑语言,使问句得到预期地处理,其中,问题分析主要包括为问题预处理、问题分类、问题扩展。
其中,根据所述案情获取案件分类和关键词的步骤包括如图2所示的步骤:
S101. 问题预处理。
问题预处理是指在对问题进行语义分析和分类之前进行的包括中文分词、命名实体识别、词性标注、停用词过滤等步骤,旨在对用户输入信息预处理,从而获取具有一定信息量的简洁且符合规范的候选特征词组,其中,所述特征词组是指能够反映文本自身特征的词组,特征词组通常用于表示文本的基本单位。
更具体的,图3示出了问题预处理的具体方法步骤,所述的问题预处理的步骤包括:
S1011. 中文分词。
中文分词主要为了将文本分离成词组,可以根据实际应用需要选择分词算法,也可以选择使用常用的中文分词工具,例如的中文分词和词性标注工具有Stanford 汉语分词工具、中科院的ICTCLAS、哈工大的LIP和jieba分词。
S1012. 命名实体识别。
命名实体识别主要目的是识别出待处理文本中的实体类、时间类和数字类等。
S1013. 词性的识别和标注。
词性的识别对去除停用词和检索结果都至关重要,根据词性,可以去除文本中的语气词,助词等无意义词汇,同时对问句的焦点和核心成分进行标记和提取。词性标注中的词性主要是指:形容词、副词、连词、动词、量词和代词等。
S1014. 停用词过滤。
停用词过滤主要指的是筛选掉对疑问信息的表达贡献不大或影响律师匹配的信息,如“的”、“么”、“了”、“请问”、“劳驾”以及“谢谢”等,其中,需要滤除的词句可以根据预设的停用词表进行筛选过滤。
S1015. 特征提取。
提取特征词组。
继续参考图2,根据所述案情获取案件分类和关键词的步骤还包括:
S102. 问题分类
问题分类是指对自然语言描述的问题进行分类,充分搜集与问题相关联的信息,以提高后续环节处理的准确率。问题分类的主要目的就是根据用户的问题描述给问题类型贴上标签,以便于信息检索和律师匹配。问题分类是文本分类的一种特殊形式,问题分类的研究方法一般是基于文本分类的思想,两者的不同在于,问题是一种短文本形式,问题中含有的信息比较少,没有上下文环境,造成了问题分类的困难性,因此问题分类需要对句子做更深层次的分析,例如句法分析,语义分析等。问题分类能够有效的减少候选律师的搜索空间,提高系统返回正确匹配律师的准确率。具体而言,在本实施例中,问题分类主要是指对用户所描述的案件进行分类,以便根据案件类型确定律师候选集再通过推荐算法进行推荐。
问题分类与文本分类类似,都是将特征向量映射到类型函数上进行分类,可简单表示为f: A→B。其中,A表示待分类问题集形成的特征向量,由特征词组、词性等构成;B表示分类体系的类型集合,由采用的分类体系决定。A与B之间的映射规则则是通过不同的分类方法来设定的,而分类方法则主要体现在分类算法模型。其中,适用的分类算法模型包括:
(1)支持向量机模型
支持向量机模型的基本原理为通过已选择的非线性映射将输入的向量x映射到一个高维向量空间,在该空间寻找一个最优切分两类数据的超平面,使两类模式向量分类间隔最大,以保证经验风险以及分类器的结构风险最小。这个超平面可以表示为分类函数f(x) =wTx + b,其中,x为训练样本集的特征向量,w为权重向量,b为偏移量。支持向量机构造的是二值分类器,对于多类模式识别需要建立多个二值分类器,其处理结果依赖于掌握的模式样本集的构造,对大规模训练样本实施起来较为困难,解决多分类问题时时间开销大,适合小样本学习。
(2)贝叶斯分类模型
贝叶斯模型的分类原理是通过类别的先验概率和特征项分布,利用贝叶斯公式计算出该对象属于某一类的后验概率,选择具有最大后验概率的类作为文本类别。贝叶斯分类模型由一种数学概率运算演化而来,其特点为算法简单,能够处理大规模和多类别的样本,但是对缺失数据不敏感,处理分类问题较为高效但分类精度较低,而且无法满足特征的独立性。
(3)K-最邻近模型
K最近邻(k-Nearest Neighbor,KNN)算法是一种惰性学习算法,具体而言,如果一个样本在特征空间中的k个最相似,即特征空间中最邻近的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别,虽然从原理上也依赖于极限定理,但在类别决策时只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本,因而更加适合类域的交叉或重叠较多的待分样本集。但是,由于一个类的样本容量很大且数据不平衡而其他样本容量很小,有可能导致输入新样本时样本中K 个最邻近中大容量样本不是最接近目标样本,同时,KNN算法的计算量较大,对每一个分类文本都要计算其到全部已知样本的距离才能求得K最邻近点。因此,KNN算法多与其它算法结合处理分类问题。
(4)最大熵模型
最大熵模型(ME)的原理是对一个随即事件的概率分布进行预测应当满足全部已知条件,对未知的情况不做任何主观假设。这种情况下概率分布最均匀,预测风险最小,概率分布的信息熵最大,能够在自然语言处理上取得了良好的效果。
继续参考图1,所述的律师匹配方法还包括步骤:
S2. 获取裁判文书,对获取的裁判文书进行分类,针对每一分类的裁判文书提取预先设定的所需的信息,并根据所述信息得到第一律师评价。
图4示出了步骤S2的具体方法流程,包括:
S201. 通过网络爬虫爬取网络上的裁判文书。
对于裁判文书的获取,可以从互联网上,例如中国裁判文书网和/或各地法院网站获取大量的裁判文书文档。由于这些裁判文书数据每日更新且更新数量巨大,因而不可能通过人工的方式有效获取,因而需要借助网络爬虫实现有效快速地获取数据量巨大的裁判文书。
网络爬虫又称网络蜘蛛,主要作用是遍历互联网上的网页资源,从中找到所需的资源,然后存储到本地库中以便后续研究,是搜索引擎重要组成部分。爬虫程序由最初先给定一个或者多个初始的网页URL,然后从这些给定的URL出发,获取这些网页上的信息,同时将网页上的URL保存到URL队列中,最终,当程序到达运行结束的条件是,停止程序。目前,常见的网页搜索策略有基于图论中的算法,具体而言有:深度优先、广度优先、最佳优先等。
具体而言,参见图5,爬取网络裁判文书的具体方法包括以下几个步骤:
S2011. 基于初始URL,从网页解析出各个分类的初始URL;
S2012. 解析每个初始URL,找到下一级目录URL并存储,重复上述过程,直到达到最后一级的URL;
S2013. 解析最后一级URL,得到裁判文书列表的URL;
S2014. 从该列表中解析出每一个裁判文书的URL,然后将解析出的URL存储到爬虫队列中;
在另一实施例中,解析并存储URL至爬虫队列的步骤还包括:
S20141. URL去重。
在爬取裁判文书的过程中,可能会出现重复的URL,判断重复URL的方式包括基于内存存储的方式以及基于磁盘的缓存方式。对于在爬取过程中出现的重复URL,需要采用布隆过滤器进行URL去重。
S2015. 解析裁判文书中对应的URL,抽取并存储裁判文书的信息。
经过网络爬虫爬取裁判文书信息之后,需要利用基于模板的网页信息抽取裁判文书的信息。由于互联网上的资源大多以HTML网页的形式存在,而HTML网页是由文本以及HTML标签构成,对于从此类由文本和标签构成的网页中提取所需要的信息,可以采用静态模板的方法抽取。另外,如果涉及到对不同结构的网页进行爬取时,例如对各地法院网站进行信息爬取时,需要采用多线程的方式,为每个不同的网页设置不同的静态模板。
图6示出了基于模板的网页信息抽取的方法步骤,包括:
S20151. 观察不同的网页结构,查找所需的关联特征。
通过总结规律,找到每个要提取内容的唯一上界和唯一下界,然后将标识、识别唯一上界和唯一下界的方法保存到不同的XML文档,方便后续程序的可扩展性。
S20152. 将预先保存的静态模板文件加载到内存中,利用程序进行解析,匹配出所提取的信息。
S20153. 对网页中存在于同一行的信息进行格式化处理,得到规范的格式化信息。
S20154. 去除提取信息中的HTML标签,检查提取到的信息的编码格式,如果所述编码格式不包含Unicode格式的编码,则跳转至步骤S20156。
去除提取信息中的HTML标签,可以有效减少这些没有实质价值的标签对于文本分析结果的影响。
S20155. 如果存在Unicode编码,则读取所述Unicode编码,然后使用相应的字符转换函数查找这些编码所对应的汉字,完成信息的转换。
S20156. 将提取的信息存储到本地,用以后续的分析和处理或者相关内容的查询。
继续参考图4,在通过网络爬虫获取并提取裁判文书信息之后,步骤S2还进一步包括:
S202. 建立裁判文书的全文索引。
建立裁判文书的全文索引包括建立索引和利用索引搜索两部分:
(1)建立索引:依次包括建立文本集合、对文档进行分词、对单元词组进行语言相关处理以及利用分词结果建立索引。
(2)利用索引搜索:依次包括解析查询语句、利用索引进行搜索、基于查询语句的结果及查询语句排序得到文档,以及返回查询的结果。
S203. 对裁判文书进行分类。
裁判文书分类实质上是短文本分类,其采用的分类算法有很多,包括KNN、SVM、朴素贝叶斯、决策树以及词图模型等。
S204. 抽取裁判文书中预先设定的所需的信息。
从裁判文书中爬取的判决书本地案例库数量巨大,对其每个领域的相关案例的信息进行抽取是非常有必要的,通过对这些本地判决书的信息抽取,可以得到相关的法律活动参与者信息,比如:案件的审判法院、原被告的身份、以及委托或指派律师在整个案件中的表现和重要性等。
正确有效的从裁判文书文本中抽取所需信息,需要用到相关的信息抽取技术。信息抽取技术是指从结构化、半结构化、以及非结构化文本中抽取出特定的事实,其中,信息抽取技术一般包括基于规则的方法和基于机器学习的方法。
基于具体的法律领域的痛,裁判文书中的判决书又分为三种类型:民事判决书、刑事判决书和行政判决书,不同类型的判决书的书写规范有很大的不同,需要提取的信息也会有所不同,但都包含案件的基本信息、法律角色信息、案件详情、审判结果等内容。所以,对于判决书中法律信息的抽取适于采用基于规则的信息抽取,从需要抽取的信息、信息在文档中的位置、信息出现的关键词等方面构造抽取规则。
图7为抽取裁判文书中预先设定的所需的信息的步骤中基于规则的判决书的信息抽取方法,具体包括:
S2041. 读取网路爬虫爬取后的判决书文本。
S2042. 根据判决书的分类类型,选择相应的提取规则。
S2043. 加载规则文档,对判决书分块。
S2044. 根据分块结果,对不同的分块中匹配需要提取的信息。
S2045. 对抽取的结果进行修正,去除错误的匹配信息,得到提取结果。
由于三种不同类型的判决书所需提取的信息内容不同,其相应的提取规则也随之发生变化,因而在步骤S2042中,应当首先预设不同类型的判决书所需提取的信息。表1-表3列出了三种不同类型的判决书所需提取的信息。
表1 民事判决书需要提取的信息
名称 | 属性 |
Name | 律师姓名 |
Office | 律师所在事务所 |
Plainordenf | 原告律师或被告律师 |
Winorlose | 胜诉或败诉 |
Proidentify | 代理人身份 |
Pronumber | 代理人数量 |
Ratio | 请求赔偿金额与判决赔偿金额比值 |
Type | 一审案件、二审案件或再审案件 |
表2 刑事判决书需要抽取的信息
名称 | 属性 |
Name | 律师姓名 |
Office | 律师所在事务所 |
Winorlose | 胜诉或败诉 |
Agentidentify | 代理人身份 |
Agentnumber | 代理人数量 |
Economy | 是否经济类犯罪 |
Designzted | 是否指定辩护人 |
Term | 刑期 |
Notguilty | 是否进行无罪辩护 |
Commutation | 是否减刑 |
Money | 涉案金额 |
表3 行政判决书需要抽取的信息
名称 | 属性 |
Name | 律师姓名 |
Office | 律师所在事务所 |
Plainordenf | 原告律师或被告律师 |
Winorlose | 胜诉或败诉 |
Proidentify | 代理人身份 |
Pronumber | 代理人数量 |
Money | 涉案金额 |
在明确了要提取的内容之后,针对不同类型的判决书设计不同的提取规则来从裁判文书中进行抽取信息。基于裁判文书的格式规范以及书写方式,采用如图8所示的信息抽取算法:篇章分析→句级抽取→词级抽取→标注。其中,
篇章分析:基于裁决书的结构和内容分布,利用模式识别、正则表达式等方法将裁决书划分为不同的部分,并结合自然语言处理的语法分析,进一步识别和命名实体。具体而言,根据裁判文书的结构特征,即要抽取的信息分别存在于裁判文书的位置,将裁判文书分成几个大板块,例如:裁判文书基本信息、法律角色、判决结果等板块。
句级抽取:针对篇章分析所得到的每一板块内的句子,将其内容进行细分。同样利用模式匹配的方法,对每句话的内容信息进行抽取,可以分别得到原告、被告、代理人、代理人身份、代理人数量、涉案金额以及判决结果等粗信息。
词级抽取:结合篇章分析、句级抽取的结果,抽取实体、属性以及实体关系的具体信息。
标注:基于抽取的结果,对实体进行标注,得到相应的信息。
在本发明的另一实施例中,还涉及对上述抽取信息的进一步处理。
在信息抽取的步骤中基于规则抽取的算法,从判决书中获取了律师对应案件的相关信息。由于上述信息属于文本信息,为了更好地利用抽取的信息有效匹配律师,还可以将所述的文本信息数值化,再根据每个信息对律师排名分数的重要性预设不同的权重,最终得到律师的总分数。在一些实施例中,可以根据判决书类型的不同,对具体的信息预设不同的数值规则,再根据不同的数值规则进行数值化,将文本信息转化成可计算的数值。例如可以参考表4所列出的行政诉讼判决书预设数值,根据实际需要设置民事、刑事诉讼判决书,但不限于此。
表4 行政诉讼判决书信息预设数值表
属性 | 预设数值 |
胜诉或败诉 | 胜诉:100;败诉:0;其它:50 |
被代理人身份 | 世界500强企业:100;知名企业:80;名人:60;普通人/企业:40 |
被代理人数量 | 大于10人:100;5-10人:60;2-5人:40;个人:10 |
涉案金额比值 | (判决赔偿金额/请求赔偿金额)X100 |
案件的诉讼阶段 | 一审:50;二审:80;再审:100 |
另外,在数值化过程中,将文本信息转换成数值表示之后,还需要根据这些数值分别对其相应类别赋予不同的权值,再进行加权求和。其具体算法可表示为:
(1)
其中,M为该律师在该领域的所有判决书数量;N为需要求和的信息;δjk为第k个文档中第j个属性的权重;ωjk为第k个文档中第j个属性的值。由此,可以得到每位律师在每个专业领域的分数,作为后续推荐算法的律师排名信息的来源。
继续参考图1,本申请的实施例在获取裁判文书并抽取所需信息后,还可以包括步骤S3:
S3. 预设律师推荐算法,根据所述律师推荐算法得到推荐律师集合或列表,完成律师匹配。
律师推荐算法是依据相关联的参考信息,评价符合预期的律师,其中,符合预期的律师构成了候选律师集合。在一些实施例中,符合预期的律师可以是指定范围的律师,也可以是符合某一预设条件的律师。所述相关联的参考信息包括步骤S1得到的用户案件类型和关键词,步骤S2从裁判文书中获取得到的律师综合信息。在一些实施例中,评价律师的参考信息还包括律师的注册信息、律师注册时的问答信息、律师/用户/管辖法院的地理位置信息以及用户评价信息等。在另一些实施例中,为了便于计算处理,可以将上述律师推荐算法的参考信息参照上文的数值化方法数值化,然后根据预设的阈值,将数值化后的分值超过阈值的律师作为候选律师推荐给用户。显然,也可以采用非数值化的其它评价形式表述上述各类参考信息。
在一实施例中,例如可以根据从裁判文书中抽取的信息,分别获取律师在民事、刑事、行政三个法律专业领域的分值,然后获取律师注册信息分值(例如,律师擅长民事诉讼,则评价为80分;不擅长行政诉讼,则评价为0分)、注册问答分值,再结合地理位置分值(例如律师、用户以及管辖法院均在同一地区则评价为100分)、用户评价分值以及其它类型的适用于对律师作出评价的信息分值,综合得出律师在民事、刑事以及行政领域的最终得分值,然后根据用户案情获取的案件分类信息,判断律师在案件所对应的领域的得分是否超过阈值,如果超过,则作为候选律师推荐。图9示出了律师推荐评价逻辑的基本概念拓扑图。
在一些实施例中,例如地理位置信息等特殊评价信息可以不参与综合评分,而作为特殊评价标准。例如,可以通过限制律师所在区域或者与用户/管辖法院的距离排除地理上不符合期望的律师。
在一些实施例中,推荐的候选律师可以按照得分或者评价的等级顺序,以列表的形式推荐给用户,并在列表中注明简单的律师信息和推荐原因。
在本申请的实施例中,律师推荐算法的基本算法原理包括但不限于以下几种:
(1)协同过滤算法
协同过滤推荐算法基本概念是可通过找到与该用户偏好相似的其他用户,将所述其他用户感兴趣的内容推荐给该用户。协同过滤算法的子算法包括:
基于记忆的算法:采用用户--律师(user-attorney)评分数据,为目标用户估计某一特定律师的评分或产生一个推荐列表。其主要优点在于算法简单,且容易理解和实现。但在实际问题中,用户律师评分矩阵通常非常稀疏,导致该类算法面临包括冷启动问题(新用户、新律师问题)等问题。此外,该算法采用的相似度计算方法也存在不足,例如,如果两个用户共同评分的律师都很少,则难以准确的计算出两者的真实相似度。
基于模型的算法:基于模型的推荐方法采用统计学、机器学习、数据挖掘等方法,根据用户历史数据为用户建立模型,并据此产生合理的推荐,可以在一定程度上解决了用户--律师评分矩阵的稀疏性问题。
(2)基于内容的推荐算法
基于内容的推荐算法主要要解决的问题是如何充分、合理地利用律师和用户自身具有的各类特征,其包括以下几种具体算法:
基于文本内容的推荐:该方法根据历史信息(用户的浏览记录等)构造用户偏好文本信息,计算推荐律师和用户偏好文本之间的相似度,将最相似的律师推荐给用户。用户偏好信息和推荐律师信息都采用关键字表示特征,进而采用TF-IDF方法为各个特征确定权重。
基于潜在语义的推荐(Semantic Analysis,LSA):采用文档-词矩阵奇异值分界的方法将文档和词与映射到同一个低维的潜在语义空间,在此空间中可灵活计算文档之间、词之间或文档与词之间的相似度。用户提出的查询请求也被映射到相同的语义空间中,计算各文档与用户查询之间的相似度,返回最相关的文档。LSA主要用于解决关键词的同义、多义现象导致的计算不准确的问题,其不足在于采用奇异值分解得到的潜在语义空间的物理语义不明确,矩阵的奇异值分解计算量大。
自适应推荐算法:由于用户的需求会随着时间动态变化,因此需要及时更新偏好文档,才能始终为用户推荐准确的内容。自适应过滤方法将与用户偏好文档相似度高的文档推荐给用户,同时使用相似度高的文档项目更新用户偏好文档各分量的权重,以此方式实现用户偏好文档向需求的动态调整。通过阈值法可提高推荐系统的运行效率,只有当文档项目与用户偏好文档相似度高于设定的阈值时才对用户偏好文档进行更新。同时,还可以进一步将用户需求兴趣分为长期和短期两种类型,预设短期兴趣更能反映用户当前关注的内容,从而赋予短期兴趣关键字较大的权重,进一步提高对用户兴趣建模的准确性。
(3)基于图结构的推荐算法
用户--律师矩阵可建模为一个二部图(bipartite graph),其中节点表示用户和律师,边表示用户对律师的评价。基于图结构的推荐算法通过分析二部图结构给出合理的推荐。
(4)混合推荐算法
混合推荐算法用于解决协同过滤推荐算法、基于内容的推荐算法以及基于图结构的推荐算法固有的问题。例如,基于内容的推荐算法可以解决协同过滤推荐算法存在的“新律师”问题,而协同过滤推荐算法则可以降低基于内容的推荐算法面临的“过拟合”问题。混合推荐算法可以独立运用协同过滤、基于内容和基于图结构的推荐算法,将上述几种推荐算法所产生的推荐结果进行融合,再将融合后的结果推荐给用户,该算法的混合策略主要包括:
1. 两种方法单独进行,将结果进行融合;
2. 基于内容融合到协同过滤算法中;
3. 协同过滤融合到基于内容的算法中;
以及,
4. 将各算法混合至同一框架下而产生新的推荐算法。
参见图10,根据步骤S1-S3的律师匹配方法,本发明在另一实施例中还提供一种与该方法相对应的律师匹配系统(1),包括:文本信息分析处理子系统(100)、裁判文书信息处理子系统(200)以及律师推荐子系统(300)。
文本信息分析处理子系统(100)用于对案情的分析与处理,其中,案情分析是指对用户输入的案情描述或者相应的问句文本进行问题理解,其包括:问题预处理模块(101)和问题分类模块(102)。
参见图11,问题预处理模块(101)用于对用户输入信息预处理,从而获取具有一定信息量的简洁且符合规范的候选特征词组。其中,问题预处理模块(101)还包括:
中文分词模块(1011),用于将文本分离成词组;
命名实体识别模块(1012),用于识别待处理文本中的实体类、时间类和数字类等;
词性识别标注模块(1013),用于去除文本中的语气词,助词等无意义词汇,同时对问句的焦点和核心成分进行标记和提取;
停用词过滤模块(1014),用于筛选掉对疑问信息的表达贡献不大或影响律师匹配的信息,其中,需要滤除的词句可以根据预设的停用词表进行筛选过滤;
特征提取模块(1015),用于提取特征词组。
问题分类模块(102)用于对自然语言描述的问题进行分类,充分搜集与问题相关联的信息,以提高后续环节处理的准确率。问题分类的主要目的就是根据用户的问题描述给问题类型贴上标签,以便于信息检索和律师匹配。其中,其中,适用的分类算法模型包括:支持向量机模型、贝叶斯分类模型、K-最邻近模型以及最大熵模型等。
继续参考图10,裁判文书信息处理子系统(200)用于获取裁判文书,对获取的裁判文书进行分类,针对每一分类的裁判文书提取预先设定的所需的信息,并根据所述信息得到第一律师评价,其包括:网络爬虫模块(201)、全文索引模块(202)、裁判文书分类模块(203)以及裁判文书信息抽取模块(204)。
参见图12,网络爬虫模块(201)用于解析并获取裁判文书的URL,根据获取的裁判文书的URL抽取并存储裁判文书中所需的信息。网络爬虫模块(201)还包括:
URL解析子模块(2011),用于首先基于初始URL解析各分类初始URL,再根据各分类初始URL逐级解析并最终获取裁判文书列表的URL,最后从列表中解析得到每一裁判文书的URL;
URL存储子模块(2012),用于将解析出的URL存储到爬虫队列中;
信息抽取存储子模块(2013),解析裁判文书中对应的URL,基于模板的方式获取裁判文书信息并将其存储。
在一些实施例中,URL解析子模块(2011)还包括URL去重子模块(2014),用于对爬取裁判文书的过程中可能出现的重复URL进行去重操作,其中,判断重复URL可以基于内存存储的方式或者基于磁盘的缓存方式,对URL去重可以采用布隆过滤器。
继续参考图10,全文索引模块(202)用于建立裁判文书的全文索引,包括依次建立文本集合、对文档进行分词、对单元词组进行语言相关处理以及利用分词结果建立索引(建立索引);依次解析查询语句、利用索引进行搜索、基于查询语句的结果及查询语句排序得到文档,以及返回查询的结果(利用索引搜索)。
裁判文书分类模块(203),采用KNN、SVM、朴素贝叶斯、决策树以及词图模型等算法对裁判文书分类。
裁判文书信息抽取模块(204),用于对每个领域的相关案例的信息进行抽取,通过对这些判决书的信息抽取,可以得到相关的法律活动参与者信息。参考图13,裁判文书信息抽取模块(204)还包括:读取子模块(2041)、规则设置子模块(2042)、文书分块子模块(2043)以及信息抽取子模块(2044)。其中,
读取子模块(2041)用于读取网路爬虫爬取后的判决书文本;
规则设置子模块(2042)用于根据判决书的分类类型,选择相应的提取规则;
文书分块子模块(2043)用于加载规则文档,对判决书分块;
信息抽取子模块(2044)根据分块结果,对不同的分块中匹配需要提取的信息,以及对抽取的结果进行修正,去除错误的匹配信息,得到提取结果。
在一些实施例中,裁判文书信息抽取模块(204)还可以包括待提取信息列表(2045),用于存储预设的不同类型的判决书所需提取的信息。
继续参考图10,律师推荐子模块(300)用于预设律师推荐算法,根据所述律师推荐算法得到推荐律师集合或列表,完成律师匹配。更具体的,律师推荐子模块(300)可以包括预设算法子模块(301)、关联信息子模块(302)、评价子模块(303)以及匹配推荐子模块(304)。其中,
预设算法子模块(301),用于预设律师推荐算法,所述预设的律师推荐算法包括协同过滤算法、基于内容的推荐算法、基于图结构的推荐算法以及混合推荐算法;
关联信息子模块(302),用于获取可评价律师的关联信息,包括但不限于用户案件类型和关键词、从裁判文书中获取得到的律师综合信息、律师/用户/管辖法院的地理位置信息以及用户评价信息等;
评价子模块(303),用于根据各项关联信息对律师作出单项和综合评价,其中,评价方式可以是数值化评价,也可以采用其它适用的评价方式;
匹配推荐子模块(304),用于设置评价阈值,将相应领域评价超过所述评价阈值的律师作为候选律师推荐给用户。其中,推荐的方式可以是按照得分或者评价的等级顺序,以列表的形式推荐给用户,并在列表中注明简单的律师信息和推荐原因。
可以预期的,所属领域的普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
显然,以上所述的内容仅为本发明的优选实施例,并不用于限制本发明,对于所属领域的普通技术人员而言,本发明可以有各种更改和变化。凡在本发明的基本构思范围之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种文本信息分析和处理的方法,其特征在于,所述方法包括:对所述文本进行预处理,获取特征单词和/或词组;根据所述特征单词和/或词组,对所述文本中的非问句和/或问句进行分类;获取所述文本信息的类别和关键词。
2.根据权利要求1所述的文本信息分析和处理的方法,其特征在于,所述预处理包括:中文分词,将文本分离为词组;命名实体识别,识别所述文本中的预设类别信息;词性识别和标注,根据词性标记和提取焦点和核心词组;停用词过滤,滤除无实际意义和不影响律师匹配的词组;特征提取,提取特征词组。
3.根据权利要求2所述的文本信息分析和处理方法,其特征在于,所述预设类别包括:实体类、时间类和数字类。
4.根据权利要求2所述的文本信息分析和处理方法,其特征在于,所述词性包括:形容词、副词、连词、动词、量词和代词。
5.根据权利要求2所述的文本信息分析和处理方法,其特征在于,所述停用词过滤包括:根据预设的停用词表进行筛选过滤。
6.根据权利要求1所述的文本信息分析和处理方法,其特征在于,所述根据所述特征单词和/或词组,对所述文本中的非问句和/或问句进行分类包括:所述分类的方法为将所述特征单词和/或词组映射到类型函数上进行分类。
7.根据权利要求6所述的文本信息分析和处理方法,其特征在于,所述分类方法还包括:选择分类算法模型对所述文本中的非问句和/或问句进行分类;所述分类算法模型包括支持向量机模型、贝叶斯分类模型、K-最邻近模型和/或最大熵模型。
8.根据权利要求1-7任一项所述的文本信息分析和处理方法,其特征在于,所述文本为案情文本。
9.根据权利要求8所述的文本信息分析和处理方法,其特征在于,所述文本信息的类别包括案件类别,所述案件类别包括民事案件、刑事案件和行政案件。
10.根据权利要求8所述的文本信息分析和处理方法,其特征在于,所述文本为短文本和/或问句。
11.一种文本信息分析和处理系统,其特征在于,用于实现权利要求1-10中任一所述文本信息分析和处理的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810259365.4A CN108614860A (zh) | 2018-03-27 | 2018-03-27 | 一种律师信息处理方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810259365.4A CN108614860A (zh) | 2018-03-27 | 2018-03-27 | 一种律师信息处理方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108614860A true CN108614860A (zh) | 2018-10-02 |
Family
ID=63659010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810259365.4A Pending CN108614860A (zh) | 2018-03-27 | 2018-03-27 | 一种律师信息处理方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108614860A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956450A (zh) * | 2019-11-29 | 2020-04-03 | 北京明略软件系统有限公司 | 一种自助立案系统、方法及装置 |
CN112580338A (zh) * | 2019-09-27 | 2021-03-30 | 北京国双科技有限公司 | 确定争议焦点的方法和装置、存储介质和设备 |
WO2021164226A1 (zh) * | 2020-02-20 | 2021-08-26 | 平安科技(深圳)有限公司 | 法律案件知识图谱查询方法、装置、设备及存储介质 |
US11869015B1 (en) | 2022-12-09 | 2024-01-09 | Northern Trust Corporation | Computing technologies for benchmarking |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8527523B1 (en) * | 2009-04-22 | 2013-09-03 | Equivio Ltd. | System for enhancing expert-based computerized analysis of a set of digital documents and methods useful in conjunction therewith |
CN105893606A (zh) * | 2016-04-25 | 2016-08-24 | 深圳市永兴元科技有限公司 | 文本分类方法和装置 |
CN106021288A (zh) * | 2016-04-27 | 2016-10-12 | 南京慕测信息科技有限公司 | 一种基于自然语言分析的随堂测试答案快速自动分类方法 |
CN106294319A (zh) * | 2016-08-04 | 2017-01-04 | 武汉数为科技有限公司 | 一种串并案识别方法 |
CN107608999A (zh) * | 2017-07-17 | 2018-01-19 | 南京邮电大学 | 一种适用于自动问答系统的问句分类方法 |
-
2018
- 2018-03-27 CN CN201810259365.4A patent/CN108614860A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8527523B1 (en) * | 2009-04-22 | 2013-09-03 | Equivio Ltd. | System for enhancing expert-based computerized analysis of a set of digital documents and methods useful in conjunction therewith |
CN105893606A (zh) * | 2016-04-25 | 2016-08-24 | 深圳市永兴元科技有限公司 | 文本分类方法和装置 |
CN106021288A (zh) * | 2016-04-27 | 2016-10-12 | 南京慕测信息科技有限公司 | 一种基于自然语言分析的随堂测试答案快速自动分类方法 |
CN106294319A (zh) * | 2016-08-04 | 2017-01-04 | 武汉数为科技有限公司 | 一种串并案识别方法 |
CN107608999A (zh) * | 2017-07-17 | 2018-01-19 | 南京邮电大学 | 一种适用于自动问答系统的问句分类方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580338A (zh) * | 2019-09-27 | 2021-03-30 | 北京国双科技有限公司 | 确定争议焦点的方法和装置、存储介质和设备 |
CN110956450A (zh) * | 2019-11-29 | 2020-04-03 | 北京明略软件系统有限公司 | 一种自助立案系统、方法及装置 |
WO2021164226A1 (zh) * | 2020-02-20 | 2021-08-26 | 平安科技(深圳)有限公司 | 法律案件知识图谱查询方法、装置、设备及存储介质 |
US11869015B1 (en) | 2022-12-09 | 2024-01-09 | Northern Trust Corporation | Computing technologies for benchmarking |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595525B (zh) | 一种律师信息处理方法和系统 | |
CN108681548B (zh) | 一种律师信息处理方法和系统 | |
CN109271477B (zh) | 一种借助互联网构建分类语料库的方法及系统 | |
CN110334178B (zh) | 数据检索方法、装置、设备及可读存储介质 | |
US8108204B2 (en) | Text categorization using external knowledge | |
Tran et al. | Encoded summarization: summarizing documents into continuous vector space for legal case retrieval | |
US20160140187A1 (en) | System and method for answering natural language question | |
CN110888991B (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN108681977B (zh) | 一种律师信息处理方法和系统 | |
CN104820629A (zh) | 一种智能的舆情突发事件应急处理系统及方法 | |
WO2011035425A1 (en) | Methods and systems for extracting keyphrases from natural text for search engine indexing | |
CN114706972B (zh) | 一种基于多句压缩的无监督科技情报摘要自动生成方法 | |
CN108614860A (zh) | 一种律师信息处理方法和系统 | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
Tondulkar et al. | Get me the best: predicting best answerers in community question answering sites | |
Kanapala et al. | Passage-based text summarization for legal information retrieval | |
CN106960003A (zh) | 抄袭检测中的基于机器学习的源检索的查询生成方法 | |
JP5315726B2 (ja) | 情報提供方法、情報提供装置、および情報提供プログラム | |
KR102434880B1 (ko) | 멀티미디어 플랫폼 기반 지식 공유 서비스 제공 시스템 | |
KR102454261B1 (ko) | 사용자 정보 기반 협업 파트너 추천 시스템 및 그 방법 | |
Kumar et al. | Generating personalized summaries using publicly available web documents | |
Segura-Tinoco et al. | An Argument-based Search Framework: Implementation on a Spanish Corpus in the E-Participation Domain. | |
Sajjan et al. | A detail survey on automatic text summarization | |
CN112948544A (zh) | 一种基于深度学习与质量影响的图书检索方法 | |
Kalaivani et al. | Feature selection based on genetic algorithm and hybrid model for sentiment polarity classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181002 |
|
RJ01 | Rejection of invention patent application after publication |