数据分析与知识发现  2017 , 1 (11): 46-52 https://doi.org/10.11925/infotech.2096-3467.2017.0442

研究论文

基于条件随机场的法言法语实体自动识别模型研究*

张琳1, 秦策2, 叶文豪1

1南京农业大学信息科学技术学院 南京 210095
2南京师范大学法学院 南京 210023

Automatic Recognition of Legal Language Entities Based on Conditional Random Fields

Zhang Lin1, Qin Ce2, Ye Wenhao1

1 College of Information Science and Technology, Nanjing Agricultural University, Nanjing 210095, China
2 School of Law, Nanjing Normal University, Nanjing 210023, China

中图分类号:  G350

通讯作者:  通讯作者: 张琳, ORCID: 0000-0003-2657-2675, E-mail: zhanglin@njau.edu.cn

收稿日期: 2017-05-19

修回日期:  2017-08-23

网络出版日期:  2017-11-25

版权声明:  2017 《数据分析与知识发现》编辑部 《数据分析与知识发现》编辑部

基金资助:  *本文系国家社会科学基金项目“转型期公众道德需求的司法应对研究”(项目编号: 13BFX006)的研究成果之一

展开

摘要

目的】法言法语实体的自动识别是实现裁判文书文本挖掘的重要的基础性工作。【方法】采用爬虫方法获取数据, 人工方式进行语料标注, 利用NLPIR加载法律领域词典对语料进行分词, 结合法言法语的内部和外部特征构建基于条件随机场的特征模板, 自动识别语料中的法言法语。【结果】融入法言法语内部和外部特征的条件随机场模型, 自动识别法言法语的实验效果良好, 模型的调和平均值达到90%以上。【局限】法言法语实体自动识别模型在领域的扩展上有一定的局限性。【结论】基于条件随机场对法言法语实体实现自动抽取是可行的。

关键词: 裁判文书 ; 条件随机场模型 ; 法言法语实体

Abstract

[Objective] This paper aims to automatically identify the Legal Language Entities, which lays foundations for text mining of the Judgements. [Methods] First, we used a crawler to retrieve the needed data and manually marked the corpus. Then, we applied the NLPIR to load the legal field dictionary for corpus segmentation. Finally, we constructed the feature template based on the conditional random field and automatically recognize the Legal Language Entities. [Results] The conditional random field model with internal and external features of Legal Language could automatically identify the legal words, and its harmonic mean was over 90%. [Limitations] The proposed model has some limitations in field expansion. [Conclusions] It is feasible to automatically extract Legal Language Entities with the help of conditional random fields.

Keywords: Judgements ; Conditional Random Field Model ; Legal Language Entity

0

PDF (460KB) 元数据 多维度评价 相关文章 收藏文章

本文引用格式 导出 EndNote Ris Bibtex

张琳, 秦策, 叶文豪. 基于条件随机场的法言法语实体自动识别模型研究*[J]. 数据分析与知识发现, 2017, 1(11): 46-52 https://doi.org/10.11925/infotech.2096-3467.2017.0442

Zhang Lin, Qin Ce, Ye Wenhao. Automatic Recognition of Legal Language Entities Based on Conditional Random Fields[J]. Data Analysis and Knowledge Discovery, 2017, 1(11): 46-52 https://doi.org/10.11925/infotech.2096-3467.2017.0442

1 引 言

裁判文书是一种独特的文本形式, 它是人民法院行使审判权对具体案件的实体或程序问题做出的具有法律效力的权威性书面结论。2014年1月1日, 最高人民法院设立中国裁判文书网[1], 开始大规模公布各级人民法院生效的裁判文书。目前, 该网站公布的裁判文书已逾2 000万篇, 访问量突破20亿次, 成为全球最大的裁判文书公开平台。为了充分挖掘和运用裁判文书大数据中的海量信息, 服务于司法实践, 对文本进行分词、词性标注、命名实体识别是重要的基础性工作。裁判文书的文本处理有其特殊性, 它是一种非结构化的文本, 领域性很强, 其中既有程式化的法律专业用语, 即法言法语, 也有日常的普通用语, 二者的混杂带来了一定的复杂性。

从现有文献来看, 有关中文法律文本挖掘的研究主要涉及案件文本的分类和案件信息的抽取, 如熊小梅等利用LSA 的二次降维法对法律案情文本进行自动分类[2]; 程春惠等改进了多变量贝努利模型, 根据案件文本的内容自动判别犯罪类别[3]; 佘贵清等针对刑事判决书, 构建了基于刑事审判本体的案例自动抽取与标注模型[4]。近年, 随着裁判文书正式、大规模上网, 围绕裁判文书的研究正逐步展开, 目前的研究主要是从法学的角度进行的, 有代表性的如: 张忠民利用环境裁判文书样本对生态破坏的司法救济问题进行探讨[5]; 马超等对裁判文书网特定时段内公布的所有文书进行全景式的扫描与分析, 通过翔实的数据展现了裁判文书公开的现状与态势[6]。上述研究为本文研究裁判文书提供了宏观的思路, 也为法言法语实体的标注提供了依据。

国内外学界对于命名实体识别问题有着广泛的研究: 命名实体识别是自然语言处理技术不可或缺的部分, 早在1991年Rau提出启发式算法和手工编写规则相结合的方式识别公司名称[7]。随着消息理解会议(Message Understanding Conference, MUC)的多次召开, 命名实体识别的研究得到蓬勃发展: 1995年召开的MUC-6会议引入命名实体(Named Entity)测评任务[8]; Bikel等提出了基于隐马尔科夫模型(Hidden Markov Model, HMM)的命名实体识别方法, 在MUC-6上文本测试的准确率和召回率都高于94%[9]; 中文命名实体的研究起步稍晚, 1998年, 中国台湾地区的学者Chen等[10]和新加坡的学者Yu等[11]参加了MUC-7中文命名实体识别任务的测评。在MUC-7之后, 推动命名实体识别研究的有NIST组织的自动内容抽取(Automatic Content Extraction, ACE)测评会议、多语种实体任务评价(Multilingual Entity Task Evaluation, MET)会议、文本理解会议(Document Understanding Conference, DUC)等国际学术会议[12]

国内中文命名实体识别研究开始于20世纪90年代, 孙茂松等基于规则法对中文人名进行识别[13]; 俞鸿魁等利用层叠HMM提出中文命名实体识别的方法[14]; 唐旭日等通过多特征的条件随机场(Conditional Random Field, CRF)模板, 实现了对简单和复杂的中文地名命名实体的识别[15]; 鞠久朋等以CRF与规则相结合的方法识别地理空间命名实体[16]; 叶枫等标注小规模的电子病历语料, 利用CRF进行多次对照实验, 提出中文病历命名实体识别的特征模板设计规则[17]; 王春雨等采用CRF模型, 通过调整特征模板, 识别农业命名实体并取得良好的效果[18]; 隋明爽等建立多特征的CRF模型, 探讨化学物质和疾病命名实体的识别方法[19]; 王东波等通过统计食品安全事件的内部和外部特征, 基于条件随机场模型实现了食品安全实体的抽取[20]

命名实体的自动识别方法有基于规则的, 有基于机器学习的, 其中以机器学习的CRF为主流, CRF对中文的人名、地名和各种专业命名实体的识别均取得了较好的效果。这些研究为本文法言法语实体的识别提供了借鉴之处。

前述针对裁判文书的研究主要从法学的角度, 对裁判文书文本信息的挖掘尚不充分; 而在命名实体的研究中关于法言法语命名实体自动识别的相关成果还比较薄弱。本文尝试建立法律专业词汇表, 利用人工标注的语料, 构建基于CRF的复杂特征模板, 以弥补裁判文书和命名实体研究中的不足。

2 裁判文书语料简介和特征统计

2.1 裁判文书语料简介

中国裁判文书网上公开的裁判文书有多种类型, 包括刑事、民事、行政、赔偿和执行文书等。为了更为针对性和具体化, 本文将法言法语实体识别的实验语料限定为刑事裁判文书。

利用爬虫技术采集裁判文书网上的部分刑事裁判文书, 经过清除重复数据、空白数据、无文书内容数据的处理, 存储5万多份有效的裁判文书到数据库中。为使语料能覆盖更多的罪名、更具代表性, 本文从数据库中尽可能挑选出不同罪名、不同法院的裁判文书, 最终确立了近80万字的刑事裁判文书作为实验语料, 并采用人工方式对语料中的法言法语进行标注。

CRF模型要达到较高的调和平均值, 模型所学习的语料具有重要的影响。完成法言法语标注后, 采用两种方式对语料进行分词处理:

(1) 利用NLPIR分词系统(①http://ictclas.nlpir.org/.)加载人工构建的罪名词表进行分词, 形成使用罪名词典分词语料;

(2) 仅使用NLPIR分词系统分词, 形成未使用罪名词典分词语料。

语料中的法言法语实体主要指程式化的法律专业用语, 包括多种类型, 如罪名、刑罚、法律原则、法律概念等, 针对上述语料, 首先统计实体的内部特征和外部特征; 然后对语料进行预处理, 构造实体自动识别的CRF特征模板, 将语料按照9︰1的比例切分成训练集和测试集; 最后进行实体识别模型的训练和测试, 从中找出调和平均值最高的模型。

2.2 法言法语实体内部和外部特征统计

在人工标注法言法语实体的基础上, 为保证CRF自动识别模型较高的准确率和召回率, 本文对实体的内部特征和外部特征进行统计, 并在模型构建中使用统计结果作为模型参数[20]

(1) 实体的内部特征

①词语长度特征

为了解实体的长度特征, 以利于确定CRF标记集的数目和确定序列跨度长度, 对实体的长度和分布数量进行统计, 其中长度介于2到21之间的结果如表1所示。

表1   法言法语实体长度分布

   

实体
长度
数量(个)实体
长度
数量(个)实体
长度
数量(个)实体
长度
数量(个)
239 80371 21012931725
323 01784441359184
426 555930914411919
56 488103161526201
61 67111221625214

新窗口打开

人工标注的法言法语实体长度处于2-32之间, 其中长度为2的实体占总数的39.7%, 长度为3的占23.0%, 长度为4的占26.5%。由此可见, 法言法语实体长度主要在2-4之间, 该长度的实体数量占总数量的89.2%, 这些是实体自动识别需要重点识别的对象, 比如“供述”、“归案”、“缓刑”、“被告人”、“有期徒刑”等, 长度在5以上的主要由罪名构成, 如“妨害公务罪”、“煽动暴力抗拒法律实施罪”等。

②高频实体分布特征

统计高频实体的分布特征, 既有助于了解高频实体内容, 也有助于统计实体的左右特征知识。在整个语料中共有法言法语实体1 675个, 总计出现100 165次, 出现频次高于240的共有95个实体, 频次最高为“被告人”, 出现11 874次, 出现240次的有“投案”、“刑事责任”等实体。95个高频实体出现的频次占所有法言法语实体出现总频次的71%, 实现这些高频实体的识别是自动识别模型应具有的基本性能。

(2) 实体的外部特征

实体的外部特征指的是实体左右边界的特征知识。如果句子的序列字表示成“SLm, …, SLi, …, SL1, [N1, …, Nk], SR1, …, SRj, …, SRn”, 那么SL和SR分别为实体的左右边界范围, 其中SL1和SR1为实体的一元左右边界词, “SL2, SL1”和“SR1, SR2”为实体的二元左右边界词。

本文对语料中实体的左右边界词分别进行统计, 统计的边界特征知识可以应用于特征模板的构建之中。左边界词的计算如公式(1)[21]所示。

$p(w)=\frac{f(w)}{\sum\nolimits_{w}{f(w)}}$ (1)

其中, $f(w)$表示w在边界SL上出现的频次, $\sum\nolimits_{w}{f(w)}$表示w在边界SL和实体上出现的频次。同理可以求出右边界词。根据公式(1), 结合语料, 给定p的阈值为0.8, 当w计算的p大于0.8, w即成为边界词。本文统计的左右边界词长分布频率如表2所示。可知, 左边界词和右边界词词长为2的居多, 词长特征可以融入特征模板的构建之中。

表2   实体左右边界词长分布

   

左边界词分布右边界词分布
词长度频率词长度频率
117.57%129.82%
281.52%263.28%
30.68%36.07%
40.22%40.83%

新窗口打开

3 实体自动识别模型构建及特征选择

3.1 CRF模型

CRF模型由Lafferty等[22]于2001年提出, 是一种无向图模型, 实体自动识别方法常用的是简单的线性链结构模型(Linear-chain CRFs)。如果设$x=$ $({{x}_{1}},{{x}_{2}},\cdots ,{{x}_{n}})$表示为被观察的输入数据序列, $y=$ $({{y}_{1}},{{y}_{2}},\cdots ,{{y}_{n}})$表示状态序列, 那么给定输入序列x 的条件下, 状态序列y的联合条件概率为:

$p(y|x,\lambda )\propto \exp (\sum\nolimits_{j}{{{\lambda }_{j}}}{{t}_{j}}({{y}_{i-1}},{{y}_{i}},x,i)+\sum\nolimits_{k}{{{\mu }_{k}}}{{s}_{k}}({{y}_{i}},x,i))$ (2)

其中, ${{t}_{j}}({{y}_{i-1}},{{y}_{i}},x,i)$是被观察序列的标记位置i-1与i之间的转移特征函数, ${{s}_{k}}({{y}_{i,}}x,i)$是观察序列i位置的状态特征函数, 两个特征函数统一为: ${{f}_{j}}({{y}_{i-1}},{{y}_{i}},x,i)$, 那么公式(2)可以表达为如公式(3)和公式(4)[22 ]所示。

$p(y|x,\lambda )=\frac{1}{z(x)}\exp (\sum\nolimits_{i=1}^{n}{\sum\nolimits_{j}{{{\lambda }_{j}}}}{{f}_{j}}({{y}_{i-1}},{{y}_{i,}}x,i))$ (3)

$z(x)=\sum\nolimits_{j}{\exp (\sum\nolimits_{i=1}^{n}{\sum\nolimits_{j}{{{\lambda }_{j}}}}}{{f}_{j}}({{y}_{i-1}},{{y}_{i}},x,i))$ (4)

特征函数${{f}_{j}}({{y}_{i-1}},{{y}_{i}},x,i)$通常是二值函数, 值要么为1要么为0, ${{\lambda }_{j}}$是通过模型对训练数据进行训练后获得的相应特征函数的权重, $z(x)$为归一化因子, 表示所有可能的状态序列的得分, 以确保所有状态序列的条件概率之和为1。

CRF模型结合了最大熵(ME)模型和HMM模型的特点, 同时考虑到上下文标记间的转移概率, 以序列化形式进行全局参数优化, 解决了ME和HMM的标记偏差问题, 是目前处理序列化数据标注的最好模型。

3.2 语料预处理

对裁判文书法言法语实体自动识别之前, 采用人工方式标注了裁判文书语料, 在统计实体内部特征和外部特征的基础上, 结合公式(5)[23]确定CRF的标注集。

$L=\frac{1}{N}\sum\nolimits_{i=1}^{k}{i\times {{n}_{i}}}$ (5)

其中, L表示语料中实体的加权平均长度, i表示实体长度, ni表示长度为i的实体出现的频次, k表示实体长度的最大值, N为语料中实体出现的总频次。综合统计结果和语料特征, 确定在特征模型构建中使用5词位标注集, 具体表示为P={B, M, E, S, A}。标注集中B表示实体开始, 即初始词; E为结束词; M为中间词, 当实体长度大于3时, 表示除B、E之外的实体中的其他字词; S表示实体外词; A表示实体为单字词的情形。

采用5词位标注集标注的语料样例如表3所示。

表3   裁判文书语料预处理样例

   

词语词性词长度是否
实体词
是否
左边界
是否
右边界
标记
作案vi2YYYS
ng1NNNS
具备v2NNNS
刑事b2YYNB
责任n2YNNM
能力n2YNYE
,wd1NNNS
应予v2NNNS
严惩v2NNNS

新窗口打开

3.3 特征选择及特征模板的构建

法言法语实体的内部特征和外部特征统计表明, 裁判文书的语料有其自身的语言特征, 为取得良好的自动识别性能, 这些特征知识的选取是构建特征模板的关键。

本文选取的语料基本特征具体有: 词语本身、词性特征、词语长度、是否实体词、是否左边界词、是否右边界词, 这些特征作为原子特征值加入到CRF特征模板中。

CRF的特征模板是指CRF模型对标注语料进行训练学习过程中需要识别的特征知识集合。一维特征模板格式为%x[row, col], 多维特征模板格式为%x[row, col]/%x[row, col]/…/%x[row, col], 其中row表示与当前词的相对行数, col表示相对列数。通过构建不同维度的特征模板, 可以组合使用多种特征。本文将未融入统计特征知识的模板视为简单特征模板, 融入的则为组合特征模板, 简单特征模板说明如表4所示。在简单特征模板的基础上, 结合实体的内部特征和外部特征知识, 形成了11个组合特征模板。简单特征模板和组合特征模板共计19个都应用于后续的自动识别模型测评。

表4   简单特征模板说明

   

编号模板模板含义
1%x[-2, 0]当前词的前2个词
2%x[-1, 0]当前词的前1个词
3%x[0, 0]当前词
4%x[1, 0]当前词的后1个词
5%x[2, 0]当前词的后2个词
6%x[-2, 0]/%x[-1, 0]前2个词到前1个词的转移概率
7%x[-1, 0]/%x[0, 0]前1个词到当前词的转移概率
8%x[0, 0]/%x[1, 0]当前词到后1个词的转移概率

新窗口打开

4 法言法语实体自动识别效果测评

4.1 识别模型的测评指标

依据评价命名实体识别模型常用的指标体系, 本文的CRF识别模型选用的测评指标有三个: 准确率P(Precision)、召回率R(Recall)、F值(F-measure)。计算公式如下:

$P=\frac{A}{A+B}\times 100%$ (6)

$R=\frac{A}{A+C}\times 100%$ (7)

$F=\frac{2\times P\times R}{P+R}\times 100%$ (8)

其中, A表示正确识别的实体个数, B表示错误识别的实体个数, C表示未识别出的实体个数。

4.2 识别模型的性能评估

采用CRF模型对已人工标注的裁判文书语料采用交叉实验的方式进行自动识别实验。将80万字的使用罪名词典分词的语料分成10等份, 每次测评时, 选取9份作训练集, 剩余1份作测试集, 共进行10次测评, 测评指标结果如表5所示。未使用罪名词典的语料进行相同步骤、相同模型的测试, 结果如表6所示。

表5   使用罪名词典语料自动识别模型的测评数据

   

编号PRF
10.9572090.9745240.965789
20.9348190.9516700.943169
30.9422230.9594920.950779
40.9340090.9501140.941992
50.9333760.9483810.940819
60.9384680.9495550.943979
70.9399410.9494020.944647
80.9422110.9494190.945801
90.9448230.9502310.947519
100.9454090.9493390.947370
均值0.9412490.9532130.947186

新窗口打开

表6   未使用罪名词典语料自动识别模型的测评数据

   

编号PRF
10.8359470.8834220.859029
20.8853920.9151640.900032
30.8908490.9279820.909037
40.9027130.9304280.916361
50.9151510.9345680.924758
60.9216970.9399490.930733
70.9285580.9425170.935485
80.9317970.9437800.937750
90.9354620.9459680.940686
100.9372460.9467050.941952
均值0.9084810.9310480.919582

新窗口打开

表5表6的结果看, 两种语料CRF模型识别的测评数据P均值、R均值、F均值都达到了90%以上。使用罪名词典分词的语料识别效果要优于未使用罪名词典的语料, 前者F值最低为0.940819, 最高为0.965789, 平均为0.947186; 后者最低为0.859029, 最高为0.941952, 均值为0.919582。表5表6的比较表明, 要获得最高的调和平均值, 制定CRF模板是关键, 而使用罪名词典分词对提高整体性能也是不可或缺的要素。

利用CRF模型自动识别罪名词典分词语料, 其中有识别错误的问题存在, 错误较多的是识别较长的实体词, 如“盗窃、抢夺、毁灭国家机关公文、证件、印章罪”, 不同的裁判文书对长实体词的表述存在一定的差异, 与标准表述也未必完全吻合, 复杂罪名的存在对识别的准确率和召回率、调和平均值都存在一些影响。

5 结 语

目前文本挖掘技术日趋完善, 裁判文书作为一种特殊的非结构化文本逐步走进文本挖掘研究者的视野。本文实现的法言法语实体自动识别对裁判文书的文本处理是一种良好的尝试。在人工标注法言法语实体的基础上, 利用NLPIR分词系统加载人工构建的罪名领域词表实现了语料的分词, 结合实体内在和外在特征的统计而构建的CRF特征模板对法言法语实体的自动识别取得了良好的效果。该研究对处理大规模裁判文书文本、构建裁判文书语料库有着很好的借鉴作用。在后续研究中, 一方面拓展该模型进行命名实体识别的应用范围, 另一方面结合模型的具体表现, 评估其整体性能并作进一步改进。

作者贡献声明:

张琳: 处理数据, 撰写、修改论文;

秦策: 搭建论文框架, 标注语料;

叶文豪: 模型训练。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: zhanglin@njau.edu.cn。

[1] 张琳, 秦策, 叶文豪. Event statistics programming. 基于裁判文书语料库的实体统计程序.

[2] 张琳, 秦策, 叶文豪. Event extracting programming. 基于条件随机场模型的实体抽取程序.


参考文献

[1]

中国裁判文书网

[EB/OL]. [2016-12-31]. .

URL      [本文引用: 1]     

(

China Judgements Online

[EB/OL]. [2016-12-31].

URL      [本文引用: 1]     

[2] 熊小梅, 刘永浪. 基于

LSA 的二次降维法在中文法律案情文本分类中的应用

[J]. 电子测量技术, 2007, 30(10): 111-114.

https://doi.org/10.3969/j.issn.1002-7300.2007.10.032      URL      [本文引用: 1]      摘要

利用文本挖掘来表达文本特征,由于文本表现出巨大的维数,从而导 致处理过程计算复杂,因此,首先应该对文本进行降维处理.潜在语义分析理论(latent semantic analysis,LSA)作为一种文本聚类的方法,在有效提取文本信息表现出许多特有的优势,在多个领域中被引用.本文构建了中文法律案情文本分类系 统,引入LSA方法进行文本向量空间的二次降维,并利用LSA方法处理后的特征集--文档矩阵代替原有矩阵,从而进一步删除噪声,加快分类系统的处理速 度.文中给出了具体实现过程及实验数据,通过实验证明该方法能收到较好的效果.

(Xiong Xiaomei, Liu Yonglang.

Application of Quadratic Dimension Reduction Method Based on LSA in Classification of the Chinese Legal Text

[J]. Electronic Measurement Technology, 2007, 30(10): 111-114.)

https://doi.org/10.3969/j.issn.1002-7300.2007.10.032      URL      [本文引用: 1]      摘要

利用文本挖掘来表达文本特征,由于文本表现出巨大的维数,从而导 致处理过程计算复杂,因此,首先应该对文本进行降维处理.潜在语义分析理论(latent semantic analysis,LSA)作为一种文本聚类的方法,在有效提取文本信息表现出许多特有的优势,在多个领域中被引用.本文构建了中文法律案情文本分类系 统,引入LSA方法进行文本向量空间的二次降维,并利用LSA方法处理后的特征集--文档矩阵代替原有矩阵,从而进一步删除噪声,加快分类系统的处理速 度.文中给出了具体实现过程及实验数据,通过实验证明该方法能收到较好的效果.
[3] 程春惠, 何钦铭.

面向不均衡类别朴素贝叶斯犯罪案件文本分类

[J]. 计算机工程与应用, 2009, 45(35): 126-128, 131.

https://doi.org/10.3778/j.issn.1002-8331.2009.35.038      URL      Magsci      [本文引用: 1]      摘要

针对案件文本的特点,提出了具有针对性的特殊文本预处理方法,并比较了两种有效的特征选择方法。针对案件类别分布不均衡的特点,提出了改进的多变量贝努里模型。实验结果表明,改进的多变量贝努里模型有效地提高了案件文本分类的准确率。

(Cheng Chunhui, He Qinming.

Naive Bayes Based Criminal Text Classification of Unbalanced Classes

[J]. Computer Engineering and Applications, 2009, 45(35): 126-128, 131.)

https://doi.org/10.3778/j.issn.1002-8331.2009.35.038      URL      Magsci      [本文引用: 1]      摘要

针对案件文本的特点,提出了具有针对性的特殊文本预处理方法,并比较了两种有效的特征选择方法。针对案件类别分布不均衡的特点,提出了改进的多变量贝努里模型。实验结果表明,改进的多变量贝努里模型有效地提高了案件文本分类的准确率。
[4] 佘贵清, 张永安.

审判案例自动抽取与标注模型研究

[J]. 现代图书情报技术, 2013(6): 23-29.

URL      [本文引用: 1]      摘要

针对刑事判决书文本,结合刑事审判本体,构建基于本体的案例自动抽取与标注模型。基于法律案例文本的半结构化特征,依据文档组织结构和线索词,运用正则表达式构建抽取规则模板;同时结合自然语言处理技术进行相关语义信息的精准抽取。运用语义标注技术构建刑事审判本体实例库,实现大量案例文本向语义信息网络的转化,便于运用语义信息进行相似案例检索和审判推荐。实验证明,该模型的抽取结果基本达到预期效果。

(She Guiqing, Zhang Yongan.

Study on the Model of Automatic Extraction and Annotation of Trail Cases

[J]. New Technology of Library and Information Service, 2013(6): 23-29.)

URL      [本文引用: 1]      摘要

针对刑事判决书文本,结合刑事审判本体,构建基于本体的案例自动抽取与标注模型。基于法律案例文本的半结构化特征,依据文档组织结构和线索词,运用正则表达式构建抽取规则模板;同时结合自然语言处理技术进行相关语义信息的精准抽取。运用语义标注技术构建刑事审判本体实例库,实现大量案例文本向语义信息网络的转化,便于运用语义信息进行相似案例检索和审判推荐。实验证明,该模型的抽取结果基本达到预期效果。
[5] 张忠民.

生态破坏的司法救济——基于5792份环境裁判文书样本的分析

[J]. 法学, 2016(10): 111-124.

[本文引用: 1]     

(Zhang Zhongmin. Judicial Relief of Ecological Destruction - An Analysis Based on5792

Environmental Judgements

[J]. Law Science, 2016(10): 111-124.)

[本文引用: 1]     

[6] 马超, 于晓虹, 何海波.

大数据分析: 中国司法裁判文书上网公开报告

[J]. 中国法律评论, 2016(4): 195-246.

[本文引用: 1]     

(Ma Chao, Yu Xiaohong, He Haibo.

Big Data Analysis: Public Report of China Judgements Online

[J]. China Law Review, 2016(4): 195-246.)

[本文引用: 1]     

[7] Rau L F.

Extracting Company Names from Text

[C]// Proceedings of the 7th IEEE Conference on Artificial Intelligence Applications. 1991: 29-32.

[本文引用: 1]     

[8] Grishman R, Sundheim B.

Message Understanding Conference-6: A Brief Histroy

[C]// Proceedings of the 16th International Conference on Computational Linguistics (COLING-96). 1996: 466-471.

[本文引用: 1]     

[9] Bikel D M, Schwartz R, Weischedel R M.

An Algorithm that Learns What’s in a Name

[J]. Machine Learning, 1999, 34(1-3): 211-231.

https://doi.org/10.1023/A:1007558221122      URL      [本文引用: 1]      摘要

In this paper, we present IdentiFinderTM, a hidden Markov model that learns to recognize and classify names, dates, times, and numerical quantities. We have evaluated the model in English (based on data from the Sixth and Seventh Message Understanding Conferences [MUC-6, MUC-7] and broadcast news) and in Spanish (based on data distributed through the First Multilingual Entity Task [MET-1]), and on speech input (based on broadcast news). We report results here on standard materials only to quantify performance on data available to the community, namely, MUC-6 and MET-1. Results have been consistently better than reported by any other learning algorithm. IdentiFinder's performance is competitive with approaches based on handcrafted rules on mixed case text and superior on text where case information is not available. We also present a controlled experiment showing the effect of training set size on performance, demonstrating that as little as 100,000 words of training data is adequate to get performance around 90% on newswire. Although we present our understanding of why this algorithm performs so well on this class of problems, we believe that significant improvement in performance may still be possible.
[10] Chen H H, Ding Y W, Tsai S C, et al.

Description of the NTU System Used for MET2

[C]//Proceedings of the 7th Message Understanding Conference, 1998.

[本文引用: 1]     

[11] Yu S H, Bai S H, Wu P.

Description of the Kent Ridge Digital Lads System Used for MUC-7

[C]// Proceedings of the 7th Message Understanding Conference, 1998.

[本文引用: 1]     

[12] Wikipedia: Named Entity Recognition[EB/OL]. [2017-02- 03]..

URL      [本文引用: 1]     

[13] 孙茂松, 黄昌宁, 高海燕, .

中文姓名的自动辨识

[J]. 中文信息学报, 1995, 9(2): 16-27.

Magsci      [本文引用: 1]      摘要

中文姓名的辨识对汉语自动分词研究具有重要意义。本文提出了一种在中文文本中自动辨识中文姓名的算法。我们从新华通讯社新闻语料库中随机抽取了300个包含中文姓名的句子作为测试样本。实验结果表明, 召回率达到了99.77%。

(Sun Maosong, Huang Changning, Gao Haiyan, et al.

Identifying Chinese Names in Unrestricted Texts

[J]. Journal of Chinese Information Processing, 1995, 9(2): 16-27.)

Magsci      [本文引用: 1]      摘要

中文姓名的辨识对汉语自动分词研究具有重要意义。本文提出了一种在中文文本中自动辨识中文姓名的算法。我们从新华通讯社新闻语料库中随机抽取了300个包含中文姓名的句子作为测试样本。实验结果表明, 召回率达到了99.77%。
[14] 俞鸿魁, 张华平, 刘群, .

基于层叠隐马尔可夫模型的中文命名实体识别

[J]. 通信学报, 2006, 27(2): 87-93.

https://doi.org/10.3321/j.issn:1000-436X.2006.02.013      URL      [本文引用: 1]      摘要

提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中.首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名.在对大规模真实语料库的封闭测试中,人名、地名和机构识别的F-1值分别达到92.55%、94.53%、86.51%.采用该方法的系统ICTCLAS在2003年5月SIGHAN举办的第一届汉语分词大赛中名列前茅.

(Yu Hongkui, Zhang Huaping, Liu Qun, et al.

Chinese Named Entity Identification Using Cascaded Hidden Markov Model

[J]. Journal on Communications, 2006, 27(2): 87-93.)

https://doi.org/10.3321/j.issn:1000-436X.2006.02.013      URL      [本文引用: 1]      摘要

提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中.首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名.在对大规模真实语料库的封闭测试中,人名、地名和机构识别的F-1值分别达到92.55%、94.53%、86.51%.采用该方法的系统ICTCLAS在2003年5月SIGHAN举办的第一届汉语分词大赛中名列前茅.
[15] 唐旭日, 陈小荷, 许超, .

基于篇章的中文地名识别研究

[J]. 中文信息学报, 2010, 24(2): 24-32.

https://doi.org/10.3969/j.issn.1003-0077.2010.02.003      URL      Magsci      [本文引用: 1]      摘要

中文词汇网络(Chinese WordNet, 简称CWN)的设计理念,是在完整的知识系统下兼顾词义与词义关系的精确表达与语言科技应用。中文词义的区分与词义间关系的精确表征必须建立在语言学理论,特别是词汇语义学的基础上。而词义内容与词义关系的发掘与验证,则必须源自实际语料。我们采用的方法是分析与语料结合。结合的方式则除了验证与举例外,主要是在大量语料上平行进行词义标记,以反向回馈验证。完整、强健知识系统的建立,是兼顾知识本体(ontology)的完备规范(formal integrity)和人类语言系统内部的完整知识。我们采用了上层共享知识本体(SUMO)来提供知识的规范系统表征。

(Tang Xuri, Chen Xiaohe, Xu Chao, et al.

Discourse-Based Chinese Location Name Recognition

[J]. Journal of Chinese Information Processing, 2010, 24(2): 24-32.)

https://doi.org/10.3969/j.issn.1003-0077.2010.02.003      URL      Magsci      [本文引用: 1]      摘要

中文词汇网络(Chinese WordNet, 简称CWN)的设计理念,是在完整的知识系统下兼顾词义与词义关系的精确表达与语言科技应用。中文词义的区分与词义间关系的精确表征必须建立在语言学理论,特别是词汇语义学的基础上。而词义内容与词义关系的发掘与验证,则必须源自实际语料。我们采用的方法是分析与语料结合。结合的方式则除了验证与举例外,主要是在大量语料上平行进行词义标记,以反向回馈验证。完整、强健知识系统的建立,是兼顾知识本体(ontology)的完备规范(formal integrity)和人类语言系统内部的完整知识。我们采用了上层共享知识本体(SUMO)来提供知识的规范系统表征。
[16] 鞠久朋, 张伟伟, 宁建军, .

CRF与规则相结合的地理空间命名实体识别

[J]. 计算机工程, 2011, 37(7): 210-212, 215.

https://doi.org/10.3969/j.issn.1000-3428.2011.07.071      URL      Magsci      [本文引用: 1]      摘要

提出条件随机场(CRF)与规则相结合的地理空间命名实体识别方法。该方法以丰富的知识作为触发条件,用CRF对满足条件的片段作地名及机构名识别,识别出来的命名实体又被解构,CRF及知识用来进一步判断该命名实体是否表示事件发生地的地理空间信息。实验结果表明,统计与规则方法的结合以及解构算法有效提升了地理空间命名实体识别的性能,准确率、召回率和F1值分别达到92.86%、90.91%、91.87%。

(Ju Jiupeng, Zhang Weiwei, Ning Jianjun, et al.

Geospatial Named Entities Recognition Using Combination of CRF and Rules

[J]. Computer Engineering, 2011, 37(7): 210-212, 215.)

https://doi.org/10.3969/j.issn.1000-3428.2011.07.071      URL      Magsci      [本文引用: 1]      摘要

提出条件随机场(CRF)与规则相结合的地理空间命名实体识别方法。该方法以丰富的知识作为触发条件,用CRF对满足条件的片段作地名及机构名识别,识别出来的命名实体又被解构,CRF及知识用来进一步判断该命名实体是否表示事件发生地的地理空间信息。实验结果表明,统计与规则方法的结合以及解构算法有效提升了地理空间命名实体识别的性能,准确率、召回率和F1值分别达到92.86%、90.91%、91.87%。
[17] 叶枫, 陈莺莺, 周根贵, .

电子病历中命名实体的智能识别

[J]. 中国生物医学工程学报, 2011, 30(2): 256-262.

https://doi.org/10.3969/j.issn.0258-8021.2011.02.014      URL      [本文引用: 1]      摘要

电子病历中命名实体的识别对于构建和挖掘大型临床数据库以服务于临床决策具有重要意义,而我国目前对此的研究相对较少.在比较现有的实体识别方法和模型后,采用条件随机场模型(CRF)机器学习的方法,对疾病、临床症状、手术操作3类中文病历中常见的命名实体进行智能识别.首先,通过分析电子病历的数据特征,选择以语言符号、词性、构词特征、词边界、上下文为特征集.然后,基于随机抽取的来自临床医院多个科室的电子病历数据,构建小规模语料库并进行标注.最后,利用条件随机场算法执行工具CRF++进行3次对照实验.通过逐步分析特征集中的多种特征对CRF自动识别的影响,提出在中文病历环境下CRF特征选择和模板设计的一些基本规则.在对照实验中,本方法取得了良好效果,3类实体的最佳F值分别达到了92.67%,93.76%和95.06%.

(Ye Feng, Chen Yingying, Zhou Gengui, et al.

Intelligent Recognition of Named Entity in Electronic Medical Records

[J]. Chinese Journal of Biomedical Engineering, 2011, 30(2): 256-262.)

https://doi.org/10.3969/j.issn.0258-8021.2011.02.014      URL      [本文引用: 1]      摘要

电子病历中命名实体的识别对于构建和挖掘大型临床数据库以服务于临床决策具有重要意义,而我国目前对此的研究相对较少.在比较现有的实体识别方法和模型后,采用条件随机场模型(CRF)机器学习的方法,对疾病、临床症状、手术操作3类中文病历中常见的命名实体进行智能识别.首先,通过分析电子病历的数据特征,选择以语言符号、词性、构词特征、词边界、上下文为特征集.然后,基于随机抽取的来自临床医院多个科室的电子病历数据,构建小规模语料库并进行标注.最后,利用条件随机场算法执行工具CRF++进行3次对照实验.通过逐步分析特征集中的多种特征对CRF自动识别的影响,提出在中文病历环境下CRF特征选择和模板设计的一些基本规则.在对照实验中,本方法取得了良好效果,3类实体的最佳F值分别达到了92.67%,93.76%和95.06%.
[18] 王春雨, 王芳.

基于条件随机场的农业命名实体识别研究

[J]. 河北农业大学学报, 2014, 37(1): 132-135.

[本文引用: 1]     

(Wang Chunyu, Wang Fang.

Study on Recognition of Chinese Agricultural Named Entity with Conditional Random Fields

[J]. Journal of Agricultural University of Hebei, 2014, 37(1): 132-135.)

[本文引用: 1]     

[19] 隋明爽, 崔雷.

结合多种特征的CRF模型用于化学物质-疾病命名实体识别

[J]. 现代图书情报技术, 2016(10): 91-97.

[本文引用: 1]     

(Sui Mingshuang, Cui Lei.

Extracting Chemical and Disease Named Entities with Multiple-Feature CRF Model

[J]. New Technology of Library and Information Service, 2016(10): 91-97.)

[本文引用: 1]     

[20] 王东波, 吴毅, 叶文豪, .

多特征知识下的食品安全事件实体抽取研究

[J]. 数据分析与知识发现, 2017(3): 54-61.

[本文引用: 2]     

(Wang Dongbo, Wu Yi, Ye Wenhao, et al.

Extracting Events of Food Safety Emergencies with Characteristics Knowledge

[J]. Data Analysis and Knowledge Discovery, 2017(3): 54-61.)

[本文引用: 2]     

[21] 吴云芳. 面向语言信息处理的现代汉语并列结构研究[M]. 北京: 北京师范大学出版社, 2004.

[本文引用: 1]     

(Wu Yunfang.Researches of Modern Chinese Coordinate Construction for Language Information Processing[M]. Beijing: Beijing Normal University Press, 2004.)

[本文引用: 1]     

[22] Lafferty J, McCallum A, Pereira F.

Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data

[C]//Proceedings of the 18th International Conference on Machine Learning. Williamstown: Williams College, 2001: 282-289.

[本文引用: 2]     

[23] McCallum A, Freitag D, Pereira F.

Maximum Entropy Markov Models for Information Extraction and Segmentation

[C]//Proceedings of the 17th International Conference on Machine Learning. 2000: 591-598.

[本文引用: 1]     

/