%A 黄菡,王宏宇,王晓光 %T 结合主动学习的条件随机场模型用于法律术语的自动识别* %0 Journal Article %D 2019 %J 数据分析与知识发现 %R 10.11925/infotech.2096-3467.2018.1226 %P 66-74 %V 3 %N 6 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_4671.shtml} %8 2019-06-25 %X

目的】实现对大规模法律文本中法律术语的自动识别, 促进法律大数据的结构化进程。【方法】将条件随机场模型作为主动学习算法的分类器, 在经过K-means聚类后的语料库中, 按照分层抽样的方式抽取用于启动主动学习算法的初始样本, 将熵值作为主动学习的样例选择依据, 迭代地进行主动学习的学习过程及样例选择过程, 直到模型的调和均值F值趋于稳定时停止迭代, 输出最终的法律术语自动识别模型——AL-CRF模型。【结果】在中文裁判文书上的命名实体识别实验表明, 通过少量且高质的样本训练的AL-CRF模型对于法律术语的识别准确率和召回率可达90%以上, 且相较于等标注工作量训练的CRF模型F值提高4.85%。【局限】K-means聚类方法对噪声和离群点较为敏感, 可能会影响模型的识别效果。【结论】结合主动学习的条件随机场模型能在保证识别质量的情况下, 减少低质量样本的标注工作量。