Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (9): 68-76     https://doi.org/10.11925/infotech.2096-3467.2019.0135
     研究论文 本期目录 | 过刊浏览 | 高级检索 |
融入实体特征的典籍自动分类研究 *
秦贺然1,刘浏1,2,李斌3,王东波1,2()
1 南京农业大学信息科学技术学院 南京 210095
2 南京农业大学领域知识关联研究中心 南京 210095
3 南京师范大学文学院 南京 210097
Automatic Classification of Ancient Classics with Entity Features
Heran Qin1,Liu Liu1,2,Bin Li3,Dongbo Wang1,2()
1 College of Information Science and Technology, Nanjing Agricultural University, Nanjing 210095, China
2 Research Center for Correlation of Domain Knowledge, Nanjing Agricultural University, Nanjing 210095, China
3 College of Literature, Nanjing Normal University, Nanjing 210097, China
全文: PDF (554 KB)   HTML ( 6
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】在传统统计特征词算法的基础上, 添加实体特征对10本古代典籍进行分类研究。【方法】基于支持向量机模型, 分别采用传统的TF-IDF、信息增益、卡方检验、互信息4种统计量计算特征词, 再加入命名实体这一特征, 验证分类器的分类效果。【结果】加入实体特征之后分类器的最高精度达98.7%。在传统的信息增益、TF-IDF、互信息和卡方检验特征计算下的分类精度分别提高12.4%、12.4%、12.3%、22.8%。【局限】将实体特征迁移到其他文本有一定的局限性, 需要重新标注识别实体。【结论】实体可以作为一类特征应用到文本分类模型中, 具有实际的应用推广价值。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
秦贺然
刘浏
李斌
王东波
关键词 古代典籍文本分类实体支持向量机    
Abstract

[Objective] This paper modifies the algorithm of traditional statistical feature words with entity features, aiming to classify ten classics from ancient China. [Methods] For the support vector machine model, we added the traditional TF-IDF, information gain, chi-square test and mutual information to calculate the feature words. Then, we used the named entity to evaluate the classification results. [Results] The highest accuracy of the proposed classifier reached 98.7%. The accuracy was improved by 12.4%, 12.4%, 12.3% and 22.8% respectively with traditional information gain, TF-IDF, mutual information and chi-square test feature calculations. [Limitations] We need to re-label the recognition entities before applying entity features to other texts. [Conclusions] Entity features could improve the effectiveness of text categorization models.

Key wordsAncient Classics    Text Classification    Entity    Support Vector Machine
收稿日期: 2019-01-30      出版日期: 2019-10-23
ZTFLH:  G252  
基金资助:*本文系国家社会科学基金重大项目“基于《汉学引得丛刊》的典籍知识库构建及人文计算研究”(项目编号: 15ZDB127);国家自然科学基金面上项目“基于典籍引得的句法级汉英平行语料库构建及人文计算研究”(项目编号: 71673143)
引用本文:   
秦贺然,刘浏,李斌,王东波. 融入实体特征的典籍自动分类研究 *[J]. 数据分析与知识发现, 2019, 3(9): 68-76.
Heran Qin,Liu Liu,Bin Li,Dongbo Wang. Automatic Classification of Ancient Classics with Entity Features. Data Analysis and Knowledge Discovery, 2019, 3(9): 68-76.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0135      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2019/V3/I9/68
互信息 互信息+命名实体 卡方检验 卡方检验+命名实体 TF-IDF TF-IDF+命名实体 信息增益 信息增益+命名实体
君子0.21 管子0.46 墨子6.05e-169 孟子2.79e-115 天下0.08 天下0.73 不可0.45 君子0.64
墨子0.19 子墨子0.42 孟子8.45e-223 子墨子3.05e-109 故曰0.04 諸侯0.23 君子0.41 諸侯0.60
孟子0.18 桓公0.36 管子1.33e-236 管子1.12e-224 君子0.04 君子0.18 不能0.40 桓公0.56
孔子0.16 君子0.30 天下7.08e-184 君子1.94e-177 不可0.03 桓公0.18 所以0.40 天下0.54
天下0.13 孔子0.27 戰者7.80e-183 孙子2.99e-170 諸侯0.03 聖人0.18 可以0.38 聖人0.54
夫子0.12 孟子0.26 君子8.15e-178 桓公1.71e-154 墨子0.02 墨子0.12 天下0.37 孔子0.51
夫是0.12 天下0.24 子路9.63e-119 子路1.50e-126 不能0.02 管子0.11 不知0.36 故曰0.34
  基于不同统计量特征词展示
  典籍文本自动分类流程
No. Text Label
41 則 魚 亂 於 水 矣; 削格 羅落... 庄子
28 則 以 往 知 來, ... 墨子
97 五十 步 丈夫 十 人, 丁女 二十... 墨子
92 故 先 王 曰 道。管仲 有 病... 管子
36 而 道 法 萬 全, 智 能 多 失... 韩非子
  典籍类别标注表
词性标记 是否为实体
y N
v N
漢文帝 nr Y
n N
v N
p N
v N
  典籍命名实体标注表
方法 特征维度 准确率
信息增益 100 58.6%
500 74.4%
1 000 86.3%
1 500 81.9%
2 000 84.9%
TF-IDF 100 65.6%
500 74.9%
1 000 85.9%
1 500 85.3%
2 000 83.4%
互信息 100 72.5%
500 77.9%
1 000 80.9%
1 500 85.1%
2 000 83.8%
卡方检验 100 73.5%
500 72.1%
1000 72.9%
1500 70.3%
2000 75.0%
  未加入命名实体特征的分类实验效果
  各个维度下4种统计量分类实验结果(无实体)
方法 特征维度 准确率
信息增益+命名实体 100 93.4%
500 97.8%
1 000 98.7%
1 500 98.7%
2000 97.8%
TF-IDF+命名实体 100 90.8%
500 98.3%
1 000 96.5%
1 500 98.3%
2 000 96.9%
互信息+命名实体 100 91.3%
500 96.9%
1 000 96.9%
1 500 97.4%
2 000 98.3%
卡方检验+命名实体 100 89.5%
500 95.6%
1 000 96.9%
1 500 97.8%
2 000 96.9%
  添加命名实体特征的分类实验效果
  各个维度下4种统计量分类实验结果(有实体)
[1] Stein R A, Jaques P A, Valiati J F . An Analysis of Hierarchical Text Classification Using Word Embeddings[J]. Information Sciences, 2019,471:216-232.
[2] Dashtipour K, Gogate M, Adeel A, et al. A Comparative Study of Persian Sentiment Analysis Based on Different Feature Combinations [C]// Proceedings of the 2017 International Conference on Communications, Signal Processing, and Systems. 2017: 2288-2294.
[3] D’Andrea E, Ducange P, Bechini A , et al. Monitoring the Public Opinion About the Vaccination Topic from Tweets Analysis[J]. Expert Systems with Applications, 2019,116:209-226.
[4] Dong L, Ji S, Zhang C , et al. An Unsupervised Topic-Sentiment Joint Probabilistic Model for Detecting Deceptive Reviews[J]. Expert Systems with Applications, 2018,114:210-223.
[5] Tocoglu M A, Alpkocak A . TREMO: A Dataset for Emotion Analysis in Turkish[J]. Journal of Information Science, 2018,44(6):848-860.
[6] Manek A S, Shenoy P D, Mohan M C , et al. Aspect Term Extraction for Sentiment Analysis in Large Movie Reviews Using Gini Index Feature Selection Method and SVM Classifier[J]. World Wide Web, 2017,20(2):135-154.
[7] Liu Y, Bi J W, Fan Z P . A Method for Multi-Class Sentiment Classification Based on an Improved One-vs-One (OVO) Strategy and the Support Vector Machine (SVM) Algorithm[J]. Information Sciences, 2017, 394-395:38-52.
[8] 段江丽 . 基于SVM的文本分类系统中特征选择与权重计算算法的研究[D]. 太原: 太原理工大学, 2011.
[8] ( Duan Jiangli . Research on Feature Selection and Weighting Algorithm in Text Classification System Based on SVM[D]. Taiyuan: Taiyuan University of Technology, 2011.)
[9] 都云琪 . 中文文本自动分类的研究与实现[D]. 西安: 西安电子科技大学, 2012.
[9] ( Du Yunqi . The Research and Implementation of Chinese Text Classification[D]. Xi’an: Xi’an University of Electronic Science and Technology, 2012.)
[10] 李玉雄 . 非凸在线支持向量机的研究与应用[D]. 北京: 北京工业大学, 2013.
[10] ( Li Yuxiong . Research and Application of Non-convex Online Support Vector Machines[D]. Beijing: Beijing University of Technology, 2013.)
[11] 王昊, 叶鹏, 邓三鸿 . 机器学习在中文期刊论文自动分类研究中的应用[J]. 现代图书情报技术, 2014(3):80-87.
[11] ( Wang Hao, Ye Peng, Deng Sanhong . The Application of Machine-Learning in the Research on Automatic Categorization of Chinese Periodical Articles[J]. New Technology of Library and Information Service, 2014(3):80-87.)
[12] 董帅 . 基于半监督学习的文本分类算法研究[D]. 哈尔滨: 哈尔滨工程大学, 2014.
[12] ( Dong Shuai . Research on the Text Classification Based on the Semi-supervised Learning[D]. Harbin: Harbin Engineering University, 2014.)
[13] 王宗尧, 刘金岭 . 基于支持向量机的PU中文文本分类器构建[J]. 南京邮电大学学报: 自然科学版, 2015,35(6):100-105.
[13] ( Wang Zongyao, Liu Jinling . PU Chinese Text Classifier Based on Support Vector Machine Construction[J]. Journal of Nanjing University of Posts and Telecommunications: Natural Science Edition, 2015,35(6):100-105.)
[14] 郭东峰, 王东起 . 机器学习中文本分类处理研究[J]. 内江科技, 2016(9):115-116.
[14] ( Guo Dongfeng, Wang Dongqi . Research on Text Classification and Processing in Machine Learning[J]. Neijiang Science and Technology, 2016(9):115-116.)
[15] 谭建平 . 基于半监督的SVM迁移学习文本分类方法[D]. 广州: 广东工业大学, 2016.
[15] ( Tan Jianping . Semi-supervised SVM-Based Transfer Learning for Text Classification[D]. Guangzhou: Guangdong University of Technology, 2016.)
[16] 陶林润德 . 机器学习方法在文本分类中的应用[J]. 中国战略新兴产业, 2017(40):134-135.
[16] ( Tao Linrunde . Application of Machine Learning Method in Text Classification[J]. China Strategic Emerging Industries, 2017(40):134-135.)
[17] 薛峰, 胡越, 夏帅 , 等. 基于论文标题和摘要的短文本分类研究[J]. 合肥工业大学学报: 自然科学版, 2018,41(10):1343-1349.
[17] ( Xue Feng, Hu Yue, Xia Shuai , et al. Research on Short Text Classification Based on Paper Title and Abstract[J]. Journal of Hefei University of Technology: Natural Science, 2018,41(10):1343-1349.)
[18] 施瑞朗 . 基于社交平台数据的文本分类算法研究[J]. 电子科技, 2018,31(10):69-70, 75.
[18] ( Shi Ruilang . Text Categorization Algorithm Based on Social Platform Data[J]. Electronic Science and Technology, 2018,31(10):69-70, 75.)
[19] 刘测, 韩家新 . 面向新闻文本的分类方法的比较研究[J]. 智能计算机与应用, 2018,8(5):38-41.
[19] ( Liu Ce, Han Jiaxin . A Comparative Study of Classification Methods for News Texts[J]. Intelligent Computer and Applications, 2018,8(5):38-41.)
[1] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[2] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[3] 王一钒,李博,史话,苗威,姜斌. 古汉语实体关系联合抽取的标注方法*[J]. 数据分析与知识发现, 2021, 5(9): 63-74.
[4] 江雅仁, 乐小虬. 一对多实体关系少样本持续学习方法研究[J]. 数据分析与知识发现, 2021, 5(8): 45-53.
[5] 李文娜, 张智雄. 基于联合语义表示的不同知识库中的实体对齐方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 1-9.
[6] 沈科杰, 黄焕婷, 化柏林. 基于公开履历数据的人物知识图谱构建*[J]. 数据分析与知识发现, 2021, 5(7): 81-90.
[7] 余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[8] 胡昊天,吉晋锋,王东波,邓三鸿. 基于深度学习的食品安全事件实体一体化呈现平台构建*[J]. 数据分析与知识发现, 2021, 5(3): 12-24.
[9] 沈旺, 李世钰, 刘嘉宇, 李贺. 问答社区回答质量评价体系优化方法研究 *[J]. 数据分析与知识发现, 2021, 5(2): 83-93.
[10] 董淼, 苏中琪, 周晓北, 兰雪, 崔志刚, 崔雷. 利用Text-CNN改进PubMedBERT在化学诱导性疾病实体关系分类效果的尝试[J]. 数据分析与知识发现, 2021, 5(11): 145-152.
[11] 冯昊, 李树青. 基于多种支持向量机的多层级联式分类器研究及其在信用评分中的应用*[J]. 数据分析与知识发现, 2021, 5(10): 28-36.
[12] 王艳, 王胡燕, 余本功. 基于多特征融合的中文文本分类研究*[J]. 数据分析与知识发现, 2021, 5(10): 1-14.
[13] 温萍梅,叶志炜,丁文健,刘颖,徐健. 命名实体消歧研究进展综述*[J]. 数据分析与知识发现, 2020, 4(9): 15-25.
[14] 徐晨飞, 叶海影, 包平. 基于深度学习的方志物产资料实体自动识别模型构建研究*[J]. 数据分析与知识发现, 2020, 4(8): 86-97.
[15] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn