Please wait a minute...
Advanced Search
现代图书情报技术  2016, Vol. 32 Issue (11): 27-33    DOI: 10.11925/infotech.1003-3513.2016.11.04
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
作者身份识别中不规范文本特征选择方法的研究*
郭旭(),祁瑞华
大连外国语大学软件学院 大连 116044
Using Non-standard Text Features to Identify Authors
Guo Xu(),Qi Ruihua
School of Software, Dalian University of Foreign Languages, Dalian 116044,China
全文: PDF(388 KB)   HTML ( 48
输出: BibTeX | EndNote (RIS)      
摘要 

目的】从不规范文本中提取特征, 识别网络文本作者身份。【方法】提出两种在不规范文本中提取特征的方法: 利用在Jaccard系数的基础上定义的不规范文本相似度M; 利用不规范文本在文本中出现的次数。【结果】两种特征的识别正确率分别达到85.1%和80.2%, 加入这两种特征后, 传统的基于统计值特征的分类器识别正确率分别提高5.8%和4%。【局限】只考虑到网络文本在词汇层面的不规范性, 并没有针对更高层面的特性进行研究, 如句法层面、结构层面。【结论】本文提出的特征提取方法, 可以有效地提取不规范文本特征, 有助于作者身份识别系统识别正确率的提升。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
郭旭
祁瑞华
关键词 作者身份不规范文本网络文本文本相似度    
Abstract

[Objective] This paper aims to identify authors with features extracted from non-standard online texts. [Methods] First, we used the non-standard text similarity M defined by the Jaccard coefficient. Second, we adopted the frequency of non-standard text from the corpus. [Results] The recognition accuracy of the two features were 85.1% and 80.2%. Adding the two features to the traditional recognition mechanism, the precision of the system increased by 5.8% and 4%, respectively. [Limitations] We did not study the online texts from the syntactic and structure levels. [Conclusions] The proposed method could effectively extract the non-standard text features and then improve the accuracy of author identification.

Key wordsAuthor identification    Non-standard text    Network text    Text similarity
收稿日期: 2016-07-12     
基金资助:*本文系国家社会科学基金项目“典籍英译国外读者网上评论观点挖掘研究”(项目编号: 15BYY028)和大连外国语大学科研项目“英文作者身份识别中书写不规范文本处理方法的研究”(项目编号: 2014XJQN15)的研究成果之一
引用本文:   
郭旭,祁瑞华. 作者身份识别中不规范文本特征选择方法的研究*[J]. 现代图书情报技术, 2016, 32(11): 27-33.
Guo Xu,Qi Ruihua. Using Non-standard Text Features to Identify Authors. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2016.11.04.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2016.11.04
[1] Abbasi A, Chen H.Applying Authorship Analysis to Extremist-group Web Forum Messages[J]. IEEE Intelligent Systems, 2005, 20(5): 67-75.
[2] Iqbal F, Binsalleeh H, Fung B C M, et al. A Unified Data Mining Solution for Authorship Analysis in Anonymous Textual Communications[J]. Information Sciences, 2013, 231(9): 98-112.
[3] 骆昌日, 何婷婷. 网络语言的特点及其情感性意义[J]. 武汉理工大学学报: 社会科学版, 2015, 28(2): 322-328.
[3] (Luo Changri, He Tingting.Characteristics of Internet Language and Its Emotional Meanings[J]. Journal of Wuhan University of Technology: Social Sciences Edition, 2015, 28(2): 322-328.)
[4] Nie L, Wang M, Gao Y, et al.Beyond Text QA: Multimedia Answer Generation by Harvesting Web Information[J]. IEEE Transactions on Multimedia, 2013, 15(2): 426-441.
[5] 陈叶旺, 王华珍, 李海波,等. 基于百度百科与文本分类的网络文本语义主题抽取方法[J]. 小型微型计算机系统, 2012, 33(12): 2605-2610.
[5] (Chen Yewang, Wang Huazhen, Li Haibo, et al.Topic Extraction Method for Chinese Web Text Based on Baidu Baike and Text Classification[J]. Journal of Chinese Computer Systems, 2012, 33(12): 2605-2610.)
[6] 张文文, 王挺. 不规范文本的无监督观点句抽取[J]. 计算机与数字工程, 2013, 41(1): 64-68.
[6] (Zhang Wenwen, Wang Ting.Unsupervised Subjective Sentence Extraction for Non-Standard Texts[J]. Computer and Digital Engineering, 2013, 41(1): 64-68.)
[7] Dehkharghani R, Mercan H, Javeed A, et al.Sentimental Causal Rule Discovery from Twitter[J]. Expert Systems with Applications, 2014, 41(10): 4950-4958.
[8] Iqbal F, Binsalleeh H, Fung B C M, et al. Mining Writeprints from Anonymous E-mails for Forensic Investigation[J]. Digital Investigation, 2010, 7(1): 56-64.
[9] 黄承慧, 印鉴, 侯昉. 一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J]. 计算机学报, 2011, 34(5): 856-864.
[9] (Huang Chenghui, Yin Jian, Hou Fang.A Text Similarity Measurement Combining Word Semantic Information with TF-IDF Method[J]. Chinese Journal of Computers, 2011, 34(5): 856-864.)
[10] Schler J, Koppel M, Argamon S, et al.Effects of Age and Gender on Blogging [C]. In: Proceedings of the 2006 AAAI Spring Symposium. 2006.
[11] Schler J, Koppel M, Argamon S, et al. The Blog Authorship Corpus [DS/OL]. [2014-05-28]. .
[12] Ward G. Moby Words [DS/OL]. [2016-06-24]. .
[13] Manning C D, Surdeanu M, Bauer J, et al.The Stanford CoreNLP Natural Language Processing Toolkit [C]. In: Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations. 2014.
[14] Witten I H, Frank E, Hall M A.Data Mining [M]. Beijing: China Machine Press, 2012.
[15] 祁瑞华, 杨德礼, 郭旭,等. 基于多层面文体特征的博客作者身份识别研究[J]. 情报学报, 2015,34(6):628-634.
[15] (Qi Ruihua, Yang Deli, Guo Xu, et al.Blogger Identification Based on Multidimensional Stylistic Features[J]. Journal of the China Society for Scientific and Technical Information, 2015, 34(6): 628-634.)
[1] 李琳,李辉. 一种基于概念向量空间的文本相似度计算方法[J]. 数据分析与知识发现, 2018, 2(5): 48-58.
[2] 陈二静,姜恩波. 文本相似度计算方法研究综述[J]. 数据分析与知识发现, 2017, 1(6): 1-11.
[3] 白如江,冷伏海,廖君华. 一种基于语义组块特征的改进Cosine文本相似度计算方法*[J]. 数据分析与知识发现, 2017, 1(6): 56-64.
[4] 祁瑞华, 霍跃红, 郭旭, 刘彩虹. 典籍英译作者身份识别研究[J]. 现代图书情报技术, 2015, 31(1): 31-37.
[5] 杨志墨, 刘怀亮, 赵辉. 一种基于复杂网络的中文文本表示算法[J]. 现代图书情报技术, 2014, 30(11): 38-44.
[6] 马军红. 分阶段融合的文本语义相似度计算方法[J]. 现代图书情报技术, 2013, 29(10): 20-26.
[7] 刘建华, 张智雄, 谢靖, 邹益民. 基于规则的网络文本资源标题快速自动识别方法[J]. 现代图书情报技术, 2011, 27(6): 27-31.
[8] 王军辉, 胡铁军, 李丹亚. 相关文献检索研究综述[J]. 现代图书情报技术, 2011, 27(1): 39-45.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn