Please wait a minute...
Advanced Search
数据分析与知识发现
  本期目录 | 过刊浏览 | 高级检索 |
无监督引用文本自动识别与分析
金贤日,欧石燕
(南京大学信息管理学院 南京  210023)
The Unsupervised Identification and Analysis of Citation Texts
Kim Hyonil,Ou Shiyan
(School of Information Management, Nanjing University, Nanjing 210023, China)
全文: PDF (705 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的] 探索引用文本自动识别方法,并比较不同类型引用句在内容上的差别。

[方法] 提出了一种无监督引用文本识别方法,通过比较候选句与施引文献和被引文献的文本相似度来确定隐性引用句。为了精确计算文本相似度,提出了向量空间模型与词嵌入模型相结合的两种文档向量模型。

[结果] 分别对两篇高被引论文约200篇施引文献中的隐性引用句进行了识别,本文所提方法的F值均达到了92%以上。通过对显性引用句和隐性引用句的内容进行比较,发现两者在引用功能和情感上有明显区别:表达研究背景和技术基础的隐性引用句比例要高于显性引用句,而表达研究基础和研究比较的隐性引用句比例要低于显性引用句;45.3%的显性引用句为正面引用,而78.8%的隐性引用句为中性引用。

[局限] 本文目前只是对句子层面的引用文本识别进行了识别,在短语层面的引用文本识别还有待于进一步探索。

[结论] 在识别引用文本时有必要识别隐性引用句,本文提出的引用文本识别方法性能较高。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 引用文本识别隐性引用句引用内容分析     
Abstract

[Objective]This paper intends to explore the method for automatic identification of citation texts and compare the difference in the content of different types of citation sentences.

[Methods] This paper proposed an unsupervised method for identifiying citation texts, which determines implicit citation sentences by comparing the similarity of a candidate sentence wth a citing paper and that with a cited paper. To precisely calcuate text similarity, two document  vector models were propsoed by combining the vector space model and the word embedding model.

[Results] while identifying the implicit citation sentences of two higly-cited papers respectively from over 200 citing papers, the proposed unsupervised method obtained the F-value of above 92%. By comparing the content of the explicit and implicit citaiton senstences, it was found that there are significant difference in citation function and citaiton sentiment between the two types of citation sentences:the proportion of implicit citation sentences expressing research background and technical basis is higher than that of explicit citation sentences, while the proportion of implicit citation sentences expressing research basis and research comparison is lower than that of explicit citation sentence; 45.3% of explicit citation sentences were positive references while 78.8% of implicit citation sentences were neutral references.

[Limitations] This paper only identifies citation texts at sentence level. The clause-level and phrase-level identification should be explored further.  

[Conclusions] It is necessary to contain implicit citation sentences while identifying citaion texts. The proposed similarity-based method is effective.


Key words Citation Text Identification    Implicit Citation Sentence    Citation Context Analysis
     出版日期: 2020-09-02
ZTFLH:  TP393,G250  
引用本文:   
金贤日, 欧石燕. 无监督引用文本自动识别与分析 [J]. 数据分析与知识发现, 10.11925/infotech.2096-3467.2020.0548 .
Kim Hyonil, Ou Shiyan. The Unsupervised Identification and Analysis of Citation Texts . Data Analysis and Knowledge Discovery, 0, (): 1-.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2020.0548      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y0/V/I/1
[1] 祁瑞华, 简悦, 郭旭, 关菁华, 杨明昕. 融合特征与注意力的跨领域产品评论情感分析 [J]. 数据分析与知识发现, 0, (): 1-.
[2] 李娇, 黄永文, 罗婷婷, 赵瑞雪, 鲜国建. 基于多因子算法的自动分类研究 [J]. 数据分析与知识发现, 0, (): 1-.
[3] 彭郴, 吕学强, 孙宁, 张乐, 姜肇财, 宋黎. 基于CNN的消费品缺陷领域词典构建方法研究 [J]. 数据分析与知识发现, 0, (): 1-.
[4] 叶光辉, 徐彤, 毕崇武, 李心悦. 基于多维度特征与LDA模型的城市旅游画像演化分析 [J]. 数据分析与知识发现, 0, (): 1-.
[5] 韩康康, 徐建民, 张彬. 融合用户兴趣和多维信任度的微博推荐 [J]. 数据分析与知识发现, 0, (): 1-.
[6] 王根生, 潘方正. 融合加权异构信息网络的矩阵分解推荐算法 [J]. 数据分析与知识发现, 0, (): 1-.
[7] 林克柔, 王昊, 龚丽娟. 融合多特征的中文论文同名学者消歧研究 [J]. 数据分析与知识发现, 0, (): 1-.
[8] 刘浏, 秦天允, 王东波. 非物质文化遗产传统音乐术语自动抽取 [J]. 数据分析与知识发现, 0, (): 1-.
[9] 于丰畅, 程齐凯, 陆伟. 基于几何对象聚类的学术文献图表定位研究 [J]. 数据分析与知识发现, 0, (): 1-.
[10] 蒋翠清, 王香香, 王钊. 基于消费者关注度的汽车销量预测方法研究 [J]. 数据分析与知识发现, 0, (): 1-.
[11] 刘欢, 张智雄, 王宇飞. BERT模型的主要优化改进方法研究综述 [J]. 数据分析与知识发现, 0, (): 1-.
[12] 成彬, 施水才, 都云程, 肖诗斌. 基于融合词性的BiLSTM-CRF的期刊关键词抽取方法 [J]. 数据分析与知识发现, 0, (): 1-.
[13] 李明, 李莹, 周庆, 王君. 基于TF-PIDF的网络问答社区中的知识供需研究 [J]. 数据分析与知识发现, 0, (): 1-.
[14] 段建勇, 魏晓鹏, 王昊. 基于多角度共同匹配的多项选择机器阅读理解模型 [J]. 数据分析与知识发现, 0, (): 1-.
[15] 王红斌, 王健雄, 张亚飞, 杨恒. 主题不平衡新闻文本数据集的主题识别方法研究 [J]. 数据分析与知识发现, 0, (): 1-.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn