Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (1): 47-54     https://doi.org/10.11925/infotech.2096-3467.2017.01.06
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
引文元数据的自动发现和标注方法研究——以外文引文为例
姜霖1,2(), 王东波3
1南京大学信息管理学院 南京 210023
2江苏省数据工程与知识服务重点实验室 南京210023
3南京农业大学信息科学技术学院 南京 210095
Automatically Detecting and Tagging Foreign Language Citation Metadata
Jiang Lin1,2(), Wang Dongbo3
1School of Information Management, Nanjing University, Nanjing 210023, China
2Jiangsu Key Laboratory of Data Engineering and Knowledge Service, Nanjing 210023, China
3College of Information Science and Technology, Nanjing Agricultural University, Nanjing 210095, China
全文: PDF (1285 KB)   HTML ( 49
输出: BibTeX | EndNote (RIS)      
摘要 

目的】在总结当前引文元数据抽取方法的基础上, 结合语义学知识和机器学习方法, 对引文元数据的自动抽取方法进行探索。【方法】实验中采用神经网络模型对人工分割过的语料进行词向量训练。利用相同类型的元数据会相对集中地出现在向量空间中某一位置的现象, 通过支持向量机分类算法实现对元数据的自动归类和标注。【结果】在以外文引文数据作为测试集的实验中, 本文方法取得了较高的准确率和召回率, 特别是针对引文中含有多种语言和缩写的现象, 具有较好的处理能力。【局限】在对于引文元数据时间内容的细粒度抽取中存在一定的局限性。【结论】实验结果表明, 此方法在引文元数据的自动发现和标注上具有良好的效果, 并能很大程度地提高方法的适用性和容错率。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
姜霖
王东波
关键词 引文元数据元数据抽取机器学习神经网络    
Abstract

[Objective]This paper proposes a new method to automatically extract bibliographic metadata, with the help of semantic knowledge and machine learning technologies. [Methods] We used the neural network model to create word vectors from manually split data, and then found that same type of metadata is relatively concentrated at certain locations in the vector space. Thus, we proposed a new SVM classification algorithm to classify and annotate the bibliographic metadata automatically. [Results] The proposed method achieved high recall and precision rates with citation data, especially for citations with various languages and abbreviations. [Limitations] The fine-grained extraction of the time related content could be improved. [Conclusions] The proposed method could effectively detect and tag bibliographic metadata, and improve the system’s compatibility and fault tolerance ability.

Key wordsBibliographic Metadata    Metadata Extraction    Machine Learning    Neural Network
收稿日期: 2016-08-18      出版日期: 2017-02-22
ZTFLH:  G254  
引用本文:   
姜霖, 王东波. 引文元数据的自动发现和标注方法研究——以外文引文为例[J]. 数据分析与知识发现, 2017, 1(1): 47-54.
Jiang Lin,Wang Dongbo. Automatically Detecting and Tagging Foreign Language Citation Metadata. Data Analysis and Knowledge Discovery, 2017, 1(1): 47-54.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.01.06      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I1/47
  技术路线图
  5个词在两个向量空间中的位置
  训练集标注示例
分类标号 表示的分类
1 作者姓名
2 文献标题
3 期刊名或者书名
4 地点
5 出版商或者出版商
6 出版时间和页码
  训练集标注说明
  CBOW模型网络结构
  分类特征训练说明图
单元内容 离聚类1
的距离
离聚类2
的距离
离聚类3
的距离
离聚类4
的距离
离聚类5
的距离
离聚类6
的距离
切割单元
位置特征
Chatterjee 169.70 172.06 140.57 101.79 53.43 138.36 0.17
S* 57.93 55.77 86.09 124.75 174.15 89.56 0.33
Regression and
Analysis by Example
17.64 17.11 18.00 56.29 106.29 20.70 0.50
John Wiley & Sons Inc 110.96 113.44 81.81 43.00 13.34 80.03 0.67
2000 164.11 166.58 135.09 96.33 48.81 132.70 0.83
248 168.45 170.95 139.48 100.74 52.93 137.23 1.00
  SVM采集的特征数值样例
  实验结果展示
标记符号 表示含义
B Begin 出版社名称的开始
C Continue 连续, 名称未完结
E End 出版社名称的结束
SW Single Word单个词的出版社名称
N Not 非出版社名称词
  标注规则示意表
词性标注 识别序列标注
Ollman NNP N
, , N
Bertell NNP N
Left VBN N
Academy NNP N
- : N
Marxist JJ N
Scholarship NN N
on IN N
American JJ N
Campuses NNS N
. . N
McGraw NNP B
- : C
Hill NNP C
Book NN C
Company NN E
, , N
1982 CD N
  CRF训练集的标注形式
  对比实验结果参数图
[1] 蒋新. 英美学术文献的几种主要引文方式[J]. 图书与情报, 2003(3): 26-30.
[1] (Jiang Xin.Several Main Quotation Ways in British-American Academic Documents[J]. Library and Information, 2003(3): 26-30.)
[2] Wei W, King I, Lee J H M. Bibliographic Attributes Extraction with Layer-upon-Layer Tagging[C]//Proceedings of the 9th International Conference on Document Analysis and Recognition. IEEE, 2007, 2: 804-808.
[3] Besagni D, Belaïd A, Benet N.A Segmentation Method for Bibliographic References by Contextual Tagging of Fields[C]//Proceedings of the 7th International Conference on Document Analysis and Recognition. IEEE, 2003: 384-388.
[4] 李朝光, 张铭, 邓志鸿, 等. 论文元数据信息的自动抽取[J]. 计算机工程与应用, 2002, 38(21): 189-191, 235.
[4] (Li Chaoguang, Zhang Ming, Deng Zhihong, et al.Automatic Metadata Extraction for Scientific Documents[J]. Computer Engineering and Applications, 2002, 38(21): 189-191, 235.)
[5] Day M Y, Tsai R T H, Sung C L, et al. Reference Metadata Extraction Using a Hierarchical Knowledge Representation Framework[J]. Decision Support Systems, 2007, 43(1): 152-167.
doi: 10.1016/j.dss.2006.08.006
[6] Cortez E, da Silva A S, Gonçalves M A, et al. FLUX-CIM: Flexible Unsupervised Extraction of Citation Metadata[C]//Proceedings of the 7th ACM/IEEE Joint Conference on Digital Libraries. ACM, 2007: 215-224.
[7] Huang I A, Ho J M, Kao H Y, et al.Extracting Citation Metadata from Online Publication Lists Using BLAST[C]// Proceedings of the 8th Pacific-Asia Conference, PAKDD 2004. Springer Berlin Heidelberg, 2004: 539-548.
[8] Chen C C, Yang K H, Kao H Y, et al.BibPro: A Citation Parser Based on Sequence Alignment Techniques[C]// Proceedings of the 22nd International Conference on Advanced Information Networking and Applications- Workshops (AINAW 2008). IEEE, 2008: 1175-1180.
[9] Han H, Giles C L, Manavoglu E, et al.Automatic Document Metadata Extraction Using Support Vector Machines[C]// Proceedings of the 2003 Joint Conference on Digital Libraries. IEEE, 2003: 37-48.
[10] Peng F, McCallum A. Accurate Information Extraction from Research Papers Using Conditional Random Fields[C] // Proceedings of the Human Language Technology Conference of the North American Chapter of the Association-for- Computational-Linguistics. 2004:329-336.
[11] Yu J, Fan X.Metadata Extraction from Chinese Research Papers Based on Conditional Random Fields[C]//Proceedings of the 4th International Conference on Fuzzy Systems and Knowledge Discovery. IEEE, 2007, 1: 497-501.
[12] Mikolov T, Le Q V, Sutskever I. Exploiting Similarities Among Languages for Machine Translation [OL]. arXiv Preprint.arXiv:1309.4168, 2013.
[13] Mikolov T. Word2Vec Code [EB/OL]. [2015-09-18]. .
[14] 周练. Word2Vec 的工作原理及应用探究[J]. 科技情报开发与经济, 2015 (2): 145-148.
doi: 10.3969/j.issn.1005-6033.2015.02.061
[14] (Zhou Lian.Exploration of the Working Principle and Application of Word2Vec[J]. Sci-Tech Information Development & Economy, 2015 (2): 145-148.)
doi: 10.3969/j.issn.1005-6033.2015.02.061
[15] Stitson M O, Weston J A E, et al. Theory of Support Vector Machines [R]. Technical Report, CSD-TR-96-17, London: University of London, 1996.
[16] Lafferty J, McCallum A, Pereira F C N. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data [EB/OL]. [2016-07-15]. .
[1] 王寒雪,崔文娟,周园春,杜一. 基于机器学习的食源性疾病致病菌识别方法*[J]. 数据分析与知识发现, 2021, 5(9): 54-62.
[2] 范少萍,赵雨宣,安新颖,吴清强. 基于卷积神经网络的医学实体关系分类模型研究*[J]. 数据分析与知识发现, 2021, 5(9): 75-84.
[3] 陈东华,赵红梅,尚小溥,张润彤. 数据驱动的大型医院手术室运营预测与优化方法研究*[J]. 数据分析与知识发现, 2021, 5(9): 115-128.
[4] 车宏鑫,王桐,王伟. 前列腺癌预测模型对比研究*[J]. 数据分析与知识发现, 2021, 5(9): 107-114.
[5] 范涛,王昊,吴鹏. 基于图卷积神经网络和依存句法分析的网民负面情感分析研究*[J]. 数据分析与知识发现, 2021, 5(9): 97-106.
[6] 苏强, 侯校理, 邹妮. 基于机器学习组合优化方法的术后感染预测模型研究*[J]. 数据分析与知识发现, 2021, 5(8): 65-75.
[7] 顾耀文, 张博文, 郑思, 杨丰春, 李姣. 基于图注意力网络的药物ADMET分类预测模型构建方法*[J]. 数据分析与知识发现, 2021, 5(8): 76-85.
[8] 张乐, 冷基栋, 吕学强, 崔卓, 王磊, 游新冬. RLCPAR:一种基于强化学习的中文专利摘要改写模型*[J]. 数据分析与知识发现, 2021, 5(7): 59-69.
[9] 曹睿,廖彬,李敏,孙瑞娜. 基于XGBoost的在线短租市场价格预测及特征分析模型*[J]. 数据分析与知识发现, 2021, 5(6): 51-65.
[10] 钟佳娃,刘巍,王思丽,杨恒. 文本情感分析方法及应用综述*[J]. 数据分析与知识发现, 2021, 5(6): 1-13.
[11] 韩普,张展鹏,张明淘,顾亮. 基于多特征融合的中文疾病名称归一化研究*[J]. 数据分析与知识发现, 2021, 5(5): 83-94.
[12] 孟镇,王昊,虞为,邓三鸿,张宝隆. 基于特征融合的声乐分类研究*[J]. 数据分析与知识发现, 2021, 5(5): 59-70.
[13] 王楠,李海荣,谭舒孺. 基于改进SMOTE算法与集成学习的舆情反转预测研究*[J]. 数据分析与知识发现, 2021, 5(4): 37-48.
[14] 向卓元,刘志聪,吴玉. 基于用户行为自适应推荐模型研究 *[J]. 数据分析与知识发现, 2021, 5(4): 103-114.
[15] 李丹阳, 甘明鑫. 基于多源信息融合的音乐推荐方法 *[J]. 数据分析与知识发现, 2021, 5(2): 94-105.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn